LATEST
Συνομιλητική επεξεργασία βίντεο με το Gemini Omni
Η επεξεργασία βίντεο αλλάζει χαρακτήρα. Με το Gemini Omni, η Google προτείνει ένα generative AI μοντέλο που επιτρέπει στον χρήστη να επεξεργάζεται βίντεο μέσω φυσικού διαλόγου, δίνοντας εντολές με απλά λόγια. Η πρώτη έκδοση, Gemini Omni Flash, είναι ήδη διαθέσιμη στην εφαρμογή Gemini, στο Google Flow και στα YouTube Shorts. Το σύστημα δέχεται συνδυαστικά κείμενο, εικόνα, ήχο και υπάρχον βίντεο ως είσοδο, παράγοντας αποτελέσματα που διατηρούν τη συνοχή τους σε κάθε επόμενο βήμα επεξεργασίας.
Αυτό είναι και το κεντρικό στοίχημα του Omni: η συνέχεια. Ο χρήστης μπορεί να αλλάξει το περιβάλλον, τη γωνία κάμερας, το ύφος ή συγκεκριμένα αντικείμενα μέσω διαδοχικών εντολών, χωρίς να διαταράσσεται η συνοχή της σκηνής. Κάθε εντολή χτίζει πάνω στην προηγούμενη.
Στα δείγματα που έχουν δημοσιευτεί, το σύστημα μετατρέπει πραγματικά πλάνα σε τρισδιάστατη pixel-τέχνη, ολογραφικά περιβάλλοντα ή stop-motion επεξηγηματικά βίντεο, ενώ υποστηρίζει μεταφορά κίνησης από σκίτσα ή εικόνες σε ρεαλιστικό βίντεο. Ξεχωρίζει επίσης η δυνατότητα οπτικοποίησης πολύπλοκων επιστημονικών εννοιών, όπως η αναδίπλωση πρωτεϊνών ή η λειτουργία του ιππόκαμπου, μέσω επεξηγηματικών βίντεο που το σύστημα δημιουργεί κατανοώντας την έννοια, όχι απλώς αναπαράγοντας εικόνες.
Ο Τεχνικός Διευθυντής της Google DeepMind, Koray Kavukcuoglu, περιγράφει το Omni ως το σημείο όπου «η ικανότητα συλλογιστικής του Gemini συναντά την ικανότητα δημιουργίας». Η διατύπωση αυτή αποτυπώνει μια ουσιαστική μετατόπιση: η παραγωγή βίντεο με τεχνητή νοημοσύνη δεν αντιμετωπίζεται πλέον ως εργαλείο εφέ, αλλά ως σύστημα αφηγηματικής παραγωγής.
Για τους προγραμματιστές και τις επιχειρήσεις, η πρόσβαση μέσω διεπαφής προγραμματισμού (API) αναμένεται τις επόμενες εβδομάδες.






