Introduction
Google a récemment présenté son nouveau modèle IA d'anything-to-anything, appelé Omni. Ce modèle est capable de générer des vidéos à partir de texte, de photos ou de vidéos. Dans cet article, nous allons explorer les capacités d'Omni et ses limites.
Contexte Technique
Omni est une famille de modèles génératifs qui peuvent prendre en entrée différents types de données, tels que des photos, des vidéos ou du texte, et les transformer en tout autre type de données. Le premier modèle de cette famille, appelé Omni Flash, est désormais disponible sur la plateforme de génération et d'édition de vidéos IA de Google, Flow.
Omni Flash permet aux utilisateurs de télécharger une vidéo et de l'utiliser en combinaison avec un texte pour générer de nouvelles vidéos. Le modèle intègre également des connaissances du monde réel pour améliorer la cohérence des personnages dans les vidéos générées.
Analyse et Implications
Nos tests d'Omni ont montré des résultats mitigés. Certains clips générés étaient très convaincants, mais d'autres présentaient des défauts tels que des changements d'orientation soudains ou des objets qui changeaient d'apparence au cours de la vidéo.
Les capacités d'édition de texte d'Omni sont également améliorées par rapport au modèle précédent, Veo. Cependant, les résultats ne sont pas toujours cohérents et peuvent nécessiter plusieurs itérations pour obtenir le résultat désiré.
La génération de vidéos avec Omni n'est pas gratuite et nécessite des crédits, qui varient en fonction de la longueur de la scène et des éléments utilisés. Les utilisateurs doivent donc être prudents dans leur utilisation de ces crédits pour éviter les coûts excessifs.
Perspective
Omni est un modèle IA puissant qui peut générer des vidéos convaincantes à partir de texte ou de vidéos. Cependant, ses limites et ses coûts doivent être pris en compte lors de son utilisation. Alors que nous sommes loin de l'intelligence artificielle parfaite, Omni nous montre que nous sommes déjà profondément dans la vallée de l'incertitude, où la frontière entre le réel et le faux devient de plus en plus floue.