Génération de vidéo : Veo de Google arrive dans Vertex AI
La bataille des modèles de génération vidéo par IA s'intensifie. Google lance Veo, son alternative à Sora d'OpenAI, en private preview dans Vertex AI. Veo, dévoilé initialement lors de Google I/O, se distingue par sa capacité à générer des vidéos en 1080p dépassant la minute, avec 24 ou 30 images par seconde. Le modèle excelle particulièrement dans deux domaines : la génération de vidéos à partir de texte (text-to-video) et la transformation d'images en vidéos (image-to-video). Cette dernière fonctionnalité fait de Google Cloud le premier hyperscaler à proposer cette capacité à une sélection de clients.
Le modèle serait capable de maintenir une cohérence visuelle tout au long des séquences générées. Les personnages, objets et styles restent stables d'une image à l'autre, évitant les artefacts visuels qui peuvent perturber l'expérience de visionnage. Une prouesse rendue possible par l'utilisation d'une architecture "transformers à diffusion latente" selon Google.
L'annonce intervient dans un contexte stratégique particulier : pendant la conférence AWS Re:Invent où Amazon présente ses innovations en IA générative, et peu après l'apparition temporaire de Sora d'OpenAI sur Hugging Face. Un timing qui permet à Google de réaffirmer sa position dans la course à l'IA générative vidéo.
Le géant de Mountain View a, par ailleurs, partagé de nouvelles vidéos crées avec Veo. Les exemples présentés sont variés et techniquement impressionnants : un ours jouant de la guitare, une foule en liesse lors d'un concert électro, ou encore un voilier bravant une mer déchaînée. La prouesse technique réside dans la stabilité des séquences générées.
Le modèle maîtrise également les effets cinématographiques complexes comme les time-lapses et les mouvements de caméra, suggérant un potentiel d'utilisation dans un cadre professionnel.
La qualité des vidéos générées à partir d'une simple image est également assez impressionnante.
Comme Sora, Veo reste pour l'instant inaccessible au grand public tout comme au JDN, qui n'a donc pas encore pu le tester. Sans possibilité de test direct, il est impossible d'évaluer ses véritables capacités ou ses limites potentielles.