On a recréé le premier film de l'histoire avec l'IA… et c'est pas terrible

On a recréé le premier film de l'histoire avec l'IA… et c'est pas terrible Dans le cadre d'un test des performances des modèles de génération vidéo par IA, nous avons tenté de reproduire "L'Arroseur arrosé", le premier film de fiction de l'histoire.

Est-il d'ores et déjà possible de reproduire avec l'intelligence artificielle la première fiction filmée de l'histoire, le célèbre "L'arroseur arrosé" de Louis Lumière, et ainsi démontrer qu'une nouvelle ère cinématographique débute ? Titillé par la question, le JDN s'est attelé à la tâche et n'a pas lésiné sur les efforts, puisque ont été testés tour-à-tour Sora d'OpenAI, Gen-4 de Runway, Veo-2 de Google et Kling de Kuaishou !

Un film de 45 secondes en 4 séquences

Réalisé par Louis Lumière et dévoilé en 1895, "L'Arroseur arrosé" est un film comique d'environ 45 secondes.

Pour tenter de reproduire le film, nous l'avons découpé en 4 séquences principales :

  1. Le jardinier arrose son jardin.
  2. Le garçon coupe l'eau en mettant son pied sur le tuyau, ce qui oblige le jardinier à regarder le tuyau en le pointant vers son visage.
  3. Le garçon enlève alors son pied du tuyau, l'eau revient en force et arrose le visage du jardinier.
  4. Le jardinier essaie d'attraper le garçon pour lui infliger une correction.

Nous tentons d'abord une approche classique : utiliser un modèle text-to-video pour produire chaque séquence de façon individuelle. Pour ce faire, nous utilisons le storyboard de Sora (OpenAI) qui permet justement de générer une vidéo à partir de plusieurs séquences distinctes décrites en langage naturel. Le résultat est vraiment hors contexte et ne représente en rien la vidéo attendue.

"Sora - Test 1"

Nous changeons donc notre fusil d'épaule et utilisons les capacités image-to-video de Sora, avec pour but de donner au modèle une base de travail visuelle pour des résultats plus cohérents. Nous utilisons GPT-4o (OpenAI) pour générer une image photoréaliste (figée donc) de chaque scène. Les résultats sont, là aussi, incohérents. Le modèle ne parvient par exemple pas à générer le garçon avec un pied sur le tuyau. Nous prenons alors le parti de capturer des images du film original (oui, c'est un peu de la triche). Capture que nous demanderons ensuite à Gemini Flash 2.0 Exp (Google) de coloriser. Gemini s'exécute parfaitement et nous propose de belles images fidèles à ce qu'une véritable capture en couleur aurait pu produire.

© Capture d'écran / JDN

Nouvel essai avec Sora, puis Runway

Une fois les quatre images des quatre séquences colorisées, nous les ajoutons au storyboard de Sora pour générer une nouvelle fois la vidéo. Le style final est déjà plus proche du film original mais aucune des séquences demandées n'est correctement retranscrite dans la vidéo finale. Déception.

"Sora - Test 2"

Nous persévérons. Exit Sora d'OpenAI, place à Gen-4 de Runway, un modèle image-to-video. Nous recommençons le processus en essayant de générer 4 séquences grâce à nos 4 images en point de départ de chacune des séquences. Le résultat est légèrement plus pertinent (et il faut le dire vite) mais encore largement en deçà de nos attentes, comme l'illustre la 2e séquence quand le garçon est censé marcher sur le tuyau :

"Runway"

Pour notre troisième tentative, nous changeons de nouveau d'IA, en misant sur  Veo2, le dernier modèle de génération vidéo de Google DeepMind. Rebelote, nous soumettons nos 4 images en poitn de départ, et décrivons chacune des séquences. Surprise, Veo2 parvient à générer assez fidèlement les séquences ! Le résultat final est certes loin d'être parfait mais la cohérence spatio-temporelle est crédible. Le principal problème concerne avant tout la cohérence globale des deux sujets présents à l'écran : le visage et les différentes tenues changent au fil des séquences…  

"Veo-2"


Entêté et pas encore désespérés, nous tentons une approche radicalement différente… et un quatrième modèle. D'abord, nous deamandons à GPT-4o de retravailler les images générées par Gemini pour les rendre plus lisses et détaillées. Ensuite, nous faisons rédiger par GPT-4o la description de chacune des 4 séquences. Enfin,  cette fois, nous soumettons images et descriptions au modèle Kling 2.6 du chinois Kuaishou.

Prompt pour obtenir la description des séquences par GPT-4o :

Agissez comme un expert en prompting spécialisé dans l'optimisation des requêtes pour les modèles text-to-video. Votre mission est de transformer la description en langage naturel que je vous fournirai en un prompt parfaitement structuré et hautement efficace pour le modèle text-to-video de Kling AI, en anglais exclusivement. Analysez d'abord méticuleusement l'image de référence que je partagerai, en identifiant les éléments visuels clés, la composition, l'éclairage, l'ambiance, la perspective, les mouvements potentiels et tout détail visuel significatif. Intégrez ensuite ces observations visuelles dans votre formulation du prompt, en utilisant un vocabulaire précis et évocateur qui permettra au modèle de générer une vidéo fidèle à l'intention originale. Structurez votre prompt en commençant par les éléments centraux de la scène, puis en détaillant l'environnement, l'atmosphère, et enfin les aspects techniques souhaitables (cadrage, style visuel, effets spéciaux). Incluez des modifieurs de style pertinents et des indications temporelles si nécessaire. Votre prompt final doit être concis mais complet, d'une longueur optimale de 75 à 125 mots, construit en phrases déclaratives directes, sans utiliser de formulations négatives qui pourraient confondre l'algorithme. Présentez votre résultat final sous forme d'un texte entre guillemets, prêt à être copié et utilisé directement avec Kling AI.

Alors, verdict ? Le résultat est plus esthétique mais le scénario est moins bien respecté. De même l'ensemble de la scène change sur chaque séquence, tout comme le style des personnages principaux. Le résultat est différent, plus photoréaliste mais avec de nombreux artefacts qui limitent encore la crédibilité globale.

"Kling"

Après un petit paquet d'heures consacrées à l'ouvrage et quelques triturations de méninges, nous tenons notre réponse : non, il n'est pas possible pour l'heure d'utiliser les IA grand publique pour réaliser des films, y compris le tout premier d'entre eux. Mais l'IA vidéo, aussi, n'en est qu'à ses débuts…

"Kling"