Kling AI 2.0 Master : l'IA vidéo de Kuaishou tient-elle ses promesses ?

Kling AI 2.0 Master : l'IA vidéo de Kuaishou tient-elle ses promesses ? Kuaishou dévoile Kling 2.0, un nouveau modèle de génération vidéo promettant - sur le papier - un réalisme sans précédent.

Selon son créateur, sa mission première est de permettre à chacun de raconter de "belles histoires" grâce à l'IA. Kuaishou, le principal rival de ByteDance en Chine, a présenté un nouveau modèle de génération vidéo de pointe le 15 avril dernier. L'équipe Kling, en charge des modèles d'IA générative du groupe, affirme que Kling AI 2.0 Master répond aux problématiques les plus courantes des développeurs souhaitant utiliser l'IA générative pour la génération de vidéo : le manque d'adhérence au prompt et plus généralement de réalisme.

Kling AI 2.0 Master promet un véritable réalisme

C'est la principale nouveauté de Kling AI 2.0 Master. L'IA de Kuaishou offrirait selon ses créateurs l'une des meilleures adhérences au prompt du marché. Concrètement, le modèle serait capable de respecter très fidèlement (en mode text-to-video) les instructions initiales, qu'il s'agisse d'expressions, de mouvements de caméra ou d'actions séquentielles. Kling affirme également que son modèle offre des mouvements de sujets humains plus fluides et naturels à l'écran. Enfin, l'IA produirait également des détails plus riches et une photographie globalement de meilleure qualité. Sur la partie image-to-video, Kling AI 2.0 Master serait également plus performant que Veo 2 ou Runway V4. Le style global de l'image source serait reproduit plus fidèlement.

D'un point de vue technique, Kling AI introduit un nouveau concept appelé langage visuel multimodal (MVL), qui permet d'intégrer plus qu'un simple texte lors de la génération vidéo. Désormais, les utilisateurs peuvent combiner des instructions textuelles avec des références d'images, des clips vidéo, et même des indications sur les mouvements de caméra. Le modèle intègre une chaîne de réflexion multimodale qui analyse simultanément les différents inputs (texte, image, référence de style) pour générer une vidéo avec une adhérence sémantique maximale.

Comment bien prompter Kling ?

Pour prompter son modèle, Kling recommande une structure précise. D'abord le sujet principal, ensuite les mouvements puis la description générale de la scène et enfin les éventuelles précisions cinématographiques (lumière, atmosphère, focale…). L'entreprise conseille d'être à la fois descriptif et concis, en fournissant suffisamment de détails pour guider l'IA sans la noyer sous une masse d'informations. Par exemple, au lieu de simplement écrire "un chat dans un jardin", privilégiez "un chat persan aux yeux bleus, assis élégamment sur un banc de pierre, dans un jardin anglais verdoyant avec des roses trémières en arrière-plan, éclairé par une lumière de fin d'après-midi douce et diffuse".

Pour prompter avec une image de référence, Kling recommande de commencer par le sujet, les mouvements et enfin la description de l'arrière-plan. Les éléments les plus importants étant le sujet et les mouvements. Kling rappelle que le plus important est d'identifier clairement le sujet à animer pour que le modèle comprenne quel élément il doit animer en priorité. De manière générale, le groupe recommande de prioriser le modèle image-to-vidéo pour obtenir des résultats plus cohérents et réalistes.

© Capture d'écran / JDN

Kling : le test du JDN

Pour évaluer les capacités générales de Kling AI 2.0, nous testons le modèle en mode text-to-video et en mode image-to-video avec des prompts légèrement complexes et des sujets humains dans les deux cas.

Pour le premier test nous demandons à l'IA de générer les quatre cavaliers de l'apocalypse dans un décors lunaire.

Prompt :

"The Four Horsemen of the Apocalypse, silhouetted against the stark lunar landscape, gallop across the cratered surface of the moon. Their ethereal steeds kick up swirls of moon dust that hang suspended in the low gravity, creating haunting trails behind each rider. The barren, desolate moonscape stretches endlessly beneath a pitch-black sky filled with distant stars and the looming blue Earth. Shot in cinematic 4K with a 24mm wide-angle lens at f/8, featuring dramatic high-contrast lighting with sharp shadows, cold blue undertones, and an otherworldly atmospheric haze."

Le résultat est globalement décevant. Le modèle ne comprend notre prompt qu'à moitié : seuls deux des quatre cavaliers sont générés. Si la poussière au passage des chevaux est bien reproduite, la scène n'est globalement pas réaliste. De même, la lune est représentée dans le ciel. Un manque possible de données vidéo sur l'environnement lunaire dans le dataset d'entraînement peut expliquer en partie ce dernier problème.


Pour le second test, nous demandons à Kling 2.0 de générer la vidéo d'un hélicoptère en train d'atterrir sur une porte avion au beau milieu de l'océan.

Prompt :

"Military helicopter hovering and descending onto an aircraft carrier deck, blades whipping against dense fog, massive waves crashing against the naval vessel's hull, storm-tossed ocean stretching to the horizon, dramatic low-angle perspective, cinematic lighting with high contrast shadows, moody atmosphere with desaturated blue-gray color palette, shot with anamorphic lens, 4K ultra-high definition."

Le résultat est ici beaucoup plus cohérent de façon globale. L'hélicoptère est fidèlement reproduit et l'aspect général de la scène bien respecté. Toutefois, le mouvement général de l'hélicoptère ne respecte pas notre demande. Ce dernier semble prendre de l'altitude au-dessus du bateau quand nous demandons un atterrissage progressif dans le prompt initial.

Pour notre troisième test, nous donnons à l'IA l'image d'un chat sur un table de salon avec deux verres d'eau (générée avec GPT-4o). Nous demandons au modèle, dans un prompt très simple, de générer une vidéo du chat renversant le verre d'eau de gauche avec sa patte. L'eau doit ensuite couler sur la table.
Prompt :

"The cat in the center of the table knocks over the water glass on the left. The water then spills onto the table."

Déception encore, Kling semble ignorer notre instruction principale. Dans la vidéo générée, le chat ne renverse pas le verre d'eau mais crache de l'eau ! La scène est globalement réaliste mais ne correspond pas à nos attentes initiales. 

Enfin pour notre quatrième et dernier test, nous soumettons à Kling 2.0 l'image d'Albert Einstein rencontrant Steve Jobs (fictive). Le but étant que les deux hommes se saluent en se serrant la main. Kling y parviendra-t-il ?

prompt :

"Albert Einstein and Steve Jobs shaking hands firmly in a historical meeting. Dignified expressions on both faces as they share a moment of connection. Background features a subtle academic setting with bookshelves and scientific instruments slightly blurred."

Kling parvient enfin à identifier clairement notre demande. La vidéo générée est entièrement conforme à notre demande initiale. Le tout est globalement assez crédible. Il semble donc que l'IA soit plus à même d'identifier des mouvements d'un sujet quand ce dernier est assez populaire et représenté dans la culture générale (et donc certainement dans son dataset).

Sur le papier, Kling AI 2.0 apparaît comme un modèle prometteur mais encore perfectible dans la théorie. Contrairement à Veo ou Sora d'OpenAI, il nécessite des compétences de prompting particulièrement avancées et une approche itérative. Nos tests démontrent que les résultats varient significativement selon la complexité et la précision du prompt, et que la première tentative ne donne pas toujours satisfaction. Il est toutefois bon de rappeler que les résultats observés aujourd'hui ne sont que la version la plus primitive de ce que nous verrons demain. Le marché de la génération vidéo par IA est encore jeune (quelques mois seulement).