Mashup improbable des personnages de la saga Harry Potter habillés en Balanciaga ou court métrage de science-fiction à l’atmosphère dérangeante : les vidéos générées par IA explosent – en nombre comme en variété.

Il y a un an, L’ADN vous parlait des premières expérimentations de vidéos générées par intelligence artificielle. La majeure partie de la production était composée de petits clips flous montrant péniblement des mouvements d’objets ou de personnages qui n'arrivaient pas à raconter une histoire. Depuis, les choses ont changé, notamment avec l’arrivée de technologies comme celles de Pika Lab ou de Gen-2 qui ont permis de créer de véritables courts métrages. Petite cartographie de ce s’avère être un sous-genre cinématographique en plein essor.

Les films « text to video »

C’est sans doute le style qui a le plus évolué en l’espace d’un an. Après les démonstrations techniques de Google et Facebook qui permettaient de créer un clip flou d’une quinzaine de secondes, des logiciels comme Pika Studio et Runaway permettent de générer des séquences vidéo hyperréalistes simulant des environnements, des personnages, mais aussi des mouvements de caméra à partir d’un prompt. La plupart du temps, cette technique est utilisée avec d’autres pour créer un film entier. Dans cette catégorie, un créateur se détache du lot. Il s’agit d’Aze Avora, un Canadien qui crée depuis quelques mois des courts métrages très originaux comme son rétrofuturiste Capitol of conformity.

L’avantage de ce type de film est qu’il peut produire une simulation de mouvements très cinématographiques tout en étant accompagné de glitchs (des aberrations visuelles) qui lui donnent une pâte étrange parfois très inquiétante. On imagine que les ingénieurs derrière ces technologies travaillent d'arrache-pied pour produire des vidéos plus propres. Ce serait dommage. Ce look très « IA » donne un charme particulier à ces productions.

Les films « image to video »

Il s’agit du style le plus populaire du moment, sans doute parce qu’il est relativement facile à générer. Contrairement au text to vidéo, l’image to vidéo consiste à donner vie à une image elle-même générée par intelligence artificielle. L’avantage de cette méthode est de produire des vidéos plus nettes et sans glitch. L’inconvénient, c’est l’aspect très statique de ces vidéos qui ne montrent que de petits mouvements de têtes, de regards ou de lèvres.

Parmi les exemples les plus parlants, vous avez sans doute vu ces vidéos montrant des personnages de la pop culture mis en scène dans des défilés Balenciaga. Elles sont l’œuvre du youtubeur demonflyngfox qui a généré les images via Midjourney, pour ensuite les animer via le site D-ID avant d’ajouter la musique et les voix, elle aussi généré par des IA text to speech.

La même technique a été utilisée pour générer des versions alternatives de films comme cette version de Star Wars mis en scène par Wes Anderson.

Les films « inpainting » ou « video to video »

C’est la troisième technique de génération de vidéos par IA, celle qui donne les résultats les plus propres en termes de rendu, mais qui sont une forme de « tricherie ». En effet l’inpainting consiste à transformer des vidéos déjà existantes en y superposant une animation générée par IA. L’effet s’approche de la rotoscopie, une technique qui consiste à dessiner des personnages animés sur de vrais acteurs pour capter des mouvements plus réalistes.

Dans les faits, cette technique permet de modifier des séquences déjà existantes pour leur donner une touche différente et parfois plus inquiétante. C’est notamment le cas avec cette séquence culte issue de la série Les Simpson, remaniée avec de l’IA pour donner un aspect surréaliste incroyable.