Comment faire de la vidéo avec une intelligence artificielle

Par David-Julien Rahmil - Le 13 avril 2023

Accueil > Médias mutants > Comment faire de la vidéo avec une intelligence artificielle

Après avoir révolutionné la manière de créer de l’image et du texte, l’IA est en train de s’attaquer à la vidéo. Petit tour d’horizon des outils et des possibilités.

Un Will Smith absurde qui mange des spaghettis, une femme qui se transforme en robot au gré de la danse, deux personnages animés qui s’affrontent dans un combat de chifoumi. Depuis quelques mois, des œuvres vidéos générées par IA étranges et hypnotiques envahissent le Web. Cependant, elles ne viennent pas d'IA made by Meta ou Google, qui n’ont donné pour le moment que des démonstrations fermées, mais d'outils open source mis à disposition des internautes. Petit tour d’horizon des différentes méthodes de génération.

L’avènement des vidéos générées par des prompts

Le 28 mars dernier, le compte Twitter Magus Wazir sortait une vidéo extrêmement dérangeante montrant un Will Smith synthétique et déformé en train de dévorer des spaghettis. Ce résultat absurde, mais techniquement incroyable a été généré par ModelScope Texte2Video. Développé par une équipe de chercheurs qui collabore au projet Hugging Face (une startup qui partage des outils d’IA), ce mode permet de générer de la vidéo directement depuis un prompt. Le résultat est encore très « brut de décoffrage » avec des mouvements irréalistes et une tendance à afficher des logos fantômes comme ce fameux Shutterstock qui barre la vidéo de Will Smith.

"Will Smith eating spaghetti" generated by Modelscope text2video

credit: u/chaindrop from r/StableDiffusion pic.twitter.com/ER3hZC0lJN
— Magus Wazir (@MagusWazir) March 28, 2023

Il est possible de tester l’outil dans une version très simplifiée, mais il faut dire que pour le moment les résultats sont très limités, à moins que vous n’aimiez produire que des œuvres cauchemardesques et surréalistes.

Des images qui bougent

Disponible depuis le milieu de l’année 2022, cette méthode qui porte le nom d’Image2Video est l’une des premières à avoir permis la création de vidéo par IA. Elle consiste à générer une multitude d’images et les lier ensemble dans une sorte de morphing. Pour cela l’outil Deforum, un plug-in qui s’ajoute à Stable Diffusion, est l’une des références. Il permet d’écrire plusieurs prompts d’affilée et de leur attribuer un certain nombre de frames ou d’images. Par défaut, Deforum génère 120 frames par secondes. Vous pouvez donc générer en l’espace de quelques instants une vidéo où les images, constamment mouvantes, changent au fur et à mesure du temps. Cela donne des résultats plutôt psychédéliques avec une esthétique très marquée « IA ».

La rotoscopie 2.0

Vous vous souvenez de ces vieux dessins animés ou l’animation semblait un peu trop calquée sur de vrais mouvements humains. Cette vieille méthode qu’on appelle la rotoscopie et qui consistait à dessiner des personnages par-dessus des extraits vidéos de véritables acteurs semble connaître une deuxième vie avec les modèles video2video. Le principe paraît simple en apparence. Prenez une vidéo déjà existante, passez-la à la moulinette du modèle Stable Diffusion customisé Stable WarpFusion et laissez la magie de vos prompts opérer. En réalité, la technique est un peu plus complexe comme le précise le réalisateur et artiste remi_molettee.

First collab with @DylanMayoral_
I tried to make this animation with #stablediffusion but couldn't get anything smooth, Dylan had taken a lot of vitamin that day. So I remembered that in the prehistoric past we used #discodiffusion, nostalgia. #AIart pic.twitter.com/Q5s3lRI0LQ
— Remi (@remi_molettee) October 20, 2022

« Écrire un prompt pour une vidéo de ce genre est assez compliqué et demande plusieurs essais, explique-t-il. Il faut pouvoir créer une analogie entre la vidéo de départ et le résultat que tu veux obtenir. Il faut décrire le décor, mais aussi le personnage qui va venir se mettre en surimpression. Il faut aussi utiliser ControlNet, un autre plug-in qui va créer un squelette sur les corps des personnages pour que l’image générée par IA suive parfaitement les mouvements ». Ça, c’est pour la partie technique. WarpFusion permet aussi de jouer sur la « force » de l’IA. Plus le curseur est haut, plus les images générées vont prendre la place de la vidéo d’origine et plus les mouvements subtils où la cohérence du modèle risque de se perdre. « Il faut vraiment trouver le juste milieu, explique Rémi. Si l’on ne donne pas assez de force, on voit trop la vidéo. Si on en donne trop, l’IA commence à faire du flickering, c’est-à-dire qu’elle va générer des images trop différentes d’une frame à l’autre et donner une impression de clignotement hallucinatoire. » Pour beaucoup d’artistes, l’enjeu du moment est donc de créer des outils qui permettent d’éliminer ce flickering et d’obtenir l’image la plus stable possible. C’est exactement ce qu’a réussi à faire la chaîne Corridor consacrée aux effets spéciaux avec leur vidéo pierre-papier-ciseaux.