Derrière la performance d'Ardisson, les studios Mac Guff. Son cofondateur raconte comment le deep fake bouleverse le job de créateur d'image : « Les métiers sont en train de s’inventer. C’est un nouvel eldorado, une jungle. »
Et si on faisait revivre les défunts grâce à l’intelligence artificielle… pour les interviewer ? C’est le pari incroyable qu’a relevé le 2 mai dernier pendant une heure et demie Thierry Ardisson avec son émission « Hôtel du Temps » en « ressuscitant » un monstre sacré de la chanson française, Dalida. Pour rendre la chose possible, l’animateur s’est offert les services de mastodontes de la recherche française, l’IRCAM pour la voix et les studios Mac Guff pour l’image. À sa tête, Rodolphe Chabrier, l’un des briscards de l’imagerie numérique et des VFX. Avec ses studios, il a accompagné Gaspar Noé, Mathieu Kassovitz, Jan Kounen ou Michel Ocelot – et on doit au deuxième studio Illumination Mac Guff, filiale d'Universal, le carton d’animation Moi, Moche et Méchant.
Le coup de maître technologique qu’est l’émission « L’Hôtel du Temps » n’est pas le premier fait d’armes des studios. Derrière le rajeunissement des visages de Mathieu Amalric et d’Aleksey Gorbunov dans la série Le Bureau des Légendes, aucun maquillage, mais un outil de deep learning développé par Rodolphe Chabrier et son équipe, le « Face Engine ». Une technologie qui rebat les cartes de la discipline. « Demain, on pourrait faire danser quelqu’un qui danse comme un pied, aussi bien que Michael Jackson », s’amuse Rodolphe Chabrier. Alors l’imagerie numérique est morte, vive le deep learning ? La réponse n’est pas si simple. En revanche, c’est bel et bien une révolution ! Entretien.
Votre studio est spécialiste de l'imagerie numérique. Depuis quand utilisez-vous l’intelligence artificielle ?
Rodolphe Chabrier : On s’intéresse au deep learning depuis 2018. Je ne sais pas vous dire quand on a basculé. Mais oui, maintenant, l’intelligence artificielle est en train de bouleverser durablement le métier, c'est surtout un sujet à tiroirs. Nous avons choisi de la prendre par le travail sur les visages en développant un modèle d’intelligence artificielle que nous avons baptisé « Face Engine ». Ce travail a d’abord été visible par le grand public, dans la dernière saison du Bureau des Légendes – pour lequel nous avons reçu un César technique. (JJA et Karlov, les personnages incarnés par Mathieu Amalric et Aleksey Gorbunov jouent leur propre rôle, rajeunis de 30 ans par les effets de la baguette magique du modèle développé par Mac Guff, ndlr). Leurs visages burinés sont rajeunis par le procédé.
Il s’agit d’un outil de réseaux dit GAN qui permet de manipuler les visages. Nous avons développé nos propres outils sur nos fonds propres et avec une aide du CNC. Grâce à la mondialisation de la connaissance et l’open source, « Face Engine » est un agrégé de plein de modèles IA mis à disposition par la communauté de la recherche en IA et de nos savoir-faire d’imagerie numérique, développés en plus de 35 ans d’existence. Je ne doute pas qu’on se fasse rattraper par la patrouille, mais pour l’instant, on dispose d’une certaine avance technologique et organisationnelle. Le vieux monde consistait à faire des films comme The Irish Man avec des technologies 3D hyper sophistiquées, lourdes et extrêmement coûteuses. (Dans le film, Al Pacino et Robert de Niro sont rajeunis, ndlr). Notre parti a été de faire la même chose, mais avec des outils à base de deep learning. La chance qu’on a eue est qu’un peu avant le début de la pandémie, Thierry Ardisson est venu nous voir avec son idée d’émission, qui a confirmé que notre approche était bonne.
Au départ, votre intérêt pour l'IA n'intéressait pas grand monde ?
Rodolphe Chabrier : C'était perçu comme notre danseuse, un « truc d’Internet » qui ne serait jamais exploitable en mode broadcast (diffusion standard en TV ou Netflix, par exemple, ndlr). Pourtant, même sur les smartphones apparaissaient des applications basées sur des modèles d’IA. Bien sûr, ce qui est produit sur ces formats n’est pas exploitable sur une production cinéma, mais cela indique une tendance. Avec mon associé Martial Vallanchon, on s'y est lancé à corps perdu. Avec le COVID quand tout s'est arrêté pendant les trois premiers mois, cela nous a permis d’avancer en continu.
Je ne peux pas trop entrer dans les détails de fabrication. Nous n’avons pas simplement un logiciel, on appuie sur un bouton et c’est parti. C’est tout le problème de l’intelligence artificielle. Ce sont des boîtes noires, on ne contrôle rien mais nous avons des procédés pour avoir un minimum de leviers de contrôle et surtout, pour pouvoir réaliser des choses exploitables et cohérentes pour le « broadcast ». En revanche, ça nous a demandé de beaucoup investir. Les besoins de calcul des CPU (unités centrales de traitement) sont conséquents, mais ceux de GPU, donc de traitement graphique, sont colossaux.
Sur l’émission « Hôtel du Temps » de Thierry Ardisson, vous avez littéralement ressuscité Dalida. L'image est sidérante de réalisme. Le deepfake est appliqué sur le visage ?
Rodolphe Chabrier : Oui, dans « Hôtel du Temps », il y a une base de deepfake (technique de synthèse multimédia reposant sur l'intelligence artificielle qui peut servir à superposer des fichiers vidéo ou audio existants sur d'autres fichiers vidéo ou audio, ndlr). Mais ce n’était pas si simple. Les modèles d’IA ont besoin de datasets conséquents. Pour obtenir un rendu très réaliste, c’est simple lorsqu’on dispose de quantité de sources d’images, de centaines d’heures d’images en 4K. Pour le projet, on parle de sources qui ont 50, 60 ans ; on a dû faire tout un travail de traitement en amont pour que les éléments dont on dispose soient compatibles avec les outils de deep learning. Et je ne parle pas là seulement de travail sur les pixels pour que les images deviennent exploitables, mais aussi sur ce qui fait un bon dataset, de quoi avons-nous besoin…
Et concernant la question sur le fait qu’il s’agit d’un travail sur le visage, oui, pour l’instant, avec « Face Engine », l’IA agit sur le visage (à partir d’images issues d’un tournage avec l’animateur et une comédienne qui incarne Dalida et qui a appris la gestuelle de l’artiste, ndlr). Mais on travaille déjà à étendre le procédé au corps (Body Engine), et même à l’environnement (Global Engine). On voit déjà quelques séquences de jeu vidéo circuler : elles ont été passées dans des modèles IA, nourris de bases de données de la Ville de Paris. Le rendu est parfaitement réaliste. Demain, on pourrait faire danser quelqu’un qui danse comme un pied aussi bien que Michael Jackson. Ou récupérer toutes les données d’un James Dean et faire marcher un comédien comme lui en le passant à la moulinette de l’intelligence artificielle. Ce demain, c’est dans deux à trois ans. Et à plus long terme, on pourrait imaginer ne plus avoir de comédien du tout et avoir un personnage virtuel avec la gueule et la démarche de James Dean. Bon, ça demandera évidemment des moyens encore plus colossaux…
En fait, ce qui est intéressant avec l’intelligence artificielle, c’est qu’on ne crée plus des objets. On crée des machines à créer des objets sur la base de règles. Il faut comprendre ces modèles au sens de modèles mathématiques ou climatiques, si vous voulez.
Un peu comme un système d’exploitation ?
Rodolphe Chabrier : Pas tout à fait. Ce ne sont pas des objets en soi, mais des modèles capables de comprendre le monde. « Face Engine » comprend ce qu’est un visage, par exemple. Pour le concevoir, on le nourrit de données, mais surtout, on doit l’entraîner. Plus qu’un entraînement, on doit l’éduquer. Tout comme lorsqu’on éduque des enfants, une mauvaise éducation les rendra malpolis ou bourrés de préjugés. C’est la même chose. On peut difficilement revenir en arrière avec un modèle d’IA ou bien il faut recommencer quasi à zéro, tant le nombre d’itérations est conséquent. Des millions de boucles se font. Ça peut prendre des heures, des jours, voire des semaines avant d’avoir un résultat détectable. Et on doit avoir l’œil pour comprendre si la voie prise est la bonne ou pas, pour mieux corriger le tir.
Mais est-ce compatible avec les temps de production très serrés d’une émission de télé ou d’un film ?
Rodolphe Chabrier : Au contraire ! C’est archi compatible. La preuve, on a réalisé plus d’une heure d’effets visuels pour l’émission de Thierry Ardisson. Ce qui prend du temps est la fabrication du modèle. Une fois qu’il est conçu, c’est facile de faire de la durée à une vitesse colossale. D’ordinaire, nous parlons de « secondes produites ». Un graphiste qui est seul à travailler sur une heure d’effets visuels mettrait un an. Une fois le modèle en place, on peut entrer 10 minutes et avoir le lendemain, un premier résultat. Je grossis le trait, évidemment. Mais ça change tout. Dans le cas du travail sur un visage, ça signifie qu’on peut commencer à travailler avant même le tournage ou la validation des plans.
C’est un nouveau métier pour vous ?
Rodolphe Chabrier : Les métiers sont en train de s’inventer. C’est un nouvel eldorado, une jungle. J’ai le sentiment de me retrouver 35 ans en arrière quand on faisait de la 3D avec des PC. On aura besoin de spécialistes des données, qui savent comment les récupérer, les traiter, les améliorer ; de graphistes ; de développeurs de ces outils, mais aussi d’opérateurs de calcul en IA qui seront des éducateurs, en fait, d’IA, capables d’observer et de rectifier. Quant à moi, je me vois un peu comme un chef cuisto qui aurait une brigade de multiples talents qui ont l’intelligence de traitement, de gestion de calcul, d’intégration de données. Je suggère qu’on prenne tel élément, qu’on le passe au four, puis à l’eau glacée ou au sèche-cheveux, et on voit si ça a fonctionné ou pas. Il y a quelque chose de très organique dans la manière dont ça fonctionne. Une fois qu’on a trouvé la recette, le modèle est trouvé. L’art, c’est de créer le modèle d’IA.
Bonjour, ce qui serait intéressant c'est de savoir comment la production a sécurisé les droits des vidéos sources utilisées pour fabriquer le deepfake de Dalida. Comme ces images ont été produites par différents producteurs tiers, on peut se demander si Mac Guff a bien obtenu un droit d'usage de toutes ces séquences vidéos avant de les intégrer à son dataset. Mon pari, c'est que non (et que ça passe en mode fair-use). Le coût serait exorbitant. Mais si c'est le cas, le boulot juridique et administratif est certainement dingue. En tous cas, il y a un probablement un vide juridique ici qui mériterait d'être adressé d'autant plus que n'importe quel auteur des images entrant dans la fabrication du deepfake pourrait faire jouer son droit moral et bloquer la diffusion de l'émission.