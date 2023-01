Le géant de la banque d'images attaque en justice le générateur d'images par IA en l'accusant d'avoir volé des milliers de photos dans son catalogue. Mais les choses ne sont pas aussi simples que ça.

Il fallait bien que ça arrive. Le 17 janvier 2022, le média The Verge a annoncé que l'agence Getty Images avait porté plainte contre Stability AI, l’entreprise derrière l’intelligence artificielle de génération d’images Stable Diffusion. Cette action en justice fait suite à une class action lancée le 16 janvier dernier par un trio d'artistes à l'encontre de Stability AI ainsi que MidJourney et la plateforme Deviant Art qui a lancé son propre générateur. Derrière ces actions en justice, une question récurrente est posée : ces entreprises ont-elles le droit de copier et d'analyser des milliards d'images sous copyright pour entraîner leur IA générative ?

Les bases de données de la discorde

Pour comprendre les raisons de ce litige, il faut se pencher sur le mode de fonctionnement des générateurs d'images. Pour créer un portrait, une photographie synthétique (une « synthographie » dans le jargon) ou bien un paysage, les IA ont besoin de s'entraîner sur des références qui existent déjà. Voilà pourquoi les entreprises comme Open AI ou Stability utilisent de gigantesques bases de données remplies d'images et de phrases qui les décrivent. Stable Diffusion a ainsi été entraîné sur LAION 2B, une banque se basant sur plus de 2 milliards d'images. Cette dernière est issue d'une banque de données encore plus imposante intitulée LAION 5b qui repose sur 5,85 milliards d'images. Sortie en 2022, cette gigantesque réserve de datas open source a été constituée par l'ONG Common Crawl dont l'objectif est de copier l'intégralité des contenus présents sur Internet à destination de chercheurs.

Une base de données juridiquement irréprochable

Une fois ces images et leur description collectées, ces dernières sont passées au travers d'un filtre appelé Clip. Cet élément permet de calculer les correspondances entre un texte et une image. Cette étape est essentielle, car une fois ces correspondances recueillies, les images et les textes sont tout simplement effacés de la base. Les résultats de Clip sont gardés, car ils suffisent – avec l'aide d'autres outils – à reconstituer l'image d'origine. Cette méthode permet à Common Crawl d'échapper aux questions de copyright puisque techniquement, ils ne fournissent pas les images qui ont été récoltées sur le Web. Seuls les générateurs d'IA qui ont été entraînés avec LAION peuvent les reconstituer.

Un logo fantôme

D'après une enquête menée par le blogueur Andy Baio, plus de 15 000 images issues de Getty Images ont été utilisées au sein de LAION 2B pour entraîner Stable Diffusion. Pour appuyer sa plainte, Getty a indiqué que le générateur open source savait recréer son logo quand on lui demande de le mettre sur une synthographie. Cette capacité serait pour l'agence, la preuve que ses images sont bien présentes dans les bases de données et que ce matériel est utilisé en dehors du cadre du « fair use » américain qui autorise l'usage des images sous copyright dans un objectif non commercial ou éducatif. Reste à voir si cet usage si particulier des images de Getty par les IA génératives tombe sous le coup de la loi. En attendant le verdict final, cette action en justice va être passionnante, car elle pourrait faire jurisprudence et va sans doute déterminer l'avenir commercial des générateurs d'image par IA.