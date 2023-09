Le média The Atlantic révèle une analyse de Book3, base de données textuelles qui sert à nourrir certaines intelligences artificielles, notamment LLaMA de Meta. Elle contient plus de 190 000 livres piratés, dont certains d’auteurs contemporains.

Quelles sont donc les lectures des intelligences artificielles ? Pour générer du texte sur à peu près n’importe quel sujet, ChatGPT et ses collègues ont été préalablement nourris d’une masse considérable de textes. Il s’agit de pages web (Wikipedia, réseaux sociaux), mais aussi de livres. Dans le détail, on connaît assez mal la teneur de ces textes car les entreprises qui développent les IA sont peu transparentes à ce sujet. Pourtant, savoir ce qu’il y a sous leur capot s’avère plus que nécessaire pour comprendre comment ces outils, qui se veulent être une nouvelle porte d’accès au savoir, fonctionnent. Savoir sur quels textes ils ont été entraînés, et en quelle quantité, permet notamment de cerner leurs biais. Rappelons qu'il s'agit de machines probabilistes : plus un texte sera représenté parmi les données d'entraînement, plus il aura logiquement du poids dans les réponses données par l'IA.

190 000 livres piratés

Pour mieux comprendre, Alex Reisner, un auteur de The Atlantic, s’est donc procuré l’une des bases de données qui sert à alimenter certains grands modèles de langage, notamment LLaMA de Facebook (équivalent à ChatGPT) ou l'IA de Bloomberg : Book3. Il en a fait un compte rendu détaillé, mais aussi un moteur de recherche permettant de savoir si le livre de votre auteur préféré (ou le vôtre ! ) fait partie de la base de données.

Book3 contient plus de 190 000 livres numériques piratés, et dont la plupart ont été publiés ces vingt dernières années. The Atlantic répertorie les auteurs qui y sont le mieux représentés. On trouve notamment William Shakespeare avec 230 ouvrages présents dans la plateforme (cela inclut différentes traductions et/ou éditions), la romancière Nora Roberts qui écrit des thrillers psychologiques et récits à l’eau de rose avec 206 ouvrages, ou encore Robert Lawrence Stine connu pour la saga de livres d’horreur pour enfants Chair de Poule avec 197 livres. Présents également parmi les têtes d’affiche : L. Ron Hubbard, le fondateur de la scientologie et par ailleurs auteur de science-fiction, ou encore Joyce Carol Oates, et Stephen King.

Les IA lisent aussi Michel Houellebecq et Amélie Nothomb

On note par ailleurs la surreprésentation d’auteurs américains, la présence importante de la littérature chrétienne (1 500 livres d’éditeurs chrétiens et 175 versions de la Bible ou de son analyse), et de livres techniques type Les Nuls. Parmi les auteurs français contemporains que nous avons recherchés via le moteur de recherche de The Atlantic, on note la présence de Virgine Despentes, Hervé Le Tellier, Michel Houellebecq, Amélie Nothomb, Leila Slimani…

La publication des articles de The Atlantic a provoqué une vague d’agacement sur les réseaux sociaux puisque de nombreux écrivains se sont rendu compte qu’un ou plusieurs de leurs livres étaient présents dans la base de données Book3, à leur insu.

« C'est drôle comme les écrivains se font toujours avoir »

« Mes livres sont donc également utilisés pour entraîner l'IA sans ma permission, en utilisant la base de données Books3. Des millions d'heures de travail d'auteurs sont exploitées par les grandes entreprises technologiques sans aucun paiement. C'est drôle comme les écrivains se font toujours avoir. RAGE. », s’insurge ainsi Sathnam Saghera, journaliste et auteur britannique à succès.

Des auteurs en procès

En juillet dernier, trois auteurs – Richard Kadrey, Sarah Silverman, et Christopher Golden, ont porté plainte en Californie contre OpenAI et Meta estimant que leurs ouvrages avaient été repris sans leur accord par les deux entreprises pour entraîner leurs grands modèles de langage.

Meta argue que de toute façon Book3 ne représente qu’une part infime des données d’entraînement de ces modèles (3 % des données confirme The Atlantic). Certes mais cela n'annule pas le fait que l’entreprise se soit servie chez des auteurs sans leur accord. Par ailleurs, cela signifie qu’il reste encore une masse importante de textes inconnus ayant servi de données aux IA à analyser.