Un robot type Zardoz avec les logos Reddit, tumblr et Wordpress

Comment nos posts Tumblr, Reddit et WordPress vont alimenter des IA

© DJR via Dreamstudio

Après avoir capté la participation de millions d’internautes, les plateformes sociales et de blogging revendent le contenu créé aux boîtes d’intelligence artificielle. 

Rappelez-vous de votre adolescence quand vous aviez ouvert un blog WordPress afin d’évoquer votre passion pour les voyages et un compte Tumblr qui recensait toutes les esthétiques du début des années 2000. Tout ce contenu que vous avez donné gratuitement à Internet contre quelques likes va dorénavant alimenter des bases de données servant à l’entraînement d’intelligences artificielles. Dans un article publié sur le site 404, on apprend que ces deux plateformes de blogging se préparent à vendre leurs datas à Midjourney et Open AI. 

La main dans le sac (à données)

Pour les larges modèles de langage comme ChatGPT, on sait que les données, et notamment les extraits de textes, sont le nerf de la guerre. C’est grâce à de larges corpus écrits que les IA peuvent être entraînées et performer dans des usages aussi variés que la simulation d’une petite copine virtuelle ou la fabrication de livres indigents pour enfants. Alors que les premières versions de ChatGPT étaient entraînées sur des bases de données open source dédiées à la recherche, la question s’est avérée de plus en plus délicate d’un point de vue juridique. Les grandes entreprises dédiées à l’IA générative sont donc entrées dans une course pour conclure des deals avec des médias ou des plateformes sociales afin d’avoir accès à ces précieux textes que nous avons écrits… gratuitement.

Cette décision de partager le contenu aux IA est d’ailleurs controversée au sein même des entreprises concernées. Un extrait de conversation mené par Cyle Gage, chef de produit chez Tumblr montre que parmi les données qui devraient être envoyées à Open AI on compte du contenu NSFW, de la correspondance privée ainsi que des médias protégés par un mot de passe. Il est de toute manière impossible de savoir comment les données transmises seront véritablement utilisées tant la chaîne d’approvisionnement de traitement des contenus est complexe. Il est possible qu’une partie de ces textes et de ces images soit mélangée à d’autres données pour alimenter ces bases de données. 

Pour quelques millions de dollars, baby

Auttomatic, la maison mère derrière Tumblr et WordPress n’est pas la seule entreprise concernée par la vente de données. Le 17 février dernier, Reddit avait annoncé avoir conclu un accord de 60 millions de dollars par an avec « une grande société d’IA anonyme » afin de rendre le contenu généré par ses 62 millions d’utilisateurs actifs journaliers. Un prix bien plus important que l’offre allant de 1 à 5 millions de dollars par an qu’est prête à offrir Open AI aux médias pour pouvoir accéder à leur contenu protégé par le copyright. À titre de comparaison, Facebook proposait aux médias européens des licences de 3 millions d'euros annuels afin d'exploiter leur contenu dans l'onglet news de la plateforme. Cet accord qui avait pour vocation de compenser des pertes de revenus publicitaires des médias tout en assurant au réseau un accès à des informations fiables et sourcées n'existe plus. De son côté, la banque d’image Shutterstock a signé un accord de 6 ans avec Open AI afin d’entraîner son IA DALL-E. Quoi qu’il arrive, l’économie du Web entre donc dans une nouvelle phase où les entreprises d’IA vont se nourrir de l’ensemble du contenu produit par des humains… pour mieux les remplacer. 

David-Julien Rahmil

David-Julien Rahmil

Squatteur de la rubrique Médias Mutants et Monde Créatif, j'explore les tréfonds du web et vous explique comment Internet nous rend toujours plus zinzin. Promis, demain, j'arrête Twitter.

Discutez en temps réel, anonymement et en privé, avec une autre personne inspirée par cet article.

Viens on en parle !
commentaires

Participer à la conversation

Laisser un commentaire