Un robot à l'ancienne en métal avec un cerveau digital transparent

Accrochez-vous, les médias générés par IA sont en train d'arriver

Alors que les sites média peinent à maintenir leur visibilité, une nouvelle génération de « sites d’information » générés par IA entend rafler la mise, et profiter des dernières mises à jour de Google.

Un site d’actualité qui enchaîne des articles sur des faits divers tendus et des conseils pour embellir son parquet, un blog qui produit des centaines de critiques ciné et des conseils pour acheter une bonne tondeuse à barbe, des sites sur les finances, la santé, l’horoscope, le shopping, qui semblent produire trop d’articles pour que ça soit honnête. Ces sites qui portent des noms génériques comme sciences et démocratie, d-rating, les critiques de Marine ou Allocations.fr font, en fait, partie d’un réseau de médias tenu par une seule et même personne. D’après Ari Kouts, un développeur travaillant pour la société de conseil française Viseo qui a écrit un thread sur X en avril dernier, le responsable de ce nouveau groupe média n’est autre que Julien Jiminez, un spécialiste du SEO dont les deux entreprises ont été placées en liquidation judiciaire en septembre 2023. Si les sites de Julien produisent autant d’articles par jour, ce n’est pas parce qu’il s’est soudainement mué en patron de presse tout-puissant mais parce qu’il a lancé des fermes de contenus dont les textes et les images sont générés par intelligence artificielle.

Comment générer une rédaction virtuelle ?

Comme nous l’avions vu en début d’année, le nombre de sites entièrement générés par IA a explosé sur le Web. L’ONG NewsGuard avait indiqué en janvier 2024 qu’elle avait recensé plus de 676 sites de ce type en une quinzaine de langues dans le but de capter des revenus publicitaires. Pour lancer ces fermes de contenus, la méthode est simple à mettre en place et a même été détaillée par Ari Kouts qui l’a testée lui-même avec deux sites consacrés, l'un à l’actualité tech et l'autre à des recettes de cuisine. Pour des questions éthiques, ces derniers ne sont pas monétisés. L'idée est surtout d'expérimenter de quoi sont capables les IA. « Pour le site d’actualité tech, j’ai connecté ChatGPT au flux RSS des quatre sites spécialisés sur le sujet comme TechCrunch, ou The Verge, explique-t-il. J'ai mis en place une sorte de comité de rédaction qui sélectionne cinq articles toutes les deux heures, en ne lisant que le titre et le chapô. Deux journalistes virtuelles, avec des styles d'écriture bien à eux, sélectionnent un sujet et vont "scraper" l'article original en entier pour le réécrire à leur manière. Avec cette méthode, je produis deux articles par heure. » À ce rythme, les sites d'Ari ont généré plus de 8 000 articles sur la tech et plus de 2 500 recettes dont certaines, assure-t-il, sont vraiment bonnes.

Des sites bien positionnés sur Google

Du côté des résultats, Ari est assez hésitant à donner ses audiences car elles comportent énormément de biais et peuvent fluctuer en fonction de son activité sur X/Twitter par exemple. Il indique tout de même être à 320 000 impressions sur les trois derniers mois pour son site dédié à l'actu tech, un résultat purement organique puisque ses sites ne sont pas optimisés au niveau du SEO tandis que les articles ne sont pas partagés sur les réseaux sociaux. Cela ne l'empêche pourtant pas d'apparaître plusieurs fois de suite dans les flux de Google Actu, comme a pu le remarquer le média Numérama qui a consacré un article à ce faux site. Le secret de cette bonne position, c'est justement sa capacité à reprendre très rapidement, et en masse, des articles issus de la presse américaine et donc de se positionner premier sur certains sujets qui n'ont pas encore percé en France. Cette méthode ne permet pas de rester en tête du référencement Google pendant très longtemps, à mesure que des sites plus qualitatifs viennent prendre le relais avec des articles mieux écrits, et sans les nombreuses erreurs ou hallucinations que l'on peut trouver dans les articles générés par IA. Cependant, cette expérimentation montre deux choses importantes. « Tout d'abord, Google considère que les articles générés par IA sont suffisamment qualitatifs et compréhensibles par des humains pour être référencés, indique Ari Kouts. Ensuite, même si un site de ce genre ne génère pas beaucoup d'argent, il est très facile de le multiplier en occupant une niche d'intérêt en particulier, et en multipliant les traductions. Avec une quinzaine de sites de ce genre, il est possible de dégager de l'argent sans trop en dépenser. »

Oh no ! Il y a trop de spams sur Google

En décidant que le contenu fabriqué par un bot soit équivalent à celui fait par un humain, Google a amplifié un problème auquel il devait déjà faire face : le spamming. Avant même l'arrivée des networks générés par IA, le moteur de recherche voyait la pertinence de ses résultats perturbée par des sites très bien optimisés mais très peu informatifs, et dont le seul objectif est de faire de la publicité. Dans un article de la BBC, on comprend que le géant du Web est en lutte contre le spamming depuis 2022 et a modifié plusieurs fois son algorithme pour éliminer le contenu reposant trop sur un bon SEO. Alors que les différentes mises à jour ont permis de retirer jusqu'à 45 % du spam, elles ont aussi largement détérioré le trafic des sites pouvant être considérés comme utiles, comme celui du New York Magazine qui a perdu 32 % de son trafic de recherche Google ou bien du site Urban Dictionary qui a vu ses audiences divisées par deux. En revanche, la plateforme Reddit – dont nous vous avions parlé il y a peu – a vu ses résultats bien plus régulièrement mis en avant dans les requêtes Google. Ses réponses générées par des utilisateurs humains représentent pour Google une matière première parfaite pour des requêtes cherchant, avant tout une expérience, et des opinions de pairs.

En route vers un Web foireux

Malgré ces mises à jour catastrophiques, Google continue de s'accrocher à l'idée selon laquelle le contenu généré automatiquement par IA n'est pas vraiment considéré comme un problème. Sur son site consacré aux développeurs, on peut lire « il est important de reconnaître que toutes les utilisations de l'automatisation, y compris la génération par IA, ne sont pas du spam. L'automatisation est utilisée depuis longtemps pour générer des contenus utiles comme les résultats sportifs, les prévisions météorologiques et les transcriptions. L'IA peut permettre de développer de nouveaux niveaux d'expression et de créativité et d'aider les utilisateurs à créer des contenus de qualité pour le Web. » C'est dans ce contexte particulièrement confus que Google déploie sa nouvelle mise à jour qui consiste à proposer dans ses résultats de recherche, des résumés de réponses générées par son IA. Peu importe que cette dernière prenne ses sources dans du contenu lui-même généré automatiquement ou bien résume avec plein d'erreurs un contenu de bonne qualité : le futur du Web selon Google ne rend personne très optimiste… À part Google lui-même.

David-Julien Rahmil

David-Julien Rahmil

Squatteur de la rubrique Médias Mutants et Monde Créatif, j'explore les tréfonds du web et vous explique comment Internet nous rend toujours plus zinzin. Promis, demain, j'arrête Twitter.

Discutez en temps réel, anonymement et en privé, avec une autre personne inspirée par cet article.

Viens on en parle !
commentaires

Participer à la conversation

  1. Avatar David J dit :

    Papier très intéressant, merci !

Laisser un commentaire