Pourquoi les réseaux sociaux sont nuls pour modérer la haine en ligne

Par David-Julien Rahmil - Le 27 avril 2021

Accueil > Médias mutants > Réseaux sociaux > Pourquoi les réseaux sociaux sont nuls pour modérer la haine en ligne

Pour Charles Cohen, jeune créateur de l’application de modération Bodyguard, la modération de masse exercée sur les réseaux sociaux a échoué dans sa lutte contre la haine en ligne. Rencontre.

Supprimer des vidéos violentes ou pornos, les services de modération des réseaux sociaux savent le faire. Mais dès qu’il s’agit de sanctionner des comportements de harcèlement et de haine, notamment quand ils sont opérés en meute, les choses deviennent tout de suite plus compliquées : certains services de modération restent dans l’inaction tandis que d’autres surréagissent à des signalements en masse et suppriment injustement des contenus ou des comptes. Face au constat d’une modération de masse qui atteint très vite ses limites, Charles Cohen pense avoir trouvé une solution. Ce développeur autodidacte de 25 ans a lancé il y a trois ans Bodyguard, une application qui compte 60 000 utilisateurs et qui modère les commentaires haineux que l’on peut recevoir sur Twitter, Instagram ou Twitch. Pour faire fonctionner l’application, son créateur a dû se glisser dans la peau d’un modérateur et cartographier une haine en constante évolution sur Internet. Rencontre.

Quel est le constat à l'origine de votre application ? Que les plateformes sont incapables de modérer correctement ?

Charles Cohen : Avant de me lancer dans la construction de mon application, j’ai travaillé pendant plusieurs mois en tant que modérateur pour comprendre comment tout cela fonctionne. Les grandes plateformes sont assez limitées sur ce sujet pour des raisons qui sont à la fois techniques et politiques. Tout d’abord, elles tentent de faire appliquer les mêmes règles à des milliards d’utilisateurs alors que chacun est unique. Les besoins de protection ne sont pas du tout les mêmes pour un internaute de 30 ans et un autre de 11 ans. Le fait que les outils de modération soient développés en interne est aussi un problème. Les règles sont toutes différentes d’une plateforme à une autre et les trolls sont très créatifs pour trouver des failles et attaquer là où les défenses sont les plus faibles. Enfin, certaines plateformes comme Facebook détectent très bien les discours de haine quand ils sont destinés à un groupe de personnes en fonction de leur couleur de peau, leur religion ou leur orientation sexuelle. Mais elles sont très mauvaises pour tout ce qui touche à la protection de leurs utilisateurs victimes de cyberharcèlement et donc les contenus haineux destinés à une personne en particulier. C’est sur ce point que l’on intervient.

Comment fonctionne votre application ?

C. C : L'approche qu'on a chez Bodyguard, c'est de protéger les individus et donc faire la différence dans les commentaires entre une phrase comme « Donald Trump est un connard » et « Tu es un connard ». La seconde est directement destinée à une personne qu'on doit protéger. Une fois le commentaire publié, l’application va le nettoyer des fautes, du langage SMS ou des mots qui contiennent des astérisques pour rester cachés aux yeux des IA. On détecte ensuite les mots ou des groupes de mots insultants ou potentiellement agressifs et on mène une analyse contextuelle pour savoir à qui ils sont destinés : l’utilisateur, ses proches, ou bien un autre groupe de gens. Enfin l’application détermine le niveau de protection en fonction de l’identité de l’utilisateur et du niveau de protection dont il a besoin. Si c’est une personne très jeune ou plus fragile, la moindre agression sera supprimée presque instantanément. Pour un utilisateur plus âgé, on pourra tolérer une phrase qui dit « t’es con », mais supprimer « tu es un gros connard » par exemple. Avec cette méthode on détecte entre 85% et 95% des contenus haineux pour seulement 2% d'erreurs sur plusieurs millions de commentaires analysés par mois.

Pour cela vous avez dû cartographier les différentes formes de haine en ligne.

C. C : Les détections de mots et les analyses de contextes sont renseignées par des experts en NLP (NDLR : pour Natural Language Processing). Ce sont des spécialistes du langage naturel qui ont pour mission de détecter de nouveaux types de haine et de les classer parmi nos différentes catégories pour alimenter notre technologie. Ils classent ce contenu dans différentes catégories qui vont de l’insulte à la menace de mort en passant par les moqueries sur le physique, le harcèlement moral, le harcèlement sexuel, le racisme ou l'homophobie. On s’appuie aussi beaucoup sur nos utilisateurs qui nous font remonter régulièrement de nouvelles formes de haine en ligne.

Pouvez-vous nous faire un petit panorama de la haine actuelle ?

C. C : 60 à 65% des contenus modérés par Bodyguard restent de l'ordre de l'insulte « classique ». On observe aussi souvent des discours de haine envers la communauté LGBT. On a également pas mal de contenus racistes qui visent les musulmans, les Roms ou les gitans, et encore plus de contenus anti-asiatiques en ce moment. On a aussi un peu d'antisémitisme. Il convient tout de même de rappeler que 95% des échanges sur les plateformes sont généralement positifs, et que l'on a tendance à se fixer sur le négatif.

Est-ce que les formes de trolling ou de haine en ligne évoluent rapidement ?

C. C : Les trolls sont très créatifs et passent leur temps à trouver de nouvelles façons de contourner les systèmes mis en place par les plateformes. Une fois qu’ils ont trouvé une faille, les réseaux sociaux mettent généralement plusieurs mois à la repérer et la modérer. Par exemple, ils sont de plus en plus nombreux à comprendre que c’est assez simple de contourner les filtres à insultes. Ainsi, sur Twitch, on peut facilement contourner les mots-clés interdits en mettant des astérisques ou en remplaçant un S par le signe du dollar. Ils peuvent aussi dessiner des pénis en utilisant des caractères typographiques et inonder un chat comme ce fut le cas pour le premier live de BFM par exemple. On peut aussi prendre comme exemple le mouvement des médailles sur Instagram. Il s’agit d’un groupe de masculinistes qui inondent les commentaires de comptes féministes en postant des dizaines de fois l'émoji médaille et ainsi les « marquer ». De manière générale, ils utilisent de moins en moins de mots insultants ou agressifs, et vont plutôt aller dans la menace comme « j'aurais ta peau » par exemple ou « on va te faire la peau ». C'est très compliqué pour une technologie de le détecter parce que les mots pris un par un n’ont rien de haineux. Mais si on prend la phrase dans son ensemble avec le contexte qui va avec, alors ça devient évident.

Certains reprochent aux plateformes sociales une modération qui s’apparenterait à de la censure. Qu'en pensez-vous ?

C. C : Je pense qu’il faut avant tout se baser sur le niveau de modération que les utilisateurs souhaitent appliquer aux échanges qu’ils ont en ligne. Notre application peut détecter la haine, mais en fin de compte ce sont les utilisateurs qui décident le niveau de sévérité à appliquer sur ces typologies de haine. Au-delà, on estime que les critiques négatives, même si elles ne sont pas agréables à recevoir, ne doivent pas être supprimées. Si on les censure, on risque de produire l’effet inverse et de générer de la haine. Enfin, on estime que la meilleure manière de protéger les débats en ligne et de promouvoir la liberté d’expression, c’est de permettre aux gens d’exprimer leurs idées sans avoir peur de se prendre des raids de harcèlement massif. Seuls les internautes qui ont une attitude agressive ou insultante doivent être visés.