
Mettre fin aux biais algorithmiques, mission impossible ? Revenons sur cet enjeu majeur de l’intelligence artificielle, qui pose autant de questions techniques que métaphysiques.
Des candidats à l’embauche discriminés par la machine, un programme pour évaluer les risques de récidive des prisonniers qui renforce les préjugés racistes, des modèles de détection de maladies surentraînés sur des données masculines ou des images générées par IA montrant une vision apocalyptique des banlieues en France... Il faudrait de nombreuses lignes pour résumer toutes les affaires de biais algorithmiques dans l’intelligence artificielle ayant fait les gros titres de la presse ces dernières années. La question de l’équité, c’est-à-dire la capacité de l’algorithme à traiter les données de façon impartiale, des informations transmises par l’IA est devenue un enjeu public, presque universel.
Alors que les systèmes d’IA prennent le monde d’assaut - 200 millions d’utilisateurs pour ChatGPT à la fin de l’été 2024 -, comment aborder le problème des biais algorithmiques ? Est-il seulement technique ? Imprégné par nos conceptions du monde et par les failles de la raison humaine, les intelligences artificielles n’en seraient que le reflet. Et si les biais algorithmiques ne sont que le résultat de nos propres lacunes, peut-on dès lors les considérer comme un faux problème ? Aux côtés de Louis de Diesbach, éthicien de la technique et auteur de Bonjour ChatGPT, et d’Antoine Saillenfest, chercheur en IA au sein du cabinet Onepoint et spécialiste du traitement du langage naturel, examinons l’origine des travers de l’IA.
Comprendre le problème des biais algorithmiques
Qu’est-ce qu’un biais algorithmique ? N’importe quelle machine - du smartphone à la machine à laver - utilise des programmes constitués d’algorithmes. Ces suites d’instructions informatiques vont chercher à atteindre un résultat ou résoudre un problème. Dans l’intelligence artificielle, un biais algorithmique constitue une anomalie dans ces résultats. “Cela renvoie à une question de neutralité et d’équité. Quand les décisions prises par un algorithme ne sont pas neutres, on parle de biais algorithmiques”, explique Antoine Saillenfest.
Et la typologie de biais est vaste. Les biais de genre ou raciaux des modèles de langage comme ChatGPT ou Gemini sont désormais connus des utilisateurs et du grand public, mais ne sont qu’une partie des travers que l’on retrouve dans les systèmes d’IA. “Imaginons que vous ayez contracté avec un hôpital pour entraîner votre modèle sur des données d’imageries médicales. Celles-ci sont propres à un hôpital précis. Dans un autre, les machines ne seront pas forcément calibrées de la même manière, auront une luminosité différente, etc. Votre algorithme peut très bien marcher sur le premier mais pas le second hôpital. Vos données sont trop spécifiques à un contexte, il y a donc un problème lié à l’absence de généralisation à différents contextes ou domaines”, continue le chercheur de OnePoint.
La complexité du problème est aussi liée aux multiples sources d’entrées de ces biais. Dans l’exemple de l’hôpital, la difficulté vient de la donnée qui est trop corrélée au contexte dans lequel elle a été collectée. De façon similaire, dans le traitement du langage, les biais peuvent venir des textes eux-mêmes et des préjugés qu’ils contiennent. C’est souvent la donnée elle-même qui est à l’origine des biais, mais pas seulement : les algorithmes n’ingèrent pas les textes en tant que tel. “Les textes vont être vectorisés, pour pouvoir faire des opérations mathématiques dessus. Et pour cela, on va utiliser ce que l’on appelle des encodeurs, qui ont eux-même souvent été pré-entraînés sur des centaines de milliers de textes. Ainsi, eux-même sont biaisés par les données qui ont été utilisées pour les entraîner ! Et cela peut poser problème car on va souvent utiliser des encodeurs disponibles sur le marché sans trop se poser de questions”, continue Antoine Saillenfest. La composante humaine des développeurs a en effet un impact technique sur la fiabilité des algorithmes, qui peuvent être mal entraînés et faillibles.
L’IA, un perroquet stochastique
Pas de biais unique, pas de source d’entrées unique, pas de solution unique. Alors, la question des biais algorithmiques ne serait-elle pas plus humaine - et, de ce fait, politique - que technique ? Alors que l’on retrouverait pas moins de 180 biais cognitifs chez l’homme, n’est-ce pas une chimère que de vouloir les supprimer de l’IA ? “Toute éthique de la technique ne peut être comprise que comme une question métaphysique et une question de philosophie politique, disait le philosophe belge Gilbert Hottois. (...) souligne Louis de Diesbach. Comment cette tech est-elle créée ? De quoi est-on complice, de quoi est-on victime ? Avec quoi est-on d’accord ou pas ? Quand vous utilisez ChatGPT, un échange de 20/30 questions-réponses, c’est un demi-litre d’eau nécessaire au refroidissement des machines. Le refroidissement des machines, la conservation des data centers, l’entraînement des modèles nécessitent des ressources. L’entraînement des modèles, par exemple, implique aussi des conditions sociétales critiquables, avec par exemple la situation des travailleurs du clic Kenyans”.
Si les conditions de création des systèmes d’intelligence artificielle et les conditions de leur utilisation ne sont ni neutres, ni équitables, comment les suites d’instruction qui conduisent aux résultats délivrés par la machine peuvent l’être ? Une question que l’on ne se poserait pas pour sa machine à laver, c’est évidemment l’apprentissage automatique qui différencie l’IA - le mot intelligence, qui nous pousse à également l’humaniser et lui dire “bonjour”, avant de l’interroger. Pourtant, souligne Louis de Diesbach, donner à ChatGPT des attributs, qualités ou idéologies humaines - du racisme à la psychologie - est une erreur. “La machine est un outil statistique, dont le seul but est de prédire le prochain token - le prochain mot - qui va suivre. Deux chercheuses américaines appellent les modèles de langue des perroquets stochastiques. Perroquets, parce qu’ils ne font que répéter les choses. Et stochastiques, parce qu’ils se fondent sur la probabilité. J’aime cette expression parce qu’elle dit bien ce qu’est l’IA générative, mais aussi ce qu’elle n’est pas : une forme d’intelligence brillantissime.”
La chimère de l’algorithme parfaitement équitable
La question de l’explicabilité - ou interprétabilité - est également cruciale dans la compréhension des biais algorithmiques. Un système d’IA générative comme ChatGPT ne pense pas par lui-même et produit du contenu sur une base probabiliste sans qu'il soit possible d'expliquer comment ou pourquoi ce contenu a été produit. “On a affaire à des algorithmes qui sont des boîtes noires. Qu’est-ce qu’il y a à l’intérieur d’un gros modèle de décision ? Des matrices, des opérations hyper complexes et rien d’interprétable. Ce sont des grosses boîtes noires dont on n’a pas la certitude qu’elles font les choses correctement, détaille Antoine Saillenfest. (...) On sait quel est le modèle de ChatGPT et son architecture, même si OpenAI a évidemment sa sauce secrète. (...) Mais ce que l’on ne sait pas faire, c’est un modèle de langue totalement interprétable. Dont on comprend comment et pourquoi, précisément, il a généré tel mot, telle ponctuation, pour répondre à telle question”.
Créer une intelligence artificielle sans biais est une chimère, considère encore l’expert. Avant de préciser : “La recherche ne se demande pas si elle va réussir à éliminer les biais. Ce n’est pas possible. La recherche a conscience de leur existence et va essayer de les limiter, les mesurer, les comprendre”. Cela voudrait dire qu’il ne faut rien faire ? Non, rassure Antoine Saillenfest. “On peut se poser la question différemment : faut-il vouloir limiter les biais ? Ne faudrait-il pas adopter une approche totalement différente, dans laquelle on revoit notre conception de l’IA ? C’est-à-dire abandonner ces boîtes noires et mettre toute notre énergie sur le fait de créer des algorithmes aussi puissants, mais totalement transparents. Il y a d'ailleurs des travaux de recherche sur ce sujet, mais cela amène d'autres questions. Il y a par exemple un avantage concurrentiel pour une entreprise à produire des modèles opaques, non transparents.”
Tout à la fois infiniment technique, philosophique et politique, la question des biais algorithmiques est-elle un “faux problème” parce que trop humain ? “C’est toujours le cas. ‘Il n’existe pas d’architecture de choix neutre’ disait Olivier Sibony, auteur et spécialiste de la décision stratégique. Créer quelque chose ne peut pas être neutre. (...) Ce qui est important, c’est de le savoir, d’agir en conséquence”, conclut Louis de Diesbach.
L'enthousiasme général délirant de beaucoup d'utilisateurs éludant ces question cruciales mais non technique me fait craindre le pire. Ce qui me gêne dans tout ça, c'est effectivement de mettre en jeu une éthique et une neutralité comme si c'était un invariant déja bien gardé ou pire encore à découvrir par des outils plus complexes mais, disons-le franchement, mal foutus.
À quoi bon alors toute cette recherche et ce déplacement de fonds financiers en dehors de nous faire avaler un quelconque argument marketing d'une révolution industrielle alors qu'il ne s'agit que d'une évolution des outils sans pour autant nous donner in fine plus de liberté et d'autonomie ?
Le risque sera bien évidemment le renforcement de notre dépendance à la machine et que celle-ci nous gardera bien dans le même abîme, éthique et neutre où peu de choses d'origine humaine en émergera.
Alors si rien ne peut être changé, pourquoi prendre un risque si grand ? Et ne pas, dès aujourd'hui, demander de jeter le bébé monstrueux avec le bains toxique sans être réduit d'arriéré ?