Géants de la tech comme startups se tirent la bourre pour élaborer l'IA spécialiste du langage la plus performante. L’enjeu est multiple : scientifique, linguistique, géopolitique et économique.
Cet article a été initialement publié dans la revue 31 de L'ADN au printemps 2022, puis mis à jour le 23 février 2023.
En l’espace de quelques jours, Microsoft et Google ont annoncé l’intégration de leurs chatbots générateurs de texte à leur moteur de recherche. BingGPT pour l’un, Bard pour l’autre. Les deux annonces ont été surmédiatisées et donnent l’impression que le sujet vient d’apparaître. Mais cela fait plus de cinq ans que géants de la tech et nouveaux venus travaillent sur ces modèles, appelés « grands modèles de langage » (large language models ou LLM). Et plus précisément « Transformers » (qui correspond au “T” de ChatGPT), une sous-catégorie des LLM.
Avant ChatGPT, OpenAI avait déjà fait couler beaucoup d’encre avec GPT-3, l’un des modèles qui alimente ChatGPT lancé dès 2020 – avec un accès limité dans un premier temps. En 2022, Sundar Pichai, le patron de Google, annonçait, lui aussi, l’arrivée d’une IA spécialiste de la linguistique. Baptisée LamDA2, cette intelligence artificielle permet de tenir une conversation fluide et fouillée avec un humain sur n’importe quel sujet. Fin 2021, c’était Nvidia et Microsoft qui se vantaient d’avoir mis au point le modèle de langage anglophone avec le plus grand nombre de paramètres. 530 milliards exactement, pour le petit Megatron-Turing Natural Language Generation. La Chine n’est pas en reste : Baidu (l’équivalent de Google en Chine) a annoncé l’intégration d’un chatbot à son moteur de recherche. Quant à OpenAI, elle n’a pas dit son dernier mot. L’entreprise prépare déjà son GPT-4, dont la date de sortie serait selon certaines rumeurs imminente.
Ils sont déjà partout
Le point commun de ces réseaux de neurones appartenant à la famille du deep learning (« apprentissage profond ») : être capable de trouver le mot manquant d’un texte ou de prédire le mot suivant en tenant compte du contexte de la phrase, et donc par extension d’analyser, de traduire, de résumer, de classer, de générer du texte, voire des lignes de code, pour certains. Par ailleurs, ils n’ont pas vraiment été guidés pour réaliser ces tâches. On les a nourris d’une masse très importante de textes, juste en leur indiquant s’il s’agissait de poésie, de tribune, de définition… Ils ont appris tout seuls, en quelque sorte. Et sont désormais capables d’effectuer une très grande variété de tâches, sans avoir été spécifiquement entraînés pour cela.
En quelques années, ces modèles ont envahi la recherche en intelligence artificielle, en particulier concernant le traitement automatique du langage. « Ils se sont diffusés très rapidement parce qu’ils ont réussi à surpasser tous les autres modèles sur des tâches pour lesquelles ils étaient pourtant spécialisés », pointe Thierry Poibeau, directeur de recherche au CNRS et directeur adjoint du laboratoire LATTICE (Langues, Textes, Traitements informatiques, Cognition). On trouve déjà de multiples applications des LLM sur des actions assez triviales que nous effectuons quotidiennement sur le Web. Vous cherchez quelque chose sur Google en anglais ? Dites merci à BERT, l’un des tout premiers Transformers mis au point par Google. Vous traduisez une phrase ? C’est grâce à un Transformer. Vous lisez un résumé d’article sur Bloomberg ? Idem. Vous tombez sur une publicité en ligne ou sur une légende Instagram bien ficelée ? Il est possible que l’un de ces modèles ait aidé à sa formulation. De plus en plus de nos interactions en ligne contiennent des briques de ces mégamodèles linguistiques. On comprend donc mieux l’intérêt qu’ont les géants de la tech à développer leur propre alternative de ce qui constitue l’une des bases technologiques du Web d’aujourd’hui.
Par ailleurs, ces modèles ont quelque chose de fascinant qui attire pléthore d’entreprises et de chercheurs. « Ce sont des modèles qui fonctionnent très bien, certainement mieux que ce à quoi on aurait pu s’attendre. Et puis, en tant qu’humain, il y a quelque chose d’intellectuellement fascinant à voir une machine créer un texte intelligible et cohérent. C’est plus stimulant que de voir une machine classer correctement une image, par exemple. L’intérêt pour ces modèles est une question presque philosophique », expose Florian Laurent, CTO de Coteries, une entreprise suisse qui a développé un équivalent francophone de GPT-3, baptisé Cedille.
Gros calcul, grosse data…
L’arrivée des Transformers correspond aussi à un concours de circonstances favorables. Ils sont apparus, d’une part, parce qu’il y avait d’énormes corpus de textes disponibles (pour l’anglais, notamment, on compte des milliards de pages Web, donc des milliards de phrases). D’autre part, la puissance de calcul s’est développée grâce aux puces graphiques (GPU). « Ce sont les masses de données combinées à la puissance de calcul qui ont permis à des modèles comme GPT-3 de produire des textes qui paraissent naturels », rappelle Thierry Poibeau.
Car la tâche opérée par ces algorithmes géants nécessite un calcul informatique monstrueux. Ils sont capables de détecter le sens des mots en examinant leur contexte d’utilisation, c’est-à-dire les mots situés avant et après. Et contrairement à leurs prédécesseurs, les Transformers d’aujourd’hui ne se limitent pas aux quelques mots suivants ou précédents. Ce qui est important en linguistique, car dans une phrase le sujet peut être par exemple très éloigné du verbe ; deux mots peuvent avoir un lien fondamental mais être séparés par plusieurs compléments.
Pour cela, il faut modéliser la langue dans un format numérique. On fait correspondre chaque mot à un vecteur de 300 à 500 dimensions sémantiques. Le calcul est entièrement automatique mais requiert une puissance de calcul très importante, car des milliards de contextes sont considérés. Cette opération permet ensuite de comparer le sens des mots, mais aussi d’expressions complexes (pour trouver, par exemple, les traductions les plus adaptées pour un mot dans un contexte donné ou... élaborer un système capable de résoudre automatiquement des grilles de mots croisés).
Ce calcul pharaonique a obligatoirement besoin des supercalculateurs. Or, il n’existe que quelques centaines de ces ordinateurs hyperpuissants dans le monde, et la plupart sont aux États-Unis et en Chine. « Ces modèles ont besoin d’une telle masse de calculs que seules quelques entreprises ou très grands laboratoires peuvent se le permettre – en France, le laboratoire du CNRS possède par exemple le supercalculateur Jean Zay. Le coût d’entrée de cette technologie est donc très élevé et favorise les GAFAM », résume Thierry Poibeau.
… et surtout gros GAFAM
En plus de superordinateurs, ces modèles nécessitent une quantité phénoménale de données. Pour le texte, on en trouve assez facilement sur Internet : livres du domaine public, presse en ligne, pages Web, Wikipedia... Mais les GAFAM ont aussi accès à des données que d’autres n’ont pas. « Facebook, par exemple, a accès à de très nombreuses conversations informelles, à travers les échanges entre utilisateurs et les commentaires de photos. Ces textes sont particuliers, car ils comportent une grande quantité de “je” et de “tu”, par exemple. La langue est aussi différente, plus directe, moins policée que ce que l’on trouve dans la presse ou sur le Web en général. Cette masse de données textuelles particulière, les autres ne l’ont pas (ou, du moins, pas dans les mêmes quantités), ce n’est pas ce qu’on trouve sur le Web directement », illustre Thierry Poibeau.
L’accumulation massive de données par les GAFAM expliquerait d’ailleurs en partie pourquoi ces modèles titanesques et très gourmands en data sont poussés par ces entreprises. « Une grosse partie des revenus des acteurs qui financent ce type de modèles vient de la publicité, une activité qui nécessite de collecter beaucoup de données. Ils sont sur un terrain où ils ont un très gros avantage concurrentiel. Par ailleurs, développer des intelligences artificielles s’appuyant sur une grosse quantité de data légitime cette collecte et donc leur modèle d’affaires. C’est un jeu stratégique malin de leur part », juge Thomas Solignac, fondateur de l’entreprise Golem.ai.
Les irréductibles Gaulois de l’IA
Malgré l’avantage compétitif évident des géants de la tech, de jeunes pousses européennes ont décidé de ne pas baisser les bras, considérant que l’enjeu est trop important pour laisser une nouvelle fois les États-Unis et la Chine s’emparer d’une technologie clé du Web.
Loin des bureaux d’OpenAI ou de Meta, la petite entreprise tricolore LightOn a mis au point un équivalent à GPT-3. Trois mois après le lancement du modèle d'OpenAI en mai 2020, lui et une équipe d’une dizaine de personnes commencent le développement d’une alternative à l’intelligence artificielle du laboratoire américain. Depuis, le lancement de ChatGPT a bien aidé ses affaires. « OpenAI a très bien évangélisé le marché. Les entreprises sont davantage prêtes à passer au stade de la production qu'il y a quelques mois. »
LightOn se distingue de son concurrent américain en proposant aux entreprises d'installer directement le modèle dans leur système informatique. « Le problème des APIs ouvertes (le fait d'utiliser un logiciel sans avoir à l'installer, comme le fait OpenAI), c'est que les données transitent par d'autres serveurs. Lorsque vous utilisez ChatGPT, vos données sont captées par OpenAI et seront réutilisées pour le prochain entraînement du modèle. Ce qui n'est pas le cas avec notre offre. En revanche les entreprises peuvent accumuler les données d'utilisation et adapter leur modèle selon leur entreprise ». L'entrepreneur affirme que cette proposition attire de nombreux secteurs : marketing, distribution, assurance...
« Ils testent la technologie via ChatGPT, mais ne préfèrent pas l'utiliser à grande échelle pour ne pas passer par OpenAI. Ils sont contents de travailler avec des Français ». LightOn estime ainsi se distinguer sur l'aspect « souveraineté technologique ».
Se positionner sur une langue qui n’est pas l’anglais représente une autre opportunité pour les jeunes pousses qui tentent de rivaliser avec OpenAI et les GAFAM. « Nous avons eu des discussions avec plusieurs médias qui étaient en demande de modèles francophones », explique Sébastien Flury, de la startup suisse Coteries. Le modèle de Coteries (Cedille) est d’ailleurs utilisé par un média suisse pour produire automatiquement des résumés d’interviews.
« La partie n’est pas perdue »
« Sur la partie hardware de calcul, c’est sûr que l’Europe est en retard, et ça sera dur d’être aussi compétitif que les États-Unis, note Laurent Daudet. Mais sur l’intelligence artificielle, la partie n’est pas perdue. Il est important que des entreprises comme la nôtre aient les moyens de développer des alternatives, parce que ces technologies ont un impact très important sur l’industrie et les services. Cela va faire évoluer beaucoup de métiers, en particulier chez les cols blancs, jusqu’à présent peu touchés par l'automatisation. Tous les métiers qui nécessitent de manier du texte sont concernés : l’écriture d’e-mails, l’élaboration de veille technologique, mais aussi les métiers où l’on analyse et produit de grandes quantités de texte vont être en partie transformés par ces modèles, par exemple les domaines du marketing ou les métiers juridiques. »
Au-delà des métiers liés au texte, les larges modèles de langage pourraient avoir un impact sur toute entreprise qui souhaite automatiser certaines tâches : indexer, trier des informations, par exemple. C’est le point de vue de Samuel Humeau, ingénieur spécialiste de Nabla, une appli dédiée à la santé des femmes, qui a expérimenté GPT-3, Cedille et d’autres équivalents. « Les médias ont mis l’accent sur les pavés de texte que GPT-3 peut générer, mais l’énorme innovation, c’est la capacité de ces modèles à apprendre à partir de deux exemples. Pour moi, c’est ça qui va modifier l’ensemble de l’industrie de la tech. Parce que des startups qui auront des tâches répétitives à exécuter pourront les automatiser extrêmement facilement. »
Toutefois, ces velléités de souveraineté trouvent leurs limites. Même si les modèles sont européens, Cedille comme LightOn utilisent pour les faire tourner des services cloud de géants américains. « Les opérateurs cloud européens nous ont répondu au départ qu'ils n’étaient pas en mesure d'offrir les capacités nécessaires à faire tourner ces très gros modèles. C'est en train d'évoluer lentement... », expose Laurent Daudet.
Moins bluffant, plus transparent
Par ailleurs, les alternatives européennes mettent souvent en avant une vision très différente de celle d’OpenAI : plus ouverte, moins mystérieuse et moins obsédée par l’idée prophétique de construire une intelligence artificielle générale (AGI), c’est-à-dire capable à elle seule d’imiter toute l’étendue des capacités intellectuelles de l’humain. Moins bluffante donc, mais plus pragmatique.
Une entreprise, elle aussi née dans l’Hexagone (mais installée aux États-Unis), illustre bien ce positionnement. Hugging Face, dont l’emblème est un petit smiley prêt à vous serrer dans ses bras, entend avoir un impact positif sur l’intelligence artificielle en faisant de cette technologie un bien commun. La startup devenue licorne grâce à une levée de fonds record (100 millions de dollars en mai 2022) se définit comme le « Git Hub » du machine learning, une plateforme où tous les développeurs et chercheurs peuvent trouver en accès libre environ 100 000 modèles d’intelligence artificielle.
Cette jeune pousse est aussi l’instigatrice d’un projet réunissant depuis 2021 plus de 1 000 développeurs, linguistes, chercheurs en IA et industriels. Baptisé Big Science, son but est de créer un large modèle de langage (un fameux transformer, encore une fois) collaboratif, open source et multilingue. « La particularité, c’est que tous les choix sont faits ouvertement, chacun peut accéder aux documents de travail. Tout est accessible à la communauté, ce qui rend notamment possible la discussion sur les biais éventuels de ce type de modèle », précise Violette Lepercq, Community Builder de Hugging Face. Car les biais sexistes, homophobes et racistes sont en effet l’une des grandes limites de ces très grands modèles.
Une course de poulets sans tête ?
Pour certains, faire la course aux gros modèles ne devrait d’ailleurs pas être la seule voie à suivre. C’est l’avis de Thomas Solignac. Lui doute de la pertinence de développer à tout prix de très grands modèles, au détriment d’autres formes d’intelligence artificielle moins bluffantes, mais davantage contrôlables. « GPT-3 est un poulet sans tête, une force brute statistique qui va nous faire croire à un texte écrit par un humain. Certes, c’est un tour de force impressionnant, et en plus c’est drôle. C’est donc un joli objet marketing pour l’intelligence artificielle, mais ce n’est pas une technologie solide, elle ne génère pas de résultats logiques et prédictibles. C’est de la reproduction statistique ». Ses cas d’usage devraient, selon lui, se limiter à de l’assistance, à des tâches qui ne nécessitent pas de certitude. Pourtant ce n‘est pas tout à fait ce qu’il est en train de se produire quand Google ou Microsoft veulent en faire des super moteurs de recherche : une tâche où l’on recherche une information, donc une forme de certitude. Pour des applications requérant un plus grand contrôle, Thomas Solignac plaide plutôt pour des modèles d’IA qu’il qualifie de « clear learning » (par opposition au deep learning), « plus logique que statistique », un peu plus guidée par l’humain afin de mieux expliquer les biais, et d’être moins sensible aux données. Le sujet d’une prochaine bataille ?
Une course de poulets sans tête ? Ils se trompent, évidemment que GPT3.5, la version de chatgpt en ligne peut générer des résultats logiques et predictibles.
Exemple de question posée :
"Nous sommes en février et les niveaux des lacs, cours d'eau, sont bas. Que va t'il se passer si il ne pleut pas les deux prochains mois?"
Réponse de chatgpt sur la plate-forme d'OpenAI:
"Si les niveaux d'eau restent bas et qu'il ne pleut pas les deux prochains mois, cela pourrait avoir des conséquences négatives sur l'approvisionnement en eau potable, l'agriculture, la faune et la flore de la région. Les barrages pourraient être à sec, les cultures pourraient mourir de soif et les rivières pourraient devenir trop peu profondes pour que les poissons puissent y survivre. En outre, il pourrait y avoir une augmentation des incendies de forêt, car les conditions sont très sèches. Les autorités pourraient également imposer des restrictions d'eau pour limiter la consommation d'eau et éviter une pénurie totale."
Article très intéressant, merci !
A quand de petits modèles de « clear learning » - comme les appelle Thomas Solignac - que nous pourrons entrainer nous-même, avec nos propres données, dans une entreprise, dans un laboratoire, ou dans un métier donné, et qui pourront ainsi nous assister dans certaines tâches ?