Capture écran Her de Spike Jonze

GPT-3, cette IA qui parle comme toi et moi devrait bouleverser pas mal de secteurs

GPT-3 est ce qu'on appelle un « modèle de langage ». Et on vous engage à vous intéresser de très près à cet outil qui fait déjà vriller les esprits dans la Silicon Valley.

Avec un nom pareil, ce pourrait être une blague de gosse. Ce n’est pas le cas. GPT-3 est le sigle de Generative Pre-trained Transformer. Le chiffre 3 signifie que nous en sommes déjà à la troisième génération de GPT – une évolution rapide qui aura pris moins de quatre ans. GPT-3 est ce qu'on appelle un « modèle de langage » – une machine capable non seulement de décrypter des textes mais aussi d’en composer elle-même. 

« L’un des outils d’accès à l’information les plus puissants jamais inventés »

Pas dingue ? Si. Cette technologie a d'ailleurs déclenché récemment une polémique telle que le monde de la tech n'en avait pas connu depuis un moment. Black Lemoine, ingénieur chez Google et membre du pôle Responsabilité de l’I.A prétend que le générateur de chatbot du nom de LaMDA (un « modèle de langage » type GPT-3) ressentirait des états affectifs, comme un humain. Pour lui, il s'agirait même de « l’un des outils d’accès à l’information les plus puissants jamais inventés » .

Mais que sont ces « modèles de langage » ? Ils sont un peu comme des super-assistants. GPT-3 par exemple peut comprendre toutes vos questions et composer ses réponses en langage naturel. Comme Google ? Oui, mais en nettement plus impressionnant. Car il ne se contente pas de vous fournir une liste de liens pertinents, et vos questions peuvent aussi être beaucoup plus complexes. Vous pouvez, par exemple, lui demander de vous résumer la Constitution indienne en moins d’une page, de comparer l’œuvre de Shakespeare à celle des Rolling Stones ou, plus prosaïquement, de vous raconter une blague de sa composition. Entre autres nuances, il pourra composer sa réponse en mode expert ou à destination de votre cousin de 5 ans. Vous vous souvenez de C-3PO, le droïde doré de la saga Star Wars ? Franchement, on s’en approche.

GPT-3, l'ogre dévoreur de données

Pour qu’un modèle de langage fonctionne, il faut former le socle de ses connaissances. Pour cela, il aura besoin d'être gavé de beaucoup, beaucoup, beaucoup de données textuelles.

La première version de GPT date de 2018. Elle a été nourrie par le BookCorpus, une base de données de textes compilée par l’université de Toronto et le MIT. Elle regroupait 7 000 livres, soit un total d’1 million de mots et de 5 GB de données.

En 2019, GPT-2 a été entraîné avec huit millions de pages Web issues de sites comme Reddit pour un total de 40 GB de données. Cette surenchère de données avait pour objectif de rendre le modèle plus précis.

Un an après, GPT-3 a bénéficié entre autres de Common Crawl, mais aussi de 3 milliards d'unités de Wikipédia. On est loin du volume de contenu publié en ligne, qui représente près de 2,5 quintillions d’octets de données, mais l'équipe a augmenté la capacité de GPT-3 de plus de deux ordres de grandeur par rapport à celle de son prédécesseur.

GPT-3, le géant de la puissance de calcul

Pour composer ses réponses, le modèle de langage utilise un raisonnement statistique. Prenons un exemple. Pour faire la phrase suivante : « Si je veux faire une omelette, je dois avoir des… », le modèle de langage calcule le mot suivant et choisit celui qui a la plus grande chance de suivre, en l’occurrence : « œufs ». Beaucoup de données et beaucoup de calculs... GPT-3 et ses cousins ont donc besoin d'une énorme puissance de calcul.

À chaque mot ou fragment de mot – on parle d’ « unités »  – correspond une matrice de lignes et de colonnes, par laquelle il est multiplié. Cette multiplication permet de donner à chaque mot son « poids » dans la production finale, tandis que le réseau de neurones est configuré pour réduire la marge d’erreur. GPT-1 avait 110 millions de poids, GPT-2, 1,5 milliard, GPT-3, 175 milliards.

Cela signifie que chaque morceau de données d’entraînement est multiplié par 175 milliards, sur un ensemble de plusieurs milliards de bytes de données. Même si le détail de toute cette cuisine nous échappe, on comprend que tout cela mobilise une puissance de calcul colossale. Certes, on est encore très loin des millions de milliards de connexions qui s’agitent dans les cerveaux humains. Mais on s’en approche.

GPT-3 a aussi une âme d'artiste

La maison-mère de GPT-3, OpenAI, est porteuse d'un autre projet : DALL·E. Son nom est un jeu de mots (qui ne vous a sûrement pas échappé) entre le peintre Salvador Dalí et le robot WALL-E du dessin animé de Pixar. Comme son aîné GPT-3, DALL·E peut décrypter un bref écrit en langage naturel, mais lui le transformera en images ou en vidéos. Vous êtes le Petit Prince, et DALL·E peut vous dessiner un mouton… ou tout ce qui pourrait vous passer par la tête.

La première version de DALL·E a été lancée le 5 janvier 2021. C’était une version à 12 milliards de paramètres. Un peu plus d’un an après, en avril 2022, OpenAI a présenté la deuxième version de son modèle. DALL·E 2 multiplie par quatre la capacité de résolution de son prédécesseur. En plus de la composition originale d’images, il peut désormais le faire en combinant des concepts, des attributs et des styles. 

DALL·E annonce surtout l'aube d'un nouveau paradigme d'Intelligence Artificielle. C’est l’IA multimodale, qui peut combiner plusieurs sources de données (texte, voix, image, données) et de nombreux algorithmes de traitement intelligents, capables de résoudre des problèmes complexes et d’obtenir une plus grande précision. Comme les humains… mais en mieux ?

Cet article a été publié dans la revue numéro 31 de L'ADN qui consacre un dossier entier à GPT-3 et aux modèles de langage. Vous pouvez commander votre exemplaire ici.

commentaires

Participer à la conversation

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.