ChatGPT pourrait devenir un indispensable du Web au même titre que Google. Pour éviter un oligopole et la captation de nos données par un géant américain (encore une fois ! ), LightOn, startup française, s’engage à développer un modèle similaire, plus adapté aux entreprises. Son fondateur nous explique sa démarche.
ChatGPT (récemment augmenté de GPT-4) va-t-il devenir le nouvel Alpha et Omega du Web ? Si c’est le cas, nous serons, encore une fois, grandement dépendants d’une entreprise américaine, ou plutôt de deux : OpenAI et Microsoft. C’est pour cela que des startups européennes s’activent pour exister sur ce nouveau marché des intelligences artificielles génératives. C’est le cas de LightON, une société française, qui commercialise un modèle de langage auprès d’entreprises de divers secteurs. Son fondateur Laurent Daudet nous explique comment on fabrique un modèle capable de concurrencer le nouveau blockbuster du Web.
GPT-4 est sorti la semaine dernière, vous avez pu le tester. Que pensez-vous de ce modèle présenté comme bien plus performant que ses précédentes versions ?
Laurent Daudet : D’un point de vue technique, c’est assez frustrant car on ne sait pas grand-chose du fonctionnement de GPT-4. Plus le temps passe, moins OpenAI communique. Ils disent explicitement qu’ils ne veulent pas favoriser leurs concurrents. On est très loin de l’image qu’OpenAI s’est donnée au départ – une fondation dédiée à la recherche sans but lucratif. Les moyens mis dans l’entraînement de ce modèle sont colossaux – certainement près de cent millions de dollars uniquement pour les coûts de calcul. Ce lancement montre que nous sommes dans une phase d’immense accélération, où les grands acteurs avancent et de plus petits apparaissent.
Pour parler plus précisément du modèle, il est impressionnant, notamment sur certaines tâches de raisonnement mathématiques et logique. OpenAI a par ailleurs annoncé que GPT-4 était un modèle multimédia, et donc qu’il serait possible d’intégrer des images au prompt notamment. Mais on ne peut pas encore tester cette version.
Songez-vous à développer un modèle multimédia similaire ?
L.D. : Pas pour le moment, car nous ne voyons pas de cas d’usages très clairs. On se concentre sur le texte.
ChatGPT est en partie gratuit, il fonctionne bien, des entreprises et des salariés se l’approprient déjà dans leur travail de tous les jours. Comment comptez-vous concurrencer un tel succès ?
L.D. : De nombreuses entreprises ont un problème avec l’écosystème très fermé d’OpenAI et Microsoft. Envoyer des données sensibles (financières, d’assurance, de santé, ou même des données RH) sur un serveur étranger va à l’encontre de la politique de sécurité des données de certaines entreprises. C’est pour cela que nous commercialisons nos nouveaux modèles (baptisés Paradigm) en les installant directement sur l’infrastructure des entreprises clientes.
Les utilisateurs commencent à comprendre que ChatGPT est gratuit (en version de base), donc qu'ils sont le produit. Vos prompts sont utilisés pour la prochaine génération des modèles d’OpenAI. Vous transférez vos données, et votre savoir-faire en quelque sorte.
Par ailleurs, il est important de développer des alternatives à quelque chose d’aussi impactant que cette nouvelle génération d’intelligence artificielle. Il y a de la place pour plusieurs acteurs tant le marché est énorme. La manière dont on filtre les données, dont on met des garde-fous…, change les valeurs véhiculées par ces modèles. La création de valeur permise par ces modèles va être importante, mais à qui va-t-elle profiter ? Il y a de la place pour une diversité d’acteurs, et cette diversité d’acteurs est très saine dans un moment de rupture technologique.
Comment filtrez-vous les données que vous utilisez justement ?
L.D. : Tout le monde dans ce domaine utilise le même type de données. On se base sur du crawl internet générique – c’est-à-dire que l’on entraîne le modèle sur toutes les pages publiées sur le Web. Pour obtenir des modèles performants, il faut ensuite faire un filtrage de données assez fin à partir de cette base. Pour avoir des données qualitatives, on sélectionne des sites juridiques, institutionnels, des livres libres de droit, des sous-titres de films libres de droit pour le côté conversationnel… Nous faisons un filtrage pour exclure les contenus toxiques. Si des gens parlent d’un sujet avec un langage similaire à Wikipedia, cela signifie que ce n’est probablement pas de la pub, pas du porno, ni des propos racistes…
Nous travaillons aussi beaucoup sur la déduplication de données. Sur Internet, il y a énormément de contenus dupliqués – une dépêche AFP reprise par une multitude de sites d’actualité par exemple. C’est très pénalisant parce que cela donne une importance non justifiée à ces textes. Avec le recul, nous nous sommes rendu compte que les algorithmes sont meilleurs en ne voyant qu’une seule fois les données.
Que faites-vous des données de vos clients ?
L.D. : Chaque client garde ses données d’utilisation. Et on prévoit un rendez-vous 6 mois après l’installation du modèle, où on l’entraînera de nouveau à partir des données d’utilisation spécifiques à chaque client. L’idée c’est de spécifier des modèles avec leurs propres cas d’usages, et leurs propres données.
Ces modèles sont connus pour se tromper régulièrement, ce qui peut être problématique pour un usage professionnel. Comment s’en prémunir ?
L.D. : Il arrive effectivement que le modèle hallucine, même lorsqu’il travaille à partir d’un document. C’est-à-dire qu’il invente des faits qui ne sont pas dans le document, juste parce qu’il y a une cohérence linguistique. Pour éviter cela, on développe certaines méthodes inspirées du raisonnement humain. On demande par exemple aux modèles de résumer d’abord un document paragraphe par paragraphe en citant des mots-clés, et ensuite de faire un résumé en restant dans le champ sémantique de ces mots-clés. C’est sans doute ce que vous feriez si vous aviez à résumer un document de 5 pages : vous noteriez quelques mots-clés en style télégraphique sur différents passages, avant de faire votre résumé. Ce sont des paramétrages que nous faisons en fonction du cas d’usage du client. Cela nous permet de réduire drastiquement les hallucinations du modèle.
OpenAI et Microsoft bénéficient d’une importante puissance de calcul, et donc de la capacité à créer des IA a priori plus performantes que de plus petits acteurs…
L.D. : Les très gros modèles sont très puissants mais difficiles à utiliser ensuite parce qu’ils nécessitent des serveurs phénoménaux. Par exemple pour faire tourner le modèle Bloom (une initiative de la startup Hugging Face), doté de 176 milliards de paramètres, il faut un énorme serveur. Un modèle plus petit, comme le modèle MINI de LightOn à "seulement" 40 milliards de paramètres, mais entraîné sur beaucoup plus de données de haute qualité, offre de meilleures performances. Avec le recul, on est revenu de cette idée que le plus gros modèle est forcément le meilleur. C’est plutôt l’équation entre le nombre de paramètres, la quantité des données et la qualité des données d’apprentissage.
D’autant que plus un modèle est grand, plus il est gourmand en énergie…
L.D. : C’est un vrai sujet, sur lequel nous sommes de plus en plus interpellés. Le coût énergétique de l’entraînement est important, mais une fois cette étape passée, il n’est plus nécessaire d’entraîner à nouveau ces modèles pour chaque cas d’usage. On peut paramétrer les modèles, sans avoir à les entraîner à nouveau contrairement au deep learning traditionnel. Ce qui limite la consommation énergétique. Mais il y aura des challenges sur le long terme. En particulier pour des modèles utilisés par des centaines de millions d’utilisateurs...
Certains reprochent à ChatGPT de reproduire une idéologie « trop woke ». D’autres soulignent ses influences libertariennes… Les modèles de langage peuvent-ils reproduire une idéologie selon les données qu’on leur donne ?
L.D. : Ils ne sont que le miroir de ce qu’on y a mis. Ils ne sont ni woke, ni de droite, ni de gauche. On s’en porterait mieux si on arrêtait de considérer ces modèles comme autre chose qu’une machine statistique. C’est une machine extrêmement puissante, mais cela reste une machine. Le mot IA est porteur de fantasme, de contresens. Se demander, par exemple, si ces modèles ont une âme n’a aucun sens.
Sans dire qu’ils ont une âme, on peut convenir que les algorithmes infléchissent notre comportement, et reproduisent d’une certaine manière les valeurs de ceux qui les ont créés…
L.D. : C’est certain. Ces outils, parce qu’ils sont créés et utilisés d’une certaine manière, portent une façon de voir le monde et d’organiser la connaissance qui n’est pas neutre. De la même manière qu’une recherche sur Google est tout sauf objective. C’est pour cela que la diversité d’acteurs est importante. Et c’est aussi pour cela qu’il faut éduquer les gens, leur apprendre les limites de ces modèles… ChatGPT est d’ailleurs un super outil d’éveil critique à cette nouvelle technologie.
Participer à la conversation