Non, ChatGPT ne remplacera sans doute pas Google Search. En dépit des apparences, il n’y a en réalité que la forme, nous prévient Benoît Bergeret, directeur exécutif de Metalab, technology and society à l'ESSEC Business School et cofondateur du Hub France IA.

ChatGPT, l'IA qui fait le buzz, lancée fin novembre 2022, a été adoptée en quelques jours par plus d’un million d'utilisateurs. C’est l'adoption grand public la plus rapide depuis Instagram. En janvier, le chatbot a réuni 100 millions d’utilisateurs actifs. Un coup de maître pour OpenAI, qui a ajouté une interface conversationnelle au modèle de langage GPT-3 afin d’en rendre l’utilisation accessible à tous. L'objectif était de générer massivement des données de test pour améliorer rapidement le système, et de préparer la monétisation du service.

Le succès de ChatGPT a été tel qu’on a entendu des experts et des observateurs de l’IA parler d'une « explosion cambrienne » de l'IA. La métaphore semble valide : avec les large modèles de langue, des horizons considérables s'ouvrent.

Mais ce n’est que depuis le 26 janvier dernier qu’un avertissement est affiché sur le site dédié à ChatGPT : « Cette version est une version de recherche en accès libre. Bien que des contrôles soient en place, il est possible que le système génère de l'information incorrecte ou trompeuse et produise du contenu choquant ou biaisé. »

Il était temps, car l’absence d’informations claires sur les limites du système avait déjà induit en erreur des millions d’utilisateurs.

ChatGPT, l’illusionniste

En raison de la modalité d’utilisation du système (la conversation avec une machine), beaucoup d’utilisateurs de ChatGPT pensent avoir affaire à une version évoluée d'un moteur de recherche.

Or ChatGPT est à la fois bien plus, et beaucoup moins que cela. Pour bien comprendre le problème, il est nécessaire de regarder un peu sous le capot.

Contrairement aux moteurs de recherche, ChatGPT n’a pas pour objet d’identifier les sources d'information pertinentes en fonction d’une requête, pour les trier et les présenter. A contrario, ChatGPT a été « entraîné » par l’ingurgitation d’un « jeu d’apprentissage », ensemble figé (en 2021) de millions de documents textuels. Le système évalue les requêtes reçues de l’utilisateur, et construit une réponse correcte – sur le plan grammatical. Il ne s’agit pas de sens, de fond, mais uniquement de forme ! ChatGPT ne sait pas de quoi il parle quand il vous répond.

C’est une illusion dangereuse. Meta en a fait les frais avec le retrait précipité de leur LLM Galactica, en novembre dernier, mais ce que l’on n’a pas pardonné à Meta, on le tolère de ChatGPT.

Le sens et la forme : traitement sémantique et traitement syntaxique

Le traitement sémantique du langage naturel, utilisé par exemple par les moteurs de recherche, vise à interpréter et à utiliser le sens des mots et des phrases. Pour cela, le système détermine la signification des mots, identifie les relations sémantiques entre les mots (comme la similarité, ou la synonymie), et établit la signification globale d'une phrase.

Le traitement syntaxique du langage naturel consiste, lui, à analyser la structure grammaticale des phrases en identifiant les relations syntaxiques entre les mots, comme les relations sujet-verbe-complément, ou la probabilité d’apparition d’un mot après un autre. Le sens lui échappe.

Le philosophe américain John Searle, spécialiste du langage, est formel : un système syntaxique peut donner l’impression qu'il comprend la langue, mais ne peut comprendre ni les prompts, ni les réponses produites.

Langage n’est pas pensée : les neurosciences cognitives à la rescousse

Des chercheurs en neurosciences cognitives se sont intéressés aux compétences formelle et fonctionnelle dans le domaine du langage. Les LLMs sont-ils des « machines de pensée », capables de réaliser des tâches qui nécessitent une connaissance abstraite et un raisonnement ?

Ils ont démontré que la compétence formelle du langage chez les humains repose sur des mécanismes de traitement spécialisés, alors que la compétence fonctionnelle du langage nécessite des capacités extralinguistiques, constitutives de la pensée humaine, comme le raisonnement formel, la connaissance du monde, la modélisation de la situation, et la cognition sociale.

Les LLMs échouent là où une compétence fonctionnelle est requise. Pour maîtriser l'utilisation du langage dans la vie réelle, il leur faudrait incorporer de multiples capacités cognitives non spécifiques au langage, mais requises pour la modélisation de la pensée.

Les risques de l’illusion

Ces nuances expliquent les capacités et les limites de ChatGPT. Même ses « hallucinations » deviennent compréhensibles.

Utiliser ChatGPT pour ce qu’il n’est pas, comporte des risques importants pour les personnes comme pour les entreprises, dont la responsabilité pourrait être engagée. Un étudiant qui utilise ChatGPT sans y appliquer son sens critique ne risque que sa note. Les risques pour les entreprises sont réels : diffusion d’informations erronées ou trompeuses, voire utilisation de faits créés ex nihilo par le système. C’est leur réputation qui est en jeu. Mais aussi la confiance des clients. Jusqu’au risque juridique : est-il légal d'entraîner des modèles de langage sur des textes en accès libre ? Que se passe-t-il en matière de propriété intellectuelle ? Et qu'en est-il des risques liés à l'utilisation des données personnelles ?

Le récent tweet de Sam Altman, fondateur d’OpenAI devrait être présent dans tous les esprits :

« ChatGPT est incroyablement limité, mais assez bon pour certaines choses pour créer une impression de grandeur. C’est une erreur de s’y fier pour quoi que ce soit d'important. »

Une fois le malentendu corrigé, on peut espérer qu’entreprises et utilisateurs individuels de ChatGPT feront preuve de discernement dans leur utilisation du chatbot, pour le plus grand bénéfice de la société qui dispose là d’un outil extraordinairement utile au plus grand nombre.