Un robot avec un cerveau Planète terre pensif comme le penseur de Rodin

World model, TRM… Quels sont les modèles d’IA qui vont rendre les LLM ringards ?

En voulant quitter Meta, le chef de l’IA Yann LeCun a envoyé un message fort. Les larges modèles de langage comme ChatGPT ne seraient pas l’avenir du secteur. Quelles sont les technologies qui vont prendre la relève ?

Le divorce est à présent consommé. En charge du poste de scientifique en chef de l’intelligence artificielle chez Meta depuis 2018, le Français Yann LeCun, père du deep learning, a annoncé quitter l’entreprise de Mark Zuckerberg. Les raisons invoquées derrière ce départ en fanfare sont nombreuses et ont bien souvent trait à la réorganisation interne du groupe autour de l’industrialisation de l’IA et à son exploitation maximale permettant de rentabiliser les dizaines de milliards de dollars investis. Mais il faut aussi prendre en compte une véritable divergence de vision sur l’avenir de l’IA et notamment la survalorisation des larges modèles de langage, ou LLM, censés atteindre le stade de la fameuse « superintelligence ».

C’est quoi le « world model » ?

Pour le scientifique, les LLM sont trop limités dans leur capacité pour permettre l’avènement d’une IA capable de « comprendre » le monde, d’apprendre de manière efficiente ou bien de planifier des tâches et d’afficher de véritables raisonnements. Ces derniers sont effectivement limités par leur entraînement basé sur des textes et non sur les très nombreuses autres données sensorielles qu’un cerveau animal ou humain utilise pour apprendre et se développer. Le chercheur préfère miser sur un autre système bien différent appelé « world model », basé sur une architecture capable, comme son nom l’indique, de construire une représentation interne de son environnement.

En juin dernier, Yann LeCun avait présenté un premier world model intitulé V-JEPA 2. Spécialisée pour comprendre et prédire des séquences vidéo, cette IA intègre notamment une fonctionnalité de « physical reasoning ». Au lieu de tenter de copier maladroitement les mouvements de personnages ou d’objets, V-JEPA 2 est capable de modéliser une sorte de « bon sens » lui permettant de prédire les conséquences physiques d’une balle lancée contre un mur, par exemple.

Outre la fabrication d’images animées respectant la physique, cette IA se destine à équiper les androïdes ménagers qui commencent à émerger sur le marché. Une fois passée une phase d’entraînement de base très coûteuse en énergie et en données (on parle de plus d'un million d’heures de vidéo et d’un million d’images), l’IA est ensuite capable d’apprendre via son environnement pour continuellement s’y adapter.

Les TRM entrent dans la partie

En parallèle des prometteurs world models, d’autres types d’IA sont aussi en train d’émerger. C’est le cas des TRM, pour Tiny Recursive Models, dont le modèle a créé un petit séisme dans le milieu de l’IA en octobre dernier. Conçue par Alexia Jolicoeur-Martineau, chercheuse en intelligence artificielle au Samsung SAIT AI Lab de Montréal, cette architecture plus légère et plus rapide fonctionne de manière récursive. Concrètement, les LLM ont un défaut d’origine : celui de générer des réponses un token à la fois. Si jamais ils font une erreur en générant un mot, ils continuent de construire leur texte en incorporant cette erreur, ce qui génère les fameuses hallucinations.

De leur côté, les TRM vérifient constamment leurs réponses et peuvent les corriger avant de générer le texte d’un seul coup. Cela donne des modèles d’IA bien plus efficaces dans des tâches spécialisées, mais aussi beaucoup plus légers, moins coûteux (leur entraînement coûte moins de 500 dollars) et donc moins polluants. Dans une interview donnée au média Le Grand Continent, Alexia Jolicoeur-Martineau partage aussi l’idée selon laquelle les LLM ne sont pas l’alpha et l’oméga de l’IA et que des entraînements toujours plus coûteux en données et en énergie ne garantissent pas un meilleur rendement ou une efficacité accrue dans des tâches spécifiques.

Une myriade d’autres modèles alternatifs est aussi en cours de développement. On peut citer, par exemple, les modèles Titan de Google, qui intègrent une mémoire hybride à court et long terme pouvant mémoriser de longues séquences de données équivalant à 2 millions de tokens sans faillir, ou bien encore les SSM, pour State Space Models, qui ne traitent plus les données token par token, mais plutôt comme un flux continuellement mis à jour, évitant les coûteux recalculs des LLM et offrant une rapidité de calcul 5 fois supérieure. L’avenir de l’IA ne se situe donc pas dans un modèle généraliste pouvant tout faire, mais dans tout un écosystème de modèles plus légers et efficaces dans certaines tâches, travaillant de concert.

David-Julien Rahmil

David-Julien Rahmil

Squatteur de la rubrique Médias Mutants et Monde Créatif, j'explore les tréfonds du web et vous explique comment Internet nous rend toujours plus zinzin. Promis, demain, j'arrête Twitter.

Discutez en temps réel, anonymement et en privé, avec une autre personne inspirée par cet article.

Viens on en parle !
le livre des tendances 2026
commentaires

Participer à la conversation

Laisser un commentaire