premium1
premium1
Une main robot qui joue au Go

OK, les IA nous mettent la pâtée, mais elles trichent dans leur apprentissage

Le 4 oct. 2018

Que ce soit aux échecs, au jeu de Go ou plus récemment sur le jeu multijoueur Dota 2, les IA ont tendance à nous surpasser. Mais ces dernières ont un gros avantage sur nous : elles simulent plusieurs milliers d’années d’entraînement en quelques jours.

Depuis qu’Alpha Go a vaincu le champion du monde Ke Jie en mai 2017, les intelligences artificielles n’ont pas cessé leur progression. En août 2018, c’était au tour de l’algorithme d’OpenIA de mettre une rouste à l’un des meilleurs joueurs de Dota 2 (avant de perdre, de justesse, dans un tournoi par équipe, quelques jours plus tard). D'après Greg Brockman, le directeur d’OpenAIl’algorithme aurait appris à jouer à un niveau pro en à peine deux semaines. Mais ce qu'il ne dit pas, c’est que l’entrainement a en fait duré plusieurs milliers d’années !

Pour ceux qui ne connaissent pas Dota 2, il s’agit de l’un des titres les plus populaire dans le milieu de l’eSport. Les joueurs s’affrontent par équipe de 5 dans des arènes fermées et doivent capturer la base adverse. C’est un jeu qui demande beaucoup de stratégie et dont l’ensemble du terrain n’est pas visible en début de partie. De quoi apporter un degré de complexité et d’inattendu pour une intelligence artificielle. 

La carotte sans le bâton

Pour comprendre comment fonctionne l’entraînement d’une IA et sa durée, il faut d’abord se pencher sur le type d’apprentissage. Pour les algorithmes de reconnaissance visuelle ou verbale, on parle d'apprentissage supervisé. On doit pointer du doigt l'objet ou le mot que le système doit reconnaître en lui donnant de nombreuses données.

A l'inverse, les IA qui apprennent à jouer sont livrées à elles-même. « Open IA a subi un apprentissage par renforcement, raconte David Filliat, directeur de l'Unité Informatique et Ingénierie des Systèmes à l'ENSTA ParisTech. C’est une technique qui consiste à laisser un algorithme trouver la solution tout seul à un problème, en passant par plusieurs cycles d’essais et d’erreur. » 

Comme pour le réseau de neurones en train d’apprendre à jouer à Mario, Open IA a donc commencé à zéro. L’IA a testé quelques possibilités comme avancer un personnage ou lancer des sorts. Pour le motiver à explorer cet univers et à progresser, les chercheurs vont alors lui implanter une sorte de curiosité artificielle. « Dans le cadre d’un jeu vidéo, on peut donner une récompense à l’IA en rapport avec le score qu’elle obtient. Si elle arrive à finir un niveau ou à vaincre un ennemi, ça lui rapporte une récompense et elle intègre cette nouvelle donnée pour la partie suivante. »

 

Petite IA deviendra grande

Cependant, la progression naturelle de l’IA reste très lente par rapport au cerveau humain. « Quand vous présentez un objet à un bébé et que vous le nommez, il va le retenir très rapidement indique David Filliat. Une IA qui fait de la reconnaissance visuelle a besoin de voir des milliers d’images du même objet jusqu’à ce qu’elle puisse le reconnaître. Pour l’apprentissage par renforcement, c’est le même principe. L’algorithme a besoin de milliers et de milliers de parties pour atteindre le niveau d’un jour professionnel. » Pour arriver à ce résultat, les chercheurs vont donc simuler jusqu'à 180 années de jeu par jour. Finalement, Open IA se sera entraînée 2 700 ans pour participer à ce tournoi. 

Même avec quelques victoires au compteur, les méthodes d'apprentissage des IA n'en sont qu'au début. « Nos travaux actuels consistent à réduire ce temps d'entrainement mais nous gardons une énorme avance sur les machines, prévient le chercheur. En effet, nous somme aussi capables d’appliquer ce que nous avons appris sur des choses nouvelles. Un robot peut devenir très bon au jeu de Go ou à Dota, mais il ne saura pas jouer à autre chose et il devra recommencer son apprentissage à zéro. » 

Commentaires
  • Les IA mettent plus de temps sur une qualification à plat du temps d'apprentissage mais leur vitesse d'absorption elle infiniment plus rapide que l'humain.
    Qui pourrait absorber 180 années d'expérience par jour et qui pourrait maîtriser ce jeu en seulement 2 semaines pour terrasser les cadors de la spécialité.
    Notre réseau neuronal est peut-être plus efficace mais bien moins rapide que les processeurs de ces cerveaux électroniques.
    L'un comparé à l'autre les IA vont immensément plus vite que nous.
    Nous rassurons donc notre ego mais nous ne pouvons pas travestir la réalité à ce point.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée.