L'IA et son développement

L’IA et les jeux de plateaux.

Les jeux de plateau comme le Shōgi (échecs japonais), les échecs et le Go sont des jeux de stratégie où la position des pions est très importante. Créer un algorithme qui permettrait de vaincre des champions humains dans ces domaines a permis de prouver qu’une IA est efficace en tant que technologie autonome. En effet, AlphaGo et DeepBlue, respectivement créées par DeepMind et IBM, ont respectivement battu le champion du monde de Go, Ke Jie, en 2017 et d’échecs, Garry Kasparov, en 1996. Cela nous permet d’en déduire qu’avec des algorithmes plus puissants, les IA battant l’être humain dans ce domaine, ont une meilleure gestion de l'environnement (ici, le plateau). Puis, AlphaZero est apparue avec pour but de dominer sur les trois jeux, face à d’autres logiciels et/ou êtres humains. Ces trois jeux possèdent des règles et des manières différentes de jouer. Pourtant, à partir des règles de bases, c’est-à-dire sans aucune aide, et de stratégies humaines, cet algorithme a réussi son objectif.

Les différentes créations de Google.

En octobre 2017, une deuxième version plus puissante d’AlphaGo (qui avait déjà gagné au jeu de Go contre le champion du monde), nommée AlphaGo Zero, voit le jour.

Ensuite, avec les données que DeepMind (entreprise rachetée par Google) a récolté sur cet algorithme, ils créèrent AlphaZero qui apprend le jeu seulement par apprentissage automatisé (c’est-à-dire qu’il s’entraîne contre lui même), méthode appelée le deep learning. Non seulement, il s’est entraîné pendant 13 jours pour le jeu de go mais il a fait la même chose pour deux autres jeux : 9 heures pour les échecs, 12 heures pour le shōgi.

DeepMind a ensuite comparé AlphaZero à un logiciel, et ce pour chaque jeu : AlphaGo Zero (le petit frère de AlphaGo) pour le jeu de Go, Stockfish pour les échecs et Elmo pour le shōgi et les résultats sont remarquables ! AlphaZero a pu montrer qu’il était de taille aux échecs avec 155 parties de gagnées sur 1000 contre 6 de perdues, en seulement 9 heures d'entraînement (donc 300.000 coups). Avec 90% de victoire au shōgi, il a surpassé le score d’Elmo en à peine 150.000 coups à l’entraînement.

Pour le jeu de go, AlphaZero a mis environ 400.000 coups avant d'atteindre le score d'AlphaGo Zero. Il s'est imposé dans 61% des matchs.

La complexité de ces algorithmes.

Ce sont des résultats très impressionnants sachant que la réalisation d’un algorithme permettant de battre un champion de ces jeux est un travail portant sur de longues années. Ces algorithmes sont principalement créés en intégrant des stratégies humaines et des mouvements bien spécifiques, tandis que l’AlphaZero apprend par lui même, sans aucune source externe d’informations, c’est-à-dire qu’il génère ses propres stratégies.

De plus, on ajoute que Kasparov, le champion du monde d’échecs, est très impressionné par la prouesse de cette intelligence artificielle car non seulement elle dépasse le score de n’importe quel être humain ou machine, mais le champion remarque aussi qu'elle possède un style de jeu beaucoup plus “humain”, d’après son ressenti, que d’autres programmes.

En effet, son style de jeu est très différent de celui des machines et logiciels. Par exemple, aux échecs contre Stockfish, lorsque ce dernier souhaite attaquer avec la reine, AlphaZero adopte tout de suite une certaine défense, en mettant son roi dans un coin éloigné de la reine adverse, et le protège en l’entourant de pions. Ainsi, avec d’autres pions comme la tour ou le fou, il essaye de faire reculer la reine en les mettant là où l’élimination est possible, alors que le roi de Stockfish est beaucoup plus accessible car la tour en F6 et le fou en C8 ont un déplacement très limité, donc moins de défense et de contre-attaque.

Il faut aussi noter qu’il possède une puissance de calcul bien supérieure aux autres logiciels, grâce aux processeurs créés par Google et dédiés aux IA.

Les nouveaux défis surmontés par l’IA.

Après avoir battu des humains dans des jeux de réflexion (échecs, Go), une nouvelle intelligence artificielle, Libratus, créée par Tuomas Sandholm et Noam Brown, a battu 4 des meilleurs joueurs de Poker au monde.

Là où les jeux de plateau sont des jeux purement stratégiques (visualisation et adaptation des positions), le Poker est beaucoup plus compliqué car la stratégie est plutôt basée sur le coup de bluff, la tromperie et l’expérience.

En outre, d’un point de vue purement scientifique, le Poker n’est pas un jeu “crackable”, c’est-à-dire que, contrairement aux jeux précédemment cités, une unique stratégie ne garantit pas la victoire. On peut donc facilement penser que les algorithmes, plutôt basés sur les calculs linéaires, ne peuvent pas surpasser les bluffs, mais l’IA a su s’adapter et gagner. Contrairement à ce qu’on a vu précédemment, toutes les informations sur l’environnement ne sont pas accessibles. Le manque d’informations sur l’adversaire par la dissimulation d'informations et la falsification (bluff) de ces celles-ci sont les plus grandes difficultés que le système peut rencontrer.

Donc, pour arriver à créer une intelligence artificielle qui peut travailler dans ce type d'environnement, son algorithme doit pouvoir exploiter le peu d’informations qu’elle possède.

Selon l’article “Une IA championne de poker ?”, Libratus, l’IA du poker, a pris 15 millions d’heures de calcul d’un supercalculateur aux Etats-Unis pour s’entraîner. Sa stratégie est basée sur un apprentissage par regret : la minimisation du regret hypothétique (Counterfactual Regret Minimization). Cette méthode est un algorithme d’apprentissage autonome (contre soi-même) et le regret est basé sur ce que l’on aurait pu gagner si on avait fait une action à tel moment dans une partie précédente.

Au commencement la stratégie est aléatoire car l’IA ne possède pas encore de regret mais chaque partie à laquelle elle participe a son importance globale au sein d’un match.

En effet, si elle perd, elle aura donc un regret et elle tentera une autre stratégie qui pourrait marcher si elle faisait la même partie. Par contre, si elle gagne, l’IA considérera que cette stratégie marche parfaitement donc elle la gardera.

Ainsi, sa stratégie se modifie en fonction des regrets cumulés afin de ne pas refaire les mêmes erreurs. Plus simplement, l’IA ne cherche pas à gagner une seule partie mais le maximum de parties.

Du 11 au 31 janvier 2017, Libratus a affronté quatre des meilleurs joueurs de poker professionnels : Jimmy Chou, Dong Kim, Jason Les et Daniel McAulay, au Texas Hold’em No-Limit restreint à deux joueurs. Les règles étaient simples, et l’objectif était d’évaluer les progrès en intelligence artificielle dans le domaine du poker, grâce à l’événement Brains VS Artificial Intelligence.

Certaines IA continuent de s’améliorer même de nuit, en tirant des conclusions de ce qu’elles ont “vécu” précédemment, afin de ne pas reproduire les erreurs du passé.

L’IA et les jeux vidéo.

L’IA est dirigée dans un but spécifique.

OpenAI est une organisation créée par Elon Musk, créateur de SpaceX, Tesla et Hyperloop, et de Sam Altman en 2015. Le but de cette organisation est de créer une intelligence artificielle qui est similaire aux humains et qui bénéficiera à toute la société. Ce collectif co-créé perfectionne toujours plus son intelligence artificielle. Cette création permettra de contredire ce que prédisait Stephen Hawking. En effet, en novembre 2017, il avait fait part de ses craintes concernant le développement de l’IA et de la façon dont elle pourrait surpasser l’humanité et finalement la remplacer.

Aujourd’hui, l’intelligence artificielle de l’OpenAI commence à concurrencer les équipes semi-professionnelles de “Dota2”. Afin de tester sa capacité d'adaptation et d’apprentissage, l’organisation teste sa nouvelle IA sur un jeu de MOBA (Multi Online Battle Arena), Dota 2, créé par Valve. Le but d’un MOBA est de créer une stratégie au sein d’une équipe de 5 afin d’abattre la base adverse.

Le choix du jeu se justifie par un apprentissage assez complexe car il faut anticiper les réactions et les actes de l’adversaire afin de les contrer tout en surveillant les jauges de mana (magie) et de vie (les deux ressources du jeu). On ajoute que la communication est primordiale dans ce genre de jeu afin d’organiser des attaques de groupes tout en faisant attention de ne pas se faire prendre en embuscade par l’équipe adverse.

L’IA d’OpenAI s’est confrontée à une équipe de 5 anciens joueurs professionnels ainsi qu’à des présentateurs spécialisés. Le match s’est déroulé en trois manches et l’IA a pu gagner deux parties sur trois. Lors de la dernière partie, elle possédait un lourd handicap. En effet, elle avait une équipe comportant des champions choisis par les adversaires, donc avec une moins bonne synergie.

Cette confrontation “humains contre l’IA” nous a montré que cette intelligence artificielle pouvait s’adapter en fonction des champions choisis et de l'environnement complexe qu’est le MOBA. Comme pour les jeux de plateau, les jeux vidéos peuvent aussi nous démontrer la capacité de gestion d’une IA et que cela peut se faire à l’échelle humaine.

Une victoire sur un jeu vidéo est ainsi beaucoup plus importante et incroyable que dans un jeu de plateau et pourrait, en plus, avoir des conséquences dans la vie de tous les jours. DeepMind ne compte donc pas s’arrêter là. En effet, elle cherche à triompher sur un autre jeu vidéo plus complexe et difficile à maîtriser : Starcraft 2.

Une différence significative avec le jeu de plateau.

De plus en plus, les humains deviennent impuissants face aux capacités de l’intelligence artificielle dans la plupart des jeux les plus difficiles à comprendre et à maîtriser, des échecs en passant par le jeu de Go ou encore les jeux vidéos compétitifs.

En effet, en résumant ce que l’on a développé précédemment, les cinq IA d’OpenAI, nommées Five, ont réussi à surpasser une équipe de joueurs professionnels de Dota 2. Cette intelligence artificielle a vaincu une équipe composée de joueurs faisant partie des 0.05% meilleurs début août 2018. Le progrès est bien présent ! Et ce, sans parler d’AlphaGo qui bat le champion du monde de Go et de AlphaZero qui fait encore mieux !

Les jeux vidéo sont incomplets et très vastes à la fois. Florian Richou, créateur de l’IA pour StarCraft 2, dit qu’il y a beaucoup de différences entre Dota 2 et le jeu de Go.

Là où on voit le plateau complet pour le jeu de Go, Dota 2 donne à l’IA une carte incomplète où les positions des adversaires ne sont pas indiquées. De plus, les actions sont bien plus importantes qu’un jeu de Go : chaque héros se déplace là où il veut et il a le choix d’attaquer, d’acheter de l’équipement et de l’utiliser, etc….

"Enfin, il y a une notion de collaboration importante. Il n'y a pas une intelligence artificielle, mais cinq qui collaborent, via des décisions individuelles visant un objectif collectif", note Florian Richoux. "C'est quelque chose que l'on n'arrivait pas à faire avant OpenAI".

Pourtant, l’IA qu’ils avaient imaginé n’est pas encore tout à fait au point. Même s’il y a des nettes progressions dans ce domaine, il est à noter que les chercheurs ont restreint les possibilités dans Dota 2 : ce jeu possède une centaine de champions différents alors que seulement une partie était disponible pour cet évènement (Ainsi que d’autres restrictions qui ont été levées lors de cette compétition).

Dota 2, contrairement à Starcraft 2, n’est pas un jeu compliqué : ce dernier est beaucoup plus stratégique. En effet, alors que, dans Dota 2, une intelligence artificielle doit seulement gérer un héros, l’IA doit gérer des ressources importantes, et ce intégralement (collecte, gestion, construction de bâtiments, unités), cela dans le seul but de détruire la base adverse.

L’utilité de confronter l’IA aux jeux vidéo.

Trouver un moyen de se rapprocher de la réalité.

La difficulté pour la création d’un algorithme de StarCraft 2 est la gestion de dizaines voire de centaines d’unités simultanément. D’ailleurs, même si DeepMind souhaite monter les échelons sur StarCraft 2, les chercheurs, pour l’instant, tentent plutôt sur des versions beaucoup plus allégées pour arriver à déplacer de la bonne manière les unités.

L’intérêt de tester des IA dans des environnements tels que le jeu vidéo est que celui-ci permet de faire un rapprochement du monde réel. Effectivement, d’après Florian Richoux, Dota 2 est semblable à la réalité, de par son aspect de gestion collaborative, ou encore la gestion de ressources dans StarCraft 2, qui peut être rapprochée de celle dans le monde réel à long terme.

Cependant, un problème majeur reste à résoudre : le temps d’entraînement. En effet, cet entraînement est très limité pour un robot car il ne peut pas se faire sur un temps “infini”, contrairement aux applications virtuelles. OpenAI commence à faire, sur des choses plus restreintes, des entraînements dans des univers virtuels dont le principe du temps n’est pas la même que dans le monde réel. Le but est que l’algorithme, à travers des univers virtuels, trouve une méthode qui serait également adaptée à notre monde réel.

Le but d'OpenAI est donc, à terme, de combiner ses avancées dans ces deux domaines pour sortir l'intelligence artificielle du monde virtuel. Reste à voir en combien de temps.

L’IA AlphaStar, nouvelle intelligence de Deepmind, a battu pour la première fois deux joueurs professionnels de StarCraft ! En résumé, ce jeu est un match 1 contre 1 où les joueurs contrôlent des unités spécifiques parmi trois dans le jeu.

Une deuxième difficulté concerne le jeu en temps réel : le jeu ne se joue pas à tour de rôle comme les jeux de plateau. La victoire repose donc sur la dextérité et la rapidité des exécutions.

Par ailleurs, le nombre de décisions possibles à chaque instant est beaucoup plus grand - de l’ordre de 1024 - alors qu’aux échecs, au poker ou au Go, cela ne dépasse pas quelques centaines. Les chercheurs, dont Florian Richoux, divisent l’apprentissage de l’IA en deux parties : Le premier est un apprentissage dit “supervisé” : on lui transmet des données de parties réelles et on lui demande de reproduire ce qu’elle voit. Le second est dit de “renforcement” : l’IA joue contre elle-même et s’améliore automatiquement.

La croissance de l’IA : entre conditions favorables et polémique

Jérémie Mary, chercheur en IA à Criteo, fait une remarque très intéressante en disant que l’IA n'atteindrait pas ce niveau si elle n’avait pas vu des parties de joueurs professionnels. En effet, si elle avait commencé depuis le tout début, elle partirait dans une méthode plus agressive et sans aucune stratégie. La question est alors la suivante : la façon de jouer de l’IA est-elle alors une imitation du jeu humain ou une planification à long terme réalisée par l’IA elle-même ? Le nombre de parties différentes est très élevé en fonction des unités ou encore le type de jeu de l’adversaire… Combien l’IA doit-elle faire de parties pour mémoriser toutes les possibilités ?

Guillaume Lample et Devendra Singh Chaplot, de l’université Carnegie, ont participé à un jeu de Doom avec une intelligence artificielle en compagnie d’Intel et de Facebook. Du côté de l’IA, celle-ci observe et analyse cet univers en 3D.

Elle fait donc un entraînement sur ce FPS (jeu de tir à la première personne) en utilisant, pour cela, la technique du Deep reinforcement Learning. Pour faire simple, c’est un apprentissage qui est basé sur la récompense. Si les objectifs sont atteints, elle sera alors récompensée et c’est ce qui l’incite à s’améliorer au fil du temps. Le problème principal réside dans les conditions de récompense. Dans ce jeu, le but est de tuer un maximum de créatures vivantes, donc cela revient à dire que les chercheurs récompensent pour avoir tuer le plus d’humains possibles. Malgré le fait que ce contexte soit très perturbant, c’est une très grande prouesse qu’elle puisse se développer aussi rapidement dans ce genre de monde en 3D.

Une question se pose rapidement pour le transfert de l’IA au monde réel : si l’IA apprend à se déplacer dans le monde réel, qui est similaire à Doom (soit en 3D), est-ce que le fait de récompenser pour le maximum de tués est le meilleur apprentissage possible ?

Si le code source de cette intelligence artificielle est disponible à d’autres entités, celles-ci peuvent le porter pour perfectionner les armes autonomes mortelles.

Cependant, malgré ces polémiques, beaucoup de chercheurs sont toujours favorables au développement de l’IA. David Silver, auteur d’une étude sur le sujet, rappelle que cette nouvelle progression dans l’intelligence artificielle ne s’arrêtera pas seulement aux jeux mais s’étendra aussi à l’échelle humaine. ”Mon rêve est de voir le même genre de systèmes appliqués pas seulement aux jeux [...], mais à des choses en tout genre dans le monde réel, par exemple dans la conception de médicaments, le design ou les biotechnologies".