Réseaux de neurones, exploration aléatoire Comment les ...

Post on 23-Jun-2022

4 views 0 download

Transcript of Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Réseaux de neurones, exploration aléatoire...Comment les machines ont appris à

nous battre ?

J. Rocher

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Intelligence arti�cielleDe quoi parle-t-on ?L'IA et les jeux de ré�exion

Le dé� des jeux classiques

Exploration d'arbres de coupsTechniques classiques pour les échecsLa recherche �Monte-Carlo�

Réseaux de neurones et Deep learningRéseaux de neuronesApprentissage profond

AlphaGo, AlphaZero, et aprèsAlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

De quoi parle-t-on ?L'IA et les jeux de ré�exion

�Intelligence arti�cielle� : de quoi parle-t-on ?

�Machine capable d'un comportement intelligent�

IA

générale :traite touttype deproblèmes

IA

spéci�que :un seul typede problème

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

De quoi parle-t-on ?L'IA et les jeux de ré�exion

�Intelligence arti�cielle� : de quoi parle-t-on ?

�Machine capable d'un comportement intelligent�

IA

générale :traite touttype deproblèmes

IA

spéci�que :un seul typede problème

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

De quoi parle-t-on ?L'IA et les jeux de ré�exion

�Intelligence arti�cielle� : de quoi parle-t-on ?

�Machine capable d'un comportement intelligent�

IA

générale :traite touttype deproblèmes

IA

spéci�que :un seul typede problème

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

De quoi parle-t-on ?L'IA et les jeux de ré�exion

Une autre distinction

IA forte :conscience

sensibilité,esprit

IA faible :simule uncomporte-mentintelligent

En pratique : des IA faibles et spéci�ques

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

De quoi parle-t-on ?L'IA et les jeux de ré�exion

Une autre distinction

IA forte :conscience

sensibilité,esprit

IA faible :simule uncomporte-mentintelligent

En pratique : des IA faibles et spéci�ques

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

De quoi parle-t-on ?L'IA et les jeux de ré�exion

Une autre distinction

IA forte :conscience

sensibilité,esprit

IA faible :simule uncomporte-mentintelligent

En pratique : des IA faibles et spéci�ques

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

De quoi parle-t-on ?L'IA et les jeux de ré�exion

Une machine qui penserait �comme un humain�

Alan Turing,1950 :�une machinepeut-elle penser ?�

Réponse pratique :�jeu del'imitation�

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

De quoi parle-t-on ?L'IA et les jeux de ré�exion

Une machine qui penserait �comme un humain�

Alan Turing,1950 :�une machinepeut-elle penser ?�

Réponse pratique :�jeu del'imitation�

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

De quoi parle-t-on ?L'IA et les jeux de ré�exion

Des modèles du raisonnement humain ?

Jeu humain : logique, calcul

mais aussi intuition, expérimentation,créativité...

Jeu théorique :

peut être résolu par exploration exhaustive

Jeux hors d'atteinte de toute résolution :

échecs, shogi, go...

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

De quoi parle-t-on ?L'IA et les jeux de ré�exion

Des modèles du raisonnement humain ?

Jeu humain : logique, calcul

mais aussi intuition, expérimentation,créativité...

Jeu théorique :

peut être résolu par exploration exhaustive

Jeux hors d'atteinte de toute résolution :

échecs, shogi, go...

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

De quoi parle-t-on ?L'IA et les jeux de ré�exion

Des modèles du raisonnement humain ?

Jeu humain : logique, calcul

mais aussi intuition, expérimentation,créativité...

Jeu théorique :

peut être résolu par exploration exhaustive

Jeux hors d'atteinte de toute résolution :

échecs, shogi, go...

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

De quoi parle-t-on ?L'IA et les jeux de ré�exion

Des modèles du raisonnement humain ?

Jeu humain : logique, calcul

mais aussi intuition, expérimentation,créativité...

Jeu théorique :

peut être résolu par exploration exhaustive

Jeux hors d'atteinte de toute résolution :

échecs, shogi, go...

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

De quoi parle-t-on ?L'IA et les jeux de ré�exion

Des modèles du raisonnement humain ?

Jeu humain : logique, calcul

mais aussi intuition, expérimentation,créativité...

Jeu théorique :

peut être résolu par exploration exhaustive

Jeux hors d'atteinte de toute résolution :

échecs, shogi, go...

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

De quoi parle-t-on ?L'IA et les jeux de ré�exion

Des modèles du raisonnement humain ?

Jeu humain : logique, calcul

mais aussi intuition, expérimentation,créativité...

Jeu théorique :

peut être résolu par exploration exhaustive

Jeux hors d'atteinte de toute résolution :

échecs, shogi, go...

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Échecs : le roi des jeux ?

Jeu ancré dans laculture occidentale

Dé� depuis lesdébuts del'informatique

Niveau humaindépassé en 1997(DeepBlue vsKasparov)

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Échecs : le roi des jeux ?

Jeu ancré dans laculture occidentale

Dé� depuis lesdébuts del'informatique

Niveau humaindépassé en 1997(DeepBlue vsKasparov)

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Échecs : le roi des jeux ?

Jeu ancré dans laculture occidentale

Dé� depuis lesdébuts del'informatique

Niveau humaindépassé en 1997(DeepBlue vsKasparov)

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Shogi : un cousin plus subtil

Plus grand, plusde pièces

Parachutage ⇒plus de coups

Moins de nulles,un meilleuréquilibre

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Shogi : un cousin plus subtil

Plus grand, plusde pièces

Parachutage ⇒plus de coups

Moins de nulles,un meilleuréquilibre

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Shogi : un cousin plus subtil

Plus grand, plusde pièces

Parachutage ⇒plus de coups

Moins de nulles,un meilleuréquilibre

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Le go : un autre monde

Jeu d'occupationde territoire

Complexitégigantesque,incomparable auxéchecs

Longtempsconsidéréinabordable parl'IA.

Succès récents(depuis 10 ans) :révolution de l'IA.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Le go : un autre monde

Jeu d'occupationde territoire

Complexitégigantesque,incomparable auxéchecs

Longtempsconsidéréinabordable parl'IA.

Succès récents(depuis 10 ans) :révolution de l'IA.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Le go : un autre monde

Jeu d'occupationde territoire

Complexitégigantesque,incomparable auxéchecs

Longtempsconsidéréinabordable parl'IA.

Succès récents(depuis 10 ans) :révolution de l'IA.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Le go : un autre monde

Jeu d'occupationde territoire

Complexitégigantesque,incomparable auxéchecs

Longtempsconsidéréinabordable parl'IA.

Succès récents(depuis 10 ans) :révolution de l'IA.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Complexité des jeux

Estimation du nombre de parties aux échecs(Shannon, 1950) :

30× 30× 30... (80 fois environ) : environ 10120

parties !

Nombre d'atomes dans l'univers : 1080 environ

Au jeu de go : peut-être 10400 parties ?

...⇒ exploration complète impossible.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Complexité des jeux

Estimation du nombre de parties aux échecs(Shannon, 1950) :

30× 30× 30... (80 fois environ) : environ 10120

parties !

Nombre d'atomes dans l'univers : 1080 environ

Au jeu de go : peut-être 10400 parties ?

...⇒ exploration complète impossible.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Complexité des jeux

Estimation du nombre de parties aux échecs(Shannon, 1950) :

30× 30× 30... (80 fois environ) : environ 10120

parties !

Nombre d'atomes dans l'univers : 1080 environ

Au jeu de go : peut-être 10400 parties ?

...⇒ exploration complète impossible.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Complexité des jeux

Estimation du nombre de parties aux échecs(Shannon, 1950) :

30× 30× 30... (80 fois environ) : environ 10120

parties !

Nombre d'atomes dans l'univers : 1080 environ

Au jeu de go : peut-être 10400 parties ?

...⇒ exploration complète impossible.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Complexité des jeux

Estimation du nombre de parties aux échecs(Shannon, 1950) :

30× 30× 30... (80 fois environ) : environ 10120

parties !

Nombre d'atomes dans l'univers : 1080 environ

Au jeu de go : peut-être 10400 parties ?

...⇒ exploration complète impossible.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Techniques classiques pour les échecsLa recherche �Monte-Carlo�

L'algorithme Min-Max

Depuis une position donnée, arbre de coups possibles

fonction d'évaluation d'une position :

Un joueur cherche à la maximiser l'autre à laminimiser

Hypothèse du jeu idéal : on remonte les valeurs descoups optimaux.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Techniques classiques pour les échecsLa recherche �Monte-Carlo�

L'algorithme Min-Max

Depuis une position donnée, arbre de coups possibles

fonction d'évaluation d'une position :

Un joueur cherche à la maximiser l'autre à laminimiser

Hypothèse du jeu idéal : on remonte les valeurs descoups optimaux.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Techniques classiques pour les échecsLa recherche �Monte-Carlo�

L'algorithme Min-Max

Depuis une position donnée, arbre de coups possibles

fonction d'évaluation d'une position :

Un joueur cherche à la maximiser l'autre à laminimiser

Hypothèse du jeu idéal : on remonte les valeurs descoups optimaux.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Techniques classiques pour les échecsLa recherche �Monte-Carlo�

Exemple et élagage α− β

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Techniques classiques pour les échecsLa recherche �Monte-Carlo�

... Dans les programmes d'échecs

Catalogues d'ouvertures et de �nales

Excellente fonction d'évaluation dans les situations�calmes� de milieu de partie

Di�érentes adaptations du Min-Max pour n'utiliserque ces évaluations.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Techniques classiques pour les échecsLa recherche �Monte-Carlo�

... Dans les programmes d'échecs

Catalogues d'ouvertures et de �nales

Excellente fonction d'évaluation dans les situations�calmes� de milieu de partie

Di�érentes adaptations du Min-Max pour n'utiliserque ces évaluations.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Techniques classiques pour les échecsLa recherche �Monte-Carlo�

... Dans les programmes d'échecs

Catalogues d'ouvertures et de �nales

Excellente fonction d'évaluation dans les situations�calmes� de milieu de partie

Di�érentes adaptations du Min-Max pour n'utiliserque ces évaluations.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Techniques classiques pour les échecsLa recherche �Monte-Carlo�

Limites de ces méthodes

Con�ance absolue dans la fonction d'évaluation :impossible

Hypothèse du jeu idéal : déraisonnable

S'il y a trop de coups possibles (go), commentdécider lesquels explorer le plus ?

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Techniques classiques pour les échecsLa recherche �Monte-Carlo�

Limites de ces méthodes

Con�ance absolue dans la fonction d'évaluation :impossible

Hypothèse du jeu idéal : déraisonnable

S'il y a trop de coups possibles (go), commentdécider lesquels explorer le plus ?

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Techniques classiques pour les échecsLa recherche �Monte-Carlo�

Limites de ces méthodes

Con�ance absolue dans la fonction d'évaluation :impossible

Hypothèse du jeu idéal : déraisonnable

S'il y a trop de coups possibles (go), commentdécider lesquels explorer le plus ?

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Techniques classiques pour les échecsLa recherche �Monte-Carlo�

Les algorithmes MCTS

Idée : on améliore l'évaluation de chaque position àchaque visite

On choisit au hasard pondéré l'action à e�ectuer, enprivilégiant les coups prometteurs ou peu explorés.

Si on arrive sur une position non-explorée, on l'évalueen terminant la partie au hasard

On corrige alors les évaluations le long du chemin suivi

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Techniques classiques pour les échecsLa recherche �Monte-Carlo�

Les algorithmes MCTS

Idée : on améliore l'évaluation de chaque position àchaque visite

On choisit au hasard pondéré l'action à e�ectuer, enprivilégiant les coups prometteurs ou peu explorés.

Si on arrive sur une position non-explorée, on l'évalueen terminant la partie au hasard

On corrige alors les évaluations le long du chemin suivi

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Techniques classiques pour les échecsLa recherche �Monte-Carlo�

Les algorithmes MCTS

Idée : on améliore l'évaluation de chaque position àchaque visite

On choisit au hasard pondéré l'action à e�ectuer, enprivilégiant les coups prometteurs ou peu explorés.

Si on arrive sur une position non-explorée, on l'évalueen terminant la partie au hasard

On corrige alors les évaluations le long du chemin suivi

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Techniques classiques pour les échecsLa recherche �Monte-Carlo�

Les algorithmes MCTS

Idée : on améliore l'évaluation de chaque position àchaque visite

On choisit au hasard pondéré l'action à e�ectuer, enprivilégiant les coups prometteurs ou peu explorés.

Si on arrive sur une position non-explorée, on l'évalueen terminant la partie au hasard

On corrige alors les évaluations le long du chemin suivi

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Techniques classiques pour les échecsLa recherche �Monte-Carlo�

Une méthode e�cace au go

Ne nécessite pas beaucoup de connaissances etpresque pas de données

Trouve des coups originaux et inattendus

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Techniques classiques pour les échecsLa recherche �Monte-Carlo�

Une méthode e�cace au go

Ne nécessite pas beaucoup de connaissances etpresque pas de données

Trouve des coups originaux et inattendus

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Réseaux de neuronesApprentissage profond

Du neurone réel au neurone formel

Idée des débuts de l'IA : simuler le cerveau humain

Fonctionnement schématique d'un neurone :

I Plusieurs entrées, de poids di�érents (selon lessynapses)

I Si un seuil est dépassé, signal 1 en sortie, sinon 0

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Réseaux de neuronesApprentissage profond

Du neurone réel au neurone formel

Idée des débuts de l'IA : simuler le cerveau humain

Fonctionnement schématique d'un neurone :

I Plusieurs entrées, de poids di�érents (selon lessynapses)

I Si un seuil est dépassé, signal 1 en sortie, sinon 0

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Réseaux de neuronesApprentissage profond

Du neurone réel au neurone formel

Idée des débuts de l'IA : simuler le cerveau humain

Fonctionnement schématique d'un neurone :I Plusieurs entrées, de poids di�érents (selon les

synapses)

I Si un seuil est dépassé, signal 1 en sortie, sinon 0

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Réseaux de neuronesApprentissage profond

Du neurone réel au neurone formel

Idée des débuts de l'IA : simuler le cerveau humain

Fonctionnement schématique d'un neurone :I Plusieurs entrées, de poids di�érents (selon les

synapses)I Si un seuil est dépassé, signal 1 en sortie, sinon 0

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Réseaux de neuronesApprentissage profond

Modélisation

Paramètres modi�ables du neurone : poidssynaptiques (p1, p2, ...pn), biais b

Entrée (x1, x2, ...xn)

Calcul a�ne : s = p1x1 + p2x2 + ...+ pnxn + b

Application d'une �fonction seuil� (�ltrenon-linéaire) : y = φ(s)

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Réseaux de neuronesApprentissage profond

Modélisation

Paramètres modi�ables du neurone : poidssynaptiques (p1, p2, ...pn), biais b

Entrée (x1, x2, ...xn)

Calcul a�ne : s = p1x1 + p2x2 + ...+ pnxn + b

Application d'une �fonction seuil� (�ltrenon-linéaire) : y = φ(s)

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Réseaux de neuronesApprentissage profond

Modélisation

Paramètres modi�ables du neurone : poidssynaptiques (p1, p2, ...pn), biais b

Entrée (x1, x2, ...xn)

Calcul a�ne : s = p1x1 + p2x2 + ...+ pnxn + b

Application d'une �fonction seuil� (�ltrenon-linéaire) : y = φ(s)

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Réseaux de neuronesApprentissage profond

Modélisation

Paramètres modi�ables du neurone : poidssynaptiques (p1, p2, ...pn), biais b

Entrée (x1, x2, ...xn)

Calcul a�ne : s = p1x1 + p2x2 + ...+ pnxn + b

Application d'une �fonction seuil� (�ltrenon-linéaire) : y = φ(s)

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Réseaux de neuronesApprentissage profond

Apprentissage

On veut que le neurone donne une sortie attendue y∗

pour une entrée donnée

On adapte les poids (et le biais) a�n de rapprocher yde y∗ : méthode de descente de gradient

Plusieurs sorties nécessitent plusieurs neurones ; dansce cas �ltre global.

Une seule couche de neurones : ne peut pasapprendre des sorties complexes.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Réseaux de neuronesApprentissage profond

Apprentissage

On veut que le neurone donne une sortie attendue y∗

pour une entrée donnée

On adapte les poids (et le biais) a�n de rapprocher yde y∗ : méthode de descente de gradient

Plusieurs sorties nécessitent plusieurs neurones ; dansce cas �ltre global.

Une seule couche de neurones : ne peut pasapprendre des sorties complexes.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Réseaux de neuronesApprentissage profond

Apprentissage

On veut que le neurone donne une sortie attendue y∗

pour une entrée donnée

On adapte les poids (et le biais) a�n de rapprocher yde y∗ : méthode de descente de gradient

Plusieurs sorties nécessitent plusieurs neurones ; dansce cas �ltre global.

Une seule couche de neurones : ne peut pasapprendre des sorties complexes.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Réseaux de neuronesApprentissage profond

Apprentissage

On veut que le neurone donne une sortie attendue y∗

pour une entrée donnée

On adapte les poids (et le biais) a�n de rapprocher yde y∗ : méthode de descente de gradient

Plusieurs sorties nécessitent plusieurs neurones ; dansce cas �ltre global.

Une seule couche de neurones : ne peut pasapprendre des sorties complexes.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Réseaux de neuronesApprentissage profond

Perceptron multicouche

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Réseaux de neuronesApprentissage profond

Quelques limites du perceptron

Pour être précis, nécessite beaucoup de donnéesd'apprentissage

Pour ne pas �surapprendre�, nécessite beaucoup deneurones

Il vaut mieux beaucoup de couches qu'une grossecouche cachée

Aspect �boite noire� des couches intermédiaires

Améliorations : réseaux convolutifs, architecturerésiduelle...

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Réseaux de neuronesApprentissage profond

Quelques limites du perceptron

Pour être précis, nécessite beaucoup de donnéesd'apprentissage

Pour ne pas �surapprendre�, nécessite beaucoup deneurones

Il vaut mieux beaucoup de couches qu'une grossecouche cachée

Aspect �boite noire� des couches intermédiaires

Améliorations : réseaux convolutifs, architecturerésiduelle...

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Réseaux de neuronesApprentissage profond

Quelques limites du perceptron

Pour être précis, nécessite beaucoup de donnéesd'apprentissage

Pour ne pas �surapprendre�, nécessite beaucoup deneurones

Il vaut mieux beaucoup de couches qu'une grossecouche cachée

Aspect �boite noire� des couches intermédiaires

Améliorations : réseaux convolutifs, architecturerésiduelle...

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Réseaux de neuronesApprentissage profond

Quelques limites du perceptron

Pour être précis, nécessite beaucoup de donnéesd'apprentissage

Pour ne pas �surapprendre�, nécessite beaucoup deneurones

Il vaut mieux beaucoup de couches qu'une grossecouche cachée

Aspect �boite noire� des couches intermédiaires

Améliorations : réseaux convolutifs, architecturerésiduelle...

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Réseaux de neuronesApprentissage profond

Quelques limites du perceptron

Pour être précis, nécessite beaucoup de donnéesd'apprentissage

Pour ne pas �surapprendre�, nécessite beaucoup deneurones

Il vaut mieux beaucoup de couches qu'une grossecouche cachée

Aspect �boite noire� des couches intermédiaires

Améliorations : réseaux convolutifs, architecturerésiduelle...

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Réseaux de neuronesApprentissage profond

Succès historiques du �Deep learning�

dès 1986 (Y. LeCun) : système de lecture de chi�resmanuscrits (chèques)

puis un long hiver...

années 2010 : augmentation des donnéesd'apprentissage, accélération matérielle (GPU)

Application spectaculaire à la reconnaissance d'images

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Réseaux de neuronesApprentissage profond

Succès historiques du �Deep learning�

dès 1986 (Y. LeCun) : système de lecture de chi�resmanuscrits (chèques)

puis un long hiver...

années 2010 : augmentation des donnéesd'apprentissage, accélération matérielle (GPU)

Application spectaculaire à la reconnaissance d'images

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Réseaux de neuronesApprentissage profond

Succès historiques du �Deep learning�

dès 1986 (Y. LeCun) : système de lecture de chi�resmanuscrits (chèques)

puis un long hiver...

années 2010 : augmentation des donnéesd'apprentissage, accélération matérielle (GPU)

Application spectaculaire à la reconnaissance d'images

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Réseaux de neuronesApprentissage profond

Succès historiques du �Deep learning�

dès 1986 (Y. LeCun) : système de lecture de chi�resmanuscrits (chèques)

puis un long hiver...

années 2010 : augmentation des donnéesd'apprentissage, accélération matérielle (GPU)

Application spectaculaire à la reconnaissance d'images

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Imiter le jeu des joueurs forts

2 réseaux entraînés sur une base de parties KGS :

I ... à prévoir la probabilité de chaque coupI ... à prévoir le vainqueur de la partie

... résultats prédictifs appliqués à d'autres parties !

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Imiter le jeu des joueurs forts

2 réseaux entraînés sur une base de parties KGS :I ... à prévoir la probabilité de chaque coup

I ... à prévoir le vainqueur de la partie

... résultats prédictifs appliqués à d'autres parties !

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Imiter le jeu des joueurs forts

2 réseaux entraînés sur une base de parties KGS :I ... à prévoir la probabilité de chaque coupI ... à prévoir le vainqueur de la partie

... résultats prédictifs appliqués à d'autres parties !

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Imiter le jeu des joueurs forts

2 réseaux entraînés sur une base de parties KGS :I ... à prévoir la probabilité de chaque coupI ... à prévoir le vainqueur de la partie

... résultats prédictifs appliqués à d'autres parties !

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Apprentissage par renforcement

Jouer le coup jugé le plus probable donne unprogramme de niveau correct

Permet de générer un grand nombre de parties : jeucontre lui-même.

On réutilise ces parties pour entraîner de nouveau lesréseaux.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Apprentissage par renforcement

Jouer le coup jugé le plus probable donne unprogramme de niveau correct

Permet de générer un grand nombre de parties : jeucontre lui-même.

On réutilise ces parties pour entraîner de nouveau lesréseaux.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Apprentissage par renforcement

Jouer le coup jugé le plus probable donne unprogramme de niveau correct

Permet de générer un grand nombre de parties : jeucontre lui-même.

On réutilise ces parties pour entraîner de nouveau lesréseaux.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Amélioration en cours de jeu : réseaux + MCTS

Algorithme MCTS guidé par les probabilités fourniespar le réseau de neurones

Évaluations combinant le réseau de valeurs et laméthode Monte-Carlo

Algorithme complexe avec de nombreux paramètresréglables

Dépasse largement tous les programmes existants

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Amélioration en cours de jeu : réseaux + MCTS

Algorithme MCTS guidé par les probabilités fourniespar le réseau de neurones

Évaluations combinant le réseau de valeurs et laméthode Monte-Carlo

Algorithme complexe avec de nombreux paramètresréglables

Dépasse largement tous les programmes existants

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Amélioration en cours de jeu : réseaux + MCTS

Algorithme MCTS guidé par les probabilités fourniespar le réseau de neurones

Évaluations combinant le réseau de valeurs et laméthode Monte-Carlo

Algorithme complexe avec de nombreux paramètresréglables

Dépasse largement tous les programmes existants

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Amélioration en cours de jeu : réseaux + MCTS

Algorithme MCTS guidé par les probabilités fourniespar le réseau de neurones

Évaluations combinant le réseau de valeurs et laméthode Monte-Carlo

Algorithme complexe avec de nombreux paramètresréglables

Dépasse largement tous les programmes existants

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Première victoire contre un pro

Fan Hui(championd'Europe) battu5− 0 en octobre2015

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Première victoire contre un pro

Fan Hui(championd'Europe) battu5− 0 en octobre2015

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Lee Sedol

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Match contre Lee Sedol

Réseaux plus épais et entraînés sur des parties duprogramme complet

Lee Sedol, contre toute attente (des pros) perd lestrois premières

Victoire de Lee Sedol à la quatrième partie !

Et défaite à la dernière. L'humain est dépassé.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Match contre Lee Sedol

Réseaux plus épais et entraînés sur des parties duprogramme complet

Lee Sedol, contre toute attente (des pros) perd lestrois premières

Victoire de Lee Sedol à la quatrième partie !

Et défaite à la dernière. L'humain est dépassé.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Match contre Lee Sedol

Réseaux plus épais et entraînés sur des parties duprogramme complet

Lee Sedol, contre toute attente (des pros) perd lestrois premières

Victoire de Lee Sedol à la quatrième partie !

Et défaite à la dernière. L'humain est dépassé.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Match contre Lee Sedol

Réseaux plus épais et entraînés sur des parties duprogramme complet

Lee Sedol, contre toute attente (des pros) perd lestrois premières

Victoire de Lee Sedol à la quatrième partie !

Et défaite à la dernière. L'humain est dépassé.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Dernière victoire d'un humain contre la machine ?

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Dernière victoire d'un humain contre la machine ?

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Tabula rasa

Janvier 2017 : �AlphaGo Master� gagne toutes separties (60) contre des top pros puis Ke Jie 3− 0

Programme plus simple qu'AlphaGo Fan et AlphaGoLee : un seul réseau, architecture résiduelle.

AlphaGo Zero : La même architecture de réseau estréinitialisée avec des poids aléatoires, et n'apprendplus que par renforcement

Données humaines limitées au strict minimum (règles)

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Tabula rasa

Janvier 2017 : �AlphaGo Master� gagne toutes separties (60) contre des top pros puis Ke Jie 3− 0

Programme plus simple qu'AlphaGo Fan et AlphaGoLee : un seul réseau, architecture résiduelle.

AlphaGo Zero : La même architecture de réseau estréinitialisée avec des poids aléatoires, et n'apprendplus que par renforcement

Données humaines limitées au strict minimum (règles)

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Tabula rasa

Janvier 2017 : �AlphaGo Master� gagne toutes separties (60) contre des top pros puis Ke Jie 3− 0

Programme plus simple qu'AlphaGo Fan et AlphaGoLee : un seul réseau, architecture résiduelle.

AlphaGo Zero : La même architecture de réseau estréinitialisée avec des poids aléatoires, et n'apprendplus que par renforcement

Données humaines limitées au strict minimum (règles)

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Tabula rasa

Janvier 2017 : �AlphaGo Master� gagne toutes separties (60) contre des top pros puis Ke Jie 3− 0

Programme plus simple qu'AlphaGo Fan et AlphaGoLee : un seul réseau, architecture résiduelle.

AlphaGo Zero : La même architecture de réseau estréinitialisée avec des poids aléatoires, et n'apprendplus que par renforcement

Données humaines limitées au strict minimum (règles)

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Performances d'AlphaGo Zero

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Vers un algorithme général d'apprentissage ?

AlphaZero : algorithme d'apprentissage adaptable àplusieurs jeux

Essentiellement les mêmes idées qu'AlphaGo Zero :pas de données humaines hors des règles des jeux

Programme moins gourmand en ressources que lesprécédents, et apprentissage plus rapide !

Dépasse les meilleurs programmes existants auxéchecs, au shogi et au go en moins de 8 heuresd'apprentissage.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Vers un algorithme général d'apprentissage ?

AlphaZero : algorithme d'apprentissage adaptable àplusieurs jeux

Essentiellement les mêmes idées qu'AlphaGo Zero :pas de données humaines hors des règles des jeux

Programme moins gourmand en ressources que lesprécédents, et apprentissage plus rapide !

Dépasse les meilleurs programmes existants auxéchecs, au shogi et au go en moins de 8 heuresd'apprentissage.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Vers un algorithme général d'apprentissage ?

AlphaZero : algorithme d'apprentissage adaptable àplusieurs jeux

Essentiellement les mêmes idées qu'AlphaGo Zero :pas de données humaines hors des règles des jeux

Programme moins gourmand en ressources que lesprécédents, et apprentissage plus rapide !

Dépasse les meilleurs programmes existants auxéchecs, au shogi et au go en moins de 8 heuresd'apprentissage.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Vers un algorithme général d'apprentissage ?

AlphaZero : algorithme d'apprentissage adaptable àplusieurs jeux

Essentiellement les mêmes idées qu'AlphaGo Zero :pas de données humaines hors des règles des jeux

Programme moins gourmand en ressources que lesprécédents, et apprentissage plus rapide !

Dépasse les meilleurs programmes existants auxéchecs, au shogi et au go en moins de 8 heuresd'apprentissage.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?