Réseaux de neurones, exploration aléatoire Comment les ...

99

Transcript of Réseaux de neurones, exploration aléatoire Comment les ...

Page 1: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Réseaux de neurones, exploration aléatoire...Comment les machines ont appris à

nous battre ?

J. Rocher

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 2: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 3: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Intelligence arti�cielleDe quoi parle-t-on ?L'IA et les jeux de ré�exion

Le dé� des jeux classiques

Exploration d'arbres de coupsTechniques classiques pour les échecsLa recherche �Monte-Carlo�

Réseaux de neurones et Deep learningRéseaux de neuronesApprentissage profond

AlphaGo, AlphaZero, et aprèsAlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 4: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

De quoi parle-t-on ?L'IA et les jeux de ré�exion

�Intelligence arti�cielle� : de quoi parle-t-on ?

�Machine capable d'un comportement intelligent�

IA

générale :traite touttype deproblèmes

IA

spéci�que :un seul typede problème

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 5: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

De quoi parle-t-on ?L'IA et les jeux de ré�exion

�Intelligence arti�cielle� : de quoi parle-t-on ?

�Machine capable d'un comportement intelligent�

IA

générale :traite touttype deproblèmes

IA

spéci�que :un seul typede problème

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 6: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

De quoi parle-t-on ?L'IA et les jeux de ré�exion

�Intelligence arti�cielle� : de quoi parle-t-on ?

�Machine capable d'un comportement intelligent�

IA

générale :traite touttype deproblèmes

IA

spéci�que :un seul typede problème

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 7: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

De quoi parle-t-on ?L'IA et les jeux de ré�exion

Une autre distinction

IA forte :conscience

sensibilité,esprit

IA faible :simule uncomporte-mentintelligent

En pratique : des IA faibles et spéci�ques

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 8: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

De quoi parle-t-on ?L'IA et les jeux de ré�exion

Une autre distinction

IA forte :conscience

sensibilité,esprit

IA faible :simule uncomporte-mentintelligent

En pratique : des IA faibles et spéci�ques

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 9: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

De quoi parle-t-on ?L'IA et les jeux de ré�exion

Une autre distinction

IA forte :conscience

sensibilité,esprit

IA faible :simule uncomporte-mentintelligent

En pratique : des IA faibles et spéci�ques

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 10: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

De quoi parle-t-on ?L'IA et les jeux de ré�exion

Une machine qui penserait �comme un humain�

Alan Turing,1950 :�une machinepeut-elle penser ?�

Réponse pratique :�jeu del'imitation�

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 11: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

De quoi parle-t-on ?L'IA et les jeux de ré�exion

Une machine qui penserait �comme un humain�

Alan Turing,1950 :�une machinepeut-elle penser ?�

Réponse pratique :�jeu del'imitation�

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 12: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

De quoi parle-t-on ?L'IA et les jeux de ré�exion

Des modèles du raisonnement humain ?

Jeu humain : logique, calcul

mais aussi intuition, expérimentation,créativité...

Jeu théorique :

peut être résolu par exploration exhaustive

Jeux hors d'atteinte de toute résolution :

échecs, shogi, go...

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 13: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

De quoi parle-t-on ?L'IA et les jeux de ré�exion

Des modèles du raisonnement humain ?

Jeu humain : logique, calcul

mais aussi intuition, expérimentation,créativité...

Jeu théorique :

peut être résolu par exploration exhaustive

Jeux hors d'atteinte de toute résolution :

échecs, shogi, go...

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 14: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

De quoi parle-t-on ?L'IA et les jeux de ré�exion

Des modèles du raisonnement humain ?

Jeu humain : logique, calcul

mais aussi intuition, expérimentation,créativité...

Jeu théorique :

peut être résolu par exploration exhaustive

Jeux hors d'atteinte de toute résolution :

échecs, shogi, go...

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 15: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

De quoi parle-t-on ?L'IA et les jeux de ré�exion

Des modèles du raisonnement humain ?

Jeu humain : logique, calcul

mais aussi intuition, expérimentation,créativité...

Jeu théorique :

peut être résolu par exploration exhaustive

Jeux hors d'atteinte de toute résolution :

échecs, shogi, go...

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 16: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

De quoi parle-t-on ?L'IA et les jeux de ré�exion

Des modèles du raisonnement humain ?

Jeu humain : logique, calcul

mais aussi intuition, expérimentation,créativité...

Jeu théorique :

peut être résolu par exploration exhaustive

Jeux hors d'atteinte de toute résolution :

échecs, shogi, go...

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 17: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

De quoi parle-t-on ?L'IA et les jeux de ré�exion

Des modèles du raisonnement humain ?

Jeu humain : logique, calcul

mais aussi intuition, expérimentation,créativité...

Jeu théorique :

peut être résolu par exploration exhaustive

Jeux hors d'atteinte de toute résolution :

échecs, shogi, go...

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 18: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Échecs : le roi des jeux ?

Jeu ancré dans laculture occidentale

Dé� depuis lesdébuts del'informatique

Niveau humaindépassé en 1997(DeepBlue vsKasparov)

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 19: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Échecs : le roi des jeux ?

Jeu ancré dans laculture occidentale

Dé� depuis lesdébuts del'informatique

Niveau humaindépassé en 1997(DeepBlue vsKasparov)

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 20: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Échecs : le roi des jeux ?

Jeu ancré dans laculture occidentale

Dé� depuis lesdébuts del'informatique

Niveau humaindépassé en 1997(DeepBlue vsKasparov)

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 21: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Shogi : un cousin plus subtil

Plus grand, plusde pièces

Parachutage ⇒plus de coups

Moins de nulles,un meilleuréquilibre

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 22: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Shogi : un cousin plus subtil

Plus grand, plusde pièces

Parachutage ⇒plus de coups

Moins de nulles,un meilleuréquilibre

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 23: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Shogi : un cousin plus subtil

Plus grand, plusde pièces

Parachutage ⇒plus de coups

Moins de nulles,un meilleuréquilibre

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 24: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Le go : un autre monde

Jeu d'occupationde territoire

Complexitégigantesque,incomparable auxéchecs

Longtempsconsidéréinabordable parl'IA.

Succès récents(depuis 10 ans) :révolution de l'IA.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 25: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Le go : un autre monde

Jeu d'occupationde territoire

Complexitégigantesque,incomparable auxéchecs

Longtempsconsidéréinabordable parl'IA.

Succès récents(depuis 10 ans) :révolution de l'IA.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 26: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Le go : un autre monde

Jeu d'occupationde territoire

Complexitégigantesque,incomparable auxéchecs

Longtempsconsidéréinabordable parl'IA.

Succès récents(depuis 10 ans) :révolution de l'IA.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 27: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Le go : un autre monde

Jeu d'occupationde territoire

Complexitégigantesque,incomparable auxéchecs

Longtempsconsidéréinabordable parl'IA.

Succès récents(depuis 10 ans) :révolution de l'IA.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 28: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Complexité des jeux

Estimation du nombre de parties aux échecs(Shannon, 1950) :

30× 30× 30... (80 fois environ) : environ 10120

parties !

Nombre d'atomes dans l'univers : 1080 environ

Au jeu de go : peut-être 10400 parties ?

...⇒ exploration complète impossible.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 29: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Complexité des jeux

Estimation du nombre de parties aux échecs(Shannon, 1950) :

30× 30× 30... (80 fois environ) : environ 10120

parties !

Nombre d'atomes dans l'univers : 1080 environ

Au jeu de go : peut-être 10400 parties ?

...⇒ exploration complète impossible.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 30: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Complexité des jeux

Estimation du nombre de parties aux échecs(Shannon, 1950) :

30× 30× 30... (80 fois environ) : environ 10120

parties !

Nombre d'atomes dans l'univers : 1080 environ

Au jeu de go : peut-être 10400 parties ?

...⇒ exploration complète impossible.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 31: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Complexité des jeux

Estimation du nombre de parties aux échecs(Shannon, 1950) :

30× 30× 30... (80 fois environ) : environ 10120

parties !

Nombre d'atomes dans l'univers : 1080 environ

Au jeu de go : peut-être 10400 parties ?

...⇒ exploration complète impossible.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 32: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Complexité des jeux

Estimation du nombre de parties aux échecs(Shannon, 1950) :

30× 30× 30... (80 fois environ) : environ 10120

parties !

Nombre d'atomes dans l'univers : 1080 environ

Au jeu de go : peut-être 10400 parties ?

...⇒ exploration complète impossible.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 33: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Techniques classiques pour les échecsLa recherche �Monte-Carlo�

L'algorithme Min-Max

Depuis une position donnée, arbre de coups possibles

fonction d'évaluation d'une position :

Un joueur cherche à la maximiser l'autre à laminimiser

Hypothèse du jeu idéal : on remonte les valeurs descoups optimaux.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 34: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Techniques classiques pour les échecsLa recherche �Monte-Carlo�

L'algorithme Min-Max

Depuis une position donnée, arbre de coups possibles

fonction d'évaluation d'une position :

Un joueur cherche à la maximiser l'autre à laminimiser

Hypothèse du jeu idéal : on remonte les valeurs descoups optimaux.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 35: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Techniques classiques pour les échecsLa recherche �Monte-Carlo�

L'algorithme Min-Max

Depuis une position donnée, arbre de coups possibles

fonction d'évaluation d'une position :

Un joueur cherche à la maximiser l'autre à laminimiser

Hypothèse du jeu idéal : on remonte les valeurs descoups optimaux.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 36: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Techniques classiques pour les échecsLa recherche �Monte-Carlo�

Exemple et élagage α− β

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 37: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Techniques classiques pour les échecsLa recherche �Monte-Carlo�

... Dans les programmes d'échecs

Catalogues d'ouvertures et de �nales

Excellente fonction d'évaluation dans les situations�calmes� de milieu de partie

Di�érentes adaptations du Min-Max pour n'utiliserque ces évaluations.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 38: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Techniques classiques pour les échecsLa recherche �Monte-Carlo�

... Dans les programmes d'échecs

Catalogues d'ouvertures et de �nales

Excellente fonction d'évaluation dans les situations�calmes� de milieu de partie

Di�érentes adaptations du Min-Max pour n'utiliserque ces évaluations.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 39: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Techniques classiques pour les échecsLa recherche �Monte-Carlo�

... Dans les programmes d'échecs

Catalogues d'ouvertures et de �nales

Excellente fonction d'évaluation dans les situations�calmes� de milieu de partie

Di�érentes adaptations du Min-Max pour n'utiliserque ces évaluations.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 40: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Techniques classiques pour les échecsLa recherche �Monte-Carlo�

Limites de ces méthodes

Con�ance absolue dans la fonction d'évaluation :impossible

Hypothèse du jeu idéal : déraisonnable

S'il y a trop de coups possibles (go), commentdécider lesquels explorer le plus ?

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 41: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Techniques classiques pour les échecsLa recherche �Monte-Carlo�

Limites de ces méthodes

Con�ance absolue dans la fonction d'évaluation :impossible

Hypothèse du jeu idéal : déraisonnable

S'il y a trop de coups possibles (go), commentdécider lesquels explorer le plus ?

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 42: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Techniques classiques pour les échecsLa recherche �Monte-Carlo�

Limites de ces méthodes

Con�ance absolue dans la fonction d'évaluation :impossible

Hypothèse du jeu idéal : déraisonnable

S'il y a trop de coups possibles (go), commentdécider lesquels explorer le plus ?

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 43: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Techniques classiques pour les échecsLa recherche �Monte-Carlo�

Les algorithmes MCTS

Idée : on améliore l'évaluation de chaque position àchaque visite

On choisit au hasard pondéré l'action à e�ectuer, enprivilégiant les coups prometteurs ou peu explorés.

Si on arrive sur une position non-explorée, on l'évalueen terminant la partie au hasard

On corrige alors les évaluations le long du chemin suivi

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 44: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Techniques classiques pour les échecsLa recherche �Monte-Carlo�

Les algorithmes MCTS

Idée : on améliore l'évaluation de chaque position àchaque visite

On choisit au hasard pondéré l'action à e�ectuer, enprivilégiant les coups prometteurs ou peu explorés.

Si on arrive sur une position non-explorée, on l'évalueen terminant la partie au hasard

On corrige alors les évaluations le long du chemin suivi

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 45: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Techniques classiques pour les échecsLa recherche �Monte-Carlo�

Les algorithmes MCTS

Idée : on améliore l'évaluation de chaque position àchaque visite

On choisit au hasard pondéré l'action à e�ectuer, enprivilégiant les coups prometteurs ou peu explorés.

Si on arrive sur une position non-explorée, on l'évalueen terminant la partie au hasard

On corrige alors les évaluations le long du chemin suivi

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 46: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Techniques classiques pour les échecsLa recherche �Monte-Carlo�

Les algorithmes MCTS

Idée : on améliore l'évaluation de chaque position àchaque visite

On choisit au hasard pondéré l'action à e�ectuer, enprivilégiant les coups prometteurs ou peu explorés.

Si on arrive sur une position non-explorée, on l'évalueen terminant la partie au hasard

On corrige alors les évaluations le long du chemin suivi

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 47: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Techniques classiques pour les échecsLa recherche �Monte-Carlo�

Une méthode e�cace au go

Ne nécessite pas beaucoup de connaissances etpresque pas de données

Trouve des coups originaux et inattendus

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 48: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Techniques classiques pour les échecsLa recherche �Monte-Carlo�

Une méthode e�cace au go

Ne nécessite pas beaucoup de connaissances etpresque pas de données

Trouve des coups originaux et inattendus

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 49: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Réseaux de neuronesApprentissage profond

Du neurone réel au neurone formel

Idée des débuts de l'IA : simuler le cerveau humain

Fonctionnement schématique d'un neurone :

I Plusieurs entrées, de poids di�érents (selon lessynapses)

I Si un seuil est dépassé, signal 1 en sortie, sinon 0

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 50: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Réseaux de neuronesApprentissage profond

Du neurone réel au neurone formel

Idée des débuts de l'IA : simuler le cerveau humain

Fonctionnement schématique d'un neurone :

I Plusieurs entrées, de poids di�érents (selon lessynapses)

I Si un seuil est dépassé, signal 1 en sortie, sinon 0

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 51: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Réseaux de neuronesApprentissage profond

Du neurone réel au neurone formel

Idée des débuts de l'IA : simuler le cerveau humain

Fonctionnement schématique d'un neurone :I Plusieurs entrées, de poids di�érents (selon les

synapses)

I Si un seuil est dépassé, signal 1 en sortie, sinon 0

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 52: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Réseaux de neuronesApprentissage profond

Du neurone réel au neurone formel

Idée des débuts de l'IA : simuler le cerveau humain

Fonctionnement schématique d'un neurone :I Plusieurs entrées, de poids di�érents (selon les

synapses)I Si un seuil est dépassé, signal 1 en sortie, sinon 0

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 53: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Réseaux de neuronesApprentissage profond

Modélisation

Paramètres modi�ables du neurone : poidssynaptiques (p1, p2, ...pn), biais b

Entrée (x1, x2, ...xn)

Calcul a�ne : s = p1x1 + p2x2 + ...+ pnxn + b

Application d'une �fonction seuil� (�ltrenon-linéaire) : y = φ(s)

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 54: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Réseaux de neuronesApprentissage profond

Modélisation

Paramètres modi�ables du neurone : poidssynaptiques (p1, p2, ...pn), biais b

Entrée (x1, x2, ...xn)

Calcul a�ne : s = p1x1 + p2x2 + ...+ pnxn + b

Application d'une �fonction seuil� (�ltrenon-linéaire) : y = φ(s)

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 55: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Réseaux de neuronesApprentissage profond

Modélisation

Paramètres modi�ables du neurone : poidssynaptiques (p1, p2, ...pn), biais b

Entrée (x1, x2, ...xn)

Calcul a�ne : s = p1x1 + p2x2 + ...+ pnxn + b

Application d'une �fonction seuil� (�ltrenon-linéaire) : y = φ(s)

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 56: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Réseaux de neuronesApprentissage profond

Modélisation

Paramètres modi�ables du neurone : poidssynaptiques (p1, p2, ...pn), biais b

Entrée (x1, x2, ...xn)

Calcul a�ne : s = p1x1 + p2x2 + ...+ pnxn + b

Application d'une �fonction seuil� (�ltrenon-linéaire) : y = φ(s)

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 57: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Réseaux de neuronesApprentissage profond

Apprentissage

On veut que le neurone donne une sortie attendue y∗

pour une entrée donnée

On adapte les poids (et le biais) a�n de rapprocher yde y∗ : méthode de descente de gradient

Plusieurs sorties nécessitent plusieurs neurones ; dansce cas �ltre global.

Une seule couche de neurones : ne peut pasapprendre des sorties complexes.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 58: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Réseaux de neuronesApprentissage profond

Apprentissage

On veut que le neurone donne une sortie attendue y∗

pour une entrée donnée

On adapte les poids (et le biais) a�n de rapprocher yde y∗ : méthode de descente de gradient

Plusieurs sorties nécessitent plusieurs neurones ; dansce cas �ltre global.

Une seule couche de neurones : ne peut pasapprendre des sorties complexes.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 59: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Réseaux de neuronesApprentissage profond

Apprentissage

On veut que le neurone donne une sortie attendue y∗

pour une entrée donnée

On adapte les poids (et le biais) a�n de rapprocher yde y∗ : méthode de descente de gradient

Plusieurs sorties nécessitent plusieurs neurones ; dansce cas �ltre global.

Une seule couche de neurones : ne peut pasapprendre des sorties complexes.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 60: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Réseaux de neuronesApprentissage profond

Apprentissage

On veut que le neurone donne une sortie attendue y∗

pour une entrée donnée

On adapte les poids (et le biais) a�n de rapprocher yde y∗ : méthode de descente de gradient

Plusieurs sorties nécessitent plusieurs neurones ; dansce cas �ltre global.

Une seule couche de neurones : ne peut pasapprendre des sorties complexes.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 61: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Réseaux de neuronesApprentissage profond

Perceptron multicouche

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 62: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Réseaux de neuronesApprentissage profond

Quelques limites du perceptron

Pour être précis, nécessite beaucoup de donnéesd'apprentissage

Pour ne pas �surapprendre�, nécessite beaucoup deneurones

Il vaut mieux beaucoup de couches qu'une grossecouche cachée

Aspect �boite noire� des couches intermédiaires

Améliorations : réseaux convolutifs, architecturerésiduelle...

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 63: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Réseaux de neuronesApprentissage profond

Quelques limites du perceptron

Pour être précis, nécessite beaucoup de donnéesd'apprentissage

Pour ne pas �surapprendre�, nécessite beaucoup deneurones

Il vaut mieux beaucoup de couches qu'une grossecouche cachée

Aspect �boite noire� des couches intermédiaires

Améliorations : réseaux convolutifs, architecturerésiduelle...

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 64: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Réseaux de neuronesApprentissage profond

Quelques limites du perceptron

Pour être précis, nécessite beaucoup de donnéesd'apprentissage

Pour ne pas �surapprendre�, nécessite beaucoup deneurones

Il vaut mieux beaucoup de couches qu'une grossecouche cachée

Aspect �boite noire� des couches intermédiaires

Améliorations : réseaux convolutifs, architecturerésiduelle...

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 65: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Réseaux de neuronesApprentissage profond

Quelques limites du perceptron

Pour être précis, nécessite beaucoup de donnéesd'apprentissage

Pour ne pas �surapprendre�, nécessite beaucoup deneurones

Il vaut mieux beaucoup de couches qu'une grossecouche cachée

Aspect �boite noire� des couches intermédiaires

Améliorations : réseaux convolutifs, architecturerésiduelle...

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 66: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Réseaux de neuronesApprentissage profond

Quelques limites du perceptron

Pour être précis, nécessite beaucoup de donnéesd'apprentissage

Pour ne pas �surapprendre�, nécessite beaucoup deneurones

Il vaut mieux beaucoup de couches qu'une grossecouche cachée

Aspect �boite noire� des couches intermédiaires

Améliorations : réseaux convolutifs, architecturerésiduelle...

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 67: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Réseaux de neuronesApprentissage profond

Succès historiques du �Deep learning�

dès 1986 (Y. LeCun) : système de lecture de chi�resmanuscrits (chèques)

puis un long hiver...

années 2010 : augmentation des donnéesd'apprentissage, accélération matérielle (GPU)

Application spectaculaire à la reconnaissance d'images

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 68: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Réseaux de neuronesApprentissage profond

Succès historiques du �Deep learning�

dès 1986 (Y. LeCun) : système de lecture de chi�resmanuscrits (chèques)

puis un long hiver...

années 2010 : augmentation des donnéesd'apprentissage, accélération matérielle (GPU)

Application spectaculaire à la reconnaissance d'images

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 69: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Réseaux de neuronesApprentissage profond

Succès historiques du �Deep learning�

dès 1986 (Y. LeCun) : système de lecture de chi�resmanuscrits (chèques)

puis un long hiver...

années 2010 : augmentation des donnéesd'apprentissage, accélération matérielle (GPU)

Application spectaculaire à la reconnaissance d'images

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 70: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Réseaux de neuronesApprentissage profond

Succès historiques du �Deep learning�

dès 1986 (Y. LeCun) : système de lecture de chi�resmanuscrits (chèques)

puis un long hiver...

années 2010 : augmentation des donnéesd'apprentissage, accélération matérielle (GPU)

Application spectaculaire à la reconnaissance d'images

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 71: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Imiter le jeu des joueurs forts

2 réseaux entraînés sur une base de parties KGS :

I ... à prévoir la probabilité de chaque coupI ... à prévoir le vainqueur de la partie

... résultats prédictifs appliqués à d'autres parties !

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 72: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Imiter le jeu des joueurs forts

2 réseaux entraînés sur une base de parties KGS :I ... à prévoir la probabilité de chaque coup

I ... à prévoir le vainqueur de la partie

... résultats prédictifs appliqués à d'autres parties !

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 73: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Imiter le jeu des joueurs forts

2 réseaux entraînés sur une base de parties KGS :I ... à prévoir la probabilité de chaque coupI ... à prévoir le vainqueur de la partie

... résultats prédictifs appliqués à d'autres parties !

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 74: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Imiter le jeu des joueurs forts

2 réseaux entraînés sur une base de parties KGS :I ... à prévoir la probabilité de chaque coupI ... à prévoir le vainqueur de la partie

... résultats prédictifs appliqués à d'autres parties !

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 75: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Apprentissage par renforcement

Jouer le coup jugé le plus probable donne unprogramme de niveau correct

Permet de générer un grand nombre de parties : jeucontre lui-même.

On réutilise ces parties pour entraîner de nouveau lesréseaux.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 76: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Apprentissage par renforcement

Jouer le coup jugé le plus probable donne unprogramme de niveau correct

Permet de générer un grand nombre de parties : jeucontre lui-même.

On réutilise ces parties pour entraîner de nouveau lesréseaux.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 77: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Apprentissage par renforcement

Jouer le coup jugé le plus probable donne unprogramme de niveau correct

Permet de générer un grand nombre de parties : jeucontre lui-même.

On réutilise ces parties pour entraîner de nouveau lesréseaux.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 78: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Amélioration en cours de jeu : réseaux + MCTS

Algorithme MCTS guidé par les probabilités fourniespar le réseau de neurones

Évaluations combinant le réseau de valeurs et laméthode Monte-Carlo

Algorithme complexe avec de nombreux paramètresréglables

Dépasse largement tous les programmes existants

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 79: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Amélioration en cours de jeu : réseaux + MCTS

Algorithme MCTS guidé par les probabilités fourniespar le réseau de neurones

Évaluations combinant le réseau de valeurs et laméthode Monte-Carlo

Algorithme complexe avec de nombreux paramètresréglables

Dépasse largement tous les programmes existants

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 80: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Amélioration en cours de jeu : réseaux + MCTS

Algorithme MCTS guidé par les probabilités fourniespar le réseau de neurones

Évaluations combinant le réseau de valeurs et laméthode Monte-Carlo

Algorithme complexe avec de nombreux paramètresréglables

Dépasse largement tous les programmes existants

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 81: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Amélioration en cours de jeu : réseaux + MCTS

Algorithme MCTS guidé par les probabilités fourniespar le réseau de neurones

Évaluations combinant le réseau de valeurs et laméthode Monte-Carlo

Algorithme complexe avec de nombreux paramètresréglables

Dépasse largement tous les programmes existants

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 82: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Première victoire contre un pro

Fan Hui(championd'Europe) battu5− 0 en octobre2015

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 83: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Première victoire contre un pro

Fan Hui(championd'Europe) battu5− 0 en octobre2015

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 84: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Lee Sedol

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 85: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Match contre Lee Sedol

Réseaux plus épais et entraînés sur des parties duprogramme complet

Lee Sedol, contre toute attente (des pros) perd lestrois premières

Victoire de Lee Sedol à la quatrième partie !

Et défaite à la dernière. L'humain est dépassé.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 86: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Match contre Lee Sedol

Réseaux plus épais et entraînés sur des parties duprogramme complet

Lee Sedol, contre toute attente (des pros) perd lestrois premières

Victoire de Lee Sedol à la quatrième partie !

Et défaite à la dernière. L'humain est dépassé.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 87: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Match contre Lee Sedol

Réseaux plus épais et entraînés sur des parties duprogramme complet

Lee Sedol, contre toute attente (des pros) perd lestrois premières

Victoire de Lee Sedol à la quatrième partie !

Et défaite à la dernière. L'humain est dépassé.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 88: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Match contre Lee Sedol

Réseaux plus épais et entraînés sur des parties duprogramme complet

Lee Sedol, contre toute attente (des pros) perd lestrois premières

Victoire de Lee Sedol à la quatrième partie !

Et défaite à la dernière. L'humain est dépassé.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 89: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Dernière victoire d'un humain contre la machine ?

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 90: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Dernière victoire d'un humain contre la machine ?

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 91: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Tabula rasa

Janvier 2017 : �AlphaGo Master� gagne toutes separties (60) contre des top pros puis Ke Jie 3− 0

Programme plus simple qu'AlphaGo Fan et AlphaGoLee : un seul réseau, architecture résiduelle.

AlphaGo Zero : La même architecture de réseau estréinitialisée avec des poids aléatoires, et n'apprendplus que par renforcement

Données humaines limitées au strict minimum (règles)

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 92: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Tabula rasa

Janvier 2017 : �AlphaGo Master� gagne toutes separties (60) contre des top pros puis Ke Jie 3− 0

Programme plus simple qu'AlphaGo Fan et AlphaGoLee : un seul réseau, architecture résiduelle.

AlphaGo Zero : La même architecture de réseau estréinitialisée avec des poids aléatoires, et n'apprendplus que par renforcement

Données humaines limitées au strict minimum (règles)

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 93: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Tabula rasa

Janvier 2017 : �AlphaGo Master� gagne toutes separties (60) contre des top pros puis Ke Jie 3− 0

Programme plus simple qu'AlphaGo Fan et AlphaGoLee : un seul réseau, architecture résiduelle.

AlphaGo Zero : La même architecture de réseau estréinitialisée avec des poids aléatoires, et n'apprendplus que par renforcement

Données humaines limitées au strict minimum (règles)

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 94: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Tabula rasa

Janvier 2017 : �AlphaGo Master� gagne toutes separties (60) contre des top pros puis Ke Jie 3− 0

Programme plus simple qu'AlphaGo Fan et AlphaGoLee : un seul réseau, architecture résiduelle.

AlphaGo Zero : La même architecture de réseau estréinitialisée avec des poids aléatoires, et n'apprendplus que par renforcement

Données humaines limitées au strict minimum (règles)

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 95: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Performances d'AlphaGo Zero

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 96: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Vers un algorithme général d'apprentissage ?

AlphaZero : algorithme d'apprentissage adaptable àplusieurs jeux

Essentiellement les mêmes idées qu'AlphaGo Zero :pas de données humaines hors des règles des jeux

Programme moins gourmand en ressources que lesprécédents, et apprentissage plus rapide !

Dépasse les meilleurs programmes existants auxéchecs, au shogi et au go en moins de 8 heuresd'apprentissage.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 97: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Vers un algorithme général d'apprentissage ?

AlphaZero : algorithme d'apprentissage adaptable àplusieurs jeux

Essentiellement les mêmes idées qu'AlphaGo Zero :pas de données humaines hors des règles des jeux

Programme moins gourmand en ressources que lesprécédents, et apprentissage plus rapide !

Dépasse les meilleurs programmes existants auxéchecs, au shogi et au go en moins de 8 heuresd'apprentissage.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 98: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Vers un algorithme général d'apprentissage ?

AlphaZero : algorithme d'apprentissage adaptable àplusieurs jeux

Essentiellement les mêmes idées qu'AlphaGo Zero :pas de données humaines hors des règles des jeux

Programme moins gourmand en ressources que lesprécédents, et apprentissage plus rapide !

Dépasse les meilleurs programmes existants auxéchecs, au shogi et au go en moins de 8 heuresd'apprentissage.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?

Page 99: Réseaux de neurones, exploration aléatoire Comment les ...

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Vers un algorithme général d'apprentissage ?

AlphaZero : algorithme d'apprentissage adaptable àplusieurs jeux

Essentiellement les mêmes idées qu'AlphaGo Zero :pas de données humaines hors des règles des jeux

Programme moins gourmand en ressources que lesprécédents, et apprentissage plus rapide !

Dépasse les meilleurs programmes existants auxéchecs, au shogi et au go en moins de 8 heuresd'apprentissage.

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?