Apprentissage pour les jeux d’arcade

11
APPRENTISSAGE POUR LES JEUX D’ARCADE Par Raphael Arrouas

description

Par Raphael Arrouas. Apprentissage pour les jeux d’arcade. Arcade Learning Environment. Atari 2600 : Jeux simples, appropriés à l’apprentissage Emulateur Stella (C++) Possibilité d’interagir avec l’émulateur par des FIFOs : Agents en Java, C++… Interface graphique optionnelle (simulations…). - PowerPoint PPT Presentation

Transcript of Apprentissage pour les jeux d’arcade

Page 1: Apprentissage pour les jeux d’arcade

APPRENTISSAGE POUR LES JEUX

D’ARCADE

Par Raphael Arrouas

Page 2: Apprentissage pour les jeux d’arcade

Arcade Learning Environment Atari 2600 : Jeux simples, appropriés à

l’apprentissage Emulateur Stella (C++) Possibilité d’interagir avec l’émulateur

par des FIFOs : Agents en Java, C++… Interface graphique optionnelle

(simulations…)

Page 3: Apprentissage pour les jeux d’arcade

Présentation du jeu Freeway (1981) Objectif : Traverser la route (+1 point) Pas de Game Over Voitures aux couleurs/vitesse différentes On peut créer un agent avec des règles

simples Trois actions : stay, up, down

Page 4: Apprentissage pour les jeux d’arcade

Création d’un agent autonome (1/2) Structure de la partie Agent : Classes

Java compilées dans un fichier JAR Choix de la main class en argument Création d’un agent qui hérite de

« AbstractAgent » Observation/action des agents par des

pipes

Page 5: Apprentissage pour les jeux d’arcade

Création d’un agent autonome (2/2)Problème : Sans accès aux variables du jeu, comment récupérer les informations ?

Réponse : On obtient les pixels stockés dans les pipes, et on les traite !

Page 6: Apprentissage pour les jeux d’arcade

Reconnaissance d’objets Comparaison tableau de pixel -

background fixe Création des objets, typés suivant leur

couleur (Poulet, voitures, score) Traitement de l’information : Position,

vitesse… Puis prise de décision

Page 7: Apprentissage pour les jeux d’arcade

Politique de décision Si et et : Interdiction de monter Equation semblable pour l’interdiction de

rester sur place Les tests sont hiérarchisés pour prioriser

l’action « monter » Paramètres empiriques obtenus par

tests en mode verbose

Page 8: Apprentissage pour les jeux d’arcade

Politique de décision

Page 9: Apprentissage pour les jeux d’arcade

Résultat

Score de 24 points sur le niveau 1, aucune collision !

Page 10: Apprentissage pour les jeux d’arcade

Apprentissage automatique : Le Q-Learning Multitude de situations: Etats (adaptés

au jeu si possible) Nombre d’états limités, actions soit

aléatoires soit provenant de l’agent précédent (Politique ε-greedy)

But : Maximiser une récompense (ici, le score)

Pour cela, création d’une « Q-fonction »

Page 11: Apprentissage pour les jeux d’arcade

La Q-fonction

A chaque état, associe à une action sa « qualité ». Fixée au départ, évolue grâce à l’observation des résultatsMise à jour :

(Détermine l’aspect court/long terme pour la prise en compte des récompenses