Apprentissage de représentation et auto-organisation modulaire pour un agent autonome
description
Transcript of Apprentissage de représentation et auto-organisation modulaire pour un agent autonome
Apprentissage de représentation et auto-organisation modulaire
pour un agent autonome
Bruno Scherrer6 janvier 2003
Directeurs : F. Alexandre, F. Charpillet
2
Construire un agent autonome
• Calculer une stratégie/politique
• Exemples– marcher– conduire une voiture– jouer au backgammon
Environnement
perception actionrenforcement
instantané
long-terme
3
Représentation et organisation modulaire
Organisationen modulesspécialisés
Organisationcentralisée
24 V
50000 V
Perception brute Représentation
?
4
S'inspirer d'un système performant
• autonome• robuste• "anytime"• dynamique• distribué & parallèle• tolérant aux pannes
réseaux fortement connectés de processeurs élémentaires
fonctionnant en parallèle
Algorithmes connexionnistes
5
Objectifs
• Montrer que les problèmes consistant à– calculer une stratégie/politique– apprendre une représentation– organiser un système en modules
admettent des solutions connexionnistes
Comprendre les enjeux computationnelsd'une telle approche
6
Plan
• Introduction• Un calcul connexionniste • Contrôle optimal et apprentissage par
renforcement• Apprentissage de représentation• Auto-organisation modulaire• Conclusions et perspectives
7
Algorithmes connexionnistes
• Connectivité• Activations• Loi(s) d'apprentissage• (A)synchronisme ? entrées
sorties
propagationsynchrone
Loi deHebb
Système dynamique généralement complexe à analyser et concevoir !
8
Un calcul connexionniste
unités
Activation
t=0
M
t=1
M M
t=∞
...
M M M...
<1Contraction Point fixe
9
Un calcul connexionniste
• Calcul du point fixe d'une contraction– Solution traditionnelle
– Solution connexionniste
calcul distribuéparallèle
asynchroneM
[Bertsekas & Tsitsiklis, 89]
10
• Propriétés du calcul du point fixe…– anytime– dynamique
… avec une méthode connexionniste– massivement parallèle
• Difficulté : taille du réseau– nombre d’itérations pour approcher le point
fixe
Bilan
11
Plan
• Introduction• Un calcul connexionniste• Contrôle optimal et apprentissage par
renforcement• Apprentissage de représentation• Auto-organisation modulaire• Conclusions et perspectives
12
Contrôle optimalétatsactionstransitionrécompense
T(s,a,s’)=P(s’|s,a)
R(s)
: S → AOn cherche une politique
qui maximise les récompenses sur le long terme
On calcule la fonction de valeur optimale :
instantané
long-terme
13
Illustration
Actions
Plan :
14
Illustration
• Récompense
15
Illustration
• Fonction de valeur optimale
récompense
16
Illustration
• Politique optimale
fonction de valeur optimale
17
Lien avec le connexionnisme
V
R
s
s'
s''
...
T(s,←,s')
T(s,↑,s'')
18
Un calcul dynamique
19
Apprentissage par renforcement
• Problème de contrôle optimal dont on ne connaît pas les paramètres a priori
• Estimation des paramètres
• Le dilemme exploration/exploitation
? ?
20
Lien avec le connexionnisme
• Dans le réseau– Estimation de R : calculée par chaque unité– Estimation de T : loi d'apprentissage du
réseau
similaire à la loi de HebbV
R
s
s'
s''
...
T(s,←,s')
T(s,↑,s'')
21
• Une architecture connexionniste pour l’apprentissage par renforcement :
• Difficulté : taille de l'espace d'états– nombre d’itérations pour le point fixe– estimation de R et T
Bilan
SATRSA
Estimation paramètres Controle
environnement
πTR
22
Plan
• Introduction• Un calcul connexionniste• Contrôle optimal et apprentissage par
renforcement• Apprentissage de représentation• Auto-organisation modulaire• Conclusions et perspectives
23
Représentation
Difficile à exploiter
24
Représentation
Chemin sous-optimal
25
Représentation
Chemin optimal
26
Qu'est-ce qu'une bonne représentation ?
Qualité
Complexité
27
Mesure de l’erreur d'approximation
• L’erreur d’approximation définie par
dépend de l’erreur d’interpolation
et est le point fixe de
• Calcul de la politique la plus incertaine
[Munos, 99]
instantané
long-terme
28
Mesure de l’erreur
• Erreur d’interpolation
29
Mesure de l’erreur
• Erreur d’approximation
30
Mesure de l’erreur
• Politique la plus incertaine
31
Réduction de l'erreur
Qualité
Complexité
Spécialisation
Généralisation
32
Réduction de l’erreur
• On peut améliorer une approximation...
…en faisant une descente de gradient :
Point fixe
instantanélong-terme
zones d'intérêt
33
Réduction de l’erreurzone d'intérêt
Spécialisation
Généralisation
34
Réduction de l’erreur
• Nouvelle représentation, nouvelles erreurs
Spécialisation
Généralisation
35
Réduction de l’erreur
• Nouvelle représentation, nouvelles erreurs
36
Réduction de l’erreur
• Nouvelle représentation, nouvelles erreurs
37
Réduction de l’erreur
• Nouvelle représentation, nouvelles erreursSpécialisation
Généralisation
38
Expériences (1/2)
39
Expériences (1/2)
40
Expériences (2/2)
41
Expériences (2/2)
42
• Une couche fonctionnelle connexionniste supplémentaire
Bilan
SATRSA
Estimation paramètres Controle
environnement
πTR
App. représentationπTR
S
TR
Optimisation du rapport complexité / qualité
43
Plan
• Introduction• Un calcul connexionniste• Contrôle optimal et apprentissage par
renforcement• Apprentissage de représentation• Auto-organisation modulaire• Conclusions et perspectives
44
Apprentissage de représentation
M
bonne représentationmauvaise représentation
45
Apprentissage de représentation
M1
M2
M3
M4
Avoir une seule représentation peut être insuffisant !
46
Apprentissage de représentations
M1
M2
M3
M4
47
Une approche modulaire
M1
M2
M3
M4
48
• L’apprentissage de représentation c’est :
• L’auto-organisation modulaire c’est :
Description
Problème de classification : nuées dynamiques
49
Expérience
6 tâches à résoudre
3 modules
50
Expérience
1
2
3
Module 1 Module 2 Module 3
51
Bilanenvironnement
SATRSA
Estimation paramètres Controle TR
App. représentationTR
S
TR
π
TR
π
π
SATRSA
Estimation paramètres Controle TR
App. représentationTR
S
Amélioration du rapport complexité / qualité
52
Plan
• Introduction• Un calcul connexionniste• Contrôle optimal et apprentissage par
renforcement• Apprentissage de représentation• Auto-organisation modulaire• Conclusions et perspectives
53
Construction d'algorithmes connexionnistes ? Calcul d'un point fixe Application à l'apprentissage par renforcement
Grand espace d'états ? Apprentissage de représentation
Multiplicité des problèmes ? Auto-organisation modulaire
Conclusions
parallélisme massif
optimisation du taux qualité / complexité
amélioration du taux qualité / complexité
54
Schémas d'approximations convergents Généricité des résultats
Validation sur des problèmes complexes Véhicule de type voiture Agent autonome devant résoudre une multitude de tâches
Conclusions
55
Perspectives
• Extensions/améliorations des travaux de thèse– Gestion adaptative des ressources– Coopération des modules– Implantation matérielle parallèle– Approximateurs de fonctions plus puissants– Le dilemme exploration/exploitation
• Liens avec des travaux de sciences cognitives