Post on 07-Jan-2016
description
1
ApprentissageApprentissage
Jean-François Bérubé
Dans le cadre du cours IFT 6802
Université de Montréal
DIRO, 2 Avril 2003
2
Introduction : Pourquoi ?Introduction : Pourquoi ?
Approche classique de la conception d’un agent:– « L’intelligence » de l’agent est entièrement introduite
par le programmeur.
MAIS:– Le programmeur ne connaît pas toujours parfaitement
l’environnement de l’agent.– Dans un tel cas, l’apprentissage peut être la seule
façon pour un agent d’acquérir les compétences dont il a besoin.
– N’est-ce pas là une réelle forme d’autonomie et par le fait même d’intelligence?
3
Introduction : Comment ?Introduction : Comment ?
Apprendre pour un humain: facile!
Pour une machine: difficile!!!
– On aura besoin d’algorithmes précis et parfois complexes
L’apprentissage est un vaste domaine qui chevauche l’informatique, les statistiques et les domaines précis des applications
4
Plan de la présentationPlan de la présentation
L’apprentissage: aperçu général– Modèle général d’un agent qui apprend
– Présentation de quelques techniques d’apprentissage
L’apprentissage dans les systèmes multi-agents– De l’apprentissage mono-agent à multi-agents
– Qu’apprend un agent dans les SMA ?
– Caractéristiques multi-agents des apprentissages
Conclusion
5
Objectifs de l’apprentissageObjectifs de l’apprentissage
Acquisition d’une connaissance explicite par un système informatique
Construction de nouvelles connaissances ou amélioration de connaissances déjà existantes [inférence]
« Les perceptions [d’un agent] ne devraient pas seulement lui servir à choisir ses actions mais aussi à améliorer ses capacités à agir » [Russell & Norvig]
Objectif : améliorer les performances du système
6
Modèle d’un agent qui apprendModèle d’un agent qui apprend
EnvironnementGénérateur
de problèmes
Module d’apprentissage
Unité decritique
Module de performance
Standard de performance
feedback
objectifs d’apprentissage
Agent
changements
connaissances
Senseurs
Actions
Source: Russell & Norvig
7
Les formes d’apprentissageLes formes d’apprentissage Supervisé
– Un exemple de « la bonne solution » est donné pendant une phase d’entraînement
– Utilisé pour la classification, les régressions, estimation de probabilités conditionnelles
Par renforcement– Le système n’a pas accès à des exemples; il a
cependant un feedback sur ses actions– Utilisé pour le contrôle des robots
8
Apprentissage supervisé - Exemple intuitif -
Apprentissage supervisé - Exemple intuitif -
Ensemble des exemples d’entraînement
{(visage, identité)}
Exemple test
( , ?)
Anne
Jean
Maude
Eric
Paul
Qui est-ce?
Une image = profil d’un cas
Source: Yoshua Bengio
9
Apprentissage supervisé - Exemple intuitif (plus proche voisin) -
Apprentissage supervisé - Exemple intuitif (plus proche voisin) -
Choisir l’exemple d’apprentissage dontle « profil » (image) est le plus proche de celui de l’exemple test
identité=Paul
plus proche voisin
Source: Yoshua Bengio
10
Apprentissage supervisé - Deux phases -
Apprentissage supervisé - Deux phases - La phase d’entraînement
– On présente des exemples au système– L’agent « apprend » à partir des exemples
La phase d’application (ou d’utilisation)– Nouvelles situations jamais vues auparavant– On demande à l’agent de généraliser ce qu’il a
appris (faire un transfert)
11
Apprentissage supervisé - Généralisation -
Apprentissage supervisé - Généralisation - Idée: mémoriser les paires (perception,action)
pour ensuite s’en servir afin d’induire l’action à exécuter devant une situation nouvelle
On veut éviter que l’agent apprenne par cœur– Qu’il ne puisse que résoudre des problèmes
qu’il a déjà vus On veut un apprentissage qui lui permette de
généraliser– Il doit savoir faire ressortir l’essence des
exemples qu’il apprend
12
Apprentissage supervisé - Généralisation -
Apprentissage supervisé - Généralisation - Principe de la généralisation par induction
– Situation inconnue Induction de h, une approximation (maximisation de la vraisemblance) de la fonction f permettant d’associer une perception à une action
– Évaluer h(nouvelle situation) action
– Feedback mise-à-jour de la base de connaissances (ou d’exemples)
13
Apprentissage supervisé - Généralisation -
Apprentissage supervisé - Généralisation -
2 4 6 8 10
0.5
1
1.5
2
2.5
3
a. Underlying Function
Entrée : profil du cas
Sortie :valeurà prédire
Pointillé : la meilleureréponse possible étantdonnée l’entrée (maisinconnue de l’apprenant)
Chaque point:un exemple
Source: Yoshua Bengio
14
Apprentissage supervisé - Généralisation -
Apprentissage supervisé - Généralisation -
Source: Yoshua Bengio
2 4 6 8 10
0.5
1
1.5
2
2.5
3
b. Overfitting
On apprend par cœur mais ça ne généralise pas bien de nouveaux cas. Erreur faible sur les exemples d’apprentissage mais élevée en test.
15
Apprentissage supervisé - Généralisation -
Apprentissage supervisé - Généralisation -
Source: Yoshua Bengio
2 4 6 8 10
0.5
1
1.5
2
2.5
3
c. Underfitting
On a choisi un modèle trop simple (linéaire): erreur élevée en apprentissage ET en test
16
Apprentissage supervisé - Généralisation -
Apprentissage supervisé - Généralisation -
Source: Yoshua Bengio
2 4 6 8 10
0.5
1
1.5
2
2.5
3
d. Good FitLe modèle est suffisamment flexible pour capturer la forme courbe
17
Apprentissage supervisé - Arbres de décision -
Apprentissage supervisé - Arbres de décision - Un arbre de décision permet de représenter un
ensemble de fonctions booléennes associées à une activité de prise de décision
Input: situation décrite par un ensemble de propriétés Output: une décision (oui/non) relative à cette
situation
Principe:
Propriétés d’une situation
Décision à prendreDécision (oui/non)
18
Clients
Temps d’attente
J’ai faimAller ailleurs
J’ai réservé Ven ou sam Aller ailleurs
Il pleutBar
Non Oui
Non Oui
Oui
Oui Non Oui Oui
OuiNonOuiNon
Vais-je attendre ???Aucun
Peu Beaucoup
>60 30-60 10-30<10
OuiNon Non Oui
Non Oui OuiNon Non Oui
NonOui
Non Oui
r Clients(r,Beaucoup) Temps d’attente(r,10-30) J’ai faim(r,Non) J’attends(r)
Source: Russell & Norvig
Apprentissage supervisé - Arbres de décision -
Apprentissage supervisé - Arbres de décision -
19
Apprentissage supervisé - Apprendre des arbres de décision -
Apprentissage supervisé - Apprendre des arbres de décision -
Ensemble d’entraînement– Série d’exemples dans lesquels toutes les
propriétés d’une situation sont connues Comment apprendre un arbre ?
– Un exemple => un chemin dans l’arbre Arbres trop gros Quoi faire dans des situations inconnues ?
– Trouver l’arbre minimal est incalculable– Des heuristiques permettent un compromis
entre la taille de l’arbre et la difficulté de calcul
20
Apprentissage supervisé - Apprendre des arbres de décision -
Apprentissage supervisé - Apprendre des arbres de décision -
Les heuristiques d’apprentissage– Classifier les exemples en considérant d’abord
les variables les plus importantes: celles qui permettent d’obtenir une décision le plus rapidement
– On continue d’introduire des variables permettant d’obtenir une décision à partir des conséquences de sa variable parent
– Les exemples impertinents sont éliminés
21
Apprentissage supervisé - Application des arbres de décision -
Apprentissage supervisé - Application des arbres de décision -
Entraînement d’un simulateur de vol– Professeurs : 3 pilotes expérimentés– « Enseignement » : chacun répète 30 fois un
vol prédéterminé– 90000 exemples sont créés– Les exemples sont décrits par 20 variables
Résultats
– L’élève dépasse ses maîtres!!
22
Apprentissage supervisé - Réseaux de neurones -
Apprentissage supervisé - Réseaux de neurones -
Réseau composé de nœuds reliés entre eux par des arcs auxquels des poids sont associés
Exemples
23
Apprentissage par renforcement Apprentissage par renforcement Apprentissage à l’aide d’exemples:
– Professeur => exemples
– Modèle de l’environnement => faire des prédictions
– Fonction d’utilité => évaluer les actions
Mais si on a rien de tout ça ???– Utiliser les feedback reçus
– Aux échecs : gagner constitue une récompense
– Au ping pong : chaque point devient une récompense
Reinforcement learning
24
Apprentissage par renforcementApprentissage par renforcement
Principe:
Agent
Environnement
Action
Perceptions
Positif?
Évaluation
Il faut apprendre les meilleurs actions à poser et la façon d’évaluer les perceptions
25
Apprentissage par renforcement - Applications -
Apprentissage par renforcement - Applications - Joueur d’échecs (Samuel 1959-1967)
– Utilisation d’une fonction linéaire permettant d’évaluer les différentes positions
– Les poids dans cette fonction sont appris par reinforcement learning
– Les décisions du joueur virtuel finissait par s’approcher de celles des bons joueurs
Robots Utilisation dans les SMA
26
RésuméRésumé
L’agent apprend en observant:
– l’effet de ses actions Apprentissage par renforcement
– une série d’exemples (supervisé) Induction d’arbres de décision Réseaux de neurones
27
RéférencesRéférences
Bengio, Yoshua. Présentation sur les algorithmes d’apprentissage, www.iro.umontreal.ca/~bengioy
Russell, S. et Norvig, P. Artificial Intelligence A Modern Approach, Prentice-Hall, 1995, 932 pages.