Post on 04-Jul-2015
description
Des modeles graphiques probabilistes auxmodeles graphiques de duree
Philippe LERAYphilippe.leray@univ-nantes.fr
Equipe COnnaissances et Decision – LINA – UMR 6241Site de l’Ecole Polytechnique de l’Universite de Nantes
Introduction Modeles dynamiques
Introduction
Idee de depart
des liens entre Automates Probabilistes et ModelesGraphiques Probabilistes Dynamiques
je n’y connais pas grand chose en Automates Probabilistes
donc je vais parler de ce que je connais :-)
Contenu
introduction aux MGP
MGP dynamiques
un exemple original : modele graphique de duree
Philippe Leray MGP - RB - HMM - MGD 2/26
Introduction Modeles dynamiques
Principe des MGP
Representation des connaissances
un noeud = une variable aleatoire (v.a.)
un graphe comme modele d’independance entre les v.a.
Raisonnement
des algorithmes d’inference probabiliste tirant partie de lastructure graphique du modele
Construction
des connaissances a priori pouvant determiner tout ou partiede la structure graphique
des algorithmes d’apprentissage determinant le reste dumodele a partir de donnees
Philippe Leray MGP - RB - HMM - MGD 3/26
Introduction Modeles dynamiques
Principe des MGP
Representation des connaissances
un noeud = une variable aleatoire (v.a.)
un graphe comme modele d’independance entre les v.a.
3 familles de modeles
graphes diriges : reseaux bayesiens
graphes non diriges : reseaux de Markov (MRF)
graphes partiellement diriges : chain graphs
Philippe Leray MGP - RB - HMM - MGD 4/26
Introduction Modeles dynamiques
Reseaux bayesiens [Pearl 88]
Grade
Letter
SAT
IntelligenceDifficulty
d1d0
0.6 0.4
i1i0
0.7 0.3
i0
i1
s1s0
0.95
0.2
0.05
0.8
g1
g2
g2
l1l 0
0.1
0.4
0.99
0.9
0.6
0.01
i0,d0
i0,d1
i0,d0
i0,d1
g2 g3g1
0.3
0.05
0.9
0.5
0.4
0.25
0.08
0.3
0.3
0.7
0.02
0.2
Philippe Leray MGP - RB - HMM - MGD 5/26
Introduction Modeles dynamiques
Extensions
A de nombreux problemes
causalite : RB causal
variables continues : RB gaussien, hybride (CG)
temporalite : RB temporel , HMM, Filtre de Kalman
decision : Diagramme d’influence
classification : Naive Bayes, multinets, ...
Obs0
Weather0
Velocity0
Location0
Failure0
Obs0
Weather0
Velocity0
Location0
Failure0
Obs1
Weather1
Velocity1
Location1
Failure1
Obs2
Weather2
Velocity2
Location2
Failure2
Obs'
Weather Weather'
Velocity Velocity'
Location Location'
Failure Failure'
(c) DBN unrolled over 3 steps(b) 0(a) →
Time slice t Time slice t +1 Time slice 0 Time slice 0 Time slice 1 Time slice 2
Philippe Leray MGP - RB - HMM - MGD 6/26
Introduction Modeles dynamiques
Reseaux de Markov [Kindermann&Snell 80]
A2,1 A2,2
A3,1 A3,2 A3,3 A3,4
A4,1 A4,2 A4,3 A4,4
A2,3 A2,4
A1,1 A1,2 A1,3 A1,4
Philippe Leray MGP - RB - HMM - MGD 7/26
Introduction Modeles dynamiques
Extensions
A de nombreux problemes
des structures ”historiques” : modele d’Ising, machine deBoltzmann
+ var. latentes : Deep Belief Networks
variables continues : Gaussian MRF
temporalite : Dynamic MRF
classification : Conditional Random Field
Mrs. Green spoke today in New York
(a)
(b)
Green chairs the finance committee
B-PER I-PER OTH OTH OTH B-LOC I-LOC B-PER OTHOTHOTHOTH
its withdrawal from the UALAirways rose after announcing
KEY
Begin person nameWithin person nameBegin location name
B-PERI-PERB-LOC
Within location nameNot an entitiy
I-LOCOTH
British deal
ADJ N V IN V PRP N IN NNDT
B I O O O B I O I
POS
NPIB
Begin noun phraseWithin noun phraseNot a noun phraseNounAdjective
BIONADJ
VerbPrepositionPossesive pronounDeterminer (e.g., a, an, the)
VINPRPDT
KEY
Philippe Leray MGP - RB - HMM - MGD 8/26
Introduction Modeles dynamiques
Chains graphs [Lauritzen 96]
D
BA
IF G
EC H D
BA
IF G
EC H
Philippe Leray MGP - RB - HMM - MGD 9/26
Introduction Modeles dynamiques
Principe des MGP
Raisonnement P(X |E )?
des algorithmes d’inference probabiliste tirant partie de lastructure graphique du modele
RB, MRF, ... meme combat
probleme NP-difficile
heureusement, c’est dans le pire des cas
pour des problemes reels, il existe des algorithmes efficaces
Algorithmes
inference exacte : arbre de jonction, ...
inference approche
simulation : MCMC, filtrage particulaire, ...approximations variationnelles : Mean field, ...
Philippe Leray MGP - RB - HMM - MGD 10/26
Introduction Modeles dynamiques
Exemple : arbre de jonction
Principe
convertir le MGP en un arbre de jonction de cliques
faire circuler des messages dans cet arbre
A noter
generalisation d’un ”vieux” principe
HMM : forward-backward [Rabiner 89]BN Polyarbres : Message Passing [Pearl 88]
complexite : exponentielle par rapport a la taille des cliques
Philippe Leray MGP - RB - HMM - MGD 11/26
Introduction Modeles dynamiques
Principe des MGP
Construction
des connaissances a priori pouvant determiner tout ou partiede la structure graphique
des algorithmes d’apprentissage determinant le reste dumodele a partir de donnees
Apprentissage generatif
approcher P(X ,Y )
pas de variable cible
modele plus general ⇒biais
meilleur traitement desdonnees incompletes
Apprentissage discriminant
approcher P(Y |X )
une variable cible Yprivilegiee
modele plus specifique
meilleurs resultats sidonnees importantes
Philippe Leray MGP - RB - HMM - MGD 12/26
Introduction Modeles dynamiques
Taxonomie des taches d’apprentissage
MGP = un graphe et des parametres
apprentissage des parametres / structure donnee
apprentissage de la structure
... a partir de donnees
donnees completes : maximum de vraisemblance
donnees incompletes : exemple Expectation Maximisation[Dempster 77]
variables latentes ?
Philippe Leray MGP - RB - HMM - MGD 13/26
Introduction Modeles dynamiques
Modeles dynamiques
Quelques exemples
chaıne de Markov
modele de Markov cache (HMM)
reseaux bayesiens temporels
modeles graphiques de duree
Philippe Leray MGP - RB - HMM - MGD 14/26
Introduction Modeles dynamiques
Chaıne de Markov
Principe : modele stochastique d’un processus aleatoire
X processus aleatoire = Xt variable aleatoire
t discret (t = 1, 2, ...)
X discret, decrit par n etats distincts
pour estimer Xt , il faudrait connaıtre tout l’historique X1 aXt−1, et calculer P(Xt |X1...Xt−1)
Philippe Leray MGP - RB - HMM - MGD 15/26
Introduction Modeles dynamiques
Chaıne de Markov
Chaıne de Markov du premier ordre
l’etat courant ne depend que de l’etat precedent
P(Xt |X1...Xt−1) = P(Xt |Xt−1)
cette loi de transition d’un etat au suivant est independantede t
P(Xt = j |Xt−1 = i) = Aij
A : matrice de transition
Π : loi d’initialisation de la chaıne (P(X1))
X1
X2
XT-1
XT
...A A AΠ
Philippe Leray MGP - RB - HMM - MGD 16/26
Introduction Modeles dynamiques
Autre representation
Dans l’espace des etats
une autre maniere de representer la matrice de transition
Dormir
Jouer
Manger
0.90.050.7
0.3
0.2
0.8 0.05
Philippe Leray MGP - RB - HMM - MGD 17/26
Introduction Modeles dynamiques
Modele de Markov Cache (HMM)
Principe
la variable observee Ot n’est plus un processus markovien
par contre, elle est generee par une variable non mesuree Ht
et Ht processus markovien
A : matrice de transition de H, P(Ht |Ht−1)
B : matrice d’emission P(Ot |Ht), independante de t
Π : loi d’initialisation de la chaıne (P(H1))
HTHT-1A
OTOT-1
B
H2H1A
O2O1
B
...
BB
A
Philippe Leray MGP - RB - HMM - MGD 18/26
Introduction Modeles dynamiques
Utilisation
Prediction P(Ot+1|O1...Ot) ?
algorithme Forward-Backward == Message Passing des RB
Explication argmaxH1...HtP(H1...Ht |O1...Ot) ?
algorithme Viterbi == Inference abductive dans un RB
Apprentissage ?
D : on observe un (ou plusieurs) sequences O1...OT
donnees incompletes : H jamais mesure
quels sont les parametres Π,A,B qui maximisent lavraisemblance ?
algorithme Baum & Welch == adaptation de EM
Philippe Leray MGP - RB - HMM - MGD 19/26
Introduction Modeles dynamiques
Extensions des HMM
Factorial HMM
Input Output HMM
HTHT-1
A
OTOT-1
B
H2H1A
O2O1
...
B
BA
HMM with transition emission
Philippe Leray MGP - RB - HMM - MGD 20/26
Introduction Modeles dynamiques
Extensions des RB
2TBN = 2-time-slice bayesian network
generalisation desmodeles precedents
une ”tranche” pour t = 1
une ”tranche” pour t(= un graphe reliant les Xt)
des relations entre t et t + 1
Philippe Leray MGP - RB - HMM - MGD 21/26
Introduction Modeles dynamiques
Inference dans les 2TBN
Inference exacte
adaptation du Forward-backwardconversion du 2TBN en HMM, pratique si NH petit
unrolled junction treederouler le 2TBN sur T et appliquer algo ”statique”,pb = grandes cliques
Frontier algorithm [Zweig 96]
Interface algorithm [Murphy 01]
filtrage et lissage de Kalman [Minka 98]
Inference approchee
algorithmes deterministes
algorithmes stochastiques (echantillonnage)
Philippe Leray MGP - RB - HMM - MGD 22/26
Introduction Modeles dynamiques
Apprentissage des 2TBN
Apprentissage de la structure
Adaptation des algos / modeles statiques
recherche gloutonne [Friedman 98]
algorithmes genetiques [Gao et al. 07]
recherche globale + optimisation globale [Dojer 06] [Vinh etal. 12] [Trabelsi et al. 13]
+ EM si donnees incompletes (complique)
Apprentissage des parametres
Adaptation des algos / modeles statiques
maximum de vraisemblance
+ EM si donnees incompletes (plus facile)
Philippe Leray MGP - RB - HMM - MGD 23/26
Introduction Modeles dynamiques
Modeles graphiques de duree
Point de depart
chaıne de Markov : la loi de duree (temps de sejour) dans unetat est geometrique
modeles graphiques de duree : considerer le temps de sejourdirectement dans le modele [Murphy 02]
extensions + travaux dans le domaine de la fiabilite [Donat 09]
Philippe Leray MGP - RB - HMM - MGD 24/26
Introduction Modeles dynamiques
Modeles graphiques de duree
État du système
Var. exogènes
Temps de séjour
Déclencher une transition
Philippe Leray MGP - RB - HMM - MGD 25/26
Introduction Modeles dynamiques
Conclusion ...
... qui n’en est pas une
plusieurs moyens de modeliser un processus aleatoire de plusen plus complexe
introduction aux modeles graphiques probabilistes dynamiques
des liens etroits avec les automates probabilistes
une ouverture ?
des modeles qu’il faudrait confronter ?
des liens qu’il faudrait creuser ?
Philippe Leray MGP - RB - HMM - MGD 26/26