Des modèles graphiques probabilistes aux modeles graphiques de durée

Des modeles graphiques probabilistes auxmodeles graphiques de duree

Philippe LERAYphilippe.leray@univ-nantes.fr

Equipe COnnaissances et Decision – LINA – UMR 6241Site de l’Ecole Polytechnique de l’Universite de Nantes

Introduction Modeles dynamiques

Introduction

Idee de depart

des liens entre Automates Probabilistes et ModelesGraphiques Probabilistes Dynamiques

je n’y connais pas grand chose en Automates Probabilistes

donc je vais parler de ce que je connais :-)

Contenu

introduction aux MGP

MGP dynamiques

un exemple original : modele graphique de duree

Philippe Leray MGP - RB - HMM - MGD 2/26

Principe des MGP

Representation des connaissances

un noeud = une variable aleatoire (v.a.)

un graphe comme modele d’independance entre les v.a.

Raisonnement

des algorithmes d’inference probabiliste tirant partie de lastructure graphique du modele

Construction

des connaissances a priori pouvant determiner tout ou partiede la structure graphique

des algorithmes d’apprentissage determinant le reste dumodele a partir de donnees

Principe des MGP

Representation des connaissances

un noeud = une variable aleatoire (v.a.)

un graphe comme modele d’independance entre les v.a.

3 familles de modeles

graphes diriges : reseaux bayesiens

graphes non diriges : reseaux de Markov (MRF)

graphes partiellement diriges : chain graphs

Reseaux bayesiens [Pearl 88]

Letter

IntelligenceDifficulty

0.6 0.4

0.7 0.3

g2 g3g1

Extensions

A de nombreux problemes

causalite : RB causal

variables continues : RB gaussien, hybride (CG)

temporalite : RB temporel , HMM, Filtre de Kalman

decision : Diagramme d’influence

classification : Naive Bayes, multinets, ...

Weather0

Velocity0

Location0

Failure0

Weather0

Velocity0

Location0

Failure0

Weather1

Velocity1

Location1

Failure1

Weather2

Velocity2

Location2

Failure2

Weather Weather'

Velocity Velocity'

Location Location'

Failure Failure'

(c) DBN unrolled over 3 steps(b) 0(a) →

Time slice t Time slice t +1 Time slice 0 Time slice 0 Time slice 1 Time slice 2

Reseaux de Markov [Kindermann&Snell 80]

A2,1 A2,2

A3,1 A3,2 A3,3 A3,4

A4,1 A4,2 A4,3 A4,4

A2,3 A2,4

A1,1 A1,2 A1,3 A1,4

Extensions

A de nombreux problemes

des structures ”historiques” : modele d’Ising, machine deBoltzmann

+ var. latentes : Deep Belief Networks

variables continues : Gaussian MRF

temporalite : Dynamic MRF

classification : Conditional Random Field

Mrs. Green spoke today in New York

Green chairs the finance committee

B-PER I-PER OTH OTH OTH B-LOC I-LOC B-PER OTHOTHOTHOTH

its withdrawal from the UALAirways rose after announcing

Begin person nameWithin person nameBegin location name

B-PERI-PERB-LOC

Within location nameNot an entitiy

I-LOCOTH

British deal

ADJ N V IN V PRP N IN NNDT

B I O O O B I O I

Begin noun phraseWithin noun phraseNot a noun phraseNounAdjective

BIONADJ

VerbPrepositionPossesive pronounDeterminer (e.g., a, an, the)

VINPRPDT

Chains graphs [Lauritzen 96]

EC H D

Principe des MGP

Raisonnement P(X |E )?

des algorithmes d’inference probabiliste tirant partie de lastructure graphique du modele

RB, MRF, ... meme combat

probleme NP-difficile

heureusement, c’est dans le pire des cas

pour des problemes reels, il existe des algorithmes efficaces

Algorithmes

inference exacte : arbre de jonction, ...

inference approche

simulation : MCMC, filtrage particulaire, ...approximations variationnelles : Mean field, ...

Exemple : arbre de jonction

Principe

convertir le MGP en un arbre de jonction de cliques

faire circuler des messages dans cet arbre

A noter

generalisation d’un ”vieux” principe

HMM : forward-backward [Rabiner 89]BN Polyarbres : Message Passing [Pearl 88]

complexite : exponentielle par rapport a la taille des cliques

Principe des MGP

Construction

des connaissances a priori pouvant determiner tout ou partiede la structure graphique

des algorithmes d’apprentissage determinant le reste dumodele a partir de donnees

Apprentissage generatif

approcher P(X ,Y )

pas de variable cible

modele plus general ⇒biais

meilleur traitement desdonnees incompletes

Apprentissage discriminant

approcher P(Y |X )

une variable cible Yprivilegiee

modele plus specifique

meilleurs resultats sidonnees importantes

Taxonomie des taches d’apprentissage

MGP = un graphe et des parametres

apprentissage des parametres / structure donnee

apprentissage de la structure

... a partir de donnees

donnees completes : maximum de vraisemblance

donnees incompletes : exemple Expectation Maximisation[Dempster 77]

variables latentes ?

Modeles dynamiques

Quelques exemples

chaıne de Markov

modele de Markov cache (HMM)

reseaux bayesiens temporels

modeles graphiques de duree

Chaıne de Markov

Principe : modele stochastique d’un processus aleatoire

X processus aleatoire = Xt variable aleatoire

t discret (t = 1, 2, ...)

X discret, decrit par n etats distincts

pour estimer Xt , il faudrait connaıtre tout l’historique X1 aXt−1, et calculer P(Xt |X1...Xt−1)

Chaıne de Markov

Chaıne de Markov du premier ordre

l’etat courant ne depend que de l’etat precedent

P(Xt |X1...Xt−1) = P(Xt |Xt−1)

cette loi de transition d’un etat au suivant est independantede t

P(Xt = j |Xt−1 = i) = Aij

A : matrice de transition

Π : loi d’initialisation de la chaıne (P(X1))

...A A AΠ

Autre representation

Dans l’espace des etats

une autre maniere de representer la matrice de transition

Dormir

Manger

0.90.050.7

0.8 0.05

Modele de Markov Cache (HMM)

Principe

la variable observee Ot n’est plus un processus markovien

par contre, elle est generee par une variable non mesuree Ht

et Ht processus markovien

A : matrice de transition de H, P(Ht |Ht−1)

B : matrice d’emission P(Ot |Ht), independante de t

Π : loi d’initialisation de la chaıne (P(H1))

HTHT-1A

OTOT-1

Utilisation

Prediction P(Ot+1|O1...Ot) ?

algorithme Forward-Backward == Message Passing des RB

Explication argmaxH1...HtP(H1...Ht |O1...Ot) ?

algorithme Viterbi == Inference abductive dans un RB

Apprentissage ?

D : on observe un (ou plusieurs) sequences O1...OT

donnees incompletes : H jamais mesure

quels sont les parametres Π,A,B qui maximisent lavraisemblance ?

algorithme Baum & Welch == adaptation de EM

Extensions des HMM

Factorial HMM

Input Output HMM

HTHT-1

OTOT-1

HMM with transition emission

Extensions des RB

2TBN = 2-time-slice bayesian network

generalisation desmodeles precedents

une ”tranche” pour t = 1

une ”tranche” pour t(= un graphe reliant les Xt)

des relations entre t et t + 1

Inference dans les 2TBN

Inference exacte

adaptation du Forward-backwardconversion du 2TBN en HMM, pratique si NH petit

unrolled junction treederouler le 2TBN sur T et appliquer algo ”statique”,pb = grandes cliques

Frontier algorithm [Zweig 96]

Interface algorithm [Murphy 01]

filtrage et lissage de Kalman [Minka 98]

Inference approchee

algorithmes deterministes

algorithmes stochastiques (echantillonnage)

Apprentissage des 2TBN

Apprentissage de la structure

Adaptation des algos / modeles statiques

recherche gloutonne [Friedman 98]

algorithmes genetiques [Gao et al. 07]

recherche globale + optimisation globale [Dojer 06] [Vinh etal. 12] [Trabelsi et al. 13]

+ EM si donnees incompletes (complique)

Apprentissage des parametres

Adaptation des algos / modeles statiques

maximum de vraisemblance

+ EM si donnees incompletes (plus facile)

Modeles graphiques de duree

Point de depart

chaıne de Markov : la loi de duree (temps de sejour) dans unetat est geometrique

modeles graphiques de duree : considerer le temps de sejourdirectement dans le modele [Murphy 02]

extensions + travaux dans le domaine de la fiabilite [Donat 09]

Modeles graphiques de duree

État du système

Var. exogènes

Temps de séjour

Déclencher une transition

Conclusion ...

... qui n’en est pas une

plusieurs moyens de modeliser un processus aleatoire de plusen plus complexe

introduction aux modeles graphiques probabilistes dynamiques

des liens etroits avec les automates probabilistes

une ouverture ?

des modeles qu’il faudrait confronter ?

des liens qu’il faudrait creuser ?

Des modèles graphiques probabilistes aux modeles graphiques de durée

Education

Transcript of Des modèles graphiques probabilistes aux modeles graphiques de durée

Modeles Pieces Reglement Marches Ofppt 2014

05 Des Reflexions De Top Modeles

Modèles graphiques probabilistes pour la reconnaissance de ...

MODELES(annexe au règlement de consultation)

MANUEL D’UTILISATION ET D’ENTRETIEN MODELES …

Onzième Colloque Jeunes Probabilistes et Statisticiens

MODELES ET BASES DE DONNEES

MODELES LINEAIRES

Calcul matriciel, modèles probabilistes

ICDNantes2016 modeles de-croissance

LISTE DES MODELES REDUITS BUGATTI

MODELES COMMUNICATION

Intégration de connaissances par modèles probabilistes ...

MODELES DE DOCUMENTS

Algorithmes probabilistes pour de grandes masses de donnees´

Tabac.les parents modeles sanitaires

ISOTHERMES DE SORPTION : MODELES ET DETERMINATION ...

580 Modeles de Tournage - David Weldon

Thème 6 : l'échantillonnage et l'enquête u Le processus d'échantillonnage u Les méthodes non probabilistes u Les méthodes probabilistes.

25 Modeles Lettres