Behja, Hicham & Senach, Bernard - Tutoriel Réseaux Bayésiens (EGC, 2008)

download Behja, Hicham & Senach, Bernard - Tutoriel Réseaux Bayésiens (EGC, 2008)

of 55

Transcript of Behja, Hicham & Senach, Bernard - Tutoriel Réseaux Bayésiens (EGC, 2008)

  • 7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)

    1/55

    8mes Journes FrancophonesExtraction et Gestion des ConnaissancesSophia Antipolis29 janvier 2008

    Tutoriel

    Rseaux Baysiens

    Introduction et apprentissageModlisation et dcouverte deconnaissances

    Organisateur:

    Philippe LERAY (Univ. Nantes)

    Responsables des tutoriels EGCHicham Behja (INRIA, Sophia Antipolis)Bernard Senach (INRIA, Sophia Antipolis)

  • 7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)

    2/55

  • 7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)

    3/55

    Rseaux baysiens - introduction et apprentissagemodlisation et dcouverte de connaissances

    Philippe [email protected]

    Equipe CODLaboratoire d!nfor"atique de #antes Atlantique

    $ite E%ole Polyte%hnique de l&niversit' de #antes

    La Chantrerie - rue Christian Pau% - (P )*+*,*+ #antes Cede/

    Rsum

    La repr'sentation des %onnaissan%es et le raisonne"ent 0 partir de %es repr'sentations a donn'

    naissan%e 0 de no"breu/ "od1les. Les "od1les 2raphiques probabilistes3 et plus pr'%is'"ent les

    r'seau/ bay'siens 4R(53 initi's par 6udea Pearl dans les ann'es 7,8*3 se sont r'v'l's des outils tr1s

    pratiques pour la repr'sentation de %onnaissan%es in%ertaines et le raisonne"ent 0 partir

    d9infor"ations in%o"pl1tes3 dans de no"breu/ do"aines %o""e la bio-infor"atique3 la 2estion du

    risque3 le "ar:etin23 la s'%urit' infor"atique3 le transport3 et%.La partie 2raphique des R( offre un outil intuitif in'2alable et attra%tif dans de no"breuses appli%ations

    o; les utilisateurs ont besoin de usqu0 la d'%ouverte de relations %ausales.

    Ce tutoriel se propose tout dabord de d'finir la notion de r'seau bay'sien puis de donner un aper%u de

    lutilisation de %es "od1les pour r'pondre 0 diff'rentes requ?tes 4notion dinf'ren%e ou de

    raisonne"ent probabiliste5. #ous aborderons ensuite le probl1"e de lapprentissa2e des r'seau/

    bay'siens 0 partir de donn'es %o"pl1tes ou in%o"pl1tes3 en %o""enant par la d'ter"ination des

    distributions de probabilit' %onditionnelles d'finies par un 2raphe donn' 4apprentissa2e des

    para"1tres53 et en essayant ensuite de d'ter"iner le 2raphe "?"e 0 partir des donn'es

    4apprentissa2e de la stru%ture5. Pour finir3 nous aborderons le %as plus parti%ulier des r'seau/

    bay'siens %ausau/3 et verrons %o""ent lapprentissa2e de la stru%ture de %es "od1les peut "ener 0

    la d'%ouverte de relations %ausales.

    ots-%l's

    R'seau/ bay'siens3 apprentissa2e3 donn'es %o"pl1tes3 donn'es in%o"pl1tes3 d'%ouverte de

    %ausalit'

    mailto:[email protected]:[email protected]
  • 7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)

    4/55

    Plan

    Le tutoriel propos' est inspir' des for"ations r'seau/ bay'siens effe%tu'es pour le r'seau R!$C du

    R!$C en B**) et B**+3 et des %ours dispens's en for"ation in2'nieur 0 l!#$A de Rouen et en aster

    Re%her%he 0 l&niversit' de Rouen. Le plan est le suivant

    A!#

    R'seau/ bay'siens d'finition et notion dinf'ren%e

    d'finition3 notion de d-s'paration

    les r'seau/ bay'siens %o""e "od1les 2'n'ratifs

    notion dinf'ren%e3 prin%ipe des prin%ipau/ al2orith"es 4"essa2e passin23 >un%tion tree5

    e/e"ples dutilisation

    R'seau/ bay'siens apprentissa2e des para"1tres

    "a/i"u" de vraise"blan%e vs. "a/i"u" a posteriori

    donn'es %o"pl1tes vs. donn'es in%o"pl1tes

    APRE$-!D!

    R'seau/ bay'siens apprentissa2e de la stru%ture

    re%her%he dind'pendan%es %onditionnelles vs. "a/i"isation dun s%ore dad'quation

    les diff'rents espa%es de re%her%he

    donn'es %o"pl1tes vs. donn'es in%o"pl1tes

    R'seau/ bay'siens et %ausalit'

    un r'seau bay'sien nest pas for%'"ent un "od1le %ausal

    d'finition dun r'seau bay'sien %ausal

    intervention"anipulation vs. observation

    suffisan%e %ausale vs. variables latentes

    Rfrences

    6ensen3 F. G. 47,,+5.An introduction to Bayesian Networks. aylor and Fran%is3 London3 &nited

    Hin2do".

    aes3 $.3 e2an%:3 $.3 and Leray3 P. 4B**I5. An inte2ral approa%h to %ausal inferen%e Jith

    latent variables. !n Russo3 F. and Killia"son3 6.3 editors3 Causality and Probability in the

    Sciences. e/ts !n Philosophy series3 London Colle2e Publi%ations3 pp 7I-7.

    is%. 4B**I5. Modles graphiques probabilistes. !n Leray3 P.3 editor3 Revue d!ntelli2en%e

    Artifi%ielle3 nu"ber B7B**I. er"1s.

    #aM"3 P.3 Kuille"in3 P.-.3 Leray3 P.3 Pourret3 O.3 and (e%:er3 A. 4B**5. Rseau baysiens.

    Eyrolles3 Paris.

    Pearl3 6. 4B***5. Causality! Models" Reasoning" and #n$erence. Ca"brid2e &niversity Press3

    Ca"brid2e3 En2land.

  • 7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)

    5/55

    Reseaux bayesiensintroduction et apprentissage

    modelisation et decouverte de connaissances

    Philippe [email protected]

    Equipe COnnaissances et Decision

    Laboratoire dInformatique de Nantes Atlantique UMR 6241

    Site de lEcole Polytechnique de luniversite de Nantes

    Introduction et rappels Definition Notions generales Inference References

    Au programme ...

    Matin = Notions generales

    Definition, D-separation, Notion dinference

    Matin Apprentissage des parametresMaximum de vraisemblance / a posteriori

    Donnees completes / incompletes

    Apres-midi Apprentissage de la structure

    Recherche dindependances / maximisation score

    Quel espace ? Donnees completes / incompletes

    Apres-midi RB et causalite

    RB causal, intervention / observation, suffisance causale

    Philippe Leray Tutoriel EGC 2008 2/31

  • 7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)

    6/55

    Introduction et rappels Definition Notions generales Inference References

    Un peu dhistoire

    1970-1990 : Lere des systemes experts

    systemes a base de regles de production

    si X=vrai et Y=absent alors Z=faux

    moteur dinference (chainage avant, arriere)

    Judea Pearl (1936) : les reseaux bayesiens

    1982 : Reverend Bayes on inference engines: Adistributed hierarchical approachP(X=vrai)=0.3 et P(Z=faux)=0.2 ...

    P(Y=absent)=?

    1988 : Probabilistic Reasoning in IntelligentSystems: Networks of Plausible Inference.Morgan Kaufmann

    Philippe Leray Tutoriel EGC 2008 3/31

    Introduction et rappels Definition Notions generales Inference References

    Rappels de probabilites

    Probabilite conditionnelle

    A et M deux evenements

    information a priori sur A : P(A)

    M sest produit : P(M)= 0

    sil existe un lien entre A et M, cet evenement va modifiernotre connaissance sur A

    information a posteriori : P(A|M) = P(A,M)P(M)

    Philippe Leray Tutoriel EGC 2008 4/31

  • 7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)

    7/55

    Introduction et rappels Definition Notions generales Inference References

    Rappels de probabilites

    IndependanceA et Bsont independants ssi :P(A, B) =P(A) P(B)P(A|B) =P(A)P(B|A) =P(B)

    Independance conditionnelle

    A et B sont independants conditionnellement a C ssi :P(A|B, C) =P(A|C)

    Philippe Leray Tutoriel EGC 2008 5/31

    Introduction et rappels Definition Notions generales Inference References

    Rappels de probabilites

    {Mi} ensemble complet devenements mutuellement exclusifs

    Marginalisation : P(A) =

    iP(A, Mi)

    Theoreme des probabilites totalesUn evenement A peut resulter de plusieurs causes Mi. Quelle est laprobabilite de A connaissant :

    les probabilites elementaires P(Mi) (a priori)

    les probabilites conditionnelles de A pour chaque Mi

    P(A) =

    iP(A|Mi)P(Mi)

    mais comment repondre a la question inverse ?

    Philippe Leray Tutoriel EGC 2008 6/31

  • 7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)

    8/55

    Introduction et rappels Definition Notions generales Inference References

    Rappels de probabilites

    {Mi} ensemble complet devenements mutuellement exclusifs

    Theoreme de Bayes

    Un evenement A sest produit. Quelle est la probabilite que ce soitla cause Miqui lait produit ?

    P(Mi|A) = P(A|Mi)P(Mi)

    P(A)

    P(Mi|A) : probabilite a posteriori

    P(A) : constante (pour chaque Mi) cf. th. probas totales

    Theoreme de Bayes generalise (Chain rule)

    P(A1 . . . An) =P(A1)P(A2|A1)P(A3|A1, A2) . . . P(An|A1 . . . An1)

    Philippe Leray Tutoriel EGC 2008 7/31

    Introduction et rappels Definition Notions generales Inference References

    Definition dun reseau bayesien

    Principe

    prendre en compte les independances conditionnelles entre les

    variables pour simplifier la loi jointe donnee par le theoremede Bayes generalise.

    Definition

    Un reseau bayesien est defini par

    la description qualitative des dependances (ou desindependances conditionnelles) entre des variables

    graphe oriente sans circuit (DAG)la description quantitative de ces dependances

    probabilites conditionnelles (CPD)

    Philippe Leray Tutoriel EGC 2008 8/31

  • 7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)

    9/55

    Introduction et rappels Definition Notions generales Inference References

    Exemple

    ordre topologique : C, S, A, R, T(non unique)

    Philippe Leray Tutoriel EGC 2008 9/31

    Introduction et rappels Definition Notions generales Inference References

    Interets et motivation

    Interets des reseaux bayesiens

    outil de representation graphique des connaissances

    representation de lincertain

    raisonnement a partir de donnees incompletes : inference

    Motivation

    comment determiner la structure, avec des donnees completesou incompletes ?

    Philippe Leray Tutoriel EGC 2008 10/31

  • 7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)

    10/55

    Introduction et rappels Definition Notions generales Inference References

    Interets et motivation

    Autre interet

    outil de decouverte de connaissances a partir de donnees

    Motivation

    comment decouvrir des connaissances : relations causales,variables latentes ?

    Philippe Leray Tutoriel EGC 2008 11/31

    Introduction et rappels Definition Notions generales Inference References

    Interets et motivation

    Des domaines dapplication varies

    diagnostic, fiabilite, maintenance, securite informatique

    psychologie, sciences de la cognition, matrise des risques

    Motivation

    fournir des outils pour la modelisation de systemes complexes

    Philippe Leray Tutoriel EGC 2008 12/31

  • 7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)

    11/55

    Introduction et rappels Definition Notions generales Inference References

    RB et independance conditionnelle

    Les RB representent graphiquement les independancesconditionnelles

    Exemple sur 3 nuds

    3 types de relations (simples) entre A, B et C :

    A CB : connexion serieA CB : connexion divergente

    A CB: connexion convergente (V-structure)

    Philippe Leray Tutoriel EGC 2008 13/31

    Introduction et rappels Definition Notions generales Inference References

    Connexion serie

    A et B sont dependants

    A et B sont independants conditionnellement a C

    si Cest connue, A napporte aucune information sur B

    P(S5|S4, S2) =P(S5|S4) =P(S5|parents(S5))

    Philippe Leray Tutoriel EGC 2008 14/31

  • 7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)

    12/55

    Introduction et rappels Definition Notions generales Inference References

    Connexion divergente

    A et B sont dependants

    A et B sont independants conditionnellement a Csi Cest connue, A napporte aucune information sur B

    P(S4|S2, S3) =P(S4|S2) =P(S4|parents(S4))

    Philippe Leray Tutoriel EGC 2008 15/31

    Introduction et rappels Definition Notions generales Inference References

    Connexion convergente V-structure

    A et Bsont independants

    A et Bsont dependants conditionnellement a Csi Cest connue, A apporte une information sur B

    P(S3|S1, S2) =P(S3|parents(S3))

    Philippe Leray Tutoriel EGC 2008 16/31

  • 7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)

    13/55

    Introduction et rappels Definition Notions generales Inference References

    Consequence

    Rappel du theoreme de Bayes generalise

    P(S) =P(S1) P(S2|S1) P(S3|S1, S2) P(Sn|S1 . . . Sn1)

    Consequence dans un RB

    P(Si|S1 . . . Si1) =P(Si|parents(Si)) dou

    P(S) = ni=1P(Si|parents(Si))

    La loi jointe (globale) se decompose en un produit de loisconditionnelles locales

    RB = representation compacte de la loi jointeP(S)

    Philippe Leray Tutoriel EGC 2008 17/31

    Introduction et rappels Definition Notions generales Inference References

    Exemple

    P(Cambriolage, Seisme, Alarme, Radio, Tele) =

    P(S1

    )P(S2|S

    1)P(S

    3|S

    1, S

    2)P(S

    4|S

    1, S

    2, S

    3)P(S

    5|S

    1, S

    2, S

    3, S

    4)

    P(S1) P(S2) P(S3|S1, S2) P(S4|S2) P(S5|S4)

    Philippe Leray Tutoriel EGC 2008 18/31

  • 7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)

    14/55

    Introduction et rappels Definition Notions generales Inference References

    D-separation

    Principe

    Determiner si deux variables quelconques sont independantesconditionnellement a un ensemble de variables instantiees

    Definition

    Deux variablesAet Bsont d-separees si pour tous les cheminsentre A et B, il existe une variable intermediaireV differentede A et Btelle que lune des deux propositions est vraie :

    la connexion est serie ou divergente et V est instanciela connexion est convergente et ni Vni ses descendants nesont instancies

    Si A et Bne sont pas d-separes, ils sont d-connectes

    Philippe Leray Tutoriel EGC 2008 19/31

    Introduction et rappels Definition Notions generales Inference References

    Exemple

    D-separation

    la connexion est serie oudivergente etV est instancie

    la connexion est convergenteet ni Vni ses descendants nesont instancies

    Philippe Leray Tutoriel EGC 2008 20/31

  • 7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)

    15/55

    Introduction et rappels Definition Notions generales Inference References

    RB = modele generatif

    Principe

    RB = representation compacte de la loi jointeP(S)

    Utilisation de methodes dechantillonnage pour generer desdonnees qui suivent cette loi

    Exemple : forward sampling

    sirand1

  • 7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)

    16/55

    Introduction et rappels Definition Notions generales Inference References

    Message Passing (Pearl 1988)

    Principe

    Chaque nud envoie des messages a ses voisins

    Lalgorithme ne marche que dans le cas des arbres(mais est generalisable au cas des poly-arbres)

    E = ensemble de variables instanciees.E =Nx Dx2 types de messages et serviront a calculer

    (X) P(Dx|X)

    (X) P(X|Nx)

    et ensuite on peut montrer que

    P(X|E=e) (X)(X)

    Philippe Leray Tutoriel EGC 2008 23/31

    Introduction et rappels Definition Notions generales Inference References

    Message Passing

    Les messages

    Pour chaque enfant Y de X,

    Y(X =x) =y

    P(Y =y|X =x)(Y =y)

    Comment calculer en chaque nud ?

    Calcul de

    Si X instancie, (X) = [001 . . . 0](la position du 1 correspond a la valeur donnee aX)

    sinonsi Xest une feuille, (X) = [1 . . . 1]sinon (X=x) = YEnf(X)Y(X =x)

    Philippe Leray Tutoriel EGC 2008 24/31

  • 7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)

    17/55

    Introduction et rappels Definition Notions generales Inference References

    Message Passing

    Les messages

    Pour Z lunique parent de X,

    X(Z =z) =(Z =z)

    UEnf(Z)\{X}

    U(Z=z)

    Comment calculer en chaque nud ?

    Calcul de

    Si X instancie, (X) = [001 . . . 0](la position du 1 correspond a la valeur donnee aX)

    sinon

    si Xest la racine, (X) =P(X)sinon (X =x) =

    zP(X=x|Z=z)X(Z=z)

    Philippe Leray Tutoriel EGC 2008 25/31

    Introduction et rappels Definition Notions generales Inference References

    Junction Tree (Jensen 1990)

    Message Passing ne sapplique bien quaux arbres

    Besoin dun algorithme plus general

    Principe

    Transformer le graphe en un arbre (non oriente)...

    Arbre = arbre de jonction des cliques maximales du graphemoralise et triangule

    Moralisation = ???

    Triangulation = ???

    Cliques = ???

    Philippe Leray Tutoriel EGC 2008 26/31

  • 7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)

    18/55

    Introduction et rappels Definition Notions generales Inference References

    Junction Tree

    Moralisation

    marier les parents de chaque nud

    Philippe Leray Tutoriel EGC 2008 27/31

    Introduction et rappels Definition Notions generales Inference References

    Junction Tree

    Triangulation

    tout cycle de longueur au moins 4 doit contenir une corde(arete reliant deux sommets non consecutifs sur le cycle)

    (= aucun sous-graphe cyclique de longueur 4)

    Triangulation optimale pour des graphes non-diriges =NP-difficile (comment choisir les meilleures cordes?)

    Philippe Leray Tutoriel EGC 2008 28/31

  • 7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)

    19/55

    Introduction et rappels Definition Notions generales Inference References

    Junction Tree

    Clique

    sous-graphe dont les nuds sont completement connectes

    Clique maximale

    lajout dun autre nud a cette clique ne donne pas une clique

    Philippe Leray Tutoriel EGC 2008 29/31

    Introduction et rappels Definition Notions generales Inference References

    Junction Tree

    Theoreme

    Si le graphe est moralise et triangule, alors les cliques peuventetre organisees en un arbre de jonction

    P(S) = (S1, S2, S3)(S2, S4)(S4, S5)

    Linference se fait au niveau des Philippe Leray Tutoriel EGC 2008 30/31

  • 7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)

    20/55

    Introduction et rappels Definition Notions generales Inference References

    References

    Les Reseaux Bayesiens - P. Nam, P.H. Wuillemin, Ph.Leray, O. Pourret, A. Becker (Eyrolles) 2007

    Probabilistic reasoning in Intelligent Systems: Networksof plausible inference- J. Pearl (Morgan Kaufman) 1988

    An introduction to Bayesian Networks- F. Jensen(Springer Verlag) 1996

    Probabilistic Networks and Expert Systems- R.G. Cowell& al. (Springer Verlag) 1999

    Learning Bayesian Networks- R. Neapolitan (PrencticeHall) 2003

    Learning in Graphical Models- Jordan M.I. ed. (Kluwer)1998

    An integral approach to causal inference with latentvariables- S. Maes et al. In Russo, F. and Williamson, J.,editors, Causality and Probability in the Sciences. Texts InPhilosophy series, London College Publications, pp 17-41.2007

    Philippe Leray Tutoriel EGC 2008 31/31

  • 7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)

    21/55

    Reseaux bayesiensintroduction et apprentissage

    modelisation et decouverte de connaissances

    Philippe [email protected]

    Equipe COnnaissances et DecisionLaboratoire dInformatique de Nantes Atlantique UMR 6241

    Site de lEcole Polytechnique de luniversite de Nantes

    Introduction Donnees completes Donnees incompletes References

    Au programme ...

    Matin Notions generales

    Definition, D-separation, Notion dinference

    Matin = Apprentissage des parametresMaximum de vraisemblance / a posteriori

    Donnees completes / incompletes

    Apres-midi Apprentissage de la structure

    Recherche dindependances / maximisation score

    Quel espace ? Donnees completes / incompletes

    Apres-midi RB et causalite

    RB causal, intervention / observation, suffisance causale

    Philippe Leray Tutoriel EGC 2008 2/18

  • 7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)

    22/55

    Introduction Donnees completes Donnees incompletes References

    Definition dun reseau bayesien

    Un reseau bayesien est defini par

    la description qualitative des dependances (ou desindependances conditionnelles) entre des variablesgraphe oriente sans circuit (DAG)

    la description quantitative de ces dependancesprobabilites conditionnelles (CPD)

    Philippe Leray Tutoriel EGC 2008 3/18

    Introduction Donnees completes Donnees incompletes References

    Notion dapprentissage

    Construire un reseau bayesien

    1 structure fixee, on cherche seulement les CPDa partir dexpertises : elicitation de connaissancesa partir de donnees completes / incompletes

    2 on cherche la structure

    a partir de donnees completes / incompletesdans quel espace ?connat-on toutes les variables ?

    Philippe Leray Tutoriel EGC 2008 4/18

  • 7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)

    23/55

    Introduction Donnees completes Donnees incompletes References

    Apprentissage (donnees completes)

    Estimation de parametres Donnees completes D

    Determiner les parametres des differentes CPD a partir de D

    Approche statistique classique =max. de vraisemblance (MV)

    MV = argmax P(D|)

    Probabilite dun evenement = frequence dapparition delevenement

    Maximum de vraisemblance (MV)

    P(Xi =xk|Pa(Xi) =xj) =MVi,j,k=

    Ni,j,kkNi,j,k

    Ni,j,k= nb doccurences de {Xi=xk et Pa(Xi) =xj}

    Philippe Leray Tutoriel EGC 2008 5/18

    Introduction Donnees completes Donnees incompletes References

    Apprentissage (donnees completes)

    Autre approche

    Approche bayesienne =max. a posteriori (MAP)

    MAP = argmax P(|D) = argmax P(D|)P()

    besoin dune loi a priori sur les parametresP()

    souvent distribution conjuguee a la loi de X

    siP(X) multinomiale,P() conjuguee = Dirichlet :

    P() n

    i=1

    qi

    j=1

    ri

    k=1

    (i,j,k)i,j,k1

    ou i,j,ksont les cfficients de la distribution de Dirichletassociee au coefficient i,j,k

    Philippe Leray Tutoriel EGC 2008 6/18

  • 7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)

    24/55

    Introduction Donnees completes Donnees incompletes References

    Apprentissage (donnees completes)

    Maximum a Posteriori (MAP)

    P(Xi=xk|Pa(Xi) =xj) =MAPi,j,k =

    Ni,j,k+i,j,k 1k(Ni,j,k+i,j,k 1)

    Autre approche bayesienne

    esperance a posteriori (EAP) : calculer lesperance a posterioride i,j,kau lieu du max.

    P(Xi=xk|Pa(Xi) =xj) =EAPi,j,k =

    Ni,j,k+i,j,kk(Ni,j,k+i,j,k)

    Philippe Leray Tutoriel EGC 2008 7/18

    Introduction Donnees completes Donnees incompletes References

    Exemple

    Donnees completes (MV)

    P(M=m0) = 6/15 = 0.4

    P(M=m1) = 8/15 = 0.53

    P(M=m2) = 1/15 = 0.07

    P(F =OK|M=m0) = 1/6 = 0.17

    P(F =BAD|M=m0) = 5/6 = 0.83

    etc . . .

    Probleme :P(F =BAD|M=m2) = 0/1car cette configuration ne figure pasdans notre (petite) base dexemples

    M F Rm0 BAD Om0 BAD Om0 BAD Om0 BAD Om0 BAD Nm0 OK Om1 BAD Om1 BAD Nm1 OK O

    m1 OK Nm1 OK Om1 OK Nm1 OK Om1 OK Nm2 OK N

    Philippe Leray Tutoriel EGC 2008 8/18

  • 7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)

    25/55

    Introduction Donnees completes Donnees incompletes References

    Exemple

    Donnees completes (EAP)

    A priori de Dirichlet sur les i,j,k pseudo tirage a priori de N

    mesures

    Exemples

    A priori de Dirichlet sur M repartisurm0 et m1 = [50 50 0]

    P(M=m0) = (6 + 50)/(15 + 100) = 0.487

    P(M=m1) = (8 + 50)/(15 + 100) = 0.5043

    P(M=m2) = (1 + 0)/(15 + 100) = 0.0087

    A priori de Dirichlet sur (F|M=mi)= [9 1]

    P(F =BAD|M=m2) = (0 + 1)/(1 + 10) = 0.09

    M F Rm0 BAD Om0 BAD Om0 BAD Om0 BAD Om0 BAD Nm0 OK Om1 BAD Om1 BAD Nm1 OK Om1 OK Nm1 OK Om1 OK N

    m1 OK Om1 OK Nm2 OK N

    Philippe Leray Tutoriel EGC 2008 9/18

    Introduction Donnees completes Donnees incompletes References

    Apprentissage (donnees incompletes)

    Plusieurs types de donnees incompletes (Rubin, 1976)

    MCAR : Missing Completly At Random

    absence de donnees = completement aleatoire

    comment estimer MV ou MAP ?Complete / Available Case Analysis ...

    MAR : Missing At Random

    probabilite quune donnee soit manquante depend des variablesobserveescomment estimer MV ou MAP ?

    Expectation Maximisation ...

    NMAR :Not Missing At Randomabsence de donnees depend de phenom. externesbesoin de connaissances supplem. dans le modele

    Philippe Leray Tutoriel EGC 2008 10/18

  • 7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)

    26/55

    Introduction Donnees completes Donnees incompletes References

    Complete / Available Case Analysis

    Complete Case Analysis

    Extraire de la base de donnees incomplete les individus

    completement mesuresAvantage : on retombe dans le cas des donnees completes

    Inconvenient : taux dincompletude important peu dedonnees completes

    Available Case Analysis

    Principe : pas besoin de savoir si Cest mesure pour estimerles parametres de P(A|B)

    Pour estimer P(A|B), extraire de la base de donneesincomplete les individus pour lesquels A et Bsont mesures

    Avantage : on retombe dans le cas des donnees completes

    Philippe Leray Tutoriel EGC 2008 11/18

    Introduction Donnees completes Donnees incompletes References

    Algorithme Expectation Maximisation

    Algorithme tres general (Dempster 1977)

    Algorithme general destimation de parametres avec desdonnees incompletes

    Principe

    Algorithme iteratif

    initialiser les parametres (0) (random, CCA / ACA)

    E estimer les valeurs manquantes a partir des parametres

    actuels(t)

    = calculer P(Xmanquant|Xmesures ) dans le RB actuel

    = faire des inferences dans le RB muni des parametres

    (t)

    M re-estimer les parametres (t+1) a partir des donneescompletees

    en utilisant MV, MAP, ou EAP

    Philippe Leray Tutoriel EGC 2008 12/18

  • 7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)

    27/55

    Introduction Donnees completes Donnees incompletes References

    Exemple

    Donnees manquantes (EM+MV)

    Exemple sur lestimation de P(M)

    Initialisation P(0)(M) = [1/3 1/3 1/3]

    M F Rm0 BAD Om0 BAD O? BAD O

    m0 BAD O? BAD N

    m0 OK Om1 BAD Om1 BAD N? OK O

    m1 OK N

    m1 OK Om1 OK Nm1 ? Om1 OK Nm2 OK N

    Philippe Leray Tutoriel EGC 2008 13/18

    Introduction Donnees completes Donnees incompletes References

    Exemple

    M F R P(M= m0) P(M=m1) P(M=m2)m0 BAD O 1 0 0m0 BAD O 1 0 0? BAD O 1/3 1/3 1/3m0 BAD O 1 0 0

    ? BAD N 1/3 1/3 1/3m0 OK O 1 0 0m1 BAD O 0 1 0m1 BAD N 0 1 0? OK O 1/3 1/3 1/3m1 OK N 0 1 0m1 OK O 0 1 0m1 OK N 0 1 0m1 ? O 0 1 0m1 OK N 0 1 0m2 OK N 0 0 1

    TOTAL 5 8 2

    Iterato1

    [E]

    Philippe Leray Tutoriel EGC 2008 14/18

  • 7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)

    28/55

    Introduction Donnees completes Donnees incompletes References

    Exemple

    M F R P(M= m0) P(M=m1) P(M=m2)m0 BAD O 1 0 0m0 BAD O 1 0 0

    ? BAD O 1/3 1/3 1/3m0 BAD O 1 0 0? BAD N 1/3 1/3 1/3m0 OK O 1 0 0m1 BAD O 0 1 0m1 BAD N 0 1 0? OK O 1/3 1/3 1/3m1 OK N 0 1 0m1 OK O 0 1 0m1 OK N 0 1 0m1 ? O 0 1 0

    m1 OK N 0 1 0m2 OK N 0 0 1

    TOTAL 5 8 2

    Iterato1

    [E]

    [M] :

    P(1)(m0)= 5/15= 0.333

    P(1)(m1)= 8/15= 0.533

    P(1)(m2)= 2/15= 0.133

    Philippe Leray Tutoriel EGC 2008 15/18

    Introduction Donnees completes Donnees incompletes References

    Exemple

    M F R P(M= m0) P(M=m1) P(M=m2)m0 BAD O 1 0 0m0 BAD O 1 0 0? BAD O 0.333 0.533 0.133m0 BAD O 1 0 0

    ? BAD N 0.333 0.533 0.133m0 OK O 1 0 0m1 BAD O 0 1 0m1 BAD N 0 1 0? OK O 0.333 0.533 0.133m1 OK N 0 1 0m1 OK O 0 1 0m1 OK N 0 1 0m1 ? O 0 1 0m1 OK N 0 1 0m2 OK N 0 0 1

    TOTAL 5 8.6 1.4

    Iterato2

    [E]

    Philippe Leray Tutoriel EGC 2008 16/18

  • 7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)

    29/55

    Introduction Donnees completes Donnees incompletes References

    Exemple

    M F R P(M= m0) P(M=m1) P(M=m2)m0 BAD O 1 0 0m0 BAD O 1 0 0

    ? BAD O 0.333 0.533 0.133m0 BAD O 1 0 0? BAD N 0.333 0.533 0.133m0 OK O 1 0 0m1 BAD O 0 1 0m1 BAD N 0 1 0? OK O 0.333 0.533 0.133m1 OK N 0 1 0m1 OK O 0 1 0m1 OK N 0 1 0m1 ? O 0 1 0m1 OK N 0 1 0m2 OK N 0 0 1

    TOTAL 5 8.6 1.4

    Iterato2

    [E]

    [M] :P(2)(m0)= 5/15= 0.333

    P(2)(m1)= 8.6/15= 0.573

    P(2)(m2)= 1.4/15= 0.093

    Philippe Leray Tutoriel EGC 2008 17/18

    Introduction Donnees completes Donnees incompletes References

    References

    Les Reseaux Bayesiens - P. Nam, P.H. Wuillemin, Ph.Leray, O. Pourret, A. Becker (Eyrolles) 2007

    Probabilistic reasoning in Intelligent Systems: Networksof plausible inference- J. Pearl (Morgan Kaufman) 1988

    An introduction to Bayesian Networks- F. Jensen(Springer Verlag) 1996

    Probabilistic Networks and Expert Systems- R.G. Cowell& al. (Springer Verlag) 1999

    Learning Bayesian Networks- R. Neapolitan (PrencticeHall) 2003

    Learning in Graphical Models- Jordan M.I. ed. (Kluwer)1998

    An integral approach to causal inference with latent

    variables- S. Maes et al. In Russo, F. and Williamson, J.,editors, Causality and Probability in the Sciences. Texts InPhilosophy series, London College Publications, pp 17-41.2007

    Philippe Leray Tutoriel EGC 2008 18/18

  • 7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)

    30/55

    Reseaux bayesiensintroduction et apprentissage

    modelisation et decouverte de connaissances

    Philippe [email protected]

    Equipe COnnaissances et DecisionLaboratoire dInformatique de Nantes Atlantique UMR 6241

    Site de lEcole Polytechnique de luniversite de Nantes

    Introduction IC Score Autre espace References

    Au programme ...

    Matin Notions generales

    Definition, D-separation, Notion dinference

    Matin Apprentissage des parametresMaximum de vraisemblance / a posteriori

    Donnees completes / incompletes

    Apres-midi = Apprentissage de la structure

    Recherche dindependances / maximisation score

    Quel espace ? Donnees completes / incompletes

    Apres-midi RB et causalite

    RB causal, intervention / observation, suffisance causale

    Philippe Leray Tutoriel EGC 2008 2/33

  • 7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)

    31/55

    Introduction IC Score Autre espace References

    Definition dun reseau bayesien

    Un reseau bayesien est defini par

    la description qualitative des dependances (ou desindependances conditionnelles) entre des variablesgraphe oriente sans circuit (DAG)

    la description quantitative de ces dependancesprobabilites conditionnelles (CPD)

    Philippe Leray Tutoriel EGC 2008 3/33

    Introduction IC Score Autre espace References

    Notion dapprentissage

    Construire un reseau bayesien

    1 structure fixee, on cherche seulement les CPDa partir dexpertises : elicitation de connaissancesa partir de donnees completes / incompletes

    2 on cherche la structure

    a partir de donnees completes / incompletesdans quel espace ?connat-on toutes les variables ?

    Philippe Leray Tutoriel EGC 2008 4/33

  • 7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)

    32/55

    Introduction IC Score Autre espace References

    Probleme complexe

    Taille de lespace de recherche

    le nombre de structures possibles a partir de n nuds estsuper-exponentiel (Robinson 77)

    NS(n) =

    1 , n= 0 ou1n

    i=1(1)i+1ni

    2i(n1)NS(n i), n>1

    NS(5) = 29281 NS(10) = 4.2 1018

    recherche exhaustive impossible / taille de lespace

    Philippe Leray Tutoriel EGC 2008 5/33

    Introduction IC Score Autre espace References

    Dimension dun reseau bayesien

    Definition

    Nombre de parametres (independants) necessaires pour decrirelensemble des CPD associees au RB

    ExemplesDim(B) = 1 + 1 + 4 + 2 + 2

    Graphe vide : Dim(B0) = ?

    completement connecte : Dim(Bc) = ?Philippe Leray Tutoriel EGC 2008 6/33

  • 7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)

    33/55

    Introduction IC Score Autre espace References

    Equivalence de Markov

    Definition

    B1 et B2 sont equivalents au sens de Markov ssi ils ont le memesquelette et decrivent les memes dependances et independancesconditionnelles

    Consequences

    B1 et B2 partagent les memes V-structures et arcs inferes

    tous les graphes equivalents peuvent etre representes par un

    graphe partiellement oriente (squelette, V-structure et arcsinferes) (CPDAG)

    on appelle ce CPDAG le representant de la classedequivalence

    Philippe Leray Tutoriel EGC 2008 7/33

    Introduction IC Score Autre espace References

    Equivalence de Markov - exemple

    A S

    T L B

    O

    X D

    A S

    T L B

    O

    X D

    Philippe Leray Tutoriel EGC 2008 8/33

  • 7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)

    34/55

    Introduction IC Score Autre espace References

    Apprentissage (donnees completes)

    Recherche dun bon reseau bayesien

    Un RB resume des dependances et independancesconditionnelles

    Trouver la structure == trouver ces infos dans les donnees

    Philippe Leray Tutoriel EGC 2008 9/33

    Introduction IC Score Autre espace References

    Recherche dIC

    Deux algorithmes de reference

    Pearl et Verma : IC et IC*

    Spirtes, Glymour et Scheines : SGS, PC, CI, FCI

    Principe commun

    construire un graphe non dirige contenant les relations entreles variables (tests du 2)

    par ajout daretes (Pearl et Verma)par suppression daretes (SGS)

    detecter les V-structures (idem)propager les orientations de certains arcs

    Philippe Leray Tutoriel EGC 2008 10/33

  • 7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)

    35/55

    Introduction IC Score Autre espace References

    Recherche dIC

    Problemes principaux

    Fiabilite du test dindependance conditionnellement a ungrand nb de variables (et avec un nb de donnees restreint)

    Heuristique SGS : si df < N10 , alors dependance

    Explosion du nb de tests a effectuer

    Heuristique PC : commencer par lordre 0 (XAXB) puis

    lordre 1 (XAXB | XC), etc ...

    Philippe Leray Tutoriel EGC 2008 11/33

    Introduction IC Score Autre espace References

    Algorithme PC

    Etape 0 : Graphe non oriente reliant tous les nuds

    A gauche, le reseau theorique utilise pour generer 5000 exemples.

    A S

    T L B

    O

    X D

    A S

    T L B

    O

    X D

    Philippe Leray Tutoriel EGC 2008 12/33

  • 7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)

    36/55

    Introduction IC Score Autre espace References

    Algorithme PC

    Etape 1a : Suppression des IC dordre 0

    2: SA LA BA OA XA DA TS LT OB XB

    A S

    T L B

    O

    X D

    A S

    T L B

    O

    X D

    Philippe Leray Tutoriel EGC 2008 13/33

    Introduction IC Score Autre espace References

    Algorithme PC

    Etape 1b : Suppression des IC dordre 1

    2: TA|O OS|L XS|L BT|S XT|O DT|O ...

    A S

    T L B

    O

    X D

    A S

    T L B

    O

    X D

    Philippe Leray Tutoriel EGC 2008 14/33

  • 7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)

    37/55

    Introduction IC Score Autre espace References

    Algorithme PC

    Etape 1c : Suppression des IC dordre 2

    2: DS|{L,B} XO|{T,L} DO|{T, L}

    A S

    T L B

    O

    X D

    A S

    T L B

    O

    X D

    Philippe Leray Tutoriel EGC 2008 15/33

    Introduction IC Score Autre espace References

    Algorithme PC

    Etape 2 : Recherche des V-structures

    2 : decouverte de la V-structure T O L

    A S

    T L B

    O

    X D

    A S

    T L B

    O

    X D

    Etape 3 : Orientation recursive de certaines aretes

    aucune ici

    Philippe Leray Tutoriel EGC 2008 16/33

  • 7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)

    38/55

    Introduction IC Score Autre espace References

    Algorithme PC

    Instanciation du PDAG

    Orientation des arcs restants(seule condition : ne pas introduire de nouvelle V-structure)

    A S

    T L B

    O

    X D

    A S

    T L B

    O

    X D

    Philippe Leray Tutoriel EGC 2008 17/33

    Introduction IC Score Autre espace References

    Algorithme PC

    Reseau obtenu vs. theorique

    Le test du 2 sur 5000 exemples na pas reussi a retrouverA T, O X et O D

    A S

    T L B

    O

    X D

    A S

    T L B

    O

    X D

    Philippe Leray Tutoriel EGC 2008 18/33

  • 7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)

    39/55

    Introduction IC Score Autre espace References

    Apprentissage (donnees completes)

    Recherche dun bon reseau bayesien

    Premiere methode : rechercher directement les independancesconditionnelles

    Autre methode : associer un score a chaque structure

    calculable rapidement / decomposable localement

    Score(B,D) = constante +n

    i=1

    score(Xi, pai)

    notion de score equivalence

    Un score Sest dit score equivalentssi pour deux structures B1et B2 equivalentes on a S(B1,D) =S(B2,D).

    Philippe Leray Tutoriel EGC 2008 19/33

    Introduction IC Score Autre espace References

    Notion de score

    Principe general : rasoir dOccam

    Pluralitas non est ponenda sine neccesitate(La pluralite (des notions) ne devrait pas etre posee sans

    necessite)Frustra fit per plura quod potest fieri per pauciora(Cest en vain que lon fait avec plusieurs ce que lon peutfaire avec un petit nombre)

    = Principe de parcimonie = trouver le modele

    qui represente le mieux les donnees D :

    vraisemblance : L(D|, B)et qui soit le plus simple possible :

    nb de parametres pour decrire B : Dim(B)

    Philippe Leray Tutoriel EGC 2008 20/33

  • 7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)

    40/55

    Introduction IC Score Autre espace References

    Exemples de score

    AIC et BIC

    Compromis vraisemblance / complexite

    Application des criteres AIC (Akake 70) et BIC (Schwartz 78)

    SAIC(B,D) = log L(D|MV,B) Dim(B)

    SBIC(B,D) = log L(D|MV,B)

    1

    2Dim(B)log N

    Scores bayesiens : BD, BDe, BDeu

    SBD(B,D) =P(B,D) (Cooper et Herskovits 92)BDe = BD + score equivalence (Heckerman 94)

    SBD(B,D) =P(B)n

    i=1

    qij=1

    (ij)

    (Nij+ ij)

    rik=1

    (Nijk+ ijk)

    (ijk)

    Philippe Leray Tutoriel EGC 2008 21/33

    Introduction IC Score Autre espace References

    Apprentissage (donnees completes)

    Recherche dun bon reseau bayesien

    Heuristique de recherche :espace B

    restriction aux arbres : Chow&Liu, MWSTordonnancement des nuds : K2recherche gloutonne : Greedy Search

    espace E

    Greedy Equivalence Search

    Philippe Leray Tutoriel EGC 2008 22/33

  • 7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)

    41/55

    Introduction IC Score Autre espace References

    Restriction a lespace des arbres

    Principe

    quel est le meilleur arbre passant par tous les nuds,

    i.e. maximisant un score defini pour chaque arc possible ?

    Reponse : Arbre de recouvrement maximal

    MWST : Maximum Weight Spanning Tree

    (Chow et Liu 68) : information mutuelle :

    W(XA,XB) =a,b

    Nab

    N

    log NabN

    Na.N.b

    (Heckerman 94) : score local quelconque :

    W(XA,XB) =score(XA,Pa(XA) =XB) score(XA, )

    Philippe Leray Tutoriel EGC 2008 23/33

    Introduction IC Score Autre espace References

    Restriction a lespace des arbres

    Deroulement

    MWST donne un arbre non oriente reliant toutes les variables.arbre non oriente = CPDAG representant dans lespace desequivalents de Markov de tous les arbres diriges qui partagentcette meme structure !

    transformation en arbre oriente en choisissant arbitrairementun nud racine et en dirigeant chaque arete a partir de cenud.

    Philippe Leray Tutoriel EGC 2008 24/33

  • 7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)

    42/55

    Introduction IC Score Autre espace References

    Exemple : reseau obtenu vs. theorique

    A S

    T L B

    O

    X D

    A S

    T L B

    O

    X D

    Ce type dalgorithme ne peut pas decouvrir de V-structures, ni decycles ...

    Philippe Leray Tutoriel EGC 2008 25/33

    Introduction IC Score Autre espace References

    Recherche gloutonne (greedy search)

    Principe

    Parcours de lespace a laide doperateurs classiques :ajout darcinversion darcsuppression darc

    sous reserve que le graphe obtenu soit toujours un DAG (pasde circuit)

    possibilite de commencer a partir dun graphe precis

    Philippe Leray Tutoriel EGC 2008 26/33

  • 7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)

    43/55

    Introduction IC Score Autre espace References

    Exemple : reseau obtenu vs. theorique

    A S

    T L B

    O

    X D

    A S

    T L B

    O

    X D

    On tombe surement dans un optimum local

    Philippe Leray Tutoriel EGC 2008 27/33

    Introduction IC Score Autre espace References

    Exemple : reseau obtenu vs. theorique

    A S

    T L B

    O

    X D

    A S

    T L B

    O

    X D

    Initialisation de la recherche par larbre obtenu par MWST :on arrive a un meilleur resultat

    Philippe Leray Tutoriel EGC 2008 28/33

  • 7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)

    44/55

    Introduction IC Score Autre espace References

    Et avec des donnees incompletes

    Probleme

    = calculer le score lorsque les donnees sont incompletesX = {D,H}

    Une solution : Structural EM (Friedman 97)

    Greedy Search + EM sur les parametresEM parametrique pour ameliorer (i) pour un B(i) fixe

    recherche de B(i+1)

    parmi les voisins de B(i)

    , avec des donneescompletees selon (i)

    et ainsi de suite ...

    Philippe Leray Tutoriel EGC 2008 29/33

    Introduction IC Score Autre espace References

    Et si on changeait despace de recherche

    Remarques

    IC/PC : on obtient en realite le PDAG representant la classedequivalence de Markov

    MWST : idem (arbre non dirige)La plupart des scores ne distinguent pas des reseauxequivalents, dou des problemes de convergence

    Recherche dans E

    E= espace des representants des classes dequiv. de Markov

    Meilleures proprietes : OUI

    2 structures equivalentes = une seule structure dansEMeilleure taille : NON

    E est quasiment de meme taille que lespace des RB (ratioasymptotique de 3,7 : Gillispie et Perlman 2001)

    Philippe Leray Tutoriel EGC 2008 30/33

  • 7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)

    45/55

  • 7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)

    46/55

    Introduction IC Score Autre espace References

    References

    Les Reseaux Bayesiens - P. Nam, P.H. Wuillemin, Ph.Leray, O. Pourret, A. Becker (Eyrolles) 2007

    Probabilistic reasoning in Intelligent Systems: Networksof plausible inference- J. Pearl (Morgan Kaufman) 1988

    An introduction to Bayesian Networks- F. Jensen(Springer Verlag) 1996

    Probabilistic Networks and Expert Systems- R.G. Cowell& al. (Springer Verlag) 1999

    Learning Bayesian Networks- R. Neapolitan (PrencticeHall) 2003

    Learning in Graphical Models- Jordan M.I. ed. (Kluwer)1998

    An integral approach to causal inference with latentvariables- S. Maes et al. In Russo, F. and Williamson, J.,editors, Causality and Probability in the Sciences. Texts InPhilosophy series, London College Publications, pp 17-41.2007

    Philippe Leray Tutoriel EGC 2008 33/33

  • 7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)

    47/55

    Reseaux bayesiens

    introduction et apprentissagemodelisation et decouverte de connaissances

    Philippe [email protected]

    Equipe COnnaissances et Decision

    Laboratoire dInformatique de Nantes Atlantique UMR 6241

    Site de lEcole Polytechnique de luniversite de Nantes

    Introduction RB causal Apprentissage Var. latentes References

    Au programme ...

    Matin Notions generales

    Definition, D-separation, Notion dinference

    Matin Apprentissage des parametresMaximum de vraisemblance / a posteriori

    Donnees completes / incompletes

    Apres-midi Apprentissage de la structure

    Recherche dindependances / maximisation score

    Quel espace ? Donnees completes / incompletes

    Apres-midi = RB et causalite

    RB causal, intervention / observation, suffisance causale

    Philippe Leray Tutoriel EGC 2008 2/17

  • 7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)

    48/55

    Introduction RB causal Apprentissage Var. latentes References

    Un RB nest pas un modele causal

    RB classique :A B ne signifie pas forcement causalite entre A et B,

    seuls les arcs du CPDAG representant de la classedequivalence de Markov representent des causalites

    Confusion

    lorsque le graphe est construit par un expert, le graphe estsouvent causal

    lorsque le graphe est appris avec des donnees, il na aucuneraison detre causal !

    Pas toujours grave ...graphes equivalents meme loi jointe, donc meme resultatpour les algorithmes dinference (probabiliste)

    la causalite nest pas utile pour linference (probabiliste)

    Philippe Leray Tutoriel EGC 2008 3/17

    Introduction RB causal Apprentissage Var. latentes References

    Reseau bayesien causal

    Reseau bayesien causal

    chaque A B represente une relation de causalite directe,i.e. le fait que A est bien la cause directe qui genere B

    si la causalite nest pas utile pour linference (probabiliste), aquoi peut servir un reseau bayesien causal ?

    Philippe Leray Tutoriel EGC 2008 4/17

  • 7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)

    49/55

    Introduction RB causal Apprentissage Var. latentes References

    Intervention vs. Observation

    Inference classique :on observe B=b,on calcule P(A|B=b)

    Inference causale [Pearl 00]:on agit/manipule/intervient sur B : do(B=b)

    exemple avec A B

    P(A|do(B=b)) =P(A),

    P(B|do(A= a)) =P(B|A= a)

    exemple avec A B

    P(A|do(B=b)) =P(A|B=b),

    P(B|do(A= a)) =P(B)

    Philippe Leray Tutoriel EGC 2008 5/17

    Introduction RB causal Apprentissage Var. latentes References

    Manipulation Theorem

    Specifier comment la loi jointe change apres une manipulationdo(M=m)

    Version intuitiveon oublie les causes officielles de M(ses parents dans legraphe)

    on garde le fait que M=m pour les effets que cela declenche(les enfants de M)

    Version officielle [Spirtes et al. 00]

    P(v|do(m)) =

    ViV\M

    P(vi|Pa(Vi))

    M=m

    Philippe Leray Tutoriel EGC 2008 6/17

  • 7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)

    50/55

    Introduction RB causal Apprentissage Var. latentes References

    Apprentissage dune structure causale

    En general, utilisation de donnees dobservationquelle que soit la methode, resultat = representant de la classedequivalence

    determination partielle des relations causales

    Solutions pour trouver un graphe completement causal

    utiliser uniquement des donnees dexperimentation, et deciderau fur et a mesure quelle experience sera la plus utile a realiser(active learning [Murphy 01], ...)

    Idee : algorithme MyCaDo [Meganck, Leray & Manderick 06]tirer partie des donnees dobservations souvent existantes etnombreuses

    utiliser des donnees dexperimentation uniquement pour finirdorienter le CPDAG

    Philippe Leray Tutoriel EGC 2008 7/17

    Introduction RB causal Apprentissage Var. latentes References

    Algorithme MyCaDo

    Philippe Leray Tutoriel EGC 2008 8/17

  • 7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)

    51/55

    Introduction RB causal Apprentissage Var. latentes References

    Algorithme MyCaDo

    1 Choix de lexperience = choix dune variableM a manipuler

    orientant potentiellement le plus darcsen tenant compte deventuels couts dexperimentation et/oudobservation des variables

    2 Realisation de lexperience

    do(M=m) pour toutes les valeurs possibles mobservation des variables C candidates (CM)

    3 Analyse des resultatsP(C|M) (observation) P(C|do(M)) (experience) ?si egalite, alors C M, sinon M Cpropagation eventuelle de larc decouvert

    Philippe Leray Tutoriel EGC 2008 9/17

    Introduction RB causal Apprentissage Var. latentes References

    Mais ce nest pas fini ...

    Exemple simple, avec 2 variables

    S(la Seine deborde) et P(jai pris mon parapluie)

    Des donnees dobservation montrent que ces deux variables ne

    sont pas independantes :

    SP

    On decide dagir sur Set dobserver P : pas de modification

    Snest pas la cause de P

    Faut-il en conclure que Pest la cause de S ?

    En agissant aussi sur P, on aurait vu que Pnest pas la causede S

    Interet = decouverte dune variable latente (il pleut...)

    Philippe Leray Tutoriel EGC 2008 10/17

  • 7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)

    52/55

    Introduction RB causal Apprentissage Var. latentes References

    Suffisance Causale

    Les algorithmes precedents se basent tous sur lhypothese desuffisance causale

    Suffisance causale

    Toutes les variables necessaires a la modelisation sont connues

    Abandonner lhypothese de suffisance causale = Essayer dedecouvrir des variables latentes lors de lapprentissage de

    structurede facon explicite (methodes a base de score)de facon implicite (SMCM vs. MAG)

    Philippe Leray Tutoriel EGC 2008 11/17

    Introduction RB causal Apprentissage Var. latentes References

    Modelisation explicite vs. implicite

    Modelisation explicite

    Adaptation de Structural EM

    Avantages

    inference probabiliste : OK

    Inconvenients

    complexite de la methodeinference causale : NON (le graphe nest pas causal)

    Modelisation implicite

    Modele plus leger

    pas besoin de determiner la cardinalite de H

    Deux formalismes aux objectifs differentsinference causale : SMCM, Semi Markovian Causal Modelapprentissage de la structure : MAG, Maximum AncestralGraph

    Philippe Leray Tutoriel EGC 2008 12/17

  • 7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)

    53/55

    Introduction RB causal Apprentissage Var. latentes References

    SMCM vs. MAG

    SMCM [Pearl 00]

    A B : cause communelatente

    A B : relation decausalite directe

    MAG [Richardson & Spirtes 02]

    A B : cause communelatente

    A B dependance entre Aet B

    existence de chemins induitsPhilippe Leray Tutoriel EGC 2008 13/17

    Introduction RB causal Apprentissage Var. latentes References

    SMCM vs. MAG

    SMCM [Pearl 00]

    Inf. causale : en theorie

    Inference prob. : NON

    Apprent. structure : NON

    MAG [Richardson & Spirtes 02]

    Inf. causale : partielle

    Inference prob. : NON

    Apprent. structure : partielle

    Philippe Leray Tutoriel EGC 2008 14/17

  • 7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)

    54/55

    Introduction RB causal Apprentissage Var. latentes References

    SMCM vs. MAG

    Apprentissage a partir dobservations : OK, mais obtentiondu representant de la classe dequivalence (CPAG)

    CPAG MAG : inutile, un MAG nest pas causal

    Inference causale : OK dans les SMCM

    Inference probabiliste : il manque une parametrisationefficace des SMCM

    Philippe Leray Tutoriel EGC 2008 15/17

    Introduction RB causal Apprentissage Var. latentes References

    Une approche globale : MyCaDo++

    Apprentissage a partir dobservations : OK, mais obtentiondu representant de la classe dequivalence (CPAG)

    Notre idee : [Meganck, Maes, Leray & Manderick 06]passer directement du CPAG a un SMCM a partir de donneesdexperimentation

    Inference causale : OK dans les SMCM

    Inference probabiliste : il manque une parametrisationefficace des SMCM

    Notre idee : [Meganck, Maes, Leray & Manderick 06]

    proposer une parametrisation efficace dun SMCM

    Philippe Leray Tutoriel EGC 2008 16/17

  • 7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)

    55/55

    Introduction RB causal Apprentissage Var. latentes References

    References

    Les Reseaux Bayesiens - P. Nam, P.H. Wuillemin, Ph.Leray, O. Pourret, A. Becker (Eyrolles) 2007

    Causality: Models, Reasoning, and Inference- J. Pearl(Cambridge University Press) 2000

    An introduction to Bayesian Networks - F. Jensen(Springer Verlag) 1996

    Probabilistic Networks and Expert Systems - R.G. Cowell& al. (Springer Verlag) 1999

    Learning Bayesian Networks - R. Neapolitan (PrencticeHall) 2003

    Learning in Graphical Models - Jordan M.I. ed. (Kluwer)1998

    An integral approach to causal inference with latentvariables- S. Maes et al. In Russo, F. and Williamson, J.,editors, Causality and Probability in the Sciences. Texts InPhilosophy series, London College Publications, pp 17-41.2007

    Philippe Leray Tutoriel EGC 2008 17/17