Méthodes de construction de réseaux bayésiens

Université de StrasbourgUFR Mathématiques et Informatique

Stage de Master II, Biostatistiques et Statistiques IndustriellesRéalisé au laboratoire de Biostatistique et informatique médicale,

Laboratoire ICube, UMR CNRS 7357

Méthodes de construction de réseaux bayésiens

Yannick Bridé[email protected]

Août 2016

Table des matièresIntroduction 1

1 Réseaux bayésiens 31.1 DAG (Directed Acyclic Graph) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.1.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.1.2 Nombre de DAG par ensemble de variables . . . . . . . . . . . . . . . . . . . . 4

1.2 Probabilités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.2.1 Hypothèse de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.2.2 Tables de probabilités et modèles . . . . . . . . . . . . . . . . . . . . . . . . . 6

2 Dépendance conditionnelle 72.1 Méthodes fréquentistes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.1.1 Cas de données Multinomiales . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.1.2 Cas général . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.2 Méthodes bayésiennes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.2.1 Analyse Bayésienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102.2.2 Méthode de la zones commune . . . . . . . . . . . . . . . . . . . . . . . . . . . 112.2.3 Modèle de régression bayésien : . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3 Construction d’un réseau Bayésien 143.1 Les algorithmes existant . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3.1.1 Les algorithmes de type Hill-climbing . . . . . . . . . . . . . . . . . . . . . . . 143.1.2 Les algorithmes de type Grow-shrink . . . . . . . . . . . . . . . . . . . . . . . 15

3.2 Notre algorithme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163.2.1 Construction du squelette . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163.2.2 Sens et causalité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

4 Performance 214.1 Les réseaux bayésiens utilisés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214.2 Score . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224.3 Le cas multinomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

4.3.1 Concernant les seuils . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234.3.2 Comparaison et analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254.3.3 Avantage/inconvénient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274.3.4 Efficacité générale des algorithmes de réseaux bayésiens . . . . . . . . . . . . . 274.3.5 Information a priori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

4.4 Le cas général . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

5 Application à un jeu de données 305.1 La régression logistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305.2 Le graphe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315.3 Comparaison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

Conclusion 33

Annexe 34

RemerciementsJe remercie le Pr. Erik-André Sauleau et le Dr. François Severac, mes co-encadrants qui m’ont permis

de réaliser un stage dans les meilleures conditions possibles et dont les longues conversations ont toujoursété intéressantes et productives.

Je remercie l’ensemble du service DIM de l’hôpital civil de Strasbourg pour son accueil chaleureux etparticulièrement l’équipe de Biostatistique pour sa dose de bonne humeur quotidienne.

Je remercie également l’ensemble de mes camarades pour l’ambiance général au cours de l’année.

IntroductionL’étude et la création de réseaux bayésiens sont des sujets assez récents datant de la fin des années

1980, initiés par Pearl (1988). Le sujet s’est réellement développé dans les années 90 avec l’apparitionde plusieurs méthodes permettant de construire des réseaux bayésiens et utilisant principalement desvariables multinomiales, voir Heckerman (1995).La fonction principale d’un réseau bayésien est de faire apparaître des relations directes entre des variables,deux variables étant en relation directe si l’une est la cause de l’autre. Ces relations directes matérialisantdes dépendances simples et des dépendances conditionnelles. De ce fait la découverte de dépendances(noté ⊥6⊥) et d’indépendances (noté ⊥⊥) conditionnelles est le travail le plus important dans l’élaborationde réseaux bayésiens.

Définition: Un réseau bayésien est un modèle probabiliste représentant des variables aléatoires etleurs dépendances conditionnelles via un DAG (Directed Acyclic Graph) et des tables de probabilités. Ilsert principalement à représenter une connaissance, donner une règle de décision, prévoir, et déterminerdes hypothèses de causalité.

En épidémiologie, un des enjeux principaux consiste à découvrir des relations causales entre différentsfacteurs et certaines pathologies. Le réseau bayésien semble donc un outil pratique pour étudier lacausalité.Un réseau bayésien causal est un réseau pour lequel tous les arcs représentent des relations de causalité.La nature causale du réseau est déterminée par la connaissance a priori de l’expert sur les relationsentre les variables (exemple : une maladie cause un symptôme et non l’inverse). Lorsque l’expert fournitdirectement la structure du réseau, aucun travail supplémentaire n’est nécessaire. Mais généralement laconnaissance de l’expert n’est que partielle, le réseau est alors à produire à partir de cette connaissance etde données observées. Le réseau résultant n’est alors que partiellement causal.

Le but du stage est d’élaborer une méthode pour déterminer la structure d’un réseau bayésien à partir dedonnées de santé, et pouvant prendre en compte la connaissance d’expert, afin de mieux représenter lephénomène étudié.

Des méthodes déjà existantes permettent de créer des réseaux bayésiens :

1. Les algorithmes de types Hill-climbing cherchant à maximiser un score comme le BD (BayesianDirichlet) de Heckerman (1995), l’AIC (Akaike information criterion) de Akaike (1973) ou leBIC (Bayesian information criterion) de Gideon (1978).

2. Les algorithmes tels que le Grow-shrink (GS) de Margaritis (2003), le MMHC (Max-Min Hill-Climbing) de Tsamardinos et al. (2006) et H2PC (Hybrid Parent and Children) de Gasse et al.(2014), utilisant des tests de dépendances.

3. L’algorithme basé sur la théorie de l’information CaMML (Causal discovery via MinimumMessage Length) de Wallace et Korb (1999).

Tous ces algorithmes peuvent intégrer de l’information a priori mais sous différentes formes :Pour les premiers, l’information a priori consiste le plus souvent à partir d’une structure que l’on penseproche de la réalité. Seul l’utilisation de certains scores comme le BD (Bayesian Dirichlet) permetl’apport d’information a priori sur des effectifs théoriques et ne fonctionne donc que pour des variables

1

multinomiales.Les seconds ne proposent l’intégration de connaissance a priori, que sous forme de blacklist/whitelist surla présence d’arc. C’est à dire que l’on empêche/force un arc entre deux variables.Le troisième propose l’utilisation d’une information a priori sur la hiérarchie des variables, la probabilitéde présence d’arc et leur sens. Cependant cette probabilité implique des hypothèses fortes vis à vis d’unemultitude d’indépendances conditionnelles.

Nous avons pour ambition de créer un algorithme pouvant utiliser de l’information a priori permettantl’inférence bayésienne sur les paramètres qui quantifient les liens entre deux variables (OR, pente,corrélation...). Deux objectifs principaux se dégagent donc pour le stage :

— Rechercher des méthodes pour découvrir des dépendances conditionnelles, avec une attentionparticulière pour celles utilisant de l’information a priori.

— Développer un algorithme, permettant l’apprentissage de la structure et des paramètres d’unréseau.

2

Chapitre 1

Réseaux bayésiensDans ce chapitre nous allons présenter la composition d’un réseau bayésien, et dicter les règles qui

régissent les relations des variables du réseaux.— La première section décrira l’aspect graphique et relationnel entre les variables d’un réseau

bayésien.— La seconde s’attachera à décrire comment, à l’aide des probabilités, sont établies les relations

entre les différentes variables d’un réseau, et comment est stockée l’influence de chaque variable.

1.1 DAG (Directed Acyclic Graph)

1.1.1 Définitions

Définition: Un graphe est un ensemble de noeuds et de liens/arcs connectant certains de ces noeuds.

Définition: Le squelette d’un DAG est un graphe, où aucun arc n’est orienté.

Définition: Un DAG (Directed Acyclic Graph) est un graphe dont les arcs sont orientés et dont l’ensembledes arcs ne forment pas de cycle.

Dans un réseau bayésien un nœud représente une unique variable, et une variable ne peut être représentéeque par un seul nœud, de ce fait les termes de noeuds et de variables sont équivalents.Les arcs dirigés représentent des relations, pouvant correspondre à une relation causale. Selon le domained’application une importance différente est accordée aux orientations des arcs. Quand on cherche à exploi-ter un réseau pour prédire, le sens a une faible importance et les arcs peuvent être orientés arbitrairement.Les arcs alors dirigés représenteront uniquement des relations directes.Cependant quand on cherche à exploiter un réseau pour déterminer des relations causales, ou émettredes hypothèses de causalité, chaque sens a une importance. Les arcs sont alors interprétés comme desrelations directes causales.

Nous allons décrire l’ensemble des relations possibles dans un graphe entre les nœuds.Définitions :

— Un nœud Y est le parent de X (et donc X l’enfant de Y) si l’arc entre Y et X est dirigé de Y vers X(i.e. Y → X), on notera Pa(X) l’ensemble des parents de X.

— Deux noeuds Y et Z sont époux si ∃X|Y ∈ Pa(X) et Z ∈ Pa(X) (i.e. Z → X ← Y ).— Enfin on dira que W est l’ancêtre de X (et donc X le descendant de W), si il existe au moins un

chemin ne passant que par des relations parents vers enfants permettant de relier W et E (i.eW → ...→ Z → X).

Définition: La couverture de Markov d’une variableX (noté MB(X)) correspond à l’ensemble des parents,enfants et époux du nœud X.

3

FIGURE 1.1 – Couverture de Markov de la variable C représenté en gris

Définition: Deux nœud X et Y sont D-séparés par rapport à un ensemble non vide de variables notéZ, si et seulement si ils se trouvent dans une des situations suivantes :

1. X → Z → Y ou le cas symétrique X ← Z ← Y

2. X ← Z → Y

3. X →W ← Y où W un ensemble avec W /∈ Z et n’est pas un descendant de Z

La D-séparation définit un blocage de l’information : Z est un ensemble de nœuds qui bloquent le passagede X à Y. Dans le cas 3, X et Y ne sont pas D-séparés par W, mais naturellement par un ensemble vide outout ensemble correspondant à Z.

1.1.2 Nombre de DAG par ensemble de variables

Pour un ensemble de nœuds donnés le nombre de DAG mathématiquement possibles est très élevé. Siun jeu de données possède n variables, il existe alors 2 parmi n relations directes possibles et donc deuxfois plus de relations causales possibles. Le nombre de possibilités explose quand il s’agit de connecterl’ensemble des variables. Le nombre de DAG possibles résulte de la formule récursive suivante (Robinson(1973)) :

an =n∑k=1

(−1)k−1

(n

k

)2k(n−k)an−k

À titre d’exemple, pour 6 variables il existe 3.781.503 graphes possibles.

Pour arriver à un unique DAG représentant la réalité et pouvant être utilisable en tant que graphe pourun réseau bayésien, on se doit d’utiliser des propriétés et notions pour réduire au maximum le nombrede graphes possibles. Par exemple sur les an graphes possibles, certains graphes ne respectent pas lacondition d’acyclicité et doivent être écartés. D’autre notions, permettant d’éliminer des graphes, serontdécrites dans la section suivante.

1.2 Probabilités

Définition: Deux variables X et Y sont indépendantes si et seulement si

P(X ∩ Y ) = P(X)P(Y )

4

Définition: Deux variables X et Y sont indépendantes conditionnellement à un ensemble de variables Zsi et seulement si

P(X ∩ Y |Z) = P(X|Z)P(Y |Z)

Théorème de Bayes : Soient deux variables X et Y on a alors :

P(X ∩ Y ) = P(X|Y )P(Y )

1.2.1 Hypothèse de Markov

Théorème 1 Pearl (2009), Un noeud satisfait l’hypothèse de Markov, si et seulement si il est indépen-dant de tous ses non descendants conditionnellement à ses parents.

Par définition le DAG d’un réseau bayésien représentant un phénomène respecte nécessairement cethéorème.

L’hypothèse de Markov implique plusieurs conséquences.Pour un ensemble de variables X = {X1, ..., Xn}, le DAG d’un réseau bayésien associé à ces variablesest aussi une représentation graphique de la décomposition de la probabilité jointe de cet ensemble. Eneffet, en suivant l’hypothèse de Markov, on peut décomposer la probabilité jointe de l’ensemble par :

P(X1, X2, ..., Xn) =n∏i=1

P(Xi|Pa(X))

Exemple : Soit un réseau bayésien à 5 variables

FIGURE 1.2 – Réseau bayésien à 5 variables

En utilisant le théorème de Bayes on a :

P(X1, X2, X3, X4, X5) = P(X5|X1, X2, X3, X4)P(X1, X2, X3, X4)

or d’après l’hypothèse de Markov le noeud X5 n’est dépendant que de ses parents, donc :

P(X1, X2, X3, X4, X5) = P(X5|X3, X4)P(X1, X2, X3, X4)

de proche en proche on arrive à la décomposition suivante :

P(X1, X2, X3, X4, X5) = P(X5|X3, X4)P(X4|X3)P(X3|X2, X1)P(X2)P(X1)

1. Dans la littérature ce théorème porte plusieurs noms : Condition de Markov, hypothèse de Markov, propriété locale deMarkov...

5

Une autre conséquence est sur la D-séparation. Elle devient équivalente à l’indépendance condition-nelle. En effet, sous l’hypothèse de Markov, X est D-séparé de Y par Z est équivalent à X ⊥⊥ Y |Z.Cela se traduit dans le cas 1 et 2 de la D-séparation par une indépendance conditionnelle entre X etY lorsqu’on conditionne par Z. Dans le cas 3 conditionner par rapport à W donne une dépendanceconditionnelle entre X et Y , alors que le conditionnement par Z donne une indépendance conditionnelle.

Une dernière conséquence, allant de pair avec la D-séparation, est que la couverture de Markov d’unevariable est l’ensemble minimum qui permet d’isoler totalement une variable des autres, c’est-à-dire :

∀X ∈ U , et ∀Z ∈ {U −MB(X)}, X ⊥⊥ Z|MB(X)

où U est l’ensemble des variables du jeu de données. Concrètement cela signifie que l’ensemble minimumpour prédire au mieux X est sa couverture de Markov.

1.2.2 Tables de probabilités et modèles

À chacune des variables d’un réseau bayésien est associée une table de probabilités conditionnelles(pour les variables multinomiales), ou un modèle explicatif (pour les autres). Lorsque la variable nepossède pas de parent ce seront des lois marginales.Ces variables de conditionnement ou ces variables composant le modèle sont les variables parents de lavariable associée. Cette forme permet une visualisation facile et rapide du possible état d’une variable enfonction de celles qui vont la générer.Pour justifier le choix de conditionner uniquement sur les parents et non sur l’ensemble des variables de lacouverture de Markov, il faut rappeler que la dépendance liée aux parents est à distinguer de la dépendanced’une variable à sa couverture de Markov (ou plus généralement de la dépendance de la prédiction d’unevariable aux autres variables). En effet la valeur prise par une variable, quand un phénomène la génère, estuniquement dépendante des valeurs prises par ses parents, les autres variables de la couverture de Markovn’étant soit pas encore existantes soit inutilisables (cas 3 de la D-séparation). Il est donc évident qu’ellesn’interviennent pas sur les valeurs possibles de la variable. Par contre elles permettront, une fois quel’ensemble des données a été récolté, de prédire/déduire la valeur de la variable.Une grande partie du problème de l’étude de causalité à partir de données est que l’analyse des donnéesest réalisée ultérieurement, nous verrons qu’il est tout de même possible d’émettre des hypothèses decausalité à partir de ces données.Si l’on s’intéresse uniquement aux relations directes, ce problème n’intervient pas car aucune hypothèsede causalité n’est à faire ou trouver. La dépendance de la prédiction et la dépendance des parents sontalors confondues (modulo le point de vue où l’on se place : parent ou enfant).

Comme nous l’avons vu la recherche de relations directes dépend en quasi-totalité de la découverte dedépendances et d’indépendances conditionnelles, nous allons présenter dans le chapitre suivant de décrireun ensemble de méthodes et de tests statistiques permettant de statuer sur la dépendance conditionnelleentre variables.

6

Chapitre 2

Dépendance conditionnelleNous l’avons signalé durant l’introduction et montré dans le chapitre précédent, la dépendance condi-

tionnelle est le travail le plus important dans un réseau bayésien, car il peut mettre en relation directeplusieurs variables. Le sujet reste cependant peu abordé dans la littérature statistique, et peu de testsstatistiques ont été développés pour découvrir des dépendances conditionnelles. Seules les variablesmultinomiales disposent de plusieurs tests bien ancrés. Ce chapitre s’attache donc à décrire des méthodespouvant permettre de statuer sur des dépendances conditionnelles. Il est découpé en deux parties, unepartie utilisant des tests et méthodes fréquentistes, et une autre utilisant des méthodes bayésiennes.

Tous les tests développés auront comme hypothèses :

H0 : A⊥⊥B

H1 : A⊥6⊥B

Les différentes méthodes et tests exposés ici ne représentent pas une liste exhaustive de toutes lesméthodes existantes, mais une liste des principales explorées intéressantes pour les réseaux.

2.1 Méthodes fréquentistes

2.1.1 Cas de données Multinomiales

Une grande partie des réseaux bayésiens ayant été développée ne fonctionne qu’avec des variablesmultinomiales. Ce phénomène s’explique principalement par le fait que les tests de dépendances condi-tionnelles fonctionnant pour ce type de variables n’impliquent pas directement de modèle de régression.Dans ce type de réseaux, les variables continues sont alors discrétisées.

Test de Pearson χ2 :

χ2(A,B|C) =∑a∈A

∑b∈B

∑c∈C

(nabc −mabc)2

mabc

où nabc représente l’effectif des sujets ayant les modalités a pour la variable A, b pour la variable B, et cpour la variable C.mabc = na.cn.bc

n..c, où . en indice signifie que l’on effectue la somme des effectifs sur la variable qu’il

remplace.Sous l’hypothèse nulle, cette statistique suit asymptotiquement une loi du χ2 à

((1− |A|) (1− |B|) |C|

)degrés de liberté, où |A| représente le nombre de modalités A.

L’utilisation de ce test se fait sous la condition que les effectifs théoriques (représentés par mabc) soient

7

supérieurs à 5. Ces conditions d’utilisation font que le test est rarement utilisé en pratique pour la construc-tion de réseau, car il est généralement nécessaire d’avoir un volume élevé de données pour avoir certainseffectifs théoriques supérieur à 5.

Test du rapport de vraisemblance :

G2(A,B|C) =∑a∈A

∑b∈B

∑c∈C

nabcnlog

nabcn..cna.cn.bc

Sous l’hypothèse nulle, cette statistique suit asymptotiquement une loi du χ2 à(

(1− |A|) (1− |B|) |C|)

degrés de liberté.Le test du rapport de vraisemblance et de l’information mutuelle (MI) étant équivalent voir Scutari etDenis (2014), les deux termes seront confondus par la suite.

2.1.2 Cas général

La discrétisation de variable n’étant pas une solution idéale, de nombreux algorithmes permettentl’utilisation de variables continues à condition que celles-ci suivent une loi normale. Mais nous avonsespoir de pouvoir utiliser plusieurs types de variables continues en utilisant les modèle linéaire généralisé.

Modèle linéaire généralisé (GLM)

Le but de l’utilisation de modèle linéaire généralisé pour la construction de réseaux bayésiens estsimple. Il nous permet l’utilisation non discriminante de n’importe quel type de variables (catégorielle,discrète, continue), et il semble être un bon outil pour la détection de dépendances et d’indépendances. Eneffet, nous rappelons que la dépendance de la prédiction et la dépendance de parents sont deux notionsconfondues.Pour utiliser le GLM dans un tel sens, il est nécessaire d’effectuer une identification des lois suivie par lesvariables, et d’examiner les transformations possibles à réaliser sur les variables.

Définition: La famille exponentielle est composée des distributions dominées dont la densité s’écritsous la forme canonique

fθ,φ(y) = eyθ−b(θ)a(φ)

+c(y,φ)

avec E(Y ) = b′(θ), var(Y ) = a(φ)b′′(θ), et c(.) une constante de normalisation.

Soit (Yi, X(1)i , ..., X

(p)i )i=1,...,n un jeu de données à p+ 1 variables et soit β = {β0, ...βp} un vecteur de

p+1 paramètres.

Hypothèses du GLM :— Un GLM est composé d’une partie déterministe mesurant l’impact des covariables sur le niveau

moyen de la variable réponse, ces covariables influençant linéairement la réponse au travers d’unprédicteur linéaire ηi = β0 +

∑pk=1 βkX

(k)i

— une fonction lien g tel que g(E(Yi|X(1)i , ..., X

(p)i ) = ηi

— (Yi, X(1)i , ..., X

(p)i ) sont mutuellements indépendants.

— la loi des Yi|X(1)i , ..., X

(p)i appartient à la famille exponentielle.

8

L’estimation de β se fait par la méthode des moindre carrés pondérés :

β̂ =(XtW−1X

)−1XtW−1Y

où W est la matrice diagonale de pondération. Dans la majorité des cas W sera la matrice identité.

Test de corrélation partielle

La corrélation partielle de A et B par rapport à C (ici C ne représente qu’une seule variable) notéρ(A,B|C) peut être trouvée dans la matrice inverse de corrélation de A, B et C : 1 ρ(A,B|C) ρ(A,C|B)

ρ(A,B|C) 1 ρ(B,C|A)

ρ(A,C|B) ρ(B,C|A) 1

Le test revient alors à calculer :

t(ρ(A,B|C)) = ρ(A,B|C)

√n− 3

1− ρ(A,B|C)2

Sous l’hypothèse nulle, cette statistique suit asymptotiquement une loi de Student à n-3 degrés de liberté.L’utilisation d’un tel test impose l’hypothèse que les variables suivent des lois gaussiennes. Cette méthoderevient à avoir βB = 0 selon Scutari et Denis (2014) où βB représente le coefficient de régression de B dumodèle linéaire A ∼ β0 + βBB + βCC + ε, avec ε ∼ N(0, σ2).

Test de Fisher pour modèles emboités

C’est avec cette méthode que nous exploiterons entièrement les GLM.Soit la déviance D(β) =

∑ni=1 Di(β) où Di(β) = 2φ

(L(yi, yi, φ)− L(yi, g

−1(ηi), φ))

et L(.) lafonction de vraisemblance. Si l’on veut tester la nullité d’un βi du modèle de GLM et donc un impact nulde la variable X(i) sur Y , on effectue alors le test de la déviance.

F =D(β̂red)−D(β̂)

D(β̂)n−p−1

où D(β̂) représente la déviance du modèle complet et D(β̂red) représente le modèle réduit (le modèle oùβi = 0).On rejette l’hypothèse nulle βi = 0 au risque de première espèce α si F > F−1

(p,n−(p+1)), où F−1 est lequantile au risque de première espèce de la loi de Fisher à (p, n− (p+ 1)) degrés de libertés.Dans le même ordre d’idée, on peut utiliser les tests du rapport de vraisemblance, de Wald ou de Scorepour tester si le βi est significatif. On interprète alors un β significatif, comme une dépendance entre lavariable d’intérêt et la covariable significative conditionnellement aux autres variables du modèles.

2.2 Méthodes bayésiennes

L’un des buts principaux de ce stage étant d’incorporer de l’information a priori pour construire unréseau bayésien, nous allons explorer plusieurs méthodes permettant cette incorporation.

9

2.2.1 Analyse Bayésienne

L’analyse Bayésienne permet d’utiliser une connaissance a priori (information provenant d’étudesantérieurs ou d’avis d’experts) pour l’analyse d’une étude. Lorsqu’on observe les réalisations d’unevariable aléatoire les paramètres de la loi suivie par la variable sont inconnus. L’analyse bayésienneconsiste alors à considérer ces paramètres comme aléatoires, les modélisant donc par des lois de probabilité.Le principal attrait de l’analyse bayésienne est de pouvoir pallier un manque d’individus (et doncd’information) en utilisant de la connaissance a priori pour estimer au mieux de tels paramètres. Pour unevariable X suivant une loi quelconque de paramètre θ, on note p(θ) la probabilité a priori sur θ, p(X|θ) lavraisemblance, et p(θ|X) la probabilité a posteriori combinant la connaissance a priori et la connaissanceapporté par les données sur θ. Ces 3 éléments sont liés par la relation suivante :

p(θ|x) ∝ p(x|θ)p(θ)

Exemple :Soit un jeu de données possédant une variable aléatoire X à k=3 modalités représentant par exemplela couleur des yeux de chaque personne présente dans l’étude alors X ∼ Multinomiale(N, θ) oùN = {N1, ..., Nk}, avec Ni le nombre d’occurrences de la modalité i (quand il ne s’agit pas de don-nées de comptage, N est le vecteur unité), et θ = {θ1, ..., θk} les probabilités de chaque modalité avec∀i, θi ∈ [0, 1] tel que

∑ki=1 θi = 1.

Les conditions sur θ font qu’elle sera souvent modélisée par une loi de Dirichlet dont les paramètres serontdéfinis (dans cet exemple) à l’aide de connaissance a priori. θ représentant les différentes probabilitésd’avoir les yeux d’une certaine couleur dans l’échantillon, il est naturel d’utiliser les proportions connuesdans la population pour modéliser la connaissance a priori sur θ.En effet θ ∼ dirichlet(a) où a = {a1, ..., ak}, on note θi la loi marginale i de θ, son espérance corres-pond à E(θi) = ai∑

aj. L’ensemble a sera choisi tel que l’espérance de chaque marginale i correspond à la

proportion de la modalité i de la variable X dans la population. La variance des marginales reflètera ledegré de confiance dans ces proportions, ce qui permet de déduire facilement l’ensemble a. La distributionde Dirichlet résultante modélise alors parfaitement la connaissance a priori ainsi que les contraintes pesantsur θ. Elle s’écrit sous la forme suivante :

p(θ) =Γ(∑k

i=1 ai)∏ki=1 Γ(ai)

k∑i=1

θai−1i

où Γ(.) est la fonction gamma.

Comme X suit une loi multinomiale et que l’on a n individus dans l’étude on obtient comme vraisem-blance :

p(x|θ) =k∏i=1

θnii

avec ni le nombre de personnes aux yeux de couleur i, tel que n =∑k

i=1 ni, le nombre d’individus dansl’étude.La loi a posteriori pour θ est alors :

p(θ|x) ∝ p(x|θ)p(θ) ∝k∑i=1

θni+ai−1i

10

p(θ|x) ∼ Dirichlet(a′) avec a′ = {n1 + a1, ..., nk + ak}

Si l’on ne possède aucune connaissance a priori sur les paramètres, on peut utiliser une loi a priori noninformative. C’est à dire que toute la connaissance a posteriori est basée sur la vraisemblance des données.Dans notre exemple une telle loi serait, par exemple, une distribution de Dirichlet ayant pour paramètres levecteur unité. Les résultats avec une telle distribution seront équivalents à ceux obtenus avec une analysefréquentiste.Les lois non-informatives souvent utilisées sont celles de Jeffreys.

Définition: Soit θ un paramètre d’une variable X, on appelle loi a priori de Jeffreys, la loi

πJ(θ) ∝ (I (θ))1/2 1Θ(θ)

où I(θ) = E

[(∂lnfθ(X)

∂θ

)2|θ]

l’information de Fisher.

En utilisant l’analyse bayésienne nous espérons allier connaissance clinique et analyse statistique pourdéterminer le DAG correspondant le plus à la réalité.

2.2.2 Méthode de la zones commune

La méthode de la zone commune (zc) est une méthode développée durant le stage. Elle consiste àmesurer la similitude entre deux distributions a posteriori ayant utilisées une information a priori informa-tive ou non. Pour cela elle calcule la zone d’intersection de deux distributions par rapport à leur réunion.Nous l’utiliserons pour comparer des distributions de même loi (pouvant être multidimensionnelles) maisde paramètres différents.Posons f(x, θ1) la fonction de densité de la première distribution de paramètre θ1 et f(x, θ2) la fonctionde densité de la seconde distribution de paramètre θ2.Nous calculons alors numériquement la zone commune à l’aide de la formule suivante :

z =

∑i∈Qmin(f(x, θ1), f(x, θ2))∑i∈Qmax(f(x, θ1), f(x, θ2))

où Q représente l’ensemble de définition des densités, segmenté par un pas le plus petit possible.

Cette méthode rejoint la méthode de Inman et Bradley (1989), qui utilise le coefficient de recouvrementpour mesurer la similarité entre les distributions de deux variables de lois normales.Nous pensons que la zone commune est une méthode efficace pour estimer la probabilité d’équivalenceentre des paramètres modélisés par des lois, à condition que la modélisation soit bonne. On dira alors quedeux paramètres sont équivalents si la zc de leurs distributions est supérieure à un seuil fixé.

11

FIGURE 2.1 – Zone commune de deux densités Beta matérialisée en orange

Nous utilisons cette méthode dans le cadre de variables multinomiales. Posons alors A et B de tellesvariables à respectivement N et M modalités. Alors ∀i ∈ {1, ...,M}, A|B = bi suit une loi multinomiale.Notons pA,bi ses paramètres. Comme pour l’exemple donné à la section précédente, pA,bi suit une loi deDirichlet. Il en est de même pour pB,ak ∀k ∈ {1, ..., N}, les paramètres de B|A = ak.Le but est alors de vérifier l’existence d’au moins un couple (i, j) ∈ {1, ...,M} tel que les densitésde Dirichlet de pA,bi et de pA,bj aient une zone commune inférieure au seuil défini et au moins uncouple (k, l) ∈ {1, ..., N} tel que les densités de Dirichlet de pB,ak et de pB,al aient une zone communeinférieure au seuil défini. Si de tels couples existent on aura démontré, avec la formule de Bayes, queP(A ∩B) 6= P(A)P(B) et donc que A⊥6⊥B. Sinon, les paramètres étant équivalents, il n’est alors paspossible de montrer que A⊥6⊥B et donc on supposera à défaut que A⊥⊥B.On peut alors mettre en parallèle ce raisonnement avec un test d’hypothèse classique :

H0 : A⊥⊥BH1 : A⊥6⊥B

Le raisonnement reste le même si on conditionne par un ensemble de variables C. Les comparaisonssont alors réalisées à C fixé.

NB : Cette méthode n’ayant jamais été exploitée, une discussion sur le seuil sera entreprise dans lechapitre 4.

Exemple :Posons A et B deux variables binomiales de paramètre (n, p) et (n, p′). On a alors :A|B = 0 ∼ binomiale(n0, p0) avec k0 fois la modalité 1 prise par A, et p0 = k0

n0.

12

A|B = 1 ∼ binomiale(n1, p1) avec k1 fois la modalité 1 prise par A, et p1 = k1n1

.

Ne possédant pas d’information a priori sur p0 et p1 on utilise comme loi a priori non informative :p0 ∼ Beta(1, 1) et p1 ∼ Beta(1, 1).A posteriori on retrouve alors :p0 ∼ Beta(k0 + 1, n0 − k0 + 1) et p1 ∼ Beta(k1 + 1, n1 − k1 + 1). Posons zA,0,1 l’aire de la zonecommune entre les distributions p0 et p1. Suivant le même raisonnement posons zB,0,1 l’aire de la zonecommune entre les distributions de p′0 et p′1 (respectivement les paramètres de B|A = 0 et B|A = 1).

— Si zA,0,1 < seuil et zB,0,1 < seuil, on conclut que p0 et p1 ne sont pas similaires, de même pourp′0 et p′1 et donc à la dépendance entre A et B

— Si zA,0,1 > seuil ou zB,0,1 > seuil, on ne peut pas rejeter une équivalence entre les paramètreset on accepte l’hypothèse que A est indépendant à B

2.2.3 Modèle de régression bayésien :

Le modèle de régression bayésien est la version bayésienne du GLM. Ainsi de la même manièrepour (Yi, X

(1)i , ..., X

(p)i )i=1,...,n un jeu de données à p+ 1 variables et β = {β0, ...βp} un vecteur de p+1

paramètres, on pose le prédicteur linéaire ηi = β0 +∑p

k=1 βkX(k)i tel qu’il existe une fonction lien g

avec g(E(Yi|X(1)i , ..., X

(p)i ) = ηi.

Sous inférence bayésienne, on va supposer une loi de distribution sur Y . Puis des lois a priori sur l’en-semble des paramètres du modèle.Si par exemple Y suit une loi gaussienne alors on posera Yi ∼ N (ηi, σ

2) avec une loi a priori inversegamma sur σ2. Pour β on pose dans un cadre non informatif βi ∼ N (0, C) la loi a priori, avec C trèsgrand. Dans un cadre plus informatif, on pourra introduire de la corrélation à l’aide une loi normalemultidimensionnelle sur β.les paramètres du modèle sont estimés à l’aide de la méthode MCMC (Chaînes de Markov et intégrationde Monte Carlo). Elle suppose d’échantillonner une série de valeurs dans une loi de distribution cible(ici la distribution a posteriori des différents paramètres) et d’estimer des statistiques empiriques surcette série (par exemple l’espérance). La méthode suppose que l’on puisse échantillonner selon la loi aposteriori. Différents algorithmes, comme le Gibbs sampling permettent de définir le noyau de transitiond’une chaîne de Markov, telle que cette chaîne converge vers la loi stationnaire qui est la loi a posterioricherchée permettant l’estimation des paramètres.

Définition: L’intervalle de crédibilité au niveau 1−α d’une distribution a posteriori est l’intervalle bornépar le α

2 ième percentile, et le 1− α2 ième percentile de la distribution.

Enfin on dira que X(i) a un impact sur Y si 0 n’est pas compris dans l’intervalle de crédibilité au niveauα du paramètre β̂i qui lui est associé. Si 0 n’est pas dans l’intervalle, on interprétera donc cela comme unsigne de dépendance entre la variable d’intérêt et la covariable significative conditionnellement aux autresvariables du modèles.

En combinant des algorithmes avec ces méthodes de détections de dépendances conditionnelle, on peutconstruire le squelette de réseaux bayésiens. Le prochain chapitre s’attache à décrire de tels algorithmes.

13

Chapitre 3

Construction d’un réseau BayésienIl existe deux types d’algorithmes pour construire un réseau bayésien : les "Score based Algorithm"

(SBA) et les "Constraint based Algorithm" (CBA). Les premiers utilisent un score pour construire desréseaux, les seconds des tests de dépendance. Nous nous sommes principalement concentrés, durant notrestage, sur les CBA permettant une utilisation plus facile d’information a priori que les SBA.Nous verrons dans ce chapitre comment ces algorithmes fonctionnent en examinant les algorithmes detype Hill-climbing qui sont des SBA, et les algorithmes de type Grow-shrink qui sont des CBA. Enfinnous décrirons en détail le fonctionnement de notre algorithme qui se classe dans les algorithmes de typeGrow-shrink.

3.1 Les algorithmes existant

3.1.1 Les algorithmes de type Hill-climbing

Les algorithmes de type Hill-climbing (HC), sont des algorithmes fonctionnant sur la maximisationd’un score. De tels algorithmes se concentrent sur la construction d’un DAG de manière global, le scoreétant calculé sur l’ensemble de la structure.L’algorithme commence à partir d’un graphe soit vide (aucun lien présent), soit aléatoire (des liensaléatoirements mis entre des noeuds), soit d’un état défini par l’utilisateur. De ce graphe de départ estcalculé un score, l’algorithme effectue alors aléatoirement un changement dans le graphe (suppression,inversion, ou ajout d’une flèche). Si cette modification n’augmente pas le score, on revient à l’étatprécédent et on effectue une autre modification ; si au contraire le score augmente, on conserve le nouvelétat et une nouvelle modification est opérée. L’algorithme s’arrête quand aucune modification ne permetd’augmenter le score.Un des problèmes de ce type d’algorithme est qu’il peut obtenir un score maximum mais qui correspond àun maximum local, la meilleure solution est alors d’effectuer plusieurs fois l’algorithme et de prendrele graphe avec le meilleur score. Un autre problème apparaît quand il y a des scores équivalents : ilest possible qu’une modification n’apporte aucun changement au score ce qui arrive souvent pour desinversions de flèches, le graphe survenu le premier est alors retenu. Le graphe résultant est alors en partiealéatoire.

De nombreux scores existent tels que l’AIC, le BIC, le BD...Le BIC est un des scores les plus souvent utilisés. Il permet l’utilisation d’information a priori et seprésente sous la forme suivante pour des lois multinomiales :

BIC = log(P(D|G))− d

2log(n)

Où le terme de droite est un terme de pénalité, limitant les structures trop compliquées, et le sur-ajustement,et où n représente le nombre d’observations dans l’échantillon, d le nombre de paramètres associés auréseau : d =

∑Ni=1 d (i)× d (Pa (i)) où N représente le nombre de variables du réseau, d(i) le nombre

de modalités de la variable i, et d (Pa (i)) =∏j∈Pa(i) d(j).

14

La première partie représente la probabilité d’avoir ces données D sachant le graphe G :

P(D|G) =

N∏i=1

d(Pa(i))∏j=1

Γ(αij)

Γ(αij + nij)

d(i)∏k=1

Γ(αijk + nijk)

Γ(αijk)

αij sont les paramètres de la loi de Dirichlet a priori sur les paramètres de la distribution de j, avecj ∈ Pa(i) (le raisonnement est le même que l’exemple donnée dans la section 2.2.1), nij est le nombred’observations possédant la modalité j des parents de i.

3.1.2 Les algorithmes de type Grow-shrink

Le Grow-shrink (GS) est un algorithme de Margaritis (2003), dont de nombreux algorithmes se sontinspirés (MMHC, Inter-IAMB de Yaramakala et Margaritis (2005)...). Contrairement aux algorithmes detype Hill-climbing, la construction d’un DAG se fait de manière locale, c’est à dire que l’on s’intéresse auvoisinage de chaque variable, l’un après l’autre, et non à la structure en globalité.Il consiste en deux étapes, une première construisant le squelette et une seconde donnant des sens auxarcs du squelette.

La première étape est décomposée en deux phases et s’intéresse à chaque variable l’une après l’autre.Notons X = (X1, ..., Xn) les n variables d’un jeu de données, et notons B(.) un ensemble à remplir avectoutes les variables en relations directes avec . :

1. Grow :B(Xi) = {∅}, ∀j 6= i si Xi ⊥6⊥Xj |B(Xi) alors B(Xi) = B(Xi) ∪Xj

2. Shrink : ∀Xk ∈ B(Xi) si Xi ⊥⊥Xk|B(Xi)−Xk alors B(Xi) = B(Xi)−Xk

S’il a été déterminé avec l’algorithme que Xj est en relation directe avec Xi, on ne vérifie pas si Xi est enrelation directe avec Xj .Une fois la première étape effectuée des liens sont tracés entre Xi et les éléments de B(Xi).

La deuxième étape est différente selon les algorithmes. Les sens d’arcs sont soit donnés avec desalgorithmes de type Hill-climbing, soit comme c’est le cas de notre algorithme avec des interprétations dela D-séparation (voir la sous-section "Sens et Causalité" de la prochaine section). Le graphe résultant nepropose pas nécessairement une orientation à l’ensemble des arcs.

La principale utilité de ce type d’algorithme est d’effectuer un nombre limité de tests. Cependant nouspensons que le fonctionnement n’est pas le plus juste possible. En effet, avec ce fonctionnement lesquelette résultant peut-être différent pour un même jeu de données. Nous allons montrer avec l’exemplesuivant un des cas possibles où le graphe résultant n’est pas le même, simplement en changeant l’ordredes variables.Soit un phénomène de 5 variables (Q,S,D,G,J) et soit un jeu de données le représentant, dont les variablessont indiquées dans l’ordre précédent et tel que dans ce jeu de données il y a :

S ⊥6⊥ J, S ⊥6⊥Q, J ⊥⊥Q

En suivant l’algorithme on a alors pour la variable S :S⊥6⊥Q|B(S) et doncB(S) = B(S)∪Q. Il est possible d’avoir S⊥⊥J |Q et donc J /∈ B(S) et S /∈ B(J).Modifions maintenant l’ordre des variables, tel que l’ordre soit Q,J,S,D,G. Ainsi on aura pour la variableJ :

15

J ⊥⊥Q|B(J), J ⊥6⊥ S|B(J) et donc J ∈ B(S) et S ∈ B(J).Les deux graphes résultant seront alors les suivants :

FIGURE 3.1 – Deux réseaux bayésiens résultants d’un même algorithme et d’un même jeu de données. Lepremier est généré à partir des variables dans l’ordre Q,S,D,G,J et le second dans l’ordre Q,J,S,D,G.

Le réseau de droite est la bonne représentation du réseau qui a permis de simuler les données.L’exemple peut sembler assez restrictif. Cependant il arrive souvent (peu importe le nombre d’observations)d’obtenir des graphes différents selon l’ordre des variables dans le jeu de données. L’ensemble desalgorithmes testés utilisant le principe de GS présentent ce problème.

3.2 Notre algorithme

Nous avons cherché à développer notre propre algorithme, pour plusieurs raisons :— Intégrer facilement des méthodes pouvant utiliser de l’information a priori, qui ne sont pas

utilisables ou présentes dans d’autres algorithmes.— Résoudre le problème des algorithmes de types CBA.Notre algorithme a un principe de fonctionnement similaire au GS, avec deux étapes : Une première

construisant un squelette avec une phase Grow et une phase Shrink. Une seconde dirigeant en partie lesarcs.

3.2.1 Construction du squelette

Nous allons dans cette partie décrire la première étape de l’algorithme permettant de construire lesquelette d’un DAG, établissant les relations directes entre les variables.

Définition: On appelle voisinage direct de Y (noté VD(Y)), l’ensemble des variables en relation directeavec Y

Définition: On appelle voisinage grossier de Y (noté VG(Y)), l’ensemble des variables possédant unedépendance avec Y.

L’algorithme développé pour construire un réseau, se place sous l’hypothèse de Markov.Il est constitué de deux phases. Une phase Grow, où l’on construit un ensemble contenant le voisinagedirect d’une variable : le voisinage grossier. Une phase Shrink réduisant le voisinage grossier au voisinage

16

direct.

1. Grow : Dans cette étape on construit le voisinage grossier. Elle sert principalement à réduire lenombre de tests à réaliser par la suite.Ainsi pour chaque variable A et B du jeu de données, si A⊥6⊥B, alors A∈VG(B), et B∈VG(A).

2. Shrink : Dans cette étape on cherche à réduire les voisinages grossiers aux voisinages directs.Pour cela on regarde si une variable (ou un groupe de variables) intermédiaire existe entre deuxvariables, i.e. on s’intéresse à un ensemble D-séparateur. S’il n’en existe aucun on considèreque les deux variables sont en relation directe. Bien que l’hypothèse de Markov affirme qu’unevariable est indépendante de ses non-descendants conditionnellement à ses parents, l’ensembleD-séparateur trouvé n’a pas forcément des relations directes avec les variables qu’il a D-séparé.En effet une variable C peut-être D-séparatrice de A et B si C est une descendante de B et uneancêtre de A sans être l’enfant de B et le parent de A.Hypothèse de la variable intermédiaire : Soit C une variable aléatoire, C est intermédiaire à Aet B avec A∈VG(B), et B∈VG(A), si C est dans le voisinage grossier de A et de B.Ainsi, pour chaque B∈VG(A) si ∀C⊂VG(A)∩VG(B)-{A,B} A⊥6⊥B|C, alors B∈VD(A) et A∈VD(B).

Nous posons l’hypothèse de la variable intermédiaire, car nous pensons que seuls de telles variables per-mettent d’effectuer un choix interprétable, vis à vis de la D-séparation. En effet si on se réfère à l’exempledonné dans "3.1.2 Les algorithmes de type Grow-Shrink" de la section précédente, l’exemple est dans uncas où la variable Q n’est pas considérée comme une variable intermédiaire. Q donne une information surla relation entre J et S sans contenir d’information sur J. Nous pensons donc que l’information tirée de Qpar rapport à la relation entre J et S ne devrait pas être utilisée. En utilisant ce raisonnement on produit ununique graphe pour un jeu de données, peu importe l’ordre des variables dans le jeu de données.

Sous cette forme l’algorithme possède cependant un défaut. En effet nous conditionnons uniquementavec des variables intermédiaires. Bien que ce soit efficace, il existe un cas où un lien peut-être créé à tort.Il se présente sous la forme suivante, et a été décrit par Tsamardinos et al. (2006) :

FIGURE 3.2 – Cas pathologique

À condition d’avoir un nombre important de données, un lien entre X et W peut se créer. En effet, sil’on suit le fonctionnement de notre algorithme, dans un premier temps Z et W vont appartenir au voisinage

17

grossier de X. Cependant on va trouver X ⊥6⊥W |Z . Cela s’explique par le fait que le conditionnement à Zrevient à créer une relation entre X et Y (qui sont pourtant indépendants), or W possède de l’informationsur Y, et donc X ⊥6⊥W |Z. Pour résoudre ce cas pathologique, un conditionnement par Y et Z suffit alorspour ne pas conclure à une relation directe entre X et W. Une dernière partie spécifique à ce cas estintégrée dans l’algorithme.

NOTE : Le nombre maximum de variables avec lequel on conditionne en plus de la variable d’intérêtà l’étape Shrink est paramétrable et souvent fixé à deux pour le cas de variables multinomiales 1. En effet,les tests réalisés sur de tels cas semblent indiquer qu’un conditionnement à deux variables est suffisant peuimporte la structure du graphe ou le nombre d’observations. Cela est vrai uniquement pour les variablesmultinomiales.Il existe aussi la possibilité que le jeu de données soit d’une taille trop faible et que, de ce fait, un condi-tionnement à deux variables soit irréalisable dans le cas multinomial. En effet, un tel conditionnementimpliquerait des effectifs alors trop faibles et donc des tests de dépendance conditionnelle difficilementutilisables. La transmission d’information évoluant positivement avec l’augmentation du nombre d’obser-vations, conditionner à une seule variable n’impacte pas négativement les algorithmes à faible effectif.

NOTE 2 : Il n’y a pas nécessairement équivalence entre VD(.) de notre algorithme et B(.) des autresalgorithmes, qui essayent tous deux de représenter le voisinage direct d’une variable. En effet nousn’utilisons pas les mêmes variables intermédiaires.

3.2.2 Sens et causalité

Détermination du relationnel entre variables

L’un des objectifs principaux du stage est de pouvoir utiliser un réseau bayésien pour émettre deshypothèses de causalité entre variables. Le fait de savoir que deux variables sont en relation directeest souvent suffisant pour tirer des hypothèses de causalité. Cependant, il est possible d’obtenir deshypothèses de causalité à partir des données, en utilisant la D-séparation. En effet sur les différentessituations possibles de la D-séparation, il existe un cas distinct, le cas 3 qui correspond à deux variablespossiblement indépendantes qui engendrent une même variable. Pour utiliser ce cas là, nous demandonsnécessairement l’indépendance entre les deux variables du couple. On nomme ce cas restreint, le cas desépoux.Posons alors (X,Y) ∈VD(Z) avec X/∈VG(Y) et Y/∈ VG(X), ce qui correspond à X ⊥⊥ Y et X ⊥6⊥ Y |Z etdonc au cas des époux, nécessairement X → Z ← Y .Dans un squelette pour chaque triplet de variables (X,Y,Z) respectant le cas des époux on dirige les arcsde X vers Z et de Y vers Z.

De ce type de relation on peut alors en déduire de nouvelles. En effet supposons qu’il existe une variableW∈ VD(Z) avec W ∈ VG(X,Y) mais W /∈ VD(X,Y), figure ci-après.

1. Non limitée dans le cas général

18

FIGURE 3.3 – Réseau bayésien dont on cherche à déterminer le sens de l’arc entre Z et W

Les triplets (X,W,Z) et (Y,W,Z) ne correspondant pas au cas des époux et comme il n’existe pas d’arcentre X et W ni entre Y et W, alors nécessairement Z est le parent de W. De nombreuses relations peuventalors être déduites à partir d’un même couple et des conséquences que ce couple implique.

Cependant une des faiblesses du cas des époux comme nous l’utilisons est qu’il nécessite l’indépendanceentre époux. Dans de nombreux cas il y aura dépendance entre époux, dûe à une relation tierce, et peud’hypothèses de causalité pourront alors être émises. On pourrait pallier à ce problème en conditionnantpar le D-séparateur, s’il existe, du couple et l’enfant. S’il persiste une dépendance on peut effectivementconsidérer le triplet comme le cas des époux. Il est cependant très difficile de mettre en place un telprocessus informatique, qui nécessite un volume de données très important.L’autre faiblesse se situe sur le fait que même lorsque le cas des époux est découvert, il ne pourra que trèsrarement suffire à compléter l’ensemble des relations entre variables. En effet le cas des époux impacteuniquement le relationnel de ses descendants, et à partir du moment où l’on tombe sur un cas qui peutcorrespondre aux cas des époux dépendants aucune nouvelle relation ne peut être déduite.

Comme il n’est pas possible de compléter entièrement un graphe avec cette méthode, et que la littératuresur le sujet ne semble pas indiquer d’autres méthodes capables de déterminer toutes les hypothèses decausalité à partir d’un jeu de données (les méthodes de scoring ne sont pas parfaites non-plus avec desscores qui sont équivalents quelle que soit l’orientation des arcs) nous préférons ne pas compléter legraphe aléatoirement ni de manière à ne pas produire de cycle.C’est alors au clinicien ou à des études complémentaires de compléter le graphe pour déterminer descausalités. Il est important de rappeler que toute hypothèse de causalité doit de toute manière être confirméepar des experts ou des études annexes 2.Le réseau bayésien est utile lors d’étude de causalité principalement pour trouver des relations directes,appuyer des hypothèses déjà émises, ou encore concentrer les recherches d’une causalité dans un sensparticulier.

Supposition de relations et contradiction

La méthode pour diriger les arcs n’étant pas une méthode infaillible, il semble important (particulière-ment quand le réseau est utilisé en vue d’une réflexion causale) de répertorier exhaustivement l’ensemble

2. Que ce soit pour les algorithmes de type HC ou GS

19

des cas pour lesquels il pourrait y avoir une contradiction entre la réalité (ou les hypothèses du clinicien)et le graphe tiré des données. Il y a contradiction si :

— L’hypothèse de départ est fausse.— Le couple n’est pas vraiment un couple :

L’indépendance entre les deux éléments du couple qui a permis de déduire le sens de l’arc a étéjugée à tort, ou la dépendance entre le couple conditionnellement à l’enfant a été jugée à tort.

— Mauvais voisinage :Une des relations se situant entre l’enfant du couple et la relation d’intérêt (relation incluse) a étéjugée à tort.

— Voisin manquant :Une dépendance avec une variable présente dans le jeu de données qui aurait perturbée la présencede l’arc dirigé n’a pas été détectée.

— Il manque un ensemble de variables.C’est alors au statisticien et au clinicien de déterminer quelle est l’erreur commise la plus probable.

20

Chapitre 4

PerformanceNous examinerons en profondeur le cas multinomial avec des tests réalisés sur 6 réseaux bayésiens

structurellement différents et largement utilisés dans la littérature des réseaux bayésiens. Ces réseaux sontdisponibles sur http://www.bnlearn.com/documentation/networks/index.html. LesDAG sont présents en annexe. L’ensemble des algorithmes utilisés pour être comparés à notre algorithmeest disponible dans le package bnlearn du logiciel R.Nous nous concentrerons sur 3 algorithmes : le Hill-Climbing (HC) avec le score du BIC, l’inter-IAMB,et le MMHC. Ces deux derniers utilisent le MI. Notre algorithme utilisera la zone commune (zc) et letests de rapports de vraisemblances (MI). Ainsi nous pourrons comparer l’efficacité des algorithmes sansaccorder d’importance à la méthode, comparer l’efficacité des méthodes et enfin comparer les algorithmesde types constraint based algorithm (CBA) et score based algorithm (SBA).Le HC est souvent utilisé dans la littérature médicale pour construire des réseaux bayésiens à but prédictif.L’inter-IAMB semble, en comparaison des autres algorithmes que nous avons pu tester, un des algorithmesde type CBA les plus efficaces. Le MMHC est un algorithme particulièrement efficace sur des jeux dedonnées à grands nombres de variables.

Quant à l’utilisation de modèles linéaires généralisés, nous n’effectuerons pas de comparaison avecd’autres algorithmes car notre algorithme est le seul à prendre en comptes différents type de variables(Gamma, Gaussienne, Poisson...). Cependant nous discuterons de son efficacité à l’aide d’un réseau créépendant le stage.

4.1 Les réseaux bayésiens utilisés

Les 6 réseaux ont été choisis pour représenter une grande diversité de situations possibles— Le réseau Child de Spiegelhalter et Coewll (1992) est un réseau à 20 variables, 25 arcs et

230 paramètres qui à pour but de déterminer 6 possibles maladies comme des cardiopathiescongénitales chez des bébés, en fonction des différents symptômes.Ce réseau nous permettra d’observer les performances des algorithmes sur des petits réseaux avecpeu de paramètres.

— Le réseau Alarm de Beinlich et al. (1989) est un réseau à 37 variables, 46 arcs et 509 paramètresplus riche en variables que Child mais peu connecté. Le but du réseau est de fournir un messageinformant l’utilisateur sur des possibles problèmes avec 8 diagnostics possibles.

— Le réseau Insurance de Binder et al. (1997) est un réseau à 27 noeuds, 52 arcs et 984 paramètres,il a pour but d’estimer le prix à payer pour assurer une voiture.Ce réseau nous permettra d’observer les performances des algorithmes sur des petits réseaux avecbeaucoup de paramètres.

— Le réseau Hailfinder de Abramson et al. (1996) est un réseau à 56 noeuds, 66 arcs, et 2656paramètres, permettant de prédire différents types d’intempéries. Du fait de la multitude descénarios possibles certaines variables possèdent jusqu’à 11 modalités, avec une de ces variablescentrales parent de 17 autres variables.Ce réseau nous permettra d’observer les performances des algorithmes sur des réseaux avec des

21

http://www.bnlearn.com/documentation/networks/index.html

variables possédant beaucoup de modalités et une variable en générant beaucoup d’autres.— Le réseau hepar2 de Onisko (2003) est un réseau à 70 variables, 123 arcs, et 1453 paramètres,

servant à diagnostiquer des problèmes de foie.Ce réseau nous permettra d’observer les performances des algorithmes sur des réseaux avec desvariables générant beaucoup d’autres.

— Le réseau Andes de Conati et al. (1997) est un réseau à 223 variables, 338 arcs, et 338 paramètres.Il a pour but de prédire les différentes actions d’un étudiant au cours de la résolution de problèmes.L’ensemble des variables du réseau sont des variables binaires.

Beaucoup d’autres réseaux ont été utilisés pour pouvoir concevoir notre algorithme, comme le réseauLUCAS dont les données sont disponibles sur http://www.causality.inf.ethz.ch//data/LUCAS.html, ou d’autres réseaux créés pendant le stage. Nous avons décidé de nous concentrer sur lesréseaux précédemment cité, car ils regroupent en leurs seins une grande diversité de situations possibles.

4.2 Score

Il n’y a pas de consensus précis pour évaluer la qualité d’un DAG créé à partir d’un algorithme. Unedes mesures utilisées dans la littérature est le SHD (Structural Hamming Distance) présentée par Tsamar-dinos et al. (2006), qui compare un DAG créé par un algorithme à un DAG de référence. Cette mesureprend en compte le sens des arcs. Cependant le DAG produit par notre algorithme n’a pas nécessairementtous ses arcs orientés. De ce fait nous n’utiliserons pas ce score SHD.

Nous proposons l’utilisation d’un nouveau score qui s’intéresse aux distances entre le squelette d’unDAG produit par un algorithme et le squelette d’un DAG référent.Le score est donné par la formule suivante :

Score =Vrais Positifs− Faux Positifs

Nombre Originel d’Arcs

Définition:— Vrais Positifs : nombre de relations présentes à raison dans le réseau construit— Faux Positifs : nombre de relations présentes à tort dans le réseau construit— Nombre Originel d’Arcs (NOA) : nombre d’arcs présent dans le réseau référent— Faux Négatifs : nombre de relations non-présentes à tort dans le réseau construit, donnés par :

Faux Négatifs = NOA− Vrais Positifs— Vrai Négatifs : nombre de relations non-présentes à raison dans le réseau construit, donné pour

un réseau à n variables : Vrai Négatifs =(n2

)−NOA-Faux Positifs).

Si l’on s’intéresse aux composantes du score, on pourra souvent départager deux algorithmes auxscores proches. En effet, on peut obtenir des scores très proches avec un réseau possédant beaucoup devrais positifs et de faux négatifs, et un autre avec peu de vrais positifs mais très peu de faux négatifs.L’utilisateur choisit alors l’algorithme qu’il préfère en fonction de l’utilisation qu’il veut faire du réseaubayésien résultant. Si le réseau est à but prédictif, on aura tendance à utiliser celui qui possède le plus devrais positifs. S’il est à but causal, on choisira celui possédant le moins de faux positifs.

22

http://www.causality.inf.ethz.ch//data/LUCAS.html

http://www.causality.inf.ethz.ch//data/LUCAS.html

Un score proche de 1, correspondra à une concordance quasi parfaite entre le réseau produit et le réseauréférent. Un score proche de 0 signifie qu’il y a autant de faux positifs que de vrais positifs. Finalement unscore négatif est signe que sur l’ensemble des arcs présents une majorité sont des faux positifs.L’avantage de ce score est qu’il permet une comparaison rapide des algorithmes (et des méthodes) defaçon globale, c’est à dire peu importe l’utilisation du réseau. Nous considérons qu’un score est supérieurà un autre si le premier est supérieur au second d’au moins 5 points.

4.3 Le cas multinomial

4.3.1 Concernant les seuils

La méthode de la zone commune (zc) n’ayant jamais été exploitée, le seuil décisionnel n’existe pas.Nous avons donc cherché quelles sont les plages raisonnables de seuils à utiliser pour obtenir des scoresélevés, tout en ayant un nombre de faux positifs limité. Cette recherche de seuil a aussi été effectuée pourles tests d’indépendance du rapport de vraisemblance (MI). Rien ne semble indiquer qu’une utilisationclassique d’un seuil à 5% soit optimal.De manière générale l’utilisation d’un seuil de 5% pour la zone commune donne souvent autant de fauxpositifs que de faux négatifs, alors que l’utilisation de seuils compris entre 1% et 0.1% n’entraîne pas ceproblème. C’est pour ces raisons que nous nous concentrons sur les seuils de 1% et 0.1%.Une réflexion sur le conditionnement sera aussi entrepris. Lorsqu’on parle de conditionnement à deuxvariables, on parle de tests de dépendance de la forme H0 : A⊥⊥B|C,D, ce qui correspond en pratique àun conditionnement à trois variables (P(A|B,C,D)).Les différents seuils présentés ne sont pas des seuils optimaux. Cette partie a pour but d’explorer l’impactde changements de seuil et de donner un ordre d’idée sur les seuils à utiliser.

Les rapports de force restent souvent les mêmes, entre les différents seuils et conditionnements, pour unemême méthode peu importe le réseau. Nous allons donc nous concentrer ici sur un unique réseau. Nousallons examiner l’évolution des scores et des faux positifs en fonction des tailles d’échantillons à traversl’exemple du réseau Insurance. Le raisonnement se transposant souvent sur les autres réseaux.Pour obtenir la figure 4.1, les scores ont été calculés pour les tailles d’échantillons suivantes : 100, 200,300, 400, 500, 750, 1000, 1250, 1500. Pour chacune de ces tailles d’échantillons, pour obtenir des scoresstables, il a été simulé 10 échantillons. Les scores ont alors été calculés à partir de la moyenne des fauxpositifs et des vrai positifs pour chaque taille d’échantillons.

23

FIGURE 4.1 – Score du réseau Insurance en fonction des tailles d’échantillons, ZC : Zone Commune, MI :test de rapport de vraisemblance, NM=2 signifie que l’on a conditionné à deux variables

On peut remarquer que pour des tailles d’échantillons situées entre 100 et 500 observations, la zc avecun seuil de 1% et les seuils du MI de 1% et 5% sont dominant avec plus de 5 points d’écart par rapportaux autres seuils. Le seuil de 1% diminue cependant de moitié le taux de faux positifs par rapport au seuil5% pour le MI. Pour notre utilisation il sera alors plus rentable d’utiliser le seuil d’1%.Pour ces tailles d’échantillons, un conditionnement à 2 variables plutôt qu’à une seule est peu envisageable,les tailles d’échantillons étant trop faibles.

À partir de 500 individus, la zc et le MI au seuils précédents perdent de leur efficacité avec un forteaugmentation de faux positifs, expliquant la chute ou la stabilisation des scores. Selon les réseaux cetévènement arrive entre 400 et 500 individus. Il devient alors intéressant d’examiner d’autres seuils oufaire intervenir un conditionnement à deux variables.L’utilisation de seuils de 0.1% ou même de 1% avec un conditionnement à deux variables commence alorsà rivaliser les seuils précédents. Dans le cas du réseau Insurance pour la zc, ces différents paramétragesdonnent des scores équivalents pour des tailles d’échantillons entre 500 et 750 observations. Il est souventplus intéressant d’utiliser un conditionnement à deux variables si l’on souhaite avoir moins de fauxpositifs.Le seuil de 0.1% reste, entre 500 et 1500 observations, le seuil le plus efficace des seuils testés, pour leMI.

Enfin pour des tailles de population plus grandes un conditionnement à deux variables devient rentable à1500 individus pour le MI.La question des seuils reste toujours pertinente pour des tailles de populations plus grandes. Nous ne noussommes pas penchés en détail sur de telles tailles de populations, car les données disponibles seront très

24

rarement supérieures à 2000 individus. Il est toutefois intéressant de noter que le conditionnement à plusde deux variables est très peu utile. Des tests réalisés avec des tailles d’échantillons pouvant atteindre20000 observations n’ont pas indiqué le besoin d’augmenter le nombre de variables avec lesquelles onconditionne.

Nous rappelons que les seuils précédemment évoqués ne sont pas des seuils optimaux. Il peut souventêtre plus intéressant de prendre des seuils intermédiaires comme 0.5%.Pour déterminer de tels seuils "pseudo-optimaux", il est nécessaire de réaliser un grand nombre desimulations sur les différents réseaux afin d’évaluer l’impact des seuils utilisés. Globalement, que ce soitpour la MI ou pour la zc, il est souvent peu intéressant d’utiliser des seuils de 5%.

4.3.2 Comparaison et analyse

Pour comparer les différents algorithmes et méthodes, nous avons choisi d’utiliser plusieurs taillesd’échantillons différents. De la même manière que pour la section précédente, pour chaque taille d’échan-tillon, 10 échantillons ont été simulés. Nous avons alors appliqué les différents algorithmes à ces 10échantillons, les scores ont ensuite été calculés sur la moyenne des faux positifs et des vrais positifspour chaque taille d’échantillon. Avec cette méthode nous obtenons des scores suffisamment stables pourpouvoir effectuer des comparaisons. La table 4.1 contient une partie des résultats simulés.

Le HCr correspond à l’algorithme Hill-climbing effectué avec 100 fois, pour éviter de tomber dansdes maximums locaux. Les seuils pour la zc et le MI utilisés sont ceux suggérés à la section précédente,c’est-à-dire pour 100 et 200 observations des seuils de 1% pour les deux tests, de 500 et 1000 individusun seuil de 1% avec un conditionnement à deux variables pour la zc, et un seuil de 0.1% pour MI. Enfinpour les tailles d’échantillons plus grands, on utilise le seuil de 0.1% pour la zc et le seuil de 1% pour MI,tous deux avec un conditionnement à deux variables.

Le MMHC :Le MMHC est l’algorithme le moins efficace, il semble seulement intéressant pour des réseaux à grandsnombres de variables. Son score s’approche des autres algorithmes seulement pour les réseaux hepar2 etAndes. Il est donc possible qu’il soit plus efficace que les autres algorithmes sur des jeux de données àplus de 300 variables. Nous n’avons cependant pas effectué de tests sur de si grands jeux de variables,car le cadre dans lequel nous souhaitons appliquer l’algorithme dépassera rarement les 100 variables.Seulement dans le réseaux Hailfinder, il est dans quelques occasion équivalents à notre algorithme.

L’inter-IAMB :L’inter-IAMB est plus efficace que le MMHC. Cependant face aux autres algorithmes il reste souventmoins efficace. Cette efficacité moindre est en grande partie dûe au fait qu’il trouve moins de vrai positifs.L’inter-IAMB utilise le MI, si on le compare a notre algorithme utilisant aussi le MI, on peut remarquerque notre algorithme est souvent soit plus efficace soit équivalent à l’inter-IAMB.

25

Réseaux (NV-NAO-p) n ZC MI HC HCr inter-IAMB MMHC

Child (20 - 25 - 230)

100 37.20 30.80 47.60 47.60 28.40 20.80200 64.20 60.40 61.60 64.40 45.40 25,00500 74.40 79.20 71.80 78.40 67.00 34.001000 76.80 84.8 74.40 83.60 68 44.00

Alarm (37 - 46 - 509)

200 44.46 40.00 43.91 52.39 41.41 21.85500 50.46 59.78 52.83 68.26 56.52 34.571000 63.04 59.78 65.65 76.52 62.61 39.572000 76.09 70.43 72.61 80.22 73.04 50.225000 84.78 76.08 72.54 91.96 71.46 65.59

Insurance (27 - 52 - 984)

200 29.04 29.13 32.31 36.35 24.23 19.81500 37.50 43.37 36.54 48.08 31.15 22.691000 53.46 41.35 47.5 59.04 33.27 28.272000 57.87 48.65 50.00 58.85 37.76 32.695000 63.63 54.61 52.27 60.19 44.75 34.69

Hailfinder (56 - 66 - 2656)

200 28.33 20.23 36.21 35.15 33.79 27.42500 34.39 27.50 56.90 53.33 41.21 35.611000 38.64 32.12 68.18 63.18 40.91 30.312000 36.97 43.48 64.48 68.33 45.76 32.42

hepar2 (70 - 123 - 1453)

200 12.93 5.12 3.09 -0.49 2.20 7.07500 23.25 18.70 22.60 20.89 12.36 14.631000 33.09 30.08 34.39 34.55 19.19 20.732000 42.68 41.05 48.05 49.35 28.05 29.515000 56.25 54.47 58.86 58.46 35.28 37.89

Andes (223 - 338 - 1157)

200 33.61 15.97 15.50 35.15 26.36 29.79500 47.49 13.43 41.15 41.83 39.59 41.951000 56.12 55.68 54.91 55.68 46.78 50.832000 65.33 30.23 67.19 65.71 55.33 58.22

TABLE 4.1 – valeurs des différents scores. ZC correspond à l’utilisation de notre algorithme avec laméthode de la zone commune, MI correspond à l’utilisation de notre algorithme avec le test de rapport devraisemblance. NV : nombre de variables, p nombre de paramètres du réseau (dépendant du nombre deparents de chaque variables), HCr : Hill-Climbing restart.

Le Hill-ClimbingLe hill-climbing semble particulièrement efficace que ce soit avec un seul essai ou 100. Le score estsouvent meilleur en recommençant, ce qui logique car on prend le meilleur graphe. Néanmoins danscertains cas recommencer diminue notre score d’évaluation des réseaux. Les scores étant calculés enmoyenne et les données simulées sans biais, cette baisse de score est un signe que la maximisation d’unscore tel que le BIC ne veut pas forcément dire que l’on se rapproche du réseau d’origine.Comparé à notre algorithme utilisant la zc, le Hill-climbing est souvent plus efficace, sur les 27 testsprésentés, dans 12 cas les scores ont plus de 5 points d’écart, dans 2 cas notre Algorithme est supérieur deplus de 5 points et dans les 13 autres cas restant il y a moins de 5 points de différence. Une bonne partiede cette supériorité est acquise sur le réseau Hailfinder.

26

Notre AlgorithmeNotre algorithme semble être l’un des algorithmes de type CBA les plus efficaces. Cet effet est mêmelégèrement amplifié en utilisant la ZC plutôt que le MI. La zc semble souvent plus efficace pour desfaibles tailles d’échantillons.Seul le réseau Hailfinder pose problème à notre algorithme. Nous expliquons cela par la particularité duréseau avec la variable principale qui possède 11 modalité et en engendre 17 autres, peu propice aux testsde dépendance conditionnelle.

4.3.3 Avantage/inconvénient

Avantage :Un avantage de notre algorithme, à seuil fixé, est que pour un jeu de données il produira un unique graphe,ce qui n’est pas le cas pour l’ensemble des autres algorithmes testés.

Contrairement aux autres algorithmes, notre algorithme peut traiter les jeux de données possédant desdonnées manquantes, à conditions que celles-ci soient aléatoirement distribuées.

Inconvénient :La plupart des algorithmes ont été créés en ayant, entre autres, comme objectif d’avoir un temps d’exé-cution faible. En général quelques secondes leurs suffiront pour proposer un réseau bayésien. Notrealgorithme n’a pas été développé dans cette optique. Le temps d’exécution est dépendant du nombre devariables, du nombre d’individus, et fortement dépendant de la connectivité 1 du réseau. Il peut prendreplusieurs dizaines de minutes pour des réseaux aussi grand que Andes ou aussi connecté que Hailfinder.En moyenne l’algorithme propose un graphe en moins d’une minute.

Un inconvénient, inhérent aux algorithmes de types CBA, est qu’il faut utiliser des seuils bien précis pourobtenir le meilleur graphe possible. Ces seuils sont difficiles à obtenir et la meilleure manière pour obtenirun seuil intéressant est de réaliser différentes simulations sur des réseaux connus pour en évaluer l’impact.Il est tout de même intéressant de noter que le changement de seuils sur les autres algorithmes de typeCBA a un impact plus faible que sur notre algorithme.Ce problème n’intervient pas pour les SBA, car ils maximisent uniquement un score. Le seul débatpossible porte alors sur la validité des scores utilisés.

4.3.4 Efficacité générale des algorithmes de réseaux bayésiens

De manière globale, les algorithmes sont efficaces dans le sens où le nombre de faux positifs estsouvent limité. En effet sur l’ensemble des tests réalisés le nombre de faux positifs représente rarementplus de 16% de l’ensemble des liens trouvés. Plus le jeu de données est grand, moins de faux positifsseront trouvés (à condition d’utiliser un bon seuil) et il n’est pas rare d’obtenir moins de 4% de fauxpositifs.

Peu importe les méthodes ou les algorithmes, plus le jeu de données a d’observations, plus les algorithmeset les méthodes trouveront de vrais positifs (à des échelles différentes). Cependant la progression de ces

1. dans le sens d’un réseau fourni en lien direct

27

découvertes se fait à une vitesse logarithmique par rapport à la taille des échantillons. Ce phénomènes’explique en grande partie par l’impact faible de certaines variables sur celles qu’elles génèrent. Ladétection de tels liens nécessite alors un grand volume de données. Mais plus le jeu de données est grandplus le nombre de faux positifs augmente (c’est pour ces raisons que nous effectuons les changementsde seuils). Ces changements de seuils, qui s’imposent, réduisent nécessairement la découverte de vraispositifs, ce qui accentue la baisse de vrais positifs trouvée.Enfin, plus un réseau est connecté, plus il sera difficile de se rapprocher de sa forme, car il aura un nombretrès élevé de paramètres, et donc demandera alors un nombre d’observations très élevé. Néanmoinsl’utilisation d’algorithmes à faible taille échantillon n’est pas inutile car on peut s’intéresser à une partielocale du réseau. Il parait cependant insensé d’utiliser de tels algorithmiques pour des tailles d’échantillonsplus petites que 100 observations, car très peu de connections seront trouvées, enlevant ainsi tous l’intérêtd’un réseau bayésien.Pour obtenir un réseau au plus proche de la réalité et le plus complet (avec au moins 90% de liens trouvés),les simulations semblent indiquer qu’il faut au moins 10 fois plus d’observations que de paramètres. Lenombre de paramètres d’un réseau représentant un phénomène étant inconnu, il est difficile de proposer unnombre d’individus pré-étude pour espérer obtenir un réseau bayésien proche de la réalité. Il est cependantpossible d’estimer le nombre de paramètres d’un réseau. Nous l’avons vu le nombre de paramètres d(3.1.1) est lié au nombre de parents. Ainsi on peut estimer le nombre de paramètres du réseau, noté p̂, par :

d̂ =N∑i=1

d (i)× d(P̂ a (i)

)P̂ a (i) représentant un ensemble supposé de parents de la variable i.Il est cependant préférable de donner un intervalle contenant d, qui demande une connaissance moinspoussée du phénomène étudié, en proposant un nombre minimum et maximum de parents pour lesvariables et en définissant un nombre de moyen modalités.

4.3.5 Information a priori

L’incorporation d’information a priori réaliste dans notre algorithme via la zone commune a souventpour impact de réduire le nombre de faux positifs, et dans quelques cas d’augmenter le nombre de vraispositifs.Ce phénomène s’explique par le fonctionnement de notre algorithme et l’information a priori incorporée.Dans la majorité des cas, l’information a priori sera sur P(A|B) (ou P(A|B,C)). Si elle tend à montrerque A a un impact sur B, alors la variable passera plus aisément la phase grow de notre algorithme.Cependant, dans la deuxième phase quand on va conditionner a une ou deux variables, cette informationne sera plus utilisée et il faudra alors plus d’information a priori, qui n’est pas nécessairement disponible.Dans ce cas là, ce seront entièrement les données qui détermineront s’il existe des variables D-séparatrices.Si cependant l’information tend à montrer que A n’a pas d’impact sur B, alors ni A ne rentrera dans levoisinage grossier de B, ni B dans celui de A. On peut donc éviter un faux positif.

28

4.4 Le cas général

Nous avons testé notre algorithme en utilisant les GLM, sur des petites structures de réseaux similairesau réseau LUCAS. Les données ont été simulées selon ces réseaux à partir de lois diverses telles que desloi Normales, Gamma, Poisson, ou encore Multinomiales.

L’utilisation pratique du GLM pour les réseaux est plus difficile à mettre en place que pour les tests.Il faut une bonne identification des lois de chaque variable, qui est une condition a un bon fonctionnementde l’algorithme.Quand on a affaire à des variables multinomiales, il faut nécessairement que toutes les modalités desvariables utilisées dans le modèle soient représentées, sinon l’estimation ne sera pas bonne.De plus des problèmes nouveaux apparaissent. Posons A et B des variables aléatoires de loi quelconques etZ un ensemble de variables aléatoires. il arrivera souvent que la régression de B et Z sur A, montre que lavariable B est un impact significatif sur A, mais quand on effectue la régression de A et Z sur B, on montreque la variable A n’a pas d’impact significatif sur B. Cela peut être interprété comme un signe de causalité ;cependant ce n’est pas tous le temps le cas. En général il semble intéressant d’interpréter le cas précédentcomme un signe de causalité. Mais cela semble rarement vrai pour les variables multinomiales, le plussouvent ce sera le signe que les deux variables ne sont pas en relation directe. Ce problème augmentedonc nécessairement le nombre de faux positifs quand il y a des variables multinomiales dans le jeu dedonnées. Ce qui implique un traitement particulier à réaliser pour les différents types de variables.

Quand l’algorithme est utilisé avec précautions, les résultats semblent montrer que l’utilisation du GLMest utile, car elle permet d’utiliser différents types de variables, le nombre de faux positifs est limité et lenombre de vrai positifs est raisonnable.Si on effectue une discrétisation 2 sur l’ensemble des variables continues, afin d’utiliser des tests dedépendances. Les résultats obtenus avantagent l’utilisation du GLM, plutôt qu’une discrétisation. Ony retrouve plus souvent de vrais positifs et moins souvent de faux positifs. Cependant la mauvaiseinterprétation de la loi d’une variable, ou la présence de variables multinomiales peut avoir un impactnégatif plus important que la discrétisation.

2. Plusieurs méthodes de discrétisation ont été testés : cluster, quantiles, intervalles, hartemink

29

Chapitre 5

Application à un jeu de donnéesUn jeu de données provenant des services de pédiatrie du Haut-Rhin, nous a été confié.

Le but était de déterminer les facteurs de risque de la survenue d’un pneumothorax (PNO), dans unepopulation de nouveaux nés atteints de détresse respiratoire (DR).Le PNO est défini comme une irruption d’air dans la cavité pleurale qui est un espace fermé virtuel,constitué par deux feuillets (pariétal et viscéral) recouvrant le poumon.Le jeu de données contient la variable cible (le PNO) et l’ensemble des variables supposées êtres direc-tement ou indirectement associés à la survenue d’un PNO dans cette population. Il est composé de 382individus et 33 variables. Quatres d’entre-elles ont été discrétisées, avec l’aide du clinicien. Les restantessont des variables multinomiales ou binomiales.

Nous nous intéressons à l’explication de la variable cible. Nous allons comparer les résultats obtenusà l’aide d’une régression logistique multivariée et à partir de notre algorithme.

5.1 La régression logistique

Dans un premier temps une discussion avec les cliniciens a permis de supprimer les variablesredondantes entre elles (6 variables). La sélection des variables à utiliser pour expliquer le PNO via lemodèle a été réalisé à l’aide d’une procédure pas à pas basée sur le critère d’AIC sur les 26 variablesprésentent dans le jeu de données.Suite à cette analyse, les variables associées à la survenue d’un pneumothorax étaient : le sexe, l’étiologiede la détresse respiratoire, le mode d’assistance ventilatoire mis en place (MVP), l’administration desurfactant et la présence d’une FiO2 (fraction inspirée en oxygène) supérieure à 30%.

Variables Modalités OR IC 95% p-valeurs

sexehomme 1 -femme 0.53 [0.21 ;1.25] 0.16

étiologieMMH 1 -DRT 0.34 [0.08 ;1.65] <0.001ILM 4.63 [1.30 ;18.80]

MVPintubation 1 -VNI 0.74 [0.16 ;3.43] 0.03OT 2.86 [0.76 ;12.30]

surfactantoui 1 -non 0.61 [0.11 ;3.14] 0.55

FiO2<30 1 ->30 2.83 [1.08 ;7.47] 0.03

TABLE 5.1 – Tableau des variables avec Odds Ratio (OR), Intervalles de Confiance à 95% et p-valeur.MMH : Maladie des membranes hyalines, DRT : Détresse respiratoire transitoire, ILM : Inhalation deliquide méconial, VNI : Ventilation non invasive, OT : Oxygénothérapie

30

5.2 Le graphe

Le graphe suivant a été produit à l’aide de la zone commune et de notre algorithme :

FIGURE 5.1 – Réseau bayésien produit à l’aide de notre algorithme et de la zone commune. En vert lavariable cible, en jaune les variables du modèle logistique

Avec :

1 Sexe 2 terme de l’âge gestationnel 3 parité4 âge 5 Menace d’accouchement prématuré 6 corticothérapie7 Antibiothérapie maternelle 8 Diabète gestationnel 9 Hypertension artérielle10 Mode de délivrance 11 Mode de travail 12 difficulté d’extraction13 liquide amniotique 14 Score d’Apgar à 1 min de vie 15 Score d’Apgar à 5 min de vie16 trophicité 17 délai d’apparition de la DR 18 aide ventiloire en salle de naissance19 étiologie de la DR 20 mode ventilatoire principal 21 Antibiothérapie22 Sédation 23 Monoxyde d’azote 24 surfactant25 Fraction inspirée d’O2 26 Durée alimentation parentérale 27 Survenue du pneumothorax

TABLE 5.2 – Table des variables du graphe

31

Suite à la construction du réseau, seule la variable étiologie est en relation directe avec la survenued’un pneumothorax. Avec un OR pour la modalité DRT de 0.44 [0.15 ;1.39] et un OR pour la modalitéILM de 5.61 [2.17 ;16.65]. Les distributions des OR sont disponibles dans la figure qui suit.

FIGURE 5.2 – Histogramme des OR

5.3 Comparaison

L’interprétation du graphique indique que les variables de la régression, n’ont pas ou très peu d’impactsur la variable PNO.Soit elles ont un impact sur la variable étiologie qui elle même influence le PNO. A ce moment là,l’étiologie jouerait un rôle de médiateur et les autres variables de la régression, à l’exception du sexe,serait des parents (ou grand parent pour la FiO2) de l’étiologie.Soit elles sont, comme le PNO, des enfants (ou petit enfant pour la FiO2) de l’étiologie et la dépendancetrouvée dans régression entre ces variables et le PNO proviendrait d’un effet de cause commune. Cettedernière hypothèse nous paraît plus vraisemblable, les discussions avec les cliniciens étant toujours encours.Une autre possibilité serait l’existence de liens directs non-détectés, entre les variables de la regression etla PNO. La non-détection serait alors dûe à un manque de données. Mais nous pensons que cette possibilitéest peu probable sauf pour le mode ventilatoire principal, où une cause directe pourrait s’expliquer demanière physiopathologique. Ce lien a d’ailleur déjà été évoqué dans d’autres études.Concernant la variable sexe dans l’analyse en réseau, on la retrouve isolée de l’ensemble des autresvariables. Ce résultat parait plus vraisemblable que celui suscité par le modèle régressif, car aucune raisonphysiopathologique ne viendrait étayer cette hypothèse. De plus la différence d’AIC entre le modèles avecsexe et sans sexe reste minime, et la p-valeur élevée.

32

ConclusionJ’ai pu dans ce stage, explorer un pan de la statistique particulièrement intéressant, y découvrir toute

la méthodologie qui l’entoure et y participer.

J’ai pu découvrir l’utilité des réseaux bayésiens, et des problématiques qui entourent leurs créations.Lorsque les variables disponibles sont multinomiales les algorithmes existants et celui développé pendantle stage sont efficaces. Ils nécessitent toutes-fois un volume important de données pour découvrir complè-tement toutes les relations qui lient les variables entre elles. Mais ils ont souvent une bonne efficacité entermes de faux positifs, qui est encore plus accentué en rajoutant de l’informations a priori.Notre algorithme permettant justement d’incorporer de l’information a priori à l’aide de la zone communesemble particulièrement efficace comparé aux autres algorithmes de types CBA. Nous avons égalementpû résoudre les problèmes liés aux algorithmes de types CBA (Constraint based algorithm).Comparé au SBA (Score based algorithm), notre algorithme est soit équivalent soit moins efficaces,l’intégration d’informations a priori informatives le rends alors plus efficace et le permet de concurrencerdes SBA.L’utilisation de la zone commune semble intéressante même lorsqu’on utilise des lois a priori peu infor-matives. Un des seuls désavantages, inhérent aux algorithmes CBA, est qu’il nécessite un choix éclairésur les seuils à utiliser.

Lorsque les variables suivent n’importe quels types de lois, il est cependant beaucoup plus difficile deconstruire un graphe. L’utilisation de modèle GLM demande un travail en amont qui peut-être dans certainscas long et crucial. Ce qui nécessite un questionnement plus important que pour les variables uniquementmultinomiales. La méthode reste attractive de par sa possibilité de prendre en compte n’importe quelle loide probabilités, et donc s’approcher au mieux d’un graphe proche de la réalité.Si l’identification des lois a été bien réalisée et que les variables multinomiales ne posent pas de problème,utiliser une telle méthode est plus intéressant que la discrétisation de données. Dans le cas contraire ladiscrétisation semble devenir aussi voire plus rentable que le GLM.

Un dernier point pose véritablement problème aux réseaux bayésien, peu importe le type de variable, iln’existe pas de méthode probante permettant de déterminer de manière non-aléatoire, une orientation àl’ensemble des arcs.

33

Annexe

BirthAsphyxia

HypDistrib HypoxiaInO2 CO2 ChestXrayGrunting LVHreport

LowerBodyO2 RUQO2 CO2Report XrayReport

Disease

GruntingReport

Age

LVHDuctFlow CardiacMixing LungParench LungFlowSick

FIGURE 3 – Réseau Child

34

HISTORY

CVPPCWP

HYPOVOLEMIA

LVEDVOLUME

LVFAILURE

STROKEVOLUME ERRLOWOUTPUT

HRBP HREKG

ERRCAUTER

HRSAT

INSUFFANESTH

ANAPHYLAXIS

TPR EXPCO2

KINKEDTUBE

MINVOLFIO2

PVSAT

SAO2

PAP

PULMEMBOLUS

SHUNT

INTUBATION

PRESS

DISCONNECT

MINVOLSET

VENTMACH

VENTTUBE

VENTLUNG

VENTALV

ARTCO2

CATECHOL

HR

CO

BP

FIGURE 4 – Réseau Alarm

35

GoodStudent

Age

SocioEcon

RiskAversion

VehicleYear

ThisCarDam

RuggedAuto

Accident

MakeModel

DrivQuality

Mileage

Antilock

DrivingSkill

SeniorTrain

ThisCarCost

Theft

CarValue

HomeBase AntiTheft

PropCost

OtherCarCost

OtherCar

MedCost

Cushioning

Airbag

ILiCost

DrivHist

FIGURE 5 – Réseau Insurance

36

N0_7muVerMo SubjVertMo QGVertMotion

CombVerMo

AreaMeso_ALS

SatContMoist RaoContMoist

CombMoisture

AreaMoDryAir

VISCloudCov IRCloudCover

CombClouds

CldShadeOthAMInstabMt

InsInMt WndHodograph

OutflowFrMt MorningBound

Boundaries

CldShadeConv

CompPlFcst

CapChange

LoLevMoistAd

InsChange

MountainFcst

Date

Scenario

ScenRelAMCINMorningCIN

AMCINInScen

CapInScen

ScenRelAMInsLIfr12ZDENSdAMDewptCalPl

AMInsWliScen

InsSclInScen

ScenRel3_4

LatestCIN LLIW

CurPropConv ScnRelPlFcst

PlainsFcst

N34StarFcst

R5Fcst

Dewpoints LowLLapse MeanRH MidLLapse MvmtFeatures RHRatio SfcWndShfDis SynForcng TempDis WindAloft WindFieldMtWindFieldPln

FIGURE 6 – Réseau Hailfinder

37

alcoholism

vh_amn

hepatotoxic

THepatitis

hospital surgery

gallstones

choledocholithotomy

injectionstransfusion

ChHepatitis

sex age

PBC

fibrosis

diabetes

obesity

Steatosis

CirrhosisHyperbilirubinemia triglycerides RHepatitis

fatiguebilirubin

itching

upper_pain fat

pain_ruq pressure_ruq phosphatase

skin

ama le_cellsjoints

pain

proteins edemaplatelet inr

bleeding

flatulence

alcoholencephalopathy

urea ascites

hepatomegaly

hepatalgiadensity

ESR alt ast

amylase

ggtpcholesterol

hbsag

hbsag_anti

anorexianauseaspleen

consciousness

spiders

jaundice

albumin edge irregular_liver

hbc_anti hcv_anti

palms

hbeag

carcinoma

FIGURE 7 – hepar2

38

GOAL_2

SNode_3

SNode_4

SNode_5 SNode_6

SNode_7DISPLACEM0

RApp1

GIVEN_1

RApp2

SNode_8

SNode_9

SNode_10

SNode_11

SNode_12 SNode_13

SNode_14

SNode_15

SNode_16

SNode_17

SNode_18 SNode_19

NEED1

SNode_20GRAV2

SNode_21

VALUE3

SNode_24

SLIDING4

SNode_25

CONSTANT5

SNode_26KNOWN6

VELOCITY7

SNode_47

RApp3

KNOWN8

RApp4

SNode_27

COMPO16

GOAL_48

TRY12

TRY11

GOAL_49CHOOSE19

GOAL_50 SYSTEM18

SNode_51 KINEMATI17

SNode_52

IDENTIFY10

GOAL_53 IDENTIFY9

SNode_28

TRY13 TRY14 TRY15

VAR20

SNode_29

SNode_31

GIVEN21

SNode_33SNode_34

VECTOR27

APPLY32

GOAL_56CHOOSE35

GOAL_57MAXIMIZE34

SNode_59AXIS33

SNode_60 WRITE31

GOAL_61 WRITE30

GOAL_62 RESOLVE37

GOAL_63NEED36

SNode_64

SNode_41

SNode_42 IDENTIFY39

SNode_43 RESOLVE38

GOAL_66

SNode_67

IDENTIFY41

SNode_54RESOLVE40

GOAL_69

SNode_70

IDENTIFY43

SNode_55RESOLVE42

GOAL_72

SNode_73 KINE29

SNode_74

VECTOR44

SNode_75EQUATION28

GOAL_79

RApp5

GOAL_80

RApp6

GOAL_81

TRY25

TRY24

GOAL_83 CHOOSE47

GOAL_84SYSTEM46

SNode_86NEWTONS45

SNode_156

DEFINE23

GOAL_98IDENTIFY22

SNode_37

TRY26

SNode_38

SNode_40

SNode_44

SNode_46

NULL48

SNode_65SNode_68SNode_71

FIND49

GOAL_87 NORMAL50

SNode_88

STRAT_90

NORMAL52

INCLINE51

SNode_91

HORIZ53BUGGY54

SNode_92IDENTIFY55

SNode_93

WEIGHT56

SNode_94

WEIGHT57

SNode_95SNode_97

FIND58

GOAL_99

IDENTIFY59

SNode_100

FORCE60

SNode_102APPLY61

GOAL_103CHOOSE62

GOAL_104

SNode_106

SNode_152 WRITE63

GOAL_107 WRITE64

GOAL_108 GOAL_109 GOAL65

GOAL_110

GOAL66

GOAL_111

NEED67

RApp7

RApp8

SNode_112

GOAL68

GOAL_113GOAL_114

SNode_115 VECTOR69

SNode_116

SNode_117

VECTOR70

SNode_118EQUAL71

SNode_119SNode_120

GOAL72

GOAL_121

SNode_122 VECTOR73

SNode_123NEWTONS74

SNode_124

SUM75

SNode_125

GOAL_126GOAL_127RApp9

RApp10

SNode_128

GOAL_129GOAL_130

SNode_131

SNode_132

SNode_133

SNode_134SNode_135

SNode_154

SNode_136SNode_137

GOAL_142 GOAL_143GOAL_146

RApp11 RApp12RApp13

GOAL_147 TRY76

GOAL_149 APPLY77

GOAL_150 GRAV78

SNode_151

GOAL_153

SNode_155

FIGURE 8 – Réseau Andes

39

BibliographieABRAMSON, B., BROWN, J., EDWARDS, W., MURPHY, A. et WINKLER, R. (1996). Hailfinder, a bayesian

system for forecasting severe weather. International Journal of Forecasting, pages 57–71.

AKAIKE, H. (1973). Information theory and an extension of the maximum likelihood principle. SecondInternational Symposium on Information Theory, pages 267–281.

BEINLICH, I., SUERMONDT, H., CHAVEZ, R. et COOPER, G. (1989). The alarm monitoring system : Acase study with two probabilistic inference techniques for belief networks. In Proceedings of the 2ndEuropean Conference on Artificial Intelligence in Medicine, pages 247–256.

BINDER, J., KOLLER, D., RUSSEL, S. et KANAZAWA, K. (1997). Adaptive probabilistic networks withhidden variables. Machine Learning, pages 213–244.

CONATI, C., GERTNER, A., VANLEHN, K. et DRUZDZEL, M. (1997). On-line student modeling forcoached problem solving using bayesian networks. Proceedings of the 6th International Conference onUser Modeling, pages 231–242.

GASSE, M., AUSSEM, A. et ELGHAZEL, H. (2014). A hybrid algorithm for bayesian network structurelearning with application to multi-label learning. Expert Systems with Applications, Elsevier, pages6755–6772.

GIDEON, S. (1978). Estimating the dimension of a model. Annals of Statistics, pages 461–464.

HECKERMAN, D. (1995). A bayesian approach to learning causal networks. MSR-TR-95-04, MicrosoftResearch.

INMAN, H. et BRADLEY, E. L. (1989). The overlapping coefficient as a measure of agreement betweenprobability distributions and point estimation of the overlap of two normal densities. Communicationsin Statistics - Theory and Methods, 18(10):3851–3874.

MARGARITIS, D. (2003). Learning Bayesian network model structure from data. Thèse de doctorat,Pittsburgh : Carnegie-Mellon University, School of Computer Science.

ONISKO, A. (2003). Probabilistic Causal Models in Medicine : Application to Diagnosis of LiverDisorders. Thèse de doctorat, Institute of Biocybernetics and Biomedical Engineering, Polish Academyof Science.

PEARL, J. (1988). Probabilistic Reasoning in Intelligent Systems : Networks of Plausible Inference.Morgan Kaufmann Publishers Inc.

PEARL, J. (2009). Causality. Cambridge University Press.

ROBINSON, R. W. (1973). Counting labeled acyclic digraphs. New Directions in the Theory of Graphs,pages 239–273.

40

SCUTARI, M. et DENIS, J. (2014). Bayesian Networks. Taylor et Francis Group, LLC.

SPIEGELHALTER, D. et COEWLL, R. (1992). Learning in probabilistic expert systems. Bayesian Statistics,pages 447–466.

TSAMARDINOS, I., BROWN, L. et ALIFERIS, C. (2006). The max-min hill-climbing bayesian networkstructure learning algorithm. Machine Learning, pages 31–78.

WALLACE, C. et KORB, K. (1999). Learning linear causal models by mml sampling. Causal Models andIntelligent Data Management, pages 89–111.

YARAMAKALA, S. et MARGARITIS, D. (2005). Speculative markov blanket discovery for optimal featureselection. ICDM ’05 : Proceedings of the Fifth IEEE International Conference on Data Mining, pages809–812.

41

Méthodes de construction de réseaux bayésiens

Documents

Transcript of Méthodes de construction de réseaux bayésiens