Statistique et Causalité

20
1 Statistique et Causalité Selon J. Pearl

description

Statistique et Causalité. Selon J. Pearl. Lithiase rénale (paradoxe de Simpson). Lithiase rénale. Où est le problème? Succès Petite lithiase Percutané K. Pearson (1899) : - PowerPoint PPT Presentation

Transcript of Statistique et Causalité

Page 1: Statistique et Causalité

1

Statistique et Causalité

Selon J. Pearl

Page 2: Statistique et Causalité

2

Lithiase rénale(paradoxe de Simpson)

Populationtotale

Chirurgie Technique percutanée

Succès 546 (78%) 578 (83%) 1124 (80%)

Echecs 154 122 276

700 700 1400

Petit volume

Chirurgie Technique percutanée

Succès 162 (93%) 468 (87%) 630 (88%)

Echecs 12 72 84

174 540 (76%) 714

Gros volume

Chirurgie Technique percutanée

Succès 384 (73%) 110 (69%) 494 (72%)

Echecs 142 50 192

526 160 (23%) 686

Page 3: Statistique et Causalité

Lithiase rénale• Où est le problème?

– Succès Petite lithiase Percutané– K. Pearson (1899) :

• A mixture of heterogeneous groups, each of which exhibits in itself no correlation, will exhibit a greater or lesser amount of correlation. To those who persist in looking upon correlation as cause and effect, this fact must come rather as a shock

– C’est l’interprétation causale qui est à l’origine du paradoxe

• Mais: que propose-t-on au prochain patient? – Si on regarde le dossier: chirurgie– Si on ne regarde pas: procédure percutanée !!

3

Page 4: Statistique et Causalité

Autrement dit…• Quelle est la bonne analyse : ajuster ou ne pas

ajuster…– Quelles covariables doit-on introduire dans le modèle?

(sélection des covariables ≠ sélection de modèle)

• Qu’est-ce qu’un facteur de confusion?– Intuitivement: si je l’oublie, je vais conclure à une

association statistique « fausse » (i.e. non causale!!!)– Plus formellement:

• En relation causale avec la réponse, indépendamment de l’exposition

• Associé à l’exposition, sans en être une conséquence

4

Page 5: Statistique et Causalité

Donc…• Le problème de sélection des covariables

– N’est pas de nature statistique– Il est de nature causale

• Il faut :– Un formalisme pour la causalité : graphes

acycliques orientés, calcul des interventions– Spécifier un modèle causal (expliciter les

hypothèses causales)

5

Page 6: Statistique et Causalité

6

Graphes• Graphe = (S,A)

– S: sommets– A: arêtes (relient les sommets 2 par 2)

• Graphes orientés acycliques (Directed Acyclic Graphs, réseaux bayésiens)– Arêtes orientées (flèches), pas de cycle– Flèche: représente un mécanisme causal (hypothétique)

a b

c d

a b

c d

a b

c d

Page 7: Statistique et Causalité

7

Graphes• Pratiques pour représenter les lois conjointes (reflètent les

hypothèses d’indépendance): une variable est indépendante de ses prédécesseurs, conditionnellement à ses parents

• Peuvent être élaborés selon des hypothèses causales (réseaux bayésiens causaux)– Causalité: intuitive (qualitative, asymétrique)), contrairement à

dépendance statistique (quantitative, symétrique)

jjjjjj XPA),paP(XxxXP de parents ),,( 11

n

jjjn paXPXXP

11 )(),,(

Page 8: Statistique et Causalité

8

Calcul des interventions

• Consiste à élaguer le modèle causal de base

• do(X=x): imposer X=x– On élague les flèches arrivant sur X– On fixe X à la valeur x– :

• loi de Y dans le graphe élagué • effet (causal) de X sur Y• en général ≠ (facteurs de confusion)

P(Y do(X x))

P(Y X x)

Page 9: Statistique et Causalité

9

Imposer le traitement =

élaguer le modèle causal

Chirurgie

Taillelithiase

Résultat

TVoiture

R

Niveau socio-culturel

Age

Traitement

TA

Résultat

Page 10: Statistique et Causalité

10

Sélection des covariables: la solution dépend du modèle causal

Traitement

Taillelithiase

Résultat

TVoiture

R

Niveau socio-culturel

Age

Ajuster Ne pas ajuster

Traitement

TA

RésultatV associée à T et R!!

Page 11: Statistique et Causalité

11

Essai randomiséObservation

Traitement

Réponse

Essai randomisé

Randomisation

Traitement

Réponse

U* U*

La randomisation élague les flèches arrivant à la variable traitement…

P(Y do(X x)) P(Y X x)

Page 12: Statistique et Causalité

12

Retour sur le paradoxe de Simpson

• Il n’y a pas de paradoxe• Théorème

),|do P() ,|doP(),|do P() ,|doP(

lithiase Grosse)Chirurgie(Succèslithiase Grosse)Percutané(Succèslithiase Petite)Chirurgie(Succèslithiase Petite)Percutané(Succès

P(Succès do(Percutané)) P(Succès do(Chirurgie))

Page 13: Statistique et Causalité

13

Observer vs. Faire• Dans les modèles de causalité, on suppose que chaque

relation fonctionnelle parent-descendant représente un mécanisme stable et autonome: – Le modèle obtenu en modifiant un mécanisme sans changer les

autres reste un modèle valide de la réalité (organisation modulaire)

– Modèle probabiliste (bayésien): définit la probabilité d’événements et comment ces probabilités varieront avec les observations futures (modèle lui-même: statique)

– Modèle de causalité: définit en outre comment varieront les probabilités après des interventions (modèle dynamique: changements possibles)

Page 14: Statistique et Causalité

14

Conclusion

• Clarifie/simplifie (Simpson, facteurs de confusion)

• Conduit à expliciter les hypothèses causales sous-jacentes

• Formalisme pour expliciter/discuter/calculer

Page 15: Statistique et Causalité

15

d-séparation dans GAO

• Soient X, Y, Z sous-ensembles de variables– X et Y d-séparés : tout chemin (non orienté) de X à Y

contient un confluent (collider): i k j– X et Y d-séparés par Z : tout chemin (non orienté) de X

à Y est bloqué par Z, i.e. contient• une chaîne izj ou une fourche izj, • ou un confluent iz*j tel que ni z* ni ses descendants ne sont

dans Z

Zz

Page 16: Statistique et Causalité

16

d-séparation et indépendance– d-séparation dans le graphe indépendance en

probabilité : • Si X et Y sont d-séparés par Z dans un GAO, alors X et Y sont

indépendants conditionnellement à Z pour toute probabilité compatible avec le GAO

• Si X et Y sont indépendants conditionnellement à Z pour toute probabilité compatible avec un GAO, alors X et Y sont d-séparés par Z dans le GAO

Page 17: Statistique et Causalité

17

d-séparation• chaîne izj ou fourche izj:

– le conditionnement sur z rend i et j indépendantes• confluent iz*j:

– le conditionnement sur z* (ou un descendant) rend i et j dépendantes

– Exemple:• A,B binaires, indépendantes • C = A + B (ACB)• Si C=1: B = 1 – A • A et B dépendantes conditionnellement à C

– biais de sélection (Berkson)

Page 18: Statistique et Causalité

18

Le critère ‘back-door’• On observe X, Y et des covariables Z et on veut

calculer P(Y|do(X=x)) – S’il n’y a pas de facteur de confusion P(Y|do(X=x)) =

P(Y|X=x) (par définition!)• Chemin back-door: contient une flèche vers X

(‘affecte’ X)• Z satisfait le critère ‘back-door’ si

– Z ne contient aucun descendant de X (X n’affecte pas Z)

– Z bloque tout chemin back-door c de X à Y (X n’affecte pas Z), i.e.

• c contient une chaîne ou une fourche dont l’élément médian est dans Z (indépendance conditionnelle)

• Ou: c contient un confluent dont ni l’élément médian ni ses descendants ne sont dans Z (l’indépendance marginale est préservée par conditionnement sur Z)

Page 19: Statistique et Causalité

19

Back-door et ajustement

• Si Z satisfait le critère back-door pour X et Y, alors :

• Les covariables à inclure dans le modèle (de régression) sont celles qui permettent le calcul ci-dessus (Z: ensemble minimal satisfaisant le back-door)

z

z)z)P(Zx,ZP(Y|X x)) P(Y|do(X

Page 20: Statistique et Causalité

Exemple

Traitement

Taillelithiase

Résultat

TVoiture

R

Niveau socio-culturel

Age

Traitement

TA

Résultat

V ne bloque pas (confluent)TA descend de TTaille bloque (fourche)