Département de mathématique - Services de Statistique · ♦ La corrélation linéaire...

26
1 Département de mathématique Séminaire de statistique Vendredi 6 décembre 2002 à 15h LES INDICES D’ASSOCIATION ENTRE DEUX VARIABLES Paul Gerard

Transcript of Département de mathématique - Services de Statistique · ♦ La corrélation linéaire...

Page 1: Département de mathématique - Services de Statistique · ♦ La corrélation linéaire (Bravais-Pearson) ... où les nij sont les fréquences absolues de la table 2 x 2. (Coefficient

1

Département de mathématique

Séminaire de statistique

Vendredi 6 décembre 2002 à 15h

LES INDICES D’ASSOCIATION ENTRE DEUX VARIABLES

Paul Gerard

Page 2: Département de mathématique - Services de Statistique · ♦ La corrélation linéaire (Bravais-Pearson) ... où les nij sont les fréquences absolues de la table 2 x 2. (Coefficient

2

LES INDICES D’ASSOCIATION ENTRE DEUX VARIABLES

SOMMAIRE

1. INTRODUCTION

♦ Association, dépendance, prédiction, accord, égalité des distributions marginales, symétrie.

2. ASSOCIATION ENTRE DEUX VARIABLES NUMERIQUES

♦ Cas de deux variables continues ♦ Cas d’une variable continue et d’une variable binaire ♦ Cas de deux variables binaires

3. ASSOCIATION ENTRE DEUX VARIABLES ORDINALES

♦ Un indice lié au rang ♦ Les indices liés à la concordance

4. ASSOCIATION ENTRE DEUX VARIABLES NOMINALES

♦ Les dérivés du χ² ♦ Les indices liés aux mesures de dispersion ♦ Un indice lié à la prévision ♦ Les indices liés à la corrélation ♦ Un indice d’accord

5. DEVELOPPEMENT ET MODELISATION

Page 3: Département de mathématique - Services de Statistique · ♦ La corrélation linéaire (Bravais-Pearson) ... où les nij sont les fréquences absolues de la table 2 x 2. (Coefficient

3

INTRODUCTION

ASSOCIATION ENTRE DEUX VARIABLES ?

Mesure de la distance à l’indépendance

Mesure de l’erreur de prédiction Prédiction optimale

Erreur moyenne de prédiction - Probabilité d’erreur Mesure de la concordance Mesure de l’accord Mesure de l’égalité des distributions

Structure de l’association

Page 4: Département de mathématique - Services de Statistique · ♦ La corrélation linéaire (Bravais-Pearson) ... où les nij sont les fréquences absolues de la table 2 x 2. (Coefficient

4

ASSOCIATION ENTRE DEUX VARIABLES NUMERIQUES

1. Cas de deux variables continues

♦ Le diagramme de dispersion (échantillon)

Ensemble des points (Xi , Yi ) i=1,…,n ♦ La covariance

Cov(X,Y) = σXY = E[(X-E(X))(Y-E(Y))] Echantillon

1n

)Y)(YX(Xs

i

n

1ii

YX, −

−−=∑

=

Propriétés : symétrique sur X et Y

X, Y indépendants ⇒ σXY = 0

Linéaire sur X et sur Y |σXY | ≤ σX σY (égalité si Y=a+bX)

Défauts : Pas d’échelle pour apprécier le degré de dépendance

Varie lors d’une transformation linéaire d’une variable : σ(aX+b)Y = bσXY

Très sensible aux valeurs extrêmes

Page 5: Département de mathématique - Services de Statistique · ♦ La corrélation linéaire (Bravais-Pearson) ... où les nij sont les fréquences absolues de la table 2 x 2. (Coefficient

5

♦ La corrélation linéaire (Bravais-Pearson)

Corr(X,Y) = ρXY = σXY/(σXσy) Echantillon

YX

YX,YX, .ss

s=r

Propriétés : Symétrique sur X et Y

-1 ≤ ρXY ≤ 1 X, Y indépendants ⇒ ρXY = 0

Si (X,Y ) binormal , ρXY = 0 ⇔ X, Y indépendants

X’=a+bX ⇒ ρX’Y = ρXY signe(b) |ρXY |=1 ⇔ y=a+bX arcth(r) ≈ N(arcth(ρ) , [n-3]-1) (n>>)

Caractéristique : mesure le degré d’association linéaire entre X et Y

ρ² mesure la qualité du meilleur prédicteur linéaire LY(X) de Y par X au sens des moindres carrés (régression linéaire). ρ² = var(LY(X))/σy² ; 1-ρ² = E[(Y- LY(X)²]/σY²

Défauts :

Mesure mal une association non linéaire

Trop sensible aux valeurs extrêmes Ne mesure pas vraiment la distance à l’indépendance

(sauf dans le cas binormal)

Page 6: Département de mathématique - Services de Statistique · ♦ La corrélation linéaire (Bravais-Pearson) ... où les nij sont les fréquences absolues de la table 2 x 2. (Coefficient

6

Pour mesurer la distance à l’indépendance :

a) |(y)Y(x)FXFy)(x,XYF|

yx,max −

b) diviser en classes les domaines de X et de Y, transformer X et Y

en variables nominales et utiliser la distance chi-carré pour l’indépendance

c) si (X,Y) suit une loi binormale, utiliser ρXY

Pour mesurer l’accord entre X et Y (Bland & Altman, 1986) :

E(X-Y) et ρ(X-Y, X+Y)

Tous deux proches de 0 ⇒ bon accord entre X et Y Note : E(X-Y)=0 ⇔ E(X)=E(Y)

ρ(X-Y, X+Y) = 0 ⇔ σX = σY

Si X ≈ N(µX , σX²) et Y ≈ N(µy , σY²) , E(X-Y)=0 et ρ(X-Y, X+Y) = 0 ⇔ X et Y suivent la même

distribution (normale)

Limites d’agrément = limites de tolérance pour (X-Y) : (on suppose D=X-Y normal et on fixe le niveau à 95%)

dsd 2±−

Précision des limites d’agrément :

/n2d3s)d2sd(σ̂ =−

Page 7: Département de mathématique - Services de Statistique · ♦ La corrélation linéaire (Bravais-Pearson) ... où les nij sont les fréquences absolues de la table 2 x 2. (Coefficient

7

Pour mesurer une association non linéaire :

a) utiliser un indice basé sur les rangs, par exemple le coefficient de corrélation de Spearman.

b) modéliser la relation entre Y et X (technique de régression : rechercher le meilleur prédicteur de Y au sein d’une famille de fonction de X) et examiner la corrélation entre Y et ce prédicteur.

2. Cas d’une variable continue Y et d’une variable binaire X

♦ Les diagrammes en boîte (boxplot)

On reporte sur un même graphique, les diagrammes en boîte de Y relatifs aux 2 catégories de la variable binaire X.

♦ La corrélation linéaire

Le coefficient de corrélation linéaire (Bravais-Pearson) Ce coefficient peut être utilisé avec des variables binaires même nominales (sexe, pour/contre, malade/sain…) car en valeur absolue, il ne dépend pas du codage numérique des deux catégories : il existe toujours une relation linéaire entre deux codages.

ρXY = [E(Y|X=1)-E(Y|X=0)]σX/σY

Echantillon

Y

0110YX, ns

)YY(nn −=r

n=n0+n1 (Coefficient bisérial de point) Interprétation : ρXY est une mesure de la différence entre les moyennes de Y dans les deux populations définies par X. ρXY=0 ⇔ égalité des moyennes. Approximativement, Student tn-1 = r.n1/2 .

Page 8: Département de mathématique - Services de Statistique · ♦ La corrélation linéaire (Bravais-Pearson) ... où les nij sont les fréquences absolues de la table 2 x 2. (Coefficient

8

Pour mesurer la distance à l’indépendance :

a) |(y)Y(x)FXFy)(x,XYF|

yx,max −

c) diviser en classes le domaine de Y, transformer Y en variable

nominale et utiliser la distance chi-carré pour l’indépendance Pour mesurer l’accord entre X et Y : sans objet 3. Cas de deux variables binaires

♦ Le diagramme de la distribution conjointe

Y=0 Y=1 Marg. X X=0 π11 π12 π1.

X=1 π21 π22 π2.

Marg. Y π.1 π.2 1

♦ La corrélation linéaire (Bravais-Pearson)

Ce coefficient garde un sens pour des variables nominales à deux modalités, car sa valeur absolue est indépendante du codage numérique.

ρXY = [π11π22 - π12π21]/[ π1.π2.π.1π.2]1/2

Interprétation : Il exprime une différence entre deux proportions conditionnelles. En notant ∆ = P[Y=0|X=0] - P[Y=0|X=1] on a ρXY = ∆(σX/σY)

Echantillon

rXY = [n11n22-n12n21]/[n.1n.2n1.n2.]1/2

où les nij sont les fréquences absolues de la table 2 x 2.

(Coefficient de point)

Page 9: Département de mathématique - Services de Statistique · ♦ La corrélation linéaire (Bravais-Pearson) ... où les nij sont les fréquences absolues de la table 2 x 2. (Coefficient

9

♦ Le rapport des cotes (odds ratio , rapport croisé)

OR = π11π22 / π12π21

Estimé par OR^ = n11n22 / n12n21 On donne facilement un intervalle de confiance de ln(OR) dont l’erreur type est

SE(ln(OR^)) = [1/n11 +1/n21 +1/n12 +1/n22]

½ Note : OR≥0

OR est symétrique sur X et Y OR=1 ⇔ indépendance Beaucoup utilisé pour décrire l’association entre une maladie et un facteur de risque, spécialement si la maladie est rare.

♦ Le risque relatif (RR)

RR= (π11/π.1)/( π12/π.2 )

qu’on estime par RR^ = (n11/n.1)/( n12/n.2 )

L’erreur type de ln(RR^) est estimée par

SE(ln((RR^))=[1/n11 – 1/n.1 + 1/n12 – 1/n.2]1/2

d’où la possibilité d’écrire un intervalle de confiance pour RR Note : RR≥0 ; RR=1 ⇔ indépendance

RR n’est pas symétrique sur X et Y RR estime un quotient de 2 proportions (conditionnelles)

Pour mesurer la distance à l’indépendance

a) Max |πij - πi. π.j| estimé par Max |(nij/n) – (ni. n.j)/n²| b) La distance χ² pour l’indépendance : χ² = n.r²XY

Page 10: Département de mathématique - Services de Statistique · ♦ La corrélation linéaire (Bravais-Pearson) ... où les nij sont les fréquences absolues de la table 2 x 2. (Coefficient

10

Pour mesurer la concordance entre X et Y

♦ Le coefficient de Quetelet (Yule’s Q)

Q = [π11π22 - π12π21]/[ π11π22 + π12π21]

Lorsqu’on prend deux observations (X1, Y1) et (X2, Y2) au hasard et de façons indépendantes, il exprime

Q=P[(X1-X2)(Y1-Y2)>0 | [(X1-X2)(Y1-Y2)≠0] - P[(X1-X2)(Y1-Y2)<0 | [(X1-X2)(Y1-Y2)≠0]

(X1-X2)(Y1-Y2)>0 ⇔ paire concordante ex : (0,0) (1,1) (X1-X2)(Y1-Y2)<0 ⇔ paire discordante ex : (0,1) (1,0) (X1-X2)(Y1-Y2)≠0 ⇔ paire disjointe ex :(0,0) (1,1) (0,1) (1,0)

Q est un cas particulier du coefficient de concordance Gamma pour 2 variables ordinales. Echantillon

Qestimé = [n11n22 - n12n21]/[ n11n22 + n12n21]

Note : Q=0⇔indépendance

Q=[OR-1]/[OR+1] ; Q fonction strictement croissante de OR

Page 11: Département de mathématique - Services de Statistique · ♦ La corrélation linéaire (Bravais-Pearson) ... où les nij sont les fréquences absolues de la table 2 x 2. (Coefficient

11

Pour mesurer l’erreur de prédiction

♦ Les coefficients Lambda de Goodman et Kruskal – l’indice de Guttman. (Cas particulier d’une table 2 x 2)

Il donne la réduction relative de la probabilité de prédiction erronée de Y, lorsqu’on tient compte de X. P[prédiction erronée de Y en ignorant X ]: VP(Y)=1-max(π.1 , π.2) P[prédiction erronée de Y si X=i : VP(Y|X=i] = 1-max(πi1/πi. , πi2/πi.) Pmoyenne[prédiction erronée de Y en tenant compte de X] :

VP(Y|X) = 1-Σi max(πi1 , πi2)

On définit deux indices asymétriques et un indice symétrique Réduction relative de la probabilité de prédiction erronée

λ(Y|X)= [ VP(Y)-VP(Y|X)]/VP(Y)

λ(X|Y)= [ VP(X)-VP(X|Y)]/VP(X)

λ(X,Y) = [VP(Y)λ(Y|X)+VP(X)λ(X|Y)]/[VP(Y)+VP(X)] Note : 0≤λ≤1 ∀λ

X et Y indépendants ⇒ λ=0 ∀λ λ(Y|X)=0 ⇒ inutile de se servir de X pour prédire Y Ces indices se généralisent au tables R x C Indice de Guttman : G(X,Y) = [λ(X|Y)+ λ(Y|X)]/2

Page 12: Département de mathématique - Services de Statistique · ♦ La corrélation linéaire (Bravais-Pearson) ... où les nij sont les fréquences absolues de la table 2 x 2. (Coefficient

12

Pour évaluer la symétrie de la distribution conjointe ou l’égalité des distributions de X et de Y

♦ Pour 2 variables binaires X et Y,

symétrie de la distribution conjointe ⇔ égalité des distributions marginales

♦ La statistique de McNemar χ² = (n12-n21)²/(n12+n21) pour le test de symétrie (où égalité des distributions marginales)

Modèle log-linéaire pour la symétrie

Log(nπij) = µ+λi+λj+λij

avec ∑i λi=0 , ∑i λij =0 ∀ j et λij=λji ∀ i,j .

Tester ce modèle contre le modèle général

Log(nπij) = µ+λij

avec ∑ij λij=0, est équivalent au test de McNemar.

♦ Donner un intervalle de confiance pour ∆= π1. - π.1 (proportions corrélées)

L’estimateur de ∆ est d = p1. –p.1 avec p1. = n1./n et p.1 = n.1/n Et son erreur type vaut

Var(d)=(1/n) [π12(1-π12)+ [π21(1-π21)+2π12π21] qu’on estime en remplaçant π12 et π12 par les fréquences relatives d’échantillons p12 = n12/n et p21 = n21/n.

Page 13: Département de mathématique - Services de Statistique · ♦ La corrélation linéaire (Bravais-Pearson) ... où les nij sont les fréquences absolues de la table 2 x 2. (Coefficient

13

ASSOCIATION ENTRE DEUX VARIABLES ORDINALES 1. Un indice lié au rang Rang d’une observation relative à une variable ordinale Si X est ordinale (on note ≤ la relation d’ordre) et x une observation de X

rang(x) = P[X≤x] Dans un échantillon (x1 , …, xn) , rang(xi) est estimé par la fréquence cumulée de xi : fc(xi) , mais on utilise généralement les fréquences absolues cumulées n.fc(xi) au lieu de fc(xi). On les note r(xi) (rang de xi dans l’échantillon).

♦ Le coefficient de corrélation de rang de Spearman

ρs(X,Y)=ρ(rang(X),rang(Y))

Echantillon {(xi,yi) : i=1,…,n} remplacé par {(r(xi),r(yi)): : i=1,…,n}

rs = r(r(x),r(y)) = coefficient de Bravais-Pearson obtenu en remplaçant les observations par leurs rangs d’échantillon

Cas des variables continues traitées comme ordinales

Si les observations sont distinctes

rs = 1-(6∑di²)/[n(n²-1)]

où di = r(xi)-r(yi). Si des observations sont égales, partagez les rangs. Note : Indépendance ⇒ ρs=0

|ρs|=1 ⇒ relation monotone entre X et Y Peu sensible aux valeurs extrêmes ou aberrantes |ρ|<|ρs| proche de 1 ⇒ association non linéaire probable SE(rs) = [n-1]-1/2 (si n >>) Intervalle de confiance de ρs A éviter si trop d’observations sont égales (utiliser γ , τb)

Page 14: Département de mathématique - Services de Statistique · ♦ La corrélation linéaire (Bravais-Pearson) ... où les nij sont les fréquences absolues de la table 2 x 2. (Coefficient

14

2. Les indices de concordance

♦ Le coefficient Gamma de Goodman et Kruskal

Lorsqu’on prend deux observations (X1, Y1) et (X2, Y2) au hasard et de façons indépendantes, il exprime

γ=P[(X1-X2)(Y1-Y2)>0 | (X1-X2)(Y1-Y2)≠0] - P[(X1-X2)(Y1-Y2)<0 | (X1-X2)(Y1-Y2)≠0]

P[(X1-X2)(Y1-Y2)>0] = P[ paire concordante ] = Πc P[(X1-X2)(Y1-Y2)<0] = P[ paire discordante ] = Πd

P[(X1-X2)(Y1-Y2)≠0] = P[ paire disjointe ] = Πc + Πd

autrement dit γ = [ Πc - Πd ] / [ Πc + Πd ]

Echantillon

Y=y(1) … Y=y(c) Marg. X X=x(1) n11 … n1c n11

… … … … …

X=x(r) nr1 … nrc n11

Marg.Y n.1 … n.c n Une paire d’observations (x1 , y1) , (x2 , y2) est dite

Concordante si (x1-x2)(y1-y2)>0 Discordante si (x1-x2)(y1-y2)<0 Egale en X si x1=x2 (tied in X) Egale en Y si y1=y2 (tied in Y) Egale en X et Y si x1=x2 et y1=y2 (tied in X and Y) Nombre de paires : n(n-1)/2 Nombre de paires concordantes :C Nombre de paires discordantes : D Nombre de paires égales en X : TX = ∑i ni.(ni.-1)/2 Nombre de paires égales en Y : TY = ∑j n.j(n.j-1)/2 Nombre de paires égales en X et Y : TXY = ∑ij nij(nij-1)/2

n(n-1)/2 = C+D+TX+TY-TXY

Page 15: Département de mathématique - Services de Statistique · ♦ La corrélation linéaire (Bravais-Pearson) ... où les nij sont les fréquences absolues de la table 2 x 2. (Coefficient

15

Le coefficient de concordance Gamma (Kruskal & Goodman) est estimé par

γ̂ = (C-D)/(C+D)

Le coefficient γ̂ donne la différence entre la proportion des paires concordantes et celle des paires discordantes parmi les paires disjointes. L’usage de γ̂ est spécialement recommandé lorsqu’il y a beaucoup d’observations égales (cas de variables ordinales non continues). Note : -1≤γ≤1

Symétrique sur X , Y |γ| = 1 ⇔ relation monotone entre X et Y X et Y indépendant ⇒ γ=0 Ce n’est pas une corrélation (voir Kendall τb) Si n>>, γ̂ suit approximativement une loi normale de moyenne γ , dont la variance peut être estimée par SE²(γ̂ ) = 16(C+D)-4∑i∑j (nij/n) [Dnij

(c) – Cnij(d)]²

où nij

(c) (resp. nij(d) ) est le nombre de paires concordantes (resp.

discordantes) avec les paires de la cellule (i,j) de la table. Dans le cas de deux variables binaires γ est l’indice Q de Quetelet (Yule’s Q).

Page 16: Département de mathématique - Services de Statistique · ♦ La corrélation linéaire (Bravais-Pearson) ... où les nij sont les fréquences absolues de la table 2 x 2. (Coefficient

16

♦ Les coefficients τ et τb de Kendall

Le coefficient τ de Kendall est défini par

τ=P[(X1-X2)(Y1-Y2)>0] - P[(X1-X2)(Y1-Y2)<0]

C’est donc une différence entre deux probabilités. Le coefficient τ est estimé sur un échantillon par

τ^ = (C-D)/[n(n-1)/2] il est la différence entre la proportion des paires concordantes et celle des paires discordantes. Note :-1≤τ≤1

Symétrique sur X , Y |τ| = 1 ⇔ relation monotone entre X et Y X et Y indépendant ⇒ τ=0 Ce n’est pas une corrélation (voir Kendall τb). |τ^|<1 en présence de paires égales

On lui préférera τb en cas de nombreuses paires égales.

Le coefficient τb de Kendall Lorsqu’on prend deux observations (X1, Y1) et (X2, Y2) au hasard et de façons indépendantes,

τb = ρ( signe(X1-X2) , signe(Y1-Y2) ) Sur un échantillon, il peut être estimé par

τb = (C-D)/{[n(n-1)/2 – TX] [n(n-1)/2 – TY]}1/2

Page 17: Département de mathématique - Services de Statistique · ♦ La corrélation linéaire (Bravais-Pearson) ... où les nij sont les fréquences absolues de la table 2 x 2. (Coefficient

17

Note : C’est une corrélation, donc -1≤τb ≤1

Symétrique sur X , Y |τb| = 1 ⇔ relation monotone entre X et Y X et Y indépendant ⇒ τb =0

Il est réputé moins sensible que γ au choix des catégories. Dans le cas de deux variables binaires, il est égal au coefficient de corrélation ρXY de Bravais-Pearson.

♦ Les coefficients D(Y|X), D(X|Y) de Sommers

Il s’agit de coefficients de concordance asymétriques. Le coefficient D(Y|X) de Sommers est défini par

D(Y|X) =P[(X1-X2)(Y1-Y2)>0 | (X1-X2)≠0] - P[(X1-X2)(Y1-Y2)<0 | (X1-X2)≠0] Il est estimé par

D(Y|X) = (C-D) / [n(n-1)/2 – TX]

C’est la différence, au sein des paires inégales en X, entre la proportion des paires concordantes, et celle des paires discordantes.

Lorsque X et Y sont binaires (cas d’une table 2 x 2), D(Y|X) est égal à la différence des proportions de la première catégorie de Y dans les 2 populations définies par les deux catégories relatives à X. Autrement dit, pour une table 2 x 2

D(Y|X) = n11/n1. - n21/n2. = [n11n22 – n12n21] / n1.n2.

Le coefficient D(X|Y) de Sommers est défini de façon analogue (permuter X et Y)

D(X|Y) = (C-D) / [n(n-1)/2 – TY]

Page 18: Département de mathématique - Services de Statistique · ♦ La corrélation linéaire (Bravais-Pearson) ... où les nij sont les fréquences absolues de la table 2 x 2. (Coefficient

18

ASSOCIATION ENTRE DEUX VARIABLES NOMINALES

(Les tables r x c )

1. Les indices dérivé du χ²

♦ La distance χ²

Elle exprime une distance entre les fréquences absolues observées nij de la table et les fréquences absolues attendues nij

exp sous l’hypothèse d’indépendance.

χ² = ∑i∑j (nij – nij

exp)²/nijexp où nij

exp = ni. n.j

Note : χ² mesure de la distance à l’indépendance Ne convient pas pour mesurer l’association (pas d’échelle)

♦ Le coefficient de contingence C de Pearson

C = [χ²/(χ²+n)]1/2

Note : 0≤C<1

C proche de 0 ⇒ faible association C proche de 1 ⇒ forte association C² s’interprète comme un carré de coefficient de corrélation Il fut introduit par Pearson pour estimer le carré d’une corrélation sous-jacente (corrélation tétrachorique , voir plus loin)

♦ Les coefficients V² de Cramer et T² de Tschuprov

V² = χ²/[nMin(r-1, c-1)] T² = χ²/[n(r-1)(c-1)]

Note : 0≤V²<1 V², T proches de 0 ⇒ faible association V² , T² proches de 1 ⇒ forte association Pour une table 2 x 2, V²=T² = coefficient de concentration τ de Goodman & Kruskal (voir plus loin) = φ² (=χ²/n)=r²=rs²

Page 19: Département de mathématique - Services de Statistique · ♦ La corrélation linéaire (Bravais-Pearson) ... où les nij sont les fréquences absolues de la table 2 x 2. (Coefficient

19

2. Les indices liés à la dispersion. Mesures de la dispersion d’une variable nominale

Y ordinale à c catégories C1,…,Cc , P[Ci] = πi i=1,…,c

♦ La dispersion de GINI C’est la probabilité que deux observations indépendantes tombent dans des catégories différentes

VG(Y) = ∑iπi(1-πi) = 1-∑i πi² ♦ L’entropie

VH(Y) = -∑i πiln(πi) Les indices de réduction relative de la dispersion Si X et Y sont deux variables nominales et V une mesure de la dispersion , on calcule la réduction relative de la dispersion de l’une des variables quand l’autre variable est prise en compte. On définit 2 indices asymétriques RD(Y|X) et RD(X|Y) et un indice symétrique RD(X,Y).

Distribution conjointe de (X,Y) : πij i=1,…,r j=1,…,c Dispersion de Y : V(Y)

Dispersion moyenne de Y en tenant compte de X :

E(V(Y|X)) = ∑i πi. V(Y| catégorie i de X) Réduction relative de la dispersion de Y par X

RD(Y|X) = [V(Y) – E(V(Y|X))]/V(Y)

Page 20: Département de mathématique - Services de Statistique · ♦ La corrélation linéaire (Bravais-Pearson) ... où les nij sont les fréquences absolues de la table 2 x 2. (Coefficient

20

De même, on définit RD(X|Y). On définit un coefficient symétrique de réduction de la dispersion:

RD(X,Y) = [ V(X)RD(X|Y)+ V(Y)RD(Y|X)] / [V(X)+V(Y)] Si V(Y) = VG(Y) , VG(Y| catégorie i de X)= 1-∑k (πik/πi.)² Si V(Y) = VH(Y) , VG(Y| catégorie i de X)= -∑k (πik/πi.)ln(πik/πi.)

♦ Les coefficients de concentration de Goodman & Kruskal

τ(Y|X) τ(X|Y) τ(X,Y)

Ils utilisent la dispersion VG de GINI pour calculer la réduction relative de la dispersion.

τ(Y|X) = [ΣiΣj πij²/πi. - Σj π.j²] / [1 - Σjπ.j²]

que l’on estime en y remplaçant les proportions inconnues par les proportions correspondantes calculées sur l’échantillon.

τ^(Y|X) = [ΣiΣj pij²/pi. - Σj p.j²] / [1 - Σjp.j²] (Coefficient de concentration) On définit de façon analogue τ(Y|X) (permuter les indices i et j), puis le coefficient symétrique de dispersion

τ(X,Y) = [ VG(X)τ(X|Y)+ VG(Y)τ(Y|X)] / [VG(X)+VG(Y)] On calcule enfin de façon analogue, leurs estimateurs τ^(X|Y) et τ^(X,Y)

Page 21: Département de mathématique - Services de Statistique · ♦ La corrélation linéaire (Bravais-Pearson) ... où les nij sont les fréquences absolues de la table 2 x 2. (Coefficient

21

♦ Les coefficients d’incertitude

U(Y|X) U(X|Y) U(X,Y)

Ils utilisent l’entropie VH pour calculer la réduction relative de la dispersion.

U(Y|X)={ ∑i∑j πij ln[πij/(πi.π.j)]}/{ -∑i πi ln((πi)}

Que l’on estime en remplaçant les proportions inconnus par les proportions calculées sur l’échantillon.

U^(Y|X)={ ∑i∑j pij ln[pij/(pi.p.j)]}/{ -∑i pi ln((pi)}

(Coefficient d’incertitude) On définit de façon analogue U(Y|X) (permuter les indices i et j), puis le coefficient symétrique de dispersion

U(X,Y) = [ VG(X)U(X|Y)+ VG(Y)U(Y|X)] / [VG(X)+VG(Y)] On calcule enfin de façon analogue, leurs estimateurs U^(X|Y) et U^(X,Y)

Page 22: Département de mathématique - Services de Statistique · ♦ La corrélation linéaire (Bravais-Pearson) ... où les nij sont les fréquences absolues de la table 2 x 2. (Coefficient

22

3. Un indice lié à la prévision

♦ Les coefficients Lambda de Goodman & Kruskal

λ(Y|X) λ(X|Y) λ(X,Y)

L’idée est de mesurer la réduction relative de la probabilité d’erreur de prédiction de l’une des variable à partir de l’autre. La probabilité d’erreur peut être considérée comme une mesure de la dispersion VP :

Y ordinale à c catégories C1,…,Cc , P[Ci] = πi i=1,…,c

VP(Y) = 1- maxi (πi)

(Le plus grand des πi indique la prévision à faire pour Y ) Distribution conjointe de (X,Y) : πij i=1,…r j=1,…,c Probabilité d’erreur sans tenir compte de X

VP(Y) = 1- maxj (π.j)

Si on tient compte de X,

VP(Y| catégorie i de X) = 1- maxj(πij/πi.)

La probabilité moyenne d’erreur de prédiction s’écrit

E(VP(Y|X)) = 1- Σi maxj (πij) La réduction relative de la probabilité d’erreur de prédiction de Y par X vaut donc

λ(Y|X) = [Σi maxj (πij) – maxj (π.j)] / [1-maxj (π.j)] qu’on estime par

λ^(Y|X) = [Σi maxj (pij) – maxj (p.j)] / [1-maxj (p.j)] de même, on définit λ(X|Y) , λ(X,Y) et leurs estimateurs.

Page 23: Département de mathématique - Services de Statistique · ♦ La corrélation linéaire (Bravais-Pearson) ... où les nij sont les fréquences absolues de la table 2 x 2. (Coefficient

23

4. Les indices liés à la corrélation

♦ La corrélation tétrachorique entre 2 variables binaires

L’idée est de considérer que X et Y sont des réductions dichotomisées de deux variables continues X’ et Y’ puis de rechercher la corrélation entre X’ et Y’.

X’≤α ⇔ X=0 X’>α ⇔ X=1

Y’≤β ⇔ Y=0 X’>β ⇔ Y=1 Comme un coefficient de corrélation est en valeurs absolue invariant lors de transformations linéaires de chacune des variables, on peut supposer X’ et Y’ centrées et réduites. On suppose en outre que X’ et Y’ suivent une loi binormale. On note f(x’,y’,ρ) leur densité conjointe. On note πij (i=1,2 j=j,2) la distribution conjointe de X et Y. Les trois paramètres inconnus, α , β , ρ sont déterminés par les 3 équations

α = Qz (π1.) β= Qz(π.1) où Qz (ϑ) est le quantile gaussien de ϑ ,

∫ ∫∞− ∞−

=α β

ρπ ''),','(11 dydxyxf

Naturellement, on estime ρ en remplaçant dans ces équations, les proportions inconnues par les proportions dans l’échantillon. L’estimation ρ^ de ρ ainsi réalisée porte le nom de «corrélation tétrachorique » de X,Y.

Page 24: Département de mathématique - Services de Statistique · ♦ La corrélation linéaire (Bravais-Pearson) ... où les nij sont les fréquences absolues de la table 2 x 2. (Coefficient

24

Développement Ce modèle tétrachorique a pour alternative le Modèle Bivarié de Dale (BDM)

Logit(π1.) = ϑ1 Logit(π.1) = ϑ2 Ln(OR) = ϑ3

dont les paramètres ϑ1 , ϑ2 et ϑ3 peuvent être estimés par la méthode du maximum de vraisemblance. La corrélation entre X et Y étant une fonction des paramètres ϑ i , elle peut être estimée à son tour et donne une corrélation dite tétrachorique. Le modèle de Dale permet l’introduction de covariables éventuelles pour expliquer la dépendance de l’association entre X et Y en fonction de ces covariables.

♦ L’analyse des correspondances

Si X est une variable nominale à r catégories, on appelle « fonction de X » toute fonction numérique f(X) définie sur l’ensemble des r catégories de X. On peut représenter f(X) par un vecteur à r composantes.

Si f(X) et g(Y) sont deux fonctions de X et Y respectivement,

ρ(f(X),g(Y)) dépend de f et g. Il ne peut donc servir d’ indice d’association entre X et Y. On recherche les fonction f(X) et g(X), de moyenne nulle et de variance unité qui maximisent ρ(f(X),g(Y)).

Le maximum est pris comme indice d’association. On note Π la matrice des πij (distribution conjointe de (X,Y) L le vecteur des πi. (distribution marginale de X) C le vecteur des π.j (distribution marginale de Y) ∆L la matrice diagonale des πi.

∆C la matrice diagonale des π.j

Page 25: Département de mathématique - Services de Statistique · ♦ La corrélation linéaire (Bravais-Pearson) ... où les nij sont les fréquences absolues de la table 2 x 2. (Coefficient

25

L’analyse des correspondances recherche

Max{ VTΠW : LTV=0 , CTW=0 , VT∆LV=1 , WT∆CW = 1} Les vecteurs V et W sont uniques au signe près. Le problème se ramène à la recherche de la plus grande valeurs propre λ d’une matrice symétrique, et à la recherche des vecteurs propres relatifs à cette valeur propre de deux matrices ayant les même valeurs propres. L’une donne V, l’autre donne W. Le vecteur V représente la fonction f(X) cherchée et W la fonction g(Y). La valeur propre λ est le carré de la corrélation maximale.

On estime la corrélation maximale, en remplaçant les proportions inconnues πij par les proportions pij calculées sur l’échantillon.

5. Un indice d’accord

♦ Le coefficient Kappa de Cohen

Si X et Y sont deux variables nominales à c catégories chacune, (exemples : l’avis de deux juges, l’état d’ une opinion publique avant et après un évênement) on désire mesurer l’accord entre ces deux variables.

On note πij la distribution conjointe de X,Y.

Accord total ⇔ πij = 0 ∀ i≠j Le coefficient de Kappa mesure l’écart entre la proportion observée des observations où il y a accord et la proportion attendue s’il y avait indépendance entre X et Y.

κ = [πo-πe]/[1-πe]

où πo = Σiπii et πe = Σiπi.π.i .

Page 26: Département de mathématique - Services de Statistique · ♦ La corrélation linéaire (Bravais-Pearson) ... où les nij sont les fréquences absolues de la table 2 x 2. (Coefficient

26

κ est estimé par

κ^ = [po-pe]/[1-pe]

où po = Σi pii et pe = Σi pi.p.i . Son erreur type est donnée par

SE(κ^) ={(1/n)[p0(1-p0)/(1-pe)² + 2(1-p0)(2p0pe-∑i pii(pi.+p.i))/(1-pe)³

+ (1-p0)²(∑i∑j pij(pi.+p.j)² -4pe²)/ (1-pe)4 ]}1/2

ce qui permet de donner un intervalle de confiance pour κ.

Développement

La structure de l’association entre X et Y pour une table carrée peut être étudié en comparant les ajustements de différents modèles (Quasi-symétrie) πij = ρiγij avec γij=γji { log(nπij) = µ+νi+τj+λij avec λij=λji } (Egalité des distributions marginales) πi.=π.i ∀ i

pas d’équivalent loglinéaire

(Symétrie) πij = πji ∀ i≠j

{ log(nπij) = µ+νi+νj+λij avec λij=λji }

(Indépendance) πij = πi. π.j ∀ i,j

{ log(nπij) = µ+νi+τj } (Accord) πij = πji = 0 ∀ i≠j

pas d’équivalent loglinéaire