Institut de Mathématiques de Marseille, UMR 7373 - …iml.univ-mrs.fr/~reboul/cours2bis.pdfpar X...

34
C- Liaison entre deux variables statistiques 1- liaison entre 2 variables quantitatives 2- liaison entre 1 variable quantitative et 1 variables qualitative 3- liaison entre 2 variables qualitatives 4- liaison causale entre deux variables quantitatives

Transcript of Institut de Mathématiques de Marseille, UMR 7373 - …iml.univ-mrs.fr/~reboul/cours2bis.pdfpar X...

Page 1: Institut de Mathématiques de Marseille, UMR 7373 - …iml.univ-mrs.fr/~reboul/cours2bis.pdfpar X dans la variation totale de Y. ¾Evaluation du lien : e² est compris entre 0 et 1

C- Liaison entre deux variables statistiques

1- liaison entre 2 variables quantitatives

2- liaison entre 1 variable quantitative et 1 variables qualitative

3- liaison entre 2 variables qualitatives

4- liaison causale entre deux variables quantitatives

Page 2: Institut de Mathématiques de Marseille, UMR 7373 - …iml.univ-mrs.fr/~reboul/cours2bis.pdfpar X dans la variation totale de Y. ¾Evaluation du lien : e² est compris entre 0 et 1

C- Statistique descriptive bidimensionnelle

On dispose de deux séries x et y représentant l’observation des variables X et Y sur les mêmes n individus : on a une série bidimensionnelle (x,y) de taille n :

Page 3: Institut de Mathématiques de Marseille, UMR 7373 - …iml.univ-mrs.fr/~reboul/cours2bis.pdfpar X dans la variation totale de Y. ¾Evaluation du lien : e² est compris entre 0 et 1

C- Statistique descriptive bidimensionnelle

Objectif : mettre en évidence une éventuelle variation simultanée des deux variables statistiques X et Y, appelée liaison.

La liaison peut être

causale : une variable X expliquant l’autre Y

symétrique : les deux variables jouent des rôles symétriques

Sauf mention particulière, on s’interesse ici à une liaison symétrique.

Page 4: Institut de Mathématiques de Marseille, UMR 7373 - …iml.univ-mrs.fr/~reboul/cours2bis.pdfpar X dans la variation totale de Y. ¾Evaluation du lien : e² est compris entre 0 et 1

C-1 Analyse de la liaison entre deux variables quantitatives

Visualisation

Le graphique le plus adapté pour observer les variations simultanées de deux variables quantitatives est le nuage de points (ou scatter-plot), représentant les n points de coordonnées dans un repère du plan.

NB : Choix des échelles: Dans le cas de deux variables homogènes (exprimées dans la même unité), on prend la même échelle sur les deux axes ; dans le cas de deux variables hétérogènes, il est préférable de représenter les points de la série centrée et réduite ou de choisir des échelles appropriées (automatique avec la plupart des logiciels).

( , )i ix y

Page 5: Institut de Mathématiques de Marseille, UMR 7373 - …iml.univ-mrs.fr/~reboul/cours2bis.pdfpar X dans la variation totale de Y. ¾Evaluation du lien : e² est compris entre 0 et 1

C-1 Analyse de la liaison entre deux variables quantitatives

0 20 40 60 80 100 1205

1015

2025

nuage de points des variables dist et speed

distance de freinage

vite

sse

Coefficient de corrélation : ( , ) 0.81r speed dist =

Ex: observation de la vitesse et de la distance de freinage de 50 voitures.

speed dist1 4 22 4 103 7 44 7 225 8 166 9 107 10 188 10 269 10 3410 11 1711 11 28………………

Page 6: Institut de Mathématiques de Marseille, UMR 7373 - …iml.univ-mrs.fr/~reboul/cours2bis.pdfpar X dans la variation totale de Y. ¾Evaluation du lien : e² est compris entre 0 et 1

C-1 Analyse de la liaison entre deux variables quantitatives

Page 7: Institut de Mathématiques de Marseille, UMR 7373 - …iml.univ-mrs.fr/~reboul/cours2bis.pdfpar X dans la variation totale de Y. ¾Evaluation du lien : e² est compris entre 0 et 1

C-1 Analyse de la liaison entre deux variables quantitatives

Indicateurs de liaison linéaire

La covariance

Définition: ou

Propriétés : - c’ est une forme bilinéaire symétrique qui peut prendre toute valeur réelle et dont la variance est la forme quadratique associée. On a ( idem pour s*):

- formule de Koenig generalisée :

1 n

1

1*( , ) ( )( )1

n

i ii

s x y x x y yn =

= − −− ∑

1( , ) ( )( )i i

is x y x x y y

n =

= − −∑

( , ) ( , ) ( , ) ; ( , ) ( , ) ( , )s ax by z as x z bs y z s x ay bz as x y bs y z+ = + + = +

( , ) ²( )s x x s x=( , ) ( , )s x y s y x=

1( , ) *( , )ns x y s x y xy x yn−

= = −

Page 8: Institut de Mathématiques de Marseille, UMR 7373 - …iml.univ-mrs.fr/~reboul/cours2bis.pdfpar X dans la variation totale de Y. ¾Evaluation du lien : e² est compris entre 0 et 1

C-1 Analyse de la liaison entre deux variables quantitatives

Le coefficient de corrélation linéaire de Pearson

Définitions :1) Le coefficient de corrélation est égal à la covariance des séries centrées et réduites x* et y* respectivement associées à x et y :

2) Le coefficient de corrélation est égal à

Propriétés : - Symétrie :

- Le coefficient de corrélation linéaire est compris entre -1 et 1

* ; *i ii i

x y

x x y yx ys s− −

= =( , ) ( *, *)r x y s x y=

( , )( , )x y

s x yr x ys s

=

( , ) ( , )r x y r y x=

Page 9: Institut de Mathématiques de Marseille, UMR 7373 - …iml.univ-mrs.fr/~reboul/cours2bis.pdfpar X dans la variation totale de Y. ¾Evaluation du lien : e² est compris entre 0 et 1

C-1 Analyse de la liaison entre deux variables quantitatives

Evaluation du lien linéaire:

Il y a corrélation positive lorsque les variations de x et y se produisent dans le même sens, corrélation négative sinon. Plus les points sont étroitement alignés, plus la corrélation est proche de 1.

si l’on a une relation de type linéaire entre les variables.

si il n’existe aucun lien linéaire entre X et Y. On dit que les variables sont non corrélées.

NB : La covariance dépend des unités de mesure dans lesquelles sont exprimées x et y. Le coefficient de corrélation est un indice de liaison « intrinsèque ».

1r =0r =

Page 10: Institut de Mathématiques de Marseille, UMR 7373 - …iml.univ-mrs.fr/~reboul/cours2bis.pdfpar X dans la variation totale de Y. ¾Evaluation du lien : e² est compris entre 0 et 1

C-1 Analyse de la liaison entre deux variables quantitatives

Important : La covariance et le coefficient de corrélation ne permettent de mettre en évidence qu’une relation linéaire entre x et y.

Si deux variables sont statistiquement indépendantes (aucun lien), la corrélation est nulle, mais l’inverse est faux : il peut exister un lien autre que linéaire entre elles.

Page 11: Institut de Mathématiques de Marseille, UMR 7373 - …iml.univ-mrs.fr/~reboul/cours2bis.pdfpar X dans la variation totale de Y. ¾Evaluation du lien : e² est compris entre 0 et 1

C-1 Analyse de la liaison entre deux variables quantitatives

Page 12: Institut de Mathématiques de Marseille, UMR 7373 - …iml.univ-mrs.fr/~reboul/cours2bis.pdfpar X dans la variation totale de Y. ¾Evaluation du lien : e² est compris entre 0 et 1

C-1 Analyse de la liaison entre deux variables quantitatives

Le Coefficient de corrélation des rang de Spearman

Utilisé lorsqu’on ne dispose que d’un ordre sur un ensemble d’individus et non de valeurs numériques pour les variables X et Y. On noteet les séries des rangs des individus associées à x et y.

Définitions 1)

2)

Cas des ex-aequo :si il existe, dans l’une ou l’autre des séries, des observations ayant le même rang, on leur attribue la moyenne des rangs qu’ils auraient dû avoir s’il n’y avait pas eu d’ex-aequo. Par exemple, si deux observations de X sont classées au rang 2, on leur attribue à chacune le rang 2,5.

1( ,.... )nrx rx rx=

1( ,.... )nry ry ry=

( , )sr r rx ry=

i i id rx ry= −16 ²

1( ² 1)

n

ii

s

dr

n n== −−

Page 13: Institut de Mathématiques de Marseille, UMR 7373 - …iml.univ-mrs.fr/~reboul/cours2bis.pdfpar X dans la variation totale de Y. ¾Evaluation du lien : e² est compris entre 0 et 1

C-1 Analyse de la liaison entre deux variables quantitatives

Propriétés : évaluation du lien

Page 14: Institut de Mathématiques de Marseille, UMR 7373 - …iml.univ-mrs.fr/~reboul/cours2bis.pdfpar X dans la variation totale de Y. ¾Evaluation du lien : e² est compris entre 0 et 1

C-2 Analyse de la liaison entre une variable quantitative et une variable qualitative

X est une variable qualitative à p modalités et Y est une variable quantitative.

On dispose alors de p sous-populations déterminées par les p modalités de X .

L’étude de la liaison entre X et Y consiste en l’étude des différences entre ces sous-populations : il y aura absence de lien si on ne distingue pas de différence notoire dans les caractéristiques de ces différentes sous-populations.

1,..., pm m

Page 15: Institut de Mathématiques de Marseille, UMR 7373 - …iml.univ-mrs.fr/~reboul/cours2bis.pdfpar X dans la variation totale de Y. ¾Evaluation du lien : e² est compris entre 0 et 1

C-2 Analyse de la liaison entre une variable quantitative et une variable qualitative

Notations et définitions

On note et la moyenne et la variance de la série y, l’effectif de la sous-série des individus pour lesquels X vaut ( )

Avec ces notations, on a et

y 2ys

1

p

kkn n

=

=∑kmkn

1 1 ( )G X m=

.… ( )k kG X m= ( )p pG X m=

111 1 1,..., ,...i ny y y 1 ,..., ,...kk ik n ky y y

1 ,..., ,...pp ip n py y y

1ypy1

1 kn

k ikik

y yn =

= ∑

1

1 p

k kk

y n yn =

= ∑ 2

1

1 ( )²k

p

y ikk i G

s y yn = ∈

= −∑∑

2 1 ( )²k

k ik ki Gk

s y yn ∈

= −∑21s

2ps

Page 16: Institut de Mathématiques de Marseille, UMR 7373 - …iml.univ-mrs.fr/~reboul/cours2bis.pdfpar X dans la variation totale de Y. ¾Evaluation du lien : e² est compris entre 0 et 1

C-2 Analyse de la liaison entre une variable quantitative et une variable qualitative

On appelle variance résiduelle, la moyenne pondérée des variances des sous-populations :

On appelle variance expliquée par X, la moyenne pondérée des carrés des variations des sous-populations :

On montre que l’on a :

2 2

1

1 p

R k kk

s n sn =

= ∑

2

1

1 ( )²p

E k kk

s n y yn =

= −∑

2 2 2y R Es s s= +

Page 17: Institut de Mathématiques de Marseille, UMR 7373 - …iml.univ-mrs.fr/~reboul/cours2bis.pdfpar X dans la variation totale de Y. ¾Evaluation du lien : e² est compris entre 0 et 1

C-2 Analyse de la liaison entre une variable quantitative et une variable qualitative

Visualisation

• On utilise en général un graphique en boîtes parallèles (box-plots). Sur un même graphique doté d’une échelle unique on représente pour Y une boîte à moustachespour chacune des sous-populations définies par X. La comparaison de ces boîtes donne une idée assez claire de la liaison entre les deux variables.

Page 18: Institut de Mathématiques de Marseille, UMR 7373 - …iml.univ-mrs.fr/~reboul/cours2bis.pdfpar X dans la variation totale de Y. ¾Evaluation du lien : e² est compris entre 0 et 1

C-2 Analyse de la liaison entre une variable quantitative et une variable qualitative

Un indicateur de liaison : le rapport de corrélation

Définition : le rapport de corrélation est la part de variations de Y expliquée par X dans la variation totale de Y.

Evaluation du lien :

e² est compris entre 0 et 1 e² est d’autant plus grand que le lien est fort.

²²²E

y

ses

=

Page 19: Institut de Mathématiques de Marseille, UMR 7373 - …iml.univ-mrs.fr/~reboul/cours2bis.pdfpar X dans la variation totale de Y. ¾Evaluation du lien : e² est compris entre 0 et 1

C-2 Analyse de la liaison entre une variable quantitative et une variable qualitative

Ex : 6 insecticides sont testés sur (spray) ont été testés chacun sur 12 cultures. La réponse observée (count) est le nombre d'insectes (n=72)

count spray1 10 A2 7 A3 20 A4 14 A5 14 A6 12 A7 10 A8 23 A9 17 A10 20 A…………………………..

• Variance résiduelle :

• Variance expliquée :

• Rapport de corrélation :

2 15.4Rs =

9.5 7.2y s= =2 37.07Es =

E

14.5 4.915.3 y 3.52.08 16.7

A D

B

C F

y yyy y

= == == =

E

4.7 2.54.3 1.72 6.2

A D

B

C F

s ss ss s

= == == =

2 0.7e =

12A B C D E Fn n n n n n= = = = = =

Page 20: Institut de Mathématiques de Marseille, UMR 7373 - …iml.univ-mrs.fr/~reboul/cours2bis.pdfpar X dans la variation totale de Y. ¾Evaluation du lien : e² est compris entre 0 et 1

C-3 Analyse de la liaison entre deux variables qualitatives

X et Y sont qualitatives , telle que X a k modalités, Y a l modalités.

On cherche à savoir si il existe un lien entre X et Y.

Page 21: Institut de Mathématiques de Marseille, UMR 7373 - …iml.univ-mrs.fr/~reboul/cours2bis.pdfpar X dans la variation totale de Y. ¾Evaluation du lien : e² est compris entre 0 et 1

C-3 Analyse de la liaison entre deux variables qualitatives

Notations et définitions

Table de contingence : tableau à double entrée de dimension k*l représentant les modalités de la série bidimensionnelle (x,y).

= Nombre d’observations ayant la modalité xi de x et yj de y.= effectif marginal : Nombre d’observations ayant la modalité xi de x = effectif marginal :Nombre d’observations ayant la modalité yj de y . jn

.inijn

Page 22: Institut de Mathématiques de Marseille, UMR 7373 - …iml.univ-mrs.fr/~reboul/cours2bis.pdfpar X dans la variation totale de Y. ¾Evaluation du lien : e² est compris entre 0 et 1

C-3 Analyse de la liaison entre deux variables qualitatives

Profils

On appelle i° profil ligne, le vecteur de dimension l des fréquences de la variable Y conditionnellement à la valeur xi de X :

On appelle j° profil colonne, le vecteur de dimension k des fréquences de la variable X conditionnellement à la valeur yj de Y :

1

. . .

,......, ,.....,iji il

i i i

nn nn n n

1

. . .

,......, ,.....,j ij kj

j j j

n n nn n n

Page 23: Institut de Mathématiques de Marseille, UMR 7373 - …iml.univ-mrs.fr/~reboul/cours2bis.pdfpar X dans la variation totale de Y. ¾Evaluation du lien : e² est compris entre 0 et 1

C-3 Analyse de la liaison entre deux variables qualitatives

..( , ) ij jin nni jn n n

∀ = ×

En probabilité, si il y a indépendance entre X et Y, on a:

En statistiques, si il n’y a pas de liaison entre x et y, on a:

Lorsque tous les profils lignes (ou colonne) sont égaux, il y a indépendance entre X et Y : la connaissance de X ne change pas les distributions de Y conditionnellement à X.

j j( , ) ( et Y=y ) ( ) (Y=y )i ii j P X x P X x P∀ = = =

Page 24: Institut de Mathématiques de Marseille, UMR 7373 - …iml.univ-mrs.fr/~reboul/cours2bis.pdfpar X dans la variation totale de Y. ¾Evaluation du lien : e² est compris entre 0 et 1

C-3 Analyse de la liaison entre deux variables qualitatives

Visualisation

Représentation des profils-lignes ou des profils colonnes par des diagrammes en barres parallèles, ce qui donne une idée assez précise de la variation conjointe de X et Y.

Si il n’y a pas de relation, les diagrammes des différents profils devraient identiques.

Page 25: Institut de Mathématiques de Marseille, UMR 7373 - …iml.univ-mrs.fr/~reboul/cours2bis.pdfpar X dans la variation totale de Y. ¾Evaluation du lien : e² est compris entre 0 et 1

C-3 Analyse de la liaison entre deux variables qualitatives

Exemple : on observe le sexe et la qualité de vue sur 1000 individus.

homme femme

voyant 442 514

aveugle 38 6

Tableau des profils ligne :

homme femme

voyant 0.4623431 0.5376569

aveugle 0.8636364 0.1363636

Diagramme en barres des profils lignes :

Diagramme des profils lignes

0

0,2

0,4

0,6

0,8

1

1,2

voyant aveugle

FH

Page 26: Institut de Mathématiques de Marseille, UMR 7373 - …iml.univ-mrs.fr/~reboul/cours2bis.pdfpar X dans la variation totale de Y. ¾Evaluation du lien : e² est compris entre 0 et 1

C-3 Analyse de la liaison entre deux variables qualitatives

Un indicateur de liaison : la distance du chi2

La mesure de la liaison entre X et Y va se faire en évaluant l’écart entre la situation observée et la situation qu’on observerait si il y avait indépendance statistique. Dans ce cas, on aurait :

Définition : La distance du chi2 vaut :

Si d²=0 il y a indépendanceAu plus d2 est grand, au plus les variables sont liées. Sa valeur maximale est le minimum de n (k - 1) et n (l - 1).

..( , ) ij jin nni jn n n

∀ = ×

( ). .

. .

2

i j

i j

n nij n

n ni j n

nd

−=∑

Page 27: Institut de Mathématiques de Marseille, UMR 7373 - …iml.univ-mrs.fr/~reboul/cours2bis.pdfpar X dans la variation totale de Y. ¾Evaluation du lien : e² est compris entre 0 et 1

C-3 Analyse de la liaison entre deux variables qualitatives

Retour à l’exemple :

Tableau des effectifs observés

Tableau des effectifs théoriques

Chi2 et contribution des cases

Chi2=27,1387434

H F totalVoyant 442 514 956Aveugne 38 6 44total 480 520 1000

H FVoyant 458,88 497,12Aveugle 21,12 22,88

H FVoyant 0,62093445 0,57317026Aveugle 13,4912121 12,4534266

Page 28: Institut de Mathématiques de Marseille, UMR 7373 - …iml.univ-mrs.fr/~reboul/cours2bis.pdfpar X dans la variation totale de Y. ¾Evaluation du lien : e² est compris entre 0 et 1

C-3 Analyse de la liaison entre deux variables qualitatives

Le coefficient des rangs de Spearman

S’applique dans le cas de deux variables qualitatives ordinales voir C-1

Page 29: Institut de Mathématiques de Marseille, UMR 7373 - …iml.univ-mrs.fr/~reboul/cours2bis.pdfpar X dans la variation totale de Y. ¾Evaluation du lien : e² est compris entre 0 et 1

C-4 Relation causale entre 2 variables quantitatives

Problème : On s’intéresse ici à une liaison causale éventuelle entre deux variables statistiques quantitatives X et Y.

Plus exactement, on cherche à expliquer les variations d’une variable Y (variable dépendante) par celles d’une fonction linéaire de X (variable explicative), i.e., à valider le modèle de RLS

où - a et b sont des paramètres inconnus- est une variable aléatoire de moyenne nulle et de variance

inconnue

Intérêt : expliquer ou/et prévoir Y à partir de X.

Y aX b ε= + +

ε²σ

Page 30: Institut de Mathématiques de Marseille, UMR 7373 - …iml.univ-mrs.fr/~reboul/cours2bis.pdfpar X dans la variation totale de Y. ¾Evaluation du lien : e² est compris entre 0 et 1

C-4 Relation causale entre 2 variables quantitatives

Méthode Sur une série bidimensionnelle de n réalisations de X et de Y, on cherche à valider un modèle de type :

avec i.i.d. de moyennes nulles et de variance iε

, 1,..., .i i iy ax b i nε= + + =

Page 31: Institut de Mathématiques de Marseille, UMR 7373 - …iml.univ-mrs.fr/~reboul/cours2bis.pdfpar X dans la variation totale de Y. ¾Evaluation du lien : e² est compris entre 0 et 1

C-4 Relation causale entre 2 variables quantitatives

Estimation de a et b : On commence par chercher le « meilleur » ajustement linéaire sur nos données, au sens des moindres carrés :

et sont tels que est minimal. Ce sont les coefficients de la régression ou estimations des moindres carrés de a et b.

2

1 1

ˆˆ( )²n n

i i ii ie y ax b

= =

= − −∑ ∑a b

Page 32: Institut de Mathématiques de Marseille, UMR 7373 - …iml.univ-mrs.fr/~reboul/cours2bis.pdfpar X dans la variation totale de Y. ¾Evaluation du lien : e² est compris entre 0 et 1

C-4 Relation causale entre 2 variables quantitatives

Résolution :

• La droite d’ajustement s’appelle droite de régression ou des moindres carrés.

• La valeur s’appelle la i° valeur estimée. C’est la valeur

moyenne de Y lorsque X=xi . C’est aussi la prévision de Y pour une observation telle que X=xi.

• La valeur s’appelle le i° résidu. On peut montrer que :

12

1

( )( )( , ) ˆˆ ˆ,

( )²

n

i ii

nx

ii

x x y yc x ya b y axsx x

=

=

− −= = = −

ˆˆˆ ax biyi = +

ˆˆy ax b= +

ˆe yi yi i= −

1 10.

n n

i i ii i

e x e= =

= =∑ ∑

Page 33: Institut de Mathématiques de Marseille, UMR 7373 - …iml.univ-mrs.fr/~reboul/cours2bis.pdfpar X dans la variation totale de Y. ¾Evaluation du lien : e² est compris entre 0 et 1

C-4 Relation causale entre 2 variables quantitatives

Un modèle de bonne qualité doit avoir un bon pouvoir explicatif et un bon pouvoir prédictif.

Analyse du pouvoir explicatif du modèle :

Décomposition de la variabilité

=somme des carrés des variations de y (n-1 ddl)

=somme des carrés des variations expliquées par le modèle (1 ddl)=somme des carrés des variations résiduelles (n-2 ddl)

• Au plus SSM est grand (ou SSR faible), au meilleur est l’ajustement.

2( )²i YSST y y ns= − =∑

2ˆˆ( )²i YSSM y y s= − =∑

2 2( 2)iSSR e n s= = −∑

SST SSR SSM= +

Page 34: Institut de Mathématiques de Marseille, UMR 7373 - …iml.univ-mrs.fr/~reboul/cours2bis.pdfpar X dans la variation totale de Y. ¾Evaluation du lien : e² est compris entre 0 et 1

C-4 Relation causale entre 2 variables quantitatives

Principal indicateur: le coefficient de détermination (% de variation expliqué par le modèle):

doit être proche de 1.

Autre indicateur : Le F de Fisher doit être le plus grand possible

Analyse du pouvoir prédictif du modèle :

- Le s² doit être le plus faible possible pour garantir de bonnes prévisions.

- Les coefficients doivent être stables pour garantir de bonnes prévisions, i.e. leurs écarts type doivent être faibles.

² 1 ²( , )SSM SSRR r x ySST SST

= = − =

CMMFCMR

=

ˆˆ( ) et ( )s a s b