Corrélation et régression linéaire chapitre 2

15
Corrélation et régression linéaire chapitre 2 1 Corrélation et régression linéaire I- la régression linéaire Introduction L’analyse de la régression est appropriée lorsque deux variables Y et X sont liées, on appel la variable y variable dépendante (population de microorganisme par exemple), x la variable indépendante (une composante temporelle……) . La variable dépendante y est la variable mesurée quantitativement lorsque la variable x indépendante fixé à différent niveau. Exemple explicatif Prenons l’exemple le cas d’une certaine concentration de staphylococcus aureus dans une population microbienne ( variable Y) exposée à une solution de iodine de 10% a des intervalles de temps différents ( variable x ) pour 1 0min,20,30…..analyse de la régression correspond à une fonction linéaire entre les deux .supposons que lorsque x=2 y =4,x=3 y=6……. Figure 1 : Représentation graphique de la fonction linéaire entre x et y. En algèbre, les points reliés par une ligne sont appelés fonction de x ou Y=f(x) = ax+b dont a= qui correspond à la pente de la ligne de régression, c’est une relation fonctionnelle alors qui suit un modèle mathématique linéaire ou tous les points qui forment le nuage de points tombent parfaitement sur la courbe c’est-à-dire chaque valeur de xi a une seul valeur de yi qui est une valeur réel.

Transcript of Corrélation et régression linéaire chapitre 2

Page 1: Corrélation et régression linéaire chapitre 2

Corrélation et régression linéaire chapitre 2

1

Corrélation et régression linéaire

I- la régression linéaire

Introduction

L’analyse de la régression est appropriée lorsque deux variables Y et X sont liées, on

appel la variable y variable dépendante (population de microorganisme par exemple), x la

variable indépendante (une composante temporelle……) .

La variable dépendante y est la variable mesurée quantitativement lorsque la variable x

indépendante fixé à différent niveau.

Exemple explicatif

Prenons l’exemple le cas d’une certaine concentration de staphylococcus aureus dans

une population microbienne ( variable Y) exposée à une solution de iodine de 10% a des

intervalles de temps différents ( variable x ) pour 1 0min,20,30…..analyse de la régression

correspond à une fonction linéaire entre les deux .supposons que lorsque x=2 y =4,x=3

y=6…….

Figure 1 : Représentation graphique de la fonction linéaire entre x et y.

En algèbre, les points reliés par une ligne sont appelés fonction de x ou

Y=f(x) = ax+b dont a=

qui correspond à la pente de la ligne de régression, c’est une

relation fonctionnelle alors qui suit un modèle mathématique linéaire ou tous les points qui

forment le nuage de points tombent parfaitement sur la courbe c’est-à-dire chaque valeur de xi

a une seul valeur de yi qui est une valeur réel.

Page 2: Corrélation et régression linéaire chapitre 2

Corrélation et régression linéaire chapitre 2

2

Contrairement à la relation fonctionnelle , la relation statistique n’est pas

parfaite , et tous les points de cordonnées (xi ;yi) ne tombent pas tous sur la courbe de la

fonction c’ est à dire chaque valeur de xi a deux valeurs de y une valeur réel représente le yi

et une valeur prédite (théorique ) prend le symbole issu de la courbe .l’ écart entre yi et

appelé le résidu ei ou erreur aléatoire (Déjà vu dans le chapitre de statistique descriptive) de

ce fait l’équation statistique s’écrit ainsi :

Y=f(x) = ax+ b +ei

Dont la somme ∑ =0

Pour mieux comprendre la notion de valeur de y réel et y prédit prenant l’exemple suivant :

Imaginons une parcelle dans une forêt choisie au hasard (échantillons aléatoire) on

dénombre le nombre total d’arbres contenus dans la parcelle (variable y) et on établit la

courbe de nombres d’arbre par apport à la taille de la parcelle (variable x).

les points ou les ordonnées (xi ;yi) forment un nuage de points. La courbe passe par le

le maximum de points pour estimer au mieux le y prédit .les points qui restent en dehors

de la courbe corresponds au y réel. Cette distribution est due à la distribution spatiale des

arbres qui peut être irrégulière.

Figure 2 : courbe de régression linaire nombre d’arbre en fonction de la taille de la parcelle

xi

��

yi

ei le résidu yi-��

Page 3: Corrélation et régression linéaire chapitre 2

Corrélation et régression linéaire chapitre 2

3

I- 1-La méthode des moindres carrés

La méthode des moindres carrés détermine l’ajustement entre y et x qui

produit le petit terme d’erreur c’est à dire réduire les valeurs de résiduelle ei ; minimum

d’erreur. Le calcul de la pente( a )dans ce cas et ajusté comme suit :

a=∑( ) ( )

∑( )

Et l’origine b b = -a

Exemple explicatif :

supposons que les données suivante ont été collectées à partir de l’exposition

séquentiel de E.coli à une solution de 10% de providine iodin au temps suivant

25s,50s,1m,5m avec 3 répétitions pour chaque temps (n=15) .l’exigence dans cette étude et de

démontré une régression linéaire entre les deux variables y(quantité de population en log10)et

le x ( temps) à fin de produire une ligne droite , dans le tableau des données les valeurs y ont

été transformé en log 10 qui est une échelle habituelle en microbiologie .

Table de données

N Y (log10) X (temps m) xy X2

1 6 0 0 0

2 5.8 0 0 0

3 6.5 0 0 0

4 5.1 0.41 2.091 0.1681

5 5.2 0.41 2.132 0.1681

6 5.6 0.41 2.296 0.1681

7 4.8 0.83 3.984 0.6889

8 4.7 0.83 3.984 0.6889

9 5.1 0.83 4.233 0.6889

10 4.4 1 4.4 1

11 4.6 1 4.6 1

12 4.5 1 4.5 1

13 2.3 5 11.5 25

14 2.1 5 10.5 25

15 2.5 5 12.5 25

L’équation =5.087-0.558 x

Page 4: Corrélation et régression linéaire chapitre 2

Corrélation et régression linéaire chapitre 2

4

Nous remarquons que quand x=0 y intercepté avec b est égale à

5.5087log10.La pente a prend une valeur négative -0.558 cette valeur signifie que la courbe

et Décroissante elle explique que la population microbienne et réduite de 0.558 log 10 pour

chaque instant d’exposition.

Dans l’équation le y prédit = 5.087quand x=0 mais le y réel peut prendre le

6.5 , 5.58, et le 6log10 quand x=0 (voir le tableau). Pour cela on opte pour la correction de la

courbe on utilisant le résiduelle ei .

Le e est simplement la différence entre la valeur réel y et la valeur prédite,

dans ce cas pour minimiser le e on laisse tomber les valeurs de x =0 et on ajuste la courbe

pour n=12.

I-2-Prédiction de la moyenne de à partir de x

Comme toujours valeur prédite dans un processus suit toujours la loi =ax+b

avec une condition que la valeur prédite à x soit inclus dans la courbe de régression. La

moyenne des valeurs de y ou valeur réel peut être calculé avec la formule habituel

=∑

Cette formule ne peut pas être appliqué pour les valeurs prédites c’est-à-dire la moyenne

prédite .de ce fait pour avoir cette valeur ont va estimer cette valeur et ont va l’encadrer

dans un intervalle de confiance. Cette estimation suit la loi de student ( à documenter).

La prédiction doit se faire dans un intervalle de confiance 100(1-α) autour de la moyenne y

prédite barre ( ) alors nous obtiendrons l’intervalle de confidence comme suit :

= ±t(α/2,n-2)

Page 5: Corrélation et régression linéaire chapitre 2

Corrélation et régression linéaire chapitre 2

5

I-3-Prédiction de la moyenne de spécifique à partir de x

La prédiction de la valeur à partir de x est similaire à la prédiction de la

moyenne comme toute premier étape et déterminé la courbe de régression après déterminé

le a une valeur précis de x .

La prédiction se fait dans un intervalle de confiance de 100(1-α).

La différence entre Sy et Sy¯ et ajouté le 1 à la valeur 1/n

II –la corrélation

On distingue deux types une corrélation, corrélation paramétrique et une corrélation non

paramétrique non paramétrique.

II-1 corrélation paramétrique

La corrélation paramétrique relié directement à l’analyse de régression la corrélation mesure

le degré de liaison entre deux variables prenons l’équation suivante y=1+2 x le tableau

suivant montre les valeurs xi et yi .

X Y y-

1 3 3 0

2 5 5 0

3 7 7 0

4 9 9 0

5 11 11 0

6 13 13 0

Nous remarquons que y=^y et e =0 pas d’erreur ces données sont parfaitement corrélé =1

Contrairement quand les valeurs prédite y^ n’interfère pas avec le ^y≠ax+b la corrélation =0

et la représentation graphique est un nuage de point diffus.

Page 6: Corrélation et régression linéaire chapitre 2

Corrélation et régression linéaire chapitre 2

6

II-2 Le coefficient de corrélation

Le coefficient limité dans un intervalle -1≤r≤1.il mesure le lien entre deux variables qui

suivent une loi normal c’est le coefficient de corrélation paramétrique ou de Pearson « r ».

II-3 Interprétation de r

II-4 coefficient de détermination r

2

Mesure de la qualité de prédiction d’une régression linéaire, ce coefficient varie entre

0 et 1 soit faible prédiction soit forte .ex si r=0.96, r2

=0.92 veut dire 92% seulement des

points expliqués par l’équation de régression.

Page 7: Corrélation et régression linéaire chapitre 2

Corrélation et régression linéaire chapitre 2

7

II-5 les tests de contrastes ou d’inférence de la pente a et de coefficient r

En statistique, la détermination de r et l’équation de régression ne suffit pas , il faut

toujours mesuré le risque d’ erreur ou mesurer la certitude de nos résultat par apport a un seuil

de risque α , cette étape appelé statistique inférencielle repose sur la formulation des

hypothèses qui traitent la probabilité d’ avoir un r qui s’éloigne de la valeur 0 avec un modèle

linéaire de régression entre deux variables x et y .cependant on peut poser la question

suivante : la corrélation entre x et y est- elle vraiment linéaire ou bien par hasard ? la variable

y depend ou corrèle avec la variable x ou bien c’est au hasard aussi ?

Pour répondre à cette question nous réalisons un test de contraste ou d’inférence

connu aussi par le test de certitude ou encore test de signification. Ce sont des tests

hypothétiques de comparaison ou de conformité entre une valeur calculé et une valeur

théorique ou tabulé.

Cette valeur tabulée dépend de la loi de distribution statistique et de la densité de

probabilité . Ce sont des table statistique standardisé et universelle pour chaque type de

distribution ou de loi .

Remarque : le test de contraste dans la régression linaire simple (deux variable) suit la

loi de student au taux de risque α et d.d.l =n-2

II-5-1 test de la pente a à 0

Dans certain étude, il n’est pas acquis d’avance qu’il existe une relation linéaire entre

x et y , alors il peut être pertinent de considérer la possibilité que tout tendance apparente

dans les données soit illusoire et ne reflète que l’amplitude de la variabilité dans cette

situation il est naturel de formuler l’hypothèse nul H0 et l’hypothèse alternative H1 .

H0 : pas de relation de dépendance entre y et x et a =0

Ou bien pas de corrélation entre y et x a=0

Ou bien pas de linéarité entre y et x

H1 : a≠0 il existe une relation entre X et Y

Page 8: Corrélation et régression linéaire chapitre 2

Corrélation et régression linéaire chapitre 2

8

Le test utilisé test de student avec une seuil de risque α ( le seuil de risque c’est le

pourcentage donné ou l’intervalle donné pour avoir commis une erreur ) et un d.d.l =n-2

dont n est la taille de l’échantillon ou bien le nombre de mesures effectuer ( d.d.l par

définition désigne le nombre de variable aléatoire qui ne peuvent pas être fixé par une

équation )

La valeur du test calculé est :

ts=

=

Variance résiduelle de la régression = ∑( )

-Les Règles de décision

Si la valeur du test de student calculé ˂ valeur du test dans la table H0 est accepté et

H1 rejeté, au seuil de risque α et d.d.l =n-2.

Si la valeur du test de student calculé ≥ valeur du test dans la table H0 rejeté et H1

accepté au seuil de risque α et d.d.l =n-2.

II-6.2 Test de r à 0

Avec le même principe on test le coefficient de corrélation par le test de student au seuil de

risque α et d.d.l= n-2.

La formulation des hypothèses comme suit :

H0 : pas de corrélation entre x et y

H1 : : ≠0

Variance de la pente a

Page 9: Corrélation et régression linéaire chapitre 2

Corrélation et régression linéaire chapitre 2

9

La formule du test de la valeur calculé et

ts=

Règle de décision :

Si la valeur calculée du test de Student < valeur tabulée pour (n-2) ddl : rejet de H1

Si la valeur calculée du test de Student ≥ valeur tabulée pour (n-2) ddl : rejet de H0

III-Corrélation non paramétrique

Comme déjà vu, le coefficient de Pearson est les tests de significations qui lui sont

associés reposaient sur deux principes ; les variables X et Y deux variables quantitatives qui

suivent une distribution normale, ce qui implique la linéarité de la relation entre eux.

Or , on biologie il est fréquent que la variable soit semi quantitative ordinal( on peut

l’ordonné d’une manier croissante ou décroissante, comme l’âge , la taille , le poids , le Ph )

qu’ elle ne soit pas liées linéairement ou que leur distribution ne soit pas normale .

Dans un cas pareil on utilise un coefficient de corrélation de rang qui mesure le

degré de concordance ou de liaison entre les rangs des observations en x et y .une parfaite

concordance produit un coefficient =1.

Remarque : comme dans les statistiques descriptives le rang définie la position des

valeurs par exemple dans une série statistique de valeur paire comme suit :

16 , 12,8,0,2,6,,36,….72 si on ordonne la série d’une manière croissante

0,2,6,8,12,16,36,….72 , la valeur 0 prend le rang 1 , la valeur 2 prend le rang 2 …

Page 10: Corrélation et régression linéaire chapitre 2

Corrélation et régression linéaire chapitre 2

10

III-1 Corrélation de Spearman

III-1-1 Définition et propriété

Le coefficient de corrélation de Spearman, symbolisé par , mesure le degré de

liaison existant entre le classement des éléments selon la variable X et le classement selon Y

.il s’agit en fait d’un coefficient de corrélation de Pearson calculé non pas sur les valeurs de

X et Y , mais sur les rangs des valeurs de X et Y .

Ou égale aussi a

Avec : correspond au rang de la variable x

la moyenne des rang de la variable x .

Correspond au rang de la variable Y

la moyenne des rang de la variable Y .

Correspond l’écart entre : - .

Le ρ de Spearman est une variante du coefficient de Pearson, il en reprend les propriétés

essentielles, à savoir : −1 ≤ ρ ≤ +1 ; il prend la valeur 0 lorsque les variables sont

indépendantes.

L’emploi du coefficient de Spearman est préférable à celui de Pearson dans les situations

suivantes :

-l’ échelle de variation d’au moins une des deux variable n’est pas relative mais ordinal (on

peut la ranger d’une manière croissante ou décroissante)

-la liaison entre X et Y non linéaire mais suspecte elle peut être monotone ( exponentielle

par exemple ).

-les distributions s’écarte de la normale ou présentent des valeurs exceptionnelles .

Ou

Page 11: Corrélation et régression linéaire chapitre 2

Corrélation et régression linéaire chapitre 2

11

Exemple numérique

Nous voulons étudier si une corrélation existe entre la taille (m) et le poids (kg) de 15

hommes pris au hasard dans une population choisie d’une manière aléatoire. Les résultats sont

présentés dans le tableau suivant.

Nombre Taille(m) Poids

(kg)

1 1.697 77.564

2 1.539 55.000

3 1.629 76.657

4 1.633 62.596

5 1.500 58.068

6 1.679 72.575

7 1.643 82.000

8 1.626 76.667

9 1.543 58.060

10 1.542 71.668

11 1.621 68.039

12 1.577 70.060

13 1.557 61.689

14 1.496 67.585

15 1.637 59.874

Solution

-Nature de la variable ; semi qualitative la variable X taille (qualitative mais mesurable)

-La variable Y représente le poids.

-Les deux variables sont ordinal (on peut les ordonnées d’une manière croissante).

- la liaison entre le poids et la taille n’est pas linéaire car on ne peut dire que la taille corrèle

positivement avec le poids si le poids est augmenté la taille augmente

Dans ce cas on utilise le coefficient de Spearman pour étudier la relation de corrélation entre

X et Y .

Page 12: Corrélation et régression linéaire chapitre 2

Corrélation et régression linéaire chapitre 2

12

On attribue les rangs pour la variable x (Ri) d’une manier croissante et(Si) le rang pour

la variable y .

Nombre Taille(m) =x Poids

(kg) =y

Ri Si RiSi Di

1 1.697 77.564 15 14 210 1 1

2 1.539 55.000 3 1 3 2 4

3 1.629 76.657 10 12 120 -2 4

4 1.633 62.596 11 6 66 5 25

5 1.500 58.068 2 3 6 -1 1

6 1.679 72.575 14 11 154 3 9

7 1.643 82.000 13 15 195 -2 4

8 1.626 76.667 9 13 117 -4 16

9 1.543 58.060 5 2 10 3 9

10 1.542 71.668 4 10 40 -6 36

11 1.621 68.039 8 8 64 0 0

12 1.577 70.060 7 9 63 -2 4

13 1.557 61.689 6 5 30 1 1

14 1.496 67.585 1 7 7 -6 36

15 1.637 59.874 12 4 48 8 64

somme 120 120 1133 214

On calcule le coefficient de Spearman on utilisant les 3 formules, juste pour voir que nous

obtiendrons le même résultat .

Nous avons tout d’abord formé le nuage de point

-

Page 13: Corrélation et régression linéaire chapitre 2

Corrélation et régression linéaire chapitre 2

13

-Dans la colonne 4 et 5, nous calculons respectivement les rangs Ri et Si , Nous

calculons alors le ρ avec la formule 1 . en appliquant directement la formule de Spearman sur

les rangs. Nous obtenons ρˆ = 0.61786 .

- Dans la colonne 6 , nous formons le produit Ri × Si , nous obtenons la somme ∑ i

RiSi = 1133. A partir de la formule 2, nous produisons ρˆ = 0.61786.

- La même valeur que précédemment. En7 émme colonne, nous calculons l'écart Di

et nous formons la colonne D2 i . La somme ∑ i D2 i = 214. En appliquant la formule 3, la

troisième estimation ρˆ = 0.61786 est totalement cohérente avec les précédentes.

Cas particulier

Traitement des ex aequo

Par définition on parle de valeurs ex aequo lorsque deux observation ou plus sont

égales. Dans l’exemple précédant sur les 15 hommes on pouvait avoir deux homme ou

plus possédant la même taille et même poids, la question qui se pose, ces valeurs

prennent-elles le même rang ou le rang suivant ?, dans un cas pareille on utilise le rang

moyen.

Prenons l’exemple suivant, nous avons 12 observations triés selon la valeur de X :

Individu Variable x Rang brute Rang moyen

1 0 1 1.5

2 0 2 1.5

3 1 3 3

4 2 4 5

5 2 5 5

6 2 6 5

7 5 7 7

8 6 8 8

9 7 9 9

10 8 10 10.5

11 8 11 10.5

12 12 12 12

-Comme nous voyons plusieurs observations ont des valeurs identiques, la premier

étape et établir les rangs brute d’une maniéré croissante la plus petit valeur prend le rang 1

jusqu’à n éme valeur.

Page 14: Corrélation et régression linéaire chapitre 2

Corrélation et régression linéaire chapitre 2

14

-Nous effectuons un second passage sur les données, nous calculons et attribuons la

moyenne de leur rang aux individus portant les mêmes valeurs. Ici, individu 1 et 2 ont la

même valeur, ils portent respectivement les rangs 1 et 2, nous leur affectons au final le rang

moyen

=1,5.

Pour les individus 4,5 et 6 nous effectuons le calcul

= 5.

Et pour les individus 10 et 11, nous calculons

=10.5

Nous réalisons les mêmes étapes pour la variable on attribue d’abord les rangs absolus

puis les rangs moyens.

Après cette étape des rangs moyens nous pouvons par la suite calculer le coefficient

par l’une des formules déjà donné de Ri et Si et de Di .

III-2 Test de signification du coefficient de Spearman

Avec le même principe que les tests de significations de coefficient de Pearson , le

coefficient de Spearman obéit a une loi de student . l’hypothèse nulle H0 sera formuler par

apport au 0 .

La première étape formulations des hypothèses :

H0 : =0 , pas de corrélation entre la variable X et Y.

H1 : ≠0 , existe une corrélation entre la variable X et Y.

Deuxième étapes : on calcule la valeur T calculer sauf si l’effectif n est aux alentours de

20 à 30

T=

Si l’effectif n est supérieur que 35 on utilise cette formule

T= √

Si l’effectif n compris entre 4 et 10 dans ce cas-là le test de signification suit des tables

spécifique difficile a aborder a cette étape .

Page 15: Corrélation et régression linéaire chapitre 2

Corrélation et régression linéaire chapitre 2

15

Troisième étape : règle de décision

La décision de rejeté l’hypothèse nul ou de l’accepté repose sur la comparaison entre la

valeur du test T tabulé au degré de liberté d.d.l n-2 et seuil de risque α

Si t calculé ≥ a t de la table H0 est rejeté

Si t calculé ˂ a t de la table H 0 est accepté

Résumer

La corrélation : est l’analyse qui permet de vérifier l’existence d’une relation entre

deux variables X et Y , dans ce chapitre nous abordons que deux type de corrélation :

- la Corrélation paramétrique représenté par le coefficient de Pearson .

- la Corrélation non paramétrique représenté par le coefficient de Spearman.

Régression linéaire : c’est la fonction mathématique ou graphique qui lie entre X et

Y elle est de l’ordre ax+b elle interprète la linéarité entre deux variable quantitative qui

suit une loi normal est corrèle entre eux par le coefficient de Pearson.

Corrélation paramétrique Corrélation non paramétrique

Coefficient Pearson ,r Spearman,

Nature de variable Qualitative Semi qualitative, ordinal

Distribution des variables Symétrique, loi normal Ne suit pas la loi normale

Test de signification de r Test de student Test de student n doit être

compris entre 20 et plus

Nuage de points Relation linéaire ax +b

Déterminer par la méthode

des moindres carrés

Test de signification de la

courbe sur la pente test de

student

Relation monotone,

exponentiel, ou parabolique

pour déterminer la courbe il

faut utiliser un modèle

mathématique.