Chapitre III : Analyse bivariée et corrélation Modèle et ...

9
Chapitre III : Analyse bivariée et corrélation et Modèle et régression linéaire I) Analyse bivariée et corrélation : 1) Principe : Une analyse bivariée tente de mettre en relation où tout du moins de déterminer si il existe une relation/corrélation entre 2 variables. Pour illustrer ce principe nous prendrons comme variables : - La concentration en ARNm dans une cellule - La concentration en protéines. La question qu’on se pose est, existe-t-il un lien quantitatif entre la concentration d’ARNm et de protéines dans une cellule ? On tente donc d’établir le taux d’appariement entre ces deux variables. Pour cela on calcule la covariance observée. 2) La covariance observée : On a un échantillons sur lesquels on a mesuré nos deux variables, on a alors : - Xi : 1 -> n et de moyenne - Yi : 1 -> m et de moyenne On mesure alors la covariance observée selon : = = A partir de la covariance on peut estimer la covariance de la population selon : Cette covariance peut être représentée graphiquement et nous donne des informations sur la relation entre les deux variables : Les points bleus représentent une corrélation positive des deux variables : - Quadrant supérieur droit : quand x est grand y l’est aussi - Quadrant inférieur gauche : quand x est petit y l’est aussi Les points rouges représentent une corrélation négative des deux variables : - Quadrant supérieur gauche : quand x est petit y est grand - Quadrant inférieur droit : quand x est grand y est petit Cette représentation graphique permet simplement d’établir si il y a un lien entre les variables. Mais il faut pouvoir quantifier ce lien. C’est ce que l’on fait en calculant le coefficient de corrélation linéaires.

Transcript of Chapitre III : Analyse bivariée et corrélation Modèle et ...

Page 1: Chapitre III : Analyse bivariée et corrélation Modèle et ...

Chapitre III :

Analyse bivariée et corrélation

et

Modèle et régression linéaire

I) Analyse bivariée et corrélation :

1) Principe :

Une analyse bivariée tente de mettre en relation où tout du moins de déterminer si il existe une relation/corrélation entre 2 variables.

Pour illustrer ce principe nous prendrons comme variables :

- La concentration en ARNm dans une cellule

- La concentration en protéines.

La question qu’on se pose est, existe-t-il un lien quantitatif entre la concentration d’ARNm et de protéines dans une cellule ?

On tente donc d’établir le taux d’appariement entre ces deux variables. Pour cela on calcule la covariance observée.

2) La covariance observée :

On a un échantillons sur lesquels on a mesuré nos deux variables, on a alors :

- Xi : 1 -> n et de moyenne

- Yi : 1 -> m et de moyenne

On mesure alors la covariance observée selon : =

=

A partir de la covariance on peut estimer la covariance de la population selon :

Cette covariance peut être représentée graphiquement et nous donne des informations sur la relation entre les deux variables :

Les points bleus représentent une corrélation positive des deux variables :

- Quadrant supérieur droit : quand x est grand y l’est aussi

- Quadrant inférieur gauche : quand x est petit y l’est aussi

Les points rouges représentent une corrélation négative des deux variables :

- Quadrant supérieur gauche : quand x est petit y est grand

- Quadrant inférieur droit : quand x est grand y est petit

Cette représentation graphique permet simplement d’établir si il y a un lien entre les variables. Mais il faut pouvoir quantifier ce lien. C’est ce que l’on

fait en calculant le coefficient de corrélation linéaires.

Page 2: Chapitre III : Analyse bivariée et corrélation Modèle et ...

3) Coefficient de corrélation linéaire « ρ »:

=

=

=

-1 ≤ Ce coefficient est toujours compris en-1 et 1 or :

- Un coefficient de -1 implique une parfaite corrélation négative

- Un coefficient de 1 implique une parfaite corrélation positive

- Un coefficient de 0 implique aucune corrélation.

Rem : ce coefficient renseigne sur l’alignement des points. Or une droite parfaitement horizontale aura un coefficient de 0 même si les points sont

parfaitement alignés car il n’y a aucune corrélation entre x et y puisque si x change y reste le même.

L’interprétation de ce coefficient r peut être assez difficile car pour une même valeur on peut avoir des répartitions très différentes et ne signifiant pas la

même chose, par exemple pour r = 0.82 :

En d’autres termes, un coefficient de corrélation seul n’a aucune valeur, il doit toujours être associé à sa représentation graphique avant d’en tirer une

conclusion.

Par contre on peut faire un test du coefficient de corrélation

Page 3: Chapitre III : Analyse bivariée et corrélation Modèle et ...

4) Test du coefficient de corrélation :

On pose 2 hypothèses :

Ho : = 0 : pas de relation

H1 : : relation entre X et Y.

On fait un test de student :

Rem : on ne peut faire ce test que si la distribution des points sur le graphique forme une ellipse.

Si on reprend notre exemple des ARNm et des protéines on a :

5) Exemple : les pandas :

On cherche à établir la corrélation entre le poids des pandas en fonction de l’altitude où ils vivent :

C’est un cas légérement différent de l’exemple des ARNm et des protéines car on est en présences de données groupé en intervalles.

Sur 200 pandas on obtient :

On note X la variable altitude et Y la variable poids. On note alors :

- Xi : p catégories x*

- Yi : q catégories y*

On calcule la covariance par :

Page 4: Chapitre III : Analyse bivariée et corrélation Modèle et ...

II) Modèle et régression linéaire :

1) Principe :

A partir du moment où on a réussit à déterminer qu’il y a une corrélation entre 2 variables X et Y on ne cherche plus cette fois à la quantifier mais à la

modéliser pour pouvoir faire des prédictions.

Pour illustrer cette modélisation on reprend notre exemple des ARNm et des protéines :

Par les biais expérimentaux les points obtenus ne suivent pas parfaitement une droite. Alors on trace nous même cette droite. Mais on se rend compte

qu’on peut en tracer plusieurs, on cherche alors a savoir laquelle est la plus en adéquation avec la corrélation entre les ARNm et les protéines. En

d’autres termes quel est le meilleur modèle ?.

On représente alors nos axes X et Y et les coordonnées des points xi et yi. Cependant on remarque que les points ne sont pas sur la courbe, on détermine

alors pour l’axe des y, les qui représentent les coordonnées que devrait avoir le point selon notre modèle (notre droite).

On peut donc écrire l’équation de la droite du modèle : = axi + b

Et on peut déterminer « l’erreur » de coordonnées

Si les erreurs sont nulles c’est que la droite passe parfaitement par les points. On utilise donc la valeur des ces erreurs pour choisir notre model. On

choisit la droite pour laquelle les erreurs sont les plus petites.

On veut minimiser la somme des erreurs, mais comme on a des erreurs positives est négatives on va plutôt chercher à minimiser la somme des erreurs

aux carré. Ces erreurs au carrée s’appelle la variance résiduelle.

2) La variance résiduelle :

Noté elle correspond à la sommes des erreurs au carré soit :

On rappel que l’équation d’une droite est donnée par y = ax + b

Ou a = la pente

Et b = l’ordonné à l’origine

Page 5: Chapitre III : Analyse bivariée et corrélation Modèle et ...

On cherche à minimiser . Pour savoir quand

est minimum, on calcul sa dérivée :

Page 6: Chapitre III : Analyse bivariée et corrélation Modèle et ...

Cela permet d’obtenir un intervalle de confiance de prédiction. Pour notre exemple on obtient alors :

On vérifie :

Page 7: Chapitre III : Analyse bivariée et corrélation Modèle et ...

3) Distribution des résidus :

La distribution des résidus peut s’observer de 2 manières :

- Soit par rapport à l’axe x et y

- Soit par rapport à leurs erreurs

Ces deux représentations sont évidement liées, et on observes plusieurs configuration possibles :

Premier cas :

La distribution est homogène par rapport à x et y. dans ce cas la les erreurs ne varient presque pas par rapport a x. c’est le cas parfait d’une

corrélation = homoscédasticité

Deuxième cas :

Dans ce cas ci, on observe que plus la valeur de x est grande plus la distribution des points devient hétérogène. En d’autre terme plus la valeur de x

augmente, plus la variation des erreurs est grande : hétéroscédasticité

Troisième cas :

Dans le cas où les résidus ne suivent visiblement pas une droite on dit que les résidus sont auto corrélés. Cela signifie que dans un intervalle donné

tous les points ont le même profil. Ici en 0 et 2 tous les résidus sont sous la droite, entre 2 et 7/7,5 tous les points sont au dessus de la droite.

Page 8: Chapitre III : Analyse bivariée et corrélation Modèle et ...

Quatrième cas :

Ici, la distribution suit l’homoscédasticité à l’exception de quelques résidus extrêmes. Dans cette situation, les points extrêmes ont tendances a

faire remonter légèrement la droite. Il faut alors savoir si ces valeurs extrêmes sont issues d’erreurs de manipulation/d’expérimentation et dans ce

cas là on peut les négliger, ou alors si il s’agit de cas particulier.

Ces points extrêmes doivent être interprétés biologiquement et non mathématiquement.

4) Intervalle de confiance :

On peut faire 3 intervalles de confiances :

- L’intervalle de confiance de la pente a

- L’intervalle de confiance de l’ordonnée à l’origine b

- Et un dernier intervalle de confiance qui est en fait un intervalle de confiance de prédiction.

Page 9: Chapitre III : Analyse bivariée et corrélation Modèle et ...

5) Les tests liés au modèle linéaire :

a) Test de la pente :

On peut comparer une pente d’une courbe obtenue à partir d’un échantillon à celle d’une courbe de référence, on a alors :

- Une pente â de l’échantillon

- Une pente γ de référence

On pose :

Ho : a = γ

H1 : a ≠ γ

On fait un test de student : tobs =

si tobs est « grand » on rejette H0 au risque alpha

si tobs est « petit » on rejette H1 au risque beta

b) Comparaison de 2 pente estimée â1 et â2

Ho : a1 = a2

H1 : a1 ≠ a2

On refait un test de student : tobs =

Avec : =