Le polycopié qui contient toutes les fiches pratiques suivantes

Fiche 1 – Estimation ponctuelle d'une moyenne et d'un écart-type, Intervalle de confiance

On dispose en général d'un échantillon X1 , ... , Xn prélevé dans une population pour laquelle la variable d'intérêt quantitative X a pour espérance (moyenne théorique) µ et variance 2 inconnues.

Règle pour l'estimation ponctuelle : Soit une variable d'intérêt X mesurée sur un échantillon de n individus,

● la moyenne est estimée par l'estimateur X = 1n∑i=1

n

X i

● la variance 2 est estimée par l'estimateur sX2 =

1n−1

∑i= 1

n

( X i− X )2

D'une réalisation à l'autre, les estimations ponctuelles vont variées d'autant plus que le nombre d'observations n est faible. Pour affiner l'estimation de ces paramètres, on détermine alors un intervalle de confiance dans lequel les valeurs réelles µ ou 2 ont une probabilité déterminée à l'avance de se trouver.Cet intervalle de confiance, noté IC, permet ainsi de prendre en compte la variabilité de l'estimation ponctuelle.

Propriétés de l'estimateur X

● cas 1 : n30 et la variable X suit une loi normale (fiche #Normalité)

■ Si 2 est connue, alors Zn=√ nX −μ

σ suit la loi normale centrée réduite

■ Si 2 est inconnue, alors T n=√ nX−μ

sX suit la loi de Student à n−1 degrés de

liberté.

● Cas 2 : Pour n30 (application du théorème limite central)

■ T n= √ nX−μ

sXapproche la loi normale centrée réduite

Propriété de l'estimateur s X2 dans le cas où la variable X suit une loi normale

■ n−1 s2

X

2 suit la loi du 2 à n-1 ddl.

Construction d'un intervalle de confiance pour la moyenne:

On recherche toutes les valeurs de µ pour lesquelles T n= √ nX−μ

sX soit compris entre tα /2 et t1-α /2

t1-α /2 est le quantile de la loi normale ou de la loi de student T à n-1 ddl pour laquelle P(T<t1-α /2 )=1-α/2 donc

P (tα /2 < T < t1-α /2)=1- α (par symétrie tα /2 =- t1-α /2 ).

On a alors l’intervalle de confiance à 1-α pour : X -t1-α/2 s X

√ n < µ < X +t1-α /2

s X

√ n

Pour = 5%, ce résultat signifie que "la vraie moyenne, μ", de la population a une probabilité de 95% d’être dans cet intervalle. On notera par commodité cet intervalle de confiance IC95. Construction d'un intervalle de confiance pour la variance :

On recherche toutes les valeurs possibles de 2 pour lesquelles n−1 s2

X

2 soit compris entre

2

2, n−1 et

2

1−

2, n− 1 (ici il n'y a pas symétrie des quantiles).

2

2, n− 1 est le quantile dans la table pour laquelle P(

n−1 s2X

2 < 2

2, n− 1) =

α2

donc

On a alors l’intervalle de confiance à 1-α pour 2 :

n−1 s2X /

2

1−

2, n−1 < 2 < n−1 s2

X /2

2, n−1

Exemple : Reprendre l'exercice 1 du TD 1 et en déduire un intervalle à 95% de la moyenne et de s X . On trouvera les quantiles de la loi de Student et de la loi du Chi-2 à l'aide des commandes suivantes :

> qchisq(0.975,39) [1] 58.12006 > qchisq(0.025,39) [1] 23.65432 > qt(0.975,39) [1] 2.022691

On peut retrouver ces résultats à l'aide de la commande t.test qui propose un test de Student univarié sur la moyenne ainsi qu'un intervalle de confiance pour la moyenne.

> t.test(poids)

One Sample t-test

data: poids t = 27.3169, df = 39, p-value < 2.2e-16 alternative hypothesis: true mean is not equal to 0 95 percent confidence interval: 99.7716 115.7284 sample estimates: mean of x 107.75

sample estimates:mean of x 177

Construction d'un intervalle de confiance d'une proportion

Si une population contient une proportion f d’individus possédant un caractère donné, l'estimateur de ce paramètre est la fréquence du caractère dans l'échantillon, noté f .

Propriété de f pour n >100 et 0,1< f <0,9

f approche la loi normale N(f, f 1− f

n)

Dans les autres cas, n<100 ou f < 0,1, il faut utiliser un modèle exact (binom.test dans R).

Propriété : Pour un échantillon tel que n >100 et n f >10 et n(1-f )>10 :

L’intervalle de confiance à 1-α d’une proportion est :

] f - u1-α /2 f 1−f n ; f + u1-α /2 f 1−f

n [

où u1-a /2 représente le quantile de la loi normale centrée réduite. Pour =5%, u1-a /2=1,96.

Fiche 2 Test de comparaison d'une moyenne à une valeur référence

Objectif : L'objectif est de comparer une moyenne à une valeur de référence. On qualifie un tel test de test de conformité.

Données : On dispose d'une variable quantitative X mesurée sur n individus.

Hypothèse nulle H 0 : « = 0 »

Conditions d’utilisation:

- Un échantillon de n individus indépendants- La variable suit une loi normale ou n >30.

Principe du test :Pour une population de moyenne et variance inconnue, nous avons déjà vu que si les conditions sont respectées :

T n=√nX −μ0

sX suit sous H 0 une loi de Student à n-1 ddl.

Test bilatéral: On teste H 0 : « = 0 » contre H 1 : « ≠ 0»

● si , ∣Tn∣< t1−α/2 (n−1 ) on accepte H 0

● sinon on rejette H 0 avec un risque de première espèce .

Test unilatéral: H 0 « µ>µ0 » contre H 1 « µ µ0»

● si T n > tα (n−1 ) , on accepte H 0

● sinon on rejette H 0 avec un risque de première espèce α.

Exemple : Reprendre l'Exercice 1 du TD2 et réaliser le test grâce à la commande t.test.

Tester si une fréquence est conforme à une fréquence attendue.

Le but est de savoir si un échantillon de fréquence observée f obs = cas favorables

total , estimateur

de f, appartient à une population de référence connue de fréquence f 0 ( H 0 vraie) ou à une autre population inconnue de fréquence f ≠ f 0 (H vraie).

Principe du test :

http://spiral.univ-lyon1.fr/mathsv/cours/stats/chap6/c6p4/c6p4.html#Anchor-56787

On calcule la statistique U=

(f obs− f 0 )

√ f o (1− f 0 )n

qui suit sous H 0 la loi normale centrée réduite.

On calcule alors la probabilité p-value d'observer une valeur supérieure ou égale sous H 0 (en valeur absolue).

Conditions d'utilisation : ● Le test est applicable si n f 0≥ 10 et n(1- f 0) ≥ 10 (approximation par la loi normale).

Si cette condition n'est pas vérifiée, on utilise un test exact (binom.test).● Les individus sont indépendants.

Test : On teste H 0 f = f 0 contre H f ≠ f 0 . ● Si ∣U∣< N 1−α/2 on accepte H 0 (où N p est le quantile d'ordre p de la loi normale centrée

réduite).● Sinon, on rejette H 0 avec un risque de première espèce p.

Exemple 1

Reprendre l'exercice 2 du TD2 et conclure quant à la toxicité de la solution injectée au risque 5%. Utiliser la commande prop.test et comparer avec la commande binom.test

Exemple 2: On observe le sexe de 10 bébés : M F M M F F F F M F. Cette répartition est-elle conforme avec l'hypothèse de répartition équilibrée des deux sexes.

Fiche 3 – Comparaison de deux variances : Test F

Objectif : L'hypothèse d'égalité des variances est indispensable pour tester l'égalité de deux moyennes avec le test t (#t - test). On souhaite donc tester l'égalité des variances de deux populations

Données : On dispose d'une variable quantitative X1 de variance 12 mesurée sur n1 individus

d'une population 1 et d'une variable quantitative X2 de variance 22 mesurée sur n2 individus d'une

population 2.

Hypothèse nulle H 0 : Les variances sont égales « 1 = 2 »

Conditions d’utilisation:- Deux populations de moyennes et variances inconnues.- Deux échantillons de n1 et n2 individus indépendants,- Les variables suivent des lois normales ou chacun des effectifs est supérieur à 30

Le quotient s1

2

s22 suit sous H 0 la loi de Fisher-Snedecor à n1-1 et n2-1 ddl

Test : On teste l’hypothèse H 0 ( 1² = 2²) contre H 1 ( 1² ≠ 2²)

■ si F

2 (n1-1,n2-1)<

s12

s22 < F1−

2 (n1-1,n2-1), on accepte H 0

■ sinon on rejette H 0 avec un risque de première espèce égal à .

Exemple : Récupérer le fichier « poulpe.csv » qui contient le poids de poulpes mâles et femelles. Pour cela, on utilise la commande read.table. > poulpe<-read.table("poulpe.csv",sep=";",header=T) >summary(poulpe)> boxplot(Poids~Sexe,data=poulpe)

On veut tester l'égalité des variances dans ces deux populations. Qu'en pensez-vous ? Utiliser la commande var.test pour tester l'égalité des variances dans ces deux populations :

> var.test(Poids~Sexe,conf.level=0.95,data=poulpe)

Fiche 4 : Test de comparaison de deux moyennes : t – test

Objectif : Comparer les moyennes obtenues dans deux populations.

Données : On dispose d'une variable quantitative X1 d'espérance 1 mesurée sur n1 individus d'une population 1 et d'une variable quantitative X2 d'espérance 2 mesurée sur n2 individus d'une population 2.

Hypothèse nulle H 0 : « 1 = 2 »

Conditions d’utilisation: ● Deux échantillons de n1 et n2 individus indépendants.● La variable suit une loi normale dans chaque population ou n1 et n2 >30 : fiche

« Normalité »● La variable a la même variance dans les deux populations : fiche « Test F »

Principe du test :

La variable d= x1− x2 a pour variance estimée sd2 =

n1 −1 s12 n2 −1 s2

2

n1n2 −2× 1

n1

1n2

.

Si les conditions sont respectées, la statistique T n = x1− x2

sd suit sous H 0 une loi de Student à

n1n2−2 ddl.

Test bilatéral: On teste H 0 : « 1 = 2 » contre H 1 : « 1 ≠ 2 »

● si ∣Tn∣ < t 1−

2(n1n2−2) , on accepte H 0


Test unilatéral: On teste H 0 : « 1 > 2 » contre H1 : « 1 2 »

● si T n < tα (n1n2−2), on accepte H 0


Exemple : Reprendre le fichier « poulpe.csv ». Tester l'égalité des moyennes à l'aide de la fonction t.test :

> t.test(Poids~Sexe,conf.level=0.95,var.equal=TRUE,data=poulpe) Peut-on considérer les variances égales ? Faire le test dans les deux cas en utilisant les options de la fonction t.test.

Fiche 5 –Test de conformité à une distribution : test du 2 d'adéquation

Objectif : On considère une variable X prenant k modalités, k > 2.

L'objectif du test est de vérifier que les modalités se distribuent suivant des probabilités attendues. On utilise un tel test en génétique par exemple pour vérifier :

● les lois de Mendel, (répartition 14

, 24

, 14

pour F2)

● le modèle de Hardy Weinberg. (répartition p12 , 2 p1 p2 , p2

2 ) .

Données : Les données sont regroupées dans un tableau de contingence de la forme :

Variable qualitative Modalité 1 Modalité 2 ....

effectif nobs1 nobs

2 ....

Conditions d'application : Les effectifs théoriques doivent être supérieurs à 5 ( nth eori ≥ 5).

Dans le cas contraire, on peut regrouper les classes les plus faibles, utiliser un test du 2 corrigé, utiliser le test exact de Fisher...

Hypothèse nulle : H 0 « Les fréquences observées sont conformes aux probabilités attendues ».

Principe du test :Le principe du test du χ2 est d’estimer à partir d’une loi de probabilité connue (ou estimée à partir de l'échantillon), les effectifs théoriques pour les différentes modalités du caractère étudié et les comparer aux effectifs observés dans un échantillon. Deux cas peuvent se présenter :

• soit la loi de probabilité est spécifiée a priori car elle résulte par exemple d’un modèle déterministe tel que la distribution mendélienne des caractères.

• soit la loi de probabilité théorique n’est pas connue a priori et elle est déduite des caractéristiques statistiques mesurées sur l’échantillon (estimation de p1 et p2 dans le cas du modèle de Hardy Weinberg).

Le test du χ2 consiste à mesurer l’écart qui existe entre la distribution théorique et la distribution

observée et à tester si cet écart est suffisamment faible pour être imputable aux fluctuations

d’échantillonnage.

● On calcule les effectifs théoriques nth eor1 , nth eor

2 ... attendus sous l'hypothèse où la

distribution est conforme à celle attendue.

● On calcule ensuite la statistique : 2 = ∑i=1

k nobsi −n th eor

i 2

n th eori

● 2 suit sous H 0 la loi du 2 à degrés de liberté. On rejette alors H 0 dans le cas où 2

dépasse la valeur seuil 21− (v).

● Le nombre de ddl est k − c, k représente le nombre de modalités et c celui des

contraintes.

■ Si la distribution théorique est entièrement connue a priori (lois mendeliennes), la

seule contrainte est que la somme des probabilités vaut 1, donc = k −1 .

■ Sinon, il faut estimer des probabilités sur l'échantillon et augmenter d'autant les

contraintes. Par exemple avec le modèle de Hardy Weinberg, la somme des

probabilités vaut 1 et il faut estimer p1 , soit c=2, donc = k −2 .

Test : On teste l’hypothèse H 0 (conforme à la distribution attendue)

-si 2< 21−(v), on accepte H 0

-sinon on rejette H 0 avec un risque de première espèce α,

Exemple : Reprendre l'exercice 4 du TD2 et calculer à la main la valeur de 2 dans ce cas. Comparer-le au quantile 2

1− 4−1 et conclure pour un test à 5%. Réaliser le test sous R avec la commande chisq.test.

Fiche 6 – Test du Chi2 d'indépendance

Objectif : Le test du χ2 est largement utilisé pour l'étude de l'indépendance entre deux caractères qualitatifs. La présentation des résultats se fait sous forme d'un tableau de contingence à deux entrées. Chaque entrée représente les modalités d'une des variables. On détermine alors le tableau attendu sous l'hypothèse d'indépendance.

Données : Deux variables qualitatives sont mesurées sur n individus puis présentées sous forme d'un tableau de contingence (tableau à deux entrées) :Par exemple :

tabacc présence absence totalan

présence

ce

absence

r total

Hypothèse nulle H 0 : Les deux caractères sont indépendants

Conditions d’utilisation: L' effectif théorique calculé sous l'hypothèse H 0 doit être supérieur à 5.

Principe du test : On calcule les effectifs théoriques sous l'hypothèse H 0 . Les effectifs marginaux (totaux à la marge en ligne ou en colonne) et fréquences marginales du tableau restent inchangés.

nth eorij =

nobsi⋅ ×nobs

⋅ j

navec ntheor

ij l'effectif théorique, nobs

i⋅ et nobs⋅ j les effectifs marginaux ligne et colonne,

n l'effectif total.

On calcule alors la statistique : 2 = ∑ij

nobsij −n th eor

ij 2

n th eorij

Sous H 0 , cette statistique suit la loi du 2 à v= (l-1)(c-1) ddl avec l le nombre de lignes et c le nombre de colonnes.

Test : On teste l’hypothèse H 0 “indépendance des deux caractères” contre H 1 “dépendance entre les deux caractères” :

-si 2 < 21− (v), on accepte H 0

-sinon on rejette H 0 avec un risque de première espèce α.

Exemple : Reprendre l'exercice 5 du TD2 et calculer à la main les valeurs de 2 dans chaque cas. Comparer-le au quantile 2

1− et conclure pour un test à 5%. On peut aussi réaliser le test sous R. Pour cela, on pourra utiliser les commandes suivantes, qui permettent de visionner les données et de réaliser le test :

>tab<-matrix(c(10,29,75,27),ncol=2)>rownames(tab)<-c("infection","pas d'infection")>colnames(tab)<-c("antibio","placebo")>par(mfrow=c(2,1))

>barplot(tab[1,],main="infection")

barplot(tab[2,],main="pas d'infection")

>resultat<-chisq.test(tab)

>resultat$res

Fiche 7 – Comparaison de deux moyennes appariées : t-test apparié

Objectif : Comparer les moyennes obtenues dans le cas où les observations sont appariées (avant-après sur un même individu, mesure par deux méthodes).

Chaque individu est décrit par un couple de variables X 1 , X 2 .

Données : On dispose de deux variables quantitatives X 1 et X 2 mesurées sur n individus d'une population.

X 1 X 2

ind 1 x11 x21

ind 2 x12 x22

Hypothèse nulle H 0 : « 1 = 2 »

Conditions d’utilisation: ● Les individus sont indépendants.● Les variables X 1 et X 2 suivent une loi normale ou n >30● Les variables ont la même variance

Principe du test :On construit une nouvelle variable Z = X 2 − X 1.

Si les conditions sont respectées, la variable T n = √nZsz

suit sous H 0 une loi de Student à n-1

ddl.

Test bilatéral: On teste H 0 : « 1 = 2 » contre H 1 : « 1 ≠ 2 »

● si ∣Tn∣ < t 1−

2, on accepte H 0

● sinon on rejette H 0 avec un risque de première espèce égal à .

Exemple

Reprendre l'exercice 6 du TD2 et comparer les moyennes avant et après traitement grâce à la fonction t.test et la commande suivante :

>t.test(valeur$avant,valeur$apres,alternative='twosided',conf.level=0.95,paired=TRUE)

Fiche 8 – Normalité d'une distribution

Objectif : La majorité des tests paramétriques s'appuie sur l'hypothèse de normalité de la variable étudiée X . Lorsque le nombre d'observations est suffisamment grand, le théorème limite central permet d'approcher la moyenne empirique par une loi normale. Cependant, lorsque le nombre d'observations n'est pas suffisant, il existe plusieurs méthodes de vérification. Elles ne sont pas entièrement satisfaisantes (faible puissance) notamment du fait des faibles effectifs souvent étudiés.On est donc conduit à croiser plusieurs approches, graphiques et tests, pour évaluer cette hypothèse.

Exemple 1 : Reprendre l'exemple des poulpes mâles et femelles. Discuter.

I) Représentations graphiques :

1. Symétrie de la distributionOn réalise ici une boîte à moustache (ou boxplot) de nos observations à l'aide de la comande boxplot. Ce graphique nous indique la position de la médiane dans l'intervalle inter-quartile, ainsi que la distribution des points extrémaux. Un boxplot asymétrique permet d'infirmer l'hypothèse de normalité des données.

2. Symétrie et unimodalité de la distributionPour plus de précisions, on réalise ici un histogramme. L'existence de deux « pics » ou une forte dissymétrie est un bon indice d'une non normalité.

3. Droite de HenryLa droite de Henry représente les quantiles ( xi ) de la loi empirique en fonction des quantiles de la loi normale centrée réduite (t i). Si la loi empirique suit une loi normale, les points sont alignés ( xi = t i + ). La fonction permettant cette représentation graphique est qqnorm.

II) Tests statistiques :

Il existe différents tests pour étudier la normalité : Test de Jarque Bera , Test d'adéquation du 2 , test de Lilliefor (> library(nortest) > lillie.test(X)), test de shapiro Wilks. La multitude des tests indique qu'aucun n'est entièrement satisfaisant. Nous nous limiterons au dernier parmi les plus utilisés.

● Test de Shapiro & Wilks :On retiendra que le test de Shapiro et Wilks porte sur la corrélation au carré qu’on voit sur un qqplot. La corrélation est toujours très forte, la question est toujours ”l’est-elle assez ?” La probabilité critique est la probabilité pour que la statistique soit inférieure ou égale à l’observation.

Exemple 1 -suite- : Reprendre l'exemple poulpe avec la variable Poids. Effectuer le test de Shapiro. Le résultat est le suivant :

> shapiro.test(data$Poids)

Shapiro-Wilk normality test

data: data$Poids W = 0.933, p-value = 0.0733

Le test n'est pas correct ici car cette variable dépend du sexe. Il faut donc tester la normalité pour chaque sous-population, sinon on réalise le test sur un mélange de deux distributions.

On teste la normalité pour chacune des populations à l'aide des commandes suivantes :

> data=read.table("poulpe.csv",header=T,sep=";") > x=data$Poids[data$Sexe=="Femelle"] > y=data$Poids[data$Sexe=="M\xe2le"] > shapiro.test(y)


data: y W = 0.935, p-value = 0.3238

> shapiro.test(x)


data: x W = 0.9711, p-value = 0.907

On remarque ici que les deux tests ont des p-valeurs supérieures à 5%. Peut-on conclure à la normalité des observations ? Aidez -vous des représentations graphiques.

Fiche 9 – Test du coefficient de corrélation

Soient (X,Y) un couple de variables quantitatives. La description de la liaison entre les deux variables se fait préalablement par un examen du nuage de points (xi,yi), i=1, ... n.

Si le nuage de points décrit une relation linéaire entre les deux variables, on peut calculer comme indicateur de la liaison linéaire entre les deux variables, le coefficient de corrélation de Pearson :

r= ∑ ( ( x i − x ) ( y i − y ) )

σ x σ y

Si la relation entre les variables n'est pas linéaire, il est possible d'utiliser un autre coefficient de corrélation (par exemple le coefficient de corrélation de Spearman basé sur les rangs des observations).

Données : Un couple de variables quantitatives :X Yx1 y1

x2 y2

Objectif : On veut tester si la liaison linéaire entre les variables est significative, c'est-à-dire si le coefficient de corrélation peut être considéré comme significativement non nul.

Conditions d'application : Elles reposent sur la normalité de chacune des variables X et Y.

Hypothèse nulle : H0 "le coefficient de corrélation de Pearson est nul" ou "Les variables X et Y ne sont pas corrélées linéairement".

Principe du test : Sous H 0 , la statistique r suit une loi tabulée à n-2 ddl. On construit alors une zone d'acceptation centrée sur 0.

Test : On teste H 0 « r= 0 » contre H « r ≠ 0 ». ● Si p >0,05, on accepte H 0 .● Si p <0,05, on rejette H 0 avec un risque de première espèce p.

Exemple : Sur un échantillon de 10 sujets d’âges différents, on a recueilli l'âge et la concentration sanguine du cholestérol (en g/L) de 10 individus :age (xi) 30 60 40 20 50 30 40 20 70 60gl (yi) 1.6 2.5 2.2 1.4 2.7 1.8 2.1 1.5 2.8 2.6

Ci-dessous les commandes R pour effectuer le test. Commenter la sortie graphique du logiciel et la réponse au test de corrélation. On pourra investiguer les autres méthodes (Spearman, Kendall), en changeant l'argument method dans la fonction cor.test,

> age<-c(30,60,40,20,50,30,40,20,70,60) > chol<-c(1.6,2.5,2.2,1.4,2.7,1.8,2.1,1.5,2.8,2.6)

> plot(chol,age) > cor.test(age,chol,method="pearson")

Pearson's product-moment correlation

data: age and chol t = 9.0714, df = 8, p-value = 1.748e-05 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: 0.8148247 0.9895142 sample estimates: cor 0.9546712

Fiche 10 – Régression linéaire simple

I. Introduction La régression linéaire simple s'applique à un ensemble d'observations ( x1, y1), (x2, y2), ... , (xn , yn) de couples de variables quantitatives. L'analyse peut se limiter à l'analyse des liaisons entre variables (corrélation linéaire ou non-linéaire), mais on recherche souvent à expliquer une des variables en fonction de l'autre.

On distingue alors la variable à expliquer Y (réponse) et les variables explicatives X i. Les variables explicatives peuvent être fixées par l'expérimentateur ou aléatoires. Dans tous les cas :

• la variable explicative X i est considérée comme fixe (ce n'est pas une variable aléatoire).• la variable réponse Y est considérée comme une variable aléatoire (loi normale le plus

souvent). • le rôle des variables n'est donc pas symétrique et le choix de Y est le plus souvent naturel.

L'objectif de la régression est de déterminer, si elle existe, une relation fonctionnelle entre la variable à expliquer Y et une ou plusieurs variables explicatives X1, X2 …

Données : Y X 1

individu 1 y1 x11

individu 2 y2 x12

Représentation graphique : La première étape est d'observer le nuage de point pour déceler une éventuelle relation fonctionnelle.

Exemple : Reprendre l'exemple du cholesterol. Existe-t'il un lien entre ces deux variables ? Ce lien est-il linéaire ?

II. Le modèle de régression linéaire simple

On utilisera une régression linéaire simple dans le cas où :■ la relation fonctionnelle peut être considérée comme linéaire entre Y et X

(observation du nuage de points),■ la corrélation est significativement différente de 0 (Fiche 9).

Dans le cas contraire, il n'existe pas de relation (linéaire) significative entre Y et X et l'utilisation d'un modèle de régression linéaire n'a aucun intérêt.

On réalisera donc toujours ces deux vérifications au préalable et dans l'ordre avant de se lancer dans une régression linéaire.

Dans de nombreux cas, la relation fonctionnelle entre Y et X ne peut pas être considérée comme linéaire :

● on peut soit revenir à un modèle linéaire par changement de variables, ● soit utiliser une régression non linéaire (non abordé).

a. Le modèle et les hypothèses

yi = α + β xi+ ε i avec ε i une variable aléatoire suivant une loi normale centrée N(0,σ²)

On suppose dans ce cas les choses suivantes :■ le lien entre les deux variables est linéaire,■ les variables ε i sont indépendantes identiquement distribuées de loi

N(0,σ²)

L'intérêt du modèle linéaire est sa simplicité et les différents outils statistiques qui s'y rattachent : diagnostic, intervalle de prédiction, test sur les coefficients …

b. Estimation des paramètres:Pour estimer les paramètres du modèle, on recherche dans une famille fixée de fonctions, la fonction f pour laquelle les yi sont les plus proches des f(xi). Dans le cas de la régression simple, f(x)= α + βx . La proximité se mesure en général comme une erreur quadratique moyenne :

Critère des moindres carrés = 1n∑i=1

n

y i − f x i 2

On parle alors de régression au sens des moindres carrés. Dans le cadre du modèle linéaire, on notera a, b, s² les estimations des paramètres α, β et σ² .La méthode des moindres carrées conduit à :

b = ∑ x i − x yi − y

∑ x i − x 2 , a = y - b x et s² = 1

n−2 ∑ y i −y i

2 .

Les différences entre les valeurs observées yi et les valeurs prédites y i par le modèle s'appellent les résidus, notés ei :

Résidus: ei= yi – a+b xi= yi - y i avec y i = a+b xi

Exemple : Reprendre l'exemple cholesterol et estimer les paramètres à la main et avec R grâce aux commandes suivantes :

> X<-cbind(chol,age)> cholesterol<-data.frame(X)> reg<-lm(chol~age,data=cholesterol)>summary(reg)Call: lm(formula = chol ~ age, data = cholesterol)

Residuals: Min 1Q Median 3Q Max -0.17826 -0.11141 -0.01304 0.03315 0.35217

Coefficients: Estimate Std. Error t value Pr(>|t|)

http://ljk.imag.fr/membres/Bernard.Ycart/smel/lexique/residu/residu.html

http://ljk.imag.fr/membres/Bernard.Ycart/smel/lexique/modele/modele.html

(Intercept) 0.923913 0.141793 6.516 0.000185 *** age 0.028478 0.003139 9.071 1.75e-05 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.1649 on 8 degrees of freedom Multiple R-squared: 0.9114, Adjusted R-squared: 0.9003 F-statistic: 82.29 on 1 and 8 DF, p-value: 1.748e-05

Commenter les résultats obtenus.

Illustration de la méthode des moindres carrés

c. Tests et intervalles de confiances : exemple des eucalyptus

On étudie toutes les possibilités du logiciel R et de la fonction lm dans le cas d'un modèle de régression simple. On dispose pour cela des données eucalyptus, qui contient la hauteur de 1429 eucalyptus (ht) en fonction de la circonférence à un mètre du sol (circ).

Réaliser et commenter les commandes suivantes du logiciel R :

Phase de pré-analyse>euca=read.table("eucalyptus.txt",header=T)

>plot(ht~circ,data=euca)>cor.test(euca$ht,euca$circ,method="pearson")

Réalisation du modèle de régression >reg=lm(ht~circ,data=euca)

Droite de régression et intervalle de confiance

>circ=seq(min(euca[,"circ"]),max(euca[,"circ"]),length=100)>grille<-data.frame(circ)>ICdte<-predict(reg,new=grille,interval="confidence",level=0.95)>matlines(grille$circ,cbind(ICdte),lty=c(1,2,2),col=1)

Représentation des résidus>res<-rstudent(reg)

>plot(res,pch=15,ylab=Résidus,ylim=c(-3,3))>abline(h=c(-2,0,2),lty=c(2,1,2)).

Intervalle de confiance des paramètres>seuil<-qt(0.975,df=reg$df.res)>beta0min<-coef(resume)[1,1]-seuil*coef(resume)[1,2]

>beta0max<-coef(resume)[1,1]+seuil*coef(resume)[1,2]>beta1min<-coef(resume)[2,1]-seuil*coef(resume)[2,2]>beta1max<-coef(resume)[2,1]+seuil*coef(resume)[2,2]

Fiche 11 – Validation du modèle de régression linéaire simple

On se place dans le cadre d'une relation linéaire entre deux variables (examen du nuage de points) et d'une liaison linéaire significative entre ces deux variables (coefficient de corrélation significativement non nul).

Les hypothèses du modèle de régression linéaire simple nécessaire à la construction des principaux tests statistiques (inférence) sont :

- l'indépendance des observations,- la distribution normale centrée de l'écart résiduel,- l'homoscédasticité, à savoir que l'écart résiduel suit la même loi indépendamment des

valeurs de xi ou y i.

Dans le cas où ces hypothèses sont vérifiées, il est possible de construire des intervalles de confiances pour les paramètres estimés, des intervalles de confiance pour la prédiction, comparer les modèles, ...

La vérification de ces hypohèses n'est pas toujours évidente. Il est préférable de croiser différentes méthodes, graphiques et tests, pour évaluer l'existence d'écarts aux hypothèses. Aucune méthode n'est entièrement satisfaisante.

1. Indépendance des résidus

Le problème d'indépendance est important, notamment dans le cas de séries chronologiques où nos observations sont rangées par ordre chronologique. Pour vérifier l'indépendance des observations, on va réaliser l'analyse de l'indépendance des résidus ei= yi – a+b xi= yi - y i .

La première méthode est l'observation graphique : On observe les résidus en fonction du temps (dans le cas des séries chronologiques), ou bien les résidus en fonction de la variable explicative. On observe ainsi l'ajustement du nuage de points par rapport à la droite de régression et on peut détecter des écarts éventuels, dus à l'apparition de tendances cycliques (saisons, cycles économiques,...), une relation non linéaire, une répartition non aléatoire des résidus (amplitude, signe).

On peut aussi réaliser un test de Durbin Watson grâce à la statistique ∑i= 2

n

e i −ei− 1 2

∑i=2

n

e i2

qui mesure

l'autocorrélation d'ordre 1 des résidus, c'est-à-dire une relation du type :

εi+1= ρ εi + τ avec τ ~N(0,σ²).

2. Homoscédasticité

Un des problèmes récurrents est l'existence d'une relation entre la variance des résidus et la valeur de y i ou celle de xi. la variance des résidus a parfois tendance à croître avec y i ou xi. On peut alors, pour vérifier l'hypothèse d'homoscédasticité, faire une observation graphique des résidus en

fonction des y i ou des xi . Les écarts ne doivent pas croître en fonction de y i ou xi mais toujours rester du même ordre de grandeur.

3. Normalité

La dernière hypothèse du modèle de régression simple est la normalité des résidus. Pour cela, on se reporte à la Fiche 8, que l'on applique à nos résidus ei.

Exemples : Reprendre l'exemple cholesterol puis l'exemple eucalyptus et vérifier les hypothèses du modèle de régression simple.

Fiche 12 – Analyse de variance à 1 facteur

Objectifs :Comparer les moyennes d'une variable quantitative Y en fonction d'un facteur. Estimer les effets de chaque modalité du facteur sur la valeur de la variable Y.

Les données :On dispose d'un tableau du type :

Y Facteury11 Ay12 A y11 Ay21 By22 B..... ...

où Y représente la colonne des observations Y et Facteur est une colonne déclarée en facteur. On appelle facteur une variable qualitative prenant plusieurs modalités dont on étudie l'influence sur la variable Y. Par exemple, le facteur peut être la variété, le dosage d'un apport nutritif, le type d'engrais, un traitement …

L'objectif est d'évaluer si le facteur influence significativement la variable Y.

Conditions d'utilisation (Voir Fiche 13) : ■ les observations sont indépendantes,■ la variable Y suit la loi normale au sein de chaque modalité,■ la variance de Y est la même pour toutes les modalités.

Hypothèse nulle : H 0 « les moyennes sont toutes égales » contre H « les moyennes ne sont pas toutes égales ».

Principe du test :La somme des carrés totale décompose en somme des carrés entre les groupes (ou expliqué par le modèle), et somme des carrés à l'intérieur des groupes (ou résiduelle) :

SCET = SCEB + SCEW

∑ik

y ik − y 2 = ∑ik

y i − y 2 + ∑ik

y ik − y i 2

On utilise l'écriture anglosaxonne avec :B pour between groups (entre groupes)W pour within group (intra groupe)

On obtient les différentes variances, ou carrés moyens, en divisant les sommes de carrés d'écart par leurs degrés de liberté :

CM T= SCET

n−1CM B =

SCEB

q−1CM W =

SCEW

n−q

avec n l'effectif total et qle nombre de modalités.

On montre alors que la statistique F = CM B

CM W suit la loi de Fisher à (q-1;n-q) ddl sous H0.

Test : On teste H 0 « les moyennes sont toutes égales » contre H « les moyennes ne sont pas toutes égales

■ si F< F1− (q-1,n-q), on accepte H 0

■ sinon on rejette H 0 avec un risque de première espèce égal à (ou p).

Estimation des effets

En présence d'un seul facteur, on peut écrire le modèle d'analyse de variance de la manière suivante :

yik = μ + αi + ε ik avec μ la moyenne générale de Yαi l'effet du la modalité i sur la moyenne εik variables aléatoires indépendantes suivant une loi normale centrée

N(0,σ²).

on considère que la variable Y suit pour chaque modalité i une loi normale N( μ + αi ,σ²).

estimation des paramètres du modèle:Les coefficients sont estimés en minimisant l'erreur quadratique moyenne :

Critère des moindres carrés = 1n

∑ik

y ik−yik 2 ,

et l'on obtient y ik = y i . Les différences entre les valeurs observées y ik et les valeurs prédites par le modèle notée y ik s'appellent les résidus, notés eik = y ik − y i .

Les estimations des coefficients sont :

• y= 1n ∑

ik

y ik pour μ

• y i = 1n i

∑k

y ik pour μi = μ + αi soit ai = y i − y pour αi

• s² = 1

n−q ∑ik

yik − yi 2 pour σ² avec q le nombre de modalités

Exemple : Cinq pièces sont prélevées au hasard dans la production de trois machines, A, B et C. Chacune des pièces est ensuite mesurée par un seul opérateur. Les mesures sont présentées dans le tableau ci-dessous:

facteur A A A A A B B B B B C C C C Cmesure 5 7 6 9 13 8 14 7 12 9 14 15 17 18 11

http://ljk.imag.fr/membres/Bernard.Ycart/smel/lexique/residu/residu.html

http://ljk.imag.fr/membres/Bernard.Ycart/smel/lexique/modele/modele.html

Fiche 13 – Validation du modèle d'analyse de variance

On rappelle le modèle d'analyse de variance :yik = μ + αi + ε ik avec μ la moyenne générale de Y

αi l'effet du la modalité i sur la moyenne εik variables aléatoires indépendantes suivant une loi normale centrée

N(0,σ²).

Ainsi on doit vérifier les trois hypothèses suivantes : indépendance, normalité, et homoscédasticité.

1. Indépendance

L'hypothèse principale du modèle d'analyse de variance est l'indépendance des données. Ne pas respecter cette propriété conduit à mesurer et tester autre chose que l'effet étudié, autant dire les données deviennent inexploitables. Pour vérifier l'indépendance des données, on pourra utiliser les techniques utilisées en régression linéaire simple (Fiche 11), à savoir l'analyse graphique des résidus du modèle.

2. Normalité

La décomposition de la variance est toujours valable, quelle que soit la distribution des variables étudiées. Cependant, lorsqu'on réalise le test final (test F), on admet la normalité des distributions (puisque le F est le rapport de deux khi-deux, qui sont des sommes de carrés de lois normales). L'ANOVA fait donc l'hypothèse de normalité. Elle est cependant assez robuste à la non normalité, ce qui permet de l'utiliser dans une grande variété de conditions.Pour vérifier la normalité des données de chaque modalités, on utilise la Fiche 8 sur la normalité.

3. Homoscédasticité

A l'opposé, l'ANOVA fait une autre hypothèse très forte et moins évidente. Il est en effet nécessaire que la variance dans les différents groupes soit la même. C'est l'hypothèse d'homoscedasticité. L'ANOVA y est sensible. Il est donc nécessaire de la tester avant toute utilisation.Pour cela, on doit vérifier que l'égalité des variances dans les différents groupes. On peut utliser le test de Bartlett. Exemple : Vérifier les hypothèses de l'analyse de variance dans l'exemple précédent.

Le polycopié qui contient toutes les fiches pratiques suivantes

Documents

Transcript of Le polycopié qui contient toutes les fiches pratiques suivantes