Travaux Dirig es de Statistique Premi ere Ann ee...Montrer que la corr elation de X et Y est nulle....

21
AgroParisTech, cursus IA Math´ ematiques Travaux Dirig´ es de Statistique Premi` ere Ann´ ee Equipe p´ edagogique : L. Bel, F. Cheysson, J. Giguelay, R. Jreich, S. Ouadah, M.Perrot-Dockes, L. Sansonnet, C. Vuillet 2017-2018

Transcript of Travaux Dirig es de Statistique Premi ere Ann ee...Montrer que la corr elation de X et Y est nulle....

Page 1: Travaux Dirig es de Statistique Premi ere Ann ee...Montrer que la corr elation de X et Y est nulle. X et Y sont-elles ind ependantes? Interpr eter. 4. Les graphiques ci-dessous repr

AgroParisTech, cursus IA

Mathematiques

Travaux Diriges de Statistique

Premiere Annee

Equipe pedagogique :

L. Bel, F. Cheysson, J. Giguelay, R. Jreich, S. Ouadah, M.Perrot-Dockes,L. Sansonnet, C. Vuillet

2017-2018

Page 2: Travaux Dirig es de Statistique Premi ere Ann ee...Montrer que la corr elation de X et Y est nulle. X et Y sont-elles ind ependantes? Interpr eter. 4. Les graphiques ci-dessous repr

Date COURS/TD Contenu Chapitre dulivre

Devoir

11 oct TD 1 Variables aleatoires Chapitre 7 Devoir 1 a rendreau TD 3

16 oct COURS 1 Presentation generale du cours + Estima-tion ponctuelle, estimation par intervalles

18 oct TD 2 Estimation de parametres : parametre, es-timation, estimateur, EQM, MV

Chapitre 3

25 oct TD 3 Estimation de parametres : parametre, es-timation, estimateur, EQM, MV

Chapitre 3 Devoir 2 a rendreau TD 6

30 oct COURS 2 Theorie des tests, tests sur un parametre

3 nov TD 4 Intervalle de confiance Chapitre 3

8 nov TD 5 Quizz1 : verification des connais-sances sur le Chapitre 3. Tests d’hy-potheses

Chapitre 3

21 nov COURS 3 Tests sur deux populations, tests du χ2

29 nov TD 6 Tests d’hypotheses, puissance Chapitre 4 Devoir 3 a rendreau TD 9

6 dec TD 7 Controle sur l’estimation et les testssur un parametre. Comparaison de 2populations.

Chapitre 5

9 dec TD 8 Tests du χ2 . Chapitre 6

13 dec TD 9 Regression lineaire. Pas de cours en amphisur ce sujet, la regression sera presentee enTD.

Chapitre 6

20 dec TD 10 Quizz 2 : verification des connais-sances sur les chapitre 4 et 5.Regression lineaire

Chapitre 6

10 jan TD 11 Regression lineaire Chapitre 6

25 janv Examenecrit

Seul document autorise : 1 feuille A4 ma-nuscrite recto-verso. Calculette fournie

Certains TD et devoirs necessitent de telecharger des fichiers de donnees. Ces fichiers (et d’autresdocuments lies au cours) sont disponibles sur le site ”Les cours en ligne d’AgroParisTech”http://tice.agroparistech.fr, rubrique ”Statistique Tronc commun 1ere Annee” dans l’UE SIMMde l’espace 1A Ing APT 2017-2018.

Le cours doit etre revu et les TD prepares avant la seance.Les devoirs sont a faire en binome. Pour chaque devoir, il doit y avoir un redacteur principal et unredacteur secondaire, chacun devant etre redacteur principal au moins une fois.En debut de TD5, et TD10, il y aura un quizz rapide (10mn), en debut de TD 7 un controle de 20mnavec deux petits exercices.Lors des quizz aucun document n’est autorise. La calculatrice peut etre autorisee ou interdite suivantles epreuves.

Controle des connaissances.La note de controle continu est la moyenne ponderee des notes de quizz Qi, i = 1, 2 du controle C, etdes devoirs Di, i = 1, 3.La note finale F du module est la moyenne de la note de l’examen (E), et de celle du contole continuavec un seuil eliminatoire applique a la note de l’examen :

F =E

2+Q1 +Q2

12+C

6+D1 +D2 +D3

18si E >= 6

F = E si E < 6

Page 3: Travaux Dirig es de Statistique Premi ere Ann ee...Montrer que la corr elation de X et Y est nulle. X et Y sont-elles ind ependantes? Interpr eter. 4. Les graphiques ci-dessous repr

Table des matieres

1 TD1 : Variables aleatoires, moments 21.1 Esperance et variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.2 Independance et correlation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.3 Controle qualite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.4 Transports . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.5 Devoir : Echantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2 TD2 : Estimation de parametres 52.1 Estimateurs du maximum de vraisemblance en modele gaussien . . . . . . . . . . . . . 52.2 Duree de vie (Examen janvier 2017 ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

3 TD3 : Estimation 63.1 Bassin versant (examen janvier 2016) . . . . . . . . . . . . . . . . . . . . . . . . . . . 63.2 Portees de chevreaux (examen janvier 2014) . . . . . . . . . . . . . . . . . . . . . . . . 63.3 Devoir : Evenements extremes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

4 TD 4 : Intervalle de confiance pour un parametre 84.1 Cidre doux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84.2 Bassin versant (suite) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84.3 Duree de vie(suite) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84.4 Portee de chevreaux (suite) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

5 TD5 : Tests d’hypotheses (1) 95.1 Amendements organiques urbains (examen janvier 2014) . . . . . . . . . . . . . . . . . 95.2 Contenance des yaourts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

6 TD 6 : Tests d’hypotheses (2) 106.1 Unites de refroidissement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106.2 Variabilite du poids de paquets de beurre . . . . . . . . . . . . . . . . . . . . . . . . . 106.3 Mesure de dioxyde d’azote (examen janvier 2017 ) . . . . . . . . . . . . . . . . . . . . 106.4 Devoir : Test de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

7 TD 7 : Tests d’hypotheses (3) 137.1 Moisissures (Examen 2015) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

8 TD 8 : Tests du χ2 d’independance et tests d’ajustement a une loi 148.1 Lezards (examen janvier 2016) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148.2 Moustiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

9 TD 9 et 10 : Regression (1 et 2) 159.1 Pollution et mortalite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

11 TD 11 : Regression (3) 1611.1 Tests de H0 = {b = 0} . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1611.2 Golfe du Lion (examen janvier 2016) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1611.3 Pieges . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

12 Erratum du livre 19

Page 4: Travaux Dirig es de Statistique Premi ere Ann ee...Montrer que la corr elation de X et Y est nulle. X et Y sont-elles ind ependantes? Interpr eter. 4. Les graphiques ci-dessous repr

1 TD1 : Variables aleatoires, moments

1.1 Esperance et variance

Les 3 figures ci-dessous donnent les representations graphiques de 3 echantillons de 50 observationspour des variables aleatoires independantes de meme loi. Pour chacun d’eux

1. dire s’il s’agit d’une variable continue ou discrete,

2. proposer (sans calculs) une valeur pour l’esperance et la variance de la variable aleatoire,

3. proposer une loi de probabilite pour la variable aleatoire.

1.2 Independance et correlation

1. Soit (X1, . . . , Xn), n variables aleatoires independantes de meme loi, d’esperance µ, de variance

σ2. Calculer l’esperance et la variance de la variable aleatoire Xn =1

n

n∑i=1

Xi.

2. Soit X et Y deux variables aleatoires independantes. Demontrer que leur correlation est nulle.

3. Soit X une variable aleatoire symetrique par rapport a 0 (la densite f de X verifie : f(−x) =f(x)). Soit Y = X2. Montrer que la correlation de X et Y est nulle. X et Y sont-ellesindependantes ? Interpreter.

4. Les graphiques ci-dessous representent 4 echantillons de 50 couples de variables aleatoires (X,Y ).Pour chacun d’eux proposer une valeur pour la correlation entre X et Y .

1.3 Controle qualite

Un produit manufacture est livre par lots de 1000. Un lot est livre aux clients s’il contient un minimumd’objets defectueux. Compte tenu des couts du controle de qualite, pour evaluer la qualite d’un loton effectue les tests sur un echantillon de 30 produits du lot, choisis avec remise ; le lot est alors livres’il y a au plus 3 objets defectueux parmi les 30 controles. Soit X le nombre d’objets defectueux dansl’echantillon. Supposons qu’un lot contienne 50 objets defectueux.

1. Donner la loi de X, son esperance et la probabilite que le lot soit accepte.

2. Peut-on utiliser l’approximation par une loi de Poisson ? Si oui recalculer la probabilite que lelot soit accepte.

2

Page 5: Travaux Dirig es de Statistique Premi ere Ann ee...Montrer que la corr elation de X et Y est nulle. X et Y sont-elles ind ependantes? Interpr eter. 4. Les graphiques ci-dessous repr

1.4 Transports

Un car effectue un ramassage quotidien pour une grande entreprise. La charge maximale autoriseeest de 3600 kg. On admet que le poids d’une personne suit une loi normale de moyenne 70 kg etd’ecart-type 20 kg.

1. 50 personnes (y compris le chauffeur) prennent place dans le car.

(a) Quelle est la loi du poids total des personnes transportees ?

(b) Calculer la probabilite pour que le poids total des personnes transportees depasse les3600 kg.

2. Donner le nombre maximal de personnes qui peuvent monter si on veut que la probabilite pourque leur poids total excede 3600 kg soit inferieure a 5 %.

1.5 Devoir : Echantillonnage

La constitution d’un echantillon est la premiere etape d’une analyse statistique. Il existe plusieursmethodes d’echantillonnage et le choix se fait en fonction des contraintes operationnelles et des objec-tifs de l’analyse. Le but de ce devoir est de se familiariser avec quelques methodes d’echantillonnageet de comparer leurs resultats sur un jeu de donnees.Les notions sont presentees dans le chapitre 2 du livre ”Statistique inferentielle”, (dont la lecture estindispensable) et en particulier l’exercice 2.6.3 (qu’il ne s’agit pas de refaire).Les donnees sont disponibles sur le site des ”Cours en ligne” d’AgroParisTech.

On cherche a estimer la surface moyenne en ble des exploitations agricoles d’une region. On a stratifiecette region avec la variable surface des exploitations decoupee en 7 classes : [0-20], [21-40], [41-60],[61-80], [81-100], [100-120],[>121]. Le tableau echBle.xls donne pour chaque exploitation la classe alaquelle elle appartient et sa surface cultivee en ble. On va constituer plusieurs echantillons de memeeffectif n = 100 a l’aide de differentes methodes d’echantillonnage puis comparer les surfaces moyennesdes echantillons a la surface moyenne de l’ensemble des exploitations.

1. Calculer la valeur moyenne et l’ecart-type de la surface cultivee en ble sur l’ensemble des exploi-tations et pour chacune des classes de taille (les strates). Verifier numeriquement la formule dela question 2 de l’exercice 2.6.3 et l’interpreter.

2. Tirer 100 exploitations au hasard dans l’ensemble des exploitations. C’est un echantillon aleatoiresimple. Calculer la moyenne des surfaces cultivees en ble de cet echantillon.

3. Decrire le principe de l’echantillonnage stratifie proportionnel. Donner pour chaque strate hla taille nh de l’echantillon issu de la strate necessaire pour obtenir un echantillon de taille100 suivant un echantillonnage stratifie proportionnel. Tirer un echantillon suivant ces effectifs.Calculer la moyenne des surfaces cultivees en ble de cet echantillon.

4. Decrire le principe de l’echantillonnage stratifie optimal. Donner pour chaque strate h la taillenh de l’echantillon issu de la strate necessaire pour obtenir un echantillon de taille 100 suivant unechantillonnage stratifie optimal. Tirer un echantillon suivant ces effectifs. Calculer la moyennedes surfaces cultivees en ble de cet echantillon.

5. Comparer et analyser les resultats.

Le devoir sera rendu sur feuille, avec les resultats theoriques (justifier les formules utilisees) etnumeriques (effectifs des strates, moyennes et ecarts-type, mais pas les echantillons !) et les conclu-sions redigees.Un tutoriel (TutorielStatistiqueDescriptiveEXCEL.pdf ) sur les fonctions de statistique descriptive(moyenne, ecart-type) et le tirage aleatoire d’un echantillon est disponible sur le site TICE.Le tableur ayant servi a etablir les resultats sera presente de la facon suivante :

3

Page 6: Travaux Dirig es de Statistique Premi ere Ann ee...Montrer que la corr elation de X et Y est nulle. X et Y sont-elles ind ependantes? Interpr eter. 4. Les graphiques ci-dessous repr

et depose sur le site TICE dans la rubrique Travaux dans le repertoire correspondant a votre groupeavec le nom suivant : groupeTDNom1Nom2.xls (par exemple A5DurandDupont.xls). Pour cela vousdevrez etre connecte avec vos identifiants AgroParisTech.

4

Page 7: Travaux Dirig es de Statistique Premi ere Ann ee...Montrer que la corr elation de X et Y est nulle. X et Y sont-elles ind ependantes? Interpr eter. 4. Les graphiques ci-dessous repr

2 TD2 : Estimation de parametres

2.1 Estimateurs du maximum de vraisemblance en modele gaussien

On considere n variables aleatoires (X1, X2, ...Xn) iid :Xi ∼ N (µ, σ2)

1. Calculer la vraisemblance de l’echantillon

2. Trouver les estimations µ et σ2 du maximum de vraisemblance de µ et de σ2. On annulera lesderivees partielles du logarithme de la vraisemblance par rapport a µ et σ2.

3. Calculer le biais des estimateurs de µ et σ2. Montrer que si on remplace µ par son estimateurempirique dans l’expression de l’estimateur σ2 celui ci est biaise. Proposer un estimateur sansbiais de σ2 qui ne depende pas de µ.

2.2 Duree de vie (Examen janvier 2017 )

La duree de vie en mois, a partir du moment ou la maladie se declare, d’un patient atteint d’un certaintype de cancer est modelisee par une variable aleatoire X qui suit une loi dont la densite dependantdu parametre θ > 0 est donnee par

fθ(x) =1

θe−x/θ x > 0

On a observe la duree de vie de n patients atteints de ce cancer.

1. Donner l’esperance et la variance de X (on pourra utiliser les resultats connus sur les lois expo-nentielles).

2. Calculer la vraisemblance et la log-vraisemblance de l’echantillon i.i.d. des variables (X1, . . . , Xn)des durees de vie des n patients. En deduire T l’estimateur du maximum de vraisemblance de θ.

3. Calculer l’esperance et la variance de T et en deduire ses proprietes (biais et EQM).

4. Calculer l’information de Fisher de θ. En deduire la loi approchee de T lorsque n est grand.

5

Page 8: Travaux Dirig es de Statistique Premi ere Ann ee...Montrer que la corr elation de X et Y est nulle. X et Y sont-elles ind ependantes? Interpr eter. 4. Les graphiques ci-dessous repr

3 TD3 : Estimation

3.1 Bassin versant (examen janvier 2016)

Pour verifier la qualite de l’eau dans plusieurs rivieres d’un meme bassin versant, on effectue 10prelevements en des sites differents. Sur ces 10 sites, les sites numerotes 1, 4, 7 et 8 ont un indicateurde pollution positif. On voudrait estimer la proportion de sites pollues dans ce bassin versant et evaluerl’incertitude de l’estimation. On suppose que tous les sites ont la meme probabilite d’etre pollues etqu’ils sont tous independants.

1. Soit p la probabilite qu’un site pris au hasard soit pollue. Soit Xi la variable aleatoire qui vaut1 si le site i est pollue, 0 sinon. Justifier l’expression suivante

P (Xi = xi) = pxi(1− p)1−xi xi ∈ {0, 1}

2. Calculer la vraisemblance et la log-vraisemblance d’un echantillon i.i.d. de variables (X1, . . . , Xn).En deduire l’estimateur du maximum de vraisemblance de p. Quelle est la probabilite estimeequ’un site pris au hasard dans le bassin versant soit pollue ?

3. Calculer l’esperance et la variance de l’estimateur du maximum de vraisemblance de p. Endeduire ses proprietes.

3.2 Portees de chevreaux (examen janvier 2014)

On s’interesse au nombre de petits obtenu par portee pour une race de chevres. On modelise ce

nombre par une loi de Poisson X de parametre λ. On rappelle que P (X = x) = e−λλx

x!et que

E(X) = V (X) = λ.On dispose d’un echantillon (x1, x2, ...xn), de n observations de l’effectif de portees que l’on supposeindependantes de meme loi de Poisson P(λ). On cherche l’estimateur du maximum de vraisemblancede λ.

1. Ecrire la vraisemblance de l’echantillon (x1, x2, ...xn), notee V (x1, x2, ...xn, λ).

2. En deduire l’estimateur du maximum de vraisemblance de λ, note Tn.

3. Calculer l’esperance et la variance de Tn. Commenter. La loi de Poisson est-elle adaptee pourcette modelisation ?

3.3 Devoir : Evenements extremes

On cherche a modeliser la distribution des pluies lors des episodes cevenols (fortes pluies dans lesCevennes). On note X la variable aleatoire mesurant le nombre de mm de pluie tombee en 24h. Soita un seuil (fixe en pratique a 200 mm). On dit qu’on a affaire a un episode cevenol si X ≥ a. Dans lasuite on ne s’interesse qu’aux episodes cevenols, c’est a dire que X ≥ a. On sait que les evenementsextremes peuvent etre modelises par plusieurs familles de loi de probabilite. Dans ce probleme, onconsidere la loi de Pareto. La densite de la loi de Pareto, pour un seuil fixe et connu a > 0, est :f(x, θ) = θaθx−θ−1 pour x ≥ a. θ est le parametre. Il est obligatoirement positif.

1. Verifier que f(x, θ) est une densite de probabilite (∫∞a f(x, θ)dx = 1).

2. Calculer E(X) pour θ > 1 et V (X) pour θ > 2.

3. Calculer P (X > x). Comment evolue cette probabilite en fonction de θ ?

4. Calculer ln(f(x, θ)), ∂(ln(f(x,θ)))∂θ et ∂2(ln(f(x,θ)))

∂2θ.

5. On a observe n episodes cevenols independants, d’ampleurs respectives x1, ...xn. On veut es-timer le parametre de la loi de Pareto. Exprimer la vraisemblance V (x1, ...xn, θ) puis la log-vraisemblance L(x1, ...xn, θ).

6. Trouver l’estimateur du maximum de vraisemblance de θ.

6

Page 9: Travaux Dirig es de Statistique Premi ere Ann ee...Montrer que la corr elation de X et Y est nulle. X et Y sont-elles ind ependantes? Interpr eter. 4. Les graphiques ci-dessous repr

7. Calculer l’information de Fisher pour une observation, I(θ), et l’information de Fisher pour lesn observations, In(θ).

8. Calculer la variance asymptotique de l’estimateur de θ pour n grand.

9. En deduire un intervalle de confiance asymptotique 1− α de θ.

10. On rappelle que a est fixe a 200mm. Le fichier cevenol.csv (a telecharger sur ”Les cours en ligned’AgroParisTech”) donne les valeurs de 100 episodes cevenols. Donner l’estimation de θ, uneestimation de l’ecart-type de l’estimateur et un intervalle de confiance a 95%.

11. Si la pluie depasse 500mm on s’attend a de gros degats. Estimer la probabilite de depasser500mm lors du prochain evenement.

12. Pour se premunir des degats occasionnes par les tres fortes pluies on realise des travaux d’infra-structure. Le cout de ces travaux devient prohibitif lorsque la hauteur de pluie contre laquelleon se premunit devient tres grande. Les decideurs ont choisi de se premunir contre une hauteurde pluie qui a une chance sur 100 d’etre depassee (pluie centennale). Donner une estimation etun intervalle de confiance a 95 % de cette hauteur de pluie.

7

Page 10: Travaux Dirig es de Statistique Premi ere Ann ee...Montrer que la corr elation de X et Y est nulle. X et Y sont-elles ind ependantes? Interpr eter. 4. Les graphiques ci-dessous repr

4 TD 4 : Intervalle de confiance pour un parametre

4.1 Cidre doux

On a mesure la quantite d’alcool totale (en g/L) contenue dans 10 cidres doux du marche. On supposeque la quantite d’alcool des cidres suit une distribution normale de moyenne µ et d’ecart-type σ. Onobtient les valeurs suivantes :

5.42 5.55 5.61 5.91 5.93 6.15 6.20 6.79 7.07 7.37

1. Donner une estimation de la quantite moyenne d’alcool et de son ecart-type.

2. Determiner l’intervalle de confiance de la moyenne µ avec un niveau de confiance 95% :

(a) en supposant que σ est connu, avec σ = 0.6g/L,

(b) lorsque σ est inconnu.

3. Determiner l’intervalle de confiance de la variance σ2 avec un niveau de confiance 95%

(a) en supposant que µ est connue avec µ = 6.2g/L,

(b) lorsque µ est inconnue.

On donne∑10

i=1 xi = 62,∑10

i=1 x2i = 388.41

4.2 Bassin versant (suite)

Soit Y (n, p) =∑n

i=1Xi. Quelle est la loi de Y (n, p) ? Calculer l’intervalle de confiance au niveau 90%sur p qu’on obtiendrait en approchant Y (n, p) par une loi normale. Commenter l’utilisation de cetteapproximation dans ce cas.

4.3 Duree de vie(suite)

1. On rappelle que la densite d’une loi du χ2 a 2 degres de liberte est g(z) =1

2e−

12zet que la somme

de deux variables independantes suivant une loi du χ2 suit une loi du χ2 de degre de libertela somme de leurs degres de liberte. Calculer la densite de probabilite de la variable 2X/θ, en

deduire la loi de 2X/θ et celle de2nT

θ.

2. Donner un intervalle de confiance au niveau 1− α pour θ en utilisant

(a) l’approximation normale

(b) la loi exacte donnee en 1)

3. Comparer les deux intervalles pour α = 0.05, lorsque x =1

n

∑ni=1 xi = 25 dans les cas ou n = 10

et n = 50.

4. Conclure.

4.4 Portee de chevreaux (suite)

On admet que pour n assez grand on a approximativement :(Tn − λ)√V (Tn)

∼ N (0, 1)

1. Montrer que la condition P( ∣∣∣∣∣(Tn − λ)√

V (Tn)

∣∣∣∣∣ < u)

= 1−α est equivalente a P(λ2−(2Tn+

u2

n)λ+T 2

n <

0)

= 1− α.

2. En deduire un intervalle de confiance a 1− α pour λ en fonction de λ, u et n.

3. Donner les valeurs de l’intervalle a 95% si pour 50 portees on a observe une moyenne de 2.5

chevreaux (on donne 2.5 +1.962

100= 2.54 et

1.96

2√

50

√1.962

50+ 10 = 0.44).

8

Page 11: Travaux Dirig es de Statistique Premi ere Ann ee...Montrer que la corr elation de X et Y est nulle. X et Y sont-elles ind ependantes? Interpr eter. 4. Les graphiques ci-dessous repr

5 TD5 : Tests d’hypotheses (1)

5.1 Amendements organiques urbains (examen janvier 2014)

Pour tenter de diminuer la pollution par les intrants, plusieurs agriculteurs d’une meme region utilisentsur diverses parcelles des amendements organiques d’origine urbaine. On evalue l’amelioration sur laqualite environnementale a l’aide d’un indice synthetique. La variation en pourcentage de cet indicepar rapport a l’annee precedente est mesuree sur 36 parcelles. L’amelioration moyenne observee estegale a 1.05%. On suppose que l’amelioration de l’indice peut etre modelisee par une loi normale d’ecart-type connu egal a 3% et que toutes les parcelles sont independantes.

1. Mettre en place un test au risque α pour decider si l’amelioration est significative, supposant qu’iln’y a pas d’amelioration a priori sauf si l’experience prouve le contraire. Expliciter l’hypothesenulle H0, l’hypothese alternative H1, donner la statistique de test utilisee, sa loi sous H0 et laregle de decision au niveau α.

2. Appliquer le test aux donnees ci-dessus. L’amelioration est-elle significative si on fait un testavec un risque de premiere espece de 5% ?

3. Calculer le risque de seconde espece et la puissance du test sous l’hypothese que l’ameliorationmoyenne est de 1.2%.

4. Combien de parcelles faudrait-il experimenter pour avoir un risque de premiere espece et unrisque de seconde espece egaux a 5% ?

5.2 Contenance des yaourts

Une grande marque de produits laitiers souhaite controler la contenance des yaourts d’une grandechaıne de production. Le processus de production est regle pour que la contenance nominale desyaourts soit de 150 mL, mais il peut se deregler. Ce controle a pour objectif de verifier que le processusde remplissage des yaourts de la ligne de production est bien regle. Pour controler la contenance desyaourts, on preleve un echantillon de 10 yaourts et on en mesure la contenance. Les contenancesmesurees sont les suivantes :

156.4 145.2 149 150 151 147 148.2 151.6 149.6 150

1. Donner une estimation de la moyenne et la variance de la contenance des yaourts.

2. On suppose la normalite de la distribution de la contenance, construire un test pour repondre ala question ”le processus de remplissage est-il deregle ?”

(a) poser l’hypothese nulle et l’hypothese alternative,

(b) donner la statistique de test et sa loi sous l’hypothese nulle,

(c) construire la region de rejet au risque α = 5%.

3. Peut-on affirmer que le processus est deregle ?

4. Calculer la probabilite critique de ce test.

9

Page 12: Travaux Dirig es de Statistique Premi ere Ann ee...Montrer que la corr elation de X et Y est nulle. X et Y sont-elles ind ependantes? Interpr eter. 4. Les graphiques ci-dessous repr

6 TD 6 : Tests d’hypotheses (2)

6.1 Unites de refroidissement

Une entreprise receptionne regulierement des livraisons d’unites de refroidissement qu’elle monte surdes refrigerateurs. Au cours des 18 derniers mois, seulement 2% de ces unites avaient des performancesinferieures aux normes, ce qui semble acceptable. Comme son fournisseur vient de changer de materielde production, l’entreprise s’inquiete d’une eventuelle baisse de la qualite. A priori, le responsablequalite fait confiance a son fournisseur, mais il veut verifier que cette confiance est justifiee. Aussi,dans la livraison suivante de 10000 pieces, il preleve au hasard un echantillon de 500 unites et entrouve 21 qui ne sont pas conformes aux normes.Decrire cette experience en termes de test d’hypothese. Donnez

1. le modele statistique de l’experience,

2. l’hypothese H0,

3. la statistique de test et la region de rejet pour un test de niveau 5%,

4. la probabilite critique du test,

5. la decision finale retenue par l’entreprise et ses consequences dans sa relation avec son fournisseur.

6.2 Variabilite du poids de paquets de beurre

Une machine remplit des paquets de beurre. Les paquets doivent peser 250 grammes et ne pas tropvarier autour de cette valeur. On admet que le poids d’un paquet choisi au hasard suit une loi normaled’esperance µ = 250 grammes et on voudrait verifier que l’ecart-type σ est bien egal a 5 grammes,comme l’affirme le fabriquant. Six paquets pris au hasard pesent :

243 255 242 245 261 254

1. Mettre en œuvre un test de niveau α pour repondre a la question : ” l’ecart-type des paquetsest-il egal a 5g ?”

2. Repondre a la question pour α = 5% et 10%.

6.3 Mesure de dioxyde d’azote (examen janvier 2017 )

On soupconne un capteur mesurant la concentration de dioxyde d’azote (NO2) d’etre deregle et dedonner des mesures tres variables. Pour le verifier on releve les mesures faites pendant une periodenon polluee de n = 15 jours ou la concentration en NO2 reste constante et on calcule la variancede cet echantillon. Le constructeur garantit en fonctionnement normal que l’ecart-type de la variablealeatoire X, mesure de la concentration d’un jour pris au hasard, est egal a σ0 = 10µg/m3.

1. On suppose que la mesure de la concentration un jour pris au hasard suit une loi normale.Construire le test sur la variance qui rejette l’hypothese selon laquelle le capteur est bien regle

quand la variance est trop elevee, au risque α. La variance empirique s2n =1

n− 1

n∑i=1

(xi − x)2

de l’echantillon est egale a 156.25. Peut-on affirmer que le capteur est trop variable au risqueα = 0.05 ?

2. (a) Calculer le risque de seconde espece β(σ1) quand on a pour hypothese alternative V (X) = σ21avec σ1 > σ0.

(b) En deduire la puissance du test lorsque σ1 = 12.5, 15, 17.5, et 20 µg/m3. Tracer la courbede puissance en fonction de σ1.

(c) Pour quelle valeur de σ1 a-t-on β(σ1) = α ?

(d) La courbe ci-dessous donne en fontion de n le rapport des quantiles d’une loi du χ2 a n− 1

degres de liberte, d’ordre α et 1− α :χ21−α(n− 1)

χ2α(n− 1)

.

10

Page 13: Travaux Dirig es de Statistique Premi ere Ann ee...Montrer que la corr elation de X et Y est nulle. X et Y sont-elles ind ependantes? Interpr eter. 4. Les graphiques ci-dessous repr

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

20 40 60 80 100 120 140

1.5

2.0

2.5

3.0

n

χ 1−α

2χ α2

Determiner graphiquement la valeur de n pour laquelle on a β(σ1) = α quand σ1 = 12.5.

(e) Interpreter et conclure.

6.4 Devoir : Test de Kolmogorov-Smirnov

Beaucoup de procedures statistiques sont basees sur une hypothese de loi sur les donnees. Pour etablirla validite des resultats obtenus il faut verifier l’hypothese formulee sur la loi. Le test d’adequationdu χ2 permet de proceder a cette verification, mais il est plus adapte aux lois discretes que continues,entre autres parce qu’il necessite un regroupement en classes, ce qui fait perdre de l’information.Le test de Kolmogorov-Smirnov (deux tres grands mathematiciens russes du 20eme siecle) est un destests d’adequation les plus populaires pour les lois continues. Ce test compare la distribution observeed’un echantillon statistique a une distribution theorique (de parametres supposes connus). Il est basesur la comparaison des fonctions de repartition.Mise en œuvre du test :

– Donnees : n observations (x1, ..., xn) d’une variable aleatoire X– Hypothese testee : H0=”La fonction de repartition de X est F”

1. On commence par donner une approximation Fn de la fonction de repartition F calculee a partirdes donnees. Pour cela– On ordonne les valeurs observees x(1) ≤ x(2) ≤ ... ≤ x(n) (x(i) est la ieme valeur, lorsque

l’echantillon est range en ordre croissant).– On pose Fn(x(1)) = 1/n, Fn(x(2)) = 2/n, ..., Fn(x(n)) = 1 ce qui definit la fonction Fn en

escalier :

∀t ∈ [x(i), x(i+1)[ Fn(t) =i

n; ∀t < x(1) Fn(t) = 0 ; ∀t > x(n) Fn(t) = 1

Fn est appelee fonction de repartition empirique.

(a) Expliquer, en revenant a la definition d’une fonction de repartition, pourquoi Fn est uneapproximation de F .

(b) Le fichier Kolmogorov.xls contient deux series d’echantillons de loi inconnue. En suivant lesindications donnees dans le fichier, recuperer les deux echantillons qui vous sont attribues.Pour chacun prendre successivement les 30, 50 puis 100 premieres valeurs, et tracer a chaquefois les fonctions de repartition empiriques.

(c) On considere l’hypothese H0 : ”la fonction de repartition de X est celle d’une loi N (0, 1).En utilisant la fonction LOI.NORMALE.STANDARD.N (voir le tutoriel LoideProba.pdf”)

11

Page 14: Travaux Dirig es de Statistique Premi ere Ann ee...Montrer que la corr elation de X et Y est nulle. X et Y sont-elles ind ependantes? Interpr eter. 4. Les graphiques ci-dessous repr

comparer graphiquement les fonctions de repartition empiriques et la fonction de repartitionsous H0. Commenter.

(d) Le graphique q-q plot est une autre facon de comparer les distributions. En abcisse on porte

les quantiles de probabilitei

nde la loi sous H0, en ordonnee les valeurs ordonnees x(1) ≤

x(2) ≤ ... ≤ x(n). Comment se presente le graphe si l’hypothese H0 est vraie ? Tracer les q-qplots pour chaque echantillon a l’aide de la fonction LOI.NORMALE.STANDARD.INVERSE.N.Commenter.

2. La comparaison entre la fonction de repartition empirique et la fonction de repartition theoriqueF0 (sous H0) est basee sur la quantite

Kn = supx|Fn(x)− F0(x)|

(a) Justifier ce choix.

(b) Demontrer que

∀t ∈ [x(i), x(i+1)[ on a |F (t)− Fn(t)| ≤ max[|Fn(x(i))− F (x(i))|, |Fn(x(i))− F (x(i+1))|

](c) En deduire

Kn = max0≤i≤n

{max

[| in− F (x(i))|, |

i

n− F (x(i+1))|

]}avec la convention F (x(0)) = 0 et F (x(n+1)) = 1.

(d) Calculer Kn pour chaque echantillon.

3. La loi de Kn sous H0 n’est pas explicite, mais elle peut etre approchee et tabulee. La feuilleTable du fichier Kolmogorov.xls donne pour differentes valeurs de n et differentes valeurs de αla valeur du quantile qn,1−α tel que P(Kn < qn,1−α) = 1− α.

(a) Construire la region de rejet du test pour n ∈ {30, 50, 100}.(b) Donner la probabilite critique obtenue pour les tous echantillons traites.

(c) Donner la conclusion pour chaque echantillon.

12

Page 15: Travaux Dirig es de Statistique Premi ere Ann ee...Montrer que la corr elation de X et Y est nulle. X et Y sont-elles ind ependantes? Interpr eter. 4. Les graphiques ci-dessous repr

7 TD 7 : Tests d’hypotheses (3)

7.1 Moisissures (Examen 2015)

On etudie l’influence du magnesium sur la croissance d’une moisissure. On procede a deux experiencesdistinctes :

Experience 1 On cultive la moisissure dans 20 boites, on injecte une dose de 5mg dans 10 boites etune dose de 10mg dans les 10 autres boites. La croissance moyenne dans les 10 premieres boitesest de 1.03 µm avec une variance de 0.05 µm2, la croissance moyenne dans les 10 dernieres boitesest de 1.12 µm avec une variance de 0.1 µm2.

Experience 2 On cultive les moisissures dans 10 boites, puis on separe chaque boite en deux. Dansune partie on injecte 5mg de magnesium, dans l’autre partie 10mg de magnesium. La differencemoyenne est egale a 0.08 µm et la variance de la difference est egale a 0.02 µm2.

1. Expliquer la difference entre les deux experiences.

2. Pour chaque experience mettre en œuvre un test au rique de 5% pour l’egalite des croissancesmoyennes.

3. Donner les conclusions des deux tests.

4. Les deux tests menent-ils a la meme conclusion ? Commenter.

13

Page 16: Travaux Dirig es de Statistique Premi ere Ann ee...Montrer que la corr elation de X et Y est nulle. X et Y sont-elles ind ependantes? Interpr eter. 4. Les graphiques ci-dessous repr

8 TD 8 : Tests du χ2 d’independance et tests d’ajustement a une loi

8.1 Lezards (examen janvier 2016)

On s’interesse au nombre d’especes de lezards presentes sur 52 iles de petite superficie dans une regiontropicale. Certaines de ces iles sont montagneuses, les autres non et on souhaite comparer les deuxtypes de relief. On dispose des observations suivantes

nombre nombre moyen Variance du nombre nombre d’ıles avec k especesrelief d’ıles d’especes par ıle d’especes par ıle k=0 ou 1 k=2 k=3 k=4 ou plus

montagne 21 3.4 2.55 2 3 7 9

plaine 31 2.0 1.67 11 10 6 4

Nombre moyen : x =1

n

∑ni=1 xi variance : s2 =

1

n− 1

∑ni=1(xi − x)2

1. On suppose que le nombre d’especes sur une ile suit une loi normale. Faire un test de comparaisondes moyennes sur les iles montagneuses et les iles de plaine au risque 5%, en precisant toutes lesetapes.

2. Discuter qualitativement de la validite de l’hypothese de normalite.

3. Pour evaluer l’influence du relief sur le nombre d’especes on effectue maintenant un test du χ2

d’independance des caracteres relief et nombre d’especes. Decrire le test : hypotheses, statistiquede test D2, region de rejet.

4. Donner les effectifs theoriques sous l’hypothese nulle lorsque k = 3 pour les iles montagneuses etles iles de plaine. On donne d2 = 10.46. Peut-on conclure a une influence du relief sur la diversitedes lezards, avec un risque de 5% ?

8.2 Moustiques

Dans une etude sur un repulsif de moustiques, on a compte le nombre de piqures de chaque personnea partir d’un echantillon de 150 personnes. On a obtenu les donnees du tableau suivant :

Nombre de piqures 0 1 2 3 4 5 6 > 6

Nombre d’individus de l’echantillon 32 54 34 21 6 2 1 0

Peut-on accepter l’hypothese que le nombre de piqures pour une personne est une variable aleatoiredistribuee selon une loi de Poisson ?

14

Page 17: Travaux Dirig es de Statistique Premi ere Ann ee...Montrer que la corr elation de X et Y est nulle. X et Y sont-elles ind ependantes? Interpr eter. 4. Les graphiques ci-dessous repr

9 TD 9 et 10 : Regression (1 et 2)

9.1 Pollution et mortalite

On cherche a connaitre l’effet de la pollution sur la sante. Un jeu de donnees tres connu sur le sujet aete reuni par McDonald, G.C. and Schwing, R.C. en 1973 (Cf http://lib.stat.cmu.edu/datasets/pollution). Ils ont etabli un indice de pollution en SO2 et le taux de mortalite pour 100 000 habitantspour 60 annees.Les donnees sont representees dans le graphe ci-dessous.

On appelleX, la variable ”indice de SO2”, Y la variable ”taux de mortalite”, et (x1, . . . , xn), (y1, . . . , yn)les echantillons associes.On a x = 53.77, y = 940.36, s2x = 4018.35 s2y = 3869.62, cov(x, y) = 1679.42

1. Ecrire le modele associe a la regression du taux de mortalite sur le SO2, et rappeler les hypothesesassociees.

2. Donner les estimateurs, et calculer les estimations des coefficients de la regression.

3. Soit yi, la prediction donnee par le modele pour l’observation i. On donne∑60

i=1(yi − yi)2 =186896.2. Donner l’estimateur et une estimation de la variance de l’erreur. Quelle est la loi del’estimateur ? Donner un intervalle de confiance a 95% de l’ecart-type de l’erreur.

4. Donner la loi des estimateurs des coefficients. Calculer les intervalles de confiance a 95 %.Testerleur nullite, au niveau 5%. Donner les p-valeurs des tests. Interpreter.

5. Calculer la somme des carres totale, la somme des carres residuelle, et la somme des carresexpliquee par le modele. En deduire le coefficient de determination. Commenter.

6. On donne x = 100, donner une prediction du taux de mortalite et du taux de mortalite attendu(en esperance) avec leurs intervalles de confiance. Calculer les memes quantites pour x = 250 etinterpreter.

7. Commenter les deux graphiques ci-dessous

15

Page 18: Travaux Dirig es de Statistique Premi ere Ann ee...Montrer que la corr elation de X et Y est nulle. X et Y sont-elles ind ependantes? Interpr eter. 4. Les graphiques ci-dessous repr

11 TD 11 : Regression (3)

11.1 Tests de H0 = {b = 0}

On considere le modele de la regression simple avec les notations usuelles. Il existe deux tests del’hypothese H0 = {b = 0}, le test de Student § 6.2.5, p 109 et le test de Fisher, § 6.2.6 p 111. En faitces deux tests sont strictement equivalents. Le but de cet exercice est de le demontrer.

1. Soit T une variable aleatoire distribuee selon une loi de student a υ degres de liberte. En utilisantles definitions des lois de Student et de Fisher, demontrer que T 2 est distribuee selon une loi deFisher a 1 et υ degres de liberte.

2. Trouver dans les tables les quantiles t10,0.975 et f1,10,0.95. Quelle relation y–a-t-il entre ces deuxvaleurs ? Pourquoi ?

3. Demontrer que

(B

SB

)2

= (n− 2)R2

1−R2

4. Conclure sur l’equivalence entre les deux tests de H0 = {b = 0}.

11.2 Golfe du Lion (examen janvier 2016)

On etudie le lien entre la hauteur significative (Hs) maximale des vagues et la bathymetrie (la profon-deur). Le graphique ci-dessous represente la hauteur des vagues en fonction de la bathymetrie pour25 sites dans le Golfe du Lion ou l’on a fait des mesures.

●●

0 500 1000 1500 2000

23

45

6

Hauteur en fonction de la bathymétrie

bathymetrie (m)

Hs(

m)

●●

4 5 6 7

−1.

5−

1.0

−0.

50.

00.

51.

0

Graphique des résidus

valeurs prédites

rési

dus

1. Ecrire le modele de regression lineaire simple entre la hauteur significative et la bathymetrie, etpreciser toutes les hypotheses.

2. L’estimation du coefficient de pente donne b = 0.002 avec un ecart-type σb

= 0.0002 et uneordonnee a l’origine a = 3.2 avec un ecart-type σa = 0.17. Le coefficient de pente est-il significa-tivement non nul ?

3. On donne la somme des carres totale SCT = 44.11 et la somme des carres residuelle SCR =12.05. En deduire une estimation de l’ecart-type d’erreur, ainsi que le coefficient de determination.Commenter.

4. Commenter le graphique des residus.

5. Donner une prediction de la hauteur significative des vagues en un site ou la bathymetrie est de1800m.

6. On considere maintenant le modele de regression lineaire simple entre la hauteur significative etle log de la bathymetrie. Le graphique ci-dessous donne pour les 25 sites la hauteur significativemaximale en fonction du log de la bathymetrie.

16

Page 19: Travaux Dirig es de Statistique Premi ere Ann ee...Montrer que la corr elation de X et Y est nulle. X et Y sont-elles ind ependantes? Interpr eter. 4. Les graphiques ci-dessous repr

●●

2 3 4 5 6 7

23

45

6

Hauteur en fonction de la log−bathymétrie

log(bathymetrie)

Hs(

m)

● ●

●● ●

3 4 5 6

−1.

0−

0.5

0.0

0.5

Graphique des résidus

valeurs prédites

rési

dus

On a alors b = 0.72, a = 0.70 et SCR = 5.2. Calculer le nouveau coefficient de determination etla nouvelle prediction pour une bathymetrie de 1800m. Comparer avec les resultats precedentset commenter.

11.3 Pieges

Cet exercice a pour but de mettre en evidence les dangers d’une confiance trop grande dans un modeleet d’une analyse baclee. On considere les graphiques (x,y) et les graphiques des residus dans 5 cas.Dans ces 5 cas, les statistiques standard de la regression (estimation des parametres, intervalles deconfiance, R2 et tests d’hypotheses) sont exactement identiques. Explicitez en quelques phrases lasituation dans chaque cas. Que doit-on faire pour se proteger contre de fausses interpretations ?

17

Page 20: Travaux Dirig es de Statistique Premi ere Ann ee...Montrer que la corr elation de X et Y est nulle. X et Y sont-elles ind ependantes? Interpr eter. 4. Les graphiques ci-dessous repr

18

Page 21: Travaux Dirig es de Statistique Premi ere Ann ee...Montrer que la corr elation de X et Y est nulle. X et Y sont-elles ind ependantes? Interpr eter. 4. Les graphiques ci-dessous repr

12 Erratum du livre

– page 47, precision sur comment calculer simplement l’information de Fisher, dans le cas d’unevariable X continue et de la formule avec la derivee seconde. Soit fθ(x) la densite. On calcule

g(x) = ∂2

∂θ2lnfθ(x), alors I(θ) = −E[g(X)]. On a le meme type d’ecriture avec la formule obtenue

avec la derivee premiere de lnfθ. Dans le cas d’une variable discrete, remplacer lnfθ(x) par lnPθ(X =x).

– page 48, ajouter apres la septieme ligne, ce qui implique que la loi de√n(Tmvn − θ) peut-etre ap-

prochee, pour n grand, par une loi normale N(0, I−1(θ)).– Page 48, paragraphe 3.2.2 apres (en general ce systeme n’est pas lineaire) ajouter la phrase suivante :

Dans le cas particulier ou les parametres du modele sont la moyenne et la variance, l’estimateur deµ par la methode des moments est X et l’estimateur de la variance σ2 par la methode des momentsest la variance empirique, 1

nΣni=1(Xi −X)2.

– Page 53, a la septieme ligne du paragraphe 3.3.6, remplacer intervalle de probabilite par intervallede confiance.

– Page 61, au A§ 3.5.4 : remplacer X suit une loi binomiale B(n, p) par X suit une loi binomialeB(n, π).

– Page 70, sept lignes avant la fin, remplacer l = u1−α/2 par l = u1−α/2 ∗ σ/√n.

– Page 73, remplacer la formule de la ligne 4 par

X − µ0S/√n< −tn−1;1−α

remplacer la formule de la ligne 6 par

X < µ0 − tn−1;1−αS√n

– Page 91, en haut de la page 91, remplacer le premier alinea par :Par definition du protocole experimental, le nombre de variables (Xi, i = 1, n) est egal au nombrede variables (Yi, i = 1, n). Le modele porte uniquement sur les differences entre les mesures de Xet de Y pour une meme unite experimentale i. Pour tout i, Di = Xi − Yi ∼ N(µ1 − µ2, σ2d) et lesvariables Di sont iid.

– Page 96, ligne 14, remplacer ”refusee” par ”encore acceptee”.– Page 146, dans la figure, la loi hypergeometrique est notee H(A,N, n), alors que la notation utilisee

page 138 est H(n,m, k). La correspondance entre les 2 notations est la suivante : A = k, N = m etn = n.

19