Travaux dirigés de statistiques S4-SV SVNTravaux dirigés de statistiques S4-SV SVN 1 Statistique...

11
1. STATISTIQUE DESCRIPTIVE A.Mizrahi Travaux dirigés de statistiques S4-SV SVN 1 Statistique descriptive Exercice 1 : On considère la série suivante (1, 0, 2, 1, 1, 0, 1, 0, 0) . 1. Calculer sa moyenne et sa variance empiriques. 2. Représenter la courbe des fréquences cumulées. 3. Déterminer médiane, premier et troisième quartile, ainsi que le mode. 4. Représenter la boite à moustache de la série. 5. Calculer le coefficient de Fischer. 6. Même question avec la série :(1, 2, 3, 4, 5, 5, 5, 5, 10 ). Exercice 2 : 1. Déterminer une série de cinq entiers dont la moyenne vaut 10 et la médiane 12. 2. Déterminer une série de cinq entiers dont la moyenne vaut 10 et la médiane 8. 3. Déterminer une série de cinq entiers dont la moyenne vaut 10 et l’écart type vaut 2. Exercice 3 : Lors d’une étude sur le grand corègone on a mesuré la longueur totale du corps en mm de 756 poissons. 1. Représenter la courbe des fréquences cumulées. 2. Représenter les données sous forme d’un histogramme. 3. Proposer deux histogrammes dont les classes ont au moins 50 membres. taille [270;290[ [290;310[ [310;330[ [330;350[ [350;370[ [370;390[ [390;410[ effectif 2 6 7 13 28 38 110 taille [410;430[ [430;450[ [450;470[ [470;490[ [490;510[ [510;530[ [530;600[ effectif 242 184 86 25 10 2 3 Exercice 4 : Montrer que si une série de réels est symétrique par rapport à un réel s, alors sa moyenne est égale à s, de plus c’est une médiane de la série. Exercice 5 : Les mesures journalières de la température à Rennes du premier juin 2001 au 30 septembre 2001, relevée à midi donne la boite à moustache suivante, la moyenne de ces températures est égale à 21,5 degré. : Université de Cergy Pontoise 1 2009-2010

Transcript of Travaux dirigés de statistiques S4-SV SVNTravaux dirigés de statistiques S4-SV SVN 1 Statistique...

Page 1: Travaux dirigés de statistiques S4-SV SVNTravaux dirigés de statistiques S4-SV SVN 1 Statistique descriptive Exercice 1 : On considère la série suivante (1, 0, 2, 1, 1, 0, 1, 0,

1. STATISTIQUE DESCRIPTIVE A.Mizrahi

Travaux dirigés de statistiques S4-SV SVN

1 Statistique descriptive

Exercice 1 : On considère la série suivante (1, 0, 2, 1, 1, 0, 1, 0, 0) .1. Calculer sa moyenne et sa variance empiriques.2. Représenter la courbe des fréquences cumulées.3. Déterminer médiane, premier et troisième quartile, ainsi que le mode.4. Représenter la boite à moustache de la série.5. Calculer le coefficient de Fischer.6. Même question avec la série :(1, 2, 3, 4, 5, 5, 5, 5, 10 ).

Exercice 2 :1. Déterminer une série de cinq entiers dont la moyenne vaut 10 et la médiane 12.2. Déterminer une série de cinq entiers dont la moyenne vaut 10 et la médiane 8.3. Déterminer une série de cinq entiers dont la moyenne vaut 10 et l’écart type vaut 2.

Exercice 3 :Lors d’une étude sur le grand corègone on a mesuré la longueur

totale du corps en mm de 756 poissons.1. Représenter la courbe des fréquences cumulées.

2. Représenter les données sous forme d’un histogramme.

3. Proposer deux histogrammes dont les classes ont au moins 50membres.

taille [270;290[ [290;310[ [310;330[ [330;350[ [350;370[ [370;390[ [390;410[effectif 2 6 7 13 28 38 110taille [410;430[ [430;450[ [450;470[ [470;490[ [490;510[ [510;530[ [530;600[

effectif 242 184 86 25 10 2 3

Exercice 4 : Montrer que si une série de réels est symétrique par rapport à un réel s, alors sa moyenne est égale às, de plus c’est une médiane de la série.

Exercice 5 :Les mesures journalières de la température à Rennes du premier juin 2001 au 30 septembre 2001, relevée à

midi donne la boite à moustache suivante, la moyenne de ces températures est égale à 21,5 degré. :

Université de Cergy Pontoise 1 2009-2010

Page 2: Travaux dirigés de statistiques S4-SV SVNTravaux dirigés de statistiques S4-SV SVN 1 Statistique descriptive Exercice 1 : On considère la série suivante (1, 0, 2, 1, 1, 0, 1, 0,

1. STATISTIQUE DESCRIPTIVE A.Mizrahi

1. La médiane et la moyenne sont-elles différentes?2. La distribution est-elle symétrique?3. Quelle a été la valeur la plus basse observée? et la plus haute?

Exercice 6 : En utilisant le diagramme en bâtons ci dessous représentant le nombre d’enfants de 400 familles deSusurre, répondre aux questions :

1. Calculer le nombre moyen d’enfants par famille.2. Calculer la nombre médian d’enfants par famille.3. Calculer la variance du nombre d’enfants par famille.

Exercice 7 : En utilisant le diagramme en bâtons ci dessus représentant la Cholestérolémie en g/l dans un échan-tillon de 113 patients:

1. Calculer le taux moyen de cholestérol dans l’échantillon.2. Représenter la courbe cumulative des fréquence.3. Déterminer médiane, quartile, écart inter-quartile.4. Représenter la boite à moustache correspondante.

Exercice 8 : La Fréquence Cardiaque Maximum , notée FCM, est un paramètre essentiel pour permettre au coureurde fond d’élaborer des plans d’entraînement efficaces. Cette fréquence peut se mesurer, soit en laboratoire sur tapisroulant, soit sur le terrain à l’aide d’un cardio-fréquencemètre.

Une étude a été faite auprès de 13 hommes s’entraînant régulièrement (2 à 4 fois par semaine), et participant à depetites compétitions. On a mesuré leur fréquence cardiaque maximum. On souhaite étudier une relation éventuelleentre l’âge d’un individu et sa fréquence cardiaque maximum. Voici pour chaque individu son âge et sa fréquencecardiaque maximum.

Age 40 36 51 49 47 51 32 55 55 23 49 52 35FCM 187 195 180 190 185 183 195 185 189 201 189 185 195

1. Tracer le nuage de points, avec l’âge en abscisse et la FCM en ordonnée.2. Calculer le coefficient de corrélation linéaire entre la variable âge et la variable FCM. Que constatez-vous?

Peut-on dire que la fréquence cardiaque est fortement corrélée à l’âge des sportifs?3. Calculer l’équation de la droite de régression linéaire. Tracer cette droite sur le même graphe que le nuage

de points.4. Utiliser cette relation pour donner une estimation de votre FCM.5. Peter Snell (Nouvelle-Zelande) a été 6 fois recordman du monde en demi- fond, du 800m au mile (1609m),

à l’âge de 26 ans. A l’époque, sa FCM était de 192. Placer ce point sur le graphique. D’après la droite derégression, quelle FCM "devrait-il" avoir à son âge? Commenter.

Université de Cergy Pontoise 2 2009-2010

Page 3: Travaux dirigés de statistiques S4-SV SVNTravaux dirigés de statistiques S4-SV SVN 1 Statistique descriptive Exercice 1 : On considère la série suivante (1, 0, 2, 1, 1, 0, 1, 0,

2. CONVERGENCE DES SUITES DE VARIABLES ALÉATOIRES A.Mizrahi

Exercice 9 : On a relevé la production de bière alsacienne et le nombre de licences sportives des fédérationsfrançaises entre 1960 et 1995.

Années Nombre de licences Production de bière en Belgique(en milliers) (en millions d’hectolitres)

1960 1640 3,31960 1640 3,31965 2220 41970 3240 5,61975 4620 81980 6300 9,61985 8340 10,21990 8980 11,31995 9210 11,2

Calculer la corrélation entre les variables Licences et Bières.Peut-on en déduire que la pratique du sport conduit à boire de la bière?

2 Convergence des suites de variables aléatoires

Exercice 10 : Soit X une V.A. Gaussienne de paramètres (3; 4)1. Calculer P (X < 4); P (X < 2,5); P (X > 2); P (|X| < 4).2. Déterminer α le plus grand possible tel que P (X − 2 > α) > 10−2.

Exercice 11 : SoitX1,X2,X3,X4 des variables aléatoires normales centrées indépendantes de loiN (0; 9). Calculeren fonction de la fonction de répartition F4 d’une loi de χ2 à 4 degrés de liberté, la probabilité

p = P (X21 +X2

2 +X23 +X2

4 > 2)

Exercice 12 :Soit T une variable aléatoire qui suit une loi de

Student à 7 degrés de liberté : En utilisant le graphede la fonction de répartition d’une loi de Student à 7degrés de liberté, ci contre à droite.

1. Déterminer des valeurs approchées de P (X <1); P (X > 1

2); P (|X| < 1,5).

2. Déterminer α tel que P (X < α) = 14 . Détermi-

ner β tel que P (X > β) = 14 .

Exercice 13 : On modélise la taille des pins d’une plantation par des variables aléatoires iid (Xi)i normalesN (30; 4), calculer P

(∑10i=1(Xi − 30)2 ≥ 144

). On mesure 10 arbres et l’on obtient les longueurs suivantes :

31,39,27,28,29,24,29,29,31,33

qui donne∑10

i=1 xi = 300 et∑10

i=1(xi − 30)2 = 144. Que peut-on dire de la modélisation? Même question pourla loi N (30; 9).

Exercice 14 : Soit (Xn) une suite de variables aléatoires exponentielles de paramètre n, montrer que cette suiteconverge en probabilité vers la variable aléatoire nulle.

Exercice 15 : On modélise la taille des hommes de 18 ans en France par une variable aléatoire normaleN (175,36),et la taille des femmes de 18 ans par une loi normale N (162,30).

1. Selon ce modèle quelle est la proportion d’homme de plus de 180 cm.

Université de Cergy Pontoise 3 2009-2010

Page 4: Travaux dirigés de statistiques S4-SV SVNTravaux dirigés de statistiques S4-SV SVN 1 Statistique descriptive Exercice 1 : On considère la série suivante (1, 0, 2, 1, 1, 0, 1, 0,

2. CONVERGENCE DES SUITES DE VARIABLES ALÉATOIRES A.Mizrahi

2. Selon ce modèle dans l’ensemble des couples hétérosexuels de jeunes de 18 ans possible, quelle est la pro-portion de couples ou l’homme est plus petit que la femme?

Exercice 16 : On note p la probabilité qu’une personne en âge d’être vaccinée contre la grippe demande effec-tivement à l’être. Sur une population de 10 000 personnes en âge d’être vaccinées, on modélise par une variablealéatoire N le nombre de personnes demandant à se faire vacciner.

1. Quelle loi proposez-vous de prendre pour N?2. On suppose que p = 0,1, si l’on achète 1100 vaccins, quelle est la probabilité qu’il n’y en ait pas suffisam-

ment? La difficulté semble d’évaluer p3. Toujours dans le cas où p = 0,1, déterminer le nombre m de vaccins qu’il faudrait prévoir pour que la

probabilité d’en manquer soit égale à 1%.

Exercice 17 :On sait par expérience qu’une certaine opération chirurgicale réussi dans 90% des cas. Cette opération est

réalisée dans une clinique 400 fois chaque année. On modélise par une variable aléatoire N le nombre de réussitesdans une année.

1. Quelle loi proposez vous de prendre pour N , on précisera bien les hypothèses faites? Calculer l’espérance etla variance de N .

2. Calculer la probabilité que la clinique réussisse 350 ou plus opérations dans l’année.3. Calculer la probabilité que la clinique rate 28 opérations ou plus dans l’année.4. La clinique prend une assurance, le prix de l’assurance est fixé par le nombre maximum d’opérations indem-

nisée sur une année, le directeur veut fixer ce nombre de tel sorte que la probabilité de ne pas être indemnisésoit inférieure à 1%, quel nombre maximum d’opérations ratées doit-il déclarer.

Exercice 18 : Soient B et N deux variables aléatoires, B de loi B(n; p) et N de loi N (0,1).1. Rappeler l’espérance et la variance de B. Déterminer a et b pour que N = aN + b ait même espérance et

même variance que B.2. Déterminer α et β pour que B = αB + β soit centrée, réduite.3. Trouver un lien entre les fonctions de répartition de N et de N .

Voici 3 graphiques, le premier représente les fonctions de répartition de N et de B pour n = 30 et p = 0,5. Les2 suivants représentent l’écart maximum qu’il y a entre la fonction de répartition de N et de B, pour p = 0,5 etp = 0,1, n variant.

(c) N=30 (d) p = 0,5 (e) p = 0,1

4. Pour p = 0,5 et n = 50 quelle est l’erreur maximale que l’on fait lorsqu’on approche une loi B(50,12) parune loi normale.

5. Quelle valeur de n faut-il prendre pour être sur que l’on peut approcher une variable aléatoire binomialeB(n,12) par une loi normale avec une erreur inférieur à 5%?

6. Même question avec B(n, 110)

Université de Cergy Pontoise 4 2009-2010

Page 5: Travaux dirigés de statistiques S4-SV SVNTravaux dirigés de statistiques S4-SV SVN 1 Statistique descriptive Exercice 1 : On considère la série suivante (1, 0, 2, 1, 1, 0, 1, 0,

2. CONVERGENCE DES SUITES DE VARIABLES ALÉATOIRES A.Mizrahi

On représente maintenant sur le premier graphique, pour n = 50 et p = 12 , la différence entre les fonctions de

répartition de B et de N . Sur le second un zoom du premier graphique, enfin sur le troisième on représente lelogarithme de l’erreur maximale commise en fonction du logarithme de n.

(f) N=50 (g) N=50, Zoom (h) Des logarithmes

7. A l’aide de la figure (g). Déterminer l’erreur commise maximale que l’on peut commettre si l’on calculeP (c < N < D) pour approcher P (c < B < d).

8. En utilisant la graphique (h), qui représente le logarithme néperien de l’erreur maximale en fonction de ln(n),comment décroît cette erreur en fonction de n.

Jusqu’à présent ce que l’on cherche c’est la différence maximum qui existe entre la fonction de répartition de la loinormale et celle de la loi binômiale centrée réduite, mais dans la pratique ce que l’on cherche c’est à approcher lesquantités P (B ≤ m), où m est un entier, par une loi normale, dans le premier graphique on a représenté la suite depoints

(n,max

m

∣∣P (Bn ≤ m)− P (Nn ≤ m)∣∣)n

.Dans les deux derniers on a représenté(

n,maxm

∣∣P (Bn ≤ m)− P (Nn ≤ m+ 0,5)∣∣)n

pour p = 0,5 et pour p = 0,1, ceci est guidé par le fait que P (B ≤ m) = P (B < m+ 1).

(i) Aux points entiers (j) Correction de Yates, p = 0,5 (k) Correction de Yates, p = 0,1

9. Pour p = 0,5 et n = 50 quelle est l’erreur maximale que l’on fait lorsqu’on approche P (N ≤ m) à l’aided’une loi normale, sans utiliser la correction de yates, puis en utilisant la correction de Yates.

10. Quelle valeur de n faut-il prendre pour être sur que l’on peut approcher P (N ≤ m) par une loi normale enutilisant la correction de Yates, avec une erreur inférieur à 1%?

11. On trouve parfois dans les livres que l’on peut approcher une loi binomiale B(N,p) par une loi normalelorsque Np > 5 et N(1− p) > 5. A quelle erreur cela correspond pour p = 0,5 et pour p = 0,1.

Université de Cergy Pontoise 5 2009-2010

Page 6: Travaux dirigés de statistiques S4-SV SVNTravaux dirigés de statistiques S4-SV SVN 1 Statistique descriptive Exercice 1 : On considère la série suivante (1, 0, 2, 1, 1, 0, 1, 0,

3. ESTIMATION A.Mizrahi

3 Estimation

Exercice 19 : On considère la série suivante (1, 0, 2, 1, 1, 0, 1, 0, 0) .1. Calculer sa moyenne et sa variance empiriques.2. En supposant que les données de cet échantillon sont des réalisations d’une variable de loi inconnue, donner

une estimation non biaisée de l’espérance et de la variance de cette loi.3. On choisit de modéliser les valeurs de cet échantillon par une loi binomiale B(2,p). Utiliser la moyenne

empirique pour proposer une estimation ponctuelle pour p.4. Avec le même modèle, utiliser la variance empirique pour proposer une autre estimation de p.5. Déterminer l’estimateur du maximum de vraisemblance.

Exercice 20 : On ensemence 100 boites de Petri avec un cm3 d’une solution comprenant 4 bactéries par cm3, onmodélise le nombre de bactéries se trouvant dans la ième boite de Petri par une variable aléatoire de Poisson Ni.

1. Quel paramètre peut-on prendre pour le paramètre de la variable aléatoire?2. Donner un intervalle de confiance au seuil 95% pour le nombre moyen de bactéries par boite de Petri.

Exercice 21 : Comparaison de deux estimateurs.On suppose que les V.A. Xi sont indépendantes et suivent toutes une loi uniforme sur [0; 2A] on note :

X =1n

n∑k=1

Xk et M = max(X1;X2...;Xn)

1. Rappeler les valeurs de E(X);E(X) et var(X).2. Déterminer la fonction de répartition deM , définie par FM (t) = P (M ≤ t). On pourra se demander à quelle

condition le maximum de n nombres est inférieur à t.3. Déterminer la densité de M , en utilisant le fait que fM (t) = F ′M (t).4. Déterminer E(M) puis un α tel que la nouvelle variable M définie par M = αM soit un estimateur sans

biais de A.5. En calculant les variances des variables aléatoiresX et M , comparer l’efficacité de ces deux estimateurs sans

biais de A.

Exercice 22 : Déterminer l’estimateur du maximum de vraisemblance pour le paramètre d’une loi de Poisson.

Exercice 23 : On ensemence 100 boites de Petri avec 1 cm3 d’une solution comprenant α bactéries par cm3, onmodélise le nombre de bactéries se trouvant dans la ième boite de Petri par une variable aléatoire de Poisson Ni,après 9 jours de culture, chaque bactérie a donné naissance à une colonie visible à l’oeil nu on obtient le résultatsuivant. Le nombre moyen de colonies est 4,83 et la variance de l’échantillon est 4,48. On cherche à estimer α,

Nombre de colonies 0 1 2 3 4 5 6 7 8 9 10 12effectif 2 1 8 17 20 18 12 11 7 2 1 1

pour cela essayons deux méthodes différentes.1. Si X suit une loi de Poisson de paramètre λ alors P (X = 0) = e−λ, en déduire une estimation de α.2. Si X suit une loi de Poisson de paramètre λ alors E(X) = λ, en déduire une estimation de α.3. Déterminer pour la deuxième méthode un intervalle de confiance au seuil de 95%.

Exercice 24 : Un biologiste étudie un type d’algue "agressive", elle possède une toxine dont on mesure la quantitépar dosage d’une solution organique. Il obtient les résultats suivants en milligrammes de toxine par gramme desolution : Pour chaque question on précisera les hypothèses faites.

1,2 0,8 0,6 1,1 1,2 0,9 1,5 0,9 1,0

1. Donner une estimation ponctuelle de l’espérance et de la variance de la quantité de toxine.2. Donner une estimation par intervalle de confiance à 95% de la quantité moyenne de toxine.

Université de Cergy Pontoise 6 2009-2010

Page 7: Travaux dirigés de statistiques S4-SV SVNTravaux dirigés de statistiques S4-SV SVN 1 Statistique descriptive Exercice 1 : On considère la série suivante (1, 0, 2, 1, 1, 0, 1, 0,

4. TESTS STATISTIQUES A.Mizrahi

3. Combien faudrait-il doser d’algues pour avoir un un intervalle de confiance de longueur inférieur à 2 mg/g.

Exercice 25 Une maladie touche environ 20% de la population, combien faut-il étudier d’individus pour évaluer à1% près , la proportion de sujets malades.

Exercice 26 (Théorique) On a deux populations dont un caractère quantitatif suit une même loi normale demoyenne µ et de même écart type σ. Pour la première population on a un échantillon de n1 individus de moyennem1 pour la seconde population on a un échantillon de n2 individus de moyenne m2. On modélise ceci par n1

variables aléatoires Xi ∼ N (µ,σ2) et n2 variables aléatoires Yj ∼ N (µ,σ2), toutes les variables Xi,Yj étantindépendantes.

1. Quelle est la loi de X =1n1

(X1 +X2 . . .+Xn1)?

2. Quelle est la loi de Y =1n2

(Y1 + Y2 . . .+ Yn2)?

3. Quelle est la loi de D = X − Y ?4. Déterminer D la variable aléatoire centrée réduite associée à D.

5. Quelle est la loi de1σ

∑(Xi −X)2 ?

6. Quelle est la loi de1σ

∑(Yj − Y )2 ?

7. Quelle est la loi de Z =1σ

(∑(Xi −X)2 +

∑(Yj − Y )2

)?

8. En admettant que D et Z sont indépendantes, déterminer la loi de T =D√Z

n1+n2−2

.

4 Tests statistiques

Exercice 27 (À traiter en cours) D’après Brinkhaus B et al. 2006.Évaluation de l’acupuncture dans le traitement de la lombalgie : les auteurs cherchent à comparer les effets d’uneacupuncture classique, d’une acupuncture minimale (aiguilles en dehors des points d’acupuncture), et pas d’acu-puncture du tout. Pour cela ils utilisent comme critère de jugement : l’intensité de la douleur (VAS échelle d’auto-évaluation de la douleur). Ils obtiennent ainsi trois échantillons : 140 acupunctures, 70 minimaux et 74 témoins. Onétudie la diminution de la douleur entre le début de l’expérience et 8 semaines de traitement on obtient les résultatssuivants :Témoins : m0 = 6,9; s0 = 22,0; n0 = 74Minimalistes : m1 = 23,6; s1 = 31,0; n1 = 70,Acupuncture : m2 = 28,7; s2 = 30,3; n2 = 140.Pour chacune des questions on précisera bien les hypothèses faites

1. Peut-on conclure que l’acupuncture est plus efficace pour combattre la lombalgie que l’absence de traite-ment?

2. Peut-on conclure que l’acupuncture est plus efficace pour combattre la lombalgie que l’acupuncture minima-liste?

3. Calculer la p-valeur (p-value) pour m2 −m1.4. Calculer la p-valeur critique (p-value) pour m2 −m0.5. Les professionnels estiment qu’une différence de la VAS de 10 unités correspond à une douleur “scientifi-

quement” différente. On estime que l’écart type de la population est égale à 30,5, quelle est la taille d’effetcorrespondante?

6. Quelle est la puissance de notre test comparant l’acupuncture à l’acupuncture minimaliste, pour la tailled’effet de la question précédente?

Exercice 28 On cherche à comparer le poids moyen des épis de deux variétés de blé : on a procédé à 10 peséespour le blé A et 12 pour le blé B, avec un poids moyen pour A égale à xA = 1,707g et une variance estiméesA

2 = 432,9 et un poids moyen pour B égale à xB = 1,685g et une variance estimée sB2 = 182,7. Les deux

moyennes sont-elles significativement différentes?

Université de Cergy Pontoise 7 2009-2010

Page 8: Travaux dirigés de statistiques S4-SV SVNTravaux dirigés de statistiques S4-SV SVN 1 Statistique descriptive Exercice 1 : On considère la série suivante (1, 0, 2, 1, 1, 0, 1, 0,

4. TESTS STATISTIQUES A.Mizrahi

Exercice 29 Les études statistiques portant sur la latéralisation permettent d’estimer a environ 10% de la popula-tion la proportion d’individus qui, dans nos sociétés, utilisent préférentiellement leur main gauche dans les tâchesmotrices et dans l’écriture en particulier. Parmi les meilleurs tennismen et escrimeurs mondiaux, on a dénombré 18gauchers sur 64. Peut-on admettre que les gauchers sont plus nombreux dans ces sports d’opposition que dans lapopulation totale?

Exercice 30 On a mesuré l’indice de Quételet (poids (en kg) / taille2 (en m)) chez 13 jeunes filles âgées de 14 ans,atteintes du syndrome de Turner (maladie chromosomique caractérisée par une monosomie au niveau de la pairede chromosomes sexuels). On a obtenu : 16,67 - 18,32 - 18,15 - 18,65 - 19,1 - 18,38 - 20,21 - 17,72 - 16,31 - 19,05- 16,57 - 15,33 - 18,47.

1. Calculer la moyenne, la variance et l’écart-type.2. Sachant que l’indice moyen de référence pour des jeunes filles du même âge est de 19,39, peut-on conclure

que l’indice de Quételet moyen de l’échantillon est identique à l’indice moyen de référence? Précisez bienles hypothèses faites.

3. Quelle conclusion en tirez-vous?

Exercice 31 On a suivi, sur une période de 20 ans, deux cohortes : 200 sujets fumeurs et 200 sujets non fumeurs.On a noté le nombre d’apparition de cancer dans chacune des cohortes : 40 chez les fumeurs ; 20 chez les nonfumeurs. La différence d’apparition de cancer dans les deux cohortes est-elle significative?

Exercice 32 On veut tester la première loi de Mendel pour deux allèles A et a d’un même gène. Pour cela on partd’un échantillon de n croisements d’individus de génotype (Aa) deux hypothèses sont possibles. Soit la proportionπ de phénotype [A] est 3/4 (cas Mendel) soit 2/3 (cas du génotype (AA) létal)

(a)N ( 34; 3

16) etN ( 2

3; 2

9) (b)N ( 3

4; 3

16×400) etN ( 2

3; 2

9×400)

1. Construire un premier test H0 π = 3/4 contre H1 : π = 2/3.2. Construire un deuxième test H0 π = 2/3 contre H1 : π = 3/4. Calculer le risque d’erreur de seconde espèce.3. Interpréter le problème à l’aide des deux graphes ci-dessus, le premier représente les densités de deux lois

normalesN (34 ; 3

16) etN (23 ; 2

9), puis le second représente les densités de deux lois normalesN (34 ; 3

16×400) etN (2

3 ; 29×400)

4. Déterminer un n assez grand pour que dans tous les cas la probabilité d’avoir une erreur soit inférieure à 5%.

Exercice 33 On ajoute au régime d’un groupe de souris un produit P. dont on soupçonne qu’il peut être toxiqueet raccourcir la survie moyenne. Pour étudier si il est toxique, on décide de constituer deux groupes de 100 sourisdont l’un sera exposé au produit P et l’autre non. On suppose la variance de la survie égale à 18 semaines (bien surcette . On décide d’analyser l’expérience grâce à un test unilatéral. Dire pour quelles valeurs de d = mA − mB

Université de Cergy Pontoise 8 2009-2010

Page 9: Travaux dirigés de statistiques S4-SV SVNTravaux dirigés de statistiques S4-SV SVN 1 Statistique descriptive Exercice 1 : On considère la série suivante (1, 0, 2, 1, 1, 0, 1, 0,

4. TESTS STATISTIQUES A.Mizrahi

on conclura à la toxicité de P . Quelle est la puissance du test si le produit P raccourcit la survie moyenne de 2semaines. Le résultat serait-il différent si l’on avait prit une variance égale à 20.

Exercice 34 Lors d’une étude granulométrique de sédiments, on a relevé, pour deux échantillons C et D, les ca-ractéristiques suivantes de la distribution des diamètres des grains. On fait l’hypothèse que les diamètres des grainssuivent une loi normale.Échantillon C : 12 grains, moyenne 63 microns, écart type 9,2 microns.Échantillon D : 18 grains, moyenne 51 microns, écart type 8,5 microns.Les deux échantillons sont-ils significativement différents, en ce qui concerne le diamètre des grains?

Exercice 35 On mesure la taille de pères né en 1942 et celle de leur fils adultes, on obtient les résultats suivants :Taille de l’échantillon Taille moyenne écart type de l’échantillon

Père 241 169,7 8,21Fils 215 174,3 9,41

En admettant que les tailles des hommes d’une même génération suivent une loi de Gauss, peut-on conclure qu’entreces deux générations la taille des hommes a significativement augmentée?

Exercice 36 On teste deux hypnotiques A et B sur 10 volontaires à 10 jours d’intervalle, pour chacun des volon-taires on note alors dans le tableau les durées d’endormissement en minutes :

Volontaire i1 i2 i3 i4 i5 i6 i7 i8 i9 i10

Hypnotique A 12 18 25 28 29 33 35 37 39 43Hypnotique B 22 11 16 17 20 32 37 39 42 47

Y a-t-il une variation significative du temps d’endormissement entre les deux hypnotiques? On précisera bien leshypothèses que l’on fait.

Exercice 37 On pèse de jeunes hommes lors d’une compétition sportive :Poids mesuré en kg <60 60-64 64-67 67-69 69-72 72-76 76-95 >95Nombres de jeunes 15 65 63 70 58 45 15 4

L’hypothèse que le poids de ces jeunes hommes suit une loi normale est elle raisonnable?

Exercice 38 Dans un article paru en 1999, M. H. Kohn à l’aide du séquençage de l’adn fécal, a attribué 111 fècesde coyotes Canis latrans à 30 individus, 8 individus sont représentés par 1 déjection, 6 par deux etc..., la distributioncomplète est donnée par :

Crottes 1 2 3 4 5 6 7 8 9 10 11Coyotes 8 6 5 0 4 2 1 1 2 0 1

1. Expliquer pourquoi l’hypothèse d’une loi de Poisson peut être envisagée.2. Tester cette hypothèse à l’aide d’un test du chi deux, au risque de 5%.3. Conclusion et interprétation.

Exercice 39 Question préparatoire : On suppose que le phénotype d’une première génération d’un croisement doitsuivre une loi de Mendel 3/4 de [A] et 1/4 de [a], quelle est la probabilité que sur 1000 individus il y ait exactement750 [A] et [250] a?En 1866 Mendel publie un article volumineux ou sont décrit entre autre des résultats d’expérience sur la reproduc-tion du pois, des croisements de souches pures sont réalisés par une fécondation croisée de façon contrôlée. Parexemple il regarde la couleur de l’albumen (tissu de réserves nutritives de la graine), en croisant des pois à albumenjaune avec des pois a albumen vert, la première génération donne 258 plants ayant un albumen jaune, on croisecette première génération entre elle et Mendel trouve 6022 plants ayant l’albumen jaune et 2001 ayant l’albumenvert. Certains auteurs ont accusés Mendel d’avoir arrangé ces chiffres. Les valeurs trouvées sont-elles trop prochedu modèle (3/4;1/4) pour être vrai?

Exercice 40 On cherche à comparer deux traitements A,B à un groupe témoin sans traitement pour un certainemaladie, la question est de savoir si il y a une différence significative entre les trois traitements.

Université de Cergy Pontoise 9 2009-2010

Page 10: Travaux dirigés de statistiques S4-SV SVNTravaux dirigés de statistiques S4-SV SVN 1 Statistique descriptive Exercice 1 : On considère la série suivante (1, 0, 2, 1, 1, 0, 1, 0,

4. TESTS STATISTIQUES A.Mizrahi

Guérison très rapide Guérison rapide Guérison lente ComplicationTraitement A 30 58 10 2Traitement B 27 68 4 1

Sans traitement 19 70 11 0

Exercice 41 Une enquête auprès de 6672 personnes donne les résultats suivants :Hommes Femmes Total

Droitiers 2780 3281 6061gauchers 311 300 611

Total 3091 3581 6672Peut-on en conclure un lien entre les variable sexe et droitier/gaucher?

Exercice 42 Le rétrécissement des artères et des veines sous claviaires au niveau de l’articulation du bras engendrechez des patients des démangeaisons pouvant nécessiter des interruptions de travail. Le diagnostic du syndrome peutêtre posé grâce à l’angiographie (c’est-à-dire la radiographie des vaisseaux après injection d’un liquide opaque auxrayons X) effectuée sur des patients en position assise ou couchée. Pour tester la position la plus efficace, on arelevé la présence (positif) ou l’absence (négatif) de détection de la maladie chez 112 patients.

Assise Couchée Effectifpositif positif 59positif négatif 8négatif positif 20négatif négatif 25

La position couchée améliore-t-elle la détection de rétrécissement des artères ? Les positif-positif et les négatif-négatif n’apportent aucune information. Si les deux positions sont équivalentes, un résultat contradictoire est unefois sur deux positif-négatif et une fois sur deux négatif-positif.

Exercice 43 Sur un échantillon de 57324 individus exposés à un virus, une étude statistique sur l’éfficacité d’unvaccin donne les résultats suivants : 1110 vaccinés dont 10 malades et 1222 malades non vaccinés. Le vaccin a-t-ilun effet sur cette maladie?

Exercice 44 Pour comparer différents tests, on simule 10000 échantillons de taille n qui suivent une loi L et oncompte le nombre de fois ou l’on choisit H1 au seuil de confiance 95%, c’est à dire ou l’on rejette H0. Pourdifférents testsT1 est un test de χ2 ou l’on ajuste à une loi N (0,1) avec 5 classes contenant chacune 20% de l’effectif espéré.T2 est un test de χ2 ou l’on ajuste à une loi N (0,1) avec 10 classes contenant chacune 10% de l’effectif espéré.T3 est un test de χ2 ou l’on ajuste à une loiN (m,σ2) où l’on estimem et σ2 à l’aide de l’échantillon, avec 5 classescontenant chacune 20% de l’effectif espéré.T4 est un test de χ2 ou l’on ajuste à une loi N (m,σ2) où l’on estime m et σ2 à l’aide de l’échantillon, avec 10classes contenant chacune 10% de l’effectif espéré.T5 est un test de Shapiro-Wilk qui permet de tester la normalité.T6 est un test de Kolmogorov-Smirnov qui permet de tester la normalité.

Loi L simulée N (0; 1) N (0,5; 1) N (0; 1) N (0; 1) U(−√

3;√

3) U(−√

3;√

3) E(1) E(1) P(1)n 100 100 25 10 25 100 25 100 10T1 495 9808 428 387 1233 4584 10000 10000 10000T2 479 9525 508 358 1012 3007 10000 10000 10000T3 751 790 786 712 1492 6598 5227 9417 8025T4 537 599 494 287 1546 3378 6095 9998 9800T5 498 511 502 522 2846 9967 9209 10000 7612T6 493 528 494 504 1185 5893 6902 9999 5976

1. Pour chacun des tests du χ2, dire combien on a pris de degrés de liberté.2. Expliquer les résultats égaux à 10000 pour les tests T1 et T2.

Université de Cergy Pontoise 10 2009-2010

Page 11: Travaux dirigés de statistiques S4-SV SVNTravaux dirigés de statistiques S4-SV SVN 1 Statistique descriptive Exercice 1 : On considère la série suivante (1, 0, 2, 1, 1, 0, 1, 0,

4. TESTS STATISTIQUES A.Mizrahi

3. Comparer les deux tests T5 et T6, lequel semble le meilleur?4. Comparer les tests du χ2 aux deux autres tests pour n = 10. La valeur 287 est-elle une preuve que le test

fonctionne bien?5. Pour différencier la loi normale de la loi uniforme quel test semble plus performant?

Université de Cergy Pontoise 11 2009-2010