Département Biosciences Végétales Module : Statistique 1

135
epartement Biosciences V´ eg´ etales Module : Statistique 1 J. Gergaud 19 septembre 2006

Transcript of Département Biosciences Végétales Module : Statistique 1

Page 1: Département Biosciences Végétales Module : Statistique 1

Departement Biosciences Vegetales

Module : Statistique 1

J. Gergaud

19 septembre 2006

Page 2: Département Biosciences Végétales Module : Statistique 1

Table des matieres

1 Introduction 11 Image de la statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 Exemples de problemes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

2.1 Cas a une seule variable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12.2 Cas a deux variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12.3 Cas d’un nombre fini de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

3 Schema general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 Enseignement des mathematiques en tronc commun . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 Modules Statistique 1 et 2, premiere annee . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

5.1 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25.2 Statistique 1 : Outils et concepts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

6 Difficulte de cet enseignement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36.1 Petite approche historique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36.2 Mon sentiment sur cet enseignement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

7 Controle de connaissance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2 Statistique descriptive 51 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 Types de donnees traitees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.1 Notion de caractere . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.2 Types de caracteres qualitatifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.3 Types de variables statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

3 Statistique descriptive a une dimension . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63.2 Les distributions de frequences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63.3 Reduction des donnees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103.4 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

4 Statistique descriptive a 2 dimensions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164.2 Les distributions en frequences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174.3 Representations graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194.4 Reduction des donnees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204.5 Droite de regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

5 Complements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265.1 Changement de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265.2 Cas a plus d’une variable explicative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 296.1 Exercices avec solutions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 296.2 Exercices avec indications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 326.3 Exercices sans indications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3 Probabilites 351 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 352 Definition des probabilites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

2.1 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362.2 Definitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 372.3 Representation graphique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

3 Probabilites conditionnelles et independance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

i

Page 3: Département Biosciences Végétales Module : Statistique 1

ii TABLE DES MATIERES

3.1 Probabilites conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 393.2 Independance d’evenements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

4 Variables aleatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 404.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 404.2 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414.3 Fonction de repartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434.4 Fonction d’une variable aleatoire reelle continue . . . . . . . . . . . . . . . . . . . . . . . . . . 464.5 Variables aleatoires vectorielles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 474.6 Variables aleatoires independantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

5 Esperance mathematique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 505.1 Definitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 505.2 Esperance d’une somme de variables aleatoires . . . . . . . . . . . . . . . . . . . . . . . . . . 515.3 Variance–Covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

6 Theoremes limites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 546.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 546.2 Lois des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

4 Theorie de l’echantillonnage 591 Modelisation des variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 591.2 Variable aleatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

2 Introduction a la theorie de l’echantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 622.1 Modelisation des donnees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 622.2 Exemple de l’urne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 622.3 Exemple du referendum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

3 Echantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 673.1 Echantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 673.2 Schema general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

4 Distribution d’echantillonnage de certaines statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . 684.1 Distribution dechantillonnage de la moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . 684.2 Distribution d’echantillonnage de la variance . . . . . . . . . . . . . . . . . . . . . . . . . . . 704.3 Distribution d’echantillonnage de T . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 724.4 Distribution d’echantillonnage du rapport de variance . . . . . . . . . . . . . . . . . . . . . . 724.5 Distribution d’echantillonnage d’une frequence . . . . . . . . . . . . . . . . . . . . . . . . . . 72

5 Principales lois de probabilite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 736 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

6.1 Exercices avec corriges . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 786.2 Exercices avec indications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 836.3 Exercices sans indications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

5 Tests statistiques : principes generaux 871 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 872 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

2.1 Probleme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 872.2 Cas simplifie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 882.3 Cas general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

3 Principes generaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 913.1 Logique generale d’un test statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 913.2 Definitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

4 Test bilateral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 944.1 Puissance d’un test bilateral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 944.2 Puissance et parametres α, σ2 et n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 954.3 Tests multiples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 975.1 Presentation et conclusion d’un test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 975.2 Risque de troisieme espece . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 996.1 Exercices avec corriges . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 996.2 Exercices avec indications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1036.3 Exercices sans indications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

Page 4: Département Biosciences Végétales Module : Statistique 1

TABLE DES MATIERES iii

6 Estimation 1091 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

1.1 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1091.2 Position du probleme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

2 Principes generaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1102.1 Formalisme mathematique, definitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1102.2 Proprietes des estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112

3 Estimations des principaux parametres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1153.1 Estimation d’une variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1153.2 Estimation d’une moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1163.3 Estimation d’une proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

4 Complements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1204.1 Lien entre intervalle de confiance et test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1204.2 Illustration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1204.3 Estimation robuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1214.4 Representation graphique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1225.1 Exercices avec corriges . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1225.2 Exercices avec indications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1265.3 Exercices sans indications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128

Page 5: Département Biosciences Végétales Module : Statistique 1

Chapitre 1

Introduction

1 Image de la statistique

– Il existe 3 formes de mensonges : les simples mensonges, les affreux mensonges et les statistiques.– Le lit est plus dangereux que l’automobile car il est prouve statistiquement que l’on meurt plus dans un lit

que dans une voiture.– Le statisticien est un homme qui pretend qu’avoir la tete dans une fournaise et les pieds dans la glace permet

de beneficier d’une temperature moyenne agreable.

2 Exemples de problemes

2.1 Cas a une seule variable

Exemple 2.1.1. On desire estimer le nombre d’animaux d’une espece donnee dans une region donnee.

Outil statistique : l’estimation

Exemple 2.1.2. On desire estimer le taux de germination d’une variete donnee.

Outil statistique : l’estimation

Exemple 2.1.3. On desire savoir laquelle de deux varietes (ou plus) a le plus fort rendement.

Outils statistiques : le test de Student, l’analyse de la variance.

2.2 Cas a deux variables

Exemple 2.2.1. Quelle est la relation entre le rendement et la pluviometrie a une periode donnee ?

Exemple 2.2.2. Y-a-til une liaison entre le rendement et la teneur du grain en proteines

La reponse a ces questions repose sur l’etude de modeles mathematiques de nature aleatoire :– la regression lineaire simple– la regression non lineaire– la correlation

2.3 Cas d’un nombre fini de variables

Exemple 2.3.1. Quelle est la relation entre le rendement d’une variete donnee et un ensemble de variablesmeteorologiques.

Outil statistique : la regression lineaire multiple

Exemple 2.3.2. Quelles sont les relations existant entre p caracteres morphologiques, physiologiques et agrono-miques d’une plante donnee : hauteur totale, dimension foliaire, ramification, ... ? On s’interesse alors a la structurede l’ensemble des individus et/ou de l’ensemble des caracteres.

Outil statistique : l’Analyse factorielle en Composantes Principales (ACP) et l’Analyse Factorielle des Corres-pondances (AFC)

1

Page 6: Département Biosciences Végétales Module : Statistique 1

2 CHAPITRE 1. INTRODUCTION

Exemple 2.3.3. En taxinomie biologique et en ecologie on est souvent amene a des problemes de classifications.

Outil statistique : l’Analyse Factorielle Discriminante (AFD), methodes de classification

3 Schema general

Les statistiques La statistique

La statistique descriptive La statistique mathematique

9 ?

La statistique

descriptive

a 1, 2, 3

dimensions

=

Analyse

des

donnees

ZZ

ZZ

ZZ~

Inference

statistique

=

Theorie

des

tests

ZZ

ZZ

ZZ~

4 Enseignement des mathematiques en tronc commun

– Modules Statistique 1 et 2 1ere annee– Module Algebre Lineaire 1ere annee– Module Optimisation 1ere annee– Module Plans d’experience 2eme annee– Module Analyse Multivariable 2eme annee

5 Modules Statistique 1 et 2, premiere annee

5.1 Objectifs

Objectifs finaux

– Savoir sur un cas concret simple et pour une question donnee simple choisir la methode statistique adapteeet savoir appliquer cette methode

– Connaıtre les limites de chaque methode et interpreter correctement les resultats– Prendre conscience de l’importance d’une bonne collecte des donnees

Sous objectifs

– Savoir ce qu’est un ”bon” estimateur– Savoir ce qu’est un intervalle de confiance– Savoir ce qu’est un test statistique

– Hypothese nulle et alternative– Risque de premiere espece, notion de puissance

– Connaıtre la regression lineaire simple.

Page 7: Département Biosciences Végétales Module : Statistique 1

6. DIFFICULTE DE CET ENSEIGNEMENT 3

5.2 Statistique 1 : Outils et concepts

Cours

– Statistique descriptive a 1 et 2 dimensions– Theorie de l’echantillonnage ; lois du χ2, de Student et de Fisher– Theorie des tests– Estimation

TD

TD1 : Statistique descriptive. Decrire les donnees par des graphiques et/ou quelques quantites numeriques

TD2 : Probabilites, theorie de l’estimation

TD3 : Theorie des tests statistiques

TD4 : Tests statistiques et estimation

TD5 : Estimation

6 Difficulte de cet enseignement

6.1 Petite approche historique

– En 2238 avant J.C. l’empereur chinois Yao organisa un recensement des productions agricoles– Sans le recensement d’Herode Jesus Christ ne serait pas ne dans une etable– Role precurseur des marchands de la Republique de Venise rassemblant au XIIIe et XIVe siecles des donnees

sur le commerce exterieur.– Premiers concepts au XVIIesiecle

– En Prusse : Ecole descriptive allemande qui crea le mot statistique1 (Statistik)– En Angleterre : Ecole des arithmeticiens politiques qui s’est attachee a l’aspect mathematique des assurances– En France : L’etat, avec Colbert et Vauban execute de nombreux inventaires et recensements

– Au XVIIIe et XIXe siecle on assiste surtout au developpement de bureaux de statistiques– Developpement des probabilites

– Pierre Simon de FERMAT (1601-1665)– Blaise PASCAL (1623-1662)– Jacques BERNOULLI (1654-1705)– Abraham de MOIVRE (1667-1754)– Thomas BAYES (1702-1761)– Pierre Simon de LAPLACE (1749-1827)– Simeon Denis POISSON (1781-1840)– Karl Friedrich GAUSS (1777-1855)– Irenee Jules BIENAYME (1796-1878)– Pafnuti Livovic TCHEBYCHEV (1821-1894)

– Adolphe QUETELET (1796-1874) : Lien entre les probabilites et les statistiques– Francis GALTON (1822-1911) : Droite de regression– Karl PEARSON (1857-1936) : Khi-2, correlation, tables statistiques– William Sealy GOSSET (1876-1937) : Pseudonyme de STUDENT– Ronald Aylmer FISHER (1890-1962) : Analyse de la variance, maximum de vraisemblance– Jerzy NEYMAN (1894-1981) : Theorie des tests, intervalle de confiance– Egon PEARSON (1895-1980) : Theorie des tests– ...

6.2 Mon sentiment sur cet enseignement

– Difficulte liee a l’assimilation de concepts et a la formalisation mathematique.– Gros probleme de terminologie et de notations– Lorsque l’on fait des statistiques on est toujours avec du concret et de l’abstrait. On travaille avec des donnees

et on utilise de la theorie.– Un bon statisticien doit :

– Etre rigoureux

1Ce mot vient du substantif latin status qui signifie etat

Page 8: Département Biosciences Végétales Module : Statistique 1

4 CHAPITRE 1. INTRODUCTION

– Savoir utiliser le formalisme mathematique– Etre pragmatique et plein de bon sens

– La formation en France est encore tres deterministe (Descarte, Laplace,...)– On aimerait avoir une reponse par oui ou non ! ! !– La demarche statistique ne s’acquiert pas en 40 heures ! ! !– C’est difficile mais passionnant.

7 Controle de connaissance

– Examen ecrit de 2 heures avec une page A4 recto-verso, calculatrice et tables statistiques ;– Notations de TD ;

Page 9: Département Biosciences Végétales Module : Statistique 1

Chapitre 2

Statistique descriptive

1 Introduction

2 Types de donnees traitees

2.1 Notion de caractere

Definition 2.1.1 (Caractere). On appelle caractere tout critere sur lequel repose une etude statistique.

Exemple 2.1.2. La taille d’un individu, le poids d’un objet, la concentration d’une substance.

Definition 2.1.3 (Caractere quantitatif, variable statistique). On appelle caractere quantitatif ou variable statis-tique tout caractere directement representable par des nombres.

Exemple 2.1.4. La taille, l’age d’un individu, le nombre de particules.

Definition 2.1.5 (Caractere qualitatif). On appelle caractere qualitatif tout caractere non quantitatif

Exemple 2.1.6. La couleur des yeux, pile ou face.

Remarque 2.1.7. On pourrait tres bien coder pile ou face par 0 et 1, mais nous aurions tout de meme un caracterequalitatif d’ou le mot directement dans la definition. On peut aussi dire qu’une variable statistique est un caracteremesurable. Les operations comme l’addition ont donc un sens sur un caractere quantitatif, ce qui n’est pas le cassur un caractere qualitatif.

2.2 Types de caracteres qualitatifs

On range les caracteres qualitatifs en plusieurs categories :– Les caracteres qualitatifs ordonnes (i.e. que l’on peut les classer) comme le niveau d’un eleve (bon, moyen,

mauvais).– Les caracteres qualitatifs non ordonnes comme la couleur des yeux.– Les caracteres dichotomiques (i.e. qui ne peuvent prendre que deux valeurs differentes) comme le sexe, pile

ou face.

2.3 Types de variables statistiques

Definition 2.3.1 (Variable discrete). On appelle variable discrete toute variable qui ne peut prendre qu’un nombrefini ou denombrable de valeurs.

Exemple 2.3.2. – Nombre de points sur la face superieur d’un de.– Nombre de lances d’une piece de monnaie avant d’obtenir face.

Definition 2.3.3 (Variable continue). On appelle variable continue toute variable pouvant prendre un nombreinfini non denombrable de valeurs.

Exemple 2.3.4. – Poids d’un individu.– Taille d’un individu.– Concentration d’une substance.

5

Page 10: Département Biosciences Végétales Module : Statistique 1

6 CHAPITRE 2. STATISTIQUE DESCRIPTIVE

3 Statistique descriptive a une dimension

3.1 Introduction

Nous allons nous interesser dans cette section au cas d’un seul caractere quantitatif. Nous avons donc au departune suite de n nombres :y1, y2, . . . , yn. Nous pouvons bien evidemment avoir dans cette suite plusieurs fois la memevaleur.

Definition 3.1.1 (Serie statistique). On appelle serie statistique la suite y1, y2, . . . , yn.

Exemple 3.1.2. Notes sur 10 de 10 eleves a un devoir de francais.

10; 05; 01; 09; 02; 05; 01; 09; 09; 01

3.2 Les distributions de frequences

Lorsque la serie est trop grande mais que les valeurs prises par la variable ne sont pas trop nombreuses nouspouvons condenser les resultats sous la forme d’une distribution de frequences. Notons xi les differentes valeurs ducaractere etudie obtenues i = 1, . . . , p.

Definition 3.2.1 (Frequence absolue ou frequence). On appelle frequence absolue le nombre d’occurrences d’unememe valeur observee xi, c’est-a-dire le nombre de fois ou la valeur xi est observee. On note ni cette frequence lieea la valeur xi.

Remarque 3.2.2. On a toujours n =∑p

i=1 ni

Notation 3.2.3. On note aussi n. = nLe point signifie que l’on a fait une sommation sur l’indice i.

Definition 3.2.4 (Frequence relative). On appelle frequence relative associee a xi la quantite :

fi =ni

n

Remarque 3.2.5. On a toujours :p∑

i=1

fi =p∑

i=1

ni

n=

1n

p∑i=1

ni = 1

Definition 3.2.6 (Frequences cumulees absolues). Les frequences cumulees absolues sont donnees par :

N0 = 0N1 = n1

...

Nk =k∑

i=1

ni si k ∈ 1, . . . , p

...Nk = n si k > p

Definition 3.2.7 (Frequences cumulees relatives). Les frequences cumulees relatives sont donnees par :

F0 = 0F1 = f1

...

Fk =k∑

i=1

fi si k ∈ 1, . . . , p

...Fk = 1 si k > p

Page 11: Département Biosciences Végétales Module : Statistique 1

3. STATISTIQUE DESCRIPTIVE A UNE DIMENSION 7

Exemple 3.2.8. Nous donnons dans le tableau ci-dessous les valeurs des differentes frequences definies precedemmentpour l’exemple (3.1.2).

Notes Frequences Frequences Frequences cumulees Frequences cumuleesabsolues relatives absolues relatives

0 0 0 0 01 3 0,3 3 0,32 1 0,1 4 0,43 0 0 4 0,44 0 0 4 0,45 2 0,2 6 0,66 0 0 6 0,67 0 0 6 0,68 0 0 6 0,69 3 0,3 9 0,910 1 0,1 10 1

Nous avons etudie le cas ou la variable ne pouvait prendre que peu de valeurs differentes. Il se pose donc laquestion de savoir ce que l’on fait lorsque l’on a des valeurs observees distinctes en grand nombre (ce qui est le casen particulier lorsque l’on etudie des variables continues). Dans ce cas nous condensons les donnees en groupantles observations en classes. Le nombre de classes est en general compris entre 10 et 20 et l’intervalle de classe estconstant (mais ceci n’est pas obligatoire). Une classe est definie par ses limites. La limite superieure d’une classeetant la limite inferieure de la classe suivante. Quant a la valeur de la classe, on choisit souvent le milieu de laclasse. Une fois que les classes ont ete definies nous pouvons comme precedemment calculer les frequences absolues,relatives, cumulees absolues et cumulees relatives.

Exemple 3.2.9. Distribution de frequence des etendues des exploitations agricoles belges (ces donnee proviennentde l’ouvrage de Dagnelie “Theorie et methodes statistiques” volume 1).

Etendues des Valeurs des Frequences Frequences Frequences cumuleesexploitations classes absolues relatives relativesde 1 a 3ha 2ha 58122 0,2925 0,2925de 3 a 5ha 4ha 38221 0,1924 0,4849de 5 a 10ha 7,5ha 52684 0,2651 0,75de 10 a 20ha 15ha 35188 0,1771 0,9271de 20 a 30ha 25ha 8344 0,0420 0,9691de 30 a 50ha 40ha 3965 0,0199 0,9890de 50 a 100ha 75ha 1873 0,0094 0,9984plus de 100ha ? 309 0,0016 1,000

Remarque 3.2.10. Dans l’exemple ci-dessus la derniere classe n’a pas de limite superieure. On dit que la classeest ouverte.

Nous avons jusqu’a present travaille directement avec des nombres, mais un tableau de chiffres (meme enquantite restreinte) n’est jamais tres lisible aussi nous allons maintenant etudier les representations graphiques desfrequences. Dans tous les cas nous aurons ici en abscisse les valeurs des variables et en ordonnees les frequences.

Considerons tout d’abord le cas des frequences non cumulees. Deux cas se presentent suivant que les donneessont groupees (i.e. mises en classes) ou non. Lorsque celles-ci sont non groupees, nous utiliserons des diagrammesen batons : Pour chaque valeur de xi, nous tracons un segment de droite de longueur egale a la frequence (absolueou relative suivant les cas) associee a xi.

Exemple 3.2.11. Reprenons les donnees de l’exemple (3.1.2), la figure (2.1) est le diagramme en batons relatifaux frequences relatives.

Lorsque les donnees sont groupees, nous representons ces frequences par des rectangles contigus dont les inter-valles de classes sont les bases et les hauteurs des quantites telles que l’aire de chaque rectangle soit proportionnellea la frequence de la classe correspondante.

Remarque 3.2.12. Si les classes sont equidistantes nous pouvons alors prendre comme hauteur les frequences.

Exemple 3.2.13. Representons les frequences relatives des etendues des exploitations agricoles belges (exemple(3.2.9))

Page 12: Département Biosciences Végétales Module : Statistique 1

8 CHAPITRE 2. STATISTIQUE DESCRIPTIVE

0 2 4 6 8 100

0.05

0.1

0.15

0.2

0.25

0.3

0.35

Notes

Fré

quen

ces

rela

tives

Fig. 2.1 – Diagramme en batons

0

0.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

← Aire=0.01771×10=0.1771

Surfaces en ha

Fig. 2.2 – Histogramme

Definition 3.2.14 (Histogramme). On appelle histogramme un diagramme du type precedent.

Remarque 3.2.15. (i) Lorsque nous etudions une variable continue nous avons dans la pratique un grandnombre de mesures, certaines etant tres proches les unes des autres, d’autres etant plus eloignees. Si nousrepresentions ces donnees sous la forme d’un diagramme en batons nous aurions un graphique du type suivant :

0 1 2 3 4 5 6 7 80

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

2

Valeurs de la variable

Fré

quen

ces

abso

lues

Fig. 2.3 – ”Densite”

La densite d’une zone indiquerait alors que beaucoup de donnees seraient dans cette zone. Mais un tel gra-phique n’est pas tres lisible et une idee est donc de representer cette densite en ordonnees. Celle-ci est obtenueen divisant le nombre de mesures obtenues dans une classe (i.e. la frequence absolue) par la longueur d’in-tervalle de classe. C’est bien ceci que nous representons dans un histogramme.

(ii) Les frequences relatives sont en fait dans la pratique des estimations de probabilites. On verra que dans le cascontinu la probabilite qu’une variable aleatoire X appartienne a un intervalle ]xi, xi+1[ est donnee par l’aireA delimitee par cet intervalle et la fonction de densite :

Page 13: Département Biosciences Végétales Module : Statistique 1

3. STATISTIQUE DESCRIPTIVE A UNE DIMENSION 9

−1 0 1 2 3 4 50

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

xi

xi+1

← A

x

f(x)

Fig. 2.4 – Fonction de densite

L’histogramme des frequences relatives n’est alors qu’une approximation empirique de cette fonction de densite(si le facteur de proportionnalite est 1).

(iii) Si l’on veut mettre sur un meme graphique une loi theorique de distribution de probabilites, il faut imperativementtravailler avec les frequences relatives, et un facteur de proportionnalite de 1 pour l’histogramme.

Remarque 3.2.16. Attention, dans un logiciel comme Excel , le terme histogramme n’a pas le sens ci-dessus.

Remarque 3.2.17. La determination du nombre de classes d’un histogramme ainsi que de leurs amplitudes estdifficile. De plus, representer une distribution d’une variable continue par une fonction en escalier n’est pas treslogique. La theorie de l’estimation de densite permet de resoudre ces difficultes. Nous allons ici donner quelqueselements de la methode du noyau.

Considerons tout d’abord le cas d’histogrammes a classes d’egales amplitudes h. Dans l’histogramme on estimela densite en x par ni

nh si x appartient a la classe i. La densite est donc constante sur chaque classe. On peutameliorer ceci en utilisant la methode de la ”fenetre mobile”. On suppose ici que la serie statistique est y1, . . . , yn.On construit autour de x une classe de longueur h : Ix = [x− h/2;x + h/2[ et on compte le nombre d’observationsnx qui appartiennent a cette classe. On estime alors la densite en x par nx

nh . On peut ainsi construire point parpoint cette fonction de densite estimee f(x). On peut en fait ecrire cette derniere de la facon suivante :

f(x) =1

nh

n∑i=1

K

(x− yi

h

)ou K est la fonction indicatrice de l’intervalle [−1/2; 1/2[, c’est-a-dire la fonction de R dans 0, 1 definie par :

K(u) = 0 si u 6∈ [−1/2; 1/2[K(u) = 1 si u ∈ [−1/2; 1/2[

Par suite

K

(x− yi

h

)= 1 ⇐⇒ yi ∈ Ix

Cette methode donne encore des resultats trop peu regulier. Pour obtenir une fonction suffisamment ”lisse”, il fautprendre des fonction noyau K plus reguliere. En pratique on prend souvent un noyau gaussien :

K(u) =1√2π

e−u2/2

ou parabolique :

K(u) =3

4√

5

(1− u2

5

)pour |u| < 5

L’exemple (3.2.18) donne une comparaison entre l’histogramme et l’estimation de densite.

Exemple 3.2.18. 1 Le tableau (2.1) donne les hauteurs de 50 pieces usinees. On a sur la figure (2.5) l’histogrammede ces donnees pour un intervalle de classe de 0.03 et l’estimation de densite par la methode du noyau avec le noyaude Lejeune :

K(u) =10564

(1− u2)2(1− 3u2) pour |u| ≤ 1

avec une constante h egale a 30% de l’etendue de l’echantillon. L’estimation de densite montre clairement unedistribution bimodale que nous ne voyons pas avec l’histogramme.

1exemple provenant du livre de G. Saporta page 121

Page 14: Département Biosciences Végétales Module : Statistique 1

10 CHAPITRE 2. STATISTIQUE DESCRIPTIVE

21.86 21.90 21.9821.84 21.89 21.9621.88 21.92 21.9821.90 21.91 21.9521.92 21.91 21.9721.87 21.92 21.9421.90 21.91 22.0121.87 21.93 21.9621.90 21.96 21.9521.93 21.91 21.9521.92 21.97 21.9721.90 21.97 21.9621.91 21.97 21.9521.89 21.97 21.9421.91 21.98 21.9721.87 21.95 21.9521.89 21.89

Tab. 2.1 – hauteurs de 50 pieces usinees

21.8 21.85 21.9 21.95 22 22.05 22.1 22.15−2

0

2

4

6

8

10

12

Fig. 2.5 – Histogramme et densite estimee

Il nous reste maintenant a etudier le cas des frequences cumulees. Celles-ci sont representes par des polygonesde frequences cumules, mais nous avons encore ici une distinction suivant que les donnees soient groupees ou non.

Lorsque les donnees sont non groupees nous obtenons un polygone en escalier : la valeur de la fonction en unpoint x est le nombre d’observations (absolues ou relatives) qui sont inferieures ou egales a x.

Exemple 3.2.19. Reprenons encore l’exemple (3.1.2)

Quant aux donnees groupees, on joint par une ligne brisee les points obtenus en portant, pour les limites declasses superieures des ordonnees egales aux frequences cumulees.

Exemple 3.2.20. Frequences cumulees relatives des etendues des exploitations agricoles belges (exemple (3.2.9)).

Remarque 3.2.21. Les polygones de frequences relatives sont une representation empirique des fonctions derepartitions comme les histogrammes sont une representation empirique des fonctions de densite.

3.3 Reduction des donnees

Le but est ici de caracteriser les donnees a l’aide de quelques parametres. Il y a deux grands types de parametres :les parametres de position ou de tendance centrale que nous etudierons en premier et les parametres de dispersionque nous verrons ensuite.

Nous donnerons pour chaque parametre que nous definirons la valeur numerique correspondant a l’exemplesuivant :

Page 15: Département Biosciences Végétales Module : Statistique 1

3. STATISTIQUE DESCRIPTIVE A UNE DIMENSION 11

0 2 4 6 8 10 120

0.2

0.4

0.6

0.8

1

1.2

Notes

Fré

quen

ces

cum

ulée

s re

lativ

es

Fig. 2.6 – Frequences cumulees relatives : donnees (3.1.2)

0 20 40 60 80 100 1200

0.2

0.4

0.6

0.8

1

1.2

Surfaces en ha

Fré

quen

ces

cum

ulée

s re

lativ

es

Fig. 2.7 – Frequences cumulees relatives : donnees (3.2.9)

Exemple 3.3.1. Nous considerons 11 mesures faites de la hauteur du maıtre-brin d’une cereale donnee (en cm).Nous avons obtenu la serie statistique suivante (mise en ordre croissant) :

59; 62; 63; 63; 64; 66; 66; 67; 69; 70; 70.

Les parametres de position que nous allons etudier maintenant permettent de caracteriser l’ordre de grandeurdes observations. Le parametre le plus utilise dans la pratique est la moyenne arithmetique ou moyenne.

Definition 3.3.2 (Moyenne arithmetique). On appelle moyenne arithmetique oumoyenne la quantite donnee par :

– Si les observations sont donnees par une serie statistique

x =1n

n∑i=1

xi

– Si les observations sont donnees par leurs frequences absolues

x =1n

p∑i=1

nixi

Exemple 3.3.3. Pour les donnees de l’exemple (3.3.1), nous avons :

x = 65, 3636cm

Remarque 3.3.4. Lorsque les donnees sont groupees xi est la valeur de la classe i.

Definition 3.3.5 (Mediane). La mediane est la valeur de part et d’autre de laquelle se trouve un nombre egald’observations.

Remarque 3.3.6. (i) Pour les series statistiques monotones (c’est-a-dire croissante ou decroissante) :– si le nombre d’observations est pair la mediane est toute quantite comprise entre xn/2 et xn/2+1 (en general

on prend x = 1/2(xn/2 + xn/2+1))

Page 16: Département Biosciences Végétales Module : Statistique 1

12 CHAPITRE 2. STATISTIQUE DESCRIPTIVE

– si le nombre d’observations est impair la mediane est x = xn/2+1.

(ii) Pour les donnees groupees la classe mediane est celle qui contient la mediane. En admettant que les obser-vations appartenant a cette classe sont reparties uniformement, la mediane aura pour expression :

x = x′i + ∆xi1/2− Fi

ni

oui est l’indice de la classe mediane.x′i est la limite inferieure de cette classe.∆xi est l’intervalle de la classe i.Fi est la frequence cumulee relative de la classe i.

Exemple 3.3.7. Pour les donnees de l’exemple (3.3.1), nous avons :

x = 66

Definition 3.3.8 (Quartiles). On definit de facon similaire les quartiles i.e les 3 quantites qui separent les donneesen 4 groupes contenant le meme nombre de donnees. On notera Q1, Q2 et Q3 les trois quartiles.

Exemple 3.3.9. Considerons les 24 donnees suivantes :8 13 27 32 25 16 32 27 8 28 79 25 35 25 38 29 80 50 38 30 20 20 49 9Ces donnees mises en ordre croissant sont :8 8 9 13 16 20 20 25 25 25 27 27 28 29 30 32 32 35 38 38 49 50 79 80Les quartiles sont alors : Q1 = 20, Q2 = x = 27, 5 et Q3 = 36, 5.

Remarque 3.3.10. Le deuxieme quartile est egale a la mediane.

Definition 3.3.11 (Mode). On appelle mode d’une distribution non groupee toute valeur rendant maximale lafrequence. On appelle classe modale d’une distribution groupee toute classe rendant maximale le rapport :

FrequenceIntervalle de classe

Exemple 3.3.12. Pour les donnees de l’exemple (3.3.1), il y a 3 modes : 63,66,70.

Remarque 3.3.13. (i) Le mode est une valeur qui rend maximum la representation graphique des frequencesnon cumulees.

(ii) Dans le cas d’une distribution theorique d’une variable aleatoire continue le mode est toute valeur qui maximisela fonction de densite. C’est la valeur “la plus probable”.

Les parametres de position sont tres insuffisants pour caracteriser des donnees ; aussi nous avons besoin de savoirsi les observations sont concentrees ou non autour d’un parametre de position. C’est ce critere que l’on qualifie al’aide des parametres de dispersion. Le parametre le plus connu et le plus utilise est la variance d’un echantillon.

Definition 3.3.14 (Variance d’un echantillon). On appelle variance de l’echantillon la quantite :– Si les donnees sont sous la forme d’une serie statistique

s2 =1n

n∑i=1

(xi − x)2

– Si les donnees sont sous la forme d’une distribution de frequences absolues

s2 =1n

p∑i=1

ni(xi − x)2

Remarque 3.3.15. (i) On note souvent SCE =∑n

i=1(xi − x)2. SCE est la Somme des Carres des Ecarts,sous entendu a la moyenne.

Page 17: Département Biosciences Végétales Module : Statistique 1

3. STATISTIQUE DESCRIPTIVE A UNE DIMENSION 13

0 10 20 300

0.02

0.04

0.06

0.08

0.1

densitémodemoyennemédiane

−1 0 1 2 3 4 50

0.1

0.2

0.3

0.4

densitémodemoyennemédiane

0 5 10 150

0.1

0.2

0.3

0.4

densitémodemoyennemédiane

0 5 10 150

0.05

0.1

0.15

0.2

densitémodemoyennemédiane

Fig. 2.8 – Differences entre le mode, la moyenne et la mediane

(ii) On peut aussi ecrire :

SCE =n∑

i=1

(x2i − 2xix + x2) (2.1)

=n∑

i=1

x2i − 2x

n∑i=1

xi +n∑

i=1

x2 (2.2)

=n∑

i=1

x2i − 2nx2 + nx2 (2.3)

=n∑

i=1

x2i − nx2 (2.4)

Lorsque l’on effectue les calculs a la main, c’est la formule (2.4) que l’on utilise.

Exemple 3.3.16. Pour les donnees de l’exemple (3.3.1), nous avons :

s2 = 11, 3223cm2

Remarque 3.3.17. On demontre que l’on a toujours :n∑

i=1

(xi − a)2 >n∑

i=1

(xi − x)2 = ns2 si a 6= x

Definition 3.3.18 (Ecart type2). L’ecart type est la racine carre de la variance.

Exemple 3.3.19. Pour les donnees de l’exemple (3.3.1), nous avons : s =√

s2 = 3, 3649cm

Remarque 3.3.20. L’ecart type a la meme dimension que les donnees (ce qui n’est pas le cas de la variance).

Definition 3.3.21 (Cœfficient de variation). On appelle cœfficient de variation l’indice de dispersion relatif exprimeen pourcentage :

cv =s

x× 100

On suppose bien evidemment que x est different de 0.2standard deviation en anglais

Page 18: Département Biosciences Végétales Module : Statistique 1

14 CHAPITRE 2. STATISTIQUE DESCRIPTIVE

Exemple 3.3.22. Pour les donnees de l’exemple (3.3.1), nous avons :

cv = 5, 148%

Definition 3.3.23 (Amplitude). On appelle amplitude l’ecart entre les valeurs extremes des donnees

Exemple 3.3.24. Pour les donnees de l’exemple (3.3.1), nous avons :

w = 11

Definition 3.3.25 (Ecart interquartile). On appelle ecart interquartile la difference entre le troisieme et le premierquartile : Q3 −Q1

Exemple 3.3.26. Pour les donnees de l’exemple (3.3.9), nous avons :

Q3 −Q1 = 16, 5

Definition 3.3.27 (boıte a moustaches3). Le diagramme en boıte a moustaches ou box-plot represente schematiquementles principales caracteristiques d’une variable numerique en utilisant les quartiles. On represente la partie centralede la distribution par une boıte de largeur quelconque et de longueur l’intervalle interquartile. On trace a l’interieurla position de la mediane et on complete la boıte par des ”moustaches“ de valeurs :

– Pour la ”moustache superieure“ : la plus grande valeur inferieure a Q3 + 1, 5(Q3 −Q1).– Pour la ”moustache inferieure“ : la plus petite valeur superieure a Q1 − 1, 5(Q3 −Q1).

Les valeurs exterieures representees par des * sont celles qui sortent des ” moustaches“.

Exemple 3.3.28. Reprenons l’exemple (3.3.9). Nous avons Q1 = 20, x = 27, 5 Q3 = 36, 5 et Q3 − Q1 = 16, 5.Par suite :

– la plus grande des donnees inferieure a Q3 + 1, 5(Q3 −Q1) est 50 ;– la plus petite des donnees superieure a Q1 − 1, 5(Q3 −Q1) est 8.

D’ou le schema suivant :

10 20 30 40 50 60 70 80

1

Values

Col

umn

Num

ber

Fig. 2.9 – Boıte a moustaches

Definition 3.3.29 (Moment d’ordre k par rapport a un point c). On appelle moment d’ordre k par rapport a unpoint c la quantite :

– Si les donnees sont sous la forme d’une serie statistique

1n

n∑i=1

(xi − c)k

– Si les donnees sont sous la forme d’une distribution de frequences

1n

p∑i=1

ni(xi − c)k

Notation 3.3.30. (i) Lorsque c = 0 le moment d’ordre k s’appelle moment par rapport a l’origine et on le noteak.

3boxplot en anglais

Page 19: Département Biosciences Végétales Module : Statistique 1

3. STATISTIQUE DESCRIPTIVE A UNE DIMENSION 15

(ii) Lorsque c = x le moment d’ordre k s’appelle moment centre et on le note mk.

Remarque 3.3.31. a1 = x, m1 = 0 et m2 = s2.

Remarque 3.3.32. (i) Les moments centres d’ordre k pairs sont des parametres de dispersion.(ii) Les moments centres d’ordre k impairs sont des indices de dissymetrie ou d’obliquite : Ils sont nuls pour les

distributions symetriques et differentes de 0 pour les distributions dissymetriques.

Definition 3.3.33 (Cœfficients de Pearson). Les cœfficients de Pearson sont :(i) Le degre de symetrie donne par

b1 =m2

3

m32

=m2

3

s6

(ii) Le degre d’aplatissement4 donne par :b2 =

m4

m22

=m4

s4

Exemple 3.3.34. Pour les donnees de l’exemple (3.3.1), nous avons :

b1 = 0, 0298 b2 = 2, 12

Definition 3.3.35 (Cœfficient de Fisher). Les cœfficients de Fisher sont :(i) Le degre de symetrie5 donne par :

g1 =m3

m3/22

=m3

s3=√

b1

(ii) Le degre d’aplatissement donne par :

g2 =m4

m22

− 3 =m4

s4− 3 = b2 − 3

Exemple 3.3.36. Pour les donnees de l’exemple (3.3.1), nous avons :

g1 = 0, 1726 g2 = −0, 88

Remarque 3.3.37. Pour la loi normale reduite (cf. chapitre sur les probabilites) on a : g1 = 0 et g2 = 0.

Les figures (2.10,2.11) donnent des exemples de distributions theoriques avec differentes valeurs des cœfficientsde symetrie et d’aplatissement.

0 1 2 3 4 5 60

0.1

0.2

0.3

0.4

0.5β

1=0

β1=1.75

β1=1.5

Fig. 2.10 – Differentes fonctions de densite pour differentes valeur du cœfficient de symetrie

3.4 Exemples

Exemple 3.4.1. Les donnees de la table (2.2) sont des longueurs de la rectrice centrale de la gelinotte huppeemale, juvenile. La figure (2.12) donne les differentes representations graphiques de ces donnees.

Exemple 3.4.2. Les figures (2.13) et (2.14) donnent pour les memes donnees respectivement les histogrammes etles boıtes a moustaches pour les longueurs d’ailes de mesanges noires selon leur ages et leurs sexes.

4kurtosis en anglais, attention le terme kurtosis est parfois aussi utilise pour designer le cœfficient g2 de Fisher ci-apres5skewness en anglais

Page 20: Département Biosciences Végétales Module : Statistique 1

16 CHAPITRE 2. STATISTIQUE DESCRIPTIVE

−3 −2 −1 0 1 2 30

0.1

0.2

0.3

0.4

γ2=0

γ2=2

γ2=−1.2

Fig. 2.11 – Differentes fonctions de densite pour differentes valeur du cœfficient d’applatissement

153 165 160 150 159 151 163160 158 149 154 153 163 140158 150 158 155 163 159 157162 160 152 164 158 153 162166 162 165 157 174 158 171162 155 156 159 162 152 158164 164 162 158 156 171 164158

Tab. 2.2 – Longueurs de la rectrice centrale de la gelinotte huppee male, juvenile

140 150 160 170 1800

0.5

1

1.5

2

longueur140 150 160 170

1

longueur

150 160 1700

0.02

0.04

0.06

0.08

longueur

Fig. 2.12 – Donnees, boıte a moustaches et histogramme

5859 60 6162 6364 65 6667 680

0.1

0.2

0.3

0.4

0.5

0.6

longueur d’ailes en mm

Mâles adultes

58 5960 61 6263 64 6566 67 680

0.1

0.2

0.3

0.4

0.5

0.6

longueur d’ailes en mm

Mâles immatures

5859 60 6162 6364 65 6667 680

0.1

0.2

0.3

0.4

0.5

0.6

longueur d’ailes en mm

Femelles adultes

58 5960 61 6263 64 6566 67 680

0.1

0.2

0.3

0.4

0.5

0.6

longueur d’ailes en mm

Femelles immatures

Fig. 2.13 – Distributions des longueurs d’ailes de mesanges noires selon leur age et sexe

4 Statistique descriptive a 2 dimensions

4.1 Introduction

De meme qu’en dimension 1 nous desirons representer les donnees sous la forme de tableaux ou de graphiquesou de reduire les donnees a quelques parametres. La grande difference avec la section precedente est que nous

Page 21: Département Biosciences Végétales Module : Statistique 1

4. STATISTIQUE DESCRIPTIVE A 2 DIMENSIONS 17

1 2 3 4

58

59

60

61

62

63

64

65

66

67

68

Long

ueur

d’a

iles

en m

m

Mâles adultes Mâles immatures Femelles adultes Femelles immatures

Fig. 2.14 – Distributions des longueurs d’ailes de mesanges noires selon leur age et sexe

pouvons essayer de mettre en evidence les relations qui peuvent exister entre deux caracteres.Comme en dimension 1 nous nous interessons a des variables quantitatives et nous aurons comme donnees

initiales une suite double :x1, x2, . . . , xn

y1, y2, . . . , yn

La valeur du caractere 1 pour l’individu i est xi La valeur du caractere 2 pour l’individu i est yi

Definition 4.1.1 (Serie statistique double). On appelle serie statistique double la suite de n couples de valeurs(xi, yi).

Exemple 4.1.2. Poids des feuilles et poids des racines (en grammes) de 1000 individus de Cichorium intybus (cetexemple provient de l’ouvrage de Dagnelie).

feuilles : 71 76 106 108 109 111 111 112 . . . 662 673 679 741racines : 56 51 40 174 62 59 84 94 . . . 174 290 290 230

4.2 Les distributions en frequences

Comme dans le cas monodimensionnel lorsque le nombre de donnees est trop important nous condensons desdonnees en une distribution de frequences. Pour cela nous construisons un tableau a double entree ; le nombred’individus nij ayant les occurrences xi et yj des caracteres x et y se trouve a l’intersection de la ligne i et de lacolonne j. Dans ce paragraphe les indices i et j qualifient les occurrences des caracteres pour des variables discreteset les classes pour des variables continues et non pas des individus : xi 6= xi′ si i 6= i′ et yj 6= yj′ si j 6= j′. Letableau que l’on construit a donc la structure suivante :

x : y y1 y2 . . . yj . . . yq Totauxx1 n11 n12 . . . n1j . . . n1q n1.

......

......

......

xi ni1 ni2 . . . nij . . . niq ni.

......

......

......

xp np1 np2 . . . npj . . . npq np.

Totaux n.1 n.2 . . . n.j . . . n.q n..

Definition 4.2.1 (Frequence marginale). On appelle frequence marginale les quantites definies par :

ni. =q∑

j=1

nij

n.j =p∑

i=1

nij

Notation 4.2.2. Nous rappelons que le point en indice signifie que l’on a somme sur cet indice. Avec cette notation,nous avons donc aussi :

n.. =p∑

i=1

q∑j=1

nij =p∑

i=1

ni. =q∑

j=1

n.j

Page 22: Département Biosciences Végétales Module : Statistique 1

18 CHAPITRE 2. STATISTIQUE DESCRIPTIVE

Remarque 4.2.3. (i) Nous avons pris ici le cas des frequences absolues mais nous pouvons bien evidemmentconstruire des tableaux de frequences relatives :

n,ij =

nij

n

(ii) Nous ne construisons pas en general de tableau de frequences cumulees.

(iii) Nous pouvons bien entendu etudier separement les caracteres x et y et notamment faire deux statistiquesdescriptives a une dimension. Cela revient alors a travailler avec les frequences marginales.

Definition 4.2.4 (Frequence conditionnelle relative). On appelle frequence conditionnelle relative pour que x = xi

(respectivement y = yj ) sachant que y = yj (respectivement x = xi) la quantite :

fi/j =nij

n.j

(respectivement

fj/i =nij

ni.)

Definition 4.2.5 (Profils lignes, profils colonnes). On appelle profils lignes (respectivement profils colonnes) letableau des frequences conditionnelles relatives fj/i (respectivement fi/j).

Remarque 4.2.6. (i) Le tableau de frequence relative est une representation empirique de la fonction de proba-bilite d’un couple de variables aleatoires et les frequences conditionnelles relatives representent des probabilitesconditionnelles.

(ii) le tableau des profils lignes est une representation empirique les lois de distributions conditionnelles.

(iii) Si la tableau de contingence comporte en fait en ligne differentes populations et en colonne les differentesmodalites d’un caractere qualitatif (c’est-a-dire les valeurs d’une variable aleatoire discrete), alors les profilslignes sont les lois de probabilites sur les differentes populations du caractere etudie.

Exemple 4.2.7. Avec les donnees de l’exemple (4.1.2) nous obtenons :Feuilles :Racines 40 a 80 a 120 a 160 a 200 a 240 a 280 a 320 a Totaux

79 119 159 199 239 279 319 2590 a 79 2 2

80 a 159 49 46 5 2 102160 a 239 86 137 46 11 280240 a 319 27 153 89 25 7 301320 a 399 5 45 91 40 6 187400 a 479 10 33 21 16 1 1 82480 a 559 1 4 11 10 3 29560 a 639 2 1 2 4 1 10640 a 719 1 3 2 6720 a 799 1 1Totaux 169 392 270 112 42 11 3 1 1000

Exemple 4.2.8. La table (4.2.8) donne l’evolution de l’age de la population agricole familiale dans un canton duLoiret. La table (2.4) donne quant-a elle les profils lignes.

Annee :Age < a 25 ans 25 a 34 ans 35 a 44 ans 45 a 54 ans 55 a 64 ans > a 65 ans Total1970 88 24 27 61 20 25 2451979 63 17 20 39 27 25 1911988 41 15 18 22 31 17 144Total 192 56 65 122 78 67 580

Tab. 2.3 – Tableau de contingence, exploitations agricoles dans le Loiret

Page 23: Département Biosciences Végétales Module : Statistique 1

4. STATISTIQUE DESCRIPTIVE A 2 DIMENSIONS 19

Annee :Age < a 25 ans 25 a 34 ans 35 a 44 ans 45 a 54 ans 55 a 64 ans > a 65 ans1970 0.3592 0.0980 0.1102 0.2490 0.0816 0.10201979 0.3298 0.0890 0.1047 0.2042 0.1414 0.13091988 0.2847 0.1042 0.1250 0.1528 0.2153 0.1181

Tab. 2.4 – Tableau des profils lignes

−3 −2 −1 0 1 2 3 4 5 6 7

−6

−4

−2

0

2

4

6

8

10

12

x

y

Fig. 2.15 – Nuage de points

4.3 Representations graphiques

Les series statistiques doubles peuvent etre representees par un nuage de points (2.15).

Quant aux distributions de frequences elles se representent dans un espace a trois dimensions par un diagrammeen batons si les variables sont discretes et par un stereogramme si la variable est continue. Un stereogramme est undiagramme compose de parallelepipedes rectangles de bases les rectangles correspondant aux cellules du tableaustatistique et de hauteur les frequences divisees par la surface de la base (ceci toujours pour avoir une estimationde la densite de probabilite).

Exemple 4.3.1. Avec les donnees de l’exemple (4.1.2) on obtient la figure (2.16)

40120

200280

360440

520600

680760

0

50

100

150

200

RacineFeuilles

Fré

quen

ces

abso

lues

Fig. 2.16 – Stereogramme

Exemple 4.3.2. Reprenons l’exemple (4.2.8) de l’evolution de l’age de la population agricole familiale dans uncanton du Loiret. On peut representer les profils lignes (2.17). ceci nous permet de visualiser les differences derepartition des ages en fonction des annee. Ici, nous avons l’ensemble des populations etudiees, les profils lignessont donc exactement les lois de probabilites sur ces 3 populations. Dans le cas ou nous n’aurions , pour chaquepopulation que des echantillons, il faudrait effectuer un test statistique (test du χ2 ici) pour savoir s’il y a reellementune difference dans les lois de distributions. Ceci est hors de notre programme.

Page 24: Département Biosciences Végétales Module : Statistique 1

20 CHAPITRE 2. STATISTIQUE DESCRIPTIVE

0 1 2 3 4 5 6 70

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45Profils lignes

Fig. 2.17 – Profils lignes

4.4 Reduction des donnees

Nous avons ici deux types de parametres, tout d’abord les parametres lies a une seule variable qui caracterisentles frequences marginales et conditionnelles. Nous avons dans ce cas les parametres habituels de la statistiquedescriptive a une dimension qui sont principalement les moyennes marginales x et y et les variances marginaless2

x et s2y, ainsi que les moyennes conditionnelles xj et yi et les variances conditionnelles s2

x/j et s2i/y. Ensuite nous

avons les parametres permettant de decrire des relations existant entre les deux series d’observations. Ce sont cesparametres que nous allons etudier maintenant.

Definition 4.4.1 (Covariance d’un echantillon). On appelle covariance d’un echantillon la quantite :– Si les donnees sont sous la forme d’une serie statistique double

cov(x, y) =1n

n∑i=1

(xi − x)(yi − y)

– Si les donnees sont sous la forme d’une distribution en frequence

cov(x, y) =1n

p∑i=1

q∑j=1

nij(xi − x)(yj − y)

Remarque 4.4.2.

On note souvent SPE =∑n

i=1(xi − x)(yi − y). SPE est la Somme des Produits des Ecarts, sous entendu auxmoyennes.

On peut aussi ecrire :

SPE =n∑

i=1

(xiyi − xiy − yix + xy) (2.5)

=n∑

i=1

xiyi − yn∑

i=1

xi − xn∑

i=1

yi +n∑

i=1

xy (2.6)

=n∑

i=1

xiyi − 2nxy + nxy (2.7)

=n∑

i=1

xiyi − nxy (2.8)

Lorsque l’on effectue les calculs a la main, c’est la formule (2.8) que l’on utilise.

Exemple 4.4.3. On considere la serie statistique double suivante :x 165,5 164,0 156,0 174,0 169,0 157,5 159,0 152,0 155,0 159,0y 177,0 172,0 163,0 183,5 171,5 165,0 160,5 154,5 163,0 162,0

x (respectivement y) represente la taille (respectivement l’envergure) de 10 adolescents nes en 1947 (mensura-tions relevees en 1962). On a alors :

cov(x, y) = 49, 68

Page 25: Département Biosciences Végétales Module : Statistique 1

4. STATISTIQUE DESCRIPTIVE A 2 DIMENSIONS 21

Remarque 4.4.4. (i) La covariance peut-etre positive ou negative. Une covariance positive (respectivementnegative) indique une relation entre les donnees croissantes (respectivement decroissantes), i.e. que les valeurselevees d’une serie correspondent, dans l’ensemble, a des valeurs elevees (respectivement faibles) de l’autre.

(ii) L’existence de termes positifs et negatifs dans le calcul de la covariance justifie pour celle-ci l’absence decorrection analogue aux corrections de Sheppard.

Theoreme 4.4.5. On a toujours la relation suivante :

|cov(x, y)| ≤ sxsy

L’egalite n’a lieu que si les points (xi, yi) sont alignes.

DemonstrationDeveloppons l’expression positive suivante :

1n

n∑i=1

(λ(xi − x)− (yi − y))2 = λ2s2x − 2λcov(x, y) + s2

y ≥ 0

On sait qu’une condition necessaire et suffisante pour qu’un trinome soit toujours de meme signe est que sondiscriminant ∆ soit negatif ou nul. Par suite nous avons :

∆ = 4cov2(x, y)− 4s2xs2

y ≤ 0

⇐⇒ cov2(x, y) ≤ s2xs2

y

⇐⇒ |cov(x, y)| ≤ sxsy

De plus nous avons l’egalite |cov(x, y)| = sxsy si et seulement si ∆ = 0 et donc s’il existe λ1 = cov(x, y)/s2x tel que

n∑i=1

(λ1(xi − x)− (yi − y))2 = 0 ⇐⇒ λ1(xi − x) = yi − y ∀i

⇐⇒ Les points (xi, yi)i=1,...,n sont alignes

2

4.5 Droite de regression

Introduction

Exemple 4.5.1. 6 On desire savoir comment le taux de cholesterol serique depend de l’age chez l’homme. Pourcela on a pris 5 echantillons d’hommes adultes d’ages bien determines 25, 35, 45, 55 et 65 ans. On a obtenu lesdonnees suivantes :

Ages 25 25 25 25 25 25 25 35 35 35Taux 1.8 2.3 2 2.4 2 2.5 2.6 2.6 2.9 2.3

Ages 35 35 35 35 45 45 45 45 45 45Taux 2.4 2.1 2.5 2.7 2.7 3 3.1 2.3 2.5 3

Ages 45 45 55 55 55 55 55 65 65 65Taux 3.3 2.7 3.1 2.9 3.4 2.4 3.4 3.7 2.8 3.3

Ages 65 65 65Taux 3.5 3.3 2.6

La figure 2.18 donne la representation graphique de ces donnees.

Que peut-on conclure de ces donnees ?En pratique nous sommes souvent amenes a rechercher une relation entre deux variables x et y. Pour cela, dans

un premier temps, nous collectons des donnees (x1, y1), (x2, y2), . . . , (xn, yn). Ensuite nous representons graphique-ment ces donnees. Nous pouvons par exemple avoir les cas suivants :

6Exemple provenant de l’ouvrage de Gremy et Salmon, ”Bases statistiques”, page 122.

Page 26: Département Biosciences Végétales Module : Statistique 1

22 CHAPITRE 2. STATISTIQUE DESCRIPTIVE

20 25 30 35 40 45 50 55 60 65 701

1.5

2

2.5

3

3.5

4

Ages

Taux

Fig. 2.18 – Taux de cholesterol en fonction de l’age

0 2 4 60

2

4

6

8

10

12

x

y

Cas (a)

0 2 4 60

1

2

3

4

5

6

7

8

9

10

x

y

Cas (b)

0 2 4 60

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

x

y

Cas (c)

Fig. 2.19 – Differentes formes de graphes

Suivant les cas de la figure 2.19, nous pouvons penser aux modeles :

Cas (a) y(x) = β0 + β1x ;

Cas (b) y(x) = β0 + β1x + β2x2 ;

Cas (c) pas de modele.

L’objet de la regression lineaire simple est l’etude du cas (a). L’un des buts de la regression lineaire simple estde predire la ”meilleure” valeur de y connaissant x (si le modele lineaire est bien evidemment correct). L’objectifde cette section est uniquement descriptif, aussi nous n’allons etudier que l’estimation ponctuelle des parametres.

Estimation des parametres

Une droite sera d’autant plus proche des points Mi(xi, yi) que les ecarts entre ces points et la droite serontfaibles. L’un des criteres les plus utilises est le critere des moindres carres qui est la somme des carres des ecartsri = yi − yi (cf figure (2.20)).

Ici, les points (xi, yi)i=1,...,n sont connus, la question est de trouver les valeurs des parametres β0 et β1 quirendent la valeur du critere la plus faible possible. Nous sommes ainsi ramene au probleme d’optimisation suivant :

(P )

Min f(β) = 12

∑ni=1 r2

i = 12

∑ni=1(yi − β0 − β1xi)2

β ∈ R2

En effet, plus f(β) sera proche de 0, plus les carres des residus, donc les residus ri seront ”proches” de 0.

Page 27: Département Biosciences Végétales Module : Statistique 1

4. STATISTIQUE DESCRIPTIVE A 2 DIMENSIONS 23

0 2 4 6 8 100

5

10

15

20

25

← r1

← r2

← r3

← r4 ← r

5

← r6

← r7

← r8

← r9

← r10

x

y

Fig. 2.20 – Moindres carres.

Theoreme 4.5.2. La solution du probleme (P ) est :

β0 = y − β1x (2.9)

β1 =∑n

i=1(yi − y)(xi − x)∑ni=1(xi − x)2

=SPE

SCEx(2.10)

DemonstrationOn demontre qu’une condition necessaire et suffisante de solution du probleme d’optimisation est f ′(β) = (0, 0).D’ou le systeme lineaire suivant :

nβ0 + β1

n∑i=1

xi =n∑

i=1

yi

β0

n∑i=1

xi + β1

n∑i=1

x2i =

n∑i=1

xiyi

(2.11)

y = β0 + β1x

nβ0x + β1

n∑i=1

x2i =

n∑i=1

xiyi

y = β0 + β1x

n(y − β1x)x + β1

n∑i=1

x2i =

n∑i=1

xiyi

y = β0 + β1x

β1(n∑

i=1

x2i − nx2) =

n∑i=1

xiyi − nxy

y = β0 + β1x

β1 =SPE

SCEx

2

Remarque 4.5.3. On a suppose dans le calcul que SCEx 6= 0, c’est-a-dire que tous les xi ne sont pas identiques.

Nous noterons dans la suite β0 et β1 ces solutions.

Exemple 4.5.4. Reprenons l’exemple (4.5.1). Lorsque l’on effectue les calculs a la main il est utile de calculer letableau preliminaire 2.6.

Les estimations ponctuelles sont alors

β1 =4103.5− 1445× 90.1

33

69625− 14452

33

=158.26351.5

= 0.025

β0 = 2.73− 0.025× 43.79 = 1.64

Page 28: Département Biosciences Végétales Module : Statistique 1

24 CHAPITRE 2. STATISTIQUE DESCRIPTIVE

y x xy y2 x2

1 y1 x1 x1y1 y21 x2

1...

......

......

...i yi xi xiyi y2

i x2i

......

......

......

n yn xn xnyn y2n x2

n

Totaux Y. X.

∑i xiyi

∑i y2

i

∑i x2

i

Moyennes y. x.

Tab. 2.5 – Calculs preliminaires

x y xy x2 y2

1 25 1.8 45.0 625 3.242 25 2.3 57.5 625 5.293 25 2.0 50.0 625 4.004 25 2.4 60.0 625 5.765 25 2.0 50.0 625 4.006 25 2.5 62.5 625 6.257 25 2.6 65.0 625 6.768 35 2.6 91.0 1225 6.769 35 2.9 101.5 1225 8.41...

......

......

...33 65 2.6 169.0 4225 6.76

Totaux 1445 90.1 4103.5 69625 253.31Moyennes 43.79 2.73

Tab. 2.6 – Calculs preliminaires sur l’exemple

Remarque 4.5.5. Nous noterons ri le residu d’indice i :

ri = yi − (β0 + β1xi) = yi − yi

On verifie alors que ∑ni=1 ri =

∑ni=1(yi − (β0 + β1xi))

=∑n

i= yi −∑n

i=1 β0 −∑n

i=1 β1xi

= ny − nβ0 − nxβ1 = 0

De la meme facon que nous avons cherche a “exprimer” y en fonction de x, on peut essayer d’“exprimer” x enfonction de y et nous obtenons ainsi la droite de regression d’equation :

x = β1xyy + β0xy

Les estimations sont alors

β1xy =SPE

s2y

et β0xy = x− β1xy y

Exemple 4.5.6. Si nous reprenons les donnees de l’exemple (4.5.1) nous obtenons :

β1xy = 21.64 β0xy = −15, 29β1yx = 0.025 β0yx = 1.64

Definition 4.5.7 (Cœfficient de correlation lineaire). On appelle cœfficient de correlation lineaire le rapport de lacovariance sur les produits des ecart-types :

r =cov(x, y)

sxsy

Page 29: Département Biosciences Végétales Module : Statistique 1

4. STATISTIQUE DESCRIPTIVE A 2 DIMENSIONS 25

On peut aussi ecrire

r =SPE√

SCExSCEy

Notons ~xc (respectivement ~yc) le vecteur des donnees centrees de la variable x (respectivement y). C’est-a-dire que~xc = (x1 − x, . . . , xn − x)T et ~yc = (y1 − y, . . . , yn − y)T . Ces vecteurs sont dans Rn. Alors SPE est le produitscalaire entre ces deux vecteurs centrees et SCEx et SCEy sont les normes au carres de ces vecteurs. Par suite lecœfficient de correlation lineaire s’interprete comme le cosinus de l’angle de ces deux vecteurs de Rn. On en deduitla remarque suivante.

Remarque 4.5.8. Le cœfficient de correlation lineaire a les proprietes suivantes :

(i)r ∈ [−1,+1]

.

(ii) |r| = 1 si et seulement si les points (xi, yi) sont alignes.

On montre que l’on a en fait les differents cas de figures suivant

sx>s

ys

x=s

ys

x<s

y

r=1

r~1

0<r<1

r=0

−1<r<0

r~−1

r=−1

−2 0 2−5

0

5

y

−2 0 2−2

0

2

−5 0 5−2

0

2

−2 0 2−10

0

10

y

−2 0 2−5

0

5

−5 0 5−2

0

2

−2 0 2−5

0

5

y

−5 0 5−5

0

5

−5 0 5−2

0

2

−2 0 2−5

0

5

y

−5 0 5−5

0

5

−5 0 5−2

0

2

−2 0 2−5

0

5

y

−5 0 5−5

0

5

−10 0 10−2

0

2

−1 0 1−5

0

5

y

−5 0 5−5

0

5

−10 0 10−2

0

2

−2 0 2−5

0

5

y

x−5 0 5

−5

0

5

x−5 0 5

−2

0

2

x

Fig. 2.21 – Liens entre les nuages de points et le cœfficient de correlation lineaire

Page 30: Département Biosciences Végétales Module : Statistique 1

26 CHAPITRE 2. STATISTIQUE DESCRIPTIVE

Remarque 4.5.9. Nous tenons a bien faire remarquer que le cœfficient de correlation lineaire ne mesure qu’uneliaison de nature lineaire. Pour les 5 graphiques de la figure (2.22), on a les memes valeurs de x, y, sx, sy, r et doncla meme droite de regression. Il est evident que les phenomenes sont tres differents :

(i) pour le graphique en haut a gauche, il y a une forte dispersion mais le modele lineaire semble a prioriapproprie ;

(ii) pour le graphique en haut a droite, un modele parabolique serait sans doute plus adapte ;

(iii) pour le graphique au milieu a gauche, il y a sans doute une donnee aberrante qui a un fort residu ;

(iv) pour le graphique au milieu a droite, la dispersion des donnees semble augmenter quand x augmente ;

(v) pour le graphique en bas a gauche, il y a une donnee qui a une forte influence et un residu nul.

0 10 20 300

10

20

30

x

y

0 10 20 300

10

20

30

xy

0 10 20 300

10

20

30

x

y

0 10 20 300

10

20

30

x

y

0 10 20 300

10

20

30

x

y

Fig. 2.22 – Exemple de donnees ayant les memes valeurs des parametres x, y, sx, sy et r et donc la meme droite deregression

5 Complements

5.1 Changement de variables

Nous allons tout d’abord voir que lorsque le modele n’est pas au depart lineaire, on peut parfois s’y ramenerpar un bon changement de variable. Considerons l’exemple suivant :

Exemple 5.1.1. Le carbone radioactif 14C est produit dans l’atmosphere par l’effet des rayons cosmiques surl’azote atmospherique. Il est oxyde en 14CO2 et absorbe sous cette forme par les organismes vivants qui, par suite,contiennent un certain pourcentage de carbone radioactif relativement aux carbones 12C et 13C qui sont stables. Onsuppose que la production de carbone 14C atmospherique est demeuree constante durant les derniers millenaires. Onsuppose d’autre part que, lorsqu’un organisme meurt, ses echanges avec l’atmosphere cessent et que la radioactivitedue au carbone 14C decroit suivant la loi exponentielle suivante :

A(t) = A0e−λt

ou λest une constante positive, t represente le temps en annee et A(t) est la radioactivite exprimee en nombre dedesintegrations par minute et par gramme de carbone. On desire estimer les parametres A0 et λ par la methode desmoindres carres. Pour cela on analyse les troncs (le bois est un tissu mort) de tres vieux arbres Sequoia giganteaet Pinus aristaca. Par un prelevement effectue sur le tronc, on peut obtenir :

Page 31: Département Biosciences Végétales Module : Statistique 1

5. COMPLEMENTS 27

– son age t en annee, en comptant le nombre des anneaux de croissance,– sa radioactivite A en mesurant le nombre de desintegration.

t 500 1000 2000 3000 4000 5000 6300A 14.5 13.5 12.0 10.8 9.9 8.9 8.0

Posons y(t) = lnA(t), β0 = ln A0, β1 = −λ et yi = ln(Ai). Le modele s’ecrit alors

y(t) = β0 + β1

Nous sommes donc ramene au cas de la regression lineaire simple.

5.2 Cas a plus d’une variable explicative

Cette section depasse le cadre de la statistique descriptive puisque si nous avons par exemple 4 variables, nous nepouvons plus faire de graphique. Mais nous allons voir cependant qu’en ce qui concerne l’estimation des parametres,cela ne change pas grand chose.

Avant de passer au cas a p variables, nous allons reecrire le probleme de la regression lineaire simple a 1 variable.Posons

y =

y1

...yi

...yn

; X =

1 x1...

...1 xi

......

1 xn

; β =(

β0

β1

)et r =

r1

...ri

...rn

alors

yi = β0 + β1xi + ri ∀i = 1, . . . , n (2.12)

est equivalent ay = Xβ + r (2.13)

et le probleme d’optimisation s’ecrit alors

(P )

Min f(β) = 12

∑ni=1(yi − β0 − β1xi)2 = 1

2 ||Xβ − y||2β ∈ R2

La condition necessaire de solution du premier ordre nous donne alors (derivee des fonctions composees) ce quenous appelons l’equation normale

∇f(β) = tXX − tXy = 0 (2.14)

La derivee seconde de f est alors :∇2f(β) = tXX

On demontre en optimisation que dans ce cas si ∇2f(β) est semi-definie positive alors la fonction f est convexe(graphiquement c’est une cuvette pour une fonction de R2 a valeurs dans R) et dans ce cas l’equation (2.14) estune condition necessaire et suffisante de solution de notre probleme d’optimisation. Or ici

(tXXβ|β) = (Xβ|Xβ) ≥ 0

ceci pour tout β, donc ∇2f(β) est bien semi-definie positive.

Remarque 5.2.1. Dans le cas de la regression lineaire simple, si on developpe l’equation normale (2.14), onretrouve bien le systeme lineaire (2.11).

Nous allons maintenant etudier le cas ou l’on a plus d’une variable explicative.Considerons le modele :

y(x) = β0 + β1x1 + · · ·βpxp (2.15)

ou x = (x1, . . . , xp).On collecte n (p+1)-uplets (yi, xi1, . . . , xip)i=1,...,n. Notre probleme d’optimisation pour estimer nos parametres

s’ecrit alors

(P )

Min f(β) = 12

∑ni=1(yi − β0 − β1xi1 − · · · − βpxip)2 = 1

2 ||Xβ − y||2β ∈ R2

avec ici

Page 32: Département Biosciences Végétales Module : Statistique 1

28 CHAPITRE 2. STATISTIQUE DESCRIPTIVE

y =

y1

...yi

...yn

; X =

1 xi1 . . . xip

......

...1 xi1 . . . xip

......

...1 xn1 . . . xnp

; β =

β0

...βp

et r =

r1

...ri

...rn

Par suite l’estimation des parametres est aussi donne par la resolution du systeme lineaire des equations normales

tXXβ = tXy

Page 33: Département Biosciences Végétales Module : Statistique 1

6. EXERCICES 29

6 Exercices

6.1 Exercices avec solutions

Exercice 6.1.1. On observe les arrivees des clients a un bureau de poste pendant un intervalle de temps donne(10 minutes). En repetant 100 fois cette observation, on obtient les resultats suivants.

Nombre d’arrivees 1 2 3 4 5 6 TotalNombre d’observa-tions

15 25 26 20 7 7 100

(i) Representer graphiquement ces resultats.

(ii) Calculer la valeur de la moyenne arithmetique, de la mediane, de la variance et de l’ecart type des resultats,du coefficient de variation, de l’amplitude et de l’ecart moyen des observations.

Correction

(i) Le diagramme en batons des frequences relatives est le suivant :

1 2 3 4 5 60

0.05

0.1

0.15

0.2

0.25

0.3

Nombre d’arrivées

Fré

quen

ce r

elat

ive

Diagramme en batons

Le diagramme des frequences cumulees relatives est le suivant :

0 1 2 3 4 5 6 7 8

0

0.2

0.4

0.6

0.8

1

Nombre d’arrivées

Fré

quen

ce c

umul

ée r

elat

ive

Frequences cumulees relatives

(ii) La moyenne arithmetique vaut :

x = 1n

n∑i=1

nixi = 3. La mediane et le mode valent 3.

Page 34: Département Biosciences Végétales Module : Statistique 1

30 CHAPITRE 2. STATISTIQUE DESCRIPTIVE

La variance vaut :

s2 = 1n (

n∑i=1

nix2i − nx2) =1,96 et l’ecart-type s = 1,4. Le coefficient de variation est egal a cv = 46,7 %.

L’amplitude des observations est de 5, l’ecart moyen de

em = 1n

n∑i=1

ni |xi − x| = 1,10.

Exercice 6.1.2. On considere les compositions chimiques de 20 eaux minerales suivantes 7 :

Origines HCO−3 SO−4 Cl− Ca+ Mg+ Na+

Aix-les-Bains 341 27 3 84 23 2Beckerish 263 23 9 91 5 3Cayranne 287 3 5 44 24 23Chambon 298 9 23 96 6 11Cristal-Roc 200 15 8 70 2 4St Cyr 250 5 20 71 6 11Evian 357 10 2 78 24 5Ferita 311 14 18 73 18 13St Hyppolite 256 6 23 86 3 18Laurier 186 10 16 64 4 9Ogeu 183 16 44 48 11 31Ondine 398 218 15 157 35 8Perrier 348 51 31 140 4 14Ribes 168 24 8 55 5 9Spa 110 65 5 4 1 3Thonon 332 14 8 103 16 5Veri 196 18 6 58 6 13Viladreau 59 7 6 16 2 9Vittel 402 306 15 202 36 3Volvic 64 7 8 10 6 8

(i) Calculer les quartiles Q1, Q2, Q3, l’ecart interquartile et les limites des moustaches pour les variables HCO−3et Ca+.

(ii) Representer les boıtes a moustaches pour les variables HCO−3 et Ca+.

Correction

(i)

HCO−3 SO−4 Cl− Ca+ Mg+ Na+

Q1 184.5 8.0 6.0 51.5 4.0 4.5Medianes 259.5 14.5 8.5 72.0 6.0 9.0Q3 336.5 25.5 19.0 93.5 20.5 13.0Ecarts interquartiles 152.0 17.5 13.0 42.0 16.5 8.5Q1 − 1, 5(Q3 −Q1) -43.50 -18.25 -13.50 -11.50 -20.75 -8.25Q3 + 1, 5(Q3 −Q1) 564.50 51.75 38.50 156.50 45.25 25.75Moustaches inferieures 59 3 2 4 1 2Moustaches superieures 402 51 31 140 36 23

(ii)

7Les donnees proviennent de l’ouvrage de R. Tomassone, C. Dervin, J.P. Masson, ” Biometrie, modelisation de phenomenes biolo-giques”, page114.

Page 35: Département Biosciences Végétales Module : Statistique 1

6. EXERCICES 31

1 2 3 4 5 6

0

50

100

150

200

250

300

350

400

Val

ues

Column Number

Boıtes a moustache

Exercice 6.1.3. On a monte une serie d’experiences dans une unite pilote en vue d’etudier l’influence de latemperature sur le rendement d’une reaction chimique sous une pression donnee. Les donnees recueillies sont lessuivantes (x est la temperature t - 60 C ; y est le rendement en %) :

x 1 2 3 4 5 6 7 8 9 10y 4 6 8 11 12 15 16 18 21 22

Etudier la liaison entre y et x. On fera le graphique en “ nuage de points ” des valeurs de y en fonction desvaleurs de x. On construira la droite de regression de y en x et on donnera la valeur du coefficient de correlationlineaire r(X,Y). Pour calculer la valeur des deux coefficients de la droite de regression, on se servira des formulesdans le cas d’une variable explicative et des relations matricielles (cas de plus d’une variable explicative).

Correction

0 5 10 150

5

10

15

20

25

x (t−60) °C

y re

ndem

ent

expérimentalrégression linéaire

Droite de regression

Page 36: Département Biosciences Végétales Module : Statistique 1

32 CHAPITRE 2. STATISTIQUE DESCRIPTIVE

n = 10;∑i

xi = 55;∑i

x2i = 385;∑

i

yi = 133;∑i

y2i = 2111;∑

i

xiyi = 899

D’ou∑i

(xi − x)2 =∑i

x2i −

„Pi

xi

«2

n

∑i

(yi − y)2 =∑i

y2i −

„Pi

yi

«2

n

∑i

(xi − x)(yi − y) =∑i

xiyi −

„Pi

xi

«„Pi

yi

«n∑

i

(xi − x)2 = 82, 5∑i

(yi − y)2 = 342, 1∑i

(xi − x)(yi − y) = 167, 5

Donc la droite de regression des moindres carres de y en x est y = β0 + β1 xAvecβ0 = 2,1333 ; β1 = 2,0303 ; r(x,y) = 0,9970.

Si on applique directement les relations matricielles, on obtient :

y =

46...22

; X =

1 11 2...

...1 10

tXX =

(10 5555 385

); tXy =

(133899

)L’equation normale est alors

10β0 + 55β1 = 13355β0 + 385β1 = 899

d’ou la solution

6.2 Exercices avec indications

Exercice 6.2.1. Le tableau suivant donne les revenus imposables des Francais en 1970.

Classes Frequences relatives[2500 ;5000[ 0.0067[5000 ;10000[ 0.3018[10000 ;15000[ 0.2750[15000 ;20000[ 0.1709[20000 ;30000[ 0.1445[30000 ;50000[ 0.0701[50000 ;70000[ 0.0166[70000 ;100000[ 0.0081[100000 ;200000[ 0.0051[200000 ;400000[ 0.0010

(i) tracer l’histogramme de ces donnees pour les revenus allant de 0 a 7000.

Indications Attention les intervalles de classes ne sont pas constants.

Exercice 6.2.2. On desire tester n produits. On fait appel a 2 gouteurs et on leur demande de classer ces nproduits. Nous avons donc a notre disposition une serie statistique double :

x1, x2, . . . , xn

y1, y2, . . . , yn

Page 37: Département Biosciences Végétales Module : Statistique 1

6. EXERCICES 33

avec :x1, x2, . . . , xn = y1, y2, . . . , yn = 1, 2, . . . , n

On appelle coefficient de Spearman le coefficient de correlation lineaire :

rs =cov(x, y)

sxsy

(i) Montrer que

rs = 1−6∑n

i=1 d2i

n(n2 − 1)

ou di = xi − yi.

(ii) Que signifie rs = 1, rs = −1, rs = 0?

Indication

(i) On rappelle que la somme des n premiers entiers est egale a n(n + 1)/2 et que la somme des carres des npremiers entiers est egale a n(n + 1)(2n + 1)/6.On calculera SCEx en fonction de n

Exercice 6.2.3. Dans une solution aqueuse contenant un polluant, on plonge un solide absorbant (charbon actifsous forme de tissu) qui “ capture ” une partie des molecules de la substance polluante. Au bout d’un certaintemps, le systeme est a l’equilibre : Chaque point d’equilibre est caracterise par la concentration a l’equilibreC e et la quantite de polluant absorbe par unite de masse de charbon actif, qe . A une temperature donnee, onpeut mesurer differents points sur une courbe (C e , qe) dite isotherme d’adsorption. Le tableau suivant fournitl’isotherme d’adsorption de l’aniline a 25 C (Faur-Brasquet, 1998).

Ce

(mg/l)72 57,7 38,5 21,3 13,1 6,9 3,9 1,2

qe

(mg/g)232,5 211 192 163,4 136,7 116,3 96,2 61,9

Etudier la liaison entre qe et C e en supposant que les incertitudes experimentales sur C e sont negligeablesdevant celles sur qe . On fera le graphique en “ nuage de points ” des valeurs de qe en fonction des valeurs de C e .On etudiera ensuite les deux modeles suivants :

Modele de Langmuir qe = qmbCe

1+bCe

Modele de Freundlich qe = KC1/ne

Pour chacun des deux modeles, on estimera les parametres du modele (qm et b, K et n) par regression lineairesimple sur des variables “ modifiees ”.Conclure sur “ l’adequation ” des 2 modeles proposes.

IndicationsOn prendra pour le modele de Langmuir les variables xL = 1/Ce et yL = 1/qe et pour le modele de Freundlich

les variables xF = ln Ce et yF = ln qe. On donne∑i xLi = 1.4151

∑i yLi = 0, 0628

∑i x2

Li = 0.7904∑

i xLiyLi = 0, 0185

∑i xFi = 21, 0887

∑i yFi = 39, 5204

∑i x2

Fi = 69, 6526∑

i xFiyFi = 108, 5925

6.3 Exercices sans indications

Exercice 6.3.1. Pour une election ou il y a trois candidats, on desire savoir si les femmes et les hommes ont lememe comportement. C’est-a-dire si les populations des hommes et des femmes sont homogenes pour ce critere.On realise pour cela un sondage sur 200 hommes et 100 femmes et on a obtenu les donnees de la table 6.3.1

(i) Calculer les profils colonnes ;

(ii) Realiser le graphique adapte a ces donnees.

Exercice 6.3.2. Dix repetitions d’une mesure de plomb ont ete effectuees par spectrophotometrie d’absorptionatomique sur 10 echantillons independants. la table 6.3.2 suivant rassemble les valeurs trouvees.

Page 38: Département Biosciences Végétales Module : Statistique 1

34 CHAPITRE 2. STATISTIQUE DESCRIPTIVE

Candidats :Populations Hommes Femmes1 68 222 51 243 81 54

Tab. 2.10 – Donnees

Mesures xi Mesures xi

1 0,975 6 1.2102 1,095 7 1,2323 1,135 8 1,2424 1,165 9 1,3625 1,180 10 2,185

Tab. 2.11 – Donnees

(i) Calculer la moyenne et la mediane de ces donnees ;

(ii) Calculer l’ecart type et l’ecart interquartile de ces donnees ;

(iii) Representer graphiquement ces donnees ;

(iv) On supprime la plus grande des donnees.

(a) Calculer la moyenne et la mediane de ces donnees ;

(b) Calculer l’ecart type et l’ecart interquartile de ces donnees ;

(v) Commentaires.

Exercice 6.3.3. Des mesures ont ete realisees pendant plusieurs journees sur un chauffe-eau solaire. On a mesurel’energie E accumulee en fin de journee dans le ballon de stockage. On considere cette variable comme la “ reponse ”du systeme vis a vis de deux autres variables mesurees simultanement : l’irradiation solaire journaliere H recuesur le plan du capteur et l’ecart moyen de temperature T entre l’eau froide et l’air exterieur. Les performancesenergetiques journalieres du chauffe-eau sont fournies dans le tableau suivant (Source :Adnot et al., 1988)

Date E (MJ) H (MJ/m22) T (C)24 mars 19,0 16,8 6,925 mars 13,3 14,0 4,426 mars 7,1 8,2 5,827 mars 0,7 1,6 2,228 mars 0,7 2,3 1,429 mars 13,1 13,1 4,230 mars 29,4 27,9 5,031 mars 23,9 24,1 4,11 avril 12,1 14,2 1,016 septembre 10,9 8,2 10,017 septembre 8,4 6,5 11,318 septembre 16,9 14,6 12,719 septembre 4,0 3,0 8,620 septembre 20,5 18,1 9,721 septembre 26,1 23,9 10,622 septembre 24,8 23,2 9,51 juillet 33,2 23,1 16,82 juillet 32,0 21,7 17,93 juillet 27,4 19,0 16,8

Etudier la liaison entre E, H et T. On fera le graphique en “ nuage de points ” des valeurs de E en fonctiondes valeurs de H, puis de T. On etudiera ensuite la regression lineaire multiple E = β0 + β1 H + β2 T

On donne ∑i Ei = 323, 5

∑i Hi = 283, 5

∑i Ti = 158, 9∑

i H2i = 5420

∑i T 2

i = 1812, 4∑i EiHi = 6260, 9

∑i EiTi = 3300, 4

∑i HiTi = 2651

Page 39: Département Biosciences Végétales Module : Statistique 1

Chapitre 3

Probabilites

1 Introduction

L’objet de la statistique est souvent d’obtenir des conclusions sur une population a partir de donnees. Afin ded’obtenir celles-ci nous aurons besoin de connaıtre les lois de probabilite de certaines variables aleatoires definissur l’espace d’echantillonnage (i.e. sur l’espace de tous les echantillons possibles). Ceci est l’objet du chapitre surla theorie de l’echantillonnage. Pour cela nous avons donc besoin des notions fondamentale de probabilites.

Jeu de de

Resultat de 100 lances

?

6

Probabilites Statistiques

Population

n-Echantillon

?

6

Probabilites Statistiques

A l’origine les probabilites sont liees au jeux de hasard1 et on continue depuis a parler de science du hasard etaussi de loi du hasard. Mais comment cela est-il possible puisque par definition meme le hasard est imprevisible ?

Intuitivement on definit souvent la probabilite d’un evenement comme le rapport du nombre de cas favorablessur le nombre de cas total, supposes tous egalement possibles. Mais que veut dire “egalement possibles” sinon“egalement probables” ? Et que signifie “egalement probables” sinon “de probabilites egales”. La probabilite estainsi definie a partir du terme probabilite ! Cette definition peut se comparer a la definition du point comme limited’une sphere dont le rayon tend vers 0 et de la sphere comme l’ensemble de points situes a une egale distance d’unpoint fixe. Pourtant tout le monde sait ce qu’est un point et ce qu’est une sphere.

La theorie des probabilites est en fait une theorie mathematique parfaitement rigoureuse qui permet de modeliser

1Il est a remarquer d’ailleurs que ce terme vient d’un mot arabe qui signifie : jeu de de. Nous profitons de cette note pour soulignerque le terme alea provient lui du latin alea qui signifie aussi jeu de de.

35

Page 40: Département Biosciences Végétales Module : Statistique 1

36 CHAPITRE 3. PROBABILITES

des phenomenes ou les resultats ne peuvent etre connus avec certitude et c’est cette theorie que nous allons etudiermaintenant.

2 Definition des probabilites

2.1 Exemples

Exemple 2.1.1 (Cas fini). On considere un caractere du a un gene ayant deux alleles C et c. On sait que dansun croisement chacun des deux parents donne un des deux genes ; si les parents sont tous les deux heterozygotes,c’est-a-dire ont tous les deux le genotype Cc, les genotypes des descendants sont de l’un des quatre types suivants(le premier gene indique est celui de la mere) :CC,Cc, cC, cc. Nous avons ainsi les quatre evenements elementairesde l’epreuve. Si ces evenements sont equiprobables, la probabilite de chacun d’entre eux est p = 1/4. Supposonsmaintenant que ce qui nous interesse est le phenotype des individus et que l’allele C soit dominant. L’ensemblefondamental devient alors Ω = [C], [c] ou [C] (respectivement [c]) represente le phenotype C (respectivement c)et correspond aux genotypes CC,Cc, cC (respectivement cc). Si les genotypes sont tous equiprobables alors nousavons P ([C]) = 3/4 et P ([c]) = 1/4.

Exemple 2.1.2 (Cas infini denombrable). On considere l’experience aleatoire qui consiste a lancer un de et anoter le nombre de coups necessaires pour obtenir 6 pour la premiere fois. On a donc Ω = 1, 2, 3, 4, . . . = N∗. Laprobabilite de l’evenement elementaire n est :

pn =(

56

)n−1 16

+∞∑n=1

pn =+∞∑n=1

(56

)n−1 16

=16

+∞∑n=0

(56

)n

=16.

11− 5

6

= 1

Exemple 2.1.3 (Cas infini non denombrable). Un voyageur arrive a la date t = 0 a une station de bus. On saitqu’un bus passe toutes les 5 minutes. Le voyageur etant seul ne peut savoir quand est passe le dernier bus. Quelleprobabilite peut-on definir ?

Le voyageur sait qu’il attendra au maximum 5 minutes. Donc ici Ω = [0, 5]. Mais il n’a aucune raison deprivilegier des instants par rapport a d’autres. Aussi il est logique de prendre comme probabilite d’un intervalle[a, b] = A ⊂ Ω le rapport des longueurs des intervalles A et Ω :

P (A) =b− a

5− 0

Plus l’intervalle sera grand plus il aura de “chance” de voir le bus passer. L’ensemble des evenements E contiendradonc tout les intervalles du type [a, b] mais aussi :

– [0, a[= CΩ[a, 5]– ]b, 5] = CΩ[0, b]– [a, b[= ∪n∈N[a, b− (1/n)]– ]a, b] = ∪n∈N[a + (1/n), b]– ]a, b[=]a, (a + b)/2] ∪ [(a + b)/2, b[– ∪n∈N(an, bn) ou (an, bn) est un intervalle ouvert, ferme ou semi-ouvert– ∩n∈N(an, bn) = CΩ∪n∈NCΩ(an, bn)– a = ∩n∈N[a− (a/n), a + (1/n)]– etc ...

E est un ensemble tres vaste mais on demontre qu’il est different de P(Ω). Ayant defini P ([a, b]) par (b − a)/5 =∫ b

a(1/5)dx on demontre alors que l’on peut construire une probabilite P sur E et que l’on a :

P (A) =∫

A

(1/5)dx

La loi de probabilite est alors parfaitement definie par la fonctionf(x) = 1/5 si x ∈ [0, 5].Soit A = [a, b[∪]c, d[ alors, avec a < b < c < d

P (A) =∫

Af(x)dx =

∫ b

af(x)dx +

∫ d

cf(x)dx = A = aire achuree.

Page 41: Département Biosciences Végétales Module : Statistique 1

2. DEFINITION DES PROBABILITES 37

-

6

x

f(x)15

@@@

@

@@@

@@

@

@@

@@

@@

@@

@@

@@@

@@

@@

@@

@@

@@

@@

@@

@@

@@

@@

@@@

@@

@@

@@

@@

@@

@

@@@

@@@@

@@@

@

@@@

@@

@

@@

@

@@

@

@@

@

@@

@

@@

@

@@@

@@@@

a b c d

' A

Remarque 2.1.4. On a P (a) = (a− a)/5 = 0 etP ([0, a[∪]a, 5]) = 1 − P (a) = 1. L’evenement a peut se produire, mais a une probabilite nulle et l’evenement[0, a[∪]a, 5] peut ne pas se produire mais a une probabilite egale a 1. Ce type de resultat etonne toujours l’etudiantau debut, mais cela montre un peu la difficulte de travailler sur un ensemble non denombrable.

2.2 Definitions

Lorsque Ω est un ensemble infini non denombrable (un intervalle de R par exemple) nous ne pouvons pasdefinir la probabilite d’un evenement de facon constructive. En fait il existe meme des sous ensembles de Ω pourlesquels nous ne pouvons pas calculer de probabilites, et l’ensemble des evenements E est alors un sous ensemblede P(Ω). Les ensembles pour lesquels nous ne pouvons pas calculer la probabilite sont assez pathologiques et onne les rencontre jamais dans la pratique ; neanmoins nous devons mathematiquement definir quelles proprietes doitavoir l’ensemble E . La probabilite ne peut alors etre definie que de facon axiomatique 2.

Definition 2.2.1 (Tribu ou σ-algebre de Boole). Soit Ω un ensemble non vide. Un sous ensemble E de P(Ω) estune tribu ou une σ-algebre de Boole si et seulement si elle verifie les trois proprietes suivantes :

(i) ∅ ∈ E et Ω ∈ E

(ii) Si A ∈ E alors CΩA ∈ E

(iii) Si Ai ∈ E ∀i ∈ I avec I fini ou denombrable alors⋃i∈I

Ai ∈ E

Definition 2.2.2 (Espace probabilise ou mesurable). Tout couple (Ω, E) ou E est une tribu est appele un espaceprobabilise ou mesurable.

Definition 2.2.3 (Probabilite). Soit (Ω, E) un espace probabilise. Une probabilite P sur E est une application deE dans [0, 1] qui satisfait les trois axiomes suivants :

(i) 0 ≤ P (A) ≤ 1 ∀A ∈ E ;P (Ω) = 1

(ii) ∀(A,B) ∈ E × E A ∩B = ∅ =⇒ P (A ∪B) = P (A) + P (B)

(iii) Si (An)n∈N An ∈ E est une suite telle que An+1 ⊂ An et⋂n∈N

An = ∅ alors limn→+∞

P (An) = 0

2.3 Representation graphique

Lorsque Ω est fini ou denombrable la probabilite P est parfaitement determinee par la donnee des pi. Onrepresente alors cette probabilite par un diagramme en batons.

Exemple 2.3.1. Reprenons l’exemple (2.1.1), alors Ω = [c], [C], p = 3/4 q = 1/4

2Cette definition axiomatique fut donnee la premiere fois par le mathematicien sovietique (ou russe ?) A.Kolmogorov en 1933. Cetteapproche est donc assez recente. Ceci montre bien que cette notion de probabilite n’est pas aussi evidente qu’elle n’y paraıt a priori.

Page 42: Département Biosciences Végétales Module : Statistique 1

38 CHAPITRE 3. PROBABILITES

-

6

k

pk

[C] [c]

14

34

Exemple 2.3.2. Reprenons l’exemple(2.1.2) : Ω = N∗ et

pn =(

56

)n−1

.16

-

6

k

pk

1 2 3 4 5 6 7 8 9 10 11

16

536

Par contre lorsque Ω est infini non denombrable la probabilite est parfaitement determinee par sa fonction dedensite.

Exemple 2.3.3. Loi uniforme sur un intervalle [a, b]. La fonction de densite est :f(x) = 1/(b− a) sur [a, b] et 0 ailleurs.

-

6

x

f(x)1

(b−a)

a b@@@

@

@@@

@@

@

@@

@@

@@

@@

@@

@@@

@@

@@

@@

@@

@@

@@

@@

@@

@@

@@

@@

@@

@@

@@

@@

@@

@@

@@

@@

@@

@@

@@

@@

@@

@@

@@

@@

@@

@@

@@

@@

@@

@@

@@

@@

@@

@@

@@

@@

@@

@@@

@@

@@

@@

@@

@@

@

@@@

@@@@

'A = 1

Exemple 2.3.4. Loi normale reduite. La fonction de densite est :

f(x) =1√2π

e−x2/2

Remarque 2.3.5. On demontre que∫ +∞

−∞f(x)dx = lim

A→−∞ B→+∞

∫ B

A

f(x)dx = 1 = P (Ω)

Page 43: Département Biosciences Végétales Module : Statistique 1

3. PROBABILITES CONDITIONNELLES ET INDEPENDANCE 39

−3 −2 −1 0 1 2 3

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

x

f(x)

Fig. 3.1 –

3 Probabilites conditionnelles et independance

3.1 Probabilites conditionnelles

Considerons pour illustrer notre propos l’experience aleatoire qui consiste a jeter deux des (l’un rouge et l’autrebleu). On suppose que chacun des 36 evenements elementaires sont equiprobables ; ils ont donc pour probabilitep = 1/36. Ω = (i, j), i ∈ I et j ∈ J ou I = J = 1, 2, 3, 4, 5, 6 (i, j) signifie que le de rouge a donne i et le debleu a donne j.

Supposons maintenant que l’on sache que le de rouge a donne 3. Quelle est alors la probabilite que la sommedes deux des soit 8 ?

Pour calculer cette probabilite on peut raisonner de la facon suivante : nous ne pouvons en fait avoir que 6evenements dans notre experience : (3,1), (3,2), (3,3), (3,4), (3,5), (3,6). Aussi, sachant que le de rouge est un 3,la probabilite (conditionnelle) de chacun des evenements (3,1), (3,2), (3,3), (3,4), (3,5), (3,6) est 1/6, alors que laprobabilite (conditionnelle) des 30 autres evenements est nulle. Par consequent la reponse a la question est 1/6.

Si nous designons par A l’evenement “la somme des 2 des est 8” et par B l’evenement “le de rouge est 3”, alorsla probabilite calculee precedemment s’appelle la probabilite conditionnelle que A apparaisse sachant que B estrealisee et elle est notee P (A/B).

Definition 3.1.1 (Probabilite conditionnelle). Soit (Ω, E) un espace probabilise et P une probabilite sur cet espace.Soit B un evenement de probabilite non nulle. On appelle probabilite conditionnelle de l’evenement A sachant queB est realisee la quantite :

P (A/B) =P (A ∩B)

P (B)

3.2 Independance d’evenements

Definition 3.2.1 (Independance–dependance de deux evenements). Deux evenements sont dits independants sila realisation de l’un d’entre eux ne modifie pas la realisation de l’autre, en d’autres termes, si la realisation de l’und’entre eux n’apporte aucune information au sujet de l’autre. Les evenements A et B sont dits dependants dans lecas contraire.

Theoreme 3.2.2. Deux evenements A et B sont independants si et seulement si :

P (A ∩B) = P (A).P (B)

DemonstrationSi P (B) = 0 alors P (A ∩B) = 0 (car 0 ≤ P (A ∩B) ≤ P (B) = 0) donc P (A ∩B) = P (A).P (B)Si P (B) 6= 0 alors P (A∩B) = P (B).P (A/B) or A et B sont independants si et seulement si la realisation de A nedonne pas d’information sur B donc si et seulement si P (A/B) = P (A) Par suite P (A ∩B) = P (A).P (B) 2

Exemple 3.2.3. On jette deux des. Soit A l’evenement “la somme des des est 6” et B l’evenement “le premier deest un 4”. Alors P (A ∩B) = P ((4, 2)) = 1/36. Mais

P (A) = P ((1, 5), (2, 4), (3, 3), (4, 2), (5, 1)) = 5/36

etP (B) = P ((4, 1), (4, 2), (4, 3), (4, 4), (4, 5), (4, 6)) = 1/6

Page 44: Département Biosciences Végétales Module : Statistique 1

40 CHAPITRE 3. PROBABILITES

donc P (A).P (B) 6= P (A∩B) et les deux evenements sont dependants. Ici P (A/B) = 1/6 et P (A/B) = 4/30 . SoitC l’evenement “la somme des des est 7”. AlorsP (C) = P ((1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)) = 1/6 et par suiteP (B ∩ C) = 1/36 = P (B).P (C). Ici B et C sont independants ; le fait de savoir que la somme est 7 ne donneaucun renseignement sur le score du premier de. Par contre le fait de savoir que la somme est 6 implique que l’onne peut pas avoir un 6 pour le premier de.

Nous allons maintenant generaliser la notion d’independance a un nombre quelconque d’evenements.

Definition 3.2.4 (Independance de n evenements). Soit (Ai)i=1,...,n n evenements d’un espace probabilise. Cesevenements sont dits independants si et seulement si pour tout sous-ensemblesA′1, A′2, . . . , A′r de A1, . . . , An r ≤ n on a :

P (A′1 ∩A′2 . . . ∩A′r) = P (A′1).P (A′2) . . . P (A′r)

Remarque 3.2.5. Des evenements (Ai)i=1,...,n peuvent etre independants deux a deux sans etre independants.Considerons par exemple les 3 evenements suivants de l’experience aleatoire consistant a jeter deux pieces demonnaie non truquees :

– L’evenement A “la premiere piece est Pile”– L’evenement B “la deuxieme piece est Face”– L’evenement C “les deux pieces sont sur le meme cote”

Alors

P (A ∩B) = 1/2.1/2 = P (A).P (B)P (A ∩ C) = 1/2.1/2 = P (A).P (C)P (B ∩ C) = 1/2.1/2 = P (B).P (C)

Les trois evenements sont dont bien independants deux a deux. Mais

P (A ∩B ∩ C) = P (∅) = 0 6= P (A).P (B).P (C)

par suite les trois evenements ne sont pas independants. Ici le fait de savoir que la premiere piece donne Pile etque la deuxieme piece donne Face implique que l’evenement C ne peut pas etre realise.

4 Variables aleatoires

4.1 Introduction

Nous serons toujours amenes en pratique a travailler avec des variables aleatoires. Chaque mesure collectee seramise en relation avec une variable aleatoire. Ainsi les grandeurs auxquelles on s’interessera seront en lien avec desfonctions definies sur un ensemble fondamental, c’est-a-dire avec des variables aleatoires. Ce qui nous interessera, enpratique, sera la loi de probabilite sur l’espace d’arrive. Nous donnons ci-apres quelques exemples de formalisationpar des variables aleatoires ou P designe la population francaise :

X1 : P −→ M,Fω 7−→ M si ω est un hommeω 7−→ F si ω est une femme

X2 : P −→ Rω 7−→ Revenu de ω

X3 : P −→ CSP1, CSP2, . . . , CSPnω 7−→ la categorie socioprofessionnelle de ω

X4 : P −→ Rω 7−→ taille de ω

X5 : P −→ Nω 7−→ nombre de yaourts manges par ω pendant un an

Dans cette section nous etudierons tout d’abord le cas simple ou la variable aleatoire ne pourra prendre qu’unnombre fini ou denombrable de valeur differentes. Ensuite nous etudierons les variables aleatoires reelles continues,puis nous nous interesserons a la notion de fonction de repartition d’une variable reelle. Le paragraphe suivant seraconsacre a l’etude succincte des fonctions de variables aleatoires reelles. Enfin nous terminerons cette section parune rapide etude des variables aleatoires vectorielles.

Page 45: Département Biosciences Végétales Module : Statistique 1

4. VARIABLES ALEATOIRES 41

4.2 Definition

Variables aleatoires discretes

Definition 4.2.1 (Variable aleatoire discrete). Soit (Ω, E) un espace probabilise et P une probabilite sur cet espace.On appelle variable aleatoire discrete definie sur (Ω, E) a valeur dans E toute application X de Ω dans E telle que :

(i) X ne prend qu’un nombre fini ou denombrable de valeurs dans E.

(ii) Pour tout x ∈ X(Ω), le sous ensemble X−1(x) = ω ∈ Ω/X(ω) = x de Ω est un evenement (X−1(x) ∈ E).

Theoreme 4.2.2. Soit (Ω, E) un espace probabilise et P une probabilite sur cet espace. Soit X une variable aleatoirediscrete de Ω dans E, alors l’application PX definie par :

PX : P(X(Ω)) −→ [0, 1]A 7−→ PX(A) = P (X−1(A)) = P (ω ∈ Ω/X(ω) ∈ A

est une probabilite sur (X(Ω),P(X(Ω))).

DemonstrationEvidente. 2

Remarque 4.2.3. La terminologie employee ici est assez malheureuse et est source de confusion chez l’etudiant.Nous tenons donc a bien faire prendre conscience qu’une variable aleatoire X est une fonction parfaitementdeterminee, cela n’a rien a voir avec une variable mathematique bien qu’on la note X. Quant au terme aleatoire iln’est present que pour rappeler que l’on travaille sur des espaces probabilises.

Remarque 4.2.4. Une variable aleatoire permet en fait de transporter une probabilite definie sur un espace pro-babilise dans un autre espace probabilise.

Remarque 4.2.5. En posant pn = PX(xn) = P (X−1(xn)) nous retrouvons la definition d’une probabilite surun ensemble fini ou denombrable.

Definition 4.2.6 (Loi d’une variable aleatoire). La probabilite PX est appelee la loi de la variable aleatoire X.

Exemple 4.2.7. On jette trois fois une piece de monnaie et on s’interesse au nombre de faces obtenu. Ici

Ω = (F, F, F ), (F, F, P ), (F, P, F ), (F, P, P ), (P, F, F ), (P, F, P ), (P, P, F ), (P, P, P )

et

X : Ω −→ R

ω 7−→ X(ω) = nombre de F dans ω

X(Ω) = 0, 1, 2, 3 = Ω′, X est une variable aleatoire de (Ω,P(Ω)) dans (Ω′,P(Ω′))

X−1(0) = (P, P, P ) et PX(0) = P ((P, P, P )) = 1/8X−1(1) = (P, P, F ), (P, F, P ), (F, P, P ) et PX(1) = 3/8X−1(2) = (P, F, F ), (F, P, F ), (F, F, P ) et PX(2) = 3/8X−1(3) = (F, F, F ) et PX(3) = 1/8

Exemple 4.2.8. Reprenons l’exemple (2.2.1.1) et posons Ω = CC,Cc, cC, cc. Nous pouvons alors definir lephenotype comme la variable aleatoire suivante :

X : Ω −→ [C], [c]CC 7−→ [C]Cc 7−→ [C]cC 7−→ [C]cc 7−→ [c]

Nous avons bien alors :

PX([C]) = P (CC,Cc, cC) = 3/4PX([c]) = P (cc) = 1/4

Page 46: Département Biosciences Végétales Module : Statistique 1

42 CHAPITRE 3. PROBABILITES

Definition 4.2.9 (Variable aleatoire discrete reelle). On appelle variable aleatoire discrete reelle (v.a.r.d.) toutevariable aleatoire discrete a valeur dans R.

Notation 4.2.10. Lorsque X est une variable aleatoire reelle on note aussi :

PX(x) = P (X = x) = P (X−1(x))PX(]−∞, x]) = P (X ≤ x) = P (X−1(]−∞, x]))

Par exemple dans l’exemple (4.2.7) on note aussi

PX(1) = P (X = 1) = 3/8 et PX(0, 1, 2) = P (X ≤ 2) = 7/8

Remarque 4.2.11. On represente la loi de probabilite d’une variable discrete reelle par des diagrammes en batons.

Variables aleatoires reelles continues

Definition 4.2.12 (Variable aleatoire reelle continue). Soit (Ω, E) un espace probabilise et P une probabilite surcet espace. On appelle variable aleatoire reelle continue (v.a.r. continue) definie sur (Ω, E) toute application X deΩ dans R ayant les proprietes suivantes :

(i) L’ensemble ω ∈ Ω/X(ω) ∈ [a, b] est un evenement (i.e ; un element de E) pour tout couple (a, b) de R 2.(ii) Il existe une fonction f de R dans R telle que

P (X ∈ [a, b]) = P (X−1([a, b])) = PX([a, b]) =∫ b

a

f(x)dx

Definition 4.2.13 (Fonction de densite). On appelle fonction de densite d’une variable aleatoire reelle continueX toute fonction f permettant de definir la probabilite comme indique dans la definition ci-dessus.

Remarque 4.2.14. Une fonction f est une fonction de densite si et seulement si :(i) f(x) ≥ 0 pour tout x.(ii) f est integrable.

(iii)∫ +∞−∞ f(x)dx = 1

Exemple 4.2.15. La duree de fonctionnement d’un ordinateur avant sa premiere panne est une variable aleatoirecontinue de densite donnee par :

f : R −→ R

x 7−→ λe−x/100 si x ≥ 0x 7−→ 0 sinon

Quelle est la probabilite que cette duree de fonctionnement soit comprise entre 50 et 150 heures ? Quelle est laprobabilite que l’ordinateur fonctionne moins de 100 heures ?∫ +∞

−∞f(x)dx =

∫ +∞

0

λe−x/100dx = 100λ

Donc f est une fonction de densite si et seulement si λ = 1/100. Par suite :

P (X ∈ [50, 150]) =∫ 150

50

1100

e−x/100dx = e−1/2 − e−3/2 ' 0, 384

P (X ≤ 100) =∫ 100

0

f(x)dx = 1− e−1 ' 0, 633

Conclusion

Nous pouvons donc dire qu’une variable aleatoire c’est une fonction parfaitement connue qui permet detransposer une probabilite d’un espace probabilise dans un autre. Une variable aleatoire, c’est comme leSaint Empire Romain : il n’etait pas saint, ce n’etait pas un empire et il n’etait pas Romain3 . Quant-a la loi d’unevariable aleatoire, c’est la probabilite qu’elle definit sur l’espace d’arrivee. C’est cette loi ou des parametre de cetteloi qui nous interessera en pratique. Par abus de langage nous dirons que :

3Cette analogie vient de Donald E. Catlin ”Estimation, Control, and the Discrete Kalman Filter”, page 5, ed. Springer-Verlag 1989

Page 47: Département Biosciences Végétales Module : Statistique 1

4. VARIABLES ALEATOIRES 43

(i) X est une v.a.r. de loi F (fonction de repartition) ;

(ii) X est une v.a.r. continue de loi f (fonction de densite) ;

(iii) X est une v.a.r. discrete de loi P (X = k).

Et nous noterons :

P (a ≤ X ≤ b) = P (X ∈ [a, b]) = PX([a, b]) = P (X−1([a, b]))

4.3 Fonction de repartition

Nous n’etudierons dans ce paragraphe que des variables aleatoires reelles.

Definition 4.3.1 (Fonction de repartition). On appelle fonction de repartition associee a la variable aleatoirereelle X la fonction F definie par :

F : R −→ R

x 7−→ F (x) = P (X ≤ x) = PX(]−∞, x])

En d’autre termes F (x) est la probabilite que la variable aleatoire X prenne une valeur inferieure ou egale a x.

Nous allons maintenant voir les representations graphiques des cette fonction sur trois exemples, l’un fini, l’autredenombrable et le troisieme infini non denombrable.

Exemple 4.3.2. Reprenons l’exemple (4.2.7) ou la variable aleatoire X est le nombre de faces obtenu lors du jetede trois pieces. Ici la fonction de repartition est :

F (x) = 0 si x ∈]−∞, 0[

F (x) = P (X ≤ x) = P (X = 0) =18

si x ∈ [0, 1[

F (x) = P (X = 0 ou X = 1) = P (X = 0) + P (X = 1) =18

+38

=12

si x ∈ [1, 2[

F (x) =78

si x ∈ [2, 3[

F (x) = 1 si x ∈ [3,+∞[

Nous avons donc la representation graphique suivante :

-

6

x

F (x)

rr

r r

-1 0 1 2 3

18

12

78

1

Page 48: Département Biosciences Végétales Module : Statistique 1

44 CHAPITRE 3. PROBABILITES

Exemple 4.3.3. Soit X ne nombre de fois qu’il faut lancer une piece de monnaie pour obtenir pile. Nous avons :

F (x) = 0 si x < 1

F (x) =12

si x ∈ [1, 2[

F (x) =12

+14

si x ∈ [2, 3[

...

F (x) =n∑

i=1

12n

= 1− 12n

si x ∈ [n, n + 1[

...

et la representation graphique donne :

-

6

x

F (x)

rr r r

-1 0 1 2 3

12

34

78

Exemple 4.3.4. Considerons la loi uniforme sur [−1,+1], c’est-a-dire la loi definie par la fonction de densite fsuivante :

f : R −→ R

u 7−→ f(u) = 1/2 si u ∈ [−1,+1]u 7−→ f(u) = 0 sinon

Nous avons alors :

Si x ≤ −1 alors F (x) =∫ x

−∞f(u)du =

∫ x

−∞0dx = 0

Si − 1 ≤ x ≤ 1 alors F (x) =∫ x

−∞f(u)du =

∫ x

−1

12dx =

12(x + 1)

Si x ≥ 1 alors F (x) =∫ x

−∞f(u)du =

∫ 1

−1

12dx = 1

Nous avons donc la visualisation suivante :

Page 49: Département Biosciences Végétales Module : Statistique 1

4. VARIABLES ALEATOIRES 45

-

6

x

F (x)

-1 0 1 2 3

12

1

Remarque 4.3.5. Lorsque l’on parle de variable aleatoire reelle continue c’est la fonction de repartition qui estcontinue et non pas la fonction de densite.

Theoreme 4.3.6. La loi de probabilite d’une variable aleatoire reelle est parfaitement connue a partir de safonction de repartition F . C’est-a-dire que si l’on connaıt la fonction de repartition d’une variable aleatoire reelleX alors on peut calculer P (a < X < b) pour tout (a, b) dans R. Nous dirons alors que la loi de X est F .

DemonstrationAdmise 2

Remarque 4.3.7. Nous emploierons indifferemment, par abus de langage, pour caracteriser une loi les expres-sions :

(i) X est de loi F ou F est la fonction de repartition associee a X.(ii) X est de loi f si X est continue et f est la fonction de densite associee a X.(iii) X est de loi P (X = k) si X est discrete.

Theoreme 4.3.8. Soit X une variable aleatoire reelle continue de fonction de densite f alors :(i) Si f est continue en a et b alors :

P (a ≤ X ≤ b) =∫ b

a

f(x)dx = P (a ≤ X < b)

= P (a < X ≤ b)= P (a < X < b)= F (b)− F (a)

(ii) Si f est continue en a alors :dF

dx(a) = F ′(a) = f(a)

DemonstrationCela provient des proprietes de l’integrale 2

Corollaire 4.3.9. Soit X une variable aleatoire reelle continue definie par une fonction de densite f continue.Alors si F est la fonction de repartition associee a X on a :

F (x) =∫ x

−∞f(u)du et F ′(x) = f(x)

et

P (a < X < b) = F (b)− F (a)P (a < X ≤ b) = F (b)− F (a)P (a ≤ X < b) = F (b)− F (a)P (a ≤ X ≤ b) = F (b)− F (a)

Remarque 4.3.10. Le corollaire precedent est important dans la pratique car c’est la fonction de repartition Fqui est donnee dans les tables statistiques.

Page 50: Département Biosciences Végétales Module : Statistique 1

46 CHAPITRE 3. PROBABILITES

4.4 Fonction d’une variable aleatoire reelle continue

Il arrive souvent dans la pratique que l’on connaisse la distribution d’une variable aleatoire X mais que l’ons’interesse plutot a celle d’une fonction de cette variable aleatoire. En d’autres termes on connaıt X mais on desireconnaıtre g(X).

Exemple 4.4.1. Soit X une variable uniformement distribuee sur [0, 1]. On obtiendra la distribution de Y = X2

de la maniere suivante :

FY (y) = P (Y ≤ y) y ≥ 0= P (X2 ≤ y)= P (X ≤ √y)= FX(

√y) =

√y si y ∈ [0, 1]

Donc

fY (y) = F ′Y (y) =1

2√

ysi y ∈ [0, 1]

fY (y) = 0 sinon

Theoreme 4.4.2. Soit X une variable aleatoire reelle continue de densite fX et soit g une fonction strictementmonotone (croissante ou decroissante) et derivable de R dans R. La densite de probabilite de la variable aleatoireY = g(X) est alors :

fY (y) =

fX(g−1(y)) ddy g−1(y) si il existe un x pour lequel y = g(x)

0 si g(x) 6= y pour tout x

DemonstrationCela provient du theoreme de changement de variable dans une integrale. 2

Application 4.4.3. Soit X une variable aleatoire reelle de loi normale de parametre µ et σ, c’est-a-dire que X apour fonction de densite

f(u) =1√2πσ

e−(x−µ)2/(2σ2)

et soit

g(x) =x− µ

σet Y = g(X)

alors

g(x) = y ⇐⇒ y =x− µ

σ

⇐⇒ x = σy + µ = g−1(y)

Par suite

fY (y) = fX(σy + µ)σ =1√2π

e−y2/2

et donc Y suit une lois normale reduite (i.e. de parametres 0 et 1). Par consequent nous avons :

FX(a) =∫ a

−∞fX(x)dx = P (X ≤ a)

=∫ a−µ

σ

−∞fY (y)dy = P (Y ≤ a− µ

σ)

= P (σY + µ ≤ a)

= FY (a− µ

σ)

En conclusion si on connaıt la fonction de repartition de loi normale reduite on peut calculer la fonction derepartition de toutes les lois normales.

Page 51: Département Biosciences Végétales Module : Statistique 1

4. VARIABLES ALEATOIRES 47

4.5 Variables aleatoires vectorielles

Dans les applications pratiques on rencontre souvent des problemes dans lesquels les resultats des experiencesse trouvent decrits non pas par une variable aleatoire mais par deux ou plusieurs variables aleatoires. Par exemplelorsque l’on jette 3 des le resultat est donne par 3 nombres, ou lorsque l’on desire etudier simultanement le rendementd’une variete de ble et les precipitations de mars a juin.

Comme pour les variables aleatoires reelles nous allons tout d’abord etudier les variables aleatoires discretes,puis les variables aleatoires reelles continues. Nous etudierons tout d’abord le cas de deux variables aleatoires, puisnous generaliserons.

Definition 4.5.1 (Vecteur aleatoire). On appelle vecteur aleatoire de dimension n tout n-uplet(X1, . . . , Xn) de n variables aleatoires definies sur le meme espace (Ω, E).

Notation 4.5.2. Lorsque n = 2 on parle de couple de variables aleatoires et on note (X, Y ).

Definition 4.5.3 (Fonction de probabilite jointe). Soient X et Y 2 variables aleatoires discretes a valeur respec-tivement dans E et F . On appelle fonction de probabilite jointe de X et de Y la fonction p definissant la loi deprobabilite du couple de variables aleatoires (X, Y ) suivante.

p : E × F −→ R

(x, y) 7−→ p(x, y) = P (X = x etY = y)

Remarque 4.5.4. Soit p la fonction de probabilite jointe de X et de Y alors :

(i) p(x, y) ≥ 0 ∀(x, y) ∈ E × F

(ii) ∑x∈E

∑y∈Y

p(x, y) = 1

Definition 4.5.5 (Loi marginale). Soient X et Y 2 variables aleatoires discretes a valeurs dans E et F et pla fonction de probabilite jointe de X et Y . On appelle loi de probabilite marginale de X (respectivement Y )l’application

pX : E −→ R

x 7−→ pX(x) =∑y∈F

p(x, y)

respectivement

pY : F −→ R

y 7−→ pY (y) =∑x∈E

p(x, y)

Remarque 4.5.6. pX (respectivement pY ) est la loi de probabilite de la variable aleatoire X (respectivement Y )

Remarque 4.5.7. Lorsque E et F sont finis, E = x1, . . . , xn et F = y1, . . . , ym on represente p(x, y) de lafacon suivante :

y1 y2 · · · yj · · · ym pX

x1 p(x1, y1) p(x1, y2) · · · p(x1, yj) · · · p(x1, ym) pX(x1)x2 p(x2, y1) p(x2, y2) · · · p(x2, yj) · · · p(x2, ym) pX(x2)...

......

......

...xi p(xi, y1) p(xi, y2) · · · p(xi, yj) · · · p(xi, ym) pX(xi)...

......

......

...xn p(xn, y1) p(xn, y2) · · · p(xn, yj) · · · p(xn, ym) pX(xn)pY pY (y1) pY (y2) · · · pY (yi) · · · pY (ym) 1

Exemple 4.5.8. On lance deux des a jouer et on s’interesse a la somme des resultats obtenus (variable U) et aumaximum des resultats des deux des (variable V ). Nous avons alors :

Page 52: Département Biosciences Végétales Module : Statistique 1

48 CHAPITRE 3. PROBABILITES

U : V 1 2 3 4 5 6 pV

2 136 0 0 0 0 0 1

363 0 2

36 0 0 0 0 236

4 0 136

236 0 0 0 3

365 0 0 2

36236 0 0 4

366 0 0 1

36236

236 0 5

367 0 0 0 2

36236

236

636

8 0 0 0 136

236

236

536

9 0 0 0 0 236

236

436

10 0 0 0 0 136

236

336

11 0 0 0 0 0 236

236

12 0 0 0 0 0 136

136

pU136

336

536

736

936

1136 1

Nous allons maintenant etudier le cas des variables aleatoires reelles continues.

Definition 4.5.9 (Fonction de densite d’un couple de v.a. continues).On dit que le couple de variables aleatoires reelles continues a une densite de probabilite f , application de R2 dansR positive et integrable si et seulement si on peut ecrire :

P (A) = P ((X, Y ) ∈ A) =∫ ∫

A

f(x, y)dxdy ∀A ∈ E

ou E est la tribu de R2 qui contient les rectangles [a, b]× [c, d]

Remarque 4.5.10. Si A est un rectangle [a, b]× [c, d] alors on demontre que

P (A) =∫ b

a

(∫ d

c

f(x, y)dy)dx

Illustration 4.5.11. Graphiquement z = f(x, y) represente dans R3 une surface et le volume totale delimite parcette surface et le plan (O, x, y) est egale a 1 car

P (Ω) = P (R2) =∫ ∫

R2f(x, y)dxdy = 1

Si A = [a, b]× [c, d] alors P (A) est le volume ombre ci-dessous :

Fig. 3.2 – Densite d’un couple de variables aleatoires reelles

Exemple 4.5.12. (Densite uniforme sur un disque C) Soit C le disque de centre O et de rayon a > 0, C =(x, y) ∈ R2 tel que x2 + y2 ≤ a

f(x, y) = 1πa2 si (x, y) ∈ C

f(x, y) = 0 sinon

Page 53: Département Biosciences Végétales Module : Statistique 1

4. VARIABLES ALEATOIRES 49

Ici les variables aleatoires X et Y sont les applications composantes.

Exemple 4.5.13. (Loi normale reduite a 2 dimensions) La fonction de densite est ici :

f(x, y) =12π

e−“

x2+y2

2

Definition 4.5.14 (Loi marginale). Soit X et Y un couple de variables aleatoires reelles continues de fonction dedensite f . On appelle loi de probabilite marginale de X (respectivement Y ) l’application :

fX : R −→ R

x 7−→ fX(x) =∫ +∞

y=−∞f(x, y)dy

respectivement

fY : R −→ R

y 7−→ fY (y) =∫ +∞

x=−∞f(x, y)dx

Remarque 4.5.15. (i) La loi marginale de X (respectivement de Y ) est en fait la loi de la variable aleatoire X(respectivement Y )

(ii) La fonction de repartition de X (respectivement de Y ) est alors :

FX(x) =∫ x

−∞fX(u)du =

∫ x

u=−∞

∫ +∞

v=−∞f(u, v)dudv

(respectivement FY (y) =∫ y

−∞fY (v)dv =

∫ +∞

u=−∞

∫ y

v=−∞f(u, v)dudv )

Remarque 4.5.16. (i) La generalisation au cas de n variables aleatoires (Y1, . . . , Yn) est immediate. Lorsquel’on traite des variables discretes, on a :

p(y1, y2, . . . , yn) = P (Y1 = y1 et Y2 = y2 . . . et Yn = yn)

Lorsque l’on traite des variables aleatoires reelles continues, on a :

P (A) =∫ ∫

A

· · ·∫

f(y1, y2, . . . , yn)dy1dy2 . . . dyn

(ii) Rien ne nous empeche de definir aussi des lois jointes de deux variables aleatoires reelles X et Y lorsque Xest discrete et Y continue. Mais, comme nous ne les utiliserons pas ici, nous ne les etudierons pas.

4.6 Variables aleatoires independantes

Nous considerons dans cette section deux variables aleatoires X et Y definies sur le meme espace Ω.

Definition 4.6.1 (Independance de 2 v.a.r.). Deux variables aleatoires reelles X et Y sont dites independantes siet seulement si pour tout evenement A ⊂ R et B ⊂ R, on a :

P (X ∈ A et Y ∈ B) = P (X ∈ A)× P (Y ∈ B)

Remarque 4.6.2. La definition precedente est equivalente a dire que les evenements X−1(A) et Y −1(B) sontindependants pour tout ensemble A et B.

Theoreme 4.6.3. Soient X et Y 2 variables aleatoires discretes. X et Y sont independantes si et seulement si :

p(x, y) = pX(x)× pY (y) ∀(x, y) ∈ R2

Theoreme 4.6.4. Soient X et Y deux variables aleatoires reelles continues. X et Y sont independantes si etseulement si

f(x, y) = fX(x)× fY (y) ∀(x, y) ∈ R2

DemonstrationDemonstration admise. 2

Remarque 4.6.5. (i) Pour pouvoir parler d’independance ou de dependance de 2 ou plus variables aleatoires ilfaut que celles-ci soient definies sur le meme espace fondamental.

(ii) La signification concrete de l’independance de 2 variables aleatoires est que la connaissance de la valeurd’une des variables aleatoires sur un individu n’apporte aucune information sur la valeur de l’autre variablealeatoire.

Page 54: Département Biosciences Végétales Module : Statistique 1

50 CHAPITRE 3. PROBABILITES

5 Esperance mathematique

5.1 Definitions

L’esperance mathematique d’une variable aleatoire est l’un des concepts les plus important en theorie desprobabilites.

Definition 5.1.1 (Esperance mathematique d’une v.a.r.d.). Soit X une variable aleatoire reelle discrete de loi P .On appelle esperance mathematique la grandeur, si elle existe, suivante.

E(X) =∑

x

xP (X = x)

Exemple 5.1.2. Soit X de loi de Bernoulli de parametre p ; c’est-a-dire :

P (X = 0) = 1− p = q et P (X = 1) = p

alorsE(X) = 0× q + 1× p = p

Definition 5.1.3 (Esperance mathematique d’une v.a.r. continue). Soit X une variable aleatoire reelle continuede fonction de densite f . On appelle esperance mathematique de X la quantite si elle existe :

E(X) =∫ +∞

−∞xf(x)dx

Exemple 5.1.4. Soit X de loi uniforme sur [a, b] alors

E(X) =∫ +∞

−∞x

1b− a

dx =1

2(b− a)(b2 − a2) =

a + b

2

Theoreme 5.1.5. Soit X une variable aleatoire reelle et g une application de R dans R. Soit Y = g(X), alorsl’esperance mathematique de Y est si elle existe :

(i) Si X est discrete :E(Y ) = E(g(X)) =

∑x

g(x)P (X = x)

(ii) Si X est continue de loi f

E(Y ) = E(g(X)) =∫ +∞

−∞g(x)f(x)dx

Remarque 5.1.6. On devrait en fait ecrire Y = g X au lieu de Y = g(X). En effet il s’agit bien ici de lacomposition de fonction :

Y : Ω X−→ Rg−→ R

ω 7−→ X(ω) 7−→ g (X(ω))

Theoreme 5.1.7. Soit a et b deux constantes reelles et X une variable aleatoire reelle d’esperance mathematiqueE(X), alors nous avons

E(aX + b) = aE(X) + b

DemonstrationIl suffit de poser Y = aX + b et d’appliquer le theoreme precedent. Le resultat s’obtient alors immediatement enutilisant la propriete de linearite de la somme ou de l’integrale. 2

Definition 5.1.8 (Moments par rapport a l’origine). Soit X une variable aleatoire reelle. On appelle n-iememoment de X par rapport a l’origine la quantite si elle existe E(Xn)

(i) Si X est discreteE(Xn) =

∑x

xnP (X = x)

(ii) Si X est continue de densite f

E(Xn) =∫ +∞

−∞xnf(x)dx

Page 55: Département Biosciences Végétales Module : Statistique 1

5. ESPERANCE MATHEMATIQUE 51

Remarque 5.1.9. Le n-ieme moment de X par rapport a l’origine est l’esperance mathematique de la variablealeatoire Y = Xn.

Definition 5.1.10 (Moments centres). Soit X une variable aleatoire reelle. On appelle n-ieme moment centre deX la quantite si elle existe E[(X − E(X))n]

(i) Si X est discrete

E[(X − E(X))n] =∑

x

(x− E(X))nP (X = x)

(ii) Si X est continue de densite f

E[(X − E(X))n] =∫ +∞

−∞(x− E(X))nf(x)dx

Remarque 5.1.11. Si l’on pose µ = E(X) alors le n-ieme moment centre de X est l’esperance mathematique dela variable aleatoire Y = g(X) avec

g : R −→ R

x 7−→ (x− µ)n

Remarque 5.1.12. Tres souvent pour passer d’une variable discrete a une variable continue il suffit de changerune somme finie

∑en une “somme infinie”

∫.

5.2 Esperance d’une somme de variables aleatoires

Theoreme 5.2.1. Soit (Y1, Y2, . . . , Yn) un n-uplet de variables aleatoires reelles qui possedent des esperancesmathematiques alors S =

∑ni=1 Yi possede une esperance mathematique et on a :

E(S) =n∑

i=1

E(Yi)

Exemple 5.2.2. Soit (Y1, . . . , Yn) un n-uplet de variables de loi de Bernoulli de parametre p alors :

E(n∑

i=1

Yi) =n∑

i=1

E(Yi) =n∑

i=1

p = np

5.3 Variance–Covariance

Definition 5.3.1 (Variance d’une variable aleatoire reelle). Soit X une variable aleatoire reelle. On appelle variancede X la quantite si elle existe :

V ar(X) = E[(X − E(X))2]

Remarque 5.3.2. La variance est en fait le moment centre d’ordre deux.

Remarque 5.3.3. La variance est une mesure de l’ecart moyen entre la variable aleatoire X et son esperancemathematique. Nous aurions pu prendre comme mesureE(|X − E(X)|), mais cette quantite est plus difficile a manipuler.

La variance a la dimension du carre de la variable aleatoire aussi, pour avoir une grandeur de la dimension dela variable, on definit la quantite suivante.

Definition 5.3.4 (Ecart type). Soit X une variable aleatoire reelle. On appelle ecart type de X la quantite si elleexiste :

σ(X) =√

V ar(X)

Theoreme 5.3.5. La variance d’une variable aleatoire reelle existe si et seulement si le moment d’ordre deux deX existe et on a la relation suivante :

V ar(X) = E(X2)− (E(X))2

Page 56: Département Biosciences Végétales Module : Statistique 1

52 CHAPITRE 3. PROBABILITES

DemonstrationNous n’allons demontrer que la formule ci-dessus sans demontrer totalement le theoreme. Posons µ = E(X)

V ar(X) = E[(X − µ)2] = E[X2 − 2µX + µ2]= E(X2)− 2µE(X) + µ2

= E(X2)− µ2

2

Exemple 5.3.6. Soit X et Y de lois

P (X = 1) =12

P (X = −1) =12

P (Y = 100) =12

P (Y = −100) =12

alors E(X) = E(Y ) = 0 et

V ar(X) = E(X2) = 12 × 12

+ (−1)2 × 12

= 1

V ar(Y ) = E(Y 2) = 1002 × 12

+ (−100)2 × 12

= 10000

Cet exemple illustre bien la remarque (5.3.3) ci-dessus : les variables X et Y ont la meme esperance mathematiquemais la dispersion des valeurs par rapport a cette esperance mathematique est plus grande pour Y que pour X.

Theoreme 5.3.7. Soit X une variable aleatoire reelle qui possede une variance alors Y = aX + b a une variancepour tout (a, b) ∈ R2 et on a :

V ar(Y ) = a2V ar(X)

Theoreme 5.3.8. Soit (X, Y ) un couple de variables aleatoires reelles independantes alors

E(XY ) = E(X)E(Y )

Remarque 5.3.9. Il faut bien faire attention a la signification de l’egalite ci-dessus. (X, Y ) est un couple devariables aleatoires reelles, c’est-a-dire que

(X, Y ) : Ω −→ R2

ω 7−→ (X(ω), Y (ω))

et XY est la variable aleatoire reelle Z = g (X, Y ) ou

g : R2 −→ R

(x, y) 7−→ g(x, y) = xy

En d’autre terme Z est la variable aleatoire reelle suivante :

Z : Ω −→ R

ω 7−→ Z(ω) = X(ω)Y (ω)

E(XY ) n’est alors que E(Z).

Remarque 5.3.10. La reciproque du theoreme precedent est fausse, on peut avoirE(XY ) = E(X)E(Y ) sans avoir des variables independantes.

Definition 5.3.11 (Covariance). Soit (X, Y ) un couple de variables aleatoires reelles admettant des esperancesmathematiques. On appelle covariance de X et de Y la quantite, si elle existe definie par :

Cov(X, Y ) = E[(X − E(X))(Y − E(Y ))]

Remarque 5.3.12. On a V ar(X) = Cov(X, X).

Page 57: Département Biosciences Végétales Module : Statistique 1

5. ESPERANCE MATHEMATIQUE 53

Theoreme 5.3.13. Soit (X, Y ) un couple de variables aleatoires reelles admettant des esperances mathematiques.La covariance de X et de Y existe si et seulement si E(XY ) existe et on a la relation suivante :

Cov(X, Y ) = E(XY )− E(X)E(Y )

Corollaire 5.3.14. Soit (X, Y ) un couple de variables aleatoires reelles admettant des esperances mathematiques.Si X et Y sont independantes alors :

Cov(X, Y ) = 0

DemonstrationCela provient de l’application directe des theoremes (5.3.8) et (5.3.13). 2

Theoreme 5.3.15. Soit (X, Y ) un couple de variables aleatoires reelles admettant des esperances mathematiqueset des variances. Alors la variance de X + Y et la covariance de X et Y existent et on a la relation suivante :

V ar(X + Y ) = V ar(X) + V ar(Y ) + 2Cov(X, Y )

Demonstration

V ar(X + Y ) = E[(X + Y − E(X + Y ))2]= E[((X − E(X)) + (Y − E(Y )))2]= E[(X − E(X))2] + E[(Y − E(Y ))2] + E[2(X − E(X))(Y − E(Y ))]= V ar(X) + V ar(Y ) + 2Cov(X, Y )

2

Corollaire 5.3.16. Sous les memes hypotheses que precedemment et si de plus les variables aleatoires sontindependantes alors :

V ar(X + Y ) = V ar(X) + V ar(Y )

DemonstrationImmediate 2

Remarque 5.3.17. Les resultat precedents se generalisent sans difficultes au cas d’un n-uplet de variables aleatoires :(i)

V ar(n∑

i=1

Yi) =n∑

i=1

V ar(Yi) + 2∑i<j

Cov(Yi, Yj)

(ii) Si les variables sont independantes deux a deux

V ar(n∑

i=1

Yi) =n∑

i=1

V ar(Yi)

Exemple 5.3.18. Considerons le cas d’un n-uplet de variables aleatoires de loi de Bernoulli de parametre pindependantes.

V ar(n∑

i=1

Yi) =n∑

i=1

V ar(Yi) =n∑

i=1

pq = npq

Theoreme 5.3.19. Soit (X, Y ) un couple de variables aleatoires reelles ayant des variances. Nous avons alors :

|Cov(X, Y )| ≤ σ(X)σ(Y )

Definition 5.3.20 (Correlation). Soit (X, Y ) un couple de variables aleatoires reelles ayant des variances nonnulles. On appelle correlation de X et Y la quantite :

ρ(X, Y ) =Cov(X, Y )σ(X)σ(Y )

Remarque 5.3.21. On a toujours, lorsque la correlation est definie :

−1 ≤ ρ(X, Y ) ≤ +1

Definition 5.3.22 (Variables non correlees). Deux variables aleatoires reelles X et Y pour lesquelles la correlationexiste sont dites non correlees si et seulement si leur correlation est nulle.

Page 58: Département Biosciences Végétales Module : Statistique 1

54 CHAPITRE 3. PROBABILITES

6 Theoremes limites

6.1 Introduction

Les theoremes limites constituent sans doute les resultats theoriques parmi les plus importants de la theoriedes probabilites. Ces theoremes sont repartis en deux grandes classes : les lois des grands nombres d’une part,les theoremes centraux limites d’autre part. Les lois des grands nombres enoncent des conditions sous lesquellesla moyenne d’une suite de variables aleatoires de meme loi converge (dans un sens a definir) vers leur esperancemathematique commune, ceci implique notamment la convergence de la frequence d’apparition d’un evenement verssa probabilite. Les theoremes centraux limites par contre determinent sous quelles hypotheses la somme de variablesaleatoires converge (ici encore dans un sens a definir) vers la distribution normale ; ceci permet d’approximer lasomme d’un grand nombre de variables aleatoires a une loi normale et c’est ce type de theoreme qui justifie defacon theorique l’utilisation (parfois abusive) de la loi normale en statistique.

Dans toute cette section nous considererons des variables aleatoires reelles definies sur un meme espace (Ω, E).

6.2 Lois des grands nombres

Theoreme 6.2.1 (Loi faible des grands nombres). Soient Y1, Y2, . . . une suite de variables aleatoires independanteset identiquement distribuees, d’esperance mathematique commune finie (E(Yi) = µ) et de variance commune finie(V ar(Yi) = σ2). Alors pour tout ε > 0 on a :

P

(∣∣∣∣Y1 + Y2 + · · ·+ Yn

n− µ

∣∣∣∣ > ε

)−→ 0

n −→ +∞

DemonstrationNous ne demontrerons le resultat que lorsque la variance (commune) des Yi σ2 est finie.Comme

E(n∑

i=1

1n

Yi) =1n

n∑i=1

E(Yi) = µ

et

V ar(n∑

i=1

Yi) =nσ2

n2=

σ2

n

Il resulte de l’inegalite de Thebychev que

0 ≤ P

(∣∣∣∣Y1 + Y2 + · · ·+ Yn

n− µ

∣∣∣∣ > ε

)≤ σ2

nε2

On en deduit immediatement le resultat. 2

Remarque 6.2.2. La loi faible des grands nombres fut etablie pour la premiere fois par Jacques Bernoulli pour lecas particulier ou les variables sont de loi de Bernoulli. L’enonce de ce theoreme et la demonstration qu’il en donnefigurent dans son ouvrage :”Ars Conjectandi” publie en 1713 par son neveu Nicolas Bernoulli huit ans apres samort. Il faut savoir qu’a cette epoque on ne connaissait pas l’inegalite de Tchebychev, et Bernoulli dut developperune demonstration extremement ingenieuse pour etablir ce resultat.

Theoreme 6.2.3 (Loi forte des grands nombres). Soient Y1, Y2, . . . une suite de variables aleatoires independanteset identiquement distribuees, d’esperance mathematique commune finie (E(Yi) = µ) et de variance commune finie(V ar(Yi) = σ2). Alors on a

Y1 + · · ·+ Yn

n−→ µ

n −→ +∞

(i.e. P

(lim

n→+∞

Y1 + · · ·+ Yn

n= µ

)= 1)

DemonstrationAdmise. 2

Remarque 6.2.4. On a souvent, au debut, du mal a saisir la difference entre la loi faible et la loi forte des grandsnombres. La loi faible assure que pour toute valeur de n suffisamment grande (Y1 + · · · + Yn)/n est probablementtres voisines de µ. Elle n’assure pas cependant que (Y1 + · · ·+ Yn)/n devra rester dans un voisinage etroit de µ. Il

Page 59: Département Biosciences Végétales Module : Statistique 1

6. THEOREMES LIMITES 55

est donc possible qu’il y ait de larges ecarts entre (Y1 + · · · + Yn)/n et µ pour une infinite d’evenements, infinitedont la probabilite collective est tres faible cependant. La loi forte des grands nombres exclut cette situation. Elleassure en particulier qu’avec une probabilite de 1 et pour toute valeur de ε > 0 la valeur de l’expression ci-dessousne sera superieure a ε qu’un nombre fini de fois. ∣∣∣∣∣

n∑i=1

Yi

n− µ

∣∣∣∣∣Exemple 6.2.5. Supposons que l’on realise une serie d’epreuves independantes. Soit A un evenement donneerelatif a l’experience ainsi repetee et P (A) sa probabilite, constante au cours des epreuve. On pose :

Yi = 1 si A survient au cours de l’epreuve numero iYi = 0 sinon

La loi forte des grands nombres etablit qu’avec une probabilite 1 on a :

Y1 + · · ·+ Yn

n−→ E(X) = P (A) quand n −→ +∞ (3.1)

Comme Y1 + · · ·+Yn represente le nombre d’occurrences de l’evenement A au cours des n premieres epreuves (3.1)peut donc recevoir l’interpretation suivante : La frequence relative d’apparition de l’evenement A converge, avecune probabilite de 1, vers la probabilite d’apparition de l’evenement A P (A).

Exemple 6.2.6. Soit X une variable aleatoire reelle continue de loi f . Soit y1, y2, . . . , yN N realisations independantesde X. On trace alors l’histogramme suivant :

−2.7 −2.1 −1.5 −0.9 −0.3 0.3 0.9 1.5 2.1 2.70

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

0.5

x

Fig. 3.3 – Histogramme et fonction de densite

La loi des grands nombres dit que :

A −→∫ xi+1

xif(x)dx

n −→ +∞

En d’autres termes l’histogramme ”converge” vers la fonction de densite lorsque n tend vers l’infiniet l’intervalle de classe ”tend” vers 0.

Theoreme 6.2.7 (Theoreme de limite centrale). Soient Y1, Y2, . . . une suite de variables aleatoires reelles independanteset identiquement distribuees, d’esperance mathematique µ et de variance σ finies. Alors la distribution de

Zn =Y1 + · · ·+ Yn − nµ

σ√

n

tend vers la distribution normale reduite quand n tend vers +∞, c’est-a-dire que :

P (Zn ≤ a) −→ 1√2π

∫ a

−∞e−

x22 dx = φ(a)

n −→ +∞

DemonstrationAdmise. 2

Page 60: Département Biosciences Végétales Module : Statistique 1

56 CHAPITRE 3. PROBABILITES

0 5 100

0.05

0.1

0.15

0.2

0.25

0 5 100

0.05

0.1

0.15

0.2

0.25

0 5 100

0.05

0.1

0.15

0.2

0.25

0 5 100

0.05

0.1

0.15

0.2

0.25

Fig. 3.4 – 500 donnees d’une loi uniforme sur [0,12]

0 5 100

0.05

0.1

0.15

0.2

0.25

0 5 100

0.05

0.1

0.15

0.2

0.25

0 5 100

0.05

0.1

0.15

0.2

0.25

0 5 100

0.05

0.1

0.15

0.2

0.25

Fig. 3.5 – ”Convergence” de l’histogramme vers la fonction de densite (n=100,500,1000,5000)

Exemple 6.2.8. Lorsque les Yi sont des variables de Bernouilli de parametre p, le theoreme precedent nous donne :

P

(Y1 + · · ·+ Yn − np

√npq

≤ β

)−→ φ(β)

n −→ +∞

Pour n “assez” grand ceci nous permet de calculer :

P

(α ≤ Y1 + · · ·+ Yn − np

√npq

≤ β

)' φ(β)− φ(α)

La valeur de n a partir de laquelle on peut confondre les deux quantites depend de la valeur du parametre p, maissi p est compris entre 0,1 et 0,9 alors on peut pratiquement faire l’approximation a partir de n = 30.

Exemple 6.2.9. Soit X une variable aleatoire continue uniforme sur [0, 12]. On definit alors :

Yn : Ωn −→ R

ω = (ω1, . . . , ωn) 7−→ Yn(ω) =1n

n∑i=1

Yi(ω) =1n

n∑i=1

X(ωi)

et

Zn =Yn − µ

σ/√

n

avec µ = E(X) = 2.5 et σ2 = V ar(X) = 12alors

Zn −→ Z : N (0, 1)n −→ +∞

Page 61: Département Biosciences Végétales Module : Statistique 1

6. THEOREMES LIMITES 57

90 100 1100

0.05

0.1

90 100 1100

0.05

0.1

90 100 1100

0.05

0.1

90 100 1100

0.05

0.1

Fig. 3.6 – 500 donnees d’une loi N (100, 25)

90 100 1100

0.05

0.1

90 100 1100

0.05

0.1

90 100 1100

0.05

0.1

90 100 1100

0.05

0.1

Fig. 3.7 – ”Convergence” de l’histogramme vers la fonction de densite (n = 100, 500, 1000, 5000)

Yn −→ Z : N (µ,σ2

n)

n −→ +∞

0 5 100

0.05

0.1

0.15

0 5 100

0.05

0.1

0.15

0.2

0 5 100

0.1

0.2

0.3

0 5 100

0.1

0.2

0.3

Fig. 3.8 – Theoreme limite centrale dans le cas d’une loi uniforme sur [0, 12] (n = 1, 2, 3, 5).

Remarque 6.2.10. Ce theoreme, comme nous l’avons deja dit en introduction de cette section, est la justificationtheorique de l’emploi frequent de la loi normale.

Lorsque l’on etudie par exemple le rendement d’une cereale, ce rendement est en fait une moyenne et cettemoyenne suit approximativement une loi normale.

Page 62: Département Biosciences Végétales Module : Statistique 1

58 CHAPITRE 3. PROBABILITES

0 5 100

0.2

0.4

0.6

0.8

1

0 5 100

0.2

0.4

0.6

0.8

1

0 5 100

0.2

0.4

0.6

0.8

1

Fig. 3.9 – Theoreme limite centrale dans le cas d’une loi uniforme sur [0, 12] (n = 10, 20, 50).

Page 63: Département Biosciences Végétales Module : Statistique 1

Chapitre 4

Theorie de l’echantillonnage

1 Modelisation des variables

1.1 Introduction

L’objet de cette section est la modelisation des donnees. Il faut ici entendre le terme modelisation dans le sensde la modelisation mathematique ou de la formalisation mathematique1. On s’interesse donc a l’art de representera l’aide d’objets mathematiques des situations concretes. Nous n’aborderons ici la modelisation mathematique quedans le cadre tres restreint de l’estimation et de la theorie des tests statistiques2. Le premier point a aborderconcerne donc le passage de la question de depart a son ecriture mathematique ; par exemple comment ecrivonsnous le probleme de l’estimation d’un taux de germination et par quel objet mathematique representons nous cetaux de germination.

1.2 Variable aleatoire

Exemple 1.2.1. Taux le germinationConsiderons l’exemple d’un taux de germination. Soit donc T une variete fixee de tournesol. Le taux de germinationest le pourcentage de graines qui germent quand on met a germer les graines de cette variete T . Il nous faut pourdefinir rigoureusement ce taux de germination bien definir la population G sur laquelle nous travaillons. En effetles conditions dans lesquelles on met a germer les graines comme la temperature, l’eclairage, ... peuvent influencerce taux de germination. Definir G, c’est donc non seulement definir rigoureusement la variete, mais aussi lesconditions experimentales. Cette population est a priori infinie car on peut considerer les graines qui existentaujourd’hui, mais aussi celle a venir dans un an, dans 2 ans, ... Une fois la population G definie, on peut ecrire lafonction de G a valeurs dans 0, 1 suivante :

X : G −→ 0, 1g 7−→ 0 si g ne germe pasg 7−→ 1 si g germe.

Cette fonction est une variable aleatoire de loi de Bernoulli de parametre p = P (X = 1) = E(X) ou p exprime enpourcentage n’est autre que le taux de germination. On peut donc definir le taux de germination, exprime commeun nombre dans l’intervalle [0, 1], comme etant l’esperance mathematique, c’est-a-dire la valeur moyenne, de lavariable aleatoire X. Estimer un taux de germination, c’est donc trouver une ”valeur approchee” du parametre pde la loi de Bernoulli de la variable aleatoire X.

Exemple 1.2.2. Le 29 mai 2005 les electeurs francais seront appeles a se prononcer pour ou contre le projet detraite etablissant une constitution pour l’Europe3. Si notre objectif est de savoir si la constitution sera acceptee ounon, il faut considerer comme population l’ensemble des bulletins exprimes, c’est-a-dire l’ensemble des bulletins oui

1Le terme de modelisation mathematique est, a notre grand regret, souvent galvaude. Il signifie souvent l’utilisation de modelesdeja etablis. Mais l’art de la modelisation, c’est-a-dire l’art de construire des modeles mathematiques, est difficile. Newton a du, pourtrouver la loi de la gravitation universelle, construire la notion de derivee !

2La modelisation mathematique intervient aujourd’hui dans tous les domaines scientifiques : l’environnement, la science du climat, labiologie, l’economie, ... Elle utilise des notions mathematiques tres variees et parfois tres complexes : equations differentielles ordinaireset stochastiques, equations aux derivees partielles, chaınes de Markov, ... La modelisation etudiee ici est donc un cas tres particulier.

3Nous avons fini de rediger ce chapitre une semaine avant le referendum

59

Page 64: Département Biosciences Végétales Module : Statistique 1

60 CHAPITRE 4. THEORIE DE L’ECHANTILLONNAGE

ou non4. Soit P cette population, nous pouvons alors definir la variable aleatoire X suivante :

X : P −→ 0, 1b 7−→ 0 si le bulletin b est nonb 7−→ 1 si le bulletin b est oui.

X est encore une variable aleatoire de loi de Bernoulli de parametre p. Ce parametre represente ici le pourcentagedes electeurs qui ont vote oui dans la population des electeurs qui ont vote oui ou non. Le probleme est alors deconnaıtre la valeur de ce parametre et plus precisemment de savoir si cette valeur est superieure ou inferieure a1/2.

Remarque 1.2.3. Dans l’exemple precedent, nous avons considere le cas d’un referendum et non celui d’unsondage d’opinion. Dans le cas du referendum, les estimations qui seront donnees le soir du 29 mai seront obtenuesa partir de bulletins depouilles, donc de donnees exactes. Le cas des sondages est lui beaucoup plus delicat. En effet,on n’est pas sur dans un sondage que les personnes interrogees repondent vraiment ce qu’elles pensent et on nesait pas si les personnes qui refusent de repondre ont le meme comportement que celles qui repondent ; bref, nousn’avons pas les donnees exactes. La fiabilite des donnees est bien evidemment une question tres importante enpratique qu’il faut toujours garder a l’esprit. Nous n’aborderons pas cette question dans ce cours, question qui esttotalement dependante du domaine d’application. La collecte des donnees pour un referendum ou celle pour l’etudede la pollution d’une nappe phreatique sont bien evidemment tres differentes. Elle doit donc etre effectuee par unspecialiste du domaine. Nous supposerons donc toujours ici que les donnees sont fiables.

Exemple 1.2.4. Considerons maintenant un cas d’ecole qui nous sera tres utile pedagogiquement. La populationU etudiee est une urne remplie de boules blanches et noires. On definit alors la variable aleatoire suivante

X : U −→ 0, 1b 7−→ 0 si b est noireb 7−→ 1 si b est blanche.

X est toujours une variable aleatoire de loi de Bernoulli de parametre p. Ici ce parametre est le pourcentage deboules blanches dans l’urne.

On voit donc ici qu’estimer un taux de germination, un pourcentage de reponses par oui a un referendum ouun pourcentage de boules blanches dans une urne contenant des boules blanches et noires, sont des problemesidentiques.

Exemple 1.2.5. On s’interesse ici a un caractere qualitatif (la couleur des yeux) dans une population determineeP, par exemple la population francaise. On definit alors la variable aleatoire

X : P −→ marron,noir, bleu,vert,autre1 individu 7−→ la couleur de ses yeux.

Ce qu’on desire connaıtre c’est la proportion des individus qui ont la couleur des yeux marron, noir, bleu, vert etautre, c’est-a-dire la loi de la variable aleatoire X : P (X = marron), P (X = noir), P (X = bleu), P (X = vert), etP (X = autre).

Exemple 1.2.6. On s’interesse au rendement exprime en quintaux a l’hectare d’une variete fixee de tournesol T .Definissons la variable aleatoire suivante :

X : P −→ R

une culture 7−→ le rendement de cette culture.

Il faut la encore bien definir la population P. On doit en autre preciser :– la variete T ;– le type de terrain ;

4En France les bulletins blancs sont consideres comme des bulletins nuls et ne sont donc pas des suffrages exprimes. Ceci n’est pasle cas dans tous les pays.

Page 65: Département Biosciences Végétales Module : Statistique 1

1. MODELISATION DES VARIABLES 61

– la taille des parcelles, leurs expositions, ... ;– les conditions de cultures ;– ...

Le rendement est alors definie comme l’esperance mathematique de cette variable : µ = E(X). Estimer un ren-dement, c’est donc encore trouver une ”valeur approchee” de l’esperance mathematique d’une variable aleatoire.Nous supposerons en pratique pour cela que la loi de cette variable aleatoire (qui est une loi de probabilite sur R)est normale de parametre µ et σ. On ecrira que X suit une loi N (µ, σ2) (attention nous mettons la variance σ2 etnon l’ecart type dans N (µ, σ2)). Ceci n’est bien sur qu’un modele. En effet, un rendement est toujours positif etdonc on sait que P (X < 0) = 0. Or, si X suit une loi normale, cette quantite est egale a∫ 0

−∞

1√2πσ

e−(x−µ)2/(2σ2)dx,

qui est strictement positif. Cependant, cette derniere quantite sera en pratique extrement faible (voir l’exercice6.1.2). Elle ne remettra donc pas en cause le modele choisi.

Remarque 1.2.7. Le choix d’une loi de probabilite d’une variable aleatoire comme le rendement n’est pas toujours evident. Il se fait en

pratique a partir de la connaissance que l’on peut avoir a priori. La justification theorique de l’emploi de la loi normale vient du theoreme

limite central. On peut en effet penser que le rendement obtenu est le resultat moyen d’un grand nombre de variable independantes (de

variances majorees). Le theoreme limite central nous dit alors que la loi de probabilite qui en resulte est tres proche d’une loi normale.

Nous mettons cependant en garde le lecteur sur l’utilisation parfois abusive de cette loi normale.

Exemple 1.2.8. On desire etudier simultanement sur la population P des etudiants francais de l’annee 2005 lesvariables suivantes : le sexe, la taille, la couleur des yeux, et leurs ressources annuelles. On definit en fait ici levecteur aleatoire de dimension 5 suivant :

X : P −→ M,F ×R×R× marron,noir,bleu, vert,autre ×R

un etudiant 7−→ (son sexe,sa taille, son poids, la couleur de ses yeux, ses ressources annuelles).

Les applications composantes de X definissent cinq variables aleatoires X1, X2, X3, X4, X5 qui sont definies sur lememe espace de depart que X : P et qui representent respectivement les variables sexe, taille, poids, couleur desyeux et ressources. La variable couleur des yeux s’ecrit par exemple

X4 : P −→ marron,noir,bleu, vert,autreun etudiant 7−→ la couleur de ses yeux.

On peut donc parler ici de l’independance ou non de ces variables aleatoires (X1, X2, X3, X4, X5).

Ces exemples montrent clairement que l’on formalise toujours les variables etudiees par des variables aleatoires. Ilfaudra toujours en pratique bien preciser ces variables aleatoires, c’est-a-dire la population de depart et l’applicationelle meme. En effet les donnees seront en pratique les valeurs obtenues des variables aleatoires sur un echantillonde la population. Les statistiques ne pourront donner de reponses que sur la population a partir de laquelle ona extrait l’echantillon et uniquement celle-ci. Precisons aussi que les termes de population et d’individu sont aprendre dans leur sens statistique. Ainsi, dans l’exemple 1.2.6 un individu est en fait une culture sur une parcelle.On parle aussi parfois d’unite experimentale au lieu d’individu. On emploie aussi le terme de caractere au lieu devariable.

En conclusion une variable sera en fait une variable aleatoire

X : P −→ C

ω 7−→ X(ω),

ou– la population P est en terme de probabilite un espace fondamental ;– un individu ω est un element de la population P ;– C est l’ensemble des valeurs que peut prendre la variable alealoire.

Ce que l’on souhaite connaıtre en pratique c’est la loi de cette variable aleatoire, ou la valeur de certain de sesparametres. Nous souhaitons ici souligner que la terminologie de variable aleatoire est tres mauvaise. En effet, une variable aleatoire X de

P a valeurs dans C est en fait une fonction parfaitement deterninee qui permet de transposer une probabilite d’un espace probabilise dans un

autre. Une variable aleatoire n’est donc pas une variable dans le sens mathematique du terme puisque c’est une fonction ; et cette fonction est

parfaitement connue. On peut donc dire, comme cela est mentionne dans [2] qu’une variable aleatoire, c’est comme le Saint Empire Romain

Germanique : il n’etait pas saint, ce n’etait pas un empire et il n’etait pas romain ! ! !

Page 66: Département Biosciences Végétales Module : Statistique 1

62 CHAPITRE 4. THEORIE DE L’ECHANTILLONNAGE

2 Introduction a la theorie de l’echantillonnage

2.1 Modelisation des donnees

On considere les donnees de la tables 4.1, [5]. Ces donnees, notees (y1, . . . , yn) sont des longueurs de la rectricecentrale de la gelinotte huppee male, juvenile. Ces 50 donnees sont 50 realisations ou 50 observations de la variablealeatoire

X : P −→ C

une gelinotte 7−→ la longueur de sa rectrice centrale.

ou P est la population des gelinottes huppees males juveniles. Il s’agit d’un premier point de vue. C’est celui-ci quiest pris en consideration lorsque l’on represente graphiquement les donnees (voir la figure 4.1).

153 165 160 150 159 151 163160 158 149 154 153 163 140158 150 158 155 163 159 157162 160 152 164 158 153 162166 162 165 157 174 158 171162 155 156 159 162 152 158164 164 162 158 156 171 164158

Tab. 4.1 – Longueurs de la rectrice centrale de la gelinotte huppee male, juvenile

Mais nous pouvons adopter un autre point de vue qui est beaucoup moins intuitif. C’est ce deuxieme point devue qui est pris en consideration lorsque l’on fait une estimation ou un test statistique et que nous allons presentermaintenant. Pour cela, on considere le vecteur aleatoire suivant :

Y = (Y1, . . . , Y50) : Ω −→ R50

g = (g1, . . . , g50) 7−→ Y (g) = (X(g1), . . . , X(g50),

ou l’ensemble Ω est l’ensemble de tous les echantillons de taille 50 extraits de la population P, c’est-a-dire que

Ω = g = (g1, . . . , g50) ∈ P50|gi 6= gj pour i 6= j.

Y (g) est donc un vecteur contenant les 50 longeurs de la rectrice centrale des 50 gelinottes de l’echantillon g. Lesdonnees de la table 4.1 sont alors une realisation (ou une observation) de ce vecteur alealoire Y .

En resume les deux points de vues modelisant les donnees sont :– l’echantillon (y1, . . . , yn) represente n observations de la variable aleatoire X ;– l’echantillon (y1, . . . , yn) represente une onservation du vecteur aleatoire Y .

Nous allons maintenant voir ce que permet ce deuxieme point de vue.

2.2 Exemple de l’urne

Nous commencons par l’etude du cas d’ecole d’une urne rempli de boules blanches et noires. L’interet de cetexemple, outre sa simplicite, est de bien comprendre la difference entre ce que nous appellerons un echantillonnageavec remise et un echantillonnage sans remise.

Tirage avec remise

Considerons l’experience qui consiste a tirer avec remise n boules d’une urne contenant 5 boules blanches et 15boules noires. Nous nous interessons maintenant a la variable aleatoire suivante :

Y : Un −→ 0, 1/n, 2/n, . . . , n/nb = (b1, b2, . . . , bn) 7−→ (le nombre de boule blanches parmi b1, b2, . . . , bn)/n.

Page 67: Département Biosciences Végétales Module : Statistique 1

2. INTRODUCTION A LA THEORIE DE L’ECHANTILLONNAGE 63

140 150 160 170 1800

0.5

1

1.5

2

longueur140 150 160 170

1

longueur

150 160 1700

0.02

0.04

0.06

0.08

longueur

Fig. 4.1 – Donnees, boıte a moustaches et histogramme

Nous allons ecrire Y comme la moyenne de n variables aleatoires de loi de Bernoulli independantes. Nous endeduirons alors la loi de Y . Pour cela on considere la variable aleatoire X de loi de Bernoulli de parametrep = 5/20 = 1/4

X : U −→ 0, 1une boule 7−→ 0 si la boule est noireune boule 7−→ 1 si la boule est blanche.

On construit alors le vecteur aleatoire Y de dimension n

Y = (Y1, . . . , Yn) : Un −→ 0, 1n

b = (b1, . . . , bn) 7−→ Y (b) = (Y1(b), . . . , Yn(b))= (X(b1), . . . , X(bn)).

Ainsi Y est le vecteur aleatoire de dimension n qui associe a chaque tirage le n-upplet de 0 et de 1 suivant lacouleur des boules tirees. La i-eme composante de Y , Yi, represente quant a elle, l’application qui a un echantillonassocie 1 si la i-eme boule tiree est blanche et 0 si elle est noire. Cette variable aleatoire Yi s’ecrit alors

Yi : U −→ 0, 1 (4.1)b 7−→ Yi(b) = X(bi). (4.2)

(4.3)

Page 68: Département Biosciences Végétales Module : Statistique 1

64 CHAPITRE 4. THEORIE DE L’ECHANTILLONNAGE

On considere maintenant la fonction M definie par

M : Rn −→ 0, 1/n, . . . , n/n

y = (y1, . . . , yi) 7−→ M(y) = y =1n

n∑i=1

yi.

On peut alors ecrire la variable aleatoire Y comme la composee des fonctions M et Y : Y = M Y = M(Y ).Ce qui donne ici :

Y =1n

n∑i=1

Yi

Le tirage etant avec remise, les variables aleatoires (Yi) ont la meme loi que X et sont independantes. Par suitenY =

∑ni=1 Yi suit une loi binomiale de parametre n et p = 1/4 et la loi de Y est donnee par P (Y = k/n) =

P (nY = k) = Ckn(1/4)k(3/4)n−k.

Remarque 2.2.1. (i) Rappelons que dire que les variables aleatoires (Yi)i et X ont la meme loi signifie que leslois de probalilites definies par ces variables aleatoires sur leur espace d’arrivee, ici sur 0, 1 sont identiques.Cela ne signifie en aucun cas que ces variables aleatoires sont egales (si tel etait le cas elles ne pourraientpas etre independantes).

(ii) Les variables aleatoires Yi et Y sont toutes definies sur le meme espace de depart. C’est l’espace d’echantillonnage,l’ensemble de tous les tirages avec remise de n boules ici, c’est-a dire Un. L’ecriture Y = (1/n)

∑ni=1 Yi a

donc bien un sens ; il s’agit de l’egalite de deux fonctions.

Les theoremes de la theorie des probabilites nous permet alors d’obtenir simplement l’esperance mathematiqueet la variance de Y .

E(Y ) =1n

n∑i=1

E(Yi) =1n

n∑i=1

p = p

V ar(Y ) =1n2

V ar

(n∑

i=1

Yi

)

=1n2

n∑i=1

V ar(Yi) car les (Yi)i sont independantes

=1n2

n∑i=1

pq =pq

n

Tirage sans remise

On considere maintenant le cas ou le tirage est sans remise. Le nombre de boules n tirees est alors bienevidemment inferireur au nombre N = 20 de boules totales dans l’urne. Dans ce cas, nous avons les memes expres-sions pour les variables aleatoires Y , (Yi)i et Y excepte que l’espace de depart, c’est-a-dire l’espace dechantillonnage,n’est plus Un mais est

Ω = b = (b1, . . . , bn) ∈ U|bi 6= bj pour tout i 6= j.

Les (Yi)i ont toujours la meme loi que X, mais elles ne sont plus independantes. En effet la probabilite d’avoirune boule blanche a la deuxieme boule differe suivant le resultat de la premiere boule. La loi de nY est alors la loihypergeometrique de parametre N = 20, n, p = 1/4. Par suite la loi de Y est donnee par

P

(Y =

k

n

)=

Ckn−1C

n−kn2

CkN

.

Nous avons toujours pour l’esperance mathematique E(Y ) = p, mais la variance n’a plus la meme valeur. Ondemontre qu’elle est egale a :

V ar(Y ) =N − n

N − 1pq

n.

La figure 4.2 represente les lois de Y pour differentes valeurs de n et de p pour les echantillonnage avec remiseet sans remise.

Page 69: Département Biosciences Végétales Module : Statistique 1

2. INTRODUCTION A LA THEORIE DE L’ECHANTILLONNAGE 65

−0.2 0 0.2 0.4 0.6 0.8 1 1.20

0.1

0.2

0.3

0.4

0.5

k/n

avec remisesans remise

−0.2 0 0.2 0.4 0.6 0.8 1 1.20

0.1

0.2

0.3

0.4

0.5

k/n

avec remisesans remise

Fig. 4.2 – Loi de Y pour l’echantillonnage sans remise et avec remise (n = 5, p = 1/3, N = 15 et n = 4, p =0.5, N = 16)

2.3 Exemple du referendum

Reprenons l’exemple 1.2.2. Notons N le nombre totale de suffrage exprimes et supposons que quelques instantsapres la fermeture des bureaux de vote on ait connaissance du resultat sur n bulletins exprimes pris au hasard dansla population P. On s’interesse alors a la variable aleatoire suivante :

Y : Ω −→ 0, 1/n, 2/n, . . . , n/nb = (b1, b2, . . . , bn) 7−→ (le nombre de bulletin oui parmi les bulletins b1, b2, . . . , bn)/n,

ouΩ = b = (b1, . . . , bn) ∈ U|bi 6= bj pour tout i 6= j.

Nous sommes donc exactement dans le cas d’un echantillonnage sans remises car on a en pratique jamais dansun echantillon deux fois le meme bulletin de vote. Nous avons donc comme precedemment pour nY une loi hy-pergeometriques de parametre N,n et p, et l’esperance mathematique et la variance de Y ont pour valeurs

E(Y ) = p et var(Y ) =N − n

N − 1pq

n.

Un premier probleme est qu’en pratique N est inconnu. Fort heureusement n est tres inferieur a N . Ceci a pourconsequence que l’on peut considerer le tirage sans remise comme un tirage avec remise (une regle empirique estn < (N/10)). On peut donc considerer ici que nY suit une loi binomiale de parametres (n, p). On peut de plus icifaire une deuxieme approximation. En effet, lorsque p n’est pas trop proche de 0 ou de 1, on peut approximer la loibinomiale par une loi normale. La table 4.2 donne une regle pratique pour que cette approximation soit correcte.

Page 70: Département Biosciences Végétales Module : Statistique 1

66 CHAPITRE 4. THEORIE DE L’ECHANTILLONNAGE

Parametre p Valeur minimale de npour une approximation

par la loi normale0.5 300.4 500.3 800.2 2000.1 6000.05 14000.0 poisson

Tab. 4.2 – Approximation d’une loi binomiale par une loi normale

Dans le cas d’un referendum, nous sommes donc dans le cas favorable ou l’on peut considerer que Y suit une loiN (p, pq/n). Or on sait (voir l’exercice 6.1.2) que dans le cas d’une loi normale on a

P (µ− 1, 96σ ≤ X ≤ µ + 1, 96σ) = 0.95 (4.4)

Supposons maintenant que la proportion dans la population de oui soit exactement de 50%, nous avons alorsp = 0.5, et supposons que n = 100000. La formule 4.4 donne alors P (0.497 ≤ Y ≤ 0.503) = 0.95 (µ = pet σ =

√pq/n). Ceci signifie concretement que l’on a 95 chance sur 100 d’avoir une proportion de oui dans

l’echantillon de taille n = 100000 compris entre 49.7% et 50.3%.

Remarque 2.3.1. (i) Le soir du referendum, les estimations sont donnees des la fermeture des bureaux de vote des grandes villes.Celles-ci sont obtenues a partir du depouillement des resultats dans des communes tests qui ont fermees plus tot. Nous ne sommesdonc pas en realite dans le cas expose ici ou l’echantillon est suppose etre pris totalement au hasard dans la population. Unedeuxieme difference est qu’en pratique c’est le nombre total d’electeurs dans chaque commune test qui est fixe au depart, et non pasle nombre totale de suffrages exprimes dans ces communes tests. Les choses sont donc en fait beaucoup plus compliques. Le lecteurinteresse pourra consulter les ouvrages suivants [1] et [6].

(ii) Si n = 1000 l’intervalle obtenu exprime en pourcentage est [46.9%; 53.1%]. Les sondages effectues actuellement portent sur deseffectifs inferieurs a 1000 personnes. Bien que les methodes utilisees (principalement la methode des quotas), soient plus fines quel’echantillonnage au hasard considere ici, la precision obtenue, vue de plus les difficultes concernant la fiabilite des donnees et lenombre d’indecis deja mentionnees, est plus proche de ±5%, voir plus ! A notre avis, les journalistes et commentateurs politiquesferaient mieux d’utiliser les temps d’antenne radio ou de television a parler du fond du debat, plutot que des sondages qui n’apportentque peu d’informations.

Les resultats obtenus sur cet exemple peuvent etre schematises par le schema 4.3.

X : P :−→ 0, 1 de loi B(p)p = proportion de oui dans la population P

Y = (Y1, . . . , Yn) : Pn −→ 0, 1n

Y = M(Y ) : Pn −→ RY : N (p, pq/n)

?

?

Echantilonnage

Statistique M

Fig. 4.3 – Echantillonnage de la moyenne pour un referundum

L’objet de la theorie de l’echantillonnage est d’etudier ce schema et les proprietes des variables aleatoires M(Y )lorsque M est la moyenne ou une autre fonction.

Page 71: Département Biosciences Végétales Module : Statistique 1

3. ECHANTILLONNAGE 67

Remarque 2.3.2. Le soir du referendum, les instituts de sondages ont les resultats sur un echantillon de taille n.Leur objectif est alors d’en deduire de l’information sur le parametre p. Ce probleme d’estimation, qui sera traiteau chapitre sur l’estimation, est le processus ”inverse” de celui de l’echantillonnage vu ici. En effet la theorie del’echantillonnage part de la population pour etudier ce qui se passe sur l’ensemble de tous les echantillons de taillen alors que la theorie de l’estimation part d’un echantillon pour obtenir des informations sur la population.

3 Echantillonnage

3.1 Echantillon

D’une facon generale, on considere une variable aleatoire X definie sur une population P a valeurs dans unensemble C qui modelise la variable que l’on desire etudier. On construit ensuite le vecteur aleatoire Y suivant :

Y = (Y1, . . . , Yn) : Ω −→ Cn

ω = (ω1, . . . , ωn) 7−→ Y (ω) = (Y1(ω), . . . , Yn(ω)) (4.5)= (X(ω1), . . . , X(ωn)),

ou Ω est l’espace dechantillonnage. Ω = Pn si l’echantillonnage est avec remise et

Ω = ω = (ω1, . . . , ωn) ∈ P|ωi 6= ωj pour tout i 6= j, (4.6)

si l’echantillonnage est sans remise.

Definition 3.1.1 (Echantillon aleatoire). On appelle echantillon aleatoire de taille n ou n-echantillon aleatoire dela variable aleatoire X le vecteur aleatoire Y = (Y1, . . . , Yn).

Definition 3.1.2 (echantillon). On appelle echantillon de taile n ou n-echantillon, une realisation ou une obser-vation (y1, . . . , yn) du n-echantillon aleatoire.

Remarque 3.1.3. Un n-echantillon n’est pas autre chose que les donnees relatif a la variable etudiee.

Remarque 3.1.4. (i) Comme nous l’avons deja mentionne, les variables aleatoire (Yi)i=1,n sont definies sur lememe espace Ω que le n-echantillon aleatoire Y . Nous pouvons donc parler de l’independance ou de la nonindependance de ces variables aleatoires (Yi)i.

(ii) Les variables aleatoires (Yi)i sont a valeurs dans le meme ensemble que la variable aleatoire X et leurs loissont identiques a celle de X.

(iii) Nous avons en fait la relation suivanteYi(ω) = X(ωi), (4.7)

ou l’indice i est a gauche sur la vecteur aleatoire Y et a droite sur l’argument de la variable aleatoire X.

Definition 3.1.5 (Echantillon aleatoire simple–Echantillon Bernoullien). On appelle echantillon aleatoire simpleou echantillon Bernoullien tout n-echantillon aleatoire d’une variable aleatoire X ou les variables aleatoires (Yi)i

sont independantes.

Lorsque l’echantillonnage est avec remise, Y est donc un echantillon Bernoullien, ce qui n’est plus le cas sil’echantillonnage est sans remise. Cependant si la taille dechantillon n est tres petite devant la taille de la populationN (en pratique si (n/N) < 0.1) alors on peut approximer l’echantillonnage sans remise par un echantillonnage avecremise. Dans ce cas des theoremes de la theorie des probabilites nous permet, connaissant la loi de X, de determinerla loi de Y .

Theoreme 3.1.6. Soit P une population et X une variable aleatoire (X : P → C) sur cette population. Soit(Y1, . . . , Yn) un n-echantillon Bernoullien, alors les n variables aleatoires Y1, . . . , Yn ont pour loi la loi de X, sontindependantes et Y = (Y1, . . . , Yn) est une variable aleatoire a n dimensions :

Y : Ω −→ Cn

de loi :(i) Si X est discrete :

PCn(Y = (y1, . . . , yn)) =n∏

i=1

PC(Yi = yi) =n∏

i=1

PC(X = yi). (4.8)

(ii) Si X est continue de fonction de densite f(x), Y a pour densite :

g(y) =n∏

i=1

f(yi) ; ou y = (y1, . . . , yn). (4.9)

Page 72: Département Biosciences Végétales Module : Statistique 1

68 CHAPITRE 4. THEORIE DE L’ECHANTILLONNAGE

3.2 Schema general

Dans toute cette section la variable aleatoire sera reelle.

Definition 3.2.1 (Statistique). Soit X une variable aleatoire reelle definie sur une population P. Soit Y =(Y1, . . . , Yn) un n-echantillon aleatoire. On appelle statistique toute variable aleatoire S de Rn a valeurs dans R,la loi de probabilite sur Rn etant la loi du n-vecteur aleatoire Y .

Si S est une statistique alors S Y = S(Y ) est une variable aleatoire reelle definie sur l’espace d’echantillonnageΩ.

Exemple 3.2.2. Si nous reprenons l’exemple des tirages d’une urne (voir la sous section 2.2) ou d’un referendum(voir la sous section 2.3), la variable aleatoire M definie sur Rn et a valeurs dans R est la fonction qui a n nombresreels (y1, . . . , yn) associe leur moyenne M(y) = y = (1/n)

∑i yi est une statistique et M(Y ) = Y .

D’une facon generale nous avons donc le schema 4.4

X : P −→ R

Y = (Y1, . . . , Yn) : Ω −→ Rn

ω = (ω1, . . . , ωn) 7−→ Y (ω) = (Y1(ω), . . . , Yn(ω))(X(ω1), . . . , X(ωn))

S Y = S(Y ) : Ω −→ Rω 7−→ S(Y (ω))

?

?

Echantilonnage

Statistique S

Fig. 4.4 – Schema general

Definition 3.2.3 (Distribution dechantillonnage). On appelle distribution d’echantillonnage d’une statistique Sla loi de probabilite de la variable aleatoire S.

Si on connaıt la loi de probabilite du n-echantillon aleatoire Y , on peut esperer en deduire des caracteristiquescomme l’esperance mathematique ou la variance, voire la loi, de la statistique S pour certaines fonction S. Ceci estl’objet des sous-sections suivantes pour des fonctions qui interviennent souvent en statistique.

4 Distribution d’echantillonnage de certaines statistiques

4.1 Distribution dechantillonnage de la moyenne

On considere dans cette sous section la statistique

M : Rn −→ R

y = (y1, . . . , yn) 7−→ M(y) = y =1n

n∑i=1

yi.

On a donc

M(Y ) =1n

n∑i=1

Yi = Y , (4.10)

et la loi de M est celle de Y .

Page 73: Département Biosciences Végétales Module : Statistique 1

4. DISTRIBUTION D’ECHANTILLONNAGE DE CERTAINES STATISTIQUES 69

Theoreme 4.1.1. Supposons que le caractere X admettent une esperance mathematique µ et un ecart-type σ finialors :

(i) E(Y ) = µ.

(ii) Si l’echantillon est Bernoullien alors

V ar(Y ) =σ2

n.

(iii) Si l’echantillon est sans remise et que la taille de la population est N alors :

V ar(Y ) =N − n

N − 1σ2

n.

Demonstration

(i) La linearite de l’esperance mathematique implique immediatement :

E(Y ) = E

(1n

n∑i=1

Yi

)=

1n

n∑i=1

E(Yi) =1n

n∑i=1

µ = µ.

(ii) Les proprietes de la variance impliquent :

V ar(Y ) = V ar

(1n

n∑i=1

Yi

)=

1n2

V ar(n∑

i=1

Yi).

De plus les (Yi)i sont independants. Par suite nous avons :

V ar(Y ) =1n2

n∑i=1

V ar(Yi) =σ2

n.

(iii) admise

2

Theoreme 4.1.2. Si X suit une loi normale N (µ, σ2) et si l’echantillon est Bernoullien alors Y suit une loinormale N (µ, σ2/n).

DemonstrationCela provient du theoreme precedent et du fait qu’une somme de variables aleatoires de lois normales independantesest une variable aleatoire de loi normale. 2

Theoreme 4.1.3. Soit X une variable aleatoire de moyenne µ et de variance σ2 finie et soit (Y1, . . . , Yn) unn-echantillon Bernoullien. Alors Y suit asymptotiquement une loi normale.

DemonstrationD’apres le theoreme centrale limite la loi de la variable aleatoire

Zn =Y1 + · · ·+ Yn − nµ

σ√

n=

Y − µσ√n

converge lorsque n tend vers +∞ vers la loi normale reduite. Par suite

Y =σ√n

Zn + µ

a asymptotiquement le meme comportement qu’une loi N (µ, σ2

n ). 2

Remarque 4.1.4. Le theoreme precedent signifie concretement que pour n grand (n ≥ 30 en pratique) on peutapproximer la loi de Y par la loi normale N (µ, σ2

n ).

Page 74: Département Biosciences Végétales Module : Statistique 1

70 CHAPITRE 4. THEORIE DE L’ECHANTILLONNAGE

4.2 Distribution d’echantillonnage de la variance

On considere dans cette sous section la statistique que nous appellerons variance dechantillon et que nousnoterons S2

S2 : Rn −→ R

y = (y1, . . . , yn) 7−→ S2(y) =1n

n∑i=1

(yi − y)2,

ou y est la moyenne arithmetique des y1, . . . , yn. On peut alors voir que

S2(Y (ω)) =1n

∑i

(Yi(ω)− Y (ω))2 =1n

∑i

(X(ωi)− Y (ω))2. (4.11)

Theoreme 4.2.1. Supposons que X admette des moments centres jusqu’a l’ordre 4 finis. Alors :(i) Si l’echantillon est Bernoullien :

E(S2) =n− 1

nσ2,

V ar(S2) =µ4 − σ4

n− 2(µ4 − 2σ4)

n2+

µ4 − 3σ4

n3,

Cov(M,S2) = Cov(Y , S2(Y )) =n− 1n2

µ3.

(ii) Si l’echantillon est sans remise et que la taille de la population est N alors :

E(S2) =N

N − 1n− 1

nσ2.

(iii) Si X suit une loi normale N (µ, σ2) et si l’echantillon est Bernoullien alors :Y et S2(Y ) sont independantes.

V ar(S2) =2(n− 1)

n2σ4

et nS2/σ2 suit une loi du χ2 a n− 1 degres de liberte.

Demonstration

(i)

E(S2(Y )) = E` 1

n

Pni=1(Yi − µ + µ− Y )2

´= 1

n

Pni=1 E((Yi − µ)2) + 1

n

Pni=1 E((Y − µ)2)

− 2n E(

Pni=1(Yi − µ)(Y − µ))

= σ2 + σ2n

− 2n E((Y − µ)(nY − nµ))

= n−1n σ2

On admettra le resultat pour V ar(S2).Quant a la covariance il suffit d’ecrire :

Cov(Y , S2(Y )) = E((Y − µ)(S

2 −n− 1

2))

= E((Y − µ)S2)−

n− 1

2E(Y − µ)

= E((Y − µ)

1

n

nXi=1

(Yi − µ)2 − (Y − µ)

2

!

=1

n2E(

nXi=1

(Yi − µ)nX

i=1

(Yi − µ)2)−

1

n3(E(

nXi=1

(Yi − µ))3)

=µ3

n−

µ3

n2=

n− 1

n2µ3,

car les Yi sont independants et donc Cov(Yi, Yj) = 0 si i 6= j.

(ii) admise.

(iii) On deduit de (i) que si X est normale alors Cov(Y , S2(Y )) = 0 car le moment centre d’ordre 3 d’une loi normale est nul. Mais ceci nemontre pas que les variables aleatoires Y et S2(Y ) soient independantes. Nous admettrons ici ce resultat.

Pour demontrer la suite il suffit d’ecrire :

nS2(Y )

σ2=

1

σ2(

nXi=1

(Yi − µ)2 − n(Y − µ)2)

=Pn

i=1

„Yi − µ

σ

«2

Y − µσ√n

!2

= S1 − S2

Page 75: Département Biosciences Végétales Module : Statistique 1

4. DISTRIBUTION D’ECHANTILLONNAGE DE CERTAINES STATISTIQUES 71

Or si X suit une loi normale de parametres (µ, σ),(Yi−µ)

σ suit une loi normale reduite et donc, puisque l’echantillon (Y1, . . . , Yn) est

Bernoullien, S1 suit une loi du χ2 a n degres de liberte. De plus S2 suit aussi une loi du χ2 a 1 degre de liberte et S2 et S2 sontindependantes. Une propriete des lois du χ2 permet alors de conclure. Une consequence immediate de ce resultat est alors que

V ar(nS2

σ2) = 2(n− 1)

et donc que

V ar(S2) =

σ2

n

!2

2(n− 1).

2

Pour illustrer la loi de nS2/σ2 lorsque l’echantillonnage est Bernoullien a l’aide de la simulation, nous generons5000 echantillons de taille n = 6, yk1, . . . , yk6 pour k = 1, . . . , 5000, provenant d’une loi normale N (6, 12). Pourchacun de ces 5000 echantillons nous calculons la quantite

s2k =

nS2(yk1, . . . , yk6)12

=∑6

i=1(yki − yk.)2

12

Les 5000 valeurs s2k sont alors 5000 observations de la variable aleatoire nS2(Y )/σ2. Nous effectuons une deuxieme

simulation de facon identique sauf que la loi de depart est une loi uniforme sur [0, 12]. La figure 4.5 montrent leshistogrammes pour chaque simulation de toutes les donnees generees ainsi que des 5000 valeurs (s2

1, . . . , s25000).

Nous avons rajoute sur ces graphiques les lois de depart pour les donnees et la loi du χ2 a ν = n− 1 = 5 degres deliberte pour les valeurs simulees. Nous pouvons observer que lorsque la loi de depart est normale, l’histogramme”colle” tres bien a la fonction de densite de la loi du χ2 a 5 ddl, ce qui n’est plus le cas lorsque la loi de depart estune loi uniforme.

0 5 10 150

0.05

0.1

0.15Données: N(6,12)

0 5 100

0.05

0.1

0.15

0.2SCE/sigma²: Loi du Khi−2 à 5ddl

0 5 100

0.02

0.04

0.06

0.08

0.1Données: U([0,12])

0 5 100

0.05

0.1

0.15

0.2SCE/sigma²: Non loi du Khi−2 à 5ddl

Fig. 4.5 – Simulation loi du χ2 a 5 ddl (5000 echantillons). Statistique : nS2/σ2

Page 76: Département Biosciences Végétales Module : Statistique 1

72 CHAPITRE 4. THEORIE DE L’ECHANTILLONNAGE

4.3 Distribution d’echantillonnage de T

Dans les theoremes precedents on a vu que si la variable aleatoire X suit une loi normale et si l’echantillon estBernoullien alors la variable aleatoire

Y − µσ√n

suit une loi normale centree reduite. L’approximation etant encore valable si X adment une esperance mathematiqueµ et une variance σ2 finies et si n est grand (n ≥ 30 en pratique). Mais dans la realite nous ne connaissons pas σ

et il est donc logique de ce demander ce qui ce passe si on renplace σ par√

nn−1S2(Y ). C’est ce que nous allons

etudier maintenant.

Theoreme 4.3.1. Si (Y1, . . . , Yn) est un echantillon Bernoullien et si X suit une loi normale de parametre (µ, σ),alors la statistique :

T =M − µ√

S2

n− 1suit une loi de Student a (n− 1) degres de liberte.

DemonstrationOn a :

T =Uq

,

avec

U =M − µ

σ√n

de loi N (0, 1),

Z =nS2

σ2de loi χ

2ν=n−1 degres de liberte,

et U et Z independantes. Par suite T suit une loi de Student a n− 1 degres de liberte. 2

4.4 Distribution d’echantillonnage du rapport de variance

Nous allons maintenant nous interesser a la distribution d’echantillonnage du rapport de variance.

Theoreme 4.4.1. On considere deux caracteres X1 et X2 de loi normale respectivement N (µ1, σ21) et N (µ2, σ

22).

Soient deux echantillons Bernoullien independants (Y11, . . . , Y1n1) et (Y21, . . . , Y2n2). Si S21 (respectivement S2

2) estla statistique S2

1(y) = 1n1

∑n1i=1(y1i − y1)2 (respectivement S2

2(y) = 1n2

∑n2i=1(y2i − y2)2) alors la statistique :

F =

n1S21

(n1 − 1)σ21

n2S22

(n2 − 1)σ22

suit une loi de Fischer-Snedecor a n1 − 1 degres de liberte au numerateur et a n2 − 1 degres de liberte audenominateur.

DemonstrationD’apres le theoreme (4.2.1)

n1S21

σ21

(respectivementn2S2

2σ22

) suit une loi du χ2 a n1−1 (respectivement n2−1) degres de liberte et les hypotheses du

theoreme impliquent que ces variables aleatoires sont independantes. On en deduit alors immediatement le resultat en considerant la definition

d’une loi de Fisher-Snedecor. 2

La figure 4.6 donne une illustration, via la simulation d’une loi de Fisher a ν1 = 5 ddl au nuerateur et ν2 = 3ddl au denominateur.

4.5 Distribution d’echantillonnage d’une frequence

Nous allons terminer cette section en rappelant la distribution d’echantillonnage d’une proportion.

Theoreme 4.5.1. Soit X une variable aleatoire de Bernoulli de parametre p et soit (Y1, . . . , Yn) un n-echantillonaleatoire. Posons S(y) =

∑ni=1 yi et M(y) = 1

n

∑ni=1 yi, alors :

(i) si l’echantillon est avec remise ou si la population est infinieS suit une loi binomiale de parametre (n, p) et :

E(S) = np E(Y ) = pV ar(S) = npq V ar(Y ) = pq

n

Page 77: Département Biosciences Végétales Module : Statistique 1

5. PRINCIPALES LOIS DE PROBABILITE 73

−5 0 5 100

0.05

0.1

0.15Données: N(2,9)

−5 0 50

0.05

0.1

0.15

0.2Données: N(1,4)

0 2 4 6 80

0.2

0.4

0.6

F: Loi Fisher à (5,3) ddl

Fig. 4.6 – Simulation loi de Fisher a (5,3) ddl (5000 echantillons). Statistique F

(ii) si l’echantillon est sans remise et si la population est finie (de taille N)S suit une loi hypergeometrique de parametre (N,n, p). et

E(S) = np E(Y ) = pV ar(S) = npq N−n

N−1 V ar(Y ) = pqn

N−nN−1

DemonstrationCela provient tout simplement des definitions des lois binomiale et hypergeometrique. 2

5 Principales lois de probabilite

Nous donnons dans les tableaux ci-apres les principales lois de probabilites utilisees dans la pratique. Les 5premieres lois sont des lois discretes et les suivantes sont continues. Pour chacune d’entres elles nous donneronstout d’abord la definition ou un mecanisme permettant d’obtenir une variable aleatoire suivant cette loi. Ensuitenous donnerons un exemple d’utilisation de cette loi, puis la forme analytique de cette loi, c’est-a-dire les quantitesP (X = k) pour les lois discretes et la fonction de densite f(x) pour les lois continues. Nous donnerons enfin lesvaleurs de leur principaux parametres et nous visualiserons ces lois.

Page 78: Département Biosciences Végétales Module : Statistique 1

74 CHAPITRE 4. THEORIE DE L’ECHANTILLONNAGEN

om

etnota

tion

de

lav.a

.D

efinitio

nou

mec

anis

me

de

const

ruct

ion

Exem

ple

sde

v.a

.su

ivantla

loi

Defi

nitio

nanaly

tique

de

lalo

iVale

ur

des

para

met

res

de

ladis

trib

uti

on

Rep

rese

nta

tion

gra

phiq

ue

Loide

Ber

noulli:B

(p)

C’e

stla

loi

d’u

ne

vari

able

ale

ato

ire

avale

ur

dans

0,1

1)

Res

ultat

du

lance

d’u

ne

pie

ce2)

Rep

onse

aune

ques

tion

par

ouiou

non

P(X

=1)=

pP

(X=

0)=

qp

+q

=1

E(X

)=

pV

ar(X

)=

pq

-

6

k

P(X

=k)

01

q p

Loibin

om

iale

:B

(n,p

)Som

me

de

nv.a

.r.de

loide

Ber

noulliin

dep

endante

s.N

om

bre

d’indiv

idus

poss

edant

un

cara

cter

edonne

parm

in

pre

leves

au

hasa

rd,

avec

rem

ise,

dans

une

popula

tion

gen

erale

.

P(X

=k)=

Ck np

kq

n−

kE

(X)=

np

Var(X

)=

npq

n=

5p

=0,2

5

-

6

k

P(X

=k)

01

23

4

0.4

0

Loi

Hyper

geo

met

irque

:H

(N,n

,p)

Nom

bre

d’indiv

idus

poss

e-dant

une

pro

pri

ete

donnee

parm

in

pre

leves

au

ha-

sard

(sansre

mis

e)dansune

popula

tion

gen

erale

de

Nin

div

idus

dont

n1

=N

pjo

uis

sent

de

ladite

pro

-pri

ete.

nom

bre

d’indiv

idus

ayant

repondus

oui

aune

ques

-tion

dans

un

echantillon

de

taille

npro

ven

ant

d’u

ne

popula

tion

de

taille

Ndont

lapro

port

ion

de

reponse

s“oui”

est

pdans

toute

lapopula

tion.

P(X

=k)=

Ck n1C

n−

kN−

n1

Cn N

avec

n1

=pN

E(X

)=

np

Var(X

)=

nn

1

N−

1

(1−

p)

“ 1−

n N

”N

=20

n=

5p

=0,2

5

-

6

k

P(X

=k)

01

23

4

0.4

4

Page 79: Département Biosciences Végétales Module : Statistique 1

5. PRINCIPALES LOIS DE PROBABILITE 75N

om

etnota

tion

de

lav.a

.D

efinitio

nou

mec

anis

me

de

const

ruct

ion

Exem

ple

sde

v.a

.su

ivantla

loi

Defi

nitio

nanaly

tique

de

lalo

iVale

ur

des

para

met

res

de

ladis

trib

ution

Rep

rese

nta

tion

gra

phiq

ue

Loi

multin

om

iale

:M

(n,p

1,.

..,p

l)C

’est

lalo

ijo

inte

de

X(X

1,.

..,X

l)ou

les

Xi

sont

des

v.a

.bin

om

iale

sde

para

met

res

(n,p

i).

Rep

art

itio

nd’u

nec

hantillon

exhaust

ifde

taille

npro

ven

ant

d’u

ne

popula

tion

const

ituee

de

lcl

ass

esC

1,.

..,C

l

P(X

1=

k1,.

..,

Xl=

kl)

=n!

k1!.

..k

l!p

k1

1..

.pk

ll

E(X

i)=

np

i

E(X

)=

t(E

(X1),

...,

E(X

l))

Var(X

i)=

np

iq i

Cov(X

i,X

j)=

−np

ip

ji6=

j

Nous

ne

pouvons

pas

repre

sente

rgra

phiq

uem

ent

cett

elo

ica

ril

faudra

itfa

ire

un

des

sin

dansR

l+1

Loide

pois

son

:P

(λ)

C’e

stla

loi

du

nom

bre

d’a

ppari

tions

pen

dant

une

unite

de

tem

ps

d’u

nev

enem

ent

dont

lare

alisa

tion

ne

dep

end

pas

du

nom

bre

de

realisa

tions

pass

ees

etn’influe

pas

sur

les

futu

res;

les

epre

uves

seder

oula

nt

dans

des

conditio

ns

stationnair

es.

1)

Nom

bre

de

per

sonnes

arr

ivant

pen

dant

une

unite

de

tem

ps

aun

guic

het

.2)

nom

bre

de

sinis

tres

pen

dant

une

unit

ede

tem

ps

dans

une

popula

tion

donnee

.

P(X

=k)=

λk k!e−

λ

k=

0,1

,2,.

..

E(X

)=

λV

ar(X

)=

λλ

=0,5

-

6

k

P(X

=k)

01

23

0.0

8

0.3

0

0.6

1

Page 80: Département Biosciences Végétales Module : Statistique 1

76 CHAPITRE 4. THEORIE DE L’ECHANTILLONNAGEN

om

etnota

tion

de

lav.a

.D

efinitio

nou

mec

anis

me

de

const

ruct

ion

Exem

ple

sde

v.a

.su

ivantla

loi

Defi

nitio

nanaly

tique

de

lalo

iVale

ur

des

para

met

res

de

ladis

trib

uti

on

Rep

rese

nta

tion

gra

phiq

ue

Loinorm

ale

ou

de

Gauss

:N

(µ,σ

2)

Les

vale

urs

de

lav.a

.re

sulte

de

l’in

fluen

ced’u

ngra

nd

nom

bre

de

fact

eurs

indep

endants

agis

sant

sous

form

eaddit

ive,

de

faco

nte

lle

que

chaque

cause

par-

tiel

leait

une

vari

ance

faib

lepar

rapport

ala

vari

ance

resu

ltante

1)

taille

d’u

nin

div

idu

2)

Ren

dem

ent

f(x

)=

1√

2πσ

e−(x−

µ)2

2

E(X

)=

µV

ar(X

)=

σ2

−3

−2

−1

01

23

0

0.050.1

0.150.2

0.250.3

0.350.4

x

f(x)

Loi

norm

ale

de

dim

ensi

on

n:N

(µ,Γ

)1)

(taille

d’u

nin

div

idu,

poid

sd’u

nin

div

idu).

2)

Err

eur

de

tir.

f(x

)=

1

(2π)

n 2p d

et(Γ

)

e−t(x−

µ)Γ−

1(x−

µ)

2

ou

µ∈

Rn

etΓ

est

une

matr

ice

carr

ee(n

,n)

reel

lesy

met

rique

defi

nie

posi

tive.

E(X

)=

µΓ

=(γ

ij) i

j

γij

=C

ov(X

i,X

j)

n=

2,

µ=

„ 0 0

«

Γ=

„ 21

15

«

−5

0

5

−6

−4

−2

02

4

0

0.01

0.02

0.03

0.04

0.05

0.06

Loilo

gnorm

ale

:LN

(µ,σ

)U

ne

v.a

.su

itune

loi

lo-

gnorm

ale

siso

nlo

gari

thm

enep

erie

nsu

itune

loi

nor-

male

.

Sala

ire

d’u

nem

plo

ye

pre

leve

dans

une

popula

-tion

gen

erale

f(x

)=

1√

2πσx

e−(ln

x−

lnµ)2

2

0<

x<

+∞

E(X

)=

µe

σ2 2

Var(X

)=

µ2eσ

2(e

σ2−

1)

01

23

45

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

x

f(x)

Page 81: Département Biosciences Végétales Module : Statistique 1

5. PRINCIPALES LOIS DE PROBABILITE 77N

om

etnota

tion

de

lav.a

.D

efinitio

nou

mec

anis

me

de

const

ruct

ion

Exem

ple

sde

v.a

.su

ivantla

loi

Defi

nitio

nanaly

tique

de

lalo

iVale

ur

des

para

met

res

de

ladis

trib

ution

Rep

rese

nta

tion

gra

phiq

ue

Loidu

Khi-2

deg

res

de

liber

te:χ

ν

Une

vari

able

ale

ato

ire

reel

lesu

itune

loide

Khi-2

deg

res

de

liber

tesi

elle

estla

som

me

de

νca

rres

de

vari

able

sale

ato

ires

reel

les

de

loinorm

ale

reduit

e(i

.e.

N(0

,1))

indep

endante

s.

1)

Vari

ance

empir

ique

d’u

nec

hanti

llon

de

taille

ν+

1dont

on

ne

connaıt

pas

lam

oyen

ne.

2)

Mes

ure

de

l’ec

art

entr

edes

lois

theo

rique

etem

pir

ique

f(x

)=

cx

ν 2−

1e−

x 2

0<

x<

+∞

E(X

)=

νV

ar(X

)=

ν=

4

02

46

810

1214

16

0

0.050.1

0.150.2

x

f(x)

Loi

de

Stu

den

ta

νdeg

res

de

liber

te:t ν

Soie

nt

Yune

vari

able

ale

ato

ire

de

loi

norm

ale

reduite

etZ

une

vari

able

ale

ato

ire

de

loi

du

Khi-2

deg

res

de

liber

tein

dep

endante

s.A

lors

lavari

able

sX

=Y

√Z

suit

une

loi

de

Stu

den

ta

νdeg

res

de

liber

te.

Mes

ure

norm

alise

ede

l’ec

art

de

deu

xm

oyen

-nes

empir

iques

calc

ule

essu

rdeu

xec

hantillons

indep

endants

d’u

ne

popu-

lati

on

norm

ale

.

f(x

)=

c(1

+x2 ν)(

ν+

1)/

2

E(X

)=

0

Var(X

)=

ν

ν−

2si

ν>

2

ν=

4

−5

−4

−3

−2

−1

01

23

45

0

0.050.1

0.150.2

0.250.3

0.350.4

x

f(x)

Loi

de

Fis

her

a(ν

1,ν

2)

deg

res

de

liber

te:F

ν1,ν

2

Soie

nt

X1

etX

2deu

xva-

riable

sre

elle

sde

loi

du

Khi-2

are

spec

tivem

ent

ν1

etν2

deg

res

de

liber

tein

dep

endante

s.A

lors

X=

(X1/ν1)

(X2/ν2)

suit

une

loi

de

Fis

her

aν1

deg

res

de

li-

ber

teau

num

erate

ur

eta

ν2

deg

rede

liber

teau

den

om

inate

ur.

Rapport

de

deu

xvari

ance

sem

pir

iques

const

ruites

sur

deu

xec

hantillons

indep

endants

extr

aits

d’u

ne

popula

tion

norm

ale

.

f(x

)=

x

ν1 2−

1

(ν1x

+ν2)−

(ν1

+ν2)

2

E(X

)=

ν2

ν2−

2si

ν2

>2

Var(X

)=

2ν2 2(ν

1+

ν2−

2)

ν1(ν

2−

2)2

(ν2−

4)

ν1

=4

etν2

=6

01

23

45

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

x

f(x)

Page 82: Département Biosciences Végétales Module : Statistique 1

78 CHAPITRE 4. THEORIE DE L’ECHANTILLONNAGE

6 Exercices

6.1 Exercices avec corriges

Exercice 6.1.1 (Loi normale centree reduite). L’objectif de cet exercice est le calcul de probabilites dans le casd’une variable aleatoire U de loi normale centree reduite N (0, 1) en utilisant la table de cette loi.

(i) Calculer P (1 ≤ U ≤ 2, 5).

(ii) On note φ(u) = P (U ≤ u) =∫ u

−∞ f(x)dx la fonction de repartition de la loi normale centree reduite.

Demontrer que φ(−u) = 1 − φ(u). On utilisera le fait que la fonction de densite f(x) = (1/√

2π)e−x2est

paire, c’est-a-dire que f(−x) = f(x) pour tout x.

(iii) Calculer P (U ≤ −1).

(iv) Calculer P (U ∈ [−1, 2[).

(v) Encadrer P (U ≥ 6).

(vi) On note up = φ−1(p) le reel defini parP (U ≤ up) = p

Donner u0.999. On cherchera cette valeur dans la table de la loi normale centree reduite et dans la table deStudent.

correction.

(i)

P (1 ≤ U ≤ 2.5) =∫ 2.5

1

f(x)dx = φ(2.5)− φ(1)

= 0.9938− 0.8413= 0.1525= A

Voir la figure 4.7

−3 0 1 2.5 +30

0.1

0.2

0.3

0.4

← A

x

f(x)

Fig. 4.7 – Visualisation de la probabilite

(ii) Graphiquement (voir la figure 4.8) la parite de la fonction de densite f(x) donne

A1 = φ(−u) = P (U ≤ −u) = P (X > u) = A2

= 1− P (X ≤ u)= 1− φ(u)

Montrons maintenant que A1 =∫ −u

−∞ f(x)dx = A2. Pour cela on fait le changement de variable y = −x dansl’integrale. On obtient alors

A1 = −∫ u

+∞f(−y)dy =

∫ +∞

u

f(y)dy = A2

(iii) P (X ≤ −1) = φ(−1) = 1− φ(1) = 1− 0.8413 = 0.1587

(iv) P (X ∈ [−1, 2[) = φ(2)− φ(−1) = 0.97725− 0.1587 = 0.81855

Page 83: Département Biosciences Végétales Module : Statistique 1

6. EXERCICES 79

−3 −u 0 u +30

0.1

0.2

0.3

0.4

A1 → ← A

2

x

f(x)

Fig. 4.8 – Visualisation Φ(−u) = 1− φ(u)

(v) P (X ≥ 6) =∫ +∞6

f(x)dx = 1 − φ(6). Or la fonction de repartition φ est strictement croissante de 0 vers 1.Par suite on a

φ(3.99) < φ(6) < 1

On en deduit

1− 1 < 1− φ(6) < 1− φ(3.99)0 < 1− φ(6) < 1− 0.99997 = 0.00003

(vi) On a u0.999 = 3.09.Remarque. La table de la loi normale centree reduite donne la fonction de repartition φ(up) = p alors que laderniere ligne de la table de Student (degre de liberte egale a +∞) donne la fonction inverse de la fonctionde repartition φ−1(p) = up.

2

Exercice 6.1.2 (Loi normale de parametre µ et σ). L’objectif de cet exercice est le calcul de probabilites dans lecas d’une variable aleatoire X de loi normale N (µ, σ2). On utilisera le fait que U = (X − µ)/σ suit alors une loinormale centree reduite.

Soit X la variable aleatoire reelle X representant le rendement d’une cereale C. On suppose que X suit une loinormale de parametres µ = 50q/ha et σ2 = 5(q/ha)2 (voir 1.2.6).

(i) Formaliser cette variable aleatoire.(ii) Calculer P (X < 0). Commentaires(iii) Calculer P (48 ≤ X ≤ 50) et representer graphiquement cette probabilite.(iv) Quelle signification a la quantite ci-dessus ?(v) Calculer P (µ− 1, 96σ ≤ X ≤ µ + 1, 96σ).

correction.(i) voir l’exemple 1.2.6(ii)

P (X < 0) = P

(X − 50√

5<

0− 50√5

)= φ(−22.36) ∼ 0

La vraie valeur de cette probabilite est 0 car il est impossible d’avoir un rendement negatif. Le calcul icidonne une valeur strictement positive, mais tres faible. Le modele considere est donc rigoureusement faux.Cependant, l’erreur faite est tout-a-fait negligeable.

(iii)

P (48 ≤ X ≤ 50) = P

(48− 50√

5≤ U ≤ 50− 50√

5

)= φ(0)− φ

(− 2√

5

)= φ(0)−

(1− φ

(2√5

))= φ(0)− (1− φ(0.89))= 0.5− 1 + 0.8133= 0.3133

Voir la figure 4.9.

Page 84: Département Biosciences Végétales Module : Statistique 1

80 CHAPITRE 4. THEORIE DE L’ECHANTILLONNAGE

44 46 48 50 52 54 560

0.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

0.18

← A

x

f(x)

Fig. 4.9 – P (48 ≤ X ≤ 50) = A = 0.3133

(iv) On a environ 31 chances sur 100 lorsque l’on fait une culture dans les conditions experimentales definies parla population P d’avoir un rendement compris entre 48 et 50 q/ha.

(v)

P (µ− 1, 96σ ≤ X ≤ µ + 1, 96σ) = P

((µ− 1.96σ)− µ

σ≤ U ≤ (µ + 1.96σ)− µ

σ

)= P (−1.96 ≤ U ≤ 1.96)= φ(1.96)− φ(−1.96)= 2φ(1.96)− 1= 0.95

En resume on a doncP (µ− 1, 96σ ≤ X ≤ µ + 1, 96σ) = 0.95 (4.12)

Ceci est visualise sur la figure 4.10

mu−1.96sigma mu mu+1.96sigma0

0.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

0.18

← A=0.95

x

f(x)

Fig. 4.10 – Visualisation de l’equation 4.12

2

Exercice 6.1.3. On considere une urne U constituee de n1 ≥ 2 boules blanches et n2 ≥ 2 boules noires. On noteN = n1 + n2 le nombre totale de boules dans l’urne et p = n1/N . Soit X la variable aleatoire

X : U −→ 0, 1b 7−→ 0 si b est noireb 7−→ 1 si b est blanche.

On considere Y = (Y1, Y2) le 2-echantillon aleatoire de X et Y = (1/2)(Y1 + Y2).(i) On suppose que l’echantillonnage est avec remise

(a) Quelles valeurs peut prendre Y .

Page 85: Département Biosciences Végétales Module : Statistique 1

6. EXERCICES 81

(b) Donner la loi de Y .

(c) Quelles sont les lois de Y1 et Y2.

(d) Ecrire la variable aleatoire Y .

(e) Ecrire Y = M(Y ) (on precisera M).

(f) Calculer, a partir de la loi de Y la loi de Y .

(g) Calculer, a partir de la loi de Y l’esperance mathematique et la variance de Y .

(ii) On suppose l’echantillonnage sans remise

(a) Quelles valeurs peut prendre Y .

(b) Donner la loi de Y .

(c) Quelles sont les lois de Y1 et Y2.

(d) Ecrire Y = M(Y ) (on precisera M).

(e) Calculer, a partir de la loi de Y la loi de Y .

(f) Calculer, a partir de la loi de Y l’esperance mathematique et la variance de Y .

correction.

(i) (a) Le 2-echantillon aleatoire est defini par

Y = (Y1, Y2) : U2 −→ 0, 1 × 0, 1b = (b1, b2) 7−→ Y (b) = (Y1(b), Y2(b))

= (X(b1), X(b2)).

Donc les valeurs possibles de Y sont (0, 0), (0, 1), (1, 0) et (1, 1).

(b)

P (Y = (0, 0)) = P (Y1 = 0 et Y2 = 0)

= P (Y1 = 0)P (Y2 = 0) = q2 car Y1 et Y2 sont independantesP (Y = (0, 1)) = pq

P (Y = (1, 0)) = qp

P (Y = (1, 1)) = p2

(c) Les lois de Y1 et de Y2 sont identiques a celle de X. Ce sont donc des lois de Bernoulli de parametres p.

(d)

Y : U2 −→ 0, 1/2, 1b = (b1, b2) 7−→ Y (b) = (1/2)(Y1(b) + Y2(b))

On peut ecrire Y = (1/2)(Y1 + Y2) ou encore Y = M(Y ) avec

M : R2 −→ R

y = (y1, y2) 7−→ M(y) = (1/2)(y1 + y2)

(e) Remarquons tout d’abord que :– la loi de probabilite de Y est une probabilite sur son espace d’arrive CY = 0, 12 ;– la loi de probabilite de Y est une probabilite sur son espace d’arrive CY = 0, 1/2, 1.

PCY(Y = 0) = PCY

(Y = (0, 0)) = PCY(Y1 = 0 et Y2 = 0) = q2

PCY(Y = 1/2) = PCY

(Y = (0, 1) ou Y = (1, 0)) = 2pq

PCY(Y = 1) = PCY

(Y = (1, 1)) = q2

Page 86: Département Biosciences Végétales Module : Statistique 1

82 CHAPITRE 4. THEORIE DE L’ECHANTILLONNAGE

(f)

E(Y ) = 0q2 + (1/2)2pq + 1p2 = p(p + q) = p

V ar(Y ) = E(Y 2)− E(Y )2 = 02q2 + (1/2)22pq + 12p2 − p2 =pq

2

On retrouve bien pour 2Y la loi binomiale et les valeurs de E(Y ) et de V ar(Y ) pour un tirage avecremise.

(ii) (a) idem cas avec remise.(b)

P (Y = (0, 0)) =n2

N

n2 − 1N − 1

P (Y = (0, 1)) =n2

N

n1

N − 1

P (Y = (1, 0)) =n1

N

n2

N − 1

P (Y = (1, 1)) =n1

N

n1 − 1N − 1

(c)

P (Y1 = 1) = P (Y = (1, 0) ou Y = (1, 1))

=n1n2 + n1(n1 − 1)

N(N − 1)=

n1(n1 + n2 − 1)N(N − 1)

=n1

N= p

P (Y1 = 0) = 1− P (Y1 = 1) = 1− p

Donc Y1 suit la meme loi de Bernoulli que XIdem pour Y2.

(d)

Y : Ω −→ 0, 1/2, 1b = (b1, b2) 7−→ Y (b) = (1/2)(Y1(b) + Y2(b))

avec Ω = b = b1, b2) ∈ U2|b1 6= b2. On peut ecrire Y = (1/2)(Y1 + Y2) ou encore Y = M(Y ) avec

M : R2 −→ R

y = (y1, y2) 7−→ M(y) = (1/2)(y1 + y2)

(e)

P (Y = 0) = P (Y = (0, 0)) =n2(n2 − 1)N(N − 1)

P (Y = 1/2)2n1n2

N(N − 1)

P (Y = 1) =n1(n1 − 1)N(N − 1)

(f)

E(Y ) =12

2n1n2

N(N − 1)+ 1

n1(n1 − 1)N(N − 1)

=n1(n1 + n2 − 1)

N(N − 1)= p

Page 87: Département Biosciences Végétales Module : Statistique 1

6. EXERCICES 83

V ar(Y ) =(

12

)2 2n1n2

N(N − 1)+ 12 n1(n1 − 1)

N(N − 1)− p2

=n1n2 + 2n1(n1 − 1)− 2p2N(N − 1)

2N(N − 1)

=n1N (n2 + 2n1 − 2− 2p(N − 1))

2(N − 1)

=p(n2 − 2 + 2p)

2(N − 1)

=p(N − 2)q2(N − 1)

=(N − n)N − 1

pq

n

ou n = 2. On retrouve bien les resultats du theoreme 4.1.1

2

6.2 Exercices avec indications

Exercice 6.2.1 (Taux de germination). On s’interesse dans cet exercice au taux de germination, donc au parametrep de la loi de Bernoulli de la variable aleatoire

X : G −→ 0, 1g 7−→ 0 si g ne germe pasg 7−→ 1 si g germe.

(voir l’exemple 1.2.1)On considere un n-echantillon aleatoire Y = (Y1, . . . , Yn) de X. L’echantillonnage est bien sur sans remise (on

ne peut pas mettre a germer une graine deux fois !). On definit les statistiques

S : Rn −→ 0, 1, . . . , n

y = (y1, . . . , yi) 7−→ S(y) =n∑

i=1

yi

et M = (1/n)Y .

(i) Quelles sont les espaces de depart et d’arrivee de S(Y ) et de M(Y ).

(ii) Ecrire S(Y ) et Y = M(Y ) en fonction des variables aleatoires (Yi)i

(iii) On suppose que la taille de la population G est N , quelle est la loi de S

(iv) On suppose que N = +∞, quelle est la loi de S.

(v) On suppose que N = +∞ et qu’on peut approximer la loi de Y par une loi normale N (µY , σ2Y

).

(a) Donner µY et σY en fonction de n et p.

(b) Determiner n en fonction de p pour avoir

P (µY − 0.025 < Y < µY + 0.025) = 0.95

(c) On prend p = 0.5, calculer n. Que signifie ce resultat ?

Indications. Penser a l’urne et l’echantillonnage avec et sans remise. Pour (vb), utiliser l’equation 4.4 2

Exercice 6.2.2. Soit X : P −→ 0, 1 une variable aleatoire de loi de Bernoulli de parametre p et Y = (Y1, . . . , Yn)un n-echantillon Bernoullien de X On considere la statistique S2 suivante

S2 : Rn −→ 0, 1, . . . , n

y = (y1, . . . , yi) 7−→ S2(y) =1n

n∑i=1

(yi − y)2

Page 88: Département Biosciences Végétales Module : Statistique 1

84 CHAPITRE 4. THEORIE DE L’ECHANTILLONNAGE

(i) On prend n = 2(a) Quels sont les valeurs que peut prendre la variable aleatoire S2(Y ) ?(b) Ecrire S(Y ) en fonction de Y1 et de Y2.(c) Donner la loi de S2(Y ).(d) Calculer l’esperance mathematique et la variance de S2(Y ).(e) les variables aleatoires Y et S2(Y ) sont-elles independantes ?

(ii) On prend n = 3(a) Quels sont les valeurs que peut prendre la variable aleatoire S2(Y ) ?(b) Donner la loi de S2(Y ).(c) Calculer l’esperance mathematique et la variance de S2(Y ).

Indications. Pour les esperances mathematiques et variances on doit trouver les memes resultats que dans letheoreme 4.2.1 2

Exercice 6.2.3. Soit X : P −→ R une variable aleatoire de loi normale N (µ, σ2) et Y = (Y1, . . . , Yn) un n-echantillon Bernoullien de X On considere les statistiques suivantes

S : Rn −→ R

y = (y1, . . . , yi) 7−→ S(y) =1σ2

n∑i=1

(yi − µ)2,

SCE : Rn −→ R

y = (y1, . . . , yi) 7−→ SCE(y) =1σ2

n∑i=1

(yi − y)2,

et K = SCE/σ2.(i) Quelle est la loi de S(Y ) ?(ii) Quelle est la loi de K(Y ) ?(iii) On prend n = 10 et on note χp l’unique reel verifiant P (K ≤ χp) = p. En vous aidant de la table de la loi du

χ2 donner les valeurs de χ0.025 et de χ0.975.(iv) Verifier que P (χ0.025 < K < χ0.0975) = 0.95.(v) En deduire la valeur de

P

(σ2 ∈

[SCE(Y )χ0.0975

;SCE(Y )χ0.0025

]). (4.13)

(vi) Que signifie 4.13

Indications. On ecrira S(Y ) comme le carre de n variables aleatoires de loi normale centree reduite independantes.2

6.3 Exercices sans indications

Exercice 6.3.1. Soit X la variable aleatoire definie sur P, a valeurs dans 0, 1, 4 et de loi

P (X = 0) = 1/4P (X = 1) = 1/2P (X = 4) = 1/4

On considere Y = (Y1, Y2) un 2-echantillon Bernoullien de X et Y = (1/2)(Y1 + Y2).(i) Quelles sont les valeurs possibles de Y ?(ii) Calculer la loi de Y .(iii) Calculer la loi de Y .

Exercice 6.3.2. Soit X la variable aleatoire rendement de loi normale N (50, 5) definie a l’exercice 6.1.2. SoitY = (Y1, . . . , Yn) un n-echantillon Bernoullien de X (On suppose la population infinie et on peut donc considererque l’echantillonnage avec remise se confond avec l’echantillonnage sans remise).

Page 89: Département Biosciences Végétales Module : Statistique 1

6. EXERCICES 85

(i) On definit la statistique U suivante

U : Rn −→ R

y = (y1, . . . , yn) 7−→ U(y) =y − 50√

5/n,

ou y designe toujours la moyenne arithmetique des (yi).

(a) Ecrire U(Y ) (espace de depart, espace d’arrive et fonction).

(b) Ecrire U(Y ) en fonction de Y . En deduire la loi de U .

(c) CalculerP (Y ∈ [50− 1.96(

√5/n); 50 + 1.96

√5/n])

et donner son interpretation.

(ii) On suppose maintenant que la variance de X est inconnue. La loi de X est donc N (50, σ2). On definit alorsles statistiques suivantes

SCE : Rn −→ R

y = (y1, . . . , yn) 7−→ SCE(y) =n∑

i=1

(yi − y)2

et

T : Rn −→ R

y = (y1, . . . , yn) 7−→ T (y) =y − 50√

SCE(y)/(n(n− 1)).

(a) Ecrire T (Y ) (espace de depart, espace d’arrive et fonction).

(b) Ecrire T (Y ) en fonction de Y et de S2. En deduire la loi de T .

(c) On suppose que n = 10, donner l’unique reel t0.975 verifiant P (T < t0.975) = 0.975 (voir les tablesstatistiques). En deduire

P (Y ∈ [50− t0.975(√

SCE(Y )/(n(n− 1))); 50 + t0.975

√SCE(Y )/(n(n− 1))])

et donner son interpretation.

Page 90: Département Biosciences Végétales Module : Statistique 1

86 CHAPITRE 4. THEORIE DE L’ECHANTILLONNAGE

Page 91: Département Biosciences Végétales Module : Statistique 1

Chapitre 5

Tests statistiques : principes generaux

1 Introduction

Le but d’un test statistique est de repondre a une question ”simple”, par exemple savoir laquelle de deux varietesde Tournesol A et B donne le meilleur taux d’une proteine fixee. Pour cela, nous collecterons des donnees pourles deux varietes, puis nous ferons un calcul a partir de ces donnees et en fonction de la valeur du resultat nousvaliderons soit A, soit B. Nous pouvons donc faire en pratique deux erreurs :

– choisir A quand c’est B qui est meilleure ;– choisir B quand c’est A qui est meilleure.Par suite un test de statistique ne donnera jamais de reponse completement deterministe, et comme dans tout

processus de prise de decision, il y aura toujours des risques d’erreur.L’un des gros apports des tests statistiques est la connaissance, en terme de probabilites, des risques pris.

L’objectif de ce chapitre est donc de bien comprendre la definition de ces risques et d’assimiler toute la demarchelogique d’un test statistique. Ceci est fondamental si l’on desire utiliser cet outil correctement.

2 Exemple

2.1 Probleme

Un industriel vient de mettre au point un nouveau procede de fabrication d’ampoules electriques. Il desiresavoir si ce nouveau procede est meilleur que celui utilise actuellement dans le sens ou les ampoules fabriqueesavec ce nouveau procede ont une duree de vie plus longue. Des etudes anterieures ont montre que la duree de vied’une ampoule fabriquee par le procede classique suit une loi normale de parametres µ = 1400 heures et σ = 120heures. On suppose que le nouveau procede ne modifie pas la loi, ni la variance. On note A (respectivement A0)la population, supposee de taille tres grande, des ampoules fabriquees avec le nouveau procede (respectivementl’ancien procede). Nous pouvons alors definir les deux variables aleatoires suivantes :

X : A −→ R

1 ampoule 7−→ sa duree de vie

X0 : A0 −→ R

1 ampoule 7−→ sa duree de vie

Les informations donnees nous permettent alors de dire que la loi de la variable aleatoire X (respectivement X0)est une loi normale N (µ, 1202) (respectivement N (1400, 1202)). La question est donc de savoir laquelle des deuxhypotheses ci-dessous est la bonne pour le nouveau procede.

– µ ≤ 1400;– µ > 1400.

Pour des raisons que nous verrons dans la suite de ce chapitre, nous formulerons les hypotheses de la facon suivante– H0 : µ = 1400;– H1 : µ > 1400.Pour effectuer le choix entre ces 2 hypotheses on fait des mesures sur n =100 ampoules fabriquees avec le

nouveau procede. On obtient les donnees de la table 5.1 dont les representations graphiques sont donnees auxfigures 5.1 et 5.2.

87

Page 92: Département Biosciences Végétales Module : Statistique 1

88 CHAPITRE 5. TESTS STATISTIQUES : PRINCIPES GENERAUX

Tab. 5.1 – Donnes de l’exemple ampoules en milliers d’heures1.7152 1.6602 1.7944 1.5417 1.5712 2.0019 1.7514 2.0755 1.7308 1.7808

......

......

......

......

......

1.6244 1.7249 1.6901 1.6524 1.7898 1.5812 1.7976 1.5170 1.8235 1.8012

1000 1200 1400 1600 1800 2000 22000

0.5

1

1.5

2

2.5

3

3.5

4x 10

−3

durées de vie

Fig. 5.1 – Histogramme des donnees de l’exemple ampoule.

La question est maintenant de choisir, a partir de ces donnees, entre les deux hypotheses. Si nous appelons y lamoyenne le l’echantillon, il semble logique ici de prendre la regle de decision suivante :

– Si y > l alors on rejettera l’hypothese nulle H0

– Si y < l alors on acceptera l’hypothese nulle H0

l sera la valeur critique du test.Cette regle de decision induira deux types de risques : le risque de decider de rejeter l’hypothese nulle H0 quand

elle est vraie et le risque de decider d’accepter l’hypothese nulle H0 quand elle est fausse. Nous allons maintenantdans un cas simple calculer ces risques.

2.2 Cas simplifie

On considere, dans une premier temps, le cas simplifie ou les seules valeurs que peut prendre la moyenne µsont 1400 et 1450. Ce cas n’est pas, bien evidemment, realiste. Nous le considerons uniquement pour des raisonspedagogiques. Les hypotheses nulles H0 et alternatives H1 deviennent donc

– H0 : µ = 1400 ;– H1 : µ = 1450.La population A etant suppose tres grande, on peut considerer que les donnees sont une observation du 100-

echantillon aleatoire Bernoullien.

(Y1, . . . , Y100) : A100 −→ R100

100 ampoules 7−→ (duree de vie de l’ampoule 1, . . . ,duree de vie de l’ampoule 100)a = (a1, . . . , a100) 7−→ Y (a) = (X(a1, . . . , X(a100))

Nous pouvons alors definir la statistique

M : R100 −→ R

(y1, . . . , y100) 7−→ y =1

100

100∑i=1

yi.

Nous avons donc defini la variable aleatoire Y = M(Y ) = (1/n)∑

i Yi. Le chapitre 4 sur la theorie de l’echantillonnagenous dit alors que

– si l’hypothese nulle H0 est vraie alors Y suit une loi N (1400, 1202/100) ;

Page 93: Département Biosciences Végétales Module : Statistique 1

2. EXEMPLE 89

1

1500

1600

1700

1800

1900

2000

duré

e de

vie

échantillons

Fig. 5.2 – Boıte a moustaches des donnees de l’exemple ampoules.

– si l’hypothese H1 est vraie alors Y suit une loi N (1450, 1202/100).On suppose enfin que la valeur limite l est fixee a 1430. Ceci nous definit alors deux evenements :– accepter H0 = Y ≤ 1430 ;– accepter H1 = Y > 1430.Nous pouvons maintenant calculer les deux risques, que nous appellerons risques de premiere et de deuxieme

espece.

α = Probabilite de l’evenement rejeter H0 quand H0 est vraie= PH0(rejeter H0)

= PH0(Y > 1430) avec Y : N(

1400,1202

100

)= 1− PH0(Y < 1430)

= 1− PH0

(Y − 1400

12<

1430− 140012

)= 1− φ(2.5) = 0.00621

β = Probabilite de l’evenement accepter H0 quand H0 est fausse= Probabilite de l’evenement accepter H0 quand H1 est vraie= PH1(accepter H0)

= PH1(Y ≤ 1430) avec Y : N(

1450,1202

100

)= PH1

(Y − 1450

12≤ 1430− 1450

12

)= φ(−1.67) = 1− φ(1.67)= 0.04746

Ces risques α et β sont visualises sur la figure 5.3.

2.3 Cas general

En realite lorsque l’hypothese nulle H0 est fausse, on ne connaıt pas la vraie valeur de la moyenne µ. Aussil’hypothese alternative H1 sera µ > 1400. Le risque de deuxieme espece sera alors fonction de la valeur de cettemoyenne. Une autre difference avec la demarche utilisee en pratique est que l’on se fixe la valeur du risque depremiere espece α. On calculera alors la valeur limite l que l’on appelera valeur critique et que l’on notera ici Ycrit.

Page 94: Département Biosciences Végétales Module : Statistique 1

90 CHAPITRE 5. TESTS STATISTIQUES : PRINCIPES GENERAUX

1380 1400 1420 1440 1460 14800

0.005

0.01

0.015

0.02

0.025

0.03

0.035

0.04

← αβ →

← Loi de Msi H

1 est vraie

← Loi de Msi H

0 est vraie

l

Fig. 5.3 – Risque α de premiere espece et β de deuxieme espece pour l’exemple des ”ampoules”.

Fixons le risque de premiere espece α = 0.05, cela donne

α = PH0(rejeter H0)

0.05 = PH0(Y > Ycrit) avec Y : N(

1400,1202

100

)= 1− PH0(Y ≤ Ycrit)

= 1− PH0

(Y − 1400

12≤ Ycrit − 1400

12

)= 1− φ

(Ycrit − 1400

12

).

Par suite, nous obtenons

φ

(Ycrit − 1400

12

)= 0.95

⇒ Ycrit − 140012

= 1.645

⇒ Ycrit = 1419.74

Nous pouvons alors maintenant calculer le risque de deuxieme espece β.

β = PH1(accepter H0)

= PH1(Y < Ycrit) avec Y : N(

µ,1202

100

)= PH1(

Y − µ

12<

Ycrit − µ

12)

= φ

(Ycrit − µ

12

)On definit la puissance d’un test comme la probabilite de l’evenement accepter H1 quand H1 est vraie. La

puissance est donc egale a 1− β.

1− β = Probabilite de l’evenement accepter H1 quand H1 est vraie= PH1(accepter H1)

Remarque 2.3.1. La puissance est la probabilite de ”mettre en evidence une difference qui existe”.

La table 5.2 donne le risque β et la puissance (visualisee par la figure 5.4) pour differentes valeurs de la moyenneµ.

Page 95: Département Biosciences Végétales Module : Statistique 1

3. PRINCIPES GENERAUX 91

µ 1380 1390 1394 1396 1398 1400 1410 1420 1430 1440 1450 14601419.74− µ

123.31 2.48 2.14 1.98 1.81 1.64 0.81 -0.02 -0.855 -1.69 -2.52 -3.36

β 1.00 0.99 0.98 0.98 0.96 0.95 0.79 0.49 0.20 0.05 0.00 0.001− β 0.00 0.01 0.02 0.02 0.04 0.05 0.21 0.51 0.80 0.95 1.00 1.00

Tab. 5.2 – Risque β et puissance en fonction de la moyenne µ

1380 1390 1400 1410 1420 1430 1440 1450 14600

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

µ

Pui

ssan

ce

Fig. 5.4 – Fonction puissance pour l’exemple ”ampoules” : 1− β(µ).

Remarque 2.3.2. Pour calculer la valeur critique d’un test, on doit parfaitement connaıtre la loi de la statistiquede decision quand l’hypothese nulle H0 est vraie. Ceci justifie le fait que l’on ait ecrit dans cet exemple cettehypothese nulle sous la forme d’une egalite : H0 : µ = 1400 et non pas sous la forme d’une inegalite. La questionde depart etant de savoir si le nouveau procede etait meilleur que l’ancien, on a comme hypothese alternativeH1 : µ > 1400. La fonction puissance 5.4 nous montre que la probabilite de l’evenement accepter H1 est prochede 1 pour les valeurs de µ tres superieures a 1 et proche de 0 pour les faibles valeurs de µ ; ce qui est bien ce quenous desirions.

Remarque 2.3.3. Il ne faut pas confondre les hypotheses nulle H0 et alternative H1 avec les evenements accepterH0 et accepter H1. L’evenement accepter H0 est en pratique l’ensemble des valeurs de la statistique de decisionqui conclura a accepter l’hypothese nulle H0. Cet evenement s’ecrit dans notre exemple Y ≤ Ycrit et est egale al’intervalle ]−∞, Ycrit] sur l’axe des abscisses de la figure 5.3

3 Principes generaux

3.1 Logique generale d’un test statistique

Le tableau suivant donne le schema general d’un test statistique

Page 96: Département Biosciences Végétales Module : Statistique 1

92 CHAPITRE 5. TESTS STATISTIQUES : PRINCIPES GENERAUX

Situation concrete Formalisation mathematique Exemple ”ampoules”Question de depart H0 : hypothese nulle H0 : µ = 1400

H1 : hypothese alternative H1 : µ > 1400Variable etudiee variable aleatoire X : P −→ R

X : A −→ R

1 ampoule 7−→ sa duree de vie

Connaissance de depart loi de X X : N (µ, 1202)Collecte de donnees(y1, . . . , yn)

n- echantillon aleatoire Bernoullien

(Y1, . . . , Yn) : Pn −→ Rn

ω = (ω1, . . . , ωn) 7−→ (Y1(ω), . . . , Yn(ω))

ω = (ω1, . . . , ωn) 7−→ (X(ω1), . . . , X(ωn))

(Y1, . . . , Y100) : A100 −→ R100

100 ampoules 7−→ (duree de vie de

l’ampoule 1,

.

.

.,

duree de vie de

l’ampoule 100)

Calcul de Sobs =S(y1, . . . , yn)

Statistique de decision

Pn (Y1,...,Yn)−→ R

n S−→ RY : A100 −→ R

100 ampoules 7−→ moyenne des

durees de vie

des 100 ampoules

(a1, . . . , an) 7−→1

n(X(a1) + · · ·+ X(an))

M : R100 −→ R

(y1, . . . , y100) 7−→ y =1

100

100Xi=1

yi

Regle de decision. Onse donne α le risque depremiere espece. On endeduit la zone de rejet del’hypothese nulle

Si H0 est vraie alors S suit une loi connue. α etant fixeon en deduit la zone de rejet de l’hypothese nulle. Si H0 est vraie alors Y suit une loi N (1400,

1202

100) α

etant fixe, on en deduit Ycrit telle que P (Y > Ycrit) =α. On en deduit alors la regle de decision

Remarque 3.1.1. Le choix de la statistique S peut paraıtre parfois mysterieux. Il est, bien evidemment, en liendirect avec le probleme. Cette statistique est souvent une ”distance” entre les donnees et l’hypothese nulle. SiSobs = S(y1, . . . , yn) est grand alors il y a peu de chance que les donnees viennent d’une population ou l’hypothesenulle est vraie, si Sobs est faible on ne peut pas rejeter l’hypothese nulle.

(i) C’est dans la demonstration du calcul de la loi de la statistique S qu’interviennent les hypotheses sur la loide X et le fait que (Y1, . . . , Yn) soit un echantillon Bernoullien. Le terme hypothese etant deja utilise pourles hypotheses nulle H0 et alternative H1 nous utiliserons ici le terme de postulats1.

(ii) Lorsque (Y1, . . . , Yn) est un n-echantillon Bernoullien, les (Yi)i=1,··· ,n sont independantes et de meme loi queX. Ce sont ces dernieres proprietes qui interviennent dans la demonstration de la loi de la statistique S etnous ecrirons souvent dans les postulats : (Yi)i=1,··· ,n i.i.d. pour independantes et identiquement distribuees.

(iii) Dans la construction d’un test c’est le risque de premiere espece α qui joue un role particulier. La symetrieentre les deux risques est de fait rompue.

(iv) Lorsque nous acceptons l’hypothese nulle, le risque de faire une erreur est le risque de deuxieme espece. Nousdirons cependant que l’on accepte l’hypothese nulle au risque α. Ceci est du au fait que c’est le risque depremiere expece qui permet de construire la regle de decision et qu’en pratique le risque de deuxieme especedepend de l’hypothese alternative qui n’est jamais completement definie.

Nous presenterons un test statistique de la facon suivante.(i) Definition du probleme :

(a) question de depart ;(b) definition des populations, variables aleatoires ;(c) hypotheses nulle et alternative ;(d) description des donnees.

1Il y a en anglais deux termes pour hypothese : asumption et hypothesis.

Page 97: Département Biosciences Végétales Module : Statistique 1

3. PRINCIPES GENERAUX 93

(ii) Description du test :

(a) postulats ;

(b) statistique utilisee (variable de decision).

(iii) Mode operatoire.

3.2 Definitions

Definition 3.2.1 (Risques de premiere et de deuxieme espece, puissance). On appelle risque de premiere especeet on note α la probabilite de l’evenement rejeter l’hypothese nulle quand elle est vraie :

α = Probabilite de l’evenement rejeter H0 quand H0 est vraie= PH0(rejeter H0)

On appelle risque de deuxieme espece et on note β la probabilite de l’evenement accepter l’hypothese nullequand elle est fausse :

β = Probabilite de l’evenement accepter H0 quand H0 est fausse= PH1(accepter H0)

On appelle puissance la probabilite de l’evenement accepter l’hypothese alternative quand elle est vraie :

1− β = Probabilite de levenement accepter H1 quand H1 est vraie= PH1(accepter H1)

On peut resumer ces definitions par le tableau suivant :

Decision : realite H0 H1

H0 1− α βH1 α 1− β

Remarque 3.2.2. (i) Le risque de premiere espece est aussi la probabilite de conclure a une difference quin’existe pas en realite.

(ii) Le risque de deuxieme espece est aussi la probabilite de ne pas deceler une difference qui existe.

(iii) La puissance du test est la probabilite de deceler une difference qui existe. C’est un critere de precision, dequalite d’un test.

Definition 3.2.3 (Test unilateral, test bilateral). Un test est dit unilateral si sa zone de rejet, c’est-a-direlevenement accepter H1, est continue. Il est dit bilateral si elle est en deux morceaux.

Exemple 3.2.4. Dans l’exemple introductif il n’y avait qu’une seule zone de rejet et l’hypothese alternative etaitH1 : µ > 1400. Nous avions donc un test unilateral. Si on desirait comparer 2 procedes de fabrication pour savoirlequel des 2 etait le meilleur nous aurions ecrit l’hypothese alternative de la facon suivante : H1 : µ < 1400 ouµ > 1400. Nous aurions alors eu 2 zones de rejet. Le test aurait ete bilateral.

Definition 3.2.5 (test non parametrique). On appelle test non parametrique tout test ou dans les postulats iln’est pas fait mention de lois. Le test est dit parametrique dans le cas contraire.

Remarque 3.2.6. Dans un test parametrique les hypotheses nulles et alternative s’expriment par des relations surdes valeurs de parametres, d’ou la terminologie. En anglais on parle de ”distribution free test” ce qui est a notreavis plus clair.

Exemple 3.2.7. Dans l’exemple introductif le test est un test parametrique.

Exemple 3.2.8. Si on desire tester l’hypothese nulle H0 : le caractere suit une loi de poisson ; le test sera un testnon parametrique.

Definition 3.2.9 (Robustesse). Un test est dit robuste s’il est ”peu” sensibles a la loi de distribution du caractereetudie.

Remarque 3.2.10. Nous aurons parfois le choix entre plusieurs tests pour une question donnee. Nous choisironsen pratique parmi ceux qui verifient les postulats celui qui aura la puissance la plus forte.

Page 98: Département Biosciences Végétales Module : Statistique 1

94 CHAPITRE 5. TESTS STATISTIQUES : PRINCIPES GENERAUX

4 Test bilateral

4.1 Puissance d’un test bilateral

Exemple 4.1.1. 2 Un acheteur souhaite acquerir un lot de dindes. Ces dindes doivent avoir un poids moyen de6.5kg et l’acheteur desire que le poids moyen ne soit ni trop faible ni trop eleve. Un vendeur est candidat pour cemarche qui doit porter sur 60 000 dindes. Afin de s’assurer que la specification imposee est bien verifiee, l’acheteurva prelever un echantillon simple et aleatoire de 64 animaux qu’il pese. Des resultats anterieurs permettent depenser que le poids suit une loi normale et on admettra que l’ecart-type est connu et est σ = 2 kg. Nous allons icidonner la regle de decision puis la fonction de puissance de ce test. Formalisons tout d’abord cette experience. Lecaractere de depart est ici :

X : P −→ R

1 dinde 7−→ son poids.

A chaque lot de 64 animaux l’acheteur obtiendra 64 poids y1, y2, . . . y64. La taille des echantillons (n = 64) etantfaible par rapport a la taille de la population P (N = 60000), on peut approximer l’echantillonnage sans remisepar un echantillonnage avec remise. On peut donc definir le n-echantillons Bernoullien :

Y = (Y1, . . . , Y64) : P64 −→ R64

1 lot de 64 dindes 7−→ (y1, y2, . . . y64)

L’enonce nous dit que nous avons les postulats suivants :– (Yi) i.i.d.– Yi de loi N (µ, σ2) avec σ2 = 4Les hypotheses nulle et alternative sont :– H0 : µ = 6.5 ;– H1 : µ 6= 6.5 (µ < 6.5 ou µ > 6.5).Il s’agit donc d’un test bilateral.La statistique utilisee sera : M(Y ) = Y = 1

64

∑64i=1 Yi.

Si l’hypothese nulle est vraie alors Y suit une loi normale N (6.5, 0.0625). Nous rejetterons l’hypothese nullesi la valeur de la variable aleatoire Y sur l’echantillon Yobs = M(y1, . . . , yn) est tres grande ou tres petite. Nousaurons ici deux zones de rejet.

Nous avons donc

PH0(m1 ≤ Y ≤ m2) = 1− α.

Par suite si nous prenons le meme risque a droite et a gauche nous aurons :

PH0(m1 < Y ) = 1− α/2,

PH0(Y < m2) = 1− α/2.

Soit si nous prenons α = 0.05

PH0

m1 − 6.50.25

<Y − µ√

σ2

n

= 0.975

PH0

(Y <

m2 − 6.50.25

)= 0.975

D’ou m1 − 6.5

0.25= −1.96

m2 − 6.50.25

= 1.96⇒

m1 = 6.01m2 = 6.99

La regle de decision est donc :– Si Yobs = M(y1, . . . , y64) ∈ [6.01; 6.99] alors on accepte l’hypothese nulle d’egalite de la moyenne a 6.5 kg au

risque α de 5%2Donnees provenant du cours de biometrie de l’INAPG de R. Tomassone, juillet 1986, chapitre 5 page 34.

Page 99: Département Biosciences Végétales Module : Statistique 1

4. TEST BILATERAL 95

µ 5.25 5.50 5.75 6.00 6.25 6.50 6.75 7.00 7.25 7.50 7.756.01− µ

0.253.04 2.04 1.04 0.04 -0.96 -1.96 -2.96 -3.96 -4.96 -5.96 -6.96

6.99− µ

0.256.96 5.96 4.96 3.96 2.96 1.96 0.96 -0.04 -1.04 -2.04 -3.04

φ

(6.01− µ

0.25

)1.00 0.98 0.85 0.52 0.17 0.02 0.00 0.00 0.00 0.00 0.00

φ

(6.99− µ

0.25

)1.00 1.00 1.00 1.00 1.00 0.98 0.83 0.48 0.15 0.02 0.00

β(µ) 0.00 0.02 0.15 0.48 0.83 0.95 0.83 0.48 0.15 0.02 0.00Puis(µ) 1.00 0.98 0.85 0.52 0.17 0.05 0.17 0.52 0.85 0.98 1.00

Tab. 5.3 – Risque β et puissance en fonction de la moyenne µ

– Si Yobs = M(y1, . . . , y64) /∈ [6.01; 6.99] alors on rejette l’hypothese nulle d’egalite de la moyenne a 6.5 kg aurisque α de 5%

Calculons maintenant la puissance de ce test en fonction de µ.

Si H1 est vraie alors Y suit une loi normale N (µ, 0.0625)Nous avons donc :

Puis(µ) = 1− β(µ) = 1− PH1(m1 ≤ Y ≤ m2)

= 1− PH1

m1 − µ

0.25≤ Y − µ√

σ2

n

≤ m2 − µ

0.25

= 1− φ

(m2 − µ

0.25

)+ φ

(m1 − µ

0.25

)Le tableau 5.3 et le graphique 5.5 donnent les resultats pour diferentes valeurs de µ

5 5.5 6 6.5 7 7.5 80

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

mu

Pui

ssan

ce

Exemple de puissance pour un test bilatéral

Fig. 5.5 – Puissance d’un test bilateral : exemple ”dindes” α = 0.05, n = 64.

4.2 Puissance et parametres α, σ2 et n

Comme nous l’avons vu sur les deux exemples traites dans ce chapitre, la puissance depend de la vraie valeurdu parametre µ. Mais elle depend aussi du risque de premiere espece, de la variance et du nombre de mesures.Nous allons maintenant voir sur le deuxieme exemple des ”dindes comment evolue cette puissance en fonction dechacun de ces trois parametres (les 2 autres restant fixes).

Puissance et risque de premiere espece

Comme le montre le graphique (5.3) plus le risque de premiere espece augmente, plus la zone d’acceptation del’hypothese nulle diminue et donc plus le risque de deuxieme espece diminu. Par suite la puissance augmente. Legraphique (5.6) donne la puissance Puis(µ) pour differente valeur du risque de premiere espece.

Page 100: Département Biosciences Végétales Module : Statistique 1

96 CHAPITRE 5. TESTS STATISTIQUES : PRINCIPES GENERAUX

4.5 5 5.5 6 6.5 7 7.5 8 8.50

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

mu

Pui

ssan

ce

Fig. 5.6 – Puissance, exemple des ”dindes” pour α = 0.0001, 0.01, 05 et 0.1 (σ2 = 4 et n = 64).

Puissance et variance

Plus la variance est faible, plus la puissance est grande. Ce resultat est logique. En effet plus nous auronsune variabilite faible, plus facile sera la mise en evidence d’une difference qui existe. Le graphique (5.7) donne lescourbes de puissance pour differentes valeurs de la variance.

4.5 5 5.5 6 6.5 7 7.5 8 8.50

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

mu

Pui

ssan

ce

Fig. 5.7 – Puissance, exemple des ”dindes” pour σ2 = 2, 4, 6 et 8 (α = 0.05 et n = 64).

Puissance et nombre de donnees

Le nombre de donnees n intervient, pour un risque α fixe, dans le calcul de la valeur critique et dans le calcul

de la puissance. En effet la variance de la statistique Y est egale aσ2

n. Par suite plus le nombre de donnees sera

grand plus la variance de Y sera faible et plus la puissance sera forte. L’influence du nombre de donnees est inversede celle de la variance des donnees. Le graphique (5.8) donne les courbes de puissance pour differentes valeurs den.

4.5 5 5.5 6 6.5 7 7.5 8 8.50

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

mu

Pui

ssan

ce

Fig. 5.8 – Puissance, exemple des ”dindes” pour n = 50, 100, 150 et 200 (α = 0.05 et σ2 = 4).

Page 101: Département Biosciences Végétales Module : Statistique 1

5. CONCLUSION 97

4.3 Tests multiples

Sur l’exemple precedent des ”dindes” on definit le test T suivant :

(i) On realise le test unilateral a droite Td avec un risque α suivant :– H0 : µ = 6.5– H1 : µ > 6.5On realise le test unilateral a gauche Tg avec un risque α suivant :– H0 : µ = 6.5– H1 : µ < 6.5

(ii) On realise alors le test global suivant :– H0 : µ = 6.5– H1 : µ 6= 6.5

ou on rejette l’hypothese nulle si et seulement si on a rejette l’hypothese nulle du test unilateral a droiteTd ou du test unilateral a gauche Tg.

Le test T est alors un test bilateral mais attention avec un risque de premiere espece de 2α. Le fait de realiserdes tests multiples avec une meme finalite sur un meme ensemble de donnees augmente implicitement de risque depremiere espece.

5 Conclusion

5.1 Presentation et conclusion d’un test

Nous tenons ici a rappeler que la premiere chose a faire lorsque l’on a des donnees est de les visualiser a l’aidedes outils de la statistique descriptive. Ceci permet, en particulier de visualiser la variabilite de la variable etudiee.La realisation pratique d’un test comprendra donc :

(i) la definition de la question posee ;

(ii) la methode de collecte des donnees ;

(iii) la visualisation des donnees ;

(iv) le choix du test statistique ;

(v) la realisation des calculs ;

(vi) la conclusion.

5.2 Risque de troisieme espece

Nous reprenons ci-dessous le texte de l’introduction du livre ”Techniques statistiques moyens rationnels de choixet de decision de Georges Parreins paru aux editions Dunod en 1974 page v et vi de l’introduction

”Citons un exemple, paraıt-il authentique, mais meme s’il n’ l’est pas nous pensons qu’il restera present a l’espritdes lecteurs et nous souhaitons dans tous les cas ne rapeller aucun mauvais souvenir aux lectrices de ce livre. Afinde prouver la necessite d’avoir un medecin au moment d’un accouchement, on questionna des mamans : pour 50accouchements avec medecin on constata 4 complications, ce nombre etait de 3 pour un groupe de meme importancequi avait accouche sans le secours d’un praticien.

Ce resultat deplut aux organisateurs de l’enquete, ils la soumirent a un statisticien, qui tres rapidement declaraque ces resultats n’etaient pas significatifs et que pour une conclusion serieuse il faudrait operer sur des effectifsbeaucoup plus importants. On recueillit donc des observations. Sur deux series de 500 accouchements on trouva 47complications dans le premier groupe – avec medecins – et 19 dans l’autre. Le meme statisticien declara que dansce cas les resultats etaient hautement significatifs : on pouvait affirmer avec un risque tres faible de se tromper– de l’ordre de 1 sur dix mille – qu’il y avait beaucoup moins de complications en l’absence de medecin. Devantce resultat quelque peu inquietant, notre statisticien etudia les modalites de l’echantillonnage : l’enquete avait etefaite a la campagne, on appelait surtout le medecin quand la venue au monde du nouveau bebe se presentait mal. Ilest a peu pres evident que si on avait obtenu les resultats inverses, personne ne se serait pose de questions et celaaurait constitue une lourde faute. Les experimentateurs doivent toujours concerver le meme esprit critique, devantles resultats quels qu’il soient et ne pas se demander comment les observations ont ete faites uniquement quand onarrive a un resultat deplaisant.

Relisons Claude Bernard ”l’experimentateur doit toujours douter, fuir les idees fixes et garder toujours sa liberted’esprit”

Il faut bien comprendre, qu’il est en general possible de faire dire aux statistiques tout – et uniquement – ceque l’on desire, sous reserve d’eviter de dire comment elles ont ete etablies. C’est par ce biais que s’explique les

Page 102: Département Biosciences Végétales Module : Statistique 1

98 CHAPITRE 5. TESTS STATISTIQUES : PRINCIPES GENERAUX

critiques – tres justifiees – souvent adressees a ces techniques. Les echantillons non significatifs, c’est-a-dire malpreleves, sont la cause d’un grand nombre de conclusion erronees.

L’erreur qui a ete faite dans cet exemple concerne la definition des populations. Il s’agit au fond de la memeerreur lorsque l’on dit que le lit est plus dangereux que l’automobile car il est prouve statistiquement que l’onmeurt plus souvent dans un lit que dans une automobile. Cette derniere assertion est tout-a-fait exacte, mais laconclusion est bien evidemment fausse. Le ”lit” n’est pas la cause de deces, mais lorsque l’on est gravement malade,on est souvent alite. Il s’agit la de ce que nous appellerons du risque de troisieme espece qui est de nature tresdifferente des risques de premiere et de deuxieme espece ; mais on aurait tord de penser qu’il est le moins grave.Ce risque sera evite le plus souvent par le bon sens, encore faut-il se poser les bonnes questions.

Page 103: Département Biosciences Végétales Module : Statistique 1

6. EXERCICES 99

6 Exercices

6.1 Exercices avec corriges

Exercice 6.1.1. 3

On sait que les conditions habituelles d’elevage de bovins conduisent a un poids moyen a un age donne de 300kg avec un ecart type de 24 kg. On suppose que le poids suit une loi normale. On envisage un nouveau regime eton desire savoir si ce regime est meilleur que l’ancien. Pour cela on teste ce regime sur 64 animaux. On supposeque ni la loi de la variable aleatoire, ni sa variance σ2 ne sont modifiees par le nouveau regime.

(i) Definissez les variables aleatoires X0 ”poids ancien regime” et X ”poids nouveau regime”.(ii) On suppose que les populations etudiees sont de tres grandes tailles et on peut donc considerer le 64-echantillon

Bernoullien

Y = (Y1, . . . , Yn) : P64 −→ R64

b = (b1, . . . , b64) 7−→ Y (b) = (X(b1), . . . , X(b64)).

On considere la statistique M

M : R64 −→ R

(y1, . . . , y64) 7−→ y =164

64∑i=1

yi.

et on definit Y = M(Y ). Quelle loi suit la variable aleatoire Y .(iii) Quel test peut-on effectuer ? On precisera :

– l’hypothese nulle H0.– s’il s’agit d’un test unilateral ou bilateral, on precisera l’hypothese alternative H1.

(iv) On prend comme risque de premiere espece α = 0, 05.(a) Donner la regle de decision du test.(b) Calculer la puissance de ce test en fonction de la vraie valeur de la moyenne µ pour

µ = 280; 290; 295; 297.5; 300; 302.5; 305; 307.5; 310; 320 et tracer cette fonction.(c) Quelle information vous donne la puissance si la vraie valeur de µ est 307.5 ?

correction.(i) On considere P (respectivement P0) la population des bovins nourris avec le nouveau regime (respectivement

avec l’ancien regime). Les variables aleatoires X et X0 sont alors

X : P −→ R

1 bovin 7−→ son poids

X0 : P0 −→ R

1 bovin 7−→ son poids

(ii) Y suit une loi normale N (µ, 242/64), ou µ est l’esperance mathematique de X.(iii) – H0 : µ = 300 ;

– H1 : µ > 300.Le test est unilateral a droite car on desire savoir si le nouveau regime est meilleur que l’ancien.

(iv) (a)

α = PH0(rejeter H0)= PH0(Y > Ycrit)

= PH0

(Y − 300

3>

Ycrit − 3003

)⇒φ

(Y − 300

3

)= 1− α = 0.95

⇒ Ycrit − 3003

= 1.645

⇒Ycrit = 304.9353Donnees provenant du cours de biometrie de l’INAPG de R. Tomassone, juillet 1986, chapitre 5 page 36.

Page 104: Département Biosciences Végétales Module : Statistique 1

100 CHAPITRE 5. TESTS STATISTIQUES : PRINCIPES GENERAUX

(b) Le risque de deuxieme espece β est

β = PH1(accepter H0)= PH1(Y < Ycrit)

= PH1

(Y − µ

3<

Ycrit − µ

3

)= φ

(Ycrit − µ

3

)et la puissance est PH1(accepter H1) = 1− β(µ). La table 5.4 donne les valeurs numeriques du risquede deuxieme espece et de la puissance pour les valeurs demandees et la figure 5.9 visualise la fonctionpuissance.

µ 280.0 290.0 295.0 297.5 300.0304.935−µ

3 8.311 4.978 3.311 2.478 1.645β(µ) 1.000 1.000 0.999 0.993 0.950

1− β(µ) 0.000 0.000 0.001 0.007 0.050µ 302.5 305.0 307.5 310.0 320.0

304.935−µ3 0.811 -0.022 -0.855 -1.689 -5.022

β(µ) 0.791 0.491 0.196 0.046 0.0001− β(µ) 0.209 0.509 0.804 0.954 1.000

Tab. 5.4 – Risque de deuxieme espece et puissance

290 295 300 305 310 315 320

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

mu

Pui

ssan

ce

Fig. 5.9 – Fonction puissance

(c) Pour µ = 307.5 l’experience avec 64 bovins conclura que l’hypothese alternative H1 est vraie, c’est-a-direque le nouveau regime est meilleur que l’ancien, avec une probabilite de 0.804.

2

Exercice 6.1.2. On desire savoir si un juge reconnaıt le difference entre 2 produits A et B. Pour cela on luipresente 3 produits dont 2 sont identiques et on lui demander de designer celui qui est different. On considere doncla variable aleatoire X suivante :

X : Ω −→ 0, 11 triplet 7−→ 1 si le juge reconnaıt le produit different1 triplet 7−→ 0 si le juge ne reconnaıt pas le produit different

ou Ω est l’ensemble des triplets possibes des deux produits A et B, deux produits etant identiques. X est unevariable aleatoire de loi de Bernoulli de parametre p. On desire savoir si le juge repond totalement au hasard ou s’ilreconnaıt le produit different. Pour cela, on fait n fois l’experience. On obtient alors un n-echantillon qui est une

Page 105: Département Biosciences Végétales Module : Statistique 1

6. EXERCICES 101

observation du n-echantillon Bernoullien Y = (Y1, . . . , Yn) de la variable aleatoire X. On Definit alors la variablealeatoire suivante :

Z : Ωn −→ 0, 1, . . . , nω = (ω1, . . . , ωn) 7−→ nombre de bonnes reponses

(i) On considere les hypotheses nulle et alternative suivantes :– H0 : le juge repond totalement au hasard ;– H1 : le juge ne repond pas totalement au hasard.Ecrire les hypotheses nulle et alternative du test a l’aide du parametre p.

(ii) ecrire Z = S(Y ) (on donnera S), et en deduire la loi de Z.

(iii) On prend n = 25 et α = 0.05 et on donne pour p = 1/3

k 10 11 12 13 14 15 16 17 . . .Ck

npkqn−k 0.126 0.086 0.050 0.025 0.011 0.004 0.001 0.000 . . .

et pour p = 2/3

k 13 14 15 16 17 18 19Ck

npkqn−k 0.05 0.086 0.126 0.158 0.167 0.149 0.110k 20 21 22 23 24 25

Cknpkqn−k 0.066 0.031 0.011 0.003 0.000 0.000

(a) Calculer la valeur critique du test.

(b) Calculer le risque de deuxieme espece et la puissance pour p = 2/3.

(c) Visualiser le risque de deuxieme espece et la puissance pour p = 2/3.

(d) Calculer le risque de deuxieme espece et la puissance pour p = 1/3.

(e) Donner la forme de la fonction puissance en fonction de p.

correction.

(i) Si le juge choisi au hasard p est egal a 1/3. Si le juge ne repond pas au hasard c’est que p > 1/3 (si p < 1/3,c’est que le juge repond de facon pire que s’il repondait totalement au hasard !). Le test est donc un testunilateral a droite. Par suite les hypotheses nulle et alternative sont– H0 : p = 1/3 ;– H1 : p > 1/3.

(ii) S est

S : Rn −→ R

(y1, . . . , yn) 7−→ S(y) =n∑

i=1

yi

Donc Z = S(Y ) =∑

i Yi. Par suite Z suit une loi binomiale de parametre (n, p).

(iii) Attention, il faut ici lorsqu’on definit les evenemants accepter H0 et accepter H1, bien preciser si onprend des inegalites large ou strict car la loi de la variable aleatoire de decision est discrete.

On a

α = PH0(rejeter H0)= PH0(Z ≥ Zcrit)= PH0(Z = Zcrit) + PH0(Z = Zcrit + 1) + · · ·+ P (Z = n)

=n∑

k=Zcrit

Cknpkqn−k

La table ci-apres donne pour differentes valeurs de Zcrit les valeurs de α obtenus.

(a)Zcrit 12 13 14 15 16 17 . . .

α 0.091 0.041 0.016 0.005 0.001 0.000 . . .

On en deduit que pour avoir α le plus proche de 0.05 tout en etant inferieur il faut prendre Zcrit = 13.

Page 106: Département Biosciences Végétales Module : Statistique 1

102 CHAPITRE 5. TESTS STATISTIQUES : PRINCIPES GENERAUX

(b) Pour p = 2/3

β =12∑

k=0

P (Z = k)

= 1−25∑

k=13

P (Z = k)

= 1− 0.05 + 0.086 + 0.126 + 0.158 + 0.167 + 0.149 + 0.110 + 0.066 + 0.031 + 0.011 + 0.003= 1− 0.957 = 0.043

0 5 10 15 20 250

0.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

0.18

k

Loi d

e Z

βpuissance

Fig. 5.10 – Risque de deuxieme espece et puissance

(c)

(d) Pour p = 1/3 on a

β = PH1(accepter H0)= 1− 0.041 = 0.939

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

p

Pui

ssan

ce

Fig. 5.11 – Puissance en fonction de p

(e)

2

Page 107: Département Biosciences Végétales Module : Statistique 1

6. EXERCICES 103

6.2 Exercices avec indications

Exercice 6.2.1. 4

La legislation en vigueur impose aux aeroports certaines normes concernant les bruits emis par les avions audecollage et a l’atterrissage. Ainsi pour les zones habitees proches d’un aeroport, la limite toleree se situe a environ80 decibels. Au dela de cette limite, l’aeroport doit indemniser les riverains.

Les habitants d’un village proche d’un aeroport assurent que le bruit au dessus du village atteint la valeurlimite de 80 decibels en moyenne, pour un certain type d’avions (les plus bruyants). L’aeroport affirme qu’il n’estque de 78 decibels. Des experts sont convoques pour trancher entre les deux parties en presence. Ils admettent quel’intensite du bruit cause par un avion de ce type suit une loi normale d’esperance µ et de variance σ2 = 49. Ilsenregistrent l’intensite du bruit provoque par le passage de ces avions sur un echantillon de taille n = 100.

On definit la variable aleatoire suivantes :

Y : P100 = echantillons de 100 avions −→ R

E100 = (avion1, . . . , avion100) 7−→ moyenne des bruits des 100 avions

On considere les 2 cas suivants :Test 1 les hypotheses nulle et alternative sont les suivantes :

H0 : µ = 80H1 : µ < 80

Test 2 les hypotheses nulle et alternative sont les suivantes :H0 : µ = 78H1 : µ > 78

(i) Quelle est la loi de Y ?(ii) On prend comme risque de premiere espece α = 0.05. Donner la regle de decision du test 1.(iii) On suppose que µ = 78, Calculer le risque de deuxieme espece β et la puissance du test 1.(iv) On prend comme risque de premiere espece α = 0.05. Donner la regle de decision du test 2.(v) On suppose que µ = 80, Calculer le risque de deuxieme espece β et la puissance du test 2.(vi) Dans le cas du test 1 on veut que le risque de premiere espece soit egal au risque de deuxieme espece lorsque

µ = 78. Quelle est la regle de decision et la valeur des risques.(vii) Trouver n pour que dans le cas precedent le risque de premiere espece soit egal a 0.05.(viii) Conclusion

Indications. Attention a la position de l’evenement rejeter H0 .(i)(ii) Pour le Test 1 la valeur critique Ycrit est 78.8485.(iii) β = 0.113.(iv) Pour le Test 2 la valeur critique est Ycrit est 79.155(v) β = 0.113.(vi) Ycrit = 79.(vii) n ∼ 133.

2

Exercice 6.2.2. 5

La quantite d’acide nitrique (en micro-grammes) dans un melange chimique doit etre egale a 10. Cependant,des erreurs de manipulation font en sorte que cette quantite suit une loi normale de moyenne µ et de varianceσ2 = 0.09. On decide de tester les hypotheses H0 : µ = 10 contre H1 : µ 6= 10 a l’aide de resultats d’observationsde 20 melanges preleves au hasard et de rejeter l’hypothese nulle H0 si y < 9.80 ou y > 10.20 ou y est la quantitemoyenne d’acide nitrique dans les 20 melanges. On pose

Y : P20 −→ R20 observations 7−→ y

4Probleme provenant du livre de R. Cehessat ”Exercices commentes de statistique et informatique appliquees”. Dunod 1976, page176

5Exemple issu de l’ouvrage ”Statistique concepts et methodes” Sabin Lessard, Monga ; PUM Masson 1993. exercice 8.25 page 311.

Page 108: Département Biosciences Végétales Module : Statistique 1

104 CHAPITRE 5. TESTS STATISTIQUES : PRINCIPES GENERAUX

(i) Quelle est la loi de Y ;

(ii) Le test sera-t-il un test unilateral ou bilateral ?

(iii) Calculer et visualiser l’erreur de premiere espece ;

(iv) Calculer et visualiser l’erreur de deuxieme espece et la puissance dans les cas ou µ = 9.90 et µ = 10.10 ;

(v) Tracer la forme generale de la fonction de puissance en fonction de µ ;

(vi) Comment evolue cette fonction quand le nombre d’observations n augmente (le risque de premiere especerestant le meme).

Indications.

(i)

(ii)

(iii) α = 0.00288.

(iv) β = 0.93 pour les deux valeurs de µ.

2

6.3 Exercices sans indications

Exercice 6.3.1. 6

Le poids de paquets de poudre de lessive, a l’issue de l’empactage, est une variable aleatoire reelle X :

X : P −→ R

un paquet 7−→ son poids

On suppose que X suit une loi normale N (µ, σ2) avec σ = 5g. Le poids marque sur les paquets est 700g. Ondesire savoir si la machine de remplissage est bien reglee. Nous allons donc realiser un test statistique. En pratiqueon preleve 10 paquets de lessive et on mesure le poids moyen de ces 10 paquets de lessive. On suppose la populationdes paquets de lessive est tres grande, on peut donc definir la variable aleatoire suivante :

Y : P10 −→ R

10 paquets de lessive 7−→ le poids moyen

Enfin on ne veut leser ni le client, ni l’entreprise. On suppose que la variance ne bouge pas.

(i) Donner les hypotheses nulles et alternatives du test. On precisera si le test est unilateral ou bilateral.

(ii) Quelle est la loi de Y .

(iii) On prend un risque de premiere espece de 0, 05. On a obtenu sur un echantillon une valeur du poids moyeny = 710, quelle sera la conclusion ?

(iv) Visualiser pour µ = 705 le risque de premiere espece, de deuxieme espece et la puissance du test.

(v) Calculer la puissance de ce test quand µ = 690; 695; 700; 705; 710. Tracer la forme de la courbe de puissanceen fonction de µ.

(vi) On veut, pour µ = 705 une puissance de 0, 99. Donner l’equation que doit verifier n : le nombre de paquetsde lessive qu’il faut prendre.

Exercice 6.3.2. Le cahier des charge entre un semencier et un agriculteur stipule que le taux de contaminationdes semences ne doit pas depasser 2%. Afin de s’assurer que cela est bien le cas le semencier decide de faire un teststatistique. Pour cela il preleve un lot de n semences provenant de l’agriculteur, effectue les tests biologiques surce lot et definit la procedure suivante :

– Si dans le lot, il y a plus de 2% de semences contaminees alors on rejette la production ;– Si dans le lot, il y a moins de 2% de semences contaminees alors on accepte la production.

6Exercice construit a partir de l’exercice 10 du chapitre ”theorie des tests” de ”Statistique, exercices corriges avec rappels de cours”,J-P Lecoutre, S. Legait-Maille et P. Passi.

Page 109: Département Biosciences Végétales Module : Statistique 1

6. EXERCICES 105

Cette experience se formalise de la facon suivante. On definit la population P des semences produites par l’agri-culteur et la variable aleatoire X de loi de Bernoulli de parametre p.

X : P −→ 0, 11 semence 7−→ 1 si la semence est contaminee1 semence 7−→ 0 si la semence n’est pas contaminee

On suppose que la population P est de tres grande taille et on definit

Y : Pn −→ R

1 lot de semences de taille n 7−→ (le nombre de semences contaminees dans le lot)/n

(i) On suppose que l’on peut approximer la loi de Y par une loi normale. Donner les parametres de cette lois enfonction de p et n.

(ii) On definit les deux test suivants :Test 1

– H0 : p = 0.02 ;– H1 : p > 0.02.

etTest 2

– H0 : p = 0.02 ;– H1 : p < 0.02.

(a) Donner pour ces deux tests le risque de premiere espece et donner leur signification concrete.

(b) On suppose que n = 1000. Calculer pour ces deux tests le risque de deuxieme espece pour p = 0.01; 0.02et 0.03.

(iii) En fait le semencier veut avoir une forte probabilite de rejeter la production si le taux de contamination esteffectivement de 2% et l’agriculteur veut lui avoir une forte probabilite que sa production soit acceptee si letaux de contamination est de 1%. On etudie pour cela le test :

– H0 : p = 0.02 ;– H1 : p = 0.01.

(a) Donner la regle de decision pour avoir α = β.

(b) Calculer n pour avoir α = β = 0.05.

Exercice 6.3.3. Un semencier a mis au point une variete OGM d’une plante resistante a un herbicide. Il desiresavoir si, dans des conditions de culture normales il peut y avoir transfert du gene de resistance aux plantes ruderalesa une distance donnee (1 km par exemple). Il met en place sur le terrain l’experimentation suivante :

Page 110: Département Biosciences Végétales Module : Statistique 1

106 CHAPITRE 5. TESTS STATISTIQUES : PRINCIPES GENERAUX

emettrice

Parcelle

de pollen

de

Parcelle

ruderales

6

?

1 km

On preleve dans la parcelle ”ruderales” n graines et on realise un test biologique sur ces graines pour savoir s’ily a eu transfert de gene. On definit la variable aleatoire suivante :

X : G −→ 0, 11 graine 7−→ 0 si la graine n’est pas transformee1 graine 7−→ 1 si la graine est transformee

On suppose que la population G est tres grande et on note p la proportion dans G de graines transformees. Ondefinit Y = (Y1, . . . , Yn) le n-echantillon Bernoullien de X et on considere la statistique

S : Rn −→ R

y = (y1, y2, . . . , yn) 7−→ S(y) =n∑

i=1

yi

S(Y ) est alors la variable aleatoire

S(Y ) : Gn −→ R

g = (g1, g2, . . . , gn) 7−→ le nombre de graines transformees parmi les n graines

(i) Quelle est la loi de la variable aleatoire X

(ii) Quelle est la loi de la variable aleatoire S(Y )

(iii) Ecrire la variable S(Y ) comme somme de n variables aleatoires de loi de Bernoulli independantes.

(iv) On considere le test suivant :– H0 : il n’y a aucun transfert de gene ;– H1 : il y a transfert de gene.avec la regle de decision suivante :– Si S(y) = 0 alors on accepte l’hypothese nulle ;– Si S(y) > 0 alors on rejette l’hypothese nulle ;

(a) Ecrire les hypotheses nulle et alternative a l’aide du parametre p du test.

(b) Quel est le risque de premiere espece α ?

(c) Donner la puissance du test en fonction de n et p.

Page 111: Département Biosciences Végétales Module : Statistique 1

6. EXERCICES 107

(d) Application numerique : n = 1000 et p = 0.001; 0.002 et 0.01.

(e) Visualiser le risque de deuxieme espece et la puissance du test lorsque p = 0.002.

(f) On veut une puissance de 0.95 pour p = 0.001. Calculer n.

(v) En supposant que la loi de S(Y ) puisse etre approximee par une loi normale donner les parametres de cetteloi.

(vi) On supposera que l’on peut approximer la loi de S(Y ) par une loi normale et on prendra n = 1000. On desirerealiser le test statistique suivant :– H0 : p = 0.1– H1 : p > 0.1

(a) Le test est-il un test unilateral ou bilateral ?

(b) On prend α = 0.05. Donner la regle de decision.

(c) Calculer la puissance du test pour p = 0.05; 0.1; 0.11.

(d) Visualiser sur un graphique les risques α, β, et la puissance pour p = 0.11.

(e) Donner l’allure de la fonction puissance en fonction de p pour n fixe.

Page 112: Département Biosciences Végétales Module : Statistique 1

108 CHAPITRE 5. TESTS STATISTIQUES : PRINCIPES GENERAUX

Page 113: Département Biosciences Végétales Module : Statistique 1

Chapitre 6

Estimation

1 Introduction

1.1 Exemples

Exemple 1.1.1. 1Le merle a plastron (Turdus torquatus) est un oiseau qui en automne erre dans les bois clairset les buissons des montagnes, entre 1500 metres et 2000 metres d’altitude. En 1968, a la station ornithologiquedu Col de la Goleze situee dans les Alpes a 1700 metres d’altitude, 48 merles a plastron ont ete captures au filetjaponais durant 89 jours d’ouverture de la station. Les donnees de la table (6.1) ont ainsi ete obtenues.

Jours 1 2 . . . 88 89Nombre de merles captures 0 2 . . . 0 1

Tab. 6.1 – Donnees initiales

La table (6.2) donne alors la distribution des frequences absolues des captures obtenues.

Nombres de merles captures 0 1 2 3 4 5 6Nombres de jours 56 22 9 1 0 1 0

Tab. 6.2 – Tableau des frequences absolues

La representation graphique du tableau des frequences relatives associees est donc fournie par le diagramme enbatons de la figure (6.1)

0 1 2 3 4 50

0.1

0.2

0.3

0.4

0.5

0.6

0.7

k

Fréq

uenc

es re

lativ

es

Fig. 6.1 – Diagramme en batons

On suppose que la repartition dans le temps des captures de merles est aleatoires (i.e. qu’une capture n’influencepas une autre capture). La population des merles est supposee tres grande. On peut modeliser cette experience parla variable aleatoire suivante :

X : J −→ Nun jour 7−→ nombre de merles captures

1Exemple provenant de B. Scherrer [5] page 242

109

Page 114: Département Biosciences Végétales Module : Statistique 1

110 CHAPITRE 6. ESTIMATION

Nous pouvons supposer que cette variable aleatoire suit une loi de Poisson :

P (X = k) =λ

k!e−λ

Question : Comment a partir des resultats obtenir une estimation de ce parametre λ ?Nous pouvons penser a differentes solutions :

(i) Nous avons P (X = 0) = e−λ, nous pouvons donc penser a la formule :

e−λ =nombre de jours ou il y a eu 0 captures

nombre total de jours=

5689

λ = − ln(

5689

)= 0.463

(ii) Nous avons aussi E(X) = λ et nous pouvons donc penser a la formule :

λ = y =22 + 2× 9 + 3 + 5

89= 0.551

(iii) Mais nous avons encore V ar(X) = λ et nous pouvons donc penser a une troisieme formule :

λ = s2 =1n

n∑1

(yi − y)2

Exemple 1.1.2. 2 Imaginons une population dans laquelle nous savons que tous les elements ont ete numerotes de 1a N , par exemple lors d’un concours, mais nous ne connaissons pas cette valeur. Nous extrayons de cette populationun echantillon de taille 5 et nous relevons les 5 numeros : y1 = 203; y2 = 504; y3 = 366; y4 = 326; y5 = 77. Laquestion est comment estimer la valeur de N a partir de ces 5 donnees. La encore nous pouvons penser a plusieursformules :

(i) maxi=1,...,5(yi) ;

(ii) maxi=1,...,5(yi) + mini=1,...,5(yi)− 1 ;

(iii) 2× yi (2 fois la mediane des donnees).

1.2 Position du probleme

Les deux exemples ci-dessus posent le probleme de savoir quelle est la ”meilleure” formule pour uneestimation. Il faut pour cela avoir un/des criteres pour pouvoir choisir. Nous allons dans la section qui suit donner ladefinition d’un probleme d’estimation et definir les bonnes proprietes que doit avoir un estimateur. Nous donneronsensuite les estimateurs pour les parametres les plus courants.

2 Principes generaux

2.1 Formalisme mathematique, definitions

Considerons le probleme de l’estimation d’un taux de germination d’une variete fixee dans des conditionsexperimentales bien definies. Appelons P la population des graines supposee de taille infinie. Estimer le taux degermination c’est estimer le parametre p de la loi de Bernoulli de la variable aleatoire

X : P −→ 0, 1une graine 7−→ 1 si la graine germe et 0 sinon

Pour cela on realise l’experience qui consiste a prendre n graines et a les mettre a germer. On estimera alors leparametre p par la frequence de graines qui auront germe dans l’echantillon. Si nous ”repetons cette experienceune infinite de fois”, nous definissons ainsi la variable aleatoire suivante :

Y : Pn −→ R

un echantillon de n graines 7−→ le nombre de graines qui germent dans l’echantillonn

2Exemple provenant de Tommassone [7] page 10

Page 115: Département Biosciences Végétales Module : Statistique 1

2. PRINCIPES GENERAUX 111

C’est la theorie de l’echantillonnage (et la theorie des probabilites) qui nous permet d’avoir des resultats sur lavariable Y et en particulier sa loi. Schematiquement nous avons :

G =ensemble de graines

p =taux de germination

Gn =ensemble de tous les

echantillons de taille n

Loi de probabilite de Y

echantillonnage-

Information sur le

taux de germination

Resultats sur

un echantillon de taille n

Estimation

D’une facon generale nous aurons le schema suivant :

X : P → R

loi de X : f(x, θ)

Y : Pn → Rn

T : Rn → R

Loi de T (Y1, . . . , Yn)

echantillonnage-

Information

sur la valeur de θ

Resultats sur

un echantillon de taille n

T (y1, . . . , yn)

Estimation

POSTULATS On supposera toujours dans la suite que l’on a un n-echantillon Bernoullien et donc que lesvariables aleatoires (Yi)i=1,...,n sont independantes et de meme loi. Nous ecrirons alors (Yi)i=1,...,ni.i.d3

Definition 2.1.1 (Probleme d’estimation). Soit X un caractere sur une population Ω de loi f(x; θ) si X estcontinue et p(x; θ) si X est discrete. Estimer θ c’est determiner a partir d’un echantillon (y1, . . . , yn) une valeurapprochee de θ. θ s’appelle un parametre et on notera (Pe) un probleme d’estimation.

3independantes et identiquement distribuees

Page 116: Département Biosciences Végétales Module : Statistique 1

112 CHAPITRE 6. ESTIMATION

Remarque 2.1.2. La definition ci-dessus est valable que θ soit un reel ou un vecteur. Si l’on desire par exempleestimer les parametres µ et σ pour une variable aleatoire de loi normale, on aura : θ = (θ1, θ2) = (µ, σ) ∈ R2.Nous n’etudierons dans cette section que le cas ou la variable aleatoire sera a valeurs dans R et ou le parametresera un reel.

Definition 2.1.3 (Estimateur – Estimation ponctuelle). Soit (Pe)un probleme d’estimation. On appelle estimateurtoute variable aleatoire T (Y1, . . . , Yn), ou (Y1, . . . , Yn) est un n-echantillon aleatoire, ayant pour but d’estimer leparametre θ. On appelle valeur estimee ou estimation ponctuelle ou estimation par point ou encore estimation laquantite θ = T (y1, . . . , yn) obtenue a partir d’un n-echantillon (y1, . . . , yn).

Definition 2.1.4 (Estimation par intervalle – Intervalle de confiance). Soit (Pe) un probleme d’estimation ou θ

est reel. On appelle estimation par intervalle ou intervalle de confiance au niveau 1 − α tout intervalle [θ1; θ2] telque la probabilite que cette intervalle contienne la valeur du parametre θ soit egale a 1− α.

Remarque 2.1.5. (i) L’avantage d’avoir un intervalle de confiance est que l’on a ainsi une idee de la precisionde l’estimation.

(ii) Dire que l’intervalle recouvre la valeur du parametre θ, c’est dire que θ est dans l’intervalle. Nous pouvonsdonc prendre comme definition d’un intervalle de confiance tout intervalle tel que :

P (θ ∈ [θ1; θ2]) = 1− α (6.1)

Par abus de langage nous dirons que θ appartient a l’intervalle [θ1; θ2] au niveau 1−α. Il faut bien comprendreen effet que dans l’equation ci-dessus θ est une constante (c’est ce que l’on cherche a estimer). C’est l’intervallequi est ici aleatoire. Si l’on desire par exemple avoir un intervalle de confiance d’un taux de germination, nousrealiserons concretrement l’experience consistant a mettre a germer n graines. A partir des resultats de cetteexperience, nous construirons l’intervalle de confiance du taux de germination (voir la sous section (3.3)) .Si nous realisons une nouvelle fois cette experience nous obtiendrons un nouvel intervalle de confiance. C’estdonc bien cet intervalle qui varie et non pas le taux de germination qui est ce qu’il est. Par consequent ecrireθ ∈ [θ1; θ2] au niveau 1−α n’est pas tres rigoureux car θ, qui est une constante soit appartient a cet intervalle,soit est hors de cet intervalle ; il ne peut y etre avec une probabilite de 1 − α. La bonne formulation seraitde dire que l’intervalle [θ1; θ2] recouvre la vraie valeur du parametre θ avec la probabilie de (1 − α). Maisl’habitude veut que l’on emploie la premiere formulation.

Nous allons maintenant voir les proprietes que doit posseder tout ”bon” estimateur.

2.2 Proprietes des estimateurs

La premiere chose que l’on demande a un estimateur est de ne pas faire d’erreur systematique, c’est-a-dire quel’estimateur donne ”en moyenne” la bonne valeur du parametre recherche. C’est la notion d’estimateur sans biais.

Definition 2.2.1 (Estimation sans biais). Soit (Pe) un probleme d’estimation. Un estimateur T est dit sans biaissi et seulement si l’esperance mathematique de T est egale a la valeur du parametre θ cherchee :

E(T ) = θ

Definition 2.2.2 (Estimation asymptotiquement sans biais). Soit (Pe) un probleme d’estimation. Un estimateurTn est dit asymptotiquement sans biais si et seulement si l’esperance mathematique de Tn tend vers la valeur duparametre θ cherchee quand n tend vers +∞ :

E(Tn) −→ θ

n −→ +∞

Exemple 2.2.3. Considerons le probleme de l’estimation d’une variance σ2 dans le cas ou la variable aleatoiresuit une loi normale. Soit donc (Y1, . . . , Yn) un n-echantillon aleatoire Bernoullien de la variable aleatoire X donton cherche a estimer la variance. Considerons l’estimateur

T (Y1, . . . , Yn) =1n

n∑i=1

(Yi − Y )2 = S2(Y )

Nous avons alors vu au theoreme (4.4.2.1) que l’on a

E(T ) = E(S2) =n− 1

nσ2

Page 117: Département Biosciences Végétales Module : Statistique 1

2. PRINCIPES GENERAUX 113

Par suite S2 n’est pas un estimateur sans biais de σ2. Pour obtenir un estimateur sans biais il faut en fait prendre :

T (Y1, . . . , Yn) =1

n− 1

n∑i=1

(Yi − Y )2 =n

n− 1S2(Y )

En effet la propriete de linearite le l’esperance mathematique donne immediatement :

E

(n

n− 1S2

)=

n

n− 1E(S2)

= σ2

Illustrons ceci par la simulation. Construisons 5000 echantillons de taille 5 de donnees provenant d’une loi nor-male N (100, 25). Pour chacun des 5000 echantillons nous calculons la quantite SCE/n. Nous obtenons ainsi5000 realisations de la variable aleatoire S2. Tracons alors l’histogramme de ces 5000 nombres. Nous obtenons ledeuxieme graphique de la figure (6.2). Si maintenant pour les memes 5000 echantillons nous calculons les quantitesSCE/(n − 1), nous obtenons 5000 realisations de la variable aleatoire n/(n − 1)S2. L’histogramme de ces 5000valeurs nous donne alors le troisieme graphique de la figure (6.2).

85 90 95 100 105 110 1150

0.02

0.04

0.06

0.08

0.1Données

0 25 900

0.01

0.02

0.03

0.04

0.05SCE/n

0 25 900

0.01

0.02

0.03

0.04

0.05SCE/(n−1)

Fig. 6.2 – Echantillonnage de S2 et de nS2/(n− 1)

Nous pouvons observer que la valeur moyenne obtenue pour le troiseme graphique est bien la valeur de lavariance σ2 recherchee alors que sur le deuxieme elle est inferieure (la valeur est de 4/5σ2)

Remarque 2.2.4. Nous tenons a rapeller ici que l’illustration via la simulation informatique n’est qu’une illustra-tion. Il faudrait en fait non pas prendre 5000 echantillons, mais une infinite. Ce sont les theoremes mathematiquesqui nous permettent d’affirmer que le resultat est bien exact.

S2 n’est pas un estimateur de la variance sans biais, mais il est asymptotiquement sans biais puisque E(S2) =n−1

n σ2 tend vers σ2 quand n tend vers +∞.

Une deuxieme propriete, qui est fondamentale, que doit avoir tout ”bon” estimateur est que si l’on a suffisammentde donnees la valeur de la variable aleatoire soit tres proche de la valeur du parametre recherche. Ceci ce traduit parle fait que l’estimateur soit asymptotiquement sans biais et qu’il fluctue peu autour de son esperance mathematiquelorsque n est grand, c’est-a-dire que sa variance soit petite pour n grand. Nous debouchons ainsi sur la notiond’estimateur convergent.

Definition 2.2.5 (Estimateur convergent). Soit (Pe) un probleme d’estimation. Un estimateur Tn est dit convergentsi et seulement si il est asymptotiquement sans biais et si sa variance tend vers 0 quand n tend vers +∞ :

E(Tn) −→ θ et V ar(Tn) −→ 0n −→ +∞ n −→ +∞

Exemple 2.2.6. Considerons le probleme de l’estimation d’une moyenne µ. Soit donc (Y1, . . . , Yn) un n-echantillonaleatoire Bernoullien de la variable aleatoire X dont on cherche a estimer la moyenne. Considerons l’estimateur

Tn(Y1, . . . , Yn) = Yn =1n

n∑i=1

Yi

Nous savons alors que : E(Yn) = µ pour tout n. Par suite cet estimateur est sans biais et donc asympotiquementsans biais. Quand a la variance de cet estimateur elle est :

V ar(Yn) =σ2

n

Par suite cet estimateur est un estimateur convergent.

Page 118: Département Biosciences Végétales Module : Statistique 1

114 CHAPITRE 6. ESTIMATION

Exemple 2.2.7. Supposons, pour simplifier, que X suive une loi normale. Nous avons deja vu a l’exemple 2.2.3

que n/(n − 1)S2 est un estimateur sans biais et le theoreme (4.4.2.1) nous dit que V ar(n/(n − 1)S2n) =

2n− 1

σ4

qui donc tend vers 0 quand n tend vers +∞. Par suite n/(n − 1)S2 est un estimateur convergent de la variance.Illustrons le phenomene grace a la simulation. Construisons 5000 echantillons de taille 5 de donnees provenantd’une loi normale N (100, 25). Pour chacun des 5000 echantillons nous calculons la quantite SCE/(n − 1). Nousobtenons ainsi 5000 realisations de la variable aleatoire n/(n − 1)S2. Tracons alors l’histogramme de ces 5000nombres. Nous obtenons le premier histogramme de la figure (6.3). Nous avons sur ce meme graphique trace lafonction de densite de la variable aleatoire n/(n− 1)S2. Les deuxieme et troisieme graphiques de cette meme figuresont obtenus de facon similaire mais avec n = 20 et n = 50. Nous avons sur le dernier graphique mis les fonctionsde densite theoriques. Nous observons bien ici le phenomene de convergence : plus n est grand, plus les valeurs dela variable aleatoire se concentrent autour de la vraie valeur de la variance recherchee.

0 25 1000

0.02

0.04

0.06

0.08

0.1n=5

0 25 1000

0.02

0.04

0.06

0.08

0.1

0 25 1000

0.02

0.04

0.06

0.08

0.1n=20

0 25 1000

0.02

0.04

0.06

0.08

0.1n=50

Fig. 6.3 – Visualisation de la convergence de la statistique nS2/(n− 1)

Nous pouvons maintenant definir un critere pour choisir entre deux estimateurs sans biais : c’est celui qui auraune dispersion minimale en terme de variance.

Definition 2.2.8 (Estimateur efficace). Soit (Pe) un probleme d’estimation. Un estimateur sans biais Tn est ditefficace si quel que soit l’estimateur sans biais T ′n, on a :

V ar(Tn) ≤ V ar(T ′n)

Exemple 2.2.9. Considerons une variable aleatoire X de loi uniforme sur [0; 12]. La simulation obtenue avec 1000echantillons de taille n montre que la moyenne est plus efficace que la mediane (cf. la figure 6.4).

0 2 4 6 8 10 120

0.02

0.04

0.06

0.08

0.1Données

0 5 100

0.1

0.2

0.3

0.4Moyennes

0 5 100

0.1

0.2

0.3

0.4Médianes

Fig. 6.4 – Efficacite de la moyenne par rapport a la mediane

Page 119: Département Biosciences Végétales Module : Statistique 1

3. ESTIMATIONS DES PRINCIPAUX PARAMETRES 115

3 Estimations des principaux parametres

3.1 Estimation d’une variance

Theoreme 3.1.1. Soit (Pe) le probleme d’estimation de la variance θ = σ2 ou X est une variable aleatoire reellecontinue. Alors

n

n− 1S2(Y ) : Pn −→ R

ω = (ω1, . . . , ωn) 7−→ 1n− 1

n∑i=1

(X(ωi)− Y (ω))2

(i) est un estimateur sans biais de σ2. On notera σ2 l’estimation ponctuelle.

(ii) si X suit une loi normale, c’est un estimateur convergent et asymptotiquement efficace.

DemonstrationLe point (i) a ete vu a la section precedente et le point (ii) sera admis. 2

Theoreme 3.1.2. Soit (Pe) le probleme d’estimation de la variance θ = σ2 ou X est une variable aleatoire reellecontinue de loi normale alors l’intervalle de confiance au niveau (1− α) est donne par :

σ2 ∈

[SCE

χ21−α/2

;SCE

χ2α/2

]au niveau (1− α)

Corollaire 3.1.3. Sous les memes hypotheses que le theoreme precedent l’estimation ponctuelle de l’ecart type σest σ =

√σ2 et, si la loi de la variable aleatoire de depart X est normale, l’estimation par intervalle est :

σ ∈

[√SCE

χ21−α/2

;

√SCE

χ2α/2

]au niveau (1− α)

DemonstrationCela provient du theoreme (4.4.2.1) qui dit entre autre que la variable aleatoire :

K(Y ) =nS2(Y )

σ2: Pn −→ R

ω = (ω1, . . . , ωn) 7−→ 1σ2

n∑i=1

(X(ωi)− Y (ω))2

suit une loi du Khi-2 a ν = (n−1) degre de liberte si l’echantillon aleatoire est Bernoullien et si la variable aleatoireX suit une loi normale. Par suite, si nous definissons les valeurs de χ2

α/2 et χ21−α/2 par :

P (K(Y ) < χα/2) = α/2 et P (K(Y ) < χ21−α/2) = 1− α/2

nous avons (cf. figure (6.5))

P

(χα/2 <

nS2(Y )σ2

< χ21−α/2

)= 1− α

⇔ P

(nS2(Y )χ1−α/2

< σ2 <nS2(Y )χ2

α/2

)= 1− α

Or a partir des donnees nous avons une observation de la variable aleatoire nS2 qui est donnee par la sommedes carres des ecarts SCE. D’ou le resultat. 2

Exemple 3.1.4. Reprenons les donnees de la table 4.1 ou l’on s’interessait a la longueur de la rectrice centrale dela gelinotte huppee male, juvenile. On desire ici avoir une estimation de la variance. La variable aleatoire etudieeest :

X : Ω −→ R

une gelinotte 7−→ la longueur de sa rectrice

Page 120: Département Biosciences Végétales Module : Statistique 1

116 CHAPITRE 6. ESTIMATION

0 1000

0.005

0.01

0.015

0.02

0.025

0.03

0.035

0.04

0.045

α/2→

χ0.0252 χ

0.9752

← α/2

Fig. 6.5 – Loi du Khi-2 a ν ddl

L’estimation ponctuelle de la variance est alors

σ2 =SCE

n− 1=

1263647− 50× 158.862

49=

182249

= 37.18mm2

On peut supposer ici que la loi de la variable aleatoire est une loi normale et on peut donc calculer l’intervalle deconfiance a 95% de la variance :[

SCE

χ21−α/2

;SCE

χ2α/2

]=[

182270.222

;1822

31.555

]= [25.95; 57.74]

L’intervalle de confiance de l’ecart type est alors :

[5.1; 7.6] au niveau 0.95

Remarque 3.1.5. (i) Si la loi de depart n’est plus une loi normale, la formule n’est plus valable car la variablealeatoire K = nS2

σ2 ne suit plus une loi du Khi− 2 (cf la figure 4.5).(ii) L’intervalle de confiance n’est pas symetrique : σ2 n’est pas le milieu de l’intervalle.(iii) On demontre que l’estimation de l’ecart type est biaisee mais qu’elle elle est asymptotiquement sans biais.

3.2 Estimation d’une moyenne

Theoreme 3.2.1. Soit Pe un probleme d’estimation ou X est une variable aleatoire continue et θ = E(X) = µ.

Alors Y =1n

∑ni=1 Yi

(i) est un estimateur sans biais et convergent de µ ;(ii) est un estimateur efficace si X suit une loi normale.

DemonstrationLe (i) est immediat et a deja ete demontre dans le chapitre de la theorie de l’echantillannage. Le (ii) est admis. 2

Theoreme 3.2.2 (Intervalle de confiance de la moyenne). Soit Pe un probleme d’estimation ou X est une variablealeatoire de loi normale et θ = E(X) = µ alors l’intervalle de confiance est :

(i) si la variance σ2 est connue

µ ∈[y − u1−α/2

σ√n

; y + u1−α/2σ√n

]au niveau (1− α)

(ii) si la variance σ2 n’est pas connue

µ ∈[y − t1−α/2

σ√n

; y + t1−α/2σ√n

]au niveau (1− α)

Demonstration(i) Si σ est connue alors la theorie de l’echantillonnage nous dit que la variable aleatoire Y suit une loi normaleN (µ, σ2

n ). Nous avons donc :

P

(µ− u1−α/2

σ√n≤ Y ≤ µ + u1−α/2

σ√n

)= 1− α

Page 121: Département Biosciences Végétales Module : Statistique 1

3. ESTIMATIONS DES PRINCIPAUX PARAMETRES 117

ou u1−α/2 est defini par P (U < u1−α/2) = 1− α/2, U etant une variable aleatoire de loi normale centree reduite.On en deduit alors que :

P

(Y − u1−α/2

σ√n≤ µ ≤ Y + u1−α/2

σ√n

)= 1− α

d’ou le resultat.

(ii) Lorsque X suit une loi normale N (µ, σ2), il est toujours vrai que U =Y − µ

σ√n

suit une loi normale centree

reduite. Le probleme est ici que σ est inconnue. L’idee immediate est de remplacer σ par son estimation σ. Cecinous conduit a construire le variable aleatoire suivante :

T (Y ) : Pn −→ R

ω = (ω1, . . . , ωn) 7−→ T (ω) =Y (ω)− µ√Pn

i=1(X(ωi)−Y (ω))2

(n−1)n

Nous pouvons reecrire cette variable aleatoire de la facon suivante

T (Y ) =Y−µσ/√

n√nS2(Y )

σ2 /(n− 1)=

U√Z/ν

ou U est une variable aleatoire de loi normale centree reduite, Z est une variable aleatoire de loi du Khi-2 aν = n− 1 degre de liberte, et ces deux variables aleatoires sont independantes. Par suite T suit une loi de Studenta ν = (n− 1) ddl.

Par consequent, si nous definissons t1−α/2 par :

P (T (Y ) < t1−α/2) = 1− α/2

nous avons (cf. figure (6.6)) :P (−t1−α/2 < T (Y ) < t1−α/2) = 1− α

−4 40

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

α/2→

t0.025

t0.975

← α/2

Fig. 6.6 – Loi de Student a ν ddl

Nous en deduisons donc

P

−t1−α/2 <Y − µ√

S2(Y )n−1

< t1−α/2

= 1− α

⇔ P

(Y − t1−α/2

√S2(Y )n− 1

< µ < Y +

√S2(Y )n− 1

)= 1− α

Nous avons a partir de nos donnees une observation de

Y − t1−α/2

√S2(Y )n− 1

Page 122: Département Biosciences Végétales Module : Statistique 1

118 CHAPITRE 6. ESTIMATION

qui est

y − t1−α/2

√σ2

n

Nous avons le meme type de resultat pour la deuxieme borne de l’intervalle. D’ou le resultat.2

Exemple 3.2.3. Reprenons les donnees de la table 4.1 ou l’on s’interessait a la longueur de la rectrice centralede la gelinotte huppee male, juvenile. Calculons l’intervalle de confiance de la moyenne. Nous supposons toujoursici que la loi de la vaviable aleatoire est normale. Nous avons obtenu a l’exemple 3.1.4 y = 158.86 et σ = 6.0979.Le nombre de donnees est n = 50, et donc ν = 49. Par suite nous avons t0.975,ν=49 = 2.0096. Ce qui nous donnecomme intervalle de confiance a 95% :

µ ∈[158.86− 2.0096× 6.0979√

50; 158.86− 2.0096× 6.0979√

50

]= [157.13; 160.59] au niveau 0.95

Le theoreme precedent nous donne les resultats theoriques lorsque la loi de la variable aleatoire X est normale,mais on sait, grace au theoreme limite central que Y suit asymptotiquement une loi normale, c’est-a-dire que pourn grand, on peut approximer la loi de Y par une loi normale. Il reste a savoir a partir de quand on est en droitd’utiliser cette approximation pour ensuite obtenir des intervalles de confiance de la moyenne. Plus la loi de departsera disymetrique, plus n devra etre grand. La proposition suivante donne une regle couramment utilisee.

Proposition 3.2.4. Soit Pe un probleme d’estimation ou X est une variable aleatoire continue et θ = E(X) = µalors l’intervalle de confiance est :

(i) si la variance σ2 est connue et si n > 5

µ ∈[y − u1−α/2

σ√n

; y + u1−α/2σ√n

]au niveau (1− α)

(ii) si la variance σ2 n’est pas connue et si n > 30

µ ∈[y − u1−α/2

σ√n

; y + u1−α/2σ√n

]au niveau (1− α)

Definition 3.2.5 (Erreur standard). 4 On appelle erreur standard l’estimation ponctuelle de l’ecart type de lamoyenne, c’est-a-dire la quantite :

σ/√

n

Remarque 3.2.6. On trouvera aussi comme terminologie erreur standard de la moyenne au lieu d’erreur standard.

Nous pouvons utiliser maintenant les resultats precedents pour determiner le nombre n de mesures necessairesafin d’obtenir une estimation avec une precision voulue. Considerons par exemple le cas ou la variable aleatoire Xsuit une loi normale, alors l’intervalle de confiance au niveau (1− α) est donne par :

µ ∈[y − t1−α/2

σ√n

; y + t1−α/2σ√n

]au niveau (1− α)

Par suite si nous posons

d = t1−α/2σ√n

nous avons alorsµ ∈ [y − d; y + d] au niveau (1− α)

Nous en deduisons l’equation suivante

n−(

t1−α/2σ

d

)2

= 0 (6.2)

Par suite si nous connaissons la valeur du rapport σ/d, nous pouvons en deduire la valeur de n. Attention n apparaıtdeux fois dans l’equation (6.2), il est en effet present de facon implicite dans t1−α/2 qui est en lien avec une loide Student a (n − 1) ddl. En pratique, pour avoir un ordre de grandeur de n on remplacera ce terme t1−α/2 paru1−α/2.

4standard error en anglais

Page 123: Département Biosciences Végétales Module : Statistique 1

3. ESTIMATIONS DES PRINCIPAUX PARAMETRES 119

Exemple 3.2.7. On se propose de determiner la quantite d’olives que l’on doit prendre pour pouvoir estimer aune decimale pres la teneur en huile (exprimee en pourcentage du poids frais). Comme nous n’avons au departaucune information, nous prenons, dans un premier temps 100 olives. On suppose que la variable aleatoire ”teneuren huile” suit une loi normale. Apres avoir analyse celles-ci, nous avons obtenu : y = 28.5% et σ = 5.7%. Nousprenons α = 0.05. L’intervalle de confiance de µ au niveau 0.95 est alors de[

28.5− t1−α/25.7√100

; 28.5 + t1−α/25.7√100

]= [28.5− 1.12; 28.5 + 1.12]

n = 100 est donc trop petit. Determinons maintenant la taille de l’echantillon necessaire. Nous conservons l’esti-mation de σ obtenue lors de notre premiere experience et nous remplacons t1−α/2 par u1−α/2 dans l’equation (6.2).Nous obtenons ainsi

d =1.96× 5.7

n= 0.1

soitn ' 13000

On verifie a posteriori que la valeur de n est grande et donc que l’approximation de t1−α/2 par u1−α/2 est correcte.Si n est faible, il faut iterer pour trouver la solution de l’equation (6.2).

3.3 Estimation d’une proportion

Theoreme 3.3.1. Soit Pe un probleme d’estimation ou X est une variable aleatoire de loi de Bernoulli B(p) alors

(i) Y est un estimateur sans biais et convergent du parametre p et l’estimation ponctuelle est donc donnee par

p =kobs

n;

(ii) si l’echantillonnage est avec remise l’intervalle de confiance au niveau (1 − α) est donne par p ∈ [p1; p2] oup1 et p2 sont determines par :

P (Y ≥ kobs

n) =

n∑i=kobs

Cinpi

2(1− p2)n−i = α/2 (6.3)

et

P (Y ≤ kobs

n) =

kobs∑i=1

Cinpi

1(1− p1)n−i = α/2 (6.4)

DemonstrationCela provient tout simplement de la theorie de l’echantillonnage et pour (ii) du fait que nY suit une loi binomiale.2

Les equations 6.3 et 6.4 sont difficiles a resoudre et on sait que l’on peut souvent en pratique approximerune loi binomiale ou hypergeometrique par une loi normale d’ou la proposition suivante. Nous notons dans cetteproposition σp l’estimation de la variance de X qui est donnees par :

(i) σ2p =

pq

n− 1si l’echantillonnage est avec remise ;

(ii) σ2p =

pq

n− 1N − n

Nsi l’echantillonnage est sans remise.

Proposition 3.3.2. Soit Pe un probleme d’estimation ou X est une variable aleatoire de loi de Bernoulli B(p). Sin est superieur aux valeurs mentionnees dans la table 6.3 alors l’intervalle de confiance est donnees par

p ∈[p− u1−α/2σp −

12n

; p + u1−α/2σp +12n

]au niveau (1− α)

DemonstrationPuisque l’on peut faire l’approximation par une loi normale on obtient l’intervalle en prenant l’intervalle de confianced’une moyenne. Le terme 1

2n est un terme de correction de non continuite [3] 2

Remarque 3.3.3. (i) Pour les valeurs de n inferieures a 100 et pour n/N < 0.1 on a construit des tablesstatistiques qu’il suffit d’aller consulter.

(ii) pour les valeurs de p tres proche de 0 on peut aussi utiliser l’approximation de la loi binomiale par une loi depoisson.

Page 124: Département Biosciences Végétales Module : Statistique 1

120 CHAPITRE 6. ESTIMATION

p n

0.5 300.4 500.3 800.2 2000.1 6000.05 1400

Tab. 6.3 – valeurs minimales de n en fonction de p pour pouvoir utiliser la loi normale dans le calcul de l’intervallede confiance d’une proportion

(iii) Quand l’echantillonnage est sans remise, ce qui est toujours le cas en pratique ! ! !, et quand n/N > 0.1, nousdevons travailler avec la loi hypergeometrique, ce qui complique les calculs. Il faut pour repondre a la questionalors se tourner vers les logiciels specifiques.

Exemple 3.3.4. 5 A la fin de l’ete et au cours de l’automne 1975, une epidemie virale provoqua la mort d’environ1000 cerfs de Virginie (Odocoileus virginianus) dans le New Jersey ([4]). L’analyse d’un echantillon de 146 victimes,dont le sexe a pu etre identifie, revela que seulement 41 males dont 10 faons composaient l’echantillon.

Quel est l’intervalle de confiance au niveau 0.95 du pourcentage de males morts de cette maladie lors del’epidemie de 1975 ?

L’echantillon se compose de 146 animaux et l’estimation ponctuelle de la proportion est p = 41146 = 0.28 Comme

cette valeur est proche de 0.3 et que l’effectif de l’echantillon n est superieur a 80, nous pouvons utiliser l’approxi-mation normale. L’effectif de la population est ici environ N = 1000, donc

σp =

√0.28× 0.72

1451000− 146

1000= 0.0344

par suite l’intervalle de confiance est :

p ∈[0.28− 1.96× 0.034− 1

292; 0.28 + 1.96× 0.034 +

1292

]= [0.21; 0.35] au niveau (1− α)

4 Complements

4.1 Lien entre intervalle de confiance et test

L’intervalle de confiance de la moyenne dans le cas ou l’on connaıt la variance σ2 et ou la variable aleatoire X est normale est donnee par :

»y − u1−α/2

σ√

n; y + u1−α/2

σ√

n

–au niveau 1− α

Considerons maintenant, toujours sous les memes postulats, le test bilateral suivant :H0 : µ = µ0H1 : µ 6= µ0Nous aurons alors la regle de decision suivante :

– si y ∈»µ0 − u1−α/2

σ√

n; µ0 + u1−α/2

σ√

n

–alors on accepte l’hypothese nulle H0 au risque α ;

– si y 6∈»µ0 − u1−α/2

σ√

n; µ0 + u1−α/2

σ√

n

–alors on accepte l’hypothese alternative H1 au risque α.

Ce qui est equivalent a :

– si µ0 ∈»y − u1−α/2

σ√

n; y + u1−α/2

σ√

n

–alors on accepte l’hypothese nulle H0 au risque α ;

– si µ0 6∈»y − u1−α/2

σ√

n; y + u1−α/2

σ√

n

–alors on accepte l’hypothese alternative H1 au risque α.

En d’autres termes, on peut considerer l’intervalle de confiance comme l’ensemble des valeurs de la moyenne µ0 pour lesquelles on accepterait

l’hypothese nulle dans le test bilateral.

4.2 Illustration

Soit Pe un probleme d’estimation ou la loi de la variable aleatoire X est continue et ou θ ∈ R. Soit T un estimateur de θ.Fixons θ′ dans R. Si nous connaissons la loi de T pour ce parametre θ′, nous pouvons determiner les valeurs h1(θ

′) et h2(θ′) telles que :

P (T < h1(θ′)) = α/2

P (T < h2(θ′)) = 1− α/2

5Exemple provenant de B. Scherrer [5] page 351

Page 125: Département Biosciences Végétales Module : Statistique 1

4. COMPLEMENTS 121

Nous avons ainsi defini deux fonctions h1 et h2. Nous avons aussi

P (h1(θ′) < T < h2(θ

′)) = 1− α

Si maintenant nous calculons a partir d’un n-echantillon l’estimation ponctuelle θ = T (y1, . . . , yn) nous avons la relation suivante :

θ ∈ [h1(θ′), h2(θ

′)] ⇐⇒ θ

′ ∈ [θ1; θ2] = [h−12 (θ); h

−11 (θ)]

Par consequent nous avons bien :

P (θ ∈ [θ1; θ2]) = 1− α

Nous retrouvons ici la vraie signification de l’intervalle de confiance : la probabilite que l’intervalle [θ1; θ2] recouvre la vraie valeur duparametre θ est 1− α. C’est l’intervalle qui varie, non le parametre θ.

La figure (6.7) visualise ceci

paramètres

estimations

Fig. 6.7 – Intervalle de confiance

4.3 Estimation robustenous avons vu que pour avoir un ”bon” estimateur : estimateur sans biais, convergent et si possible efficace, nous avions souvent besoin

du postulat de normalite. Or ceci n’est pas toujours le cas en pratique. On peut donc aussi rechercher des estimateurs peu sensibles a la loi deprobabilite. Un estimateur ayant cette propriete sera appele un estimateur robuste. Par exemple, pour une loi symetrique, la mediane est unestimateur plus robuste de E(X) que la moyenne arithmetique.

Il existe un deuxieme type de robustesse. Elle concerne l’insensibilite a des valeurs ”aberrantes”. La encore la mediane sera plus robusteque la moyenne arithmetique. Les qualites de robustesse et d’efficacite sont tres souvent en opposition : on ne peut pas gagner sur tous lestableaux. En pratique, pour estimer une moyenne, on essaiera, a l’aide des graphiques des boıtes a moustache par exemple, de detecter lesvaleurs ”aberrantes”, puis on calculera l’estimation de E(X) par la moyenne arithmetique sur les donnees restantes.

L’etude de la robustesse est hors de propos ici, mais il s’agit d’une propriete en pratique importante.

4.4 Representation graphique

La figure (6.8) montre comment nous pouvons visualiser l’intervalle de confiance de la moyenne pour l’exemple(3.2.3). Attention, certains auteurs visualisent l’intervalle [y − es; y + es] ou es = σ√

nest l’erreur standard ! ! !

0 0.5 1 1.5 2140

145

150

155

160

165

170

175données

1

140

145

150

155

160

165

170

175

Box plot

Val

ues

Column Number

Fig. 6.8 – Intervalle de confiance longueur de la rectrice centrale

La figure (6.10) montre quant-a elle les differents intervalles de confiance de la moyenne a 95% pour les donneesdes longueurs d’ailes de mesanges noires selon leur age et sexe.

Remarque 4.4.1. Nous pouvons voir sur les graphiques des boıtes a moustaches qu’il y a peut-etre des donneesaberrantes. Les intervalles de confiances ont ici ete calcules sur toutes les donnees car nous n’avions aucune infor-mation nous permettant d’exclure une de ces donnees.

Page 126: Département Biosciences Végétales Module : Statistique 1

122 CHAPITRE 6. ESTIMATION

1 2 3 4

58

59

60

61

62

63

64

65

66

67

68

Long

ueur

d’a

iles

en m

mMâles adultes Mâles immatures Femelles adultes Femelles immatures

Fig. 6.9 – Boıtes a moustaches longueurs d’ailes

0.5 1 1.5 2 2.5 3 3.5 4 4.5

58

59

60

61

62

63

64

65

66

67

68

Mâles adultes Mâles immatures Femelles adultes Femelles immatures

Long

ueur

d’a

iles

en m

m

Fig. 6.10 – Donnees et intervalle de confiance longueurs d’ailes

5 Exercices

5.1 Exercices avec corriges

Exercice 5.1.1. 6 Une biochimiste etudie un type de moisissure qui attaque les cultures de ble. La toxine contenuedans cette moisissure est obtenue sous la forme d’une solution organique. On mesure la quantite de substance pargramme de solution. Sur 9 extraits on a obtenu les mesures suivantes :

1.2 0.8 0.6 1.1 1.2 0.9 1.5 0.9 1.0

On suppose que cette quantite de substance suit une loi normale.

(i) Calculer les estimations ponctuelles de la moyenne et de la variance ;

(ii) Calculer l’intervalle de confiance a 90% de la variance ;

(iii) Calculer les intervalles de confiance a 90% et a 99% de la moyenne.

correction.

(i) L’estimation ponctuelle de la moyenne est

µ = y =1n

(1.2 + 0.8 + · · ·+ 1.0) = 1.0222

.

(ii)

SCE =n∑

i=1

(yi − y)2 =n∑

i=1

y2i − ny2

= 9.96− 9(1.0222)2

= 0.5556

6Donnees provenant du livre de Stephan Morgenthaler, ”Introduction a la statistique”, exercice 3 page 146

Page 127: Département Biosciences Végétales Module : Statistique 1

5. EXERCICES 123

L’estimation ponctuelle de la variance est donc

σ2 =SCE

n− 1=

0.55568

= 0.0694

Et l’estimation ponctuelle de l’ecart type est σ =√

σ2 = 0.2635.Remarque. Suivant la precision avec lesquels on fait les calculs intermediaires on obtiendra des resultats plusou moins differents de ceux donnees ici. Nous n’insisterons pas sur ce point dans la mesure ou aujourd’huiles calculs sont fait sur l’ordinateur.

(iii) La loi etant supposee normale on a pour intervalle de confiance de la variance

σ2 ∈[SCE

χ20.95

;SCE

χ20.05

]a 90%

σ2 ∈[0.555615.507

;0.55562.733

]a 90%

σ2 ∈ [0.0358; 0.2033] a 90%

(iv) La loi etant supposee normale on a comme intervalle de confiance pour la moyenne

µ ∈[y − t1−α/2

σ√n

; y + t1−α/2σ√n

]au niveau 1− α

Ici α = 0.1 et ν = n− 1 = 8 donc t1−α = 1.86 et

µ ∈[1.0222− 1.86

0.26359

; 1.0222 + 1.860.2635

9

]a 90%.

µ ∈[0.8588; 1.1856] a 90%.

Pour α = 0.01, on a t1−α/2 = 3.355 et on obtient

µ ∈ [0.7275; 1.3169]

Remarque.– On peut constater que plus le degre de confiance est grand, plus l’intervalle est grand ; ce qui est logique.

2

Exercice 5.1.2. 7 Le ministere de la construction desire connaıtre le nombre de garages qu’il est souhaitables deconstruire avec une H.L.M., afin que les locataires puissent y ranger leur voiture.

(i) Sur 100 menages on en a trouve 40 qui possedaient une voiture. Donner l’intervalle de confiance a 95% de laproportion des menages qui possedent une voiture. On supposera que l’approximation par la loi normale estcorrecte.

(ii) On suppose connu la proportion p des menages possedant une voiture. Exprimer n le nombre de menagesen fonction de p et de d que l’on interroger pour etre sur a 97% que l’estimation ponctuelle soit dans unintervalle [p− d; p + d]. Pour d fixe quelle est la valeur de p la plus defavorable, c’est-a-dire celle qui donne lavaleur de n la plus grande. Calculer n pour d = 0.01; 0.05 et p = 0.04

(iii) On interroge 3238 menages. On trouve parmi eux 971 possesseurs de voitures.

(a) Donner l’estimation ponctuelle de la proportion p.

(b) Donner l’intervalle de confiance a 99% de la proportion p.

Remarque 5.1.1. Nous avons maintes fois fait l’approximation d’une loi binomiale par une loi normale. L’interetde cette approximation est de permettre des calculs plus simple. Pour que cette approximation soit correcte il fautque n soit suffisamment grand et que p ne soit pas trop proche de 0 ou de 1. Dans le cas ou le parametre p esttres proche de 0 la bonne approximation pour la loi binomiale est la loi de Poisson. Le tableau ci-dessous donne leslimites de l’approximation :

7Exercice n 81 du livre de C. Labrousse ”Statistique exercices corriges avec rappels de cours”

Page 128: Département Biosciences Végétales Module : Statistique 1

124 CHAPITRE 6. ESTIMATION

Parametre p Valeur minimale de npour une approximation

par la loi normale0.5 300.4 500.3 800.2 2000.1 6000.05 14000.0 poisson

Il ne s’agit ici que de resultats empiriques que nous utiliserons tres souvent.

correction.

(i) On a p = 40/100 = 0.4 et

σ2p =

pq

n− 1=

0.4× 0.699

= 2.4210−3

Par suite l’intervalle de confiance de p est

p ∈[p− u1−α/2σp − 1/2n; p + u1−α/2σp + 1/2n] au niveau 1− α

p ∈[0.4− 1.96√

2.4210−3 − 1/200; 0.4 + 1.96√

2.4210−3 + 1/200] a 95%p ∈[0.298; 0.5015] a 95%

(ii) On est ici dans la theorie de l’ echantillonnage, en effet on suppose que l’on connaıt la valeur et p et on cherchen pour que l’estimation p soit suffisamment proche de p, c’est-a-dire dans un intervalle [p− d; p + d] avec uneprobabilite de 0.97. L’estimateur est ici Y et on sait que l’on peut supposer que cette variable aleatoire suitune loi normale N (p, pq/n). Par suite on a

P

(Y ∈

[p− u1−α/2

√pq

n; p + u1−α/2

√pq

n

])= 1− α

Par suite pour avoir P (Y ∈ [p− d; p + d]) = 0.97, il suffit de prendre α = 0.03 et

d = u1−α/2

√pq

n

⇔n =(u1−α/2

d

)2

p(1− p)

avec ici u1−α/2 = u0.985 = 2.17. La fonction n(p) est donc une parabole concave (n′′(p) < 0) et le maximumsur [0; 1] est en 0.5 (unique point ou n′(p) = 0). (voir la figure 6.11)

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

2000

4000

6000

8000

10000

12000

p

n

Fig. 6.11 – n en fonction de p

Pour p = 0.4 et d = 0.01 on trouve n ∼ 11301 et pour p = 0.4 et d = 0.05 on trouve n ∼ 452.

(iii) (a) p = 971/3238 = 0.299.

Page 129: Département Biosciences Végétales Module : Statistique 1

5. EXERCICES 125

(b) u0.995 = 2.576 donc

p ∈

[0.299− 2.576

√0.299× 0.701

3237; 0.299 + 2.576

√0.299× 0.701

3237

]a 99%

p ∈[0.28; 0.32] a 99%

2

Exercice 5.1.3. 8

Les sondages sont largement utilises dans le marketing direct : il arrive souvent, en effet, que l’on estime parsondage le rendement d’un fichier donne, que l’on souhaite comparer les rendements de plusieurs fichiers, ou encoreque, disposant de plusieurs fichiers, l’on souhaite estimer par sondage le rendement global de l’ensemble des fichiers.

Dans cet exercice, on suppose l’existence d’un fichier de N =200 000 adresses. On note p le rendement inconnu dufichier a une offre d’abonnement a prix reduit avec calculette offerte en prime ; c’est donc la proportion d’individusqui s’abonneraient si l’offre etait faite a tous les individus du fichiers. On preleve au hasard, sans remise, n individus.On note :

– P la population des 200 000 individus ;– f =

n

N;

– σ2 = pq ;– Y la variable aleatoire

Y : Pn −→ R

n individus 7−→ nombre d’individus qui s’abonnentn

Nous pouvons dans ce cas approximer la loi de la variable Y par une loi normaleN (p, (1−f)σ2

n). (L’echantillonnage

est sans remise et nous ne pouvons ici l’approximer par un echantillonnage avec remise).

(i) On suppose que p = 0.02. Quelle taille d’echantillon doit-on prendre pour estimer p avec une precision absoluede 0.5% et un degre de confiance de 95% ;

(ii) Meme question pour des precisions de 0.3% et 0.1% ;

(iii) Le test a porte sur 10 000 adresses, et on a note 230 abonnements. Donner l’intervalle de confiance a 95% dep et du nombre total d’abonnements si l’offre etait faite sur l’ensemble du fichier.

correction.Remarque. Dans le cours, theoreme 4.1.1, on dit que

V ar(Y ) =N − n

N − 1σ2

n

alors qu’ici on a

(1− f)σ2

n=(1− n

N

) σ2

n=

N − n

N

σ2

n

La bonne formule est bien sur celle du cours, mais ici N est suffisamment grand pour confondre N et N − 1.

(i) La variable de depart est ici

X : P −→ 0, 11 individu 7−→ 1 s’il s’abonne1 individu 7−→ 0 s’il ne s’abonne pas

X suit une loi de Bernoulli de parametre p et a donc pour variance pq. On cherche donc a estimer p et onnous dit que Y peut etre approximee par une loi normale de parametre N (p, (1 − f)pq/n). Nous pouvonsdonc ecrire

P

(p− u1−α/2

√(1− f)

pq

n≤ Y ≤ p + u1−α/2

√(1− f)

pq

n

)= 1− α

Or ici on veut P (p− d ≤ Y ≤ p + d) = 1− α avec– p = 0.02 ;– d = 0.005 ;

8Exercice 5 page 8 de l’ouvrage ”Exercices de sondages” A.N. Dussaix et J.M. Grosbras, Ed. Economica 1992

Page 130: Département Biosciences Végétales Module : Statistique 1

126 CHAPITRE 6. ESTIMATION

– α = 0.05.Nous pouvons maintenant exprimer n en fonction de d, N, p et α. On veut

d = u1−α/2

√(1− n

N

) pq

n

⇔(

d

u1−α/2

)2

=(1− n

N

) pq

n=

pq

n− pq

N

⇔pq

n=(

d

u1−α/2

)+

pq

N

=⇒n =Npqu2

1−α/2

Nd2 + pqu21−α/2

(ii) Application numerique

d 0.005 0.003 0.001n 2967 8030 54702

(iii) n = 10000 et p = 230/10000 = 0.0230. L’intervalle de confiance est

p ∈

[p− u1−α/2

√(1− f)

pq

n− 1− 1

2n; p + u1−α/2

√(1− f)

pq

n− 1− 1

2n

]

au niveau 1− α. Pour le calcul on peut ici negliger le terme en 1/2n

p ∈

[p− u1−α/2

√(1− f)

pq

n; p + u1−α/2

√(1− f)

pq

n

]

et on obtient comme intervalle de confiance sur le nombre d’abonnes[0.020N ; 0.026N ] = [4000; 5200] a 95%.

2

5.2 Exercices avec indications

Exercice 5.2.1. 9

Intervalle de confiance du coefficient de correlation lineaire

On rappelle que le coefficient de correlation lineaire d’un couple de variable aleatoire (X, Y ) est donne par :

ρ =cov(X, Y )σ(X)σ(Y )

L’estimation ponctuelle est donnee par :

ρ =cov(x, y)

sxsy=

SPE(x, y)√SCE(x)SCE(y)

Pour avoir un intervalle de confiance de ce coefficient de correlation lineaire il faut que le couple de variable aleatoire(X, Y ) soit de loi normale de dimension 2. La distribution d’echantillonnage est toutefois complexe. cependant Fishera montre que la variable auxiliaire :

Z =12

ln(

1 + R

1−R

)obeissait a une loi tres proche de d’une loi normale de parametres :

E(Z) =12

ln(

1 + ρ

1− ρ

);V ar(Z) =

1n− 3

Aussi pour avoir un intervalle de confiance de ce coefficient de correlation lineaire il faut :9Exemple provenant du livre de Scherrer page 591 et suivantes

Page 131: Département Biosciences Végétales Module : Statistique 1

5. EXERCICES 127

(i) calculer

z = f(ρ) =12

ln(

1 + ρ

1− ρ

);

(ii) Calculer l’intervalle

[z − u1−α/2

√1

n− 3; z + u1−α/2

√1

n− 3]

(iii) Calculer a l’aide de la transformation de Fisher inverse, c’est-a dire a f−1, les limites de l’intervalle deconfiance de ρ.

Application

Dans une etude sur la dynamique des populations naturelles de la tenthrede du pin (Diprion frutetarum) deOliveira (1972) a observe la capacite de reproduction en fonction de differentes mesures du cocon et de l’insecteadulte. La capacite de reproduction a ete evaluee par le nombre y d’oocytes (œufs) matures par cocon. Parmi lesmesures prises sur le cocon figure la longueur x en millimetres de ce dernier. Les donnees relatives a ces observationssont les suivantes :

x y x y x y

8.5 60 9.5 89 9.4 738.0 27 7.8 37 8.9 689.0 72 8.8 51 7.9 297.7 41 9.5 89 8.2 288.5 66 8.8 42 8.8 478.0 46 9.0 33 8.0 469.1 57 9.4 65 9.0 559.0 99 7.8 42 8.5 479.3 85 8.6 57 8.9 858.4 48 7.8 48 8.7 729.5 86 9.1 85 8.8 678.2 47 9.7 77 8.8 609.5 93 9.0 78 8.6 538.9 45 8.5 66 8.4 608.5 55 9.0 71 9.4 329.1 79 9.2 67 8.8 698.5 61 8.8 85 9.5 988.5 77 7.8 48 9.0 588.5 77 8.7 49 8.0 438.9 43 9.0 39 8.5 648.5 56 9.3 76 8.6 707.4 25 8.5 82 9.1 3310.0 56 9.8 48 8.8 57

On donne : ∑i xi = 603.5mm

∑i yi = 4139œufs∑

i x2i = 5299.11mm2

∑i y2

i = 271681œufs2∑

i xiyi = 36576.4

(i) Donner l’intervalle de confiance a 99% du coefficient de correlation lineaire.

Indications. On trouve ρ = 0.54 et l’intervalle de confiance a 99% est [0.28; 0.73]. 2

Exercice 5.2.2. Les montants de timbres ont ete releves sur un echantillon pris au hasard de 400 paquets traitespar la poste d’une zone de distribution un jour donne. On suppose que la population des paquets est grande et quela loi de la variable aleatoire modelisant le prix est normale. On donne y = 4.70 euros et SCE = 3080

(i) Donner une estimation ponctuelle σ de l’ecart type de la variable aleatoire prix.

(ii) Pouvez-vous donner l’intervalle de confiance a 90% de cet ecart type. Pour ν > 100 on peut approximer uneloi du Khi-2 par (U+

√2ν−1)2

2 ou U suit une loi normale centree reduite.

(iii) Donner l’intervalle de confiance a 90 % de la moyenne µ de la variable aleatoire prix.

(iv) Calculer l’intervalle [y − σ√n; y + σ√

n]. Quel niveau de confiance est associe a cet intervalle ?

Page 132: Département Biosciences Végétales Module : Statistique 1

128 CHAPITRE 6. ESTIMATION

(v) Si on tirait 100 echantillons de 400 paquets independamment les uns des autres, et si on calculait pour chacund’eux l’intervalle de confiance a 90%, quelle proportion de ces 100 intervalles contenant effectivement la valeurinconnue de µ peut-on attendre ?

(vi) Sur quelle population cette experience permet-elle de conclure ?

Indications.

(i) σ2 = 7.72.

(ii)σ2 ∈ [6.9; 8.71] a 90%

(iii)µ ∈ [4.47; 4.93] a 90%

(iv) (1− α) = 0.6826

2

Exercice 5.2.3. Un economiste souhaite connaıtre la variabilite des revenus des habitants d’une ville donnee. Onsait, par des etudes anterieures, que l’on peut considerer la loi de la variable aleatoire ”revenus” est une loi lognormale. Il collecte pour son etude 100 donnees et obtient les estimations suivantes a partir de ces donnees :

– µ = 10000 ;– σ2 = 4000000.

(i) Donner un intervalle de confiance a 99% de la moyenne.

(ii) On desire, toujours avec un degre de confiance de 99%, une precision absolue pour l’intervalle de confianced = 100. Combien faut-il de donnees ?

(iii) Pouvez-vous donner un intervalle de confiance a 90% de la variance ?

(iv) Apres avoir discute avec l’economiste, on s’apercoit que ces donnees on ete obtenues en interrogeant lespersonnes dans la semaine et l’apres-midi par telephone. Quels problemes cela pose-t-il ?

Indications.

(i) µ ∈ [99484.8; 100515.2] a 99%

(ii) n ∼ 2654

(iii) Pensez aux hypotheses.

2

5.3 Exercices sans indications

Exercice 5.3.1. Geissler a observe dans 53680 familles ayant 8 enfants, 221023 garcons et 208417 filles.

(i) Donner l’intervalle de confiance a 95% de la proportion de garcons dans la population.

(ii) Commentaire.

Exercice 5.3.2. 10 On a mesure la quantite d’alcool total (mesuree en g/l) contenue dans 10 cidres doux dumarche. On suppose que la quantite d’alcool des cidres suit une loi normale de moyenne µ et d’ecart-type σ. On aobtenu les valeurs suivantes :

5.42, 5.55, 5.61, 5.93, 6.15, 6.20, 6.79, 7.07, 7.37

.

(i) Determiner l’intervalle de confiance a 95% de la moyenne :

(a) si l’on suppose que σ = 0.6g/l ;

(b) si σ est inconnu.

(ii) Determiner un intervalle de confiance de σ2 a 95%.

Exercice 5.3.3. On a pese 15 poulpes males peches au large des cotes mauritaniennes. On suppose que pour cetteespece de poulpe, le poids suit une loi normale. On a obtenu les valeurs suivantes (en grammes) :

1150, 1500, 1700, 1800, 1800, 1850, 2200, 2700, 2900, 3000, 3100, 3500, 3900, 4000, 5400

(i) Donner l’intervalle de confiance de la moyenne a 95%. Donner l’amplitude de cet intervalle.

10www.cnam.fr/math/IMG/pdf/Fiche8.pdf

Page 133: Département Biosciences Végétales Module : Statistique 1

5. EXERCICES 129

(ii) Si n designe la taille d’un echantillon, donner l’amplitude de l’intervalle de confiance en fonction de n.

(iii) On souhaite construire un intervalle de confiance de la moyenne a 95% d’une amplitude de 500g. Quelle tailled’echantillon faut-il ?

Exercice 5.3.4. Cet exercice est difficile. 11

Un commissaire aux Comptes controle un stock compose de N = 2000 references d’une valeur totale V inconnue.Les documents comptables fournissent une ”valeur totale d’inventaire” de 5447560 d’Euros. On definit les deuxvariables aleatoires suivantes :

X : S −→ R

un article 7−→ sa valeur comptable d’inventaire

Y : S −→ R

un article 7−→ sa valeur reelle

On note µX et µY les esperances mathematique des variables X et Y ; et σ2X et σ2

Y les variances des variablesX et Y .

(i) Les variables aleatoires X et Y sont-elles a priori independantes ? (On justifiera la reponse).

(ii) Le commissaire fait tirer sans remise un echantillon de n = 160 references dans le stock afin d’estimer Vet V (valeur comptable moyenne par reference). On obtient y = 2705, 64 Euros et σy = 1527, 31 Euros. On

suppose que l’on peut approximer la loi de Y par une loi normale N (µ, (1− nN )

σ2Y

n).

(a) Donner un intervalle de confiance a 99% de µY .

(b) Donner l’estimation ponctuelle de V et un intervalle de confiance a 99% de V .

(c) Conclusion.

(d) On veut une precision absolue, c’est-a-dire une demi longueur de l’intervalle de confiance, de 100 pourla moyenne µY . Donner le nombre d’articles qu’il faut prendre.

(e) Quelle est la valeur de µX ?

(iii) On pose D = Y −X, Yd = µX + D et Yd = µX + D

(a) Calculer E(Yd) en fonction de µY .

(b) On demontre que :

V ar(Yd) =(1− n

N

) V ar(Yd)n

On suppose que Yd suit une loi normale. Dans l’echantillon on a trouve : d = 10.67 Euros et σD = 41.82Euros. Donner l’intervalle de confiance a 99% de µY .

(c) Commentaires

11Exercice 7 de ”Exercices de sondages” A-M. Dussaix et J-M Grosbras

Page 134: Département Biosciences Végétales Module : Statistique 1

130 CHAPITRE 6. ESTIMATION

Page 135: Département Biosciences Végétales Module : Statistique 1

Bibliographie

[1] Gildas Brossier and Anne-Marie Dussaix. Enquetes et sondages. Methodes, modeles, applications, nouvellestechnologies. Dunod, 1999. ISBN : 2 10 004023 5.

[2] Donald E. Catlin. Estimation, Control, and the Discrete Kaman Filter. Springer, 1989.

[3] W.G. Cochran. Sampling Techniques. Wiley, New York, 1977.

[4] P. McConnel, R. Lund, and N. Rose. The 1975 outbreak of hemorrhagic desease among white tail deer in northwestern new jersey. Transaction of the Northeast Section of the Wildlife Soc. ; Hershey, Pennsylvania, 1976.

[5] Bruno Scherer. Biostatistique. Gaetan Morin, 1984.

[6] Yves Tille. Theorie des sondages, echantillonnage et estimation en population finies. Cours et exercices corriges.Dunod, 2001. ISBN : 2 10 005484 8.

[7] R. Tomassone, C. Dervin, and J.P. Masson. BIOMETRIE, Modelisation de phenomenes biologiques. Masson,1993.

131