INSA de STRASBOURG GC1 STATISTIQUE -...

79
INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam BERTRAND, Maître de Conférences de Statistique à l’Université Louis Pasteur, Strasbourg. 14 décembre 2006

Transcript of INSA de STRASBOURG GC1 STATISTIQUE -...

Page 1: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

INSA de STRASBOURGGC1

STATISTIQUE - PROBABILITÉS

Myriam BERTRAND,Maître de Conférences de Statistique

à l’Université Louis Pasteur, Strasbourg.

14 décembre 2006

Page 2: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

2

PréfaceCette partie du cours (Statistique et Probablités) a été rédigée par Monsieur Troeschsur la base du cours fait en 1998-1999 dans la section “Génie Civil première année”de l’ENSAIS. Je voudrai ici remercier Monsieur Troesch de me permettre d’utiliser cedocument cette année. Je l’ai légèrement modifié mais le contenu principal provient dela version originale rédigée par Monsieur Troesch.

Tout au long de ce cours, Monsieur Troesch a essayé de partir de définitions rigoureuseset tout ou presque a été démontré. De ce fait, ce document dépasse en certains pointsles connaissances exigées d’un étudiant de GC1.

Les deux chapitres que nous traiterons ensemble (à savoir le premier et le troisième) se-ront illustrés par une liste d’exercices dont nous ferons quelques uns en séances d’exer-cices. Les exercices des contrôles seront de difficulté analogue.

Ce polycopié est destiné à servir de document de travail, à la fois pour le cours etles exercices. Nous en exposerons une partie en cours souvent en prenant un point devue un peu moins général. Pour certaines démonstrations également, la possibilité derenvoyer à celles du polycopié permettra d’aller plus vite, tout en offrant à ceux quile désirent, les démonstrations détaillées. Ces démonstrations sont très utiles pour unebonne compréhension du sujet. Le but du cours est donc d’essayer de comprendre unmaximum de notions exposées ici.

La partie la plus facile de ce cours est le chapitre 1. La première séance est programméele 19 septembre 2006 et la dernière le 3 octobre 2006. Comme vous pouvez le constater,la statistique sera traitée rapidement, ce qui ne veut pas dire qu’elle ne figurera pas aucontrôle final !

Ensuite le chapitre 2 sera traité pendant quatre semaines par Monsieur Collinet, Maîtrede Conférences d’Algèbre à l’Université Louis Pasteur, Strasbourg.

Enfin nous nous retrouverons le mardi 14 novembre 2006 pour aborder le chapitre3, qui est à lui seul le support de la statistique, c’est-à-dire les probabilités. En cequi concerne ce chapitre, il est exigé une parfaite connaissance de la notion d’espaceprobabilisé, de probabilité conditionnelle et de variable aléatoire. Nous n’avons pasle temps d’étudier ensemble et en détail toutes les lois de probabilité figurant dansce polycopié. Mais elles seront à connaître pour le contrôle final. En ce qui concerneles exercices de probabilité, la difficulté principale est de trouver une modélisationconvenable à l’aide d’espaces de probabilité et de variables aléatoires. C’est ce quenous essayerons d’apprendre à faire en exercices.

Il ne me reste plus qu’à vous dire "bonne chance" !

MYRIAM BERTRAND

Page 3: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

Table des matières

1 Statistique descriptive 91.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.2 Caractères quantitatifs simples . . . . . . . . . . . . . . . . . . . . . 10

1.2.1 Représentations graphiques . . . . . . . . . . . . . . . . . . 111.2.1.1 Diagrammes en bâtons d’une distribution statistique

discrète . . . . . . . . . . . . . . . . . . . . . . . . 111.2.1.2 Polygone des fréquences d’une distribution statis-

tique discrète . . . . . . . . . . . . . . . . . . . . . 121.2.1.3 Histogramme d’une distribution statistique groupée 121.2.1.4 Polygone des effectifs et des fréquences d’une dis-

tribution statistique groupée . . . . . . . . . . . . . 131.2.1.5 Polygone des fréquences cumulées d’une distribu-

tion statistique groupée . . . . . . . . . . . . . . . 131.2.2 Paramètres de position ou de tendance centrale . . . . . . . . 14

1.2.2.1 Mode et classe modale . . . . . . . . . . . . . . . . 141.2.2.2 Médiane . . . . . . . . . . . . . . . . . . . . . . . 141.2.2.3 Quantiles . . . . . . . . . . . . . . . . . . . . . . . 141.2.2.4 Moyenne arithmétique . . . . . . . . . . . . . . . . 15

1.2.3 Paramètres de dispersion . . . . . . . . . . . . . . . . . . . . 161.2.3.1 Étendue . . . . . . . . . . . . . . . . . . . . . . . 161.2.3.2 Étendue interquartile . . . . . . . . . . . . . . . . 161.2.3.3 Écart absolu moyen . . . . . . . . . . . . . . . . . 161.2.3.4 Variance et écart-type . . . . . . . . . . . . . . . . 171.2.3.5 Moments . . . . . . . . . . . . . . . . . . . . . . . 17

1.2.4 Paramètres de dispersion relative . . . . . . . . . . . . . . . . 191.2.4.1 Coefficient de variation . . . . . . . . . . . . . . . 191.2.4.2 Interquartile relatif . . . . . . . . . . . . . . . . . . 19

1.2.5 Caractéristiques de forme . . . . . . . . . . . . . . . . . . . 191.2.5.1 Mesure de l’asymétrie . . . . . . . . . . . . . . . . 201.2.5.2 Mesure de l’aplatissement . . . . . . . . . . . . . . 21

1.2.6 Caractéristiques de concentration . . . . . . . . . . . . . . . 211.2.6.1 Courbe de concentration ou de Lorenz . . . . . . . 221.2.6.2 Indice de Gini . . . . . . . . . . . . . . . . . . . . 22

1.2.7 Boîte de distribution . . . . . . . . . . . . . . . . . . . . . . 221.2.7.1 Représentation d’une boîte de distribution . . . . . 221.2.7.2 Interprétation d’une boîte de distribution . . . . . . 24

1.3 Caractères quantitatifs multiples : couple de caractères . . . . . . . . 241.3.1 Distribution conjointe . . . . . . . . . . . . . . . . . . . . . 25

3

Page 4: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

4 TABLE DES MATIÈRES

1.3.2 Distributions marginales . . . . . . . . . . . . . . . . . . . . 251.3.3 Distributions conditionnelles . . . . . . . . . . . . . . . . . . 251.3.4 Indépendance et dépendance statistique . . . . . . . . . . . . 261.3.5 Covariance et coefficient de corrélation linéaire . . . . . . . . 27

1.3.5.1 Covariance du couple (X, Y ) . . . . . . . . . . . . 271.3.5.2 Coefficient de corrélation linéaire . . . . . . . . . . 28

1.3.6 Ajustement linéaire . . . . . . . . . . . . . . . . . . . . . . . 291.3.7 Autres ajustements . . . . . . . . . . . . . . . . . . . . . . . 30

1.3.7.1 Ajustement exponentiel . . . . . . . . . . . . . . . 301.3.7.2 Ajustement par une fonction puissance . . . . . . . 311.3.7.3 Ajustement polynomial . . . . . . . . . . . . . . . 31

1.3.8 Variation expliquée et inexpliquée . . . . . . . . . . . . . . . 311.3.9 Exemple traité . . . . . . . . . . . . . . . . . . . . . . . . . 321.3.10 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

2 Calcul des probabilités 372.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

2.1.1 Le langage des probabilités . . . . . . . . . . . . . . . . . . . 372.1.2 Un exemple simple . . . . . . . . . . . . . . . . . . . . . . . 382.1.3 Espaces probabilisables . . . . . . . . . . . . . . . . . . . . 392.1.4 Espaces probabilisés . . . . . . . . . . . . . . . . . . . . . . 392.1.5 Cas des espaces finis ou dénombrables : probabilités discrètes 422.1.6 Probabilités conditionnelles . . . . . . . . . . . . . . . . . . 42

2.1.6.1 Indépendance de deux événements . . . . . . . . . 432.1.6.2 Systèmes complets d’événements . . . . . . . . . . 44

2.2 Variables aléatoires réelles . . . . . . . . . . . . . . . . . . . . . . . 462.2.1 Loi de probabilité d’une variable aléatoire réelle . . . . . . . 462.2.2 Fonction de répartition d’une variable aléatoire réelle . . . . . 472.2.3 Variables aléatoires indépendantes . . . . . . . . . . . . . . . 492.2.4 Variables aléatoires discrètes . . . . . . . . . . . . . . . . . . 50

2.2.4.1 Lois de probabilité discrètes sur (R,B) . . . . . . . 502.2.4.2 Espérance mathématique, moments, variance . . . . 50

2.2.5 Principales lois de probabilité discrètes . . . . . . . . . . . . 522.2.5.1 Loi singulière . . . . . . . . . . . . . . . . . . . . 522.2.5.2 Loi discrète uniforme sur 1, 2, . . . , N . . . . . . 522.2.5.3 Loi de Bernoulli de paramètre p . . . . . . . . . . . 532.2.5.4 Loi binomiale de paramètres N et p . . . . . . . . . 542.2.5.5 Loi géométrique . . . . . . . . . . . . . . . . . . . 552.2.5.6 Loi de Pascal de paramètres p et r . . . . . . . . . 562.2.5.7 Loi binomiale négative de paramètres p et r . . . . 582.2.5.8 Loi hypergéométrique . . . . . . . . . . . . . . . . 592.2.5.9 Loi du temps d’attente du 1er succès dans le tirage

sans remise . . . . . . . . . . . . . . . . . . . . . . 622.2.5.10 Loi de Poisson de paramètre λ . . . . . . . . . . . 63

2.2.6 Variables aléatoires absolument continues . . . . . . . . . . . 642.2.6.1 Espérance mathématique . . . . . . . . . . . . . . 642.2.6.2 Variance et moments . . . . . . . . . . . . . . . . . 64

2.2.7 Quelques lois de probabilité absolument continues . . . . . . 652.2.7.1 Loi uniforme sur un intervalle . . . . . . . . . . . . 652.2.7.2 Loi exponentielle . . . . . . . . . . . . . . . . . . 66

Page 5: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

TABLE DES MATIÈRES 5

2.2.7.3 Loi de Laplace-Gauss ou loi normale . . . . . . . . 672.2.8 Convergence . . . . . . . . . . . . . . . . . . . . . . . . . . 70

2.2.8.1 Inégalité de Bienaymé-Tchébychev . . . . . . . . . 702.2.8.2 Loi faible des grands nombres . . . . . . . . . . . . 712.2.8.3 Convergence en loi . . . . . . . . . . . . . . . . . 712.2.8.4 Théorème de la limite centrale . . . . . . . . . . . 72

A 75

Page 6: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

6 TABLE DES MATIÈRES

Page 7: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

Table des figures

1.1 Diagramme en bâtons . . . . . . . . . . . . . . . . . . . . . . . . . . 111.2 Diagramme en bâtons et polygone des effectifs . . . . . . . . . . . . 111.3 Diagramme en bâtons et polygone des effectifs cumulés . . . . . . . . 121.4 Histogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.5 Histogramme et polygone des fréquences . . . . . . . . . . . . . . . 131.6 Polygone des fréquences cumulées d’une statistique groupée . . . . . 141.7 Boîte de dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . 241.8 Nuage de points . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

2.1 Fonction de répartition de l’indicatrice de A si P[A] = 0, 7 . . . . . . 472.2 Densité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 662.3 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . 662.4 Densité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 662.5 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . 662.6 Densité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 682.7 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . 68

7

Page 8: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

8 TABLE DES FIGURES

Page 9: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

Chapitre 1

Statistique descriptive

Pour ce chapitre on pourra se référer aux ouvrages suivants [2], [5] et [7].

Le mot statistique désigne à la fois un ensemble de données et l’ensemble des activi-tés consistant à collecter ces données, à les traiter et à les interpréter. Les statistiquesinterviennent donc dans pratiquement tous les domaines d’activité : gestion financière(états, banques, assurances, entreprises . . . ), démographie, contrôles de qualité, étudesde marché, sciences expérimentales . . .

Le traitement des données, pour en dégager un certain nombre de renseignements qua-litatifs ou quantitatifs à des fins de comparaison, s’appelle la statistique descriptive.C’est elle qui nous intéressera dans ce cours.

Un autre but de la statistique consiste à extrapoler à partir d’un échantillon de la po-pulation à étudier, le comportement de la population dans son ensemble (sondages,contrôle de qualité comportant un test destructif . . . ) C’est la statistique inductive ouencore appelée statistique inférentielle que l’on n’étudiera pas dans ce cours.

1.1 Généralités

Définition 1.1.1. L’ensemble sur lequel porte l’activité statistique s’appelle la popula-tion. Elle est généralement notée Ω. Ses éléments sont les individus.

Remarque 1.1.1. Ces individus peuvent être de natures très diverses : ensemble depersonnes, mois d’une année, pièces produites par une usine, résultats d’expériencesrépétées un certain nombre de fois. . .

Définition 1.1.2. Les caractéristiques étudiées sur les individus d’une population sontappelées les caractères. Un caractère est donc une application χ d’un ensemble fini Ω(la population) dans un ensemble C (l’ensemble des valeurs du caractère), qui associeà chaque individu ω de Ω la valeur χ(ω) que prend ce caractère sur l’individu ω.

Définition 1.1.3. La suite des valeurs χ(ω) prises par χ s’appelle les données brutes.C’est une suite finie (X1, X2, . . . , XN ) de l’ensemble C.

9

Page 10: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

10 CHAPITRE 1. STATISTIQUE DESCRIPTIVE

On considère plusieurs types de caractères1. Les caractères qualitatifs.

Exemples 1.1.1. profession, adresse, situation de famille, sexe . . .

2. Les caractères quantitatifs : leur détermination produit un nombre ou une suitede nombres. On distingue

(a) les caractères simples : leur mesure sur un individu produit un seul nombre.L’ensemble de leurs valeurs est donc R ou une partie de R.Exemples 1.1.2. taille, poids, salaire, température...

(b) les caractères multiples : leur mesure sur un individu produit une suite finiede nombres. L’ensemble de leurs valeurs est donc Rn ou une partie de Rn.Exemples 1.1.3. relevé de notes d’un(e) étudiant(e), fiche de salaire,...

Remarque 1.1.2. Les caractères qualitatifs peuvent toujours être transformés en carac-tères quantitatifs par codage. C’est ce qui se fait le plus généralement. Mais un tel co-dage est purement conventionnel et n’a pas vraiment un sens quantitatif. Par exemple,on ne pourra pas calculer le sexe moyen.

On étudie maintenant les caractères quantitatifs simples.

1.2 Caractères quantitatifs simplesSi X est un caractère quantitatif simple l’ensemble X(Ω) = X1, X2, . . . , XN desvaleurs atteintes par le caractère (ou données brutes) est un ensemble fini x1, . . . , xn.On supposera que ces valeurs sont ordonnées :

x1 < x2 < . . . < xn.

Le fait que telle valeur soit relative à tel individu est un renseignement qui n’intéressepas le statisticien. Seul l’ensemble des valeurs atteintes et le nombre de fois que cha-cune d’elle est atteinte est utile.

Définition 1.2.1. On appelleeffectif de la valeur xi : le nombre ni de fois que la valeur xi est prise, c’est-à-dire

le cardinal de l’ensemble X−1(xi) ;

effectif cumulé en xi : la sommei∑

j=1

nj ;

fréquence de la valeur xi : le rapport fi =ni

Nde l’effectif de xi à l’effectif total N

de la population, c’est-à-dire le cardinal de Ω ou encore la somme des ni ;

fréquence cumulée en xi : la sommei∑

j=1

fj .

Définition 1.2.2. Ces distributions statistiques sont qualifiées de discrètes.

Remarque 1.2.1. Lorsque le nombre des valeurs atteintes est important, on préfèreregrouper les valeurs en classes pour rendre la statistique plus lisible. On partage alorsl’ensemble C des valeurs du caractère en classes ]ai, ai+1] avec ai < ai+1. On parlealors de statistique groupée ou continue.

Page 11: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

1.2. CARACTÈRES QUANTITATIFS SIMPLES 11

FIG. 1.1 – Diagramme en bâtonsFIG. 1.2 – Diagramme en bâtons et po-lygone des effectifs

Définition 1.2.3. On appelle

effectif de ]ai, ai+1] : le nombre ni de valeurs prises dans ]ai, ai+1], c’est-à-direX−1(]ai, ai+1]) ;

effectif cumulé en ai : le nombre de valeurs prises dans ]−∞, ai] ;

fréquence de ]ai, ai+1] : le rapport fi =ni

N;

fréquence cumulée en ai : la sommei∑

j=1

fj .

Définition 1.2.4. La famille (xi, ni)i=1,...,n ou (xi, fi)i=1,...,n est encore appelée dis-tribution statistique discrète.

Définition 1.2.5. De même, la famille (]ai, ai+1], ni)i=1,...,n ou (]ai, ai+1], fi)i=1,...,n

est encore appelée distribution statistique groupée ou continue.

1.2.1 Représentations graphiques

1.2.1.1 Diagrammes en bâtons d’une distribution statistique discrète

Définition 1.2.6. Le diagramme en bâtons d’une distribution statistique discrète estconstitué d’une suite de segments verticaux d’abscisses xi dont la longueur est propor-tionnelle à l’effectif ou la fréquence de xi.

Exemple 1.2.1. La distribution suivante

(1, 1), (2, 3), (3, 4), (4, 2), (5, 5), (6, 6), (7, 2), (8, 3), (9, 1), (10, 1)

est représentée par le diagramme en bâtons de la figure 1.1

Page 12: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

12 CHAPITRE 1. STATISTIQUE DESCRIPTIVE

FIG. 1.3 – Diagramme en bâtons et polygone des effectifs cumulés

1.2.1.2 Polygone des fréquences d’une distribution statistique discrète

Définition 1.2.7. Le polygone des fréquences (resp. des effectifs) est obtenu à partirdu diagramme en bâtons des fréquences (resp. des effectifs) en joignant par un segmentles sommets des bâtons.

Le graphique de la figure 1.2 superpose le polygone des effectifs et le diagramme enbâtons des effectifs de l’exemple précédent.

Définition 1.2.8. En remplaçant les fréquences (resp. les effectifs) par les fréquencescumulées (resp. les effectifs cumulés) on obtient le diagramme en bâtons et le polygonedes fréquences cumulées (resp. des effectifs cumulés).

La figure 1.3 donne le diagramme en bâtons et le polygone des effectifs cumulés del’exemple précédent.

1.2.1.3 Histogramme d’une distribution statistique groupée

Définition 1.2.9. On appelle histogramme la représentation graphique d’une variablecontinue. Dans le cas où les amplitudes des classes sont égales, cet histogramme estconstitué d’un ensemble de rectangles dont la largeur est égale à a, l’amplitude dela classe, et la hauteur égale à K × nj où nj est l’effectif de la classe et K est uncoefficient arbitraire (choix d’une échelle), de sorte que l’aire totale sous l’histogrammeest égale à K × N × a où N est l’effectif total. Dans le cas de classes d’amplitudeskj × a inégales, multiples entiers de l’une d’entre elles a, on convient, pour conserverle résultat précédent, de prendre pour hauteur du rectangle de la classe numéro j le

quotientK × nj

kj.

Exemple 1.2.2. En figure 1.4 on donne l’histogramme de la distribution suivante

(]1, 3], 4), (]3, 4], 8), (]4, 5.5], 10), (]5.5, 6], 14),(]6, 8], 20), (]8, 10], 12), (]10, 11], 9), (]11, 12.5], 3).

Page 13: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

1.2. CARACTÈRES QUANTITATIFS SIMPLES 13

FIG. 1.4 – HistogrammeFIG. 1.5 – Histogramme et polygonedes fréquences

1.2.1.4 Polygone des effectifs et des fréquences d’une distribution statistiquegroupée

Définition 1.2.10. Le polygone des effectifs ou des fréquences d’une distribution estobtenu en joignant dans l’histogramme de cette distribution les milieux des côtés hori-zontaux supérieurs.

Retour à l’exemple. La figure 1.5 superpose l’histogramme des fréquences de l’exem-ple précédent et son polygone des fréquences.

1.2.1.5 Polygone des fréquences cumulées d’une distribution statistique groupée

Définition 1.2.11. Le polygone des fréquences cumulées d’une distribution statistiquegroupée est la représentation graphique de la fonction définie par

f(x) =i−1∑j=1

fj +x− ai

ai+1 − aifi

sur l’intervalle ]ai, ai+1].

Remarque 1.2.2. En particulier, remarquons que l’on a

f(ai) =i−1∑j=1

fj

et

f(ai+1) =i∑

j=1

fj .

Retour à l’exemple. Pour l’exemple précédent, on obtient le graphique de la figure1.6

Page 14: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

14 CHAPITRE 1. STATISTIQUE DESCRIPTIVE

FIG. 1.6 – Polygone des fréquences cumulées d’une statistique groupée

1.2.2 Paramètres de position ou de tendance centrale1.2.2.1 Mode et classe modale

Définition 1.2.12. Le mode ou la valeur modale d’une distribution statistique discrète(xi, fi)i=1,...,p est l’une des valeurs x1, x2, . . . , xp dont la fréquence est maximale.

Définition 1.2.13. La distribution est unimodale si elle a un seul mode, si elle en aplusieurs elle est plurimodale (bimodale, trimodale, . . . ).

Remarque 1.2.3. On détermine aisément les modes à partir des représentations gra-phiques.

Définition 1.2.14. Pour une distribution statistique groupée, on définit de manière ana-logue une classe modale comme une classe dont la fréquence est maximale.

1.2.2.2 Médiane

Définition 1.2.15. La médiane d’une distribution statistique discrète (xi, fi)i=1,...,p estla plus petite des valeurs xi pour laquelle la fréquence cumulée est supérieure ou égaleà 0,5. On la note Q0.5.

Remarque 1.2.4. On peut la déterminer aisément à partir du diagramme en bâtonsdes fréquences cumulées. En gros, la moitié de la population présente une valeur ducaractère inférieure à la médiane, l’autre moitié une valeur supérieure.

Définition 1.2.16. Pour une distribution statistique groupée, la médiane est définiecomme le nombre réel x pour lequel le polygone des fréquences cumulées atteint lavaleur 0,5.

1.2.2.3 Quantiles

Définition 1.2.17. Plus généralement, si α est un nombre réel strictement compris entre0 et 1, le quantile d’ordre α, noté Qα, est la plus petite des valeurs xi pour laquelle lafréquence cumulée est supérieure à α.

Page 15: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

1.2. CARACTÈRES QUANTITATIFS SIMPLES 15

Remarque 1.2.5. En dehors de la médiane, les quantiles les plus souvent utilisés,lorsqu’on souhaite analyser plus finement une population, sont les quartiles (α =0, 25; 0, 5; 0, 75) et les déciles (α = 0, 1; 0, 2; . . . ; 0, 9).

1.2.2.4 Moyenne arithmétique

Définition 1.2.18. La moyenne d’une distribution statistique discrète(xi, fi)i=1,...,p

est le nombre réel m défini par

m =p∑

i=1

xifi =1N

p∑i=1

xini.

où N est l’effectif total de la population.

Remarque 1.2.6. On peut aussi la calculer directement à partir des données brutes par

m =1N

N∑j=1

Xj

c’est-à-dire en calculant le rapport entre la somme de toutes les valeurs relevée (avecrépétitions éventuelles) et l’effectif total de la population.

Définition 1.2.19. Pour une statistique groupée (]ai, ai+1], fi)i=1,...,p la moyenne secalcule par

m =p∑

i=1

ai + ai+1

2fi.

Cela revient à faire une hypothèse d’homogénéité en considérant les valeurs équidistri-buées à l’intérieur d’une classe ou, au contraire, à supposer que toute la fréquence estconcentrée au centre de la classe (ce qui revient au même : on remplace la distributionà l’intérieur de la classe par son barycentre).

Remarque 1.2.7. La moyenne est le paramètre de position le plus important.

Remarque 1.2.8. La moyenne de X − a est m− a et la moyenne de λX est λm.

Remarque 1.2.9. Il existe d’autres moyennes, comme la moyenne géométrique, lamoyenne harmonique. Mais par manque de temps, on ne les exposera pas dans cecours. On renvoye par exemple à [2], chapitre 3, paragraphe 5, pour de plus amplesrenseignements à ce sujet.

Il est à noter qu’il est intéressant de comparer les deux principaux paramètres de posi-tion que sont la médiane et la moyenne arithmétique. Les deux possèdent des avantageset des inconvénients.

1. Pour la médiane, on a• Avantage :– Peu sensible aux valeurs extrêmes (paramètre robuste).• Inconvénients :– Délicate à calculer (Rappelez-vous les différentes définitions que l’on peut

rencontrer).– Ne se prête pas aux calculs algébriques.

Page 16: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

16 CHAPITRE 1. STATISTIQUE DESCRIPTIVE

2. Pour la moyenne arithmétique, on a• Avantages :– Facile à calculer.– Se prête bien aux calculs algébriques.– Répond au principe des moindres carrés.• Inconvénients :– Fortement influencée par les valeurs extrêmes.– Mauvais indicateur pour une distribution polymodale ou fortement asymé-

trique.

1.2.3 Paramètres de dispersion1.2.3.1 Étendue

Définition 1.2.20. L’étendue est la différence entre la plus grande et la plus petite desvaleurs prises, donc xmax − xmin.

1.2.3.2 Étendue interquartile

Définition 1.2.21. L’intervalle interquartile [QO.25, QO.75] contient 50% des observa-tions. Sa longueur, notée EIQ (Etendue InterQuartile) est la différence entre Q0.75 etQ0.25.

Remarque 1.2.10. C’est l’EIQ qui est un indicateur de dispersion.

1.2.3.3 Écart absolu moyen

Définition 1.2.22. L’écart absolu moyen par rapport à un paramètre de position c,d’une distribution statistique discrète (xi, fi)i=1,...,p, est la quantité notée em(c) définiecomme la moyenne arithmétique des écarts absolus au paramètre de position c.

em(c) =p∑

i=1

fi|xi − c|.

Remarque 1.2.11. L’écart absolu moyen prend en compte l’importance relative dechaque valeur ou modalité.

Remarque 1.2.12. On peut calculer cet indicateur pour chacun des paramètres de po-sition : mode, médiane et moyenne arithmétique.

em(Mo) =p∑

i=1

fi|xi −Mo|.

em(Q0.5) =p∑

i=1

fi|xi −Q0.5|.

em(m) =p∑

i=1

fi|xi −m|.

Page 17: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

1.2. CARACTÈRES QUANTITATIFS SIMPLES 17

Remarque 1.2.13. L’écart absolu moyen par rapport à un paramètre de position c peutse calculer également à partir des données brutes.

em(c) =1N

N∑j=1

|Xj − c|.

1.2.3.4 Variance et écart-type

Définition 1.2.23. La variance d’une distribution statistique discrète (xi, fi)i=1,...,p estdéfinie par

Var =p∑

i=1

(xi −m)2fi

et son écart-type parσ =

√Var.

Remarque 1.2.14. Ces deux paramètres mesurent la dispersion de la distribution parrapport à la moyenne.

1.2.3.5 Moments

Définition 1.2.24. Plus généralement on définit le moment d’ordre k d’une distributionstatistique discrète par rapport à a par

amk =p∑

i=1

(xi − a)kfi

Remarque 1.2.15. Ces paramètres mesurent la dispersion de la distribution par rapportà a.

Remarque 1.2.16. Les moments utilisés les plus couramment sont les moments ini-tiaux 0mk c’est-à-dire les moments par rapport à 0 et les moments centrés mk, c’est-à-dire les moments par rapport à la moyenne.

Exemple 1.2.3. La variance est le moment centré d’ordre 2.

Remarque 1.2.17. Les moments peuvent se calculer également à partir des donnéesbrutes :

amk =1N

N∑j=1

(ξj − a)k.

(Comme cette somme contient ni termes égaux à (xi − a)k, elle est égale à la sommedonnée plus haut pour définir le moment).

Le théorème suivant permet très souvent de simplifier le calcul de la variance.

Théorème 1.2.1 (Huygens).V ar = 0m2 −m2.

Page 18: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

18 CHAPITRE 1. STATISTIQUE DESCRIPTIVE

Démonstration :

V ar =p∑

i=1

(xi −m)2fi

=p∑

i=1

(x2i − 2xim + m2)fi

=p∑

i=1

x2i fi − 2m

p∑i=1

xifi + m2

p∑i=1

fi

= 0m2 − 2m2 + m2 = 0m2 −m2.

CQFD.

Remarque 1.2.18. On désigne souvent la variance par σ2.

Remarque 1.2.19. Pour les calculs, il peut être utile de remarquer que si σX est l’écart-

type de la distribution X , alors celui de la variableX − a

hest égal à

σX−ah

|h|.

En effet, la moyenne de X − a est égale à m − a. Par conséquent, les distributionscentrées associées à X et à X − a sont les mêmes.

Remarque 1.2.20. Par ailleurs, il est clair que si une distribution est multipliée par unnombre réel, sa variance est multipliée par le carré de ce nombre, et par conséquent sonécart-type par la valeur absolue de ce nombre.

Le théorème suivant donne un aperçu de la manière dont les éléments sont distribuésautour de la moyenne m.

Théorème 1.2.2 (Inégalité de Bienaymé-Tchébychev).∑i∈i | |xi−m|≥ε

fi ≤σ2

ε2.

Démonstration : Sur l’ensemble i | |xi −m| ≥ ε le nombre positif (xi −m)2 estminoré par ε2 ; par conséquent on a

σ2 =p∑

i=1

(xi −m)2fi ≥∑

i∈i | |xi−m|≥ε

(xi −m)2fi ≥ ε2∑

i∈i | |xi−m|≥ε

fi,

d’où l’inégalité cherchée en divisant par ε2. CQFD.

Remarque 1.2.21. En particulier si ε = 2σ, on a∑i∈i | |xi−m|≥ε

fi ≤14

ce qui montre qu’au moins les 3/4 de l’effectif global sont contenus dans l’intervalle[m−2σ,m+2σ]. Ainsi, plus l’écart-type σ est petit, plus la distribution est concentréeautour de la moyenne m.

Page 19: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

1.2. CARACTÈRES QUANTITATIFS SIMPLES 19

Remarque 1.2.22. Pour les distributions statistiques groupées, on définit les mêmesnotions en supposant que toutes les valeurs d’une classe sont concentrées au centre dela classe

V ar =p∑

i=1

(ai+1 + ai

2−m

)2

fi

amk =p∑

i=1

(ai+1 + ai

2− a

)k

fi.

En remplaçant xi parai+1 + ai

2, les théorèmes d’Huygens et de Bienaymé-Tchéby-

chev sont encore vrais pour ces distributions.

1.2.4 Paramètres de dispersion relative1.2.4.1 Coefficient de variation

Il arrive souvent que l’on souhaite comparer des séries de mesure entre elles. Malheu-reusement rares sont les cas où les unités de mesure sont les mêmes. On définit doncune nouvelle caractéristique, appelée le coefficient de variation.

Définition 1.2.25. Le coefficient de variation d’une série statistique x1, x2, . . . , xn estdéfini par le rapport de l’écart-type avec la moyenne arithmétique.

CV =σ

m.

Remarque 1.2.23. Le coefficient de variation est défini en général pour des variablespositives.

Remarque 1.2.24. Le coefficient de variation est un nombre sans dimension, invariantsi on effectue un changement d’unité de mesure.

Remarque 1.2.25. Le coefficient de variation permet donc de comparer les dispersionsde distributions qui ne sont pas exprimées dans la même unité (comme les distributionsde salaires de pays différents) ou de distributions dont les moyennes sont différentes(comme les distributions de salaires pour différentes qualifications).

1.2.4.2 Interquartile relatif

Définition 1.2.26. On appelle interquartile relatif la quantité Irel définie par

Irel =Q0.75 −Q0.25

Q0.5.

1.2.5 Caractéristiques de formeIl est important de comprendre que les paramètres usuels que sont la moyenne etl’écart-type ne suffisent pas à caractériser la forme d’une distribution. Autrement dit,deux distributions peuvent avoir la même moyenne et le même écart-type sans pour au-tant être identiques. Par ailleurs, même si l’intervalle interquartile et les écarts absolusmoyens, sans oublier le diagramme en bâtons ou l’histogramme, apportent des infor-mations quant à la forme de la distribution, il est indispensable, lors de comparaisons,de disposer d’un indice quantitatif permettant de caractériser sans ambiguité celle-ci.Dans ce sens, il existe deux types de coefficient :

Page 20: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

20 CHAPITRE 1. STATISTIQUE DESCRIPTIVE

1. le coefficient d’asymétrie (Skewness),2. le coefficient d’aplatissement (Kurtosis).

1.2.5.1 Mesure de l’asymétrie

Pour étudier l’asymétrie d’une distribution, une technique consiste à comparer les troisparamètres de position usuels :

1. le mode,2. la médiane,3. la moyenne arithmétique.

– Pour une distribution symétrique, les trois caractéristiques de position sont iden-tiques. En effet, on a

Mo = Q0.5 = m.

– Pour une distribution asymétrique à droite, on a

Mo < Q0.5 < m (étalée à droite).

– Pour une distribution asymétrique à gauche, on a

Mo > Q0.5 > m (étalée à gauche).

Afin de mesurer l’asymétrie d’une distribution, on dispose de plusieurs coefficients : lecoefficient de Yule, le coefficient de Pearson et le coefficient de Fisher.

Coefficient d’asymétrie de Yule et Kendall

Définition 1.2.27. On appelle coefficient d’asymétrie de Yule et Kendall la quantité Ydéfinie par

Y =(Q0.75 −Q0.5)− (Q0.5 −Q0.25)(Q0.75 −Q0.5) + (Q0.5 −Q0.25)

.

L’interprétation de ce coefficient est la suivante. Si Y = 0 ↔ symétrie.Si Y > 0 ↔ étalement vers la droite.Si Y < 0 ↔ étalement vers la gauche.

Coefficient d’asymétrie de Pearson

Définition 1.2.28. On appelle coefficient d’asymétrie de Pearson d’une série statistiquex1, x2, . . . , xn la quantité β1 définie par :

β1 =(mm3)2

(mm2)3.

L’interprétation de ce coefficient est la suivante.Si β1 = 0 ↔ symétrie.Si β1 > 0 ↔ étalement vers la droite ou la gauche.

Coefficient d’asymétrie de Fisher

Page 21: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

1.2. CARACTÈRES QUANTITATIFS SIMPLES 21

Définition 1.2.29. On appelle coefficient d’asymétrie de Fisher d’une série statistiquex1, x2, . . . , xn la quantité γ1 définie par

γ1 = mm3

σ3= mm3

(mm2)3/2.

L’interprétation de ce coefficient est la suivante. Si γ1 = 0 ↔ symétrie.Si γ1 > 0 ↔ étalement vers la droite.Si γ1 < 0 ↔ étalement vers la gauche.

Remarque 1.2.26.γ21 = β1.

1.2.5.2 Mesure de l’aplatissement

Pour mesurer l’aplatissement d’une distribution on compare cette dernière à la distri-bution dite Normale ou de Laplace-Gauss.

Coefficient d’aplatissement de Pearson

Définition 1.2.30. On appelle coefficient d’aplatissement de Pearson d’une série sta-tistique x1, x2, . . . , xn la quantité β2 définie par :

β2 = mm4

(mm2)2= mm4

σ4.

L’interprétation de ce coefficient est la suivante. Si β2 = 3 ↔ distribution normale.Si β2 > 3 ↔ distribution leptocurtique.Si β2 < 3 ↔ distribution platicurtique.

Coefficient d’aplatissement de Fisher

Définition 1.2.31. On appelle coefficient d’aplatissement de Fisher d’une série statis-tique x1, x2, . . . , xn la quantité γ2 définie par :

γ2 = mm4

(mm2)2− 3.

L’interprétation de ce coefficient est la suivante. Si γ2 = 0 ↔ distribution normale.Si γ2 > 0 ↔ distribution leptocurtique.Si γ2 < 0 ↔ distribution platicurtique.

1.2.6 Caractéristiques de concentrationLa notion de concentration rend compte de la répartition d’une masse totale (massesalariale par exemple) parmi les effectifs de l’échantillon ou de la population (employésd’une entreprise par exemple). Dans ce but, la variable étudiée devra satisfaire deuxconditions : être positive et susceptible d’addition.

Page 22: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

22 CHAPITRE 1. STATISTIQUE DESCRIPTIVE

1.2.6.1 Courbe de concentration ou de Lorenz

La courbe de concentration, dite courbe de Lorenz, permet de visualiser la concentra-tion.

Définition 1.2.32. On appelle courbe de concentration la courbe polygonale obtenueen joignant les points (fi, Qi)i=1,...,p.

Remarque 1.2.27. Il est facile de constater que plus la courbe de concentration s’éloi-gne de la bissectrice, et plus la concentration est forte, et inversement.

1.2.6.2 Indice de Gini

Cet indice permet de mesurer quantitativement la concentration.

Définition 1.2.33. On appelle indice de Gini le rapport IG défini par

IG =aire de concentration

aire du triangle= 2× aire de concentration.

Remarque 1.2.28. Cet indice est compris entre 0 et 1.

En utilisant la méthode des trapèzes, on obtient la proposition suivante.

Proposition 1.2.1.

IG = 1−p∑

i=1

(Qi−1 + Qi)fi.

Remarque 1.2.29. Cet indice a une valeur d’autant plus élevée que la répartition estplus inégalitaire.

1.2.7 Boîte de distributionLa boîte de distribution (« box-plot »en anglais, ou encore « boîte à moustaches »,« boîte de dispersion »en français) fournit en un seul coup d’oeil les informations sur latendance centrale, la dispersion, l’asymétrie et l’importance des valeurs extrêmes de lasérie de données que l’on a à explorer. Elle est aussi particulièrement intéressante pourla comparaison de distributions sur plusieurs de ces critères.

1.2.7.1 Représentation d’une boîte de distribution

Dans une boîte de distribution, la boîte représente l’intervalle interquartile, et à l’in-térieur, la médiane la sépare en deux parties. Les lignes qui partent du bord de la boîtes’étendent jusqu’aux valeurs les plus extrêmes qui ne sont pas considérées comme éloi-gnées. La plupart des logiciels de statistique note « valeur éloignée »les points situésà plus de 1.5 fois l’étendue interquartile par rapport aux bords de la boîte, et « valeurextrême », les points situés à plus de 3 fois l’étendue interquartile.

Anisi, la taille de la boîte représente l’étendue interquartile, la position de la médianeest un bon indicateur de la symétrie de la distribution, la taille des lignes de part etd’autre de la boîte traduit la dispersion, et les valeurs éloignées ou extrêmes sont im-médiatement repérées.

On représente une boîte de distribution de la façon suivante :

Page 23: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

1.2. CARACTÈRES QUANTITATIFS SIMPLES 23

1. On trace un rectangle de largeur fixée à priori et de longueur EIQ = Q0.75 −Q0.25.

2. Ensuite on y situe la médiane par un segment positionné à la valeur Q0.5, parrapport à Q0.75 et Q0.25. On a alors la boîte.

3. On calcule (Q0.75 + 1.5× EIQ) et on cherche la dernière observation xh endeçà de la limite (Q0.75 + 1.5× EIQ), soit

xh = max xi|xi ≤ Q0.75 + 1.5× EIQ .

4. On calcule (Q0.25 − 1.5× EIQ) et on cherche la première observation xb audelà de la limite (Q0.25 − 1.5× EIQ), soit

xb = max xi|xi ≥ Q0.25 − 1.5× EIQ .

5. On trace deux lignes allant des milieux des largeurs du rectangle aux valeurs xb

et xh.

Exemple 1.2.4. Tableau - Durée hebdomadaire du travail des salariés à tempscomplet dans l’Union européenne en 2000.

Pays Durée (heures)Allemagne 40, 1Autriche 40, 1Belgique 38, 5Danemark 39, 3Espagne 40, 6Finlande 39, 3France 38, 9Grèce 40, 9Irlande 39, 9Italie 38, 6Luxembourg 39, 8Pays-Bas 39, 0Portugal 40, 3Royaume-Uni 43, 6Suède 40, 0

Source : Tableaux de l’Économie Française, INSEE.

Statistiques descriptives :

N Moyenne Médiane EcarType15 39,927 39,900 1,242

Minimum Maximum Q1 Q338,500 43,600 39,000 40,300

Remarque 1.2.30. Ce type de diagramme permet aussi de comparer facilement plu-sieurs distributions en terme de médiane, quartiles et valeurs éloignées ou extrêmes.

Page 24: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

24 CHAPITRE 1. STATISTIQUE DESCRIPTIVE

FIG. 1.7 – Boîte de dispersion associée à l’exemple du Tableaux de l’Économie Fran-çaise, INSEE.

1.2.7.2 Interprétation d’une boîte de distribution

Une boîte de distribution rend compte de la tendance centrale, de la dispersion, desvaleurs éloignées ou extrêmes et de la forme de la distribution, même si d’autre modesde représentations peuvent apporter un complément d’information sur la forme.

Auparavant, on a mentionné l’importance du triplet (N,m, σ). La boîte de distribu-tion est un complément qui se révèle intéressant puisqu’elle permet de détecter l’asy-métrie, les valeurs extrêmes, et de repérer la médiane et l’intervalle interquartile quicontient la moitié des observations.

Dans le cas d’une asymétrie, l’écart-type qui mesure la dispersion symétriquement parrapport à la moyenne n’est pas la mesure de dispersion la mieux adaptée, et peut-êtrecomplété par l’étendue interquartile. D’autre part, si la boîte de distribution indiquedes valeurs éloignées ou extrêmes, on sait que la moyenne et l’écart-type sont particu-lièrement influencés par ces valeurs.

1.3 Caractères quantitatifs multiples : couple de carac-tères

Soit (X, Y ) une distribution statistique d’un couple de caractères sur une populationd’effectif N . Notons ((X1, Y1), (X2, Y2), . . . , (XN , YN )) les données brutes et par (x1,x2,. . . , xp), et (y1, y2,. . . , yq) les valeurs distinctes observées pour X et Y , ordonnéesdans l’ordre croissant.

Page 25: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

1.3. CARACTÈRES QUANTITATIFS MULTIPLES : COUPLE DE CARACTÈRES25

1.3.1 Distribution conjointeDéfinition 1.3.1. Pour un couple (xi, yj) on appelle

effectif du couple (xi, yj) : le nombre ni,j de couples de valeurs égaux à (xi, yj),c’est à dire le cardinal de (X, Y )−1(xi, yj).

fréquence du couple (xi, yj) : le nombre fi,j =ni,j

N.

Définition 1.3.2. Les suites

((xi, yj), ni,j)j=1,...,pj=1,...,q

et ((xi, yj), fi,j)i=1,...,pj=1,...,q

sont la distribution des effectifs et la distribution des fréquences du couple (X, Y ). Ellespeuvent être présentées dans un tableau à double entrée appelé tableau de corrélationdu couple (X, Y ), à p lignes et q colonnes, la case d’indice (i, j) contenant l’effectifou la fréquence du couple (xi, yj). On laisse vide les cases qui devraient contenir 0 desorte que les cases occupées dessinent une figure appelée nuage des points du couple.

1.3.2 Distributions marginalesDéfinition 1.3.3. On appelle effectif marginal de xi, le nombre

ni• =q∑

j=1

ni,j

et fréquence marginale de xi, le nombre

fi• =q∑

j=1

fi,j .

Définition 1.3.4. De même on appelle effectif marginal de yj , le nombre

n•j =p∑

i=1

ni,j

et fréquence marginale de yj , le nombre

f•j =p∑

i=1

fi,j .

Remarque 1.3.1. Ces distributions sont celles qu’on aurait obtenues si on avait observéséparément chacun des deux caractères.

Définition 1.3.5. Les distributions (xi, ni•)i=1,...,p et (yj , n•j)j=1,...,q (respectivement(xi, fi•)i=1,...,p et (yj , n•j)j=1,...,q) sont appelées les distributions marginales des ef-fectifs (resp. des fréquences) de X et de Y .

1.3.3 Distributions conditionnellesVoir le paragraphe suivant pour les définitions.

Page 26: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

26 CHAPITRE 1. STATISTIQUE DESCRIPTIVE

1.3.4 Indépendance et dépendance statistique

• Indépendance statistique.

De façon intuitive, les caractères X et Y sont indépendants si, pour un individudonné, la valeur de l’un n’influe pas sur la valeur de l’autre.

De manière plus précise et quantitative, on a la définition suivante :

Définition 1.3.6. Y est indépendant de X si la distribution des fréquences de Y dansla sous-population Ωi• des individus pour lesquels la valeur de X est xi ne dépend pasde i.

Définition 1.3.7. L’effectif de la sous-population Ωi• est égal à ni•

Définition 1.3.8. La fractionnij

ni•=

nij

N

N

ni•=

fij

fi•

représente la fréquence de yj dans la sous-population Ωi•.

Définition 1.3.9. La distribution(

yj ,fi,j

fi•

)i=1,...,q

est appelée la distribution condi-

tionnelle des fréquences de Y sachant que X = xi.

Remarque 1.3.2. On définit d’une manière analogue la distribution conditionnelle desfréquences de X sachant que Y = yj .

Remarque 1.3.3. Pour que Y soit indépendant de X il faut donc que la distributionconditionnelle des fréquences de Y sachant que X = xi ne dépende pas de i. Notons

Fj la valeur commune des nombresfi,j

fi•. On a ainsi

fi,j = Fjfi•,

et

f•j =p∑

i=1

fi,j = Fj

p∑i=1

fi• = Fj .

Par conséquent, Y est indépendant de X si la distribution conditionnelle de Y sachantque X = xi est égale à la distribution marginale des fréquences des yj , c’est-à-dire sil’on a pour tout i et j

fi,j = fi•f•j .

C’est ce critère que l’on retiendra comme critère d’indépendance de deux carac-tères.

Remarque 1.3.4. On peut remarquer que si Y est indépendant de X alors X est indé-pendant de Y .

• Dépendance statistique.

Si un caractère Y n’est pas indépendant d’un caractère X cela ne signifie pas qu’ilssont liés par une relation fonctionnelle, mais qu’il y a une relation statistique entreeux : lorsque X a une certaine valeur, on peut trouver un intervalle dans lequel ona de fortes chances de trouver Y . On peut alors chercher à ajuster cette dépendancestatistique, c’est-à-dire à l’approcher par une relation fonctionnelle. D’un point de vuegéométrique, l’ajustement consiste à remplacer le nuage de points par une courbe.

Page 27: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

1.3. CARACTÈRES QUANTITATIFS MULTIPLES : COUPLE DE CARACTÈRES27

1.3.5 Covariance et coefficient de corrélation linéaire

Le plus simple des ajustements est un ajustement linéaire. Les deux paramètres quel’on introduit maintenant mesurent la validité d’un tel ajustement.

1.3.5.1 Covariance du couple (X, Y )

Définition 1.3.10. La covariance du couple (X, Y ) est le nombre réel défini par

Cov(X, Y ) =∑i,j

fi,j(xi −m(X))(yj −m(Y )).

Remarque 1.3.5. Si les deux caractères X et Y sont indépendants la covariance ducouple (X, Y ) est nulle. En effet, on a alors

Cov(X, Y ) =∑i,j

fi•f•j(xi −m(X))(yj −m(Y ))

=∑

i

fi•(xi −m(X))∑

j

f•j(yj −m(Y ))

= m(X −m(X))m(Y −m(Y )) = 0

Remarque 1.3.6. Si U =X − a

het V =

Y − b

h′alors Cov(U, V ) =

Cov(X, Y )hh′

.

Ceci provient de ce que les caractères centrés deX − a

het

Y − b

h′sont identiques à

ceux deX

het

Y

h′et de ce fait tous les termes de la somme sont divisées par hh′.

Remarque 1.3.7. La covariance peut se calculer également à partir des données brutes

Cov(X, Y ) =1N

N∑k=1

(Xk −m(X))(Yk −m(Y )).

En effet, en sommant par paquets de valeurs égales à (xi, yj), on obtient

1N

N∑k=1

(Xk −m(X))(Yk −m(Y )) =1N

∑i,j

ni,j(xi −m(X))(yj −m(Y ))

=∑i,j

fi,j(xi −m(X))(yj −m(Y )).

Le théorème suivant permet de simplifier le calcul de la covariance.

Théorème 1.3.1.Cov(X, Y ) = m(XY )−m(X)m(Y )

oùm(XY ) =

∑i,j

fi,jxiyj .

Page 28: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

28 CHAPITRE 1. STATISTIQUE DESCRIPTIVE

Démonstration :

Cov(X, Y ) =∑i,j

fi,j(xi −m(X))(yj −m(Y ))

=∑i,j

fi,j(xiyj −m(Y )xi −m(X)yj + m(X)m(Y ))

=∑i,j

fi,jxiyj −m(Y )∑i,j

fi,jxi −m(X)∑i,j

fi,jyj

+m(X)m(Y )∑i,j

fi,j .

Comme∑i,j

fi,j = 1 et que

∑i,j

fi,jxi =∑

i

xi

∑j

fi,j =∑

i

xifi• = m(X)

et ∑i,j

fi,jyj =∑

j

yj

∑i

fi,j =∑

j

yjf•j = m(Y )

la relation cherchée en découle immédiatement.CQFD.

1.3.5.2 Coefficient de corrélation linéaire

Définition 1.3.11. Le coefficient de corrélation linéaire est le quotient

r(X, Y ) =Cov(X, Y )σ(X)σ(Y )

.

Théorème 1.3.2.|r(X, Y )| ≤ 1.

Démonstration : Exprimons la covariance à l’aide des données brutes :

Cov(X, Y ) =1N

N∑k=1

(Xk −m(X))(Yk −m(Y )).

Le second membre est le quotient par N du produit scalaire usuel dans RN des vecteurs(X1 −m(X), . . . , XN −m(X)) et (Y1 −m(Y ), . . . , YN −m(Y )). Cette expressionest encore un produit scalaire sur Rn. D’après l’inégalité de Cauchy-Schwarz pour ceproduit scalaire, on a donc

|Cov(X, Y )| ≤

√√√√ 1N

N∑k=1

(Xk −m(X))2

√√√√ 1N

N∑k=1

(Yk −m(Y ))2 = σ(X)σ(Y ),

et par conséquent|r(X, Y )| ≤ 1.

CQFD.

Page 29: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

1.3. CARACTÈRES QUANTITATIFS MULTIPLES : COUPLE DE CARACTÈRES29

Remarque 1.3.8. Si Y est lié à X par une relation du type

Y = aX + b

alors la valeur absolue du coefficient de corrélation linéaire est égal à 1. En effet, enutilisant les données brutes, on a Yk = aXk + b, et par conséquent

Cov(X, Y ) =1N

N∑k=1

(Xk −m(X))(Yk −m(Y ))

=1N

N∑k=1

(Xk −m(X))(aXk + b−m(Y ))

=1N

N∑k=1

(Xk −m(X))(a(Xk −m(X)))

=a

N

N∑k=1

(Xk −m(X))2

= aσ(X)2.

Comme σ(Y ) = |a|σ(X), on en déduit que

|Cov(X, Y )| = σ(X)σ(Y ),

ce qui montre que |r| = 1.

1.3.6 Ajustement linéaireOn veut ajuster la distribution de (X, Y ) à une fonction linéaire ou affine Y = aX + b.Cet ajustement s’appelle la régression linéaire de Y en X . Utilisons encore les donnéesbrutes (X1, Y1), . . . , (XN , YN ). On va déterminer a et b de manière à ce que la fonction

d(a, b) =N∑

k=1

(aXk + b− Yk)2

soit minimale (c’est pourquoi cette méthode s’appelle aussi la méthode des moindrescarrés). Le minimum de cette fonction différentiable positive est réalisé en un pointcritique, c’est-à-dire en un point où les dérivées partielles de cette fonction sont nulles.

∂d

∂a(a, b) = 2

N∑k=1

(aXk + b− Yk)Xk

= 2

(a

N∑k=1

X2k + b

N∑k=1

Xk −N∑

k=1

YkXk

)= 2N(a(σ(X)2 + m(X)2) + bm(X)− Cov(X, Y )−m(X)m(Y )).

et

∂d

∂b(a, b) = 2

N∑k=1

(aXk + b− Yk)

= 2N(am(X) + b−m(Y )).

Page 30: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

30 CHAPITRE 1. STATISTIQUE DESCRIPTIVE

On doit donc avoir

a(σ(X)2 + m(X)2) + bm(X)− Cov(X, Y )−m(X)m(Y ) = 0am(X) + b−m(Y ) = 0.

En multipliant la seconde équation par m(X) et en la retranchant de la première onobtient

aσ(X)2 − Cov(X, Y ) = 0am(X) + b−m(Y ) = 0.

On en déduit que

a =Cov(X, Y )

σ(X)2=

r(X, Y )σ(Y )σ(X)

etb = m(Y )− am(X).

Cette dernière équation montre que les coordonnées du centre de masse du nuage depoints (m(X),m(Y )) vérifient l’équation y = ax + b et par conséquent que la droitepasse par ce centre de masse.

En échangeant les rôles de X et Y on obtient la régression de X en Y . En généralles deux droites de régression sont distinctes. Puisqu’elles passent toutes deux par lecentre de masse, elles sont égales si les pentes a pour la régression de Y en X et αpour la régression de X en Y vérifient

a =1α

ce qui nous donneCov(X, Y )

σ(X)2=

σ(Y )2

Cov(X, Y ),

et par conséquentCov(X, Y )2 = σ(X)2σ(Y )2,

ou encore|r(X, Y )| = 1.

1.3.7 Autres ajustementsDans certains cas, la forme du nuage de points laisse pressentir une relation fonction-nelle autre qu’une fonction linéaire, par exemple une fonction exponentielle ou unefonction puissance.

1.3.7.1 Ajustement exponentiel

On voudrait ajuster Y à X à une fonction exponentielle

Y = λaX .

En passant au logarithme on obtient

ln(Y ) = ln(λ) + X ln(a).

Page 31: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

1.3. CARACTÈRES QUANTITATIFS MULTIPLES : COUPLE DE CARACTÈRES31

On peut donc obtenir un tel ajustement en faisant une régression linéaire sur les données

(X1, ln(Y1)), . . . , (XN , ln(YN )).

Si ln(Y ) = αX + β est la droite de régression obtenue, on en déduit les paramètres λet a par

λ = eβ

eta = eα.

1.3.7.2 Ajustement par une fonction puissance

On veut ajuster Y à X à une fonction

Y = λXa

Ici on peut encore obtenir un tel ajustement en passant au logarithme.

ln(Y ) = ln(λ) + a ln(X).

C’est donc sur les données (ln(X1), ln(Y1)), . . . , (ln(XN ), ln(YN )) qu’on va faire unerégression linéaire et en déduire les paramètres λ et a.

1.3.7.3 Ajustement polynomial

On va maintenant généraliser ce que l’on a fait pour la régression linéaire. Supposonsque l’on ait à ajuster Y à X à un polynôme

Y =s∑

i=0

aiXi,

où s représente le degré du polynôme que l’on souhaite ajuster à la série d’observations.Pour cela, on esseyera de minimiser la fonction

d(a0, a1, . . . , as) =N∑

k=1

(s∑

i=0

aiXik − Yk

)2

.

On obtient ce minimum en annulant encore les dérivées partielles de d par rapport auxai. Un exemple concret est traité dans la feuille de travaux dirigés numéro 3, exercicenuméro 1.

1.3.8 Variation expliquée et inexpliquéeToute variable admet une certaine variation, généralement mesurée en terme de va-riance, c’est-à-dire qu’elle varie d’un individu à l’autre. Le but d’un modèle de régres-sion linéaire est d’expliquer une partie de la variation de la variable expliquée Y dufait de sa dépendance à la variable explicative X . En effet, si la variable Y dépend deX , et qu’on la mesure sur les individus avec différentes valeurs de X , on observeraune variation en conséquence (si X varie, Y varie en conséquence). Il s’agit de la va-riation expliquée par le modèle. On a vu que lorsque l’on mesure Y sur des individusavec une même valeur de X , on observe encore une certaine variation (si X fixe, Y

Page 32: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

32 CHAPITRE 1. STATISTIQUE DESCRIPTIVE

varie encore). Il s’agit de la variation inexpliquée par le modèle. On a donc la situationsuivante :

Variation totale = Variation inexpliquée + Variation expliquée.

Pour mesurer la variation de la variable Y , il est d’usage de considérer les différencesentre les observations yi et la moyenne y. Pour chaque observation yi, on peut décom-poser cette différence en une somme de deux différences :

(yi − y) = (yi − yi) + (yi − y).

La seconde partie (yi − y) de l’égalité ci-dessus représente la différence expliquée parle modèle et la première partie (yi − yi) de l’égalité ci-dessus représente la différenceinexpliquée par le modèle ou le résidu du modèle.

La méthode des moindres carrés a ceci de remarquable : elle permet d’établir une dé-composition de variation en considérant la somme des carrés de ces différences. On aeffet, ∑

i

(yi − y)2 =∑

i

(yi − yi)2 +∑

i

(yi − y)2 ,

– la somme des carrés∑

i (yi − y)2 est appelée la somme des carrés totale ouvariation totale et est abregée par SCtot ;

– la somme des carrés∑

i (yi − yi)2 est appelée la somme des carrés des résidus

(ou résiduelle) ou variation inexpliquée par le modèle et est abregée par SCres ;– la somme des carrés

∑i (yi − y)2 est appelée la somme des carrés due à la

régression ou variation expliquée par le modèle et est abregée par SCreg .

Afin de mesurer le pourcentage de la variation totale qui est expliquée par le modèle,on définit un coefficient de détermination, noté R2, par

R2 =Variation expliquée

Variation totale=

SCreg

SCtot.

Remarque 1.3.9. Ce coefficient de détermination R2 prend donc ses valeurs entre 0 et1.

Plus le coefficient de détermination est proche de 1, plus les données sont alignées surla droite de régression.

1.3.9 Exemple traitéCet exemple est issu de [1].

La société de Transport Bertrand veut établir une politique d’entretien des camions desa flotte. Tous sont de même modèle et utilisés à des transports semblables. La directionde la société est d’avis qu’une liaison statistique entre le coût direct de déplacements(cents par km) et l’espace de temps écoulé depuis la dernière inspection de ce camionserait utile. On a donc recueilli un certain nombre de données sur ces deux variables.On veut utiliser la régression linéaire comme outil statistique.

Coût direct 10 18 24 22 27 13 10 24 25 8 16Nombre de mois 3 7 10 9 11 6 5 8 7 4 6

Coût direct 20 28 22 19 18 26 14 20 26 30 12Nombre de mois 9 12 8 10 9 11 6 8 10 12 5

Page 33: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

1.3. CARACTÈRES QUANTITATIFS MULTIPLES : COUPLE DE CARACTÈRES33

FIG. 1.8 – Nuage de points ou diagramme de dispersion

1. Quelle variable devrait-on identifier variable dépendante Y et laquelle devrait-onidentifier variable explicative X ?

Réponse : La variable dépendante Y est le coût direct tandis que la variableexplicative X est le nombre de mois.

2. Tracer le diagramme de dispersion de ces observations. Est ce que le nuage depoints suggère une forme de liaison particulière ?

Réponse :Lorsque l’on regarde le diagramme de dispersion, il semblerait que l’on pourraitfaire passer une droite à travers ce nuage de points.

3. Les calculs « à la main »conduisent à :

∑xi = 176;

∑yi = 432;

∑xiyi = 3 768;

∑x2

i = 1546;∑

y2i = 9348.

Calculer en utilisant les formules du cours les coefficients a et b de la droite desmoindres carrés. En déduire l’équation de la droite des moindres carrés.

Page 34: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

34 CHAPITRE 1. STATISTIQUE DESCRIPTIVE

Réponse : On calcule d’abord le coefficient a puis le coefficient b (car le calculde b dépend de la valeur de a). Mais avant de se lancer dans le calcul des coeffi-cients de la droite des moindres carrés, il serait bon de calculer le coefficient decorrélation linéaire pour s’assurer qu’effectivement il y ait une éventuelle liaisonlinéaire entre le coût direct et le nombre de mois. Calculons alors ce coefficientde corrélation linéaire :

r(x, y) =Cov(x, y)σ(x)σ(y)

=m(xy)−m(x)m(y)

σ(x)σ(y).

Or, on a d’après l’énoncé que

m(xy) =122× 3768 m(x) =

122× 176 m(y) =

122× 432

et

σ2(x) =122× 1546−

(122× 176

)2

σ2(y) =122× 9348−

(122× 432

)2

.

Donc après simplification et calculs, on obtient que

r(x, y) = 0, 90299257.

Comme r(x, y) est très proche de 1, on peut dire qu’effectivement il semble qu’ily ait une relation linéaire entre le coût direct et le nombre de mois. On peut doncmaintenant envisager de calculer les coefficients de la droite des moindres carrés.D’après les formules du cours, on a que

a =Cov(x, y)

σ2(x)=

r(x, y)σ(y)σ(x)

etb = m(y)− a×m(x).

Naturellement, pour calculer le coefficient a, il est préférable d’utiliser la pre-mière formule car si vous utilisez la seconde formule, vous allez introduire unbiais puisque vous allez prendre une valeur approchée de r(x, y). Donc aprèssimplification et calculs, on obtient que

a = 2, 260869565

etb = 1, 549407115.

L’équation de la droite des moindres carrés est :

y = 1, 549407115 + 2, 260869565x.

4. Avec l’équation de la droite des moindres carrés, quelle est l’estimation la plusplausible du coût direct de déplacement pour des camions dont la dernière ins-pection remonte à six mois ?

Réponse : L’estimation la plus plausible du coût direct de déplacement pour descamions dont la dernière inspection remonte à six mois est égale à :

1, 549407115 + 2, 260869565× 6 = 15, 11462451.

Page 35: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

1.3. CARACTÈRES QUANTITATIFS MULTIPLES : COUPLE DE CARACTÈRES35

5. D’après les résultats de cette étude, un délai supplémentaire d’un mois pour l’ins-pection d’un camion occasionnera-t-il une augmentation ou une diminution ducoût direct ? Quelle sera vraisemblablement la valeur de cette variation de coût ?

Réponse : Un délai supplémentaire d’un mois pour l’inspection d’un camion oc-casionnera une augmentation du coût direct (une augmentation car le coefficientdirecteur de la droite des moindres carrés est positif). La valeur de cette variationde coût sera vraisemblablement égale à

a = 2, 260869565

c’est-à-dire égal à une fois (car un mois) le coefficient directeur de la droite desmoindres carrés.

6. Déterminer la variation totale dans le coût direct de déplacement.

Réponse : Déterminons la variation totale dans le coût de déplacement. Pourcela, il faut calculer la quantité ∑

i

(yi − y)2

ou encore avec les notations de l’exercice∑i

(yi −m(y))2 .

Il faut remarquer que cette expression est en fait égale à la variance des y mul-tipliée par le nombre d’observations. Donc, la variation totale dans le coût dedéplacement est égale à

Variation totale = 22× σ2(y) = 9348− 122× (432)2.

D’où, en calculant, on obtient

Variation totale ' 865, 09.

7. L’équation de la droite des moindres carrés pour les données de la société est :

yi = 1, 54941 + 2, 26087 xi.

Calculer la variation qui est expliquée par la droite des moindres carrés.

Réponse : Calculons la variation expliquée par la droite des moindres carrés.Pour cela, deux façons s’offrent à nous. La première qui semble la plus naturelle,étant donné la rédaction de la question est de calculer la quantité∑

i

(yi −m(y))2 .

Cette manière risque de prendre du temps, étant donné qu’il faudrait calculer tousles yi et ensuite soustraire m(y) à chaque valeur obtenue de yi. Puis, ensuite ilfaudrait élever chaque différence au carré et enfin les sommer. Naturellement,

Page 36: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

36 CHAPITRE 1. STATISTIQUE DESCRIPTIVE

avec le tableur excel, cette procédure et rapide ainsi qu’avec une utilisation intel-ligente d’une calculatrice... La seconde méthode, est certainement moins longuemais n’est certainement pas celle qu’il fallait faire étant donné la questions po-sées par la suite. Mais c’est par souci de rapidité que nous adopterons cette der-nière. Il faut remarquer que

Variation expliquée = R2 × Variation totale.

D’où, après les calculs, on obtient

Variation expliquée ' 0, 902992572 × 865, 09 ' 705, 39,

en notant queR2 = r2.

8. Quelle est la variation résiduelle ?

Réponse : La variation résiduelle se calcule facilement. En effet, il suffit de serappeler que c’est la différence entre la variation totale et la variation expliquée.D’où, on obtient

Variation inexpliquée ' 865, 09− 705, 39 ' 159, 70.

9. Calculer le coefficient de détermination R2 et interpréter le résultat.

Réponse : Calculons le coefficient de détermination R2. D’après la définition,on a

R2 =Variation expliquée

Variation totale

' 705, 39865, 09

' 0, 82.

Le modèle proposé explique environ 82% des données observées.

1.3.10 ConclusionOn a traité uniquement dans ce paragraphe le cas où X et Y sont deux variables quan-titatives. Bien sûr, on peut envisager le cas où une variable quantitative est croisée avecune variable qualitative. On peut également traiter le cas où X et Y sont deux variablesqualitatives. Les définitions peuvent se généraliser sans aucun problème. On ne présen-tera pas dans ce cours ces notions par manque de temps. On renvoie par exemple à [4],chapitre 3, paragraphes 3 et 4, pour de plus amples renseignements à ce sujet.

Page 37: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

Chapitre 2

Calcul des probabilités

Pour ce chapitre on pourra se référer aux ouvrages suivants [2], [6], [7], [5]. Le cal-cul des probabilités constitue la science de ce qui est aléatoire, incertain. Il est né del’étude des jeux de hasard, mais intervient actuellement dans la plupart des branchesde l’activité scientifique (physique statistique, mécanique quantique, génétique,. . . ) etsert de fondement aux théories statistiques. Son objet est de quantifier la chance qu’aun événement aléatoire de se produire.

2.1 Définitions

2.1.1 Le langage des probabilités

Lorsqu’on lance un dé cubique, on peut s’intéresser à différents résultats possibles parexemple :

– la marque de la face supérieure– la parité de cette marque.

Dans un jeu de fléchettes, on peut– relever les coordonnées du point d’impact dans un certain système de coordon-

nées définies à l’avance,– mesurer la distance du point d’impact au centre de la cible,– noter le nombre de points obtenus.

C’est l’expérimentateur qui, dans chacun des cas, décide quelle est l’expérience aléa-toire à laquelle il va s’intéresser.À une expérience aléatoire on associe l’ensemble Ω de tous les résultats possibles ouépreuves. Cet ensemble est appelé ensemble fondamental.Dans les exemples mentionnés plus haut, l’ensemble fondamental est

– 1, 2, 3, 4, 5, 6 lorsqu’on s’intéresse à la marque de la face supérieure du dé ;– pair, impair lorsque seul la parité de cette marque nous intéresse ;– R2 lorsque, dans le jeu de fléchettes, on s’intéresse aux coordonnées du point

d’impact ;– R+ dans le cas où dans ce même jeu on mesure la distance du point d’impact au

centre de la cible ;– 0, 20, 50, 100 dans le cas où c’est le nombre de points obtenus qu’on note.

Dans ces exemples nous voyons que l’ensemble fondamental n’est pas toujours unensemble fini.

37

Page 38: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

38 CHAPITRE 2. CALCUL DES PROBABILITÉS

Un événement est un fait attaché à une expérience aléatoire et susceptible ou non dese produire au cours d’une épreuve. En général, on identifie un événement au sous-ensemble des épreuves de Ω dans lesquelles cet événement est réalisé.

Exemples 2.1.1. 1. Dans le cas du lancer de dé, lorsqu’on prend comme ensemblefondamental 1, 2, 3, 4, 5, 6, l’événement « le résultat est pair » correspond ausous-ensemble 2, 4, 6 de Ω.

2. Lorsqu’on lance deux dés et qu’on s’intéresse aux marques des faces supérieuresdes deux dés, on peut prendre comme ensemble fondamental Ω = 1, 2, 3, 4, 5, 6×1, 2, 3, 4, 5, 6. L’événement « la somme des points est supérieure à 10 » estalors le sous-ensemble

(4, 6), (5, 5), (6, 4), (5, 6), (6, 5), (6, 6)

L’événement Ω est appelé l’événement certain et l’événement ∅, l’événement impos-sible. Lorsque ω ∈ Ω, l’événement A = ω est appelé événement élémentaire. Si Aet B sont deux événements, la conjonction de A et B est l’événement qui se réaliselorsque A et B se réalisent à la fois. Cet événement correspond donc à A ∩ B. Laréunion de A et B est l’événement qui se réalise si l’un au moins des deux événementsA ou B se réalise. Cet événement correspond donc à A ∪ B. On dit que A et B sontincompatibles si aucune épreuve ne réalise à la fois A et B, c’est-à-dire si A ∩B = ∅.L’événement contraire de A est l’événement A qui est réalisé chaque fois que A n’estpas réalisé. Du point de vue ensembliste, c’est le complémentaire de A dans Ω. On ditque l’événement A entraîne l’événement B si B est réalisé chaque fois que A l’est. Dupoint de vue ensembliste cela signifie que A ⊂ B.

2.1.2 Un exemple simple

Revenons au jeu de dé. On prend comme ensemble fondamental Ω = 1, 2, 3, 4, 5, 6.Si le dé est bien équilibré, chaque nombre de 1 à 6 a la même chance de sortir. Posons

P[1] = P[2] = P[3] = P[4] = P[5] = P[6] =16.

On peut alors prolonger P à tous les sous-ensembles de Ω, en posant

P[A] =∑ω∈A

P[ω]

etP[∅] = 0.

L’application P : P(Ω) → R ainsi définie vérifie

1. pour tout A ∈ P(Ω), 0 6 P[A] 6 1 ;

2. P[Ω] = 1 ;

3. Si A et B sont deux événements incompatibles, P[A ∪B] = P[A] + P[B] ;

L’application P ainsi définie est appelée une mesure de probabilité ou plus simplementprobabilité sur Ω.

Page 39: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

2.1. DÉFINITIONS 39

2.1.3 Espaces probabilisablesDans le cas où l’ensemble Ω est infini, il n’est en général pas possible de prolongerainsi une probabilité définie sur les événements élémentaires à tous les sous-ensemblesde Ω. Il faudra dans ce cas restreindre la classe des événements.

Définition 2.1.1. Soit Ω un ensemble. On appelle tribu ou σ-algèbre sur Ω un sous-ensemble A de P(Ω) ayant les propriétés suivantes

1. ∅ ∈ A ;

2. Ω ∈ A ;

3. si A est dans A alors son complémentaire A est dans A ;

4. si (An)n∈N est une suite d’éléments de A, alors⋃

n∈N An est aussi dans A (sta-bilité par union dénombrable).

Exemples 2.1.2. Pour tout ensemble fondamental Ω, P(Ω) et ∅,Ω sont des tribussur Ω.

Remarque 2.1.1. On vérifie sans peine qu’une intersection de tribus est encore unetribu. Si B est un ensemble de parties de Ω, alors l’ensemble des tribus qui contient Bn’est pas vide : il contient au moins P(Ω). L’intersection de toutes ces tribus est la pluspetite tribu contenant B. On l’appelle la tribu engendrée par B.

Définition 2.1.2. Un espace probabilisable est la donnée d’un couple (Ω,A) forméd’un espace fondamental Ω et d’une tribu A sur Ω. Les éléments de A sont les événe-ments de l’espace probabilisable.

Remarque 2.1.2. La tribu A ne contient pas toujours les événements élémentaires.

2.1.4 Espaces probabilisésDéfinition 2.1.3. Soit (Ω,A) un espace probabilisable. On appelle mesure de proba-bilité sur (Ω,A) une application P de A dans R qui associe à tout événement A unnombre réel P[A] appelé probabilité de A, et satisfaisant aux axiomes (Kolmogorov)

1. 0 6 P[A] 6 1 pour tout A ∈ A ;

2. P[Ω] = 1 ;

3. si (An)n∈N est une suite d’événements de A deux à deux incompatibles (Ai ∩Aj = ∅ pour i 6= j), alors

P

[⋃i∈N

Ai

]=∑i∈N

P[Ai]

(σ-additivité).

Définition 2.1.4. Un espace probabilisé est un triplet (Ω,A, P), formé d’un espacefondamental Ω, d’une tribu A sur Ω et d’une mesure de probabilité P sur (Ω,A).

Terminaison 2.1.1. Un événement A tel que P[A] = 1 est appelé un événementpresque sûr et un événement A tel que P[A] = 0 est appelé un événement presqu’im-possible.

Théorème 2.1.1. 1. P[∅] = 0 ;

Page 40: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

40 CHAPITRE 2. CALCUL DES PROBABILITÉS

2. si A1, . . . , An est une suite finie d’événements deux à deux incompatibles,

P[A1 ∪A2 ∪ . . . ∪An] = P[A1] + P[A1] + . . . + P[An];

3. P[A] = 1− P[A] ;

4. si A entraîne B alors P[A] 6 P[B] ;

5.

P

[n⋃

i=1

Ai

]=

n∑i=1

(−1)i+1∑

16j1<j2<...<ji6n

P [Aj1 ∩Aj2 ∩ . . . ∩Aji ]

(formule de Poincaré).

Démonstration :

1. Par σ-additivité, en prenant Ai = ∅, on a

P[∅] =∑i∈N

P[∅]

ce qui ne peut être réalisé que si P[∅] = 0.

2. On prend Ai = ∅ pour i > n.

3. On prend A1 = A et A2 = A. On a alors

P[Ω] = 1 = P[A] + P[A].

4. Si A ⊂ B, écrivons B = A ∪ (B ∩A). On a alors

P[B] = P[A] + P[B ∩A] ≥ P[A].

5. Démontrons la formule de Poincaré par récurrence sur n. C’est clair qu’elle estvérifiée pour n = 1. Pour n = 2, nous pouvons écrire A1 et A2 comme unionsdisjointes

A1 = (A1 ∩A2) ∪ (A1 ∩A2), A2 = (A1 ∩A2) ∪ (A1 ∩A2).

De même on peut écrire A1 ∪A2 comme union disjointe

A1 ∪A2 = (A1 ∩A2) ∪ (A1 ∩A2) ∪ (A1 ∩A2).

Par conséquent nous avons

P[A1] + P[A2] = P[A1 ∩A2] + P[A1 ∩A2] + 2P[A1 ∩A2]= P[A1 ∪A2] + P[A1 ∩A2].

Page 41: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

2.1. DÉFINITIONS 41

La formule est donc vraie pour n = 2. Supposons la vraie pour n−1 et calculons

P

[n⋃

i=1

Ai

]= P

[(n−1⋃i=1

Ai

)∪An

]

= P

[n−1⋃i=1

Ai

]+ P[An]− P

[(n−1⋃i=1

Ai

)∩An

]

=n−1∑i=1

(−1)i+1∑

16j1<...<ji6n−1

P[Aj1 ∩ . . . ∩Aji] + P[An]

−P

[n−1⋃i=1

(Ai ∩An)

]

=n−1∑i=1

(−1)i+1∑

16j1<...<ji6n−1

P[Aj1 ∩ . . . ∩Aji ] + P[An]

−n−1∑i=1

(−1)i+1∑

16j1<...<ji6n−1

P[Aj1 ∩ . . . ∩Aji∩An].

On remarque que, pour 1 6 i 6 n, cette somme contient tous les termes de laforme P[Aj1 ∩ . . . ∩ Aji

] avec 1 6 j1 < . . . < ji 6 n et que le signe d’un telterme est (−1)i+1. Cette somme vaut donc

P

[n⋃

i=1

Ai

]=

n∑i=1

(−1)i+1∑

16j1<...<ji6n

P[Aj1 ∩ . . . ∩Aji].

La formule de Poincaré est donc démontrée à l’ordre n.CQFD.

Remarques 2.1.1. 1. Si (An)n∈N est une suite croissante d’événements (An ⊂An+1), alors

limN→+∞

P[AN ] = P

[⋃n∈N

An

].

Démonstration : Il suffit de poser

B0 = A0 et Bn = An ∩An−1 pour n > 0.

Alors les Bn sont disjoints et

N⋃n=1

An = AN =N⋃

n=1

Bn.

On a alors

P

[+∞⋃n=0

An

]= P

[+∞⋃n=0

Bn

]=

+∞∑n=0

P[Bn]

= limN→+∞

(N∑

n=0

P[Bn]

)= lim

N→+∞P[AN ].

Page 42: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

42 CHAPITRE 2. CALCUL DES PROBABILITÉS

2. Si (An)n∈N est une suite décroissante d’événements (An ⊃ An+1) alors

limn→+∞

P[An] = P

[+∞⋂n=0

An

].

Démonstration : Il suffit de poser Bn = An. Alors Bn est une suite croissanteet P[Bn] = 1− P[An]. De plus, on a

limn→+∞

P[An] = limn→+∞

(1− P[Bn]) = 1− limn→+∞

P[Bn]

= 1− P

[+∞⋃n=0

Bn

]= 1− P

[+∞⋃n=0

An

]

= 1− P

+∞⋂n=0

An

= P[

[+∞⋂n=0

An

].

2.1.5 Cas des espaces finis ou dénombrables : probabilités discrètesDans ces cas on prend généralement A = P(Ω) et on se donne pour chaque événementélémentaire ω un nombre P[ω] de façon à ce que∑

ω∈Ω

P[ω] = 1.

Pour Ω dénombrable cela implique en particulier que la série de terme général P[ωi]soit convergente et de somme 1. Comme elle est à termes positifs, elle est commutati-vement convergente. On a alors

P[A] =∑ω∈A

P[ω].

On peut vérifier que c’est une mesure de probabilité. La σ-additivité découle du faitqu’une série convergente à termes positifs peut être sommée par paquets.

Exemples 2.1.3. 1. Ω = ω1, . . . , ωn et P[ωi] = 1n . On dit dans ce cas que les

événements élémentaires sont équiprobables. On a

P[A] =card(A)

n.

2. Ω = N et P[i] = λi

i! e−λ. C’est la mesure de probabilité de Poisson.

2.1.6 Probabilités conditionnellesExemple 2.1.1. Un groupe de 54 personnes comprend 21 femmes et 33 hommes. 3femmes et 16 hommes sont fumeurs.

1. On prend une personne au hasard. Quelle est le probabilité qu’elle soit fumeur ?

2. On refait une nouvelle sélection et on constate que la personne choisie est unefemme. Quelle est la probabilité qu’elle soit fumeur ?

Page 43: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

2.1. DÉFINITIONS 43

Dans le premier cas on fait un tirage équiprobable dans une ensemble de 54 éléments.L’événement “être fumeur” a pour probabilité 19

54 car cet événement a 19 éléments.Donc la probabilité que la personne choisie soit fumeur est 19

54 .Dans le second cas nous disposons d’une information supplémentaire : la personnechoisie est une femme. C’est donc comme si nous avions fait le choix uniquement dansle sous-ensemble des femmes. La probabilité est donc dans ce cas 3

21 . Le fait de savoirqu’on a choisi une femme a donc modifié la pondération des événements. Notons Fl’événement « la personne choisie est une femme » et P[•|F ] la nouvelle mesure deprobabilité. On a

P[ω|F ] =

0 si ω /∈ F121 si ω ∈ F .

En fait on a

P[ω|F ] =P[ω]P[F ]

.

Plus généralement, on vérifie sans peine que

P[A|F ] =P[A]P[F ]

.

Définition 2.1.5. Si (Ω,A, P) est un espace probabilisé et A un événement de A telque P[A] 6= 0, on appelle mesure de probabilité conditionnelle sur A sachant que A estréalisé, la mesure de probabilité P[•|A] définie par

P[B|A] =P[B ∩A]

P[A].

Remarque 2.1.3. On vérifie sans peine que B 7→ P[B|A] est une mesure de probabilitésur A.

2.1.6.1 Indépendance de deux événements

Définition 2.1.6 (provisoire). Soient A et B deux événements. Si les probabilités P[B]et P[B] sont non nulles, on dit que A est indépendant de B si le fait de savoir que Best réalisé n’a aucune incidence sur la réalisation de A, autrement dit, si

P[A|B] = P[A|B].

Remarques 2.1.2. 1. D’après la définition donnée, si A est indépendant de B, alorsA est indépendant de B.

2. La condition « A est indépendant de B » est équivalente à

P[A ∩B]P[B]

=P[A ∩B]

P[B]=

P[A ∩B](1− P[B])

et par conséquent à

(1− P[B])P[A ∩B] = P[B]P[A ∩B]

et enfin àP[A ∩B] = P[B](P[A ∩B] + P[A ∩B])

Page 44: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

44 CHAPITRE 2. CALCUL DES PROBABILITÉS

c’est-à-dire àP[A ∩B] = P[A]P[B].

Cette dernière condition est automatiquement réalisée lorsque l’un des événe-ments A ou B est de probabilité nulle. Par ailleurs, étant symétrique, si « A estindépendant de B » alors « B est indépendant de A ». On a alors aussi

P[A|B] = P[A|B] = P[A] et P[B|A] = P[B|A] = P[B].

À la définition précédente on préfère souvent la définition suivante, valable aussi lorsqueles probabilités des événements sont nulles.

Définition 2.1.7. Deux événements A et B sont indépendants si

P[A ∩B] = P[A]× P[B].

2.1.6.2 Systèmes complets d’événements

Définition 2.1.8. Une suite finie ou dénombrable d’événements (An)n∈I est un sys-tème complet d’événements si

1. les An sont deux à deux incompatibles ;

2. P

[⋃n∈I

An

]=∑n∈I

P[An] = 1

(un des événements An se réalise presque sûrement).

Théorème 2.1.2 (Formule de Bayes). Si (An)n∈I est un système complet d’événe-ments alors, pour tout événement B

P[B] =∑n∈I

P[B|An]P[An].

Cette dernière égalité est connue sous le nom de formule des probabilités totales.Si de plus P[B] > 0, on a la formule de Bayes

P[Ak|B] =P[B|Ak]P[Ak]∑

n∈I P[B|An]P[An].

Démonstration : Soit Ω′ =⋃n∈I

An. Alors

B ∩ Ω′ =⋃n∈I

(B ∩An)

etP[B ∩ Ω′] 6 P[Ω′] = 0.

Il en résulte que

P[B] = P[B ∩ Ω′] + P[B ∩ Ω′]= P[B ∩ Ω′]

= P

[⋃n∈I

(B ∩An)

]=

∑n∈I

P[∩An]

=∑n∈I

P[B|An]P[An].

Page 45: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

2.1. DÉFINITIONS 45

De plus si P[B] > 0,

P[Ak|B] =P[Ak ∩B]

P[B]=

P[B|Ak]P[Ak]∑n∈I

P[B|An]P[An]·

Exemple 2.1.2. Dans cet exemple on examine le dépistage de maladies rares. On tireau hasard une personne d’une population dont une proportion de 10−4 sont atteintesd’une maladie qu’on veut dépister. On lui fait passer un test de dépistage. Sachant quele test est positif, quelle est la probabilité que cette personne soit atteinte de la maladie ?(Des études antérieures ont montré que la probabilité de test positif pour une personneatteinte de la maladie est 0,99 et la probabilité de test positif pour une personne saineest de 0,001).On pose M =« la personne est atteinte de la maladie » et P1 =« le test de détection estpositif ». En prenant (M,M) comme système complet d’événements, et en appliquantla formule de Bayes, on obtient

P[M |P1] =P[P1|M ]P[M ]

P[P1|M ]P[M ] + P[P1|M

]P[M]

=0, 99× 10−4

0, 99× 10−4 + 0, 001× 0, 9999' 0, 09.

La faible probabilité trouvée s’explique par le fait que la proportion de personnes at-teintes de la maladie est faible, ce qui fait que le terme 0, 001 × 0, 9999 est grand parrapport numérateur. Pour augmenter la fiabilité du test, il faut diminuer la probabilitéde test positif pour une personne saine.Si le test avait été négatif, la probabilité que la personne soit atteinte de la maladieserait

P[M |P1

]=

P[P1|M

]P[M ]

P[P1|M

]P[M ] + P

[P1|M

]P[M] =

0, 01× 10−4

0, 01× 10−4 + 0, 999× 0, 9999

' 10−6.

Que peut-on dire si, après avoir refait un nouveau test à cette personne, celui-ci estencore positif ? (On suppose les deux tests indépendants)Notons P2 l’événement « les deux tests sont positifs ». Nous avons alors

P[M |P2] =P[P2|M ]P[M ]

P[P2|M ]P[M ] + P[P2|M

]P[M]

=0, 992 × 10−4

0, 992 × 10−4 + 0, 0012 × 0, 9999' 0, 99.

Après un deuxième test positif la probabilité que la personne soit atteinte de la mala-die est donc de 0,99. Ainsi, refaire un test de contrôle augmente considérablement lafiabilité du test.

Page 46: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

46 CHAPITRE 2. CALCUL DES PROBABILITÉS

2.2 Variables aléatoires réelles

Sur R on considère généralement la tribu engendrée par les intervalles ouverts : onl’appelle la tribu de Borel ou tribu borélienne. Nous la noterons B.

Définition 2.2.1. Soit (Ω,A, P) un espace probabilisé. Une application

X : Ω → R

est une variable aléatoire réelle, si pour tout A ∈ B, l’ensemble

X−1(A) = ω ∈ Ω|X(ω) ∈ A

est dans A.

Notation 2.2.1. On note généralement

X ∈ A

l’ensemble X−1(A). De même nous noterons X 6 a l’événement X−1(]−∞, a])et plus généralement pour une relation R quelconque, on notera X R a l’événementX−1(x ∈ R |xR a). Par ailleurs, pour les conjonctions on utilisera une notationanalogue en séparant les conditions par des virgules. Par exemple X ∈ A∩X ∈ Bsera noté X ∈ A,X ∈ B.

Exemple 2.2.1. Si A est un événement de A, l’application X : Ω → R définie par

X(ω) =

1 si ω ∈ A0 si ω 6= A

est une variable aléatoire réelle, appelée la fonction indicatrice de l’événement A et onla note 1A. En effet, pour tout B ∈ B

X ∈ B =

∅ si 0, 1 ∩B = ∅A si 0, 1 ∩B = 1A si 0, 1 ∩B = 0Ω si 0, 1 ∩B = 0, 1.

2.2.1 Loi de probabilité d’une variable aléatoire réelle

Théorème 2.2.1. Soit (Ω,A, P) un espace probabilisé et X : Ω → R une variablealéatoire sur cet espace. Il existe sur l’espace probabilisable (R,B) une mesure deprobabilité PX définie par

PX(B) = P[X ∈ B]

pour tout B ∈ B. On l’appelle la loi de probabilité de X .

Démonstration : Il suffit de montrer que PX est une mesure de probabilité sur (R,B).

1. PX(B) = P[X ∈ B] ∈ [0, 1].

2. PX(R) = P[X ∈ R] = P[Ω] = 1.

Page 47: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

2.2. VARIABLES ALÉATOIRES RÉELLES 47

3. Si (Bn)n∈N est une suite d’événements de B, deux à deux incompatibles, alorsles événements X ∈ Bn sont deux à deux incompatibles dans A (si ω ∈ X ∈Bi ∩ X ∈ Bj alors X(ω) ∈ Bi ∩Bj). On a alors

PX

[⋃n∈N

Bn

]= P

[X ∈

⋃n∈N

Bn

]= P

[⋃n∈N

X ∈ Bn

]=

∑n∈N

P [X ∈ Bn] =∑n∈N

PX [Bn] .

Exemple 2.2.2. Cherchons la loi de probabilité de l’indicatrice 1A d’un événement A.

P1A[B] = P[1A ∈ B] =

0 si 0, 1 ∩B = ∅

P[A] si 0, 1 ∩B = 11− P[A] si 0, 1 ∩B = 0

1 si 0, 1 ∩B = 0, 1.

2.2.2 Fonction de répartition d’une variable aléatoire réelleDéfinition 2.2.2. On appelle fonction de répartition d’une variable aléatoire réelle Xsur un espace probabilisé (Ω,A, P), l’application F de R dans R définie par

F (x) = PX(]−∞, x]) = P[X 6 x]

Exemple 2.2.3. La fonction de répartition de l’indicatrice 1A d’un événement A estl’application définie par

F (x) =

0 si x < 01− P[A] si 0 6 x < 1

1 si x ≥ 1

FIG. 2.1 – Fonction de répartition de l’indicatrice de A si P[A] = 0, 7

Théorème 2.2.2. 1. 0 6 F (x) 6 1 ;

Page 48: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

48 CHAPITRE 2. CALCUL DES PROBABILITÉS

2. F est une fonction croissante ;

3. limx→−∞

F (x) = 0 et limx→+∞

F (x) = 1 ;

4. F est continue à droite en chaque point.

Démonstration : Les points 1. et 2. découlent directement des propriétés d’une loi deprobabilité.

3. Comme la fonction de répartition est croissante, il suffit de montrer la propriétépour les valeurs entières de x. Calculons

limn→+∞

F (n) = limn→+∞

PX []−∞, n]]

= PX

[⋃n∈N

]−∞, n]

]= PX [R]= 1

et

limn→−∞

F (n) = limn→−∞

PX []−∞, n]]

= PX

[⋂n∈N

]−∞, n]

]= PX [∅]= 0.

4. Si xn tend vers x en décroissant, alors

F (x) = PX []−∞, x]]

= PX

[⋂n∈N

]−∞, xn]

]= lim

n→+∞PX []−∞, xn]]

= limn→+∞

F (xn)

ce qui montre que F est continue à droite de x.CQFD.

Remarques 2.2.1. 1. La fonction de répartition F n’est pas continue à gauche engénéral, car si xn est une suite strictement croissante tendant vers x,⋃

n∈N]−∞, xn] =]−∞, x[.

Si PX [x] 6= 0 la probabilité de cet événement différent de celle de ]−∞, x].

Page 49: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

2.2. VARIABLES ALÉATOIRES RÉELLES 49

2. Si x est un point de discontinuité de F , et si (xn)n∈N est une suite croissantetendant vers x, alors

PX [x] = PX

[⋂n∈N

]xn, x]

]= lim

n→+∞PX []xn, x]]

= limn→+∞

(F (x)− F (xn))

= F (x)− F (x−),

où on a noté F (x−) la limite à gauche de F en x. Dans ce cas le singleton xporte une probabilité égale au saut de la fonction F au point de discontinuité x.

3. Le nombre de discontinuités de F est au plus dénombrable. En effet, soit

An =

x ∈ R|PX [x] >1n

;

alors, An a au plus n éléments(

1 > PX [An] >Card(An)

n

). Donc l’ensemble

des x portant une probabilité non nulle est une union dénombrable d’ensemblesfinis, et est donc au plus dénombrable.

2.2.3 Variables aléatoires indépendantes

Définition 2.2.3. Deux variables aléatoires réelles X et Y sont indépendantes si pourtout A ∈ B et tout B ∈ B les événements X ∈ A et Y ∈ B sont indépendants,autrement dit, si

P [X ∈ A, Y ∈ B] = P [X ∈ A]× P [Y ∈ B] .

Théorème 2.2.3. Deux variables X et Y sont indépendantes si et seulement si pourtout x, y ∈ R

P [X 6 x, Y 6 y] = FX(x)FY (y).

Démonstration : Dans le sens direct le théorème est évident. On admettra la réci-proque.

Plus généralement,

Définition 2.2.4. Les variables aléatoires X1, . . . , Xn sont indépendantes si pour toutA1, . . . , An,

P [X1 ∈ A1, . . . , Xn ∈ An] = P [X1 ∈ A1]× . . .× P [Xn ∈ An] .

Remarque 2.2.1. Les événements A1, . . . , An sont indépendants si et seulement si lesvariables aléatoires 1A1 , . . . ,1An sont indépendantes.

Page 50: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

50 CHAPITRE 2. CALCUL DES PROBABILITÉS

2.2.4 Variables aléatoires discrètes2.2.4.1 Lois de probabilité discrètes sur (R,B)

Soit x un nombre réel. L’application

εx : B → R

A 7→

1 si x ∈ A0 si x /∈ A

est une loi de probabilité sur (R,B), qui est entièrement portée par le singleton x.On l’appelle la loi singulière en x.Soit (xn)n∈I une suite finie ou dénombrable d’éléments de R et (αn)n∈I une suitefinie ou dénombrable de nombres réels strictement positifs, tels que∑

n∈I

αn = 1.

Alors l’application de B dans R définie par

P =∑n∈I

αnεxn

est une mesure de probabilité sur (R,B) appelée loi de probabilité discrète de massesαn portées par les points xn. On a

P [B] =∑n∈I

αnεxn(B) =∑

xn∈B

αn.

La probabilité de B est donc la somme des probabilités des points xn contenus dansB.Ainsi, pour une telle loi, la mesure de probabilité est entièrement concentrée en desmasses ponctuelles et sa fonction de répartition est une fonction étagée.

Définition 2.2.5. Une variable aléatoire réelle est discrète si sa loi de probabilité estdiscrète.

2.2.4.2 Espérance mathématique, moments, variance

Définition 2.2.6. L’espérance mathématique d’une variable aléatoire discrète X de loiPX =

∑n∈I αnεxn

(I = 0, 1, . . . , N ou I = N) est le nombre réel

E[X] =∑n∈I

xnPX [xn] =∑n∈I

xnαn.

Remarques 2.2.2. 1. Si I est fini, l’espérance mathématique existe toujours.

2. Si I est dénombrable, nous dirons que l’espérance mathématique existe si lasérie de terme général xnαn est absolument convergente. Nous dirons alors quela variable aléatoire a une espérance mathématique.

3. L’espérance mathématique est une forme linéaire sur l’espace vectoriel des va-riables aléatoires sur (Ω,A, P) ayant une espérance mathématique.

4. Si X est constante et égale à α, alors E [X] = α.

Page 51: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

2.2. VARIABLES ALÉATOIRES RÉELLES 51

5. Si X > Y alors E [X] > E [Y ].

6. Si Ω est fini ou dénombrable,

E [X] =∑ω∈Ω

X(ω)P [ω] .

7. Si X = Y presque sûrement (c’est-à-dire si l’événement A = X = Y =ω ∈ Ω |X(ω) = Y (ω) est de probabilité 1) alors E [X] = E [Y ].

Définition 2.2.7. Si X est une variable aléatoire discrète, le moment d’ordre k de Xcentré en a est le nombre réel (s’il existe)

E[|X − a|k

].

Si a = 0 on l’appelle le moment d’ordre k de X . Si a = E [X] on l’appelle le momentcentré d’ordre k de X .

Définition 2.2.8. Si X est une variable aléatoire discrète, on appelle variance de X eton la note VarX , le moment centré d’ordre 2 de X .

Théorème 2.2.4 (Théorème de Huygens).

Var[X] = E[|X − E [X]|2

]= E

[|X|2

]− E [X]2 .

Démonstration : En développant |X − E [X]|2 on obtient

E[|X − E [X] |2

]= E

[|X|2 − 2XE [X] + E [X]2

]= E

[|X|2

]− 2E [X] E [X] + E

[E [X]2

]= E

[|X|2

]− E [X]2 .

CQFD.

Théorème 2.2.5. Si X et Y sont deux variables aléatoires discrètes indépendantes, lavariance de X + Y est la somme des variances de X et de Y .

Démonstration : Remarquons tout d’abord que l’indépendance de X et Y a pourconséquence que

P [X = x ∩ Y = y] = P [X = x]× P [Y = y] .

Les événements X = x∩ Y = y étant incompatibles pour deux valeurs distinctesde x ou de y, il en résulte que pour toute valeur k prise par X + Y

PX+Y [k] = P [X + Y = k]=

∑(x,y) | x+y=k

P [X = x ∩ Y = y]

=∑

(x,y) | x+y=k

PX [x]PY [y].

Page 52: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

52 CHAPITRE 2. CALCUL DES PROBABILITÉS

Calculons le moment d’ordre 2 de X + Y

m2,X+Y =∑

k∈(X+Y )(Ω)

k2PX+Y [k]

=∑

(x,y)∈X(Ω)×Y (Ω)

(x + y)2PX [x]PY [y]

=∑

(x,y)∈X(Ω)×Y (Ω)

(x2 + y2 + 2xy)PX [x]PY [y]

=∑

(x,y)∈X(Ω)×Y (Ω)

x2PX [x]PY [y] +∑

(x,y)∈X(Ω)×Y (Ω)

y2PX [x]PY [y]

+2∑

(x,y)∈X(Ω)×Y (Ω)

xyPX [x]PY [y]

= m2,X + m2,Y + 2

∑x∈X(Ω)

xPX [x]

∑y∈Y (Ω)

yPY [y]

= m2,X + m2,Y + 2mXmY .

On en déduit que

Var[X + Y ] = m2,X+Y −m2X+Y = m2,X + m2,Y + 2mXmY −m2

X −m2Y − 2mXmY

= m2,X −m2X + m2,Y −m2

Y ,

ce qui démontre le théorème.CQFD.

2.2.5 Principales lois de probabilité discrètes2.2.5.1 Loi singulière

Nous avions déjà vu précédemment la loi singulière en x. Il est clair que l’espéranced’une variable aléatoire X ayant cette loi est E[X] = x et sa variance Var[X] = 0.

2.2.5.2 Loi discrète uniforme sur 1, 2, . . . , N

Par exemple, pour N = 6, cette loi modélise le lancer d’un dé parfaitement équilibré.

P =N∑

n=1

1N

εn

(la probabilité est uniformément répartie sur N points).

Proposition 2.2.1. Si X est une variable aléatoire de loi uniforme, elle a pour espé-rance et pour variance

E[X] =N + 1

2

Var[X] =N2 − 1

12.

Page 53: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

2.2. VARIABLES ALÉATOIRES RÉELLES 53

Démonstration :

E[X] =N∑

n=1

n1N

=1N

N(N + 1)2

=N + 1

2.

Var[X] =N∑

n=1

n2 1N− (N + 1)2

4

=1N

N(N + 1)(2N + 1)6

− (N + 1)2

4

=N2 − 1

12.

CQFD.

2.2.5.3 Loi de Bernoulli de paramètre p

Avec p =12

, cette loi modélise le jeu de pile ou face. Plus généralement, elle intervientlorsque la variable aléatoire est l’indicatrice d’un événement (par exemple “la bouletirée de l’urne est blanche”). Elle est définie par

B(1, p) = (1− p)ε0 + pε1.

Proposition 2.2.2. L’espérance et la variance d’une variable aléatoire de Bernoulli Xde paramètre p sont

E[X] = p

Var[X] = pq

où q = 1− p.

Démonstration :

E[X] = q × 0 + p× 1= p

Var[X] = E[X2]− E [X]2

= q × 02 + p× 12 − p2

= p− p2

= p(1− p).

CQFD.

Page 54: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

54 CHAPITRE 2. CALCUL DES PROBABILITÉS

2.2.5.4 Loi binomiale de paramètres N et p

Cette loi intervient dans la sommation de N variables aléatoires de Bernoulli indépen-dantes (par exemple le nombre de boules blanches tirées, avec remise, d’une urne).

Avec p =12

, par exemple, c’est la loi de la variable aléatoire donnant le nombre deface lorsqu’on lance N fois une pièce équilibrée.Soit (Xi)i=1,...,N une suite finie de variables de Bernoulli de paramètre p indépen-dantes et

X =N∑

i=1

Xi.

Pour que X soit égale à k il faut que k exactement des N variables Xi soient égales à 1.L’ensemble de toutes ces possibilités correspond donc à l’ensemble des sous-ensemblesà k éléments de 1, . . . , N. Soit A un tel sous ensemble. Comme les Xi sont indépen-dantes, en posant q = 1− p, on a

P

(⋂i∈A

Xi = 1

)∩

⋂i∈A

Xi = 0

= pkqN−k.

En sommant sur tous les sous-ensembles à k éléments de 1, . . . , N, puisque nous ve-nons de voir que toutes les possibilités correspondantes sont équiprobables, on obtient,pour tout entier k entre 0 et N

B(N, p)(X = k) =(

N

k

)qN−kpk.

La loi binomiale de paramètres N et p est donc définie par

B(N, p) =N∑

k=0

(N

k

)qN−kpkεk.

Pour N = 1, ce n’est rien d’autre que la loi de Bernoulli B(1, p), ce qui justifie aposteriori la notation utilisée pour cette dernière.

Proposition 2.2.3. L’espérance et la variance d’une variable aléatoire binomiale de loiB(N, p) sont

E[X] = Np

Var[X] = Npq.

Avant de démontrer la proposition, voici un petit lemme très utile, que nous utiliseronsà plusieurs reprises dans la suite

Lemme 2.2.1.i

(n

i

)= n

(n− 1i− 1

)= (n− i + 1)

(n

i− 1

).

Démonstration :i

n

(n

i

)=

i

n

n !i ! (n− i) !

=(n− 1) !

(i− 1) ! (n− i) !=(

n− 1i− 1

)=

n− i + 1n

n !(i− 1) ! (n− i + 1) !

=n− i + 1

n

(n

i− 1

).

Page 55: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

2.2. VARIABLES ALÉATOIRES RÉELLES 55

CQFD.Démonstration : Le calcul de l’espérance découle immédiatement de celle de la loide Bernoulli et de la linéarité de l’espérance.La remarque suivante nous facilitera la calcul de la variance

E[X2]

= E [X(X − 1) + X]= E [X(X − 1)] + E [X] .

Par conséquent on obtient

Var[X] = E[X2]− E [X]2

= E [X(X − 1)] + E [X]− E [X]2

=N∑

k=0

k(k − 1)(

N

k

)pkqN−k + Np−N2p2

= N(N − 1)p2N∑

k=2

(N − 2k − 2

)pk−2qN−k + Np−N2p2

= N(N − 1)p2N−2∑k=0

(N − 2

k

)pkqN−2−k + Np−N2p2

= N(N − 1)p2(p + q)N−2 + Np−N2p2 = −Np2 + Np = Npq.

CQFD.

2.2.5.5 Loi géométrique

C’est la loi d’attente du premier succès dans une suite de variable aléatoire de Ber-noulli de paramètre p. Soit (Xn)n∈N∗ une suite de variables aléatoires de Bernoulliindépendantes. On note X l’indice de la première variable Xi telle que Xi = 1 (tempsd’attente du premier succès). On a alors

G(p)(X = k) = qk−1p

(il y eut k − 1 échecs avant le premier succès). La loi géométrique est donc la loi

G(p) =+∞∑k=1

qk−1p εk.

On vérifie aisément que G(p)(N) = 1 :

G(p)(N) =+∞∑k=1

qk−1p

= p+∞∑k=1

qk−1

=p

1− q= 1.

Page 56: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

56 CHAPITRE 2. CALCUL DES PROBABILITÉS

Remarque 2.2.2. Lorsqu’on commence l’indexation des variables Xi à 0 au lieu de 1,la loi géométrique devient

G(p) =+∞∑k=0

qkp εk.

Proposition 2.2.4. L’espérance et la variance d’une variable aléatoire X suivant uneloi géométrique de paramètre p sont

E[X] =1p

Var[X] =q

p2.

Démonstration : C’est un cas particulier de la loi de Pascal que nous allons voirmaintenant.

2.2.5.6 Loi de Pascal de paramètres p et r

Cette loi généralise la précédente : c’est la loi d’attente du rème succès. Si (Xn)n∈N∗est une suite de variables de Bernoulli indépendantes, notons X la variable donnantl’indice du rème succès. Du fait de l’indépendance des Xi, nous avons alors

P [X = k] = P

∑16i<k

Xi = r − 1

∩ Xk = 1

= P

∑16i<k

Xi = r − 1

P [Xk = 1]

=(

k − 1r − 1

)qk−1−(r−1)pr−1p =

(k − 1r − 1

)qk−rpr.

La loi de Pascal de paramètres p et r est donc

P(p, r) =+∞∑k=1

(k − 1r − 1

)qk−rprεk.

Lemme 2.2.2. Pour q ∈ [0, 1] on a l’égalité suivante

+∞∑k=r

(k

r

)qk−r =

1(1− q)r+1

.

Démonstration : La série entière+∞∑k=1

qk

est de rayon de convergence 1 et a pour somme 11−q , on peut donc la dériver terme à

terme. En la dérivant r fois ainsi que sa somme, on obtient

+∞∑k=r

k !(k − r) !

qk−r =r !

(1− q)r+1

d’où le résultat cherché en divisant les deux membres par r !CQFD.

Page 57: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

2.2. VARIABLES ALÉATOIRES RÉELLES 57

Remarque 2.2.3. 1. Pour k < r la probabilité est nulle et(k

r

)=

k(k − 1) . . . (k − r + 1)r !

= 0 si k = 0, 1, . . . , r − 1.

2. La loi de Pascal est une loi de probabilité : en utilisant le lemme précédent onobtient

+∞∑k=1

(k − 1r − 1

)qk−rpr = pr

+∞∑k=r

(k − 1r − 1

)qk−r

= pr+∞∑k=r

(k − 1r − 1

)qk−1−r+1

= pr 1(1− q)r

= 1

Proposition 2.2.5. L’espérance et la variance d’une variable aléatoire suivant une loide Pascal de paramètres p et r sont

E[X] =r

p

Var[X] =rq

p2.

Démonstration : Comme

k

(k − 1r − 1

)= r

(k

r

),

en utilisant le lemme 2.2.2 on obtient

E[X] =+∞∑k=r

k

(k − 1r − 1

)qk−rpr

= rpr+∞∑k=r

(k

r

)qk−r

=rpr

(1− q)r+1

=r

p.

Pour la variance calculons d’abord

E [X(X + 1)] =+∞∑k=r

k(k + 1)(

k − 1r − 1

)qk−rpr

=+∞∑k=r

r(r + 1)(

k + 1r + 1

)qk−rpr

= (r + 1)rpr+∞∑

h=r+1

(h

r + 1

)qh−r−1

= (r + 1)rpr 1(1− q)r+2

=(r + 1)r

p2.

Page 58: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

58 CHAPITRE 2. CALCUL DES PROBABILITÉS

On a alors

Var[X] = E[X2]− E[X]2

= E [X(X + 1)]− E[X]− E[X]2

=(r + 1)r

p2− r

p− r2

p2

=r2 + r − rp− r2

p2

=rq

p2.

CQFD.

2.2.5.7 Loi binomiale négative de paramètres p et r

C’est le nombre d’échecs Zr avant le rème succès. Soit Yr le temps d’attente du rème

succès. On a Zr = Yr − r. Par conséquent,

P [Zr = k] = P [Yr = k + r] =(

k + r − 1r − 1

)qkpr.

Cette loi s’écrit donc

J(r, p) =+∞∑k=0

(k + r − 1

r − 1

)qkprεk.

Remarque 2.2.4. C’est bien une loi de probabilité car

+∞∑k=0

(k + r − 1

r − 1

)qkpr = pr

+∞∑k=0

(k + r − 1

r − 1

)qk+r−1−r+1

= pr 1(1− q)r

= 1.

Proposition 2.2.6. L’espérance et la variance d’une variable aléatoire Z suivant uneloi binomiale négative de paramètres p et r sont

E[Z] =rq

p

Var[Z] =rq

p2.

Démonstration : En notant comme plus haut Yr la variable aléatoire donnant l’indice

Page 59: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

2.2. VARIABLES ALÉATOIRES RÉELLES 59

du rème succès, on a

E[Z] = E[Yr]− r

=r

p− r

= r1− p

p

=rq

p

Var[Z] = Var [Yr]

=rq

p2.

CQFD.

2.2.5.8 Loi hypergéométrique

Une urne contient N boules : des boules blanches en proportion p et des boules noiresen proportion q = 1 − p (on suppose N × p entier). On tire de l’urne n boules sansremise. Notons Yn le nombre de boules blanches tirées et soit Xi la variable aléatoiredéfinie par

Xi =

1 si la ième boule est blanche0 sinon

La variable Yn est liée aux variables Xi par

Yn =n∑

i=1

Xi

et on a les probabilités conditionnelles suivantes

P [Xn = 1|Yn−1 = r − 1] =Np− r + 1N − n + 1

P [Xn = 0|Yn−1 = r] =Nq − n + 1 + r

N − n + 1·

Comme

Yn = r = (Yn−1 = r − 1 ∩ Xn = 1) ∪ (Yn−1 = r ∩ Xn = 0) ,

on a les probabilités suivantes

P [Yn = r] = P [Xn = 1|Yn−1 = r − 1] P [Yn−1 = r − 1]+P [Xn = 0|Yn−1 = r] P [Yn−1 = r] .

On établit à présent l’expression de P [Yn = r] par récurrence sur n.1. Si n = 1 :

P [Y1 = 0] =Nq

N=

(Np0

)(Nq1

)(N1

)P [Y1 = 1] =

Np

N=

(Np1

)(Nq0

)(N1

) .

Page 60: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

60 CHAPITRE 2. CALCUL DES PROBABILITÉS

2. Si n = 2 :

P [Y2 = 0] =Nq(Nq − 1)N(N − 1)

=

(Np0

)(Nq2

)(N2

)P [Y2 = 1] =

2Nq ×Np

N(N − 1)=

(Np1

)(Nq1

)(N2

)P [Y2 = 2] =

Np(Np− 1)N(N − 1)

=

(Np2

)(Nq0

)(N2

) .

3. Supposons que

P [Yn−1 = r] =

(Npr

)(Nq

n−1−r

)(N

n−1

) ,

pour r 6 n− 1. Alors

P [Yn = r] =

(Npr−1

)(Nq

n−1−r+1

)(N

n−1

) × Np− r + 1N − n + 1

+

(Npr

)(Nq

n−1−r

)(N

n−1

) × Nq − n + 1 + r

N − n + 1

=r(Npr

)(Nqn−r

)n(Nn

) +(n− r)

(Npr

)(Nqn−r

)n(Nn

)=

(Npr

)(Nqn−r

)(Nn

) .

On a montré ainsi que

P [Yn = r] =

(Npr

)(Nqn−r

)(Nn

) .

La loi hypergéométrique s’écrit donc

PYn=

n∑r=0

(Npr

)(Nqn−r

)(Nn

) εr.

Remarques 2.2.3. 1. Pour montrer que cette expression est une loi de probabilité,il faut encore montrer que

n∑r=0

(Npr

)(Nqn−r

)(Nn

) = 1

Ceci vient de l’égalité de Vandermonde :

k∑i=0

(n

i

)(m

k − i

)=(

n + m

k

).

Page 61: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

2.2. VARIABLES ALÉATOIRES RÉELLES 61

Cette égalité peut se démontrer de la manière suivante

(1 + x)n+m =n+m∑k=0

(n + m

k

)xk (2.1)

= (1 + x)n(1 + x)m (2.2)

=

(n∑

i=0

(n

i

)xi

) m∑j=0

(m

j

)xj

(2.3)

=n+m∑k=0

k∑i=0

(n

i

)(m

k − i

)xk (2.4)

avec k = i+ j. Il suffit ensuite d’identifier les coefficients de xk dans la secondeexpression de (2.2) et dans la dernière expression de (2.4).

2. Cette loi de probabilité modélise toutes les situations qui s’apparentent à un ti-rage sans remise de boules d’une couleur donnée dans une urne : c’est le caspar exemple lorsque le test détruit l’échantillon sur lequel on travaille, ou lors-qu’on tire plusieurs boules à la fois. Dans ce dernier cas, on obtiendrait la mêmeloi que la loi hypergéométrique en considérant que tous les sous-ensembles à néléments sont équiprobables : tout se passe ainsi comme si au lieu de tirer desboules d’une urne on tirait des sous-ensembles à n éléments de l’ensemble deces sous-ensembles.

Proposition 2.2.7. L’espérance et la variance d’une variable aléatoire suivant une loihypergéométrique sont

E[Yn] = np

Var[Yn] = npqN − n

N − 1.

Démonstration : En utilisant à plusieurs reprises l’identité de Vandermonde, on ob-tient

E[Yn] =n∑

r=1

r

(Npr

)(Nqn−r

)(Nn

)=

1(Nn

) n∑r=1

r

(Np

r

)(Nq

n− r

)

=Np(Nn

) n∑r=1

(Np− 1r − 1

)(Nq

n− r

)

=Np(Nn

) n−1∑r=0

(Np− 1

r

)(Nq

n− 1− r

)

=Np(N−1n−1

)(Nn

)=

Npn

N= np.

Page 62: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

62 CHAPITRE 2. CALCUL DES PROBABILITÉS

E[Yn(Yn − 1)] =n∑

r=2

r(r − 1)

(Npr

)(Nqn−r

)(Nn

)=

n∑r=2

Np(Np− 1)(Np−2r−2

)(Nqn−r

)(Nn

)=

Np(Np− 1)(Nn

) n∑r=2

(Np− 2r − 2

)(Nq

n− r

)

=Np(Np− 1)(

Nn

) n−2∑r=0

(Np− 2

r

)(Nq

n− 2− r

)=

Np(Np− 1)(Nn

) (N − 2n− 2

)=

Np(Np− 1)n(n− 1)N(N − 1)

=pn(n− 1)

N − 1(Np− 1).

Var[Yn] = E[Yn(Yn − 1)] + E[Yn]− E[Yn]2

=np(n− 1)

N − 1(Np− 1) + np− n2p2

= np

[n− 1N − 1

(N − 1−Nq) + 1− np

]= np

[− (n− 1)Nq

N − 1+ n− np

]= np

[− (n− 1)Nq

N − 1+ nq

]= npq

−(n− 1)N + n(N − 1)N − 1

= npqN − n

N − 1.

CQFD.

2.2.5.9 Loi du temps d’attente du 1er succès dans le tirage sans remise

Soient (Xk)k∈N∗ la suite de variables de Bernoulli donnant le nombre de boules blanches

tirées au kème tirage et Yk =k∑

i=1

Xi. Notons Z le rang du tirage donnant la première

boule blanche. Nous avons

P[Z = k] = P [Yk−1 = 0 ∩ Xk = 1]= P [Xk = 1|Yk−1 = 0]× P [Yk−1 = 0]

=

(Nqk−1

)(N

k−1

) Np

N − k + 1

=

(Nqk−1

)(Nk

) Np

Page 63: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

2.2. VARIABLES ALÉATOIRES RÉELLES 63

Proposition 2.2.8. L’espérance et la variance de la variable aléatoire Z sont

E[Z] =N + 1Np + 1

Var[Z] =N2(N + 1)pq

(Np + 1)2(Np + 2)·

Ces calculs sont assez compliqués, on admettra le résultat.

2.2.5.10 Loi de Poisson de paramètre λ

C’est la loi des événements rares. Soit (Xn)n∈N une suite de variables binomialesB(n, pn) avec lim

n→+∞npn = λ. En posant λn = npn nous obtenons

P [Xn = k] =(

n

k

)pk

n(1− pn)n−k

=n !

k ! (n− k) !λk

n

nk

(1− λn

n

)n−k

=λk

n

k !n(n− 1) . . . (n− k + 1)

nk

(1− λn

n

)n(1− λn

n

)k ·On en déduit que

limn→+∞

P [Xn = k] =λk

k !e−λ.

La limite ainsi obtenue est la loi de Poisson de paramètre λ. Elle s’écrit donc

Pλ =+∞∑k=0

λk

k !e−λεk.

Comme∑+∞

k=0λk

k ! e−λ = 1 c’est bien une loi de probabilité.

Proposition 2.2.9. L’espérance et la variance d’une variable aléatoire X suivant uneloi de Poisson sont

E[X] = λ

Var[X] = λ.

Démonstration :

E[X] =+∞∑k=0

kλk

k !e−λ

= λe−λ+∞∑k=1

λk−1

(k − 1) !

= λe−λ+∞∑k=0

λk

k !

= λ.

Page 64: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

64 CHAPITRE 2. CALCUL DES PROBABILITÉS

E [X(X − 1)] =+∞∑k=0

k(k − 1)λk

k !e−λ

= λ2e−λ+∞∑k=2

λk−2

(k − 2) !

= λ2e−λ+∞∑k=0

λk

k !

= λ2.

Var[X] = E [X(X − 1)] + E[X]− E[X]2

= λ2 + λ− λ2

= λ.

CQFD.

2.2.6 Variables aléatoires absolument continuesDéfinition 2.2.9. Une variable aléatoire X définie sur un espace probabilisé (Ω,A, P )est absolument continue s’il existe une fonction numérique f définie sur R telle que

1. f(x) ≥ 0 pour tout x ∈ R ;

2. L’ensemble des points de discontinuités de f est fini et ces discontinuités sont de1ère espèce (i.e. la limite à gauche et à droite en chaque point existe) ;

3. Pour tout x réel la fonction de répartition FX de X est donnée par

FX =∫ x

−∞f(t) dt

La fonction f est appelée la densité de la loi de probabilité de X .

Remarque 2.2.5. Il faut en particulier que l’intégrale∫ +∞−∞ f(t) dt soit convergente et

que∫ +∞−∞ f(t) dt = 1.

2.2.6.1 Espérance mathématique

L’espérance mathématique d’une variable aléatoire absolument continue X de densitéf est le nombre réel (s’il existe)

E[X] =∫ +∞

−∞xf(x) dx.

On dira que X a une espérance si cette intégrale converge absolument. L’espéranceest linéaire sur l’espace vectoriel des variables aléatoires sur (Ω,A, P ) ayant une espé-rance.

2.2.6.2 Variance et moments

Le moment d’ordre k (s’il existe) est le nombre réel

mk(X) =∫ +∞

−∞|x|kf(x) dx.

Page 65: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

2.2. VARIABLES ALÉATOIRES RÉELLES 65

Le moment d’ordre k centré en a est défini par

amk(X) = mk(X − a).

Le moment centré d’ordre k est le moment d’ordre k centré en a = E[X].La variance de X est le moment centré d’ordre 2.

Var[X] = m2(X − E[X]).

Le théorème de Huygens est encore vérifiées pour les variables aléatoires absolumentcontinues :

Var[X] = m2(X)− E[X]2.

Lorsqu’une variable aléatoire a pour espérance 0 on dit qu’elle est centrée. Lorsqu’ellea une variance égale à 1 on dit qu’elle est réduite.

Théorème 2.2.6. Si X et Y sont deux variables aléatoires absolument continues indé-pendantes, la variance de X + Y est la somme des variances de X et de Y .

Démonstration : Ce théorème se démontre d’une manière analogue au théorème 2.2.5,mais en utilisant des techniques d’intégrales doubles.

2.2.7 Quelques lois de probabilité absolument continues

2.2.7.1 Loi uniforme sur un intervalle

Soit X une variable aléatoire à valeurs dans l’intervalle [a, b]. La loi uniforme sur [a, b]est la loi de probabilité ayant pour densité (la figure 2.2 montre la densité de la loiuniforme sur [−2, 2]])

f : [a, b] → R

t 7→ 1b− a

.

Sa fonction de répartition (voir figure 2.3) est donc définie par

FX(x) =

x− a

b− asi x ∈ [a, b]

0 si x 6 a1 si x > b

Proposition 2.2.10. L’espérance et la variance d’une variable aléatoire suivant une loiuniforme sont

E[X] =b + a

2

Var[X] =(b− a)2

12.

Démonstration : La démonstration est laissée au soin du lecteur.

Page 66: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

66 CHAPITRE 2. CALCUL DES PROBABILITÉS

FIG. 2.2 – Densité FIG. 2.3 – Fonction de répartition

2.2.7.2 Loi exponentielle

Cette loi a pour densité (voir figure 2.4)

f(x) =

λe−λx pour x > 00 pour x < 0 .

où λ est un nombre réel strictement positif. Sa fonction de répartition (voir figure 2.5)est donc 0 pour x < 0 et, pour x > 0

FX(x) =∫ x

−∞f(t) dt =

∫ x

0

λe−λt dt = 1− e−λx.

FIG. 2.4 – Densité FIG. 2.5 – Fonction de répartition

Page 67: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

2.2. VARIABLES ALÉATOIRES RÉELLES 67

Proposition 2.2.11. L’espérance et la variance d’une variable aléatoire suivant la loiexponentielle de paramètre λ sont égales respectivement à

E[X] =1λ

Var[X] =1λ2·

Démonstration : Par intégration par partie on obtient

E[X] =∫ +∞

0

tλe−λt dt

=[−te−λt

]+∞0

+1λ

∫ +∞

0

λe−λt dt

=1λ

et

E[X2]

=∫ +∞

0

t2λe−λt dt

=[−t2e−λt

]+∞0

+2λ

∫ +∞

0

tλe−λt dt

=2λ2·

On en déduit

Var[X] =2λ2− 1

λ2

=1λ2·

CQFD.

2.2.7.3 Loi de Laplace-Gauss ou loi normale

La densité de la loi normale de paramètres m et σ (voir figure 2.6 pour m = 0 et σ = 1)est la fonction définie par

fm,σ(t) =1√

2πσ2e−

(t−m)2

2σ2 .

Cette loi est notée N (m,σ). Sa fonction de répartition est représentée en figure 2.7pour m = 0 et σ = 1.

Remarques 2.2.4. 1. Rappel : ∫ +∞

−∞e−t2dt =

√π.

2. fm,σ(m + u) = fm,σ(m− u).

Page 68: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

68 CHAPITRE 2. CALCUL DES PROBABILITÉS

FIG. 2.6 – Densité FIG. 2.7 – Fonction de répartition

3. En posant u =t−m

σ√

2, du =

dt

σ√

2on obtient

∫ +∞

−∞fm,σ(t) dt =

1√2πσ2

∫ +∞

−∞e−

(t−m)2

2σ2 dt

=1√π

∫ +∞

−∞e−u2

du

= 1.

4. La fonction fm,σ admet deux points d’inflexions en m + σ et m− σ. En effet

f ′m,σ(t) = − 1√2πσ2

(t−m)σ2

e−(t−m)2

2σ2

f ′′m,σ(t) = − 1√2πσ2

1σ2

e−(t−m)2

2σ2 +1√

2πσ2

(t−m)2

σ4e−

(t−m)2

2σ2

=1

σ2√

2πσ2e−

(t−m)2

2σ2

((t−m)2

σ2− 1)

Cette dérivée seconde s’annule pour t = m± σ.

Proposition 2.2.12. La fonction de répartition de la loi normale de paramètres m et σvérifie

FX(m− x) = 1− FX(m + x).

Cette propriété est mise à profit dans les tables de la loi normale réduite où elle permetde ne mentionner que les valeurs de FX correspondant aux valeurs positives de x.

Page 69: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

2.2. VARIABLES ALÉATOIRES RÉELLES 69

Démonstration :

FX(m− x) =∫ m−x

−∞fm,σ(t) dt

= −∫ x

+∞fm,σ(m− u) du (u = m− t)

= −∫ x

+∞fm,σ(m + u) du (fm,σ(m− u) = fm,σ(m + u))

=∫ +∞

x

fm,σ(m + u) du

= 1−∫ x

−∞fm,σ(m + u) du (et avec t = m + u)

= 1−∫ m+x

−∞fm,σ(t) dt = 1− FX(m + x).

CQFD.

Proposition 2.2.13. L’espérance et la variance d’une variable aléatoire suivant une loinormale de paramètres m et σ sont égales à

E[X] = m

Var[X] = σ2.

Démonstration : En posant u =t−m√

2σ2, on a du =

dt√2σ2

et, en utilisant que∫ +∞−∞ ue−u2

du = 0, on obtient

E[X] =1√

2πσ2

∫ +∞

−∞te−

(t−m)2

2σ2 dt

=1√π

∫ +∞

−∞(m +

√2σ2u)e−u2

du

= m +

√2σ2

√π

∫ +∞

−∞ue−u2

du = m.

E[X2] =1√

2πσ2

∫ +∞

−∞t2e−

(t−m2)2σ2 dt

=1√π

∫ +∞

−∞(m +

√2σ2u)2e−u2

du

= m2 +2m√

2σ2

√π

∫ +∞

−∞ue−u2

du +σ2

√π

∫ +∞

−∞2u2e−u2

du

= m2 +σ2

√π

[−ue−u2

]+∞−∞

+σ2

√π

∫ +∞

−∞e−u2

du

= m2 + σ2.

Var[X] = E[X2]− E[X]2

= σ2.

CQFD.

Page 70: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

70 CHAPITRE 2. CALCUL DES PROBABILITÉS

2.2.8 Convergence2.2.8.1 Inégalité de Bienaymé-Tchébychev

Théorème 2.2.7 (Inégalité de Bienaymé-Tchébychev). Si X est une variable aléatoireréelle d’espérance m et de variance σ2 alors, pour tout ε > 0

P [|X −m| > ε] 6σ2

ε2·

Démonstration :1. Cas des variables aléatoires discrètes

σ2 =∑

i

|xi −m|2pi

>∑

i∈I||xi−m|>ε

|xi −m|2pi

> ε2∑

i∈I||xi−m|>ε

pi = ε2P [|X −m| > ε] .

On en déduit l’inégalité cherchée en divisant par ε2.

2. Cas des variables aléatoires absolument continues

σ2 =∫ +∞

−∞(x−m)2f(x) dx

>∫ m−ε

−∞(x−m)2f(x) dx +

∫ +∞

m+ε

(x−m)2f(x) dx

> ε2

∫ m−ε

−∞f(x) dx + ε2

∫ +∞

m+ε

f(x) dx = ε2P [|X −m| > ε] .

On en déduit encore l’inégalité cherchée en divisant par ε2.CQFD.

Remarque 2.2.6. 1. Cette inégalité est générale, mais assez grossière. Par exemple,pour la loi normale N (m,σ)

P [|X −m| > 2σ] ' 2(1− 0, 97725) ' 0, 05 etσ2

4σ2=

14

P [|X −m| > 3σ] ' 2(1− 0, 99865) ' 0, 0027 etσ2

9σ2=

19

2. L’inégalité de Bienaymé-Tchébychev peut se généraliser aux moments centrésd’ordre k

P [|X −m| > ε] 6 mmk(X)εk

.

La démonstration en est laissée en exercice.

Théorème 2.2.8 (Bernoulli). Soit (Xi)n∈N∗ est une suite de variables aléatoires de

Bernoulli indépendantes de paramètre p. Soit Zn =∑n

i=1 Xi

n. Alors

P [|Zn − p| > ε] 6pq

nε26

14nε2

.

Page 71: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

2.2. VARIABLES ALÉATOIRES RÉELLES 71

Démonstration : C’est une application directe de l’inégalité de Bienaymé-Tchébychev(pour une variable de Bernoulli m = p et σ2 = pq = p(1 − p) est maximum pour

p =12

) :

σ2Zn

=1n2

σ2Pni=1 Xi

=1n2

npq =pq

n.

CQFD.

2.2.8.2 Loi faible des grands nombres

Définition 2.2.10. Une suite (Xn)n∈N de variables aléatoires sur (Ω,A, P) convergeen probabilité vers une variable aléatoire X si, pour tout ε > 0

limn→+∞

P [|Xn −X| > ε] = 0.

Théorème 2.2.9 (Loi faible des grands nombres). Soit (Xn)n∈N∗ une suite de variablesaléatoires de même loi sur (Ω,A, P), deux à deux indépendantes, ayant une espérance

m et une variance σ2. Posons Sn =n∑

i=1

Xi et Zn =Sn

n. Alors Zn converge en

probabilité vers la variable aléatoire constante égale à m.

Démonstration : Calculons tout d’abord l’espérance et la variance de Zn

E [Zn] =1n

n∑i=1

E [Xi] = m.

Var [Zn] =1n2

Var [Sn] =1n2

n∑i=1

Var[Xi]

=1n2

nσ2 =σ2

n.

(la variances d’une somme de variables aléatoires deux à deux indépendantes est égaleà la somme des variances cf. Théorèmes 2.2.5 et 2.2.6). D’après l’inégalité de Bienaymé-Tchébychev on a alors

P [|Zn −m| > ε] 6σ2

nε2.

CQFD.

2.2.8.3 Convergence en loi

Définition 2.2.11. Une suite de variables aléatoires (Xn)n∈N∗ sur (Ω,A, P), de fonc-tions de répartition Fn, converge en loi vers une variable aléatoire X de fonction derépartition F , si pour tout x ∈ R où F est continue, on a

limn→+∞

Fn(x) = F (x).

Remarques 2.2.5. 1. On montre que la convergence en probabilité implique laconvergence en loi.

2. On montre que Xn converge vers X en loi si et seulement si pour tout a et b oùF est continue

limn→+∞

P [a < Xn 6 b] = P [a < X 6 b] .

Page 72: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

72 CHAPITRE 2. CALCUL DES PROBABILITÉS

Théorème 2.2.10. Une suite de variables aléatoires binomiales de lois B(n, pn) telleque

limn→+∞

npn = λ

converge en loi vers une variable aléatoire X suivant une loi de Poisson de paramètreλ.

Démonstration : En posant λn = npn, on obtient

P [Xn = k] =(

n

k

)pk

n(1− pn)n−k

=n !

k ! (n− k) !λk

n

nk

(1− λn

n

)n−k

=λk

n

k !n(n− 1) . . . (n− k + 1)

nk

(1− λn

n

)n(1− λn

n

)k ·Lorsque n tend vers l’infini, cette expression tend vers

λk

k !e−λ.

Il en résulte que pour tout entier positif non nul la fonction de répartition de Xn

converge vers celle de la loi de Poisson de paramètre λ. Comme ces fonctions de répar-tition sont des fonctions étagées ces fonctions convergent vers la fonction de répartitionde la loi de Poisson de paramètre λ en tout réel x.CQFD.

Théorème 2.2.11. Une suite de variables aléatoires hypergéométriques XN de pa-ramètres N , n et p convergent en loi, pour n et p fixés, vers une variable aléatoirebinomiale de paramètres n et p.

Démonstration : Il suffit de remarquer que(Npk

)(Nqn−k

)(Nn

) =(

n

k

)Np(Np− 1) . . . (Np− k + 1)Nq(Nq − 1) . . . (Nq − n + k + 1)

N(N − 1) . . . (N − n + 1).

Lorsque N tend vers +∞ cette expression tend vers(nk

)pkqn−k. Il en résulte que la

fonction de répartition de XN tend vers celle de la loi binomiale de paramètres n et p.CQFD.

Remarque 2.2.7. Ce résultat n’est pas surprenant étant donné que lorsque N est grandpar rapport à n, la composition de l’urne n’est guère modifiée par les tirages. On peutdonc pour N grand par rapport à n faire comme si les tirages se faisaient avec remise.

2.2.8.4 Théorème de la limite centrale

Le théorème suivant, que nous admettrons, est très important dans la pratique, car ilpermet de se ramener au cas plus simple d’une variable aléatoire normale, ce qui per-met d’utiliser les tables de la loi normale centrée réduite pour le calcul de certainesprobabilités.

Page 73: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

2.2. VARIABLES ALÉATOIRES RÉELLES 73

Théorème 2.2.12 (Central-Limit). Soit (Xn)n∈N une suite de variables aléatoires réellesdéfinies sur (Ω,A, P), deux à deux indépendantes, de même loi, d’espérance m et devariance σ2. Posons

Sn =n∑

i=1

Xi, Zn =Sn

n, Tn =

Zn −mσ√n

.

Alors Tn converge en loi vers une variable aléatoire normale centrée réduite, c’est-à-dire de loi N (0, 1).

En particulier, si les variables aléatoires Xi sont des variables aléatoires de Bernoulli deparamètre p, donc d’espérance p et de variance pq, alors Sn est une variable aléatoirebinomiale de paramètres (n, p) donc d’espérance np et de variance npq. Alors la loi deSn − np√

npqtend vers une loi normale centrée réduite, lorsque n tend vers l’infini.

Page 74: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

74 CHAPITRE 2. CALCUL DES PROBABILITÉS

Page 75: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

Annexe A

Démonstration de la décomposition dela somme des carrés

75

Page 76: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

76 ANNEXE A.

Vous trouverez ici la démonstration (d’après [3]) d’une propriété des moindres carrés,évoquée dans le cours, qui est la suivante :

Propriété A.0.1. ∑i

(yi − y)2 =∑

i

(yi − yi)2 +∑

i

(yi − y)2. (A.1)

Démonstration : On a

yi − y = (yi − yi) + (yi − y). (A.2)

On élève au carré l’égalité (A.2) et on somme sur i, qui est une variable muette. Enutilisant la première identité remarquable

(c + d)2 = c2 + 2cd + d2,

oùc = (yi − yi)

etd = (yi − y),

on obtient alors∑i

(yi − y)2 =∑

i

(yi − yi)2 + 2∑

i

(yi − yi)(yi − y) +∑

i

(yi − y)2. (A.3)

Maintenant occupons nous du terme du milieu∑i

(yi − yi)(yi − y),

qui provient de l’égalité (A.3). Auparavant, établissons une égalité très importante :

Proposition A.0.14.n∑

i=1

(xi − x) = 0. (A.4)

Démonstration :n∑

i=1

(xi − x) =n∑

i=1

xi −n∑

i=1

x

= nx− nx

= 0.

CQFD.Développons le terme

∑i

(yi − yi)(yi − y). On obtient alors :

∑i

(yi − yi)(yi − y) =∑

i

(yiyi − yyi − y2i + yyi)

=∑

i

yiyi − y∑

i

yi −∑

i

y2i + y

∑i

yi. (A.5)

Établissons maintenant la proposition essentielle qui va nous permettre de démontrerla propriété A.0.1 que l’on cherche à établir.

Page 77: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

77

Propriété A.0.2. ∑i

yi =∑

i

yi (A.6)

et ∑i

y2i =

∑i

yiyi. (A.7)

Démonstration de l’égalité (A.6) de la proposition A.0.2 : Pour établir la premièreégalité de la proposition A.0.2, il faut se rappeler de deux définitions du cours. Lapremière égalité qui va nous être utile pour commencer la démonstration de cette égalitéest la suivante :

yi = axi + b,

par définition. La seconde définition qui va servir dès la troisième ligne de la séquenced’égalités qui va suivre est la suivante :

b = y − ax.

Cette dernière égalité se montre facilement. On obtient alors :

∑i

yi =∑

i

(b + axi

)=

∑i

b +∑

i

axi

=∑

i

(y − ax) +∑

i

axi

= ny − a∑

i

x + a∑

i

xi

= ny + a

(∑i

(xi − x)

)

= ny + a

(∑i

xi −∑

i

x

)= ny + a (nx− nx)= ny

=∑

i

yi,

ce qui achève la démonstration de l’égalité (A.6).CQFD.

Page 78: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

78 ANNEXE A.

Démonstration de l’égalité (A.7) de la proposition A.0.2 : .∑i

yi2 =

∑i

(b + axi

)2

=∑

i

(y − ax + axi)2

=∑

i

(y + a(xi − x))2

= ny2 + 2ya∑

i

(xi − x) + a2∑

i

(xi − x)2

= yny + 0 + a∑

i

(xi − x)2

= yny + a∑

i

a(xi − x)2

= yny + a∑

i

(xi − x)(yi − y),

= yny + a∑

i

((xi − x)yi)− ay∑

i

(xi − x)

= y∑

i

yi + a∑

i

(xi − x)yi − 0

=∑

i

(y + a(xi − x))yi

=∑

i

yiyi.

Ces deux égalités démontrées achèvent la démonstration de la proposition A.0.2.CQFD.

Ainsi l’égalité (A.5) devient nulle. Et par conséquent le double terme de l’égalité (A.3)devient nul et nous avons établi l’égalité (A.1).

Page 79: INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉSirma.math.unistra.fr/~mmaumy/enseignement/INSA/Cours... · 2007. 1. 14. · INSA de STRASBOURG GC1 STATISTIQUE - PROBABILITÉS Myriam

Bibliographie

[1] G. Baillargeon. Probabilités, statistique et technique de régression. Les éditionsSMG, 1995.

[2] P. Dagnelie. Statistique théorique et appliquée, Tome 1 - Statistique descriptiveet bases de l’inférence statistique. Bibliothèque des Universités : statistique. DeBoeck et Larcier, 1998.

[3] Y. Dodge. Analyse de régression appliquée. Dunod, 1999.

[4] B. Goldfarb et C. Pardoux. Introduction à la méthode statistique. Dunod, 2004.

[5] C. Leboeuf et J.-L. Roque et J. Guegand. Cours de probabilités et de statistiques.Ellipses, 1996.

[6] D. Foata and A. Fuchs. Calcul des probabiltés. Masson, 1996.

[7] G. Klam. Initiation au calcul des probabilités et à la statistique. ENSAIS.

79