Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des...

235
Cours de théorie des probabilités avec exercices corrigés et devoirs Licence de mathématiques, 3 i` eme année Bruno Saussereau 1 Année universitaire 2013-2014 1 Bruno Saussereau, Laboratoire de Mathématiques de Besançon, UFR Sciences & Techniques, 16, route de Gray, 25030 Besançon cedex, France. Courriel : [email protected]

Transcript of Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des...

Page 1: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

Cours de théorie des

probabilités

avec exercices corrigés et devoirs

Licence de mathématiques, 3ieme année

Bruno Saussereau

1

Année universitaire 2013-2014

1

Bruno Saussereau, Laboratoire de Mathématiques de Besançon, UFR Sciences & Techniques, 16,

route de Gray, 25030 Besançon cedex, France. Courriel : [email protected]

Page 2: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire
Page 3: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

iPrésentation du cours

Présentation du cours

Ce cours correspond à l’unité d’enseignement de théorie des probabilités dispensée dans le cadredu semestre 5 de l’enseignement à distance de la Licence de Mathématiques.

La diffusion de ce cours est strictement limitée aux étudiants régulièrement inscrits à l’unitéd’enseignement correspondante du Centre de Télé-enseignement Universitaire.

Public visé

Cet enseignement par correspondance s’adresse en priorité aux étudiants désireux de poursuivredes études de Master en vue de la recherche, de passer le concours de l’agrégation externe demathématiques ou à ceux qui se destinent à des études de mathématiques appliquées en vuede devenir ingénieurs-mathématiciens.

Pré-requis et révisions

Ce cours ne suppose aucun pré-requis sur le formalisme des probabilités. Tout le formalisme etle vocabulaire des probabilités est défini et introduit au fur et à mesure des besoins. Il supposejuste une sensibilisation aux phénomènes aléatoires et à leur étude élémentaire telle qu’elle estenseignée depuis quelques années au lycée et dans le semestre 4 de la Licence. Pour une rapidemise à niveau sur l’approche élémentaire des probabilités on peut se reporter aux deux ouvragesclassiques [11] et [12]. Certains des exercices proposés dans cette unité sont inspirés de cesdeux ouvrages moyennant quelques adaptations de vocabulaire dues au formalisme introduitdans le cours.

En revanche ce cours suppose connus les concepts classiques de la théorie de la mesure etde l’intégration, dite intégrale de Lebesgue. Ces concepts seront souvent rappelés dans cecours de façon à rendre sa lecture autonome. Ces résultats seront énoncés sous leur version laplus utile pour les applications en probabilités, ils seront admis et ne feront donc pas l’objetd’une démonstration sauf cas particuliers. Pour leur version générale et leurs démonstrations,on pourra se reporter à l’ouvrage [8].

Outre ces résultats spécifiques, le cours nécessitera la connaissance de résultats et de techniquesclassiques de mathématiques générales. C’est donc l’occasion, dès maintenant, de réviserégalement ces notions mathématiques indispensables qui seront supposées connues. A ceteffet, on pourra se reporter à un cours classique de mathématiques générales, par exemple[1], largement suffisant pour revoir ces notions. Il s’agit en particulier de bien connaître

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 4: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

ii Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

1. les notions et résultats élémentaires de la théorie des ensembles : ensembles, parties d’unensemble, inclusion, appartenance, partition d’un ensemble, intersection et réunion deplusieurs sous-ensembles, différence de deux sous-ensembles, complémentaire d’un sous-ensemble, applications, bijections, image-réciproque d’une application, opérations sur lesapplications, composition de deux applications,...

2. les éléments de théorie de la mesure et de l’intégrale de Lebesgue3. le calcul des sommes de séries : série géométrique, série exponentielle, dérivation des

séries entières, ...4. quelques éléments d’algèbre générale et multilinéaire en dimension finie : binôme de

Newton, nombre de combinaisons, espaces vectoriels, produit scalaire euclidien, normeeuclidienne, calcul matriciel, transposé d’une matrice, opérations élémentaires sur lesmatrices, diagonalisation d’une matrice symétrique, ...

Conseils de travail

Le cours proprement dit comprendra des définitions, des propositions (théorèmes, lemmes,formules, ...), des démonstrations, des exemples et des exercices corrigés. Les démonstrationsdoivent être connues, elles sont exigibles lors des épreuves d’évaluation.

Les démonstrations développées dans le cours sont choisies en fonction de l’intérêt péda-gogique du raisonnement qu’elles mettent en oeuvre. Il faut les étudier, crayon en main, essayerde les refaire en mettant en évidence les deux ou trois axes de la démonstration qu’il convientde retenir pour être capable de la restituer sans document. C’est à ce critère que vous pourrezmesurer si vous avez compris quelque chose. Il est conseillé aussi de bien mettre en évidencedans ces démonstrations, en les énonçant complètement et en vérifiant que leurs hypothèsesde validité sont satisfaites, les résultats antérieurs sur lesquels elles prennent appui. Certainesdémonstration seront détaillées, d’autres seront volontairement plus succinctes afin de vousentraîner à détailler par vous-même les passages rapides de la démonstration.

Les exemples du cours servent à illustrer une définition sur un cas particulier ou à montrerune application concrète d’une proposition. Leur rédaction est aussi parfois volontairement suc-cincte. Il convient alors d’en détailler les calculs, de vérifier les résultats annoncés, et d’essayerde noter les astuces ou techniques utilisées et transposables dans d’autres situations, éventuelle-ment moyennant certaines adaptations. Ce qui est dit pour les exemples est aussi valable pourtous les exercices proposés en auto-correction et leurs corrigés.

Les exercices sont divisés en deux catégories :1. Les exercices de la première catégorie sont les exercices insérés dans le texte du cours

proprement dit. Ils sont assez simples et sont conçus comme des applications directes ducours et de ce qui vient d’être vu.

2. Les exercices de la seconde catégorie, dits de révision, sont placés en fin de chaquechapitre à partir du chapitre III. Ils sont, quant à eux, de difficultés variables et font appelaux diverses notions mises en place dans les chapitres antérieurs y compris le chapitreétudié.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 5: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

iiiPrésentation du cours

Vous devez essayer de chercher à résoudre le maximum d’exercices, en vous aidant du cours.Pour les exercices que vous ne savez pas résoudre ou que vous n’avez pas pu chercher, parexemple par manque de temps, il faut au moins étudier leurs solutions en vous reportant auchapitre VIII.

Ce qui a été dit, plus haut, pour l’étude des démonstrations s’applique également pour étudierla correction d’un exercice. Encore une fois, après avoir étudié une démonstration ou lasolution d’un exercice, vous devez être capable de refaire cette démonstration ou cet exercice,sans regarder le cours, trois ou quatre jours plus tard. C’est là un bon test pour savoir si vousavez compris la démonstration ou la solution de l’exercice. Il ne faut pas hésiter à réviser leschapitres déjà travaillés c’est-à-dire à revenir plusieurs fois, après de longs intervalles de temps,sur les démonstrations ou exercices étudiés auparavant.

Trois devoirs à rédiger et à retourner à la correction sont proposés dans le cadre de cetenseignement afin de vous permettre de tester vos connaissances et de vous inciter à un travailrégulier. Ces devoirs permettent aussi de montrer au correcteur que vous avez compris le cours,que vous connaissez les résultats vus en cours et les hypothèses qui les commandent, et quevous savez les mobiliser pour répondre à une question ou démontrer un résultat nouveau. Il estdonc recommander de tout mettre en œuvre pour atteindre cet objectif.Il est bon de porter son attention, en particulier, sur les conseils suivants :Un devoir de mathématiques est un devoir de français qui traite de mathématiques, c’est doncavant tout un texte de français. Il doit donc être rédigée de façon correcte en français. Leshypothèses spécifiques justifiant l’utilisation de chaque théorème doivent être correctement ex-plicitées et le résultat du cours utilisé doit être clairement identifié voire explicitement énoncé.Les résultats intermédiaires et les conclusions obtenues doivent être mis en évidence. Les nota-tions utilisées ou introduites, surtout si elles sont nouvelles par rapport au cours, doivent êtreclairement annoncées. La rédaction du cours peut être considérée comme un guide de rédactiond’un texte mathématique.

Les épreuves d’examen comporteront des exercices et des questions portant sur l’ensembledu cours. Elles peuvent également comprendre des questions de cours proprement dites : énon-cer un ou plusieurs résultats du cours, refaire une ou plusieurs démonstrations vues en cours,traiter un exemple ou un exercice corrigé proposés dans les documents fournis dans le cadre decette unité d’enseignement. La table de la loi normale standard de l’annexe B (sans les explica-tions sur son utilisation), ainsi que le formulaire de l’annexe A, seront disponibles avec les sujetslors des épreuves d’évaluation. Lors de ces épreuves, l’utilisation d’une calculatrice est autorisée.

Certaines propositions du cours concernent des résultats mentionnés "hors programme". Ilssont simplement donnés dans un but de culture mathématique, mais ne feront donc pas l’objetd’évaluation et leur connaissance n’est pas exigible dans les évaluations. Souvent ils apportentdes compléments ou des précisions sur un résultat ou une remarque qui viennent d’être faits.

Enfin, il est évident que l’appréciation d’une copie par le correcteur, que ce soit celle d’undevoir ou d’une épreuve d’examen, accordera une place importante à la rédaction, à la clartédes justifications et de l’argumentation ainsi qu’à la présentation globale de la copie. Une copieillisible ou mal rédigée pourra ne pas être corrigée et sera sanctionnée en conséquence.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 6: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

iv Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Annexes

Ce document comprend cinq annexes :1. L’annexe A, page 205, est un rappel des principales relations mathématiques utilisées

dans les calculs de probabilités et des lois de probabilités classiques à connaître. Ceformulaire sera disponible lors des épreuves de contrôles ou d’examens.

2. L’annexe B, page 211, explique l’usage de la table statistique de la loi normale centrée-réduite reproduite en fin de l’annexe. La table de la loi normale standard, sans lesexplications qui l’accompagnent, sera disponible lors des épreuves d’examen.

3. L’annexe C, page 215, comprend les sujets des trois devoirs qui devront être envoyésà la correction et précise les dates de ces trois envois. Les corrigés de ces devoirs serontretournés avec la copie corrigée.

Bibliographie

Pour le cours, et surtout pour apporter des compléments à ce cours, on pourra utiliser avecprofit le livre de [4]. Pour les exercices on pourra se reporter à [2] pour ceux relevant de lathéorie de la mesure de de l’intégration, et à [3] où on trouvera des exercices supplémentairesconcernant la théorie des probabilités.

Pour une justification du choix du formalisme et de sa signification en tant que modèle de la"réalité", on pourra consulter avec profit en première lecture le chapitre I de [5] et [7] puis, enseconde lecture, [4] pages 93 et 132, et [13] page 56.Une approche historique et épistémologique en liaison avec les questions d’enseignement desconcepts probabilistes peut être trouvée dans [6].

Calendrier de travail

Le cours lui-même est divisé en sept chapitres auxquels s’ajoute un huitième chapitre regroupantles corrections des exercices proposés dans les chapitres précédents.

Les trois premiers chapitres sont principalement destinés à mettre en place le formalisme desprobabilités en transcrivant dans le langage des probabilités les notions de théorie de la mesureet de l’intégration vues dans l’unité correspondante : tribu, application mesurable, mesure,image d’une mesure, règles d’intégration, théorèmes de Lebesgue, ... etc. Normalement cesnotions ont été vues dans l’unité d’intégration qui est conseillée pour suivre cet enseignementde probabilité. Elles doivent être étudiées assez rapidement de façon à faire porter votre travailsur les autres chapitres. Dans ces trois premiers chapitres la notion de loi de probabilité, lethéorème du transfert, la notion de fonction caractéristique et les critères d’identification deslois, doivent être bien assimilés et maîtrisés.

Les concepts vraiment nouveaux et propres à la théorie des probabilités : indépendance, vecteursgaussiens, convergences, théorèmes-limites, ... etc, sont vues dans les quatre derniers chapitreset constituent le noyau de l’unité de probabilités.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 7: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

vPrésentation du cours

Il faut consacrer en gros un tiers du temps de travail de l’unité à l’étude des chapitres 1, 2 et3. Un tiers du temps aux chapitres 4 et 5, et un tiers du temps aux chapitres 6 et 7.

Vous avez à rédiger trois devoirs à envoyer pour correction à l’adresse suivante :

Bruno Saussereau, Laboratoire de Mathématiques de Besançon, UFR des Scienceset Techniques, 16, route de Gray, 25030 Besançon cedex, France.

1. Le devoir 1, dont le texte se trouve en annexe C, page 216, porte sur les chapitres I, IIet III. Il doit être envoyé au plus tard pour le 21 février 2014.

2. Le devoir 2, dont le texte se trouve en annexe C, page 218, porte principalement sur lechapitre IV et V mais pourra bien sûr faire appel à des résultats des chapitres précédents.Il doit être envoyé au plus tard pour le 28 mars 2014.

3. Le devoir 3, dont le texte se trouve en annexe C, page 220, porte principalement surles chapitres VI et VII, mais pourra bien sûr faire appel à des résultats des chapitresprécédents. Il doit être envoyé au plus tard pour le 18 avril 2014.

Le calendrier ci-dessus est donné à titre indicatif. Bien entendu, j’accepterai de corrigervos devoirs à n’importe quel moment. Cependant je vous conseille d’essayer de travaillerrégulièrement et de suivre ce calendrier.

Remarque finale

Comme pour tout document, des erreurs ou des coquilles peuvent s’être glissées lors de sarédaction, merci de me signaler celles que vous pourriez relever. Plus généralement, si vousavez des remarques sur le document, n’hésitez pas à m’en faire part.

Besançon, le 10 janvier 2014,

Bruno Saussereau

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 8: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

vi Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 9: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

Table des matières.

Présentation du cours i

Notations xi

1 Modèles probabilistes 11.1 Préliminaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Tribu sur un ensemble . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.3 Mesures et probabilités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.3.1 Mesure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.3.2 Probabilités et événements . . . . . . . . . . . . . . . . . . . . . . . 71.3.3 Propriétés élémentaires des probabilités . . . . . . . . . . . . . . . . . 11

1.4 Fonctions de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2 Loi d’un vecteur aléatoire 192.1 Remarques sur la modélisation de l’aléatoire . . . . . . . . . . . . . . . . . . 19

2.1.1 Cas discret . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192.1.2 Cas continu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202.1.3 Principe de modélisation . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.2 Applications mesurables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.3 Loi d’une variable aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.3.1 Variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232.3.2 Loi d’une variable aléatoire . . . . . . . . . . . . . . . . . . . . . . . 24

3 Moments d’un vecteur aléatoire 293.1 Rappels sur l’intégration des applications mesurables . . . . . . . . . . . . . . 29

3.1.1 Intégration des fonctions positives . . . . . . . . . . . . . . . . . . . . 293.1.2 Intégration des fonctions numériques . . . . . . . . . . . . . . . . . . 333.1.3 Intégration des fonctions vectorielles . . . . . . . . . . . . . . . . . . 363.1.4 Propriétés de l’intégrale . . . . . . . . . . . . . . . . . . . . . . . . . 373.1.5 Espaces de Lebesgue d’ordre p . . . . . . . . . . . . . . . . . . . . . 38

3.2 Théorème du transfert et moments d’une v.a. . . . . . . . . . . . . . . . . . . 403.2.1 Théorème du transfert et identification de lois . . . . . . . . . . . . . 403.2.2 Moments d’une variable aléatoire . . . . . . . . . . . . . . . . . . . . 45

3.3 Fonction caractéristique et loi d’une v.a. . . . . . . . . . . . . . . . . . . . . 493.4 Exercices de révision sur les chapitres I à III . . . . . . . . . . . . . . . . . . 59

Page 10: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

viii Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

4 Indépendance stochastique 614.1 Intégration sur Rn+p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 614.2 Indépendance de vecteurs aléatoires, d’événements, de tribus . . . . . . . . . . 66

4.2.1 Indépendance de vecteurs aléatoires . . . . . . . . . . . . . . . . . . . 664.2.2 Critères d’indépendance de vecteurs aléatoires . . . . . . . . . . . . . 684.2.3 Indépendance d’événements, de tribus . . . . . . . . . . . . . . . . . . 77

4.3 Tribu et événements asymptotiques . . . . . . . . . . . . . . . . . . . . . . . 804.4 Somme de v.a.r. indépendantes . . . . . . . . . . . . . . . . . . . . . . . . . 844.5 Exercices de révision sur les chapitres I à IV . . . . . . . . . . . . . . . . . . . 90

5 Vecteurs aléatoires gaussiens 955.1 Vecteur gaussien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 955.2 Loi d’un vecteur gaussien . . . . . . . . . . . . . . . . . . . . . . . . . . . . 985.3 Exercices de révision sur les chapitres I à V . . . . . . . . . . . . . . . . . . . 103

6 Lois des grands nombres et convergences de v.a.r. 1056.1 Convergence en probabilité d’une suite de v.a.r. . . . . . . . . . . . . . . . . . 105

6.1.1 Loi faible des grands nombres . . . . . . . . . . . . . . . . . . . . . . 1056.1.2 Convergence en probabilité . . . . . . . . . . . . . . . . . . . . . . . 109

6.2 Convergence presque-sûre d’une suite de v.a.r. . . . . . . . . . . . . . . . . . 1126.2.1 Loi forte des grands nombres . . . . . . . . . . . . . . . . . . . . . . 1126.2.2 Convergence presque-sûre . . . . . . . . . . . . . . . . . . . . . . . . 113

6.3 Convergence dans Lp

(⌦ , F , P) où p 2 [1, +1] . . . . . . . . . . . . . . . . . 1186.4 Comparaison des convergences dans L0

(⌦ , F , P) . . . . . . . . . . . . . . . . 1196.5 Exercices de révision sur les chapitres I à VI . . . . . . . . . . . . . . . . . . . 121

7 Théorème-limite central et convergence de lois 1237.1 Théorème-limite central (TLC) . . . . . . . . . . . . . . . . . . . . . . . . . 123

7.1.1 Énoncé du théorème-limite central (TLC) . . . . . . . . . . . . . . . . 1237.1.2 Cas particuliers du théorème-limite central (TLC) . . . . . . . . . . . . 1267.1.3 Correction de continuité . . . . . . . . . . . . . . . . . . . . . . . . . 128

7.2 Convergence d’une suite de probabilités, convergence en loi . . . . . . . . . . 1297.3 Exercices de révision sur les chapitres I à VII . . . . . . . . . . . . . . . . . . 141

8 Corrigés des exercices 1458.1 Corrigés des exercices du chapitre I . . . . . . . . . . . . . . . . . . . . . . . 1458.2 Corrigés des exercices du chapitre II . . . . . . . . . . . . . . . . . . . . . . . 1528.3 Corrigés des exercices du chapitre III . . . . . . . . . . . . . . . . . . . . . . 1558.4 Corrigés des exercices du chapitre IV . . . . . . . . . . . . . . . . . . . . . . 1658.5 Corrigés des exercices du chapitre V . . . . . . . . . . . . . . . . . . . . . . . 1838.6 Corrigés des exercices du chapitre VI . . . . . . . . . . . . . . . . . . . . . . 1908.7 Corrigés des exercices du chapitre VII . . . . . . . . . . . . . . . . . . . . . . 196

A Formulaire 205A.1 Rappels de notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205A.2 Quelques relations à connaître en probabilités . . . . . . . . . . . . . . . . . . 205A.3 Probabilités usuelles discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . 207A.4 Probabilités usuelles à densité . . . . . . . . . . . . . . . . . . . . . . . . . . 208

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 11: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

ixTable des matières.

B Table de la loi normale standard 211B.1 Calculs avec des v.a.r. normales centrées-réduites . . . . . . . . . . . . . . . . 211B.2 Calculs avec des v.a.r. normales de paramètres quelconques . . . . . . . . . . 212

C Devoirs à envoyer à la correction 215C.1 Devoir 1 à renvoyer le 21 février 2014 au plus tard . . . . . . . . . . . . . . . 216C.2 Devoir 2 à renvoyer le 28 mars 2014 au plus tard . . . . . . . . . . . . . . . . 218C.3 Devoir 3 à renvoyer le 18 avril 2014 au plus tard . . . . . . . . . . . . . . . . 220

Bibliographie. 221

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 12: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

x Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 13: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

xiNotations

Notations

Nous répertorions ici quelques notations générales qui seront utilisées dans l’ensemble du cours.

On note de façon classique respectivement par les lettres, N, Z, Q, R, C, les ensembles desnombres entiers naturels, relatifs, rationnels, réels, complexes.

Les lettres P et E seront introduites dans le cours mais ne devront pas être confondues avecles notations d’ensembles de nombres.

On pose R := R [ {+1,�1}. On étend l’ordre usuel de R à R en posant, pour tout x 2 R,�1 < x < +1. On prolonge les opérations classiques sur R de la façon suivante : pourtout x 2 R [ {+1}, x + (+1) = +1, x � (�1) = +1; pour tout x 2 R [ {�1},x + (�1) = �1, x � (+1) = �1. On remarquera que (+1) + (�1) et (+1)� (+1)

ne sont pas définis.

On suppose connues les notations classiques de la théorie élémentaire des ensembles : intersec-tion \, réunion [, différence de deux ensembles \, ensemble vide Ø, passage au complémentaire{ ou plus fréquemment c , inclusion (au sens large) ✓.

Le symbole de Halmos, 2, désignera la fin d’une démonstration.

Le symbole := signifie "est égal par définition". Il indique que le membre de gauche de := estune notation pour le membre de droite.

Chaque proposition, exemple, exercice, est numérotée par deux nombres séparés par un point.Par exemple "proposition 5.12" désigne la proposition 12 du chapitre 5.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 14: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

xii Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 15: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

1Chapitre 1. Modèles probabilistes

Chapitre 1

Modèles probabilistes

Le formalisme de la théorie des probabilités utilise les outils de la théorie de la mesure enadoptant un vocabulaire spécifique aux probabilités.

1.1 Préliminaires

Certaines définitions et notations de la théorie élémentaire des ensembles seront constammentutilisées dans la suite. Afin d’éviter toute ambiguïté nous les rappelons rapidement dans ceparagraphe.

Définition 1.1.Dans ce cours un ensemble sera dit dénombrable s’il est en bijection avec une partie (finie ouinfinie) de N.

(Attention : dans certains ouvrages, un tel ensemble est dit au-plus-dénombrable, le quali-ficatif dénombrable désignant alors les ensembles possédant un nombre fini d’éléments.)

Si A et B sont deux parties d’un ensemble E , on note Ac

:= {x 2 E / x 62 A}, ou aussi {E

Asi on souhaite préciser l’ensemble de référence E , le complémentaire de A dans E et

A \ B := A \ Bc

= {x 2 A / x 62 B}.

Définition 1.2.Soit f une application d’un ensemble E dans un ensemble F . Si A est une partie de F ,l’image-réciproque de A par f est l’ensemble, noté par les probabilistes {f 2 A}, défini par{f 2 A} := {x 2 E / f (x) 2 A}.L’ensemble {f 2 A} est donc une partie de E .

Exemples 1.1.Si f et g sont deux applications de E dans R et a un réel,{f = g} := {x 2 E / f (x) = g(x)}, {f g} := {x 2 E / f (x) g(x)},{f = a} := {x 2 E / f (x) = a}.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 16: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

2 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

En vue de la proposition suivante, rappelons que si (Ai

)

I

est une famille quelconque de partiesd’un ensemble F ,

[

i2I

Ai

désigne la partie de F constituée des éléments x de F tels qu’il existe

au moins un indice k 2 I , x 2 Ak

. De même,bigcap

i2I

Ai

désigne la partie de F constituée des éléments x de F tels que, pour tout indicek 2 I , x 2 A

k

.

Voici quelques propriétés classiques de l’image-réciproque :Proposition 1.1.Avec les notations introduites ci-dessus,

1. {f 2 Ø} := {x 2 E / f (x) 2 Ø} = Ø.2. Si A et B sont des parties de F avec A ✓ B alors, {f 2 A} ✓ {f 2 B}.3. Si (A

i

)

I

est une famille quelconque de parties de F ,

(

f 2[

i2I

Ai

)

=

[

i2I

{f 2 Ai

} et

(

f 2\

i2I

Ai

)

=

\

i2I

{f 2 Ai

} .

4. {f 2 A}c

= E \ {f 2 A} = {f 2 F \ A} = {f 2 Ac}.

On fera attention à l’ambiguïté de la notation c pour le complémentaire d’un ensemble dansl’assertion 4 de cette proposition : {f 2 A}c signifie {

E

{f 2 A} et {f 2 Ac} signifie {f 2 {F

A}.

Exercice 1.1. (Corrigé de l’exercice : page 145)Démontrer la proposition précédente.

Définition 1.3.L’indicatrice d’une partie A de E est l’application, notée 1l

A

, de E dans R définie, pourtout x 2 E , par 1l

A

(x) := 0 si x 62 A et 1lA

(x) := 1 si x 2 A.

Exercice 1.2. (Corrigé de l’exercice : page 145)Soient A, B et C trois parties d’un ensemble ⌦ .

1. Écrire 1lA\B

et 1lA[B

en fonction de 1lA

et 1lB

lorsque :(a) A et B sont disjoints ( i.e. A \ B = Ø).(b) A et B sont quelconques.

2. Exprimer, en fonction des indicatrices de A, B et C , les indicatrices des ensemblessuivants : Ac , A \ B , A [ B [ C .

Exercice 1.3. (Corrigé de l’exercice : page 146)Représenter graphiquement les fonctions définies sur R :

1.X

n�0

1l[n,+1[.

2.X

n�0

1l[0,n].

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 17: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

3Chapitre 1. Modèles probabilistes

3.X

n�0

(n + 1)1l[n,n+1[.

Enfin, rappelons que, si f et g sont deux applications d’un ensemble E dans R, la notationf g signifie que, pour tout x 2 E , f (x) g(x).

1.2 Tribu sur un ensemble

Définition 1.4.Une famille A de parties d’un ensemble E est appelée une tribu sur E , (ou dans certainsouvrages une �-algèbre sur E ), si elle vérifie les trois axiomes suivants :

1. E 2 A,

2. Si A 2 A, alors Ac 2 A,

3. Si (An

)N est une suite d’éléments de A, alors[

n2NA

n

2 A.

Définition 1.5.Le couple (E , A) s’appelle un espace mesurable et les éléments de A sont appelés lesparties mesurables de E relativement à la tribu A ou parties A-mesurables de E

On notera bien que A est un ensemble constitué de parties de E et donc une partie de P(E ),

l’ensemble de toutes les parties de E .

Exemples 1.2.les familles de parties de E , {Ø, E} et P(E ), sont des tribus sur E appelées tribus trivialesde E . On peut donc définir au moins une tribu sur tout ensemble E .

Exercice 1.4. (Corrigé de l’exercice : page 147)Soient n un entier strictement positif et (A1, A2, · · · , A

n

) une partition de E , i.e. une suitede parties non vides de E , deux à deux disjointes, dont la réunion est égale à E . Soit Ala famille des réunions qu’on peut fabriquer à partir de toutes les sous-familles de la suite(A1, A2, · · · , A

n

), c’est-à-dire la famille des parties de E de la forme[

i2K

Ai

où K parcourt

l’ensemble des parties de {1, 2, · · · , n}. Montrer que la famille A est une tribu sur E .

Pour une généralisation de ce résultat, on pourra consulter [2] exercice I-7 question 2.

Exercice 1.5. (Corrigé de l’exercice : page 147)Montrer que l’intersection d’une famille quelconque de tribus est une tribu. En est-il demême pour la réunion ?

La proposition suivante donne un procédé de construction de parties mesurables à partir d’autreséléments de la tribu :

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 18: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

4 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Proposition 1.2.Soit A une tribu sur E .

1. Ø 2 A.

2. Si (Ai

)

i2I

, où I ✓ N, est une suite (finie ou infinie) d’éléments de A, alors\

i2I

Ai

2 A et[

i2I

Ai

2 A.

Démonstration : Ø = E c , on conclut par les axiomes 1 et 2 de la définition des tribus.On pose A0

i

:= Ai

pour tout entier i 2 I et A0i

:= Ø pour tout entier i 2 N \ I . On applique lerésultat précédent et l’axiome 3 de la définition pour montrer que

S

i2I

Ai

=

S

n2N A0n

2 A.

Pour montrerT

i2I

Ai

2 A, on remarque que

\

i2I

Ai

=

[

i2I

Ac

i

!

c

On utilise alors le résultat précédent et l’axiome 2. 2

Exercice 1.6. (Corrigé de l’exercice : page 148)Montrer que si A et B sont deux parties mesurables de E relativement à la tribu A, alorsA \ B 2 A.

Pour des raisons techniques qui seront précisées plus loin, lorsqu’on travaille sur E := R ouplus généralement E := Rd avec d 2 N⇤

, il n’est pas possible d’utiliser la tribu P(R) ouP(Rd

) car elle est trop "grosse". Pour des explications plus détaillées consulter l’annexe ??,page ??. On doit donc définir une tribu plus "petite" (au sens de l’inclusion des ensembles)mais suffisamment riche en éléments pour contenir au moins les ensembles utilisés dans lesapplications pratiques de la théorie des probabilités, comme les intervalles de R ou les pavés deRd

, et leurs réunions ou intersections dénombrables.

Pour cela on définit la tribu borélienne ou tribu de Borel de R notée B(R). C’est la pluspetite des tribus sur R contenant tous les intervalles de la forme ]a, b], où a et b sont des réelstels que a < b. Cette dernière phrase signifie que si A est une tribu sur R contenant tous lesintervalles de la forme ]a, b], où a et b sont des réels tels que a < b, alors tout élément de latribu B(R) est un élément de la tribu A.

Plus généralement,

Définition 1.6.La tribu borélienne ou tribu de Borel de Rd

,, notée B(Rd

), est la plus petite des tribus surRd contenant tous les pavés de Rd i.e. les parties de la forme ]a1, b1]⇥]a2, b2]⇥ · · ·⇥]a

d

, bd

]

où, pour tout entier 1 i d , ai

et bi

sont des réels tels que ai

< bi

.

On peut de même définir la tribu borélienne sur B(R) :

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 19: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

5Chapitre 1. Modèles probabilistes

Définition 1.7.La tribu borélienne sur R, notée B(R), est la plus petite des tribus sur R contenant tous lesintervalles de la forme ]a, b], où a et b sont des réels tels que a < b, et les intervalles ]a, +1]

où a 2 R.

Définition 1.8.Les éléments des tribus B(R), resp. B(Rd

), sont appelés boréliens de R, resp. Rd

.

Exercice 1.7. (Corrigé de l’exercice : page 148)Prouver l’existence de la tribu de Borel de R. Pour cela, montrer que B(R) est l’intersectionde la famille (non vide car la tribu P(R) en fait partie) des tribus contenant tous les in-tervalles de la forme ]a, b] où a et b sont des réels tels que a < b.

Plus généralement :Définition 1.9.Soit C une famille de partie d’un ensemble E . On appelle tribu engendrée par C sur E , eton note �( C), la plus petite tribu (au sens de l’inclusion) définie sur E contenant la famille C.

On vérifiera aisément que la tribu �( C) est l’intersection de toutes les tribus sur E qui conti-ennent C.

Exemples 1.3.On montre en théorie de la mesure que la tribu borélienne de Rd est engendrée par lafamille constituée des parties ouvertes de Rd

.

Exercice 1.8. (Corrigé de l’exercice : page 148)Soient n un entier strictement positif et (A1, A2, · · · , A

n

) une partition de E . Montrerque la tribu construite dans l’exercice 1.4 est la tribu sur E engendrée par la famille(A1, A2, · · · , A

n

).

Dans la suite du cours les ensembles R et Rd seront toujours supposés munis de leurs tribusboréliennes.

La proposition suivante donne des exemples de boréliens de R. Pratiquement ceux-ci correspon-dent à la plupart des ensembles qui seront manipulés dans la suite :Proposition 1.3.

1. Tout singleton de R est un borélien.2. Toute partie dénombrable de R est un borélien.3. Tous les intervalles de R, quelle que soit leur forme, sont des boréliens de R.

4. Toutes les réunions dénombrables ou intersections dénombrables d’intervalles de R, ouplus généralement de boréliens, sont des boréliens.

Démonstration : Pour le singleton, on remarque que si a 2 R, on peut écrire

{a} =

+1\

k=1

a � 1

k, a

.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 20: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

6 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

On conclut alors avec la proposition 1.2 de la page 4. Pour l’assertion 2, on utilise l’axiome3 de la définition des tribus. Pour démontrer 3, on montre que tout intervalle peut être écritcomme réunion ou intersection dénombrable d’intervalles de la forme ]a, b] ou de singletons.Par exemple [a, b] =]a, b] [ {a} ce qui prouve que tout intervalle fermé borné est borélien.Autres exemples : ]a, b[=]a, b] \ {b} ou encore

]a, b[=

+1[

k=1

a, b � 1

k

, ]�1, b] =

+1[

k>�b

]� k , b].2

On notera que si toute réunion dénombrable ou intersection dénombrable d’intervalles de R estun borélien, cela ne signifie pas pour autant que tous les boréliens de R sont de cette forme.

De plus on montre que B(Rd

) est strictement incluse dans l’ensemble des parties de Rd

. Ilexiste donc des parties de Rd qui ne sont pas mesurables pour la tribu de Borel. Mais dansla pratique, tous les ensembles que nous serons amenés à utiliser dans Rd seront en fait desboréliens.

1.3 Mesures et probabilités

1.3.1 Mesure

Définition 1.10.Soit (E , A) un espace mesurable. Une mesure sur (E , A) est une application µ de A dans[0, +1] vérifiant les axiomes :

1. µ(Ø) = 0,

2. �-additivité : pour toute suite (An

)N d’éléments de A deux à deux disjoints

µ

+1[

k=0

Ak

!

=

+1X

k=0

µ(Ak

).

Le triplet (E , A, µ) s’appelle un espace mesuré.

La �-additivité entraîne la simple-additivité i.e. pour toute suite finie A1, · · · , An

d’éléments

de A deux à deux disjoints µ

+1[

k=0

Ak

!

=

+1X

k=0

µ(Ak

). Mais la réciproque est fausse, c’est-à-dire

qu’il ne suffit pas que le deuxième axiome de la définition précédente soit vrai pour les suitesfinies deux à deux disjointes pour qu’il le soit pour les suites infinies deux à deux disjointes. Uncontre-exemple est proposé dans l’exercice suivant.

Exercice 1.9. (Corrigé de l’exercice : page 148)On considère l’application µ de P(N) dans [0, +1] définie, pour tout A ✓ N, par

µ(A) :=

X

n2A

1

n2(avec la convention

1

0

= +1) si A est fini, µ(A) = +1 si A est infini,

et µ(Ø) = 0. Montrer que

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 21: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

7Chapitre 1. Modèles probabilistes

1. µ est simplement-additive sur N, i.e. pour toute suite finie A1, · · · , An

de parties de

N, deux à deux disjointes, µ

n

[

k=1

Ak

!

=

n

X

k=1

µ(Ak

).

2. µ n’est pas �-additive sur N.

On admettra qu’il existe une unique mesure sur (Rd

, B(Rd

)), notée �(d) et appelée mesurede Lebesgue sur Rd

, telle que, pour tout pavé de la forme ]a1, b1]⇥]a2, b2]⇥ · · ·⇥]ad

, bd

]

où pour tout entier 1 i d , les réels ai

et bi

vérifient ai

< bi

,

�(d)(]a1, b1]⇥]a2, b2]⇥ · · ·⇥]a

d

, bd

]) = (b1 � a1)(b2 � a2) · · · (bd

� ad

).

La mesure de Lebesgue étend donc les notions de mesure de longueur (cas d = 1), mesured’aire (cas d = 2), mesure de volume (cas d = 3) à toutes les parties de Rd qui sont desboréliens. Dans le cas d = 1 on notera, pour simplifier, � := �(1)

.

On montre que �(d)�

Rd

= +1. On dit que la mesure de Lebesgue est une mesure non finiecontrairement aux probabilités que nous allons définir ci-dessous et qui sont des cas particuliersde mesures finies.

Exercice 1.10. (Corrigé de l’exercice : page 149)Vérifier que R =

[

k2Z]k , k + 1] et en déduire que � (R) = +1 en appliquant l’axiome de

�-additivité de la mesure de Lebesgue.

1.3.2 Probabilités et événements

Définition 1.11.Une probabilité sur (E , A) est une mesure µ sur (E , A) telle que µ(E ) = 1. Le triplet(E , A, µ) s’appelle alors un espace de probabilité, les parties mesurables s’appellent lesévénements relatifs à µ. E est l’événement certain, Ø est l’événement impossible. Deuxévénements disjoints sont dits incompatibles.

Dorénavant, sauf indication contraire, (E , A, µ) désignera un espace de probabilité.

Définition 1.12.Une partie A de E est dite négligeable pour µ, s’il existe un événement B tel que A ✓ B avecµ(B) = 0. Une propriété P(x), dépendant de l’élément x 2 E , est dite µ-presque-sûre (enabrégé µ-p.s.) si l’ensemble des x 2 E pour lesquels la propriété P(x) n’est pas vérifiée estnégligeable pour µ.

Définition 1.13.Deux événements A et B sont dits µ-presque-sûrement égaux si l’événement (A\B)[(B\A)

est négligeable pour µ.

Un événement négligeable pour µ est µ-presque-sûrement vide, c’est-à-dire µ-presque-sûrementimpossible.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 22: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

8 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Exemples 1.4.1) Donnons un premier exemple de probabilité sur E := Rd

. Comme convenu on sous-entend A := B(Rd

). Soit a 2 Rd fixé, on note �a

l’application de B(Rd

) dans {0, 1}définie, pour tout borélien A, par �

a

(A) = 1lA

(a) c-à-d �a

(A) = 1 si a 2 A et �a

(A) = 0

sinon.�a

est une probabilité sur�

Rd

, B(Rd

)

appelée probabilité de Dirac au point a sur Rd

.

On vérifie aisément que toute partie de Rd ne contenant pas a est négligeable pour �a

. Lesingleton {a} est un événement �

a

-presque-sûrement égal à l’événement certain Rd

.

2) D’après le résultat de l’exercice 1.10, la mesure de Lebesgue n’est pas une probabilitésur Rd .

Exercice 1.11. (Corrigé de l’exercice : page 149)Vérifier que �

a

, où a est un réel, est bien une probabilité sur R.

Donnons sous forme de proposition un exemple générateur de mesures et en particulier deprobabilités :Proposition 1.4.Soient (µ

k

)N une suite de mesures sur (E , A) et (↵k

)N une suite de réels positifs. Alorsl’application

µ : A 2 A 7! µ(A) :=

+1X

k=0

↵k

µk

(A)

est une mesure sur (E , A) notée

µ :=

+1X

k=0

↵k

µk

.

Démonstration : On vérifie aisément que µ(Ø) = 0. La �-additivité de µ découle immédiatementdu lemme suivant sur l’interversion des indices, souvent utile dans les calculs : Si (a

i ,j)(i ,j)2N2

est une suite-double de réels positifs, alors

+1X

i=0

+1X

j=0

ai ,j =

+1X

j=0

+1X

i=0

ai ,j .

Cette somme peut être éventuellement infinie. Pour une démonstration du lemme se reporterà [1] tome 2, p. 306. 2

On notera que si les mesures µk

sont des probabilités sur (E , A) et si+1X

k=0

↵k

= 1, alors la

mesure+1X

k=0

↵k

µk

est une probabilité sur (E , A).

Exemples 1.5.Appliqué au cas particulier où les probabilités µ

k

sont les probabilités sur R de Dirac aupoint k 2 N, le procédé précédent permet de construire d’autres exemples classiques deprobabilités. Si n 2 N⇤, ↵ 2]0, +1[, p 2]0, 1[ et q := 1� p, on définit :

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 23: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

9Chapitre 1. Modèles probabilistes

1. la probabilité binomiale de paramètres n et p :

B(n, p) :=

n

X

k=0

C k

n

pkqn�k�k

.

2. la probabilité de Poisson de paramètre ↵ :

P(↵) :=

1X

k=0

e�↵↵k

k!

�k

.

3. la probabilité géométrique de paramètre p :

G(p) :=

+1X

k=1

pqk�1�k

.

4. la probabilité uniforme-discrète de paramètre n ou équiprobabilité sur {1, 2, · · · , n}:

U(n) :=

1

n

n

X

k=1

�k

.

La probabilité B(1, p) est appelée probabilité de Bernoulli de paramètre p et se notesimplement B(p).

Exercice 1.12. (Corrigé de l’exercice : page 149)Vérifier que les probabilités introduites dans l’exemple précédent sont bien des probabilitésconstruites suivant le procédé de la proposition 1.4.

Exercice 1.13. (Corrigé de l’exercice : page 149)1) Expliciter les expressions analytiques, pour tout i 2 N, de B(n, p)({i}) et P(↵) ({i}) .

2) Expliciter et calculer P(

1

10

) ({1, 3, 5, 7}) et B(7,

3

10

) ({0, 3, 5}) .

Définition 1.14.Une probabilité µ sur Rd est dite discrète et portée par l’ensemble F si elle peut s’écriresous la forme µ =

X

n2Np

n

�a

n

où (pn

)N est une suite de réels positifs ou nuls, (an

)N est une suite

de vecteurs de Rd et F désigne l’ensemble des an

2 Rd pour lesquels pn

> 0.

Exemples 1.6.Les probabilités binomiale B(n, p), de Poisson P(↵), de Dirac �

a

sont discrètes et portéesrespectivement par les ensembles {0, 1, · · · , n}, N, {a}.

Il ne faut pas croire que toutes les probabilités soient discrètes. Par exemple on admettra qu’ilexiste une unique probabilité sur R, notée N 1(0, 1) et appelée probabilité de Gauss-Laplacestandard, ou probabilité normale standard, telle que pour tout x 2 R,

N 1(0, 1) (]�1, x ]) =

1p2⇡

Z

x

�1e�

12 t

2dt.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 24: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

10 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

On verra un peu plus loin que cette probabilité ne peut pas s’écrire sous la forme d’une com-binaison linéaire de probabilités de Dirac et n’est donc pas discrète.

Remarquons que le nombre réel N 1(0, 1) (]�1, x ]) représente la mesure de l’aire délimitée

par l’axe des abscisses t, la courbe d’équation y =

1p2⇡

e�12 t

2, et la droite d’équation t = x . On

dira pour simplifier qu’il s’agit de la mesure de l’aire sous la courbe d’équation y =

1p2⇡

e�12 t

2,

comprise entre �1 et x .

On peut généraliser un peu la construction précédente.Définition 1.15.Nous appellerons densité de probabilité sur R toute application ⇢ positive de R dans[0, +1], continue sur R, sauf éventuellement en un nombre fini de points où la courbe présente

des sauts finis, telle queZ +1

�1⇢(t)dt = 1.

On montre alors qu’il existe une unique probabilité µ sur R telle que, pour tout x 2 R,

µ (]�1, x ]) =

Z

x

�1⇢(t)dt.

On dit que µ est une probabilité à densité sur R. On écrit µ = ⇢ · � pour exprimer que µadmet ⇢ pour densité. Nous généraliserons de façon définitive la définition de densité d’uneprobabilité sur Rd au chapitre III par la définition 3.2, page 35.

Comme précédemment, le réel µ (]�1, x ]) représente la mesure de l’aire sous la courbed’équation y = ⇢(t), comprise entre �1 et x .

On peut de façon plus générale définir des mesures à densité, qui ne sont plus nécessaire-ment des probabilités, en remplaçant dans la définition de la densité ci-dessus, la conditionZ +1

�1⇢(t)dt = 1 par la condition plus faible

Z +1

�1⇢(t)dt < +1.

L’existence des mesures à densité résulte d’un théorème de prolongement assez technique quenous n’énoncerons pas. Nous nous contenterons d’admettre l’existence de telles mesures.

Exemples 1.7.

1. La probabilité de Gauss-Laplace standard vue plus haut admet la densité ⇢ définiesur R par ⇢(t) :=

1p2⇡

e�12 t

2 .

2. L’application ⇢ :=

1

b � a1l[a,b], avec a < b, est la densité d’une probabilité sur R

appelée probabilité uniforme-continue sur [a, b] et notée U([a, b]).

3. L’application ⇢, définie sur R par ⇢(t) := ↵e�↵t1l]0,+1[(t), est la densité d’une proba-bilité sur R appelée probabilité exponentielle de paramètre ↵ > 0 et notée E(↵).

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 25: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

11Chapitre 1. Modèles probabilistes

On pourrait se demander pourquoi on ne définit pas les mesures comme des applications µ�-additives de l’ensemble des parties de E dans [0, +1] avec µ(Ø) = 0. Cela reviendrait àprendre toujours A := P(E ) et éviterait le recours à la notion de tribu. En fait, on montre quecertaines probabilités, comme celle de Gauss définie plus haut, ne peuvent pas être définies pourtoutes les parties de R. Plus précisément, on montre que, toujours dans le cas de E := R, lesseules probabilités qui satisferaient à cette nouvelle définition seraient les probabilités discrètes.Malheureusement cette famille n’est pas assez riche pour permettre de modéliser grand nombredes situations aléatoires qui se présentent dans les applications concrètes de la théorie. Pourplus de développements se reporter à l’annexe ??, page ??, de ce cours.

1.3.3 Propriétés élémentaires des probabilités

(E , A, µ) désigne un espace de probabilité.Proposition 1.5.

1. Pour tout A, B 2 A tel que A ✓ B , µ(A) µ(B). En particulier pour tout A 2 A,

µ(A) 1.

2. Pour tout A, B 2 A, µ(B \ A) = µ(B) � µ(A \ B). En particulier si A ✓ B ,

µ(B \ A) = µ(B)� µ(A).

3. Pour tout A, B 2 A, µ(A [ B) = µ(A) + µ(B)� µ(A \ B).

4. Pour tout A 2 A, µ(Ac

) = 1� µ(A).

Démonstration : 1) On remarque que B = (B \ A) [ A car A ✓ B . De plus (B \ A) \ A = Ø.

D’où µ(B) = µ(A) + µ(B \ A) � µ(A) l’égalité résultant de ce que l’union est disjointe. Onconclut par l’axiome 2 des mesures. Pour la deuxième partie prendre B = E .

2) résulte de l’égalité ensembliste (B \A)[ (A\B) = B avec (B \A)\ (A\B) = Ø. Pour ladeuxième partie remarquer que si A ✓ B , A \ B = A.

3) résulte de A [ B = (A \ B) [ B où l’union est disjointe.4) résulte de Ac

= E \ A avec A ✓ E . 2

Pour démontrer l’inégalité de Bonferroni nous aurons besoin du résultat ensembliste suivantlaissé en exercice :Proposition 1.6.Soit (A

n

)N une suite de parties d’un ensemble E . Posons B0 := A0 et, pour tout entier k � 1,

Bk

:= Ak

\(A0 [ A1 [ · · · [ Ak�1) . Alors, pour tout entier n � 0, B

n

✓ An

et la suite (Bn

)N est

formée de parties deux à deux disjointes vérifiant, pour tout entier naturel n,

n

[

k=0

Bk

=

n

[

k=0

Ak

,

et+1[

k=0

Bk

=

+1[

k=0

Ak

.

Exercice 1.14. (Corrigé de l’exercice : page 150)Démontrer la proposition 1.6.

Ce résultat est souvent utile pour se ramener à des familles de parties deux à deux disjointescar, du fait de l’axiome de �-additivité, il est beaucoup plus facile de manipuler des réunions

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 26: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

12 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

de parties de E deux à deux disjointes. Voici une illustration de cette remarque dans ladémonstration ci-dessous de l’inégalité de Bonferroni.Proposition 1.7.Inégalité de Bonferroni ou propriété de sous-additivitéPour toute suite (A

n

)N d’éléments de A,

µ

+1[

k=0

Ak

!

+1X

k=0

µ(Ak

).

En conséquence, une réunion dénombrable d’événements négligeables pour µ est négligeable.

Démonstration : On applique la �-additivité des mesures à la suite (Bn

)N de la proposition 1.6et on utilise les propriétés élémentaires des probabilités énoncées dans la proposition 1.5. 2

La formule de Poincaré ci-dessous, qu’on admettra , généralise au cas de n événements larelation 3) de la proposition 1.5, page 11, établie pour deux événements (la démonstrationpeut se faire par récurrence sur l’entier n, une autre démonstration utilisant les propriété del’intégrale sera proposée au chapitre III dans l’exemple 3.9, page 37).Proposition 1.8.Formule de PoincaréPour toute suite (A1, A2, · · · , A

n

) d’éléments de A,

µ

k=n

[

k=1

Ak

!

=

k=n

X

k=1

(�1)

k+1

X

1i1<i2<···<i

k

n

µ (Ai1 \ A

i2 \ · · · \ Ai

k

)

!

.

Proposition 1.9.Théorème de continuité monotone

1. Pour toute suite (An

)N d’éléments de A, croissante au sens de l’inclusion, (µ(An

))N est

une suite réelle croissante convergeant vers µ

+1[

k=0

Ak

!

c-à-d

µ

+1[

k=0

Ak

!

= lim

n!+1µ(A

n

).

2. Pour toute suite (An

)N d’éléments de A, décroissante au sens de l’inclusion, la suite

(µ(An

))N est une suite réelle décroissante convergeant vers µ

+1\

k=0

Ak

!

c-à-d

µ

+1\

k=0

Ak

!

= lim

n!+1µ(A

n

).

Démonstration : 1) Soit (An

)N suite croissante d’éléments de A. Utilisons la suite construitedans la proposition 1.6. Comme la suite (A

n

)N est croissante, pour tout entier n � 1,

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 27: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

13Chapitre 1. Modèles probabilistes

Bn

= An

\ An�1 et B0 = A0. (B

n

)N est une suite d’éléments de A deux à deux disjoints

avec+1[

k=0

Ak

=

+1[

k=0

Bk

. Il vient

µ

+1[

k=0

Ak

!

= µ

+1[

k=0

Bk

!

=

+1X

k=0

µ(Bk

) = µ(A0) +

+1X

k=1

(µ(Ak

)� µ(Ak�1))

= µ(A0) + lim

n

k=n

X

k=1

(µ(Ak

)� µ(Ak�1)) = lim

n

µ(An

).

D’où la première partie.2) Comme µ est une probabilité,

µ

+1\

k=0

Ak

!

= 1� µ

+1[

k=0

Ac

k

!

.

Or (Ac

n

)N est une suite croissante d’éléments de A. D’après la première partie de la démon-

stration, µ

+1[

k=0

Ac

k

!

= lim

n

µ(Ac

n

). Par suite

µ

+1\

k=0

Ak

!

= lim

n

(1� µ(Ac

n

)) = lim

n

µ(An

).

D’où la deuxième partie. 2

1.4 Fonctions de répartition

La possibilité de définir une probabilité sur une tribu à partir de la connaissance des valeursde cette mesure sur une sous-famille de la tribu, résulte d’un théorème de prolongement asseztechnique que nous n’énoncerons pas. En revanche, il est souvent utile de montrer qu’il existeune unique probabilité sur la tribu qui prend des valeurs seulement connues sur une sous-famillede la tribu.

L’unicité dans le cas des probabilités résulte d’un théorème, appelé théorème d’unicité, quidécoule lui-même du théorème des classes monotones qu’on admettra, dont il est utile deconnaître l’énoncé. Commençons tout d’abord par donner deux définitions :

Définition 1.16.Une famille M de parties de E est appelée une classe monotone sur E si elle vérifie les troisaxiomes suivants :

1. E 2 M.

2. Si A 2 M et B 2 M avec B ✓ A, alors A \ B 2 M.3. Si (A

n

)N est une suite croissante au sens de l’inclusion d’éléments de la famille M, alors+1[

n=0

An

2 M.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 28: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

14 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

De façon analogue à la définition correspondante pour les tribus, si J est une famille de partiesde E , on appellera classe monotone engendrée par J la plus petite classe monotone surE contenant tous les éléments de la famille J . On vérifie aisément que la classe monotoneengendrée par J est l’intersection de toutes les classes monotones sur E contenant tous leséléments de la famille J .

Moyennant ces deux définitions le théorème des classes monotones s’énonce :Proposition 1.10.Théorème des classes monotones (admis)Soit J une famille, stable par intersections finies, de parties d’un ensemble E , alors la classemonotone engendrée par J coïncide avec la tribu engendrée par J .

Une application importante de ce théorème est le théorème d’unicité sur les probabilités :Proposition 1.11.Théorème d’unicité pour les probabilitésSoit C une famille, stable par intersections finies, de parties d’un ensemble E . Soit A la tribuengendrée par C, i.e. A = �( C). Si µ et ⌫ sont deux probabilités définies sur l’espace (E , A)

telles que, pour tout A 2 C, µ(A) = ⌫(A), alors, pour tout A 2 A, µ(A) = ⌫(A), i.e. µ = ⌫.

Démonstration : Notons H la famille des événements A 2 A tels que µ(A) = ⌫(A). D’aprèsl’item 1 de la proposition 1.9, on vérifie aisément que H est une classe monotone qui contient lafamille C. Donc H contient la classe monotone engendrée par C. Comme, par hypothèse C eststable par intersections finies, d’après le théorème des classes monotones, la classe monotoneengendrée par C coïncide avec la tribu engendrée par C, c’est-à-dire A. Finalement, pour toutA 2 A ✓ H, µ(A) = ⌫(A). 2

Ce résultat montre que pour prouver que deux probabilités sont égales, il suffit de mettre enévidence qu’elles coïncident sur une famille engendrant la tribu, stable par intersections finies.Cette remarque justifie la définition suivante :Définition 1.17.Une famille de parties d’un ensemble non vide E stable par intersections finies est appelée un⇡-système de parties de E .

Par exemple, si nous prenons E = R, la famille C de tous les intervalles de R de la forme] � 1, x ] où x parcourt R, est un ⇡-système de parties de R. De plus C engendre la tribuborélienne de R car, pour tout réel a et b avec a < b, ]a, b] =]�1, b]\]�1, a]. Le théorèmed’unicité 1.11 appliqué à C et R muni de la tribu de Borel devient alors :Proposition 1.12.Lemme d’unicité pour les probabilités sur RSoient µ et ⌫ deux probabilités sur R.

Si pour tout x 2 R µ(]�1, x ]) = ⌫(]�1, x ]), alors µ = ⌫.

Ce résultat a pour conséquence que pour identifier une probabilité µ sur R, il suffit d’identifierl’application Fµ de R dans [0, 1], définie, pour tout x 2 R, par Fµ(x) := µ(]�1, x ]).

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 29: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

15Chapitre 1. Modèles probabilistes

Définition 1.18.On dit que Fµ est la fonction de répartition de la probabilité µ, en abrégé f.r. .

Avec ces notations on peut énoncer autrement le lemme d’unicité pour les probabilités sur R :Proposition 1.13.Deux probabilités sur R sont identiques si, et seulement si, elles ont la même fonction derépartition.

Exemples 1.8.1) La f.r. de �

a

, où a 2 R, est 1l[a,+1[.

2) La f.r. de B(p) est p1l[1,+1[ + (1� p)1l[0,+1[.

3) La f.r. de1

4

�0+3

4

N 1(0, 1) est1

4

1l[0,+1[+3

4

F où F désigne la f.r. de la probabilité N 1(0, 1).

Les valeurs de la fonction de répartition de la probabilité N 1(0, 1) sont "tabulées". On trou-vera la tables des valeurs de la fonction de répartition de la probabilité normale standard,appelée communément table de la loi normale centrée-réduite, avec un mode d’emploidans l’annexe B, page 211, de ce cours.

A titre d’entraînement, on pourra également chercher à exprimer les fonctions de répartitiondes probabilités E(↵) et U([a, b]) (On trouvera leur expression dans le formulaire reproduit enannexe A, page 205.

Exercice 1.15. (Corrigé de l’exercice : page 150)

Soit F l’application de R dans R définie, pour tout réel x , par F (x) := 1� 1

2

e�x si x � 0,

et F (x) :=

1

2

ex si x 0. Montrer que F est la fonction de répartition d’une probabilité àdensité qu’on déterminera.Proposition 1.14.Soit µ une probabilité sur R de fonction de répartition F . Alors

1. F est croissante sur R et admet des limites à droite en tout point de R [ {�1} et àgauche en tout point de R [ {+1}. De plus F est continue-à-droite sur R,

lim

x!�1F (x) = 0 et lim

x!+1F (x) = 1.

2. Pour tous réels a, b avec a < b :(a) µ(]a, b]) = F (b) � F (a) et µ(] �1, a[) = F (a�) où F (a�) désigne la limite-à-

gauche de F au point a.(b) µ({a}) = F (a)� F (a�).

(c) F est continue en a si, et seulement si, µ({a}) = 0.

Démonstration : 1) Soient x , y des réels vérifiant x y . Comme ]�1, x ] ✓]�1, y ] il vientF (x) = µ(]�1, x ]) µ(]�1, y ]) = F (y). Donc F est croissante sur R.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 30: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

16 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Pour montrer que F admet une limite-à-gauche, considérons un point a de R[{+1} et posonsl := sup

x<a

F (x). l est dans R puisque F est bornée par 1. Soit " > 0, il existe x0 < a tel que

l � F (x0) > l � ". Donc, pour tout x 2]x0, a[, l � F (x) � F (x0) > l � " c-à-d |F (x)� l | < ",ce qui donne l’existence de la limite-à-gauche en a pour F .On montre de même l’existence d’une limite-à-droite F (a+) := inf

x>a

F (x).

La suite d’intervalles✓

]�1, a +

1

n]

N⇤est décroissante et

+1\

k=0

]�1, a+

1

n] =]�1, a], donc

par le théorème de continuité monotone 1.9 de la page 12

µ (]�1, a]) = lim

n

µ

]�1, a +

1

n]

c-à-d F (a) = lim

n

F

a +

1

n

= F (a+) car la limite-à-droite existe au point a. F est donc

continue-à-droite en tout point de R.

La suite d’intervalles (]�1,�n])N est décroissante et+1\

n=0

]�1,�n] = Ø. La suite (]�1, n])N

est croissante et+1[

n=0

]�1, n] = R. Par application du théorème de continuité monotone à ces

deux dernières suites, on obtient les valeurs des limites de F en �1 et +1.

2-a) µ(]a, b]) = µ(] �1, b]) � µ(] �1, a]) car ]a, b] =] �1, b]\] �1, a]. D’où le premierrésultat.Comme ] � 1, a[=

[

n�1

] � 1, a � 1

n] et que F admet une limite-à-gauche en a d’après la

première partie,

µ(]�1, a[) = lim

n!+1µ(]�1, a � 1

n]) = lim

n!+1F

a � 1

n

= lim

x!a,x<a

F (x) = F (a�).

ce qui donne le second résultat.2-b) On peut écrire {a} =]�1, a]\]�1, a[. Par suite, µ({a}) = µ(]�1, a])�µ(]�1, a[) =

F (a)� F (a�).2-c) F est continue en a si, et seulement si, F (a) = F (a�) c-à-d µ({a}) = 0, d’après 2-b. 2

Exercice 1.16. (Corrigé de l’exercice : page 150)Montrer que, pour tout réel x , N 1(0, 1) ({x}) = 0 et en déduire que la probabilité N 1(0, 1)

ne peut pas s’écrire comme combinaison linéaire de probabilités de Dirac.

Exercice 1.17. (Corrigé de l’exercice : page 150)1. Montrer que si µ est une probabilité admettant une densité sur R, alors pour tout

réel a, µ({a}) = 0, c’est-à-dire tout singleton est négligeable pour µ. On dit dans cecas que la probabilité µ est diffuse sur R.

2. Avec les notations de la proposition précédente, montrer que pour tous réels a, bvérifiant a < b, µ(]a, b[) = F (b�)� F (a) et µ([a, b[) = F (b�)� F (a�).

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 31: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

17Chapitre 1. Modèles probabilistes

Exercice 1.18. (Corrigé de l’exercice : page 151)

Calculer U([0, 1])

[

1

6

,

4

3

]

, U([0, 1]) (Q) , E(2)

{⇡} [ [

9

2

, 7]

.

On admettra le résultat suivant, réciproque de l’item 1 de la proposition 1.14, qui prouve qu’il ya bijection entre l’ensemble des probabilités sur R et l’ensemble des fonctions sur R, croissantes,continues-à-droite sur R, telles que lim

x!�1F (x) = 0 et lim

x!+1F (x) = 1 (cf. [3] exercice I-16) :

Proposition 1.15.Si F est une application croissante de R dans [0, 1], continue-à-droite sur R avec

lim

x!�1F (x) = 0 et lim

x!+1F (x) = 1,

alors il existe une unique probabilité sur R dont F est la fonction de répartition.

Exercice 1.19. (Corrigé de l’exercice : page 151)Donner une représentation graphique de l’application

F : t 2 R 7! F (t) =

1

4

(t + 2)1l[�1,0[[]1,2[(t) +

3

4

1l[0,1](t) + 1l[2,+1[(t),

et montrer que F est la fonction de répartition d’une probabilité à densité qu’on précisera.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 32: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

18 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 33: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

19Chapitre 2. Loi d’un vecteur aléatoire

Chapitre 2

Loi d’un vecteur aléatoire

2.1 Remarques sur la modélisation de l’aléatoire

Le but de ce premier paragraphe est de fournir quelques éléments de réflexion sur la modélisa-tion mathématique de phénomènes aléatoires. Pour une analyse plus approfondie sur l’intérêtd’introduire la notion de variable aléatoire et de loi de probabilité, on pourra consulter l’annexe??, page ??.

Considérons les deux situations suivantes :

2.1.1 Cas discret

Une personne s’intéresse à la somme des valeurs obtenues dans le lancer simultané de deux déséquilibrés. On modélisera l’ensemble des issues possibles de cette expérience aléatoire par

⌦ := {(i , j) 2 N2/1 i , j 6}.

Les événements peuvent être modélisés par des parties de ⌦ . On peut prendre comme tribudes événements l’ensemble P(⌦) de toutes les parties de ⌦ . Les dés étant équilibrés, onchoisira pour probabilité P sur (⌦ , P(⌦)) l’équiprobabilité sur ⌦ i.e. pour tout (i , j) 2 ⌦ ,

P({(i , j)}) =

1

36

ou encore P =

1

36

X

1i ,j6

�(i ,j).

Le triplet (⌦ , P(⌦), P) représente le modèle mathématique permettant de traiter la situation.Cependant comme on s’intéresse plutôt à la somme des valeurs obtenues, l’événement "Lasomme des valeurs obtenues appartient à A", où A est un borélien de R, se modélise par lapartie e

A

de ⌦ formée des couples (i , j) tels que i + j 2 A. On peut aussi écrire l’événement eA

grâce au langage des applications en notant X l’application de ⌦ dans R qui, à tout ! = (i , j),associe X (!) = i + j et en remarquant que e

A

= {! 2 ⌦/X (!) 2 A} = {X 2 A} c-à-d queeA

est l’image-réciproque de A par l’application X . On remarque enfin que ce qui est importantpour notre étude du phénomène c’est de connaître la valeur de P(e

A

) = P(X 2 A) pour toutborélien A de R.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 34: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

20 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

2.1.2 Cas continu

Envisageons maintenant le cas d’un ingénieur hydraulicien qui s’intéresse aux risques d’inondationpar un fleuve dans l’intention de construire une digue protectrice. Pour cela il va considérerl’évolution de la hauteur du niveau de l’eau sur l’année. Cela revient à considérer la hauteur surune année comme une application continue de [0, 1] dans R+

. L’ensemble des issues possiblesde ce phénomène aléatoire peut être modélisé par ⌦ := C([0, 1], R+

) ensemble des applicationscontinues de [0, 1] dans R+

. Comme pour R, et contrairement à ce qu’on a fait pour le casprécédent, il n’est pas possible de prendre P(⌦) comme tribu sur ⌦ . On considérera une tribuF plus petite qu’on ne précise pas pour l’instant. De même on ne précisera pas la probabilité Pdéfinie sur F . On verra plus loin qu’au fond ce n’est pas nécessaire, seule l’existence du triplet(⌦ , F , P) devant être assurée.

En fait l’ingénieur s’intéressera surtout aux événements de la forme "La hauteur maximaledu niveau du fleuve sur une année appartient à A" où A est un intervalle de R. Cet événe-ment se modélise par la partie e

A

de ⌦ formée des fonctions ! 2 C([0, 1], R+) telles que

sup0t1 !(t) 2 A. On peut aussi écrire l’événement eA

grâce au langage des applications ennotant X l’application de ⌦ dans R qui à tout ! associe X (!) = sup0t1 !(t) et en remar-quant que e

A

= {! 2 ⌦/X (!) 2 A} = {X 2 A} c-à-d que eA

est l’image-réciproque de A parl’application X .

Pour que l’expression P(X 2 A) ait un sens, il faudra s’assurer (ou imposer) plus généralementque, pour tout borélien A de R, l’image-réciproque de A par l’application X soit un élémentde F . Car, comme dans la situation précédente, c’est la valeur de P(X 2 A) qui intéresseral’ingénieur, c-à-d l’application P

X

: A 2 F 7! P(X 2 A). PX

est une probabilité sur R doncun objet mathématique beaucoup plus facile à manipuler qu’une probabilité sur une tribu deC([0, 1], R+

).

2.1.3 Principe de modélisation

En conclusion de ces deux exemples on notera que, en pratique, modéliser mathématiquementun phénomène aléatoire revient à introduire :

1. un triplet (⌦ , F , P), sans en préciser davantage les termes, comme un espace deprobabilité abstrait,

2. une application X : ⌦ 7! Rd telle que, pour tout borélien A de Rd , l’image-réciproquede A par l’application X soit un élément de F .

C’est alors l’application PX

: A 2 F 7! P(X 2 A) qui sera l’objet important du modèle, celuiqui traduira mathématiquement le problème particulier qui intéresse l’ingénieur au sein de lasituation aléatoire globale.

Dans la suite de l’ouvrage le triplet (⌦ , F , P) désignera un espace de probabilité pris commeréférence et quelquefois appelé espace de base . Les ensembles mesurables relativement à Fseront appelés événements de ⌦ .

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 35: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

21Chapitre 2. Loi d’un vecteur aléatoire

2.2 Applications mesurables

Définition 2.1.Soient (E , A) et (F , B) deux espaces mesurables, une application f de E dans F est dite(A, B)-mesurable si, pour tout B 2 B, {f 2 B} 2 A.

Dans les cas où (E , A) est quelconque et (F , B) := (Rk

, B(Rk

)), on dit simplementA-mesurable au lieu de (A, B(Rk

))-mesurable.Une application A-mesurable à valeurs dans R est une application (A, B(R))-mesurable.

La proposition suivante donne un premier exemple d’applications mesurables :

Proposition 2.1.Soit A une partie de E . Alors 1l

A

est A-mesurable si, et seulement si, A 2 A.

Démonstration : On remarque que si B est un borélien de R, l’image réciproque de B par 1lA

est l’un des ensembles Ø, A, Ac

, ou E . Ce qui prouve par définition de la mesurabilité que 1lA

est A-mesurable si, et seulement si, A est A-mesurable. 2

Définition 2.2.Dans les cas où (E , A) := (Rn

, B(Rn

)) et (F , B) := (Rk

, B(Rk

)) on dit que f est boréliennepour exprimer qu’elle est (B(Rn

), B(Rk

))-mesurable.

La proposition suivante donne des classes importantes de fonctions boréliennes qui correspon-dent à la plupart des cas qu’on considérera par la suite. Pour une démonstration d’une partiede la proposition on pourra consulter [2] exercice I-10.Proposition 2.2.(admis)Toute application continue de Rn dans Rk est borélienne. Toute application monotone de Rdans R est borélienne. Toute dérivée d’une application dérivable de R dans R est borélienne.

Exercice 2.1. (Corrigé de l’exercice : page 152)Soit f une application borélienne de Rk dans Rd et ' une application A-mesurable de Edans Rk

. Montrer que l’application f � ' est une application A-mesurable de E dans Rd

.

Comme pour la notion d’ensemble mesurable, les applications mesurables correspondent auxapplications sur lesquelles la théorie de la mesure permet de dire quelque chose d’intéressant.On doit s’attendre à ce que toutes les applications qu’on est amené à manipuler dans la pratiquesoient mesurables.

Introduisons la notation suivante qui est utile pour étendre une propriété, vraie pour la classedes fonctions positives, à la classe des fonctions de signe quelconque :Définition 2.3.Si f est une application d’un ensemble E dans R notons f +

:= sup(f , 0) et f � := sup(�f , 0).Les applications f + et f � sont appelées respectivement la partie positive et la partienégative de f .

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 36: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

22 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

On vérifie aisément que ce sont des applications à valeurs dans [0, +1] telles que |f | = f ++f �

et f = f + � f �.

Exemples 2.1.Supposons E := R, si f (x) = x , f +

(x) = x1l[0,+1[(x) et f �(x) = �x1l]�1,0](x).

Grosso modo les opérations classiques sur les applications mesurables conservent la mesurabilité.Plus précisément, on admettra :Proposition 2.3.

1. Si f et g sont des applications A-mesurables d’un ensemble E dans Rd et ↵ un réel,alors ↵f , hf , gi, f + g , |f | sont des applications A-mesurables, où h·, ·i et | · | désignentrespectivement les produit scalaire et norme usuels de Rd .

2. Si f et g sont des applications A-mesurables d’un ensemble E dans R, alors f +, f � sontdes applications A-mesurables.

3. Si (fn

)N est une suite d’applications A-mesurables d’un ensemble E dans R, Alorssup

n2N(fn

), inf

n2N(fn

) sont des applications A-mesurables.4. Si (f

n

)N est une suite d’applications A-mesurables d’un ensemble E dans Rd convergeantsimplement vers une application f , alors sa limite f est A-mesurable.

Définition 2.4.Une application A-mesurable f est dite étagée sur E si elle est à valeurs dans R et si ellene prend qu’un nombre fini de valeurs distinctes.

Si on note ↵1,↵2, · · · ,↵n

les valeurs deux à deux distinctes d’une application étagée f et si onpose, pour tout entier k vérifiant 1 k n, A

k

:= {x 2 E / f (x) = ↵k

}, alors f s’écrit sousla forme

f =

n

X

k=1

↵k

1lA

k

.

Cette écriture s’appelle la décomposition canonique de f . On vérifie aisément que la dé-composition canonique d’une application étagée est unique.

L’intérêt de cette définition réside dans la proposition suivante. Pour la démonstration on pourraconsulter [2] exercice I-13.

Proposition 2.4.Lemme fondamental (admis)Toute application A-mesurable de E dans [0, +1] est la limite d’une suite croissanted’applications A-mesurables étagées et positives.

Ce lemme est à la base d’une technique de démonstration utilisée en probabilités lorsqu’on veutmontrer que les applications A-mesurables possèdent une certaine propriété P . Pour cela, onmontre que les indicatrices 1l

A

, où A 2 A, vérifient P , puis on montre qu’il en est de même

pour les applications A-mesurables de la formen

X

i=1

↵i

1lA

i

où ↵i

2 R+ et Ai

2 A, 1 i n.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 37: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

23Chapitre 2. Loi d’un vecteur aléatoire

On montre ensuite, en utilisant le lemme fondamental, que la propriété P est encore vérifiée parles applications A-mesurables positives, puis par les applications A-mesurables quelconques fen remarquant que f = f + � f � où f +

:= sup(f , 0) et f � := sup(�f , 0) sont des applicationsA-mesurables positives. Cette technique de démonstration est souvent appelée "techniquedes fonctions étagées" .

2.3 Loi d’une variable aléatoire

2.3.1 Variables aléatoires

Parallèlement aux définitions introduites ci-dessus, une terminologie différente est utilisée enprobabilité pour les applications mesurables dans le cas où (E , A) est l’espace mesurable debase (⌦ , F).

Définition 2.5.Si (E , A) := (⌦ , F) et (F , B) = (Rd

, B(Rd

)), une application (F , B(Rd

))-mesurables’appelle un vecteur aléatoire , ou variable aléatoire vectorielle, de dimension d .Un vecteur aléatoire de dimension d = 1 s’appelle aussi une variable aléatoire réelle enabrégé v.a.r. .

On peut être quelquefois amené à considérer des variables aléatoires à valeurs dans R, ce sontles applications (F , B(R))-mesurables de ⌦ dans R.Les variables aléatoires sont traditionnellement notées par des lettres majuscules X , Y , . . .

La proposition suivante est l’énoncé avec un vocabulaire différent du résultat de l’exercice 2.1de la page 21 sur la composition des applications mesurables.

Proposition 2.5.Si f est une application borélienne de Rk dans Rd et X un vecteur aléatoire de dimension k ,alors l’application f � X est un vecteur aléatoire de dimension d .

Démonstration : Il suffit pour cela de remarquer que si B est un borélien de Rd

, alors l’image-réciproque de B par f �X est (f �X )

�1(B) = X�1

[(f �1(B)] et d’appliquer ensuite la définition

de la mesurabilité de f et X . 2

On notera dans la suite par abus f (X ) au lieu de f �X . Par exemple, on écrira eX pour exprimerl’application composée de l’application exponentielle et de la variable aléatoire réelle X .

Proposition 2.6.X = (X1, X2, · · · , X

d

) un vecteur aléatoire de dimension k si, et seulement si, pour touti = 1, 2, · · · , d , X

i

est une variable aléatoire réelle.

Démonstration : La démonstration est une conséquence directe de la proposition 2.5 où onprend pour f les projections de Rd sur R. 2

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 38: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

24 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Deux vecteurs aléatoires X et Y de dimension d sont égaux presque-sûrement si, et seulementsi, P(X 6= Y ) = 0. L’égalité presque-sûre est une relation d’équivalence sur l’ensemble desvecteurs aléatoires de dimension d .

2.3.2 Loi d’une variable aléatoire

Proposition 2.7.Soit X un vecteur aléatoire de dimension d . L’application

PX

: B 2 B(Rd

) 7! PX

(B) := P ({X 2 B}) 2 [0, 1]

est une probabilité sur Rd

.

Démonstration : On rappelle la notation {X 2 B} := {! 2 ⌦ / X (!) 2 B} et on notera que{X 2 B} 2 F , ce qui donne bien un sens à P({X 2 B}).Soit B 2 B(Rd

), PX

(B) = P({X 2 B}) 2 [0, 1]. De plus, comme {X 2 Rd} = ⌦ ,

PX

(Rd

) = P({X 2 Rd}) = P(⌦) = 1. Soit (An

)N une suite deux à deux disjointe de boréliensde Rd

, alors(

X 2[

k2NA

k

)

=

[

k2N{X 2 A

k

}

l’union du second membre étant deux à deux disjointe. Par suite

PX

[

k2NA

k

!

= P

X 2[

k2NA

k

!

= P

[

k2N{X 2 A

k

}!

=

X

k2NP(X 2 A

k

) =

X

k2NP

X

(Ak

)

d’où la �-additivité de PX

. 2

Définition 2.6.La probabilité P

X

est appelée la loi de probabilité relativement à P du vecteur aléatoireX ou plus simplement la loi de X .

On notera que cette loi dépend de X mais aussi de la probabilité P de l’espace de probabilitéde base.

On admettra le résultat théorique suivant démontré dans [3] exercice I-16 :Proposition 2.8.Si µ est une probabilité sur R, alors il existe un espace de probabilité de base (⌦ , F , P) et unevariable aléatoire réelle X sur cet espace telle que P

X

= µ.

Exemples 2.2.Soit X une variable aléatoire réelle de loi N 1(0, 1) (on notera qu’une telle affirmation a unsens d’après la proposition précédente). Déterminons la loi de la variable aléatoire réelleY := X 2

.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 39: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

25Chapitre 2. Loi d’un vecteur aléatoire

Pour cela il suffit d’identifier la fonction de répartition FY

de la variable aléatoire réelle Yi.e. la f.r. de la probabilité P

Y

. Soit y 2 R,

FY

(y) = PY

(]�1, y ]) = P(Y 2]�1, y ]) = P(Y y).

Remarquons que, si y < 0, {Y y} = {X 2 y} = Ø et, si y � 0,

{Y y} = {X 2 y} = {�py X py}.Par suite si y < 0, F

Y

(y) = 0, et si y � 0,

FY

(y) = P(�py X py) = PX

([�py ,

py ]) = F

X

(

py)� F

X

(�py)

=

Z

py

�py

1p2⇡

e�12 t

2dt =

Z

y

0

1p2⇡x

e�x

2 dx .

On notera qu’on a utilisé dans la troisième égalité la continuité (à gauche) de FX

. Lerésultat précédent montre que la f.r. de P

Y

peut s’écrire

FY

(y) = PY

(]�1, y ]) =

Z

y

�1⇢(x)dx avec ⇢(x) :=

1p2⇡x

e�x

2 1l]0,+1[(x).

La loi de Y , PY

, est la probabilité sur R admettant ⇢ pour densité. Elle appartient à lafamille des lois gamma , voir la définition dans le formulaire de l’annexe A, page 205. Onla note �(1

2 ,12). 2

Exercice 2.2. (Corrigé de l’exercice : page 152)Soit X une variable aléatoire réelle de loi N 1(0, 1). En utilisant une démarche analogueà celle adoptée dans l’exemple précédent, montrer que la loi de la variable aléatoire réelleY := eX admet pour densité la fonction ⇢ définie sur R par

⇢(x) :=

1

xp

2⇡exp

�1

2

(ln x)

2

1l]0,+1[(x).

On dit que Y suit la loi Log-normale standard .

Exercice 2.3. (Corrigé de l’exercice : page 153)On considère une variable aléatoire réelle X dont la fonction de répartition est donnée par

FX

(t) :=

1

2

et1l]�1,0](t) + (2� e�t

)1l]0,+1[(t)⇤

.

Déterminer la loi de la variable aléatoire réelle Y = |X |.

Définition 2.7.Soient m 2 R et � > 0. Nous appellerons loi de Gauss-Laplace de paramètres m et �2,et noterons N 1(m,�2

), la probabilité sur R admettant pour densité la fonction ⇢ définie surR, pour tout réel x , par

⇢(x) :=

1

�p

2⇡exp

�(x �m)

2

2�2

.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 40: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

26 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Le résultat suivant est souvent utile dans les calculs pratiques en permettant de se ramener àdes variables de loi de Gauss-Laplace standard :Proposition 2.9.Procédé de standardisationAvec les notations précédentes, une variable aléatoire réelle X suit la loi N 1(m,�2

) si, et

seulement si, la variable aléatoire réelle Z :=

X �m

�suit la loi N 1(0, 1).

Exercice 2.4. (Corrigé de l’exercice : page 153)Démontrer le résultat précédent.

Définition 2.8.Une v.a. X à valeurs dans Rd est dite discrète si sa loi est discrète.

Les variables aléatoires réelles discrètes constituent une famille de v.a.r importante dans lesapplications des probabilités, une autre classe de v.a.r. très importante aussi est celle des v.a.r.à densité.Définition 2.9.Une variable aléatoire réelle est dite à densité (ou absolument continue) sur R si sa loi està densité sur R.

Exemples 2.3.1) Les variables aléatoires réelles de Poisson, de Bernoulli, binomiale, hypergéométrique,géométrique, uniforme-discrète sont des exemples de v.a.r. discrètes.2) Les v.a.r. de Gauss-Laplace, exponentielle, uniforme sur un intervalle de R sont desexemples de v.a.r. à densité sur R.

Pour les définitions des lois usuelles (discrètes ou à densité), on pourra se reporter au formulairede l’annexe A, page 205, de ce cours.

Exercice 2.5. (Corrigé de l’exercice : page 153)Montrer que si X est une variable aléatoire réelle de loi

PX

:=

X

n2Np

n

�n

où (pn

)N est une suite de réels positifs ou nuls, alors pn

= P(X = n) pour tout n 2 N.

On notera qu’on peut avoir affaire à des probabilités qui ne sont ni discrètes ni à densité. Parexemple, on peut avoir des probabilités µ définies sur R, telles µ = µ1+µ2 où µ1 est une mesureà densité (mais pas une probabilité) et µ2 une mesure discrète (mais pas une probabilité), c’est-à-dire qu’il existe une application f (par exemple positive et continue sur R), et une suite de

réels positifs (↵n

)N, avecZ +1

�1f (t) dt +

+1X

n=0

↵n

= 1, telle que, pour tout intervalle ]a, b[ de R,

µ(]a, b[) =

Z

b

a

f (t) dt +

+1X

n=0

↵n

�n

(]a, b[).

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 41: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

27Chapitre 2. Loi d’un vecteur aléatoire

Dans ce cas µ1(]a, b[) =

Z

b

a

f (t) dt et µ2(]a, b[) =

+1X

n=0

↵n

�n

(]a, b[). Comme on n’a pas néces-

sairementZ +1

�1f (t) dt = 1 et

+1X

n=0

↵n

= 1, les mesures µ1 et µ2 ne sont pas des probabilités.

Les variables aléatoires réelles discrètes sont les variables aléatoires réelles à valeurs presque-sûrement dans un ensemble dénombrable. De façon précise :Proposition 2.10.Un vecteur aléatoire X de dimension d est discret si, et seulement si, il existe une partieD := {e

k

, k 2 K ✓ N} de Rd telle que P(X 2 D) = 1. Dans ce cas la loi du vecteur aléatoireX s’écrit

PX

=

X

k2K

P (X = ek

) �e

k

.

Démonstration : Soit X une v.a. telle qu’il existe une partie dénombrable D de Rd avecX 2 D := {e

k

, k 2 K ✓ N} presque-sûrement i.e. P(X 2 D) = 1.

Soit A un borélien de Rd

, on a PX

(A) = PX

(A \ D) = P(X 2 A \ D). Comme

{X 2 A \ D} =

[

x2A\D

{X = x}

et que l’union est mutuellement disjointe, on peut écrire

PX

(A) =

X

x2A\D

P(X = x) =

X

x2D

P(X = x)1lA

(x) =

X

x2D

P(X = x)�x

(A) =

X

k2K

P (X = ek

) �e

k

(A).

La v.a. X est donc discrète et sa loi est PX

=

X

k2K

P (X = ek

) �e

k

.

Réciproquement soit X une v.a. de loi µ =

X

n2K

pn

�e

n

où (pn

)

K

est une suite (finie ou infinie) de

réels strictement positifs avec K ✓ N, et (en

)

K

une suite (finie ou infinie) d’éléments de Rd

.

Prenant D := {en

/n 2 K}, on a P(X 2 D) = 1 et, pour tout n 2 K , P(X = en

) = pn

. 2

On dit aussi dans ce cas que la loi de X est portée par D, ou encore que X a ses valeurspresque-sûrement dans D, pour exprimer P(X 2 D) = 1. On notera que D est une partiedénombrable (finie ou infinie) de Rd

.

Ce résultat ramène alors la détermination de la loi d’une variable aléatoire réelle discrète aucalcul des coefficients P(X = a

k

) qui interviennent dans son écriture. Il explique aussi le choixde certains auteurs de manuels scolaires de définir la loi d’une variable aléatoire réelle à valeursdans N comme étant l’application n 2 N 7! P(X = n). En fait cette définition n’est pas judi-cieuse car elle ne se généralise pas au cas des variable aléatoire réelle à densité. En effet, pourune variable aléatoire réelle à densité, pour tout réel x , P(X = x) = P

X

({x}) = 0 d’après ce quia été vu au premier chapitre. Par suite l’application x 2 R 7! P(X = x) est l’application-nullepour toute variable aléatoire réelle X admettant un densité, ce qui ne présente plus d’intérêt.

La proposition précédente sera notamment appliquée dans le cas où les variable aléatoire réellesont entières i.e. prennent leurs valeurs dans N ou Z.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 42: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

28 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Proposition 2.11.Toute variable aléatoire réelle X à valeurs dans N, resp. Z, est discrète. Sa loi s’écrit alors

PX

=

X

k2NP(X = k)�

k

, resp. PX

=

X

k2ZP(X = k)�

k

.

Démonstration : Prendre D = N (resp. D = Z).2

Exercice 2.6. (Corrigé de l’exercice : page 154)Soit X une variable aléatoire dont la fonction de répartition F est définie pour tout nombreréel x , par F (x) = 0 si x < 1 et, si x � 1, par F (x) = 1� 1

n(n + 1)

où n est l’unique entier

strictement positif (dépendant de x) tel que n x < n + 1.

1. Donner une représentation graphique de la fonction F et expliquer brièvementpourquoi c’est bien une fonction de répartition.

2. Calculer, pour tout entier naturel n, P(X = n).

3. Calculer l’espérance de la variable aléatoire X .

4. Que peut-on dire de la variance de la variable aléatoire X ?

Travail conseillé : Étudier dans [11], pages 147 à 171, l’interprétation probabiliste à l’aide detirages dans une urne, des variable aléatoire réelle de lois de Bernoulli, binomiale, géométrique,de Pascal, binomiale-négative, hypergéométrique.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 43: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

29Chapitre 3. Moments d’un vecteur aléatoire

Chapitre 3

Moments d’un vecteur

aléatoire

3.1 Rappels sur l’intégration des applications mesurables

(E , A, µ) désigne un espace mesuré quelconque.

3.1.1 Intégration des fonctions positives

Notons M+(E , A) l’ensemble des applications A-mesurables (positives) d’un ensemble E dans

[0, +1].

La première proposition de ce chapitre est fondamentale pour la suite. Elle affirme l’existenceet l’unicité d’un opérateur d’intégration, qu’on notera Eµ, défini sur M+

(E , A).

Cet opérateur est construit d’après le procédé suivant :Dans un premier temps, on définit cet opérateur sur l’ensemble E+ des applications A-mesurables étagées et positives de E dans R+

. Pour cela, si ' 2 E+ on considère sa

décomposition canonique ' =

n

X

k=1

↵k

1lA

k

où ↵1 � 0,↵2 � 0, · · · ,↵n

� 0 sont les valeurs deux

à deux distinctes de ' et, pour tout entier k vérifiant 1 k n, Ak

:= {x 2 E / f (x) = ↵k

}.Remarquons que A

k

2 A. On pose alors, avec la convention 0⇥(+1) := 0,

Eµ(') :=

n

X

k=1

↵k

µ(Ak

).

On remarquera que, par sa définition, Eµ(') est un nombre positif éventuellement infini(par exemple si un des µ(A

k

) est infini avec ↵k

> 0) c-à-d Eµ(') 2 [0, +1]. Dans undeuxième temps, on prolonge cet opérateur aux applications de M+

(E , A) en posant, pourtout f 2 M+

(E , A),

Eµ(f ) := sup

Eµ(') / ' 2 E+ et ' f

.

Pour une démonstration détaillée, on se reportera à [8], pages 79 à 85. On remarquera encoreque, par sa définition, Eµ(f ) est un nombre positif éventuellement infini c-à-d Eµ(f ) 2 [0, +1].

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 44: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

30 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Exemples 3.1.Considérons E = R et A = B(R) et µ la mesure de Lebesgue sur R i.e. µ = �. Soit

' =

n

X

k=1

↵k

1l]ak�1,ak

] où a0 < a1 < a2 < · · · < an

est un suite strictement croissante de n + 1

réels, les réels ↵1,↵2, · · · ,↵n

n’étant pas nécessairement deux à deux distincts. On dit que' est une fonction en escalier sur R. Alors

E�(') :=

n

X

k=1

↵k

� (]ak�1, ak

]) =

n

X

k=1

↵k

(ak

� ak�1).

Dans ce cas, E�(') représente la mesure de l’aire située sous la courbe représentative de'. 2

On notera qu’une fonction en escalier est borélienne et étagée sur R mais que, par exemple,1lQ est borélienne et étagée sur R sans être en escalier.

La proposition suivante caractérise l’opérateur Eµ par trois propriétés fondamentales (pour ladémonstration voir [8], page 84).Proposition 3.1.Théorème fondamental de l’intégration par rapport à une mesure (admis)

1. Si µ est une mesure sur (E , A), il existe une application notée Eµ, et une seule, deM+

(E , A) dans [0, +1] possédant les trois propriétés suivantes :(a) Pour tout A 2 A, Eµ(1lA) = µ(A).(b) Pour tous f et g appartenant à M+

(E , A) et tout réel ↵ � 0.

Eµ(f + g) = Eµ(f ) + Eµ(g) et Eµ(↵f ) = ↵Eµ(f ),

avec la convention 0⇥(+1) := 0.

(c) Propriété de convergence monotone de Beppo-LéviPour toute suite croissante (f

n

)N d’éléments de M+(E , A),

lim

n!+1Eµ(f

n

) = Eµ

lim

n!+1fn

.

2. Soient f et g deux éléments de M+(E , A). Si f g , alors Eµ(f ) Eµ(g).

On notera bien qu’on peut avoir Eµ(f ) = +1 et qu’on ne parle dans cette proposition qued’applications mesurables et positives. Celles de signe quelconque seront considérées plus loin.

On trouve, suivant les ouvrages ou les usages, différentes notations pour Eµ(f ) :

Eµ(f ) =

Z

E

f dµ =

Z

E

f (x)dµ(x) =

Z

E

f (x)µ(dx).

Eµ s’appelle l’opérateur d’intégration sur E suivant µ. Eµ(f ) s’appelle l’intégrale de fsur E suivant µ.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 45: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

31Chapitre 3. Moments d’un vecteur aléatoire

La proposition précédente est un théorème d’existence et d’unicité mais ne permet pasd’expliciter directement le nombre Eµ(f ) si ce n’est dans des cas simples. Par exemple :

Exemples 3.2.

1) Si f est l’application f =

n

X

i=1

ai

1lA

i

, où (A1, A2, · · · , An

) est une famille finie d’éléments

de A et (a1, a2, · · · , an

) une famille de réels positifs, alors

Eµ(f ) =

n

X

i=1

ai

µ(Ai

).

2) Si µ := �0 + �5 + � et f := ⇡1l[0, 13 ] + 1l[6,10] + 31l{5}, alors

R

R f dµ =

43⇡ + 7. 2

Exercice 3.1. (Corrigé de l’exercice : page 155)Vérifier les affirmations de l’exemple précédent.

Les propositions admises suivantes donnent quelques "règles d’intégration" suivant la mesureconsidérée. Ces règles seront suffisantes pour la suite et seront constamment utilisées. Ellesdiffèrent bien sûr en fonction des mesures utilisées. Commençons par le cas de la mesure deLebesgue sur R. Le cas de la mesure de Lebesgue sur Rd avec d � 2 sera traité au chapitresuivant.Proposition 3.2.Cas de la mesure de Lebesgue sur R pour les fonctions positives (admis)On suppose E := R, A := B(R), µ := � où � désigne la mesure de Lebesgue sur R.

Si f est une application borélienne de R dans [0, +1] intégrable au sens de Riemann surtout intervalle fermé borné de R, alors son intégrale sur R suivant � est égale à son intégralegénéralisée au sens de Riemann c-à-d

Eµ(f ) =

Z

Rf (t) d�(t) =

Z +1

�1f (t)dt.

Exemples 3.3.

Z

Re�x1l[0,+1[(x)d�(x) =

Z +1

0

e�xdx = 1 etZ

Rx21l[0,+1[(x)d�(x) = +1.

Proposition 3.3.Cas de la mesure de Dirac sur Rd (admis)On suppose E := Rd , A := B(Rd

), µ := �a

où a 2 Rd

.

Si f est une application borélienne de Rd dans [0, +1], alors

Eµ(f ) =

Z

Rd

f (t) dµ(t) = f (a).

La proposition qui suit généralise la précédente :

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 46: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

32 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Proposition 3.4.Cas des mesures discrètes sur Rd (admis)

On suppose E := Rd , A := B(Rd

), µ :=

+1X

i=0

↵i

�a

i

où (ak

)N est une suite de vecteurs de Rd

et (↵k

)N une suite de réels positifs ou nuls.Si f est une application borélienne de Rd dans [0, +1], alors

Eµ(f ) =

Z

Rd

f (t) dµ(t) =

+1X

i=0

↵i

f (ai

).

Exemples 3.4.

Soient µ = P(↵) :=

+1X

k=0

e�↵↵k

k!

�k

la probabilité de Poisson sur R où ↵ > 0.

i) Si f est une application borélienne de R dans [0, +1], alors

Eµ(f ) =

+1X

k=0

e�↵↵k

k!

f (k)

ii)Z

Rx(x � 1)1l[1,+1[(x)dµ(x) =

+1X

k=2

e�↵↵k

k!

k(k � 1) = ↵2.

Exemples 3.5.Soit (u

n

)N une suite de réels positifs ou nuls.

Considérons l’application f :=

+1X

k=0

uk

1l{k} et la mesure µ :=

+1X

i=0

�i

. On vérifie aisément que

Eµ(f ) =

+1X

k=0

uk

.2

Ce dernier exemple montre que la théorie des séries à termes réels positifs peut être consid-érée comme une théorie de l’intégration suivant la mesure sur R dite de dénombrement

µ :=

+1X

i=0

�i

. La théorie de l’intégration permet ainsi d’unifier dans un même formalisme l’étude

des probabilités discrètes, qui font intervenir des séries dans les calculs, et celle des probabilitésà densité où pratiquement interviennent des intégrales de Riemann classiques.

La proposition suivante ramène le calcul d’intégrales suivant les mesures à densité au calculd’une intégrale de Lebesgue sur R qu’on effectue alors par application de la proposition 3.2.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 47: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

33Chapitre 3. Moments d’un vecteur aléatoire

Proposition 3.5.Cas des mesures à densité sur R (admis)On suppose E := R, A := B(R), µ une mesure admettant une densité ⇢ sur R.

Si f est une application borélienne de R dans [0, +1], alors,

Eµ(f ) =

Z

Rf (t) dµ(t) =

Z

Rf (t)⇢(t) d�(t) = E�(f ⇢).

Exemples 3.6.

Soit µ := N 1(0, 1),

Z

Rx2dµ(x) =

Z

Rx2 1p

2⇡e�

12 x

2d�(x). On est ramené au calcul d’une

intégrale suivant la mesure de Lebesgue. D’oùZ

Rx2 1p

2⇡e�

12 x

2d�(x) =

Z +1

�1x2 1p

2⇡e�

12 x

2dx = 1,

c-à-dZ

Rx2dµ(x) = 1. 2

Exercice 3.2. (Corrigé de l’exercice : page 155)1. Soient µ et ⌫ deux mesures sur (E , A). A l’aide du théorème fondamental de

l’intégration montrer que, pour tout f 2 M+(E , A), Eµ+⌫(f ) = Eµ(f ) + E⌫(f ).

2. Soient ↵ > 0, µ la mesure sur R de densité ⇢ définie par ⇢(x) := ↵e�↵x1l[0,1](x) et

⌫ := e�↵�1. Montrer queZ

Re↵xd(µ + ⌫)(x) = ↵+ 1.

3. Soient ↵ > 0, µ la mesure sur R de densité ⇢ définie par ⇢(x) := e�↵x1l[�1,1](x) et

⌫ :=

+1X

k=0

↵k

k!

�k

. CalculerZ

Re↵xd(µ + ⌫)(x) et

Z

R1lRd(µ + ⌫).

La mesure µ + ⌫ est-elle une probabilité ?

3.1.2 Intégration des fonctions numériques

Soit f une application A-mesurable de E dans [�1, +1]. Les applications f +:= sup(f , 0)

et f � := sup(�f , 0) sont des applications A-mesurables de E dans [0, +1]. D’après ce quiprécède les quantités Eµ(f +

) et Eµ(f �) sont des éléments de [0, +1] éventuellement infinies.La différence Eµ(f +

) � Eµ(f �) aura un sens si Eµ(f +) et Eµ(f �) sont toutes les deux finies.

On pourra alors poser Eµ(f ) := Eµ(f +)� Eµ(f �), d’où les définitions :

Définition 3.1.Une application f de E dans [�1, +1] est dite intégrable sur E suivant µ ou plussimplement µ-intégrable si elle est A-mesurable et si les quantités Eµ(f +

) et Eµ(f �) sonttoutes les deux finies. Dans ce cas on appelle intégrale de f sur E suivant µ le réelEµ(f ) := Eµ(f +

)� Eµ(f �).

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 48: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

34 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

On remarquera que Eµ(f ) 2 R.

On utilise aussi les mêmes notations que celles déjà vues dans le cas des fonctions positivespour Eµ(f ).

Proposition 3.6.Soit f une application A-mesurable de E dans [�1, +1]. Alors f est intégrable si, et seulementsi, Eµ(|f |) est fini.

Démonstration : |f | = f ++ f � est une application A-mesurable positive et, d’après l’item

1 de la proposition 3.1, Eµ(|f |) = Eµ(f +) + Eµ(f �). Par suite, f est intégrable si, et seule-

ment si, Eµ(f +) et Eµ(f �) sont toutes les deux finies c-à-d si, et seulement si, Eµ(|f |) =

Eµ(f +) + Eµ(f �) est fini.2

Exemples 3.7.

1) Soit µ := N 1(0, 1),

Z

Rxdµ(x) = 0.

En effet, f +(x) = x1l[0,+1[(x) et f �(x) = �x1l]�1,0](x). On vérifie les deux suites d’égalités

Z

Rf +

(x)dµ(x) =

Z

Rx1l[0,+1[(x)dµ(x) =

1p2⇡

Z +1

0

te�12 t

2dt < +1

etZ

Rf �(x)dµ(x) =

Z

R�x1l]�1,0](x)dµ(x) =

1p2⇡

Z 0

�1�te�

12 t

2dt

=

1p2⇡

Z +1

0

te�12 t

2dt < +1,

en vertu de la convergence de la dernière intégrale (généralisée au sens de Riemann).

D’après la définition de l’intégraleZ

Rxdµ(x) :=

Z

Rf +

(x)dµ(x)�Z

Rf �(x)dµ(x) = 0.

2) Soit µ := �a

où a 2 R. Les applications boréliennes de R dans [�1, +1] intégrablessuivant �

a

sont celles qui prennent une valeur finie au point a.En effet, f est �

a

-intégrable si, et seulement si, E�a

(|f |) = |f (a)| < +1 c-à-d si, et seulementsi, f (a) 2 R. 2

Exercice 3.3. (Corrigé de l’exercice : page 156)

Soit µ :=

+1X

i=0

↵i

�a

i

où, pour tout i 2 N, ai

2 Rd et (↵k

)N est une suite de réels positifs.

Montrer que les applications boréliennes f de Rd dans [�1, +1] intégrables suivant µ

sont celles pour lesquelles la série numérique+1X

i=0

↵i

f (ai

) est absolument convergente.

Les règles d’intégration des fonctions de signe quelconque intégrables sont les mêmes quecelles pour les fonctions positives vues dans le cas des mesures discrètes ou à densité. Onpeut démontrer cela en écrivant les fonctions comme différence de leur partie positive et deleur partie négative. Par contre dans le cas de la mesure de Lebesgue sur R la proposition 3.2devient fausse pour les fonctions qui ne sont pas de signe constant. Dans ce cas on utilise sipossible la proposition suivante :

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 49: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

35Chapitre 3. Moments d’un vecteur aléatoire

Proposition 3.7.Cas de la mesure de Lebesgue sur R pour les fonctions réelles (admis)On suppose E := R, A := B(R), µ := � où � désigne la mesure de Lebesgue sur R.

1. Si f est une application borélienne de R dans R nulle en dehors d’un intervalle ferméborné [a, b] et intégrable au sens de Riemann sur [a, b], alors son intégrale sur R suivant� est égale à son intégrale au sens de Riemann sur [a, b], c-à-d

Eµ(f ) =

Z

Rf (t) d�(t) =

Z

b

a

f (t)dt.

2. Si f est une application borélienne de R dans R intégrable au sens de Riemann sur tout

intervalle fermé borné de R et telle queZ +1

�1|f (t)|dt < +1, alors son intégrale sur R

suivant � est égale à son intégrale généralisée au sens de Riemann c-à-d

Eµ(f ) =

Z

Rf (t) d�(t) =

Z +1

�1f (t)dt.

Le théorème précédent s’applique en particulier lorsque f est continue ou monotone sur unnombre fini d’intervalles de R et nulle en dehors de la réunion de ces intervalles.

Nous sommes en mesure maintenant d’étendre la définition des probabilités à densité, consid-érées jusqu’à présent uniquement sur R, au cas des probabilités sur les espaces Rd avec d � 1.

Cette définition sera en particulier utile dans les chapitres IV et V.Définition 3.2.On appelle densité de probabilité sur Rd toute application borélienne positive ⇢ de Rd dans[0, +1] vérifiant

Z

Rd

⇢d�(d)= 1.

La proposition suivante (admise) montre que la règle d’intégration suivant une mesure de prob-abilité à densité est tout à fait analogue à celle déjà vue pour les fonctions positives.

Proposition 3.8.Soit ⇢ une densité de probabilité sur Rd

.

1. L’application

⌫ : A 2 B(Rd

) 7! ⌫(A) :=

Z

Rd

1lA⇢d�(d) 2 [0, 1]

est une probabilité sur Rd

.

On dit que ⌫ admet ⇢ pour densité sur Rd et on note ⌫ = ⇢ · �(d).

2. Si f est une application de Rd dans R borélienne positive, resp. intégrable suivant ⌫,alors l’application f ⇢ est borélienne positive, resp. intégrable suivant �(d)

, et

E⌫(f ) =

Z

Rd

f (t) d⌫(t) =

Z

Rd

f (t)⇢(t)d�(d)(t).

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 50: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

36 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Exercice 3.4. (Corrigé de l’exercice : page 166)Démontrer la première partie de la proposition précédente.

On remarquera que les définitions 1.15, page 10, de densité et de probabilité à densité introduitesau chapitre I sont bien des cas particuliers de la définition donnée ci-dessus.

3.1.3 Intégration des fonctions vectorielles

Soit f une application A-mesurable de E dans Rd

. Dans la base canonique de Rd

, f admet lescomposantes f1, f2, · · · , f

d

, où, pour tout entier k d , fk

est une application A-mesurable deE dans R. On écrira f := (f1, f2, · · · , f

d

).

Définition 3.3.On dit que f est intégrable sur E suivant µ si toutes les applications-composantesf1, f2, · · · , f

d

sont intégrables sur E suivant µ. Dans ce cas on appelle intégrale de f sur Esuivant µ le vecteur de Rd de composantes dans la base canonique Eµ(f1), Eµ(f2), · · · , Eµ(f

d

),

et on note Eµ(f ) := (Eµ(f1), Eµ(f2), · · · , Eµ(fd

)) .

Exercice 3.5. (Corrigé de l’exercice : page 156)Montrer que f := (f1, f2, · · · , f

d

) est intégrable suivant µ si, et seulement si, Eµ(|f |) < +1où | · | désigne la norme usuelle de Rd

.

Un cas particulier intéressant pour la suite est le cas où f est à valeurs dans le plan com-plexe C qu’on identifie à R2

. On écrit alors f := f1 + i f2 identifié à f := (f1, f2) et on poseEµ(f ) := Eµ(f1) + iEµ(f2).

A titre d’exemple, développons une application de la notion de fonction vectorielle µ-intégrable.Soient E := Rn

, µ une probabilité sur Rn et f l’application définie sur Rn à valeurs dans C, parf (x) := exp (ihx , ui) où u est un vecteur fixé de Rn

, h·, ·i et | · | les produit scalaire et normeusuels de Rn

.

Alors f1(x) := coshx , ui et f2(x) := sinhx , ui. D’où, pour k = 1 ou 2,

Eµ(|fk

|) =

Z

Rn

|fk

|dµ Z

Rn

1lRndµ = µ (Rn

) = 1.

f1 et f2 sont donc µ-intégrables, par définition il en est de même de f . On peut donc définirEµ(f ) 2 C pour tout vecteur u de Rn

.

Définition 3.4.L’application

�µ : u 2 Rn 7! �µ(u) :=

Z

Rn

exp (ihx , ui) dµ(x)

s’appelle la fonction caractéristique de µ, en abrégé f.c. . Si X est un vecteur aléatoire,on appelle fonction caractéristique de X , et on note �

X

, la f.c. de la loi de X .

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 51: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

37Chapitre 3. Moments d’un vecteur aléatoire

Exemples 3.8.Si µ est la probabilité de Bernoulli de paramètres p.

�µ(t) =

Z

Re i txd(p�1 + (1 � p)�0)(x) = pe i t

+ (1 � p) d’après les règles d’intégration par

rapport à une mesure de Dirac.

Exercice 3.6. (Corrigé de l’exercice : page 156)Expliciter les fonctions caractéristiques des probabilités de Dirac, binomiale, de Poisson.

On montrera dans l’exercice 3.20, page 60, que la fonction caractéristique de la probabilité

normale N 1(m,�2) est définie sur R, pour tout réel t, par �(t) := exp(imt � 1

2

t2�2).

Plus généralement, on trouvera la liste des fonctions caractéristiques des probabilités usuellessur R dans le formulaire donné dans l’annexe A, page 205, de ce cours.

3.1.4 Propriétés de l’intégrale

L’intégrale d’une fonction suivant une mesure µ possède toutes les propriétés des intégralesclassiques vues en premier cycle universitaire, on admettra :Proposition 3.9.Soient f et g deux applications de E dans Rd intégrables suivant µ, a et b deux réels, alors

1. Eµ(af + bg) = aEµ(f ) + bEµ(g).

2. |Eµ(f )| Eµ(|f |) où | · | est la norme euclidienne sur Rd

.

3. Si de plus d = 1 et f g , alors Eµ(f ) Eµ(g).

Exemples 3.9.Comme l’indicatrice de A1 [ A2 [ · · · [ A

n

, où A1, A2, · · · , An

, sont des parties de E , estdonnée par

1lA1[A2[···[A

n

= 1� (1� 1lA1)(1� 1l

A2) · · · (1� 1lA

n

),

en développant le second membre de cette égalité et en utilisant les propriétés 1)a duthéorème fondamental de l’intégration et 1) de la proposition précédente, on obtient aisé-ment une autre démonstration de la formule de Poincaré 1.8, page 12, énoncée dans lepremier chapitre.

Les énoncés de théorèmes permettant d’intervertir les symboles Eµ et lim

n!+1sont particulière-

ment simples dans cette théorie de l’intégration. Commençons par rappeler (cf. [8], page 82) :Proposition 3.10.Théorème de convergence monotone de Beppo-Lévi (admis)Pour toute suite croissante (f

n

)N d’applications A-mesurables positives,

lim

n!+1fn

= lim

n!+1Eµ(f

n

).

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 52: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

38 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Ce résultat a pour corollaire :Proposition 3.11.

Théorème d’interversion de Eµ et1X

0

Pour toute suite (fn

)N d’applications A-mesurables positives,

1X

n=0

fn

!

=

1X

n=0

Eµ(fn

).

Démonstration : Posons, pour tout entier n, gn

:=

n

X

k=0

fk

. On applique alors le théorème de

Beppo-Lévi à la suite croissante d’applications A-mesurables positives (gn

)N. 2

On en déduit aussi la proposition suivante (cf.[8], page 83) :Proposition 3.12.Lemme de FatouSi (f

n

)N est une suite d’applications A-mesurables positives, alors

lim inf

n!+1fn

lim inf

n!+1Eµ(f

n

).

Notons que ces trois résultats précédents sont faux si les fonctions fn

ne sont plus supposéespositives.

Terminons par un théorème valable pour les fonctions (à valeurs réelles) de signe quelconqueà la condition d’être intégrables (cf. [8], page 102). Ce théorème ainsi que celui de Beppo-Lévisont des théorèmes fondamentaux de la théorie de l’intégration. Ce sont principalement cesrésultats qui font la supériorité de la théorie de Lebesgue sur celle de Riemann vue en premiercycle universitaire.

Proposition 3.13.Théorème de convergence dominée de Lebesgue (admis)Si (f

n

)N est une suite d’applications A-mesurables convergeant presque-partout vers uneapplication A-mesurable f et s’il existe une application intégrable ' telle que, pour tout k 2 N,

|fk

| ', alors f est intégrable et Eµ (f ) = lim

n!+1Eµ(f

n

).

3.1.5 Espaces de Lebesgue d’ordre p

Pour les démonstrations et énoncés plus généraux de ce paragraphe, on pourra se reporter à[8], pages 149 à 156.

Soit (E , A, µ) un espace de probabilité. Soit 1 p < 1, si f est une application de E dans R,A-mesurable, définie et finie µ-presque sûrement, on posera ||f ||

p

= [E (|f |p)] 1p si l’application

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 53: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

39Chapitre 3. Moments d’un vecteur aléatoire

|f |p est intégrable pour µ, et ||f ||p

= +1 sinon.

On note Lp

(E , A, µ) l’ensemble des applications f de E dans R, A-mesurables, définieset finies µ-presque sûrement, telles que ||f ||

p

< +1. Lp

(E , A, µ) est un espace vectoriel,et ||f ||

p

est une semi-norme sur cet espace. On note alors Lp

(E , A, µ) l’espace des classesd’équivalence des applications A-mesurables de Lp

(E , A, µ) pour l’égalité µ-presque-sûre. Enparticulier, l’espace L1

(E , A, µ) est constitué des classes d’équivalence des applications de Edans R, A-mesurables, définies et finies µ-presque sûrement, intégrables pour µ, égales µ-presque sûrement.

On définit également ||f ||1 = sup {↵ 2 R / µ[|f | � ↵] > 0}, et L1(E , A, µ) comme l’ensembledes classes d’équivalence, pour l’égalité µ-presque-sûre, des applications de E dans R, A-mesurables, définies et finies µ-presque sûrement, telles que ||f ||1 < +1.

Définition 3.5.Les espaces Lp

(E , A, µ) pour tout réel p tel que 1 p 1 sont appelés les espaces deLebesgue d’ordre p.

Moyennant ces définitions, on rappelle le résultat suivant sur les espaces de Lebesgue :

Proposition 3.14.Soit (E , A, µ) un espace de probabilité,

1. Pour tout réel p tel que 1 p 1, la semi-norme || · ||p

induit une norme sur l’espacede Lebesgue Lp

(E , A, µ), encore notée || · ||p

.2. Pour tout réel p tel que 1 p 1, l’espace de Lebesgue Lp

(E , A, µ) muni de la norme|| · ||

p

est un espace de Banach.3. Pour tout p et q tels que 1 p < q 1, on a la suite des inégalités

|| · ||1 || · ||p

< || · ||q

|| · ||1,

et la suite d’inclusions

L1(E , A, µ) ✓ Lq

(E , A, µ) ✓ Lp

(E , A, µ) ✓ L1(E , A, µ).

4. Si p et q sont tels que 1 p, q 1 avec1

p+

1

q= 1, alors, pour tout f 2 Lp

(E , A, µ)

et g 2 Lq

(E , A, µ), l’application f g 2 L1(E , A, µ) et on a ||f g ||1 ||f ||

p

||g ||q

.

Remarque : L’inégalité de l’item 4 s’appelle l’inégalité de Hölder. Pour le cas particulier,p = q = 2, cette inégalité se ramène à l’inégalité de Schwarz car l’espace L2

(E , A, µ), munidu produit scalaire < f , g >= E(f g) est un espace de Hilbert.L’item 3 de la proposition précédente n’est plus vrai dès que µ n’est plus une mesure finie.

Désormais dans la suite du cours, les fonctions utilisées seront souvent définies seulementpresque-partout. Nous écrirons par abus, f 2 Lq

(E , A, µ) pour exprimer que f est uneapplication de E dans R, A-mesurable, définie et finie µ-presque sûrement, et que sa classed’équivalence pour l’égalité presque-partout est dans Lq

(E , A, µ).

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 54: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

40 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

3.2 Théorème du transfert et moments d’une v.a.

(⌦ , F , P) désigne l’espace de probabilité de base.

Les variables aléatoires utilisées seront souvent définies seulement presque-sûrement. En appli-quant aux variables aléatoires la convention d’écriture de la fin du paragraphe précédent, nousécrirons par abus, X 2 Lp

(⌦ , F , P) pour exprimer que X est une variable aléatoire définie etfinie presque-sûrement sur ⌦ et que sa classe d’équivalence pour l’égalité presque-sûre est dansLp

(⌦ , F , P).

Suivant l’usage on notera dorénavant, sauf cas exceptionnels, l’opérateur d’intégration (surl’espace de probabilité de base) E au lieu de EP. On appelle E l’espérance mathématiquesuivant P ou, plus simplement s’il n’y a pas de risque de confusion, espérance. Ainsi si Xest une variable aléatoire positive, resp. vectorielle intégrable, on utilisera indifféremment les

notations E(X ) ouZ

X (!)dP(!) ouZ

XdP pour désigner EP(X ).

Si h est une application de Rd dans Rn et X un vecteur aléatoire de dimension d , on rappellela notation abusive déjà introduite h(X ) := h � X .

3.2.1 Théorème du transfert et identification de lois

Le théorème du transfert est d’un usage constant en probabilité. Donnons-en deux versions, unepour les fonctions positives (c’est la plus utile), l’autre pour les fonctions vectorielles intégrables.

Proposition 3.15.Théorème du transfert (cas positif)Soient h une application borélienne positive de Rd dans [0, +1] et X un vecteur aléatoire dedimension d , alors

E[h(X )] =

Z

Rd

hdPX

= EPX

(h)

qu’on écrit également sous la forme :Z

h(!)dPX

(!) =

Z

Rd

h(x)dPX

(x).

Démonstration : Cette proposition se démontre à l’aide de la technique des fonctions étagées. 2

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 55: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

41Chapitre 3. Moments d’un vecteur aléatoire

Proposition 3.16.Théorème du transfert (cas vectoriel) (admis)Soient h une application borélienne de Rd dans Rn et X un vecteur aléatoire de dimension d .

Alors h est intégrable sur Rd suivant PX

si, et seulement si, h(X ) est intégrable sur ⌦ suivantP, et dans ce cas

E[h(X )] =

Z

Rd

hdPX

= EPX

(h)

qu’on écrit également sous la forme :Z

h(!)dPX

(!) =

Z

Rd

h(x)dPX

(x).

Exemples 3.10.Soient X un vecteur aléatoire de dimension d et �

X

sa fonction caractéristique. Parapplication du théorème du transfert (cas vectoriel) on obtient, pour tout élément u de Rd

,

�X

(u) :=

Z

Rd

exp (ihx , ui) dPX

(x) = E [exp (ihX , ui)] .2

Exemples 3.11.Soit X une variable aléatoire réelle de loi N 1(0, 1) i.e. P

X

= N 1(0, 1). Calculons E(X 2).

Donnons deux méthodes.• Première méthode : E(X 2

) est de la forme E[h(X )] avec h(t) := t2. On applique le

théorème du transfert (cas positif), on remarque que h est continue donc borélienne. Ondoit donc calculer à l’aide d’une intégration par parties,

E(X 2) =

Z

Rt2dP

X

(t) =

1p2⇡

Z �1

�1t2e�

12 t

2dt = 1.

• Deuxième méthode : On a vu au chapitre II dans l’exemple 2.2, page 24, que la variablealéatoire réelle Y := X 2 suit la loi �(1

2 ,12) de densité

⇢(x) :=

1p2⇡x

e�x

2 1l]0,+1[(x).

On cherche à calculer

E(X 2) = E(Y ) =

Z

RtdP

Y

(t) =

Z

Rx

1p2⇡x

e�x

2 1l]0,+1[(x)d�(x)

=

Z +1

�1

px

1p2⇡

e�x

2 1l]0,+1[(x)dx =

Z +1

0

pxp2⇡

e�x

2 dx = 1.

Dans ces calculs nous avons utilisé les règles d’intégration suivant une mesure à densité etune mesure de Lebesgue, puis effectué un changement de variable pour calculer l’intégralegénéralisée finale. 2

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 56: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

42 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Exercice 3.7. (Corrigé de l’exercice : page 157)Soit X une variable aléatoire réelle de loi N 1(0, 1).

a) Calculer de deux façons différentes E(eX

).

b) Montrer que X 3 est intégrable (suivant la mesure P) et calculer E(X 3).

Le théorème du transfert permet d’établir un critère d’identification des lois utilisant lesfonctions boréliennes positives :

Proposition 3.17.Critère des fonctions boréliennes positivesSoient X un vecteur aléatoire de dimension d et µ une probabilité sur Rd

. Alors le vecteuraléatoire X a pour loi µ si, et seulement si, pour toute application borélienne positive h de Rd

dans [0, +1],

E[h(X )] =

Z

Rd

hdµ,

qui peut aussi s’écrireZ

h(X )dP =

Z

Rd

h(x)dµ(x).

Démonstration : • C.N. - Si PX

= µ, d’après le théorème du transfert, pour toute application

borélienne positive h de Rd dans [0, +1], E[h(X )] =

Z

Rd

hdPX

=

Z

Rd

hdµ.

• C.S. - Supposons que, pour toute application borélienne positive h de Rd dans [0, +1],

E[h(X )] =

Z

Rd

hdµ. Alors, comme pour tout B 2 B(Rd

) h := 1lB

est une application borélienne

positive de Rd dans [0, +1], par hypothèse d’une part

E[h(X )] = E[1lB

(X )] = Eµ(1lB

) = µ(B),

et par le théorème de transfert d’autre part

E[h(X )] = E[1lB

(X )] =

Z

Rd

1lB

dPX

= PX

(B).

D’où, pour tout B 2 B(Rd

), PX

(B) = µ(B) ce qui signifie que PX

= µ. 2

Exemples 3.12.

Soit X un vecteur aléatoire de dimension 2 de loi PX

:=

X

k�1,l�1

1

2

k+l

�(k,l). On note X1, X2

les composantes de X dans la base canonique de R2. Déterminons la loi de la variable

aléatoire réelle Y := sup(X1, X2). Pour cela notons A := {(x , y) 2 R2 / x < y}. Soit hune application borélienne de R dans [0, +1]. En remarquant que, pour tout (x , y) 2 R2

,

h(sup(x , y)) = h(y)1lA

(x , y) + h(x)1lA

c

(x , y), il vient

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 57: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

43Chapitre 3. Moments d’un vecteur aléatoire

E[h(Y )] = E[h(sup(X1, X2))] =

Z

R2

h(sup(x , y))dPX

(x , y)

=

Z

R2

h(y)1lA

(x , y)dPX

(x , y) +

Z

R2

h(x)1lA

c

(x , y)dPX

(x , y)

=

+1X

i=1

+1X

j=1

1

2

i+j

h(j)1lA

(i , j) +

+1X

i=1

+1X

j=1

1

2

i+j

h(i)1lA

c

(i , j)

=

+1X

j=1

j�1X

i=1

1

2

i+j

h(j) +

+1X

i=1

i

X

j=1

1

2

i+j

h(i)

=

+1X

j=1

1

2

j

1� 1

2

j�1

h(j) +

+1X

i=1

1

2

i

1� 1

2

i

h(i) =

+1X

i=1

1

2

i

2� 3

2

i

h(i)

=

+1X

i=1

1

2

i

2� 3

2

i

Z

Rh(z)d�

i

(z).

On notera que, pour obtenir le premier terme de la quatrième égalité, il a été fait usagedu lemme de permutation des symboles

X

i

etX

j

pour une suite-double de réels positifs.

On a donc E[h(Y )] =

Z

Rhdµ avec µ :=

+1X

i=1

1

2

i

2� 3

2

i

�i

, ce qui prouve que µ est la loi

de la variable aléatoire réelle Y .

On pourra se reporter à [3] exercice I-4 question 2 pour trouver une autre démonstrationutilisant la remarque suivant la proposition 2.10, page 27, sur le calcul de lois de variablealéatoire réelle discrètes. 2

Un autre critère fait intervenir plus particulièrement les fonctions continues positives à supportcompact (qui forment une sous-classe des fonctions boréliennes positives).

Proposition 3.18.Critère des fonctions à support compactSoient X un vecteur aléatoire de dimension d et µ une probabilité sur Rd

. Alors le vecteuraléatoire X a pour loi µ si, et seulement si, pour toute application positive h de Rd dans[0, +1], continue et à support compact,

E[h(X )] =

Z

Rd

hdµ.

Ce qui peut aussi s’écrire avec la notation des opérateurs d’intégration

EP[h(X )] = Eµ(h).

Démonstration : • - C.N. Supposons que PX

= µ. Si f est une fonction continue positive àsupport compact, elle est en particulier une fonction positive borélienne. Donc d’après le critère

des fonctions positives boréliennes vu précédemment, on a E[f (X )] =

Z

Rd

f dµ.

• - C.S. Réciproquement, supposons que, pour toute application positive h de Rd dans [0, +1],

continue et à support compact, E[h(X )] =

Z

Rd

hdµ. Soit A une partie ouverte de Rd

. D’après

une résultat d’analyse fonctionnelle, il existe une suite croissante (fn

)N de fonctions positives,

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 58: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

44 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

continues et à support compact sur Rd qui converge vers la fonction indicatrice de A. On a d’unepart µ(A) =

R

Rd

1

A

dµ et PX

(A) = E(1lA

), et d’autre part, par le théorème de convergence

monotone de Beppo-Lévi, on obtient :Z

Rd

1

A

dµ =

Z

Rd

( lim

n!+1fn

) dµ = lim

n!+1

Z

Rd

fn

dµ =

lim

n!+1E(f

n

(X )) = lim

n!+1

Z

Rd

fn

dPX

=

Z

Rd

( lim

n!+1fn

) dPX

=

Z

Rd

1lA

dPX

. Par suite, pour tout

ouvert A de Rd

, µ(A) = PX

(A). Les probabilités µ et PX

coïncident sur une famille de partiesde Rd stable par intersection finie (⇡-système) qui engendre la tribu borélienne de Rd , doncelles sont égales en vertu du théorème d’unicité 1.11 de la page 14.2

Les deux critères des fonctions positives expriment qu’un vecteur aléatoire X , de dimension d ,

a pour loi la probabilité µsi, et seulement si, la relation EP[h(X )] = Eµ(h) est vérifiée pourtout fonction h de la famille C des applications boréliennes positives définies sur Rd (ou de dela famille C des applications continues positives à support compact sur Rd).Le critère d’identification de lois utilisant les fonctions de répartition (lemme d’unicité) peutaussi s’énoncer sous cette forme. Ainsi, ces trois critères peuvent se formuler en un seul énoncé :

Proposition 3.19.Critères d’identification de loisSoient X un vecteur aléatoire de dimension d et µ une probabilité sur Rd

. Alors le vecteuraléatoire X a pour loi µ si, et seulement si, la relation EP[h(X )] = Eµ(h) est vérifiée pour tousles éléments h d’un des ensembles C suivants :

1. Si d � 1, C est l’ensemble des applications boréliennes de Rd dans [0, +1].

2. Si d � 1, C est l’ensemble des applications positives continues et à support compact deRd dans [0, +1].

3. Si d = 1, C est l’ensemble des indicatrices 1l]�1,u] lorsque u parcourt R.

Démonstration : 1) A déjà été vu dans la proposition 3.17.2) A déjà été vu dans la proposition 3.18.3) On se limite au cas d = 1. On remarque que, pour tout u 2 R,

PX

(]�1, u]) = E�

1l]�1,u](X )

et µ (]�1, u]) = Eµ(1l]�1,u]).

On conclut par le lemme d’unicité 1.12, page 14. 2

Exercice 3.8. (Corrigé de l’exercice : page 158)Avec les notations de l’exemple précédent 3.12, montrer que E(X ) = (2, 2) et que la loi dela variable aléatoire réelle Z := X1 + X2 est

PZ

=

+1X

i=1

i � 1

2

i

�i

.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 59: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

45Chapitre 3. Moments d’un vecteur aléatoire

3.2.2 Moments d’une variable aléatoire

Définition 3.6.Soit X est une v.a.r. sur (⌦ , F , P). On appelle espérance mathématique de X suivantP ou quelquefois moyenne de X , et on note E(X ), la quantité (si elle est définie)

E(X ) =

Z

X dP.

Plus généralement si p 2 N⇤, on appelle moment d’ordre p de X , resp. moment centréd’ordre p de X , le nombre réel (s’il est défini) m

p

:= E(X p

), resp. m0p

:= E [(X �m1)p

] .

Définition 3.7.Le moment centré d’ordre 2 s’appelle aussi la variance de X et se note Var(X ). Sa racinecarrée positive s’appelle l’écart-type de X et se note �

X

.Si X et Y sont deux v.a.r. on appelle covariance de X et Y , le réel (s’il est défini)Cov(X , Y ) := E([X � E(X )][Y � E(Y )]).

La proposition suivante donne une condition suffisante d’existence des moments d’une v.a.r. .

Proposition 3.20.Existence des moments de v.a.r.

1. Soit X une v.a.r. telle qu’il existe un entier naturel non nul p vérifiant E(|X |p) < +1,i.e. X 2 Lp

(⌦ , F , P). Alors, pour tout entier k vérifiant 1 k p, les moments d’ordrek , m

k

:= E(X k

) et m0k

:= E⇥

(X �m1)k

, existent dans R.

2. Si X et Y sont deux variables aléatoires réelles vérifiant E(X 2) < +1 et E(Y 2

) < +1,i.e. X et Y sont dans L2

(⌦ , F , P), alors la covariance de X et Y , Cov(X , Y ), existedans R.

Démonstration : 1) Pour tout k p, |X k | 1 + |X |p. D’où

E(|X k |) 1 + E(|X p|) < +1,

ce qui prouve que la variable aléatoire réelle X k est intégrable et donc que E(X k

) est bien définidans R.

De même, |X � m1|k (|m1| + |X |)k . En développant le second membre, en prenantl’espérance de l’expression et en utilisant le résultat démontré juste avant, on obtient queE(|X �m1|k) < +1. Par suite E

(X �m1)k

est bien défini dans R.

2) Si X et Y sont de carré intégrable, d’après l’inégalité |XY | X 2+Y 2 déduite du développe-

ment de (|X |� |Y |)2 � 0, on obtient E(|XY |) E(X 2)+E(Y 2

) < +1. La variable aléatoireréelle XY est donc intégrable ainsi que la variable aléatoire réelle Z := [X �E(X )][Y �E(Y )],

ce qui donne bien un sens à la covariance de X et de Y . 2

Par application du théorème de transfert il vient aisément :

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 60: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

46 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Proposition 3.21.Sous les conditions d’existence des différents moments,

m1 := E(X ) =

Z

X (!)dP(!) =

Z

RxdP

X

(x).

�2X

:=

Z

(X (!)�m1)2dP(!) =

Z

R(x �m1)

2dPX

(x).

mp

:=

Z

X p

(!)dP(!) =

Z

RxpdP

X

(x).

m0p

:=

Z

(X (!)�m1)pdP(!) =

Z

R(x �m1)

pdPX

(x).

Par commodité on pose la définition suivante :

Définition 3.8.Une variable aléatoire réelle X est dite de carré intégrable si E(X 2

) < +1, i.e.X 2 L2

(⌦ , F , P).

Exemples 3.13.Soit X une variable aléatoire normale standard. Le calcul développé dans l’exemple 3.7

, page 34, prouve que E(X ) = 0 et celui développé dans l’exemple 3.6, page 33, queVar(X ) = 1. Plus généralement, on vérifie aisément par un calcul élémentaire que, si X estune variable de loi normale N (m,�2

), alors E(X ) = m et Var(X ) = �2. 2

Proposition 3.22.Formules de König-HuygensSoient X et Y deux variable aléatoire réelle de carré intégrable. Alors

1. Var(X ) = Cov(X , X ) = E(X 2)� [E(X )]

2.

2. Cov(X , Y ) = E(XY )� E(X )E(Y ).

Exercice 3.9. (Corrigé de l’exercice : page 158)Vérifier les formules de König-Huygens.

On vérifie aisément qu’on retrouve les définitions classiques de l’espérance pour les v.a.r.discrètes ou à densité comme l’indique le résultat suivant :

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 61: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

47Chapitre 3. Moments d’un vecteur aléatoire

Proposition 3.23.1. Si X est une variable aléatoire réelle intégrable discrète de loi

PX

:=

+1X

k=0

P(X = ak

)�a

k

, alors

E(X ) =

+1X

k=0

ak

P(X = ak

).

2. Si X est une variable aléatoire réelle intégrable à densité ⇢ continue sur R, alors

E(X ) =

Z +1

�1t⇢(t)dt.

On trouvera la liste des valeurs de l’espérance et de la variance des v.a.r. de lois usuelles dansle formulaire de l’annexe A, page 205, de ce cours.

Exercice 3.10. (Corrigé de l’exercice : page 159)Soit X une variable aléatoire réelle suivant la loi de Rayleigh de densité définie sur R par⇢(x) := xe�

x

2

2 1lR+(x). Montrer que, pour tout entier k � 1,

E�

X 2k�1�

=

(2k)!

2

kk!

r

2

et E�

X 2k

= 2

kk!.

Expliciter l’espérance et la variance de la variable aléatoire réelle X .

Définition 3.9.Soit X un vecteur aléatoire de dimension d de composantes X1, X2, ..., Xd

intégrables suivantP. On appelle espérance de X suivant P, et on note E(X ), le vecteur de Rd ,

E(X ) := (E(X1), E(X2), ..., E(Xd

)) .

Si X est une v.a. à valeurs matricielles, on appelle espérance de X , et on note E(X ), lamatrice dont les coefficients sont les espérances de ceux de X .

Définition 3.10.Une variable aléatoire vectorielle ou matricielle d’espérance nulle est dite centrée. Une variablealéatoire réelle de carré intégrable et de variance égale à 1 est dite réduite.

Exercice 3.11. (Corrigé de l’exercice : page 159)Montrer que les variable aléatoire réelle X1, X2, · · · , X

d

sont de carré intégrable si, etseulement si, E(|X |2) < +1 où X := (X1, X2, · · · , X

d

).

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 62: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

48 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Définition 3.11.Soit X un vecteur aléatoire de dimension d de composantes X1, X2, ..., Xd

de carré intégrablesur ⌦ . On appelle matrice de dispersion de X ou matrice des covariances de X , et onla note D

X

, l’espérance de la matrice carrée aléatoire [X � E(X )][X � E(X )]

⇤ d’ordre d où ⇤

désigne l’opération de transposition des matrices, c’est-à-dire

DX

= E ([X � E(X )][X � E(X )]

⇤) .

La terminologie est justifiée par la troisième assertion de la proposition suivante :Proposition 3.24.Si X est un vecteur aléatoire de dimension d tel que E(|X |2) < +1 et M une matrice(déterministe) à coefficients réels à c lignes et d colonnes, alors

1. Le coefficient d’indice (i , j) de DX

est la covariance Cov(Xi

, Xj

) des v.a.r. Xi

et Xj

. Leséléments diagonaux de D

X

sont les variances des composantes de X .

2.D[X�E(X )] = D

X

, E(MX ) = ME(X ), DMX

= MDX

M⇤.

3. DX

est une matrice symétrique. DX

est de type positif i.e., pour tout u 2 Rd ,u⇤D

X

u � 0. En particulier, DX

est une matrice diagonalisable sur R dont les valeurspropres sont des réels positifs ou nuls.

Exemples 3.14.Soit X un vecteur aléatoire de dimension 2 de loi

PX

:=

X

k�1,l�1

1

2

k+l

�(k,l).

Notons X1, X2 les composantes de X dans la base canonique de R2. Par définition

E(X ) = (E(X1), E(X2)) et d’après la proposition précédente,

DX

=

Var(X1) Cov(X1, X2)

Cov(X1, X2) Var(X2)

.

En calculant E(X1) = E(X2) = 2 puis E(X 21 ) = E(X 2

2 ) = 6 et Cov(X1, X2) = 0 on obtient,par application de la formule de König-Huygens,

E(X ) = (2, 2) et DX

=

2 0

0 2

.2

Exercice 3.12. (Corrigé de l’exercice : page 159)Démontrer la proposition 3.24, page 48.

Exercice 3.13. (Corrigé de l’exercice : page 160)Soient X et Y deux variables aléatoires réelles telles que E(X 2

) < +1 et E(Y 2) < +1.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 63: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

49Chapitre 3. Moments d’un vecteur aléatoire

1. Montrer que |Y X | X 2+ Y 2

. En déduire que les variables aléatoires réelles X , Y etXY sont intégrables suivant P.

2. En étudiant le signe de l’expression E [(X + ↵Y )

2] pour tout ↵ 2 R, prouver

l’inégalité de Cauchy-Schwarz : |E(XY )| p

E(X 2)

p

E(Y 2). En donner une

interprétation géométrique.

Exercice 3.14. (Corrigé de l’exercice : page 160)Soit X := (X1, X2, · · · , X

n

) un vecteur aléatoire tel que E(|X |2) < +1.

1. Montrer que la variable aléatoire réelle Y :=

n

X

k=1

Xk

est de carré intégrable.

2. Démontrer la relation

Var

n

X

k=1

Xk

!

=

n

X

k=1

Var(Xk

) + 2

X

1i<jn

Cov(Xi

, Xj

).

3.3 Fonction caractéristique et loi d’une v.a.

Dans le sous-paragraphe 3 du paragraphe 1, nous avons introduit la notion de fonctioncaractéristique.On rappelle que :Définition 3.12.Si µ est une probabilité sur Rd

, l’application

�µ : u 2 Rd 7! �µ(u) :=

Z

Rd

exp (ihx , ui) dµ(x) 2 C,

s’appelle la fonction caractéristique de µ, (en abrégé f.c.).Si X est un vecteur aléatoire de dimension d , la fonction caractéristique de X estl’application de Rd dans C définie, pour tout vecteur u de Rd

, par

�X

(u) :=

Z

Rd

exp (ihx , ui) dPX

(x) = E (exp (ihX , ui)) .

Donnons quelques propriétés classiques des fonctions caractéristiques :Proposition 3.25.

1. �(0) = 1

2. Pour tout u 2 Rd , �(�u) = �(u) et |�(u)| 1. Une fonction caractéristique est doncune application bornée sur Rd

.

3. La fonction caractéristique � d’un vecteur aléatoire X de dimension d est une fonctionuniformément continue sur Rd . En particulier, une fonction caractéristique � est continueen 0.

4. Si µ et ⌫ sont deux probabilités sur Rd , alorsZ

Rd

�µd⌫ =

Z

Rd

�⌫dµ.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 64: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

50 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Démonstration : • �(0) = 1 est immédiat à vérifier.• Pour tout u 2 Rd , �(�u) = �(u) est immédiat à vérifier. Pour tout vecteur u de Rd

,

|�X

(u)| =

Z

Rd

exp (ihx , ui) dPX

(x)

Z

Rd

|exp (ihx , ui)| dPX

(x) Z

Rd

dPX

(x) = 1, donc

�X

est bornée sur Rd .

• Pour tous vecteurs u et v de Rd

, |�X

(u)��X

(v)| Z

Rd

|exp (ihx , ui)� exp (ihx , vi)| dPX

(x).

Or, pour tout réel t, e i t � 1 =

Z

t

0

ie ixdx , d’où |e i t � 1| inf(2, |t|). Par suite, pour tous

vecteurs u et v de Rd

, par application de l’inégalité de Cauchy-Schwarz, il vient|exp (ihx , ui)� exp (ihx , vi)| |exp [i (hx , ui � hx , vi)]� 1| = |exp (ihx , u � vi)� 1|

inf(2, |hx , u � vi|) inf(2, |x ||u � v |).D’où, pour tous vecteurs u et v de Rd

, |�X

(u)��X

(v)| Z

Rd

inf(2, |x ||u�v |)dPX

(x). En parti-

culier, pour tout entier naturel non nul n, et pour tous vecteurs u et v de Rd

, tels que |u�v | 1

n,

on a |�X

(u)��X

(v)| Z

Rd

inf

2,

|x |n

dPX

(x). La suite de fonctions✓

inf

2,

|x |n

◆◆

N⇤est

dominée par la fonction constante qui vaut 2 sur Rd

, et converge vers la fonction-nulle sur

Rd

. Par le théorème de convergence dominée de Lebesgue, lim

n!+1

Z

Rd

inf

2,

|x |n

dPX

(x) = 0.

Soit " > 0 donné, on peut donc trouver un entier n tel que |Z

Rd

inf

2,

|x |n

dPX

(x)| ". Par

suite, pour tout " > 0, il existe ⌘ (prendre ⌘ =

1

n) tel que, pour tous vecteurs u et v de Rd

,

|u � v | ⌘ implique |�X

(u)� �X

(v)| ", ce qui prouve l’uniforme continuité de la fonctioncaractéristique.

• Pour prouver queZ

Rd

�µd⌫ =

Z

Rd

�⌫dµ, il suffit d’appliquer le théorème de Fubini vu en

théorie de la mesure et de l’intégration et rappelé dans le chapitre suivant, proposition 4.3,page 63. 2

La fonction caractéristique présente plusieurs points d’intérêt :1. pour identifier la loi d’un vecteur aléatoire,

2. pour calculer les moments d’une variable aléatoire,

3. pour étudier l’indépendance d’une suite de v.a.r..

Nous allons nous intéresser dans ce paragraphe aux deux premiers points. Le dernier sera traitéau chapitre IV.

Commençons par le premier point, qui est dû au résultat suivant :

Proposition 3.26.Théorème d’injectivité des f.c.Deux probabilités sur Rd sont identiques si, et seulement si, elles ont la même fonctioncaractéristique.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 65: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

51Chapitre 3. Moments d’un vecteur aléatoire

Démonstration : • En préambule à la démonstration, montrons que, pour tout réel a > 0,

I (x � y) =

Z

Rd

e i<u,y�x>e�a(|u1|+|u2|+···|ud

|) d�(d)(u) =

2

dad

Q

k=d

k=1 (a2+ (y

k

� xk

)

2)

.

En effet, en intégrant séparément sur ]�1, 0], puis sur [0, +1[, on obtient

K (x) =

Z

Re i txe�a|t| d�(t) =

Z 0

�1e i txeat dt+

Z +1

0

e i txe�at dt =

1

a � ix+

1

a + ix=

2a

a2+ x2

.

Par suite, I (x � y) =

Z

Rd

e i [u1(y1�x1)+u2(y2�x2)+···+u

d

(yd

�x

d

)]�a(|u1|+|u2|+···|ud

|) d�(d)(u) ou encore

I (x � y) =

Z

Rd

k=d

Y

k=1

e i [uk

(yk

�x

k

)�a|uk

| d�(d)(u).

Par le théorème de Fubini (son énoncé est rappelé dans le prochain chapitre, proposition 4.3,page 63), compte tenu de ce que la fonction à intégrer est à variables séparées, il vient

I (x � y) =

k=d

Y

k=1

Z

Re i [u

k

(yk

�x

k

)�a|uk

| d�(uk

) =

k=d

Y

k=1

K (yk

� xk

) =

k=d

Y

k=1

2a

a2+ (y

k

� xk

)

2, d’où

I (x � y) =

2

dad

Q

k=d

k=1 (a2+ (y

k

� xk

)

2)

.

• Montrons maintenant que :

Jµ(x) =

Z

Rd

2

dad

Q

k=d

k=1 (a2+ (y

k

� xk

)

2)

dµ(y) =

Z

Rd

e�i<u,x>e�a(|u1|+|u2|+···|ud

|)�µ(u) d�(d)(u).

En effet, en utilisant le résultat précédent et en reportant dans l’intégrale à calculer, on

a Jµ(x) =

Z

Rd

I (x � y) dµ(y) =

Z

Rd

Z

Rd

e i<u,y�x>e�a(|u1|+|u2|+···|ud

|) d�(d)(u)

dµ(y). Par

application du théorème de Fubini aux mesures �(d) et µ (vérifier que les hypothèses du théorèmesont bien satisfaites), cette intégrale peut s’écrire :

Jµ(x) =

Z

Rd

e i<u,�x>e�a(|u1|+|u2|+···|ud

|)✓

Z

Rd

e i<u,y> dµ(y)

d�(d)(u),

ou encore, par définition de la fonction caractéristique de µ,

Jµ(x) =

Z

Rd

e�i<u,x>e�a(|u1|+|u2|+···|ud

|)�µ(u) d�(d)(u).

• Soit f une fonction de Rd dans R, continue et à support compact. Calculons Hµ(a) =

Z

Rd

f (x)Jµ(x) d�(d)(x).

On a Hµ(a) =

Z

Rd

f (x)

"

Z

Rd

2

dad

Q

k=d

k=1 (a2+ (y

k

� xk

)

2)

dµ(y)

#

d�(d)(x). Par le théorème de Fu-

bini, Hµ(a) =

Z

Rd

"

Z

Rd

f (x)

2

dad

Q

k=d

k=1 (a2+ (y

k

� xk

)

2)

d�(d)(x)

#

dµ(y). Notons Ga

(y) l’intégrale

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 66: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

52 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

entre crochets. Elle peut s’écrire, après le changement de variables dans Rd

, (u1, u2, · · · , ud

) =

(y1 � x1, y2 � x2, · · · , yd

� xd

), ou u = y � x , dont le jacobien est de valeur absolue égale à 1,

Ga

(y) =

Z

Rd

f (x)

2

dad

Q

k=d

k=1 (a2+ (y

k

� xk

)

2)

d�(d)(x) =

Z

Rd

f (y�u)

2

dad

Q

k=d

k=1 (a2+ (u

k

)

2)

d�(d)(u).

Par suite, Hµ(a) =

Z

Rd

Ga

(y) dµ(y).

• Étudions maintenant, pour tout vecteur y 2 Rd

, la limite lim

a!0G

a

(y).

Pour tout vecteur y 2 Rd

, Ga

(y) =

Z

Rd

f (y�u)

2

dad

Q

k=d

k=1 (a2+ (u

k

)

2)

d�(d)(u). Par le changement

de variables dans Rd

, (x1, x2, · · · , xd

) = (

u1

a,

u2

a, · · · ,

ud

a), qu’on peut écrire de façon plus

synthétique, x =

1

au, dont le jacobien est de valeur absolue égale à ad

, l’intégrale devient

Ga

(y) =

Z

Rd

f (y � ax)

2

dad

Q

k=d

k=1 (a2+ (ax

k

)

2)

ad d�(d)(x)

=

Z

Rd

f (y � ax)

2

d

Q

k=d

k=1 (1 + x2k

)

d�(d)(x).

Comme f est continue à support compact, elle est bornée par un réel M . La famille, indexée par

a, des fonctions x 7! f (y�ax)

2

d

Q

k=d

k=1 (1 + x2k

)

est dominée par la fonction x 7! M2

d

Q

k=d

k=1 (1 + x2k

)

intégrable sur Rd pour la mesure de Lebesgue. En effet, par le théorème de Fubini,Z

Rd

M2

d

Q

k=d

k=1 (1 + x2k

)

d�(d)(x) = M2

d

Z +1

�1

1

1 + t2dt

d

= M2

d

[Arctan(x)]

+1�1

d

= M2

d⇡d

,

ce qui prouve que la fonction x 7! M2

d

Q

k=d

k=1 (1 + x2k

)

est intégrable sur Rd

.

Par suite en faisant tendre a vers 0, en vertu du théorème de convergence dominée, l’intégrale

Ga

(y) =

Z

Rd

f (y � ax)

2

d

Q

k=d

k=1 (1 + x2k

)

d�(d)(x) tend vers l’intégrale

Z

Rd

f (y)

2

d

Q

k=d

k=1 (1 + x2k

)

d�(d)(x) = f (y)

Z

Rd

2

d

Q

k=d

k=1 (1 + x2k

)

d�(d)(x) = 2

d⇡d f (y),

d’après le calcul qui vient d’être fait plus haut, c’est-à-dire lim

a!0G

a

(y) = 2

d⇡d f (y).

• Nous pouvons maintenant en déduire la limite de l’intégrale Hµ(a) lorsque a tend vers 0.

En effet, pour tout réel a et tout y 2 Rd

,

|Ga

(y)| Z

Rd

|f (y � ax)| 2

dad

Q

k=d

k=1 (a2+ (ax

k

)

2)

ad d�(d)(x)

M

Z

Rd

2

dad

Q

k=d

k=1 (a2+ (ax

k

)

2)

ad d�(d)(x) = M2

d⇡d

.

La famille de fonctions Ga

indexées par a, est donc dominée par la constante M2

d⇡d intégrablepar rapport à la mesure de probabilité µ. Par le théorème de convergence dominée de Lebesgue,

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 67: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

53Chapitre 3. Moments d’un vecteur aléatoire

il vient lim

a!0Hµ(a) =

Z

Rd

lim

a!0G

a

(y) dµ(y) =

Z

Rd

2

d⇡d f (y) dµ(y).

• Pour conclure, rassemblons les résultats précédents, en tenant compte que µ et ⌫ sontdeux probabilités sur Rd ayant la même fonction caractéristique �µ = �⌫ . On remar-que alors que Jµ(x) = J⌫(x) et, par suite, pour tout réel a > 0, Hµ(a) = H⌫(a). Onen déduit alors, en faisant tendre a vers 0, que lim

a!0Hµ(a) = lim

a!0H⌫(a), c’est-à-dire que

Z

Rd

2

d⇡d f (y) dµ(y) =

Z

Rd

2

d⇡d f (y) d⌫(y), et finalementZ

Rd

f (y) dµ(y) =

Z

Rd

f (y) d⌫(y),

pour toute fonction f de Rd dans R, continue et à support compact. Par le critère des fonctionsà support compact (proposition 3.18, page 43), on en conclut µ = ⌫. 2

Le théorème d’injectivité s’énonce alors avec les vecteurs aléatoires :Proposition 3.27.Critère d’identification de lois par les f.c.Deux vecteurs aléatoires sur Rd ont la même loi si, et seulement si, ils ont la même fonctioncaractéristique.

Nous pouvons maintenant regrouper tous les critères d’identification de lois vus jusqu’à présentsous une formulation unique qui complète la proposition 3.19, page 44 :Proposition 3.28.Critères d’identification de loisSoient X un vecteur aléatoire de dimension d et µ une probabilité sur Rd

. Alors le vecteuraléatoire X a pour loi µ si, et seulement si, la relation

E[h(X )] =

Z

Rd

h(t) dµ(t)

est vérifiée pour tous les éléments h d’un des ensembles C suivants :1. Si d � 1, C est l’ensemble des applications boréliennes de Rd dans [0, +1].

2. Si d � 1, C est l’ensemble des applications positives continues et à support compact deRd dans [0, +1].

3. Si d � 1, C est l’ensemble des applications

hu

: x 2 Rd 7! hu

(x) = exp(ihu, xi) 2 C

lorsque u parcourt Rd

.

4. Si d = 1, C est l’ensemble des indicatrices 1l]�1,u] lorsque u parcourt R.

Démonstration : Il suffit de prouver l’item 3, les autres ayant déjà été vus dans le théorème 3.19de la page 44. On remarque que, pour tout u 2 Rd

, �X

(u) = E (exp(ihu, X i)) = E (hu

(X )) et�µ(u) = Eµ(h

u

) On conclut par le théorème d’injectivité 3.26. 2

Définition 3.13.Les familles de fonctions qui apparaissent dans les différents item de la proposition précédentesont souvent appelées familles de fonctions-test.

Dans le cas où d = 1, les formules d’inversion données ci-dessous précisent le lien entre la

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 68: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

54 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

probabilité et sa fonction caractéristique. Elles permettent de retrouver la probabilité à partirde sa f.c. :Proposition 3.29.Formules d’inversion ou de réciprocité de Perron-StieltjèsSi µ est une probabilité sur R de f.c. �, a et b deux réels tels que a < b, alors :

1. La suite d’intégrales au sens de Riemann✓

1

2⇡

Z

n

�n

e�i ta � e�i tb

i t�(t)dt

Nest conver-

gente dans R et lim

n!+1

1

2⇡

Z

n

�n

e�i ta � e�i tb

i t�(t)dt = µ(]a, b[) +

1

2

µ({a, b}).

2. La suite d’intégrales au sens de Riemann✓

1

2n

Z

n

�n

e�i ta�(t)dt

N⇤est convergente dans

R et lim

n!+1

1

2n

Z

n

�n

e�i ta�(t)dt = µ({a}).

Indications pour la démonstration (laissée en exercice non corrigé).Vérifier que les intégrales qui interviennent dans la proposition peuvent bien être prises ausens de Riemann car les fonctions complexes à intégrer sont continues (ou prolongeables par

continuité) sur [�n, n]. On rappelle queZ +1

�1

sin t

tdt = ⇡.

• Premier item : Justifier qu’on peut appliquer le théorème de Fubini pour obtenir :

In

:=

Z

n

�n

e�i ta � e�i tb

i t�(t)dt =

Z

R

Z

n

�n

sin(t(x � a))

tdt �

Z

n

�n

sin(t(x � b))

tdt

dµ(x).

Posons, pour tout u 2 R, S(u) :=

Z

u

0

sin t

tdt et sgn(u) :=

u

|u| si u 6= 0 avec sgn(0) := 0.

Montrer que, pour tout u 2 R,Z

n

�n

sin tu

tdt = 2sgn(u)S(n|u|) et que I

n

=

Z

Rfn

dµ où, pour

tout x 2 R, fn

(x) := 2sgn(x � a)S(n|x � a|)� 2sgn(x � b)S(n|x � b|). Montrer que la suite(f

n

)N converge vers ⇡1l{a,b} + 2⇡1l]a,b[ et qu’il existe M > 0 tel que, pour tout n 2 N, |fn

| M .

Conclure à l’aide du théorème de convergence dominée.• Second item : Utiliser une démarche analogue. 2

Dans le cas où la f.c. est intégrable au sens de Lebesgue sur R, on peut préciser la connaissancede µ :Proposition 3.30.Soit µ une probabilité sur R de f.c. �. Si � est intégrable au sens de Lebesgue sur R, alorsµ admet une densité f par rapport à la mesure de Lebesgue sur R. L’application f est unefonction à valeurs réelles, positive, bornée, continue sur R et, pour tout x 2 R, f (x) s’exprime

à l’aide de l’intégrale généralisée au sens de Riemann f (x) =

1

2⇡

Z +1

�1e�i tx�(t)dt.

Démonstration : • Remarquons que, pour tous réels a et b avec a < b,

e�i ta � e�i tb

i t

=

Z

b

a

e�i tx d�(x)

Z

b

a

�e�i tx

� d�(x) |b � a|.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 69: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

55Chapitre 3. Moments d’un vecteur aléatoire

Par suite,Z

n

�n

e�i ta � e�i tb

i t�(t)

dt |b � a|Z

n

�n

|�(t)| dt. Comme � est supposée in-

tégrable au sens de Lebesgue, on aZ +1

�1|�(t)| dt < +1, ce qui prouve que l’intégrale

Z

n

�n

e�i ta � e�i tb

i t�(t)

dt est absolument convergente. On a donc d’après la proposition 3.7,

page 35,

lim

n!+1

Z

n

�n

e�i ta � e�i tb

i t�(t) dt =

Z +1

�1

e�i ta � e�i tb

i t�(t) dt =

Z

R

e�i ta � e�i tb

i t�(t)d�(t).

• D’après le premier item de la proposition 3.29, nous pouvons donc écrire

µ(]a, b[) +

1

2

µ({a, b}) =

1

2⇡

Z

R

e�i ta � e�i tb

i t�(t)d�(t).

On a alors, pour tous réels a et b avec a < b,

1

2

µ({a}) µ(]a, b[) +

1

2

µ({a, b}) =

1

2⇡

Z

R

e�i ta � e�i tb

i t�(t)d�(t)

1

2⇡

Z

R

e�i ta � e�i tb

i t�(t)

d�(t) 1

2⇡|b � a|

Z

R|�(t)| d�(t) = C |b � a|,

où C =

1

2⇡

Z

R|�(t)| d�(t) est une constante finie car � est intégrable au sens de Lebesgue.

Fixons a, en faisant tendre b vers a, dans l’inégalité précédente, on en déduit que la mesure µest diffuse sur R, c’est-à-dire que µ({x}) = 0, pour tout réel x .

• En revenant à la première formule d’inversion de la proposition 3.29, on obtient alors entenant compte de la remarque précédente et du théorème de Fubini, pour tous réels a et b aveca < b,

µ(]a, b[) =

1

2⇡

Z

R

e�i ta � e�i tb

i t�(t) d�(t) =

1

2⇡

Z

R

Z

[a,b]

e�i tx d�(x)

�(t) d�(t)

=

Z

[a,b]

1

2⇡

Z

Re�i tx�(t) d�(t)

!

d�(x) =

Z

[a,b]

f (x) d�(x)

où on a posé, pour tout réel x , f (x) =

1

2⇡

Z

Re�i tx�(t) d�(t).

• On vérifie aisément à l’aide du théorème de convergence dominée que f est une fonctioncontinue. De plus f est bornée sur R. Comme, pour tout réel t, �(�t) = �(t), on en déduiten prenant le conjugué de l’intégrale suivi d’un changement de variable élémentaire que, pourtout réel x , f (x) = f (x), ce qui prouve que f est une fonction à valeurs réelles. Pour tous réels

a et b avec a < b, µ(]a, b[) =

Z

[a,b]

f (x) d�(x) � 0 et f est continue, on en déduit que f est

positive et que c’est bien une densité de probabilité sur R. Comme la fonction sous l’intégralet 7! e�i tx�(t) est elle-même continue et bornée et intégrable au sens de Lebesgue, l’intégrale

au sens de Lebesgue1

2⇡

Z

Re�i tx�(t) d�(t) peut s’écrire sous la forme d’une intégrale général-

isée au sens de Riemann (cf. proposition 3.7, page 35).

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 70: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

56 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

• La probabilité µ coïncide donc avec la probabilité de densité f sur la famille C des intervallesouverts de R. On vérifie aisément que C est un ⇡-système qui engendre la tribu borélienne deR. On conclut alors par le théorème d’unicité pour les probabilités (cf. proposition 1.11, page14) que µ est la probabilité de densité f . 2

La réciproque de ce résultat est fausse. En effet on vérifie aisément que la loi exponentielle deparamètre 1 sur R fournit un contre-exemple. Cependant, sous certaines hypothèses, on peutavoir des renseignements sur le comportement à l’infini de la fonction caractéristique �, commele prouve la proposition suivante :

Proposition 3.31.Soit µ une probabilité sur R de f.c. �. On suppose que µ admet une densité f de classe Cn

telle que, pour tout entier 0 k n, la dérivée f (k) d’ordre k de f soit intégrable au sens deLebesgue sur R (on pose f (0)

:= f ). Alors lim

u!+1un�1�(u) = 0.

Indications pour la démonstration (laissée en exercice non corrigé) : Soit k un entier, 1 k n.Prouver la relation, pour tout x 2 R :

f (k�1)(x) =

Z

x

0

f (k)(u)du + f (k�1)

(0).

En déduire que lim

u!+1|f (k�1)

(u)| = 0.

Par une intégration par parties, montrer que, pour tout u 6= 0,

Z +1

�1e�iux f (k�1)

(x)dx =

i

u

Z +1

�1e�iux f (k)

(x)dx .

En déduire que �(u) =

i

u

n

Z +1

�1e�iux f (n)

(x)dx . Conclure. 2

Avec les notations de Landau, le résultat démontré peut s’écrire �(u) = o

1

un�1

au voisi-

nage de +1. En fait, si f a ses n dérivées premières qui existent et sont intégrables au sensde Lebesgue sur R, en utilisant le lemme de Riemann-Lebesgue (cf [4], exercice VI-30), on

démontre que �(u) = o

1

un

au voisinage de +1.

Passons maintenant au second point d’intérêt de la notion de f.c.. Les propositions ci-dessous,3.33, 3.34 et 3.35, donnent un procédé de calcul des moments d’une variable aléatoire réelleà l’aide de sa fonction caractéristique. Ces résultats se démontrent en utilisant le théorème de

dérivation sous le signeZ

vu en théorie de l’intégration, que nous rappelons sans le démontrer

dans le cas particulier qui nous intéresse (cf. [8], page 105) :

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 71: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

57Chapitre 3. Moments d’un vecteur aléatoire

Proposition 3.32.

Théorème de dérivation sous le signeZ

Soit (E , E , µ) un espace de probabilité, f une application de E ⇥R dans R (ou C). Si f vérifieles trois hypothèses suivantes :

1. pour µ-presque-tout x 2 E , t 2 R 7! f (x , t) 2 R est dérivable sur R,2. pour tout t 2 R, x 2 E 7! f (x , t) 2 R est intégrable par rapport à µ,

3. il existe une application g , intégrable par rapport à µ, telle que, pour µ-presque-tout

x 2 E et pour tout t 2 R,�

@f

@t(x , t)

g(x),

alors,

1. L’application F : t 2 R 7! F (t) :=

Z

E

f (x , t)dµ(x) 2 R est dérivable sur R,

2. Pour tout t 2 R, x 2 E 7! @f

@t(x , t) 2 R est intégrable par rapport à µ,

3. Pour tout t 2 R, F 0(t) =

Z

E

@f

@t(x , t)dµ(x).

En appliquant ce résultat à l’application (x , u) 2 R⇥ R 7! exp (ihx , ui) , et en raisonnant parrécurrence, on obtient :

Proposition 3.33.Si X est une variable aléatoire réelle telle que E(|X |n) < +1, i.e. X 2 Ln

(⌦ , F , P), où n estun entier naturel non nul, alors la fonction caractéristique �

X

de X est continûment dérivablejusqu’à l’ordre n et on a, pour tout réel u :

�(n)X

(u) = inZ

Rxne iuxdP

X

(x) = inE�

X ne iuX

.

En particulier �(n)X

(0) = inZ

RxndP

X

(x) = inE (X n

) .

Pour les vecteurs aléatoires, nous avons en particulier :

Proposition 3.34.Si X = (X1, X2, · · · , X

d

) est un vecteur aléatoire de dimension d tel que E(|X |2) < +1,i.e. X 2 L2

(⌦ , F , P), où d est un entier naturel non nul, alors, pour tout k = 1, 2, · · · , d et

j = 1, 2, · · · , d on a E(Xk

) = �i@�

X

@uk

(0) et E(Xk

Xj

) = � @2�X

@uk

@uj

(0).

Pour le calcul des moments d’une variable aléatoire réelle, la proposition suivante est parfoisutile :

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 72: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

58 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Proposition 3.35.Soient X une variable aléatoire réelle et n un entier naturel tels que la f.c. de X , �

X

, soitdérivable en 0 à l’ordre n. Alors

1. E(X 2p

) < +1 où 2p est le plus grand entier pair inférieur à n. En particulier, X admetdes moments jusqu’à l’ordre 2p.

2. De plus, si le développement limité de �X

au voisinage de 0 à l’ordre n s’écrit

�X

(u) = 1 +

k=n

X

k=1

ak

uk

+ o(un

) alors, pour tout 1 k 2p, E(X k

) = (�i)kak

k!.

Indications pour la démonstration (laissée en exercice non corrigé) : Supposons que �X

soitn-fois dérivable en 0. Faisons un raisonnement par récurrence finie sur k tel que 2k n, enprenant pour propriété de récurrence à l’ordre k , (P

k

) : "M2k

< +1."• Montrons d’abord (P1).Pour simplifier notons f la partie-réelle de �

X

et g sa partie-imaginaire. Montrer que gest impaire et f paire. En déduire �(2n)

X

(0) = f (2n)(0). Montrer que la suite de fonctions

2n2(1� f (

1

n))

Nconverge dans R vers�f 00(0). En appliquant le lemme de Fatou (proposition

3.12, page 38) à la suite de fonctions⇣

2n2(1� cos

x

n)

N, prouver que M2 �f 00(0) < +1.

• Montrons l’hérédité de la propriété.Supposons (P

k�1), pour un entier naturel k tel que 2k n, et montrons (Pk

) :

Notons h la partie-réelle de �(2k�2)X

. Montrer que h(t) = (�1)

k�1

Z

Rx2k�2

cos(tx)dPX

(x)

et que h00(0) = �(2k)X

(0). En déduire, en utilisant la convergence de la suite de fonctions✓

2n2(1� h(

1

n))

N, que lim

n!+1(�1)

k�1

Z

R2n2x2k�2

(1� cos

x

n)dP

X

(x) = ��(2k)X

(0). En appli-

quant le lemme de Fatou, prouver que M2k

(�1)

k�(2k)X

(0) < +1. Appliquer le théorème derécurrence finie sur k pour conclure.La deuxième partie résulte de la proposition 3.33 précédente.2

On notera que la connaissance des moments ne détermine pas en général la probabilité µ(cf. [14], page 89, exemple 11.1). Cependant, sous certaines hypothèses, la connaissance desmoments détermine la probabilité µ. C’est le cas notamment dans le cas précisé par le résultatsuivant :

Proposition 3.36.Soit µ une probabilité sur R de f.c. �. Supposons qu’il existe un réel ↵ > 0 tel que, pour tout

entier naturel n,Z

R|xn|dµ(x) ↵n. Alors la f.c. � est développable en série entière sur R au

vosinage de 0.

Indications pour la démonstration (laissée en exercice non corrigé) : Justifier l’application de laformule de Taylor-Lagrange à l’ordre n dont on majorera le reste pour prouver que la f.c. estdéveloppable en série entière en 0 de rayon de convergence +1. Conclure. 2

Une conséquence immédiate de ce résultat est :

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 73: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

59Chapitre 3. Moments d’un vecteur aléatoire

Proposition 3.37.Soit µ une probabilité sur R. Supposons qu’il existe un réel ↵ > 0 tel que, pour tout entier

naturel n,Z

R|xn|dµ(x) ↵n. Si ⌫ est une probabilité sur R ayant les mêmes moments que µ,

alors µ = ⌫.

Démonstration : D’après la proposition 3.36, les f.c. de µ et ⌫ sont développables chacunes ensérie entière. Comme, d’après la proposition 3.35, les coefficients des ces deux séries entièressont complètement déterminés par les moments des probabilités µ et ⌫, et comme ces deuxprobabilités ont les mêmes moments par hypothèse, on en déduit que les deux séries entièressont identiques et par suite que leurs f.c., qui sont respectivement égales aux sommes de cesdeux séries, sont égales. On conclut par le théorème d’injectivité des f.c.. 2

3.4 Exercices de révision sur les chapitres I à III

Exercice 3.15. (Corrigé de l’exercice : page 161)Soit X une v.a.r. de loi N 1(0, 1). Pour tout réel a > 0, on pose

Xa

:= X1l{|X |a} � X1l{|X |>a}.

1. Vérifier que, pour tout réel a > 0 et toute application h de R dans R,

h(Xa

) = h(X )1l[0,a](|X |) + h(�X )1l]a,+1[(|X |).

2. En déduire que, pour tout réel positif a > 0, la v.a.r. Xa

suit la loi normale réduitecentrée.

Exercice 3.16. (Corrigé de l’exercice : page 162)Soit X une variable aléatoire de densité f définie pour tout nombre réel x , par

f (x) =

8

<

:

a

x

si � e x < �1

x + 1� a si � 1 x < 0

0 sinon

où a est un nombre réel.1. Calculer a et déterminer la fonction de répartition F de X .

2. Calculer l’espérance de la variable aléatoire X .

Exercice 3.17. (Corrigé de l’exercice : page 162)Soit X une variable aléatoire normale centrée réduite. Préciser, dans chacun des cas ci-dessous, la loi de probabilité de la variable aléatoire Y définie en fonction de X

1. Y = X 3.

2. Y = F (X ) où F est la fonction de répartition de la variable X .

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 74: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

60 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Exercice 3.18. (Corrigé de l’exercice : page 163)Soit ↵ un paramètre réel strictement positif et f l’application définie sur R par

f (x) =

12↵e�↵x

si x � 0

12↵e↵x

si x 0

1. Vérifier que f est bien une densité de probabilité.2. Soit X une variable aléatoire réelle de densité f , quelle est la loi de la variable aléatoire

Y = |X | ? En déduire la variance de la variable X .

Exercice 3.19. (Corrigé de l’exercice : page 163)Soit X une variable aléatoire réelle uniforme continue sur [0, 1]. Montrer que la relation

Y = � 1

↵ln(1�X ), où ↵ est un paramètre réel strictement positif, définit presque-sûrement

une variable aléatoire réelle. Quelle est la loi de la variable aléatoire Y ?

Exercice 3.20. (Corrigé de l’exercice : page 163)Soit X une v.a.r. normale de loi N (m,�2

), où m et � sont des réels avec � > 0.

1. Montrer que la fonction caractéristique de X peut s’exprimer à l’aide de la fonctioncaractéristique � de la loi de Gauss-Laplace standard N (0, 1).

2. En utilisant le théorème 3.32, page 57, de dérivation sous le signeZ

, montrerque � est une solution particulière de l’équation différentielle du premier ordrey 0(t) + ty(t) = 0. En déduire l’expression analytique de la fonction �, puis cellede la fonction caractéristique de la variable X .

Exercice 3.21. (Corrigé de l’exercice : page 164)1. Montrer que si X et Y sont deux v.a.r. presque-sûrement égales, alors elles ont la

même loi. Montrer que la réciproque est fausse.2. Soient X et Y deux v.a.r. de même loi, g une application borélienne de R dans R.

Montrer que les v.a.r. g(X ) et g(Y ) ont la même loi. Soit Z une autre v.a.r., montrerque les v.a.r. XZ et Y Z n’ont pas nécessairement la même loi.

Exercice 3.22. (Corrigé de l’exercice : page 165)Calculer la fonction caractéristique des variables aléatoire suivantes (pour les définitionsse reporter au formulaire de l’annexe A, page 205) :

1. X suit une loi géométrique G(p).2. Y suit une loi uniforme U([a, b]).3. Z suit une loi exponentielle E(↵).

Exercice 3.23. (Corrigé de l’exercice : page 165)Soit µ une mesure de probabilité sur R et D une partie partout dense dans R (i.e.l’adhérence de D est égale à R) telle que, pour tout t 2 D, Fµ(t) 2 {0, 1}. Montrerqu’il existe a 2 R tel que µ = �

a

.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 75: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

61Chapitre 4. Indépendance stochastique

Chapitre 4

Indépendance stochastique

Dans la suite, si A et B sont respectivement des parties de Rn et Rp

, on posera avec un légerabus,

A⇥B := {(x1, · · · , xn+p

) 2 Rn+p/(x1, · · · , xn

) 2 A et (xn+1, · · · , x

n+p

) 2 B},c-à-d A⇥B := (A⇥Rp

)\(Rn⇥B). De même, si a := (a1, · · · , an

) 2 Rn et b := (b1, · · · , bp

) 2Rp

, on notera (a, b) := (a1, · · · , an

, b1, · · · , bp

) considéré comme élément de Rn+p. On dit que(a, b) est obtenu par concaténation de a et b.

4.1 Intégration sur Rn+p

Pour introduire la problématique de l’intégration sur Rn+p, commençons par considérer les deuxsituations suivantes :1) Soient a := (a1, · · · , a

n

) 2 Rn et b := (b1, · · · , bp

) 2 Rp

. On remarque qu’avec les notationsprécisées en préliminaires on peut écrire, pour tous boréliens A et B respectivement de Rn etRp

,

�(a,b)(A⇥B) = 1lA⇥B

(a, b) = 1lA

(a)1lB

(b) = �a

(A)�b

(B).

2) De même, considérons la mesure de Lebesgue sur R2. Par définition pour tous réels

a, b, c , d , avec a < b et c < d , �(2)(]a, b]⇥]c , d ]) = �(]a, b])�(]c , d ]) où � désigne la mesure

de Lebesgue sur R. Plus généralement on montre que, pour tous boréliens A et B de R,

�(2)(A⇥B) = �(A)�(B).

Généralisons ces situations en considérant le problème suivant : Étant donné deux mesures µ et⌫ respectivement sur Rn et Rp

, existe-t-il une mesure ↵ sur Rn+p telle que, pour tous boréliens Aet B respectivement de Rn et Rp

, ↵(A⇥B) = µ(A)⌫(B) ? Si oui, y a-t-il unicité de la mesure ↵ ?

On montre que dans le cas où µ et ⌫ sont des probabilités la réponse est positive. Dans le casdes mesures plus générales ce n’est plus nécessairement vrai, cependant c’est encore vrai pourles mesures de Lebesgue. Plus précisément, on admettra le résultat suivant :Proposition 4.1.Soit µ (respectivement ⌫) une probabilité ou la mesure de Lebesgue sur Rn (respectivementsur Rp) alors il existe une unique mesure sur Rn+p, notée µ⌦ ⌫, telle que, pour tous boréliensA et B respectivement de Rn et Rp

, µ⌦ ⌫(A⇥B) = µ(A)⌫(B).

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 76: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

62 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Définition 4.1.On dit que µ ⌦ ⌫ est le produit des mesures µ et ⌫. On dit aussi que µ ⌦ ⌫ est unemesure-produit sur Rn+p

.

On notera que toutes les mesures sur Rn+p ne sont pas nécessairement des mesures-produit.

Exemples 4.1.On admettra que, pour tous entiers n � 1 et p � 1, �(n+p)

= �(n) ⌦ �(p). En particulier on

utilisera souvent la relation �(2)= �⌦ �. 2

Le théorème suivant, énoncé sous la forme la plus utilisée dans ce cours, est un cas particulierdu théorème de Tonelli vu en théorie de la mesure et de l’intégration. Il donne un procédéde calcul des intégrales sur Rn+p

. Il permettra par un procédé de récurrence d’en déduire uneméthode de calcul des intégrales sur Rd

.

Proposition 4.2.Théorème de Tonelli (admis)Soient µ une probabilité ou la mesure de Lebesgue sur Rn

, ⌫ une probabilité ou la mesure deLebesgue sur Rp et f une application borélienne positive de Rn+p dans [0, +1], alors

1. Pour tous y 2 Rp et x 2 Rn

, les applications partielles

u 2 Rn 7! f (u, y) 2 [0, +1] et v 2 Rp 7! f (x , v) 2 [0, +1]

sont boréliennes positives.2. Les applications

x 2 Rn 7!Z

Rp

f (x , v)d⌫(v) 2 [0, +1] et y 2 Rp 7!Z

Rn

f (u, y)d⌫(u) 2 [0, +1]

sont boréliennes positives,3. On a les égalités

Z

Rn+p

f d(µ⌦ ⌫) =

Z

Rp

Z

Rn

f (x , y)dµ(x)

d⌫(y)

=

Z

Rn

Z

Rp

f (x , y)d⌫(y)

dµ(x).

Le théorème de Tonelli permet en pratique de ramener le calcul d’une intégrale multiple, i.e.sur Rd

, au calcul d’une succession de d intégrales simples, i.e. sur R, pour lesquelles onpeut appliquer séparément les règles d’intégration déjà vues au chapitre III.

Ce résultat est encore vrai pour les applications f de signe quelconque à condition qu’ellessoient supposées intégrables sur Rn+p suivant la mesure-produit µ⌦ ⌫. Il est alors connu sousle nom de théorème de Fubini :

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 77: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

63Chapitre 4. Indépendance stochastique

Proposition 4.3.Théorème de FubiniSoient µ une probabilité ou la mesure de Lebesgue sur Rn

, ⌫ une probabilité ou la mesure deLebesgue sur Rp et f une application (µ⌦ ⌫)-intégrable de Rn+p dans R, alors,

1. Pour µ-presque-tout x 2 Rn, l’application y 2 Rp 7! f (x , y) 2 R est ⌫-intégrable, et,pour ⌫-presque-tout y 2 Rp, l’application x 2 Rn 7! f (x , y) 2 R est µ-intégrable.

2. L’application y 2 Rp 7!Z

Rn

f (x , y)dµ(x) 2 R est définie ⌫-presque-partout et ⌫-

intégrable, et l’application x 2 Rn 7!Z

Rp

f (x , y)d⌫(y) 2 R est définie µ-presque-partout

et µ-intégrable.3. L’intégrale de f par rapport à la mesure-produit µ⌦ ⌫ est donnée par :

Z

Rn+p

f d(µ⌦ ⌫) =

Z

Rn

Z

Rp

f (x , y)d⌫(y)

dµ(x)

=

Z

Rp

Z

Rn

f (x , y)dµ(x)

d⌫(y).

D’autres notations sont utilisées dans les ouvrages pour noter une intégrale suivant une mesure-produit. On trouvera indifféremment

Z

Rn+p

f d(µ⌦ ⌫) =

Z

Rn+p

f (x , y) d(µ⌦ ⌫)(x , y) =

Z

Rn+p

f (x , y) dµ(x)⌦ d⌫(y)

=

Z

Rn+p

f (x , y) dµ(x)d⌫(y).

Exemples 4.2.Considérons l’application f définie sur R2 par f (x , y) := 1l]0,+1[(x)1l]a,b[(y)e�xy où a et bsont des réels tels que 0 < a < b. C’est une fonction borélienne positive sur R2

. Appliquonsle théorème de Tonelli à f et à la mesure �(2)

= �⌦ �,

Z

R2

f d�(2)=

Z

R1l]0,+1[(x)

Z

R1l]a,b[(y)e�xyd�(y)

d�(x)

=

Z

R1l]a,b[(y)

Z

R1l]0,+1[(x)e�xyd�(x)

d�(y).

Ce qui donne en utilisant la règle d’intégration suivant la mesure de Lebesgue sur R desfonctions boréliennes positives,

Z

R2

f d�(2)=

Z +1

0

e�ax � e�bx

xdx

=

Z

R1l]a,b[(y)

1

yd�(y) =

Z

b

a

1

ydy = ln

b

a

.

On a ainsi par la même occasion établi la valeur de l’intégrale généralisée au sens deRiemann

Z +1

0

e�ax � e�bx

xdx = ln

b

a

. 2

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 78: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

64 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Pour compléter les techniques d’intégration suivant la mesure de Lebesgue sur Rd

, le théorèmesuivant, dit de changement de variable, est très utile.

Rappelons qu’un difféomorphisme F de classe C1 d’un ouvert U sur un ouvert V de Rd

est une application bijective, différentiable de U sur V telle que F�1 soit différentiable avec lesapplications différentielles de F et F�1 continues. De plus si f1, · · · , f

d

sont les applications-composantes de F , on appelle jacobien de F au point u 2 U le déterminant de la matrice carréd’ordre d de coefficient général @

j

fi

(u) où @j

fi

(u) désigne la dérivée-partielle de l’application fi

par rapport à la j ième variable calculée au point u 2 U .

Proposition 4.4.Théorème de changement de variable dans Rd (admis)Soient T un difféomorphisme de classe C1 d’un ouvert U sur un ouvert V de Rd et f uneapplication borélienne de Rd dans R. Notons J(v) le jacobien de T�1 au point v 2 V .

1. Si f est à valeurs dans [0, +1], alors x 2 Rd 7! 1lV(x)f (T�1(x))|J(x)| est une

application borélienne positive.2. Si l’application x 2 Rd 7! 1lU(x)f (x) est �(d)-intégrable sur Rd , alors l’application

x 2 Rd 7! 1lV(x)f (T�1(x))|J(x)| est �(d)-intégrable sur Rd

.

De plus, dans les deux cas ci-dessusZ

Rd

1lU(u)f (u)d�(d)(u) =

Z

Rd

1lV(v)f�

T�1(v)

� |J(v)| d�(d)(v),

qu’on écrit encore :Z

U

f (u)d�(d)(u) =

Z

V

f�

T�1(v)

� |J(v)| d�(d)(v).

On dit alors qu’on a effectué le changement de variable v := T (u) où v désigne le vecteurdes "nouvelles" variables et u celui des "anciennes". On remarquera surtout que le jacobienutilisé est celui de la transformation exprimant les "anciennes" variables en fonction des "nou-velles" c-à-d de T�1

.

Illustrons par un exemple l’utilisation des théorèmes de Tonelli et de changement de variable.

Exemples 4.3.Montrons que

I :=

Z

R2

1l]0,+1[2(x , y)e�(x2+y

2)d�(2)(x , y) =

4

.

En effet, ici U :=]0, +1[

2, u := (x , y). Considérons le changement de variable x = r cos ✓

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 79: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

65Chapitre 4. Indépendance stochastique

et y = r sin ✓ où v := (r , ✓) 2 V :=]0, +1[⇥]0,

⇡2 [. Comme |J(v)| = r , il vient

I =

Z

R2

1l]0,+1[⇥]0,⇡2 [(r , ✓)e

�r

2rd�(2)

(r , ✓)

=

Z

R1l]0,+1[(r)e

�r

2r

Z

R1l]0,⇡

2 [(✓)d�(✓)

d�(r)

=

Z

R1l]0,+1[(r)e

�r

2rd�(r)

◆✓

Z

R1l]0,⇡

2 [(✓)d�(✓)

=

Z +1

0

e�r

2rdr

2

=

4

.

Dans le calcul précédent on a utilisé le théorème de Tonelli et la règle d’intégration suivantla mesure de Lebesgue sur R. 2

Exercice 4.1. (Corrigé de l’exercice : page 165)1) Déduire du résultat de l’exemple précédent les deux relations

Z +1

0

e�x

2dx =

1

2

p⇡ et

1p2⇡

Z +1

�1e�

12 x

2dx = 1.

2) En remarquant que x2+ 2xy + 2y 2

= (x + y)

2+ y 2

, déduire de la question précédente

queZ

R2

e�(x2+2xy+2y

2)d�(2)(x , y) = ⇡.

Le théorème de Fubini ou de Tonelli sont en particulier très utiles dans les calculs faisantintervenir des probabilités à densité définies sur Rd

. Donnons un exemple d’utilisation de laproposition 3.8, page 35, dans le calcul de lois de probabilité sur R2

.

Exemples 4.4.Soit (X , Y ) un vecteur aléatoire de R2 dont la loi admet pour densité la fonction définie surR2 ⇢ :=

121l� où � := {(x , y) 2 R2/|x |+ |y | 1}. Cherchons la loi de la variable aléatoire

réelle X .

Soit A un borélien de R. Calculons PX

(A). Par définition de la notion de loi et comme{X 2 A} = {(X , Y ) 2 A⇥R},

PX

(A) = P(X 2 A) = P ((X , Y ) 2 A⇥R)

= P(X ,Y )(A⇥R) =

Z

R2

1lA

(x)1lR(y)dP(X ,Y )(x , y).

D’après la règle d’intégration des mesures à densité sur R2 puis par application du théorèmede Tonelli à �(2)

= �⌦ �,

Z

R2

1lA

(x)1lR(y)dP(X ,Y )(x , y) =

Z

R2

1lA

(x)1lR(y)

1

2

1l�

(x , y)d�(2)(x , y)

=

Z

R1l

A

(x)

Z

R

1

2

1l�

(x , y)d�(y)

d�(x)

=

Z

R1l

A

(x)�(x)d�(x)

où on a posé après le calcul de l’intégrale

�(x) :=

Z

R

1

2

1l�

(x , y)d�(y) = (1� |x |)1l[�1,1](x).

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 80: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

66 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Ce qui prouve que la variable aléatoire réelle X a pour loi la probabilité définie sur R parla densité �. On trouve par symétrie des rôles joués par X et Y que Y a même loi que X(cela ne signifie pas que X = Y !). 2

Exercice 4.2. (Corrigé de l’exercice : page 166)Citer un exemple simple de variables aléatoires réelles X et Y distinctes et de même loi.

En fait on vient de montrer, sur un cas particulier, le résultat important ci-dessous qui affirmeque si un vecteur aléatoire admet une densité, alors ses composantes sont des variables aléatoiresréelles à densité. La réciproque est fausse en général comme le montre le contre-exemple proposédans l’exercice 4.4 ci-dessous. Plus précisément :Proposition 4.5.Si X := (X1, · · · , X

d

) est un vecteur aléatoire de densité ⇢ sur Rd

, alors, pour tout entier1 k d , la v.a.r. X

k

admet pour densité l’application �k

définie sur R par

�k

(t) :=

Z

Rd�1

⇢(x1, · · · , xk�1, t, xk+1, · · · , x

d

)d�(d�1)(x1, · · · , x

k�1, xk+1, · · · , xd

).

La réciproque est fausse.

Exercice 4.3. (Corrigé de l’exercice : page 166)Démontrer cette proposition pour d = 3 en adaptant la démarche développée dansl’exemple précédent dans lequel on avait d = 2.

Exercice 4.4. (Corrigé de l’exercice : page 167)Soit X une variable aléatoire réelle de loi normale standard N 1(0, 1). On pose � :=

{(x , y) 2 R2, y = x}, Prouver que P(X ,X )(�) = 1. En supposant que le vecteur aléatoire

(X , X ), admette une densité sur R2, prouver que, sous cette hypothèse, P(X ,X )(�) = 0.

En déduire que le vecteur aléatoire (X , X ) de dimension 2 n’admet pas de densité sur R2

et que la réciproque de la proposition 4.5 est fausse.

4.2 Indépendance de vecteurs aléatoires, d’événements,

de tribus

4.2.1 Indépendance de vecteurs aléatoires

Exemples 4.5.Revenons à l’exemple 4.4 de la page 65 pour montrer que, dans ce cas, P(X ,Y ) 6= P

X

⌦ PY

.

En effet, considérons le borélien de R2, G :=]

12 , 1[⇥]

12 , 1[, et comparons P(X ,Y )(G ) avec

PX

⌦ PY

(G ). Il vient d’une part,

P(X ,Y )(G ) =

Z

R2

1lG

(x , y)dP(X ,Y )(x , y) =

Z

R2

1lG

(x , y)

1

2

1l�

(x , y)d�(2)(x , y) = 0

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 81: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

67Chapitre 4. Indépendance stochastique

car 1lG

1l�

est l’application nulle sur R2, et d’autre part,

PX

⌦ PY

(G ) = PX

]

1

2

, 1[

PY

]

1

2

, 1[

.

Or

PX

]

1

2

, 1[

=

Z

R1l] 1

2 ,1[dPX

=

Z

R(1� |x |)1l[�1,1](x)1l] 1

2 ,1[(x)d�(x) =

Z 1

12

(1� x)dx =

1

8

.

Ce qui montre que 0 = P(X ,Y )(G ) 6= PX

⌦ PY

(G ) = (

18)

2 et prouve que le produit des loisde X et Y , qui est une probabilité sur R2

, n’est pas égal à la loi du vecteur (X , Y ) i.e.P(X ,Y ) 6= P

X

⌦ PY

. 2

Les situations pour lesquelles on aura l’égalité seront celles où on dira qu’il y a indépendancedes variables suivant la définition :Définition 4.2.Une suite finie de vecteurs aléatoires (X1, · · · , X

n

), de dimensions quelconques (éventuellementdistinctes), est dite indépendante (relativement à P) si

P(X1,··· ,Xn

) = PX1 ⌦ P

X2 ⌦ · · ·⌦ PX

n

.

On dit aussi, par abus, que les vecteurs aléatoires X1, · · · , Xn

sont indépendants. Il s’agit làd’un abus car l’indépendance est une propriété de la suite (X1, · · · , X

n

) et non de chacune desvariables aléatoires réelles X

k

.

Définition 4.3.La loi du vecteur aléatoire concaténé X := (X1, · · · , X

n

) est dite aussi loi conjointe desvecteurs X1, · · · , X

n

. Pour tout entier k = 1, · · · , n, la loi du vecteur aléatoire Xk

s’appellealors la loi marginale de X de rang k .

Exemples 4.6.Avec cette terminologie, on peut énoncer le résultat de l’exemple 4.5 précédent en expri-mant que le couple de variables aléatoires réelles (X , Y ) n’est pas indépendant.

Dans le chapitre sur les convergences de suite de variables aléatoires réelles on aura besoin dela définition suivante :Définition 4.4.Une suite infinie (X

k

)N de vecteurs aléatoires est dite indépendante (relativement à P) sitoute sous-famille finie est indépendante relativement à P.

On montre que si (µk

)

k2I

, où I ✓ N, est une suite (finie ou infinie) de probabilités sur R, onpeut toujours construire un espace de probabilité (⌦ , F , P) et une suite indépendante (X

k

)

k2I

de variables aléatoires réelles définies sur (⌦ , F , P) telle que, pour tout k 2 I , µk

soit la loi dela variable aléatoire réelle X

k

.

On peut vérifier aisément qu’une suite infinie de vecteurs aléatoires (Xk

)N est indépendante si,et seulement si, pour tout entier n 2 N, la suite finie (X0, · · · , X

n

) est indépendante.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 82: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

68 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Exercice 4.5. (Corrigé de l’exercice : page 167)Soit (U , V ) un couple indépendant de variables aléatoires réelles dont la loi de chaquecomposante est la loi uniforme U([0, 1]) de densité 1l[0,1]. On définit les variables aléatoiresX :=

p�2 ln U cos(2⇡V ) et Y :=

p�2 ln U sin(2⇡V ).

1. Montrer que le vecteur aléatoire (X , Y ) de dimension 2 admet pour densité

l’application définie sur R2 par ⇢(x , y) :=

1

2⇡e�

x

2+y

2

2. On dit qu’il suit une loi nor-

male de dimension 2. Les vecteurs de ce type seront étudiés plus en détail auchapitre suivant.

2. Montrer que les variables aléatoires réelles X et Y ont toutes les deux pour loiN 1(0, 1).

3. Déduire des questions précédentes que le couple de variables aléatoires réelles (X , Y )

est indépendant.

4.2.2 Critères d’indépendance de vecteurs aléatoires

Les propositions qui suivent ont pour but de donner des critères permettant de reconnaître siune suite finie de vecteurs aléatoires est indépendante.

Proposition 4.6.Soit (X1, · · · , X

n

) une suite de vecteurs aléatoires de dimensions respectives d1, · · · , dn

. Lesassertions suivantes sont équivalentes :

1. La suite (X1, · · · , Xn

) est indépendante.2. Pour tout entier 1 k n et tout borélien B

k

de Rd

k

,

P(X1,··· ,Xn

)(B1⇥B2⇥ · · ·⇥Bn

) = PX1(B1)PX2(B2) · · ·PX

n

(Bn

).

3. Pour tout entier 1 k n et tout borélien Bk

de Rd

k

,

P [X1, · · · , Xn

) 2 B1⇥ · · ·⇥Bn

] = P(X1 2 B1) · · ·P(Xn

2 Bn

).

4. Pour tout entier 1 k n et tout borélien Bk

de Rd

k

,

P [{X1 2 B1} \ · · · \ {Xn

2 Bn

}] = P(X1 2 B1) · · ·P(Xn

2 Bn

).

Démonstration : "(1) implique (2)" résulte de la définition des produits de lois. "(2) implique(3)" résulte de la définition de la notion de loi et des notations. "(3) implique (4)" résulte dela relation ensembliste immédiate à vérifier :

{(X1, · · · , Xn

) 2 B1⇥ · · ·⇥Bn

} = {X1 2 B1} \ {X2 2 B2} \ · · · \ {Xn

2 Bn

}.

L’implication " (4) implique (1) " résulte de ce que la probabilité P(X1,··· ,Xn

) vérifie la propriétécaractéristique des mesures-produits : Pour tout entier 1 k n et tout borélien B

k

de Rd

k

,

P(X1,··· ,Xn

)(B1⇥B2⇥ · · ·⇥Bn

) = PX1(B1)PX2(B2) · · ·PX

n

(Bn

). Par unicité de la mesure-produit,on en déduit que P(X1,··· ,Xn

) = PX1 ⌦ P

X2 ⌦ · · ·⌦ PX

n

. Ce qui prouve (1). 2

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 83: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

69Chapitre 4. Indépendance stochastique

Dans les cas où on manipule des variables aléatoires réelles discrètes la proposition précédentea pour corollaire le critère d’indépendance ci-dessous. Pour simplifier on supposera que lesvariables aléatoires réelles sont portées par N mais le résultat se généralise aux variablesaléatoires réelles portées par un ensemble dénombrable quelconque de R, notamment Z.

Proposition 4.7.Critère des v.a.r. discrètesSoit (X1, · · · , X

n

) une suite de variables aléatoires réelles discrètes portées par N, alors la suite(X1, · · · , X

n

) est indépendante si, et seulement si, pour tout (k1, · · · , kn

) 2 Nn

,

P ({X1 = k1} \ · · · \ {Xn

= kn

}) = P(X1 = k1) · · ·P(Xn

= kn

).

Démonstration : La condition nécessaire résulte de l’implication "(1) implique (4)" de laproposition précédente où on a pris B

i

:= {ki

}, i = 1, · · · , n, qui sont bien des boréliensde R.

La condition suffisante résulte du fait que P(X1,··· ,Xn

) est une probabilité discrète sur Rn, elle estdonc entièrement déterminée par la connaissance des nombres

P(X1,··· ,Xn

)({k1}⇥{k2}⇥ · · ·⇥{kn

})

qui sont, par hypothèse, égaux à

P(X1 = k1)P(X2 = k2) · · ·P(Xn

= kn

).

De même on vérifie que PX1 ⌦ · · ·⌦ P

X

n

est une probabilités portée par Nn donc discrète. Elleest donc entièrement déterminée par la connaissance des nombres

PX1 ⌦ · · ·⌦ P

X

n

({k1}⇥{k2}⇥ · · ·⇥{kn

}) = P(X1 = k1)P(X2 = k2) · · ·P(Xn

= kn

).

Par suiteP(X1,··· ,Xn

) = PX1 ⌦ · · ·⌦ P

X

n

.

Ce qui prouve l’indépendance de la suite (X1, · · · , Xn

). 2

Exemples 4.7.Reprenons les notations de l’exemple 3.12, page 42. X := (X1, X2) est un vecteur aléatoirede dimension 2 de loi

PX

:=

X

k�1,l�1

1

2

k+l

�(k,l).

Par suite, pour tous k 2 N⇤ et l 2 N⇤,

P[{X1 = k} \ {X2 = l}] =

1

2

k+l

et P(X1 = k) = P(X2 = k) =

1

2

k

.

Ce qui montre que, pour tous k 2 N⇤ et l 2 N⇤,

P[{X1 = k} \ {X2 = l}] = P(X1 = k)P(X2 = l)

et prouve ainsi l’indépendance de la suite de variables aléatoires réelles (X1, X2). 2

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 84: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

70 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

On vient d’établir un critère d’indépendance pour une grande famille de probabilités, celle desprobabilités discrètes, donnons maintenant un critère pour une autre grande famille de proba-bilités, celle des probabilités à densité.

Proposition 4.8.Critère des v.a.r. à densité

1. Si (X1, · · · , Xn

) est une suite indépendante de variables aléatoires réelles telle que, pourtout k = 1, · · · , n, la variable aléatoire réelle X

k

soit de densité ⇢k

sur R, alors le vecteuraléatoire X := (X1, · · · , X

n

) de dimension n admet pour densité sur Rn l’application

⇢ : (x1, · · · , xn

) 2 Rn 7! ⇢(x1, · · · , xn

) := ⇢1(x1)⇢2(x2) · · · ⇢n

(xn

) 2 [0, +1].

2. Réciproquement, si X := (X1, · · · , Xn

) est un vecteur aléatoire de dimension n admettantpour densité sur Rn une application ⇢ définie par une relation de la forme ⇢(x1, · · · , x

n

) :=

g1(x1)g2(x2) · · · gn

(xn

), où, pour tout k = 1, · · · , n, gk

est une application boréliennepositive de R dans [0, +1], alors la suite de variables aléatoires réelles (X1, · · · , X

n

)

est indépendante et, pour tout k = 1, · · · , n, la variable aléatoire réelle Xk

admet pourdensité sur R l’application

�k

: t 2 R 7! �k

(t) :=

gk

(t)R

R gk

d�2 [0, +1].

Démonstration : Pour simplifier les notations, faisons la démonstration dans le cas n = 3.

1) Soient (X , Y , Z ) une suite indépendante de variables aléatoires réelles et h une applicationborélienne positive de R3 dans [0, +1]. Par le théorème du transfert, l’indépendance de lasuite (X , Y , Z ) i.e. P(X ,Y ,Z) = P

X

⌦ PY

⌦ PZ

, puis en appliquant le théorème de Tonelli àP

X

⌦ PY

⌦ PZ

, la définition des lois à densité et à nouveau le théorème de Tonelli en sensinverse à �⌦ �⌦ � = �(3)

, il vient successivement

E[h(X , Y , Z )] =

Z

R3

h(u, v , w)dPX

⌦ PY

⌦ PZ

(u, v , w)

=

Z

R

Z

R

Z

Rh(u, v , w)dP

X

(u)

dPY

(v)

dPZ

(w)

=

Z

R

Z

R

Z

Rh(u, v , w)⇢1(u)d�(u)

⇢2(v)d�(v)

⇢3(w)d�(w)

=

Z

R3

h(u, v , w)⇢1(u)⇢2(v)⇢3(w)d�(3)(u, v , w).

Ce qui prouve que la loi du vecteur aléatoire (X , Y , Z ) admet pour densité sur R3 l’application⇢ définie par ⇢(u, v , w) := ⇢1(u)⇢2(v)⇢3(w).

2) Supposons que le vecteur aléatoire (X , Y , Z ) admette pour densité sur R3 l’application ⇢définie par ⇢(u, v , w) := g1(u)g2(v)g3(w).

Commençons par étudier la loi de la première composante X .D’après la proposition 4.5, la variable aléatoire réelle X admet pour densité sur R l’application�1 définie par �1(t) :=

R

R2 ⇢(t, u, v)d�(2)(u, v). Par application du théorème de Tonelli à

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 85: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

71Chapitre 4. Indépendance stochastique

�(2)= �⌦ �, il vient

�1(t) =

Z

R2

g1(t)g2(u)g3(v)d�(2)(u, v) = g1(t)

Z

R

g2(u)

Z

Rg3(v)d�(v)

d�(u)

= g1(t)

Z

Rg2d�

◆✓

Z

Rg3d�

=

g1(t)R

R g1d�,

car, comme ⇢ est une densité de probabilité,

1 =

Z

R3

⇢(t, u, v)d�(3)(t, u, v) =

Z

R3

g1(t)g2(u)g3(v)d�(3)(t, u, v)

=

Z

Rg1d�

◆✓

Z

Rg2d�

◆✓

Z

Rg3d�

.

On notera que cela implique en particulier queR

R g1d� 6= 0. On trouve de la même manièreun résultat analogue pour Y et Z .

Montrons l’indépendance de la suite (X , Y , Z ).

Soient A, B , C des boréliens de R. En notant que, pour tout ! 2 ⌦ ,

1l{(X ,Y ,Z)2A⇥B⇥C}(!) = 1l{X2A}\{Y2B}\{Z2C}(!) = 1l{X2A}(!)1l{Y2B}(!)1l{Z2C}(!)

et 1l{X2A}(!) = 1lA

(X (!)), en utilisant les propriétés de l’opérateur d’intégration donnée dansla proposition 3.1, page 30, puis en appliquant les théorèmes du transfert et de Tonelli, il vient

P(X ,Y ,Z)(A⇥B⇥C ) = E[1l{(X ,Y ,Z)2A⇥B⇥C}] = E[1lA

(X )1lB

(Y )1lC

(Z )]

=

Z

R3

1lA

(x)1lB

(y)1lC

(z)g1(x)g2(y)g3(z)d�(3)(x , y , z , )

=

Z

R1l

A

g1d�

◆✓

Z

R1l

B

g2d�

◆✓

Z

R1l

C

g3d�

.

De plus, comme les variables aléatoires réelles X , Y , et Z ont pour densités respectives �1, �2,

et �3,

PX

(A)PY

(B)PZ

(C ) =

Z

R1l

A

�1d�

◆✓

Z

R1l

B

�2d�

◆✓

Z

R1l

C

�3d�

=

Z

R1l

A

(t)g1(t)R

R g1d�d�(t)

◆✓

Z

R1l

B

(t)g2(t)R

R g2d�d�(t)

◆✓

Z

R1l

C

(t)g3(t)R

R g3d�d�(t)

=

Z

R1l

A

g1d�

◆✓

Z

R1l

B

g2d�

◆✓

Z

R1l

C

g3d�

,

toujours en vertu de✓

Z

Rg1d�

◆✓

Z

Rg2d�

◆✓

Z

Rg3d�

= 1.

Ce qui montre que, pour tous boréliens A, B , C de R,

P(X ,Y ,Z)(A⇥B⇥C ) = PX

(A)PY

(B)PZ

(C )

et prouve ainsi l’indépendance de la suite de variables aléatoires réelles (X , Y , Z ). 2

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 86: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

72 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Donnons un autre énoncé, beaucoup plus utile dans la pratique, du critère d’indépendance desvariable aléatoire réelle à densité :

Proposition 4.9.Soit (X1, · · · , X

n

) une suite de variables aléatoires réelles telle que, pour tout k = 1, · · · , n, lavariable aléatoire réelle X

k

soit de densité ⇢k

sur R. Alors la suite de variables aléatoires réelles(X1, · · · , X

n

) est indépendante si, et seulement si, le vecteur aléatoire X := (X1, · · · , Xn

) dedimension n admet pour densité sur Rn l’application

⇢ : (x1, · · · , xn

) 2 Rn 7! ⇢(x1, · · · , xn

) := ⇢1(x1)⇢2(x2) · · · ⇢n

(xn

) 2 [0, +1].

Démonstration : La condition nécessaire est l’assertion 1) de la proposition 4.8 précédente etla condition suffisante résulte de l’assertion 2) avec, pour tout k = 1, · · · , n, g

k

:= ⇢k

enremarquant que, par hypothèse,

R

R ⇢k

d� = 1. 2.

Exemples 4.8.1) Reprenons les notations de l’exercice 4.5, page 68. On y établit que le vecteur aléatoire

(X , Y ) de dimension 2 admet pour densité sur R2 l’application ⇢(x , y) :=

1

2⇡e�

x

2+y

2

2 etque les variables aléatoires réelles X et Y suivent la même loi N 1(0, 1). Leurs densités

⇢X

et ⇢Y

sur R sont définies sur R par ⇢X

(t) = ⇢Y

(t) =

1p2⇡

e�t

2

2 et vérifient la rela-

tion ⇢(x , y) = ⇢X

(x)⇢Y

(y), ce qui prouve l’indépendance de la suite de variables aléatoiresréelles (X , Y ) en vertu de la proposition précédente.2) Dans l’exemple 4.4, page 65, on vérifie aisément que ⇢(x , y) 6= �(x)�(y), ce qui est uneautre façon de prouver que la suite de variables aléatoires réelles (X , Y ) n’est pas indépen-dante. 2

Donnons un critère valable pour des vecteurs aléatoires généraux sans hypothèses sur le typede loi qu’ils satisfont.

Proposition 4.10.Critère des fonctions positivesSoit (X1, · · · , X

n

) une suite de vecteurs aléatoires de dimensions respectives d1, · · · , dn

. Alors,la suite (X1, · · · , X

n

) est indépendante si, et seulement si, pour tout entier 1 k n et touteapplication borélienne positive f

k

de Rd

k dans [0, +1],

E [f1(X1)f2(X2) · · · fn(Xn

)] = E [f1(X1)] E [f2(X2)] · · ·E [fn

(Xn

)] .

Démonstration : Faisons la démonstration pour n = 2.• - C.N. Par application des théorèmes du transfert et de Tonelli où on utilise l’indépendance

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 87: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

73Chapitre 4. Indépendance stochastique

en écrivant P(X1,X2) = PX1 ⌦ P

X2 , il vient

E [f1(X1)f2(X2)] =

Z

Rd1+d2

f1(x)f2(y)dP(X1,X2)(x , y)

=

Z

Rd1

f1(x)

Z

Rd2

f2(y)dPX2(y)

dPX1(x)

=

Z

Rd1

f1dPX1

◆✓

Z

Rd2

f2dPX2

= E [f1(X1)] E [f2(X2)] .

• - C.S. Il suffit de prendre f1 := 1lA

et f2 := 1lB

où A et B sont des boréliens respectivementde Rd1 et Rd2 . En explicitant la relation de l’hypothèse

E [1lA

(X1)1lB(X2)] = E [1lA

(X1)] E [1lB

(X2)]

on obtientP[(X1, X2) 2 A⇥B] = P[X1 2 A]P[X2 2 B],

ce qui prouve que P(X1,X2) = PX1 ⌦ P

X2 . 2

A titre d’exemple d’utilisation de cette proposition, donnons un corollaire très utile dans lescalculs faisant intervenir des variables aléatoires réelles indépendantes et intégrables :Proposition 4.11.Soit (X1, · · · , X

n

) une suite de variables aléatoires réelles intégrables. Si la suite (X1, · · · , Xn

)

est indépendante, alors la variable aléatoire réelle produit X1X2 · · ·Xn

est intégrable et

E[X1X2 · · ·Xn

] = E(X1)E(X2) · · ·E(Xn

).

La réciproque est fausse.

Démonstration : Faisons-la pour deux variables aléatoires réelles X et Y indépendantes etintégrables i.e. E(|Y |) < +1 et E(|X |) < +1. On peut écrire

E(|XY |) = E(|X ||Y |) = E(|X |)E(|Y |) < +1,

où on a appliqué, dans la deuxième égalité, la proposition 4.10 avec les fonctions positivesx 7! |x | grâce à l’indépendance de (X , Y ). On a donc prouvé que la variable aléatoire réelleXY est intégrable.Montrons la deuxième relation. Remarquons qu’en introduisant les parties positives et négativesdes v.a.r. , on peut écrire

XY = (X+ � X�)(Y + � Y �

) = X+Y ++ X�Y � � X�Y + � X+Y �

qui donne, en prenant les espérances de chaque membres de l’égalité précédente et en appliquantla proposition 4.10 aux fonctions boréliennes positives x 7! x+ et x 7! x�,

E(XY ) = E[X+Y +] + E[X�Y �

]� E[X�Y +]� E[X+Y �

]

= E(X+)E(Y +

) + E(X�)E(Y �

)� E(X�)E(Y +

)� E(X+)E(Y �

)

= E(X )E(Y ).

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 88: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

74 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

d’où la relation cherchée. 2

L’exercice suivant propose un contre-exemple prouvant que la réciproque de la propositionprécédente 4.11 est fausse. Cet exercice est souvent à la base de nombreux contre-exemplesconcernant l’indépendance des variables aléatoires.

Exercice 4.6. (Corrigé de l’exercice : page 168)Soient X une variable aléatoire réelle de loi N 1(0, 1) et " une variable aléatoire réelle in-dépendante de X de loi 1

2(��1 + �1). Montrer que la variable aléatoire réelle Y := "X estde loi N 1(0, 1). Prouver que les v.a.r. X , Y vérifient la relation E(XY ) = E(X )E(Y ) maisque le couple (X , Y ) n’est pas indépendant (pour cela on calculera E(X 2Y 2

) et on utiliserala proposition 4.10).

Proposition 4.12.Critère des fonctions bornéeSoit (X1, · · · , X

n

) une suite de vecteurs aléatoires de dimensions respectives d1, · · · , dn

. Alors,la suite (X1, · · · , X

n

) est indépendante si, et seulement si, pour tout entier 1 k n et touteapplication borélienne bornée f

k

de Rd

k dans [0, +1],

E [f1(X1)f2(X2) · · · fn(Xn

)] = E [f1(X1)] E [f2(X2)] · · ·E [fn

(Xn

)] .

Démonstration : Faisons la démonstration pour n = 2.• - C.N. Par application des théorèmes du transfert et de Fubini (car les fonctions boréliennesbornées sont intégrables) où on utilise l’indépendance en écrivant P(X1,X2) = P

X1 ⌦PX2 , il vient

E [f1(X1)f2(X2)] =

Z

Rd1+d2

f1(x)f2(y)dP(X1,X2)(x , y)

=

Z

Rd1

f1(x)

Z

Rd2

f2(y)dPX2(y)

dPX1(x)

=

Z

Rd1

f1dPX1

◆✓

Z

Rd2

f2dPX2

= E [f1(X1)] E [f2(X2)] .

• - C.S. Il suffit de prendre f1 := 1lA

et f2 := 1lB

où A et B sont des boréliens respectivementde Rd1 et Rd2 . En explicitant la relation de l’hypothèse

E [1lA

(X1)1lB(X2)] = E [1lA

(X1)] E [1lB

(X2)]

on obtientP[(X1, X2) 2 A⇥B] = P[X1 2 A]P[X2 2 B],

ce qui prouve que P(X1,X2) = PX1 ⌦ P

X2 . 2

Exercice 4.7. (Corrigé de l’exercice : page 169)Soit (X , Y ) un couple indépendant de variables aléatoires réelles de même loi N 1(m,�2

),

montrer que E [(X + Y )

2] = 4m2

+ 2�2.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 89: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

75Chapitre 4. Indépendance stochastique

Comme corollaire de la proposition 4.11,Proposition 4.13.Soit X := (X1, X2, ..., Xd

) un vecteur aléatoire de carré intégrable de dimension d . Si la suitede variables aléatoires réelles (X1, X2, ..., Xd

) est indépendante, alors la matrice de dispersionde X est diagonale.La réciproque est fausse.

Démonstration : La proposition 4.11 entraîne que, pour tout couple d’entiers (i , j) avec i 6= j ,Cov(X

i

, Xj

) = 0. On conclut en utilisant l’assertion 3) de la proposition 3.24, page 48. 2

Donnons un procédé simple de construction de suites indépendantes de vecteurs aléatoires àpartir de deux fonctions de v.a.r.. Ce procédé peut se généraliser à un nombre quelconque defonctions.

Proposition 4.14.Indépendance de fonctions de v.a.r.Si (X1, · · · , X

n

, Y1, · · · , Yp

) est une suite indépendante de v.a.r., alors, pour toutes applicationsboréliennes ' de Rn dans Rd1 et de Rp dans Rd2

, le couple de vecteurs aléatoires('(X1, · · · , X

n

), (Y1, · · · , Yp

)) est indépendant.

Démonstration : • Considérons les vecteurs aléatoires X := (X1, · · · , Xn

) et Y := (Y1, · · · , Yp

).

Commençons par montrer que le couple de vecteurs aléatoires (X , Y ) est indépendant. Comme(X1, · · · , X

n

, Y1, · · · , Yp

) est une suite indépendante, pour tous boréliens de R, A1, · · · , An

, ilvient

PX

[A1⇥ · · ·⇥An

] = P(X1,··· ,Xn

)[A1⇥ · · ·⇥An

]

= P(X1,··· ,Xn

,Y1,··· ,Yp

)[A1⇥ · · ·⇥An

⇥Rp

]

= PX1(A1) · · ·PX

n

(An

).

Ce qui prouve que PX

= P(X1,··· ,Xn

) = PX1 ⌦ · · ·⌦ P

X

n

, et par suite

P(X ,Y ) = P(X1,··· ,Xn

,Y1,··· ,Yp

)

= PX1 ⌦ · · ·⌦ P

X

n

⌦ PY1 ⌦ · · ·⌦ P

Y

p

= PX

⌦ PY

.

Le couple de vecteurs aléatoires (X , Y ) est donc indépendant.• Considérons maintenant deux applications boréliennes positives f1 et f2 définies respectivementsur Rd1 et Rd2

. Comme f1 �' et f2 � sont des fonctions boréliennes positives, en appliquant lacondition nécessaire du critère des fonctions positives à ces fonctions et à la suite indépendante(X , Y ), il vient

E[f1('(X ))f2( (Y ))] = E[f1('(X ))]E[f2( (Y ))].

On applique alors la condition suffisante du critère des fonctions positives aux fonctions f1, f2et à la suite ('(X ), (Y )) pour conclure qu’elle est indépendante.2

On pourra vérifier que si un couple de vecteurs aléatoires (X , Y ) de dimensions respectives det k est indépendant avec X := (X1, · · · , X

d

) et Y := (Y1, · · · , Yk

) alors, pour tout (i , j) avec

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 90: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

76 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

1 i d et 1 j k , le couple de v.a.r. (Xi

, Yj

) est indépendant.

Donnons un cas particulier de la proposition précédente, très utilisé en pratique :Proposition 4.15.Indépendance de fonctions de v.a.r. (cas usuel)Si (X1, · · · , X

n

) est une suite indépendante de v.a.r., alors, pour toute suite d’applicationsboréliennes (f1, · · · , f

n

) de R dans R, la suite de variables aléatoires réelles (f1(X1), · · · , fn

(Xn

))

est indépendante.

Terminons par un critère d’indépendance, simple d’application, utilisant les fonctions caractéris-tiques :Proposition 4.16.Critère d’indépendance par les f.c.Soit (X1, · · · , X

n

) une suite de vecteurs aléatoires de dimensions respectives d1, · · · , dn

. Alors,la suite (X1, · · · , X

n

) est indépendante si, et seulement si, pour tout u1 2 Rd1 , · · · un

2 Rd

n ,

�(X1,··· ,Xn

)(u1, · · · , un

) = �X1(u1) · · ·�X

n

(un

)

i.e. E"

exp

in

X

k=1

< uk

, Xk

>

!#

= E�

e i<u1,X1>� · · ·E �

e i<u

n

,Xn

>�

.

Démonstration : • - C.N. Supposons que les vecteurs aléatoires (X1, · · · , Xn

) sont indépendants.Alors, pour tout u1 2 Rd1 , · · · , u

n

2 Rd

n

,

�(X1,··· ,Xn

)(u1, · · · , un

) = E�

e i [<u1,X1>+<u2,X2>+···+<u

n

,Xn

>]�

= E

k=n

Y

k=1

e i<u

k

,Xk

>

!

.

D’après la propriété 4.12, page 74, appliquée aux fonctions boréliennes bornées e i<u1,x1>,e i<u2,x2>, · · · , e i<u

n

,xn

>, on a

�(X1,··· ,Xn

)(u1, · · · , un

) =

k=n

Y

k=1

E�

e i<u

k

,Xk

>�

= �X1(u1) · · ·�X

n

(un

).

• - C.S. Soit u1 2 Rd1 , · · · , un

2 Rd

n

, et u = (u1, u2, · · · , un

) 2 Rd1+d2+···+d

n

. SoitX = (X1, X2, · · · , X

n

) un vecteur aléatoire de dimension d1 + d2 + · · · + dn

de loi PX

, lacondition �(X1,··· ,Xn

)(u1, · · · , un

) = �X1(u1) · · ·�X

n

(un

) s’écrit, en appliquant le théorème dutransfert et celui de Fubini,

Z

Rd1+d2+···+d

n

e i<u,x>dP(X1,··· ,Xn

)(x) =

Z

Rd1+d2+···+d

n

e i<u,x>d [PX1 ⌦ P

X2 ⌦ · · ·⌦ PX

n

](x).

Ce qui prouve que les probabilités PX1 ⌦ P

X2 ⌦ · · ·⌦ PX

n

et P(X1,··· ,Xn

) ont les mêmes fonctionscaractéristiques, donc sont égales en vertu du critère d’identification des lois par les fonctionscaractéristiques. 2

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 91: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

77Chapitre 4. Indépendance stochastique

4.2.3 Indépendance d’événements, de tribus

On se donne comme référence un espace de probabilité (⌦ , F , P). Les résultats précédentsincitent à élargir la notion d’indépendance aux famille d’événements (A

i

)

I

et aux familles (Fi

)

I

de sous-tribus de F , où I est un ensemble quelconque.

Définition 4.5.Une famille quelconque (A

i

)

I

d’événements, est dite (mutuellement) indépendante pourP si, pour toute sous-famille finie (A

i

)

K

, K ✓ I et K fini, on a :

P

\

i2K

Ai

!

=

Y

i2K

P(Ai

).

Définition 4.6.Une famille quelconque (F

i

)

I

de sous-tribus de F , est dite (mutuellement) indépendantepour P si toute famille d’événements (A

i

)

I

avec Ai

2 Fi

, pour tout i 2 I , est indépendantepour P.

On dit aussi plus fréquemment, et par abus de langage, que les événements (Ai

)

I

, sont in-dépendants (resp. les tribus (F

i

)

I

, sont indépendantes).

On remarquera bien que la notion d’indépendance dépend de la probabilité P choisie sur (⌦ , F).De plus si l’indépendance mutuelle d’une famille d’événements entraîne leur indépendance deuxà deux, il faut noter que la réciproque est fausse (cf. [14] ex. 3-1 à 3-3).

La preuve de l’indépendance de tribus peut s’établir en considérant des ⇡-systèmes degénérateurs d’après la proposition :Proposition 4.17.Soient C et D deux familles d’événements stables par intersection finie (⇡-systèmes). Si, pourtout (A, B) 2 C⇥D, les événements A et B sont indépendants, alors les sous-tribus engendréesrespectivement par C et D sont indépendantes.

Démonstration : Il suffit de montrer que, pour tout (A, B) 2 �( C) ⇥ �(D), P(A \ B) =

P(A)P(B).

• Montrons d’abord que, pour tout B 2 D et pour tout A 2 �( C), on a P(A\B) = P(A)P(B).

Soit B 2 D fixé.Si P(B) = 0, alors pour tout A 2 �( C), A \ B ✓ B et par suite P(A \ B) P(B) = 0. Donc,dans ce cas, pour tout A 2 �( C), on a bien P(A \ B) = 0 = P(A)P(B).

Si P(B) > 0, Considérons l’application A 2 �( C) 7! PB

(A) =

P(A \ B)

P(B)

2 [0, 1]. On vérifie

aisément que c’est une probabilité sur (⌦ ,�( C)). De plus la probabilité PB

, coïncide avec laprobabilité P sur le ⇡-système C, car en vertu de l’hypothèse, pour tout (A, B) 2 C ⇥ D,les événements A et B sont indépendants, on a bien P(A \ B) = P(A)P(B), c’est-à-direP

B

(A) = P(A). Donc d’après le théorème d’unicité pour les probabilités (cf. proposition 1.11,page 14) on en déduit que la probabilité P

B

coïncide avec la probabilité P sur la tribu �( C)

engendrée par le ⇡-système C c’est-à-dire que, pour tout A 2 �( C), PB

(A) = P(A), ou encore

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 92: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

78 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

pour tout A 2 �( C),

P(A \ B)

P(B)

= P(A), ou P(A \ B) = P(A)P(B).

En résumé, on a bien montré que, pour tout B 2 D et pour tout A 2 �( C), on aP(A \ B) = P(A)P(B).

• Montrons maintenant que, pour tout B 2 �(D) et pour tout A 2 �( C), on a P(A \ B) =

P(A)P(B).

Utilisons la même démarche. Soit A 2 �( C) fixé.Si P(A) = 0, alors pour tout B 2 �(D), A\ B ✓ A et par suite P(A\ B) P(A) = 0. Donc,dans ce cas, pour tout B 2 �(D), on a bien P(A \ B) = 0 = P(A)P(B).

Si P(A) > 0, considérons l’application B 2 �(D) 7! PA

(B) =

P(A \ B)

P(A)

2 [0, 1]. On vérifie

de même que c’est une probabilité sur (⌦ ,�(D)). De plus la probabilité PA

, coïncide avec laprobabilité P sur le ⇡-système D, car en vertu de l’hypothèse, pour tout (A, B) 2 C ⇥ D, lesévénements A et B sont indépendants, on a P(A\ B) = P(A)P(B). Donc d’après le théorèmed’unicité pour les probabilités (cf. proposition 1.11, page 14) on en déduit que la probabilité P

A

coïncide avec la probabilité P sur la tribu �(D) engendrée par le ⇡-système D c’est-à-dire que,

pour tout B 2 �(D), PA

(B) = P(B), ou encore pour tout B 2 �(D),

P(A \ B)

P(A)

= P(B), ou

P(A \ B) = P(A)P(B).

Finalement, on a bien montré que, pour tout B 2 �(D) et pour tout A 2 �( C), on aP(A \ B) = P(A)P(B). 2

En utilisant la même démarche, on peut établir un critère d’indépendance des vecteurs aléatoires,qui prouve que dans le critère 4.6, page 68, on peut se limiter qu’à certains boréliens de Rd :Proposition 4.18.Une suite (X1, · · · , X

n

) de vecteurs aléatoires de dimensions respectives d1, · · · , dn

, est indépen-dante si, et seulement si,

P"

k=n

\

k=1

{Xk

2 Ak

}#

=

k=n

Y

k=1

P(Xk

2 Ak

),

pour tous Ak

2 Ck

, où, pour tous k = 1, 2, · · · , n, Ck

est un ⇡-système engendrant la tribuborélienne B(Rd

k

).

Démonstration : Pour la démonstration remarquer que la relation P"

k=n

\

k=1

{Xk

2 Ak

}#

=

k=n

Y

k=1

P(Xk

2 Ak

), peut s’écrire encore P(X1,··· ,Xn

)(A1 ⇥ · · · ⇥ An

) =

k=n

Y

k=1

PX

k

(Ak

). On montre

la proposition pour n = 2 en raisonnant comme dans la proposition 4.17, puis on généralise parrécurrence au cas n quelconque. 2

En particulier, la proposition précédente 4.17 a pour corollaire le théorème :Proposition 4.19.Soit (F

i

)

I

une famille indépendante de sous-tribus de F . Si K et J sont deux parties disjointeset non vides de I , alors les tribus engendrées respectivement par les familles

[

i2J

Fi

et[

i2K

Fi

sont indépendantes.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 93: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

79Chapitre 4. Indépendance stochastique

Démonstration : Notons CJ

la famille des intersections de familles finies d’événements de[

i2J

Fi

.

Un élément de CJ

est de la forme\

i2J

0

Ai

où J 0 est une partie finie de J et, pour tout i 2 J 0,

Ai

2 Fi

.

On définit de même CK

la famille des intersections de familles finies d’événements de[

i2K

Fi

.

Un élément de CK

est de la forme\

i2K

0

Ai

où K 0 est une partie finie de K et, pour tout i 2 K 0,

Ai

2 Fi

.

• On a �( CJ

) = �

[

i2J

Fi

!

et �( CK

) = �

[

i2K

Fi

!

.

En effet, en considérant les familles à un seul élément, on a facilement l’inclusion[

i2J

Fi

✓ CJ

,

d’où l’inclusion des tribus engendrées correspondantes �

[

i2J

Fi

!

✓ �( CJ

). Réciproque-

ment, par la stabilité de l’intersection finie dans les tribus, on a CJ

✓ �

[

i2J

Fi

!

, et

par suite �( CJ

) ✓ �

[

i2J

Fi

!

. D’où l’égalité. On montre de la même façon la relation

�( CK

) = �

[

i2K

Fi

!

. De plus, on vérifie aisément que les familles CJ

et CK

sont des ⇡-

systèmes.• Montrons que, pour tout (A, B) 2 C

J

⇥ CK

, les événements A et B sont indépendants.En effet, soit A 2 C

J

et B 2 CK

. Alors A =

\

i2J

0

Ai

où J 0 est une partie finie de J et, pour

tout i 2 J 0, Ai

2 Fi

, et B =

\

i2K

0

Ai

où K 0 est une partie finie de K et, pour tout i 2 K 0,

Ai

2 Fi

. Par suite, comme J \K = Ø, on a J 0 \K 0= Ø, et A\B =

\

i2J

0[K

0

Ai

. Il vient alors,

P(A\B) = P

\

i2J

0[K

0

Ai

!

=

Y

i2J

0[K

0

P (Ai

) , car la suite (Fi

)

I

est une famille indépendante de

sous-tribus de F . Par la commutativité et l’associativité du produit, et puis par l’indépendancedes sous-tribus, on peut alors écrire

Y

i2J

0[K

0

P (Ai

) =

Y

i2J

0

P (Ai

) ⇥Y

i2K

0

P (Ai

) = P(A) ⇥ P(B).

Ce qui prouve que, pour tout (A, B) 2 CJ

⇥ CK

, les événements A et B sont indépendants.• On peut alors appliquer la proposition 4.17 aux ⇡-systèmes C

J

et CK

pour obtenir le résultatrecherché. 2

Comme corollaire, nous avons un résultat similaire avec les événements :

Proposition 4.20.Soit (A

i

)

I

une famille indépendante d’événements de F . Si K et J sont deux parties disjointeset non vides de I , alors les tribus engendrées � ((A

i

)

i2J

) et � ((Ai

)

i2K

) sont indépendantes.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 94: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

80 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Démonstration : Il suffit d’appliquer la proposition 4.19 à la famille des sous-tribus (�(Ai

))

I

de F , et de remarquer que � ((Ai

)

i2J

) (resp. � ((Ai

)

i2K

)) est aussi la tribu engendrée par lafamille

[

i2J

� (Ai

) (resp.[

i2K

� (Ai

)). 2

On peut vérifier facilement que :Proposition 4.21.Si la famille d’événements (A

i

)

I

est indépendante, il en est de même de la famille d’événements(B

i

)

I

où, pour tout i 2 I , Bi

:= Ai

ou Bi

:= Ac

i

.

Définition 4.7.Si X est un vecteur aléatoire de dimension d , on note �(X ) la plus petite sous-tribu de Frendant mesurable l’application X . �(X ) s’appelle la tribu engendrée par la variable X .

On vérifie facilement que �(X ) est l’ensemble des images-réciproques de tous les boréliens deRd

. (cf. aussi exercice 4.20, page 93, pour une généralisation)

Exemples 4.9.Si A est un événement de F , �(1l

A

) = �(A) = {Ø, A, Ac

, ⌦}.

Avec ces notations, le lien entre la notion d’indépendance pour les événements, celle pour lesvecteurs aléatoires et celle pour les tribus est mis en évidence par les propositions suivantesdont les démonstrations sont élémentaires et laissées en exercice :Proposition 4.22.Une famille quelconque (X

i

)

I

de vecteurs aléatoires Xi

de dimension di

, i 2 I , est indépendantesi, et seulement si, la famille de sous-tribus (�(X

i

))

I

est indépendante.

Proposition 4.23.La famille d’événements (A

i

)

I

est indépendante si, et seulement si, la famille des sous-tribus(�(A

i

))

I

est indépendante.

Proposition 4.24.La famille d’événements (A

i

)

I

est indépendante si, et seulement si, la famille des v.a.r. (1lA

i

)

I

est indépendante.

Proposition 4.25.Si A et B sont deux sous-tribus de F indépendantes, X et Y deux vecteurs aléatoiresrespectivement A-mesurable et B-mesurable, alors les vecteurs aléatoires X et Y sontindépendants.

4.3 Tribu et événements asymptotiques

Soit (⌦ , F , P) un espace de probabilité et (An

)N une suite d’événements de F . Pour toutn 2 N, notons A

n

la tribu engendrée par la suite d’événements (Ak

)

k�n

i.e. An

:=

�(An

, An+1, ..., An+k

, ...).

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 95: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

81Chapitre 4. Indépendance stochastique

Définition 4.8.Un événement A de F est dit événement asymptotique (relativement à la suited’événements (A

n

)N) si A est mesurable par rapport à toutes les tribus de la suite (An

)N. Cela

équivaut à dire que A est mesurable par rapport à la tribu1\

n=0

An

appelée tribu asymptotique

relative à la suite d’événements (An

)N.

La loi du Tout ou Rien de Kolmogorov donne des informations sur la valeur de la probabilitéd’un événement asymptotique relativement à une suite indépendante d’événements (A

n

)N :Proposition 4.26.Loi du Tout ou Rien ou du Zéro-Un de KolmogorovSoit (A

n

)N une suite indépendante d’événements. Si A est un événement asymptotiquerelativement à la suite d’événements (A

n

)N, alors P(A) = 0 ou P(A) = 1.

Démonstration : On note, pour tout entier naturel n, An

:= �(An

, An+1, · · · , A

n+k

, · · · ), et

A0n

:= �(A0, A1, A2, · · · , An

). On note A la tribu asymptotique1\

n=0

An

.

L’idée de la démonstration est de montrer que la tribu asymptotique A est indépendante d’elle-même.• Montrons que, pour tout entier naturel n, A

n+1 = �(An+1, An+2, · · · , A

n+k

, · · · ), etA0

n

:= �(A0, A1, A2, · · · , An

) sont des tribus indépendantes.Pour cela il suffit d’appliquer la proposition 4.20, en reprenant ses notations, au cas où I = Navec J = {0, 1, · · · , n} et K = {n + 1, n + 2, · · · , n + k , · · · }.• Montrons que, pour tout A 2 A et pour tout B 2 A0, on a P(A \ B) =

P(A)P(B) (ce qui exprime que la tribu asymptotique A est indépendante de la tribu A0 :=

�(A0, A1, A2, · · · , Ak

, · · · ).)Remarquons tout d’abord que, suivant une démarche déjà utilisée dans la démonstration de laproposition 4.19, A0 est également engendrée par le ⇡-système C constitué des intersectionsde la forme

\

i2I

Bi

où I est une partie finie de N avec, pour tout i 2 I , Bi

2 �(Ai

). Donc

A0 = �( C).

Il reste à montrer que, pour tout A 2 A et pour tout B 2 A0, on a P(A \ B) = P(A)P(B).

Raisonnons comme dans la démonstration de la proposition 4.18.Soit A 2 A fixé.Si P(A) = 0, alors pour tout B 2 A0, A \ B ✓ A et par suite P(A \ B) P(A) = 0. Donc,dans ce cas, pour tout B 2 A0, on a bien P(A \ B) = 0 = P(A)P(B).

Si P(A) > 0, considérons l’application B 2 A0 7! PA

(B) =

P(A \ B)

P(A)

2 [0, 1]. C’est une

probabilité sur (⌦ , A0).

La probabilité PA

, coïncide avec la probabilité P sur le ⇡-système C. En effet, soit B 2 C,alors B =

\

i2I

Bi

où I est une partie finie de N avec, pour tout i 2 I , Bi

2 �(Ai

). Posons

n0 = max(I ), alors B 2 A0n0

= �(A0, A1, A2, · · · , An0). mais A 2 A ✓ A

n0+1. Commed’après le premier point de la démonstration, les tribus A

n0+1 et A0n0

sont indépendantes, ona P(A \ B) = P(A)P(B), c’est-à-dire P

A

(B) = P(B).

Donc d’après le théorème d’unicité pour les probabilités (cf. proposition 1.11, page 14) on endéduit que la probabilité P

A

coïncide avec la probabilité P sur la tribu A0 = �( C) engendrée

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 96: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

82 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

par le ⇡-système C c’est-à-dire que, pour tout B 2 A0 = �( C), PA

(B) = P(B), ou encore

pour tout B 2 A0 = �( C),

P(A \ B)

P(A)

= P(B), et par suite P(A \ B) = P(A)P(B).

Finalement, on a bien montré que, pour tout B 2 A0 et pour tout A 2 A, on aP(A \ B) = P(A)P(B).

• Soit A un événement asymptotique relativement à la suite indépendante d’événements (An

)N,i.e. A 2 A. Comme A ✓ A0, on peut appliquer alors le résultat du point précédent à A 2 Aet à B = A 2 A0, ce qui donne P(A \ A) = P(A)P(A), ou encore P(A) = [P(A)]

2, ce qui

implique que P(A) ne peut prendre que la valeur 0 ou la valeur 1. 2

Donnons deux exemples importants d’événements asymptotiques :Si (A

n

)N est une suite d’événements, on notera lim sup An

l’ensemble des ! 2 ⌦ tels que{n 2 N /! 2 A

n

} est infini. En conséquence, l’événement lim sup An

est réalisé si, et seulementsi, une infinité d’événements de la suite (A

n

)N sont réalisés.

Si (An

)N est une suite d’événements, on notera lim inf An

l’ensemble des ! 2 ⌦ tels que{n 2 N /! 62 A

n

} est fini. En conséquence, l’événement lim inf An

est réalisé si, et seulementsi, tous les événements de la suite (A

n

)N, sauf éventuellement un nombre fini d’entre eux, sontréalisés.

La proposition suivante affirme que les événements lim sup(An

) et lim inf(An

) sont bien desévénements asymptotiques :

Proposition 4.27.Si (A

n

)N est une suite d’événements, alors1. lim inf A

n

✓ lim sup An

.

2. lim sup An

=

1\

p=0

1[

k=p

Ak

!

.

3. lim inf An

=

1[

p=0

1\

k=p

Ak

!

.

4. lim sup An

et lim inf An

sont des événements asymptotiques relativement à la suited’événements (A

n

)N.

Démonstration : Les propriétés 1), 2) et 3) résultent directement des définitions de lim sup An

et lim inf An

.Montrons la propriété 4) pour l’événement lim sup A

n

. Le raisonnement est analogue pour

lim inf An

. Posons, pour tout entier naturel p, Bp

=

1[

k=p

Ak

. La suite (Bn

)N est une suite décrois-

sante pour l’inclusion. Par suite, pour tout entier naturel p,

1\

k=0

Bk

=

1\

k=p

Bk

. La suite des tribus

(An

:= �(An

, An+1, ..., An+k

, ...))N est une suite décroissante, donc pour tout entier naturel pet pour tout entier naturel k � p, B

k

2 Ak

✓ Ap

, ce qui implique que, pour tout entier naturel

p,1\

k=p

Bk

2 Ap

. Par suite, pour tout entier naturel p, lim sup An

=

1\

k=0

Bk

=

1\

k=p

Bk

2 Ap

. Ce

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 97: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

83Chapitre 4. Indépendance stochastique

qui prouve que lim sup An

21\

p=0

Ap

. 2

En combinant l’item 4) de la proposition 4.27 précédente et la loi du Tout ou Rien, on obtientaisément le corollaire suivant :Proposition 4.28.Si (A

n

)N est une suite indépendante d’événements, alors1. P(lim sup A

n

) = 0 ou P(lim sup An

) = 1.2. P(lim inf A

n

) = 0 ou P(lim inf An

) = 1.

Le lemme suivant donne des conditions suffisantes permettant de préciser laquelle des deuxvaleurs possibles est la bonne :Proposition 4.29.Lemme de Borel-Cantelli

1. Soit (An

)N une suite d’événements (non nécessairement indépendante). Si la sérieX

P(An

) de terme général positif P(An

) converge dans R, alors P(lim sup An

) = 0,c’est-à-dire presque-sûrement seul un nombre fini des événements A

n

est réalisé.2. Soit (A

n

)N une suite d’événements indépendante. Si la sérieX

P(An

) de terme généralpositif P(A

n

) diverge dans R, alors P(lim sup An

) = 1, c’est-à-dire presque-sûrement unnombre infini des événements A

n

est réalisé.

Démonstration :

1. Posons, pour tout entier naturel m, Bm

=

k=+1[

k=m

Ak

. La suite ensembliste (Bm

)N

est une suite décroissante (au sens de l’inclusion). D’après le théorème de continuitémonotone des probabilités (cf. proposition 1.9, page 12), P(lim sup A

n

) = lim

m!+1P(B

m

).

Or P(Bm

) = P

k=+1[

k=m

Ak

!

k=+1X

k=m

P(Ak

), en vertu de l’inégalité de Bonferroni. Mais

+1X

k=m

P(Ak

) est le reste de rang m de la sérieX

P(An

) convergente par hypothèse, donc

lim

m!+1

+1X

k=m

P(Ak

) = 0, et par suite lim

m!+1P(B

m

) = 0. Donc P(lim sup An

) = 0, ce qu’il

fallait démontrer.

2. Posons, pour simplifier les écritures, A = lim sup An

. Comme A =

p=+1\

p=0

k=+1[

k=p

Ak

!

,

il vient en passant au complémentaire, Ac

=

p=+1[

p=0

k=+1\

k=p

Ac

k

!

. Posons, pour tout

entier naturel p, Bc

p

=

k=+1\

k=p

Ac

k

. Notons que la suite ensembliste (Bc

p

)N est crois-

sante. On peut aussi écrire Bc

p

=

m=+1\

m=p

k=m

\

k=p

Ac

k

!

. Donc, pour tout entier naturel

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 98: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

84 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

p, P(Bc

p

) = P"

m=+1\

m=p

k=m

\

k=p

Ac

k

!#

. Comme la suite ensembliste

k=m

\

k=p

Ac

k

!

m2N

est

décroissante, par le théorème de continuité monotone des probabilités, il vient P(Bc

p

) =

lim

m!+1P

k=m

\

k=p

Ac

k

!

. Comme la suite des événements (An

)N est indépendante, il en est de

même de la suite des événements (Ac

n

)N (cf. proposition 4.21, page 80). Par suite, pour

tout entier naturel p, P(Bc

p

) = lim

m!+1P

k=m

\

k=p

Ac

k

!

= lim

m!+1

k=m

Y

k=p

P (Ac

k

) . Donc finale-

ment P(Bc

p

) = lim

m!+1

k=m

Y

k=p

(1� P(Ak

)) . La sérieX

ln(1 � P(An

)) a son terme général

négatif qui vérifie, pour tout entier naturel n, ln(1 � P(An

)) �P(An

). Comme, parhypothèse, la série

X

P(An

) de terme général positif P(An

) diverge dans R, la sérieX

ln(1 � P(An

)) de terme général négatif ln(1 � P(An

)) diverge vers �1, et donc,

pour tout entier naturel n, lim

m!+1

k=m

Y

k=p

(1� P(Ak

)) = 0. D’où, pour tout entier naturel p,

P(Bc

p

) = 0, et par suite P(Ac

) = P

p=+1[

p=0

Bc

p

!

= lim

p!+1P(Bc

p

) = 0, par le théorème de

continuité monotone appliqué à la suite croissante (Bc

p

)N. Finalement P(A) = 1. 2

On notera que si l’hypothèse d’indépendance n’est pas utile dans l’item 1) du lemme de Borel-Cantelli, elle est par contre nécessaire dans l’item 2) car, sans cette hypothèse, on peut construiredes contre-exemples où P(lim sup A

n

) = 0 avec la série de terme général P(An

) divergente. Eneffet, considérons l’exemple suivant :

Exemples 4.10.Soit l’espace de probabilité (R, B(R),�) où � désigne la mesure de Lebesgue sur R. Posons,pour tout entier naturel n, A

n

=]0,

1n+1 ]. Alors on vérifie aisément que lim sup A

n

= Ø, d’où

P(lim sup An

) = 0, mais, pour tout entier naturel n, P(An

) =

1

n + 1

, ce qui entraîne que la

sérieX

P(An

) à terme général positif diverge. Ici la suite d’événements (An

)N n’est pas

indépendante car par exemple P(A1 \ A2) = P(A2) =

1

3

alors que P(A1) · P(A2) =

1

2

⇥ 1

3

=

1

6

6= P(A1 \ A2). 2

4.4 Somme de v.a.r. indépendantes

Démontrons d’abord un important corollaire de l’exercice 3.14, page 49 :

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 99: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

85Chapitre 4. Indépendance stochastique

Proposition 4.30.Si (X1, X2, · · · , X

n

) est une suite indépendante de variables aléatoires réelles de carré intégrable,alors

E

2

4

n

X

k=1

Xk

!23

5 < +1 et Var

n

X

k=1

Xk

!

=

n

X

k=1

Var(Xk

).

La réciproque est fausse.

Démonstration : Montrons l’intégrabilité. On effectue les majorations

n

X

k=1

Xk

!2

n

X

k=1

|Xk

|!2

=

n

X

k=1

|Xk

|2 + 2

n

X

1k<ln

|Xk

||Xl

|.

Mais |Xk

||Xl

| 12(|Xk

|2 + |Xl

|2), d’où

n

X

k=1

|Xk

|2 + 2

n

X

1k<ln

|Xk

||Xl

| Kn

X

k=1

|Xk

|2

où K est une constante. Par suite, grâce aux hypothèses d’intégrabilité sur les variables aléatoiresréelles

E

2

4

n

X

k=1

Xk

!23

5 KE

n

X

k=1

|Xk

|2!

= Kn

X

k=1

E�|X

k

|2� < +1.

On vérifie aisément que

Var

n

X

k=1

Xk

!

=

n

X

k=1

Var(Xk

) + 2

X

1i<jn

Cov(Xi

, Xj

)

et on conclut en remarquant que, par indépendance des v.a.r. , Cov(Xi

, Xj

) = 0 pour toutcouple d’entiers (i , j) tel que i 6= j . 2

Exercice 4.8. (Corrigé de l’exercice : page 169)Trouver, parmi les exercices ou exemples déjà proposés, un contre-exemple prouvant quela réciproque de l’implication précédente est fausse.

On peut généraliser la proposition 4.30 aux vecteurs aléatoires en montrant que, si (X , Y )

est un couple indépendant de vecteurs aléatoires de dimension d et de carré intégrable, alorsD

X+Y

= DX

+ DY

, où DX

désigne la matrice de dispersion de X .

Nous allons maintenant donner quelques résultats sur la somme de v.a.r. indépendantes suivantdes lois classiques. Auparavant énonçons un corollaire du critère des fonctions caractéristiquesqui sera commode dans la recherche des lois de sommes de variables aléatoires réellesindépendantes.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 100: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

86 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Proposition 4.31.Si (X1, X2, · · · , X

n

) est une suite indépendante de v.a.r., alors, pour tout u 2 R,

�X1+···+X

n

(u) = �X1(u) · · ·�

X

n

(u)

i.e. E"

exp

iun

X

k=1

Xk

!#

= E�

e iuX1� · · ·E �

e iuX

n

.

La réciproque est fausse.

Démonstration : Il suffit de prendre u := u1 = u2 = · · · = un

dans la condition nécessaire ducritère des fonctions caractéristiques. 2

Exercice 4.9. (Corrigé de l’exercice : page 169)Pour prouver que la réciproque est fausse, construire un contre-exemple en considérantles deux variables aléatoires réelles X et Y := X où X est une variable aléatoire réelle deCauchy de paramètre 1 i.e. de densité ⇢ définie sur R par ⇢(x) :=

1

⇡(1 + x2)

dont la

fonction caractéristique � est définie sur R par �(t) := e�|t|. Pour montrer que (X , Y )

est non indépendant, on considérera le borélien A = [�1 , 1] et on calculera P(X ,Y )(A⇥Ac

)

qu’on comparera au produit PX

(A)PY

(Ac

).

A titre d’application de la proposition précédente, voici un résultat qui sera fondamental dansle chapitre sur les vecteurs gaussiens.Proposition 4.32.Stabilité des lois normalesSi (X1, X2, · · · , X

p

) est une suite indépendante de v.a.r. normales de lois respectivesN 1(m1,�2

1), · · · , N 1(mp

,�2p

), alors la v.a.r. Sp

:= X1 + · · · + Xp

est une v.a.r. normaled’espérance m1 + · · ·+ m

p

et de variance �21 + · · ·+ �2

p

.

Démonstration : On applique le résultat précédent 4.31 en notant que la fonction caractéris-tique d’une variable aléatoire réelle X de loi N 1(m,�2

) est �X

(t) = exp(imt � 12t

2�2). On

applique ensuite le théorème d’injectivité 3.26 en remarquant que la fonction caractéristique dela variable aléatoire réelle S

p

est celle de la loi N 1(m1 + · · ·+ mp

,�21 + · · ·+ �2

p

). 2

Citons, à titre d’exemple, un autre résultat fondamental dont la démonstration est laissée enexercice :Proposition 4.33.Si (X1, X2, · · · , X

n

) est une suite indépendante de variables aléatoires réelles de Bernoulli demême paramètre p 2]0, 1[, alors la variable aléatoire réelle S

n

:= X1 + · · · + Xn

suit la loibinomiale B(n, p).

Exercice 4.10. (Corrigé de l’exercice : page 169)Démontrer la proposition précédente.

Exercice 4.11. (Corrigé de l’exercice : page 169)Soit (X1, · · · , X

n

) une suite indépendante de n variables aléatoires réelles de même densité

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 101: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

87Chapitre 4. Indépendance stochastique

⇢ définie sur R par ⇢(x) := ↵e�↵x1l[0,+1[(x) où ↵ > 0. Pour tout ! 2 ⌦ , on range lesnombres réels X1(!), · · · , X

n

(!) dans l’ordre décroissant et on note X(k)(!) le k ième de cesnombres ainsi rangés où k = 1, · · · , n.

1. Vérifier que X(1) = max(X1, · · · , Xn

) et calculer sa fonction de répartition.2. Que représente la variable aléatoire réelle X(n) ? Calculer sa fonction de répartition.3. Soit t > 0. Pour tout k = 1, · · · , n, on pose Y

k

:= 1l]t,+1[(Xk

).

(a) Prouver que la loi de la variable aléatoire réelle Yk

est PY

k

= e�↵t�1+(1�e�↵t

)�0.Quelle est la loi de la variable aléatoire réelle Y1 + Y2 + · · ·+ Y

n

?(b) Comparer les événements {X(k) t} et {Y1 + Y2 + · · ·+ Y

n

k � 1}.4. Déterminer, pour tout k = 1, · · · , n, la fonction de répartition de la variable aléatoire

réelle X(k).

Dans certains cas on peut directement calculer la loi de la variable aléatoire réelle "somme".En voici deux exemples énoncés sous forme de propositions 4.34 et 4.36, la démonstration dela seconde proposition 4.36 est laissée en exercice.

Proposition 4.34.Stabilité des lois binomialesSi (X , Y ) est un couple indépendant de variables aléatoires réelles de lois binomiales respectivesB(n, p) et B(m, p) de même paramètre p 2]0, 1[, alors la variable aléatoire réelle X + Y suitla loi binomiale B(n + m, p).

Démonstration : Dans ce qui suit on adoptera la convention d’écriture : C j

n

:= 0 pour toutentier j > n ou j < 0. X et Y sont des lois discrètes portées respectivement par {0, 1, · · · , n}et {0, 1, · · · , m}. La loi de la variable aléatoire réelle X + Y sera aussi discrète et portée par{0, 1, · · · , n + m}. D’après la proposition 2.10, page 27, il suffit de calculer, pour tout entier0 k n + m, le nombre P(X + Y = k). Par l’égalité ensembliste facile à vérifier

{X + Y = k} =

j=k

[

j=0

({X = j} \ {Y = k � j})

et comme l’union est deux à deux disjointe il vient, en appliquant le critère d’indépendance desvariables aléatoires réelles discrètes au couple (X , Y ),

P(X + Y = k) =

j=k

X

j=0

P(X = j)P(Y = k � j) =

j=k

X

j=0

C j

n

C k�j

m

pk

(1� p)

n+m�k

= C k

n+m

pk

(1� p)

n+m�k

.

La dernière égalité du calcul précédent résulte de la formule de Vandermonde rappelée ci-dessous(proposition 4.35). La loi de la variable aléatoire réelle X + Y s’écrit alors

PX+Y

=

n+m

X

k=0

C k

n+m

pk

(1� p)

n+m�k�k

.

On reconnaît la loi binomiale B(n + m, p). 2

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 102: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

88 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Proposition 4.35.Formule de VandermondeSoient n et m deux entiers naturels non nuls. Pour tout entier naturel k vérifiant 0 k n+m,

on aj=k

X

j=0

C j

n

C k�j

m

= C k

n+m

,

avec la convention habituelle sur les C i

n

(cf. formulaire de l’annexe A, page 205)

Démonstration : Il suffit de développer de deux manières différentes l’égalité (1 + X )

n+m

=

(1 + X )

n

(1 + X )

m et d’égaler le coefficient de X k des deux expressions, où 0 k n + m. 2

Proposition 4.36.Stabilité des lois de PoissonSi (X , Y ) est un couple indépendant de variables aléatoires réelles de lois de Poisson respectivesP(↵) et P(�), où les réels ↵ et � sont strictement positifs, alors la variable aléatoire réelleX + Y suit la loi de Poisson P(↵+ �).

Exercice 4.12. (Corrigé de l’exercice : page 170)Donner deux démonstrations de la proposition précédente, l’une directe en s’inspirant dela démonstration pour le cas des variables binomiales et l’autre en utilisant les fonctionscaractéristiques.

Voici quelques résultats plus généraux sur les sommes de variables aléatoires réelles indépen-dantes. Plus que de retenir des formules, Il faut surtout être capable de refaire directement lescalculs dans chaque cas particulier.

Dans la proposition suivante la notation ⇤ désigne le produit de convolution de deuxfonctions f et g positives boréliennes de R dans R défini comme l’application

f ⇤ g : x 2 R 7! f ⇤ g(x) :=

Z

Rf (x � u)g(u)d�(u) 2 [0, +1].

Proposition 4.37.Soit (X , Y ) un couple indépendant de variables aléatoires réelles admettant pour densitésrespectives ⇢

X

et ⇢Y

, alors la variable aléatoire réelle X + Y , admet pour densité l’application⇢

X+Y

:= ⇢X

⇤ ⇢Y

.

Démonstration : Soit h une application positive borélienne définie sur R. Par les théorèmes de

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 103: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

89Chapitre 4. Indépendance stochastique

transfert, de Tonelli et l’indépendance de (X , Y ), il vient

E[h(X + Y )] =

Z

R2

h(x + y)dP(X ,Y )(x , y) =

Z

R2

h(x + y)dPX

⌦ PY

(x , y)

=

Z

R

Z

Rh(x + y)dP

X

(x)

dPY

(y)

=

Z

R

Z

Rh(x + y)⇢

X

(x)d�(x)

⇢Y

(y)d�(y)

=

Z

R2

h(x + y)⇢X

(x)⇢Y

(y)d�⌦ �(x , y)

=

Z

R2

h(x + y)⇢X

(x)⇢Y

(y)d�(2)(x , y)

Effectuons le changement de variables, (u, v) := (x + y , x). Le jacobien de l’application inverseen (u, v) est J(u, v) = �1 d’où, par application du théorème de changement de variable à ladernière intégrale précédente,

E[h(X + Y )] =

Z

R2

h(u)⇢X

(v)⇢Y

(u � v)d�(2)(u, v)

=

Z

Rh(u)

Z

R⇢

X

(v)⇢Y

(u � v)d�(v)

d�(u)

=

Z

Rd

h(u)(⇢X

⇤ ⇢Y

)(u)d�(d)(u),

ce qui prouve que ⇢X

⇤ ⇢Y

est bien la densité de X + Y . 2

Exemples 4.11.Soit (X , Y ) un couple indépendant de v.a.r.. On suppose que la variable aléatoire réelle Xsuit la loi uniforme U([0, 1]) définie par la densité ⇢

X

:= 1l[0,1] et Y suit la loi exponentiellede paramètre 1 de densité ⇢

Y

définie sur R par ⇢Y

(t) := 1l[0,+1[(t)e�t . La densité de la vari-

able aléatoire réelle X+Y est définie sur R par ⇢X+Y

(t) :=

Z +1

�11l[0,1](t�x)1l[0,+1[(x)e�xdx .

Ce qui après le calcul de l’intégrale donne ⇢X+Y

(t) =

1� e�t

1l[0,1](t) + e�t

(e �1)1l]1,+1[(t).2

Proposition 4.38.Soit (X , Y ) un couple indépendant de v.a.r. . On suppose que X admet une densité ⇢

X

et

que Y est une variable discrète portée par N de loi+1X

k=0

pk

�k

. Alors la variable aléatoire réelle

Z := X + Y admet pour densité l’application

⇢X+Y

: x 2 R 7! ⇢X+Y

(x) :=

+1X

k=0

pk

⇢X

(x � k) 2 [0, +1].

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 104: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

90 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Démonstration : Soit h une application de R dans R borélienne positive. En utilisant le théorèmedu transfert puis l’indépendance de (X , Y ) avec le théorème de Tonelli, il vient

E[h(X + Y )] =

Z

R2

h(x + y)dP(X ,Y )(x , y) =

Z

R2

h(x + y)d(PX

⌦ PY

)(x , y)

=

Z

R

Z

Rh(x + y)dP

X

(x)

dPY

(y)

=

Z

R

Z

Rh(x + y)⇢

X

(x)d�(x)

d

+1X

k=0

pk

�k

!

(y)

=

+1X

k=0

pk

Z

Rh(x + k)⇢

X

(x)d�(x).

Appliquons alors àZ

Rh(x + k)⇢

X

(x)d�(x) le changement de variable défini sur R, pour k 2 Nfixé, par u := x + k . Il vient

Z

Rh(x + k)⇢

X

(x)d�(x) =

Z

Rh(u)⇢

X

(u � k)d�(u).

Par suite, revenant aux égalités précédentes,

E[h(X + Y )] =

+1X

k=0

pk

Z

Rh(x + k)⇢

X

(x)d�(x) =

+1X

k=0

pk

Z

Rh(u)⇢

X

(u � k)d�(u)

=

Z

R

+1X

k=0

pk

⇢X

(u � k)

!

h(u)d�(u)

La dernière égalité se justifie par la propriété de Beppo-Lévi vue au chapitre III. D’où le résultat.2

Exemples 4.12.Soit (X , Y ) un couple indépendant de v.a.r. . On suppose que la v.a.r. X suit la loi deGauss-Laplace N 1(0, 1), et Y suit la loi de Poisson de paramètre ↵ > 0. Alors la densitéde la v.a.r. X + Y est définie sur R par

⇢X+Y

(t) :=

+1X

k=0

e�↵↵k

k!

p2⇡

exp

�1

2

(t � k)

2

=

e�↵

p2⇡

+1X

k=0

↵k

k!

exp

�1

2

(t � k)

2

.2

4.5 Exercices de révision sur les chapitres I à IV

Exercice 4.13. (Corrigé de l’exercice : page 171)Soient A et B deux v.a.r. indépendantes de loi uniforme U([0, 1]). Quelle est la probabilitéque le polynôme x2 � 2Ax + B ait :

1. deux racines réelles distinctes,2. deux racines complexes et non réelles,

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 105: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

91Chapitre 4. Indépendance stochastique

3. une racine double.4. Traiter les questions précédentes en utilisant la loi de la v.a.r. � := A2 � B .

Exercice 4.14. (Corrigé de l’exercice : page 172)On considère une variable aléatoire (X , Y ) à valeurs dans R2 dont la loi P(X ,Y ) admet ladensité

f (x , y) := ↵(1� x2)1l[0,1](x)ye�3y1l]0,+1[(y),

où ↵ est un réel, par rapport à la mesure de Lebesgue �(2) sur R2.1. Déterminer la valeur du réel ↵.2. Déterminer les lois marginales du couple (X , Y ).3. Calculer P(0 < X 2, Y � 1).4. Calculer la matrice de dispersion D de (X , Y ).

Exercice 4.15. (Corrigé de l’exercice : page 174)Soient n et m deux entiers naturels non nuls, X et Y deux variables aléatoires réellesindépendantes. On suppose que la variable aléatoire réelle X est binomiale de paramètres

n et1

2

, et que la variable aléatoire réelle Y est binomiale de paramètres m et1

2

. Calculerla probabilité que X = Y .

Exercice 4.16. (Corrigé de l’exercice : page 174)Soit (X

k

)

k2N une suite indépendante de v.a.r. de Bernoulli toutes de même paramètre0 < p < 1. Soit un entier r � 1, on définit deux nouvelles v.a.r. , en posant pour tout! 2 ⌦ ,

⌧r

(!) := inf{n 2 N⇤/X1(!) + X2(!) + ... + Xn

(!) = r}et

✓r

(!) := inf{n 2 N⇤/X1(!) + X2(!) + ... + Xn+r

(!) = r}avec la convention inf Ø := +1.

1. Montrer, pour tout x 2]0, 1[, la relation+1X

k=r�1

C r�1k

xk�r+1=

1

(1� x)

r

.

2. Montrer que la variable aléatoire réelle ⌧r

est une variable aléatoire réelle discrète deloi (dite loi de Pascal de paramètres r et p )

P(r , p) :=

+1X

k=r

C r�1k�1p

r

(1� p)

k�r�k

.

Vérifier que P(⌧r

= +1) = 0.

3. Montrer que la variable aléatoire réelle ✓r

est une variable aléatoire réelle discrète deloi (dite loi binomiale-négative de paramètres r et p )

I(r , p) :=

+1X

k=0

C r�1k+r�1p

r

(1� p)

k�k

.

Vérifier que P(✓r

= +1) = 0.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 106: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

92 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

4. Donner une interprétation des variables aléatoires réelles ⌧r

et ✓r

en terme de jeu dePile-ou-Face.

5. Montrer qu’un des deux modèles précédents permet de formaliser le problème ditdes boîtes d’allumettes de Stephan Banach :Un fumeur a dans chacune de ses deux poches une boîte contenant au départ Nallumettes. Chaque fois qu’il désire fumer une cigarette, il choisit une poche auhasard. Quelle est la probabilité que, le fumeur se rendant compte pour la premièrefois qu’une boîte est vide, l’autre boîte contienne k allumettes où k est un entiernaturel inférieur ou égal à N ?

Exercice 4.17. (Corrigé de l’exercice : page 176)On considère une v.a.r. réelle positive X de fonction de répartition F

X

.1. Pour tout entier naturel n non nul, en considérant sur l’espace mesuré (⌦ ⇥R+

, F ⌦B(R+

), P ⌦ �), où � est la mesure de Lebesgue, la fonction à valeurs réelles définiepar H(!, t) := ntn�11l]t,+1[(X (!)), montrer que

E[X n

] =

Z +1

0

ntn�1P(X > t)dt =

Z +1

0

ntn�1(1� F

X

(t))dt.

2. Montrer par un exemple que l’hypothèse X positive est nécessaire.3. En utilisant le résultat de la première question, calculer l’espérance et la variance des

variables aléatoires suivantes :(a) X de fonction de répartition F

X

(t) := t1l[0,1](t) + 1l]1,+1[(t).(b) Y de fonction de répartition F

Y

(t) := (1� e�↵t

)1l[0,+1[(t) où ↵ > 0.

(c) Z de fonction de répartition FZ

(t) :=

+1X

n=0

e�↵↵n

n!

1l[n,+1](t)

Exercice 4.18. (Corrigé de l’exercice : page 177)On considère (X

n

)N⇤ une suite indépendante de v.a.r. de même loi de Bernoulli B(p) définiessur un même espace de Probabilité (⌦ , F , P). Pour ! 2 ⌦ on définit

T (!) := inf{n 2 N / Xn

(!) = 1}avec la convention inf Ø = +1. Montrer que T est une v.a. à valeurs dans N⇤, déterminersa loi et calculer son espérance.

Exercice 4.19. (Corrigé de l’exercice : page 178)Le but de cet exercice est de montrer qu’il n’existe pas de probabilité P sur l’espace(N⇤

, P(N⇤) telle que, pour tout n � 1, P(nN⇤

) =

1

noù nN⇤

= {nk , k 2 N⇤}.Supposons qu’une telle probabilité existe. Soit (p

k

)N la suite des nombres entiers premiersrangés en ordre croissant.

1. Par un raisonnement simple montrer que P(lim sup

k

(pk

N⇤)) = 0.

2. Montrer que la suite (pk

N⇤)N est indépendante. En déduire, en utilisant le fait que la

sérieX

k

1

pk

= +1, une autre valeur de P(lim sup

k

(pk

N⇤)). Conclure que la probabilité

P n’existe pas.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 107: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

93Chapitre 4. Indépendance stochastique

Exercice 4.20. (Corrigé de l’exercice : page 178)Soit (X

i

)

I

une famille quelconque de v.a.r. sur un même espace de probabilité (⌦ , F , P).On note �(X

i

, i 2 I ) la plus petite (au sens de l’inclusion) des sous-tribus A de F tellesque, pour tout i 2 I , X

i

est A-mesurable (Cette définition est une généralisation, au casde plusieurs v.a.r., de la définition 4.7, page 80)

1. Justifier l’existence de �(Xi

, i 2 I ).

2. Soit C la famille des intersections finies d’événements de la forme {Xi

2 B} où i 2 Iet B 2 B(R). Montrer que �(X

i

, i 2 I ) est la tribu sur ⌦ engendrée par C.

3. On suppose que la famille de v.a.r. (Xi

)

I

est indépendante. Montrer que, si J et K sontdeux parties disjointes et non vides de I , alors les tribus �(X

i

, i 2 J) et �(Xi

, i 2 K )

sont indépendantes.

Exercice 4.21. (Corrigé de l’exercice : page 179)Déterminer la loi d’une somme de variables aléatoires indépendantes dans les cas suivants :

1. Y := X1 + X2 où X1 suit une loi gamma �(a,↵) et X2 une loi gamma �(b,↵).2. Z := X1 + ... + X

n

où, pour tout k = 1, ..., n, Xk

suit la loi exponentielle E(↵).

Exercice 4.22. (Corrigé de l’exercice : page 179)On considère (X

j

)

j�1 une suite indépendante de v.a.r. de même loi sur un même espacede probabilité (⌦ , F , P), et donc de même fonction caractéristique �. Soit Y une v.a.r.discrète à valeurs dans N⇤ et indépendante de la suite (X

j

)

j�1. En utilisant la fonctiondéfinie sur ]� 1, 1[ par (t) :=

X

n�1

tnP(Y = n), déterminer la fonction caractéristique �Z

de la v.a.r. Z définie, pour presque tout ! 2 ⌦ , par

Z (!) :=

j=Y (!)X

j=1

Xj

(!).

Exercice 4.23. (Corrigé de l’exercice : page 180)Soient X et Y deux v.a.r. à valeurs dans N⇤

, indépendantes et de même loi sur un espacede probabilité (⌦ , F , P). On définit les v.a.r. D := X � Y et M := min(X , Y ).

1. On suppose que X et Y suivent la loi géométrique de paramètre p 2]0, 1[ i.e.

PX

= PY

:=

1X

k=1

pqk�1�k

où q := 1� p.

(a) Montrer que, pour tout (i , j) 2 Z⇥ N⇤,

{D = i} \ {M = j} =

⇢ {X = i + j} \ {Y = j} si i � 0,

{X = j} \ {Y = j � i} si i < 0,

et en déduire que

P(D = i) =

p2

1� q2q|i | et P(M = j) =

p

q2q2j

(q + 1).

(b) Démontrer que les v.a.r. D et M sont indépendantes.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 108: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

94 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

2. Réciproquement, on suppose que les v.a.r. D et M sont indépendantes, montrer que,pour tout entier n � 1,

P [(X = n + 1) \ (Y = n)]

P [(X = n) \ (Y = n)]

=

P(X = n + 1)

P(X = n)

=

P(D = 1)

P(D = 0)

.

En déduire que les v.a.r. X et Y suivent une loi géométrique dont on déterminera leparamètre.

Exercice 4.24. (Corrigé de l’exercice : page 181)Soit X et Y deux variables aléatoires uniformes sur l’intervalle [0,↵] où ↵ est un réelstrictement positif. On suppose que les variables X et Y sont indépendantes. On pose

Z = sup(X , Y )� inf(X , Y ) et T =

inf(X , Y )

sup(X , Y )

. Déterminer les lois des variables Z et T .

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 109: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

95Chapitre 5. Vecteurs aléatoires gaussiens

Chapitre 5

Vecteurs aléatoires gaussiens

Rappelons que, si m et � sont des réels avec � > 0, N 1(m,�2) désigne la mesure de probabilité

sur R admettant la densité ⇢ définie sur R par

⇢(x) :=

1

�p

2⇡exp

�(x �m)

2

2�2

.

Afin de simplifier les énoncés des théorèmes sur les vecteurs gaussiens, on est amené à consid-érer la probabilité de Dirac au point m 2 R comme un cas, dit dégénéré, de loi gaussienneet par suite on pose N 1(m, 0) := �

m

.

Dans la suite, M⇤ désignera la matrice-transposée, det(M) le déterminant de la matrice M ,h·, ·i et | · | le produit-scalaire et la norme usuels de Rd où d 2 N⇤

. Sauf précision contraire, lesvecteurs de Rd seront repérés par leurs composantes dans la base canonique de Rd

. La basecanonique de Rd est le système de vecteurs (e1, e2, ..., ed

) où, pour tout i = 1, · · · , d , ei

est led -uplet dont tous les termes prennent la valeur 0 sauf le terme de rang i qui prend la valeur 1.

5.1 Vecteur gaussien

Définition 5.1.Une variable aléatoire réelle de loi N 1(m,�2

), où m est un réel et � un réel positif ou nul, estdite gaussienne.

En clair, une variable aléatoire réelle gaussienne (de loi N 1(m,�2)) est soit une variable aléa-

toire réelle normale d’espérance m et de variance �2 > 0, soit une variable aléatoire réelle deDirac au point m (constante déterministe égale à m, c’est le cas où �2

= 0).

Définition 5.2.Soient X un vecteur aléatoire de dimension d et (X1, X2, ..., Xd

) ses composantes dans la basecanonique de Rd

. On dit que X est un vecteur (aléatoire) gaussien de dimension d si,pour tous réels a1, a2, ..., ad

, la variable aléatoire réelle a1X1 +a2X2 +...+ad

Xd

est une variablealéatoire réelle gaussienne.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 110: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

96 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Exemples 5.1.Une variable aléatoire réelle gaussienne est un vecteur gaussien de dimension 1.

Compte tenu que, dans un changement de base dans Rd , les composantes dans une nouvellebase sont des combinaisons linéaires des composantes dans l’ancienne base, la propriété d’êtregaussien pour un vecteur ne dépend pas de la base choisie pour exprimer les composantes duvecteurs.

La proposition suivante est un corollaire immédiat, dont la démonstration est laissée en exercice,de la définition.Proposition 5.1.Soit (X1, X2, ..., Xd

) une suite de v.a.r. . Si le vecteur aléatoire X := (X1, X2, ..., Xd

) est unvecteur gaussien de dimension d alors, pour tout k = 1, 2, ..., d , X

k

est une variable aléatoireréelle gaussienne.La réciproque est fausse.

Exemples 5.2.Reprenons les hypothèses et notations de l’exercice 4.6, page 74. On vérifie facilement queP(X +Y = 0) =

12 , et donc que la variable aléatoire réelle X +Y n’est pas une v.a.r. gaussi-

enne, sinon comme X +Y n’est pas une variable déterministe (i.e. de loi une probabilité deDirac), cela veut dire que X + Y serait une v.a.r. normale et on aurait P(X + Y = 0) = 0.Le vecteur aléatoire (X , Y ) n’est donc pas gaussien (sinon X + Y serait une v.a.r. gaussi-enne) alors que ses composantes sont des v.a.r. gaussiennes, ce qui donne un contre-exempleà la réciproque de la proposition 5.1 précédente. 2

En revanche si on rajoute une hypothèse d’indépendance sur la suite des composantes duvecteur X , on obtient un procédé simple de construction de vecteurs gaussiens de dimensionsd � 2 grâce à la proposition :

Proposition 5.2.Soit (X1, X2, ..., Xd

) une suite indépendante de v.a.r. . Le vecteur aléatoire X := (X1, X2, ..., Xd

)

est un vecteur gaussien de dimension d si, et seulement si, pour tout k = 1, 2, ..., d , Xk

est unevariable aléatoire réelle gaussienne.

Démonstration : • La condition nécessaire résulte de la définition des vecteurs gaussiens etn’utilise pas l’hypothèse d’indépendance. C’est un cas particulier de la proposition précédente.• La condition suffisante résulte de ce que, si (X1, X2, ..., Xd

) est une suite indépendante dev.a.r. , alors pour tous réels a1, a2, ..., ad

, la suite (a1X1, a2X2, ..., ad

Xd

) est indépendante. Deplus si la variable aléatoire réelle X

k

a pour loi N 1(mk

,�2k

), la variable aléatoire réelle ak

Xk

a pour loi N 1(ak

mk

, a2k

�2k

). D’après la proposition 4.32, page 86, la variable aléatoire réellea1X1 + a2X2 + ... + a

d

Xd

est alors une variable aléatoire réelle gaussienne comme somme devariables aléatoires réelles gaussiennes indépendantes. 2

La proposition 5.1 a aussi pour conséquence que si X = (X1, X2, ..., Xd

) est un vecteur gaussiende dimension d , alors, pour tout k = 1, 2, ..., d , X

k

est une variable aléatoire réelle de carréintégrable car de loi gaussienne. Par suite on peut définir l’espérance m := E(X ) et la matricede dispersion D

X

:= E ([X � E(X )][X � E(X )]

⇤) du vecteur gaussien X . L’espérance m est

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 111: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

97Chapitre 5. Vecteurs aléatoires gaussiens

un vecteur de Rd et DX

est une matrice carrée d’ordre d à coefficients réels, symétrique etde type positif d’après la proposition 3.24, page 48, sur les propriétés des matrices de dispersion.

Exercice 5.1. (Corrigé de l’exercice : page 183)Soit (U

k

)N une suite indépendante de variable aléatoire réelle de même loi normale centréeet de variance �2 > 0. Pour tout ✓ 2 R, on définit la suite (X

k

)N⇤ où Xk

= ✓Uk�1 + U

k

,

pour tout entier k � 2, et X1 = U1.

Montrer que, pour tout n 2 N⇤, X := (X1, X2, · · · , X

n

) est un vecteur gaussien.

L’espérance et la matrice de dispersion déterminent complètement la fonction caractéristiqued’un vecteur gaussien comme le montre le résultat suivant :Proposition 5.3.Soit X un vecteur aléatoire de dimension d admettant une espérance m := (m1, · · · , m

d

) 2 Rd

et une matrice de dispersion D. Alors X est un vecteur gaussien si, et seulement si, sa fonctioncaractéristique �

X

est donnée, pour tout u 2 Rd

, par

�X

(u) = exp

ihu, mi � 1

2

hu, Dui◆

ou �X

(u) = exp

iu⇤m � 1

2

u⇤Du

.

Démonstration : • Montrons la condition nécessaire. Posons X := (X1, · · · , Xd

), u :=

(u1, · · · , ud

) et Y := u1X1 + · · · + ud

Xd

. Comme X est un vecteur gaussien, la variablealéatoire réelle Y est de loi gaussienne i.e. P

Y

= N 1(mY

,�2Y

). De plus

mY

:= E(Y ) = u1E(X1) + · · ·+ ud

E(Xd

) = u1m1 + · · ·+ ud

md

= hu, mi = u⇤m,

et

�2Y

= E[(Y �mY

)

2] = E

h

(u1(X1 �m1) + · · ·+ ud

(Xd

�md

))

2i

=

X

1i ,jd

ui

uj

E [(Xi

�mi

)(Xj

�mj

)]

=

X

1i ,jd

ui

uj

Cov(Xi

, Xj

) = hu, Dui = u⇤Du.

Comme pour tout u 2 Rd

,

�X

(u) = E�

e i(u1X1+···+u

d

X

d

)�

= E�

e iY

= �Y

(1)

et que �Y

(1) = exp

imY

� 12�

2Y

, on obtient �X

(u) = exp

ihu, mi � 12hu, Dui� .

• Montrons la condition suffisante. Soit X := (X1, · · · , Xd

) un vecteur aléatoire quelconque defonction caractéristique définie sur Rd par

�X

(u) = exp

ihu, mi � 1

2

hu, Dui◆

.

Soit Y := a1X1 + · · ·+ ad

Xd

une combinaison linéaire des composantes de X . En considérantla fonction caractéristique de Y , il vient, pour tout réel t,

�Y

(t) = E�

e iY t

= E�

e i(ta1X1+···+ta

d

X

d

)�

= �X

(a1t, · · · , ad

t)

= exp

i tha, mi � 1

2

t2ha, Dai◆

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 112: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

98 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

où on a posé a := (a1, · · · , ad

).

Ce qui prouve que, pour tout n-uplet de réels (a1, · · · , ad

), la variable aléatoire réelle a1X1 +

· · · + ad

Xd

est une variable aléatoire réelle gaussienne de loi N 1(ha, mi, ha, Dai). X est bienun vecteur gaussien. 2

5.2 Loi d’un vecteur gaussien

La dernière proposition 5.1 a pour conséquence que la loi d’un vecteur gaussien X de dimensiond est entièrement déterminée par la connaissance des deux paramètres que sont l’espérance met la matrice de dispersion D du vecteur gaussien X .L’existence de vecteurs gaussiens d’espérance m et de matrice de dispersion D données a prioriest affirmée par le résultat suivant que nous admettrons (pour la démonstration consulter [3]exercice VII-11) :Proposition 5.4.Si m 2 Rd et D est une matrice carrée d’ordre d à coefficients réels, symétrique et de typepositif, il existe un espace de probabilité (⌦ , F , P) et un vecteur gaussien de dimension d sur(⌦ , F , P) d’espérance m et de matrice de dispersion D.

Les résultats précédents autorisent la définition suivante :Définition 5.3.On appelle loi de Gauss-Laplace ou loi normale sur Rd de paramètres m et D la loide probabilité d’un vecteur gaussien de dimension d d’espérance m et de matrice de dispersionD. Dans ce cas on note N

d

(m, D) cette probabilité.

La proposition ci-dessous sera souvent utilisée pour prouver que certains vecteurs sontgaussiens :Proposition 5.5.Si X est un vecteur gaussien de dimension d , A une matrice rectangulaire k⇥d à coefficientsréels et b un vecteur de dimension k , alors le vecteur aléatoire Y := AX + b est unvecteur gaussien de dimension k . De plus si N

d

(m, D) est la loi de X , la loi de Y estN

k

(Am + b, ADA⇤) ,

Démonstration : Il suffit de remarquer que les composantes de AX sont des combinaisonslinéaires des composantes de X . Donc toute combinaison linéaire des composantes de Y estune combinaison linéaire des composantes de X (qui est une v.a.r. gaussienne car X est supposégaussien) à laquelle on ajoute une constante, dont la somme est encore une v.a.r. gaussienne.Y suit donc une loi normale de dimension k . Il reste à en préciser les paramètres : espérance etmatrice de dispersion. On applique alors l’item 2 de la proposition 3.24, page 48, pour préciserles paramètres de la loi normale de dimmension k . 2

Exercice 5.2. (Corrigé de l’exercice : page 183)En reprenant les hypothèses et notations de l’exercice 5.1,

1. Montrer que le vecteur gaussien X admet une densité sur Rn qu’on explicitera.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 113: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

99Chapitre 5. Vecteurs aléatoires gaussiens

2. Montrer que le vecteur gaussien X est centré de matrice de dispersionD

X

= [di ,j ]1i ,jn

d1,1 = �2

di ,i = �2

(✓2+ 1) pour i = 2, · · · , n,

dj+1,j = d

j ,j+1 = ✓�2 pour j = 1, · · · , n � 1,

di ,j = 0 dans les autres cas.

La forme de la fonction caractéristique d’un vecteur gaussien permet d’établir un critèreimportant d’indépendance des composantes d’un vecteur gaussien.

Proposition 5.6.Soit X := (X1, X2, ..., Xd

) un vecteur gaussien de dimension d . Alors la suite de variablesaléatoires réelles (X1, X2, ..., Xd

) est indépendante si, et seulement si, la matrice de dispersionde X est diagonale.

Démonstration : • La condition nécessaire résulte de la proposition 4.13, page 75.• Pour la condition suffisante, en vertu du critère d’indépendance 4.16, page 76, utilisant lesfonctions caractéristiques, il suffit de montrer que si la matrice de dispersion est diagonale, alorspour tout (u1, · · · , u

d

) 2 Rd

,

�X

(u1, · · · , un

) = �X1(u1) · · ·�X

d

(ud

).

Or, en utilisant la proposition 5.3 pour obtenir la première des deux égalités suivantes,

�X

(u1, · · · , un

) = exp

id

X

k=1

uk

E(Xk

)� 1

2

d

X

k=1

u2k

Var(Xk

)

!

= �X1(u1) · · ·�X

d

(ud

),

car, pour tout entier k , la variable aléatoire réelle Xk

est gaussienne et

�X

k

(uk

) = exp

iuk

E(Xk

)� 1

2

u2k

Var(Xk

)

.2

On peut donner un énoncé plus général de cette proposition. Pour cela introduisons unedéfinition.

Définition 5.4.Deux vecteurs aléatoires X et Y de dimensions quelconques seront dits non-corrélés si lamatrice d’intercorrélation

IX ,Y := E ([X � E(X )][Y � E(Y )]

⇤)

est égale à la matrice-nulle.

On peut vérifier facilement, en explicitant les coefficients des matrices, que :

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 114: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

100 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Proposition 5.7.Si X et Y sont deux vecteurs aléatoires de dimensions respectives d et k , D

Z

la matrice dedispersion du vecteur concaténé Z := (X , Y ) de dimension d + k , D

X

et DY

les matrices dedispersion de X et Y , alors :

1. La matrice d’intercorrélation IX ,Y est une matrice rectangulaire à d lignes et k colonnes

dont le coefficient général d’indice (i , j), où 1 i d et 1 j k , est Cov(Xi

, Yj

).

2. IY ,X = I ⇤

X ,Y , DX

= IX ,X et D

Z

est la matrice par blocs

DZ

=

DX

IX ,Y

IY ,X D

Y

.

D’où une version plus générale de la proposition 5.6 :Proposition 5.8.Soient X := (X1, X2, ..., Xd

) un vecteur aléatoire de dimension d et Y := (Y1, Y2, ..., Yk

) unvecteur aléatoire de dimension k .

Supposons que le vecteur concaténé Z := (X1, X2, ..., Xd

, Y1, Y2, ..., Yk

) soit gaussien dedimension d + k . Alors le couple de vecteurs aléatoires (X , Y ) est indépendant si, et seulementsi, les vecteurs X et Y sont non-corrélés.

Démonstration : • La condition nécessaire résulte du fait que, si le couple de vecteurs aléatoires(X , Y ) est indépendant, alors, pour tout (i , j) avec 1 i d et 1 j k , le couple devariable aléatoire réelle (X

i

, Yj

) est indépendant et par suite le coefficient général de la matriced’intercorrélation Cov(X

i

, Yj

) = 0.

• Réciproquement, si IX ,Y = 0, alors, d’après la proposition 5.7, I

Y ,X = 0, et DZ

=

DX

0

0 DY

où Z est le vecteur concaténé (X , Y ). On vérifie alors que, pour tout vecteur

w := (u1, · · · , ud

, v1, · · · , vk

) 2 Rd+k , si on considère les vecteurs u := (u1, · · · , ud

),

v := (v1, · · · , vk

), mX

:= E(X ) et mY

:= E(Y ),

w ⇤DZ

w = u⇤DX

u + v ⇤DY

v et w ⇤E(Z ) = u⇤mX

+ v ⇤mY

.

La fonction caractéristique du vecteur Z est alors définie sur Rd+k par

�Z

(u1, · · · , ud

, v1, · · · , vk

) = exp (iu⇤mX

+ iv ⇤mY

) exp

�1

2

u⇤DX

u � 1

2

v ⇤DY

v

= �X

(u1, · · · , ud

)�Y

(v1, · · · , vk

).

On conclut en appliquant le critère d’indépendance utilisant les fonctions caractéristiques. 2

On notera la nécessité pour le vecteur Z = (X1, X2, ..., Xd

, Y1, Y2, ..., Yk

) d’être gaussien apriori. Cette hypothèse implique que les vecteurs X et Y sont gaussiens, mais on prendra gardequ’il ne suffit pas que les vecteurs X et Y soient gaussiens pour que le vecteur concaténé(X1, X2, ..., Xd

, Y1, Y2, ..., Yk

) soit gaussien.L’exercice 4.6, page 74, fournit encore un contre-exemple prouvant que la proposition devientfausse si on ne suppose plus a priori que le vecteur (X1, X2, ..., Xd

, Y1, Y2, ..., Yk

) est gaussien.On vérifie facilement que la proposition 5.6 est bien un cas particulier de la proposition 5.8.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 115: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

101Chapitre 5. Vecteurs aléatoires gaussiens

Exercice 5.3. (Corrigé de l’exercice : page 184)On reprend les notations, hypothèses et résultats de l’exercice 3.15, page 59.

1. Existe-t-il un réel strictement positif a tel que (X , Xa

) soit non-corrélé ?2. Existe-t-il un réel strictement positif a tel que (X , X

a

) soit un vecteur gaussien ?3. Existe-t-il un réel strictement positif a tel que (X , X

a

) soit un couple indépendant ?

Terminons par un résultat précisant la forme de la loi normale dans le cas où D est une matriceinversible, ce qui a pour conséquence que D est une matrice définie-positive. La loi de Gausss’explicite alors facilement :Proposition 5.9.Soient m 2 Rd et D une matrice carrée d’ordre d à coefficients réels, symétrique et de typepositif. Si D est inversible, alors la probabilité N

d

(m, D) admet la densité ⇢ sur Rd

⇢ : x 2 Rd 7! ⇢(x) :=

1

p

(2⇡)

d

det(D)

exp

�1

2

(x �m)

⇤D�1(x �m)

.

Démonstration : Soit X un vecteur gaussien de loi Nd

(m, D) où m 2 Rd et D une matricecarrée d’ordre d à coefficients réels, symétrique, positive et inversible. Comme D est symétriqueréelle, il existe alors une matrice A d’ordre d orthogonale telle que ADA⇤ = � où � est unematrice diagonale. Les éléments diagonaux de � sont strictement positifs car D est positiveet inversible. Notons �2

1, · · · ,�2d

les éléments diagonaux de �. Considérons le vecteur aléatoireZ := A(X � m). D’après la proposition5.5, Z est un vecteur gaussien de dimension d de loiN

d

(0,�). Soient (Z1, · · · , Zd

) les composantes de Z . Comme la matrice de dispersion de Z ,

�, est diagonale, la suite de variable aléatoire réelle (Z1, · · · , Zd

) est indépendante et, pourtout entier 1 k d , la loi de Z

k

est N 1(0,�2k

) d’après la proposition 4.5, page 66. Lavariable aléatoire réelle Z

k

a donc pour densité l’application fk

définie sur R par

fk

(t) :=

1

p

2⇡�2k

exp

� t2

2�2k

.

Par suite, d’après la proposition 4.9, page 72, Z admet pour densité l’application définie surRd par

f (t1, · · · , td

) = f1(t1) · · · fd(td

) =

1p2⇡

d

1

p

�21 · · ·�2

d

exp

�1

2

d

X

k=1

t2k

�2k

!

.

Comme �21 · · ·�2

d

= det(D) etP

d

k=11�2

k

t2k

= t⇤��1t, où t := (t1, · · · , td

), on obtient

f (t) = f (t1, · · · , td

) =

1p2⇡

d

1

p

det(D)

exp

�1

2

t⇤��1t

.

Montrons que la loi de X admet une densité. Soit h une application borélienne positive de Rd

dans [0, +1]. Comme X = A⇤Z + m, en appliquant le théorème du transfert à Z ,

E[h(X )] =

Z

Rd

h(A⇤z + m)dPZ

(z) =

Z

Rd

h(A⇤z + m)f (z)d�(d)(z).

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 116: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

102 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Effectuons le changement de variable dans Rd , z 2 Rd 7! x := A⇤z + m dont le jacobien dela transformation x 2 Rd 7! z = A(x �m) est det(A). Remarquons que, A étant orthogonale,| det(A)| = 1 et appliquons le théorème de changement de variable. Il vient

E[h(X )] =

Z

Rd

h(x)f (A(x �m))d�(d)(x).

Le vecteur X admet donc la densité définie sur Rd par ⇢(x) := f (A(x �m)). Par suite,

⇢(x) =

1p2⇡

d

1

p

det(D)

exp

�1

2

(x �m)

⇤A⇤��1A(x �m)

=

1p2⇡

d

1

p

det(D)

exp

�1

2

(x �m)

⇤D�1(x �m)

,

d’où le résultat cherché. 2

On admettra que si la matrice D n’est pas inversible, la loi de Gauss n’a pas de densité parrapport à la mesure de Lebesgue sur Rd car on montre qu’elle est portée par un sous-espaceaffine de Rd de dimension strictement inférieure à d .

Définition 5.5.Si la matrice D est inversible, on dira que la loi de Gauss (ou le vecteur gaussien) N

d

(m, D)

est non-dégénérée. Dans le cas contraire on dira qu’elle est dégénérée.

Exemples 5.3.1) Une variable aléatoire réelle gaussienne est non-dégénérée si, et seulement si, sa loiest une loi normale de variance non nulle. Donc une variable aléatoire réelle gaussiennedégénérée est une variable de loi �

m

où m est un réel quelconque.

2) Soit (X , Y ) un couple de variables aléatoires réelles admettant pour densité l’application

définie sur R2 par ⇢(x , y) :=

p3

4⇡exp

�1

2

(x2 � xy + y 2)

. On vérifie alors que

x2 � xy + y 2=

x y�

1 �1/2�1/2 1

◆✓

xy

=

x y�

D�1

xy

où D :=

4/3 2/32/3 4/3

est la matrice de dispersion du vecteur (X , Y ). On en déduit que

(X , Y ) est un vecteur gaussien de loi N 2(0, D). On peut aussi affirmer que X et Y suiventla loi N 1(0,

43) et, puisque D n’est pas diagonale, que le couple de variables aléatoires

réelles (X , Y ) n’est pas indépendant. 2

Exercice 5.4. (Corrigé de l’exercice : page 185)Soit X un vecteur aléatoire de dimension 3. On suppose que la loi de X est N 3(0, � ) où

� :=

0

@

3 �1 0

�1 3 0

0 0 2

1

A. Trouver une matrice A carrée d’ordre 3 telle que les composantes

du vecteur AX soient indépendantes et non dégénérées.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 117: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

103Chapitre 5. Vecteurs aléatoires gaussiens

5.3 Exercices de révision sur les chapitres I à V

Exercice 5.5. (Corrigé de l’exercice : page 185)Soient X un vecteur aléatoire de dimension 2, de loi N 2(0, I ) où 0 désigne le vecteur nul deR2 et I la matrice-identité d’ordre 2 . Soit A une matrice orthogonale d’ordre 2 à coefficientsréels. Déterminer la loi du vecteur aléatoire de dimension 2 défini par U := AX .

Exercice 5.6. (Corrigé de l’exercice : page 185)Soit (X , Y ) un couple de variables aléatoires réelles de loi P(X ,Y ) =

↵e�12 (x2�xy+y

2)⌘

· �(2)

où �(2) est la mesure de Lebesgue sur R2. Déterminer la constante ↵ et la matrice dedispersion du couple (X , Y ). Préciser les lois respectives des variables aléatoires réelles Xet Y . Le couple de variables aléatoires réelles (X , Y ) est-il indépendant ?

Exercice 5.7. (Corrigé de l’exercice : page 186)Soit X une variable aléatoire réelle de loi N 1(0, 1). On pose

Y = X1l[0,⇡](|X |)� X1l]⇡,+1[(|X |).

1. Vérifier que, pour toute application h de R dans R,

h(Y ) = h(X )1l[0,⇡](|X |) + h(�X )1l]⇡,+1[(|X |).

2. Montrer que la variable aléatoire réelle Y suit la loi normale réduite centrée.3. Le vecteur aléatoire (X , Y ) est-il gaussien ?4. Le couple de variable aléatoire réelle (X , Y ) est-il indépendant ?

Exercice 5.8. (Corrigé de l’exercice : page 187)Soient X , Y , Z trois variables aléatoires réelles indépendantes de même loi N1(0, 1).

1. Déterminer les lois respectives des variables aléatoires réelles U := X + Y + Z ,

V := 2X � Y � Z et W := Y � Z .

2. Montrer que les variables aléatoires réelles X � Y , Y � Z et Z � X sont chacunesindépendantes de la v.a.r. U .

3. Le vecteur aléatoire de dimension 3, (U , V , W ), est-il gaussien ? Préciser sa loi.4. Le triplet de variables aléatoires réelles (U , V , W ) est-il indépendant ?5. On note ' la fonction caractéristique de X 2 [on admettra que, pour tout réel x ,'(x) = (1� 2ix)

� 12 ]. On pose T := (X � Y )

2+ (Y � Z )

2+ (Z � X )

2. Vérifier, pourtout (x , y , z) 2 R3

, l’égalité

(x � y)

2+ (y � z)

2+ (z � x)

2= 2

x � 1

2

(y + z)

◆2

+

3

2

(y � z)

2,

et exprimer la fonction caractéristique �(U,T ) du vecteur aléatoire (U , T ) à l’aide de'. En déduire l’expression de �(U,T )(u, t) en fonction de u et t .

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 118: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

104 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Exercice 5.9. (Corrigé de l’exercice : page 188)Théorème de Fisher-CochranSoit n 2 N⇤ et (X1, · · · , X

n

) une suite indépendante de v.a.r. toutes de même loi N 1(0, 1).On définit respectivement les v.a.r. moyenne empirique et variance empirique par

X :=

X1 + · · ·+ Xn

net S2

:=

1

n � 1

n

X

k=1

(Xk

� X )

2.

1. Montrer que la v.a.r. X 21 suit la loi �(1

2 ,12) aussi appelée loi du Khi-deux à 1 degré

de liberté et notée �2(1).

2. En utilisant la fonction caractéristique des lois Gamma, en déduire que la loi de la

v.a.r.n

X

k=1

X 2k

est �(12 ,

n

2) aussi appelée loi du Khi-deux à n degrés de liberté notée

�2(n).

3. Montrer qu’il existe une matrice orthogonale C de la forme

C =

0

B

B

B

B

B

@

c1,1 c1,2 · · · c1,n

c2,1 c2,2 · · · c2,n...

... . . . ...cn�1,1 c

n�1,2 · · · cn�1,n

1pn

1pn

· · · 1pn

1

C

C

C

C

C

A

.

4. Déterminer la loi du vecteur aléatoire Y := CX .

5. Calculer Yn

etn

X

k=1

Y 2k

à l’aide de X1, · · · , Xn

. En déduire que X =

1pnY

n

et

S2=

1

n � 1

n�1X

k=1

Y 2k

.

6. Démontrer le théorème de Fisher-Cochran : Soit (X1, · · · , Xn

) une suite indépen-dante de v.a.r. de même loi N 1(0, 1). Alors (X , S2

) est indépendant, X suit la loiN 1(0,

1n

) et (n � 1)S2 suit la loi �2(n � 1).

Exercice 5.10. (Corrigé de l’exercice : page 189)Soit ("

i

)

i�1 une suite indépendante de v.a.r. de même loi N 1(0, 1) et X0 une v.a.r. indépen-dante de la suite ("

i

)

i�1 et de loi PX0 = N 1(m,�2

). On définit la suite de v.a.r. (Xn

)

n�1

de la façon suivante : Xn

:= ln

(X0, . . . , Xn�1) + bn

"n

où (bn

)

n�1 est une suite de réels et(l

n

)

n�1 une suite de formes linéaires sur Rn. Montrer que, pour tout n � 1, il existe uneforme linéaire L

n

sur Rn+1 telle que Xn

= Ln

(X0, "1, · · · , "n

) et en déduire que le vecteur(X0, . . . , Xn

) est gaussien.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 119: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

105Chapitre 6. Lois des grands nombres et convergences de v.a.r.

Chapitre 6

Lois des grands nombres et

convergences de v.a.r.

Dans ce chapitre, sauf indication contraire, toutes les variables aléatoires considérées serontréelles et définies sur un même espace de probabilité (⌦ , F , P).

La plupart des résultats et définitions de ce chapitre sont une traduction en langage probabilistede ceux vus en théorie de la mesure (cf. [2] chapitre V). Ils peuvent s’étendre aux v.a. à valeursdans Rd en prenant pour | · | la norme euclidienne de Rd

.

Les espaces Lp

(⌦ , F , P) et Lp

(⌦ , F , P) ont été introduits en théorie de la mesure pourp 2 [1, +1]. On rappelle que, pour tout 1 < p < q < +1,

L1 ✓ Lq ✓ Lp ✓ L1 et k · kL

p k · kL

q

.

De plus\

p�1

Lp 6= L1 et[

p�1

Lp 6= L1 (cf. [2] p. 67 ex IV-8 et IV-11).

On note L0(⌦ , F , P) ou plus simplement L0, l’ensemble des classes d’équivalence, pour l’égalité

P-presque-sûre, des v.a. à valeurs dans R sur (⌦ , F , P), définies et finies P-presque-sûrement.On notera en cas de nécessité bX la classe d’équivalence P-presque-sûre de la v.a. X . On a, pourtout p 2 [1, +1], Lp ✓ L0. (

cXn

)N désignera une suite d’éléments de L0 et bX un élément de L0.

Dans ce chapitre, nous allons passer en revue ces différents modes de convergence initialementétudiés dans le cours de théorie de la mesure en les appliquant au cas particulier où la mesureest une probabilité.

6.1 Convergence en probabilité d’une suite de v.a.r.

6.1.1 Loi faible des grands nombres

Commençons par démontrer deux inégalités souvent utilisées en probabilité :

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 120: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

106 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Proposition 6.1.Inégalité de MarkovSoient X une variable aléatoire réelle et ' une application borélienne de R dans [0, +1], alorspour tout réel a > 0,

P ['(X ) � a] E['(X )]

a.

Démonstration : Posons A := {'(X ) � a}. Puisque ' est positive, on peut écrire :

E['(X )] = E['(X )1lA

] + E['(X )1lA

c

] � E['(X )1lA

] � aE(1lA

) = aP(A). 2

Proposition 6.2.Inégalité de Bienaymé-TchébycheffSoit X une v.a.r. telle que E(X 2

) < +1. Alors pour tout réel ↵ > 0,

P [|X � E(X )| � ↵] 1

↵2Var(X ).

Démonstration : On applique l’inégalité de Markov avec '(t) := [t � E(X )]

2 et a := ↵2. 2

Très utile en théorie, l’inégalité de Bienaymé-Tchébycheff peut être parfois trop grossière pourapporter des informations utiles dans la pratique. Dans ce cas on établit d’autres majorationsplus appropriées à la situation étudiée. A titre d’exemple, on pourra étudier l’exercice 6.2.

Exemples 6.1.1) Si X est une variable aléatoire réelle de loi binomiale B(10,

12) alors E(X ) = 5 et

Var(X ) =

52 . Un calcul direct donne l’estimation

P (|X � 5| � 4) =

C 010 + C 1

10 + C 910 + C 10

10

1

2

◆10

⇡ 0, 021,

alors que l’inégalité de Bienaymé-Tchébycheff donne la majoration

P (|X � 5| � 4) 2, 5

4

2⇡ 0, 156.

2) Si X est une variable aléatoire réelle de carré intégrable de variance �2, l’inégalité de

Bienaymé-Tchébycheff devient P (|X �m| � �) 1, alors que dans le cas d’une variablealéatoire réelle gaussienne de loi N 1(m,�2

)

P (|X �m| � �) = 2

Z +1

1

�p

2⇡exp

� x2

2�2

dx

= 2

Z +1

1

1p2⇡

exp

�t2

2

dt ⇡ 0, 3174,

et par suite P (m � � < X < m + �) ⇡ 0, 6826. 2

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 121: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

107Chapitre 6. Lois des grands nombres et convergences de v.a.r.

Exercice 6.1. (Corrigé de l’exercice : page 190)Règle des trois "sigmas"Soit X une v.a.r. telle que E(X 2

) < +1 de variance �2 et de moyenne m.

a) Montrer que

P (m � 3� < X < m + 3�) � 8

9

et P (m � 2� < X < m + 2�) � 3

4

.

b) Comparer les valeurs obtenues dans la question précédente avec celles données par lecalcul dans le cas où X est une variable aléatoire réelle de loi N 1(m,�2

).

Exercice 6.2. (Corrigé de l’exercice : page 190)1. On considère une variable aléatoire réelle X de carré intégrable, centrée et de variance�2

. A l’aide de l’inégalité de Cauchy-Schwarz de l’exercice 3.13, page 48, montrer que,pour tout réel a > 0,

a E⇥

(a � X )1l]�1,a](X )

⇤ p

P(X a)p�2

+ a2.

En déduire que

P(X > a) �2

�2+ a2

.

2. Une usine fabrique chaque semaine un nombre aléatoire Y d’objets. On supposeE[Y ] = 100 et Var(Y ) = 400. Trouver à l’aide de la question précédente un majorantde la probabilité que la production hebdomadaire dépasse 120. Comparer ce résultatavec celui obtenu par application de l’inégalité de Bienaymé-Tchébycheff.

Définition 6.1.Une suite (X

n

)N de variables aléatoires réelles est dite identiquement-distribuée , en abrégéi.d., si toutes les variables aléatoires réelles de la suite ont la même loi. Une suite i.i.d. devariables aléatoires réelles est une suite indépendante et identiquement distribuée de v.a.r..

Définition 6.2.Si (X

n

)N est une suite de variables aléatoires réelles pour tout entier n � 1, on appelle moyenneempirique d’ordre n associée à la suite (X

n

)N, et on note X (n) ou plus simplement X , lav.a.r. définie par

X (n) :=

X1 + · · ·+ Xn

n.

La démonstration de la proposition suivante est immédiate et laissée en exercice.Proposition 6.3.Si (X

n

)N est une suite indépendante et identiquement distribuée de variables aléatoires réellesde carré intégrable, d’espérance m et de variance �2

, alors

E✓

X1 + · · ·+ Xn

n

= m et Var✓

X1 + · · ·+ Xn

n

=

�2

n.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 122: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

108 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Une application de l’inégalité de Bienaymé-Tchébycheff dont le résultat est historiquementcélèbre est :Proposition 6.4.Théorème de BernoulliSoit (X

n

)N une suite indépendante et identiquement distribuée de variables aléatoires réelles deBernoulli de paramètre p 2]0, 1[ i.e. de loi B(1, p). Alors, pour tout réel a > 0 et tout entiern � 1,

P✓

X1 + · · ·+ Xn

n� p

� a

1

4a2n.

Démonstration : On applique l’inégalité de Bienaymé-Tchébycheff à la variable aléatoire réelleX (n) et on utilise la proposition précédente pour obtenir la majoration

P✓

X1 + · · ·+ Xn

n�m

� a

Var(X0)

na2.

Comme les variable aléatoire réelle sont de Bernoulli E(X0) = m = p et Var(X0) = p(1 � p).

On conclut en vérifiant que, pour tout p 2]0, 1[, p(1� p) 14 . 2

Exemples 6.2.Dans son Essai d’arithmétique morale paru en 1777, Buffon relate l’expérience qui consisteà lancer 4040 fois une pièce de monnaie. Dans la réalisation !0 de cette expérience Buffonobtient 2049 fois "Pile". Si on note X

k

l’application qui à chaque réalisation associe lenombre 1 si la pièce tombe sur "Pile" lors du k ième lancer et 0 sinon, la variable aléatoireréelle X

k

est une variable aléatoire réelle de Bernoulli de paramètre p inconnu. On modélisecette situation en représentant les lancers successifs indépendants par une suite i.i.d. devariable aléatoire réelle de Bernoulli. On est donc dans les conditions du théorème deBernoulli. Avec les notations introduites précédemment, pour l’observation !0 de Buffon,on peut écrire

X (4040)(!0) =

2049

4040

⇡ 0, 507.

Choisissons a tel que1

4a2 · 4040

⇡ 0, 05. Par exemple prenons a = 0, 0352. D’après lethéorème de Bernoulli,

P�

! 2 ⌦ /�

�X (4040)(!)� p�

� � 0, 0352

� 0, 05.

La probabilité que la réalisation !0 de cette expérience satisfasse l’événement

{! 2 ⌦ / |X (4040)(!)� p| � 0, 0352}est inférieure à 0, 05. Autrement dit, la probabilité que le paramètre p vérifie la condition|X (4040)(!0)� p| � 0, 0352, c-à-d approximativement |0, 507� p| � 0, 0352, est inférieure à0, 05. Par suite, on peut affirmer, avec une probabilité supérieure à 0, 95, que l’encadrementde p obtenu lors de l’observation !0, i.e. 0, 4718 p 0, 5422, est correct.L’intervalle [0, 4718; 0, 5422] est dit intervalle de confiance pour p de niveau de confi-ance 0, 95. 2

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 123: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

109Chapitre 6. Lois des grands nombres et convergences de v.a.r.

La technique de détermination des intervalles de confiance pour des paramètres à estimerrelève du domaine de la statistique inférentielle et sera développée dans l’unité d’enseignementde Statistique.

Exercice 6.3. (Corrigé de l’exercice : page 191)On cherche à mesurer une grandeur physique en faisant N mesures indépendantes.Toutes ces mesures sont entachées d’erreur et donnent donc des résultats aléatoires dontl’espérance commune m est la "vraie" valeur de la grandeur à mesurer. Ces mesures sontsupposées identiquement distribuées. Sachant que la variance de chacune d’elles est 0, 25,on veut obtenir un résultat qui soit éloigné de moins de 0, 05 de la "vraie" valeur m avecune probabilité de 0, 99. Quelle valeur choisir pour N ?

En fait la majoration du théorème de Bernoulli peut être améliorée pour montrer que laconvergence vers 0 du second membre est de type exponentiel. C’est ce résultat, donné àtitre d’information, qu’énonce le cas particulier suivant du théorème des grandes déviations(admis et hors programme, pour la démonstration voir [3] exercice IV-13) :Proposition 6.5.Théorème des grandes déviations pour les v.a.r. de Bernoulli (Hors programme)Si (X

n

)N est une suite indépendante de v.a.r. de Bernoulli de même paramètre p 2]0, 1[, alorspour tout " > 0, il existe une constante C" > 0 telle que pour tout n 2 N⇤,

P✓

X1 + X2 + ... + Xn

n� p

� "

2 exp (�nC") .

Énonçons une conséquence plus faible de l’inégalité de Bienaymé-Tchébycheff :Proposition 6.6.Loi faible des grands nombres (1er énoncé)Si (X

n

)N est une suite indépendante et identiquement distribuée de variables aléatoires réellesde carré intégrable et d’espérance m, alors, pour tout réel a > 0,

lim

n!+1P✓

X1 + · · ·+ Xn

n�m

� a

= 0.

Démonstration : On applique l’inégalité de Bienaymé-Tchébycheff comme dans la démonstrationdu théorème de Bernoulli pour obtenir

P✓

X1 + · · ·+ Xn

n�m

� a

Var(X0)

na2.

Ce qui donne le résultat par passage à la limite. 2

6.1.2 Convergence en probabilité

L’énoncé de la loi faible des grands nombres suggère alors la définition suivante :

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 124: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

110 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Définition 6.3.On dit qu’une suite de variables aléatoires réelles (X

n

)N converge en probabilité vers unevariable aléatoire réelle Y si, pour tout réel a > 0,

lim

n!+1P (|X

n

� Y | � a) = 0.

On retrouve ici la traduction de la "convergence en mesure" dans le cas où la mesure est uneprobabilité.

Avec cette nouvelle définition, la loi faible s’énonce :Proposition 6.7.Loi faible des grands nombres (2ième énoncé)Si (X

n

)N est une suite indépendante et identiquement distribuée de variables aléatoiresréelles de carré intégrable et d’espérance m, alors la suite des moyennes empiriques✓

X1 + X2 + ... + Xn

n

N⇤converge en probabilité vers la variable aléatoire réelle constante m.

Exemples 6.3.

Si, pour tout entier n � 1, Xn

est une variable aléatoire réelle de loi1

n + 1

�n

+

n

n + 1

� 1n

,

alors la suite (Xn

)N converge en probabilité vers la variable aléatoire réelle constante 0.

En effet, soit a > 0 et n un entier tel que n > a > 1n

. Comme la variable aléatoire réelle Xn

est discrète portée par l’ensemble {n,

1n

},

P(|Xn

| � a) = P(Xn

= n) =

1

n + 1

.

Ce qui prouve le résultat en faisant tendre n vers +1. 2

Exercice 6.4. (Corrigé de l’exercice : page 191)Montrer que si, pour tout entier n � 1, X

n

est une variable aléatoire réelle de densité n1l[0, 1n

]

alors la suite (Xn

)N converge en probabilité vers la variable aléatoire réelle constante 0.

La limite d’une suite de variables aléatoires réelles convergeant en probabilité est "presque-sûrement" unique comme l’énonce de façon précise le résultat suivant :Proposition 6.8.Si (X

n

)N est une suite de variables aléatoires réelles convergeant en probabilité vers les variablesaléatoires réelles X et Y , alors les variables aléatoires réelles X et Y sont égales presque-sûrement, i.e. P(X 6= Y ) = 0.

Démonstration : Avec les notations du théorème on peut écrire, pour tout entier naturel n,

|X � Y | |X � Xn

|+ |Xn

� Y |. Soit a > 0 un réel, on vérifie l’inclusion entre événements

{|X � Y | � a} ✓n

|X � Xn

| � a

2

o

[n

|Xn

� Y | � a

2

o

.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 125: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

111Chapitre 6. Lois des grands nombres et convergences de v.a.r.

Par suite, pour tout a > 0,

P(|X � Y | � a) P⇣

|X � Xn

| � a

2

+ P⇣

|Xn

� Y | � a

2

et en passant à la limite dans le second membre de l’inégalité précédente, on trouve par définitionde la convergence en probabilité, que, pour tout réel a > 0, P(|X � Y | � a) = 0. Or

{X 6= Y } = {|X � Y | > 0} =

[

n�1

|X � Y | � 1

n

.

D’oùP(X 6= Y )

X

n�1

P✓

|X � Y | � 1

n

= 0.2

La proposition précédente entraîne que la convergence en probabilité induit une convergencedans l’espace L0 définie de la façon suivante :Définition 6.4.On dit que (

cXn

)N converge en probabilité vers bX si, pour tout � > 0, lim

n!+1P(|X

n

�X | ��) = 0.On note alors (

cXn

)NP�! bX ou bX = P-lim

n

(

cXn

).

On montre (cf. [2] p. 86 ex V-9), et nous l’admettrons, le résultat suivant :Proposition 6.9.(Hors programme)L’application

� : (

bX ,

bY ) 2 L0 ⇥ L0 7! �(

bX ,

bY ) := inf{� > 0, P(|X � Y | � �) �}

définit une métrique sur L0 appelée métrique de Ky-Fan. De plus (L0,�) est complet et

(

cXn

)N converge en probabilité vers bX si, et seulement si, lim

n

�(

cXn

,

bX ) = 0 .

La proposition suivante permet d’effectuer des calculs sur les limites en probabilité.Proposition 6.10.Soient f une application continue de R2 dans R, (X

n

)N et (Yn

)N deux suites de variablesaléatoires réelles convergeant en probabilité respectivement vers les variables aléatoires réellesX et Y , alors la suite de variables aléatoires réelles (f (X

n

, Yn

))N converge en probabilité versla variable aléatoire réelle f (X , Y ).

Démonstration : Nous allons démontrer cette proposition dans le cadre plus restrictif des appli-cations f uniformément continues sur R2

. On admettra le résultat pour les fonctions seulementcontinues.Comme f est uniformément continues sur R2

, pour tout réel " > 0, il existe un réel ⌘ > 0

(dépendant de "), tel que, pour tout (x , y) 2 R2 et (x 0, y 0) 2 R2, |x � x 0| + |y � y 0| < ⌘

implique |f (x , y)� f (x 0, y 0)| < ".Soit " > 0 fixé. Pour tout entier naturel n, on a alors{|f (X

n

, Yn

)� f (X , Y )| � "} ✓ {|Xn

� X |+ |Yn

� Y | � ⌘}✓

n

|Xn

� X | � ⌘

2

o

[n

|Yn

� Y | � ⌘

2

o

.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 126: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

112 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

D’où, en faisant tendre n vers +1, lim

n!+1P (|f (X

n

, Yn

)� f (X , Y )| � ") = 0, ce qui prouve

que la suite de variables aléatoires réelles (f (Xn

, Yn

))N converge en probabilité vers la variablealéatoire réelle f (X , Y ). 2

On admettra également que cette proposition devient fausse si l’application f n’est plus sup-posée continue.

Un corollaire immédiat, et très utilisé en pratique, de la proposition précédente est :Proposition 6.11.Si (X

n

)N et (Yn

)N sont deux suites de variables aléatoires réelles convergeant en probabilitérespectivement vers les variables aléatoires réelles X et Y , alors les suites de variables aléatoiresréelles (X

n

+ Yn

)N et (Xn

Yn

)N convergent en probabilité respectivement vers les v.a.r. X + Yet XY .

Exercice 6.5. (Corrigé de l’exercice : page 191)Trouver, parmi les exercices ou exemples déjà proposés dans ce cours, un contre-exempleprouvant que si la suite de variables aléatoires réelles (X

n

)N converge en probabilité vers lavariable aléatoire réelle X , cela n’entraîne pas nécessairement que la suite des espérances(si elles existent) (E(X

n

))N converge vers le réel E(X ) (s’il existe).

6.2 Convergence presque-sûre d’une suite de v.a.r.

6.2.1 Loi forte des grands nombres

La proposition suivante, difficile à démontrer, a une grande importance de par sa significationprobabiliste. Nous en donnerons une démonstration plus loin (cf. proposition 6.19, page 117)dans le cas des variables aléatoires de carré intégrable. C’est en partie grâce à ce théorème quele formalisme des probabilités trouve sa cohérence.Proposition 6.12.Loi forte des grands nombres de Kolmogorov (1er énoncé) (admis)Si (X

n

)N est une suite indépendante et identiquement distribuée de variables aléatoiresréelles intégrables et d’espérance m, alors l’ensemble des ! 2 ⌦ tels que la suite✓

X1(!) + X2(!) + ... + Xn

(!)

n

N⇤ne converge pas vers m est un événement de probabilité

nulle.

Donnons une interprétation intuitive de la loi forte des grands nombres. Considérons unévénement A de probabilité inconnue p relatif à une situation aléatoire. Répétons un grandnombre de fois l’expérience relative à cette situation aléatoire et notons X

k

l’application qui àchaque essai associe le nombre 1 si l’événement A est réalisé lors de la k ième expérience et 0

sinon. La variable aléatoire réelle Xk

est une variable aléatoire réelle de Bernoulli de paramètrep inconnu. On modélise cette situation en considérant les essais successifs indépendants parune suite i.i.d. de variables aléatoires réelles de Bernoulli. On est donc dans les conditionsd’application de la loi forte de Kolmogorov. Cette loi signifie que presque-sûrement, pour nassez grand, la moyenne empirique des variables aléatoires réelles X

k

, c’est-à-dire la fréquencede réalisation de l’événement A, est une bonne approximation de la probabilité de A.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 127: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

113Chapitre 6. Lois des grands nombres et convergences de v.a.r.

6.2.2 Convergence presque-sûre

On peut énoncer la loi forte sous sa forme classique en introduisant un autre mode de conver-gence pour les suites de variables aléatoires.

Auparavant remarquons que :Proposition 6.13.Si (X

n

)N est une suite de variables aléatoires réelles et Y une v.a.r., alors l’ensemble �Y

des! 2 ⌦ tels que la suite réelle (X

n

(!))N ne converge pas vers Y (!) est un événement de l’espacede probabilité (⌦ , F , P), i.e. �

Y

2 F .

Démonstration : Vérifions au préalable que

�Y

=

+1[

n=1

+1\

k=0

+1[

l=k

|Xl

� Y | > 1

n

.

En effet en prenant la contraposée de la définition de la convergence de la suite réelle (Xn

(!))Nvers Y (!) : ! 2 �

Y

si, et seulement si, il existe un entier n � 1 tel que, pour tout entiernaturel k , il existe un entier l � k avec |X

l

(!)� Y (!)| > 1n

.

On conclut alors en utilisant la mesurabilité des variables aléatoires réelles Xi

et Y ainsi que lastabilité des tribus pour les opérations de réunion et d’intersection dénombrables (cf. ChapitreI). 2

On peut alors donner la définition suivante :Définition 6.5.On dit qu’une suite de variables aléatoires réelles (X

n

)N converge presque-sûrement versune variable aléatoire réelle Y si P(�

Y

) = 0.

Cette définition est la traduction en langage probabiliste de la définition de la "convergencepresque-partout" définie en théorie de la mesure.

Exemples 6.4.Soient ⌦ := R, F := B(R) et P la probabilité sur R de densité 1l[0,1]. Pour tout entiern � 1, considérons la variable aléatoire réelle X

n

:= ⇡+n1l[0, 1n

]. Alors la suite (Xn

)N convergepresque-sûrement vers la variable aléatoire réelle constante Y := ⇡.En effet, on vérifie aisément que �

Y

= {0} car lim

n

Xn

(0) = +1 et, pour tout ! 2 ⌦ \{0},lim

n

Xn

(!) = ⇡. De plus P({0}) = 0, d’où le résultat. 2

Donnons quelques propriétés de la convergence presque-sûre. La limite d’une suite de variablesaléatoires réelles convergeant presque-sûrement est "unique" dans le sens suivant :Proposition 6.14.Si (X

n

)N est une suite de variable aléatoire réelle convergeant presque-sûrement vers les variablesaléatoires réelles X et Y , alors les variables aléatoires réelles X et Y sont égales presque-sûrement, i.e. P(X 6= Y ) = 0.

Démonstration : Avec les notations introduites ci-dessus on peut écrire

{X 6= Y } ✓ �X

[�Y

,

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 128: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

114 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

et par suite P(X 6= Y ) P(�X

) + P(�Y

) = 0. 2

La proposition précédente entraîne que la convergence presque-sûre induit une convergencedans l’espace L0 définie de la façon suivante :

Définition 6.6.On dit que (

cXn

)N converge P-presque-sûrement (ou plus simplement presque-sûrement, ou en abrégé p.s.,) vers bX , si l’ensemble des ! 2 ⌦ tels que (X

n

(!))N ne converge pas dansR vers X (!) est P-négligeable.On note alors (

cXn

)NP�p.s.�! bX ou bX = p.s.-lim

n

(

cXn

).

En général il n’existe pas de métrique d sur L0 telle que, pour toute suite (

cXn

)N d’éléments de L0

et bX 2 L0, on ait : lim

n!+1d(

cXn

,

bX ) = 0 si, et seulement si, (

cXn

)N converge P-presque-sûrement

vers bX . On peut montrer qu’il existe une topologie associée à la convergence presque-sûre si,et seulement si, la probabilité P est discrète (cf. [2] p. 86 ex V-10).

La proposition suivante permet d’effectuer des calculs sur les limites presque-sûres.

Proposition 6.15.Soit f une application continue de R2 dans R, (X

n

)N et (Yn

)N deux suites de variables aléatoiresréelles convergeant presque-sûrement respectivement vers les variables aléatoires réelles X etY , alors la suite de variables aléatoires réelles (f (X

n

, Yn

))N converge presque-sûrement vers lavariable aléatoire réelle f (X , Y ).

Cette proposition devient fausse si l’application f n’est plus supposée continue (cf. [14] ex14-11).

Un corollaire immédiat de la proposition précédente est :

Proposition 6.16.Si (X

n

)N et (Yn

)N sont deux suites de variables aléatoires réelles convergeant presque-sûrementrespectivement vers les variables aléatoires réelles X et Y , alors les suites de variables aléatoiresréelles (X

n

+ Yn

)N et (Xn

Yn

)N convergent presque-sûrement respectivement vers les variablesaléatoires réelles X + Y et XY .

Exercice 6.6. (Corrigé de l’exercice : page 192)Démontrer les propositions 6.15 et 6.16.

L’inégalité de Tchébycheff est utile dans l’étude des questions de convergence en probabilité.Le lemme de Borel-Cantelli, quant à lui, est souvent utilisé dans les questions de convergencep.s. grâce à la proposition suivante :

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 129: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

115Chapitre 6. Lois des grands nombres et convergences de v.a.r.

Proposition 6.17.1. La suite (X

n

)N converge p.s. vers la v.a.r. X si, et seulement si, pour tout " > 0,P(lim sup

n

{|Xn

� X | � "}) = 0.

2. Si pour tout " > 0, la sérieX

n

P({|Xn

�X | � "}) converge dans R, alors la suite (Xn

)N

converge p.s. vers la v.a.r. X .

3. Si la suite d’événements ({|Xn

�X | � "})N est indépendante, alors la suite (Xn

)N convergep.s. vers la v.a.r. X si, et seulement si, pour tout " > 0, la série

X

n

P({|Xn

� X | � "})converge dans R.

Démonstration de 6.17 :1. • (X

n

(!))N converge vers X (!) si, et seulement si, pour tout " > 0, il existe unentier naturel N tel que, pour tout n 2 N, n > N implique |X

n

(!) � X (!)| ".En prenant la négation, (X

n

(!))N ne converge pas vers X (!) si, et seulement si, ilexiste " > 0, tel que, pour tout entier naturel N , il existe n 2 N, vérifiant n > N et|X

n

(!)�X (!)| > ". La dernière partie de la phrase peut aussi s’énoncer : il existe " > 0,

tel que ! appartienne à une infinité d’événements de la suite ({|Xn

� X | > "})N; ouencore par définition de la limite-supérieure d’une suite d’événements : il existe " > 0, telque ! 2 lim sup

n

{|Xn

� X | > "}. Par suite,

{! 2 ⌦/(Xn

(!))N ne converge pas vers X (!)} =

[

"2]0,1[

lim sup{|Xn

� X | > "}.

En remarquant que (Xn

(!))N converge vers X (!) si, et seulement si, pour tout p 2 N⇤, il

existe un entier naturel N tel que, pour tout n 2 N, n > N implique |Xn

(!)�X (!)| 1

p,

et en raisonnant comme précédemment on obtient l’égalité

{! 2 ⌦/(Xn

(!))N ne converge pas vers X (!)} =

[

p2N⇤lim sup

n

{|Xn

� X | > 1

p}.

• Si la suite (Xn

)N converge presque-sûrement vers X , alors

P ({(Xn

)N ne converge pas vers X}) = 0.

Comme, pour tout " > 0,

lim sup{|Xn

� X | > "} ✓ {! 2 ⌦/(Xn

(!))N ne converge pas vers X (!)}on en déduit que, pour tout " > 0, P (lim sup{|X

n

� X | > "}) = 0.

Réciproquement, supposons que, pour tout " > 0, P (lim sup{|Xn

� X | > "}) = 0, alors

P

[

p2N⇤lim sup{|X

n

� X | > 1

p}!

X

p2N⇤P✓

lim sup{|Xn

� X | > 1

p}◆

= 0.

D’après la première partie on obtient

P ({(Xn

)N ne converge pas vers X}) = 0

c’est-à-dire que (Xn

)N converge presque-sûrement vers X .

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 130: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

116 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

2. Compte tenu de l’item 1) qu’on vient de démontrer, le résultat des item 2) et 3) de laproposition est une conséquence immédiate du lemme de Borel-Cantelli. 2

On remarquera que dans le troisième item l’indépendance est une hypothèse essentielle ; ontrouvera un contre-exemple dans ([14] ex 14-4). Le premier item souligne le lien existant entreles convergences p.s. et en probabilité en s’énonçant :Proposition 6.18.La suite (X

n

)N converge presque-sûrement vers X si, et seulement si, la suite (Mn

)N, définiepour tout n 2 N par M

n

:= sup

k�n

|Xk

� X |, converge en probabilité vers 0.

Démonstration : Soit " > 0, lim sup{|Xn

�X | � "} =

1\

n=0

1[

k=n

{|Xk

� X | � "}!

. En utilisant

le théorème de convergence monotone des probabilités, on obtient

P(lim sup{|Xn

� X | � "}) = lim

n!+1P 1[

k=n

{|Xk

� X | � "}!

.

De plus,1[

k=n

{|Xk

� X | � "} = {sup

k�n

|Xk

� X | � "}. On conclut alors en vertu du premier

item de la proposition 6.17 : (Xn

)N converge p.s. vers la v.a.r. X si, et seulement si, pourtout " > 0, P(lim sup

n

{|Xn

� X | � "}) = 0, ou encore (Xn

)N converge p.s. vers la v.a.r. X

si, et seulement si, pour tout " > 0, lim

n!+1P✓

sup

k�n

|Xk

� X | � "

= 0, ou encore (Xn

)N con-

verge p.s. vers la v.a.r. X si, et seulement si, pour tout " > 0, lim

n!+1P (M

n

� "}) = 0, où on a

posé Mn

= sup

k�n

|Xk

�X |. Ce qui traduit la convergence en probabilité vers 0 de la suite (Mn

)N. 2

Exercice 6.7. (Corrigé de l’exercice : page 192)Soit (X

n

)N une suite i.i.d. de variables aléatoires réelles de carré intégrable, de variance �2.On note, pour tout entier n � 2,

S2n

:=

1

n � 1

n

X

k=1

Xk

� X (n)

�2,

la variance empirique d’ordre n de la suite (Xn

)N. Montrer que

S2n

=

1

n � 1

n

X

k=1

X 2k

� n

n � 1

X (n)

�2 (Formule de Steiner)

et en déduire que la suite de variables aléatoires réelles (S2n

)N converge presque-sûrementvers �2

.

Avec la notion de convergence presque-sûre, la loi forte de Kolmogorov s’énonce :

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 131: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

117Chapitre 6. Lois des grands nombres et convergences de v.a.r.

Proposition 6.19.Loi forte des grands nombres de Kolmogorov (2ième énoncé)Si (X

n

)N est une suite indépendante et identiquement distribuée de variables aléatoires réelles

intégrables et d’espérance m, alors la suite des moyennes empiriques✓

X1 + X2 + ... + Xn

n

N⇤converge presque-sûrement vers la variable aléatoire réelle constante m.

Démonstration : Conformément au programme de l’unité, on ne fera la démonstration de cethéorème que dans le cadre plus restreint des variables de carré intégrable seulement. Remar-quons qu’en posant, pour tout entier naturel n, Y

n

= Xn

�m, on peut se ramener, sans pertede généralité, à ne faire la démonstration que dans le cas d’une suite de variables aléatoirescentrées. On notera �2 la variance commune des variables X

n

.

Soit (Xn

)N une suite indépendante et identiquement distribuée de variables aléatoires réellescentrées de carré intégrable. Pour tout entier naturel non nul n, posons S

n

= X1+X2+ · · ·+Xn

.

• Montrons que la suite✓

Sn

2

n2

n2N⇤converge presque-sûrement vers 0.

En effet, pour tout " > 0, nous avons, par application de l’inégalité de Bienaymé-Tchebychev,

en tenant compte de l’égalité Var

Sn

2

n2

=

�2

n2(vérifier le calcul),

P✓

Sn

2

n2

� "

Var

S

n

2

n

2

"2=

�2

n2"2.

Ce qui prouve que la série numérique à termes positifsX

n

P✓

Sn

2

n2

� "

est convergente, car

son terme général est majorée par le terme général d’une série de Riemann convergente. On

conclut alors, en appliquant l’item 2) de la proposition 6.17, que la suite✓

Sn

2

n2

n2N⇤converge

presque-sûrement vers 0.• Pour tout entier naturel non nul n, notons p

n

la partie entière dep

n, i.e. pn

est l’unique

entier naturel vérifiant la double inégalité pn

pn < pn

+1. Montrons que la suite✓

Sp

2n

n

n2N⇤converge presque-sûrement vers 0.

De la double inégalité, on obtientp

n�1 < pn

pn, puis, en élevant au carré, n�2

pn+1 <

p2n

n, ce qui implique lim

n!+1

p2n

n= 1 et n � p2

n

2

pn. Comme, d’après ce qui vient d’être

vu, la suite✓

Sn

2

n2

n2N⇤converge presque-sûrement vers 0, la suite

Sp

2n

p2n

n2N⇤converge aussi

presque-sûrement vers 0. De la relation, pour tout entier naturel non nul n,

Sp

2n

n=

Sp

2n

p2n

· p2n

n, on

peut conclure, en passant à la limite presque-sûre, que✓

Sp

2n

n

n2N⇤converge presque-sûrement

vers 0.

• Pour conclure la démonstration du théorème, utilisons à nouveau l’inégalité de Bienaymé-Tchebychev. Pour tout " > 0,

P✓

Sn

n� S

p

2n

n

� "

= P✓

1

n

�Xp

2n

+1 + Xp

2n

+2 + · · ·+ Xn

� � "

(n � p2n

)�2

n2"2 2

pn�2

n2"2,

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 132: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

118 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

car on a vu que n � p2n

2

pn. Ce qui prouve que la série numérique à termes positifs

X

n

P✓

Sn

n� S

p

2n

n

� "

est convergente, car son terme général est majorée par le terme

général d’une série de Riemann convergente. Toujours en appliquant l’item 2) de la propo-

sition 6.17, on en conclut que✓

Sn

n� S

p

2n

n

n2N2

converge presque-sûrement vers 0. Donc en

tenant compte des résultats démontrés dans les deux points précédents, et de l’inégalité trian-

gulaire�

Sn

n

Sn

n� S

p

2n

n

+

Sp

2n

n

, vraie pour tout entier naturel non nul n, on en conclut que✓

Sn

n

n2N⇤converge aussi presque-sûrement vers 0. 2

En fait la réciproque de 6.19 est aussi vraie. Pour cela on se reportera à l’exercice 6.12, page

122, qui montre que si la v.a.r. X n’est pas intégrable, alors la suite✓

X1 + X2 + ... + Xn

n

N⇤ne peut pas converger presque-sûrement dans R. Par contraposée, on obtient justement laréciproque de la proposition 6.19.

On notera que des conditions suffisantes d’existence de loi forte peuvent être démontrées sansl’hypothèse de l’identité des lois ou de l’indépendance mutuelle de la suite de v.a.r..Par exemple on montre, et on les admettra, les deux propositions 6.20 et 6.21 (hors programme)suivantes :

Proposition 6.20.Loi forte des grands nombres pour des v.a.r. uniformément bornées (Hors pro-gramme)Si (X

n

)N est une suite indépendante de v.a.r., centrées et telles qu’il existe M > 0 véri-fiant, pour tous n 2 N et ! 2 ⌦ , |X

n

(!)| M , alors la suite des moyennes empiriques✓

X1 + X2 + ... + Xn

n

N⇤converge presque-sûrement vers 0.

Proposition 6.21.Loi forte des grands nombres pour des v.a.r. deux à deux indépendantes (Horsprogramme)Si (X

n

)N est une suite de v.a.r. intégrables, deux à deux indépendantes, de même loi et

d’espérance m, alors la suite des moyennes empiriques✓

X1 + X2 + ... + Xn

n

N⇤converge

presque-sûrement vers m.

6.3 Convergence dans Lp(⌦ , F , P) où p 2 [1, +1]

La topologie d’espace vectoriel normé de Lp permet de définir un autre mode de convergencepour les suites d’éléments de L0 qui sont dans Lp.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 133: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

119Chapitre 6. Lois des grands nombres et convergences de v.a.r.

Définition 6.7.Si p 2 [1, +1], on dit que la suite de v.a.r. (X

n

)N converge en moyenne d’ordre p versla v.a.r. X ou plus simplement converge dans Lp vers la v.a.r. X si bX 2 Lp et pour toutn 2 N, cX

n

2 Lp avec lim

n

kcXn

� bXkL

p

= 0. Si p = 2 on parle aussi de convergence enmoyenne quadratique.On note alors (X

n

)NLp�! X ou X = Lp-lim

n

(Xn

).

On ne confondra pas la convergence dans Lp avec la convergence de la suite des espérancesmathématiques. Plus précisément :Proposition 6.22.Si la suite (X

n

)N converge dans Lp vers la v.a.r. X , alors la suite des espérances (E(Xn

))Nconverge dans R vers E(X ).

La réciproque est fausse.

Concernant la réciproque on a cependant le résultat suivant :Proposition 6.23.Si la suite (X

n

)N converge p.s. vers la v.a.r. X et si, pour tout entier naturel n, Xn

� 0, alors(X

n

)N converge dans L1 vers la v.a.r. X si, et seulement si, (E(Xn

))N converge dans R versE(X ).

6.4 Comparaison des convergences dans L0(⌦ , F , P)

Il existe des relations entre les différents modes de convergence de suites de variables aléatoires.Ces relations sont la traduction en langage probabiliste des relations entre les modes de con-vergence vus en théorie de la mesure. Rappelons-les pour mémoire :

La convergence presque-sûre est plus forte que la convergence en probabilité comme le précisela proposition :Proposition 6.24.Si (X

n

)N est une suite de variables aléatoires réelles convergeant presque-sûrement vers lavariable aléatoire réelle Y , alors la suite (X

n

)N converge en probabilité vers la variable aléatoireréelle Y .

La réciproque est fausse.

Démonstration : En partant de la définition de la convergence des suites, on vérifie d’abordque, pour tout réel a > 0,

\

m2N

[

n�m

{|Xn

� Y | � a} ✓ �Y

.

On observe de plus que P(�Y

) = 0 et que, par le théorème de convergence monotone deBeppo-Lévi,

P

\

m2N

[

n�m

{|Xn

� Y | � a}!

= lim

m!+1P

[

n�m

{|Xn

� Y | � a}!

.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 134: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

120 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Comme, pour tout entier m,

P

[

n�m

{|Xn

� Y | � a}!

� P ({|Xm

� Y | � a}) ,

on obtient

0 � P(�Y

) � P

\

m2N

[

n�m

{|Xn

� Y | � a}!

� lim

m!+1P ({|X

m

� Y | � a}) � 0.

Ce qui entraîne que lim

m!+1P(|X

m

� Y | � a) = 0 c-à-d que la suite de variables aléatoires

réelles (Xn

)N converge en probabilité vers la variable aléatoire réelle Y . 2

Ce dernier résultat n’est plus vrai si la mesure n’est pas finie ([2] p. 85 ex V-8). Quant à laréciproque, elle n’est pas vraie, la convergence en probabilité n’entraîne pas la convergencepresque-sûre (cf. [14] ex 14-3). Cependant on a les résultats suivants :Proposition 6.25.Si (X

n

)N converge en probabilité vers X , alors il existe une sous-suite convergeant presque-sûrement vers X .

Le résultat suivant montre à quelle condition les notions de convergences en probabilité etpresque-sûre coïncident (cf. [2] p. 86 ex V-10) :Proposition 6.26.Les notions de convergences en probabilité et presque-sûre coïncident si, et seulement si, laprobabilité P est discrète.

Tenant compte de ce que les variables aléatoires réelles de carré intégrable sont intégrablesd’après la proposition 3.20, page 45, la loi faible des grands nombres apparaît ainsi comme uneconséquence immédiate de la loi forte de Kolmogorov.

Proposition 6.27.Si 1 < p < q < +1 et si la suite (X

n

)N converge dans Lq vers la v.a.r. X , alors la suite (Xn

)Nconverge dans Lp vers la v.a.r. X .

La réciproque est fausse (cf. [14] ex 14-5). La topologie de Lq contient la topologie induite surLq par celle de Lp, mais on n’a pas l’égalité des topologies.

Concernant le lien entre les convergences presque-sûre et dans Lp, en général la convergencepresque-sûre d’une suite de v.a. de Lp n’entraîne pas la convergence de cette suite dans Lp (cf.[14] ex 14-8). Cependant on a les deux résultats suivants :Proposition 6.28.Si (X

n

)N est dominée dans Lp, 1 p < +1, et converge presque-sûrement vers X , alors elleconverge dans Lp vers X .

La réciproque de cette proposition est fausse, la convergence dans Lp n’entraîne pas laconvergence presque-sûre (cf. [14] ex 14-7, [2] p. 83 ex V-1-(3)), mais :

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 135: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

121Chapitre 6. Lois des grands nombres et convergences de v.a.r.

Proposition 6.29.Si (X

n

)N converge dans Lp vers X , 1 p < +1, alors il existe une sous-suite convergeantpresque-sûrement vers X .

Concernant le lien entre les convergences dans Lp et en probabilité, on a :Proposition 6.30.Si (X

n

)N converge dans Lp vers X , 1 p < +1, alors elle converge en probabilité vers X .

La réciproque est fausse, la convergence en probabilité n’entraîne pas la convergence dans Lp

(cf. [14] ex 14-6, [2] p. 83 ex V-1-(5)).

6.5 Exercices de révision sur les chapitres I à VI

Exercice 6.8. (Corrigé de l’exercice : page 192)Soient (X

n

)

n�1 une suite de v.a.r. de carré intégrable non corrélées. On suppose qu’il existeun réel µ et un réel positif C tels que, pour tout n � 1, E[X

n

] = µ et Var(Xn

) C . Montrerque la suite

X1 + · · ·+ Xn

n

n�1

converge vers µ dans L2 et en probabilité.

Exercice 6.9. (Corrigé de l’exercice : page 193)Théorème de Monte-CarloSoit f une application de [0, 1] dans R de carré intégrable au sens de Lebesgue sur [0, 1].

On considère une suite indépendante (Un

)N de v.a.r. de loi uniforme sur [0, 1]. Démontrerdirectement et sans utiliser la loi des grands nombres que la suite des moyennes empiriquesassociée à la suite de v.a.r. (f (U

n

))N converge en probabilité vers l’intégrale au sens deLebesgue

R

[0,1] f d�.

Exercice 6.10. (Corrigé de l’exercice : page 193)A l’aide de la loi forte des grands nombres et en considérant une suite indépendante dev.a.r. (X

i

)

i�1 de même loi uniforme U([0, 1]), calculer

lim

n!+1

Z

[0,1]nf (

x1 + · · ·+ xn

n)d�(n)

(x1, · · · , xn

),

où �(n) est la mesure de Lebesgue dans Rn et f une application continue bornée de R dansR.

Exercice 6.11. (Corrigé de l’exercice : page 194)Théorème de WeierstrassSoient f une application continue de [0, 1] dans R et x 2 [0, 1]. Pour tout n 2 N⇤

, notonsS

n

une v.a.r. binomiale de loi B(n, x).

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 136: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

122 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

1. Montrer que pn

(x) := E[f (

1n

Sn

)] est un polynôme en x appelé polynôme deBernstein de f .

2. En utilisant l’uniforme continuité de f sur [0, 1] montrer que, pour tout " > 0, ilexiste � > 0 tel que, pour tout n 2 N⇤ et tout x 2 [0, 1],

|pn

(x)� f (x)| E[|f (

1

nS

n

)� f (x)|]

"P✓

|1nS

n

� x | < �

+ 2P✓

|1nS

n

� x | � �

sup

0x1|f (x)|.

En déduire que, pour tout " > 0, il existe � > 0 tel que, pour tout n 2 N⇤ et toutx 2 [0, 1],

|pn

(x)� f (x)| "+ 2

x(1� x)

n�2sup

0x1|f (x)|.

3. Démontrer le théorème de Weierstrass : Toute application continue de [0, 1] dansR est limite uniforme sur [0, 1] d’une suite de polynômes.

Exercice 6.12. (Corrigé de l’exercice : page 195)Pour la première question de cet exercice, on pourra utiliser le résultat de l’exercice 4.17,page 92.

1. Soit X une v.a.r. , montrer que E(|X |) X

n�0

P(|X | � n).

2. Soit (Xn

)N une suite indépendante de v.a.r. de même loi. On pose, pour tout n 2 N⇤,

Sn

:= X1 + X2 + ... + Xn

. En utilisant la relation

Sn

n� S

n+1

n + 1

=

Sn

n(n + 1)

� Xn+1

n + 1

,

Montrer que

{(1

nS

n

)N⇤ converge dans R} ✓ [lim sup

n!+1{|X

n

| � n}]c .

3. On suppose de plus que X1 n’est pas intégrable. A l’aide du lemme de Borel-Cantelli,montrer que la suite de v.a.r. (

1

nS

n

)N⇤ ne converge pas presque-sûrement dans R.

Exercice 6.13. (Corrigé de l’exercice : page 196)Soit (X

n

)N une suite indépendante de v.a.r. intégrables, de même loi et d’espérance m 6= 0.

On note, pour tout entier n � 1, Sn

:= X1 + X2 + ... + Xn

. Soit I un intervalle borné de R.

1. Montrer l’inclusion⇢✓

1

nS

n

N⇤converge vers m

✓✓

lim sup

n

{Sn

2 I}◆

c

.

2. En déduire que presque-sûrement seulement un nombre fini des événements {Sn

2 I}sont réalisés.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 137: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

123Chapitre 7. Théorème-limite central et convergence de lois

Chapitre 7

Théorème-limite central et

convergence de lois

Dans ce chapitre, sauf indication contraire, toutes les variables aléatoires considérées serontréelles et définies sur un même espace de probabilité (⌦ , F , P). On notera M1(R), ou plussimplement M1, l’ensemble des mesures de probabilité sur R. On se propose de munir cetensemble d’une structure topologique appelée topologie de la convergence étroite . Lanotation C

b

(Rd

) désignera l’espace fonctionnel des applications, appelées fonctions-test ,continues et bornées de Rd dans R.

7.1 Théorème-limite central (TLC)

7.1.1 Énoncé du théorème-limite central (TLC)

Pour introduire l’énoncé du TLC, commençons par une proposition élémentaire très utilisée enstatistique inférentielle.Proposition 7.1.Si (X

n

)N est une suite indépendante et identiquement distribuée (i.i.d.) de variables aléatoiresréelles gaussiennes d’espérance m et de variance �2 > 0, alors, pour tout entier n > 0, lavariable aléatoire réelle

X1 + · · ·+ Xn

n�m

est une variable aléatoire normale centrée de variance�2

n.

Démonstration : Soit n 2 N⇤ fixé. Comme (X1, · · · , Xn

) est une suite indépendante de variablesaléatoires réelles gaussiennes, la somme X1+ · · ·+X

n

est une variable aléatoire réelle gaussiennede loi N 1(nm, n�2

). Par suite la v.a.r.

X1 + · · ·+ Xn

n�m

est de loi N 1(0,

�2

n). 2

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 138: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

124 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

En particulier, pour tout x 2 R, on peut écrire avec les notations de la proposition précédente,

P

X1 + · · ·+ Xn

n�m x

r

�2

n

!

=

1p2⇡

Z

x

�1e�

u

2

2 du.

On peut aussi énoncer la proposition précédente sous la forme :Proposition 7.2.Si (X

n

)N est une suite indépendante et identiquement distribuée de variables aléatoires réellesgaussiennes d’espérance m et de variance �2 > 0, alors, pour tout entier n > 0, la variablealéatoire réelle S

n

:= X1 + · · · + Xn

est une variable aléatoire normale d’espérance nm et devariance n�2

.

Si, dans les hypothèses de la proposition 7.1, on supprime la connaissance a priori de la loicommune des v.a.r. , le résultat précédent devient seulement "asymptotiquement" vrai au sensprécisé dans l’énoncé du théorème suivant, connu sous le nom de Théorème-limite central ouen abrégé TLC, très important en statistique inférentielle. Vu son importance, nous donneronsdans ce chapitre plusieurs énoncés équivalents de ce résultat que nous démontrerons à la page138 après avoir étudié la notion de convergence étroite d’une suite de probabilités.Proposition 7.3.Théorème-limite central (version "moyenne empirique")Si (X

n

)N est une suite indépendante et identiquement distribuée de variables aléatoires réellesde carré intégrable d’espérance m et de variance �2 > 0, alors, pour tout x 2 R,

lim

n!+1P

X1 + · · ·+ Xn

n�m x

r

�2

n

!

=

1p2⇡

Z

x

�1e�

t

2

2 dt.

La loi forte des grands nombres affirme que presque-sûrement, pour n assez grand, la moyenne

empiriqueX1 + · · ·+ X

n

nest proche de m. Le théorème-limite central quant à lui, donne des

renseignements, pour n "assez grand", sur la loi approximative de l’erreurX1 + · · ·+ X

n

n�m

commise en prenantX1 + · · ·+ X

n

ncomme estimation de m.

D’un point de vue pratique, si (Xn

)N est une suite indépendante et identiquement distribuée devariables aléatoires réelles de carré intégrable d’espérance m et de variance �2 > 0, alors, pourtout entier naturel n assez grand et pour tout x 2 R,

P✓

X1 + · · ·+ Xn

n�m x

⇡ 1p2⇡

Z

x

pn

�2

�1e�

t

2

2 dt

c-à-d avec le changement de variable u := tq

�2

n

,

P✓

X1 + · · ·+ Xn

n�m x

⇡ 1

q

2⇡ �2

n

Z

x

�1e� u

2

2 �2n du.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 139: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

125Chapitre 7. Théorème-limite central et convergence de lois

On peut dire qu’asymptotiquement, i.e. pour tout entier n assez grand, l’erreurX1 + · · ·+ X

n

n�

m suit la loi normale N 1(0,

�2

n) ou encore que la moyenne empirique

X1 + · · ·+ Xn

nsuit approx-

imativement la loi N 1(m,

�2

n). Cela signifie qu’asymptotiquement la v.a.r. S

n

= X1 + · · ·+ Xn

peut être approximée par une variable aléatoire normale d’espérance nm et de variance n�2.

On peut alors donner une autre forme équivalente du TLC qui porte sur la somme de n v.a.ri.i.d. :Proposition 7.4.Théorème-limite central (version "somme de n v.a.r.")Si (X

n

)N est une suite indépendante et identiquement distribuée de variables aléatoires réellesde carré intégrable, d’espérance m et de variance �2 > 0, alors, pour tout réel x ,

lim

n!+1P✓

Sn

� nmpn

x

=

1

�p

2⇡

Z

x

�1e�

t

2

2�2 dt.

On peut aussi exprimer le TCL sous une forme plus intuitive, calquée sur l’énoncé de laproposition 7.2 mais cette fois sans l’hypothèse de normalité des variables, ce qui conduità un résultat analogue vrai seulement asymptotiquement sur n, au lieu de l’être pour tout n.

C’est d’ailleurs souvent sous cette dernière forme que le TLC est énoncé et utilisé dans lesapplications pratiques en statistique.Proposition 7.5.Approximation d’une somme de v.a.r. par la loi normaleSi (X

n

)N est une suite indépendante et identiquement distribuée de variables aléatoires réellesde carré intégrable, d’espérance m et de variance �2 > 0, alors, pour tout entier naturel n � 1

suffisamment grand (en pratique n � 30), la variable aléatoire réelle Sn

:= X1 + · · · + Xn

se comporte approximativement comme une variable aléatoire normale d’espérance nm et devariance n�2

.

Exemples 7.1.Considérons une suite i.i.d. (X

n

)N de variables aléatoires réelles de loi uniforme sur

l’intervalle [�12 ,

12 ]. Posons S :=

365X

k=1

Xk

. Alors P(|S | 15) ⇡ 0, 99.

En effet, en gardant les mêmes notations que plus haut, un calcul d’espérance et de variancepour la variable aléatoire réelle X1 de loi uniforme sur l’intervalle [�1

2 ,12 ] on obtient,

m = E(X1) = 0 et �2= Var(X1) =

112 . Par suite E(S) = 0 et, en vertu de l’identité

des lois et de l’indépendance de la suite (Xn

)N,

Var(S) = Var

365X

k=1

Xk

!

=

365X

k=1

Var(Xk

) =

365

12

.

Comme d’après ce qui a été écrit plus haut, S est pratiquement une variable aléatoireréelle normale car n peut être considéré comme grand, on en déduit que la loi de S estpratiquement N 1(0,

36512 ). Cela signifie aussi que la variable aléatoire réelle

q

12365S est

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 140: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

126 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

pratiquement de loi N 1(0, 1). Par suite comme 15

q

12365 ⇡ 2, 72,

P(|S | 15) = P

r

12

365

S

15

r

12

365

!

=

Z 2,72

�2,72

1p2⇡

e�t

2

2 dt.

En utilisant la table de la loi normale centrée réduite de l’annexe B, page 211, on trouveP(|S | 15) ⇡ 0, 99.

Comparons ce résultat à ce que donnerait l’inégalité de Bienaymé-Tchébychev. Par appli-cation de cette inégalité,

P(|S | > 15) = P(|S � E(S)| > 15) Var(S)

15

2⇡ 0, 135,

c-à-d P(|S | 15) � 0, 865. 2

On voit qu’un des intérêts du TLC est de permettre d’approximer la loi d’une variable aléatoireréelle dans des situations où le calcul exact de cette loi serait pratiquement très compliqué,voire impossible.

7.1.2 Cas particuliers du théorème-limite central (TLC)

Appliquons le TLC à des cas particuliers. Voici un corollaire du théorème-limite centralhistoriquement important.Proposition 7.6.Approximation d’une loi binomiale par une loi normale (Théorème de De Moivre-Laplace)Si p 2]0, 1[ et, pour tout entier n � 1, Z

n

est une variable aléatoire réelle de loi binomialeB(n, p), alors pour tout réel x

lim

n!+1P

Zn

� npp

np(1� p)

x

!

=

1p2⇡

Z

x

�1e�

t

2

2 dt.

Démonstration : D’après la proposition 4.33, page 86, la variable aléatoire réelle

Zn

� npp

np(1� p)

a même loi que la variable aléatoire réelle

Yn

:=

X1 + · · ·+ Xn

� npp

np(1� p)

où (Xn

)N est une suite indépendante et identiquement distribuée de variables aléatoiresréelles de Bernoulli de loi B(p). De plus avec les notations habituelles, m = E(X0) = p,

�2= Var(X0) = p(1� p).

On applique alors le théorème-limite central (version "moyenne empirique", cf. proposition 7.3)

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 141: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

127Chapitre 7. Théorème-limite central et convergence de lois

à la suite (Xn

)N. 2

Le théorème de De Moivre-Laplace exprime que dans la pratique, pour n assez grand, unevariable aléatoire réelle X binomiale de taille n peut être approximée par une variable aléatoireréelle normale X 0. Plus précisément, si a et b sont des réels avec a < b, alors

P (a < X b) = P

a � npp

np(1� p)

<X � np

p

np(1� p)

b � npp

np(1� p)

!

.

D’où pour un entier n assez grand,

P (a < X b) ⇡ 1p2⇡

Z

b�nppnp(1�p)

a�nppnp(1�p)

e�t

2

2 dt

c-à-d avec le changement de variable t =

u � npp

np(1� p)

,

P (a < X b) ⇡ 1

p

2⇡np(1� p)

Z

b

a

exp

� (u � np)

2

2np(1� p)

du = P (a < X 0 b)

où X 0 est une variable aléatoire réelle normale d’espérance np et de variance np(1� p).

En conclusion, on peut dire qu’asymptotiquement, i.e. pour n assez grand, la v.a.r. Xbinomiale B(n, p), peut être approximée par une variable aléatoire normale X 0 d’espérance npet de variance np(1 � p). Dans la pratique cette approximation est considérée satisfaisante sin � 20 et p ⇡ 1

2 .

Exercice 7.1. (Corrigé de l’exercice : page 196)Un cinéma comporte deux salles contenant chacune n places. N personnes se présentent àl’entrée de ce cinéma. On admet que les choix des spectateurs sont indépendants les unsdes autres et qu’un spectateur quelconque a une chance sur deux d’aller dans la premièresalle.

1. Quelle est la probabilité P que tous les spectateurs ne puissent pas voir le film qu’ilsont choisi ?

2. Comment le constructeur aurait-il dû choisir n si on sait que N = 1000 et si on veutque P 0, 01 ?

On peut faire, pour les variables aléatoires réelles de Poisson, un raisonnement analogue à celuifait pour les variables binomiales pour obtenir la proposition suivante :Proposition 7.7.Approximation d’une loi de Poisson par une loi normaleSoient un réel ↵ > 0 et, pour tout entier n � 1, Z

n

une variable aléatoire réelle de loi dePoisson P(n↵), alors pour tout réel x ,

lim

n!+1P✓

Zn

� n↵pn↵

x

=

1p2⇡

Z

x

�1e�

t

2

2 dt.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 142: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

128 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Démonstration : La démonstration de cette proposition se calque facilement sur celle duthéorème de De Moivre-Laplace. 2

Une conséquence de la proposition 7.7 est que, pour un réel � assez grand, une variable aléatoireréelle X de Poisson P(�) peut être approximée par une variable aléatoire réelle X 0 normaleN 1(�, �). Dans la pratique cette approximation est considérée satisfaisante si � � 10.

7.1.3 Correction de continuité

Prenons le cas de l’approximation d’une variable aléatoire réelle X binomiale B(n, p), par unevariable aléatoire réelle X 0 normale N 1[np, np(1�p)]. Si on remplace "brutalement" X par X 0

dans les calculs, on aura, pour tout entier 0 k n, P(X = k) ⇡ P(X 0= k) = 0 car X 0 étant

une variable aléatoire réelle à densité, P(X 0= x) = 0 pour tout réel x . Ce qui n’a aucun intérêt.

En général pour éviter cet inconvénient, quand on veut approximer dans un calcul pratique unevariable aléatoire réelle X discrète portée par N par une variable aléatoire réelle X 0 admettantune densité ⇢ sur R de fonction de répartition F , on effectue une correction appelée correctionde continuité.

Les corrections de continuité sont données par :1. Pour tout entier 0 k n, on approxime P(X = k) de la façon suivante :

P(X = k) = P✓

k � 1

2

X k +

1

2

⇡ P✓

k � 1

2

X 0 k +

1

2

c’est-à-dire

P(X = k) ⇡Z

k+12

k� 12

⇢(t)d�(t) = F

k +

1

2

� F

k � 1

2

.

2. Plus généralement, si a et b sont des réels avec a < b, on approxime P(a < X < b) dela façon suivante (mêmes écritures avec les inégalités larges) :

P(a < X < b) = P✓

a � 1

2

X b +

1

2

⇡ P✓

a � 1

2

X 0 b +

1

2

c’est-à-dire

P(a < X < b) ⇡Z

b+12

a� 12

⇢(t)d�(t) = F

b +

1

2

� F

a � 1

2

.

3. On écrit, pour tout réel b, (mêmes écritures avec les inégalités larges) :

P(X < b) = P✓

X b +

1

2

⇡ P✓

X 0 b +

1

2

=

Z

b+12

�1⇢(t)d�(t) = F

b +

1

2

.

4. On écrit, pour tout réel a, (mêmes écritures avec les inégalités larges) :

P(a < X ) = P✓

a � 1

2

X

⇡ P✓

a � 1

2

X 0◆

=

Z +1

a� 12

⇢(t)d�(t) = 1�F

a � 1

2

.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 143: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

129Chapitre 7. Théorème-limite central et convergence de lois

7.2 Convergence d’une suite de probabilités, conver-

gence en loi

L’importance du théorème-limite central conduit à introduire une notion de convergence dansl’ensemble M1(R) des probabilités sur R. Auparavant disons qu’un réel x est point de conti-nuité , resp. point de discontinuité , d’une application f de R dans R si l’application f estcontinue en x , resp. discontinue en x .

Définition 7.1.Soient (µ

n

)N une suite de probabilités sur R et µ une probabilité sur R. On dit que la suitede probabilités (µ

n

)N converge étroitement vers la probabilité µ, si, pour tout point decontinuité x de la fonction de répartition Fµ de µ, la suite réelle (Fµ

n

(x))N converge vers le réelFµ(x).

On remarquera qu’on n’exige pas que la suite de réels (Fµn

(x))N converge vers Fµ(x) aux pointsx 2 R où la fonction de répartition Fµ de µ n’est pas continue. Il se peut qu’il n’y ait pas con-vergence en certains points de discontinuité.

On notera le résultat suivant d’analyse, conséquence de la monotonie de la fonction derépartition :Proposition 7.8.L’ensemble des points de discontinuité d’une fonction de répartition, est dénombrable.

Démonstration : On rappelle qu’on a vu dans le premier chapitre, proposition 1.14, page 15, quela fonction de répartition de µ n’est pas continue en un point x si, et seulement si, µ({x}) > 0.

On en déduit donc que l’ensemble des discontinuités de Fµ est égal à

+1[

k=1

x 2 R / µ({x}) >1

k

.

Mais, pour tout entier k � 1, {x 2 R/µ({x}) >1

k} contient au plus k éléments. Par suite

l’ensemble des discontinuités de la fonction de répartition d’une probabilité est une réuniondénombrable d’ensembles dénombrables, donc est un ensemble dénombrable. 2

On prendra garde que, si une suite de fonctions de répartition de probabilités converge, salimite n’est pas nécessairement la fonction de répartition d’une probabilité, comme le montrel’exercice 7.2 ci-dessous. En revanche, on admettra que :Proposition 7.9.La limite, si elle existe, d’une suite de fonctions de répartition est une application de R dans[0, 1] continue à droite et croissante.

Exercice 7.2. (Corrigé de l’exercice : page 197)En considérant la suite de probabilités de Dirac au point n sur R, (�

n

)N, montrer que lalimite, si elle existe, d’une suite de fonctions de répartition n’est pas nécessairement unefonction de répartition et qu’on peut avoir la convergence simple de la suite (Fµ

n

)N sans

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 144: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

130 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

que la suite (µn

)N converge.

Définition 7.2.Si (X

n

)N est une suite de variables aléatoires réelles et X une v.a.r., on dit que la suite (Xn

)Nconverge en loi vers la variable aléatoire réelle X pour exprimer que la suite (P

X

n

)N des loisdes variables aléatoires réelles X

n

converge vers la loi PX

de la variable aléatoire réelle X .

On prendra garde que cette dernière terminologie est très dangereuse car une suite de variablesaléatoires réelles (X

n

)N peut converger en loi vers des variables aléatoires réelles différentes.Tout ce qu’on peut affirmer a priori c’est que toutes ces variables aléatoires réelles auront alorsla même loi, comme le précise le résultat qui suit :

Proposition 7.10.Si une suite de probabilités sur R, (µ

n

)N, converge étroitement vers deux probabilités sur R, µet ⌫, alors µ = ⌫.

Démonstration : Notons C (Fµ), resp. C (F⌫), l’ensemble des points de continuité de la fonctionde répartition de µ, resp. ⌫. Comme l’ensemble des discontinuités de la fonction de répartitiond’une probabilité est un ensemble dénombrable (cf. proposition 7.8), l’ensemble des points decontinuité communs à Fµ et F⌫ , i.e. C (Fµ)\ C (F⌫), est dense dans R comme complémentaired’un ensemble dénombrable. Pour tout x 2 C (Fµ) \ C (F⌫), Fµ(x) = lim

n

Fµn

(x) = F⌫(x) carla suite (µ

n

)N, converge à la fois vers les deux probabilités µ et ⌫. Fµ et F⌫ étant continues àdroite sur R, on en conclut que Fµ = F⌫ et par suite µ = ⌫. 2

On admettra qu’on peut munir l’ensemble M1(R) d’une structure d’espace métrique dont latopologie associée est celle de la convergence étroite (cf. [3], exercice V-17). Précisément :

Proposition 7.11.(Hors programme)

1. L’application d de M1 ⇥M1 dans R+ définie par

d(µ, ⌫) := inf {" > 0;8x 2 R, Fµ(x � ")� " F⌫(x) Fµ(x + ") + "} ,

où Fµ et F⌫ désignent les fonctions de répartition respectivement de µ et ⌫, définit unemétrique, dite métrique de Lévy, sur M1(R).

2. La suite (µn

)N de probabilités converge étroitement vers la probabilité µ si, et seulementsi, la suite réelle (d(µ

n

, µ))N converge vers 0.

3. De plus, pour tout couple de v.a.r. (X , Y ), on a d(PX

, PY

) �(

bX ,

bY ), où � désigne lamétrique de Ky-Fan (cf. proposition 6.9, page 111).

En utilisant la terminologie (abusive) de la convergence en loi et la version "somme de n v.a.r."du TLC, on vérifie aisément qu’on peut énoncer le TLC en termes de convergence en loi.Cet énoncé englobe le cas où �2

= 0 et se généralise au cas où les variables aléatoires sontvectorielles (cf. proposition 7.25, page 138) :

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 145: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

131Chapitre 7. Théorème-limite central et convergence de lois

Proposition 7.12.Théorème-limite central (version réelle)Soient (X

n

)N une suite indépendante et identiquement distribuée de variables aléatoires réellesde carré intégrable (i.e. E(|X0|2) < +1), d’espérance m 2 R et de variance �2

. On pose, pourtout entier naturel non nul n, S

n

= X1 + X2 + · · · + Xn

. Alors, la suite de variables aléatoires

réelles✓

Sn

� nmpn

N⇤converge en loi vers une variable aléatoire gaussienne centrée de variance

�2.

Exercice 7.3. (Corrigé de l’exercice : page 197)Soit (X

n

)

n�1 une suite indépendante de variables aléatoires réelles de même loi de Poisson

P(1). Pour n � 1, on pose Sn

:=

k=n

X

k=1

Xk

. Préciser la loi de Sn

et calculer la limite de la

suite réelle

e�n

k=n

X

k=0

nk

k!

!

n�1

.

Dans le cas où la suite de probabilités est composée de probabilités discrètes portées par N, onutilise le critère de convergence suivant :Proposition 7.13.Critère de convergence pour les probabilités discrètesSoient, pour tout n 2 N, µ

n

et µ des probabilités discrètes portées par N. Alors la suite (µn

)Nconverge vers µ si, et seulement si, pour tout k 2 N, la suite de réels (µ

n

({k}))N converge versµ({k}).Démonstration : Montrons la condition nécessaire. Comme µ est une probabilité discrète portéepar N, sa fonction de répartition est définie sur R par

Fµ(x) =

+1X

k=0

µ({k})1l[k,+1[(x).

On a une écriture analogue pour les fonctions de répartition des probabilités µn

. L’ensemble despoints de discontinuité de Fµ est inclus dans N. Par suite, pour tout entier k , k +

12 et k � 1

2sont des points de continuité de Fµ et Fµ

n

. Comme µ({k}) = Fµ(k +

12)� Fµ(k � 1

2), il vienten utilisant le fait que, pour tout point de continuité x de Fµ, Fµ(x) = lim

n

Fµn

(x),

µ({k}) = lim

n

Fµn

k +

1

2

� lim

n

Fµn

k � 1

2

= lim

n

Fµn

k +

1

2

� Fµn

k � 1

2

◆�

= lim

n

µn

({k}).

La condition suffisante est immédiate d’après l’écriture des fonctions de répartition de µ et µn

. 2

On notera que le critère précédent devient faux si les probabilités sont portées par une partiedénombrable D de R dont les points ne sont pas tous topologiquement isolés. On rappelle qu’un

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 146: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

132 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

point x 2 D est dit topologiquement isolé s’il existe un intervalle de la forme ]x � ", x + "[,avec " > 0, ne contenant pas d’autre point de D que x lui-même. On peut construire uncontre-exemple en considérant, pour tout entier n � 1, les probabilités µ

n

:= � 1n

et prendreµ := �0.

Donnons comme exemple d’application aux lois classiques du critère des probabilités discrètesle résultat suivant :Proposition 7.14.Soit ↵ 2]0, +1[. Si (p

n

)N est une suite de réels de ]0, 1[ telle que lim

n

(npn

) = ↵, alors la suitede probabilités (B(n, p

n

))N⇤ converge vers P(↵).

Démonstration : Fixons k 2 N, par définition de la probabilité binomiale

B(n, pn

)({k}) = C k

n

pk

n

(1� pn

)

n�k

=

n(n � 1)...(n � k + 1)

k!

pk

n

(1� pn

)

n�k

.

Au voisinage de +1, nk est un équivalent de n(n � 1)...(n � k + 1) et B(n, pn

)({k}) admetpour équivalent

(npn

)

k

k!

(1� pn

)

n�k

.

De plus, toujours au voisinage de +1,

ln(1� pn

)

n�k

= (n � k) ln(1� pn

) ⇠ (n � k)(�pn

) ⇠ n � k

n(�↵) ⇠ �↵,

par suite lim

n

(1� pn

)

n�k

= e�↵. Par passage à la limite on obtient donc

lim

n!+1

(npn

)

k

k!

(1� pn

)

n�k

=

↵k

k!

e�↵

et par équivalence

lim

n!+1B(n, p

n

)({k}) =

↵k

k!

e�↵= P(↵)({k}),

pour tout entier k , ce qui donne le résultat cherché. 2

Dans les calculs pratiques ce résultat est utilisé de la façon suivante :si n � 30, p 0, 1 np 10, on assimile une variable binomiale de loi B(n, p) à une variablede Poisson de paramètre np.

Exercice 7.4. (Corrigé de l’exercice : page 198)Un fabriquant produit des transistors dont un pour cent sont défectueux. Il les ensache parpaquets de 100 et les garantit à 98 pour cent. Quelle est la probabilité que cette garantietombe en défaut ?

Donnons, toujours à titre d’exemple, une approximation de la loi hypergéométrique.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 147: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

133Chapitre 7. Théorème-limite central et convergence de lois

Définition 7.3.On appelle loi hypergéométrique de paramètres N , n, p, la probabilité sur R définie par

H(N , n, p) :=

n

X

k=0

C k

Np

C n�k

Nq

C n

N

�k

,

où n 2 N⇤, N 2 N⇤, p 2]0, 1[ tels que Np 2 N, et q := 1� p.

On trouvera la valeur de l’espérance et de la variance de la loi hypergéométrique dans leformulaire de l’annexe A, page 205.

Proposition 7.15.Soient n 2 N⇤ et p 2]0, 1[. Notons S := {N 2 N / Np 2 N}.Alors la suite de probabilités (H(N , n, p))

N2S

converge étroitement vers B(n, p).

Exercice 7.5. (Corrigé de l’exercice : page 198)Démontrer la proposition 7.15 précédente.

Dans les calculs pratiques ce résultat est utilisé de la façon suivante :si N > 10n, on assimile une variable hypergéométrique de loi H(N , n, p) à une variable bino-miale de loi B(n, p).

On notera aussi qu’une suite de probabilités discrètes peut converger vers une probabilité non-discrète comme le prouve le théorème de De Moivre-Laplace.

Dans les cas généraux, on dispose de critères de convergence étroite utilisant des familles defonctions-test, par exemple le critère suivant (pour une démonstration, on pourra se reporter à[4], page 178) :

Proposition 7.16.Critère de convergence étroite par les fonctions continues bornéesSoient (µ

n

)N une suite de probabilités sur R et µ une probabilité sur R. La suite de probabilités(µ

n

)N converge étroitement vers la probabilité µ si, et seulement si, pour tout f 2 Cb

(R), la

suite de réels (

Z

Rf dµ

n

)N converge dans R versZ

Rf dµ.

Énoncé en terme de convergence en loi de v.a.r. cette dernière proposition devient, parapplication du théorème du transfert :

Proposition 7.17.Critère de convergence en loi par les fonctions continues bornéesSoient (X

n

)N une suite de v.a.r. et X une v.a.r.. La suite de v.a.r. (Xn

)N converge en loi vers lav.a.r. X si, et seulement si, pour tout f 2 C

b

(R), la suite de réels (E(f (Xn

))N converge dansR vers E(f (X )).

A titre d’application de ce résultat, prouvons la proposition suivante :

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 148: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

134 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Proposition 7.18.Soit (X

n

)

n2N une suite de v.a.r. et f une application continue de R dans R. Si la suite de v.a.r.(X

n

)N converge en loi vers une v.a.r. X , alors la suite de v.a.r. (f (Xn

))N converge en loi versf (X ).

Démonstration : On remarque tout d’abord que, pour tout n 2 N, l’application f (Xn

) de⌦ dans R est bien une variable aléatoire puisqu’elle est la composée de l’application X

n

qui est (F , B(R))-mesurable et de l’application f qui est continue donc (B(R), B(R))-mesurable. Si ' est une application de R dans R continue bornée alors ' � f est égale-ment continue bornée. L’hypothèse de convergence en loi de la suite (X

n

)N vers X en-traîne, compte tenu de la proposition 7.16 appliquée à ' � f et du théorème de transfert,

lim

n

E[' � f (Xn

)] = lim

n

Z

R' � f (x)dP

X

n

=

Z

R' � f (x)dP

X

= E[' � f (X )] que l’on peut écrire

lim

n

E['(f (Xn

))] = E['(f (X ))]. Ceci étant valable pour toute application continue bornée ',on conclut que la suite (f (X

n

))N converge en loi vers f (X ). 2

Il peut être utile d’avoir des critères utilisant d’autres familles de fonctions-test, comme parexemple celle des fonctions continues à support compact ou celle des fonctions continues nullesà l’infini :Proposition 7.19.Critère de convergence étroite par les fonctions continues à support compactSoient (µ

n

)N une suite de probabilités sur Rd et µ une probabilité sur Rd

. La suite de probabilités(µ

n

)N converge étroitement vers la probabilité µ si, et seulement si, pour toute fonction f de

Rd dans R, continue et à support compact sur Rd , la suite de réels (

Z

Rd

f dµn

)N converge dans

R versZ

Rf dµ.

Démonstration : Faisons la démonstration dans le cas où d = 1. On admettra le résultat pourd > 1.

• C.N. - Si la suite (µn

)N de probabilités converge étroitement vers la probabilité µ, alors,

d’après la proposition 7.16, pour tout f 2 Cb

(R), la suite de réels (

Z

Rf dµ

n

)N converge dans

R versZ

Rf dµ. Comme les fonctions continues à support compact sont bornées, on a bien

que, pour toute fonction f continue et à support compact sur R, la suite de réels (

Z

Rf dµ

n

)N

converge dans R versZ

Rf dµ.

• C.S. - On suppose que, pour toute fonction f continue et à support compact sur R, la suite

de réels✓

Z

Rf dµ

n

Nconverge dans R vers

Z

Rf dµ.

⇧ Considérons, pour tout entier naturel non nul k , la fonction 'k

, définie, pour tout réel x , par

'(x) =

8

>

>

<

>

>

:

0, si x < �(k + 1) ou x > k + 1 ;1, si �k x k ;�x + k + 1, si k x k + 1 ;x + k + 1, si �(k + 1) x �k .

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 149: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

135Chapitre 7. Théorème-limite central et convergence de lois

Pour tout entier naturel non nul k , la fonction 'k

, est une fonction continue à support compacttelle que 0 '

k

1 et la suite de fonctions ('k

)N⇤ converge simplement sur R vers lafonction constante égale à 1. Donc, la suite (1 � '

k

)N⇤ converge simplement sur R vers lafonction nulle et cette suite de fonctions est dominée par la fonction µ-intégrable 1lR, car µest par hypothèse une probabilité. Donc par le théorème de convergence dominée, on obtient

lim

k!1

Z

R(1� '

k

)dµ =

Z

Rlim

k!1(1� '

k

)dµ = 0.

⇧ Soit h une fonction continue, bornée sur R par M . On a, pour tout entier naturel non nul k ,

et tout entier naturel n,

Z

Rhdµ

n

�Z

Rhdµ

Z

R(h � h'

k

)dµn

+

Z

Rh'

k

dµn

�Z

Rh'

k

+

Z

R(h'

k

� h)dµ

M

Z

R(1� '

k

)dµn

+

Z

Rh'

k

dµn

�Z

Rh'

k

+ M

Z

R(1� '

k

)dµ,

M

Z

R(1� '

k

)dµ + M

Z

R(1� '

k

)dµn

�Z

R(1� '

k

)dµ

+

+

Z

Rh'

k

dµn

�Z

Rh'

k

+ M

Z

R(1� '

k

)dµ,

M

Z

R(1� '

k

)dµ + M

Z

R'

k

dµn

�Z

R'

k

+

+

Z

Rh'

k

dµn

�Z

Rh'

k

+ M

Z

R(1� '

k

)dµ,

carZ

R(1 � '

k

)dµn

�Z

R(1 � '

k

)dµ =

Z

R'

k

dµ �Z

R'

k

dµn

, puisque, µ et µn

étant des

probabilités,Z

R1ldµ =

Z

R1ldµ

n

= 1. Or les fonctions 'k

et h'k

sont continues à support

compact. Comme, par hypothèse, pour toute fonction f continue et à support compact sur

R, la suite de réels✓

Z

Rf dµ

n

Nconverge dans R vers

Z

Rf dµ, on a, pour tout entier k fixé,

lim

n!1

Z

R'

k

dµn

=

Z

R'

k

dµ, ou encore lim

n!1

Z

R'

k

dµn

�Z

R'

k

= 0. Pour la même raison,

pour tout entier k fixé, lim

n!1

Z

R(h'

k

)dµn

�Z

Rh'

k

= 0.

⇧ Soit " > 0 donné. Alors, à condition de choisir et fixer k suffisamment grand, puis de prendre

n suffisamment grand, on pourra avoir�

Z

Rhdµ

n

�Z

Rhdµ

". Ce qui prouve que, pour tout

h 2 Cb

(R), la suite de réels (

Z

Rhdµ

n

)N converge dans R versZ

Rhdµ, et donc que la suite de

probabilités (µn

)N converge étroitement vers la probabilité µ. 2

On peut remplacer dans la proposition précédente les fonctions continues à support compactpar les fonctions continues "nulles à l’infini".Définition 7.4.Une application f de Rd dans R est dite nulle à l’infini si, pour tout " > 0, il existe uncompact K ✓ Rd tel que, pour tout x 2 K c

, |f (x)| ".

On note souvent C0(Rd

) l’ensemble des applications de Rd dans R continues et nulles à l’infini.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 150: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

136 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

On obtient alors le critère suivant :Proposition 7.20.Critère de convergence étroite par les fonctions continues nulles à l’infiniSoient (µ

n

)N une suite de probabilités sur Rd et µ une probabilité sur Rd

. La suite de probabilités(µ

n

)N converge étroitement vers la probabilité µ si, et seulement si, pour toute fonction f de

Rd dans R, continue sur Rd et nulle à l’infini , la suite de réels (

Z

Rd

f dµn

)N converge dans R

versZ

Rf dµ.

Démonstration : Raisonnons toujours en dimension d = 1. On peut reprendre mot pour motla démonstration de la proposition 7.19 en remplaçant l’expression "à support compact" par"nulle à l’infini", car on vérifie en reprenant ses notations que, pour tout k , les fonctions '

k

eth'

k

sont continues et nulles à l’infini. 2

Dans le cas des probabilités à densité on dispose de la condition suffisante (mais non nécessaire)de convergence étroite suivante :Proposition 7.21.Théorème de SchefféSoient, pour tout n 2 N, µ

n

et µ des probabilités absolument continues sur R de densitésrespectives f

n

et f par rapport à la mesure de Lebesgue �. Si la suite des densités (fn

)N converge�-presque-partout vers la densité f , alors la suite de probabilités (µ

n

)N converge étroitementvers µ.

La réciproque est fausse.

Démonstration : Comme f et fn

sont des densités, pour tout n 2 N,Z

R(f � f

n

)d� = 0 . Donc

Z

R(f � f

n

)

+d� =

Z

R(f � f

n

)

�d� =

1

2

Z

R|f � f

n

|d�

où on utilise que, pour tout x 2 R, x = x+ � x� et |x | = x++ x�. La suite ((f � f

n

)

+)N

est dominée par f et converge �-presque-partout vers 0 car l’application x 7! x+ est continue.

D’après le théorème de convergence dominée de Lebesgue, on en déduit que✓

Z

R(f � f

n

)

+d�

N

converge vers 0 et par suite✓

Z

R|f � f

n

|d�◆

Nconverge également vers 0. Enfin comme, pour

tout t 2 R,�

Z

]�1,t]

(f � fn

)d�

Z

R|f � f

n

|d�, la suite✓

Z

]�1,t]

(f � fn

)d�

Ntend vers 0

quand n tend vers l’infini. On a montré que, pour tout t 2 R, la suite (Fn

(t))N converge versF (t) où F

n

est la fonction de répartition de µn

et F celle de µ. D’où la convergence étroite de(µ

n

)N vers µ. 2

La réciproque est fausse comme le prouve l’exercice suivant :

Exercice 7.6. (Corrigé de l’exercice : page 198)En considérant, pour tout entier n � 1, les applications définies, pour tout réel x , par

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 151: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

137Chapitre 7. Théorème-limite central et convergence de lois

fn

(x) := [1 � cos(2⇡nx)]1l[0,1](x), montrer qu’il existe une suite de probabilités qui con-verge étroitement vers une probabilité µ sans que la suite des densités associées converge�-presque-partout vers la densité de µ.

Les fonctions caractéristiques (f.c.) sont aussi un outil extrêmement commode dans l’étudedes convergences étroites, grâce au résultat suivant qu’on admettra (on pourra en trouver unedémonstration dans [4], pages 179-181) :Proposition 7.22.Théorème de continuité de Paul LévySoit (µ

n

)N une suite de probabilités sur Rd

. La suite des f.c. (�µn

)N converge simplement sur Rd

vers une application ' de Rd dans C continue en 0 si, et seulement si, il existe une probabilité µsur Rd , de fonction caractéristique �µ = ', telle que la suite (µ

n

)N converge étroitement vers µ.

L’hypothèse de la continuité de ' en 0 est essentielle. Dans la proposition 7.22, le fait que(µ

n

)N converge vers une limite µ qui est une probabilité fait partie du résultat de la proposition,contrairement à la proposition 7.23 qui suit, où le fait que µ soit une probabilité fait partie deshypothèses de la proposition.

Le théorème de continuité de Lévy a pour corollaire un critère pratique de convergence étroiteutilisant les fonctions caractéristiques.Proposition 7.23.Critère de convergence étroite par les f.c.Soient (µ

n

)N une suite de probabilités sur Rd et µ une probabilité sur Rd

. La suite deprobabilités (µ

n

)N converge étroitement vers la probabilité µ si, et seulement si, la suite desf.c. (�µ

n

)N converge simplement sur Rd vers la f.c. �µ.

ou encore, énoncé avec les v.a.r. :Proposition 7.24.Critère de convergence en loi par les f.c.Soient (X

n

)N une suite de v.a.r. et X une v.a.r.. La suite (Xn

)N converge en loi vers X si, etseulement si, la suite des f.c. (�

X

n

)N converge simplement sur R vers la f.c. �X

.

Démonstration : • C.N. - Supposons que (µn

)N converge étroitement vers la probabilité µ. Lesfonctions e

u

: x 2 Rd 7! e i<x ,u> 2 C, où u 2 Rd

, sont continues et bornées sur Rd

. Parapplication du critère de convergence étroite par les fonctions continues et bornées (proposi-tion 7.16) appliqué aux parties réelles et imaginaires des fonctions e

u

, on en conclut que, pour

tout u 2 Rd

, la suite de nombres complexes✓

Z

Rd

e i<x ,u>dµn

(x)

Nconverge dans C vers

Z

Rd

e i<x ,u>dµ(x), donc la suite des f.c. (�µn

)N converge simplement sur Rd vers la f.c. �µ.

• C.S. - Supposons que la suite des f.c. (�µn

)N converge simplement sur Rd vers la f.c. �µ.Prenons, avec les notations du théorème de continuité de Lévy, ' = �µ. Alors, la suite desf.c. (�µ

n

)N converge simplement sur Rd vers une application ' de Rd dans C continue en 0.Par le théorème de continuité de Lévy, on en conclut qu’il existe une probabilité ⌫ sur Rd , defonction caractéristique �⌫ = ', et que la suite (µ

n

)N converge étroitement vers ⌫. Comme

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 152: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

138 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

�⌫ = ' = �µ, on conclut par le théorème d’injectivité des f.c. que µ = ⌫, et que la suite (µn

)Nconverge bien étroitement vers µ. 2

Exemples 7.2.Si (a

n

)N et (�n

)N sont deux suites réelles convergeant respectivement vers les réels a et�, alors la suite de probabilités (N 1(an

,�2n

))N converge étroitement vers la probabilitéN 1(a,�2

). 2

Exercice 7.7. (Corrigé de l’exercice : page 199)Démontrer l’affirmation de l’exemple 7.2 précédent. Pour cela utiliser la fonction caractéris-tique de la loi N 1(an

,�2n

), faire tendre n vers l’infini et conclure en appliquant le critèredes fonctions caractéristiques pour la convergence étroite des probabilités.

Utilisons le critère de convergence étroite par les f.c. pour donner une démonstration duthéorème-limite central que nous énonçons maintenant dans le cadre vectoriel qui généralisel’énoncé donné dans la proposition 7.12 en dimension d = 1 :

Proposition 7.25.Théorème-limite central (version vectorielle)Soient (X

n

)N une suite indépendante et identiquement distribuée de vecteurs aléatoires réels dedimension d , de carré intégrable (i.e. E(|X0|2) < +1), d’espérance m 2 Rd et de matrice dedispersion D. On pose, pour tout entier naturel non nul n, S

n

= X1 + X2 + · · ·+ Xn

.

Alors, la suite des lois des vecteurs aléatoires✓

Sn

� nmpn

N⇤converge étroitement vers la loi

gaussienne de dimension d , Nd

(0, D).

Démonstration : Nous allons démontrer le TLC dans le cas d = 1.

Soit (Xn

)N une suite indépendante et identiquement distribuée de variables aléatoires réelles decarré intégrable, d’espérance m et de variance �2

.

• Considérons d’abord le cas �2= 0. Les v.a.r. sont alors déterministes et égales à la constante

m. Dans ce cas, pour tout entier non nul n, Sn

= nm etS

n

� nmpn

= 0. La suite des v.a.r.✓

Sn

� nmpn

N⇤est la suite stationnaire nulle. Elle converge étroitement vers la loi gaussienne

dégénérée de dimension N 1(0, 0) = �0. Ce qui prouve le théorème dans le cas �2= 0.

• Plaçons-nous maintenant dans le cas �2 > 0.⇧ Soit � la fonction caractéristique de la v.a.r. X1 � m. D’après la proposition 3.33, page 57,comme les variables sont de carré intégrable, la f.c. � est de classe C 2. De plus, on a �(0) = 1,�0(0) = E(X1�m) = 0 et �00(0) = i2E[(X1�m)

2] = �Var(X1) = ��2

. La fonction � admet

un développement limité en 0 à l’ordre 2 donné, pour tout réel t, par �(t) = 1� �2

2

t2+ t2"(t)

avec lim

t!0"(t) = 0. Donc, la fonction caractéristique de la v.a.r.

Sn

� nmpn

est l’application �n

définie, pour tout réel t, par

�n

(t) = Eh

ei< S

n

�nmpn

,t>i

= Eh

ei<S

n

�nm, 1pn

>i

= Eh

ei<

P

k=n

k=1 X

k

, 1pn

>i

.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 153: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

139Chapitre 7. Théorème-limite central et convergence de lois

D’où �n

(t) = Eh

ei<X1,

1pn

>i

n

=

tpn

◆�

n

, ou encore �n

(t) =

1� �2

2nt2

+

t2

n"

tpn

◆�

n

.

⇧ Il ne reste plus qu’à montrer que, pour tout réel t, lim

n!+1�

n

(t) = e��2

t

2

2.

En effet, d’après la formule du binôme de Newton,

1� �2

2nt2

+

t2

n"

tpn

◆�

n

=

k=n

X

k=0

C k

n

t2k

nk

��2

2

+ "

tpn

◆�

k

.

Considérons la série numériqueX

k

uk

(n) de terme général : uk

(n) = 0 si k > n, et

uk

(n) =

C k

n

t2k

nk

��2

2

+ "

tpn

◆�

k

si 0 k n. Pour tout réel t fixé, il existe une

constante M telle que, pour tout entier naturel non nul n, |uk

(n)| Mk

k!

. Donc la sérieX

k

uk

(n) converge normalement. On peut donc intervertir les symboles lim

n!+1et

+1X

k=0

, on ob-

tient lim

n!+1

+1X

k=0

uk

(n) =

+1X

k=0

lim

n!+1u

k

(n) =

+1X

k=0

��2t2k

2(k!)

= e��2

t

2

2. Donc la suite des fonctions

caractéristiques des v.a.r.S

n

� nmpn

converge vers la fonction caractéristique de la loi normale

centrée de variance �2. Ce qui prouve, en vertu du critère de convergence en loi par les fonctions

caractéristiques (proposition 7.24, page 137) que la suite des v.a.r.S

n

� nmpn

converge en loi

vers une v.a.r. normale centrée de variance �2. 2

Pour compléter l’étude des liens, commencée au chapitre précédent, entre les divers modesde convergences, signalons le résultat suivant qui prouve que la convergence en probabilité,et a fortiori la convergence presque-sûre, d’une suite de variables aléatoires réelles implique laconvergence de la suite des lois de ces v.a.r. :

Proposition 7.26.Si (X

n

)N est une suite de variables aléatoires réelles convergeant en probabilité vers la variablealéatoire réelle Y , alors la suite des lois (P

X

n

)N converge vers la loi PY

de la variable aléatoireréelle Y .

La réciproque est fausse.

Démonstration : Soit h une fonction numérique positive définie sur Rd , continue et à supportcompact. La fonction h est donc uniformément continue sur Rd

. Fixons " > 0. Il existe doncun réel ⌘" > 0, tel que, pour tout x , y 2 Rd

, |x � y | ⌘" implique |h(x)� h(y)| ".Comme la suite (X

n

)N converge en probabilité vers la variable aléatoire réelle Y , il existe unentier naturel N" tel que, pour tout entier n � N", P(|X

n

� Y | > ⌘") ". Alors, pour toutentier naturel n � N", on a

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 154: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

140 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

|E[h(Xn

)� h(Y )]| E [|h(Xn

)� h(Y )|]= E

⇥|h(Xn

)� h(Y )| 1l{|Xn

�Y |⌘"}⇤

+ E⇥|h(X

n

)� h(Y )| 1l{|Xn

�Y |>⌘"}⇤

"E⇥

1l{|Xn

�Y |⌘"}⇤

+ 2||h||1E⇥

1l{|Xn

�Y |>⌘"}⇤

"E⇥

1l{|Xn

�Y |⌘"}⇤

+ 2||h||1P(|Xn

� Y | > ⌘")

"+ 2||h||1" = (1 + 2||h||1)".Ce qui prouve que lim

n!1E [h(X

n

)] = E [h(Y )] , pour toute fonction numérique h positive définie

sur Rd , continue et à support compact. On conclut alors en vertu du critère de convergenceétroite par les fonctions continues à support compact. 2

La convergence des lois d’une suite de variables aléatoires réelles n’implique pas nécessairementla convergence en probabilité de la suite de v.a.r., cependant cette conclusion devient vraie sila suite des lois converge vers une probabilité de Dirac :Proposition 7.27.Si (X

n

)N est une suite de variables aléatoires réelles sur un même espace de probabilité(⌦ , F , P) telle que la suite des lois (P

X

n

)N converge vers la probabilité de Dirac �a

où a est unréel, alors la suite de variables aléatoires réelles (X

n

)N converge en probabilité vers la variablealéatoire réelle constante a.

Résultat qu’on peut aussi énoncer :Proposition 7.28.Une suite de v.a.r. (X

n

)N converge en loi vers une constante a 2 R si, et seulement si, elleconverge en probabilité vers a.

Démonstration : Soit " > 0 et f" l’application de R dans R définie par

f"(x) := 1l]a�",a+"[c (x) +

1

"|x � a|1l]a�",a+"[(x).

f" est continue bornée donc la suite (E[f"(Xn

)])

n�1 converge vers E[f"(a)] = 0, d’après laproposition 7.17 . Comme

P(|Xn

� a| � ") = E[1l]a�",a+"[c (Xn

)] E[f"(Xn

)],

on conclut que la suite (Xn

)

n�1 converge en probabilité vers a. On remarque que, lorsque lalimite est une v.a.r. presque-sûrement constante, il y a équivalence entre la convergence en loiet la convergence en probabilité.2

Notons que, dans le cas général, on ne peut pas effectuer d’opérations élémentaires sur leslimites-en-loi. Cependant on admettra (pour une démonstration de la première assertion onpourra se reporter à l’exercice 7.10, page 142) :Proposition 7.29.Théorème de SlutskySoient (X

n

)N une suite de v.a.r. convergeant en loi vers une v.a.r. X et (Yn

)N une suite de v.a.r.convergeant en loi vers 0, alors

1. la suite de v.a.r. (Xn

+ Yn

)N converge en loi vers X ,2. la suite de v.a.r. (X

n

Yn

)N converge en loi (et aussi en probabilité) vers 0.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 155: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

141Chapitre 7. Théorème-limite central et convergence de lois

Pour terminer citons pour information deux théorèmes-limites particulièrement importantsportant sur la convergence de lois, (que nous admettrons et qui sont hors programme) :Proposition 7.30.Loi des événements rares (Hors programme)Soient (X

(n)k

)(k,n)2N2 une suite de v.a.r. indépendantes à valeurs dans N. On pose p(n)k

:=

P(X(n)k

= 1) et ✏(n)k

:= P(X(n)k

� 2). On suppose de plus que1. lim

n

(p(n)1 + p

(n)2 + ... + p(n)

n

) = ↵ 2]0, +1[,

2. lim

n

(max(p(n)1 , p

(n)2 , ..., p(n)

n

)) = 0,

3. lim

n

(✏(n)1 + ✏(n)

2 + ... + ✏(n)n

) = 0.

Alors la suite de v.a.r. (X(n)1 + X

(n)2 + ... + X (n)

n

)N⇤ converge en loi vers une v.a.r. de loi P(↵).

En remarquant qu’une v.a.r. de loi binomiale B(n, p) a même loi que la somme de n v.a.r.indépendantes de loi B(p), la proposition 7.14 est un cas particulier de la loi des événementsrares (cf. [3], exercice V-16).

Notons que les théorèmes-limites jouent un rôle théorique important en statistique dans lavérification des modèles probabilistes de phénomènes aléatoires. En particulier celui-ci (cf. [3],problème V-1) :Proposition 7.31.Théorème fondamental de la statistique (Hors programme)Soit (X

n

)N une suite de v.a.r. indépendantes et de même loi. Alors, pour P-presque-tout ! 2 ⌦ ,la suite des lois empiriques de (X1, X2, ..., Xn

)

1

n

k=n

X

k=1

�X

k

(!)

!

n2N⇤

converge étroitement vers la loi de X1.

7.3 Exercices de révision sur les chapitres I à VII

Exercice 7.8. (Corrigé de l’exercice : page 199)Étudier la convergence étroite de la suite de probabilités (µ

n

)

n�1 de densités respectives(f

n

)

n�1 où, pour tout n � 1, fn

est définie par fn

(x) := nxn�11l[0,1](x).

Exercice 7.9. (Corrigé de l’exercice : page 199)Soit (X

n

)

n�1 une suite indépendante de v.a.r. de même loi de Cauchy C(1) (Pour la déf-

inition, cf. formulaire de l’annexe A, page 205). Pour tout n � 1, on pose Sn

:=

k=n

X

k=1

Xk

.

Étudier les convergences en probabilité et en loi des suites de v.a.r.✓

1pnS

n

n�1

,✓

1

nS

n

n�1

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 156: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

142 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

et✓

1

n2S

n

n�1

.

Exercice 7.10. (Corrigé de l’exercice : page 200)Le but de cet exercice est de prouver l’item 1 du Théorème de Slutsky (cf. proposition7.29, page 140).Soient X une v.a.r. , (X

n

)N et (Yn

)N deux suites de v.a.r..1. Montrer que, pour tous t 2 R, ↵ > 0, et n 2 N,

|�X

n

+Y

n

(t)� �X

n

(t)| 2P(|Yn

| > ↵) + E⇥

1l]�1,↵](|Yn

|)|e i tY

n � 1|⇤

où �Z

désigne la fonction caractéristique de la v.a.r. Z .2. Démontrer le théorème de Slutsky : Si (X

n

)N converge en loi vers X et (Yn

)N convergeen loi vers 0, alors la suite (X

n

+ Yn

)N converge en loi vers X .3. A l’aide d’un exemple, montrer que l’on a pas nécessairement (X

n

�X )N qui convergeen loi vers 0.

Exercice 7.11. (Corrigé de l’exercice : page 200)Soit (U

k

)N une suite indépendante de v.a.r. de loi normale centrée et de variance �2 > 0.

Pour tout ✓ 2 R, on définit la suite (Xk

)N par la relation de récurrence Xn

= ✓Xn�1 + U

n

,

pour tout n � 1, avec X0 = 0.

1. Déterminer, pour tout n 2 N, la loi de la v.a.r. Xn

.

2. Étudier la convergence en loi de la suite de v.a.r. (Xk

)N.

Exercice 7.12. (Corrigé de l’exercice : page 201)Soient X une v.a.r. et (X

n

)N une suite de v.a.r.. On suppose que, pour tout n 2 N, PX

n

:= �x

n

où xn

2 R.1. Si P

X

= �x

, où x 2 R, montrer que la suite (Xn

)N converge en loi vers X si et seulementsi la suite de réels (x

n

)N converge vers x .2. Montrer que si la suite (X

n

)N converge en loi vers X , alors il existe x 2 R tel queP

X

= �x

. On pourra utiliser le résultat de l’exercice 3.23, page 60.

Exercice 7.13. (Corrigé de l’exercice : page 201)Dans cet exercice on se propose de démontrer la réciproque du résultat de l’exercice 7.7,page 138.Soit (µ

n

)N une suite de probabilités de Gauss où, pour tout n 2 N, µn

:= N 1(an

,�2n

).

On suppose que cette suite converge étroitement vers une probabilité µ. On se propose demontrer qu’alors les suites réelles (a

n

)N et (�2n

)N convergent respectivement vers les réels aet �2 et que µ = N 1(a,�2

) (avec la convention N 1(a, 0) = �a

).1. En utilisant les fonctions caractéristiques, montrer que la suite (�2

n

)N est bornée etqu’elle admet une seule valeur d’adhérence dans R. En déduire qu’elle converge dansR, on notera �2 sa limite.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 157: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

143Chapitre 7. Théorème-limite central et convergence de lois

2. A l’aide du théorème de continuité de Lévy, montrer que la suite (�a

n

)N convergeétroitement vers la probabilité de Dirac en un point a. En déduire que la suite (a

n

)Nconverge vers a et que µ = N 1(a,�2

).

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 158: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

144 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 159: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

145Chapitre 8. Corrigés des exercices

Chapitre 8

Corrigés des exercices

8.1 Corrigés des exercices du chapitre I

Corrigé de l’exercice 1.1, page 21. S’il existe x 2 {f 2 Ø}, alors f (x) appartient à Ø ce qui est absurde. Donc {f 2 Ø} = Ø.2. Soit x 2 {f 2 A}, alors f (x) 2 A et comme A ⇢ B , f (x) 2 B et donc x 2 {f 2 B}.

On a donc montrer que tout élément x de l’ensemble {f 2 A} est aussi dans {f 2 B}ce qui signifie que {f 2 A} ⇢ {f 2 B}.

3. On va raisonner par équivalence1. On a

x 2 {f 2 [i2I

Ai

}, f (x) 2 [i2I

Ai

, 9i0 ; f (x) 2 Ai0 , 9i0 ; x 2 {f 2 A

i0}, x 2 [

i2I

{f 2 Ai

} .

D’où l’égalité. De même on écrit

x 2 {f 2 \i2I

Ai

}, f (x) 2 \i2I

Ai

, 8i ; f (x) 2 Ai

, 8i ; x 2 {f 2 Ai

}, x 2 \

i2I

{f 2 Ai

} .

4. On procède encore par équivalence :

x 2 {f 2 A}c , x /2 {f 2 A}, f (x) /2 A , f (x) 2 Ac , x 2 {f 2 Ac} .

Corrigé de l’exercice 1.2, page 21. Dans les deux cas (a) et (b) on a 1l

A\B

= 1lA

.1lB

. Par contre 1lA[B

s’exprime différemmentsuivant que A et B sont disjoints ou non. On peut vérifier cela en étudiant toutes lesvaleurs prises par ces fonctions

1lA

(x) 1lB

(x) 1lA

(x).1lB

(x) 1lA[B

(x) cas (a) 1lA[B

cas (b)x 2 (A [ B)

c 0 0 0 0 0x 2 A \ Bc 1 0 0 1 1x 2 Ac \ B 0 1 0 1 1x 2 A \ B 1 1 1 1 0

.

1Si vous n’êtes pas sûr de vous lors de l’écriture d’une équivalence, vérifiez rapidement les deux implications

pour vous en persuader

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 160: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

146 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Ainsi dans le cas (a) : 1lA[B

= 1lA

+ 1lB

et dans le cas (b) : 1lA[B

= 1lA

+ 1lB

� 1lA

.1lB

.2. On a trivialement 1l

A

c

= 1 � 1lA

et 1lA\B = 1l

A\B

c

= 1lA

.1lB

c

= 1lA

(1 � 1lB

). On remarqueque si B ✓ A, 1l

A

.1lB

= 1lB

et dans ce cas 1lA\B = 1l

A

� 1lB

.

Enfin 1lA[B[C

= 1l(A[B)[C

= 1lA[B

+ 1lC

� 1lC

1lA[B

. On développe de même l’indicatricede A [ B et on obtient :

1lA[B[C

= 1lA

+ 1lB

+ 1lC

� (1lA

1lB

+ 1lB

1lC

+ 1lC

1lA

) + (1lA

1lB

1lC

)

Corrigé de l’exercice 1.3, page 2

1. Représentation graphique de la fonctionX

n�0

1l[n,+1[ :

-

6

1

2

n+1

1 2 n

n+1

br b

r b

r b

2. Représentation graphique de la fonctionX

n�0

1l[0,n] :

-

6

+1

b

r

3. Représentation graphique de la fonctionX

n�0

(n + 1)1l[n,n+1[ :

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 161: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

147Chapitre 8. Corrigés des exercices

-

6

1

2

n+1

1 2 n

n+1

br b

r b

r b

Corrigé de l’exercice 1.4, page 3Cet exercice n’est pas difficile mais demande de la rigueur lors de sa rédaction. Il faut démontrerles trois axiomes qui feront de A une tribu.i) Tout d’abord E 2 A car E = A1 [ · · · [ A

n

par définition d’une partition. Donc E s’écritbien comme [

i2I

Ai

en choisissant I = {1, ..., n}.ii) Soit B 2 A. Montrons que Bc 2 A. On a :

B 2 A, 9I ⇢ {1, ..., n} ; B = [i2I

Ai

et comme les A1, ..., An

forment une partition de E on a Bc

= [j2J

Aj

où J est le complémentairede I dans {1, ..., n}. Donc Bc 2 A.iii) Soit maintenant (B

k

)

k2N une suite d’éléments de A. Pour tout k 2 N, il existe un sous-ensemble I

k

⇢ {1, ..., n} tel que Bk

= [i2I

k

Ai

. Par suite

[k2NB

k

= [k2N ([

i2I

k

Ai

) = [j2J

Aj

où J = [k2NI

k

⇢ {1, ..., n}. Ainsi [k2NB

k

est bien la réunion d’une sous-famille des A1, ..., An

et donc [k2NB

k

2 A.

Corrigé de l’exercice 1.5, page 31) On commence par considérer une famille quelconque (finie ou infinie) de tribu : (A

i

)

i2I

. Onconsidère B la famille des parties de E communes à toutes les tribus A

i

pour i 2 I . On dit queB est l’intersection des tribus A

i

et on écrit B = \i2I

Ai

. On va montrer que B est elle-mêmeune tribu.

– E 2 Ai

pour tout i car les Ai

sont des tribus et donc E 2 B.– Soit A 2 B. Alors A 2 A

i

pour tout i et donc Ac 2 Ai

pour tout i . Donc pour toutA 2 B.

– Soit (Ak

)

k2N une suite d’éléments de B. On a 8k 2 N, 8i 2 I , Ak

2 Ai

. Donc commeA

i

est une tribu, pour tout i 2 I , [k2NA

k

2 Ai

. Par suite [k2NA

k

2 B.Ainsi B est une tribu sur E .2) Prouvons par un contre-exemple que la réunion d’une famille de tribu sur E n’est pas néces-sairement une tribu sur E . En effet prenons E = R, A = {1} et B = {2} deux parties de E .On vérifie facilement que la famille à quatre éléments a = {Ø,A,Ac

,E} est une tribu sur E . Il

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 162: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

148 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

en est de même pour la famille B = {Ø,B ,Bc

,E}. Considérons la réunion C = a [ B. On aC = {Ø,A,Ac

,B ,Bc

,E}. Ce n’est pas une tribu car on n’a pas A [ B 2 C.

Corrigé de l’exercice 1.6, page 4A et B mesurables relativement à la tribu A signifie juste que A 2 A et B 2 A. Comme Aest une tribu, Bc 2 A et donc A \ B = A \ Bc est l’intersection de deux éléments de la tribuA et donc c’est aussi un élément de A. Donc A \ B est mesurable par rapport à A.

Corrigé de l’exercice 1.7, page 5On note F la famille des tribus sur R contenant tous les intervalles de la forme ]a, b] où a etb sont des réels tels que a < b. Notons B la tribu obtenue par intersection de toutes les tribusde la famille F . B est une tribu d’après le résultat de l’exercice 1.5. On remarque qu’on a :

– B est une tribu,– B contient tous les intervalles de la forme ]a, b] où a et b sont des réels tels que a < b.

B appartient donc à la famille F définie plus haut.– B est la plus petite, au sens de l’inclusion, des tribus de la famille F . Cela signifie que si A

est une tribu sur R appartenant à la famille F , alors B ✓ A, car B, qui est l’intersectiondes tribus de la famille F , est contenue dans toutes les tribus de la famille F et enparticulier dans la tribu A.

Des trois points ci-dessus, on déduit que B = B(R) est la tribu de Borel sur R.

Corrigé de l’exercice 1.8, page 5Il faut montrer que si B est une tribu contenant les parties A1, ..., An

, alors A ✓ B. SoitB une telle tribu. Par définition et propriétés des tribus, elle contient toutes les réunions dessous-familles de A1, ..., An

c’est-à-dire que pour tout sous-ensemble I de {1, ..., n}, [i2I

Ai

2 B.Donc B contient tous les éléments de A et on a donc bien A ✓ B.

Corrigé de l’exercice 1.9, page 61. Soit A1, ..., An

une suite finie de parties de N deux à deux disjointes. Deux cas seprésentent :

– Premier cas : 0 2 S

n

1 Ai

. Alors µ(

S

n

1 Ai

) = +1 etP

n

1 µ(Ai

) = +1 car il existeun A

i

o

contenant 0 et donc de mesure infinie. Donc µ(

S

n

1 Ai

) =

P

n

1 µ(Ai

).– Second cas : 0 62 S

n

1 Ai

. Alors siS

n

1 Ai

est fini, tous les Ai

sont finis et

µ(

n

[

1

Ai

) =

X

k2S

i

A

i

1

k2=

n

X

1

(

X

k2A

i

1

k2) =

n

X

1

µ(Ai

).

SiS

n

1 Ai

est infini, alors il existe un Ai

o

infini et on a µ(

S

n

1 Ai

) = +1 =

P

n

1 µ(Ai

).L’application µ est donc additive.

2. Cependant que µ n’est pas �-additive (et donc ce n’est pas une mesure). En effet,considérons N⇤, µ(N⇤

) = +1 et N⇤=

S+11 {k}. Comme la suite ({k})N⇤ est formée de

parties deux à deux disjointes on aP

k�1 µ({k}) =

P

k�11k

2 < +1. Ainsi

µ

[

k�1

{k}!

6=X

k�1

µ ({k}) .

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 163: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

149Chapitre 8. Corrigés des exercices

En conséquence, l’application µ n’est pas �-additive bien qu’elle soit additive.

Corrigé de l’exercice 1.10, page 7On vérifie aisément que R =

S

k2Z]k , k +1]. Les intervalles ]k ,k +1] sont des boréliens disjointsdeux à deux. Par �-additivité de la mesure de Lebesgue � sur R, on obtient

�(R) = �

[

k2Z]k , k + 1]

!

=

k=+1X

k=�1

��

]k ,k + 1]

.

Or pour tout k 2 Z, �(]k ,k + 1]) = 1 (la longueur de l’intervalle ]k ,k + 1]), d’où�(R) =

P+1k=�1 1 = +1.

Corrigé de l’exercice 1.11, page 8On peut remarquer tout d’abord que si A est un borélien alors �

a

(A) = 1l{a}(A). Vérifions que�a

est une mesure sur R,B(R)).– C’est bien une application positive de B(R) dans [0, +1].– On a �

a

(Ø) = 0.– Soit (A

n

)

n2N une suite de boréliens deux à deux disjoints. Deux cas se présentent.Tout d’abord si a 2 [

n2NAn

alors il existe un unique n0 (les An

sont disjoints deux àdeux) tel que a 2 A

n0 et donc �a

([n2NA

n

) = 1 et

1X

n=0

�a

(An

) = �a

(A0) + ... + �a

(An0�1)

| {z }

=0

+ �a

(An0)

| {z }

=1

+

P1k=n0+1 �a(Ak

)

| {z }

=0

,

d’où l’égalité �a

([n2NA

n

) =

P

n2N �a(An

).Si maintenant a /2 [

n2NAn

, alors 8n 2 N ; a /2 An

et par suite �a

([n2NA

n

) = 0 etP

n2N �a(An

) = 0 donc on a encore l’égalité.Ainsi �

a

est une mesure et comme �a

(R) = 1, c’est aussi une probabilité.

Corrigé de l’exercice 1.12, page 9Avec les notations de la proposition 1.4, page 8, il suffit de prendre µ

k

= �k

, pour tout k 2 Net, suivant le cas,

1. pour la probabilité binomiale :– ↵

k

= C k

n

pk

(1� p)

n�k pour 0 6 k 6 n

– ↵k

= 0 pour k > n + 1.2. pour la probabilité de Poisson : ↵

k

= e�↵ ↵k

k! , pour tout k 2 N.3. pour la probabilité géométrique : ↵0 = 0, et ↵

k

= p(1� p)

k�1 pour k > 1.4. pour la probabilité uniforme-discrète :

– ↵k

=

1n

pour 1 6 k 6 n

– ↵0 = 0 et ↵k

= 0 pour k > n + 1.

Corrigé de l’exercice 1.13, page 91) B(n; p)({i}) =

P

n

k=0 C k

n

pk

(1�p)

n�k�k

({i}) où �k

({i}) = 1 si i = k et 0 sinon. On a doncB(n; p)({i}) = C i

n

pi

(1� p)

n�i .

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 164: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

150 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

De même pour la loi de Poisson on trouve P(↵)({i}) = e�↵ ↵i

i! .2) On a par l’additivité des probabilités pour les ensembles deux à deux disjoints :

P(1/10)({1, 3, 5, 7}) = P(1/10)({1}) + P(1/10)({3}) + P(1/10)({5}) + P(1/10)({7}).On trouve donc

P(1/10)({1, 3, 5, 7}) = e�0,1

(0, 1)

1

1!

+

(0, 1)

3

3!

+

(0, 1)

5

5!

+

(0, 1)

7

7!

' 0, 0905 + 0, 0002 + 0 + 0 ' 0, 0907 .

De même on trouve B(7; 0.3)({0, 3, 5} ' 0.3343.

Corrigé de l’exercice 1.14, page 11Le fait que, pour tout entier naturel n, B

n

✓ An

est évident. Pour montrer que les Bn

sontdisjoints deux à deux, supposons que B

n

\Bm

6= Ø pour n 6= m. On peut considérer que n < m.Soit x 2 B

n

\ Bm

. Comme x 2 Bm

, x /2 A0 [ A1 [ ... [ Am�1 donc x /2 A

n

car n 6 m � 1.Donc x /2 B

n

car Bn

✓ An

. Ainsi x /2 Bn

\Bm

et il y a donc contradiction. Donc par l’absurde,B

n

\ Bm

= Ø.Comme B

n

✓ An

, [1n=0Bn

✓ [1n=0An

. Montrons l’inclusion inverse. Soit x 2 [1n=0An

, il existen0 tel que x 2 A

n0 et pour tout k < n0, x /2 Ak

(cet indice n0 peut être 0), donc x 2 Bn0

et ainsi x 2 [1n=0Bn

. On vient de montrer l’inclusion [1n=0An

✓ [1n=0Bn

et on en déduit doncl’égalité souhaitée.Soit K un entier naturel. Comme B

n

✓ An

, [n=K

n=0 Bn

✓ [n=K

n=0 An

. Montrons l’inclusion inverse.Soit x 2 [n=K

n=0 An

, il existe n0 tel que x 2 An0 et pour tout k < n0, x /2 A

k

(cet indice n0 peutêtre 0), donc x 2 B

n0 et ainsi x 2 [n=K

n=0 Bn

. On vient de montrer l’inclusion [n=K

n=0 An

✓ [n=K

n=0 Bn

et on en déduit donc l’égalité souhaitée.

Corrigé de l’exercice 1.15, page 15On doit trouver une fonction f de R dans R intégrable telle que F (x) =

R

x

�1 f (t)dt. CommeF est dérivable à dérivée continue sur R, il suffit de prendre f = F 0 c’est-à-dire

f (x) =

12e

+x

, si x 6 0 ;12e�x

, si x > 0.

Ainsi F est la fonction de répartition d’une probabilité à densité f définie par f (x) =

12e�|x |.

Corrigé de l’exercice 1.16, page 16La f.r. de N1(0; 1) est l’application � de R dans [0,1] définie par

�(x) =

Z

x

�1

1p2⇡

e�t

2

2 dt

c’est donc une application continue sur R. Par suite d’après la proposition 1.14 2.(c), page 15,on en déduit que pour tout réel x , N1(0; 1)({x}) = 0.Supposons maintenant que N1(0; 1) =

P1k=0 p

k

�↵k

où (pk

)

k2N est une suite de réels positifstelle que

P1k=0 p

k

= 1 et (↵k

)

k2N est une suite de nombres réels, deux à deux distincts. Ona alors, pour tout entier naturel k , N1(0; 1)({↵

k

}) = pk

= 0 ; ce qui contredit le fait queP1

k=0 pk

= 1. Donc N1(0; 1) n’est pas une probabilité discrète.

Corrigé de l’exercice 1.17, page 16

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 165: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

151Chapitre 8. Corrigés des exercices

1. Cela résulte de la continuité de la fonction de répartition x 7! R

x

�1 ⇢(t)dt et de laproposition 1.14, 2.(c), page 15.

2. On a µ(]a,b[) = µ(]a,b])�µ({b}) = (F (b)�F (a))� (F (b)�F (b�)) = F (b�)�F (a).De même µ([a,b[) = µ(]a,b[) + µ({a}) = (F (b�) � F (a)) + (F (a) � F (a�)) =

F (b�)� F (a�).

Corrigé de l’exercice 1.18, page 17La fonction de répartition F de U([0,1]) est continue sur R et est donnée par

F (x) =

8

<

:

0, si x < 0 ;x , si 0 6 x 6 1 ;1, si x > 1.

On a donc U([0,1])([1/6,4/3]) = F (4/3)� F (1/6�) = F (4/3)� F (1/6) = 1� 1/6 = 5/6.Comme Q = [

q2Q{q} (union de singletons disjoints deux à deux), on a par continuité de laf.r.,

U([0,1])(Q) =

X

q2QU([0,1])({q})| {z }

=0

= 0 .

La fonction de répartition de E(2) est continue et est donnée par

F (x) =

0, si x < 0 ;1� e�2x

, si x > 0.

Donc E(2)({⇡}) = 0 et E(2)({⇡}[[9/2,7]) = E(2)({⇡})+E(2)([9/2,7]) = 0+F (7)�F (9/2) =

e�9 � e�14.

Corrigé de l’exercice 1.19, page 17La représentation graphique de F est :

6

-

������

������

r

r

b

b

-2 -1 0 1 2 3

1

3/4

1/2

1/4

On peut écrire F de la manière (moins synthétique mais plus lisible) suivante :

F (x) =

8

>

>

<

>

>

:

0, si x < �1 ;x+24 , si �1 6 x < 0 ou 1 6 x 6 2 ;

34 , si 0 6 x 6 1 ;1, si x > 2.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 166: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

152 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

La fonction F présente des sauts ce qui est révélateur de la présence de Dirac dans l’expressionde la probabilité.Par ailleurs, F est bien une fonction de répartition car elle est croissante, continue à droite etlim

x!�1 F (x) = 0 et lim

x!+1 F (x) = 1.La mesure µ sera la somme d’une mesure à densité et d’une variable discrète. A priorion ne dispose pas de résultat dans le cours pour conjecturer ce fait mais en pratique (enrefaisant d’autres exercices de ce type) la méthode décrite ci-après permet de conclure. Onpeut considérer que pour tout x 2 R, F (x) = F1(x) + F2(x) où

F1(x) =

8

>

>

>

>

<

>

>

>

>

:

0, si x < �1 ;x+14 , si �1 6 x < 0 ;

14 , si 0 6 x 6 1 ;x

4 , si 1 6 x 6 2 ;12 , si x > 2.

et

F2(x) =

8

<

:

0, si x < �1 ;14 , si �1 6 x < 0 ;12 , si x > 0.

.

On remarque que F1 est continue et F2 permet de prendre en compte les sauts. On peut écrireF1(x) =

R

x

�1 f1(t)dt où

f1(t) =

14 , si �1 6 t < 0 ou 1 6 t 6 2 ;0, sinon. .

Ainsi F1(x) = µ1(]�1,x ]) où µ1 est la mesure de densité f1. Pour F2 on écrit

F2(x) =

1

4

1l[�1,+1[(x) +

1

4

1l[0,+1[(x)

=

1

4

��1(]�1,x ]) +

1

4

�0(�1,x ])

= µ2(]�1,x ])

où µ2 =

14��1 +

14�0. Finalement F est la fonction de répartition de la probabilité µ = µ1 + µ2.

On remarquera que µ1 et µ2 ne sont pas elles-mêmes des probabilités.

8.2 Corrigés des exercices du chapitre II

Corrigé de l’exercice 2.1, page 21Il suffit de vérifier que 8B 2 B(Rd

), (f � ')

�1(B) 2 A. Or (f � ')

�1(B) = '�1

(f �1(B)),

comme f est borélienne, f �1(B) 2 B(Rk

) et comme ' est A�mesurable, '�1(f �1

(B)) 2 Ad’où le résultat.

Corrigé de l’exercice 2.2, page 25Soit F

X

et FY

les f.r. de X et Y respectivement. Soit t 2 R.– Si t 6 0, comme 8! 2 ⌦ , Y (!) = eX (!) > 0 on en déduit que F

Y

(t) = P(Y 6 t) =

P(Ø) = 0.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 167: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

153Chapitre 8. Corrigés des exercices

– Supposons maintenant que t > 0. On rappelle que X étant une v.a.r. de loi N1(0; 1),F

X

(x) = (1/p

2⇡)

R

x

�1 e�u

2/2du. On a donc

FY

(t) = P(Y 6 t) = P(eX 6 t) = P(X 6 ln t) = FX

(ln t)

=

1p2⇡

Z ln t

�1e�u

2/2du

et en faisant le changement de variable u = ln x (en remarquant que �1 < u 6 ln t ,0 < x < t) on obtient

FY

(t) =

1p2⇡

Z

t

0

e�(ln x)2/2

xdx .

Il reste à faire apparaître une densité ce qui revient à écrire FY

(t) sous forme d’une intégraleentre �1 et t :

FY

(t) =

Z

t

�1⇢(x)dx

où on a posé

⇢(x) =

1p2⇡x

e�12 (ln x)21l]0,+1[(x)

d’où le résultat cherché.

Corrigé de l’exercice 2.3, page 25Déterminons la fonction de répartition de la v.a.r. Y .

FY

(t) = P(Y t) =

0 si t < 0

P(�t X t) si t � 0

Puisque FX

est continue, on peut écrire P(�t X t) = FX

(t) � FX

(�t) =

12(2 � e�t

) �12e�t

= 1� e�t . On reconnaît la fonction de répartitiond’une v.a. de loi exponentielle E(1).

Corrigé de l’exercice 2.4, page 26On écrit les équivalences suivantes :

Y = �X + m suit une loi N 1(m;�2) , 8t 2 R ; P(Y 6 t) =

Z

t

�1

1p2⇡�

e�(x�m)2

2�2 dx

, 8t 2 R ; P✓

X 6 t �m

=

Z

t

�1

1p2⇡�

e�(x�m)2

2�2 dx

, 8x 2 R ; P (X 6 x) =

Z

x

�1

1p2⇡

e�v

2

2�2 dv ,

où on a d’abord posé x = (t �m)/� puis fait le changement de variable v = (u �m)/�.

Corrigé de l’exercice 2.5, page 26Soit X une variable aléatoire réelle de loi

PX

:=

X

k2Np

k

�k

.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 168: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

154 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Fixons n 2 N, il vientP

X

({n}) :=

X

k2Np

k

�k

({n}).

Or �k

({n}) = 0, si k 6= n et �n

({n}) = 1. Par suiteP

k2N pk

�k

({n}) = pn

et PX

({n}) = pn

.

D’où le résultat cherché.

Corrigé de l’exercice 2.6, page 28

1. Le graphe de F est une fonction en escalier, croissante et continue à droite, présentantdes sauts de discontinuité de première espèce en tout point d’abscisse n � 1, la hauteurdu saut étant égale à P(X = n).

2. F est une fonction de répartition car elle est définie sur R à valeurs dans [0, 1], croissante,continue à droite en tout point, avec lim

x!�1F (x) = 0 et lim

x!+1F (x) = 1.

3. Soit n > 1 un entier naturel. D’après le cours, pour tout réel x , P(X = x) est égal à lavaleur du saut de F au point d’abscisse x . C’est-à-dire

P(X = n) = F (n)� F (n�) =

1� 1

n(n + 1)

�✓

1� 1

n(n � 1)

=

2

n(n2 � 1)

.

On a de même P(X = 0) = 0 et P(X = 1) =

1

2

.

4. Par définition, comme X est une variable discrète à valeurs dans N,

E(X ) :=

1X

n=1

nP(X = n)

E(X ) =

1

2

+

1X

n=2

2

(n � 1)(n + 1)

E(X ) =

1

2

+

1X

n=2

1

n � 1

�n + 1

E(X ) =

1

2

+

1� 1

3

+

1

2

� 1

3

+

1

3

� 1

4

+ · · ·+✓

1

n � 1

� 1

n + 1

+ · · ·

E(X ) =

1

2

+ 1 +

1

2

= 2.

5. Calculons la variance de X . Vérifions auparavant que la variable X est de carré intégrable,c’est-à-dire que E(X 2

) est un réel fini. Or, par définition des moments d’ordre 2, et suivantun calcul analogue au précédent, il vient :

E(X 2) =

1X

n=1

n2P(X = n) =

1

2

+

1X

n=2

2n

(n � 1)(n + 1)

.

La série à terme général réel positif1X

n=2

2n

(n � 1)(n + 1)

ne converge pas. En effet, son

terme général est équivalent à1

n, terme général d’une série divergente (série harmonique).

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 169: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

155Chapitre 8. Corrigés des exercices

D’après le critère de l’équivalence pour les séries à terme général positif, la série1X

n=2

2n

(n � 1)(n + 1)

diverge. Donc la variable aléatoire X n’admet pas de variance.

8.3 Corrigés des exercices du chapitre III

Corrigé de l’exercice 3.1, page 311. D’après la conclusion 1.(b) de la proposition 3.1, page 30, Eµ(f ) =

P

n

i=1 ai

Eµ(1lA

i

).Or d’après 1.(a) de cette même proposition, Eµ(1l

A

i

) = µ(Ai

) et donc Eµ(f ) =

P

n

i=1 ai

µ(1lA

i

).2. D’après ce qui vient d’être vu, Eµ(f ) = ⇡µ([0,1/3]) + µ([6,10] + 3µ({5}). Mais

µ([0,1/3]) = �0([0,1/3])

| {z }

=1

+ �5([0,1/3])

| {z }

=0

+�([0,1/3])

| {z }

=1/3�0

= 4/3 .

De même

µ([6,10]) = �0([6,10])

| {z }

=0

+ �5([6,10])

| {z }

=0

+�([6,10])

| {z }

=10�6

= 4 et

µ({5}) = �0({5})| {z }

=0

+ �5({5})| {z }

=1

+�({5})| {z }

=0

= 1 .

Par suite Eµ(f ) =

43⇡ + 7.

Corrigé de l’exercice 3.2, page 331. On introduit l’application I : M+ ! [0,1] définie pour f 2 M+

(E , A) parI (f ) = Eµ(f ) + E⌫(f ). On montre aisément que I vérifie les conditions 1.(a), 1(b)et 1.(c) de la proposition 3.1, page 30, c’est-à-dire :(a) Pour tout A 2 A, I (1lA) = (µ + ⌫)(A).(b) Pour tous f et g appartenant à M+

(E , A) et tout réel ↵ � 0.

I (f + g) = I (f ) + I (g) et I (↵f ) = ↵I (f ).

(c) Pour toute suite croissante (fn

)

n2N d’éléments de M+(E , A),

lim

n!+1I (f

n

) = I

lim

n!+1fn

.

On conclut alors par l’unicité de l’opérateur que I = Eµ+⌫ , c’est-à-dire que pour toutf 2 M+

(E , A), I (f ) = Eµ+⌫(f ) ou encore Eµ(f ) + E⌫(f ) = Eµ+⌫(f ).2. D’après la question précédente, Eµ(f ) + E⌫(f ) = Eµ+⌫(f ) or

Eµ(f ) = E�(⇢f ) d’après la proposition 3.1, page 30,

=

Z +1

�1⇢(x)f (x)dx d’après la proposition 3.2, page 31,

=

Z 1

0

↵e�↵xe↵xdx = ↵ ,

et E⌫(f ) = e�↵f (1) d’après la proposition 3.4, page 32,= e�↵e↵⇥1

= 1 .

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 170: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

156 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Finalement Eµ+⌫(f ) = ↵+ 1.3. Un raisonnement analogue conduit à :

Eµ(f ) =

Z 1

�1

e�↵xe↵xdx = 2

E⌫(f ) =

1X

k=0

↵k

k!

f (k) =

1X

k=0

↵k

k!

e↵k

=

1X

k=0

(↵e↵)

k

k!

= exp(↵e↵) .

Par suite Eµ+⌫(f ) = 2 + exp(↵e↵). De même

Eµ+⌫(1lR) = Eµ(1lR) + E⌫(1lR) =

Z 1

�1

e�↵xdx +

1X

k=0

↵k

k!

=

e↵ � e�↵

↵+ e↵ > 1

donc µ + ⌫ n’est pas une probabilité.

Corrigé de l’exercice 3.3, page 34L’application borélienne f est intégrable suivant µ si, et seulement si, Eµ(|f |) < +1. Ord’après la proposition 3.4, page 32,

Eµ(|f |) =

1X

i=0

↵i

|f |(ai

) =

1X

i=0

↵i

|f (ai

)|.

Ainsi f sera intégrable par rapport à µ =

P1i=0 ↵i

�i

si, et seulement si, la série numérique àtermes positifs

P1i=0 ↵i

|f (ai

)| est convergente ce qui est équivalent à l’absolue convergence dela série numérique

P1i=0 ↵i

f (ai

).

Corrigé de l’exercice 3.5, page 36Soit x = (x1, ..., xd

) 2 Rd , |x | =

p

x21 + ... + x2

d

. L’application f sera intégrable pour µ si, etseulement si, Eµ(|f |) < 1, c-à-d Eµ(

p

f 21 + ... + f 2

d

) < 1. Or pour tout i = 1, ..., d on a

|fi

| 6q

f 21 + ... + f 2

d

6 |f1|+ ... + |fd

| .

D’où par la croissance de l’opérateur Eµ pour les fonctions positives (proposition 3.1, assertion2, page 30),

Eµ(|fi

|) 6 Eµ(|f |) 6d

X

i=1

Eµ(|fi

|)

et par suite Eµ(|f |) < +1, 8i = 1, ..., d ; Eµ(|fi

|) < +1.

Corrigé de l’exercice 3.6, page 371. Cas où µ est la probabilité de Dirac sur R au point a.�µ(t) =

R

R e i txd(�a

)(x) = e iat .2. Cas où µ est la probabilité binomiale de paramètres n et p.

�µ(t) =

R

R e i tx

P

n

k=0 C p

n

pk

(1�p)

n�kd�k

(x) =

P

n

k=0 C p

n

(pe i t

)

k

(1�p)

n�k . Ce qui donneavec la formule du binôme de Newton : �µ(t) = (1� p + pe i t

)

n.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 171: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

157Chapitre 8. Corrigés des exercices

3. Cas où µ est la probabilité de Poisson de paramètres ↵ > 0.

�µ(t) =

R

R e i tx

P+1k=0 e�↵ (↵e

it)k

k! d�k

(x) = e�↵(eit�1).

Corrigé de l’exercice 3.7, page 421. Méthode 1) : on applique le théorème de transfert (cas positif) à la fonction h définie

par h(x) = ex . En notant µ = PX

= N (0; 1) on a (d’après les règles d’intégration)

E(eX

) = Eµ(h) =

Z

RexdP

X

(x) =

Z

Rex

1p2⇡

e�x

2/2d�(x) =

Z +1

�1

1p2⇡

ex�x

2/2dx .

Or x � x2/2 = �(x � 1)

2/2 + 1/2 d’où

E(eX

) =

pep2⇡

Z +1

�1e

12 (x�1)2dx =

pe .

Méthode 2) : On a vu au chapitre II, exercice 2.3, page 22, que la v.a.r. Y = eX est unev.a.r.à densité ⇢ donnée par

⇢(x) :=

1

xp

2⇡exp

�1

2

(ln x)

2

1l]0,+1[(x).

On a alors E(eX

) = E(Y ) = Eµ(f ) où f (y) = y et µ est la probabilité de densité ⇢.Ainsi

E(eX

) =

Z

Ry⇢(y)d�(y) =

Z +1

�1

y

yp

2⇡exp

�1

2

(ln y)

2

1l]0,+1[(y)

=

1p2⇡

Z 1

0

e�12 (ln y)2dy =

Z +1

�1

1p2⇡

e�u

2/2eudu

où on a effectué le changement de variables u = ln y . D’où E(eX

) =

R +1�1

1p2⇡

eu�u

2/2du

et on est ramené à la même intégrale que dans la première méthode.2. En effectuant le changement de variable u = x2 et en faisant une intégration par parties

on écrit

E(|X |3) =

1p2⇡

Z +1

�1|x |3e�x

2/2dx =

2p2⇡

Z +1

0

|x |3e�x

2/2dx

=

2p2⇡

Z +1

0

up

ue�u/2 du

2

pu

=

1p2⇡

(�2u)e�u/2

�1

0| {z }

=0

� 1p2⇡

Z +1

0

(�2)e�u/2du

| {z }

=4/p

2⇡

,

d’où E(|X |3) = 4/p

2⇡ < 1 donc X 3 est intégrable.Calculons E(X 3

) :

E(X 3) =

1p2⇡

Z +1

�1x3e�x

2/2dx = 0

car la fonction x 7! x3e�x

2/2 est impaire sur R.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 172: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

158 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Corrigé de l’exercice 3.8, page 44• On montre que E(X ) = (2;2). On sait que si X = (X1,X2), E(X ) = (E(X1),E(X2)). Or

E(X1) = E(h(X )) =

Z

R2

h(x , y)dPX

(x , y) où on a posé h fonction de R+ ⇥R+ ! R+ définie

par h(x , y) = x . D’où

E(X1) =

Z

R2

h(x , y)d�

P1k,l=1

12k+l

�(k,l)

(x , y) =

1X

k=1

1X

l=1

1

2

k+l

h(k , l)| {z }

=k

=

1X

k=1

1X

l=1

k

2

k+l

.

Par suite

E(X1) =

1X

k=1

k

2

k

1X

l=1

1

2

l

!

| {z }

=1

=

1X

k=1

k

1

2

k

et comme en dérivant terme à terme une série géométrique on montre facilement que

x1X

k=1

kxk�1=

x

(x � 1)

2pour 0 < x < 1, on déduit que E(X1) =

1/2

(1� 1/2)

2= 2. On

raisonne de même pour montrer que E(X2) = 2.• On détermine la loi de la v.a.r. Z = X1 + X2. On applique le critère d’identification des loispar les fonctions boréliennes positives. Soit h de R ! [0,1] borélienne. En posant '(x , y) =

h(x + y) (qui est borélienne positive car h l’est), on a E(h(Z )) = E(h(X1 + X2)) = E('(Z )).Par le théorème du transfert,

E(h(Z )) =

Z

R2

'(x , y)dPX

(x , y) =

Z

R2

h(x + y)d�

P1k,l=1

12k+l

�(k,l)

(x , y)

=

1X

k=1

1X

l=1

1

2

k+l

h(k + l) =

1X

i=2

X

(k,l)/k+l=i

1

2

i

h(i) .

Or il existe i � 1 couples (k , l) tels que k + l = i avec 1 6 k et 1 6 l doncX

(k,l)/k+l=i

1

2

i

h(i) =

(i � 1)⇥ h(i)/2i . D’où

E(h(Z )) =

1X

i=2

i � 1

2

i

h(i) =

Z

Rh(x)dµ(x)

avec µ =

1X

i=2

i � 1

2

i

�i

=

1X

i=1

i � 1

2

i

�i

car i � 1 = 0 pour i = 1.

Corrigé de l’exercice 3.9, page 461. On a Var(X ) = E((X � E(x)

2) = Cov(X , X ). En posant E(X ) = m :

Var(X ) = E(X �m)

2= E(X 2 � 2mX + m2

) = E(X 2)� 2mE(X ) + m2

E(X 2)� 2m2

+ m2= E(X 2

)�m2= E(X 2

)� (E(X ))

2.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 173: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

159Chapitre 8. Corrigés des exercices

2. On pose mX

= E(X ) et mY

= E(Y ) et on a :

Cov(X , Y ) = E((X �mX

)(Y �mY

)) = E(XY )�mX

E(Y )�mY

E(X ) + mX

mY

= E(XY )� E(X )mY

�mY

E(X ) + mX

mY

= E(XY )�mX

mY

= E(XY )� E(X )E(Y ) .

Corrigé de l’exercice 3.10, page 47On peut vérifier que ⇢ est bien une densité de probabilité sur R. En particulier on a doncR +1

0 xe�x

2/2dx = 1. On remarque que X est une v.a.r. positive (presque-sûrement) c’est-à-dire P(X < 0) = 0 ou encore P(X = 0) = 1. On peut donc faire les calculs comme si X est àvaleurs dans [0, +1].Soit r un entier naturel strictement positif, par le théorème de transfert :

E(X r

) =

Z

Rx rdP

X

(x) =

Z

Rx r+1e�x

2/21lR+(x)d�(x) =

Z 1

0

x r+1e�x

2/2dx .

Par des techniques d’intégration par parties successives, on recherche une relation de récurrencesur l’entier r > 2 :

Z 1

0

x r+1e�x

2/2dx = r

Z 1

0

x r�1e�x

2/2dx

c’est-à-dire E(X r

) = rE(X r�2). En distinguant les cas où r = 2k et r = 2k � 1, et en

tenant compte queR1

0 e�x

2/2dx =

p

⇡/2, on trouve les relations demandées. En particulierE(X ) =

p

⇡/2 et E(X 2) = 2 d’où Var(X ) = 2� ⇡/2.

Corrigé de l’exercice 3.11, page 47Supposons tout d’abord que pour tout i , E(X 2

i

) < 1. Alors comme |X |2 =

P

d

i=1 X 2i

,E(|X |2) =

P

d

i=1 E(X 2i

) < 1.Réciproquement, si E(|X |2) < 1 alors E(X 2

i

) < 1 car X 2i

6 |X |2.

Corrigé de l’exercice 3.12, page 48Notons X1, ..., Xd

les composantes de X dans la base canonique de Rd , M la matrice[a

i j

]16i6c,16j6d

. Le vecteur MX de Rc a pour composante ((MX )1, ..., (MX )

c

) où pouri = 1, ..., c , (MX )

i

=

P

d

j=1 ai j

Xj

.• Le vecteur Y = X � E(X ) 2 Rd a pour composante Y

i

= Xi

� E(Xi

) d’où E(Yi

) = 0. AinsiY = Y � E(Y ) = X � E(X ) et par suite

DY

= E ((Y � E(Y ))(Y � E(Y ))

t

) = E ((X � E(X ))(X � E(X ))

t

) = DX

d’où une première assertion du point 2) de la proposition 3.24, page 48.• Le vecteur E(MX ) a pour composantes

P

d

j=1 ai j

E(Xj

) pour i = 1, ..., c . Ce sont aussi lescomposantes de M ⇥ E(X ). D’où l’égalité E(MX ) = ME(X ).• Le terme (i , j de la matrice D

X

est E[(Xi

�E(Xi

))(Xj

�E(Xj

))] = Cov(Xi

,Xj

), ce qui prouveaussi que D

X

est symétrique car Cov(Xi

,Xj

) = Cov(xj

,Xi

). Par ailleurs, les éléments diagonauxde D

X

sont Cov(Xi

,Xi

) = Var(Xi

) pour i = 1, ..., d .

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 174: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

160 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

• Montrons que DMX

= MDX

M t . Soit i , j = 1, ..., c , le coefficient (i , j) de DMX

est

Cov�

(MX )

i

,(MX )

j

= E[(MX )

i

(MX )

j

]� E[(MX )

i

]E[(MX )

j

]

= E"

d

X

k=1

aik

Xk

d

X

l=1

aj l

Xl

#

� E"

d

X

k=1

aik

Xk

#

E"

d

X

l=1

aj l

Xl

#

=

d

X

k=1

d

X

l=1

aik

aj l

h

E(Xk

Xl

)� E(Xk

)E(Xl

)

| {z }

=Cov(Xk

,Xl

)

i

=

d

X

k=1

d

X

l=1

aik

Cov(Xk

,Xl

)aj l

= coefficient (i , j) de la matrice MDX

M t (matrice carrée d’ordre c)

d’où l’égalité cherchée.• Montrons que d

x

est positive. Soit U = (u1, ..., ud

)

t 2 Rd (U est aussi une matrice colonne).On a D

U

t

X

= U tDX

(U t

)

t

= U tDX

U . Or U tX =

P

d

j=1 uj

Xj

et DU

t

X

représente la variance decette v.a.r. . Ainsi U tD

X

U > 0 pour tout vecteur U (ou matrice unicolonne).Le reste des propriétés de la matrice D

X

se déduisent de la théorie de la diagonalisation desmatrices symétriques, de type positif.

Corrigé de l’exercice 3.13, page 48

1. Les équivalences suivantes donnent :

�|X |� |Y |�2 > 0 , X 2+ Y 2 � 2|XY | > 0 , X 2

+ Y 2 > 2|XY | > |XY | .

On en déduit que E(|XY |) 6 E(X 2) + E(Y 2

) < 1, ainsi la v.a.r. XY est intégrable.En choisissant Y = 1l

(c’est la variable aléatoire constante égale à 1), on a |XY | =

|X | 6 X 2+ 1l

d’où

E(|X |) 6 E(X 2) + E(1l

) = E(X 2) + 1 < 1 .

On procède de même pour Y .

2. Pour tout ↵ 2 R,

0 6 E((X + ↵Y )

2) = ↵2E(Y 2

) + 2↵E(XY ) + E(X 2) .

Nous avons un polynôme en ↵ de degré deux qui est positif. Il ne peut donc pas avoirde racines réelles distinctes et son discriminant est donc négatif ou nul, c’est-à-dire�

E(XY )

�2 � E(Y 2)E(X 2

) 6 0 d’où le résultat.

Corrigé de l’exercice 3.14, page 49

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 175: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

161Chapitre 8. Corrigés des exercices

1. Pour tout i = 1, ..., n, Xi

est de carré intégrable car E(|X |2) < 1. On a

Y 2=

n

X

i=1

X 2i

+

X

16i 6=j6n

Xi

Xj

6n

X

i=1

X 2i

+

X

16i 6=j6n

|Xi

Xj | ce qui entraîne

E(Y 2) 6

n

X

i=1

E(X 2i

)

| {z }

<1 car X

i

intégrables

+

X

16i 6=j6n

E(|Xi

Xj |)| {z }

<1 d’après l’exercice 3.13, page48

,

d’où E(Y 2) < 1 ce qui prouve que

P

n

k=1 Xi

est de carré intégrable.2. On a :

Var(Y ) = E[(Y � E(Y ))

2] = E

2

4

n

X

i=1

(Xi

� E(Xi

))

!23

5

=

n

X

i=1

E[(Xi

� E(Xi

))

2]

| {z }

=Var(Xi

)

+

X

16i 6=j6n

E[(Xi

� E(Xi

))(Xj

� E(Xj

))]

| {z }

=Cov(Xi

,Xj

)

,

d’où le résultat en remarquant queX

16i 6=j6n

E[(Xi

� E(Xi

))(Xj

� E(Xj

))] = 2

X

16i<j6n

E[(Xi

� E(Xi

))(Xj

� E(Xj

))]

car Cov(Xi

, Xj

) = Cov(Xj

, Xi

).

Corrigé de l’exercice 3.15, page 59

1. Pour vérifier la relation, on étudie la valeur de chacun des deux membres de l’égalité pour! tel que |X (!)| > a, puis pour ! tel que |X (!)| a. On constate alors que les deuxmembres coïncident dans chaque cas.

2. Remarquons que X et �X ont la même loi. En effet l’étude des fonctions caractéristiquesdonne ��X

(t) = E[e�i tX

] = �X

(�t) = e�12 t

2= �

X

(t). Soient h une applicationborélienne positive de R dans R, a un réel strictement positif, de la relation,

h(Xa

) = h(X )1l[0,a](|X |) + h(�X )1l]a,+1[(|X |)on obtient, en passant à l’espérance,

E[h(Xa

)] = E[h(X )1l[0,a](|X |)] + E[h(�X )1l]a,+1[(|X |)].En remarquant que X et �X ont la même loi et en utilisant le théorème du transfert, ilvient

E[h(�X )1l]a,+1[(|X |)] = E[h(X )1l]a,+1[(|X |)].Ce qui, en reportant dans le deuxième membre de l’égalité précédente, donne E[h(X

a

)] =

E[h(X )], pour toute application borélienne positive de R dans R. Ce qui prouve que Xa

suit la même loi que X c’est-à-dire N 1(0, 1).

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 176: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

162 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Corrigé de l’exercice 3.16, page 591. Le réel a est déterminée par la contrainte

R +1�1 f (x)dx = 1 qui s’exprime ici par

Z �1

�e

a

xdx +

Z 0

�1

(x + 1� a)dx = 0

et un rapide calcul donne a = �1/4. La fonction de répartition de X est définie pourx 2 R par F (x) =

R

x

�1 f (t)dt. On a :⇧ Si x 6 �e, F (x) = 0.⇧ Si �e < x < �1, F (x) =

R

x

�e

f (t)dt =

R

x

�e

�1/(4t)dt = �(1/4) ln(�x) + 1/4.

⇧ Si �1 6 x < 0, F (x) =

R �1�e

�1/(4t)dt +

R

x

�1(t + 5/4)dt = x2/2 + 5x/4 + 1.

⇧ Si x > 0, F (x) =

R

x

�1 f (t)dt =

R 0�e

f (t)dt = 1.D’où F est définie par

F (x) =

8

>

>

<

>

>

:

0 si x 6 �e ;�(1/4) ln(�x) + 1/4, si �e < x 6 �1 ;x2/2 + 5x/4 + 1, si �1 < x 6 0 ;1, si x > 0.

2. Pour calculer E(X ) on écrit que

E(X ) =

Z +1

�1xf (x)dx =

Z �1

�e

� x

4xdx +

Z 0

�1

(x2+ 5x/4)dx = �(6e + 1)/24 .

Corrigé de l’exercice 3.17, page 591. Écrivons la fonction de répartition de Y = X 3. Soit y 2 R,

FY

(y) = P(Y 6 y) = P(X 3 6 y) = P(X 6 y 1/3) =

Z

y

1/3

�1

1p2⇡

e�t

2/2dt

=

Z

y

�1

1p2⇡

e�z

2/3/2 1

3

z�2/3

| {z }

:=f (z)

dz ,

où on a effectué le changement de variables t = z1/3. Par suite FY

(y) =

R

y

�1 f (z)dz etX 3 est une v.a.r. à de densité f donnée ci-dessus.

2. La fonction de répartition de la loi normale centrée réduite est une application continue,strictement croissante donc bijective de R sur ]0,1[. Ainsi F�1 existe bien et on peutécrire pour tout y 2]0,1[

P(Y 6 y) = P(F (X ) 6 y) = P(X 6 F�1(y)) = F (F�1

(y)) = y .

Comme F prend ses valeurs dans l’intervalle ]0,1[, l’ensemble {F (X ) 6 y} = Ø dès quey 6 0 et donc F

Y

(y) = P(F (X ) 6 y) = 0 quand y 6 0.Pour la même raison, {F (X ) 6 y} = ⌦ dès que y > 1 et dans ce cas F

Y

(y) = P(⌦) = 1.En conclusion on a

FY

(y) =

8

<

:

0, si y 6 0 ;y , si 0 < y < 1 ;1, si y > 1.

donc Y est une v.a.r. uniforme sur [0,1].

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 177: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

163Chapitre 8. Corrigés des exercices

Corrigé de l’exercice 3.18, page 601. L’application f est bien positive, continue sur R et on a

R +1�1 f (t)dt =

R10 ↵e�↵udu = 1.

2. La v.a.r. Y = |X | ne prend que des valeurs positives. On procède comme dans l’exercice3.17, page 59,. Soit y 2 R+,

FY

(y) = P(Y 6 y) = P(|X | 6 y) = P(�y 6 X 6 y) =

Z

y

�y

f (t)dt

=

Z

y

0

↵e�↵tdt = 1� e�↵y

.

Si maintenant y < 0, {T 6 y} = {|X | 6 y} = Ø et donc FY

(y) = P(Ø) = 0.Finalement, F

Y

(y) = (1 � e�↵y

)1lR+(y) et donc Y est une v.a.r. exponentielle de

paramètre ↵ > 0.D’après le formulaire de l’annexe A, page 205, on sait que E(Y ) = 1/↵ et Var(Y ) =

1/↵2. Par la formule de König (proposition 3.22, page 46), E(Y 2) = Var(Y )+(E(Y ))

2=

2/↵2. Or Y 2= X 2 et donc E(X 2

) = 2/↵2. On vérifie que E(X ) = 0 et on conclut queVar(X ) = E(X 2

) = 2/↵2.

Corrigé de l’exercice 3.19, page 60Remarquons que si ! 2 ⌦ est tel que X (!) = 1, alors Y (!) n’est pas définie. Mais commeP({X = 1}) = 0, la probabilité que Y soit définie est 1. On remarque que Y prend ses valeursdans R+. Soit y > 0, F

Y

(y) = P(Y 6 y) = P(X 6 1�e�↵y

) = 1�e�↵y car 0 6 1�e�↵y 6 1

et x suit une loi uniforme sur [0,1]. Comme pour y 6 0, P(Y 6 y) = 0 on reconnaît que Ysuit la loi exponentielle de paramètre ↵ > 0.

Corrigé de l’exercice 3.20, page 60

Si on considère la v.a. Y :=

X �m

�alors Y suit la loi normale N 1(0, 1), d’après le théorème

de standardisation. D’où, pour tout réel u, �X

(u) = E[e iu(�Y+m)] = e ium�(�u) avec

�(t) = E(e iY t

) =

Z

Re ixtdP

Y

(x) =

1p2⇡

Z

Re�

x

2

2 e ixtd�(x).

Pour calculer cette intégrale, on va montrer que � vérifie une équation différentielle.

�(t) =

1p2⇡

Z

Re�

x

2

2(cos(tx) + i sin(tx))d�(x)

=

1p2⇡

Z

Re�

x

2

2cos(tx)d�(x).

Comme�

�xe�x

2

2cos(tx)

|x |e� x

2

2 et que cette dernière fonction est intégrable sur R pour lamesure de Lebesgue, par le théorème de dérivation sous le signe

R

de la théorie de Lebesgue,on en déduit que � est dérivable et que

�0(t) = � 1p2⇡

Z

Rxe�

x

2

2sin(tx)d�(x)

=

1p2⇡

h

e�x

2

2sin(tx)

i+1

�1� 1p

2⇡

Z

Rte�

x

2

2cos(tx)d�(x)

= �t�(t).

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 178: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

164 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

CarZ

Re�

x

2

2sin(tx)d�(x) = 0 comme intégrale par rapport à la mesure de Lebesgue, sur

un intervalle centré en 0 d’une fonction impaire. Comme � est une f.c., elle prend néces-sairement la valeur 1 au point 0. Donc � est la solution particulière de l’équation différen-tielle y 0 + ty = 0 telle que y(0) = 1. La solution particulière de cette équation différentiellequi prend la valeur 1 en 0 est �(t) = e�

t

2

2 . Par suite, en revenant au début du corrigé

�X

(u) = E[e iu(�Y+m)] = e ium�(�u) = e iume�

�2u

2

2= exp

ium � �2u2

2

.

Corrigé de l’exercice 3.21, page 601. Soit A un événement. On a P(X 2 A) = E(1l

A

(X )) et P(Y 2 A) = E(1lA

(Y )).

Comme X = Y presque-sûrement, on a 1lA

(X ) = 1lA

(Y ) presque-sûrement. Par suiteP(X 2 A) = P(Y 2 A), c-à-d P

X

= PY

.

La réciproque est fausse. Pour montrer cela donnons deux contre-exemples, un dans lecas discret, un dans le cas non discret.Pour le cas discret, considérons le jeu de Pile-ou-Face modélisé de la façon suivante :⌦ := {P , F}, F := P({P , F}), P est définie sur F à partir de P({F}) = P({P}) =

12 ,

considérons les v.a.r. X := 1lA

et Y := 1lA

c . On vérifie aisément que ces deux v.a.r. ontpour loi 1

2(�0 + �1) (il s’agit d’une loi de Bernoulli), cependant ces v.a.r. ne sont paspresque-sûrement égales.Pour le cas non discret, considérons une v.a.r. X de loi N 1(0, 1) et posons Y := �X .

On a alors, en utilisant le théorème du transfert,

P(Y 2 A) = E(1lA

(�X )) =

Z

1lA

(�X )dP =

Z

R1l

A

(�x)dPX

(x)

=

Z +1

�11l

A

(�x)

1p2⇡

exp(�x2

2

)dx =

Z +1

�11l

A

(t)1p2⇡

exp(�t2

2

)dt

= P(X 2 A).

X et Y ont donc la même loi, bien qu’elles ne soient pas presque-sûrement-égales carP(X = Y ) = P(X = �X ) = P(X = 0) = 0.

2. Soit h une application positive borélienne de R dans R.

E[h(g(X ))] =

Z

h(g(X ))dP =

Z

Rh(g(x))dP

X

(x)

=

Z

Rh(g(x))dP

Y

(x) =

Z

h(g(Y ))dP = E[h(g(Y ))],

d’où le résultat cherché. On peut aussi remarquer que h � g est une application positiveborélienne de R dans R. On applique alors l’équivalence P

X

= PY

si, et seulement si,pour toute application k positive borélienne de R dans R, E(k(X )) = E(k(Y )) aveck = h � g .Montrons par un contre-exemple qu’on peut avoir P

X

= PY

et PXZ

6= PYZ

. Considéronsle jeu de Pile-ou-Face précédent et avec les notations précédentes posons Z = X . On aalors XZ = X 2

= X et Y Z = Y X = 0. Par suite PX

= PXZ

6= PYZ

= �0 bien queP

X

= PY

.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 179: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

165Chapitre 8. Corrigés des exercices

Corrigé de l’exercice 3.22, page 60

D’une façon générale, par le théorème du transfert, on a �X

(t) = E[e i tX

] =

Z

Re i txdP

X

(x).

1. �X

(t) =

Z

Re i tx

+1X

k=1

pqk�1d�k

(x) =

+1X

k=1

pqk�1e i tk

=

pe i t

1� qe i t

.

2. �Y

(t) =

1

b � a

Z

Re i tx1l[a,b](x)d�(x) =

1

b � a

e i ta � e i tb

i t.

3. �Z

(t) =

Z

Re i tx↵e�↵x1l[0,+1[(x)d↵(1)

(x) =

i t � ↵e(i t�↵)x

�+1

0

=

↵� i t.

Corrigé de l’exercice 3.23, page 60Montrons que, pour tout t 2 R, Fµ(t) 2 {0, 1}. En effet, par densité de D dans R si t 2 R, ilexiste une suite décroissante (t

n

)N de réels de D convergeant vers t. Par continuité à droite dela fonction de répartition Fµ, la suite (Fµ(t

n

))N converge vers Fµ(t). Comme pour tout n 2 NFµ(t

n

) 2 {0, 1}, par passage à la limite Fµ(t) 2 {0, 1}.Considérons a := inf{t 2 R/Fµ(t) = 1}. On ne peut pas avoir a = +1 sinon, pour toutt 2 R, Fµ(t) = 0, ce qui contredirait le fait que lim

t!+1Fµ(t) = 1. De même on ne peut pas

avoir a = �1 sinon, pour tout t 2 R, Fµ(t) = 1, ce qui contredirait le fait que lim

t!�1Fµ(t) = 0.

a est donc un réel et la continuité à droite de Fµ implique que Fµ(a) = 1. Enfin la propriétéde croissance des fonctions de répartition implique que Fµ = 1l[a,+1[, c’est-à-dire que µ est lamesure de Dirac au point a.Ce résultat s’applique en particulier à l’ensemble D des points où la fonction de répartition estcontinue, puisque son complémentaire dans R est un ensemble dénombrable.

8.4 Corrigés des exercices du chapitre IV

Corrigé de l’exercice 4.1, page 651. En posant f (x , y) = 1l]0,1[(x)1l]0,1[(y)e�x

2e�y

2= h(x)⇥g(y) avec h(x) = 1l]0,1[(x)e�x

2

et g(y) = 1l]0,1[(y)e�y

2 , et en utilisant l’exemple 4.3, page 64, on a

4

=

Z

R2

f (x , y)d�(2)(x , y) =

Z

Rg(y)

Z

Rh(x)d�(x)

d�(y)

=

Z

Rg(y)d�(y)

Z

Rh(x)d�(x)

=

Z 1

0

e�y

2dy

Z 1

0

e�x

2dx

.

Comme les deux intégrales ci-dessus sont égales, on obtientR1

0 e�x

2dx =

p⇡/2. L’autre

égalité est immédiate après un changement de variable.2. D’après la remarque de l’énoncé,

Z

R2

e�(x2+2xy+2y

2)d�(2)(x , y) =

Z

R2

e�(x+y)2+y

2d�(2)

(x , y)

Effectuons le changement de variables T de classe C1 défini par T : (x , y) 2 R2 !T (x , y) = (u, v) 2 R2 avec u = x + y et v = y . Le jacobien de T�1 au point (u, v)

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 180: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

166 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

vaut 1. Le théorème de changement de variable donne :Z

R2

e�(x+y)2+y

2d�(2)

(x , y) =

Z

R2

e�(u2+v

2)d�(2)(u, v)

=

Z

Re�u

2d�(u)

Z

Re�v

2d�(v)

=

Z +1

�1e�x

2dx

◆2

=

2

Z +1

2

e�x

2dx

◆2

= 4

✓p⇡

2

◆2

= ⇡ ,

où l’on a utilisé le théorème de Tonelli et le résultat de la première question.

Corrigé de l’exercice 3.4, page 36Vérifions que ⌫ est une probabilité sur B(Rd

) que l’on notera B dans cette correction.– L’application 1l

A

⇢ est borélienne et positive pour tout A 2 B donc ⌫(A) 2 [0,1].– La fonction 1lØ est la fonction-nulle sur Rd donc ⌫(Ø) =

R

Rd

1lØ⇢d�(d)

= 0.– Par définition de la densité ⇢, ⌫(Rd

) =

R

Rd

1lRd⇢d�(d)=

R

Rd

⇢d�(d)= 1.

– Il reste à montrer la �-additivité. Soit (Ak

)

k2N une suite d’éléments de B deux à deuxdisjoints. Alors si on note A = [1

k=1Ak

, 1lA

=

P1k=0 1l

A

k

car les Ak

sont deux à deuxdisjoints. On a alors en utilisant le théorème de Beppo-Levi

⌫(A) =

Z

Rd

1lA

⇢d�(d)=

Z

Rd

⇢1X

k=0

d�(d)=

1X

k=0

Z

Rd

1lA

k

⇢d�(d)=

1X

k=0

⌫(Ak

) ,

ce qui donne la �-additivité.⌫ est donc bien une mesure de probabilité.

Corrigé de l’exercice 4.2, page 66Considérons un dé équilibré à 6 faces. On lance le dé deux fois de suite. Soit X le résultatobtenu au premier lancer et Y celui obtenu au second.

– Les v.a.r. X et Y ont la même loi. En effet elles sont à valeurs dans {1, 2, 3, 4, 5, 6} etpour k = 1, ..., 6, P(X = k) = P(Y = k) = 1/6, c’est-à-dire que P

X

= PY

.– En revanche, X 6= Y car l’égalité signifierait que, à chaque double lancer, le résultat du

second lancer est toujours le même que celui du premier lancer ce qui est faux.

Corrigé de l’exercice 4.3, page 66Soit (X , Y , Z ) un vecteur aléatoire de densité ⇢ sur R3. Cherchons la loi de Y (ce serait lamême chose pour X et Z ). Soit A un borélien de R, {Y 2 A} = {(X , Y , Z ) 2 R ⇥ A ⇥ R}d’où

PY

(A) = P(Y 2 A) = P�

(X , Y , Z ) 2 R⇥ A⇥ R�

= P(X ,Y ,Z)(R⇥ A⇥ R)

=

Z

R3

1lR(x)1lA

(y)1lR(z)dP(X ,Y ,Z)(x , y , z)

et par application des règles d’intégration des mesures à densité (proposition 3.8, page 35,) etdu théorème de Tonelli, on obtient comme dans l’exemple 4.4, page 65, que

PY

(A) =

Z

R1l

A

(y)

Z

R2

1lR(x)1lR(z)⇢(x , y , z)d�(2)(x , z)

| {z }

:=�(y)

d�(x) =

Z

R1l

A

(y)�(y)d�(y)

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 181: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

167Chapitre 8. Corrigés des exercices

ce qui prouve que la v.a.r. Y admet pour densité la fonction � définie ci-dessus.

Corrigé de l’exercice 4.1, page 66Tout d’abord, comme l’événement {(X , X ) 2 �} est certain, on a P((X , X ) 2 �) = 1.Supposons que ⇢ soit une densité pour le vecteur (X , X ). Un autre calcul donnerait alors :

P((X , X ) 2 �) = P(X ,X )(�) =

Z

R2

1l�

(x , y)⇢(x , y)d�(2)(x , y)

=

Z

R2

1l�

(x , y)⇢(x , x)d�(2)(x , y)

=

Z

R⇢(x , x)

Z

R1l

(x , y)d�(y)

d�(x) .

OrR

R 1l�

(x , y)d�(y) =

R

R 1l{x}(y)d�(y) = �({x}) = 0 pour tout x 2 R. Par suiteP((X , X ) 2 �) = 0 ce qui contredit le premier calcul et fournit ainsi un contre-exemplepour la réciproque de la proposition 4.5, page 66.

Corrigé de l’exercice 4.5, page 681. Soit h une application borélienne positive de R2 dans R+. En utilisant successivement le

théorème du transfert, l’indépendance de U et V , les règles d’intégration par rapport àdes mesures à densité, on obtient :

E(h(X , Y )) = E⇣

h�

p�2 ln U cos(2⇡V ),

p�2 ln U sin(2⇡V )

=

Z

R2

h�

p�2 ln u cos(2⇡v),

p�2 ln u sin(2⇡v)

dP(U,V )(u, v)

=

Z

R2

h�

p�2 ln u cos(2⇡v),

p�2 ln u sin(2⇡v)

dPU

⌦ dPV

(u, v)

=

Z

R2

h�

p�2 ln u cos(2⇡v),

p�2 ln u sin(2⇡v)

1l]0,1[(u)1l]0,1[(v)d�(2)(u, v) .

Effectuons le changement de variable T : ]0,1[

2! R2 défini pour (u, v) 2 R2 par⇢

x =

p�2 ln u cos(2⇡v)

y =

p�2 ln u sin(2⇡v)

()⇢

u = exp(�(x2+ y 2

)/2)

v =

12⇡ arctan(y/x)

.

Le jacobien de T�1 est

JT

�1= det

�xe�x

2+y

2

2 �ye�x

2+y

2

2

� 12⇡

y

x

2+y

212⇡

x

x

2+y

2

!

= � 1

2⇡e�

x

2+y

2

2.

On obtient par le théorème de changement de variable :

E�

h(X , Y )

=

Z

R2

h(x , y)

1

2⇡e�

x

2+y

2

2 d�(2)(x , y) ,

et donc la v.a. (X , Y ) admet bien la densité ⇢ annoncée.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 182: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

168 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

2. Pour trouver la loi de la v.a.r. X (idem pour Y ), on applique la proposition 4.5, page 66,qui nous permet d’affirmer que X est une v.a.r. de densité ⇢

X

définie par

⇢X

(x) =

Z

R⇢(x , y)d�(y) =

Z

R

1

2⇡e�x

2/2e�y

2/2dy

=

1

2⇡e�x

2/2

Z

Re�y

2/2dy

| {z }

=p

2⇡

=

1p2⇡

e�x

2/2,

donc X est une v.a.r. normale centrée réduite (idem pour Y ).3. Pour tout A, B boréliens de R

P(X ,Y )(A⇥ B) =

Z

R2

1lA

(x)1lB

(y)

1

2⇡e�

x

2+y

2

2 d�(2)(x , y)

=

Z

R1l

A

(x)

1p2⇡

e�x

2/2d�(x)

⇥✓

Z

R1l

B

(y)

1p2⇡

e�y

2/2d�(y)

= PX

(A)⇥ PY

(B)

et ceci pour tout boréliens A et B ce qui prouve que P(X ,Y ) = PX

⇥ PY

et donc (X , Y )

est un couple indépendant.

Corrigé de l’exercice 4.6, page 74Étudions la fonction de répartition de la v.a.r. Y . Pour tout y 2 R, F

Y

(y) = P(Y 6 y). Onpeut exprimer l’événement {Y 6 y} en fonction des v.a.r. " et X :

{Y 6 y} = [{" = 1} \ {X 6 t}] [ [{" = �1} \ {X > �y}]Comme (", X ) indépendants, les événements {" = 1} et {X 6 y} sont indépendants (il en estde même pour {" = �1} et {X > �1}). Les événements entre crochets étant disjoints, onobtient :

FY

(y) = P(" = 1)⇥ P(X 6 y) + P(" = �1)⇥ P(X > �y)

=

1

2

Z

y

�1

1p2⇡

e�x

2/2dx +

1

2

Z +1

�y

1p2⇡

e�x

2/2dx =

Z

y

�1

1p2⇡

e�x

2/2dx

et donc Y est une v.a.r. de loi N (0; 1).

Pour montrer que X et Y sont non-corrélés, il suffit de calculer

E[(X � E[X ])(Y � E[Y ])] = E["X 2] = E["]E[X 2

] = 0

du fait que (X , ") est indépendant et que " est centrée. Si (X , Y ) était indépendant, alors(X 2

, Y 2) le serait aussi et on aurait

E[X 2Y 2] = E[X 2

]E[Y 2].

Cependant, du fait que Y 2= X 2,

E[X 2Y 2] = E[X 2

]E[Y 2] = (E[X 2

])

2= 1.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 183: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

169Chapitre 8. Corrigés des exercices

Mais, par ailleurs,

E[X 2Y 2] = E[X 4

] =

1p2⇡

Z

Rx4e�

12 x

2d�(1)

(x) = 3 ,

où la dernière intégrale est calculée par une intégration par parties ; ce qui montre une contra-diction. Le couple de v.a.r. (X , Y ) n’est donc pas indépendant.

Corrigé de l’exercice 4.7, page 74D’après les formules de König-Huygens (Proposition 3.22, page 46), Var(X ) = E(X 2

) �(E(X ))

2. D’où E(X 2) = Var(X ) + (E(X ))

2= �2

+ m2 (idem pour Y ). Par indépendance de(X , Y ), E(XY ) = E(X )E(Y ) et donc on a

E((X + Y )

2) = E(X 2

+ 2XY + Y 2) = E(X 2

) + 2E(XY ) + E(Y 2)

== E(X 2) + 2E(X )E(Y ) + E(Y 2

) = 4m2+ 2�2

.

Corrigé de l’exercice 4.8, page 85On reprend les notations de l’exercice 4.6, page 74. On a

Var(X + Y ) = Var(X ) + 2 Cov(X , Y )

| {z }

=0

+Var(Y )

= Var(X ) + Var(Y )

bien que (X , Y ) ne soit pas indépendant.

Corrigé de l’exercice 4.9, page 86– On a �

X+Y

(t) = �2X

(t) = E[e2i tX

] = e�2|t|= (e�|t|)2

= (�X

(t))2= �

X

(t)⇥ �Y

(t).– Pour montrer que (X , Y ) est non indépendant, on prend (comme le recommande

l’énoncé) A = [�1 , 1] et on calcule

PX

(A) =

Z 1

�1

1

1

1 + x2dx =

1

⇡[arctan(x)]

1�1 =

1

⇣⇡

4

+

4

=

1

2

.

On a alors P(X ,Y )(A⇥Ac

) = P((X , X ) 2 A⇥Ac

) = 0 et P(A)⇥P(Ac

) = P(A)(1�P(A)) =

1/4 6= 0. Donc X et Y ne sont pas indépendants.

Corrigé de l’exercice 4.10, page 86Si X

k

est une v.a.r. de Bernoulli de paramètre p 2]0,1[, sa fonction caractéristique est�

X

k

(t) = pe i t

+ (1� p). Par indépendance de X1, ..., Xn

on a

�S

n

(t) = �X1(t)⇥ ...⇥ �

X

n

(t) =

pe i t

+ (1� p)

n

et on reconnaît la fonction caractéristique d’une loi B(n; p). Donc Sn

est une v.a.r. B(n; p).

Corrigé de l’exercice 4.11, page 86

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 184: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

170 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

1. Pour tout ! 2 ⌦ , X(1)(!) = max(X1(!), ..., Xn

(!)) car c’est le premier nombre dans lasuite X1(!), ..., X

n

(!) réordonnés de façon croissante. Soit x 2 R, FX(1)

(x) = P(X(1) 6 x)

or {max(X1, ..., Xn

) 6 x} = \n

k=1{Xk

6 x} et par indépendance de X1, ..., Xn

on déduitque

Fx(1)

(x) = P (\n

k=1{Xk

6 x}) =

n

Y

k=1

P(Xk

6 x) =

F (x)

n

où F est la fonction de répartition des v.a.r. Xi

, c’est à dire que F (x) = (1 �e�↵x

)1l]0,1[(x). D’où FX(1)

(x) = (1� e�↵x

)

n1l]0,1[(x).2. On vérifie de même que X(n) = min(X1, ..., Xn

). Soit x 2 R, {X(n) 6 x} = {X(n) >x}c

= \n

k=1{Xk

> x}. Par suite

FX(n)

(x) = 1� P(X(n) > x) = 1� P (\n

k=1{Xk

> x}) = 1�n

Y

k=1

P(Xk

> x)

= 1�n

Y

k=1

(1� P(Xk

6 x)) = 1�n

Y

k=1

[1� F (x)] = 1� [1� F (x)]

n

= (1� e�n↵x

)1l]0,1[(x) .

3. (a) La v.a.r. Yk

ne prend que deux valeurs, 0 et 1. C’est donc une v.a.r. de Bernoullide paramètre

p = P(Yk

= 1) = P(Xk

> t) = 1� P(Xk

6 t) = 1� F (t) = 1� (1� e�↵t

)

d’où p = e�↵t et donc PY

k

= e�↵t�1 + (1 � e�↵t

)�0, pour k = 1, ..., n. Par suiteY1 + ... + Y

n

est une somme de v.a.r. de Bernoulli de même paramètre p. Ces v.a.r.sont indépendantes car elles sont de la formes f1(X1), ..., fn(Xn

) avec fk

= 1l]t,1[ (onutilise la proposition 4.15, page 76). La v.a.r. Y1 + ... + Y

n

est donc une v.a.r. deloi B(n; p).

(b) On remarque que Yk

= 1 signifie que Xk

est strictement supérieur à t. AinsiY1 + ... + Y

k

est égal au nombre de v.a.r. Xi

qui sont strictement supérieure àt. Ceci entraîne que {Y1 + ... + Y

n

6 k � 1} = {X(k) 6 t}.4. Soit t 2 R, d’après ce qui précède on a :

FX(k)

(t) = P(X(k) 6 t) = P(Y1 + ... + Yn

6 k � 1) =

k�1X

j=0

C j

n

pj

(1� p)

n�j

=

k�1X

j=0

C j

n

e�j↵t

(1� e�↵t

)

n�j

.

Corrigé de l’exercice 4.12, page 88On fait la preuve du deuxième point (l’autre preuve est identique, à quelques aménagementsévidents prés, à celle utilisée dans la démonstration de la proposition 4.34, page 87). On a�

X

(t) = exp[↵(e i t � 1)] et �Y

(t) = [�(e i t � 1)]. Comme (X , Y ) indépendant, la fonctioncaractéristique de X + Y est donnée pour tout t 2 R par

�X+Y

(t) = �X

(t)⇥ �Y

(t) = exp[(↵+ �)(e i t � 1)]

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 185: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

171Chapitre 8. Corrigés des exercices

et ainsi �X+Y

est la fonction caractéristique d’une loi de Poisson de paramètre ↵+ �.

Corrigé de l’exercice 4.13, page 90Pour ! 2 ⌦ donné, le polynôme x2 � 2A(!)x + B(!) admet :

1. deux racines réelles distinctes si, et seulement si, A2(!)� B(!) > 0.

En utilisant le théorème de transfert, l’indépendance du couple de v.a.r. (A, B), lethéorème de Tonelli, ainsi que le passage de l’intégrale de Lebesgue à celle de Riemann,il vient

P(A2 � B > 0) = E[1l]0,+1[(A2 � B)]

=

Z

R2

1l]0,+1[(x2 � y)dP(A,B)(x , y)

=

Z

R

Z

R1l]0,+1[(x

2 � y)1l[0,1](x)1l[0,1](y)d�(y)

d�(x)

=

Z

R1l[0,1](x)

Z

R1l]0,+1[(x

2 � y)1l[0,1](y)d�(y)

d�(x)

=

Z 1

0

Z

x

2

0

dy

!

dx =

Z 1

0

x2dx =

1

3

.

2. deux racines complexes et non réelles distinctes si, et seulement si, A2(!)� B(!) < 0.

En menant le calcul de façon analogue au cas précédent, il vient

P(A2 � B < 0) = E[1l]�1,0[(A2 � B)]

=

Z

R2

1l]�1,0[(x2 � y)dP(A,B)(x , y)

=

Z

R

Z

R1l]�1,0[(x

2 � y)1l[0,1](x)1l[0,1](y)d�(y)

d�(x)

=

Z

R1l[0,1](x)

Z

R1l]�1,0[(x

2 � y)1l[0,1](y)d�(y)

d�(x)

=

Z 1

0

Z 1

x

2

dy

dx =

Z 1

0

(1� x2)dx =

2

3

.

3. une racine double si, et seulement si, A2(!)� B(!) = 0.

En remarquant que {A2 � B = 0}c

= {A2 � B > 0} [ {A2 � B < 0}, il vient

P(A2 � B = 0) = 1� P(A2 � B < 0)� P(A2 � B > 0) = 0.

4. Déterminons la loi de la v.a.r. � := A2 � B . Soit h une application borélienne positivede R dans R.

E[h(�)] =

Z

[0,1]2h(x2 � y)d�(2)

(x , y) =

Z

]0,1[2h(x2 � y)d�(2)

(x , y).

Par le changement de variable de classe C1 y = t2 � z et x = t l’ouvert ]0, 1[

2 a pourimage réciproque l’ouvert

U := {(t, z) 2 R2/ z 2 [0, 1[, t 2]

pz , 1[}

S {(t, z) 2 R2/ z 2]� 1, 0[, t 2]0,

p1 + z [}.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 186: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

172 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Par le théorème de changement de variable (cf. 4.4, page 64) puisque la valeur absoluedu jacobien est égale à 1, il vient

Z

]0,1[2h(x2 � y)d�(2)

(x , y) =

Z

U

h(z)d�(2)(t, z).

Par suite, en utilisant le théorème de Tonelli, et en remarquant que 1lU

(t, z) =

1l[0,1[(z)1l]pz,1[(t) + 1l]�1,0[(z)1l]0,p

1+z[(t),

E[h(�) =

=

Z

Rh(z)

1l]0,1[(z)

Z

R1l]pz,1[(t)d�(t) + 1l]�1,0[(z)

Z

R1l]0,

p1+z[(t)d�(t)

d�(z)

=

Z

Rh(z)

1l]0,1[(z)(1�pz) + 1l]�1,0[(z)

p1 + z

d�(z).

La loi de � est la mesure de probabilité sur R admettant la fonction

1l]0,1[(z)(1�pz) + 1l]�1,0[(z)

p1 + z

pour densité par rapport à la mesure de Lebesgue. On retrouve les résultats des questionsprécédentes en calculant

P(� > 0) =

Z

1l{�>0}(!)dP(!)

=

Z

R1l]0,+1[(z)(1l]0,1[(z)(1�pz) + 1l]�1,0[(z)

p1 + z)d�(z)

=

Z 1

0

1�pzdz = 1� 2

3

=

1

3

,

P(� < 0) =

Z

1l{�<0}(!)dP(!)

=

Z

R1l]�1,0[(z)(1l]0,1[(z)(1�pz) + 1l]�1,0[(z)

p1 + z)d�(z)

=

Z 0

�1

p1 + zdz =

2

3

(1 + z)

3/2

�0

�1

=

2

3

,

P(� = 0) = 1� P(� > 0)� P(� < 0) = 0.

Corrigé de l’exercice 4.14, page 911. La fonction f étant borélienne positive, on peut lui appliquer le théorème de Tonelli et

en se ramenant à des intégrales de Riemann on obtient

P(X ,Y )(R2) =

Z

R2

f (x , y)d�(2)(x , y)

= ↵

Z 1

0

(1� x2)dx

Z +1

0

ye�3ydy

= ↵[x � x3

3

]

10

[

�1

3

ye�3y

]

+10 + [

�1

9

e�3y

]

+10

= ↵2

27

.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 187: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

173Chapitre 8. Corrigés des exercices

Comme P(X ,Y ) est une mesure de probabilité sur R2, on a P(X ,Y )(R2) = 1 d’où on déduit

↵ =

272 .

2. En utilisant le résultat de l’exercice I-9, on sait que X et Y admettent des densités fX

etfY

déterminées par :

fX

(x) :=

Z

Rf (x , y)d�(y) = ↵(1� x2

)1l[0,1](x)

1

9

=

3

2

(1� x2)1l[0,1](x)

fY

(y) :=

Z

Rf (x , y)d�(x) = 9ye�3y1l[0,+1[(y).

3. La relation ensembliste {0 < X 2} \ {Y � 1} = {(X , Y ) 2]0, 2]⇥ [1, +1[} permetd’écrire

P(0 < X 2, Y � 1) = P((X , Y ) 2]0, 2]⇥ [1, +1[)

= P(X ,Y )(]0, 2]⇥ [1, +1[)

=

Z

]0,2]⇥[1,+1[

f (x , y)d�(2)(x , y)

= ↵[x � x3

3

]

10

[

�1

3

ye�3y

]

+11 + [

�1

9

e�3y

]

+11

= 9(

1

3

e�3+

1

9

e�3) = 4e�3

.

4. Il s’agit de calculer Var(X ), Var(Y ) et Cov(X , Y ).

E[X ] =

Z

Rxf

X

(x)d�(x) =

Z 1

0

3

2

(x � x3)dx =

3

8

E[X 2] =

Z

Rx2f

X

(x)d�(x) =

Z 1

0

3

2

(x2 � x4)dx =

1

5

E[Y ] =

Z

Ryf

Y

(y)d�(y) =

Z +1

0

9y 2e�3ydy =

2

3

E[Y 2] =

Z

Ry 2f

Y

(y)d�(y) =

Z +1

0

9y 3e�3ydy =

2

3

.

Par suite

Var(X ) = E[X 2]� (E[X ])

2=

19

320

Var(Y ) = E[Y 2]� (E[Y ])

2=

2

9

Cov(X , Y ) = E[XY ]� E[X ]E[Y ] = 0

où la dernière égalité est une conséquence directe du théorème de Fubini en remarquantque xyf (x , y) = (xf

X

(x))(yfY

(y)) et par suite que E[XY ] = E[X ]E[Y ]. La matrice dedispersion est alors donnée par :

D =

0

@

1164 0

0

29

1

A

.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 188: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

174 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Corrigé de l’exercice 4.15, page 91Sans restreindre la généralité, on peut supposer que n 6 m. On a

{X = Y } = [n

k=0 [{X = k} \ {Y = k}]

et la réunion est formée de sous-ensemble de ⌦ deux à deux disjoints. On a alors

P(X = Y ) =

n

X

k=0

P�{X = k} \ {Y = k}�

=

n

X

k=0

P(X = k)⇥ P(Y = k) par indépendance de X et Y

=

n

X

k=0

C k

n

1

2

n

C k

m

1

2

m

=

1

2

n+m

n

X

k=0

C k

n

C k

m

!

=

1

2

n+m

n

X

k=0

C k

n

Cm�k

m

!

et en utilisant l’indication de l’énoncé, on obtient P(X = Y ) =

12n+m

Cm

n+m

.

Corrigé de l’exercice 4.16, page 911. Cette relation est obtenue par (r � 1) dérivations successives à partir de la somme de la

série entièreX

k2Nxk

=

1

1� x.

2. ⌧r

est une v.a.r. à valeurs dans N [ {+1}. En effet, a priori il se peut très bien qu’onait un ! tel que {n 2 N⇤/X1(!) + X2(!) + ... + X

n

(!) = r} soit vide, dans ce cas parconvention, ⌧

r

(!) := +1.On sait alors que la loi de ⌧

r

sera de la forme

P⌧r

=

X

k�0

P{⌧r

= k}�k

+ P(⌧r

= +1)�+1

Fixons un entier k 2 N et considérons l’événement {⌧r

= k}.Si k < r , {⌧

r

= k} = Ø, et si k � r , on peut écrire,

{⌧r

= k} = {k�1X

i=1

Xi

= r � 1} \ {Xk

= 1}.

De plus en vertu de l’indépendance de la suite de v.a.r. (Xi

)N,

P{⌧r

= k} = P({k�1X

i=1

Xi

= r � 1} \ {Xk

= 1})

= P({k�1X

i=1

Xi

= r � 1})P({Xk

= 1}).

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 189: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

175Chapitre 8. Corrigés des exercices

La variable aléatoire réelleP

k�1i=1 X

i

est la somme de (k � 1) v.a. de Bernoulli indépen-dantes et de paramètre p, elle suit donc la loi binomiale B(k � 1, p). On trouve alors, enposant pour simplifier les écritures q := 1� p :

P{⌧r

= k} = C r�1k�1p

r�1q(k�1)�(r�1)p = C r�1k�1p

rqk�r

Remarquons que

+1X

k=0

P{⌧r

= k} =

X

k�r

C r�1k�1p

rqk�r

=

1

(1� q)

r

pr

= 1

où la dernière égalité a été obtenue par application de la relation de la première question.Ce qui donne la loi cherchée pour la variable aléatoire réelle ⌧

r

car P(⌧r

= +1) = 0. Ilsuffit de remarquer pour cela que P(⌧

r

= +1) = 1� P{⌧r

2 N}, et

P{⌧r

2 N} =

+1X

k=0

P{⌧r

= k} = 1.

Il vient alors que P{⌧r

= +1} = 0. On dit que ⌧r

est presque-sûrement finie.

3. Remarquons d’abord que ✓r

= ⌧r

� r � 0. Cela prouve que ✓r

est une v.a. à valeursN [ {+1}, qu’elle est presque-sûrement finie et que sa loi est donnée par

P✓r

=

X

k�0

P{✓r

= k}�k

oùP{✓

r

= k} = P{⌧r

= k + r} = C r�1k+r�1p

rqk

,

ce qui donne le résultat cherché.

4. Interprétons ce qui précède de la façon suivante : Appelons jeu de Pile-ou-Facel’expérience aléatoire qui consiste à lancer, une infinité de fois, la même pièce de monnaietruquée. On note p la probabilité d’avoir "Face" (ou "succès") et q = 1�p la probabilitéd’avoir "Pile" (ou "échec").La suite des v.a.r. (X

k

)N représente les valeurs successives obtenues dans un jeu dePile-ou-Face, en notant X

k

= 1 quand on a obtenu "Face" lors du k i eme-lancer et parconséquent X

k

= 0 quand on a obtenu "Pile" lors du k i eme-lancer.La v.a.r. X1 + X2 + ... + X

n

représente alors le nombre de "succès" en n lancers dans cejeu.La v.a.r. ⌧

r

représente le rang d’arrivée (ou encore temps d’attente) du r i eme-"succès" etla v.a.r. ✓

r

représente le nombre d’"échecs" avant le r i eme-"succès" dans une infinité delancers d’une pièce de monnaie.Si on prend r = 1, la variable aléatoire réelle ⌧1 est le temps d’attente du premier "succès"dans une infinité de lancers d’une pièce de monnaie, c’est-à-dire une variable aléatoireréelle géométrique de paramètre p. Une variable aléatoire réelle géométrique de paramètrep est une variable aléatoire réelle de Pascal de paramètres r = 1 et p.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 190: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

176 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

5. Soit (⌦ , F , P) un espace probabilisé. Notons Ak

l’événement "le fumeur se rendantcompte pour la première fois qu’une boîte est vide, l’autre boîte contient k allumettes",G

k

l’événement "le fumeur se rendant compte pour la première fois que la boîte Gaucheest vide, la boîte droite contient k allumettes", D

k

l’événement "le fumeur se rendantcompte pour la première fois que la boîte Droite est vide, la boîte gauche contient kallumettes". Nous avons la réunion disjointe A

k

= Gk

[ Dk

et, pour des raisons desymétrie, P(D

k

) = P(Gk

) d’où P(Ak

) = 2P(Gk

).

Notons Xn

la variable aléatoire réelle définie, pour tout ! 2 ⌦ , par Xn

(!) = 0 si, auni eme-coup, on cherche l’allumette dans la poche droite et X

n

(!) = 1 si, au ni eme-coup,on cherche l’allumette dans la poche gauche. On suppose l’équiprobabilité de tirer dansla poche gauche ou dans celle de droite, ce que l’on exprime en disant que la variablealéatoire réelle X

n

suit une loi de Bernoulli de paramètre 12 . La variable aléatoire réelle

Sn

:= X1 +X2 + ...+Xn

représente le nombre de fois où le fumeur a puisé dans sa pochegauche. On considérera que le fumeur s’apercevra que la boîte gauche est vide lorsqu’ilcherchera une allumette dans cette poche pour la (N + 1)i eme-fois. Cela signifie quel’événement G

k

est réalisé lorsqu’on extrait N � k allumettes de la boîte droite avant la(N + 1)i eme-fois où on puise dans la poche gauche. Par suite avec les notations de laquestion 2, G

k

= {✓N+1 = N � k}. Il vient alors

P(Ak

) = 2P(Gk

) = 2C 2N�k

N

(

1

2

)

2N�k+1= C 2N�k

N

(

1

2

)

2N�k

.

Corrigé de l’exercice 4.17, page 921. Considérons sur l’espace mesuré (⌦ ⇥ R+

, F ⌦ B(R+), P ⌦ �), où � est la mesure de

Lebesgue, la fonction à valeurs réelles définie par H(!, t) := ntn�11l]t,+1[(X (!)). H estpositive et (F ⌦ B(R+

), B(R))-mesurable, on peut appliquer le théorème de Tonelli,Z

⌦⇥R+

Hd(P⌦ �) =

Z

Z

R+

ntn�11l[0,X (!)[(t)d�(t)

dP(!)

=

Z

(X (!))

ndP(!)

=

Z

X ndP = E[X n

]

etZ

⌦⇥R+

Hd(P⌦ �) =

Z

R+

Z

ntn�11l{X>t}(!)dP(!)

d�(t)

=

Z

R+

ntn�1P(X > t)d�(t).

Comme l’application t 7! P(X > t) est monotone, son ensemble des points dediscontinuités est dénombrable donc de mesure de Lebesgue nulle. Par suite l’applicationt 7! ntn�1P(X > t) est intégrable au sens de Riemann sur tout compact de R+ (cf [2]proposition 0-6 p.9). On obtient le résultat en remarquant que P(X > t) = 1� F

X

(t).

2. Considérons maintenant une v.a. dont la loi est donnée par PX

:=

1

2

(��1 + �1). Sa

fonction de répartition est FX

(t) =

1

2

(1l[�1,+1[(t) + 1l[1,+1[(t)) etZ +1

0

ntn�1(1� F (t))dt =

1

2

Z 1

0

ntn�1dt =

1

2

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 191: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

177Chapitre 8. Corrigés des exercices

alors que E[X n

] =

12((�1)

n

+ 1). La formule n’est vérifiée pour aucune valeur de n � 1.La condition X positive est bien nécessaire. On peut évidement calculer les espérancesE[|X |n] par la formule démontrée ici mais en prenant la fonction de répartition de |X |.

3. Comme les trois variables sont positives presque-sûrement, on peut utiliser la relationde la question 1) avec n = 1 pour l’espérance et n = 2 pour E[X 2

], puis on calcule�2

X

= E[X 2]� (E[X ])

2.(a) Pour la variable X on obtient :

E[X ] =

Z +1

0

(1� FX

(t))dt =

Z 1

0

(1� t)dt +

Z +1

1

0dt =

1

2

E[X 2] =

Z +1

0

2t(1� FX

(t))dt =

Z 1

0

2t(1� t)dt = [t2 � 2

3

t3]

10 =

1

3

�2X

= E[X 2]� (E[X ])

2=

1

3

� 1

4

=

1

12

.

(b) Pour la variable Y on obtient :

E[Y ] =

Z +1

0

(1� FY

(t))dt =

Z +1

0

e��tdt =

1

E[Y 2] =

Z +1

0

2t(1� FY

(t))dt =

Z +1

0

2te��tdt

=

�2te��t

�+1

0

+

Z +1

0

2

�e��tdt =

2

�2

�2Y

= E[Y 2]� (E[Y ])

2=

2

�2� 1

�2=

1

�2.

(c) On a 1�FZ

(t) =

+1X

k=0

e���k

k!

1l]�1,k[(t). Comme 1�FZ

(t) est la somme d’une série

de fonctions positives mesurables, on peut intervertirR

etP

.

E[Z ] =

Z +1

0

(1� FZ

(t))dt =

+1X

k=0

Z

k

0

e���k

k!

dt

=

+1X

k=1

e�� �k

(k � 1)!

= �

E[Z 2] =

Z +1

0

2t(1� FX

(t))dt =

+1X

k=0

Z

k

0

e���k

k!

2tdt =

+1X

k=1

e�� �k

(k � 1)!

k

= �e��[�

+1X

k=2

]

�k�2

(k � 2)!

+

+1X

k=1

�k�1

(k � 1)!

] = �2+ �

�2Z

= E[Z 2]� (E[Z ])

2= �.

Corrigé de l’exercice 4.18, page 92Pour tout entier k � 1 on a {T = k} = {X

k

= 1} \ T

k�1i=1 {Xi

= 0} 2 F et

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 192: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

178 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

{T = +1} =

T+1i=1 {Xi

= 0} 2 F . T est bien une variable aléatoire à valeurs dans N⇤.Calculons la loi de T . Pour k � 1 on a, en utilisant l’indépendance des variables (X1, ..., Xk

),

P(T = k) = P({Xk

= 1} \k�1\

i=1

{Xi

= 0})

= P(Xk

= 1)P(X1 = 0) · · ·P(Xk�1 = 0) = p(1� p)

k�1.

Comme P(T < +1) =

P+1k=1 P(T = k) =

P+1k=1 p(1 � p)

k�1= 1, on en déduit que

P(T = +1) = 0 c-à-d que T est finie p.s. . PT

=

P+1k=1 p(1� p)

k�1�k

est la loi géométriqueG(p).Calculons maintenant l’espérance de T . Il vient en utilisant le théorème du transfert

E[T ] =

Z

RtdP

T

(t) =

+1X

k=1

p(1� p)

k�1

Z

Rtd�

k

(t) =

+1X

k=1

p(1� p)

k�1k .

On reconnaît la dérivée terme à terme de la sérieP+1

k=1 pxk calculée pour x = p � 1. De plusP+1

k=1 xk

=

11�x

et sa dérivée est 1(1�x)2 . En conclusion E[T ] =

1p

.

Corrigé de l’exercice 4.19, page 921. On a

lim sup

k

(pk

N⇤) =

\

k

[

n�k

pn

N⇤ ✓\

k

[pk

, +1[= Ø,

donc P(lim sup

k

(pk

N⇤)) = 0.

2. Montrons que la suite (pk

N⇤)

k2N⇤ est indépendante. Soit {pk1 , ..., pk

n

} des entierspremiers, comme p

k1N⇤ \ ... \ pk

n

N⇤= (p

k1 ...pk

n

)N⇤, il vient

P(pk1N⇤ \ ... \ p

k

n

N⇤) = P ((p

k1 ...pk

n

)N⇤)

=

1

pk1 ...pk

n

= P(pk1N⇤

)...P(pk

n

N⇤).

Ce qui prouve l’indépendance de la suite (pk

N⇤)

k2N⇤ . D’après un résultat d’arithmétique

la série+1X

k=1

1

pk

= +1, et comme les pk

N⇤ sont indépendants par rapport à P, en appli-

quant le théorème de Borel-Cantelli on déduit que P(lim sup

k

(pk

N⇤)) = 1. La contradiction

prouve que la probabilité P n’existe pas.

Corrigé de l’exercice 4.20, page 931. Considérons la famille de toutes les sous-tribus A de F telles que, pour tout i 2 I , X

i

est A-mesurable. Cette famille est non vide car elle contient la tribu F . On vérifie alorsque �(X

i

, i 2 I ) est l’intersection de toutes les tribus composant cette famille.2. Un élément de C est donc de la forme

{Xi1 2 B1} \ {Xi2 2 B2} \ ... \ {X

i

n

2 Bn

}Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 193: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

179Chapitre 8. Corrigés des exercices

où n 2 N⇤, i1, i2, ..., in 2 I sont distincts deux à deux et B1, B2, ..., Bn

2 B(R).

Comme, pour tout k 2 I , Xk

est �(Xi

, i 2 I )-mesurable, {Xk

2 B} 2 �(Xi

, i 2 I ) pourtout borélien B . Par suite la famille C est incluse dans la tribu �(X

i

, i 2 I ). Il en est demême pour la tribu engendrée par C.

Réciproquement, pour tous k 2 I et borélien B de R, {Xk

2 B} 2 C. Donc, pour toutk 2 I , l’application X

k

est mesurable par rapport à la tribu engendrée par C. Par suitela tribu engendrée par C contient la tribu �(X

i

, i 2 I ) qui est la plus petite à possédercette propriété.

3. Notons CJ

(resp. CK

) la famille définie comme dans la question précédente et engendrantla tribu �(X

i

, i 2 J) (resp. �(Xi

, i 2 K )).Comme les familles C

J

et CK

sont stables par intersections finies, pour montrerl’indépendance des tribus �(X

i

, i 2 J) et �(Xi

, i 2 K ), il suffit de montrer que, pourtous C 2 C

J

et D 2 CK

, on a P(C \ D) = P(C )P(D).

C 2 CJ

est donc de la forme {Xj1 2 A1} \ {Xj2 2 A2} \ ... \ {X

j

n

2 An

} où n 2 N⇤,

j1, j2, ..., jn 2 J sont distincts deux à deux et A1, A2, ..., An

2 B(R), et, de même, D 2 CK

est de la forme {Xk1 2 B1}\{Xk2 2 B2}\ ...\{X

k

m

2 Bm

} où m 2 N⇤, k1, k2, ..., km

2 Ksont distincts deux à deux et B1, B2, ..., Bm

2 B(R).

Par suite, en vertu de l’indépendance des v.a.r. (Xi

)

I

, il vient

P(C \ D) =

= P ({Xj1 2 A1} \ ... \ {X

j

n

2 An

} \ {Xk1 2 B1} \ ... \ {X

k

m

2 Bm

})= P(X

j1 2 A1)...P(Xj

n

2 An

)P(Xk1 2 B1)...P(X

k

m

2 Bm

)

= P ({Xj1 2 A1} \ ... \ {X

j

n

2 An

}) P ({Xk1 2 B1} \ ... \ {X

k

m

2 Bm

})= P(C )P(D).

D’où la relation cherchée.

Corrigé de l’exercice 4.21, page 93Nous utiliserons le fait que la fonction caractéristique d’une somme finie de variables aléatoiresindépendantes est égale au produit des fonctions caractéristiques des variables aléatoires de lasomme (Pour obtenir les fonctions caractéristiques des lois classiques on pourra se reporter auformulaire de l’annexe A, page 205).

1. Comme les fonctions caractéristiques de X1 et X2 sont données par �X1(t) = (1� i t↵)

�a

et �X2(t) = (1� i t↵)

�b, on a �Y

(t) = (1� i t↵)

�(a+b) et Y est une v.a.r. de loi gamma�(a + b,↵).

2. On sait que, pour tout k = 1, 2, · · · , n, �X

k

(t) = (1 � i t↵)

�1, on a donc �Z

(t) =

(1� i t↵)

�n et Z est une v.a.r. de loi gamma �(n,↵).

Corrigé de l’exercice 4.22, page 93Par définition

�Z

(t) = E[e i tZ

] = Eh

e i t

P

Y

j=1 X

j

i

= E"

+1X

n=1

e i t

P

n

j=1 X

j 1l(Y=n)

#

.

Or la suite de v.a.r. (

k

X

n=1

e i t

P

n

j=1 X

j 1l(Y=n))k�1 est bornée en module par 1, une seule des

indicatrices 1l(Y=n) est éventuellement non nulle. On obtient donc en utilisant le théorème

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 194: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

180 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

de convergence dominée puis l’indépendance des v.a.r.

�Z

(t) =

+1X

n=1

Eh

e i t

P

n

j=1 X

j 1l(Y=n)

i

=

+1X

n=1

E[1l(Y=n)]

n

Y

j=1

E[e i tX

j

]

=

+1X

n=1

P(Y = n)(�(t))n

= � �(t).

L’application qui est aussi définie par (t) = E[tY

] est appelée fonction génératrice dela variable discrète Y .Corrigé de l’exercice 4.23, page 93D est une v.a.r. à valeurs Z et M à valeurs N⇤

. De plus, les v.a.r. étant discrètes, le couple(D, M) est indépendant si, et seulement si, pour tout (i , j) 2 Z ⇥ N⇤

, P({D = i} \ {M =

j}) = P(D = i)P(M = j).

1. Supposons que X et Y suivent la loi géométrique de paramètre p 2]0, 1[.

On vérifie aisément que, pour j 2 N⇤ fixé,

{D = i} \ {M = j} =

⇢ {X = i + j} \ {Y = j} si i � 0,

{X = j} \ {Y = j � i} si i < 0.

Par suite en vertu de l’indépendance du couple (X , Y ) il vient

si i � 0, P({D = i} \ {M = j}) = P({X = i + j} \ {Y = j})= P(X = i + j)P(Y = j) = p2qi+j�1qj�1

= p2qi+2j�2

si i < 0, P({D = i} \ {M = j}) = P({X = j} \ {Y = j � i})= P(X = j)P(Y = j � i) = p2qj�i�1qj�1

= p2q2j�i�2

On peut rassembler ces deux écritures sous la forme P({D = i}\ {M = j}) =

p2

q2q2j+|i |

.

Calculons, pour tout i 2 Z fixé, P(D = i). Comme {D = i} =

[

j2N⇤({D = i} \ {M = j})

où l’union est mutuellement disjointe et par un calcul simple de somme de sériesgéométriques, il vient

P(D = i) =

X

j2N⇤P ({D = i} \ {M = j})

=

X

j2N⇤

p2

q2q2j+|i |

=

p2

1� q2q|i |

.

Calculons maintenant, pour tout j 2 N⇤ fixé, P(M = j). De la même façon queprécédemment {M = j} =

[

i2Z({D = i} \ {M = j}) où l’union est mutuellement

disjointe. Par un calcul simple de somme de séries géométriques, il vient

P(M = j) =

X

i2ZP ({D = i} \ {M = j})

=

X

i2Z

p2

q2q2j+|i |

=

p

q2q2j

(q + 1).

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 195: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

181Chapitre 8. Corrigés des exercices

Comparant les trois valeurs trouvées, on vérifie aisément que P({D = i} \ {M = j}) =

P(D = i)P(M = j), ce qui prouve l’indépendance du couple (D, M).

2. Réciproquement, supposons les v.a.r. D et M indépendantes. Soit n 2 N⇤, fixé. Par

l’indépendance du couple (X , Y ), il vient

P ((X = n + 1) \ (Y = n))

P ((X = n) \ (Y = n))

=

P(X = n + 1)P(Y = n)

P(Y = n)P(X = n)

=

P(X = n + 1)

P(X = n)

,

ce qui donne la première égalité.De plus (X = n + 1) \ (Y = n) = (D = 1) \ (M = n) et (X = n) \ (Y = n) = (D =

0) \ (M = n). Par l’indépendance du couple (M , D), il vient

P ((X = n + 1) \ (Y = n))

P ((X = n) \ (Y = n))

==

P(D = 1)P(M = n)

P(D = 0)P(M = n)

=

P(D = 1)

P(D = 0)

d’où la deuxième égalité.On remarque que le rapport ne dépend pas de l’entier n. Soit ↵ sa valeur. On a la relationde récurrence, pour tout n 2 N⇤

, P(X = n + 1) = ↵P(X = n).

Par suite, pour tout n 2 N⇤, P(X = n) = ↵n�1P(X = 1). De la relation

P

k�1 P(X =

k) = 1 on déduit queX

k�1

↵k�1P(X = 1) =

1

1� ↵P(X = 1) = 1, et par suite que

P(X = 1) = 1� ↵.

La loi de X et Y s’écrit alors : PX

= PY

=

X

k�1

↵k�1(1�↵)�

k

. Les v.a.r. X et Y suivent

donc la loi géométrique de paramètre 1� ↵.

Corrigé de l’exercice 4.24, page 94La probabilité que les variables aléatoires X et Y prennent leurs valeurs dans le complémentairede l’intervalle ]0,↵[ est nulle. On peut donc considérer, dans la suite, que les variables X et Ysont à valeurs dans l’intervalle ]0,↵[.Par ailleurs, en vertu de l’indépendance du couple (X , Y ), le vecteur aléatoire (X , Y ) de dimen-

sion 2 admet pour densité ⇢ la fonction définie sur R2 par : pour tout (x , y) 2 R2, ⇢(x , y) =

1

↵2

si (x , y) 2]0,↵[

2, et ⇢(x , y) = 0 si (x , y) /2]0,↵[

2. C’est-à-dire que la vecteur aléatoire (X , Y )

de dimension 2 suit la loi uniforme de dimension 2 sur ]0,↵[

2.

En conséquence, pour tout borélien A de R2, P[(X , Y ) 2 �] =

a(�\]0,↵[

2)

↵2, où a(�\]0,↵[

2)

désigne la mesure de l’aire de l’intersection du borélien � avec le carré ouvert ]0,↵[

2.

Pour déterminer les lois des variables Z et T , nous pouvons étudier leurs fonctions de réparti-tion, que nous noterons respectivement F et G .

Loi de Z .Remarquons que la variable Z peut aussi s’écrire Z = max(X , Y ) � min(X , Y ) = |X � Y |.C’est une variable aléatoire positive qui prend ses valeurs dans l’intervalle [0,↵].Étudions la fonction de répartition F de Z . Soit z réel fixé. Cela revient à étudier la probabilitéF (z) = P(Z z) de l’événement {Z z}.

⇧ Si z < 0, comme Z est positive, l’événement {Z z} = Ø (événement impossible). Parsuite F (z) = 0.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 196: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

182 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

⇧ Si z � ↵, comme Z prend ses valeurs dans [0,↵], l’événement {Z z} = ⌦ (événementcertain). Par suite F (z) = 1.

⇧ Il reste à étudier le cas 0 z < ↵. Supposons 0 z < ↵ fixé. On peut écrire{Z z} = {(X , Y ) 2 �\]0,↵[

2} où � = {(x , y) 2 R2 / |x � y | z} désigne labande définie par les points de R2 contenus entre les deux droites d’équations respectivesy = x + z et y = x � z dans un système d’axes orthonormé. Un raisonnementgéométrique élémentaire montre que la mesure de l’aire de l’intersection �\]0,↵[

2 est :a�

�\]0,↵[

2�

= ↵2 � (↵� z)

2.En conséquence, d’après la remarque préliminaire sur la loi du couple (X , Y ),

F (z) = P(Z z) = P⇥

(X , Y ) 2 �\]0,↵[

2⇤

=

↵2 � (↵� z)

2

↵2= 1�

1� z

⌘2.

En résumé, la fonction de répartition de la variable aléatoire Z est donnée, pour tout réelz , par :

F (z) =

8

<

:

0 si z < 0,1� �

1� z

�2 si 0 z < ↵,1 si z � ↵.

Comme la fonction de répartition est de classe C 1 sur les trois intervalles ]�1, 0[, ]0,↵[

et ]↵, +1[, une densité f vérifiera l’équation F 0 = f sur chacun de ces intervalles. Lesvaleurs de f aux bornes, f (0) et f (↵), peuvent être choisies arbitrairement (on rappellequ’une densité n’est définie que presque-partout pour la mesure de Lebesgue).En conclusion, la variable aléatoire Z admet pour densité, la fonction f définie pour toutréel z , par :

f (z) =

(

0 si z < 0 ou si z > ↵,2

1� z

si 0 z ↵,

Loi de TRemarquons que la variable T est une variable aléatoire positive qui prend ses valeurs dansl’intervalle [0, 1].Étudions la fonction de répartition G de T . Soit z réel fixé. Cela revient à étudier la probabilitéG (z) = P(T z) de l’événement {T z}.

⇧ Si z < 0, comme T est positive, l’événement {T z} = Ø (événement impossible). Parsuite G (z) = 0.

⇧ Si z � 1, comme T prend ses valeurs dans [0, 1], l’événement {T z} = ⌦ (événementcertain). Par suite G (z) = 1.

⇧ Il reste à étudier le cas 0 z < 1. Supposons 0 z < 1 fixé. On peutécrire {T z} = {(X , Y ) 2 �0\]0,↵[

2} où �0 = �1 [ �2 avec �1 =

(x , y) 2 R2 / 0 < x < y etx

y z

et �2 =

n

(x , y) 2 R2 / 0 < y < x ety

x z

o

.

�0 est le complémentaire (dans ]0, +1[

2) du secteur angulaire défini par les points de]0, +1[

2 contenus entre les deux droites d’équations respectives y =

x

zet y = zx dans

un système d’axes orthonormé. Un raisonnement géométrique élémentaire montre que lamesure de l’aire de l’intersection �0\]0,↵[

2 est : a�

�0\]0,↵[

2�

= z↵2.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 197: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

183Chapitre 8. Corrigés des exercices

En conséquence, d’après la remarque préliminaire sur la loi du couple (X , Y ),

G (z) = P(T z) = P⇥

(X , Y ) 2 �0\]0,↵[

2⇤

=

z↵2

↵2= z .

En résumé, la fonction de répartition de la variable aléatoire T est donnée, pour tout réelz , par :

G (z) =

8

<

:

0 si z < 0,z si 0 z < 1,1 si z � 1.

On reconnaît la fonction de répartition de la loi uniforme sur l’intervalle [0, 1]. La variablealéatoire T suit donc la loi uniforme sur l’intervalle [0, 1].

8.5 Corrigés des exercices du chapitre V

Corrigé de l’exercice 5.1, page 97Le vecteur aléatoire X est l’image du vecteur U par l’application linéaire A dont la matrice[a

i ,j ]1i ,jn

dans la base canonique de Rn a pour coefficients

ai ,i = 1 pour i = 1, · · · , n,

aj+1,j = ✓ pour j = 1, · · · , n � 1,

ai ,j = 0 dans les autres cas.

Par suite toute combinaison linéaire des variables aléatoires X1, X2, · · · , Xn

est une combinaisonlinéaire des variables aléatoires U1, U2, · · · , U

n

. Comme (U1, U2, · · · , Un

) est une suite indépen-dante de variable aléatoire réelle gaussiennes, le vecteur U est gaussien. Par suite toute com-binaison linéaire des variables aléatoires U1, U2, · · · , U

n

est une variable aléatoire gaussienne.Il en est donc de même de toute combinaison linéaire des variables aléatoires X1, X2, · · · , X

n

.Ce qui prouve, par définition des vecteurs gaussiens, que le vecteur X = AU est lui-même unvecteur gaussien.

Corrigé de l’exercice 5.2, page 981. Déterminons la loi de X par le critère d’identification des lois par les fonctions positives.

Soit h une application borélienne positive de Rd dans [0, +1[. Reprenons les notationsdu corrigé 8.5, page 183, de l’exercice 5.1, page 97. Par application du théorème dutransfert au vecteur U , par indépendance de la suite (U1, U2, · · · , U

n

) en notant f (t) ladensité de N 1(0,�2

) et x = (x1, x2, · · · , xn

), il vient

E(h(X )) = E(h(AU)) =

Z

Rn

h(Ax)dPU

(x)

=

Z

Rn

h(Ax)f (x1)f (x2) · · · f (xn

)d�(n)(x).

Faisons le changement de variable à l’aide du C 1-difféomorphisme A i.e. y := Ax , pourtout x 2 Rn

. L’application réciproque est définie, pour tout entier 1 k n, par

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 198: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

184 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

xk

=

P

k�1j=0 (�✓)jy

k�j

et son jacobien en un point y est det(A�1) = 1. On obtient

E(h(X )) =

Z

Rn

h(y)f (y1)f (y2 � ✓y1) · · · f

n�1X

j=0

(�✓)jyn�j

!

d�(n)(y)

=

Z

Rn

h(y)

1p2⇡

n

exp

2

4� 1

2�2

n

X

k=1

k�1X

j=0

(�✓)jyk�j

!23

5 d�(n)(y).

Ce qui prouve que X est un vecteur aléatoire de densité définie, pour toutx = (x1, x2, · · · , x

n

) 2 Rn

, par

fX

(x) =

1p2⇡

n

exp

2

4� 1

2�2

n

X

k=1

k�1X

j=0

(�✓)jxk�j

!23

5

.

2. L’espérance de X est E[X ] = E[AU] = AE[U] = 0 (vecteur nul de Rn).La matrice de dispersion de X est donnée par

DX

:= E(XX ⇤) = E(AU(AU)

⇤) = AD

U

A⇤ = �2AA⇤

car DU

= �2In

, où In

désigne la matrice-identité d’ordre n. On peut calculer DX

eneffectuant le produit matriciel AA⇤. On trouve que D

X

= [di ,j ]1i ,jn

d1,1 = �2

di ,i = �2

(✓2+ 1) pour i = 2, · · · , n,

dj+1,j = d

j ,j+1 = ✓�2 pour j = 1, · · · , n � 1,

di ,j = 0 dans les autres cas.

Corrigé de l’exercice 5.3, page 1011. On remarque que E[XX

a

] = E[X 21l{|X |a}] � E[X 21l{|X |>a}]. Le théorème du transfertpermet d’écrire

E[X 21l{|X |a}] =

1p2⇡

Z

a

�a

x2e�12 x

2dx , E[X 21l{|X |>a}] =

2p2⇡

Z +1

a

x2e�12 x

2dx .

E[XXa

] est donc égale à la différence de deux fonctions de la variable a réelle positive,continues sur R+

, dont la première est strictement croissante de 0 à E[X 2] = 1 et la

seconde strictement décroissante de E[X 2] = 1 à 0. Il existe donc une unique valeur de

a0 pour laquelle E[XXa0] = 0 c’est-à-dire (X , X

a0) est non-corrélé.2. Comme, pour tout réel a > 0, X + X

a

= 2X1l{|X |a} n’est pas une v.a.r. gaussienne carX + X

a

est une variable aléatoire bornée par 2a, le vecteur (X , Xa

) n’est gaussien pouraucune valeur de a.

3. Si le couple (X , Xa

) était indépendant, le vecteur (X , Xa

) serait gaussien car ses com-posantes seraient des v.a.r. gaussiennes indépendantes. D’après la question précédente, ily aurait contradiction. Pour tout réel a > 0, le couple (X , X

a

) n’est donc pas indépendant.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 199: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

185Chapitre 8. Corrigés des exercices

Corrigé de l’exercice 5.4, page 102Si on considère X comme un vecteur colonne, alors le vecteur aléatoire Y := AX suit une loigaussienne N 3(A0, A�A⇤) = N 3(0, A�A⇤). Comme Y est un vecteur gaussien il suffit, pourque ses composantes soient indépendantes, que la matrice A�A⇤ soit diagonale. Si de plus onveut que les composantes de AX soient non-dégénérées, alors il faut que la matrice A�A⇤ soitinversible. Comme � est réelle symétrique, elle est diagonalisable dans R et il existe une matriceorthogonale U telle que la matrice � := U�1�U soit diagonale. Les valeurs propres de � sont2 et 4. La matrice � est donc inversible ainsi que la matrice � . Les vecteurs e1 :=

1p2(1, 1, 0) et

e2 := (0, 0, 1) sont des vecteurs propres linéairement-indépendants associés à la valeur propredouble 2 et e3 :=

1p2(1,�1, 0) est un vecteur propre associé à la valeur propre 4. La base de

vecteurs propres (e1, e2, e3) est orthonormée et la matrice

U :=

0

@

1/p

2 0 1/p

2

1/p

2 0 �1/p

2

0 1 0

1

A

est orthogonale. Posons A = U⇤= U�1

. On vérifie que la matrice A ainsi définie répond à laquestion posée.

Corrigé de l’exercice 5.5, page 103Avec les notations du cours concernant les opérations matricielles, l’espérance de U est donnéepar A0 = 0 et sa matrice de dispersion est donnée par AIA⇤ = AA⇤ = I . En effet A est unematrice orthogonale donc A⇤ = A�1. L’image du vecteur gaussien X par l’endomorphisme deR2 de matrice A dans la base canonique de R2 est encore un vecteur gaussien. Par suite la loide U est N 2(0, I ).

Corrigé de l’exercice 5.6, page 1031. Comme P(X ,Y ) est une probabilité sur R2, ↵ doit être tel que P(X ,Y )(R2

) = 1. Le théorèmede Tonelli permet d’écrire

P(X ,Y )(R2) = ↵

Z

R2

e�12 (x2�xy+y

2)d�(2)(x , y)

= ↵

Z

Re�

38 y

2

Z

Re�

12 (x� y

2 )2d�(1)(x)d�(1)

(y)

= ↵

Z

Re�

38 y

2

Z

Re�

12 x

2d�(1)

(x)d�(1)(y)

= ↵

Z

Re�

38 y

2p2⇡d�(1)

(y) = ↵p

2⇡

Z

Re�

38 y

2d�(1)

(y) = ↵4⇡p

3

.

Où on a utilisé la valeur de l’intégrale de GaussR

R e�(x�m)2

2�2 d�(1)(x) = �

p2⇡. Par suite

↵ =

p3

4⇡ .

2. On rappelle que la loi N 2(m, D) admet une densité par rapport à la mesure de Lebesgue�(2) si et seulement si la matrice D est inversible (cf cours). Dans ce cas la densité s’écrit,pour tout t 2 R2,

1

2⇡p

det(D)

exp

�1

2

(t �m)

⇤D�1(t �m)

.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 200: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

186 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Le terme constant m⇤D�1m, obtenu par t = 0 dans l’expression (t � m)

⇤D�1(t � m),

représente la norme du vecteur m relativement à la forme quadratique définie positivedéfinie par D�1. Il est nul si et seulement si m = 0. Comme

x2 � xy + y 2=

x y�

1 �1/2�1/2 1

◆✓

xy

,

on reconnaît en P(X ,Y ) la loi gaussienne N 2(m, D) où m = 0 puisqu’il n’y a pas de terme

constant dans l’exponentielle et D�1=

1 �1/2�1/2 1

. Donc D :=

4/3 2/32/3 4/3

est la matrice de dispersion du vecteur (X , Y ).On en déduit que X et Y suivent la loi N 1(0,

43) et, puisque D n’est pas diagonale, le

couple de variable aléatoire réelle (X , Y ) n’est pas indépendant.

On peut aussi déterminer directement Var(X ), Var(Y ) et Cov(X , Y ) par un calculd’intégrales à partir de la densité de la loi du couple (X , Y ).

Corrigé de l’exercice 5.7, page 103Remarquons que X et �X ont la même loi. En effet l’étude des fonctions caractéristiques donne��X

(t) = E[e�i tX

] = �X

(�t) = e�12 t

2= �

X

(t) pour tout réel t.1. La relation

h(Y ) = h(X )1l[0,⇡](|X |) + h(�X )1l]⇡,+1[(|X |)est facile à vérifier. Il suffit pour cela d’étudier séparément le cas où ! satisfait|X (!)| 2 [0, ⇡] et le cas où ! satisfait |X (!)| 2]⇡, +1[. Pour observer que dans lepremier cas, h(Y (!)) = h(X (!)) et dans le second cas h(Y (!)) = h(�X (!)). La rela-tion avec les indicatrices sert à résumer ces deux cas en une seule expression.

2. Soient h une application borélienne positive de R dans R, de la relation

h(Y ) = h(X )1l[0,⇡](|X |) + h(�X )1l]⇡,+1[(|X |).

on obtient, en passant à l’espérance,

E[h(Y )] = E[h(X )1l[0,⇡](|X |)] + E[h(�X )1l]⇡,+1[(|X |)].

En remarquant que X et �X ont la même loi et en utilisant le théorème du transfert, ilvient

E[h(�X )1l]⇡,+1[(|X |)] = E[h(X )1l]⇡,+1[(|X |)].Ce qui, en reportant dans le deuxième membre de l’égalité précédente, donne E[h(Y )] =

E[h(X )], pour toute application borélienne positive de R dans R. Ce qui prouve que Ysuit la même loi que X c’est-à-dire N 1(0, 1).

3. La variable aléatoire réelle X + Y = 2X1l[0,⇡](|X |) n’est pas une gaussienne car X + Yest une variable aléatoire bornée par 2⇡. Le vecteur (X , Y ) n’est donc pas gaussien.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 201: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

187Chapitre 8. Corrigés des exercices

4. Si le couple (X , Y ) était indépendant, le vecteur aléatoire (X , Y ) serait gaussien car sescomposantes seraient des variable aléatoire réelle gaussiennes indépendantes. D’après laquestion précédente, il y aurait contradiction. En conclusion, le couple (X , Y ) n’est doncpas indépendant.

Corrigé de l’exercice 5.8, page 103

1. Du fait de l’indépendance des variables aléatoires réelles X , Y et Z , la fonction carac-téristique de U est égale au produit des fonctions caractéristiques de X , Y et Z . Cettefonction caractéristiqueest donc donnée, pour tout t 2 R, par �

U

(t) = e�32 t

2 et par suiteU a pour loi N 1(0, 3).De la même façon, on montre que la variable aléatoire réelle V := 2X � Y � Z suit laloi N 1(0, 6) et que la variable aléatoire réelle W := Y � Z suit la loi N 1(0, 2).

2. On remarque que le couple (U , X � Y ) est l’image de (X , Y , Z ) par l’applicationlinéaire de R3 dans R2 de matrice, dans les bases canoniques respectives de R3 et R2

,

A :=

1 1 1

1 �1 0

. Comme (X , Y , Z ) est un vecteur gaussien de loi N 3(0, I ) où 0

est le vecteur nul de R3 et I la matrice identité d’ordre 3, le vecteur (U , X � Y ) estaussi gaussien de loi N 2(0, AIA⇤). La matrice de dispersion de (U , X � Y ) est donc

AA⇤ =

3 0

0 2

. Cette matrice étant diagonale, le couple de variables aléatoires réelles

(U , X � Y ) est indépendant.On procède de façon analogue pour les couples (U , Y � Z ) et (U , Z � X ).

3. On remarque que le vecteur (X + Y + Z , 2X � Y � Z , Y � Z ) est l’image du vecteurgaussien (X , Y , Z ) par l’endomorphisme de R3 de matrice (dans la base canonique de R3)

B :=

0

@

1 1 1

2 �1 �1

0 1 �1

1

A

. Le vecteur aléatoire (U , V , W ) est donc un vecteur gaussien de

loi N 3(0, BIB⇤) = N 3(0, BB⇤

) où BB⇤=

0

@

3 0 0

0 6 0

0 0 2

1

A

.

4. La matrice des covariances du vecteur (U , V , W ), BB⇤, est diagonale et le vecteur

(U , V , W ) gaussien, le triplet des variables aléatoires réelles (U , V , W ) est donc indépen-dant.

5. La fonction caractéristique du couple (U , T ) est définie, pour tout (u, t) 2 R2, par

�(U,T )(u, t)

= E [exp (i(uU + vT ))]

= E

exp

iu(X + Y + Z ) +

1

2

i t(2X � Y � Z )

2+

3

2

i t(Y � Z )

2

◆�

,

où on a utilisé l’identité à vérifier. Comme la famille des v.a.r. (U , 2X � Y � Z , Y � Z )

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 202: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

188 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

est indépendante,

�(U,T )(u, t)

= E⇥

e iuU

E

exp

1

2

i t(2X � Y � Z )

2

◆�

E

exp

3

2

i t(Y � Z )

2

◆�

= e�32u

2� 1

6 (2X�Y�Z)2(3t)� 12 (Y�Z)2(3t).

Comme (2X � Y � Z ) suit la loi N 1(0, 6) et que (Y � Z ) suit la loi N 1(0, 2),1p6

(2X � Y � Z ) et1p2

(Y � Z ) suivent la loi N 1(0, 1). On conclut à l’égalité des

fonctions caractéristiques � 1p6(2X�Y�Z)2 = � 1p

2(Y�Z)2 = '. Il vient alors

�(U,T )(u, t) = e�32u

2['(3t)]2 = e�

32u

2 1

1� 6i t.

Corrigé de l’exercice 5.9, page 1041. En utilisant la technique des fonctions boréliennes positives, si h est une telle fonction,

on a

E[h(X 21 )] =

Z

Rh(x2

)dPX1(x) =

Z

Rh(x2

)

1p2⇡

e�12 x

2d�(x)

= 2

Z

R+

h(x2)

1p2⇡

e�12 x

2d�(x),

puisque la fonction intégrée par rapport à la mesure de Lebesgue est paire. On utiliseensuite le théorème de changement de variable dans une intégrale relative à la mesure deLebesgue, en posant t = x2.

E[h(X 21 )] =

Z

Rh(t)

1p2⇡

e�t

2 t12 1lR+

(t)d�(t) =

Z

Rh(t)d�(

1

2

,

1

2

)(t).

On a montré PX

21

= �(12 ,

12) = �2

(1).2. En utilisant les fonctions caractéristiques des lois Gamma (voir le formulaire de l’annexe

A, page 205) et la proposition 4.31, page 86, la somme de deux v.a.r. indépendantes deloi respective �(a, b) et �(a, b0) est une v.a.r. de loi �(a, b+b0). Par récurrence immédiatesur n, on montre que la v.a.r.

P

n

k=1 X 2k

suit une loi �(12 ,

n

2) = �2(n).

3. On considère l’espace vectoriel euclidien Rn et on pose Vn

:=

1pn

0

B

@

1

...1

1

C

A

. D’après les

théorèmes d’algèbre linéaire, il est possible de construire une base B orthomormée quicomplète la famille libre (V

n

), B = (V1, · · · , Vn

). La matrice de passage de la basecanonique à B est la matrice orthogonale ( i.e. sa transposée est égale à son inverse)formée des vecteurs colonnes de B. Sa transposée, que l’on note C , est aussi orthogonaleet de la forme

C =

0

B

B

B

B

B

@

c1,1 c1,2 · · · c1,n

c2,1 c2,2 · · · c2,n...

... . . . ...cn�1,1 c

n�1,2 · · · cn�1,n

1pn

1pn

· · · 1pn

1

C

C

C

C

C

A

.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 203: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

189Chapitre 8. Corrigés des exercices

4. En utilisant la proposition 5.5, page 98, comme X suit la loi Nn

(0, In

), Y = CX suit laloi N

n

(0, CIn

C ⇤) = N

n

(0, In

), où C ⇤ désigne la transposée de C , et C ⇤= C�1 puisque

C est orthogonale.

5. De Y = CX , on déduit facilement que Yn

=

1pn

n

X

k=1

Xk

=

pn X . Avec les règles du

calcul matriciel, on remarque que

n

X

k=1

Y 2k

= Y ⇤Y = (CX )

⇤(CX ) = X ⇤

(C ⇤C )X = X ⇤X =

n

X

k=1

X 2k

.

De plus,

(n � 1)S2=

n

X

k=1

(Xk

� X )

2=

n

X

k=1

(X 2k

� 2XXk

+ X2)

=

n

X

k=1

X 2k

� 2Xn

X

k=1

Xk

+ nX2

=

n

X

k=1

X 2k

+ n(�2X2+ X

2)

=

n

X

k=1

X 2k

� nX2

=

n

X

k=1

Y 2k

� Y 2n

=

n�1X

k=1

Y 2k

.

Ainsi X =

1pnY

n

et S2=

1

n � 1

n�1X

k=1

Y 2k

. Le vecteur Y est gaussien et sa matrice

de dispersion est diagonale donc (Y1, · · · , Yn

) est indépendant. Par suite X et S2 sontindépendantes en vertu du théorème d’indépendance des fonctions de v.a.r. (cf proposition4.14, page 75).

6. La fonction caractéristique de X est

�X

(t) = E[e i tX

] = E[ei

tpn

Y

n

] = �Y

n

(

tpn) = e�

12n

t

2.

Donc PX

= N 1(0,

1

n). Enfin, d’après la deuxième question, le vecteur aléatoire

(Y1, · · · , Yn�1) suit la loi N

n�1(0, In�1), la v.a.r. (n � 1)S2 suit la loi �2

(n � 1).

Corrigé de l’exercice 5.10, page 104Montrons que, pour tout entier n � 1, il existe une forme linéaire L

n

sur Rn+1 telle queX

n

= Ln

(X0, "1, . . . , "n

). Pour n = 1, posons L1(x0, x1) := l1(x0) + b1x1 et remarquons queX1 = L1(X0, "1). Supposons construites les formes linéaires L

i

pour i = 1, · · · , n et construisonsL

n+1. On a

Xn+1 = l

n+1(X0, X1, . . . , Xn

) + bn+1"n+1

= ln+1(X0, L1(X0, "1), . . . , Ln

(X0, "1, . . . , "n

)) + bn+1"n+1.

Posons

Ln+1(x0, . . . , xn+1) := l

n+1 (x0, L1(x0, x1), . . . , Ln

(x0, x1, . . . , xn

)) + bn+1xn+1.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 204: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

190 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Ln+1 est bien une forme linéaire sur Rn+2 et X

n+1 = Ln+1(X0, "1, . . . , "n+1), ce qui prouve

l’existence de la suite (Ln

)

n�1.Maintenant, pour tout n � 0, construisons l’endomorphisme A

n

de Rn+1 en posant, pour tout(x0, x1, · · · , x

n

) 2 Rn+1,

An+1(x0, . . . , xn

) := (x0, L1(x0, x1), . . . , Ln

(x0, . . . , xn

)) .

Avec ces notations,(X0, X1, . . . , Xn

) = An

(X0, "1, . . . , "n

).

Comme les composantes de (X0, "1, . . . , "n

) sont gaussiennes et mutuellement indépendantes,ce vecteur est gaussien. Par suite le vecteur (X0, X1, . . . , Xn

) est également gaussien commeimage d’un vecteur gaussien par une application linéaire.

8.6 Corrigés des exercices du chapitre VI

Dans ce paragraphe, toutes les variables aléatoires considérées sont supposées définies sur unmême espace de probabilité (⌦ , F , P).

Corrigé de l’exercice 6.1, page 107

1. D’après l’inégalité de Bienaymé-Tchébycheff, P(|X �m| > 3�) 6 �2

9�2=

1

9

et donc

P(m � 3� < X < m + 3�) = 1� P(|X �m| > �) � 8

9

' 0.88 .

Un raisonnement analogue donne l’autre partie de la question.2. Comme X est de loi N (m;�2

), on utilise les tables numériques (voir mode d’emploi dansl’annexe B, page 211) et on obtient en notant T = (X �m)/� qui est de loi gaussiennecentrée réduite

P(m � 3� < X < m + 3�) = P✓

�3 <X �m

�< 3

= P(�3 < T < 3) = P(T < 3)� P(T < �3)

= P(T < 3)� [1� P(T < 3)] = 2P(T < 3)� 1

' 2⇥ 0.99865� 1 ' 0.9973 ,

où l’on a lu P(T < 3) dans la partie basse de la table correspondant aux grandes valeursde u. On trouverait de même P(m � 2� < X < m + 2�) ' 0.9544.

Corrigé de l’exercice 6.2, page 1071. En utilisant le fait que X est d’espérance nulle on a :

a = E[a � X ] = E[(a � X )1l(Xa) + (a � X )1l(X>a)]

E[(a � X )1l(Xa)] (P(X a))12(E[(a � X )

2])

12

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 205: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

191Chapitre 8. Corrigés des exercices

où la dernière inégalité est obtenue en utilisant l’inégalité de Cauchy-Schwarz. De plusE[(a � X )

2] = a2 � 2aE[X ] + E[X 2

] = a2+ �2 ce qui donne :

a E[(a � X )1l(Xa)] (P(X a))12

pa2

+ �2.

En élevant au carré l’inégalité précédente on obtient :

P(X > a) = 1� P(X a) 1� a2

a2+ �2

=

�2

a2+ �2

.

2. Si on pose X = Y � 100 alors X est une v.a. centrée de variance

Var(X ) = E[(Y � 100)

2] = E[(Y � E[Y ])

2] = Var(Y ) = 400.

L’inégalité de la question 1) nous conduit à

P(Y > 120) = P(X > 20) 400

20

2+ 400

=

1

2

.

Avec l’inégalité de Bienaymé-Tchebycheff on obtient :

P(Y > 120) = P(X > 20) P(|X | > 20) 400

20

2= 1

qui ne donne pas de renseignement.

Corrigé de l’exercice 6.3, page 109Notons X

k

la kième mesure effectuée sur les N . On peut considérer que Xk

est une v.a.r.d’espérance m, que les v.a.r. X1, ..., XN

sont indépendantes et de même loi. On note

XN

=

1

N

N

X

k=1

Xk

la moyenne empirique des valeurs observées. Par l’inégalité de Bienaymé-

Tchébicheff, P(|XN

� m| > 0.05) 6 Var(XN

)

(0.05)

2. Or Var(X

N

) =

Var(X1)

N=

0.25

Net donc

P(|XN

� m| > 0.05) 6 0.25

N(0.05)

2. On cherche donc N tel que

0.25

N(0.05)

26 0.01 d’où

N � 0.25

(0.05)

2 ⇥ 0.01

= 10000.

Corrigé de l’exercice 6.4, page 110Soit a > 0, prenons un entier n suffisamment grand pour que 0 < 1/n < a. On veut étudier lalimite quand n !1 de P(|X

n

� 0| > a). Pour n tel que 1/n < a, on a

P(|Xn

� 0| > a) = P(|Xn

| > a) = P(Xn

6 �a) + P(Xn

> a)

=

Z �a

�1n 1l[0, 1

n

](x)

| {z }

=0 sur ]�1,� a[

dx +

Z +1

a

n 1l[0, 1n

](x)

| {z }

=0 sur [a, +1[

dx

d’où pour tout a > 0, lim

n!1 P(|Xn

� 0| > a) = 0 ce qui prouve que (Xn

)

n2N converge enprobabilité vers 0.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 206: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

192 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Corrigé de l’exercice 6.5, page 112On considère l’exemple 6.3, page 110, du cours. La suite (X

n

)

n2N converge en probabilité vers

la v.a.r. 0. Mais pour tout entier n > 1, E(Xn

) =

n

n + 1

+

1

n

n

n + 1

= 1. Donc la suite desespérances (E(X

n

))

n2N⇤ ne converge pas vers l’espérance de la limite qui est 0 = E(0).

Corrigé de l’exercice 6.6, page 1141) Comme X

n

p.s���!n!1

X , il existe �X

tel que P(�X

) = 0 et pour tout ! 2 �c

X

,lim

n!1X

n

(!) = X (!). De même il existe �Y

de probabilité nulle tel que pour tout ! 2 �c

Y

,lim

n!1Y

n

(!) = Y (!). Posons � = �X

[�Y

, alors pour tout ! 2 �c , lim

n!1X

n

(!) = X (!) etlim

n!1 Yn

(!) = Y (!). Comme la fonction f est continue sur R2, la suite (f (Xn

(!), Yn

(!)))

n2Nconverge vers f (X (!), Y (!)). De plus, 0 6 P(�) 6 P(�

X

)+P(�Y

) et donc P(�) = 0 ce quiprouve la convergence presque-sûre de (f (X

n

, Yn

))

n2N vers f (X , Y ).2) Il suffit d’appliquer le premier point avec f : (x , y) ! x + y et g : (x , y) ! xy qui sontdes applications continues sur R2.

Corrigé de l’exercice 6.7, page 116

On commence par remarquer quen

X

k=1

Xk

= nXn

et on a

n

X

k=1

(Xk

� Xn

)

2=

n

X

k=1

(X 2k

� 2Xk

Xn

+ X2n

)

=

n

X

k=1

X 2k

!

� 2Xn

n

X

k=1

Xk

!

+ nX2n

=

n

X

k=1

X 2k

!

� 2nX2n

+ nX2n

=

n

X

k=1

X 2k

!

� nX2n

d’où la relation pour S2n

.D’après la loi forte des grands nombres appliquée à la suite (X

n

)

n2N où la moyenne communeà tous les X

k

est m = E(X0) et la variance commune est �2= Var(X0). On a

Xn

p.s.���!n!1

m et X2n

p.s.���!n!1

m2.

De même la suite (X 2k

)

k2N est une suite i.i.d. et on peut donc lui appliquer la loi forte desgrands nombres qui prouve que

1

n

n

X

k=1

X 2k

p.s.���!n!1

E(X 20 ) .

Ainsi

S2n

=

n

n � 1

| {z }

!1

⇥ 1

n

n

X

k=1

X 2k

| {z }

!E(X 20 )

� n

n � 1

| {z }

!1

⇥ X2n

|{z}

!m

2

p.s.���!n!1

E(X 20 )�m2

= �2.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 207: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

193Chapitre 8. Corrigés des exercices

Corrigé de l’exercice 6.8, page 121Posons, pour tout n � 1, S

n

:= X1 + · · · + Xn

. En utilisant le fait que E(Sn

) = nµ et que lavariance d’une somme de variables non corrélées est égale à la somme des variances, on obtient

E

(

Sn

n� µ)

2

= Var✓

Sn

n

=

1

n2

n

X

i=1

Var(Xi

) C

n.

On a donc la convergence vers µ dans L2, et par conséquent en probabilité, de la suite (

S

n

n

)

n�1.

Corrigé de l’exercice 6.9, page 121

Posons, pour tout entier n � 1, In

:=

n

X

k=1

1

nf (U

k

) et remarquons que

E(In

) = E(f (U1)), Var(In

) =

1

n2Var

n

X

k=1

f (Uk

)

!

=

1

nVar (f (U1)) .

Pour obtenir ces deux résultats, on utilise l’indépendance et l’identité des lois des v.a.r. f (Uk

).

De plus comme f est une application de carré intégrable, la constante C := Var (f (U1)) estfinie.Soit � > 0, appliquons l’inégalité de Bienaymé-Tchebycheff à la v.a.r. I

n

2 L2. Il vient, pour

tout entier n � 1,

P (|In

� E(In

)| � �) Var(In

)

�2d’où P (|I

n

� E(f (U1))| � �) C

n�2

en reportant les expressions trouvées ci-dessus. Cela prouve que, pour tout � > 0,

lim

n

P (|In

� E(In

)| � �) = 0, c’est-à-dire que la suite de v.a.r. (In

)N⇤ converge en probabil-ité vers E(f (U1)).

Calculons E(f (U1)). Par le théorème de transfert il vient

E(f (U1)) =

Z

f (U1)dP =

Z

Rf (x)dP

U1(x)

=

Z

Rf (x)1l[0,1]d�(x) =

Z

[0,1]

f d�

ce qui achève la démonstration.

Corrigé de l’exercice 6.10, page 121Pour tout i � 1, X

i

est une v.a.r. intégrable. La loi forte des grands nombres implique

1

n

n

X

i=1

Xi

p.s.�! E[X1] =

1

2

,

d’où, comme f est continue,

f (

1

n

n

X

i=1

Xi

)

p.s.�! f (

1

2

).

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 208: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

194 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Comme f est bornée, il existe une constante M telle que, pour tout n � 1, |f (

1

n

n

X

i=1

Xi

)| M .

Par application du théorème de convergence dominée de Lebesgue

E"

f (

1

n

n

X

i=1

Xi

)

#

�! E

f (

1

2

)

= f (

1

2

).

On applique maintenant le théorème du transfert à la variable aléatoire vectorielle (X1, · · · , Xn

),il vient

E"

f (

1

n

n

X

i=1

Xi

)

#

=

Z

Rn

f (

x1 + · · ·+ xn

n) dP(X1,··· ,Xn

)(x1, · · · , xn

)

=

Z

Rn

f (

x1 + · · ·+ xn

n)

n

Y

i=1

1l[0,1](xi

)d�(n)(x1, · · · , x

n

)

=

Z

[0,1]nf (

x1 + · · ·+ xn

n)d�(n)

(x1, · · · , xn

).

en conclusion,lim

n!+1

Z

[0,1]nf (

x1 + · · ·+ xn

n)d�(n)

(x1, · · · , xn

) = f (

1

2

).

Corrigé de l’exercice 6.11, page 121

1. Comme f est continue sur le compact [0, 1] elle est bornée et en particulier sup

0x1|f (x)|

est fini, de plus la v.a.r. f (

1

nS

n

) est intégrable. Par le théorème de transfert il vient

pn

(x) := E[f (

1

nS

n

)] =

Z

Rf (

t

n) d

n

X

k=0

C k

n

xk

(1� x)

n�k�k

!

(t)

=

n

X

k=0

f (

k

n)C k

n

xk

(1� x)

n�k

.

2. Comme f est continue sur le compact [0, 1] elle est uniformément continue sur [0, 1].

Fixons " > 0, il existe alors � > 0 tel que, pour tout (x , y) 2 [0, 1]

2, |x � y | < � implique

|f (x)� f (y)| < ". De plus

|pn

(x)� f (x)| = |E

f (

1

nS

n

)� f (x)

| E

|f (

1

nS

n

)� f (x)|�

.

Considérons l’événement An

:= {|1nS

n

� x | < �}, il vient

E

|f (

1

nS

n

)� f (x)|�

= E

1lA

n

|f (

1

nS

n

)� f (x)|�

+ E

1lA

c

n

|f (

1

nS

n

)� f (x)|�

"E(1lA

n

) + 2E(1lA

c

n

) sup

0x1|f (x)|

"P(An

) + 2P(Ac

n

) sup

0x1|f (x)|

"+ 2P✓

|1nS

n

� x | � �

sup

0x1|f (x)|

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 209: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

195Chapitre 8. Corrigés des exercices

ce qui prouve la deuxième inégalité.Utilisons maintenant l’inégalité de Bienaymé-Tchebycheff pour majorer le deuxième termedu second membre de l’inégalité précédente.

Comme {|1nS

n

� x | � �} = {|Sn

� E(Sn

)| � n�} il vient

P(|1nS

n

� x | � �) = P(|Sn

� E(Sn

)| � n�) 1

(n�)2Var(S

n

) =

x(1� x)

n�2

ce qui en revenant à la deuxième inégalité donne, pour tout n 2 N⇤ et tout x 2 [0, 1],

|pn

(x)� f (x)| "+ 2

x(1� x)

n�2sup

0x1|f (x)|.

3. D’après la question précédente, pour tout n 2 N⇤, on obtient

sup

0x1|p

n

(x)� f (x)| "+

1

2n�2sup

0x1|f (x)|

où on a utilisé sup

0x1(x(1� x)) =

1

4

(Étudier la fonction numérique h(x) := x(1� x) sur

[0, 1]).

Par suite, pour tout " > 0, il existe N 2 N tel que, pour tout n 2 N⇤, n � N implique

sup

0x1|p

n

(x)� f (x)| < 2", ce qui prouve que la suite de polynômes (pn

)N converge uni-

formément sur [0, 1] vers la fonction f .

Corrigé de l’exercice 6.12, page 122

1. Appliquons le résultat de l’exercice 4.17, page 92, à la v.a.r. positive |X | pour n = 1.

Cela donne E(|X |) =

R +10 P(|X | > t)dt. On peut alors écrire

E(|X |) =

Z +1

0

X

n�0

1l[n,n+1[(t)P(|X | > t)dt

=

X

n�0

Z +1

0

1l[n,n+1[(t)P(|X | > t)dt X

n�0

P(|X | � n)

où pour obtenir la dernière inégalité on a utilisé la majoration

1l[n,n+1[(t)P(|X | > t) 1l[n,n+1[(t)P(|X | � n).

2. Soit ! 2 {(1

nS

n

)N⇤ converge dans R}. Comme

Sn

(!)

n� S

n+1(!)

n + 1

=

Sn

(!)

n(n + 1)

� Xn+1(!)

n + 1

et que

lim

n!+1

Sn

(!)

n� S

n+1(!)

n + 1

= 0 = lim

n!+1

Sn

(!)

n(n + 1)

,

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 210: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

196 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

la suite✓

1

n + 1

Xn+1(!)

Nconverge vers 0. Par suite seuls un nombre fini d’entiers n

vérifient1

nX

n

(!) � 1 ou encore |Xn

(!)| � n. ! ne peut donc pas appartenir à l’ensemblelim sup

n

{|Xn

| � n}, ce qui prouve l’inclusion cherchée.

3. Comme les v.a.r. sont toutes de même loi, pour tout n 2 N, nous avons P(|X1| � n) =

P(|Xn

| � n) et par suite, en revenant à l’inégalité de la première question appliquée à lav.a.r. X1,

E(|X1|) X

n�0

P(|X1| � n) =

X

n�0

P(|Xn

| � n).

Comme X1 n’est pas intégrable, E(|X1|) = +1 et par suite en vertu de l’inégalitéprécédente, la série

P

n

P(|Xn

| � n) diverge. Comme la suite (Xn

)N est indépendante, lesévénements {|X

n

| � n} sont indépendants. Par application du lemme de Borel-Cantelli

on en déduit que P(lim sup

n

{|Xn

| � n}) = 1 ou encore P✓

[lim sup

n

{|Xn

| � n}]c◆

= 0.

Mais de l’inclusion de la deuxième question on déduit que

P✓

(

1

nS

n

)N⇤ converge dans R◆

= 0.

Ce qui signifie que la suite de v.a.r. (

1

nS

n

)N⇤ ne converge pas presque-sûrement dans R.

Corrigé de l’exercice 6.13, page 122

1. Considérons l’événement A := {(1

nS

n

)N⇤ converge vers m}. Soit ! 2 A, alors la suite(S

n

(!))N⇤ converge vers +1 si m > 0 ou �1 si m < 0. Par suite l’ensemble{n 2 N/S

n

(!) 2 I} est fini car l’intervalle I est supposé borné ; ce qui signifie que

! 2✓

lim sup

n

{Sn

2 I}◆

c

. On a donc l’inclusion d’événements A ✓✓

lim sup

n

{Sn

2 I}◆

c

.

2. Il s’agit de montrer que P✓

lim sup

n

{Sn

2 I}◆

c

= 1. D’après la loi forte des grands

nombres, l’événement A = {(1

nS

n

)N⇤ converge vers m} est de probabilité égale à 1, c’est-à-dire P(A) = 1. Ce qui donne, compte-tenu de l’inclusion démontrée en 1), le résultatcherché.

8.7 Corrigés des exercices du chapitre VII

Dans ce paragraphe, toutes les variables aléatoires considérées sont supposées définies sur unmême espace de probabilité (⌦ , F , P).

Corrigé de l’exercice 7.1, page 1271) Considérons pour k = 1, ..., N la v.a.r. X

k

= 1 si la kième va dans la salle 1 et Xk

= 0 sinon(elle va alors dans la salle 2). La v.a.r. X

k

est de loi de Bernoulli de paramètre 1/2. Commele choix des spectateurs est supposé indépendant, X1, ..., XN

sont des v.a.r. indépendantes. Lenombre de spectateurs qui désirent aller dans la salle 1 est donc S = S

N

= X1 + ... + XN

qui

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 211: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

197Chapitre 8. Corrigés des exercices

est une v.a.r. B(N ;

12). L’événement "tous les spectateurs ne peuvent pas voir le film qu’ils ont

choisi" se modélise par :

{S > n} [ {N � S > n} = {S > n} [ {S < N � n} .

On remarque que si N > 2n, on est sûr qu’il y a au moins un spectateur qui ne verra pas sonfilm. Dans ce cas, P = 1. De même, si N < n, on est sûr que tous les spectateurs pourrontvoir leur film. Dans ce cas, P = 0.Étudions le cas où n N 6 2n c’est-à-dire 0 N � n 6 n. Dans ce cas, {S > n} \ {S <N � n} = Ø et donc P = P(S > n) + P(S 6 N � n). D’après le théorème central limite (Nest implicitement supposé grand), on a

lim

N!1P

S

N

� 12

12p

N

6 x

!

=

Z

x

�1

1p2⇡

e�u

2/2du .

Si on note T =

S

N

� 12

12p

N

, c’est une v.a.r. asymptotiquement de loi N (0,1) et donc

P = P

T >n � N

2p

N/4

!

+ P

T <N � n � N

2p

N/4

!

= P

|T | > n � N

2p

N/4

!

= 2

1� �⇥(2n � N)/p

N⇤

,

où � désigne la fonction de répartition de la loi N (0,1).2) Si N = 1000 et si on veut P 6 0.01, il faut choisir n pour que �[(2n�1000)/

p1000] > 0.95.

La lecture inverse de la table de N (0, 1) donne �(2.58) ' 0.95 d’où (2n�1000)/p

1000 > 2.58

et par suite il faut prendre n > 541.

Corrigé de l’exercice 7.2, page 129La fonction de répartition de �

n

est 1l[n,1[ pour tout n 2 N. De plus lim

n!11l[n,1[(x) = 0 donc la

limite de la suite de fonctions de répartition (1l[n,1[)n2N est la fonction-nulle qui n’est pas unefonction de répartition car elle ne vérifie pas lim

x!1F (x) = 1.

On a donc la convergence simple de la suite de fonction de répartitions (F�n

)

n2N mais la suite(�

n

)

n2N ne converge pas étroitement vers une limite µ, sinon on aurait lim

n!1F�

n

(x) = Fµ(x) = 0

pour tout point x de continuité de Fµ et donc Fµ = 0, ce qui est impossible.

Corrigé de l’exercice 7.3, page 131On sait par le théorème de stabilité de la somme de variables de Poisson indépendantes, que laloi de S

n

est P(n). Remarquons alors que

e�n

k=n

X

k=0

nk

k!

= P(Sn

n) et {Sn

n} = { 1pn(S

n

� n) 0}.

Par suite,

e�n

k=n

X

k=0

nk

k!

= P✓

1pn(S

n

� n) 0

.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 212: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

198 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Le théorème-limite central permet d’affirmer que la suite✓

1pn(S

n

� n)

n�1

converge en loi

vers une variable Y de loi N 1(0, 1). En particulier P(

1pn(S

n

�n) 0) tend vers P(Y 0) =

1

2

quand n tend vers +1. On conclut donc que la suite

e�n

k=n

X

k=0

nk

k!

!

n�1

converge vers1

2

.

Corrigé de l’exercice 7.4, page 132Soit X le nombre de transistors défectueux dans un sachet de 100, X suit une loi B(100;0.01).L’événement "la garantie tombe en defaut" se modélise par {X > 3}. Comme le proposent lescommentaires qui suivent la proposition 7.14, page 132, on approxime la loi binomiale par laloi de Poisson de paramètre 1 car on a n = 100 > 30, np = 100⇥ 0.01 < 10 et p 6 0.1. D’où

P(X > 3) = 1� P(X 6 2) ' 1� P(P(1) 6 2) ' 1� 0.92 ' 8% .

Corrigé de l’exercice 7.5, page 133Pour tout N 2 S , posons µ

N

:= H(N , n, p). µN

est une probabilité discrète portée parl’ensemble des entiers compris entre 0 et n. D’après le critère de convergence des probabilitésdiscrètes, il suffit de montrer que, pour tout entier k compris entre 0 et n, la suite (µ

N

({k}))N2S

converge vers B(n, p)({k}) = C k

n

pkqn�k

.

Soit k un entier compris entre 0 et n, après explicitation des coefficients binomiaux, on peutécrire

µN

({k}) = C k

n

[(Np)(Np � 1)...(Np � k + 1)] [(Nq)(Nq � 1)...(Nq � n + k + 1)]

[N(N � 1)...(N � n + 1)]

.

Mais, pour N voisin de l’infini,

[(Np)(Np � 1)...(Np � k + 1)] , [(Nq)(Nq � 1)...(Nq � n + k + 1)]

et[N(N � 1)...(N � n + 1)]

sont respectivement équivalents à (Np)

k

, (Nq)

n�k et Nn

. Par suite, pour N voisin de l’infini,µ

N

({k}) est équivalent à C k

n

pkqn�k

, ce qui termine la démonstration. Ce résultat exprimequ’une loi hypergéométrique peut être approximée par une loi binomiale.

Corrigé de l’exercice 7.6, page 136Pour tout n � 1, on vérifie facilement que l’application définie par

fn

(x) :=

1� cos(2⇡nx) si x 2 [0, 1]

0 si x 2 [0, 1]

c

est une densité de probabilité. La fonction de répartition Fn

associée à la probabilité de densitéfn

est donnée par

Fn

(t) =

Z

]�1,t]

fn

(x)d�(x) =

8

<

:

0 si t 2]�1, 0],

t � 12⇡n

sin(2⇡nt) si t 2]0, 1],

1 si t 2]1, +1[.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 213: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

199Chapitre 8. Corrigés des exercices

La suite (Fn

)

n�1 converge simplement vers la fonction F définie par F (t) := t1l[0,1[(t) +

1l[1,+1[(t). F est la fonction de répartition de la loi uniforme U([0, 1]) de densité f = 1l[0,1]. Ona donc une convergence étroite des probabilités de densités f

n

vers la loi uniforme, mais la suitedes densités n’a de limite en aucun point de ]0, 1[.

Corrigé de l’exercice 7.7, page 138Si (a

n

)N et (�n

)N convergent respectivement vers les réels a et �, alors (an

)N et (�2n

)N con-vergent respectivement vers les réels a et �2

, et pour tout t 2 R, la suite (�µn

(t))N =

exp

ian

t � 1

2

t2�2n

◆◆

Nconverge vers exp

iat � 1

2

t2�2

. La suite des fonctions carac-

téristiques�

�N 1(an

,�2n

)

N converge simplement vers la fonction caractéristique de la probabilitéN 1(a,�2

). On conclut alors en utilisant le critère des fonctions caractéristiques.

Corrigé de l’exercice 7.8, page 141On obtient facilement, pour tout n � 1, la fonction de répartition F

n

de µn

: Fn

(t) =

tn1l[0,1[(t)+1l[1,+1[(t). Cette suite de fonctions de répartition converge simplement vers 1l[1,+1[

qui est la fonction de répartition de �1. La suite (µn

)

n�1 converge donc étroitement vers �1. Onremarquera qu’une suite de probabilités absolument continues peut converger étroitement versune probabilité discrète.

Corrigé de l’exercice 7.9, page 141On sait que la fonction caractéristique de la loi de Cauchy est définie par �(t) = e�|t|.

• Pour tout n � 1, la fonction caractéristique de1pnS

n

est donnée par

� 1pn

S

n

(t) = E[ei tpn

S

n

] =

E[ei tpn

X1]

n

= e�|t|p

n

du fait de l’indépendance de la suite (Xn

)

n�1. Comme la suite⇣

e�|t|p

n

n�1tend vers 1l{0}(t)

qui définit une application non continue en 0, c-à-d que la limite des fonctions caractéristiques

n’est pas une fonction caractéristique, la suite✓

1pnS

n

n�1

ne converge pas en loi et donc ne

peut pas converger en probabilité.

• Pour tout n � 1, la fonction caractéristique de1

nS

n

est donnée par � 1n

S

n

(t) = e�|t|. La suite✓

1

nS

n

n�1

converge donc en loi vers une v.a.r. de loi de Cauchy. Si cette suite convergeait en

probabilité, alors la suite✓

Sn

n� S2n

2n

n�1

convergerait en probabilité vers 0 et donc convergerait

en loi vers 0. Or la fonction caractéristique deS

n

n� S2n

2nest donnée par

�S

n

n

� S2n

2n

(t) = E[ei t

2n

(X1+···+X

n

�(Xn+1+···+X2n

))] = e�|t|

qui ne converge pas vers 1R, fonction caractéristique de la v.a.r. constante 0, lorsque n tend

vers +1. Donc la suite✓

1

nS

n

n�1

ne converge pas en probabilité.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 214: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

200 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

• Pour tout n � 1, la fonction caractéristique de1

n2S

n

est donnée par � 1n

2 S

n

(t) = e�|t|n qui

converge en +1 vers 1, fonction caractéristique de la v.a.r. 0. La suite✓

1

n2S

n

n�1

converge

donc en loi vers 0 et d’après la première question, elle converge aussi en probabilité vers 0.

Corrigé de l’exercice 7.10, page 142

1. Pour tous t 2 R, ↵ > 0, et n 2 N,

|�X

n

+Y

n

(t)� �X

n

(t)| =

�E⇥

e i tX

n

(e i tY

n � 1)

� E⇥|e i tY

n � 1|⇤

=

Z

{|Yn

|>↵}|e i tY

n � 1|dP +

Z

{|Yn

|↵}|e i tY

n � 1|dP

2P(|Yn

| > ↵) +

Z

{|Yn

|↵}|e i tY

n � 1|dP.

2. Remarquons que (Yn

)N converge en loi vers la v.a.r. 0 si et seulement si (Yn

)N convergeen probabilité vers la v.a.r. 0 (cf. exercice V-6). Soit " > 0, il existe ↵0 > 0 tel que pour|y | ↵0 on ait |e i ty � 1| ". De plus la convergence de la suite (Y

n

)N en probabilitévers 0 conduit à l’existence de n0 2 N tel que pour n � n0, P(|Y

n

| > ↵0) " et parsuite |�

X

n

+Y

n

(t)��X

n

(t)| 3". La convergence en loi vers X de la suite (Xn

)N entraînel’existence d’un entier n1, que l’on peut choisir plus grand que n0, tel que, pour toutn � n1, |�X

n

(t)� �X

(t)| ". On a montré que pour tout n � n1,

|�X

n

+Y

n

(t)� �X

(t)| |�X

n

+Y

n

(t)� �X

n

(t)|+ |�X

n

(t)� �X

(t)| 4",

ce qui prouve la convergence en loi vers X de la suite (Xn

+ Yn

)N.3. Supposons que X soit une v.a.r. de loi symétrique , i.e. X a même loi que �X (par

exemple PX

:=

12(��1 +�1) ou P

X

:= N 1(0, 1)), et posons, pour tout n 2 N, Xn

:= �X .Il est clair que la suite (X

n

)N converge en loi vers X et que la suite (Xn

� X )N convergeen loi vers �2X 6= 0.

Corrigé de l’exercice 7.11, page 142

1. Un raisonnement par récurrence montre facilement que, pour tout n 2 N⇤,

Xn

=

n

X

k=1

✓n�kUk

.

La suite des v.a.r. (✓n�kUk

)

k=1,··· ,n est indépendante, car (Uk

)N l’est. De plus on vérifieaisément que la loi de ✓n�kU

k

est N 1(0, ✓2n�2k�2).

Xn

est la somme de v.a.r. normales indépendantes centrées, sa loi est donc la loi normalecentrée de variance

si |✓| 6= 1, Var(Xn

) =

P

n

k=1 ✓2n�2k�2

=

1�✓2n

1�✓2 �2

si |✓| = 1, Var(Xn

) = n�2.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 215: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

201Chapitre 8. Corrigés des exercices

2. Considérons la fonction caractéristique de la v.a.r. Xn

. Pour tout t 2 R,

si |✓| 6= 1, �X

n

(t) = exp

�1�✓2n

1�✓2 �2t2⌘

si |✓| = 1, �X

n

(t) = exp (�n�2t2) .

Si |✓| < 1, la suite (�X

n

(t))N converge, pour tout t 2 R, vers exp

� 1

1� ✓2�2t2

qui

est la valeur en t de la fonction caractéristique de la loi N 1

0,

1

1� ✓2�2

. Dans ce cas

la suite (Xk

)N converge en loi vers une v.a.r. de loi N 1

0,

1

1� ✓2�2

.

Si |✓| = 1, la suite (�X

n

(t))N converge, pour tout t 6= 0, vers 0 et pour t = 0, vers 1. Lafonction limite n’étant pas continue en 0, elle ne peut pas être la fonction caractéristiqued’une probabilité. Dans ce cas la suite (X

k

)N ne converge pas en loi.

Si |✓| > 1, la suite (�X

n

(t))N converge, pour tout t 2 R, vers 0. La fonction limitene prenant pas la valeur 1 en 0, elle ne peut pas être la fonction caractéristique d’uneprobabilité. Dans ce cas la suite (X

k

)N ne converge pas en loi.

Corrigé de l’exercice 7.12, page 142

1. Supposons que la suite (Xn

)N converge en loi vers X et considérons l’application continuebornée f", " > 0, définie par

f"(t) := (x � ")1l]�1,x�"[(t) + t1l[x�",x+"[(t) + (x + ")1l[x+",+1[(t).

Comme E[f"(Xn

)] = f"(xn

), pour tout n 2 N, la suite (f"(xn

))N converge vers f"(x) = x . Ilexiste un entier n0 tel que, pour tout entier n � n0,, |f"(xn

)�x | < ", par suite f"(xn

) = xn

et |xn

� x | < ". La suite (xn

)N converge vers x .

Réciproquement si la suite (xn

)N converge vers x alors, pour toute application f de Rdans R continue bornée et tout n 2 N, E[f (X

n

)] = f (xn

). Comme E[f (X )] = f (x), onen déduit que la suite (E[f (X

n

)])N converge vers E[f (X )], d’où la convergence en loi dela suite (X

n

)N vers X .2. Soit F

X

la fonction de répartition de la v.a.r. X et FX

n

celle de Xn

, n 2 N. Par hypothèse,en dehors de l’ensemble D des points de discontinuité de F , la suite (F

n

)N convergesimplement vers F

X

. Comme, pour tous n 2 N et t 62 D, FX

n

(t) = 1l[xn

,+1[(t), il vientF

X

(t) 2 {0, 1}. On peut alors utiliser le résultat de l’exercice 3.23, page 60, puisqueD := Dc est partout dense comme complémentaire d’un ensemble dénombrable dansR (cf. proposition 7.8, page 129). Donc il existe x 2 R tel que P

X

= �x

et d’après laquestion précédente on peut ajouter que la suite (x

n

)N converge vers x .

Corrigé de l’exercice 7.12, page 142On rappelle que la f.c. de la probabilité de Gauss N 1(a,�

2) est l’application définie sur R par

�µ(t) = exp

iat � 1

2

t2�2

.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 216: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

202 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

1. (a) Montrons que la suite (�2n

)N est bornée.Raisonnons par l’absurde et supposons que la suite de réels positifs (�2

n

)N n’estpas bornée. Il existe alors une suite (�2

n

k

)

k2N extraite de la précédente convergeantvers +1. Comme la suite (µ

n

)N converge étroitement vers µ, d’après le critère desfonctions caractéristiques, la f.c. �µ de µ est la limite simple sur R de la suite def.c. (�µ

n

)N. En considérant la suite des modules de ces f.c. on obtient, pour toutt 2 R,

|�µ(t)| = lim

n

| exp(ian

t)| exp✓

�1

2

t2�2n

= lim

n

exp

�1

2

t2�2n

= lim

k

exp

�1

2

t2�2n

k

.

Par suite, |�µ(0)| = 1 et si t 6= 0, |�µ(t)| = 0. La f.c. �µ n’est donc pas continueen 0, ce qui contredit la propriété de continuité sur R des f.c. et prouve ainsi que lasuite (�2

n

)N est bornée.Montrons que la suite (�2

n

)N est convergente.La suite (�2

n

)N est bornée, donc il existe M > 0 tel que, pour tout n 2 N, �2n

2 [0, M].

Comme [0, M] est un compact, la suite (�2n

)N admet au moins une valeur d’adhérence�2 dans [0, M]. Si (�2

n

)N admet une autre valeur d’adhérence ⌧ 2 dans [0, M], alors⌧ 2 (resp. �2) est limite de la suite (�2

m

k

)

k2N (resp. (�2n

k

)

k2N) extraite de (�2n

)N. Parun raisonnement déjà effectué, il vient, pour tout t 2 R,

|�µ(t)| = lim

k

exp

�1

2

t2�2n

k

= exp

�1

2

t2�2

= lim

k

exp

�1

2

t2�2m

k

= exp

�1

2

t2⌧ 2

,

ce qui implique que ⌧ 2= �2

. Cela montre que �2 est la seule valeur d’adhérence dela suite (�2

n

)N dans le compact [0, M], d’où

lim inf

n

(�2n

) = lim sup

n

(�2n

) = lim

n

(�2n

) = �2.

(b) Considérons, pour tout n 2 N, la f.c. �n

de �a

n

. On peut écrire, pour tout t 2 R,

�n

(t) = exp(ian

t) = �µn

(t) exp

1

2

t2�2n

et par passage à la limite (t) := lim

n

�n

(t) = �µ(t) exp

1

2

t2�2

. L’application

ainsi définie est continue en 0 et limite simple d’une suite de f.c.. D’après le théorèmede continuité de Lévy, il existe une probabilité ⌫ sur R dont est la f.c. et la suite(�

a

n

)N converge étroitement vers ⌫. Par suite, si on note C l’ensemble des réels oùla fonction de répartition de ⌫ est continue, pour tout t 2 C , F⌫(t) = lim

n

F�a

n

(t).

On en déduit que, pour tout t 2 C , F⌫(t) 2 {0, 1}, mais C est une partie partoutdense de R, ce qui implique que ⌫ est la mesure de Dirac en un point a 2 R. Onconclut alors que la suite (a

n

)N converge dans R vers le réel a.Revenant à la fonction caractéristique de µ, on peut écrire, pour tout t 2 R,

�µ(t) = lim

n

exp

ian

t � 1

2

t2�2n

= exp

iat � 1

2

t2�2

,

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 217: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

203Annexe . Corrigés des exercices

ce qui, avec la convention adoptée, prouve que µ = N 1(a,�2).

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 218: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

204 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 219: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

205Annexe A. Formulaire

Annexe A

Formulaire

Ce formulaire sera fourni avec les sujets lors des épreuves terminales.

A.1 Rappels de notations

On rappelle les conventions et notations suivantes :

1. Pour tous entiers relatifs k et n, C k

n

:=

n!

k!(n � k)!

si 0 k n, et C k

n

:= 0 sinon.

2. L’écriture µ := ⇢ · � signifie que ⇢ est une densité de probabilité définie sur R par ⇢(x)

et que µ est la probabilité sur R définie par cette densité ⇢.3. � désigne la mesure de Lebesgue sur R.

4. Pour tout réel a > 0, � (a) :=

Z +1

0

e�xxa�1dx . En particulier, � (1/2) =

p⇡ et, pour

tout entier n � 1, � (n) = (n � 1)! .

Pour chaque probabilité µ de la liste, on trouvera :1. son nom, sa notation, sa définition ;2. sa fonction de répartition F définie sur R par F (x) := µ(]�1, x ]) ;

3. sa fonction caractéristique � définie sur R par �(t) :=

Z

Re i txdµ(x) (sauf pour la

probabilité hypergéométrique) ;

4. son espérance (moment d’ordre 1) m :=

Z

Rxdµ(x) et sa variance (moment centré d’ordre

2) �2:=

Z

R(x �m)

2dµ(x), si ces moments existent.

A.2 Quelques relations à connaître en probabilités

Somme d’une série géométrique et ses dérivées terme à termePour tout réel 0 < x < 1,

+1X

k=0

xk

=

1

1� x

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 220: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

206 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

+1X

k=1

kxk�1=

1

(1� x)

2

+1X

k=2

k(k � 1)xk�2=

2

(1� x)

3

et de façon plus générale, pour tout entier naturel p � 1,

+1X

k=p

k(k � 1)(k � 2) · · · (k � p + 1)xk�p

=

p!

(1� x)

p+1.

Somme de la série exponentielle népériennePour tout réel x ,

+1X

k=0

xk

k!

= ex

Intégrale de Gauss

Z +1

�1e�

12 t

2dt =

p2⇡

Formule du binôme de NewtonPour tous réels a, b, et tout entier naturel n,

(a + b)

n

=

k=n

X

k=0

C k

n

akbn�k

Relation de VandermondePour tous entiers naturels n, m, et N tels que 0 N n + m,

k=N

X

k=0

C k

n

CN�k

m

= CN

n+m

Relation de PascalPour tous entiers naturels n, k tels que 0 k n,

C k

n+1 = C k

n

+ C k�1n

Deux autres relations utilesPour tous entiers naturels n, p tels que 0 p n,

pC p

n

= nC p�1n�1

k=n+p

X

k=n

C n

k

= C n+1n+p+1

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 221: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

207Annexe A. Formulaire

A.3 Probabilités usuelles discrètes

1. Dirac : �a

, a 2 R

F (x) = 1l[a,+1[(x) et �(t) = e i ta

m = a et �2= 0

2. Bernoulli : B(p) := p�1 + (1� p)�0, p 2]0, 1[

F (x) = (1� p)1l[0,1[(x) + 1l[1,+1[(x) et �(t) = 1� p + pe i t

m = p et �2= p(1� p)

3. Bernoulli-symétrique : Bs

(p) := (1� p)��1 + p�1, p 2]0, 1[

F (x) = (1� p)1l[�1,1[(x) + 1l[1,+1[(x) et �(t) = (1� p)e�i t

+ pe i t

m = 2p � 1 et �2= 4p(1� p)

4. Binomiale : B(n, p) :=

k=n

X

k=0

C k

n

pk

(1� p)

n�k�k

, p 2]0, 1[ et n 2 N⇤

F (x) =

k=n

X

k=0

C k

n

pk

(1� p)

n�k1l[k,+1[(x) et �(t) = (1� p + pe i t

)

n

m = np et �2= np(1� p)

5. Binomiale-négative : I(r , p) :=

X

k�0

C r�1k+r�1p

r

(1� p)

k�k

, p 2]0, 1[ et r 2 N⇤

F (x) =

+1X

k=0

C r�1k+r�1p

r

(1� p)

k1l[k,+1[(x) et �(t) =

p

1� (1� p)e i t

r

m =

r(1� p)

pet �2

=

r(1� p)

p2

6. Géométrique : G(p) :=

+1X

k=1

p(1� p)

k�1�k

, p 2]0, 1[

F (x) =

+1X

k=1

p(1� p)

k�11l[k,+1[(x) et �(t) =

pe i t

1� (1� p)e i t

m =

1

pet �2

=

1� p

p2

7. Hypergéométrique : H(n1, n2, n) :=

k=n

X

k=0

C k

n1C n�k

n2

C n

n1+n2

�k

, n 2 N⇤, n1 2 N⇤ et n2 2 N⇤

avec n n1 + n2

F (x) =

k=n

X

k=0

C k

n1C n�k

n2

C n

n1+n2

1l[k,+1[(x)

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 222: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

208 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

m =

nn1

n1 + n2et �2

= nn1n2(n1 + n2 � n)

(n1 + n2)2(n1 + n2 � 1)

8. Poisson : P(↵) :=

+1X

k=0

e�↵↵k

k!

�k

, ↵ > 0

F (x) =

+1X

k=0

e�↵↵k

k!

1l[k,+1[(x) et �(t) = exp

↵(e i t � 1)

m = ↵ et �2= ↵

9. Uniforme-discrète : U(n) :=

1

n

k=n

X

k=1

�k

, n 2 N⇤

F (x) =

1

n

k=n

X

k=1

1l[k,+1[(x) et �(t) =

1

n

k=n

X

k=1

e i tk

m =

n + 1

2

et �2=

n2 � 1

12

A.4 Probabilités usuelles à densité

1. Uniforme-continue : U([a, b]) := ⇢ · �, a, b 2 R avec a < b et

⇢(x) :=

1

b � a1l]a,b[(x)

F (x) =

x � a

b � a1l[a,b[(x) + 1l[b,+1[(x) et �(t) =

e i tb � e i ta

i t(b � a)

m =

a + b

2

et �2=

(b � a)2

12

2. Gamma : �(a, ✓) := ⇢ · �, a > 0 et ✓ > 0 avec ⇢(x) :=

✓axa�1

� (a)e�✓x1l]0,+1[(x)

F (x) =

Z

x

�1

✓a

� (a)e�✓tta�11l]0,+1[(t)dt et �(t) =

✓ � i t

a

m =

a

✓et �2

=

a

✓2

3. Exponentielle : E(↵) := �(1,↵) = ⇢ · �, ↵ > 0 avec ⇢(x) := ↵e�↵x1l]0,+1[(x)

F (x) = (1� e�↵x

)1l[0,+1[(x) et �(t) =

↵� i t

m =

1

↵et �2

=

1

↵2

4. Khi-deux : �2(n) := �(

n

2

,

1

2

) = ⇢ · �, n 2 N⇤ avec ⇢(x) :=

xn

2�1

��

n

2

2

n

2e�

x

2 1l]0,+1[(x)

F (x) =

Z

x

�1⇢(t)dt et �(t) =

1

1� 2i t

n

2

m = n et �2= 2n

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 223: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

209Annexe A. Formulaire

5. Cauchy : C(a) := ⇢ · �, a > 0 avec ⇢(x) :=

a

⇡(a2+ x2

)

F (x) =

1

h⇡

2

+ arctan

⇣x

a

⌘i

et �(t) = e�a|t|

Les moments m et �2 n’existent pas

6. Normale ou Gauss-Laplace :N 1(a, b) := ⇢ · �, a 2 R et b > 0 avec ⇢(x) :=

1p2b⇡

e�(x�a)2

2b

F (x) =

1p2b⇡

Z

x

�1e�

(u�a)2

2b du et �(t) = exp

iat � bt2

2

m = a et �2= b

7. Normale d-dimensionnelle : Nd

(m, D) := ⇢ · �d

, où d 2 N⇤, m 2 Rd , D ma-

trice carrée d’ordre d à coefficients réels, symétrique, inversible, de type positif, et

⇢(x) :=

1

p

(2⇡)

d

det(D)

exp

�1

2

(x �m)

⇤D�1(x �m)

, où x 2 Rd ;

�X

(u) = exp

iu⇤m � 1

2

u⇤Du

, où u 2 Rd et l’opération ⇤ désigne la transposition ;

m est le vecteur-espérance et D la matrice de dispersion de Nd

(m, D)

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 224: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

210 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 225: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

211Annexe B. Table de la loi normale standard

Annexe B

Table de la loi normale

standard

Dans ce cours nous n’utiliserons que la table de la fonction de répartition de la loi normalestandard appelée aussi loi normale centrée-réduite ou loi de Gauss-Laplace standard.Cette table, qui est reproduite à la fin de l’annexe, sera fournie, sans les explications d’utilisation,avec les sujets lors des épreuves terminales.

B.1 Calculs avec des v.a.r. normales centrées-réduites

Voici quelques exemples d’utilisation de la table de la loi normale standard.

Tout calcul numérique de probabilité avec une variable aléatoire X normale standard se ramèneà déterminer la valeur d’expressions de la forme P(a < X < b) ou P(X < b) ou P(a < X ).Les inégalités pouvant être strictes ou larges, cela ne change rien aux calculs car la fonction derépartition de la loi normale standard est continue sur R.

La table de la loi normale standard reproduite donne les valeurs, connaissant le réel t positif,des expressions P(X < t). On peut toujours se ramener à ces cas moyennant les relations

1. Si t est une réel positif, P(X < t) est donné par la table.2. Si t est une réel positif, P(X > t) = 1� P(X < t).

3. Si t est une réel strictement négatif, P(X < t) = 1� P(X < �t).

4. Si t est une réel strictement négatif, P(X > t) = P(X < �t).

Pour lire dans la table la valeur de P(X < t) pour t positif, par exemple pour t = 2, 37, onprocède de la façon suivante. On remarque que 2, 37 = 2, 3 + 0, 07. La valeur de P(X < 2, 37)

est lue à l’intersection de la ligne horizontale 2, 3 (valeur lue dans la première colonne de latable) et de la colonne verticale 0, 07 (valeur lue dans la première ligne de la table). On trouveP(X < 2, 37) = 0, 9911.

On peut remarquer que la table ne donne des valeurs de P(X < t) que pour 0 < t < 3. Celaest dû au fait que pour les valeurs supérieures à 3, P(X < t) ⇡ 1 et par suite P(X > t) ⇡ 0.

Toutefois la table donne les valeurs de P(X < t) pour t prenant des valeurs entre 3 et 4, 5 aveccinq décimales (tables des grandes valeurs pour t située au bas de la page).

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 226: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

212 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

B.2 Calculs avec des v.a.r. normales de paramètres

quelconques

Pour ce qui est du calcul de probabilité dans le cas de v.a.r. normales quelconques, on rappellela proposition suivante, qui est une réécriture avec le langage des v.a.r. de la proposition 2.9,page 26 :Proposition B.1.Procédé de standardisationUne v.a.r. X est normale d’espérance m et de variance �2 > 0 si, et seulement, si la v.a.r.

Z :=

X �m

�est une v.a.r. normale centrée-réduite.

Comme, pour tout réel a et b avec a < b,

{a < X < b} = {a �m

�< Z <

b �m

�},

on a

P(a < X < b) = P

a �m

�< Z <

b �m

!

.

Ainsi tout événement faisant intervenir dans sa formulation une v.a.r. X normale d’espérance m

et de variance �2 > 0 peut donc être exprimé avec la v.a.r. Z :=

X �m

�de loi normale centrée-

réduite. Le procédé de standardisation permet de ramener tout calcul de probabilité relatif àune loi normale quelconque à un calcul de probabilité relatif à la loi normale centrée-réduite, etdonc à l’utilisation uniquement de la table statistique de la loi normale centrée-réduite.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 227: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

213Annexe B. Table de la loi normale standard

Fonction de répartition de la loi normale centrée-réduite ou standard

(Pour tout u > 0, la table donne la probabilité que la v.a. prenne une valeur inférieure à u>0)

u 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,090 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359

0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753

0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141

0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517

0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879

0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224

0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549

0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852

0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133

0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389

1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621

1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830

1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015

1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177

1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319

1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441

1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545

1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633

1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706

1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767

2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817

2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857

2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890

2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916

2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936

2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952

2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964

2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974

2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981

2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986

Table pour les grandes valeurs de u

u 3 3,1 3,2 3,3 3,4 3,5 4 4,5

F(u) 0,99865 0,99903 0,99931 0,99952 0,99966 0,99977 0,99997 0,999997

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 228: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

214 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 229: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

215Annexe C. Devoirs à envoyer à la correction

Annexe C

Devoirs à envoyer à la

correction

Les trois devoirs ci-dessous sont à renvoyer pour leur correction, au plus tard à la date indiquée,à l’adresse suivante :

Bruno Saussereau,Laboratoire de Mathématiques de Besançon,UFR Sciences et Techniques,16, route de Gray,25030 Besançon cedex, FRANCE

Le but premier d’un devoir est de montrer au correcteur que vous avez compris le cours, quevous connaissez les résultats vus en cours et les hypothèses qui les commandent, et que voussavez les mobiliser pour répondre à une question ou démontrer un résultat nouveau. Il est doncrecommander de tout mettre en oeuvre pour atteindre cet objectif.

En particulier :Un devoir de mathématiques est un devoir de français qui traite de mathématiques, c’estdonc avant tout un texte de français. Il doit donc être rédigée de façon correcte en français.Les hypothèses spécifiques justifiant l’utilisation de chaque théorème doivent être correctementexplicitées et le résultat du cours utilisé doit être clairement identifié voire explicitement énoncé.Les résultats intermédiaires et les conclusions obtenues doivent être mis en évidence. Lesnotations utilisées ou introduites, surtout si elles sont nouvelles par rapport au cours, doiventêtre clairement annoncées. La rédaction du cours peut être considérée comme un guide derédaction d’un texte mathématique.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 230: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

216 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

C.1 Devoir 1 à renvoyer le 21 février 2014 au plus tard

La rédaction et la présentation de la copie, la justification des affirmations par référence auxrésultats du cours seront des éléments d’appréciation essentiels dans la notation.

Exercice ISoit X une variable aléatoire normale centrée réduite. Préciser, dans chacun des cas ci-dessous,la loi de probabilité de la variable aléatoire Y définie en fonction de X

1. Y = X 3.

2. Y = F (X ) où F est la fonction de répartition de la variable X .

Exercice IISoit X une v.a.r. normale de loi N (m,�2

), où m et � sont des réels avec � > 0.

1. Montrer que la fonction caractéristique de X peut s’exprimer à l’aide de la fonctioncaractéristique � de la loi de Gauss-Laplace standard N (0, 1).

2. En utilisant le théorème de dérivation sous le signeZ

, montrer que � est une solution

particulière de l’équation différentielle du premier ordre y 0(t) + ty(t) = 0. En déduirel’expression analytique de la fonction �, puis celle de la fonction caractéristique de lavariable X .

Exercice IIISoit (X

k

)

k2N une suite indépendante de v.a.r. de Bernoulli toutes de même paramètre 0 < p <1. Soit un entier r � 1, on définit deux nouvelles v.a.r. , en posant pour tout ! 2 ⌦ ,

⌧r

(!) := inf{n 2 N⇤/X1(!) + X2(!) + ... + Xn

(!) = r}

et✓r

(!) := inf{n 2 N⇤/X1(!) + X2(!) + ... + Xn+r

(!) = r}avec la convention inf Ø := +1.

1. Montrer, pour tout x 2]0, 1[, la relation

+1X

k=r�1

C r�1k

xk�r+1=

1

(1� x)

r

.

2. Montrer que la variable aléatoire réelle ⌧r

est une variable aléatoire réelle discrète de loi(dite loi de Pascal de paramètres r et p )

P(r , p) :=

+1X

k=r

C r�1k�1p

r

(1� p)

k�r�k

.

Vérifier que P(⌧r

= +1) = 0.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 231: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

217Annexe C. Devoirs à envoyer à la correction

3. Montrer que la variable aléatoire réelle ✓r

est une variable aléatoire réelle discrète de loi(dite loi binomiale-négative de paramètres r et p )

I(r , p) :=

+1X

k=0

C r�1k+r�1p

r

(1� p)

k�k

.

Vérifier que P(✓r

= +1) = 0.

4. Donner une interprétation des variables aléatoires réelles ⌧r

et ✓r

en terme de jeu dePile-ou-Face.

5. Montrer qu’un des deux modèles précédents permet de formaliser le problème dit desboîtes d’allumettes de Stephan Banach :Un fumeur a dans chacune de ses deux poches une boîte contenant au départ Nallumettes. Chaque fois qu’il désire fumer une cigarette, il choisit une poche au hasard.Quelle est la probabilité que, le fumeur se rendant compte pour la première fois qu’uneboîte est vide, l’autre boîte contienne k allumettes où k est un entier naturel inférieur ouégal à N ?

Exercice IVLe but de cet exercice est de montrer qu’il n’existe pas de probabilité P sur l’espace (N⇤

, P(N⇤)

telle que, pour tout n � 1, P(nN⇤) =

1

noù nN⇤

= {nk , k 2 N⇤}.Supposons qu’une telle probabilité existe. Soit (p

k

)N la suite des nombres entiers premiers rangésen ordre croissant.

1. Par un raisonnement simple montrer que P(lim sup

k

(pk

N⇤)) = 0.

2. Montrer que la suite (pk

N⇤)N est indépendante. En déduire, en utilisant le fait que la

sérieX

k

1

pk

= +1, une autre valeur de P(lim sup

k

(pk

N⇤)). Conclure que la probabilité P

n’existe pas.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 232: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

218 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

C.2 Devoir 2 à renvoyer le 28 mars 2014 au plus tard

La rédaction et la présentation de la copie, la justification des affirmations par référence auxrésultats du cours seront des éléments d’appréciation essentiels dans la notation.

Exercice ISoit (X , Y ) un couple de variables aléatoires réelles de loi P(X ,Y ) =

↵e�12 (x2�xy+y

2)⌘

· �(2) où�(2) est la mesure de Lebesgue sur R2. Déterminer la constante ↵ et la matrice de dispersiondu couple (X , Y ). Préciser les lois respectives des variables aléatoires réelles X et Y . Le couplede variables aléatoires réelles (X , Y ) est-il indépendant ?

Exercice IIThéorème de Fisher-CochranSoit n 2 N⇤ et (X1, · · · , X

n

) une suite indépendante de v.a.r. toutes de même loi N 1(0, 1).On définit respectivement les v.a.r. moyenne empirique et variance empirique par

X :=

X1 + · · ·+ Xn

net S2

:=

1

n � 1

n

X

k=1

(Xk

� X )

2.

1. Montrer que la v.a.r. X 21 suit la loi �(1

2 ,12) aussi appelée loi du Khi-deux à 1 degré de

liberté et notée �2(1).

2. En utilisant la fonction caractéristique des lois Gamma, en déduire que la loi de la v.a.r.n

X

k=1

X 2k

est �(12 ,

n

2) aussi appelée loi du Khi-deux à n degrés de liberté notée �2(n).

3. Montrer qu’il existe une matrice orthogonale C de la forme

C =

0

B

B

B

B

B

@

c1,1 c1,2 · · · c1,n

c2,1 c2,2 · · · c2,n...

... . . . ...cn�1,1 c

n�1,2 · · · cn�1,n

1pn

1pn

· · · 1pn

1

C

C

C

C

C

A

.

4. Déterminer la loi du vecteur aléatoire Y := CX .

5. Calculer Yn

etn

X

k=1

Y 2k

à l’aide de X1, · · · , Xn

. En déduire que X =

1pnY

n

et S2=

1

n � 1

n�1X

k=1

Y 2k

.

6. Démontrer le théorème de Fisher-Cochran : Soit (X1, · · · , Xn

) une suite indépendantede v.a.r. de même loi N 1(0, 1). Alors (X , S2

) est indépendant, X suit la loi N 1(0,

1n

) et(n � 1)S2 suit la loi �2

(n � 1).

Exercice III

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 233: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

219Annexe C. Devoirs à envoyer à la correction

Soit ("i

)

i�1 une suite indépendante de v.a.r. de même loi N 1(0, 1) et X0 une v.a.r. indépen-dante de la suite ("

i

)

i�1 et de loi PX0 = N 1(m,�2

). On définit la suite de v.a.r. (Xn

)

n�1 dela façon suivante : X

n

:= ln

(X0, . . . , Xn�1) + bn

"n

où (bn

)

n�1 est une suite de réels et (ln

)

n�1

une suite de formes linéaires sur Rn. Montrer que, pour tout n � 1, il existe une forme linéaireL

n

sur Rn+1 telle que Xn

= Ln

(X0, "1, · · · , "n

) et en déduire que le vecteur (X0, . . . , Xn

) estgaussien.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 234: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

220 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

C.3 Devoir 3 à renvoyer le 18 avril 2014 au plus tard

La rédaction et la présentation de la copie, la justification des affirmations par référence auxrésultats du cours seront des éléments d’appréciation essentiels dans la notation.

Exercice IThéorème de WeierstrassSoient f une application continue de [0, 1] dans R et x 2 [0, 1]. Pour tout n 2 N⇤

, notons Sn

une v.a.r. binomiale de loi B(n, x).

1. Montrer que pn

(x) := E[f (

1n

Sn

)] est un polynôme en x appelé polynôme de Bernsteinde f .

2. En utilisant l’uniforme continuité de f sur [0, 1] montrer que, pour tout " > 0, il existe� > 0 tel que, pour tout n 2 N⇤ et tout x 2 [0, 1],

|pn

(x)� f (x)| E[|f (

1

nS

n

)� f (x)|]

"P✓

|1nS

n

� x | < �

+ 2P✓

|1nS

n

� x | � �

sup

0x1|f (x)|.

En déduire que, pour tout " > 0, il existe � > 0 tel que, pour tout n 2 N⇤ et toutx 2 [0, 1],

|pn

(x)� f (x)| "+ 2

x(1� x)

n�2sup

0x1|f (x)|.

3. Démontrer le théorème de Weierstrass : Toute application continue de [0, 1] dans Rest limite uniforme sur [0, 1] d’une suite de polynômes.

Exercice IISoit (X

n

)

n�1 une suite indépendante de v.a.r. de même loi de Cauchy C(1) (Pour la définition,

cf. formulaire de l’annexe A, page 205). Pour tout n � 1, on pose Sn

:=

k=n

X

k=1

Xk

. Étudier les con-

vergences en probabilité et en loi des suites de v.a.r.✓

1pnS

n

n�1

,✓

1

nS

n

n�1

et✓

1

n2S

n

n�1

.

Exercice IIISoit (U

k

)N une suite indépendante de v.a.r. de loi normale centrée et de variance �2 > 0. Pourtout ✓ 2 R, on définit la suite (X

k

)N par la relation de récurrence Xn

= ✓Xn�1 + U

n

, pour toutn � 1, avec X0 = 0.

1. Déterminer, pour tout n 2 N, la loi de la v.a.r. Xn

.

2. Étudier la convergence en loi de la suite de v.a.r. (Xk

)N.

Centre de Tele-enseignement Universitaire–Franche-Comte–Besancon

C UTBesancon

Page 235: Cours de théorie des probabilités - Philippe Bich, … · 2017-03-20 · Cours de théorie des probabilités ... Newton, nombre de combinaisons, espaces vectoriels, produit scalaire

Bibliographie.

[1] Lelong-Ferrand J. - Arnaudiès J.M., Cours de mathématiques, Dunod, 1977.[2] Ansel J.P.- Ducel Y., Exercices corrigés en théorie de la mesure et de l’intégration, Ellipses,

1995.[3] Ansel J.P.- Ducel Y., Exercices corrigés en théorie des probabilités, Ellipses, 1996.[4] Bouleau N., Probabilités de l’ingénieur : variables aléatoires et simulation, Hermann, 1986.[5] Brémaud P., Introduction aux probabilités : modélisation des phénomènes aléatoires,

Springer-Verlag, 1988.[6] Commission inter-IREM "Statistique et Probabilités" (coordination M. Henry), Autour

de la modélisation en probabilités, Presses universitaires de Franche-Comté, collection"Didactiques", Besançon, 2001

[7] Ducel Y., Introduction à la théorie mathématique des probabilités, Ellipses, 1998.[8] Gramain A., Intégration, Hermann, coll. Méthodes, 1994.[9] Guinot M., Le paradoxe de Banach-Tarski, Aléas, 1991.

[10] Hennequin P.L., Pourquoi des tribus ?, Bulletin APMEP n ¡ 303, pp 183-195.[11] Leboeuf C.- Roque J.L.- Guegand J., Cours de probabilités et de statistiques, Ellipses,

2ème édition 1983.[12] Leboeuf C.- Roque J.L.- Guegand J., Exercices corrigés de probabilités, Ellipses, 1987.[13] Revuz D., Mesure et intégration, Hermann, coll. Méthodes, 1994.[14] Stoyanov J., Counterexamples in probability, John Wiley and Sons, 1989.