Download - 2016 - Statistiques V3.0 Nancy · •Etude de la dispersion d’un lot de 400résistances, ... T-Cola. We did not find a significant difference between Coca Cola and Pepsi Cola preference.

Transcript
Page 1: 2016 - Statistiques V3.0 Nancy · •Etude de la dispersion d’un lot de 400résistances, ... T-Cola. We did not find a significant difference between Coca Cola and Pepsi Cola preference.

STATISTIQUES & PROBABILITÉS

SUPPORT DE COURS VERSION 3.0

INTRODUCTION 2 _______________________________________________________________

GRAPHIQUES 9 _________________________________________________________________

CARACTÉRISTIQUES NUMÉRIQUES 21 ________________________________________________

Tendance centrale

Dispersion

Boxplot

MODÉLISATION ALÉATOIRE 31 _____________________________________________________

Variable aléatoire

Lois des variables discrètes (Bernoulli, Binomiale, Poisson, etc.)

Lois des variables continues

Loi gaussienne

ETUDE DE NORMALITÉ D’UN ÉCHANTILLON 57 _________________________________________

Introduction aux tests statistiques

EXEMPLE DE TEST : TEST DU KHI2 65 _________________________________________________

RÉGRESSIONS LINÉAIRES (INTRODUCTION) 77_________________________________________

© Bertrand Blanquart - 2016

Page 2: 2016 - Statistiques V3.0 Nancy · •Etude de la dispersion d’un lot de 400résistances, ... T-Cola. We did not find a significant difference between Coca Cola and Pepsi Cola preference.

Stat

istiq

ues

© B

ertra

nd B

lanq

uart,

201

6, V

3.0

STATISTIQUES-PROBABILITÉS

1

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

LES STATISTIQUES EN ENTREPRISE ?

2

Surveillance des processus : MSP

Mise au point : plans d’expérience

Appro/gestion des stocks

Prévisions météo/stocks

Contrôle qualité

Prévisions vente / gestion transport

Mesures

Enquêtes satisfaction

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

OBJECTIFS D’APPRENTISSAGE

• Lire et exploiter des tableaux de données

• Mener une analyse de statistique descriptive univariée via les outils : tableaux, diagrammes, caractéristiques de tendance centrale, caractéristiques de dispersion.

• Mener une analyse de statistique descriptive bivariée via les outils : régression, fréquences conditionnelles, test d’indépendance

• Rédiger des synthèses à partir des résultats

• Construire une modélisation aléatoire

• Connaître les lois de probabilités

• Appliquer la loi de probabilité pour déterminer une probabilité

• Connaître les propriétés de l’espérance et la variance

3

Page 3: 2016 - Statistiques V3.0 Nancy · •Etude de la dispersion d’un lot de 400résistances, ... T-Cola. We did not find a significant difference between Coca Cola and Pepsi Cola preference.

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

NOTIONS FONDAMENTALES (NF ISO 3534-1, JANVIER 2007)

• Population

- totalité des individus pris en considération

Note : la population peut être finie ou infinie, réelle ou hypothétique

• Echantillon

- sous-ensemble d'une population constitué d'une ou de plusieurs unités d'échantillonnage

Effectif d'échantillon : n = nombre d'unités dans l'échantillon

Généralement, l'étude exhaustive de la population n'est pas possible : on essaie de deviner ("inférer") les informations à partir de l'étude de l'échantillon

4

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

NOTIONS FONDAMENTALES

• L'information considérée dans une étude statistique peut être qualitative ou quantitative

Exemples

- couleur des yeux : variable qualitative

- taille (en cm) : variable quantitative

• Une information quantitative peut être continue ou discrète

Exemples

- taille (en cm) : variable quantitative continue

- taille (en n° de taille de vêtements : 38, 40, etc) : variable quantitative discrète

5

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

NOTIONS FONDAMENTALES

• Variable qualitative

On dénombre les individus correspondants à chaque modalité

• Variable quantitative

On représente les valeurs

6

Couleur Nombre

Bleu 4

Marron 13

Vert 3

Taille (cm)

167 189

183 175

173 174

Taill

e (c

m)

150

160

170

180

190

200

Nom

bre

0

3

6

8

11

14

Page 4: 2016 - Statistiques V3.0 Nancy · •Etude de la dispersion d’un lot de 400résistances, ... T-Cola. We did not find a significant difference between Coca Cola and Pepsi Cola preference.

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

NOTIONS FONDAMENTALES

‣ Exemple

• Un fabricant de tissus essaie une nouvelle machine, il compte le nombre de défauts sur 75 échantillons de 10 m.

7

Nombre de défauts 0 1 2 3 4 5

Nombre d’échantillons 38 15 11 6 3 2

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

STATISTIQUES DESCRIPTIVES

‣ Exemple

• Un fabricant de tissus essaie une nouvelle machine, il compte le nombre de défauts sur 75 échantillons de 10 m.

8

N

Nombre de défauts 0 1 2 3 4 5

Nombre d’échantillons 38 15 11 6 3 2 75

Fréquence absolue 38 15 11 6 3 2

Fréquence relative 0,51 0,20 0,15 0,08 0,04 0,03

Fréquence cumulée absolue 38 53 64 70 73 75

Fréquence cumulée relative 0,51 0,71 0,85 0,93 0,97 1,00

Stat

istiq

ues

© B

ertra

nd B

lanq

uart,

201

6, V

3.0

GRAPHIQUES

9

Page 5: 2016 - Statistiques V3.0 Nancy · •Etude de la dispersion d’un lot de 400résistances, ... T-Cola. We did not find a significant difference between Coca Cola and Pepsi Cola preference.

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

STATISTIQUES DESCRIPTIVES

‣ Variable discrète

• Exemple : un fabricant de tissus essaie une nouvelle machine, il compte le nombre de défauts sur 75 échantillons de 10 m.

10

Fréq

uenc

e ab

solu

e

0

10

20

30

40

50

Nombre de défauts0 1 2 3 4 5

236

1115

38

Fréq

uenc

e cu

mul

ée r

elat

ive

0

0,2

0,4

0,6

0,8

1

Nombre de défauts0 1 2 3 4 5

10,970,93

0,85

0,71

0,51

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

STATISTIQUES DESCRIPTIVES

3 %4 %8 %

15 %

20 %

51 %

0 défaut1 défaut2 défauts3 défauts4 défauts5 défauts

‣ Variable discrète

• Exemple : un fabricant de tissus essaie une nouvelle machine, il compte le nombre de défauts sur 75 échantillons de 10 m.

11

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

STATISTIQUES DESCRIPTIVES

‣ Variable continue

‣ Découpage en classes

‣ Nombre de classes ?

Ni trop, ni trop peu…

Critère de Sturges : k≃1+3,222 log10(n).

Le regroupement en classes fait perdre aux individus leur caractère propre ainsi que les détails fins des distributions.

Les classes peuvent être d’amplitudes différentes (dans ce cas, les rectangles de l’histogramme doivent l’indiquer, soit par une largeur proportionnelle à l’amplitude soit par une légende appropriée).

12

Page 6: 2016 - Statistiques V3.0 Nancy · •Etude de la dispersion d’un lot de 400résistances, ... T-Cola. We did not find a significant difference between Coca Cola and Pepsi Cola preference.

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

STATISTIQUES DESCRIPTIVES

‣ Variable continue

• 200 dispositifs ont subi un test de fiabilité ; la durée de vie (notée X, en heures) jusqu’à défaillance a été notée dans le tableau suivant.

13

Durée de vie (en heures)

Nombre ni de dispositifs

(fréquence absolue)Fréquence relative fi

Fréquence cumulée absolue

Fréquence cumulée relative

0 ≤ X < 150 60 0,3 60 0,3

150 ≤ X < 300 30 0,15 90 0,45

300 ≤ X < 450 24 0,12 114 0,57

450 ≤ X < 600 20 0,1 134 0,67

600 ≤ X < 750 16 0,08 150 0,75

750 ≤ X < 900 16 0,08 166 0,83

900 ≤ X < 1050 16 0,08 182 0,91

1050 ≤ X < 1200 12 0,06 194 0,97

1200 ≤ X < 1350 6 0,03 200 1

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

STATISTIQUES DESCRIPTIVES

‣ Variable continue

• 200 dispositifs ont subi un test de fiabilité

14

Fréq

uenc

e ab

solu

e

0

10

20

30

40

Durée de vie (en heures)

0-15

0

150-

300

300-

450

450-

600

600-

750

750-

900

900-

1050

1050

-120

0

1200

-135

0

36

88810

1215

30

Fréq

uenc

e cu

mul

ée r

elat

ive

0

0,25

0,5

0,75

1

Durée de vie (en heures)

0-15

0

150-

300

300-

450

450-

600

600-

750

750-

900

900-

1050

1050

-120

0

1200

-135

0

10,970,91

0,830,75

0,67

0,57

0,45

0,3

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

STATISTIQUES DESCRIPTIVES

‣ Exemple

• Etude de la dispersion d’un lot de 400 résistances, de valeur nominale 100 kΩ.

15

Classe Limites de classe (en

kΩ)

Nombre ni de dispositifs

(fréquence absolue)

Fréquence relative fi

Fréquence cumulée

absolue Ni

Fréquence cumulée relative Fi

I [92 ; 94[ 10 0,025 10 0,025II [94 ; 96[ 15 0,038 25 0,063III [96 ; 98[ 40 0,100 65 0,163IV [98 ; 100[ 60 0,150 125 0,313V [100 ; 102[ 90 0,225 215 0,538VI [102 ; 104[ 70 0,175 285 0,713VII [104 ; 106[ 50 0,125 335 0,838VIII [106 ; 108[ 35 0,088 370 0,925IX [108 ; 110[ 20 0,050 390 0,975X [110 ; 112[ 10 0,025 400 1

Page 7: 2016 - Statistiques V3.0 Nancy · •Etude de la dispersion d’un lot de 400résistances, ... T-Cola. We did not find a significant difference between Coca Cola and Pepsi Cola preference.

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

STATISTIQUES DESCRIPTIVES

‣ Exemple

• Etude de la dispersion d’un lot de 400 résistances, de valeur nominale 100 kΩ.

16

0

20

40

60

80

100

Classes

I II III IV V VI VII VIII IX X

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

STATISTIQUES DESCRIPTIVES

‣ Exemples

17

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

STATISTIQUES DESCRIPTIVES

18

Population

100 000

50 000

20 000

Population par pays (données fictives)

Sour

ce c

arto

grap

hiqu

e : A

rticq

ue

Page 8: 2016 - Statistiques V3.0 Nancy · •Etude de la dispersion d’un lot de 400résistances, ... T-Cola. We did not find a significant difference between Coca Cola and Pepsi Cola preference.

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

EXEMPLES

19

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

‣ Exemple

20

Stat

istiq

ues

© B

ertra

nd B

lanq

uart,

201

6, V

3.0

CARACTÉRISTIQUES NUMÉRIQUES

21

Page 9: 2016 - Statistiques V3.0 Nancy · •Etude de la dispersion d’un lot de 400résistances, ... T-Cola. We did not find a significant difference between Coca Cola and Pepsi Cola preference.

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

STATISTIQUES DESCRIPTIVES

‣ Caractéristiques de “tendance centrale” (ou “paramètres de position)

• Moyenne arithmétique

22

m =1

n

nX

i=1

xi

9 7

=MOYENNE(...) 9,7

13 19

7 6

6 10

13 7

200 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

+++

0

+++

+++

+++

1

2

3

4

5

6

Valeurs+X

Moyenne

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

STATISTIQUES DESCRIPTIVES

‣ Caractéristiques de “tendance centrale”

• Médiane

• si n impair, (n+1) / 2ème valeur de l'échantillon (trié en ordre non décroissant)

• si n pair, moyenne de la (n/2) et de la (n/2 +1)ème valeurs

23

6 9

=MEDIANE(...) 8

13 19

7 6

6 10

13 7

200 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

+++

0

+++

+++

+++

1

2

3

4

5

6

Valeurs+X

Médiane

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

9 7

=MAX(...)-MIN(...) 13

13 197 6

6 10

13 7

STATISTIQUES DESCRIPTIVES

‣ Caractéristiques de dispersion

• Etendue

• plus grande statistique d'ordre moins la plus petite statistique d'ordre

24200 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

+++

0

+++

+++

+++

1

2

3

4

5

6

Valeurs+X

Min Max

Etendue

Page 10: 2016 - Statistiques V3.0 Nancy · •Etude de la dispersion d’un lot de 400résistances, ... T-Cola. We did not find a significant difference between Coca Cola and Pepsi Cola preference.

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

STATISTIQUES DESCRIPTIVES

‣ Caractéristiques de dispersion

• Ecart-type

25

s =

sPni=1(xi � x̄)2

n� 1

9 7

=ECARTYPE(...) 4,1913

13 19

7 6

6 10

13 7

200 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

+++

0

+++

+++

+++

1

2

3

4

5

6

Valeurs+X

Moyenne

Intervalle : ± s

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

STATISTIQUES DESCRIPTIVES

‣ Caractéristiques de dispersion

• Ecart-type

• Ecart-type d’une “population”

• Coefficient de variation

26

� =

vuut 1

n

nX

i=1

(xi �m)2

9 7

=ECARTYPEP(...) 3,9762

13 19

7 6

6 10

13 7

Cv = 100 · s

m

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

STATISTIQUES DESCRIPTIVES

‣ Caractéristiques de dispersion

• Variance

• La variance est le carré de l’écart-type.

• Propriétés de la variance

Si une variable aléatoire est la combinaison linéaire de plusieurs variables aléatoires,

Y =a × X1 + b × X2 • alors sa variance se calcule selon l'additivité des variances :

27

V ar(Y ) = a2 · V ar(X1) + b2 · V ar(X2)➜

➜ �2(Y ) = a2 · �2(X1) + b2 · �2(X2)

V ar = �

2 =1

n

X

i=1,n

(xi � x̄)2

Page 11: 2016 - Statistiques V3.0 Nancy · •Etude de la dispersion d’un lot de 400résistances, ... T-Cola. We did not find a significant difference between Coca Cola and Pepsi Cola preference.

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

STATISTIQUES DESCRIPTIVES

‣ Autres caractéristiques

• Mode

• Quantile

décile, centile

28

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

STATISTIQUES DESCRIPTIVES

‣ Caractéristiques

• “Boxplot“ (boîte à moustaches)

Longueur du trait (méthode de Tukey ) :

- Calculer !=1,5 × (Q3-Q1)

- Limite inférieure du trait : max (x1, Q1-!)

- Limite supérieure du trait : min (xn, Q3+!)

puis ajouter autant d’étoiles que de valeurs en-dehors des limites définies par le trait (de chaque côté)

29

Q1 Q3Q2 (Mediane)

*

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

STATISTIQUES DESCRIPTIVES

‣ Caractéristiques

• “Boxplot“ (boîte à moustaches)

30T-Cola. We did not find a significant difference between CocaCola and Pepsi Cola preference. The so-called ‘‘Pepsi Paradox’’states that people exhibit a reliable preference for Coca Cola whenbrand information is available (e.g. in the supermarket), but noreliable preference for Coke when no brand information isavailable (e.g. in blind taste tests) [16]. Accordingly, one mighttherefore have predicted a preference for the soft drink mixturewhen it was announced as Coca Cola compared with Pepsi Cola,based to the so-called ‘‘Pepsi Paradox’’. But without a reference toa blind taste condition to compare the results to, it is difficult toconclude that the present findings are not in line with the ‘‘PepsiParadox’’. It may still be the case that also in the present samplePepsi Cola would have been judged as more pleasant than CocaCola in a blind test.

We set out to compare strong and weak brands. We pooledRiver Cola and T Cola as weak brands although participants mayhave preexisting associations with River Cola but not with theinvented T-Cola. We did that mostly because River Cola is ageneric brand that is not subject to advertisement, and we stronglydoubt that German customers would be able to recall the logo ofRiver Cola when prompted to. When comparing brain activationbetween strong and weak brands during the cue phase, weightedaccording to the preference rating after each trial, we foundstronger activation in right mOFC during weak compared withstrong brands. Previous human fMRI studies have placedindividuals in simple choice situations and found that BOLDactivity in the mOFC correlates with behavioral measures ofstimulus values [17,18]. These findings are consistent with monkeyneurophysiology studies that have found stimulus value coding inOFC neurons during choice tasks [19,20]. Based on this view ofmOFC the present findings may indicate that participants rely onstimulus values encoded in mOFC more strongly whenever weakbrands do not offer sufficient guidance to decide about the drinks

pleasantness. When on the other hand a strong brand is expected,this strong brand cue overrides elaborate processing of stimulusvalue in mOFC, since the brand is well known and its associationscan be easily retrieved without an additional assessment of thesubjective stimulus value. That mOFC can predict consumerchoice has been nicely demonstrated in a pattern classificationstudy in which preferences for cars were inferred from activity ofmOFC [21]. A previous study on soft drinks administered pureCoca Cola and Pepsi Cola in an anonymous and a real cuecondition [16]. During the anonymous tasting mOFC activity waspositively correlated with the subjects’ reported preference for thebeverages. This finding reveals that mOFC is related to tastepreferences when no brand cue is delivered. Consequently onemay interpret the present finding as an indication that theannouncement by means of weak brands has a similar effect as theabsence of brand cues. Therewith the present study extendsprevious literature on the influence of linguistic contextualinformation [13] and pricing [14] that has shown a positiveassociation between activity in mOFC and positive linguisticinformation as well as information on the product price. Strongbrands in contrast to high price and positive linguistic informationseem to attenuate stimulus value related to mOFC stimulus valueprocessing that is present when weak brands are announced. Butthis difference in results could well be due to the fact that thepresent design allowed us to disentangle cue and taste relatedprocessing, whereas the previous studies delivered the linguisticand pricing information in synchrony with the taste stimulus.

In a direct comparison of Coca Cola and Pepsi Cola during thecue phase, we found significantly more activation in rightamygdala associated with the Coca Cola cue. The amygdala isgenerally known for its role in emotion processing. Traditionally ithas been linked to negative emotions [29], in particular to fear[30]. But more and more evidence exists that questions this strong

Figure 4. Box plot depicting the difference in BOLD per cent signal change in left striatum in strong (Coca Cola, Pepsi Cola)compared to weak (River Cola, T Cola) brands in participants who report to drink Cola with a frequency of 0 days a week onaverage and participants reporting to report Cola more than once a week. Error bars depict the standard deviation.doi:10.1371/journal.pone.0061569.g004

Brand Anticipation Influences Gustatory Processing

PLOS ONE | www.plosone.org 5 April 2013 | Volume 8 | Issue 4 | e61569

Page 12: 2016 - Statistiques V3.0 Nancy · •Etude de la dispersion d’un lot de 400résistances, ... T-Cola. We did not find a significant difference between Coca Cola and Pepsi Cola preference.

Stat

istiq

ues

© B

ertra

nd B

lanq

uart,

201

6, V

3.0

MODÉLISATION ALÉATOIRE

31

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

VARIABLE ALÉATOIRE

• Variable représentant une grandeur (ou une caractéristique) qui peut prendre plusieurs valeurs (modalités), en associant à chaque valeur une probabilité donnée.

Exemples :

- la température maximale demain

- une pièce prélevée au hasard dans un lot de production

- le résultat du lancer d'un dé à six faces

• La variable peut être qualitative

- il fera {beau / pas beau} demain

• La variable peut être quantitative

continue ou discrète

- la température est une variable continue

- le résultat du lancer d'un dé à six faces est une variable discrète

32

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

LOIS DE DISTRIBUTION

• La loi de distribution est la fonction qui décrit la probabilité affectée à chaque valeur de la variable aléatoire

• Exemple :

le résultat du lancer d'un dé à six faces (non truqué)

- probabilité d'obtenir "1" : 1/6

- probabilité d'obtenir "2" : 1/6

- probabilité d'obtenir "3" : 1/6

- probabilité d'obtenir "4" : 1/6

- probabilité d'obtenir "5" : 1/6

- probabilité d'obtenir "6" : 1/6

33

Prob

abili

0

1/3

2/3

1

Nombre

1 2 3 4 5 6

Page 13: 2016 - Statistiques V3.0 Nancy · •Etude de la dispersion d’un lot de 400résistances, ... T-Cola. We did not find a significant difference between Coca Cola and Pepsi Cola preference.

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

LOIS DES VARIABLES DISCRÈTES

‣ Variable de Bernoulli

Variable qui peut prendre deux valeurs (ou deux “états”), de probabilités respectives p et q = 1-p

Exemple : le résultat du lancer d’une pièce de monnaie à pile ou face (si elle n’est pas truquée : p = q = 0,5)

Notations :

34

Prob(X = 1) = p

Prob(X = 0) = q V ar(X) = p · q

E(X) = p

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

LOIS DES VARIABLES DISCRÈTES

‣ Loi binomiale

• On a n réalisations indépendantes (ou “tirages”) d’une variable de Bernoulli (= on lance n fois la pièce pile/face)

• X est la variable aléatoire qui décrit le nombre de “succès“ au cours des n “tirages”

• X suit une loi binomiale B(n,p)

35

Prob(X = k) = C

kn · pk · (1� p)n�k

E(X) = n · p

V ar(X) = n · p · qCk

n =n!

(n� k)!k!

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

LOIS DES VARIABLES DISCRÈTES

‣ Exemple

Exemple : on lance 3 fois une pièce à pile ou face. Quelle est la probabilité d’obtenir deux fois “pile” …

… si l’on sait que la pièce n’est pas truquée ?

… si l’on sait que la pièce est truquée et que la probabilité d’avoir “pile” à chaque lancer est en fait p=0,6 ?

36

Page 14: 2016 - Statistiques V3.0 Nancy · •Etude de la dispersion d’un lot de 400résistances, ... T-Cola. We did not find a significant difference between Coca Cola and Pepsi Cola preference.

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

LOIS DES VARIABLES DISCRÈTES

‣ Loi de Poisson

On a des épreuves binomiales, avec N très grand et p très petit (et le produit N × p qui reste un nombre fini)

Alors, la loi binomiale tend vers une loi de Poisson, dont la probabilité s’écrit :

L’avantage de la loi de Poisson est qu’elle nécessite un seul paramètre (au lieu de deux pour la binomiale)

37

Prob(X = k) =µ

k

k!e

�µ

E(X) = µ V ar(X) = µ

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

LOIS DES VARIABLES DISCRÈTES

‣ Loi de Poisson

• Critère de convergence de la loi binomiale vers une loi de Poisson : si n × p < 5 et n > 20

• La loi de Poisson décrit bien des phénomènes de comptage : détection de photons par un photomultiplicateur, comptage de particules émises lors de désintégrations radioactives, comptage d’ions dans un spectromètre de masse, comptage d’individus en microbiologie, . . .

38

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

LOIS DES VARIABLES DISCRÈTES

‣Loi Hypergéométrique

Cette loi décrit les “tirages sans remise”: on prélève des éléments sans les remettre en jeu ; une fois qu’on a prélevé un élément, il n’y plus aucune chance de le prélever de nouveau.

Exemple : 3 boules dans un sac, dont on sait que deux sont vertes et une est rouge :

• Au premier tirage, on a une chance sur trois de tirer la boule rouge.

• Au second tirage,

si on a tiré la boule rouge au 1er tirage, on a 100 % de chances de tirer une boule verte.

si par contre, on a tiré une boule verte au 1er tirage, on a une chance sur deux de tirer une boule verte.

39

Page 15: 2016 - Statistiques V3.0 Nancy · •Etude de la dispersion d’un lot de 400résistances, ... T-Cola. We did not find a significant difference between Coca Cola and Pepsi Cola preference.

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

LOIS DES VARIABLES DISCRÈTES

‣ Synoptique

40

Binomiale

Multinomiale

Bernoulli

Hypergéométrique

Géométrique Pascal

PoissonTirages avec remiseTirages sans remise

Nombre d'essais pour obtenir k succès(lois utilisées dans les jeux de hasard)

Nombre de défaillances (sans mémoire)

Variable à deux états

(k = 1)

H(N;n;p) B(n;p) P(λ)

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

LOIS DES VARIABLES DISCRÈTES

‣ Synoptique et convergences

41

Binomiale

Multinomiale

Bernoulli

Hypergéométrique

Géométrique Pascal

Poisson

Nombre d'essais pour obtenir k succès(lois utilisées dans les jeux de hasard)

Variable à deux états

(k = 1)

H(N;n;p) B(n;p) P(λ)n ≤ 0,1 N

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

SYNTHÈSE LOIS DISCRÈTES

42

Loi Pr(X = k) EspéranceE(X)

VarianceV AR(X)

Description Commentaires

Bernoulli Pr(X = 1) = pPr(X = 0) = q = 1� p

- - Variable pouvant prendre deux états. Pile/face, noir/blanc, etc.

BinomialeB(n;p) Ck

n · pk · (1� p)n�k np np(1� p)X compte le nombre de succès lors de n répétitions d'une variable de Bernoulli de probabilité p, avec remise, sans mémoire (les résultats des répétitions sont indépendants)

Combien de fois on obtient "pile" dans un nombre de lancers successifs d’une pièce de monnaie

Multinomiale n!x1!x2!x3!. . . xk!

· px11 . . . pxk

k E(Xi) = npi npi(1� pi)Généralisation de la loi binomiale quand le nombre de valeurs possibles de la variable aléatoire est supérieur à 2 (k types différents)

Lancer d'un dé à 6 faces ;Contrôle final d’un produit ayant 4 états possibles avec des probabilités différentes : conforme 80 %), défaut non critique (10 %), défaut moyen (6 %), défaut critique (4 %)

Géométrique p(1� p)k�1 1p

1� p

p2

Nombre d'essais nécessaire pour qu'un événement de probabilité p apparaisse (k-1 échecs avant le succès au kème essai).

Un matériel a une probabilité de 2 % de défaillance à chaque mise en service ; quelle est la probabilité d’avoir la première panne au 10ème essai ?

Hypergéométrique H(N;n;p)

CxNp · Cn�x

N�Np

CnN

n� p N � n

N � 1· np(1� p)

Loi des tirages sans remise avec probabilité constante (n/N est le taux de sondage)

Un lot de N pièces contient Np pièces défectueuses. Quelle est la probabilité qu’un sous ensemble de n individus contienne x éléments défectueux ?

Poisson P(!) e�� · �k

k! � �

Nombre d'événements peu probables dans une grande succession d'épreuves (n > 50)

� est un paramètre (généralement compris

entre 0,1 et 18) ; k est un réel positif.

Nombre d'accidents dans un atelier.

Pascal P(r,k) Cr�1k�1p

r(1� p)k�r rp

r(1� p)p2

Nombre d'essais nécessaire pour qu'un événement de probabilité p apparaisse r fois avec r ! 1 (pour r = 1, loi géométrique)

Compte le nombre d’essais nécessaires pour obtenir k succès (k fixé) (alors que la binomiale compte le nombre de succès au cours de n essais, avec n fixé).

Ckn =

n!k!(n� k)!

Page 16: 2016 - Statistiques V3.0 Nancy · •Etude de la dispersion d’un lot de 400résistances, ... T-Cola. We did not find a significant difference between Coca Cola and Pepsi Cola preference.

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

VARIABLES CONTINUES

43

Probabilité

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

LOIS DES VARIABLES CONTINUES

• Loi uniforme (rectangulaire, équiprobable)

• Loi de Student

• Loi du Khi2

• Loi exponentielle

• etc.

44

a-a

Le coefficient diviseur n’est pas arbitraire, il peut être démontré par

un calcul de variance � =

ap3

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

LOIS DES VARIABLES CONTINUES

‣ Synoptique

45

Loi Normale (Gaussienne)

"2

Lognormale

Effets

Exponentielle Gamma

Weibull BetaFisher Snédécor

Student

Effets

Lois utilisées en fiabilité,

Lois utilisées pour les

tests

Page 17: 2016 - Statistiques V3.0 Nancy · •Etude de la dispersion d’un lot de 400résistances, ... T-Cola. We did not find a significant difference between Coca Cola and Pepsi Cola preference.

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

SYNOPTIQUE COMPLET

46

Binomiale

Multinomiale

Bernoulli

Hypergéométrique

Géométrique Pascal

Poisson

Loi Normale (Gaussienne)

"2

Lognormale

Exponentielle Gamma

Weibull Beta

Fisher Snédécor

Student

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

SYNOPTIQUE COMPLET & CONVERGENCES

47

Binomiale

Multinomiale

Bernoulli

Hypergéométrique

Géométrique Pascal

Poisson

Loi Normale (Gaussienne)

"2

Lognormale

Exponentielle Gamma

Weibull Beta

Fisher Snédécor

Student

n ≤ 0,1 N

λ > 18

si np > 5 et np(1-p) > 5,

alors

B(n; p) ! N(np,pnp(1� p))

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

SYNTHÈSE LOIS CONTINUES

48

Loi Densité de probabilité EspéranceE(X)

VarianceV AR(X)

Description Commentaires

Normale N(m;!) f(x) =1

⇥�

2�e�(x�m)2

2�2 m �2

Loi normale ou gaussienne, dont la densité de probabilité est appelée «courbe en cloche».

Utilisation de la table pour la loi normale

centrée réduite T = X�m�

Très utilisée car s’applique à de nombreux phénomènes en physique comme en économie, quand un grand nombre de facteurs agissent sous forme additive, chacun ayant une variance faible par rapport à la variance résultante.

LogNormale f(x) =1

x⇥�

2�· e�

(Lnx�m)2

2�2 em+�2(e�2

� 1)e2m+�2 Si Y � N(m;�) ,

X = eY suit une loi log-normale

Loi d’une grandeur résultant de l’influence d’un grand nombre de facteurs aléatoires agissant de manière multiplicative ; ! est un paramètre de forme permettant de l’ajuster à de nombreux phénomènes en fiabilité.

Weibull f(x) =k

�x� �

⇥k�1

e�( x��⇥ )k

���

1 +1k

⇥-

k est un paramètre de forme, " est un paramètre d’échelle (« caractéristique de vie ») et # un paramètre de localisation

k<1 décrit les «mortalités précoces» et k>1 décrit les phénomènes d’usure (si k=1, on retrouve la loi exponentielle)

Exponentiellef(x) = �e��x

pour x ! 0

f(x) = 0 sinon

1�

1�2

Utilisée en fiabilité, " représente le taux de défaillance (son inverse est le Mean Time Between Failure -MTBF).

S’applique bien aux matériels électroniques subissant des défaillances brutales ou à des systèmes complexes dont les composants ont des lois de fiabilité différentes. Décrit la période pendant laquelle le taux de défaillance est constant ou quasi-constant

Gammaf(x) =

�e��x(�x)t�1

�(t)

f(x) = 0 sinon

t�

t�2

Généralisation de la loi exponentielle, utilisée pour décrire les évènements dans un processus poissonien

�(t)est la fonction eulérienne définie par

�(t) =� ⇥

0e�yyt�1dy

(t est un paramètre de forme, " est un paramètre d’échelle)

Student Forme mathématique compliquée, valeurs tabuléesForme mathématique compliquée, valeurs tabuléesForme mathématique compliquée, valeurs tabuléesEst utilisée dans l’étude d’une distribution normale dont on ne connaît pas la variance

Fisher-Snedecor Forme mathématique compliquée, valeurs tabuléesForme mathématique compliquée, valeurs tabuléesForme mathématique compliquée, valeurs tabuléesEst utilisée en analyse de la variance et en analyse de la régression

Khi-deux Forme mathématique compliquée, valeurs tabuléesForme mathématique compliquée, valeurs tabuléesForme mathématique compliquée, valeurs tabulées

La somme des carrés de v variables aléatoires

qui suivent chacune N(0;1) suit une loi du �2

à n degrés de liberté.

Tend à se rapprocher d’une loi normale quand le nombre de ddl augmente

Page 18: 2016 - Statistiques V3.0 Nancy · •Etude de la dispersion d’un lot de 400résistances, ... T-Cola. We did not find a significant difference between Coca Cola and Pepsi Cola preference.

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

LOI GAUSSIENNE

5-5 -4 -3 -2 -1 0 1 2 3 4

0,5

0

0,1

0,2

0,3

0,4

• Fonction représentant une forme de "cloche" symétrique

• Deux paramètres : m et σ - si m = 0 et σ =1, on parle de loi normale centrée réduite

• Notation : N(m , σ)

49

f(x) =1

⇥⇥

2�· e�

12 ( x�m

� )2

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

THÉORÈME CENTRAL LIMITE

• Une combinaison linéaire de variables aléatoires, dont chacune suit une loi de distribution quelconque, converge vers une loi normale si :

- le nombre de variables aléatoires considéré est grand

- les écarts-types sont proches les uns des autres

• Exemple

- on lance un dé à six faces : loi discrète "équiprobable"

- on le lance plusieurs fois et on fait la somme des lancers : le résultat n'est pas exactement décrit par une variable gaussienne, ... mais par une variable qui tend vers une loi gaussienne.

50

Un lancer

Nom

bre

de

com

bina

ison

s

0

1

2

Nombre

1 2 3 4 5 6

Somme de trois lancers

Nom

bre

de

com

bina

ison

s

0

10

20

30

Nombre

3 6 9 12 15 18

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

LOI GAUSSIENNE

‣ Intervalle unilatéral

51

5-5 -4 -3 -2 -1 0 1 2 3 4

0,5

0

0,1

0,2

0,3

0,4

1,645

95 %

Loi normale centrée réduitet 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

0,0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

1,1

1,2

1,3

1,4

1,5

1,6

1,7

1,8

1,9

2

2,1

2,2

2,3

2,4

2,5

2,6

2,7

2,8

2,9

3

3,1

3,2

3,3

3,4

3,5

3,6

3,7

3,8

3,9

0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,53590,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,57530,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,61410,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,65170,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,68790,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,72240,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,75490,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,78520,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,81330,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,83890,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,86210,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,88300,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,90150,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,91770,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,93190,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,94410,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,95450,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,96330,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,97060,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,97670,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,98170,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,98570,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,98900,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,99160,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,99360,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,99520,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,99640,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,99740,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,99810,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,99860,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,99900,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,99930,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,99950,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,99970,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,99980,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,99980,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,99990,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,99990,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,99991,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000

�(t) = P (X < t) =

Z t

�1

1�2�

· e�x

2

2 · dx

Page 19: 2016 - Statistiques V3.0 Nancy · •Etude de la dispersion d’un lot de 400résistances, ... T-Cola. We did not find a significant difference between Coca Cola and Pepsi Cola preference.

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

LOI GAUSSIENNE

‣ Intervalle bilatéral

52

5-5 -4 -3 -2 -1 0 1 2 3 4

0,5

0

0,1

0,2

0,3

0,4

5-5 -4 -3 -2 -1 0 1 2 3 4

0,5

0

0,1

0,2

0,3

0,4

-σ σ

68,3 %

-1,96 σ 1,96 σ

95 %

≈ -2 σ ≈ 2 σ

± 2 σ ⇒ 95,45 %

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

INTERVALLE DE CONFIANCE

‣ Intervalle bilatéral

53

Loi normale centrée réduitet 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

0,0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

1,1

1,2

1,3

1,4

1,5

1,6

1,7

1,8

1,9

2

2,1

2,2

2,3

2,4

2,5

2,6

2,7

2,8

2,9

3

3,1

3,2

3,3

3,4

3,5

3,6

3,7

3,8

3,9

0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,53590,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,57530,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,61410,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,65170,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,68790,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,72240,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,75490,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,78520,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,81330,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,83890,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,86210,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,88300,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,90150,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,91770,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,93190,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,94410,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,95450,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,96330,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,97060,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,97670,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,98170,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,98570,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,98900,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,99160,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,99360,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,99520,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,99640,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,99740,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,99810,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,99860,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,99900,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,99930,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,99950,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,99970,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,99980,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,99980,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,99990,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,99990,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,99991,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000

�(t) = P (X < t) =

Z t

�1

1�2�

· e�x

2

2 · dx

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

LOI DE STUDENT

54

-5 -4 -3 -2 -1 0 1 2 3 4 5

0,1

0,2

0,3

0,4

T (⌫) =Up

�2(⌫)/⌫

ν = ∞

ν = 10

ν = 1

�2(⌫) =⌫X

i=1

U2i

Page 20: 2016 - Statistiques V3.0 Nancy · •Etude de la dispersion d’un lot de 400résistances, ... T-Cola. We did not find a significant difference between Coca Cola and Pepsi Cola preference.

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

LOI DE STUDENT

‣ Qualité d’un estimateur

• Quand on estime la moyenne d'une population par l'intermédiaire du calcul de la moyenne d'un échantillon, il est possible d'associer à cette moyenne un intervalle de confiance

• Si X suit une loi normale, la moyenne de l'échantillon suit une loi normale :

les bornes de l'intervalle de confiance pour la moyenne sont :

(où u est le fractile de la loi gaussienne, au niveau de confiance choisi)

• Généralement, σ est inconnu, on doit l'approcher par s et l'on peut alors démontrer que les bornes de l'intervalle suivent une loi de Student au lieu de la loi gaussienne

Les bornes de l'int. de confiance pour la moyenne sont alors :

(où t est le fractile de la loi de Student, au niveau de confiance choisi)

55

±u · �pn

± t · spn

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

LOI DE STUDENT

56

Fractiles de la loi de Student (probabilités bilatérales)Fraction p en

%Probabilité bilatérale

68,27 90 95 99 99,73

0,32 0,10 0,05 0,01 0,0027

Nombre de ddl

123456789101112131415161718192021222324252627282930405060708090100

infini10000

1,837 6,314 12,71 63,66 235,81,321 2,920 4,303 9,925 19,211,197 2,353 3,182 5,841 9,2191,142 2,132 2,776 4,604 6,6201,111 2,015 2,571 4,032 5,5071,091 1,943 2,447 3,707 4,9041,077 1,895 2,365 3,499 4,5301,067 1,860 2,306 3,355 4,2771,059 1,833 2,262 3,250 4,0941,053 1,812 2,228 3,169 3,9571,048 1,796 2,201 3,106 3,8501,043 1,782 2,179 3,055 3,7641,040 1,771 2,160 3,012 3,6941,037 1,761 2,145 2,977 3,6361,034 1,753 2,131 2,947 3,5861,032 1,746 2,120 2,921 3,5441,030 1,740 2,110 2,898 3,5071,029 1,734 2,101 2,878 3,4751,027 1,729 2,093 2,861 3,4471,026 1,725 2,086 2,845 3,4221,024 1,721 2,080 2,831 3,4001,023 1,717 2,074 2,819 3,3801,022 1,714 2,069 2,807 3,3611,021 1,711 2,064 2,797 3,3451,020 1,708 2,060 2,787 3,3301,020 1,706 2,056 2,779 3,3161,019 1,703 2,052 2,771 3,3031,018 1,701 2,048 2,763 3,2911,018 1,699 2,045 2,756 3,2801,017 1,697 2,042 2,750 3,2701,013 1,684 2,021 2,704 3,1991,010 1,676 2,009 2,678 3,1571,008 1,671 2,000 2,660 3,1301,007 1,667 1,994 2,648 3,1111,006 1,664 1,990 2,639 3,0961,006 1,662 1,987 2,632 3,0851,005 1,660 1,984 2,626 3,0771,000 1,645 1,960 2,576 3,001

Stat

istiq

ues

© B

ertra

nd B

lanq

uart,

201

6, V

3.0

ETUDE DE NORMALITÉ

57

Page 21: 2016 - Statistiques V3.0 Nancy · •Etude de la dispersion d’un lot de 400résistances, ... T-Cola. We did not find a significant difference between Coca Cola and Pepsi Cola preference.

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

ETUDE DE NORMALITÉ

‣ Représentation graphique

58

Avec 1000 valeurs, l'histogramme des valeurs issues d'une loi normale ... ne ressemble pas forcément à une

loi normale !

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

ETUDE DE NORMALITÉ

‣ Méthode de la droite de Henry

•Changement de repère pour représenter les quantiles → interprétation plus simple, même avec peu de valeurs

•utiliser Excel ou un papier gausso-aritmétique

59

Quantiles théoriques

Quantiles réels

changement d’échelle

Gaussienne (répartition)

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

ETUDE DE NORMALITÉ

‣ Méthode de la droite de Henry

•dans Excel

60

Page 22: 2016 - Statistiques V3.0 Nancy · •Etude de la dispersion d’un lot de 400résistances, ... T-Cola. We did not find a significant difference between Coca Cola and Pepsi Cola preference.

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

ETUDE DE NORMALITÉ

‣ Méthode de la droite de Henry

•dans Excel

61

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

ETUDE DE NORMALITÉ

‣ Test de normalité

•Principe des tests

1 / Construire une statistique de distance entre les valeurs observées et les valeurs théoriques (distance "mesurée")

2 / Définir quelle est la loi suivie par cette statistique

3 / Comparer la distance mesurée à la probabilité que cette distance soit expliquée par sa loi de distribution

4 / Conclure

• Il existe autant de tests que de manières de définir une distance ...

Les tests sont généralement performants pour un type de loi de distribution et pour un nombre de valeurs

Dans certains cas, il est possible qu'un test conduise à une conclusion et qu'un autre test conduise à une conclusion différente !

62

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

ETUDE DE NORMALITÉ

‣ Il existe de nombreux tests :

•Tests du "2 , de Kolmogorov Smirnov, test de Cramer Von Mises, etc.

•Chaque test présente des avantages et des inconvénients, aucun n'est parfait !

63

Plus le test est complexe, plus les risques d'erreur dans l'interprétation sont grands, et plus il sera difficile de convaincre les éventuels "contradicteurs"

Page 23: 2016 - Statistiques V3.0 Nancy · •Etude de la dispersion d’un lot de 400résistances, ... T-Cola. We did not find a significant difference between Coca Cola and Pepsi Cola preference.

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

ETUDE DE NORMALITÉ

64

Stat

istiq

ues

© B

ertra

nd B

lanq

uart,

201

6, V

3.0

TEST D’INDÉPENDANCE DU #2

65

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

TEST D’INDÉPENDANCE DU #2

‣ Test du "2

•On cherche à démontrer l’indépendance entre deux variables qualitatives, chacune ayant plusieurs modalités

Exemple: on a interrogé 200 personnes et l’on veut déterminer s’il existe un lien, dans la population, entre la profession et la préférence en matière de boisson.

1. On construit le tableau de contingence

66

Ingénieur Banquier Médecin Marge

Bière blonde

Bière brune

Marge

Page 24: 2016 - Statistiques V3.0 Nancy · •Etude de la dispersion d’un lot de 400résistances, ... T-Cola. We did not find a significant difference between Coca Cola and Pepsi Cola preference.

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

TEST D’INDÉPENDANCE DU #2

2. On construit le tableau des effectifs observés

67

Ingénieur Banquier Médecin Marge

Bière blonde 43 34 35 112

Bière brune 23 18 47 88

Marge 66 52 82 200

Tableau des effectifs observés sur l’échantillon

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

TEST D’INDÉPENDANCE DU #2

3. On construit le tableau des fréquences théoriques sous hypothèse d’indépendance

Calcul des fréquences marginales

68

Ingénieur Banquier Médecin Marge

Bière blonde 56,0 %

Bière brune 44,0 %

Marge 33,0 % 26,0 % 41,0 % 100 %

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

TEST D’INDÉPENDANCE DU #2

3. On construit le tableau des fréquences théoriques sous hypothèse d’indépendance

Calcul des fréquences

69

Ingénieur Banquier Médecin Marge

Bière blonde 18,48 % 14,56 % 22,96 % 56,0 %

Bière brune 14,52 % 11,44 % 18,04 % 44,0 %

Marge 33,0 % 26,0 % 41,0 % 100 %

Tableau des fréquences théoriques

Page 25: 2016 - Statistiques V3.0 Nancy · •Etude de la dispersion d’un lot de 400résistances, ... T-Cola. We did not find a significant difference between Coca Cola and Pepsi Cola preference.

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

TEST D’INDÉPENDANCE DU #2

4. On construit le tableau des effectifs théoriques sous hypothèse d’indépendance

Calcul des effectifs

70

Ingénieur Banquier Médecin Marge

Bière blonde 36,96 29,12 45,92 112,0

Bière brune 29,04 22,88 36,08 88,0

Marge 66,0 52,0 82,0 200

Tableau des effectifs théoriques

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

TEST D’INDÉPENDANCE DU #2

5. On construit le tableau des écarts

Calcul des écarts entre effectifs théoriques et effectifs observés

71

Ingénieur Banquier Médecin Marge

Bière blonde 6,04 4,88 -10,92 -0,0

Bière brune -6,04 -4,88 10,92 0,0

Marge 0,0 0,0 0,0 0

Ingénieur Banquier Médecin Marge

Bière blonde

43 34 35 112

Bière brune

23 18 47 88

Marge 66 52 82 200

Ingénieur Banquier Médecin Marge

Bière blonde 36,96 29,12 45,92 112,0

Bière brune

29,04 22,88 36,08 88,0

Marge 66,0 52,0 82,0 200

Tableau des effectifs théoriques

Tableau des effectifs observés

Tableau des écarts

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

TEST D’INDÉPENDANCE DU #2

5. On construit le tableau des "2

72

Ingénieur Banquier Médecin Marge

Bière blonde 0,987 0,818 2,597

Bière brune 1,256 1,041 3,305

Marge 10,004

Tableau des "2

�2ij =

ecart2ijnij

�2 =X

i,j

�2ij

Page 26: 2016 - Statistiques V3.0 Nancy · •Etude de la dispersion d’un lot de 400résistances, ... T-Cola. We did not find a significant difference between Coca Cola and Pepsi Cola preference.

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

DEUX VARIABLES QUALITATIVES

‣ Sur un échantillon

• Calcul de

• Calcul du V de Cramer

(j=nombre de colonnes, k = nombre de lignes)

• Interprétation

V proche de 0 : pas de lien entre les lignes et les colonnes

V proche de 1 : lien entre les lignes et les colonnes

73

V =

s�2

min(j � 1, k � 1)

�2 =�2

n

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

TEST D’INDÉPENDANCE DU #2

6. On compare la valeur du “"2 observée“ à la valeur du “"2 critique“ pour le niveau de risque défini, en tenant compte du nombre de degrés de liberté

Nombre de degrés de liberté :

ddl = (nombre de lignes -1 ) x (nombre de colonnes - 1)

dans l’exemple : ddl = (2-1) x (3-1)= 2

Lecture du "2 critique

74

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

TEST D’INDÉPENDANCE DU #2

8. Conclusion

Si "2 observé < "2 critique : l’hypothèse d’indépendance est acceptée, au risque alpha α

Si "2 observé > "2 critique : l’hypothèse d’indépendance est rejetée, au risque α

Note : si on rejette l’hypothèse d’indépendance, c’est qu’on accepte l’hypothèse alternative “il y a un lien entre les variables“

75

Page 27: 2016 - Statistiques V3.0 Nancy · •Etude de la dispersion d’un lot de 400résistances, ... T-Cola. We did not find a significant difference between Coca Cola and Pepsi Cola preference.

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

TEST D’INDÉPENDANCE DU #2

‣ Notes ‣ Le test du "2 ne renseigne en rien sur l’éventuel lien de causalité

entre les variables

- on remarquera que les tableaux sont inversibles (lignes/colonnes)

- un réel lien de cause à effet peut exister … ou non.

- une variable cachée peut être à l’origine du lien observé

‣ La valeur du "2 ne renseigne en rien sur la force du lien entre les variables

‣ Le test est sensible au nombre de modalités de chaque variable

- Si on scinde une modalité ou si on regroupe des modalités, le résultat du test peut évoluer

‣ Le test est sensible aux effectifs de chaque cellule

- Eviter un effectif observé inférieur à 5

76

Stat

istiq

ues

© B

ertra

nd B

lanq

uart,

201

6, V

3.0

RÉGRESSIONS LINÉAIRES (INTRODUCTION)

77

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

RÉGRESSIONS LINÉAIRES

‣ Introduction

• Les méthodes de régression sont le 1er outil des méthodes explicatives d’analyse de données, permettant de trouver un lien - fonctionnel ou non - entre les données.

• Trois questions fondamentales : 1. Quel est le modèle statistique le plus adapté ?

• droite, parabole, exponentielle, etc.

2. Comment estimer les paramètres de ce modèle ?

3. Comment définir les outils permettant de calculer les valeurs prévisionnelles de Y en fonction de X ?

Attention :

L’existence d’un “lien” entre les données ne signifie pas qu’il y a un lien de causalité

78

Page 28: 2016 - Statistiques V3.0 Nancy · •Etude de la dispersion d’un lot de 400résistances, ... T-Cola. We did not find a significant difference between Coca Cola and Pepsi Cola preference.

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

RÉGRESSIONS LINÉAIRES

79

I

Introduction

I.1 But de la régression.

Commençons par un exemple illustratif simple. Le botaniste Joseph Dalton Hooker a mesuré lorsd’une expédition en 1849 la pression atmosphérique pi et la température d’ébullition de l’eau yi endivers endroits de l’Himalaya 1. Selon les lois de la physique, yi devrait être (en première approximation)proportionnel au logarithme de pi. On pose donc le modèle

yi = β1 + β2xi + ui, xi = log(pi). (I.1)

ui représente l’erreur de mesure, et explique que les points de la figure I.1 ne sont pas exactementalignés. Cette figure montre également la droite estimée par moindres carrés. On voit une très bonneadéquation. L’équation ci-dessus donne un modèle, qui si ui est supposé gaussien centré devient lemodèle paramétrique yi ∼ N(β1+β2xi,σ2), dont on verra l’intérêt plus tard. Le paramètre σ2 représentela variance de l’écart des points à la droite (mesuré verticalement) et l’estimation de σ donne ici 0,04.

2.7 2.8 2.9 3.0 3.1 3.2 3.3 3.482

84

86

88

90

92

94

96

98

100 ⊕⊕⊕

⊕⊕⊕⊕

⊕⊕⊕⊕

⊕⊕

⊕⊕⊕⊕⊕⊕

⊕⊕⊕⊕⊕⊕

⊕⊕⊕⊕⊕⊕

Figure I.1 – Température d’ébulition de l’eau mesurée en divers endroits de l’Himalaya en fonctiondu logarithme de la pression.

Cet exemple illustre comment le modèle de régression tente d’expliquer au mieux une grandeur y (laréponse) en fonction d’autres grandeurs x (vecteur des variables explicatives, ou régresseurs, oufacteurs, un seul dans l’exemple) en démêlant ce qui est déterministe de ce qui est aléatoire eten quantifiant ces deux aspects (par les βi d’une part et σ2 d’autre part).

1. En 1857 le physicien James David Forbes a fait la même expérience dans les Alpes, le but étant de pouvoir retrouverla pression atmosphérique à partir de la seule mesure de la température d’ébulition de l’eau (les baromètres étant fragileset donc difficiles à transporter lors d’une expédition), ce qui permet ensuite d’en déduire l’altitude au travers d’une relationconnue ; il rapporte dans un article ce double ensemble de données dont nous n’utilisons ici que la partie Himalayenne (ellessont décrites dans : S.Weisberg, Applied Linear Regression, Wiley, 1985.)

7

Le botaniste Joseph Dalton Hooker a mesuré lors d’une expédition en 1849 la pression atmosphérique et la température d’ébullition de l’eau en divers endroits de l’Himalaya. Les données sont reportées ci-dessus (température sur l’axe des ordonnées en fonction du logarithme de la pression en abscisse)

température (en °C)

ln (pression)

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

RÉGRESSIONS LINÉAIRES

80

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

RÉGRESSIONS LINÉAIRES

‣ Principe de la régression aux moindres carrés

• Choisir une fonction

droite, polynôme, exponentielle, etc.

• Trouver les coefficients de la fonction qui minimisent les “résidus” : écarts entre les valeurs observées et les valeurs calculées par la fonction

• Critiquer la régression choisie (…éventuellement, en choisir une autre)

Résidus

Coefficient de détermination

Analyse de variance

Statistiques des paramètres de la régression

81

Page 29: 2016 - Statistiques V3.0 Nancy · •Etude de la dispersion d’un lot de 400résistances, ... T-Cola. We did not find a significant difference between Coca Cola and Pepsi Cola preference.

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

RÉGRESSIONS LINÉAIRES

‣ Principe de la régression aux moindres carrés

82

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

RÉGRESSIONS LINÉAIRES

‣ Hypothèses d’application

‣ Le modèle choisi est “correct”

‣ La variable explicative (X) est sans incertitude, ou avec une incertitude négligeable devant l’incertitude associée à la variable expliquée (Y)

‣ L’erreur sur les réalisations de Y est nulle en moyenne et de même ordre de grandeur pour toutes les valeurs de Y (“homoscédasticité”)

‣ Les différentes observations de Y ne sont pas corrélées

83

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

RÉGRESSIONS LINÉAIRES

‣ Moindres carrés pondérés

84

Page 30: 2016 - Statistiques V3.0 Nancy · •Etude de la dispersion d’un lot de 400résistances, ... T-Cola. We did not find a significant difference between Coca Cola and Pepsi Cola preference.

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

RÉGRESSIONS LINÉAIRES

‣ Indicateur de la qualité de la régression • Coefficient de corrélation linéaire

• avec, pour N couples de points :

• Par construction, le coefficient de corrélation est compris entre -1 et +1

• Coefficient de détermination (fourni dans Excel par exemple)

• où SCEY est la somme des carrés des écarts expliqués par la régression

• dans le cas des régressions linéaires (pas vrai si fonction exponentielle, puissance, etc.)

• Compris entre 0 et 1

85

⇢xy

=�xy

�x

· �y

R2 = ⇢2

R2 =SCE

y

SCEtotale

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

RÉGRESSIONS LINÉAIRES

‣ Qualité de la régression

86

⇢ = 1 ⇢ ⇡ 0, 8

⇢ ⇡ �0, 995

⇢ ⇡ 0

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

RÉGRESSIONS LINÉAIRES

‣ Qualité de la régression

87

Page 31: 2016 - Statistiques V3.0 Nancy · •Etude de la dispersion d’un lot de 400résistances, ... T-Cola. We did not find a significant difference between Coca Cola and Pepsi Cola preference.

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

RÉGRESSIONS LINÉAIRES

‣ Exemple : concentration intérieure de polluants en fonction de la concentration extérieure

88

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

RÉGRESSIONS LINÉAIRES

‣ Exemple : concentration intérieure de polluants en fonction de la concentration extérieure

89

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

Tests

RÉGRESSIONS LINÉAIRES

‣ Analyse de la régression : représentation des résidus

90