of 31 /31
STATISTIQUES & PROBABILITÉS SUPPORT DE COURS VERSION 3.0 INTRODUCTION 2 _______________________________________________________________ GRAPHIQUES 9 _________________________________________________________________ CARACTÉRISTIQUES NUMÉRIQUES 21 ________________________________________________ Tendance centrale Dispersion Boxplot MODÉLISATION ALÉATOIRE 31 _____________________________________________________ Variable aléatoire Lois des variables discrètes (Bernoulli, Binomiale, Poisson, etc.) Lois des variables continues Loi gaussienne ETUDE DE NORMALITÉ DUN ÉCHANTILLON 57 _________________________________________ Introduction aux tests statistiques EXEMPLE DE TEST : TEST DU KHI 2 65 _________________________________________________ RÉGRESSIONS LINÉAIRES (INTRODUCTION) 77 _________________________________________ © Bertrand Blanquart - 2016
• Author

lamkiet
• Category

## Documents

• view

214

0

Embed Size (px)

### Transcript of 2016 - Statistiques V3.0 Nancy · •Etude de la dispersion d’un lot de 400résistances, ......

• STATISTIQUES & PROBABILITS

SUPPORT DE COURS VERSION 3.0

INTRODUCTION 2 _______________________________________________________________

GRAPHIQUES 9 _________________________________________________________________

CARACTRISTIQUES NUMRIQUES 21 ________________________________________________

Tendance centrale

Dispersion

Boxplot

MODLISATION ALATOIRE 31 _____________________________________________________

Variable alatoire

Lois des variables discrtes (Bernoulli, Binomiale, Poisson, etc.)

Lois des variables continues

Loi gaussienne

ETUDE DE NORMALIT DUN CHANTILLON 57 _________________________________________

Introduction aux tests statistiques

EXEMPLE DE TEST : TEST DU KHI2 65 _________________________________________________

RGRESSIONS LINAIRES (INTRODUCTION) 77_________________________________________

Bertrand Blanquart - 2016

• Stat

istiq

ues

B

ertra

nd B

lanq

uart,

201

6, V

3.0

STATISTIQUES-PROBABILITS

1

Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

LES STATISTIQUES EN ENTREPRISE ?

2

Surveillance des processus : MSP

Mise au point : plans dexprience

Appro/gestion des stocks

Prvisions mto/stocks

Contrle qualit

Prvisions vente / gestion transport

Mesures

Enqutes satisfaction

Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

OBJECTIFS DAPPRENTISSAGE

Lire et exploiter des tableaux de donnes

Mener une analyse de statistique descriptive univarie via les outils: tableaux, diagrammes, caractristiques de tendance centrale, caractristiques de dispersion.

Mener une analyse de statistique descriptive bivarie via les outils: rgression, frquences conditionnelles, test dindpendance

Rdiger des synthses partir des rsultats

Construire une modlisation alatoire

Connatre les lois de probabilits

Appliquer la loi de probabilit pour dterminer une probabilit

Connatre les proprits de lesprance et la variance

3

• Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

NOTIONS FONDAMENTALES (NF ISO 3534-1, JANVIER 2007)

Population

- totalit des individus pris en considration

Note : la population peut tre finie ou infinie, relle ou hypothtique

Echantillon

- sous-ensemble d'une population constitu d'une ou de plusieurs units d'chantillonnage

Effectif d'chantillon : n = nombre d'units dans l'chantillon

Gnralement, l'tude exhaustive de la population n'est pas possible : on essaie de deviner ("infrer") les informations partir de l'tude de l'chantillon

4

Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

NOTIONS FONDAMENTALES

L'information considre dans une tude statistique peut tre qualitative ou quantitative

Exemples

- couleur des yeux : variable qualitative

- taille (en cm) : variable quantitative

Une information quantitative peut tre continue ou discrte

Exemples

- taille (en cm) : variable quantitative continue

- taille (en n de taille de vtements : 38, 40, etc) : variable quantitative discrte

5

Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

NOTIONS FONDAMENTALES

Variable qualitative

On dnombre les individus correspondants chaque modalit

Variable quantitative

On reprsente les valeurs

6

Couleur Nombre

Bleu 4

Marron 13

Vert 3

Taille (cm)

167 189

183 175

173 174

Taill

e (c

m)

150

160

170

180

190

200

Nom

bre

0

3

6

8

11

14

• Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

NOTIONS FONDAMENTALES

Exemple Un fabricant de tissus essaie une nouvelle machine, il compte le

nombre de dfauts sur 75chantillons de 10m.

7

Nombre de dfauts 0 1 2 3 4 5

Nombre dchantillons 38 15 11 6 3 2

Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

STATISTIQUES DESCRIPTIVES

Exemple Un fabricant de tissus essaie une nouvelle machine, il compte le

nombre de dfauts sur 75chantillons de 10m.

8

N

Nombre de dfauts 0 1 2 3 4 5

Nombre dchantillons 38 15 11 6 3 2 75

Frquence absolue 38 15 11 6 3 2

Frquence relative 0,51 0,20 0,15 0,08 0,04 0,03

Frquence cumule absolue 38 53 64 70 73 75

Frquence cumule relative 0,51 0,71 0,85 0,93 0,97 1,00

Stat

istiq

ues

B

ertra

nd B

lanq

uart,

201

6, V

3.0

GRAPHIQUES

9

• Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

STATISTIQUES DESCRIPTIVES

Variable discrte Exemple : un fabricant de tissus essaie une nouvelle machine, il

compte le nombre de dfauts sur 75chantillons de 10m.

10

Frq

uenc

e ab

solu

e

0

10

20

30

40

50

Nombre de dfauts0 1 2 3 4 5

236

1115

38

Frq

uenc

e cu

mul

e r

elat

ive

0

0,2

0,4

0,6

0,8

1

Nombre de dfauts0 1 2 3 4 5

10,970,93

0,85

0,71

0,51

Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

STATISTIQUES DESCRIPTIVES

3 %4 %8 %

15 %

20 %

51 %

0 dfaut1 dfaut2 dfauts3 dfauts4 dfauts5 dfauts

Variable discrte Exemple : un fabricant de tissus essaie une nouvelle machine, il

compte le nombre de dfauts sur 75chantillons de 10m.

11

Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

STATISTIQUES DESCRIPTIVES

Variable continue Dcoupage en classes

Nombre de classes ?

Ni trop, ni trop peu

Critre de Sturges : k1+3,222 log10(n).

Le regroupement en classes fait perdre aux individus leur caractre propre ainsi que les dtails fins des distributions.

Les classes peuvent tre damplitudes diffrentes (dans ce cas, les rectangles de lhistogramme doivent lindiquer, soit par une largeur proportionnelle lamplitude soit par une lgende approprie).

12

• Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

STATISTIQUES DESCRIPTIVES

Variable continue 200 dispositifs ont subi un test de fiabilit ; la dure de vie (note X, en

heures) jusqu dfaillance a t note dans le tableau suivant.

13

Dure de vie (en heures)

Nombre ni de dispositifs

(frquence absolue)Frquence relative fi

Frquence cumule absolue

Frquence cumule relative

0 X < 150 60 0,3 60 0,3150 X < 300 30 0,15 90 0,45300 X < 450 24 0,12 114 0,57450 X < 600 20 0,1 134 0,67600 X < 750 16 0,08 150 0,75750 X < 900 16 0,08 166 0,83900 X < 1050 16 0,08 182 0,911050 X < 1200 12 0,06 194 0,971200 X < 1350 6 0,03 200 1

Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

STATISTIQUES DESCRIPTIVES

Variable continue 200 dispositifs ont subi un test de fiabilit

14

Frq

uenc

e ab

solu

e

0

10

20

30

40

Dure de vie (en heures)

0-15

0

150-

300

300-

450

450-

600

600-

750

750-

900

900-

1050

1050

-120

0

1200

-135

0

36

88810

1215

30

Frq

uenc

e cu

mul

e r

elat

ive

0

0,25

0,5

0,75

1

Dure de vie (en heures)

0-15

0

150-

300

300-

450

450-

600

600-

750

750-

900

900-

1050

1050

-120

0

1200

-135

0

10,970,91

0,830,75

0,67

0,57

0,45

0,3

Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

STATISTIQUES DESCRIPTIVES

Exemple Etude de la dispersion dun lot de 400rsistances, de valeur nominale

100k.

15

Classe Limites de classe (en

k)

Nombre ni de dispositifs

(frquence absolue)

Frquence relative fi

Frquence cumule

absolue Ni

Frquence cumule relative Fi

I [92 ; 94[ 10 0,025 10 0,025II [94 ; 96[ 15 0,038 25 0,063III [96 ; 98[ 40 0,100 65 0,163IV [98 ; 100[ 60 0,150 125 0,313V [100 ; 102[ 90 0,225 215 0,538VI [102 ; 104[ 70 0,175 285 0,713VII [104 ; 106[ 50 0,125 335 0,838VIII [106 ; 108[ 35 0,088 370 0,925IX [108 ; 110[ 20 0,050 390 0,975X [110 ; 112[ 10 0,025 400 1

• Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

STATISTIQUES DESCRIPTIVES

Exemple Etude de la dispersion dun lot de 400rsistances, de valeur nominale

100k.

16

0

20

40

60

80

100

Classes

I II III IV V VI VII VIII IX X

Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

STATISTIQUES DESCRIPTIVES

Exemples

17

Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

STATISTIQUES DESCRIPTIVES

18

Population

100 000

50 000

20 000

Population par pays (donnes fictives)

Sour

ce c

arto

grap

hiqu

e : A

rticq

ue

• Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

EXEMPLES

19

Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

Exemple

20

Stat

istiq

ues

B

ertra

nd B

lanq

uart,

201

6, V

3.0

CARACTRISTIQUES NUMRIQUES

21

• Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

STATISTIQUES DESCRIPTIVES

Caractristiques de tendance centrale (ou paramtres de position)

Moyenne arithmtique

22

m =1

n

nX

i=1

xi

9 7

=MOYENNE(...) 9,7

13 19

7 6

6 10

13 7

200 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

+++

0

+++

+++

+++

1

2

3

4

5

6

Valeurs+X

Moyenne

Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

STATISTIQUES DESCRIPTIVES

Caractristiques de tendance centrale

Mdiane

si n impair, (n+1) / 2me valeur de l'chantillon (tri en ordre non dcroissant)

si n pair, moyenne de la (n/2) et de la (n/2 +1)me valeurs

23

6 9

=MEDIANE(...) 8

13 19

7 6

6 10

13 7

200 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

+++

0

+++

+++

+++

1

2

3

4

5

6

Valeurs+X

Mdiane

Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

9 7

=MAX(...)-MIN(...) 13

13 197 6

6 10

13 7

STATISTIQUES DESCRIPTIVES

Caractristiques de dispersion

Etendue

plus grande statistique d'ordre moins la plus petite statistique d'ordre

24200 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

+++

0

+++

+++

+++

1

2

3

4

5

6

Valeurs+X

Min Max

Etendue

• Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

STATISTIQUES DESCRIPTIVES

Caractristiques de dispersion

Ecart-type

25

s =

sPni=1(xi x)2n 1

9 7

=ECARTYPE(...) 4,1913

13 19

7 6

6 10

13 7

200 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

+++

0

+++

+++

+++

1

2

3

4

5

6

Valeurs+X

Moyenne

Intervalle : s

Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

STATISTIQUES DESCRIPTIVES

Caractristiques de dispersion

Ecart-type

Ecart-type dune population

Coefficient de variation

26

=

vuut 1n

nX

i=1

(xi m)2

9 7

=ECARTYPEP(...) 3,9762

13 19

7 6

6 10

13 7

Cv = 100 s

m

Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

STATISTIQUES DESCRIPTIVES

Caractristiques de dispersion

Variance

La variance est le carr de lcart-type.

Proprits de la variance

Si une variable alatoire est la combinaison linaire de plusieurs variables alatoires,

Y =a X1 + b X2 alors sa variance se calcule selon l'additivit des variances :

27

V ar(Y ) = a2 V ar(X1) + b2 V ar(X2)

2(Y ) = a2 2(X1) + b2 2(X2)

V ar = 2 =1

n

X

i=1,n

(xi x)2

• Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

STATISTIQUES DESCRIPTIVES

Autres caractristiques Mode

Quantile

dcile, centile

28

Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

STATISTIQUES DESCRIPTIVES

Caractristiques Boxplot (bote moustaches)

Longueur du trait (mthode de Tukey ):

- Calculer !=1,5 (Q3-Q1)

- Limite infrieure du trait : max (x1, Q1-!)

- Limite suprieure du trait : min (xn, Q3+!) puis ajouter autant dtoiles que de valeurs en-dehors des limites dfinies par le trait (de chaque ct)

29

Q1 Q3Q2 (Mediane)

*

Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

STATISTIQUES DESCRIPTIVES

Caractristiques Boxplot (bote moustaches)

30T-Cola. We did not find a significant difference between CocaCola and Pepsi Cola preference. The so-called Pepsi Paradoxstates that people exhibit a reliable preference for Coca Cola whenbrand information is available (e.g. in the supermarket), but noreliable preference for Coke when no brand information isavailable (e.g. in blind taste tests) [16]. Accordingly, one mighttherefore have predicted a preference for the soft drink mixturewhen it was announced as Coca Cola compared with Pepsi Cola,based to the so-called Pepsi Paradox. But without a reference toa blind taste condition to compare the results to, it is difficult toconclude that the present findings are not in line with the PepsiParadox. It may still be the case that also in the present samplePepsi Cola would have been judged as more pleasant than CocaCola in a blind test.

We set out to compare strong and weak brands. We pooledRiver Cola and T Cola as weak brands although participants mayhave preexisting associations with River Cola but not with theinvented T-Cola. We did that mostly because River Cola is ageneric brand that is not subject to advertisement, and we stronglydoubt that German customers would be able to recall the logo ofRiver Cola when prompted to. When comparing brain activationbetween strong and weak brands during the cue phase, weightedaccording to the preference rating after each trial, we foundstronger activation in right mOFC during weak compared withstrong brands. Previous human fMRI studies have placedindividuals in simple choice situations and found that BOLDactivity in the mOFC correlates with behavioral measures ofstimulus values [17,18]. These findings are consistent with monkeyneurophysiology studies that have found stimulus value coding inOFC neurons during choice tasks [19,20]. Based on this view ofmOFC the present findings may indicate that participants rely onstimulus values encoded in mOFC more strongly whenever weakbrands do not offer sufficient guidance to decide about the drinks

pleasantness. When on the other hand a strong brand is expected,this strong brand cue overrides elaborate processing of stimulusvalue in mOFC, since the brand is well known and its associationscan be easily retrieved without an additional assessment of thesubjective stimulus value. That mOFC can predict consumerchoice has been nicely demonstrated in a pattern classificationstudy in which preferences for cars were inferred from activity ofmOFC [21]. A previous study on soft drinks administered pureCoca Cola and Pepsi Cola in an anonymous and a real cuecondition [16]. During the anonymous tasting mOFC activity waspositively correlated with the subjects reported preference for thebeverages. This finding reveals that mOFC is related to tastepreferences when no brand cue is delivered. Consequently onemay interpret the present finding as an indication that theannouncement by means of weak brands has a similar effect as theabsence of brand cues. Therewith the present study extendsprevious literature on the influence of linguistic contextualinformation [13] and pricing [14] that has shown a positiveassociation between activity in mOFC and positive linguisticinformation as well as information on the product price. Strongbrands in contrast to high price and positive linguistic informationseem to attenuate stimulus value related to mOFC stimulus valueprocessing that is present when weak brands are announced. Butthis difference in results could well be due to the fact that thepresent design allowed us to disentangle cue and taste relatedprocessing, whereas the previous studies delivered the linguisticand pricing information in synchrony with the taste stimulus.

In a direct comparison of Coca Cola and Pepsi Cola during thecue phase, we found significantly more activation in rightamygdala associated with the Coca Cola cue. The amygdala isgenerally known for its role in emotion processing. Traditionally ithas been linked to negative emotions [29], in particular to fear[30]. But more and more evidence exists that questions this strong

Figure 4. Box plot depicting the difference in BOLD per cent signal change in left striatum in strong (Coca Cola, Pepsi Cola)compared to weak (River Cola, T Cola) brands in participants who report to drink Cola with a frequency of 0 days a week onaverage and participants reporting to report Cola more than once a week. Error bars depict the standard deviation.doi:10.1371/journal.pone.0061569.g004

Brand Anticipation Influences Gustatory Processing

PLOS ONE | www.plosone.org 5 April 2013 | Volume 8 | Issue 4 | e61569

• Stat

istiq

ues

B

ertra

nd B

lanq

uart,

201

6, V

3.0

MODLISATION ALATOIRE

31

Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

VARIABLE ALATOIRE

Variable reprsentant une grandeur (ou une caractristique) qui peut prendre plusieurs valeurs (modalits), en associant chaque valeur une probabilit donne.

Exemples:

- la temprature maximale demain

- une pice prleve au hasard dans un lot de production - le rsultat du lancer d'un d six faces

La variable peut tre qualitative

- il fera {beau / pas beau} demain

La variable peut tre quantitative

continue ou discrte

- la temprature est une variable continue

- le rsultat du lancer d'un d six faces est une variable discrte

32

Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

LOIS DE DISTRIBUTION

La loi de distribution est la fonction qui dcrit la probabilit affecte chaque valeur de la variable alatoire

Exemple :

le rsultat du lancer d'un d six faces (non truqu)

- probabilit d'obtenir "1" : 1/6

- probabilit d'obtenir "2" : 1/6

- probabilit d'obtenir "3" : 1/6 - probabilit d'obtenir "4" : 1/6

- probabilit d'obtenir "5" : 1/6

- probabilit d'obtenir "6" : 1/6

33

Prob

abili

t

0

1/3

2/3

1

Nombre

1 2 3 4 5 6

• Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

LOIS DES VARIABLES DISCRTES

Variable de Bernoulli

Variable qui peut prendre deux valeurs (ou deux tats), de probabilits respectives p et q = 1-p

Exemple : le rsultat du lancer dune pice de monnaie pile ou face (si elle nest pas truque : p = q = 0,5)

Notations :

34

Prob(X = 1) = p

Prob(X = 0) = q V ar(X) = p q

E(X) = p

Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

LOIS DES VARIABLES DISCRTES

Loi binomiale On a n ralisations indpendantes (ou tirages) dune variable de

Bernoulli (= on lance n fois la pice pile/face)

X est la variable alatoire qui dcrit le nombre de succs au cours des n tirages

X suit une loi binomiale B(n,p)

35

Prob(X = k) = Ckn pk (1 p)nk

E(X) = n p

V ar(X) = n p qCkn =

n!

(n k)!k!

Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

LOIS DES VARIABLES DISCRTES

Exemple

Exemple : on lance 3 fois une pice pile ou face. Quelle est la probabilit dobtenir deux fois pile

si lon sait que la pice nest pas truque ?

si lon sait que la pice est truque et que la probabilit davoir pile chaque lancer est en fait p=0,6 ?

36

• Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

LOIS DES VARIABLES DISCRTES

Loi de Poisson

On a des preuves binomiales, avec N trs grand et p trs petit (et le produit N p qui reste un nombre fini)

Alors, la loi binomiale tend vers une loi de Poisson, dont la probabilit scrit :

Lavantage de la loi de Poisson est quelle ncessite un seul paramtre (au lieu de deux pour la binomiale)

37

Prob(X = k) =

k

k!e

E(X) = V ar(X) =

Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

LOIS DES VARIABLES DISCRTES

Loi de Poisson Critre de convergence de la loi binomiale vers une loi de Poisson :

si n p < 5 et n > 20

La loi de Poisson dcrit bien des phnomnes de comptage : dtection de photons par un photomultiplicateur, comptage de particules mises lors de dsintgrations radioactives, comptage dions dans un spectromtre de masse, comptage dindividus en microbiologie, . . .

38

Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

LOIS DES VARIABLES DISCRTES

Loi Hypergomtrique

Cette loi dcrit les tirages sans remise: on prlve des lments sans les remettre en jeu ; une fois quon a prlev un lment, il ny plus aucune chance de le prlever de nouveau.

Exemple : 3 boules dans un sac, dont on sait que deux sont vertes et une est rouge:

Au premier tirage, on a une chance sur trois de tirer la boule rouge.

Au second tirage,

si on a tir la boule rouge au 1er tirage, on a 100% de chances de tirer une boule verte.

si par contre, on a tir une boule verte au 1er tirage, on a une chance sur deux de tirer une boule verte.

39

• Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

LOIS DES VARIABLES DISCRTES

Synoptique

40

Binomiale

Multinomiale

Bernoulli

Hypergomtrique

Gomtrique Pascal

PoissonTirages avec remiseTirages sans remise

Nombre d'essais pour obtenir k succs(lois utilises dans les jeux de hasard)

Nombre de dfaillances (sans mmoire)

Variable deux tats

(k = 1)

H(N;n;p) B(n;p) P()

Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

LOIS DES VARIABLES DISCRTES

Synoptique et convergences

41

Binomiale

Multinomiale

Bernoulli

Hypergomtrique

Gomtrique Pascal

Poisson

Nombre d'essais pour obtenir k succs(lois utilises dans les jeux de hasard)

Variable deux tats

(k = 1)

H(N;n;p) B(n;p) P()n 0,1 N

Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

SYNTHSE LOIS DISCRTES

42

Loi Pr(X = k) EspranceE(X)

VarianceV AR(X)

Description Commentaires

Bernoulli Pr(X = 1) = pPr(X = 0) = q = 1 p - -

Variable pouvant prendre deux tats. Pile/face, noir/blanc, etc.

BinomialeB(n;p) C

kn pk (1 p)nk np np(1 p)

X compte le nombre de succs lors de n rptitions d'une variable de Bernoulli de probabilit p, avec remise, sans mmoire (les rsultats des rptitions sont indpendants)

Combien de fois on obtient "pile" dans un nombre de lancers successifs dune pice de monnaie

Multinomiale n!x1!x2!x3!. . . xk!

px11 . . . pxkk E(Xi) = npi npi(1 pi)

Gnralisation de la loi binomiale quand le nombre de valeurs possibles de la variable alatoire est suprieur 2 (k types diffrents)

Lancer d'un d 6 faces ;Contrle final dun produit ayant 4 tats possibles avec des probabilits diffrentes : conforme 80 %), dfaut non critique (10 %), dfaut moyen (6 %), dfaut critique (4 %)

Gomtrique p(1 p)k1 1p1 pp2

Nombre d'essais ncessaire pour qu'un vnement de probabilit p apparaisse (k-1 checs avant le succs au kme essai).

Un matriel a une probabilit de 2 % de dfaillance chaque mise en service ; quelle est la probabilit davoir la premire panne au 10me essai ?

Hypergomtrique H(N;n;p)

CxNp CnxNNp

CnNn p N n

N 1 np(1 p)Loi des tirages sans remise avec probabilit constante (n/N est le taux de sondage)

Un lot de N pices contient Np pices dfectueuses. Quelle est la probabilit quun sous ensemble de n individus contienne x lments dfectueux ?

Poisson P(!) e k

k!

Nombre d'vnements peu probables dans une grande succession d'preuves (n > 50)

est un paramtre (gnralement compris

entre 0,1 et 18) ; k est un rel positif.

Nombre d'accidents dans un atelier.

Pascal P(r,k) Cr1k1pr(1 p)kr r

pr(1 p)

p2Nombre d'essais ncessaire pour qu'un vnement de probabilit p apparaisse r fois avec r ! 1 (pour r = 1, loi gomtrique)

Compte le nombre dessais ncessaires pour obtenir k succs (k fix) (alors que la binomiale compte le nombre de succs au cours de n essais, avec n fix).

Ckn =n!

k!(n k)!

• Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

VARIABLES CONTINUES

43

Probabilit

Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

LOIS DES VARIABLES CONTINUES

Loi uniforme (rectangulaire, quiprobable)

Loi de Student

Loi du Khi2

Loi exponentielle

etc.

44

a-a

Le coefficient diviseur nest pas arbitraire, il peut tre dmontr par

un calcul de variance =

ap3

Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

LOIS DES VARIABLES CONTINUES

Synoptique

45

Loi Normale (Gaussienne)

"2

Lognormale

Effets

Exponentielle Gamma

Weibull BetaFisher Sndcor

Student

Effets

Lois utilises en fiabilit,

Lois utilises pour les

tests

• Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

SYNOPTIQUE COMPLET

46

Binomiale

Multinomiale

Bernoulli

Hypergomtrique

Gomtrique Pascal

Poisson

Loi Normale (Gaussienne)

"2

Lognormale

Exponentielle Gamma

Weibull Beta

Fisher Sndcor

Student

Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

SYNOPTIQUE COMPLET & CONVERGENCES

47

Binomiale

Multinomiale

Bernoulli

Hypergomtrique

Gomtrique Pascal

Poisson

Loi Normale (Gaussienne)

"2

Lognormale

Exponentielle Gamma

Weibull Beta

Fisher Sndcor

Student

n 0,1 N

> 18

si np > 5 et np(1-p)>5,

alors

B(n; p) ! N(np,pnp(1 p))

Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

SYNTHSE LOIS CONTINUES

48

Loi Densit de probabilit EspranceE(X)

VarianceV AR(X)

Description Commentaires

Normale N(m;!) f(x) =1

2e(xm)2

22 m 2

Loi normale ou gaussienne, dont la densit de probabilit est appele courbe en cloche.

Utilisation de la table pour la loi normale

centre rduite T = Xm

Trs utilise car sapplique de nombreux phnomnes en physique comme en conomie, quand un grand nombre de facteurs agissent sous forme additive, chacun ayant une variance faible par rapport la variance rsultante.

LogNormale f(x) = 1x

2 e

(Lnxm)2

22 em+2

(e2 1)e2m+

2 Si Y N(m;) , X = eY suit une loi log-normale

Loi dune grandeur rsultant de linfluence dun grand nombre de facteurs alatoires agissant de manire multiplicative ; ! est un paramtre de forme permettant de lajuster de nombreux phnomnes en fiabilit.

Weibull f(x) = k

x

k1e(

x )

k

1 +1k

-

k est un paramtre de forme, " est un paramtre dchelle ( caractristique de vie ) et # un paramtre de localisation

k1 dcrit les phnomnes dusure (si k=1, on retrouve la loi exponentielle)

Exponentiellef(x) = ex pour x ! 0

f(x) = 0 sinon1

12

Utilise en fiabilit, " reprsente le taux de dfaillance (son inverse est le Mean Time Between Failure -MTBF).

Sapplique bien aux matriels lectroniques subissant des dfaillances brutales ou des systmes complexes dont les composants ont des lois de fiabilit diffrentes. Dcrit la priode pendant laquelle le taux de dfaillance est constant ou quasi-constant

Gammaf(x) =

ex(x)t1

(t)

f(x) = 0 sinon

t

t2

Gnralisation de la loi exponentielle, utilise pour dcrire les vnements dans un processus poissonien

(t)est la fonction eulrienne dfinie par

(t) =

0eyyt1dy

(t est un paramtre de forme, " est un paramtre dchelle)

Student Forme mathmatique complique, valeurs tabulesForme mathmatique complique, valeurs tabulesForme mathmatique complique, valeurs tabules Est utilise dans ltude dune distribution normale dont on ne connat pas la variance

Fisher-Snedecor Forme mathmatique complique, valeurs tabulesForme mathmatique complique, valeurs tabulesForme mathmatique complique, valeurs tabules Est utilise en analyse de la variance et en analyse de la rgression

Khi-deux Forme mathmatique complique, valeurs tabulesForme mathmatique complique, valeurs tabulesForme mathmatique complique, valeurs tabulesLa somme des carrs de v variables alatoires

qui suivent chacune N(0;1) suit une loi du 2

n degrs de libert.

Tend se rapprocher dune loi normale quand le nombre de ddl augmente

• Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

LOI GAUSSIENNE

5-5 -4 -3 -2 -1 0 1 2 3 4

0,5

0

0,1

0,2

0,3

0,4

Fonction reprsentant une forme de "cloche" symtrique

Deux paramtres : m et - si m = 0 et =1, on parle de loi normale centre rduite

Notation : N(m , )

49

f(x) =1

2 e 12 (

xm )

2

Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

THORME CENTRAL LIMITE

Une combinaison linaire de variables alatoires, dont chacune suit une loi de distribution quelconque, converge vers une loi normale si :

- le nombre de variables alatoires considr est grand

- les carts-types sont proches les uns des autres

Exemple

- on lance un d six faces : loi discrte "quiprobable"

- on le lance plusieurs fois et on fait la somme des lancers : le rsultat n'est pas exactement dcrit par une variable gaussienne, ... mais par une variable qui tend vers une loi gaussienne.

50

Un lancer

Nom

bre

de

com

bina

ison

s

0

1

2

Nombre

1 2 3 4 5 6

Somme de trois lancers

Nom

bre

de

com

bina

ison

s

0

10

20

30

Nombre

3 6 9 12 15 18

Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

LOI GAUSSIENNE

Intervalle unilatral

51

5-5 -4 -3 -2 -1 0 1 2 3 4

0,5

0

0,1

0,2

0,3

0,4

1,645

95 %

Loi normale centre rduitet 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

0,0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

1,1

1,2

1,3

1,4

1,5

1,6

1,7

1,8

1,9

2

2,1

2,2

2,3

2,4

2,5

2,6

2,7

2,8

2,9

3

3,1

3,2

3,3

3,4

3,5

3,6

3,7

3,8

3,9

0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,53590,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,57530,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,61410,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,65170,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,68790,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,72240,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,75490,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,78520,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,81330,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,83890,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,86210,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,88300,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,90150,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,91770,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,93190,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,94410,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,95450,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,96330,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,97060,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,97670,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,98170,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,98570,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,98900,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,99160,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,99360,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,99520,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,99640,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,99740,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,99810,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,99860,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,99900,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,99930,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,99950,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,99970,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,99980,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,99980,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,99990,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,99990,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,99991,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000

(t) = P (X < t) =

Z t

1

12

ex22 dx

• Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

LOI GAUSSIENNE

Intervalle bilatral

52

5-5 -4 -3 -2 -1 0 1 2 3 4

0,5

0

0,1

0,2

0,3

0,4

5-5 -4 -3 -2 -1 0 1 2 3 4

0,5

0

0,1

0,2

0,3

0,4

-

68,3 %

-1,96 1,96

95 %

-2 2

2 95,45 %

Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

INTERVALLE DE CONFIANCE

Intervalle bilatral

53

Loi normale centre rduitet 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

0,0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

1,1

1,2

1,3

1,4

1,5

1,6

1,7

1,8

1,9

2

2,1

2,2

2,3

2,4

2,5

2,6

2,7

2,8

2,9

3

3,1

3,2

3,3

3,4

3,5

3,6

3,7

3,8

3,9

0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,53590,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,57530,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,61410,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,65170,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,68790,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,72240,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,75490,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,78520,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,81330,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,83890,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,86210,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,88300,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,90150,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,91770,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,93190,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,94410,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,95450,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,96330,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,97060,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,97670,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,98170,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,98570,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,98900,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,99160,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,99360,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,99520,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,99640,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,99740,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,99810,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,99860,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,99900,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,99930,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,99950,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,99970,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,99980,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,99980,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,99990,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,99990,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,99991,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000

(t) = P (X < t) =

Z t

1

12

ex22 dx

Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

LOI DE STUDENT

54

-5 -4 -3 -2 -1 0 1 2 3 4 5

0,1

0,2

0,3

0,4

T () =Up

2()/

=

= 10

= 1

2() =X

i=1

U2i

• Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

LOI DE STUDENT

Qualit dun estimateur Quand on estime la moyenne d'une population par l'intermdiaire du calcul

de la moyenne d'un chantillon, il est possible d'associer cette moyenne un intervalle de confiance

Si X suit une loi normale, la moyenne de l'chantillon suit une loi normale :

les bornes de l'intervalle de confiance pour la moyenne sont :

(o u est le fractile de la loi gaussienne, au niveau de confiance choisi)

Gnralement, est inconnu, on doit l'approcher par s et l'on peut alors dmontrer que les bornes de l'intervalle suivent une loi de Student au lieu de la loi gaussienne

Les bornes de l'int. de confiance pour la moyenne sont alors :

(o t est le fractile de la loi de Student, au niveau de confiance choisi)

55

u pn

t spn

Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

LOI DE STUDENT

56

Fractiles de la loi de Student (probabilits bilatrales)Fraction p en

%Probabilit bilatrale

68,27 90 95 99 99,73

0,32 0,10 0,05 0,01 0,0027

Nombre de ddl

123456789101112131415161718192021222324252627282930405060708090100

infini10000

1,837 6,314 12,71 63,66 235,81,321 2,920 4,303 9,925 19,211,197 2,353 3,182 5,841 9,2191,142 2,132 2,776 4,604 6,6201,111 2,015 2,571 4,032 5,5071,091 1,943 2,447 3,707 4,9041,077 1,895 2,365 3,499 4,5301,067 1,860 2,306 3,355 4,2771,059 1,833 2,262 3,250 4,0941,053 1,812 2,228 3,169 3,9571,048 1,796 2,201 3,106 3,8501,043 1,782 2,179 3,055 3,7641,040 1,771 2,160 3,012 3,6941,037 1,761 2,145 2,977 3,6361,034 1,753 2,131 2,947 3,5861,032 1,746 2,120 2,921 3,5441,030 1,740 2,110 2,898 3,5071,029 1,734 2,101 2,878 3,4751,027 1,729 2,093 2,861 3,4471,026 1,725 2,086 2,845 3,4221,024 1,721 2,080 2,831 3,4001,023 1,717 2,074 2,819 3,3801,022 1,714 2,069 2,807 3,3611,021 1,711 2,064 2,797 3,3451,020 1,708 2,060 2,787 3,3301,020 1,706 2,056 2,779 3,3161,019 1,703 2,052 2,771 3,3031,018 1,701 2,048 2,763 3,2911,018 1,699 2,045 2,756 3,2801,017 1,697 2,042 2,750 3,2701,013 1,684 2,021 2,704 3,1991,010 1,676 2,009 2,678 3,1571,008 1,671 2,000 2,660 3,1301,007 1,667 1,994 2,648 3,1111,006 1,664 1,990 2,639 3,0961,006 1,662 1,987 2,632 3,0851,005 1,660 1,984 2,626 3,0771,000 1,645 1,960 2,576 3,001

Stat

istiq

ues

B

ertra

nd B

lanq

uart,

201

6, V

3.0

ETUDE DE NORMALIT

57

• Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

ETUDE DE NORMALIT

Reprsentation graphique

58

Avec 1000 valeurs, l'histogramme des valeurs issues d'une loi normale ... ne ressemble pas forcment une

loi normale !

Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

ETUDE DE NORMALIT

Mthode de la droite de Henry Changement de repre pour reprsenter les quantiles interprtation plus simple, mme avec peu de valeurs

utiliser Excel ou un papier gausso-aritmtique

59

Quantiles thoriques

Quantiles rels

changement dchelle

Gaussienne (rpartition)

Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

ETUDE DE NORMALIT

Mthode de la droite de Henry dans Excel

60

• Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

ETUDE DE NORMALIT

Mthode de la droite de Henry dans Excel

61

Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

ETUDE DE NORMALIT

Test de normalit Principe des tests

1 / Construire une statistique de distance entre les valeurs observes et les valeurs thoriques (distance "mesure")

2 / Dfinir quelle est la loi suivie par cette statistique

3 / Comparer la distance mesure la probabilit que cette distance soit explique par sa loi de distribution

4 / Conclure

Il existe autant de tests que de manires de dfinir une distance ...

Les tests sont gnralement performants pour un type de loi de distribution et pour un nombre de valeurs

Dans certains cas, il est possible qu'un test conduise une conclusion et qu'un autre test conduise une conclusion diffrente !

62

Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

ETUDE DE NORMALIT

Il existe de nombreux tests :

Tests du "2 , de Kolmogorov Smirnov, test de Cramer Von Mises, etc.

Chaque test prsente des avantages et des inconvnients, aucun n'est parfait !

63

Plus le test est complexe, plus les risques d'erreur dans l'interprtation sont grands, et plus il sera difficile de convaincre les ventuels "contradicteurs"

• Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

ETUDE DE NORMALIT

64

Stat

istiq

ues

B

ertra

nd B

lanq

uart,

201

6, V

3.0

TEST DINDPENDANCE DU #2

65

Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

TEST DINDPENDANCE DU #2

Test du "2 On cherche dmontrer lindpendance entre deux variables

qualitatives, chacune ayant plusieurs modalits

Exemple: on a interrog 200 personnes et lon veut dterminer sil existe un lien, dans la population, entre la profession et la prfrence en matire de boisson.

1. On construit le tableau de contingence

66

Ingnieur Banquier Mdecin Marge

Bire blonde

Bire brune

Marge

• Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

TEST DINDPENDANCE DU #2

2. On construit le tableau des effectifs observs

67

Ingnieur Banquier Mdecin Marge

Bire blonde 43 34 35 112

Bire brune 23 18 47 88

Marge 66 52 82 200

Tableau des effectifs observs sur lchantillon

Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

TEST DINDPENDANCE DU #2

3. On construit le tableau des frquences thoriques sous hypothse dindpendance

Calcul des frquences marginales

68

Ingnieur Banquier Mdecin Marge

Bire blonde 56,0%

Bire brune 44,0%

Marge 33,0% 26,0% 41,0% 100%

Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

TEST DINDPENDANCE DU #2

3. On construit le tableau des frquences thoriques sous hypothse dindpendance

Calcul des frquences

69

Ingnieur Banquier Mdecin Marge

Bire blonde 18,48% 14,56% 22,96% 56,0%

Bire brune 14,52% 11,44% 18,04% 44,0%

Marge 33,0% 26,0% 41,0% 100%

Tableau des frquences thoriques

• Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

TEST DINDPENDANCE DU #2

4. On construit le tableau des effectifs thoriques sous hypothse dindpendance

Calcul des effectifs

70

Ingnieur Banquier Mdecin Marge

Bire blonde 36,96 29,12 45,92 112,0

Bire brune 29,04 22,88 36,08 88,0

Marge 66,0 52,0 82,0 200

Tableau des effectifs thoriques

Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

TEST DINDPENDANCE DU #2

5. On construit le tableau des carts

Calcul des carts entre effectifs thoriques et effectifs observs

71

Ingnieur Banquier Mdecin Marge

Bire blonde 6,04 4,88 -10,92 -0,0

Bire brune -6,04 -4,88 10,92 0,0

Marge 0,0 0,0 0,0 0

Ingnieur Banquier Mdecin Marge

Bire blonde

43 34 35 112

Bire brune

23 18 47 88

Marge 66 52 82 200

Ingnieur Banquier Mdecin Marge

Bire blonde 36,96 29,12 45,92 112,0

Bire brune

29,04 22,88 36,08 88,0

Marge 66,0 52,0 82,0 200

Tableau des effectifs thoriques

Tableau des effectifs observs

Tableau des carts

Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

TEST DINDPENDANCE DU #2

5. On construit le tableau des "2

72

Ingnieur Banquier Mdecin Marge

Bire blonde 0,987 0,818 2,597

Bire brune 1,256 1,041 3,305

Marge 10,004

Tableau des "2

2ij =ecart2ijnij

2 =X

i,j

2ij

• Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

DEUX VARIABLES QUALITATIVES

Sur un chantillon Calcul de

Calcul du V de Cramer

(j=nombre de colonnes, k = nombre de lignes)

Interprtation

V proche de 0 : pas de lien entre les lignes et les colonnes

V proche de 1 : lien entre les lignes et les colonnes

73

V =

s2

min(j 1, k 1)

2 =2

n

Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

TEST DINDPENDANCE DU #2

6. On compare la valeur du "2 observe la valeur du "2 critique pour le niveau de risque dfini, en tenant compte du nombre de degrs de libert

Nombre de degrs de libert :

ddl = (nombre de lignes -1 ) x (nombre de colonnes - 1)

dans lexemple : ddl = (2-1) x (3-1)= 2

Lecture du "2 critique

74

Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

TEST DINDPENDANCE DU #2

8. Conclusion

Si "2 observ < "2 critique : lhypothse dindpendance est accepte, au risque alpha

Si "2 observ > "2 critique : lhypothse dindpendance est rejete, au risque

Note : si on rejette lhypothse dindpendance, cest quon accepte lhypothse alternative il y a un lien entre les variables

75

• Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

TEST DINDPENDANCE DU #2

Notes Le test du "2 ne renseigne en rien sur lventuel lien de causalit

entre les variables

- on remarquera que les tableaux sont inversibles (lignes/colonnes)

- un rel lien de cause effet peut exister ou non.

- une variable cache peut tre lorigine du lien observ

La valeur du "2 ne renseigne en rien sur la force du lien entre les variables

Le test est sensible au nombre de modalits de chaque variable - Si on scinde une modalit ou si on regroupe des modalits, le rsultat du test

peut voluer

Le test est sensible aux effectifs de chaque cellule - Eviter un effectif observ infrieur 5

76

Stat

istiq

ues

B

ertra

nd B

lanq

uart,

201

6, V

3.0

RGRESSIONS LINAIRES (INTRODUCTION)

77

Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

RGRESSIONS LINAIRES

Introduction Les mthodes de rgression sont le 1er outil des mthodes explicatives

danalyse de donnes, permettant de trouver un lien - fonctionnel ou non - entre les donnes.

Trois questions fondamentales: 1. Quel est le modle statistique le plus adapt ?

droite, parabole, exponentielle, etc.

2. Comment estimer les paramtres de ce modle ?

3. Comment dfinir les outils permettant de calculer les valeurs prvisionnelles de Y en fonction de X ?

Attention :

Lexistence dun lien entre les donnes ne signifie pas quil y a un lien de causalit

78

• Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

RGRESSIONS LINAIRES

79

I

Introduction

I.1 But de la rgression.

Commenons par un exemple illustratif simple. Le botaniste Joseph Dalton Hooker a mesur lorsdune expdition en 1849 la pression atmosphrique pi et la temprature dbullition de leau yi endivers endroits de lHimalaya 1. Selon les lois de la physique, yi devrait tre (en premire approximation)proportionnel au logarithme de pi. On pose donc le modle

yi = 1 + 2xi + ui, xi = log(pi). (I.1)

ui reprsente lerreur de mesure, et explique que les points de la figure I.1 ne sont pas exactementaligns. Cette figure montre galement la droite estime par moindres carrs. On voit une trs bonneadquation. Lquation ci-dessus donne un modle, qui si ui est suppos gaussien centr devient lemodle paramtrique yi N(1+2xi,2), dont on verra lintrt plus tard. Le paramtre 2 reprsentela variance de lcart des points la droite (mesur verticalement) et lestimation de donne ici 0,04.

2.7 2.8 2.9 3.0 3.1 3.2 3.3 3.482

84

86

88

90

92

94

96

98

100

Figure I.1 Temprature dbulition de leau mesure en divers endroits de lHimalaya en fonctiondu logarithme de la pression.

Cet exemple illustre comment le modle de rgression tente dexpliquer au mieux une grandeur y (larponse) en fonction dautres grandeurs x (vecteur des variables explicatives, ou rgresseurs, oufacteurs, un seul dans lexemple) en dmlant ce qui est dterministe de ce qui est alatoire eten quantifiant ces deux aspects (par les i dune part et 2 dautre part).

1. En 1857 le physicien James David Forbes a fait la mme exprience dans les Alpes, le but tant de pouvoir retrouverla pression atmosphrique partir de la seule mesure de la temprature dbulition de leau (les baromtres tant fragileset donc difficiles transporter lors dune expdition), ce qui permet ensuite den dduire laltitude au travers dune relationconnue ; il rapporte dans un article ce double ensemble de donnes dont nous nutilisons ici que la partie Himalayenne (ellessont dcrites dans : S.Weisberg, Applied Linear Regression, Wiley, 1985.)

7

Le botaniste Joseph Dalton Hooker a mesur lors dune expdition en 1849 la pression atmosphrique et la temprature dbullition de leau en divers endroits de lHimalaya. Les donnes sont reportes ci-dessus (temprature sur laxe des ordonnes en fonction du logarithme de la pression en abscisse)

temprature (en C)

ln (pression)

Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

RGRESSIONS LINAIRES

80

Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

RGRESSIONS LINAIRES

Principe de la rgression aux moindres carrs Choisir une fonction

droite, polynme, exponentielle, etc.

Trouver les coefficients de la fonction qui minimisent les rsidus : carts entre les valeurs observes et les valeurs calcules par la fonction

Critiquer la rgression choisie (ventuellement, en choisir une autre)

Rsidus

Coefficient de dtermination

Analyse de variance

Statistiques des paramtres de la rgression

81

• Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

RGRESSIONS LINAIRES

Principe de la rgression aux moindres carrs

82

Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

RGRESSIONS LINAIRES

Hypothses dapplication Le modle choisi est correct

La variable explicative (X) est sans incertitude, ou avec une incertitude ngligeable devant lincertitude associe la variable explique (Y)

Lerreur sur les ralisations de Y est nulle en moyenne et de mme ordre de grandeur pour toutes les valeurs de Y (homoscdasticit)

Les diffrentes observations de Y ne sont pas corrles

83

Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

RGRESSIONS LINAIRES

Moindres carrs pondrs

84

• Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

RGRESSIONS LINAIRES

Indicateur de la qualit de la rgression Coefficient de corrlation linaire

avec, pour N couples de points :

Par construction, le coefficient de corrlation est compris entre -1 et +1

Coefficient de dtermination (fourni dans Excel par exemple)

o SCEY est la somme des carrs des carts expliqus par la rgression

dans le cas des rgressions linaires (pas vrai si fonction exponentielle, puissance, etc.)

Compris entre 0 et 1

85

xy

=xy

x

y

R2 = 2

R2 =SCE

y

SCEtotale

Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

RGRESSIONS LINAIRES

Qualit de la rgression

86

= 1 0, 8

0, 995

0

Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

RGRESSIONS LINAIRES

Qualit de la rgression

87

• Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

RGRESSIONS LINAIRES

Exemple : concentration intrieure de polluants en fonction de la concentration extrieure

88

Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

RGRESSIONS LINAIRES

Exemple : concentration intrieure de polluants en fonction de la concentration extrieure

89

Introduction

Graphiques

Caract. numriques

Rgressions

Modlisation alatoire

Tests

RGRESSIONS LINAIRES

Analyse de la rgression : reprsentation des rsidus

90