Post on 13-Sep-2018
STATISTIQUES & PROBABILITÉS
SUPPORT DE COURS VERSION 3.0
INTRODUCTION 2 _______________________________________________________________
GRAPHIQUES 9 _________________________________________________________________
CARACTÉRISTIQUES NUMÉRIQUES 21 ________________________________________________
Tendance centrale
Dispersion
Boxplot
MODÉLISATION ALÉATOIRE 31 _____________________________________________________
Variable aléatoire
Lois des variables discrètes (Bernoulli, Binomiale, Poisson, etc.)
Lois des variables continues
Loi gaussienne
ETUDE DE NORMALITÉ D’UN ÉCHANTILLON 57 _________________________________________
Introduction aux tests statistiques
EXEMPLE DE TEST : TEST DU KHI2 65 _________________________________________________
RÉGRESSIONS LINÉAIRES (INTRODUCTION) 77_________________________________________
© Bertrand Blanquart - 2016
Stat
istiq
ues
© B
ertra
nd B
lanq
uart,
201
6, V
3.0
STATISTIQUES-PROBABILITÉS
1
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
LES STATISTIQUES EN ENTREPRISE ?
2
Surveillance des processus : MSP
Mise au point : plans d’expérience
Appro/gestion des stocks
Prévisions météo/stocks
Contrôle qualité
Prévisions vente / gestion transport
Mesures
Enquêtes satisfaction
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
OBJECTIFS D’APPRENTISSAGE
• Lire et exploiter des tableaux de données
• Mener une analyse de statistique descriptive univariée via les outils : tableaux, diagrammes, caractéristiques de tendance centrale, caractéristiques de dispersion.
• Mener une analyse de statistique descriptive bivariée via les outils : régression, fréquences conditionnelles, test d’indépendance
• Rédiger des synthèses à partir des résultats
• Construire une modélisation aléatoire
• Connaître les lois de probabilités
• Appliquer la loi de probabilité pour déterminer une probabilité
• Connaître les propriétés de l’espérance et la variance
3
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
NOTIONS FONDAMENTALES (NF ISO 3534-1, JANVIER 2007)
• Population
- totalité des individus pris en considération
Note : la population peut être finie ou infinie, réelle ou hypothétique
• Echantillon
- sous-ensemble d'une population constitué d'une ou de plusieurs unités d'échantillonnage
Effectif d'échantillon : n = nombre d'unités dans l'échantillon
Généralement, l'étude exhaustive de la population n'est pas possible : on essaie de deviner ("inférer") les informations à partir de l'étude de l'échantillon
4
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
NOTIONS FONDAMENTALES
• L'information considérée dans une étude statistique peut être qualitative ou quantitative
Exemples
- couleur des yeux : variable qualitative
- taille (en cm) : variable quantitative
• Une information quantitative peut être continue ou discrète
Exemples
- taille (en cm) : variable quantitative continue
- taille (en n° de taille de vêtements : 38, 40, etc) : variable quantitative discrète
5
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
NOTIONS FONDAMENTALES
• Variable qualitative
On dénombre les individus correspondants à chaque modalité
• Variable quantitative
On représente les valeurs
6
Couleur Nombre
Bleu 4
Marron 13
Vert 3
Taille (cm)
167 189
183 175
173 174
Taill
e (c
m)
150
160
170
180
190
200
Nom
bre
0
3
6
8
11
14
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
NOTIONS FONDAMENTALES
‣ Exemple
• Un fabricant de tissus essaie une nouvelle machine, il compte le nombre de défauts sur 75 échantillons de 10 m.
7
Nombre de défauts 0 1 2 3 4 5
Nombre d’échantillons 38 15 11 6 3 2
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
STATISTIQUES DESCRIPTIVES
‣ Exemple
• Un fabricant de tissus essaie une nouvelle machine, il compte le nombre de défauts sur 75 échantillons de 10 m.
8
N
Nombre de défauts 0 1 2 3 4 5
Nombre d’échantillons 38 15 11 6 3 2 75
Fréquence absolue 38 15 11 6 3 2
Fréquence relative 0,51 0,20 0,15 0,08 0,04 0,03
Fréquence cumulée absolue 38 53 64 70 73 75
Fréquence cumulée relative 0,51 0,71 0,85 0,93 0,97 1,00
Stat
istiq
ues
© B
ertra
nd B
lanq
uart,
201
6, V
3.0
GRAPHIQUES
9
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
STATISTIQUES DESCRIPTIVES
‣ Variable discrète
• Exemple : un fabricant de tissus essaie une nouvelle machine, il compte le nombre de défauts sur 75 échantillons de 10 m.
10
Fréq
uenc
e ab
solu
e
0
10
20
30
40
50
Nombre de défauts0 1 2 3 4 5
236
1115
38
Fréq
uenc
e cu
mul
ée r
elat
ive
0
0,2
0,4
0,6
0,8
1
Nombre de défauts0 1 2 3 4 5
10,970,93
0,85
0,71
0,51
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
STATISTIQUES DESCRIPTIVES
3 %4 %8 %
15 %
20 %
51 %
0 défaut1 défaut2 défauts3 défauts4 défauts5 défauts
‣ Variable discrète
• Exemple : un fabricant de tissus essaie une nouvelle machine, il compte le nombre de défauts sur 75 échantillons de 10 m.
11
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
STATISTIQUES DESCRIPTIVES
‣ Variable continue
‣ Découpage en classes
‣ Nombre de classes ?
Ni trop, ni trop peu…
Critère de Sturges : k≃1+3,222 log10(n).
Le regroupement en classes fait perdre aux individus leur caractère propre ainsi que les détails fins des distributions.
Les classes peuvent être d’amplitudes différentes (dans ce cas, les rectangles de l’histogramme doivent l’indiquer, soit par une largeur proportionnelle à l’amplitude soit par une légende appropriée).
12
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
STATISTIQUES DESCRIPTIVES
‣ Variable continue
• 200 dispositifs ont subi un test de fiabilité ; la durée de vie (notée X, en heures) jusqu’à défaillance a été notée dans le tableau suivant.
13
Durée de vie (en heures)
Nombre ni de dispositifs
(fréquence absolue)Fréquence relative fi
Fréquence cumulée absolue
Fréquence cumulée relative
0 ≤ X < 150 60 0,3 60 0,3
150 ≤ X < 300 30 0,15 90 0,45
300 ≤ X < 450 24 0,12 114 0,57
450 ≤ X < 600 20 0,1 134 0,67
600 ≤ X < 750 16 0,08 150 0,75
750 ≤ X < 900 16 0,08 166 0,83
900 ≤ X < 1050 16 0,08 182 0,91
1050 ≤ X < 1200 12 0,06 194 0,97
1200 ≤ X < 1350 6 0,03 200 1
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
STATISTIQUES DESCRIPTIVES
‣ Variable continue
• 200 dispositifs ont subi un test de fiabilité
14
Fréq
uenc
e ab
solu
e
0
10
20
30
40
Durée de vie (en heures)
0-15
0
150-
300
300-
450
450-
600
600-
750
750-
900
900-
1050
1050
-120
0
1200
-135
0
36
88810
1215
30
Fréq
uenc
e cu
mul
ée r
elat
ive
0
0,25
0,5
0,75
1
Durée de vie (en heures)
0-15
0
150-
300
300-
450
450-
600
600-
750
750-
900
900-
1050
1050
-120
0
1200
-135
0
10,970,91
0,830,75
0,67
0,57
0,45
0,3
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
STATISTIQUES DESCRIPTIVES
‣ Exemple
• Etude de la dispersion d’un lot de 400 résistances, de valeur nominale 100 kΩ.
15
Classe Limites de classe (en
kΩ)
Nombre ni de dispositifs
(fréquence absolue)
Fréquence relative fi
Fréquence cumulée
absolue Ni
Fréquence cumulée relative Fi
I [92 ; 94[ 10 0,025 10 0,025II [94 ; 96[ 15 0,038 25 0,063III [96 ; 98[ 40 0,100 65 0,163IV [98 ; 100[ 60 0,150 125 0,313V [100 ; 102[ 90 0,225 215 0,538VI [102 ; 104[ 70 0,175 285 0,713VII [104 ; 106[ 50 0,125 335 0,838VIII [106 ; 108[ 35 0,088 370 0,925IX [108 ; 110[ 20 0,050 390 0,975X [110 ; 112[ 10 0,025 400 1
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
STATISTIQUES DESCRIPTIVES
‣ Exemple
• Etude de la dispersion d’un lot de 400 résistances, de valeur nominale 100 kΩ.
16
0
20
40
60
80
100
Classes
I II III IV V VI VII VIII IX X
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
STATISTIQUES DESCRIPTIVES
‣ Exemples
17
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
STATISTIQUES DESCRIPTIVES
18
Population
100 000
50 000
20 000
Population par pays (données fictives)
Sour
ce c
arto
grap
hiqu
e : A
rticq
ue
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
EXEMPLES
19
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
‣ Exemple
20
Stat
istiq
ues
© B
ertra
nd B
lanq
uart,
201
6, V
3.0
CARACTÉRISTIQUES NUMÉRIQUES
21
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
STATISTIQUES DESCRIPTIVES
‣ Caractéristiques de “tendance centrale” (ou “paramètres de position)
• Moyenne arithmétique
22
m =1
n
nX
i=1
xi
9 7
=MOYENNE(...) 9,7
13 19
7 6
6 10
13 7
200 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
+++
0
+++
+++
+++
1
2
3
4
5
6
Valeurs+X
Moyenne
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
STATISTIQUES DESCRIPTIVES
‣ Caractéristiques de “tendance centrale”
• Médiane
• si n impair, (n+1) / 2ème valeur de l'échantillon (trié en ordre non décroissant)
• si n pair, moyenne de la (n/2) et de la (n/2 +1)ème valeurs
23
6 9
=MEDIANE(...) 8
13 19
7 6
6 10
13 7
200 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
+++
0
+++
+++
+++
1
2
3
4
5
6
Valeurs+X
Médiane
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
9 7
=MAX(...)-MIN(...) 13
13 197 6
6 10
13 7
STATISTIQUES DESCRIPTIVES
‣ Caractéristiques de dispersion
• Etendue
• plus grande statistique d'ordre moins la plus petite statistique d'ordre
24200 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
+++
0
+++
+++
+++
1
2
3
4
5
6
Valeurs+X
Min Max
Etendue
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
STATISTIQUES DESCRIPTIVES
‣ Caractéristiques de dispersion
• Ecart-type
25
s =
sPni=1(xi � x̄)2
n� 1
9 7
=ECARTYPE(...) 4,1913
13 19
7 6
6 10
13 7
200 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
+++
0
+++
+++
+++
1
2
3
4
5
6
Valeurs+X
Moyenne
Intervalle : ± s
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
STATISTIQUES DESCRIPTIVES
‣ Caractéristiques de dispersion
• Ecart-type
• Ecart-type d’une “population”
• Coefficient de variation
26
� =
vuut 1
n
nX
i=1
(xi �m)2
9 7
=ECARTYPEP(...) 3,9762
13 19
7 6
6 10
13 7
Cv = 100 · s
m
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
STATISTIQUES DESCRIPTIVES
‣ Caractéristiques de dispersion
• Variance
• La variance est le carré de l’écart-type.
• Propriétés de la variance
Si une variable aléatoire est la combinaison linéaire de plusieurs variables aléatoires,
Y =a × X1 + b × X2 • alors sa variance se calcule selon l'additivité des variances :
27
V ar(Y ) = a2 · V ar(X1) + b2 · V ar(X2)➜
➜ �2(Y ) = a2 · �2(X1) + b2 · �2(X2)
V ar = �
2 =1
n
X
i=1,n
(xi � x̄)2
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
STATISTIQUES DESCRIPTIVES
‣ Autres caractéristiques
• Mode
• Quantile
décile, centile
28
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
STATISTIQUES DESCRIPTIVES
‣ Caractéristiques
• “Boxplot“ (boîte à moustaches)
Longueur du trait (méthode de Tukey ) :
- Calculer !=1,5 × (Q3-Q1)
- Limite inférieure du trait : max (x1, Q1-!)
- Limite supérieure du trait : min (xn, Q3+!)
puis ajouter autant d’étoiles que de valeurs en-dehors des limites définies par le trait (de chaque côté)
29
Q1 Q3Q2 (Mediane)
*
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
STATISTIQUES DESCRIPTIVES
‣ Caractéristiques
• “Boxplot“ (boîte à moustaches)
30T-Cola. We did not find a significant difference between CocaCola and Pepsi Cola preference. The so-called ‘‘Pepsi Paradox’’states that people exhibit a reliable preference for Coca Cola whenbrand information is available (e.g. in the supermarket), but noreliable preference for Coke when no brand information isavailable (e.g. in blind taste tests) [16]. Accordingly, one mighttherefore have predicted a preference for the soft drink mixturewhen it was announced as Coca Cola compared with Pepsi Cola,based to the so-called ‘‘Pepsi Paradox’’. But without a reference toa blind taste condition to compare the results to, it is difficult toconclude that the present findings are not in line with the ‘‘PepsiParadox’’. It may still be the case that also in the present samplePepsi Cola would have been judged as more pleasant than CocaCola in a blind test.
We set out to compare strong and weak brands. We pooledRiver Cola and T Cola as weak brands although participants mayhave preexisting associations with River Cola but not with theinvented T-Cola. We did that mostly because River Cola is ageneric brand that is not subject to advertisement, and we stronglydoubt that German customers would be able to recall the logo ofRiver Cola when prompted to. When comparing brain activationbetween strong and weak brands during the cue phase, weightedaccording to the preference rating after each trial, we foundstronger activation in right mOFC during weak compared withstrong brands. Previous human fMRI studies have placedindividuals in simple choice situations and found that BOLDactivity in the mOFC correlates with behavioral measures ofstimulus values [17,18]. These findings are consistent with monkeyneurophysiology studies that have found stimulus value coding inOFC neurons during choice tasks [19,20]. Based on this view ofmOFC the present findings may indicate that participants rely onstimulus values encoded in mOFC more strongly whenever weakbrands do not offer sufficient guidance to decide about the drinks
pleasantness. When on the other hand a strong brand is expected,this strong brand cue overrides elaborate processing of stimulusvalue in mOFC, since the brand is well known and its associationscan be easily retrieved without an additional assessment of thesubjective stimulus value. That mOFC can predict consumerchoice has been nicely demonstrated in a pattern classificationstudy in which preferences for cars were inferred from activity ofmOFC [21]. A previous study on soft drinks administered pureCoca Cola and Pepsi Cola in an anonymous and a real cuecondition [16]. During the anonymous tasting mOFC activity waspositively correlated with the subjects’ reported preference for thebeverages. This finding reveals that mOFC is related to tastepreferences when no brand cue is delivered. Consequently onemay interpret the present finding as an indication that theannouncement by means of weak brands has a similar effect as theabsence of brand cues. Therewith the present study extendsprevious literature on the influence of linguistic contextualinformation [13] and pricing [14] that has shown a positiveassociation between activity in mOFC and positive linguisticinformation as well as information on the product price. Strongbrands in contrast to high price and positive linguistic informationseem to attenuate stimulus value related to mOFC stimulus valueprocessing that is present when weak brands are announced. Butthis difference in results could well be due to the fact that thepresent design allowed us to disentangle cue and taste relatedprocessing, whereas the previous studies delivered the linguisticand pricing information in synchrony with the taste stimulus.
In a direct comparison of Coca Cola and Pepsi Cola during thecue phase, we found significantly more activation in rightamygdala associated with the Coca Cola cue. The amygdala isgenerally known for its role in emotion processing. Traditionally ithas been linked to negative emotions [29], in particular to fear[30]. But more and more evidence exists that questions this strong
Figure 4. Box plot depicting the difference in BOLD per cent signal change in left striatum in strong (Coca Cola, Pepsi Cola)compared to weak (River Cola, T Cola) brands in participants who report to drink Cola with a frequency of 0 days a week onaverage and participants reporting to report Cola more than once a week. Error bars depict the standard deviation.doi:10.1371/journal.pone.0061569.g004
Brand Anticipation Influences Gustatory Processing
PLOS ONE | www.plosone.org 5 April 2013 | Volume 8 | Issue 4 | e61569
Stat
istiq
ues
© B
ertra
nd B
lanq
uart,
201
6, V
3.0
MODÉLISATION ALÉATOIRE
31
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
VARIABLE ALÉATOIRE
• Variable représentant une grandeur (ou une caractéristique) qui peut prendre plusieurs valeurs (modalités), en associant à chaque valeur une probabilité donnée.
Exemples :
- la température maximale demain
- une pièce prélevée au hasard dans un lot de production
- le résultat du lancer d'un dé à six faces
• La variable peut être qualitative
- il fera {beau / pas beau} demain
• La variable peut être quantitative
continue ou discrète
- la température est une variable continue
- le résultat du lancer d'un dé à six faces est une variable discrète
32
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
LOIS DE DISTRIBUTION
• La loi de distribution est la fonction qui décrit la probabilité affectée à chaque valeur de la variable aléatoire
• Exemple :
le résultat du lancer d'un dé à six faces (non truqué)
- probabilité d'obtenir "1" : 1/6
- probabilité d'obtenir "2" : 1/6
- probabilité d'obtenir "3" : 1/6
- probabilité d'obtenir "4" : 1/6
- probabilité d'obtenir "5" : 1/6
- probabilité d'obtenir "6" : 1/6
33
Prob
abili
té
0
1/3
2/3
1
Nombre
1 2 3 4 5 6
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
LOIS DES VARIABLES DISCRÈTES
‣ Variable de Bernoulli
Variable qui peut prendre deux valeurs (ou deux “états”), de probabilités respectives p et q = 1-p
Exemple : le résultat du lancer d’une pièce de monnaie à pile ou face (si elle n’est pas truquée : p = q = 0,5)
Notations :
34
Prob(X = 1) = p
Prob(X = 0) = q V ar(X) = p · q
E(X) = p
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
LOIS DES VARIABLES DISCRÈTES
‣ Loi binomiale
• On a n réalisations indépendantes (ou “tirages”) d’une variable de Bernoulli (= on lance n fois la pièce pile/face)
• X est la variable aléatoire qui décrit le nombre de “succès“ au cours des n “tirages”
• X suit une loi binomiale B(n,p)
35
Prob(X = k) = C
kn · pk · (1� p)n�k
E(X) = n · p
V ar(X) = n · p · qCk
n =n!
(n� k)!k!
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
LOIS DES VARIABLES DISCRÈTES
‣ Exemple
Exemple : on lance 3 fois une pièce à pile ou face. Quelle est la probabilité d’obtenir deux fois “pile” …
… si l’on sait que la pièce n’est pas truquée ?
… si l’on sait que la pièce est truquée et que la probabilité d’avoir “pile” à chaque lancer est en fait p=0,6 ?
36
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
LOIS DES VARIABLES DISCRÈTES
‣ Loi de Poisson
On a des épreuves binomiales, avec N très grand et p très petit (et le produit N × p qui reste un nombre fini)
Alors, la loi binomiale tend vers une loi de Poisson, dont la probabilité s’écrit :
L’avantage de la loi de Poisson est qu’elle nécessite un seul paramètre (au lieu de deux pour la binomiale)
37
Prob(X = k) =µ
k
k!e
�µ
E(X) = µ V ar(X) = µ
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
LOIS DES VARIABLES DISCRÈTES
‣ Loi de Poisson
• Critère de convergence de la loi binomiale vers une loi de Poisson : si n × p < 5 et n > 20
• La loi de Poisson décrit bien des phénomènes de comptage : détection de photons par un photomultiplicateur, comptage de particules émises lors de désintégrations radioactives, comptage d’ions dans un spectromètre de masse, comptage d’individus en microbiologie, . . .
38
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
LOIS DES VARIABLES DISCRÈTES
‣Loi Hypergéométrique
Cette loi décrit les “tirages sans remise”: on prélève des éléments sans les remettre en jeu ; une fois qu’on a prélevé un élément, il n’y plus aucune chance de le prélever de nouveau.
Exemple : 3 boules dans un sac, dont on sait que deux sont vertes et une est rouge :
• Au premier tirage, on a une chance sur trois de tirer la boule rouge.
• Au second tirage,
si on a tiré la boule rouge au 1er tirage, on a 100 % de chances de tirer une boule verte.
si par contre, on a tiré une boule verte au 1er tirage, on a une chance sur deux de tirer une boule verte.
39
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
LOIS DES VARIABLES DISCRÈTES
‣ Synoptique
40
Binomiale
Multinomiale
Bernoulli
Hypergéométrique
Géométrique Pascal
PoissonTirages avec remiseTirages sans remise
Nombre d'essais pour obtenir k succès(lois utilisées dans les jeux de hasard)
Nombre de défaillances (sans mémoire)
Variable à deux états
(k = 1)
H(N;n;p) B(n;p) P(λ)
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
LOIS DES VARIABLES DISCRÈTES
‣ Synoptique et convergences
41
Binomiale
Multinomiale
Bernoulli
Hypergéométrique
Géométrique Pascal
Poisson
Nombre d'essais pour obtenir k succès(lois utilisées dans les jeux de hasard)
Variable à deux états
(k = 1)
H(N;n;p) B(n;p) P(λ)n ≤ 0,1 N
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
SYNTHÈSE LOIS DISCRÈTES
42
Loi Pr(X = k) EspéranceE(X)
VarianceV AR(X)
Description Commentaires
Bernoulli Pr(X = 1) = pPr(X = 0) = q = 1� p
- - Variable pouvant prendre deux états. Pile/face, noir/blanc, etc.
BinomialeB(n;p) Ck
n · pk · (1� p)n�k np np(1� p)X compte le nombre de succès lors de n répétitions d'une variable de Bernoulli de probabilité p, avec remise, sans mémoire (les résultats des répétitions sont indépendants)
Combien de fois on obtient "pile" dans un nombre de lancers successifs d’une pièce de monnaie
Multinomiale n!x1!x2!x3!. . . xk!
· px11 . . . pxk
k E(Xi) = npi npi(1� pi)Généralisation de la loi binomiale quand le nombre de valeurs possibles de la variable aléatoire est supérieur à 2 (k types différents)
Lancer d'un dé à 6 faces ;Contrôle final d’un produit ayant 4 états possibles avec des probabilités différentes : conforme 80 %), défaut non critique (10 %), défaut moyen (6 %), défaut critique (4 %)
Géométrique p(1� p)k�1 1p
1� p
p2
Nombre d'essais nécessaire pour qu'un événement de probabilité p apparaisse (k-1 échecs avant le succès au kème essai).
Un matériel a une probabilité de 2 % de défaillance à chaque mise en service ; quelle est la probabilité d’avoir la première panne au 10ème essai ?
Hypergéométrique H(N;n;p)
CxNp · Cn�x
N�Np
CnN
n� p N � n
N � 1· np(1� p)
Loi des tirages sans remise avec probabilité constante (n/N est le taux de sondage)
Un lot de N pièces contient Np pièces défectueuses. Quelle est la probabilité qu’un sous ensemble de n individus contienne x éléments défectueux ?
Poisson P(!) e�� · �k
k! � �
Nombre d'événements peu probables dans une grande succession d'épreuves (n > 50)
� est un paramètre (généralement compris
entre 0,1 et 18) ; k est un réel positif.
Nombre d'accidents dans un atelier.
Pascal P(r,k) Cr�1k�1p
r(1� p)k�r rp
r(1� p)p2
Nombre d'essais nécessaire pour qu'un événement de probabilité p apparaisse r fois avec r ! 1 (pour r = 1, loi géométrique)
Compte le nombre d’essais nécessaires pour obtenir k succès (k fixé) (alors que la binomiale compte le nombre de succès au cours de n essais, avec n fixé).
Ckn =
n!k!(n� k)!
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
VARIABLES CONTINUES
43
Probabilité
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
LOIS DES VARIABLES CONTINUES
• Loi uniforme (rectangulaire, équiprobable)
• Loi de Student
• Loi du Khi2
• Loi exponentielle
• etc.
44
a-a
Le coefficient diviseur n’est pas arbitraire, il peut être démontré par
un calcul de variance � =
ap3
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
LOIS DES VARIABLES CONTINUES
‣ Synoptique
45
Loi Normale (Gaussienne)
"2
Lognormale
Effets
Exponentielle Gamma
Weibull BetaFisher Snédécor
Student
Effets
Lois utilisées en fiabilité,
Lois utilisées pour les
tests
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
SYNOPTIQUE COMPLET
46
Binomiale
Multinomiale
Bernoulli
Hypergéométrique
Géométrique Pascal
Poisson
Loi Normale (Gaussienne)
"2
Lognormale
Exponentielle Gamma
Weibull Beta
Fisher Snédécor
Student
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
SYNOPTIQUE COMPLET & CONVERGENCES
47
Binomiale
Multinomiale
Bernoulli
Hypergéométrique
Géométrique Pascal
Poisson
Loi Normale (Gaussienne)
"2
Lognormale
Exponentielle Gamma
Weibull Beta
Fisher Snédécor
Student
n ≤ 0,1 N
λ > 18
si np > 5 et np(1-p) > 5,
alors
B(n; p) ! N(np,pnp(1� p))
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
SYNTHÈSE LOIS CONTINUES
48
Loi Densité de probabilité EspéranceE(X)
VarianceV AR(X)
Description Commentaires
Normale N(m;!) f(x) =1
⇥�
2�e�(x�m)2
2�2 m �2
Loi normale ou gaussienne, dont la densité de probabilité est appelée «courbe en cloche».
Utilisation de la table pour la loi normale
centrée réduite T = X�m�
Très utilisée car s’applique à de nombreux phénomènes en physique comme en économie, quand un grand nombre de facteurs agissent sous forme additive, chacun ayant une variance faible par rapport à la variance résultante.
LogNormale f(x) =1
x⇥�
2�· e�
(Lnx�m)2
2�2 em+�2(e�2
� 1)e2m+�2 Si Y � N(m;�) ,
X = eY suit une loi log-normale
Loi d’une grandeur résultant de l’influence d’un grand nombre de facteurs aléatoires agissant de manière multiplicative ; ! est un paramètre de forme permettant de l’ajuster à de nombreux phénomènes en fiabilité.
Weibull f(x) =k
⇥
�x� �
⇥
⇥k�1
e�( x��⇥ )k
���
1 +1k
⇥-
k est un paramètre de forme, " est un paramètre d’échelle (« caractéristique de vie ») et # un paramètre de localisation
k<1 décrit les «mortalités précoces» et k>1 décrit les phénomènes d’usure (si k=1, on retrouve la loi exponentielle)
Exponentiellef(x) = �e��x
pour x ! 0
f(x) = 0 sinon
1�
1�2
Utilisée en fiabilité, " représente le taux de défaillance (son inverse est le Mean Time Between Failure -MTBF).
S’applique bien aux matériels électroniques subissant des défaillances brutales ou à des systèmes complexes dont les composants ont des lois de fiabilité différentes. Décrit la période pendant laquelle le taux de défaillance est constant ou quasi-constant
Gammaf(x) =
�e��x(�x)t�1
�(t)
f(x) = 0 sinon
t�
t�2
Généralisation de la loi exponentielle, utilisée pour décrire les évènements dans un processus poissonien
�(t)est la fonction eulérienne définie par
�(t) =� ⇥
0e�yyt�1dy
(t est un paramètre de forme, " est un paramètre d’échelle)
Student Forme mathématique compliquée, valeurs tabuléesForme mathématique compliquée, valeurs tabuléesForme mathématique compliquée, valeurs tabuléesEst utilisée dans l’étude d’une distribution normale dont on ne connaît pas la variance
Fisher-Snedecor Forme mathématique compliquée, valeurs tabuléesForme mathématique compliquée, valeurs tabuléesForme mathématique compliquée, valeurs tabuléesEst utilisée en analyse de la variance et en analyse de la régression
Khi-deux Forme mathématique compliquée, valeurs tabuléesForme mathématique compliquée, valeurs tabuléesForme mathématique compliquée, valeurs tabulées
La somme des carrés de v variables aléatoires
qui suivent chacune N(0;1) suit une loi du �2
à n degrés de liberté.
Tend à se rapprocher d’une loi normale quand le nombre de ddl augmente
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
LOI GAUSSIENNE
5-5 -4 -3 -2 -1 0 1 2 3 4
0,5
0
0,1
0,2
0,3
0,4
• Fonction représentant une forme de "cloche" symétrique
• Deux paramètres : m et σ - si m = 0 et σ =1, on parle de loi normale centrée réduite
• Notation : N(m , σ)
49
f(x) =1
⇥⇥
2�· e�
12 ( x�m
� )2
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
THÉORÈME CENTRAL LIMITE
• Une combinaison linéaire de variables aléatoires, dont chacune suit une loi de distribution quelconque, converge vers une loi normale si :
- le nombre de variables aléatoires considéré est grand
- les écarts-types sont proches les uns des autres
• Exemple
- on lance un dé à six faces : loi discrète "équiprobable"
- on le lance plusieurs fois et on fait la somme des lancers : le résultat n'est pas exactement décrit par une variable gaussienne, ... mais par une variable qui tend vers une loi gaussienne.
50
Un lancer
Nom
bre
de
com
bina
ison
s
0
1
2
Nombre
1 2 3 4 5 6
Somme de trois lancers
Nom
bre
de
com
bina
ison
s
0
10
20
30
Nombre
3 6 9 12 15 18
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
LOI GAUSSIENNE
‣ Intervalle unilatéral
51
5-5 -4 -3 -2 -1 0 1 2 3 4
0,5
0
0,1
0,2
0,3
0,4
1,645
95 %
Loi normale centrée réduitet 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
1,1
1,2
1,3
1,4
1,5
1,6
1,7
1,8
1,9
2
2,1
2,2
2,3
2,4
2,5
2,6
2,7
2,8
2,9
3
3,1
3,2
3,3
3,4
3,5
3,6
3,7
3,8
3,9
0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,53590,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,57530,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,61410,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,65170,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,68790,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,72240,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,75490,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,78520,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,81330,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,83890,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,86210,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,88300,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,90150,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,91770,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,93190,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,94410,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,95450,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,96330,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,97060,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,97670,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,98170,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,98570,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,98900,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,99160,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,99360,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,99520,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,99640,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,99740,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,99810,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,99860,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,99900,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,99930,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,99950,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,99970,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,99980,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,99980,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,99990,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,99990,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,99991,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
�(t) = P (X < t) =
Z t
�1
1�2�
· e�x
2
2 · dx
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
LOI GAUSSIENNE
‣ Intervalle bilatéral
52
5-5 -4 -3 -2 -1 0 1 2 3 4
0,5
0
0,1
0,2
0,3
0,4
5-5 -4 -3 -2 -1 0 1 2 3 4
0,5
0
0,1
0,2
0,3
0,4
-σ σ
68,3 %
-1,96 σ 1,96 σ
95 %
≈ -2 σ ≈ 2 σ
± 2 σ ⇒ 95,45 %
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
INTERVALLE DE CONFIANCE
‣ Intervalle bilatéral
53
Loi normale centrée réduitet 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
1,1
1,2
1,3
1,4
1,5
1,6
1,7
1,8
1,9
2
2,1
2,2
2,3
2,4
2,5
2,6
2,7
2,8
2,9
3
3,1
3,2
3,3
3,4
3,5
3,6
3,7
3,8
3,9
0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,53590,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,57530,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,61410,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,65170,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,68790,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,72240,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,75490,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,78520,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,81330,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,83890,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,86210,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,88300,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,90150,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,91770,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,93190,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,94410,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,95450,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,96330,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,97060,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,97670,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,98170,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,98570,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,98900,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,99160,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,99360,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,99520,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,99640,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,99740,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,99810,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,99860,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,99900,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,99930,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,99950,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,99970,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,99980,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,99980,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,99990,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,99990,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,99991,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
�(t) = P (X < t) =
Z t
�1
1�2�
· e�x
2
2 · dx
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
LOI DE STUDENT
54
-5 -4 -3 -2 -1 0 1 2 3 4 5
0,1
0,2
0,3
0,4
T (⌫) =Up
�2(⌫)/⌫
ν = ∞
ν = 10
ν = 1
�2(⌫) =⌫X
i=1
U2i
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
LOI DE STUDENT
‣ Qualité d’un estimateur
• Quand on estime la moyenne d'une population par l'intermédiaire du calcul de la moyenne d'un échantillon, il est possible d'associer à cette moyenne un intervalle de confiance
• Si X suit une loi normale, la moyenne de l'échantillon suit une loi normale :
les bornes de l'intervalle de confiance pour la moyenne sont :
(où u est le fractile de la loi gaussienne, au niveau de confiance choisi)
• Généralement, σ est inconnu, on doit l'approcher par s et l'on peut alors démontrer que les bornes de l'intervalle suivent une loi de Student au lieu de la loi gaussienne
Les bornes de l'int. de confiance pour la moyenne sont alors :
(où t est le fractile de la loi de Student, au niveau de confiance choisi)
55
±u · �pn
± t · spn
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
LOI DE STUDENT
56
Fractiles de la loi de Student (probabilités bilatérales)Fraction p en
%Probabilité bilatérale
68,27 90 95 99 99,73
0,32 0,10 0,05 0,01 0,0027
Nombre de ddl
123456789101112131415161718192021222324252627282930405060708090100
infini10000
1,837 6,314 12,71 63,66 235,81,321 2,920 4,303 9,925 19,211,197 2,353 3,182 5,841 9,2191,142 2,132 2,776 4,604 6,6201,111 2,015 2,571 4,032 5,5071,091 1,943 2,447 3,707 4,9041,077 1,895 2,365 3,499 4,5301,067 1,860 2,306 3,355 4,2771,059 1,833 2,262 3,250 4,0941,053 1,812 2,228 3,169 3,9571,048 1,796 2,201 3,106 3,8501,043 1,782 2,179 3,055 3,7641,040 1,771 2,160 3,012 3,6941,037 1,761 2,145 2,977 3,6361,034 1,753 2,131 2,947 3,5861,032 1,746 2,120 2,921 3,5441,030 1,740 2,110 2,898 3,5071,029 1,734 2,101 2,878 3,4751,027 1,729 2,093 2,861 3,4471,026 1,725 2,086 2,845 3,4221,024 1,721 2,080 2,831 3,4001,023 1,717 2,074 2,819 3,3801,022 1,714 2,069 2,807 3,3611,021 1,711 2,064 2,797 3,3451,020 1,708 2,060 2,787 3,3301,020 1,706 2,056 2,779 3,3161,019 1,703 2,052 2,771 3,3031,018 1,701 2,048 2,763 3,2911,018 1,699 2,045 2,756 3,2801,017 1,697 2,042 2,750 3,2701,013 1,684 2,021 2,704 3,1991,010 1,676 2,009 2,678 3,1571,008 1,671 2,000 2,660 3,1301,007 1,667 1,994 2,648 3,1111,006 1,664 1,990 2,639 3,0961,006 1,662 1,987 2,632 3,0851,005 1,660 1,984 2,626 3,0771,000 1,645 1,960 2,576 3,001
Stat
istiq
ues
© B
ertra
nd B
lanq
uart,
201
6, V
3.0
ETUDE DE NORMALITÉ
57
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
ETUDE DE NORMALITÉ
‣ Représentation graphique
58
Avec 1000 valeurs, l'histogramme des valeurs issues d'une loi normale ... ne ressemble pas forcément à une
loi normale !
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
ETUDE DE NORMALITÉ
‣ Méthode de la droite de Henry
•Changement de repère pour représenter les quantiles → interprétation plus simple, même avec peu de valeurs
•utiliser Excel ou un papier gausso-aritmétique
59
Quantiles théoriques
Quantiles réels
changement d’échelle
Gaussienne (répartition)
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
ETUDE DE NORMALITÉ
‣ Méthode de la droite de Henry
•dans Excel
60
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
ETUDE DE NORMALITÉ
‣ Méthode de la droite de Henry
•dans Excel
61
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
ETUDE DE NORMALITÉ
‣ Test de normalité
•Principe des tests
1 / Construire une statistique de distance entre les valeurs observées et les valeurs théoriques (distance "mesurée")
2 / Définir quelle est la loi suivie par cette statistique
3 / Comparer la distance mesurée à la probabilité que cette distance soit expliquée par sa loi de distribution
4 / Conclure
• Il existe autant de tests que de manières de définir une distance ...
Les tests sont généralement performants pour un type de loi de distribution et pour un nombre de valeurs
Dans certains cas, il est possible qu'un test conduise à une conclusion et qu'un autre test conduise à une conclusion différente !
62
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
ETUDE DE NORMALITÉ
‣ Il existe de nombreux tests :
•Tests du "2 , de Kolmogorov Smirnov, test de Cramer Von Mises, etc.
•Chaque test présente des avantages et des inconvénients, aucun n'est parfait !
63
Plus le test est complexe, plus les risques d'erreur dans l'interprétation sont grands, et plus il sera difficile de convaincre les éventuels "contradicteurs"
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
ETUDE DE NORMALITÉ
64
Stat
istiq
ues
© B
ertra
nd B
lanq
uart,
201
6, V
3.0
TEST D’INDÉPENDANCE DU #2
65
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
TEST D’INDÉPENDANCE DU #2
‣ Test du "2
•On cherche à démontrer l’indépendance entre deux variables qualitatives, chacune ayant plusieurs modalités
Exemple: on a interrogé 200 personnes et l’on veut déterminer s’il existe un lien, dans la population, entre la profession et la préférence en matière de boisson.
1. On construit le tableau de contingence
66
Ingénieur Banquier Médecin Marge
Bière blonde
Bière brune
Marge
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
TEST D’INDÉPENDANCE DU #2
2. On construit le tableau des effectifs observés
67
Ingénieur Banquier Médecin Marge
Bière blonde 43 34 35 112
Bière brune 23 18 47 88
Marge 66 52 82 200
Tableau des effectifs observés sur l’échantillon
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
TEST D’INDÉPENDANCE DU #2
3. On construit le tableau des fréquences théoriques sous hypothèse d’indépendance
Calcul des fréquences marginales
68
Ingénieur Banquier Médecin Marge
Bière blonde 56,0 %
Bière brune 44,0 %
Marge 33,0 % 26,0 % 41,0 % 100 %
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
TEST D’INDÉPENDANCE DU #2
3. On construit le tableau des fréquences théoriques sous hypothèse d’indépendance
Calcul des fréquences
69
Ingénieur Banquier Médecin Marge
Bière blonde 18,48 % 14,56 % 22,96 % 56,0 %
Bière brune 14,52 % 11,44 % 18,04 % 44,0 %
Marge 33,0 % 26,0 % 41,0 % 100 %
Tableau des fréquences théoriques
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
TEST D’INDÉPENDANCE DU #2
4. On construit le tableau des effectifs théoriques sous hypothèse d’indépendance
Calcul des effectifs
70
Ingénieur Banquier Médecin Marge
Bière blonde 36,96 29,12 45,92 112,0
Bière brune 29,04 22,88 36,08 88,0
Marge 66,0 52,0 82,0 200
Tableau des effectifs théoriques
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
TEST D’INDÉPENDANCE DU #2
5. On construit le tableau des écarts
Calcul des écarts entre effectifs théoriques et effectifs observés
71
Ingénieur Banquier Médecin Marge
Bière blonde 6,04 4,88 -10,92 -0,0
Bière brune -6,04 -4,88 10,92 0,0
Marge 0,0 0,0 0,0 0
Ingénieur Banquier Médecin Marge
Bière blonde
43 34 35 112
Bière brune
23 18 47 88
Marge 66 52 82 200
Ingénieur Banquier Médecin Marge
Bière blonde 36,96 29,12 45,92 112,0
Bière brune
29,04 22,88 36,08 88,0
Marge 66,0 52,0 82,0 200
Tableau des effectifs théoriques
Tableau des effectifs observés
Tableau des écarts
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
TEST D’INDÉPENDANCE DU #2
5. On construit le tableau des "2
72
Ingénieur Banquier Médecin Marge
Bière blonde 0,987 0,818 2,597
Bière brune 1,256 1,041 3,305
Marge 10,004
Tableau des "2
�2ij =
ecart2ijnij
�2 =X
i,j
�2ij
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
DEUX VARIABLES QUALITATIVES
‣ Sur un échantillon
• Calcul de
• Calcul du V de Cramer
(j=nombre de colonnes, k = nombre de lignes)
• Interprétation
V proche de 0 : pas de lien entre les lignes et les colonnes
V proche de 1 : lien entre les lignes et les colonnes
73
V =
s�2
min(j � 1, k � 1)
�2 =�2
n
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
TEST D’INDÉPENDANCE DU #2
6. On compare la valeur du “"2 observée“ à la valeur du “"2 critique“ pour le niveau de risque défini, en tenant compte du nombre de degrés de liberté
Nombre de degrés de liberté :
ddl = (nombre de lignes -1 ) x (nombre de colonnes - 1)
dans l’exemple : ddl = (2-1) x (3-1)= 2
Lecture du "2 critique
74
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
TEST D’INDÉPENDANCE DU #2
8. Conclusion
Si "2 observé < "2 critique : l’hypothèse d’indépendance est acceptée, au risque alpha α
Si "2 observé > "2 critique : l’hypothèse d’indépendance est rejetée, au risque α
Note : si on rejette l’hypothèse d’indépendance, c’est qu’on accepte l’hypothèse alternative “il y a un lien entre les variables“
75
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
TEST D’INDÉPENDANCE DU #2
‣ Notes ‣ Le test du "2 ne renseigne en rien sur l’éventuel lien de causalité
entre les variables
- on remarquera que les tableaux sont inversibles (lignes/colonnes)
- un réel lien de cause à effet peut exister … ou non.
- une variable cachée peut être à l’origine du lien observé
‣ La valeur du "2 ne renseigne en rien sur la force du lien entre les variables
‣ Le test est sensible au nombre de modalités de chaque variable
- Si on scinde une modalité ou si on regroupe des modalités, le résultat du test peut évoluer
‣ Le test est sensible aux effectifs de chaque cellule
- Eviter un effectif observé inférieur à 5
76
Stat
istiq
ues
© B
ertra
nd B
lanq
uart,
201
6, V
3.0
RÉGRESSIONS LINÉAIRES (INTRODUCTION)
77
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
RÉGRESSIONS LINÉAIRES
‣ Introduction
• Les méthodes de régression sont le 1er outil des méthodes explicatives d’analyse de données, permettant de trouver un lien - fonctionnel ou non - entre les données.
• Trois questions fondamentales : 1. Quel est le modèle statistique le plus adapté ?
• droite, parabole, exponentielle, etc.
2. Comment estimer les paramètres de ce modèle ?
3. Comment définir les outils permettant de calculer les valeurs prévisionnelles de Y en fonction de X ?
Attention :
L’existence d’un “lien” entre les données ne signifie pas qu’il y a un lien de causalité
78
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
RÉGRESSIONS LINÉAIRES
79
I
Introduction
I.1 But de la régression.
Commençons par un exemple illustratif simple. Le botaniste Joseph Dalton Hooker a mesuré lorsd’une expédition en 1849 la pression atmosphérique pi et la température d’ébullition de l’eau yi endivers endroits de l’Himalaya 1. Selon les lois de la physique, yi devrait être (en première approximation)proportionnel au logarithme de pi. On pose donc le modèle
yi = β1 + β2xi + ui, xi = log(pi). (I.1)
ui représente l’erreur de mesure, et explique que les points de la figure I.1 ne sont pas exactementalignés. Cette figure montre également la droite estimée par moindres carrés. On voit une très bonneadéquation. L’équation ci-dessus donne un modèle, qui si ui est supposé gaussien centré devient lemodèle paramétrique yi ∼ N(β1+β2xi,σ2), dont on verra l’intérêt plus tard. Le paramètre σ2 représentela variance de l’écart des points à la droite (mesuré verticalement) et l’estimation de σ donne ici 0,04.
2.7 2.8 2.9 3.0 3.1 3.2 3.3 3.482
84
86
88
90
92
94
96
98
100 ⊕⊕⊕
⊕⊕⊕⊕
⊕⊕⊕⊕
⊕⊕
⊕⊕⊕⊕⊕⊕
⊕⊕⊕⊕⊕⊕
⊕⊕⊕⊕⊕⊕
Figure I.1 – Température d’ébulition de l’eau mesurée en divers endroits de l’Himalaya en fonctiondu logarithme de la pression.
Cet exemple illustre comment le modèle de régression tente d’expliquer au mieux une grandeur y (laréponse) en fonction d’autres grandeurs x (vecteur des variables explicatives, ou régresseurs, oufacteurs, un seul dans l’exemple) en démêlant ce qui est déterministe de ce qui est aléatoire eten quantifiant ces deux aspects (par les βi d’une part et σ2 d’autre part).
1. En 1857 le physicien James David Forbes a fait la même expérience dans les Alpes, le but étant de pouvoir retrouverla pression atmosphérique à partir de la seule mesure de la température d’ébulition de l’eau (les baromètres étant fragileset donc difficiles à transporter lors d’une expédition), ce qui permet ensuite d’en déduire l’altitude au travers d’une relationconnue ; il rapporte dans un article ce double ensemble de données dont nous n’utilisons ici que la partie Himalayenne (ellessont décrites dans : S.Weisberg, Applied Linear Regression, Wiley, 1985.)
7
Le botaniste Joseph Dalton Hooker a mesuré lors d’une expédition en 1849 la pression atmosphérique et la température d’ébullition de l’eau en divers endroits de l’Himalaya. Les données sont reportées ci-dessus (température sur l’axe des ordonnées en fonction du logarithme de la pression en abscisse)
température (en °C)
ln (pression)
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
RÉGRESSIONS LINÉAIRES
80
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
RÉGRESSIONS LINÉAIRES
‣ Principe de la régression aux moindres carrés
• Choisir une fonction
droite, polynôme, exponentielle, etc.
• Trouver les coefficients de la fonction qui minimisent les “résidus” : écarts entre les valeurs observées et les valeurs calculées par la fonction
• Critiquer la régression choisie (…éventuellement, en choisir une autre)
Résidus
Coefficient de détermination
Analyse de variance
Statistiques des paramètres de la régression
81
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
RÉGRESSIONS LINÉAIRES
‣ Principe de la régression aux moindres carrés
82
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
RÉGRESSIONS LINÉAIRES
‣ Hypothèses d’application
‣ Le modèle choisi est “correct”
‣ La variable explicative (X) est sans incertitude, ou avec une incertitude négligeable devant l’incertitude associée à la variable expliquée (Y)
‣ L’erreur sur les réalisations de Y est nulle en moyenne et de même ordre de grandeur pour toutes les valeurs de Y (“homoscédasticité”)
‣ Les différentes observations de Y ne sont pas corrélées
83
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
RÉGRESSIONS LINÉAIRES
‣ Moindres carrés pondérés
84
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
RÉGRESSIONS LINÉAIRES
‣ Indicateur de la qualité de la régression • Coefficient de corrélation linéaire
• avec, pour N couples de points :
• Par construction, le coefficient de corrélation est compris entre -1 et +1
• Coefficient de détermination (fourni dans Excel par exemple)
• où SCEY est la somme des carrés des écarts expliqués par la régression
• dans le cas des régressions linéaires (pas vrai si fonction exponentielle, puissance, etc.)
• Compris entre 0 et 1
85
⇢xy
=�xy
�x
· �y
R2 = ⇢2
R2 =SCE
y
SCEtotale
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
RÉGRESSIONS LINÉAIRES
‣ Qualité de la régression
86
⇢ = 1 ⇢ ⇡ 0, 8
⇢ ⇡ �0, 995
⇢ ⇡ 0
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
RÉGRESSIONS LINÉAIRES
‣ Qualité de la régression
87
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
RÉGRESSIONS LINÉAIRES
‣ Exemple : concentration intérieure de polluants en fonction de la concentration extérieure
88
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
RÉGRESSIONS LINÉAIRES
‣ Exemple : concentration intérieure de polluants en fonction de la concentration extérieure
89
Introduction
Graphiques
Caract. numériques
Régressions
Modélisation aléatoire
Tests
RÉGRESSIONS LINÉAIRES
‣ Analyse de la régression : représentation des résidus
90