2016 - Statistiques V3.0 Nancy · •Etude de la dispersion d’un lot de 400résistances, ......

of 31 /31
STATISTIQUES & PROBABILITÉS SUPPORT DE COURS VERSION 3.0 INTRODUCTION 2 _______________________________________________________________ GRAPHIQUES 9 _________________________________________________________________ CARACTÉRISTIQUES NUMÉRIQUES 21 ________________________________________________ Tendance centrale Dispersion Boxplot MODÉLISATION ALÉATOIRE 31 _____________________________________________________ Variable aléatoire Lois des variables discrètes (Bernoulli, Binomiale, Poisson, etc.) Lois des variables continues Loi gaussienne ETUDE DE NORMALITÉ DUN ÉCHANTILLON 57 _________________________________________ Introduction aux tests statistiques EXEMPLE DE TEST : TEST DU KHI 2 65 _________________________________________________ RÉGRESSIONS LINÉAIRES (INTRODUCTION) 77 _________________________________________ © Bertrand Blanquart - 2016

Embed Size (px)

Transcript of 2016 - Statistiques V3.0 Nancy · •Etude de la dispersion d’un lot de 400résistances, ......

  • STATISTIQUES & PROBABILITS

    SUPPORT DE COURS VERSION 3.0

    INTRODUCTION 2 _______________________________________________________________

    GRAPHIQUES 9 _________________________________________________________________

    CARACTRISTIQUES NUMRIQUES 21 ________________________________________________

    Tendance centrale

    Dispersion

    Boxplot

    MODLISATION ALATOIRE 31 _____________________________________________________

    Variable alatoire

    Lois des variables discrtes (Bernoulli, Binomiale, Poisson, etc.)

    Lois des variables continues

    Loi gaussienne

    ETUDE DE NORMALIT DUN CHANTILLON 57 _________________________________________

    Introduction aux tests statistiques

    EXEMPLE DE TEST : TEST DU KHI2 65 _________________________________________________

    RGRESSIONS LINAIRES (INTRODUCTION) 77_________________________________________

    Bertrand Blanquart - 2016

  • Stat

    istiq

    ues

    B

    ertra

    nd B

    lanq

    uart,

    201

    6, V

    3.0

    STATISTIQUES-PROBABILITS

    1

    Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    LES STATISTIQUES EN ENTREPRISE ?

    2

    Surveillance des processus : MSP

    Mise au point : plans dexprience

    Appro/gestion des stocks

    Prvisions mto/stocks

    Contrle qualit

    Prvisions vente / gestion transport

    Mesures

    Enqutes satisfaction

    Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    OBJECTIFS DAPPRENTISSAGE

    Lire et exploiter des tableaux de donnes

    Mener une analyse de statistique descriptive univarie via les outils: tableaux, diagrammes, caractristiques de tendance centrale, caractristiques de dispersion.

    Mener une analyse de statistique descriptive bivarie via les outils: rgression, frquences conditionnelles, test dindpendance

    Rdiger des synthses partir des rsultats

    Construire une modlisation alatoire

    Connatre les lois de probabilits

    Appliquer la loi de probabilit pour dterminer une probabilit

    Connatre les proprits de lesprance et la variance

    3

  • Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    NOTIONS FONDAMENTALES (NF ISO 3534-1, JANVIER 2007)

    Population

    - totalit des individus pris en considration

    Note : la population peut tre finie ou infinie, relle ou hypothtique

    Echantillon

    - sous-ensemble d'une population constitu d'une ou de plusieurs units d'chantillonnage

    Effectif d'chantillon : n = nombre d'units dans l'chantillon

    Gnralement, l'tude exhaustive de la population n'est pas possible : on essaie de deviner ("infrer") les informations partir de l'tude de l'chantillon

    4

    Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    NOTIONS FONDAMENTALES

    L'information considre dans une tude statistique peut tre qualitative ou quantitative

    Exemples

    - couleur des yeux : variable qualitative

    - taille (en cm) : variable quantitative

    Une information quantitative peut tre continue ou discrte

    Exemples

    - taille (en cm) : variable quantitative continue

    - taille (en n de taille de vtements : 38, 40, etc) : variable quantitative discrte

    5

    Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    NOTIONS FONDAMENTALES

    Variable qualitative

    On dnombre les individus correspondants chaque modalit

    Variable quantitative

    On reprsente les valeurs

    6

    Couleur Nombre

    Bleu 4

    Marron 13

    Vert 3

    Taille (cm)

    167 189

    183 175

    173 174

    Taill

    e (c

    m)

    150

    160

    170

    180

    190

    200

    Nom

    bre

    0

    3

    6

    8

    11

    14

  • Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    NOTIONS FONDAMENTALES

    Exemple Un fabricant de tissus essaie une nouvelle machine, il compte le

    nombre de dfauts sur 75chantillons de 10m.

    7

    Nombre de dfauts 0 1 2 3 4 5

    Nombre dchantillons 38 15 11 6 3 2

    Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    STATISTIQUES DESCRIPTIVES

    Exemple Un fabricant de tissus essaie une nouvelle machine, il compte le

    nombre de dfauts sur 75chantillons de 10m.

    8

    N

    Nombre de dfauts 0 1 2 3 4 5

    Nombre dchantillons 38 15 11 6 3 2 75

    Frquence absolue 38 15 11 6 3 2

    Frquence relative 0,51 0,20 0,15 0,08 0,04 0,03

    Frquence cumule absolue 38 53 64 70 73 75

    Frquence cumule relative 0,51 0,71 0,85 0,93 0,97 1,00

    Stat

    istiq

    ues

    B

    ertra

    nd B

    lanq

    uart,

    201

    6, V

    3.0

    GRAPHIQUES

    9

  • Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    STATISTIQUES DESCRIPTIVES

    Variable discrte Exemple : un fabricant de tissus essaie une nouvelle machine, il

    compte le nombre de dfauts sur 75chantillons de 10m.

    10

    Frq

    uenc

    e ab

    solu

    e

    0

    10

    20

    30

    40

    50

    Nombre de dfauts0 1 2 3 4 5

    236

    1115

    38

    Frq

    uenc

    e cu

    mul

    e r

    elat

    ive

    0

    0,2

    0,4

    0,6

    0,8

    1

    Nombre de dfauts0 1 2 3 4 5

    10,970,93

    0,85

    0,71

    0,51

    Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    STATISTIQUES DESCRIPTIVES

    3 %4 %8 %

    15 %

    20 %

    51 %

    0 dfaut1 dfaut2 dfauts3 dfauts4 dfauts5 dfauts

    Variable discrte Exemple : un fabricant de tissus essaie une nouvelle machine, il

    compte le nombre de dfauts sur 75chantillons de 10m.

    11

    Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    STATISTIQUES DESCRIPTIVES

    Variable continue Dcoupage en classes

    Nombre de classes ?

    Ni trop, ni trop peu

    Critre de Sturges : k1+3,222 log10(n).

    Le regroupement en classes fait perdre aux individus leur caractre propre ainsi que les dtails fins des distributions.

    Les classes peuvent tre damplitudes diffrentes (dans ce cas, les rectangles de lhistogramme doivent lindiquer, soit par une largeur proportionnelle lamplitude soit par une lgende approprie).

    12

  • Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    STATISTIQUES DESCRIPTIVES

    Variable continue 200 dispositifs ont subi un test de fiabilit ; la dure de vie (note X, en

    heures) jusqu dfaillance a t note dans le tableau suivant.

    13

    Dure de vie (en heures)

    Nombre ni de dispositifs

    (frquence absolue)Frquence relative fi

    Frquence cumule absolue

    Frquence cumule relative

    0 X < 150 60 0,3 60 0,3150 X < 300 30 0,15 90 0,45300 X < 450 24 0,12 114 0,57450 X < 600 20 0,1 134 0,67600 X < 750 16 0,08 150 0,75750 X < 900 16 0,08 166 0,83900 X < 1050 16 0,08 182 0,911050 X < 1200 12 0,06 194 0,971200 X < 1350 6 0,03 200 1

    Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    STATISTIQUES DESCRIPTIVES

    Variable continue 200 dispositifs ont subi un test de fiabilit

    14

    Frq

    uenc

    e ab

    solu

    e

    0

    10

    20

    30

    40

    Dure de vie (en heures)

    0-15

    0

    150-

    300

    300-

    450

    450-

    600

    600-

    750

    750-

    900

    900-

    1050

    1050

    -120

    0

    1200

    -135

    0

    36

    88810

    1215

    30

    Frq

    uenc

    e cu

    mul

    e r

    elat

    ive

    0

    0,25

    0,5

    0,75

    1

    Dure de vie (en heures)

    0-15

    0

    150-

    300

    300-

    450

    450-

    600

    600-

    750

    750-

    900

    900-

    1050

    1050

    -120

    0

    1200

    -135

    0

    10,970,91

    0,830,75

    0,67

    0,57

    0,45

    0,3

    Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    STATISTIQUES DESCRIPTIVES

    Exemple Etude de la dispersion dun lot de 400rsistances, de valeur nominale

    100k.

    15

    Classe Limites de classe (en

    k)

    Nombre ni de dispositifs

    (frquence absolue)

    Frquence relative fi

    Frquence cumule

    absolue Ni

    Frquence cumule relative Fi

    I [92 ; 94[ 10 0,025 10 0,025II [94 ; 96[ 15 0,038 25 0,063III [96 ; 98[ 40 0,100 65 0,163IV [98 ; 100[ 60 0,150 125 0,313V [100 ; 102[ 90 0,225 215 0,538VI [102 ; 104[ 70 0,175 285 0,713VII [104 ; 106[ 50 0,125 335 0,838VIII [106 ; 108[ 35 0,088 370 0,925IX [108 ; 110[ 20 0,050 390 0,975X [110 ; 112[ 10 0,025 400 1

  • Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    STATISTIQUES DESCRIPTIVES

    Exemple Etude de la dispersion dun lot de 400rsistances, de valeur nominale

    100k.

    16

    0

    20

    40

    60

    80

    100

    Classes

    I II III IV V VI VII VIII IX X

    Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    STATISTIQUES DESCRIPTIVES

    Exemples

    17

    Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    STATISTIQUES DESCRIPTIVES

    18

    Population

    100 000

    50 000

    20 000

    Population par pays (donnes fictives)

    Sour

    ce c

    arto

    grap

    hiqu

    e : A

    rticq

    ue

  • Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    EXEMPLES

    19

    Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    Exemple

    20

    Stat

    istiq

    ues

    B

    ertra

    nd B

    lanq

    uart,

    201

    6, V

    3.0

    CARACTRISTIQUES NUMRIQUES

    21

  • Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    STATISTIQUES DESCRIPTIVES

    Caractristiques de tendance centrale (ou paramtres de position)

    Moyenne arithmtique

    22

    m =1

    n

    nX

    i=1

    xi

    9 7

    =MOYENNE(...) 9,7

    13 19

    7 6

    6 10

    13 7

    200 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

    +++

    0

    +++

    +++

    +++

    1

    2

    3

    4

    5

    6

    Valeurs+X

    Moyenne

    Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    STATISTIQUES DESCRIPTIVES

    Caractristiques de tendance centrale

    Mdiane

    si n impair, (n+1) / 2me valeur de l'chantillon (tri en ordre non dcroissant)

    si n pair, moyenne de la (n/2) et de la (n/2 +1)me valeurs

    23

    6 9

    =MEDIANE(...) 8

    13 19

    7 6

    6 10

    13 7

    200 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

    +++

    0

    +++

    +++

    +++

    1

    2

    3

    4

    5

    6

    Valeurs+X

    Mdiane

    Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    9 7

    =MAX(...)-MIN(...) 13

    13 197 6

    6 10

    13 7

    STATISTIQUES DESCRIPTIVES

    Caractristiques de dispersion

    Etendue

    plus grande statistique d'ordre moins la plus petite statistique d'ordre

    24200 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

    +++

    0

    +++

    +++

    +++

    1

    2

    3

    4

    5

    6

    Valeurs+X

    Min Max

    Etendue

  • Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    STATISTIQUES DESCRIPTIVES

    Caractristiques de dispersion

    Ecart-type

    25

    s =

    sPni=1(xi x)2n 1

    9 7

    =ECARTYPE(...) 4,1913

    13 19

    7 6

    6 10

    13 7

    200 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

    +++

    0

    +++

    +++

    +++

    1

    2

    3

    4

    5

    6

    Valeurs+X

    Moyenne

    Intervalle : s

    Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    STATISTIQUES DESCRIPTIVES

    Caractristiques de dispersion

    Ecart-type

    Ecart-type dune population

    Coefficient de variation

    26

    =

    vuut 1n

    nX

    i=1

    (xi m)2

    9 7

    =ECARTYPEP(...) 3,9762

    13 19

    7 6

    6 10

    13 7

    Cv = 100 s

    m

    Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    STATISTIQUES DESCRIPTIVES

    Caractristiques de dispersion

    Variance

    La variance est le carr de lcart-type.

    Proprits de la variance

    Si une variable alatoire est la combinaison linaire de plusieurs variables alatoires,

    Y =a X1 + b X2 alors sa variance se calcule selon l'additivit des variances :

    27

    V ar(Y ) = a2 V ar(X1) + b2 V ar(X2)

    2(Y ) = a2 2(X1) + b2 2(X2)

    V ar = 2 =1

    n

    X

    i=1,n

    (xi x)2

  • Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    STATISTIQUES DESCRIPTIVES

    Autres caractristiques Mode

    Quantile

    dcile, centile

    28

    Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    STATISTIQUES DESCRIPTIVES

    Caractristiques Boxplot (bote moustaches)

    Longueur du trait (mthode de Tukey ):

    - Calculer !=1,5 (Q3-Q1)

    - Limite infrieure du trait : max (x1, Q1-!)

    - Limite suprieure du trait : min (xn, Q3+!) puis ajouter autant dtoiles que de valeurs en-dehors des limites dfinies par le trait (de chaque ct)

    29

    Q1 Q3Q2 (Mediane)

    *

    Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    STATISTIQUES DESCRIPTIVES

    Caractristiques Boxplot (bote moustaches)

    30T-Cola. We did not find a significant difference between CocaCola and Pepsi Cola preference. The so-called Pepsi Paradoxstates that people exhibit a reliable preference for Coca Cola whenbrand information is available (e.g. in the supermarket), but noreliable preference for Coke when no brand information isavailable (e.g. in blind taste tests) [16]. Accordingly, one mighttherefore have predicted a preference for the soft drink mixturewhen it was announced as Coca Cola compared with Pepsi Cola,based to the so-called Pepsi Paradox. But without a reference toa blind taste condition to compare the results to, it is difficult toconclude that the present findings are not in line with the PepsiParadox. It may still be the case that also in the present samplePepsi Cola would have been judged as more pleasant than CocaCola in a blind test.

    We set out to compare strong and weak brands. We pooledRiver Cola and T Cola as weak brands although participants mayhave preexisting associations with River Cola but not with theinvented T-Cola. We did that mostly because River Cola is ageneric brand that is not subject to advertisement, and we stronglydoubt that German customers would be able to recall the logo ofRiver Cola when prompted to. When comparing brain activationbetween strong and weak brands during the cue phase, weightedaccording to the preference rating after each trial, we foundstronger activation in right mOFC during weak compared withstrong brands. Previous human fMRI studies have placedindividuals in simple choice situations and found that BOLDactivity in the mOFC correlates with behavioral measures ofstimulus values [17,18]. These findings are consistent with monkeyneurophysiology studies that have found stimulus value coding inOFC neurons during choice tasks [19,20]. Based on this view ofmOFC the present findings may indicate that participants rely onstimulus values encoded in mOFC more strongly whenever weakbrands do not offer sufficient guidance to decide about the drinks

    pleasantness. When on the other hand a strong brand is expected,this strong brand cue overrides elaborate processing of stimulusvalue in mOFC, since the brand is well known and its associationscan be easily retrieved without an additional assessment of thesubjective stimulus value. That mOFC can predict consumerchoice has been nicely demonstrated in a pattern classificationstudy in which preferences for cars were inferred from activity ofmOFC [21]. A previous study on soft drinks administered pureCoca Cola and Pepsi Cola in an anonymous and a real cuecondition [16]. During the anonymous tasting mOFC activity waspositively correlated with the subjects reported preference for thebeverages. This finding reveals that mOFC is related to tastepreferences when no brand cue is delivered. Consequently onemay interpret the present finding as an indication that theannouncement by means of weak brands has a similar effect as theabsence of brand cues. Therewith the present study extendsprevious literature on the influence of linguistic contextualinformation [13] and pricing [14] that has shown a positiveassociation between activity in mOFC and positive linguisticinformation as well as information on the product price. Strongbrands in contrast to high price and positive linguistic informationseem to attenuate stimulus value related to mOFC stimulus valueprocessing that is present when weak brands are announced. Butthis difference in results could well be due to the fact that thepresent design allowed us to disentangle cue and taste relatedprocessing, whereas the previous studies delivered the linguisticand pricing information in synchrony with the taste stimulus.

    In a direct comparison of Coca Cola and Pepsi Cola during thecue phase, we found significantly more activation in rightamygdala associated with the Coca Cola cue. The amygdala isgenerally known for its role in emotion processing. Traditionally ithas been linked to negative emotions [29], in particular to fear[30]. But more and more evidence exists that questions this strong

    Figure 4. Box plot depicting the difference in BOLD per cent signal change in left striatum in strong (Coca Cola, Pepsi Cola)compared to weak (River Cola, T Cola) brands in participants who report to drink Cola with a frequency of 0 days a week onaverage and participants reporting to report Cola more than once a week. Error bars depict the standard deviation.doi:10.1371/journal.pone.0061569.g004

    Brand Anticipation Influences Gustatory Processing

    PLOS ONE | www.plosone.org 5 April 2013 | Volume 8 | Issue 4 | e61569

  • Stat

    istiq

    ues

    B

    ertra

    nd B

    lanq

    uart,

    201

    6, V

    3.0

    MODLISATION ALATOIRE

    31

    Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    VARIABLE ALATOIRE

    Variable reprsentant une grandeur (ou une caractristique) qui peut prendre plusieurs valeurs (modalits), en associant chaque valeur une probabilit donne.

    Exemples:

    - la temprature maximale demain

    - une pice prleve au hasard dans un lot de production - le rsultat du lancer d'un d six faces

    La variable peut tre qualitative

    - il fera {beau / pas beau} demain

    La variable peut tre quantitative

    continue ou discrte

    - la temprature est une variable continue

    - le rsultat du lancer d'un d six faces est une variable discrte

    32

    Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    LOIS DE DISTRIBUTION

    La loi de distribution est la fonction qui dcrit la probabilit affecte chaque valeur de la variable alatoire

    Exemple :

    le rsultat du lancer d'un d six faces (non truqu)

    - probabilit d'obtenir "1" : 1/6

    - probabilit d'obtenir "2" : 1/6

    - probabilit d'obtenir "3" : 1/6 - probabilit d'obtenir "4" : 1/6

    - probabilit d'obtenir "5" : 1/6

    - probabilit d'obtenir "6" : 1/6

    33

    Prob

    abili

    t

    0

    1/3

    2/3

    1

    Nombre

    1 2 3 4 5 6

  • Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    LOIS DES VARIABLES DISCRTES

    Variable de Bernoulli

    Variable qui peut prendre deux valeurs (ou deux tats), de probabilits respectives p et q = 1-p

    Exemple : le rsultat du lancer dune pice de monnaie pile ou face (si elle nest pas truque : p = q = 0,5)

    Notations :

    34

    Prob(X = 1) = p

    Prob(X = 0) = q V ar(X) = p q

    E(X) = p

    Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    LOIS DES VARIABLES DISCRTES

    Loi binomiale On a n ralisations indpendantes (ou tirages) dune variable de

    Bernoulli (= on lance n fois la pice pile/face)

    X est la variable alatoire qui dcrit le nombre de succs au cours des n tirages

    X suit une loi binomiale B(n,p)

    35

    Prob(X = k) = Ckn pk (1 p)nk

    E(X) = n p

    V ar(X) = n p qCkn =

    n!

    (n k)!k!

    Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    LOIS DES VARIABLES DISCRTES

    Exemple

    Exemple : on lance 3 fois une pice pile ou face. Quelle est la probabilit dobtenir deux fois pile

    si lon sait que la pice nest pas truque ?

    si lon sait que la pice est truque et que la probabilit davoir pile chaque lancer est en fait p=0,6 ?

    36

  • Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    LOIS DES VARIABLES DISCRTES

    Loi de Poisson

    On a des preuves binomiales, avec N trs grand et p trs petit (et le produit N p qui reste un nombre fini)

    Alors, la loi binomiale tend vers une loi de Poisson, dont la probabilit scrit :

    Lavantage de la loi de Poisson est quelle ncessite un seul paramtre (au lieu de deux pour la binomiale)

    37

    Prob(X = k) =

    k

    k!e

    E(X) = V ar(X) =

    Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    LOIS DES VARIABLES DISCRTES

    Loi de Poisson Critre de convergence de la loi binomiale vers une loi de Poisson :

    si n p < 5 et n > 20

    La loi de Poisson dcrit bien des phnomnes de comptage : dtection de photons par un photomultiplicateur, comptage de particules mises lors de dsintgrations radioactives, comptage dions dans un spectromtre de masse, comptage dindividus en microbiologie, . . .

    38

    Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    LOIS DES VARIABLES DISCRTES

    Loi Hypergomtrique

    Cette loi dcrit les tirages sans remise: on prlve des lments sans les remettre en jeu ; une fois quon a prlev un lment, il ny plus aucune chance de le prlever de nouveau.

    Exemple : 3 boules dans un sac, dont on sait que deux sont vertes et une est rouge:

    Au premier tirage, on a une chance sur trois de tirer la boule rouge.

    Au second tirage,

    si on a tir la boule rouge au 1er tirage, on a 100% de chances de tirer une boule verte.

    si par contre, on a tir une boule verte au 1er tirage, on a une chance sur deux de tirer une boule verte.

    39

  • Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    LOIS DES VARIABLES DISCRTES

    Synoptique

    40

    Binomiale

    Multinomiale

    Bernoulli

    Hypergomtrique

    Gomtrique Pascal

    PoissonTirages avec remiseTirages sans remise

    Nombre d'essais pour obtenir k succs(lois utilises dans les jeux de hasard)

    Nombre de dfaillances (sans mmoire)

    Variable deux tats

    (k = 1)

    H(N;n;p) B(n;p) P()

    Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    LOIS DES VARIABLES DISCRTES

    Synoptique et convergences

    41

    Binomiale

    Multinomiale

    Bernoulli

    Hypergomtrique

    Gomtrique Pascal

    Poisson

    Nombre d'essais pour obtenir k succs(lois utilises dans les jeux de hasard)

    Variable deux tats

    (k = 1)

    H(N;n;p) B(n;p) P()n 0,1 N

    Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    SYNTHSE LOIS DISCRTES

    42

    Loi Pr(X = k) EspranceE(X)

    VarianceV AR(X)

    Description Commentaires

    Bernoulli Pr(X = 1) = pPr(X = 0) = q = 1 p - -

    Variable pouvant prendre deux tats. Pile/face, noir/blanc, etc.

    BinomialeB(n;p) C

    kn pk (1 p)nk np np(1 p)

    X compte le nombre de succs lors de n rptitions d'une variable de Bernoulli de probabilit p, avec remise, sans mmoire (les rsultats des rptitions sont indpendants)

    Combien de fois on obtient "pile" dans un nombre de lancers successifs dune pice de monnaie

    Multinomiale n!x1!x2!x3!. . . xk!

    px11 . . . pxkk E(Xi) = npi npi(1 pi)

    Gnralisation de la loi binomiale quand le nombre de valeurs possibles de la variable alatoire est suprieur 2 (k types diffrents)

    Lancer d'un d 6 faces ;Contrle final dun produit ayant 4 tats possibles avec des probabilits diffrentes : conforme 80 %), dfaut non critique (10 %), dfaut moyen (6 %), dfaut critique (4 %)

    Gomtrique p(1 p)k1 1p1 pp2

    Nombre d'essais ncessaire pour qu'un vnement de probabilit p apparaisse (k-1 checs avant le succs au kme essai).

    Un matriel a une probabilit de 2 % de dfaillance chaque mise en service ; quelle est la probabilit davoir la premire panne au 10me essai ?

    Hypergomtrique H(N;n;p)

    CxNp CnxNNp

    CnNn p N n

    N 1 np(1 p)Loi des tirages sans remise avec probabilit constante (n/N est le taux de sondage)

    Un lot de N pices contient Np pices dfectueuses. Quelle est la probabilit quun sous ensemble de n individus contienne x lments dfectueux ?

    Poisson P(!) e k

    k!

    Nombre d'vnements peu probables dans une grande succession d'preuves (n > 50)

    est un paramtre (gnralement compris

    entre 0,1 et 18) ; k est un rel positif.

    Nombre d'accidents dans un atelier.

    Pascal P(r,k) Cr1k1pr(1 p)kr r

    pr(1 p)

    p2Nombre d'essais ncessaire pour qu'un vnement de probabilit p apparaisse r fois avec r ! 1 (pour r = 1, loi gomtrique)

    Compte le nombre dessais ncessaires pour obtenir k succs (k fix) (alors que la binomiale compte le nombre de succs au cours de n essais, avec n fix).

    Ckn =n!

    k!(n k)!

  • Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    VARIABLES CONTINUES

    43

    Probabilit

    Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    LOIS DES VARIABLES CONTINUES

    Loi uniforme (rectangulaire, quiprobable)

    Loi de Student

    Loi du Khi2

    Loi exponentielle

    etc.

    44

    a-a

    Le coefficient diviseur nest pas arbitraire, il peut tre dmontr par

    un calcul de variance =

    ap3

    Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    LOIS DES VARIABLES CONTINUES

    Synoptique

    45

    Loi Normale (Gaussienne)

    "2

    Lognormale

    Effets

    Exponentielle Gamma

    Weibull BetaFisher Sndcor

    Student

    Effets

    Lois utilises en fiabilit,

    Lois utilises pour les

    tests

  • Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    SYNOPTIQUE COMPLET

    46

    Binomiale

    Multinomiale

    Bernoulli

    Hypergomtrique

    Gomtrique Pascal

    Poisson

    Loi Normale (Gaussienne)

    "2

    Lognormale

    Exponentielle Gamma

    Weibull Beta

    Fisher Sndcor

    Student

    Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    SYNOPTIQUE COMPLET & CONVERGENCES

    47

    Binomiale

    Multinomiale

    Bernoulli

    Hypergomtrique

    Gomtrique Pascal

    Poisson

    Loi Normale (Gaussienne)

    "2

    Lognormale

    Exponentielle Gamma

    Weibull Beta

    Fisher Sndcor

    Student

    n 0,1 N

    > 18

    si np > 5 et np(1-p)>5,

    alors

    B(n; p) ! N(np,pnp(1 p))

    Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    SYNTHSE LOIS CONTINUES

    48

    Loi Densit de probabilit EspranceE(X)

    VarianceV AR(X)

    Description Commentaires

    Normale N(m;!) f(x) =1

    2e(xm)2

    22 m 2

    Loi normale ou gaussienne, dont la densit de probabilit est appele courbe en cloche.

    Utilisation de la table pour la loi normale

    centre rduite T = Xm

    Trs utilise car sapplique de nombreux phnomnes en physique comme en conomie, quand un grand nombre de facteurs agissent sous forme additive, chacun ayant une variance faible par rapport la variance rsultante.

    LogNormale f(x) = 1x

    2 e

    (Lnxm)2

    22 em+2

    (e2 1)e2m+

    2 Si Y N(m;) , X = eY suit une loi log-normale

    Loi dune grandeur rsultant de linfluence dun grand nombre de facteurs alatoires agissant de manire multiplicative ; ! est un paramtre de forme permettant de lajuster de nombreux phnomnes en fiabilit.

    Weibull f(x) = k

    x

    k1e(

    x )

    k

    1 +1k

    -

    k est un paramtre de forme, " est un paramtre dchelle ( caractristique de vie ) et # un paramtre de localisation

    k1 dcrit les phnomnes dusure (si k=1, on retrouve la loi exponentielle)

    Exponentiellef(x) = ex pour x ! 0

    f(x) = 0 sinon1

    12

    Utilise en fiabilit, " reprsente le taux de dfaillance (son inverse est le Mean Time Between Failure -MTBF).

    Sapplique bien aux matriels lectroniques subissant des dfaillances brutales ou des systmes complexes dont les composants ont des lois de fiabilit diffrentes. Dcrit la priode pendant laquelle le taux de dfaillance est constant ou quasi-constant

    Gammaf(x) =

    ex(x)t1

    (t)

    f(x) = 0 sinon

    t

    t2

    Gnralisation de la loi exponentielle, utilise pour dcrire les vnements dans un processus poissonien

    (t)est la fonction eulrienne dfinie par

    (t) =

    0eyyt1dy

    (t est un paramtre de forme, " est un paramtre dchelle)

    Student Forme mathmatique complique, valeurs tabulesForme mathmatique complique, valeurs tabulesForme mathmatique complique, valeurs tabules Est utilise dans ltude dune distribution normale dont on ne connat pas la variance

    Fisher-Snedecor Forme mathmatique complique, valeurs tabulesForme mathmatique complique, valeurs tabulesForme mathmatique complique, valeurs tabules Est utilise en analyse de la variance et en analyse de la rgression

    Khi-deux Forme mathmatique complique, valeurs tabulesForme mathmatique complique, valeurs tabulesForme mathmatique complique, valeurs tabulesLa somme des carrs de v variables alatoires

    qui suivent chacune N(0;1) suit une loi du 2

    n degrs de libert.

    Tend se rapprocher dune loi normale quand le nombre de ddl augmente

  • Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    LOI GAUSSIENNE

    5-5 -4 -3 -2 -1 0 1 2 3 4

    0,5

    0

    0,1

    0,2

    0,3

    0,4

    Fonction reprsentant une forme de "cloche" symtrique

    Deux paramtres : m et - si m = 0 et =1, on parle de loi normale centre rduite

    Notation : N(m , )

    49

    f(x) =1

    2 e 12 (

    xm )

    2

    Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    THORME CENTRAL LIMITE

    Une combinaison linaire de variables alatoires, dont chacune suit une loi de distribution quelconque, converge vers une loi normale si :

    - le nombre de variables alatoires considr est grand

    - les carts-types sont proches les uns des autres

    Exemple

    - on lance un d six faces : loi discrte "quiprobable"

    - on le lance plusieurs fois et on fait la somme des lancers : le rsultat n'est pas exactement dcrit par une variable gaussienne, ... mais par une variable qui tend vers une loi gaussienne.

    50

    Un lancer

    Nom

    bre

    de

    com

    bina

    ison

    s

    0

    1

    2

    Nombre

    1 2 3 4 5 6

    Somme de trois lancers

    Nom

    bre

    de

    com

    bina

    ison

    s

    0

    10

    20

    30

    Nombre

    3 6 9 12 15 18

    Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    LOI GAUSSIENNE

    Intervalle unilatral

    51

    5-5 -4 -3 -2 -1 0 1 2 3 4

    0,5

    0

    0,1

    0,2

    0,3

    0,4

    1,645

    95 %

    Loi normale centre rduitet 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

    0,0

    0,1

    0,2

    0,3

    0,4

    0,5

    0,6

    0,7

    0,8

    0,9

    1

    1,1

    1,2

    1,3

    1,4

    1,5

    1,6

    1,7

    1,8

    1,9

    2

    2,1

    2,2

    2,3

    2,4

    2,5

    2,6

    2,7

    2,8

    2,9

    3

    3,1

    3,2

    3,3

    3,4

    3,5

    3,6

    3,7

    3,8

    3,9

    0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,53590,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,57530,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,61410,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,65170,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,68790,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,72240,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,75490,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,78520,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,81330,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,83890,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,86210,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,88300,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,90150,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,91770,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,93190,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,94410,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,95450,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,96330,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,97060,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,97670,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,98170,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,98570,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,98900,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,99160,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,99360,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,99520,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,99640,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,99740,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,99810,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,99860,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,99900,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,99930,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,99950,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,99970,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,99980,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,99980,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,99990,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,99990,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,99991,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000

    (t) = P (X < t) =

    Z t

    1

    12

    ex22 dx

  • Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    LOI GAUSSIENNE

    Intervalle bilatral

    52

    5-5 -4 -3 -2 -1 0 1 2 3 4

    0,5

    0

    0,1

    0,2

    0,3

    0,4

    5-5 -4 -3 -2 -1 0 1 2 3 4

    0,5

    0

    0,1

    0,2

    0,3

    0,4

    -

    68,3 %

    -1,96 1,96

    95 %

    -2 2

    2 95,45 %

    Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    INTERVALLE DE CONFIANCE

    Intervalle bilatral

    53

    Loi normale centre rduitet 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

    0,0

    0,1

    0,2

    0,3

    0,4

    0,5

    0,6

    0,7

    0,8

    0,9

    1

    1,1

    1,2

    1,3

    1,4

    1,5

    1,6

    1,7

    1,8

    1,9

    2

    2,1

    2,2

    2,3

    2,4

    2,5

    2,6

    2,7

    2,8

    2,9

    3

    3,1

    3,2

    3,3

    3,4

    3,5

    3,6

    3,7

    3,8

    3,9

    0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,53590,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,57530,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,61410,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,65170,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,68790,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,72240,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,75490,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,78520,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,81330,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,83890,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,86210,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,88300,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,90150,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,91770,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,93190,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,94410,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,95450,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,96330,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,97060,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,97670,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,98170,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,98570,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,98900,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,99160,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,99360,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,99520,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,99640,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,99740,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,99810,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,99860,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,99900,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,99930,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,99950,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,99970,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,99980,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,99980,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,99990,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,99990,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,99991,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000

    (t) = P (X < t) =

    Z t

    1

    12

    ex22 dx

    Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    LOI DE STUDENT

    54

    -5 -4 -3 -2 -1 0 1 2 3 4 5

    0,1

    0,2

    0,3

    0,4

    T () =Up

    2()/

    =

    = 10

    = 1

    2() =X

    i=1

    U2i

  • Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    LOI DE STUDENT

    Qualit dun estimateur Quand on estime la moyenne d'une population par l'intermdiaire du calcul

    de la moyenne d'un chantillon, il est possible d'associer cette moyenne un intervalle de confiance

    Si X suit une loi normale, la moyenne de l'chantillon suit une loi normale :

    les bornes de l'intervalle de confiance pour la moyenne sont :

    (o u est le fractile de la loi gaussienne, au niveau de confiance choisi)

    Gnralement, est inconnu, on doit l'approcher par s et l'on peut alors dmontrer que les bornes de l'intervalle suivent une loi de Student au lieu de la loi gaussienne

    Les bornes de l'int. de confiance pour la moyenne sont alors :

    (o t est le fractile de la loi de Student, au niveau de confiance choisi)

    55

    u pn

    t spn

    Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    LOI DE STUDENT

    56

    Fractiles de la loi de Student (probabilits bilatrales)Fraction p en

    %Probabilit bilatrale

    68,27 90 95 99 99,73

    0,32 0,10 0,05 0,01 0,0027

    Nombre de ddl

    123456789101112131415161718192021222324252627282930405060708090100

    infini10000

    1,837 6,314 12,71 63,66 235,81,321 2,920 4,303 9,925 19,211,197 2,353 3,182 5,841 9,2191,142 2,132 2,776 4,604 6,6201,111 2,015 2,571 4,032 5,5071,091 1,943 2,447 3,707 4,9041,077 1,895 2,365 3,499 4,5301,067 1,860 2,306 3,355 4,2771,059 1,833 2,262 3,250 4,0941,053 1,812 2,228 3,169 3,9571,048 1,796 2,201 3,106 3,8501,043 1,782 2,179 3,055 3,7641,040 1,771 2,160 3,012 3,6941,037 1,761 2,145 2,977 3,6361,034 1,753 2,131 2,947 3,5861,032 1,746 2,120 2,921 3,5441,030 1,740 2,110 2,898 3,5071,029 1,734 2,101 2,878 3,4751,027 1,729 2,093 2,861 3,4471,026 1,725 2,086 2,845 3,4221,024 1,721 2,080 2,831 3,4001,023 1,717 2,074 2,819 3,3801,022 1,714 2,069 2,807 3,3611,021 1,711 2,064 2,797 3,3451,020 1,708 2,060 2,787 3,3301,020 1,706 2,056 2,779 3,3161,019 1,703 2,052 2,771 3,3031,018 1,701 2,048 2,763 3,2911,018 1,699 2,045 2,756 3,2801,017 1,697 2,042 2,750 3,2701,013 1,684 2,021 2,704 3,1991,010 1,676 2,009 2,678 3,1571,008 1,671 2,000 2,660 3,1301,007 1,667 1,994 2,648 3,1111,006 1,664 1,990 2,639 3,0961,006 1,662 1,987 2,632 3,0851,005 1,660 1,984 2,626 3,0771,000 1,645 1,960 2,576 3,001

    Stat

    istiq

    ues

    B

    ertra

    nd B

    lanq

    uart,

    201

    6, V

    3.0

    ETUDE DE NORMALIT

    57

  • Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    ETUDE DE NORMALIT

    Reprsentation graphique

    58

    Avec 1000 valeurs, l'histogramme des valeurs issues d'une loi normale ... ne ressemble pas forcment une

    loi normale !

    Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    ETUDE DE NORMALIT

    Mthode de la droite de Henry Changement de repre pour reprsenter les quantiles interprtation plus simple, mme avec peu de valeurs

    utiliser Excel ou un papier gausso-aritmtique

    59

    Quantiles thoriques

    Quantiles rels

    changement dchelle

    Gaussienne (rpartition)

    Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    ETUDE DE NORMALIT

    Mthode de la droite de Henry dans Excel

    60

  • Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    ETUDE DE NORMALIT

    Mthode de la droite de Henry dans Excel

    61

    Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    ETUDE DE NORMALIT

    Test de normalit Principe des tests

    1 / Construire une statistique de distance entre les valeurs observes et les valeurs thoriques (distance "mesure")

    2 / Dfinir quelle est la loi suivie par cette statistique

    3 / Comparer la distance mesure la probabilit que cette distance soit explique par sa loi de distribution

    4 / Conclure

    Il existe autant de tests que de manires de dfinir une distance ...

    Les tests sont gnralement performants pour un type de loi de distribution et pour un nombre de valeurs

    Dans certains cas, il est possible qu'un test conduise une conclusion et qu'un autre test conduise une conclusion diffrente !

    62

    Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    ETUDE DE NORMALIT

    Il existe de nombreux tests :

    Tests du "2 , de Kolmogorov Smirnov, test de Cramer Von Mises, etc.

    Chaque test prsente des avantages et des inconvnients, aucun n'est parfait !

    63

    Plus le test est complexe, plus les risques d'erreur dans l'interprtation sont grands, et plus il sera difficile de convaincre les ventuels "contradicteurs"

  • Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    ETUDE DE NORMALIT

    64

    Stat

    istiq

    ues

    B

    ertra

    nd B

    lanq

    uart,

    201

    6, V

    3.0

    TEST DINDPENDANCE DU #2

    65

    Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    TEST DINDPENDANCE DU #2

    Test du "2 On cherche dmontrer lindpendance entre deux variables

    qualitatives, chacune ayant plusieurs modalits

    Exemple: on a interrog 200 personnes et lon veut dterminer sil existe un lien, dans la population, entre la profession et la prfrence en matire de boisson.

    1. On construit le tableau de contingence

    66

    Ingnieur Banquier Mdecin Marge

    Bire blonde

    Bire brune

    Marge

  • Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    TEST DINDPENDANCE DU #2

    2. On construit le tableau des effectifs observs

    67

    Ingnieur Banquier Mdecin Marge

    Bire blonde 43 34 35 112

    Bire brune 23 18 47 88

    Marge 66 52 82 200

    Tableau des effectifs observs sur lchantillon

    Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    TEST DINDPENDANCE DU #2

    3. On construit le tableau des frquences thoriques sous hypothse dindpendance

    Calcul des frquences marginales

    68

    Ingnieur Banquier Mdecin Marge

    Bire blonde 56,0%

    Bire brune 44,0%

    Marge 33,0% 26,0% 41,0% 100%

    Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    TEST DINDPENDANCE DU #2

    3. On construit le tableau des frquences thoriques sous hypothse dindpendance

    Calcul des frquences

    69

    Ingnieur Banquier Mdecin Marge

    Bire blonde 18,48% 14,56% 22,96% 56,0%

    Bire brune 14,52% 11,44% 18,04% 44,0%

    Marge 33,0% 26,0% 41,0% 100%

    Tableau des frquences thoriques

  • Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    TEST DINDPENDANCE DU #2

    4. On construit le tableau des effectifs thoriques sous hypothse dindpendance

    Calcul des effectifs

    70

    Ingnieur Banquier Mdecin Marge

    Bire blonde 36,96 29,12 45,92 112,0

    Bire brune 29,04 22,88 36,08 88,0

    Marge 66,0 52,0 82,0 200

    Tableau des effectifs thoriques

    Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    TEST DINDPENDANCE DU #2

    5. On construit le tableau des carts

    Calcul des carts entre effectifs thoriques et effectifs observs

    71

    Ingnieur Banquier Mdecin Marge

    Bire blonde 6,04 4,88 -10,92 -0,0

    Bire brune -6,04 -4,88 10,92 0,0

    Marge 0,0 0,0 0,0 0

    Ingnieur Banquier Mdecin Marge

    Bire blonde

    43 34 35 112

    Bire brune

    23 18 47 88

    Marge 66 52 82 200

    Ingnieur Banquier Mdecin Marge

    Bire blonde 36,96 29,12 45,92 112,0

    Bire brune

    29,04 22,88 36,08 88,0

    Marge 66,0 52,0 82,0 200

    Tableau des effectifs thoriques

    Tableau des effectifs observs

    Tableau des carts

    Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    TEST DINDPENDANCE DU #2

    5. On construit le tableau des "2

    72

    Ingnieur Banquier Mdecin Marge

    Bire blonde 0,987 0,818 2,597

    Bire brune 1,256 1,041 3,305

    Marge 10,004

    Tableau des "2

    2ij =ecart2ijnij

    2 =X

    i,j

    2ij

  • Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    DEUX VARIABLES QUALITATIVES

    Sur un chantillon Calcul de

    Calcul du V de Cramer

    (j=nombre de colonnes, k = nombre de lignes)

    Interprtation

    V proche de 0 : pas de lien entre les lignes et les colonnes

    V proche de 1 : lien entre les lignes et les colonnes

    73

    V =

    s2

    min(j 1, k 1)

    2 =2

    n

    Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    TEST DINDPENDANCE DU #2

    6. On compare la valeur du "2 observe la valeur du "2 critique pour le niveau de risque dfini, en tenant compte du nombre de degrs de libert

    Nombre de degrs de libert :

    ddl = (nombre de lignes -1 ) x (nombre de colonnes - 1)

    dans lexemple : ddl = (2-1) x (3-1)= 2

    Lecture du "2 critique

    74

    Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    TEST DINDPENDANCE DU #2

    8. Conclusion

    Si "2 observ < "2 critique : lhypothse dindpendance est accepte, au risque alpha

    Si "2 observ > "2 critique : lhypothse dindpendance est rejete, au risque

    Note : si on rejette lhypothse dindpendance, cest quon accepte lhypothse alternative il y a un lien entre les variables

    75

  • Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    TEST DINDPENDANCE DU #2

    Notes Le test du "2 ne renseigne en rien sur lventuel lien de causalit

    entre les variables

    - on remarquera que les tableaux sont inversibles (lignes/colonnes)

    - un rel lien de cause effet peut exister ou non.

    - une variable cache peut tre lorigine du lien observ

    La valeur du "2 ne renseigne en rien sur la force du lien entre les variables

    Le test est sensible au nombre de modalits de chaque variable - Si on scinde une modalit ou si on regroupe des modalits, le rsultat du test

    peut voluer

    Le test est sensible aux effectifs de chaque cellule - Eviter un effectif observ infrieur 5

    76

    Stat

    istiq

    ues

    B

    ertra

    nd B

    lanq

    uart,

    201

    6, V

    3.0

    RGRESSIONS LINAIRES (INTRODUCTION)

    77

    Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    RGRESSIONS LINAIRES

    Introduction Les mthodes de rgression sont le 1er outil des mthodes explicatives

    danalyse de donnes, permettant de trouver un lien - fonctionnel ou non - entre les donnes.

    Trois questions fondamentales: 1. Quel est le modle statistique le plus adapt ?

    droite, parabole, exponentielle, etc.

    2. Comment estimer les paramtres de ce modle ?

    3. Comment dfinir les outils permettant de calculer les valeurs prvisionnelles de Y en fonction de X ?

    Attention :

    Lexistence dun lien entre les donnes ne signifie pas quil y a un lien de causalit

    78

  • Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    RGRESSIONS LINAIRES

    79

    I

    Introduction

    I.1 But de la rgression.

    Commenons par un exemple illustratif simple. Le botaniste Joseph Dalton Hooker a mesur lorsdune expdition en 1849 la pression atmosphrique pi et la temprature dbullition de leau yi endivers endroits de lHimalaya 1. Selon les lois de la physique, yi devrait tre (en premire approximation)proportionnel au logarithme de pi. On pose donc le modle

    yi = 1 + 2xi + ui, xi = log(pi). (I.1)

    ui reprsente lerreur de mesure, et explique que les points de la figure I.1 ne sont pas exactementaligns. Cette figure montre galement la droite estime par moindres carrs. On voit une trs bonneadquation. Lquation ci-dessus donne un modle, qui si ui est suppos gaussien centr devient lemodle paramtrique yi N(1+2xi,2), dont on verra lintrt plus tard. Le paramtre 2 reprsentela variance de lcart des points la droite (mesur verticalement) et lestimation de donne ici 0,04.

    2.7 2.8 2.9 3.0 3.1 3.2 3.3 3.482

    84

    86

    88

    90

    92

    94

    96

    98

    100

    Figure I.1 Temprature dbulition de leau mesure en divers endroits de lHimalaya en fonctiondu logarithme de la pression.

    Cet exemple illustre comment le modle de rgression tente dexpliquer au mieux une grandeur y (larponse) en fonction dautres grandeurs x (vecteur des variables explicatives, ou rgresseurs, oufacteurs, un seul dans lexemple) en dmlant ce qui est dterministe de ce qui est alatoire eten quantifiant ces deux aspects (par les i dune part et 2 dautre part).

    1. En 1857 le physicien James David Forbes a fait la mme exprience dans les Alpes, le but tant de pouvoir retrouverla pression atmosphrique partir de la seule mesure de la temprature dbulition de leau (les baromtres tant fragileset donc difficiles transporter lors dune expdition), ce qui permet ensuite den dduire laltitude au travers dune relationconnue ; il rapporte dans un article ce double ensemble de donnes dont nous nutilisons ici que la partie Himalayenne (ellessont dcrites dans : S.Weisberg, Applied Linear Regression, Wiley, 1985.)

    7

    Le botaniste Joseph Dalton Hooker a mesur lors dune expdition en 1849 la pression atmosphrique et la temprature dbullition de leau en divers endroits de lHimalaya. Les donnes sont reportes ci-dessus (temprature sur laxe des ordonnes en fonction du logarithme de la pression en abscisse)

    temprature (en C)

    ln (pression)

    Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    RGRESSIONS LINAIRES

    80

    Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    RGRESSIONS LINAIRES

    Principe de la rgression aux moindres carrs Choisir une fonction

    droite, polynme, exponentielle, etc.

    Trouver les coefficients de la fonction qui minimisent les rsidus : carts entre les valeurs observes et les valeurs calcules par la fonction

    Critiquer la rgression choisie (ventuellement, en choisir une autre)

    Rsidus

    Coefficient de dtermination

    Analyse de variance

    Statistiques des paramtres de la rgression

    81

  • Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    RGRESSIONS LINAIRES

    Principe de la rgression aux moindres carrs

    82

    Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    RGRESSIONS LINAIRES

    Hypothses dapplication Le modle choisi est correct

    La variable explicative (X) est sans incertitude, ou avec une incertitude ngligeable devant lincertitude associe la variable explique (Y)

    Lerreur sur les ralisations de Y est nulle en moyenne et de mme ordre de grandeur pour toutes les valeurs de Y (homoscdasticit)

    Les diffrentes observations de Y ne sont pas corrles

    83

    Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    RGRESSIONS LINAIRES

    Moindres carrs pondrs

    84

  • Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    RGRESSIONS LINAIRES

    Indicateur de la qualit de la rgression Coefficient de corrlation linaire

    avec, pour N couples de points :

    Par construction, le coefficient de corrlation est compris entre -1 et +1

    Coefficient de dtermination (fourni dans Excel par exemple)

    o SCEY est la somme des carrs des carts expliqus par la rgression

    dans le cas des rgressions linaires (pas vrai si fonction exponentielle, puissance, etc.)

    Compris entre 0 et 1

    85

    xy

    =xy

    x

    y

    R2 = 2

    R2 =SCE

    y

    SCEtotale

    Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    RGRESSIONS LINAIRES

    Qualit de la rgression

    86

    = 1 0, 8

    0, 995

    0

    Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    RGRESSIONS LINAIRES

    Qualit de la rgression

    87

  • Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    RGRESSIONS LINAIRES

    Exemple : concentration intrieure de polluants en fonction de la concentration extrieure

    88

    Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    RGRESSIONS LINAIRES

    Exemple : concentration intrieure de polluants en fonction de la concentration extrieure

    89

    Introduction

    Graphiques

    Caract. numriques

    Rgressions

    Modlisation alatoire

    Tests

    RGRESSIONS LINAIRES

    Analyse de la rgression : reprsentation des rsidus

    90