2016 - Statistiques V3.0 Nancy · •Etude de la dispersion d’un lot de 400résistances, ......

STATISTIQUES & PROBABILITÉS

SUPPORT DE COURS VERSION 3.0

INTRODUCTION 2 _______________________________________________________________

GRAPHIQUES 9 _________________________________________________________________

CARACTÉRISTIQUES NUMÉRIQUES 21 ________________________________________________

Tendance centrale

Dispersion

Boxplot

MODÉLISATION ALÉATOIRE 31 _____________________________________________________

Variable aléatoire

Lois des variables discrètes (Bernoulli, Binomiale, Poisson, etc.)

Lois des variables continues

Loi gaussienne

ETUDE DE NORMALITÉ D’UN ÉCHANTILLON 57 _________________________________________

Introduction aux tests statistiques

EXEMPLE DE TEST : TEST DU KHI2 65 _________________________________________________

RÉGRESSIONS LINÉAIRES (INTRODUCTION) 77_________________________________________

STATISTIQUES-PROBABILITÉS

Introduction

Graphiques

Caract. numériques

Régressions

Modélisation aléatoire

LES STATISTIQUES EN ENTREPRISE ?

Surveillance des processus : MSP

Mise au point : plans d’expérience

Appro/gestion des stocks

Prévisions météo/stocks

Contrôle qualité

Prévisions vente / gestion transport

Mesures

Enquêtes satisfaction

Introduction

Graphiques

Caract. numériques

Régressions

OBJECTIFS D’APPRENTISSAGE

• Lire et exploiter des tableaux de données

• Mener une analyse de statistique descriptive univariée via les outils : tableaux, diagrammes, caractéristiques de tendance centrale, caractéristiques de dispersion.

• Mener une analyse de statistique descriptive bivariée via les outils : régression, fréquences conditionnelles, test d’indépendance

• Rédiger des synthèses à partir des résultats

• Construire une modélisation aléatoire

• Connaître les lois de probabilités

• Appliquer la loi de probabilité pour déterminer une probabilité

• Connaître les propriétés de l’espérance et la variance

Introduction

Graphiques

Caract. numériques

Régressions

NOTIONS FONDAMENTALES (NF ISO 3534-1, JANVIER 2007)

• Population

- totalité des individus pris en considération

Note : la population peut être finie ou infinie, réelle ou hypothétique

• Echantillon

- sous-ensemble d'une population constitué d'une ou de plusieurs unités d'échantillonnage

Effectif d'échantillon : n = nombre d'unités dans l'échantillon

Généralement, l'étude exhaustive de la population n'est pas possible : on essaie de deviner ("inférer") les informations à partir de l'étude de l'échantillon

Introduction

Graphiques

Caract. numériques

Régressions

NOTIONS FONDAMENTALES

• L'information considérée dans une étude statistique peut être qualitative ou quantitative

Exemples

- couleur des yeux : variable qualitative

- taille (en cm) : variable quantitative

• Une information quantitative peut être continue ou discrète

Exemples

- taille (en cm) : variable quantitative continue

- taille (en n° de taille de vêtements : 38, 40, etc) : variable quantitative discrète

Introduction

Graphiques

Caract. numériques

Régressions

• Variable qualitative

On dénombre les individus correspondants à chaque modalité

• Variable quantitative

On représente les valeurs

Couleur Nombre

Bleu 4

Marron 13

Vert 3

Taille (cm)

167 189

183 175

173 174

Introduction

Graphiques

Caract. numériques

Régressions

‣ Exemple

• Un fabricant de tissus essaie une nouvelle machine, il compte le nombre de défauts sur 75 échantillons de 10 m.

Nombre de défauts 0 1 2 3 4 5

Nombre d’échantillons 38 15 11 6 3 2

Introduction

Graphiques

Caract. numériques

Régressions

STATISTIQUES DESCRIPTIVES

‣ Exemple

• Un fabricant de tissus essaie une nouvelle machine, il compte le nombre de défauts sur 75 échantillons de 10 m.

Nombre de défauts 0 1 2 3 4 5

Nombre d’échantillons 38 15 11 6 3 2 75

Fréquence absolue 38 15 11 6 3 2

Fréquence relative 0,51 0,20 0,15 0,08 0,04 0,03

Fréquence cumulée absolue 38 53 64 70 73 75

Fréquence cumulée relative 0,51 0,71 0,85 0,93 0,97 1,00

GRAPHIQUES

Introduction

Graphiques

Caract. numériques

Régressions

‣ Variable discrète

• Exemple : un fabricant de tissus essaie une nouvelle machine, il compte le nombre de défauts sur 75 échantillons de 10 m.

Nombre de défauts0 1 2 3 4 5

10,970,93

Introduction

Graphiques

Caract. numériques

Régressions

3 %4 %8 %

0 défaut1 défaut2 défauts3 défauts4 défauts5 défauts

‣ Variable discrète

• Exemple : un fabricant de tissus essaie une nouvelle machine, il compte le nombre de défauts sur 75 échantillons de 10 m.

Introduction

Graphiques

Caract. numériques

Régressions

‣ Variable continue

‣ Découpage en classes

‣ Nombre de classes ?

Ni trop, ni trop peu…

Critère de Sturges : k≃1+3,222 log10(n).

Le regroupement en classes fait perdre aux individus leur caractère propre ainsi que les détails fins des distributions.

Les classes peuvent être d’amplitudes différentes (dans ce cas, les rectangles de l’histogramme doivent l’indiquer, soit par une largeur proportionnelle à l’amplitude soit par une légende appropriée).

Introduction

Graphiques

Caract. numériques

Régressions

• 200 dispositifs ont subi un test de fiabilité ; la durée de vie (notée X, en heures) jusqu’à défaillance a été notée dans le tableau suivant.

Durée de vie (en heures)

Nombre ni de dispositifs

(fréquence absolue)Fréquence relative fi

Fréquence cumulée absolue

Fréquence cumulée relative

0 ≤ X < 150 60 0,3 60 0,3

150 ≤ X < 300 30 0,15 90 0,45

300 ≤ X < 450 24 0,12 114 0,57

450 ≤ X < 600 20 0,1 134 0,67

600 ≤ X < 750 16 0,08 150 0,75

750 ≤ X < 900 16 0,08 166 0,83

900 ≤ X < 1050 16 0,08 182 0,91

1050 ≤ X < 1200 12 0,06 194 0,97

1200 ≤ X < 1350 6 0,03 200 1

Introduction

Graphiques

Caract. numériques

Régressions

• 200 dispositifs ont subi un test de fiabilité

Durée de vie (en heures)

10,970,91

0,830,75

Introduction

Graphiques

Caract. numériques

Régressions

‣ Exemple

• Etude de la dispersion d’un lot de 400 résistances, de valeur nominale 100 kΩ.

Classe Limites de classe (en

Nombre ni de dispositifs

(fréquence absolue)

Fréquence relative fi

Fréquence cumulée

absolue Ni

Fréquence cumulée relative Fi

I [92 ; 94[ 10 0,025 10 0,025II [94 ; 96[ 15 0,038 25 0,063III [96 ; 98[ 40 0,100 65 0,163IV [98 ; 100[ 60 0,150 125 0,313V [100 ; 102[ 90 0,225 215 0,538VI [102 ; 104[ 70 0,175 285 0,713VII [104 ; 106[ 50 0,125 335 0,838VIII [106 ; 108[ 35 0,088 370 0,925IX [108 ; 110[ 20 0,050 390 0,975X [110 ; 112[ 10 0,025 400 1

Introduction

Graphiques

Caract. numériques

Régressions

‣ Exemple

• Etude de la dispersion d’un lot de 400 résistances, de valeur nominale 100 kΩ.

Classes

I II III IV V VI VII VIII IX X

Introduction

Graphiques

Caract. numériques

Régressions

‣ Exemples

Introduction

Graphiques

Caract. numériques

Régressions

Population

100 000

50 000

20 000

Population par pays (données fictives)

Introduction

Graphiques

Caract. numériques

Régressions

EXEMPLES

Introduction

Graphiques

Caract. numériques

Régressions

‣ Exemple

CARACTÉRISTIQUES NUMÉRIQUES

Introduction

Graphiques

Caract. numériques

Régressions

‣ Caractéristiques de “tendance centrale” (ou “paramètres de position)

• Moyenne arithmétique

=MOYENNE(...) 9,7

200 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

Valeurs+X

Moyenne

Introduction

Graphiques

Caract. numériques

Régressions

‣ Caractéristiques de “tendance centrale”

• Médiane

• si n impair, (n+1) / 2ème valeur de l'échantillon (trié en ordre non décroissant)

• si n pair, moyenne de la (n/2) et de la (n/2 +1)ème valeurs

=MEDIANE(...) 8

200 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

Valeurs+X

Médiane

Introduction

Graphiques

Caract. numériques

Régressions

=MAX(...)-MIN(...) 13

13 197 6

‣ Caractéristiques de dispersion

• Etendue

• plus grande statistique d'ordre moins la plus petite statistique d'ordre

24200 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

Valeurs+X

Min Max

Etendue

Introduction

Graphiques

Caract. numériques

Régressions

• Ecart-type

sPni=1(xi � x̄)2

n� 1

=ECARTYPE(...) 4,1913

200 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

Valeurs+X

Moyenne

Intervalle : ± s

Introduction

Graphiques

Caract. numériques

Régressions

• Ecart-type

• Ecart-type d’une “population”

• Coefficient de variation

vuut 1

(xi �m)2

=ECARTYPEP(...) 3,9762

Cv = 100 · s

Introduction

Graphiques

Caract. numériques

Régressions

• Variance

• La variance est le carré de l’écart-type.

• Propriétés de la variance

Si une variable aléatoire est la combinaison linéaire de plusieurs variables aléatoires,

Y =a × X1 + b × X2 • alors sa variance se calcule selon l'additivité des variances :

V ar(Y ) = a2 · V ar(X1) + b2 · V ar(X2)➜

➜ �2(Y ) = a2 · �2(X1) + b2 · �2(X2)

V ar = �

(xi � x̄)2

Introduction

Graphiques

Caract. numériques

Régressions

‣ Autres caractéristiques

• Mode

• Quantile

décile, centile

Introduction

Graphiques

Caract. numériques

Régressions

‣ Caractéristiques

• “Boxplot“ (boîte à moustaches)

Longueur du trait (méthode de Tukey ) :

- Calculer !=1,5 × (Q3-Q1)

- Limite inférieure du trait : max (x1, Q1-!)

- Limite supérieure du trait : min (xn, Q3+!)

puis ajouter autant d’étoiles que de valeurs en-dehors des limites définies par le trait (de chaque côté)

Q1 Q3Q2 (Mediane)

Introduction

Graphiques

Caract. numériques

Régressions

‣ Caractéristiques

• “Boxplot“ (boîte à moustaches)

30T-Cola. We did not find a significant difference between CocaCola and Pepsi Cola preference. The so-called ‘‘Pepsi Paradox’’states that people exhibit a reliable preference for Coca Cola whenbrand information is available (e.g. in the supermarket), but noreliable preference for Coke when no brand information isavailable (e.g. in blind taste tests) [16]. Accordingly, one mighttherefore have predicted a preference for the soft drink mixturewhen it was announced as Coca Cola compared with Pepsi Cola,based to the so-called ‘‘Pepsi Paradox’’. But without a reference toa blind taste condition to compare the results to, it is difficult toconclude that the present findings are not in line with the ‘‘PepsiParadox’’. It may still be the case that also in the present samplePepsi Cola would have been judged as more pleasant than CocaCola in a blind test.

We set out to compare strong and weak brands. We pooledRiver Cola and T Cola as weak brands although participants mayhave preexisting associations with River Cola but not with theinvented T-Cola. We did that mostly because River Cola is ageneric brand that is not subject to advertisement, and we stronglydoubt that German customers would be able to recall the logo ofRiver Cola when prompted to. When comparing brain activationbetween strong and weak brands during the cue phase, weightedaccording to the preference rating after each trial, we foundstronger activation in right mOFC during weak compared withstrong brands. Previous human fMRI studies have placedindividuals in simple choice situations and found that BOLDactivity in the mOFC correlates with behavioral measures ofstimulus values [17,18]. These findings are consistent with monkeyneurophysiology studies that have found stimulus value coding inOFC neurons during choice tasks [19,20]. Based on this view ofmOFC the present findings may indicate that participants rely onstimulus values encoded in mOFC more strongly whenever weakbrands do not offer sufficient guidance to decide about the drinks

pleasantness. When on the other hand a strong brand is expected,this strong brand cue overrides elaborate processing of stimulusvalue in mOFC, since the brand is well known and its associationscan be easily retrieved without an additional assessment of thesubjective stimulus value. That mOFC can predict consumerchoice has been nicely demonstrated in a pattern classificationstudy in which preferences for cars were inferred from activity ofmOFC [21]. A previous study on soft drinks administered pureCoca Cola and Pepsi Cola in an anonymous and a real cuecondition [16]. During the anonymous tasting mOFC activity waspositively correlated with the subjects’ reported preference for thebeverages. This finding reveals that mOFC is related to tastepreferences when no brand cue is delivered. Consequently onemay interpret the present finding as an indication that theannouncement by means of weak brands has a similar effect as theabsence of brand cues. Therewith the present study extendsprevious literature on the influence of linguistic contextualinformation [13] and pricing [14] that has shown a positiveassociation between activity in mOFC and positive linguisticinformation as well as information on the product price. Strongbrands in contrast to high price and positive linguistic informationseem to attenuate stimulus value related to mOFC stimulus valueprocessing that is present when weak brands are announced. Butthis difference in results could well be due to the fact that thepresent design allowed us to disentangle cue and taste relatedprocessing, whereas the previous studies delivered the linguisticand pricing information in synchrony with the taste stimulus.

In a direct comparison of Coca Cola and Pepsi Cola during thecue phase, we found significantly more activation in rightamygdala associated with the Coca Cola cue. The amygdala isgenerally known for its role in emotion processing. Traditionally ithas been linked to negative emotions [29], in particular to fear[30]. But more and more evidence exists that questions this strong

Figure 4. Box plot depicting the difference in BOLD per cent signal change in left striatum in strong (Coca Cola, Pepsi Cola)compared to weak (River Cola, T Cola) brands in participants who report to drink Cola with a frequency of 0 days a week onaverage and participants reporting to report Cola more than once a week. Error bars depict the standard deviation.doi:10.1371/journal.pone.0061569.g004

Brand Anticipation Influences Gustatory Processing

PLOS ONE | www.plosone.org 5 April 2013 | Volume 8 | Issue 4 | e61569

MODÉLISATION ALÉATOIRE

Introduction

Graphiques

Caract. numériques

Régressions

VARIABLE ALÉATOIRE

• Variable représentant une grandeur (ou une caractéristique) qui peut prendre plusieurs valeurs (modalités), en associant à chaque valeur une probabilité donnée.

Exemples :

- la température maximale demain

- une pièce prélevée au hasard dans un lot de production

- le résultat du lancer d'un dé à six faces

• La variable peut être qualitative

- il fera {beau / pas beau} demain

• La variable peut être quantitative

continue ou discrète

- la température est une variable continue

- le résultat du lancer d'un dé à six faces est une variable discrète

Introduction

Graphiques

Caract. numériques

Régressions

LOIS DE DISTRIBUTION

• La loi de distribution est la fonction qui décrit la probabilité affectée à chaque valeur de la variable aléatoire

• Exemple :

le résultat du lancer d'un dé à six faces (non truqué)

- probabilité d'obtenir "1" : 1/6

Nombre

1 2 3 4 5 6

Introduction

Graphiques

Caract. numériques

Régressions

LOIS DES VARIABLES DISCRÈTES

‣ Variable de Bernoulli

Variable qui peut prendre deux valeurs (ou deux “états”), de probabilités respectives p et q = 1-p

Exemple : le résultat du lancer d’une pièce de monnaie à pile ou face (si elle n’est pas truquée : p = q = 0,5)

Notations :

Prob(X = 1) = p

Prob(X = 0) = q V ar(X) = p · q

E(X) = p

Introduction

Graphiques

Caract. numériques

Régressions

‣ Loi binomiale

• On a n réalisations indépendantes (ou “tirages”) d’une variable de Bernoulli (= on lance n fois la pièce pile/face)

• X est la variable aléatoire qui décrit le nombre de “succès“ au cours des n “tirages”

• X suit une loi binomiale B(n,p)

Prob(X = k) = C

kn · pk · (1� p)n�k

E(X) = n · p

V ar(X) = n · p · qCk

(n� k)!k!

Introduction

Graphiques

Caract. numériques

Régressions

‣ Exemple

Exemple : on lance 3 fois une pièce à pile ou face. Quelle est la probabilité d’obtenir deux fois “pile” …

… si l’on sait que la pièce n’est pas truquée ?

… si l’on sait que la pièce est truquée et que la probabilité d’avoir “pile” à chaque lancer est en fait p=0,6 ?

Introduction

Graphiques

Caract. numériques

Régressions

‣ Loi de Poisson

On a des épreuves binomiales, avec N très grand et p très petit (et le produit N × p qui reste un nombre fini)

Alors, la loi binomiale tend vers une loi de Poisson, dont la probabilité s’écrit :

L’avantage de la loi de Poisson est qu’elle nécessite un seul paramètre (au lieu de deux pour la binomiale)

Prob(X = k) =µ

E(X) = µ V ar(X) = µ

Introduction

Graphiques

Caract. numériques

Régressions

‣ Loi de Poisson

• Critère de convergence de la loi binomiale vers une loi de Poisson : si n × p < 5 et n > 20

• La loi de Poisson décrit bien des phénomènes de comptage : détection de photons par un photomultiplicateur, comptage de particules émises lors de désintégrations radioactives, comptage d’ions dans un spectromètre de masse, comptage d’individus en microbiologie, . . .

Introduction

Graphiques

Caract. numériques

Régressions

‣Loi Hypergéométrique

Cette loi décrit les “tirages sans remise”: on prélève des éléments sans les remettre en jeu ; une fois qu’on a prélevé un élément, il n’y plus aucune chance de le prélever de nouveau.

Exemple : 3 boules dans un sac, dont on sait que deux sont vertes et une est rouge :

• Au premier tirage, on a une chance sur trois de tirer la boule rouge.

• Au second tirage,

si on a tiré la boule rouge au 1er tirage, on a 100 % de chances de tirer une boule verte.

si par contre, on a tiré une boule verte au 1er tirage, on a une chance sur deux de tirer une boule verte.

Introduction

Graphiques

Caract. numériques

Régressions

‣ Synoptique

Binomiale

Multinomiale

Bernoulli

Hypergéométrique

Géométrique Pascal

PoissonTirages avec remiseTirages sans remise

Nombre d'essais pour obtenir k succès(lois utilisées dans les jeux de hasard)

Nombre de défaillances (sans mémoire)

Variable à deux états

(k = 1)

H(N;n;p) B(n;p) P(λ)

Introduction

Graphiques

Caract. numériques

Régressions

‣ Synoptique et convergences

Binomiale

Multinomiale

Bernoulli

Hypergéométrique

Poisson

Nombre d'essais pour obtenir k succès(lois utilisées dans les jeux de hasard)

Variable à deux états

(k = 1)

H(N;n;p) B(n;p) P(λ)n ≤ 0,1 N

Introduction

Graphiques

Caract. numériques

Régressions

SYNTHÈSE LOIS DISCRÈTES

Loi Pr(X = k) EspéranceE(X)

VarianceV AR(X)

Description Commentaires

Bernoulli Pr(X = 1) = pPr(X = 0) = q = 1� p

- - Variable pouvant prendre deux états. Pile/face, noir/blanc, etc.

BinomialeB(n;p) Ck

n · pk · (1� p)n�k np np(1� p)X compte le nombre de succès lors de n répétitions d'une variable de Bernoulli de probabilité p, avec remise, sans mémoire (les résultats des répétitions sont indépendants)

Combien de fois on obtient "pile" dans un nombre de lancers successifs d’une pièce de monnaie

Multinomiale n!x1!x2!x3!. . . xk!

· px11 . . . pxk

k E(Xi) = npi npi(1� pi)Généralisation de la loi binomiale quand le nombre de valeurs possibles de la variable aléatoire est supérieur à 2 (k types différents)

Lancer d'un dé à 6 faces ;Contrôle final d’un produit ayant 4 états possibles avec des probabilités différentes : conforme 80 %), défaut non critique (10 %), défaut moyen (6 %), défaut critique (4 %)

Géométrique p(1� p)k�1 1p

1� p

Nombre d'essais nécessaire pour qu'un événement de probabilité p apparaisse (k-1 échecs avant le succès au kème essai).

Un matériel a une probabilité de 2 % de défaillance à chaque mise en service ; quelle est la probabilité d’avoir la première panne au 10ème essai ?

Hypergéométrique H(N;n;p)

CxNp · Cn�x

N�Np

n� p N � n

N � 1· np(1� p)

Loi des tirages sans remise avec probabilité constante (n/N est le taux de sondage)

Un lot de N pièces contient Np pièces défectueuses. Quelle est la probabilité qu’un sous ensemble de n individus contienne x éléments défectueux ?

Poisson P(!) e�� · �k

k! � �

Nombre d'événements peu probables dans une grande succession d'épreuves (n > 50)

� est un paramètre (généralement compris

entre 0,1 et 18) ; k est un réel positif.

Nombre d'accidents dans un atelier.

Pascal P(r,k) Cr�1k�1p

r(1� p)k�r rp

r(1� p)p2

Nombre d'essais nécessaire pour qu'un événement de probabilité p apparaisse r fois avec r ! 1 (pour r = 1, loi géométrique)

Compte le nombre d’essais nécessaires pour obtenir k succès (k fixé) (alors que la binomiale compte le nombre de succès au cours de n essais, avec n fixé).

n!k!(n� k)!

Introduction

Graphiques

Caract. numériques

Régressions

VARIABLES CONTINUES

Probabilité

Introduction

Graphiques

Caract. numériques

Régressions

LOIS DES VARIABLES CONTINUES

• Loi uniforme (rectangulaire, équiprobable)

• Loi de Student

• Loi du Khi2

• Loi exponentielle

• etc.

Le coefficient diviseur n’est pas arbitraire, il peut être démontré par

un calcul de variance � =

Introduction

Graphiques

Caract. numériques

Régressions

LOIS DES VARIABLES CONTINUES

‣ Synoptique

Loi Normale (Gaussienne)

Lognormale

Effets

Exponentielle Gamma

Weibull BetaFisher Snédécor

Student

Effets

Lois utilisées en fiabilité,

Lois utilisées pour les

Introduction

Graphiques

Caract. numériques

Régressions

SYNOPTIQUE COMPLET

Binomiale

Multinomiale

Bernoulli

Hypergéométrique

Poisson

Lognormale

Exponentielle Gamma

Weibull Beta

Fisher Snédécor

Student

Introduction

Graphiques

Caract. numériques

Régressions

SYNOPTIQUE COMPLET & CONVERGENCES

Binomiale

Multinomiale

Bernoulli

Hypergéométrique

Poisson

Lognormale

Exponentielle Gamma

Weibull Beta

Fisher Snédécor

Student

n ≤ 0,1 N

λ > 18

si np > 5 et np(1-p) > 5,

B(n; p) ! N(np,pnp(1� p))

Introduction

Graphiques

Caract. numériques

Régressions

SYNTHÈSE LOIS CONTINUES

Loi Densité de probabilité EspéranceE(X)

VarianceV AR(X)

Description Commentaires

Normale N(m;!) f(x) =1

⇥�

2�e�(x�m)2

2�2 m �2

Loi normale ou gaussienne, dont la densité de probabilité est appelée «courbe en cloche».

Utilisation de la table pour la loi normale

centrée réduite T = X�m�

Très utilisée car s’applique à de nombreux phénomènes en physique comme en économie, quand un grand nombre de facteurs agissent sous forme additive, chacun ayant une variance faible par rapport à la variance résultante.

LogNormale f(x) =1

x⇥�

2�· e�

(Lnx�m)2

2�2 em+�2(e�2

� 1)e2m+�2 Si Y � N(m;�) ,

X = eY suit une loi log-normale

Loi d’une grandeur résultant de l’influence d’un grand nombre de facteurs aléatoires agissant de manière multiplicative ; ! est un paramètre de forme permettant de l’ajuster à de nombreux phénomènes en fiabilité.

Weibull f(x) =k

�x� �

⇥k�1

e�( x��⇥ )k

��

k est un paramètre de forme, " est un paramètre d’échelle (« caractéristique de vie ») et # un paramètre de localisation

k<1 décrit les «mortalités précoces» et k>1 décrit les phénomènes d’usure (si k=1, on retrouve la loi exponentielle)

Exponentiellef(x) = �e��x

pour x ! 0

f(x) = 0 sinon

Utilisée en fiabilité, " représente le taux de défaillance (son inverse est le Mean Time Between Failure -MTBF).

S’applique bien aux matériels électroniques subissant des défaillances brutales ou à des systèmes complexes dont les composants ont des lois de fiabilité différentes. Décrit la période pendant laquelle le taux de défaillance est constant ou quasi-constant

Gammaf(x) =

�e��x(�x)t�1

�(t)

f(x) = 0 sinon

Généralisation de la loi exponentielle, utilisée pour décrire les évènements dans un processus poissonien

�(t)est la fonction eulérienne définie par

�(t) =� ⇥

0e�yyt�1dy

(t est un paramètre de forme, " est un paramètre d’échelle)

Student Forme mathématique compliquée, valeurs tabuléesForme mathématique compliquée, valeurs tabuléesForme mathématique compliquée, valeurs tabuléesEst utilisée dans l’étude d’une distribution normale dont on ne connaît pas la variance

Fisher-Snedecor Forme mathématique compliquée, valeurs tabuléesForme mathématique compliquée, valeurs tabuléesForme mathématique compliquée, valeurs tabuléesEst utilisée en analyse de la variance et en analyse de la régression

Khi-deux Forme mathématique compliquée, valeurs tabuléesForme mathématique compliquée, valeurs tabuléesForme mathématique compliquée, valeurs tabulées

La somme des carrés de v variables aléatoires

qui suivent chacune N(0;1) suit une loi du �2

à n degrés de liberté.

Tend à se rapprocher d’une loi normale quand le nombre de ddl augmente

Introduction

Graphiques

Caract. numériques

Régressions

LOI GAUSSIENNE

5-5 -4 -3 -2 -1 0 1 2 3 4

• Fonction représentant une forme de "cloche" symétrique

• Deux paramètres : m et σ - si m = 0 et σ =1, on parle de loi normale centrée réduite

• Notation : N(m , σ)

f(x) =1

⇥⇥

2�· e�

12 ( x�m

� )2

Introduction

Graphiques

Caract. numériques

Régressions

THÉORÈME CENTRAL LIMITE

• Une combinaison linéaire de variables aléatoires, dont chacune suit une loi de distribution quelconque, converge vers une loi normale si :

- le nombre de variables aléatoires considéré est grand

- les écarts-types sont proches les uns des autres

• Exemple

- on lance un dé à six faces : loi discrète "équiprobable"

- on le lance plusieurs fois et on fait la somme des lancers : le résultat n'est pas exactement décrit par une variable gaussienne, ... mais par une variable qui tend vers une loi gaussienne.

Un lancer

Nombre

1 2 3 4 5 6

Somme de trois lancers

Nombre

3 6 9 12 15 18

Introduction

Graphiques

Caract. numériques

Régressions

LOI GAUSSIENNE

‣ Intervalle unilatéral

5-5 -4 -3 -2 -1 0 1 2 3 4

Loi normale centrée réduitet 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,53590,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,57530,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,61410,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,65170,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,68790,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,72240,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,75490,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,78520,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,81330,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,83890,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,86210,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,88300,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,90150,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,91770,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,93190,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,94410,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,95450,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,96330,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,97060,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,97670,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,98170,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,98570,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,98900,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,99160,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,99360,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,99520,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,99640,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,99740,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,99810,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,99860,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,99900,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,99930,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,99950,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,99970,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,99980,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,99980,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,99990,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,99990,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,99991,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000

�(t) = P (X < t) =

1�2�

· e�x

2 · dx

Introduction

Graphiques

Caract. numériques

Régressions

LOI GAUSSIENNE

‣ Intervalle bilatéral

5-5 -4 -3 -2 -1 0 1 2 3 4

-σ σ

68,3 %

-1,96 σ 1,96 σ

≈ -2 σ ≈ 2 σ

± 2 σ ⇒ 95,45 %

Introduction

Graphiques

Caract. numériques

Régressions

INTERVALLE DE CONFIANCE

‣ Intervalle bilatéral

Loi normale centrée réduitet 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,53590,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,57530,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,61410,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,65170,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,68790,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,72240,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,75490,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,78520,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,81330,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,83890,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,86210,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,88300,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,90150,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,91770,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,93190,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,94410,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,95450,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,96330,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,97060,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,97670,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,98170,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,98570,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,98900,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,99160,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,99360,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,99520,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,99640,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,99740,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,99810,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,99860,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,99900,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,99930,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,99950,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,99970,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,99980,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,99980,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,99990,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,99990,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,99991,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000

�(t) = P (X < t) =

1�2�

· e�x

2 · dx

Introduction

Graphiques

Caract. numériques

Régressions

LOI DE STUDENT

-5 -4 -3 -2 -1 0 1 2 3 4 5

T (⌫) =Up

�2(⌫)/⌫

ν = ∞

ν = 10

ν = 1

�2(⌫) =⌫X

Introduction

Graphiques

Caract. numériques

Régressions

LOI DE STUDENT

‣ Qualité d’un estimateur

• Quand on estime la moyenne d'une population par l'intermédiaire du calcul de la moyenne d'un échantillon, il est possible d'associer à cette moyenne un intervalle de confiance

• Si X suit une loi normale, la moyenne de l'échantillon suit une loi normale :

les bornes de l'intervalle de confiance pour la moyenne sont :

(où u est le fractile de la loi gaussienne, au niveau de confiance choisi)

• Généralement, σ est inconnu, on doit l'approcher par s et l'on peut alors démontrer que les bornes de l'intervalle suivent une loi de Student au lieu de la loi gaussienne

Les bornes de l'int. de confiance pour la moyenne sont alors :

(où t est le fractile de la loi de Student, au niveau de confiance choisi)

±u · �pn

± t · spn

Introduction

Graphiques

Caract. numériques

Régressions

LOI DE STUDENT

Fractiles de la loi de Student (probabilités bilatérales)Fraction p en

%Probabilité bilatérale

68,27 90 95 99 99,73

0,32 0,10 0,05 0,01 0,0027

Nombre de ddl

123456789101112131415161718192021222324252627282930405060708090100

infini10000

1,837 6,314 12,71 63,66 235,81,321 2,920 4,303 9,925 19,211,197 2,353 3,182 5,841 9,2191,142 2,132 2,776 4,604 6,6201,111 2,015 2,571 4,032 5,5071,091 1,943 2,447 3,707 4,9041,077 1,895 2,365 3,499 4,5301,067 1,860 2,306 3,355 4,2771,059 1,833 2,262 3,250 4,0941,053 1,812 2,228 3,169 3,9571,048 1,796 2,201 3,106 3,8501,043 1,782 2,179 3,055 3,7641,040 1,771 2,160 3,012 3,6941,037 1,761 2,145 2,977 3,6361,034 1,753 2,131 2,947 3,5861,032 1,746 2,120 2,921 3,5441,030 1,740 2,110 2,898 3,5071,029 1,734 2,101 2,878 3,4751,027 1,729 2,093 2,861 3,4471,026 1,725 2,086 2,845 3,4221,024 1,721 2,080 2,831 3,4001,023 1,717 2,074 2,819 3,3801,022 1,714 2,069 2,807 3,3611,021 1,711 2,064 2,797 3,3451,020 1,708 2,060 2,787 3,3301,020 1,706 2,056 2,779 3,3161,019 1,703 2,052 2,771 3,3031,018 1,701 2,048 2,763 3,2911,018 1,699 2,045 2,756 3,2801,017 1,697 2,042 2,750 3,2701,013 1,684 2,021 2,704 3,1991,010 1,676 2,009 2,678 3,1571,008 1,671 2,000 2,660 3,1301,007 1,667 1,994 2,648 3,1111,006 1,664 1,990 2,639 3,0961,006 1,662 1,987 2,632 3,0851,005 1,660 1,984 2,626 3,0771,000 1,645 1,960 2,576 3,001

ETUDE DE NORMALITÉ

Introduction

Graphiques

Caract. numériques

Régressions

ETUDE DE NORMALITÉ

‣ Représentation graphique

Avec 1000 valeurs, l'histogramme des valeurs issues d'une loi normale ... ne ressemble pas forcément à une

loi normale !

Introduction

Graphiques

Caract. numériques

Régressions

ETUDE DE NORMALITÉ

‣ Méthode de la droite de Henry

•Changement de repère pour représenter les quantiles → interprétation plus simple, même avec peu de valeurs

•utiliser Excel ou un papier gausso-aritmétique

Quantiles théoriques

Quantiles réels

changement d’échelle

Gaussienne (répartition)

Introduction

Graphiques

Caract. numériques

Régressions

ETUDE DE NORMALITÉ

•dans Excel

Introduction

Graphiques

Caract. numériques

Régressions

ETUDE DE NORMALITÉ

•dans Excel

Introduction

Graphiques

Caract. numériques

Régressions

ETUDE DE NORMALITÉ

‣ Test de normalité

•Principe des tests

1 / Construire une statistique de distance entre les valeurs observées et les valeurs théoriques (distance "mesurée")

2 / Définir quelle est la loi suivie par cette statistique

3 / Comparer la distance mesurée à la probabilité que cette distance soit expliquée par sa loi de distribution

4 / Conclure

• Il existe autant de tests que de manières de définir une distance ...

Les tests sont généralement performants pour un type de loi de distribution et pour un nombre de valeurs

Dans certains cas, il est possible qu'un test conduise à une conclusion et qu'un autre test conduise à une conclusion différente !

Introduction

Graphiques

Caract. numériques

Régressions

ETUDE DE NORMALITÉ

‣ Il existe de nombreux tests :

•Tests du "2 , de Kolmogorov Smirnov, test de Cramer Von Mises, etc.

•Chaque test présente des avantages et des inconvénients, aucun n'est parfait !

Plus le test est complexe, plus les risques d'erreur dans l'interprétation sont grands, et plus il sera difficile de convaincre les éventuels "contradicteurs"

Introduction

Graphiques

Caract. numériques

Régressions

ETUDE DE NORMALITÉ

TEST D’INDÉPENDANCE DU #2

Introduction

Graphiques

Caract. numériques

Régressions

‣ Test du "2

•On cherche à démontrer l’indépendance entre deux variables qualitatives, chacune ayant plusieurs modalités

Exemple: on a interrogé 200 personnes et l’on veut déterminer s’il existe un lien, dans la population, entre la profession et la préférence en matière de boisson.

1. On construit le tableau de contingence

Ingénieur Banquier Médecin Marge

Bière blonde

Bière brune

Introduction

Graphiques

Caract. numériques

Régressions

2. On construit le tableau des effectifs observés

Bière blonde 43 34 35 112

Bière brune 23 18 47 88

Marge 66 52 82 200

Tableau des effectifs observés sur l’échantillon

Introduction

Graphiques

Caract. numériques

Régressions

3. On construit le tableau des fréquences théoriques sous hypothèse d’indépendance

Calcul des fréquences marginales

Bière blonde 56,0 %

Bière brune 44,0 %

Marge 33,0 % 26,0 % 41,0 % 100 %

Introduction

Graphiques

Caract. numériques

Régressions

3. On construit le tableau des fréquences théoriques sous hypothèse d’indépendance

Calcul des fréquences

Bière blonde 18,48 % 14,56 % 22,96 % 56,0 %

Bière brune 14,52 % 11,44 % 18,04 % 44,0 %

Marge 33,0 % 26,0 % 41,0 % 100 %

Tableau des fréquences théoriques

Introduction

Graphiques

Caract. numériques

Régressions

4. On construit le tableau des effectifs théoriques sous hypothèse d’indépendance

Calcul des effectifs

Bière blonde 36,96 29,12 45,92 112,0

Bière brune 29,04 22,88 36,08 88,0

Marge 66,0 52,0 82,0 200

Tableau des effectifs théoriques

Introduction

Graphiques

Caract. numériques

Régressions

5. On construit le tableau des écarts

Calcul des écarts entre effectifs théoriques et effectifs observés

Bière blonde 6,04 4,88 -10,92 -0,0

Bière brune -6,04 -4,88 10,92 0,0

Marge 0,0 0,0 0,0 0

Bière blonde

43 34 35 112

Bière brune

23 18 47 88

Marge 66 52 82 200

Bière blonde 36,96 29,12 45,92 112,0

Bière brune

29,04 22,88 36,08 88,0

Marge 66,0 52,0 82,0 200

Tableau des effectifs théoriques

Tableau des effectifs observés

Tableau des écarts

Introduction

Graphiques

Caract. numériques

Régressions

5. On construit le tableau des "2

Bière blonde 0,987 0,818 2,597

Bière brune 1,256 1,041 3,305

Marge 10,004

Tableau des "2

�2ij =

ecart2ijnij

�2 =X

�2ij

Introduction

Graphiques

Caract. numériques

Régressions

DEUX VARIABLES QUALITATIVES

‣ Sur un échantillon

• Calcul de

• Calcul du V de Cramer

(j=nombre de colonnes, k = nombre de lignes)

• Interprétation

V proche de 0 : pas de lien entre les lignes et les colonnes

V proche de 1 : lien entre les lignes et les colonnes

min(j � 1, k � 1)

�2 =�2

Introduction

Graphiques

Caract. numériques

Régressions

6. On compare la valeur du “"2 observée“ à la valeur du “"2 critique“ pour le niveau de risque défini, en tenant compte du nombre de degrés de liberté

Nombre de degrés de liberté :

ddl = (nombre de lignes -1 ) x (nombre de colonnes - 1)

dans l’exemple : ddl = (2-1) x (3-1)= 2

Lecture du "2 critique

Introduction

Graphiques

Caract. numériques

Régressions

8. Conclusion

Si "2 observé < "2 critique : l’hypothèse d’indépendance est acceptée, au risque alpha α

Si "2 observé > "2 critique : l’hypothèse d’indépendance est rejetée, au risque α

Note : si on rejette l’hypothèse d’indépendance, c’est qu’on accepte l’hypothèse alternative “il y a un lien entre les variables“

Introduction

Graphiques

Caract. numériques

Régressions

‣ Notes ‣ Le test du "2 ne renseigne en rien sur l’éventuel lien de causalité

entre les variables

- on remarquera que les tableaux sont inversibles (lignes/colonnes)

- un réel lien de cause à effet peut exister … ou non.

- une variable cachée peut être à l’origine du lien observé

‣ La valeur du "2 ne renseigne en rien sur la force du lien entre les variables

‣ Le test est sensible au nombre de modalités de chaque variable

- Si on scinde une modalité ou si on regroupe des modalités, le résultat du test peut évoluer

‣ Le test est sensible aux effectifs de chaque cellule

- Eviter un effectif observé inférieur à 5

RÉGRESSIONS LINÉAIRES (INTRODUCTION)

Introduction

Graphiques

Caract. numériques

Régressions

RÉGRESSIONS LINÉAIRES

‣ Introduction

• Les méthodes de régression sont le 1er outil des méthodes explicatives d’analyse de données, permettant de trouver un lien - fonctionnel ou non - entre les données.

• Trois questions fondamentales : 1. Quel est le modèle statistique le plus adapté ?

• droite, parabole, exponentielle, etc.

2. Comment estimer les paramètres de ce modèle ?

3. Comment définir les outils permettant de calculer les valeurs prévisionnelles de Y en fonction de X ?

Attention :

L’existence d’un “lien” entre les données ne signifie pas qu’il y a un lien de causalité

Introduction

Graphiques

Caract. numériques

Régressions

Introduction

I.1 But de la régression.

Commençons par un exemple illustratif simple. Le botaniste Joseph Dalton Hooker a mesuré lorsd’une expédition en 1849 la pression atmosphérique pi et la température d’ébullition de l’eau yi endivers endroits de l’Himalaya 1. Selon les lois de la physique, yi devrait être (en première approximation)proportionnel au logarithme de pi. On pose donc le modèle

yi = β1 + β2xi + ui, xi = log(pi). (I.1)

ui représente l’erreur de mesure, et explique que les points de la figure I.1 ne sont pas exactementalignés. Cette figure montre également la droite estimée par moindres carrés. On voit une très bonneadéquation. L’équation ci-dessus donne un modèle, qui si ui est supposé gaussien centré devient lemodèle paramétrique yi ∼ N(β1+β2xi,σ2), dont on verra l’intérêt plus tard. Le paramètre σ2 représentela variance de l’écart des points à la droite (mesuré verticalement) et l’estimation de σ donne ici 0,04.

2.7 2.8 2.9 3.0 3.1 3.2 3.3 3.482

100 ⊕⊕⊕

⊕⊕⊕⊕

⊕⊕

⊕⊕⊕⊕⊕⊕

Figure I.1 – Température d’ébulition de l’eau mesurée en divers endroits de l’Himalaya en fonctiondu logarithme de la pression.

Cet exemple illustre comment le modèle de régression tente d’expliquer au mieux une grandeur y (laréponse) en fonction d’autres grandeurs x (vecteur des variables explicatives, ou régresseurs, oufacteurs, un seul dans l’exemple) en démêlant ce qui est déterministe de ce qui est aléatoire eten quantifiant ces deux aspects (par les βi d’une part et σ2 d’autre part).

1. En 1857 le physicien James David Forbes a fait la même expérience dans les Alpes, le but étant de pouvoir retrouverla pression atmosphérique à partir de la seule mesure de la température d’ébulition de l’eau (les baromètres étant fragileset donc difficiles à transporter lors d’une expédition), ce qui permet ensuite d’en déduire l’altitude au travers d’une relationconnue ; il rapporte dans un article ce double ensemble de données dont nous n’utilisons ici que la partie Himalayenne (ellessont décrites dans : S.Weisberg, Applied Linear Regression, Wiley, 1985.)

Le botaniste Joseph Dalton Hooker a mesuré lors d’une expédition en 1849 la pression atmosphérique et la température d’ébullition de l’eau en divers endroits de l’Himalaya. Les données sont reportées ci-dessus (température sur l’axe des ordonnées en fonction du logarithme de la pression en abscisse)

température (en °C)

ln (pression)

Introduction

Graphiques

Caract. numériques

Régressions

Introduction

Graphiques

Caract. numériques

Régressions

‣ Principe de la régression aux moindres carrés

• Choisir une fonction

droite, polynôme, exponentielle, etc.

• Trouver les coefficients de la fonction qui minimisent les “résidus” : écarts entre les valeurs observées et les valeurs calculées par la fonction

• Critiquer la régression choisie (…éventuellement, en choisir une autre)

Résidus

Coefficient de détermination

Analyse de variance

Statistiques des paramètres de la régression

Introduction

Graphiques

Caract. numériques

Régressions

‣ Principe de la régression aux moindres carrés

Introduction

Graphiques

Caract. numériques

Régressions

‣ Hypothèses d’application

‣ Le modèle choisi est “correct”

‣ La variable explicative (X) est sans incertitude, ou avec une incertitude négligeable devant l’incertitude associée à la variable expliquée (Y)

‣ L’erreur sur les réalisations de Y est nulle en moyenne et de même ordre de grandeur pour toutes les valeurs de Y (“homoscédasticité”)

‣ Les différentes observations de Y ne sont pas corrélées

Introduction

Graphiques

Caract. numériques

Régressions

‣ Moindres carrés pondérés

Introduction

Graphiques

Caract. numériques

Régressions

‣ Indicateur de la qualité de la régression • Coefficient de corrélation linéaire

• avec, pour N couples de points :

• Par construction, le coefficient de corrélation est compris entre -1 et +1

• Coefficient de détermination (fourni dans Excel par exemple)

• où SCEY est la somme des carrés des écarts expliqués par la régression

• dans le cas des régressions linéaires (pas vrai si fonction exponentielle, puissance, etc.)

• Compris entre 0 et 1

=�xy

· �y

R2 = ⇢2

R2 =SCE

SCEtotale

Introduction

Graphiques

Caract. numériques

Régressions

‣ Qualité de la régression

⇢ = 1 ⇢ ⇡ 0, 8

⇢ ⇡ �0, 995

⇢ ⇡ 0

Introduction

Graphiques

Caract. numériques

Régressions

‣ Qualité de la régression

Introduction

Graphiques

Caract. numériques

Régressions

‣ Exemple : concentration intérieure de polluants en fonction de la concentration extérieure

Introduction

Graphiques

Caract. numériques

Régressions

‣ Exemple : concentration intérieure de polluants en fonction de la concentration extérieure

Introduction

Graphiques

Caract. numériques

Régressions

‣ Analyse de la régression : représentation des résidus

2016 - Statistiques V3.0 Nancy · •Etude de la dispersion d’un lot de 400résistances, ......

Documents

Transcript of 2016 - Statistiques V3.0 Nancy · •Etude de la dispersion d’un lot de 400résistances, ......

Rapport Coca Cola

Revealed Preference, Rational Inattention, and …md3405/Working_Paper_9_Complete.pdfRevealed Preference, Rational Inattention, and Costly Information Acquisition Andrew Caplinyand

Chapitre 6 Exercice Pepsi

Rapport de Stage Coca Cola

L'efficacite Du Pacte de Preference Par Jean-Francis Martin

Décision n° 96-D-67 du 29 octobre 1996 relative à des ... · Beverages S.A. (marque Coca-Cola), le groupe Perrier (Franchise Pepsi-Cola), la société Métropolitaine des Boissons

Décision n° 96-D-67 du 29 octobre 1996 relative à des ... · relative à des pratiques mises en oeuvre par la société Coca-Cola Beverages ... Coca-Cola 360,0 74,21 % Pepsi-Cola

BRAND PREFERENCE

Eau et Coca Cola

Coca-Cola : accord télétravail

politique de communication de COCACOLA et PEPSI

Présentation Coca et Pepsi

I. Introduction · 2014-06-02 · celle de Pepsi. L’image médiatique de Coca-Cola fait que les gens le préfèrent en grande majorité à Pepsi. Même si le goût de Pepsi peut

études PAR GAËLLE LE FLOCH* Brand Footprint, · 6 0 Pepsi 1.984 1 24.6 8.2 ... Coca-Cola conserve pour la troisième année consécutive sa place de marque numéro un mondiale,

УСТОЙЧИВОЕ РАЗВИТИЕ COCA-COLA В РОССИИhttps://общеебудущее.рф/files/speakers/arkhipova_presentation.pdf · Coca-Cola Hellenic Bottling Company

Coca- cola

Analyse Concurrentiel Coca Pepsi

noodlenami.ca · 2021. 6. 1. · Dessert Aeesec«ke 1 SLICE -SesQÞte 5 pcs RED BEAN Drinks CV,inese TeQ JQQnese Green Te« Bottled WQter Pop PEPSI, DIET PEPSI, 7UP ZERO, PEPSI ZERO

Engagement des entreprises Liste Focus 2018 - Accueil List... · Pepsi Restaurant Brands Target Johnson & Johnson ... à Coca-Cola de traiter la question du changement des préférences

Panorama des boissons non alcoolisées en Franceharris-interactive.fr/wp-content/uploads/sites/6/2017/07/Teasing... · cola comme Coca-Cola, Pepsi; boissons aux fruits gazeuses comme