Ponts Castillo1

44
Stat descriptive Introduction Séries numériques Variables discrètes / continues Représentation graphique Statistiques Deux séries numériques Statistiques Régression : Introduction QQ-plots Cours 1 Statistique descriptive Ismaël Castillo École des Ponts, 9 Octobre 2012

description

Ponts Castillo1

Transcript of Ponts Castillo1

Page 1: Ponts Castillo1

Statdescriptive

Introduction

SériesnumériquesVariablesdiscrètes /continuesReprésentationgraphiqueStatistiques

Deux sériesnumériquesStatistiquesRégression :IntroductionQQ-plots

Cours 1Statistique descriptive

Ismaël Castillo

École des Ponts, 9 Octobre 2012

Page 2: Ponts Castillo1

Statdescriptive

Introduction

SériesnumériquesVariablesdiscrètes /continuesReprésentationgraphiqueStatistiques

Deux sériesnumériquesStatistiquesRégression :IntroductionQQ-plots

1 Introduction

2 Séries numériquesVariables discrètes / continuesReprésentation graphiqueStatistiques

3 Deux séries numériquesStatistiquesRégression : IntroductionQQ-plots

Page 3: Ponts Castillo1

Statdescriptive

Introduction

SériesnumériquesVariablesdiscrètes /continuesReprésentationgraphiqueStatistiques

Deux sériesnumériquesStatistiquesRégression :IntroductionQQ-plots

1. Introduction

Objectifs

Définir les quantités statistiques basiques

Présenter les outils graphiques de la stat. descriptive

On travaillera sur le jeu de données x1, . . . , xn sans faire d’hypothèse a priori surl’existence éventuelle d’un modèle probabiliste sous-jacent

Page 4: Ponts Castillo1

Statdescriptive

Introduction

SériesnumériquesVariablesdiscrètes /continuesReprésentationgraphiqueStatistiques

Deux sériesnumériquesStatistiquesRégression :IntroductionQQ-plots

2. Séries numériques

L’objet de base = les donnéesx1, . . . , xn

Dans ce premier cours, on considère le cas xi ∈ ROn parle de série numérique.

On distinguera deux types de variables

les variables discrètesI On dit qu’une série numérique correspond à une variable discrète si le

nombre de valeurs différentes prises par x1, . . . , xn est petit devant n

les variables continuesI les autres, typiquement x1, . . . , xn correspond à n valeurs distinctes.

Page 5: Ponts Castillo1

Statdescriptive

Introduction

SériesnumériquesVariablesdiscrètes /continuesReprésentationgraphiqueStatistiques

Deux sériesnumériquesStatistiquesRégression :IntroductionQQ-plots

Histogrammes

L’histogramme représente graphiquement le nombre de données par unité/bloc

Histogramme, cas discret

h(x) =nX

i=1

1x=xi

05

1015

20

rpois(100,lambda=5)

1 2 3 4 5 6 7 8 9 10

Remarque : L’histogramme normalisé est donné par h(x) = 1n

Pni=1 1x=xi .

Page 6: Ponts Castillo1

Statdescriptive

Introduction

SériesnumériquesVariablesdiscrètes /continuesReprésentationgraphiqueStatistiques

Deux sériesnumériquesStatistiquesRégression :IntroductionQQ-plots

Histogrammes

Histogramme, cas continuOn se donne

I Un nombre k de classesI Une partition de R en k intervalles I1, . . . , Ik

nj =kX

j=1

1xi∈Ij

Alorsh(x) =

1nnj

|Ij |, si x ∈ Ij

Histogram of x

x

Density

-1 0 1 2 3 4 5

0.0

0.1

0.2

0.3

0.4

Page 7: Ponts Castillo1

Statdescriptive

Introduction

SériesnumériquesVariablesdiscrètes /continuesReprésentationgraphiqueStatistiques

Deux sériesnumériquesStatistiquesRégression :IntroductionQQ-plots

Histogrammes, choix du nombre de classes

Les choix de k et de la partition I1, . . . , Ik sont délicats.Souvent, on prend

Une partition uniforme

On cherche à avoir au moins 5 points par intervalleHistogram of x

x

Density

-2 -1 0 1 2 3 4 5

0.0

0.1

0.2

0.3

Histogram of x

x

Density

-1 0 1 2 3 4 5

0.0

0.1

0.2

0.3

0.4

Histogram of x

x

Density

-1 0 1 2 3 4 5

0.0

0.1

0.2

0.3

0.4

Page 8: Ponts Castillo1

Statdescriptive

Introduction

SériesnumériquesVariablesdiscrètes /continuesReprésentationgraphiqueStatistiques

Deux sériesnumériquesStatistiquesRégression :IntroductionQQ-plots

Fonction de répartition empirique

Série numérique x1, . . . , xn

DefinitionLa valeur en x de la fonction de répartition empirique associée à (x1, . . . , xn) estla proportion d’éléments de la série plus petits que x

Fn(x) =1n

nXi=1

1xi≤x

Propriétés

Fn : R→ [0, 1]

Fn est en escalier, croissante

Fn vaut 0 pour x < mini xi et 1 pour x > maxi xi

Page 9: Ponts Castillo1

Statdescriptive

Introduction

SériesnumériquesVariablesdiscrètes /continuesReprésentationgraphiqueStatistiques

Deux sériesnumériquesStatistiquesRégression :IntroductionQQ-plots

Fonction de répartition empirique

0 2 4 6 8 10 12

0.0

0.2

0.4

0.6

0.8

1.0

x

Fn(x)

Exemple 1 : variable discrèten = 100 x1, . . . , xn tirés

selon une loi P(5)

Page 10: Ponts Castillo1

Statdescriptive

Introduction

SériesnumériquesVariablesdiscrètes /continuesReprésentationgraphiqueStatistiques

Deux sériesnumériquesStatistiquesRégression :IntroductionQQ-plots

Fonction de répartition empirique

0 2 4 6 8 10 12

0.0

0.2

0.4

0.6

0.8

1.0

x

Fn(x)

Exemple 1 : variable discrèten = 100 x1, . . . , xn tirés

selon une loi P(5)

Page 11: Ponts Castillo1

Statdescriptive

Introduction

SériesnumériquesVariablesdiscrètes /continuesReprésentationgraphiqueStatistiques

Deux sériesnumériquesStatistiquesRégression :IntroductionQQ-plots

Fonction de répartition empirique

0 1 2 3 4

0.0

0.2

0.4

0.6

0.8

1.0

ecdf(x2)

x

Fn(x)

Exemple 2 : variable continue

n = 100

x1, . . . , xn tirésselon une loi N (2, 1)

Page 12: Ponts Castillo1

Statdescriptive

Introduction

SériesnumériquesVariablesdiscrètes /continuesReprésentationgraphiqueStatistiques

Deux sériesnumériquesStatistiquesRégression :IntroductionQQ-plots

Fonction de répartition empirique

0 1 2 3 4

0.0

0.2

0.4

0.6

0.8

1.0

ecdf(x2)

x

Fn(x)

Exemple 2 : variable continue

n = 100

x1, . . . , xn tirésselon une loi N (2, 1)

Page 13: Ponts Castillo1

Statdescriptive

Introduction

SériesnumériquesVariablesdiscrètes /continuesReprésentationgraphiqueStatistiques

Deux sériesnumériquesStatistiquesRégression :IntroductionQQ-plots

Statistiques

Une statistique est une fonction des données, à valeurs dans Rp

S(x1, . . . , xn) ∈ Rp

Exemple S(x1, . . . , xn) = max(x1, . . . , xn)

Les statistiques sont des aspects des données

Idéalement, on cherche un petit nombre de statistiques qui va résumer lesdonnées x1, . . . , xn. On distingue les

statistiques de position

statistiques de dispersion

statistiques d’ordre (et quantiles)

. . .

Page 14: Ponts Castillo1

Statdescriptive

Introduction

SériesnumériquesVariablesdiscrètes /continuesReprésentationgraphiqueStatistiques

Deux sériesnumériquesStatistiquesRégression :IntroductionQQ-plots

Statistiques de position de x1, . . . , xn

Moyenne x

x =1n

nXi=1

xi

Médiane Medx C’est un nombre m qui sépare les données rangées dans l’ordre endeux ensembles de même taille.

x(1) ≤ x(2) ≤ . . . | . . . ≤ x(n−1) ≤ x(n)

Il y a deux cas

n = 2p + 1 impair x(1) ≤ . . . x(p) ≤ x(p+1) ≤ x(p+2) ≤ . . . ≤ x(2p+1)

Medx = x(p+1)

n = 2p pair x(1) ≤ . . . ≤ x(p) ≤ m ≤ x(p+1) ≤ . . . ≤ x(2p)

Medx =x(p) + x(p+1)

2

Remarque. Lorsque n est pair, il y a en général plusieurs nombres quiconviennent. Le choix ci-dessus est habituel.

Page 15: Ponts Castillo1

Statdescriptive

Introduction

SériesnumériquesVariablesdiscrètes /continuesReprésentationgraphiqueStatistiques

Deux sériesnumériquesStatistiquesRégression :IntroductionQQ-plots

Exercices et exemples

Mode Modex (pour des données discrètes) C’est la valeur la plus fréquente ausein des données.

Exercice. Calculer moyenne, médiane et mode de

s = (−2,−1, 0, 5, 8)

t = (−4, 1,−3, 5, 3, 3,−3, 6)

x = (1, 1, 2, 3, 3, 3, 3, 9, 20)

s = 2 Medx = 0 Modex = −t = 1 Medx = 2 Modex = −x = 5 Medx = 3 Modex = 3

Illustration phénomène moyenne/médiane

Salaire net moyen 2008 en France : 2069 euros/mois

Salaire net médian 2008 en France : 1655 euros/mois

Page 16: Ponts Castillo1

Statdescriptive

Introduction

SériesnumériquesVariablesdiscrètes /continuesReprésentationgraphiqueStatistiques

Deux sériesnumériquesStatistiquesRégression :IntroductionQQ-plots

Exercices et exemples

Mode Modex (pour des données discrètes) C’est la valeur la plus fréquente ausein des données.

Exercice. Calculer moyenne, médiane et mode de

s = (−2,−1, 0, 5, 8)

t = (−4, 1,−3, 5, 3, 3,−3, 6)

x = (1, 1, 2, 3, 3, 3, 3, 9, 20)

s = 2 Medx = 0 Modex = −t = 1 Medx = 2 Modex = −x = 5 Medx = 3 Modex = 3

Illustration phénomène moyenne/médiane

Salaire net moyen 2008 en France : 2069 euros/mois

Salaire net médian 2008 en France : 1655 euros/mois

Page 17: Ponts Castillo1

Statdescriptive

Introduction

SériesnumériquesVariablesdiscrètes /continuesReprésentationgraphiqueStatistiques

Deux sériesnumériquesStatistiquesRégression :IntroductionQQ-plots

Exercices et exemples

Mode Modex (pour des données discrètes) C’est la valeur la plus fréquente ausein des données.

Exercice. Calculer moyenne, médiane et mode de

s = (−2,−1, 0, 5, 8)

t = (−4, 1,−3, 5, 3, 3,−3, 6)

x = (1, 1, 2, 3, 3, 3, 3, 9, 20)

s = 2 Medx = 0 Modex = −t = 1 Medx = 2 Modex = −x = 5 Medx = 3 Modex = 3

Illustration phénomène moyenne/médiane

Salaire net moyen 2008 en France : 2069 euros/mois

Salaire net médian 2008 en France : 1655 euros/mois

Page 18: Ponts Castillo1

Statdescriptive

Introduction

SériesnumériquesVariablesdiscrètes /continuesReprésentationgraphiqueStatistiques

Deux sériesnumériquesStatistiquesRégression :IntroductionQQ-plots

Exercices et exemples

Mode Modex (pour des données discrètes) C’est la valeur la plus fréquente ausein des données.

Exercice. Calculer moyenne, médiane et mode de

s = (−2,−1, 0, 5, 8)

t = (−4, 1,−3, 5, 3, 3,−3, 6)

x = (1, 1, 2, 3, 3, 3, 3, 9, 20)

s = 2 Medx = 0 Modex = −t = 1 Medx = 2 Modex = −x = 5 Medx = 3 Modex = 3

Illustration phénomène moyenne/médiane

Salaire net moyen 2008 en France : 2069 euros/mois

Salaire net médian 2008 en France : 1655 euros/mois

Page 19: Ponts Castillo1

Statdescriptive

Introduction

SériesnumériquesVariablesdiscrètes /continuesReprésentationgraphiqueStatistiques

Deux sériesnumériquesStatistiquesRégression :IntroductionQQ-plots

Exemple

Exemple : moyenne/médiane pour un échantillon de loi de Cauchy

-20 0 20 40 60 80

-1.0

-0.5

0.0

0.5

1.0

y

z

Exemple : Loi de Cauchy

n = 50

x1, . . . , xn tirésselon une loi C(0, 1)

Moyenne = 4.54Médiane = 0.27

Page 20: Ponts Castillo1

Statdescriptive

Introduction

SériesnumériquesVariablesdiscrètes /continuesReprésentationgraphiqueStatistiques

Deux sériesnumériquesStatistiquesRégression :IntroductionQQ-plots

Exemple

Exemple : moyenne/médiane pour un échantillon de loi de Cauchy

-20 0 20 40 60 80

-1.0

-0.5

0.0

0.5

1.0

y

z

Exemple : Loi de Cauchy

n = 50

x1, . . . , xn tirésselon une loi C(0, 1)

Moyenne = 4.54Médiane = 0.27

Page 21: Ponts Castillo1

Statdescriptive

Introduction

SériesnumériquesVariablesdiscrètes /continuesReprésentationgraphiqueStatistiques

Deux sériesnumériquesStatistiquesRégression :IntroductionQQ-plots

Statistiques de dispersion de x1, . . . , xn

Variance vx

vx =1n

nXi=1

(xi − x)2

Écart-type sxsx =

√vx

Premier quartile Q1 : médiane des données < MedxTroisième quartile Q3 : médiane des données > MedxÉcart inter-quartile : Q3 − Q1Remarque : Le deuxième quartile est la médiane des données

Page 22: Ponts Castillo1

Statdescriptive

Introduction

SériesnumériquesVariablesdiscrètes /continuesReprésentationgraphiqueStatistiques

Deux sériesnumériquesStatistiquesRégression :IntroductionQQ-plots

Exercices

Exercice 1 : Moyenne et médiane d’échantillons

Exercice 2 : Lesquelles des quantités précédentes sont invariantes par permutationdes données, par translation des données d’une même quantité µ ? Quedeviennent-elles si on multiplie les données par λ > 0 ?

Exercice 3 : Distribution exactement symétriqueOn dit que x1, . . . , xn est (exactement) symétrique par rapport au réel µ si∀a > 0, la fréquence de µ+ a est égale à celle de µ− a.Calculer la moyenne et la médiane d’une série symétrique par rapport à µ.

Page 23: Ponts Castillo1

Statdescriptive

Introduction

SériesnumériquesVariablesdiscrètes /continuesReprésentationgraphiqueStatistiques

Deux sériesnumériquesStatistiquesRégression :IntroductionQQ-plots

Statistiques d’ordre et quantiles de x1, . . . , xn

Il est souvent utile de ranger les données dans l’ordre

x(1) = min1≤i≤n

xi , x(n) = max1≤i≤n

xi

Il existe une permutation σ ∈ σn telle que

xσ(1) ≤ xσ(2) ≤ · · · ≤ xσ(n)

On note x(k) = xσ(k) la statistique d’ordre de rang k.

Le quantile d’ordre α noté qxα est

x(m), avec m = bαnc

On peut redéfinir quartiles et médiane par

Q1 = qx0.25, Medx = qx

0.5, Q3 = qx0.75

Remarque : peut différer très légèrement de la définition précédente mais pas grave

Page 24: Ponts Castillo1

Statdescriptive

Introduction

SériesnumériquesVariablesdiscrètes /continuesReprésentationgraphiqueStatistiques

Deux sériesnumériquesStatistiquesRégression :IntroductionQQ-plots

Statistiques d’ordre et quantiles de x1, . . . , xn

Il est souvent utile de ranger les données dans l’ordre

x(1) = min1≤i≤n

xi , x(n) = max1≤i≤n

xi

Il existe une permutation σ ∈ σn telle que

xσ(1) ≤ xσ(2) ≤ · · · ≤ xσ(n)

On note x(k) = xσ(k) la statistique d’ordre de rang k.

Le quantile d’ordre α noté qxα est

x(m), avec m = bαnc

On peut redéfinir quartiles et médiane par

Q1 = qx0.25, Medx = qx

0.5, Q3 = qx0.75

Remarque : peut différer très légèrement de la définition précédente mais pas grave

Page 25: Ponts Castillo1

Statdescriptive

Introduction

SériesnumériquesVariablesdiscrètes /continuesReprésentationgraphiqueStatistiques

Deux sériesnumériquesStatistiquesRégression :IntroductionQQ-plots

Box plots (boîtes à moustaches)

Un résumé pratique des données x1, . . . , xn est donné parMedx , la médiane de l’échantillon

Q1,Q3, premier et troisième quartiles

A,B limites en dehors desquelles les données seront considérées commeaberrantes ("atypiques", "outliers"). Souvent,

A = min{xi : xi ≥ Q1 − 1.5(Q3 − Q1)}

B = max{xi : xi ≤ Q3 + 1.5(Q3 − Q1)

-2 -1 0 1 2

IntérêtsRésumé des données

Comparaison d’échantillons

Page 26: Ponts Castillo1

Statdescriptive

Introduction

SériesnumériquesVariablesdiscrètes /continuesReprésentationgraphiqueStatistiques

Deux sériesnumériquesStatistiquesRégression :IntroductionQQ-plots

Box plots (boîtes à moustaches)

-2 -1 0 1

Exemple 1 : loi normale

n = 50

x1, . . . , xn tirésselon une loi N (0, 1)

Remarque. Si on prend les quartiles théoriques pour une loi N (0, 1), la proba pour un tirage x1 de ne pas

être dans [A, B] est 0.7%

Page 27: Ponts Castillo1

Statdescriptive

Introduction

SériesnumériquesVariablesdiscrètes /continuesReprésentationgraphiqueStatistiques

Deux sériesnumériquesStatistiquesRégression :IntroductionQQ-plots

Box plots, exemples

-15 -10 -5 0 5 10

Exemple 1 : loi de Cauchy

n = 50

x1, . . . , xn tirésselon une loi C(0, 1)

Page 28: Ponts Castillo1

Statdescriptive

Introduction

SériesnumériquesVariablesdiscrètes /continuesReprésentationgraphiqueStatistiques

Deux sériesnumériquesStatistiquesRégression :IntroductionQQ-plots

Comparaison de deux séries numériques

On dispose de deux séries x1, . . . , xn et y1, . . . , yn qu’on veut comparerExemples

Etude du "lien" éventuel entre x et yI Taille et poids d’un même individuI Température et niveau de pollution à Paris un même jour

Savoir si x proche d’une distribution théorique donnée (ex. normale)

Page 29: Ponts Castillo1

Statdescriptive

Introduction

SériesnumériquesVariablesdiscrètes /continuesReprésentationgraphiqueStatistiques

Deux sériesnumériquesStatistiquesRégression :IntroductionQQ-plots

Covariance et corrélation

La covariance des séries x1, . . . , xn et y1, . . . , yn notée sx,y est

sx,y =1n

nXi=1

(xi − x)(yi − y)

Le coefficient de corrélation linéaire ρx,y de x1, . . . , xn et y1, . . . , yn est

ρxy =sxysx sy

Proposition

Pour toutes séries x et y ,−1 ≤ ρxy ≤ 1

Cas d’égalité : |ρxy | = 1 si et seulement si les séries sont réliées par un relationaffine : il existe a, b avec xi = ayi + b pour tout i = 1, . . . , n.

Page 30: Ponts Castillo1

Statdescriptive

Introduction

SériesnumériquesVariablesdiscrètes /continuesReprésentationgraphiqueStatistiques

Deux sériesnumériquesStatistiquesRégression :IntroductionQQ-plots

Covariance et corrélation

La covariance des séries x1, . . . , xn et y1, . . . , yn notée sx,y est

sx,y =1n

nXi=1

(xi − x)(yi − y)

Le coefficient de corrélation linéaire ρx,y de x1, . . . , xn et y1, . . . , yn est

ρxy =sxysx sy

Proposition

Pour toutes séries x et y ,−1 ≤ ρxy ≤ 1

Cas d’égalité : |ρxy | = 1 si et seulement si les séries sont réliées par un relationaffine : il existe a, b avec xi = ayi + b pour tout i = 1, . . . , n.

Page 31: Ponts Castillo1

Statdescriptive

Introduction

SériesnumériquesVariablesdiscrètes /continuesReprésentationgraphiqueStatistiques

Deux sériesnumériquesStatistiquesRégression :IntroductionQQ-plots

Covariance et corrélation

La covariance des séries x1, . . . , xn et y1, . . . , yn notée sx,y est

sx,y =1n

nXi=1

(xi − x)(yi − y)

Le coefficient de corrélation linéaire ρx,y de x1, . . . , xn et y1, . . . , yn est

ρxy =sxysx sy

Proposition

Pour toutes séries x et y ,−1 ≤ ρxy ≤ 1

Cas d’égalité : |ρxy | = 1 si et seulement si les séries sont réliées par un relationaffine : il existe a, b avec xi = ayi + b pour tout i = 1, . . . , n.

Page 32: Ponts Castillo1

Statdescriptive

Introduction

SériesnumériquesVariablesdiscrètes /continuesReprésentationgraphiqueStatistiques

Deux sériesnumériquesStatistiquesRégression :IntroductionQQ-plots

Covariance et corrélation

Exercice : Démontrer la Proposition

Page 33: Ponts Castillo1

Statdescriptive

Introduction

SériesnumériquesVariablesdiscrètes /continuesReprésentationgraphiqueStatistiques

Deux sériesnumériquesStatistiquesRégression :IntroductionQQ-plots

Nuage de points

Le nuage de points associé aux séries x1, . . . , xn et y1, . . . , yn est la représentationdes points de coordonnées (xi , yi ) dans le plan.

Parfois, on effectue un transformation préalable des donnéesExemple : nuage de points (log(xi ), log(yi ))

Page 34: Ponts Castillo1

Statdescriptive

Introduction

SériesnumériquesVariablesdiscrètes /continuesReprésentationgraphiqueStatistiques

Deux sériesnumériquesStatistiquesRégression :IntroductionQQ-plots

Droite de régression

Pour un nuage de points (xi , yi )i=1,...,n, notons

Mi le point de coordonnées (xi , yi )

∆ la droite d’équation y = ax + b

M′i le point de coordonnées (xi , axi + b)(projection verticale de Mi sur la droite ∆)

Droite de régression de Y sur X

C’est la droite qui minimise la quantiténX

i=1

d(Mi ,M′i )2,

avec d(M,N) distance euclidienne entre les points M et N.

Page 35: Ponts Castillo1

Statdescriptive

Introduction

SériesnumériquesVariablesdiscrètes /continuesReprésentationgraphiqueStatistiques

Deux sériesnumériquesStatistiquesRégression :IntroductionQQ-plots

Droite de régression, exemple

-4 -2 0 2 4

-50

5

x

y

Page 36: Ponts Castillo1

Statdescriptive

Introduction

SériesnumériquesVariablesdiscrètes /continuesReprésentationgraphiqueStatistiques

Deux sériesnumériquesStatistiquesRégression :IntroductionQQ-plots

Droite de régression, exemple

-4 -2 0 2 4

-50

5

x

y

Page 37: Ponts Castillo1

Statdescriptive

Introduction

SériesnumériquesVariablesdiscrètes /continuesReprésentationgraphiqueStatistiques

Deux sériesnumériquesStatistiquesRégression :IntroductionQQ-plots

Droite de régression

Proposition

L’équation de la droite de régression de Y sur X est donnée par y = ax + b, avec

a =sxys2x, b = y − ax

Exercice1 Interpréter géométriquement le coefficient b2 Démontrer la proposition3 Les droites de régression de Y sur X et de X sur Y coincident-elles ?

Page 38: Ponts Castillo1

Statdescriptive

Introduction

SériesnumériquesVariablesdiscrètes /continuesReprésentationgraphiqueStatistiques

Deux sériesnumériquesStatistiquesRégression :IntroductionQQ-plots

Droite de régression, exemple

-4 -2 0 2 4

-50

5

x

y

Page 39: Ponts Castillo1

Statdescriptive

Introduction

SériesnumériquesVariablesdiscrètes /continuesReprésentationgraphiqueStatistiques

Deux sériesnumériquesStatistiquesRégression :IntroductionQQ-plots

Droite de régression, exemple

-4 -2 0 2 4

-50

5

x

y

Page 40: Ponts Castillo1

Statdescriptive

Introduction

SériesnumériquesVariablesdiscrètes /continuesReprésentationgraphiqueStatistiques

Deux sériesnumériquesStatistiquesRégression :IntroductionQQ-plots

QQ-plots

Premier cas : On cherche à répondre à la question"Les séries x1, . . . , xn et y1, . . . , yn suivent-elles la même ‘distribution’ ?"

Le QQ-plot est dans ce cas le nuage de points (qyj , q

xj ), où les qy

j , qxj sont une

suite de quantiles de y et x .

Deuxième cas : On cherche à répondre à la question"La série observée x1, . . . , xn se représente-t-elle bien par une certaine loithéorique ?"

Le QQ-plot est dans ce cas le nuage de points (q∗j , qxj ), où les q∗j , q

xj sont une

suite de quantiles resp. de la loi théorique et des données x .

Page 41: Ponts Castillo1

Statdescriptive

Introduction

SériesnumériquesVariablesdiscrètes /continuesReprésentationgraphiqueStatistiques

Deux sériesnumériquesStatistiquesRégression :IntroductionQQ-plots

QQ-plots, exemple, cas 1

Données précédentes "droite de régression"y = ax + b + 2ε, ε ∼ N (0, 1)

-4 -2 0 2 4

-50

5

x

y

Page 42: Ponts Castillo1

Statdescriptive

Introduction

SériesnumériquesVariablesdiscrètes /continuesReprésentationgraphiqueStatistiques

Deux sériesnumériquesStatistiquesRégression :IntroductionQQ-plots

QQ-plots, exemple, cas 1

Données précédentes "droite de régression"y = ax + b + 2ε, ε ∼ N (0, 1)

-4 -2 0 2 4

-50

5

x

y

Page 43: Ponts Castillo1

Statdescriptive

Introduction

SériesnumériquesVariablesdiscrètes /continuesReprésentationgraphiqueStatistiques

Deux sériesnumériquesStatistiquesRégression :IntroductionQQ-plots

QQ-plots, exemple, cas 2

-2 -1 0 1 2

-10

12

34

Normal Q-Q Plot

Theoretical Quantiles

Sam

ple

Qua

ntile

s

Exemple : loi normale

Échantillon x1, . . . , xnde loi N (0, 1)

QQ-plotComparaison à la loithéorique N (0, 1)

Page 44: Ponts Castillo1

Statdescriptive

Introduction

SériesnumériquesVariablesdiscrètes /continuesReprésentationgraphiqueStatistiques

Deux sériesnumériquesStatistiquesRégression :IntroductionQQ-plots

Un dernier exercice

Exercice : Répartition du PIB/habitant

Faire l’Exercice 1.1 du polycopié