Introduction à la Statistique et à...

38
Introduction à la Statistique et à l’Econométrie Marco Cuturi

Transcript of Introduction à la Statistique et à...

Page 1: Introduction à la Statistique et à l’Econométriemarcocuturi.net/Teaching/ENSAE/2017/ISE/ISE1_.pdf · Econométrie Etymologie ... Pratique • Me contacter: • ... • 1ère

Introduction à la Statistique et à l’Econométrie

Marco Cuturi

Page 2: Introduction à la Statistique et à l’Econométriemarcocuturi.net/Teaching/ENSAE/2017/ISE/ISE1_.pdf · Econométrie Etymologie ... Pratique • Me contacter: • ... • 1ère

Statistique

➡ EtymologieDe l’allemand «Statistik», proposé par l’économiste Gottfried Achenwall en 1785, dérivé de l’italien statista («homme d’état») : la science qui a pour but de faire connaître l’étendue, la population, les ressources agricoles et industrielles d’un état. !

➡ Possible définitionEtude de la collecte, de l’analyse, de l’interprétation, de la présentation et de l’organisation des données.

2

Page 3: Introduction à la Statistique et à l’Econométriemarcocuturi.net/Teaching/ENSAE/2017/ISE/ISE1_.pdf · Econométrie Etymologie ... Pratique • Me contacter: • ... • 1ère

Statistique

➡ EtymologieDe l’allemand «Statistik», proposé par l’économiste Gottfried Achenwall en 1785, dérivé de l’italien statista («homme d’état») : la science qui a pour but de faire connaître l’étendue, la population, les ressources agricoles et industrielles d’un état. !

➡ Possible définitionEtude de la collecte, de l’analyse, de l’interprétation, de la présentation et de l’organisation des données.

2

Page 4: Introduction à la Statistique et à l’Econométriemarcocuturi.net/Teaching/ENSAE/2017/ISE/ISE1_.pdf · Econométrie Etymologie ... Pratique • Me contacter: • ... • 1ère

Statistique

➡ EtymologieDe l’allemand «Statistik», proposé par l’économiste Gottfried Achenwall en 1785, dérivé de l’italien statista («homme d’état») : la science qui a pour but de faire connaître l’étendue, la population, les ressources agricoles et industrielles d’un état. !

➡ Possible définitionEtude de la collecte, de l’analyse, de l’interprétation, de la présentation et de l’organisation des données.

2

Page 5: Introduction à la Statistique et à l’Econométriemarcocuturi.net/Teaching/ENSAE/2017/ISE/ISE1_.pdf · Econométrie Etymologie ... Pratique • Me contacter: • ... • 1ère

Statistique

➡ EtymologieDe l’allemand «Statistik», proposé par l’économiste Gottfried Achenwall en 1785, dérivé de l’italien statista («homme d’état») : la science qui a pour but de faire connaître l’étendue, la population, les ressources agricoles et industrielles d’un état. !

➡ Possible définitionEtude de la collecte, de l’analyse, de l’interprétation, de la présentation et de l’organisation des données.

2

Page 6: Introduction à la Statistique et à l’Econométriemarcocuturi.net/Teaching/ENSAE/2017/ISE/ISE1_.pdf · Econométrie Etymologie ... Pratique • Me contacter: • ... • 1ère

Les 3 Temps de la Statistique

3

1. Collecte des données • qualité de la mesure, renouvellement, ce qui est gardé et ce qui

est jeté, comment gérer les volumes de données, poser les questions, etc… “plan d’expérience” !!

2. Description des données (visualisation, réduction) • comment décrire des données complexes, de dimension élevée en

utilisant des visualisation assez simples (graphes, diagrammes)?

«To consult a statistician after an experiment is finished is often merely to ask him to conduct a post-mortem examination. He can perhaps say what the experiment died of.» (R.A. Fisher)

«This is my favorite part about analytics: Taking boring flat data and bringing it to life through visualization.» (J. Tuckey, l’inventeur de cet aspect des stats!)

Page 7: Introduction à la Statistique et à l’Econométriemarcocuturi.net/Teaching/ENSAE/2017/ISE/ISE1_.pdf · Econométrie Etymologie ... Pratique • Me contacter: • ... • 1ère

Les 3 Temps de la Statistique

4

3. Inférence, aide à la décision, prédiction

«Le véritable problème fondamental de la statistique appliquée est le suivant: jusqu'à quel point les données recueillies sur un échantillon - et les paramètres calculés à partir de ces données - permettent-elles d'estimer les caractéristiques de la population d'origine ? (Lucien Lison)

Page 8: Introduction à la Statistique et à l’Econométriemarcocuturi.net/Teaching/ENSAE/2017/ISE/ISE1_.pdf · Econométrie Etymologie ... Pratique • Me contacter: • ... • 1ère

Statistique

5

Page 9: Introduction à la Statistique et à l’Econométriemarcocuturi.net/Teaching/ENSAE/2017/ISE/ISE1_.pdf · Econométrie Etymologie ... Pratique • Me contacter: • ... • 1ère

Statistique

5

Page 10: Introduction à la Statistique et à l’Econométriemarcocuturi.net/Teaching/ENSAE/2017/ISE/ISE1_.pdf · Econométrie Etymologie ... Pratique • Me contacter: • ... • 1ère

Machine learning? Data mining? Data science?

Statistique vs. “big data”

6

Page 11: Introduction à la Statistique et à l’Econométriemarcocuturi.net/Teaching/ENSAE/2017/ISE/ISE1_.pdf · Econométrie Etymologie ... Pratique • Me contacter: • ... • 1ère

Machine learning? Data mining? Data science?

Statistique vs. “big data”

6

Page 12: Introduction à la Statistique et à l’Econométriemarcocuturi.net/Teaching/ENSAE/2017/ISE/ISE1_.pdf · Econométrie Etymologie ... Pratique • Me contacter: • ... • 1ère

Statistique et Mathématiques

7

Page 13: Introduction à la Statistique et à l’Econométriemarcocuturi.net/Teaching/ENSAE/2017/ISE/ISE1_.pdf · Econométrie Etymologie ... Pratique • Me contacter: • ... • 1ère

Econométrie

➡ EtymologieProposé par l’économiste norvégien Ragnar Frisch en 1926, plus largement utilisé après

• “Econometrics society” créée (1930) • “Cowles commission” aux USA (1932) !

➡ Définition (parmi tant d’autres): Branche de l’économie qui applique des méthodes statistiques à l’étude empirique des théories économiques.

8

Page 14: Introduction à la Statistique et à l’Econométriemarcocuturi.net/Teaching/ENSAE/2017/ISE/ISE1_.pdf · Econométrie Etymologie ... Pratique • Me contacter: • ... • 1ère

Points communs et différences

9

• Toutes 2 sont des disciplines empiriques. • contrairement à la théorie des probabilités ou à l’économie, leur

raison d’être sont les données.

• Elles ont besoin des mathématiques. • Probabilités (bien sûr!) mais aussi: • Optimisation, analyse numérique, géométrie algébrique,

combinatoire,

• Tropisme de l’économétrie pour les • séries temporelles • mélange de types de variables (continues, nominales) • données tronquées, censurées, manquantes. • données généralement de plus faible dimension

• Les statistiques ont une coloration plus ingénieur.

Page 15: Introduction à la Statistique et à l’Econométriemarcocuturi.net/Teaching/ENSAE/2017/ISE/ISE1_.pdf · Econométrie Etymologie ... Pratique • Me contacter: • ... • 1ère

Statistiques vs. Probabilités

10

• Statistiques • j’ai tiré n billes d’un pot. A

partir de cette information, que puis-je dire des billes contenues dans le pot?

!

• Probabilités • je sais tout des billes qui sont à

l’intérieur du pot. Que risque-t-il de se passer si j’en tire un nombre n?

Page 16: Introduction à la Statistique et à l’Econométriemarcocuturi.net/Teaching/ENSAE/2017/ISE/ISE1_.pdf · Econométrie Etymologie ... Pratique • Me contacter: • ... • 1ère

Présentations…

•ENSAE (’01) / MVA / thèse ENSMP / Japon & US • post-doc puis hedge-fund au Japon (’05~’08) • Lecturer @ Princeton University (‘09~’10) • Assoc. Prof. @ Kyoto University (’10~’16) • Prof @ ENSAE depuis Septembre ’16.

•Actif en machine learning, coloré stats/optimisation • Actif et impliqué dans les conférences NIPS & ICML.

•Centres d’intérêts • Transport optimal, méthodes à noyaux, séries temporelles

11

Page 17: Introduction à la Statistique et à l’Econométriemarcocuturi.net/Teaching/ENSAE/2017/ISE/ISE1_.pdf · Econométrie Etymologie ... Pratique • Me contacter: • ... • 1ère

Pratique• Me contacter:

• Bureau: E02, entresol. • email: [email protected] • page web: http://marcocuturi.net

• Organisation du cours • 10 séances de 2h de cours. • 4 séances de 2h sur machine (TP), logiciel R. • 6 séances de 2h d’exercices (TD). • 1 examen final (2h).

• Polycopié distribué dans 2 séances

• 1ère édition de ce cours: commentaires bienvenus.

• Questions?

12

Page 18: Introduction à la Statistique et à l’Econométriemarcocuturi.net/Teaching/ENSAE/2017/ISE/ISE1_.pdf · Econométrie Etymologie ... Pratique • Me contacter: • ... • 1ère

Réponse à question: Définitions• Machine learning et statistiques

!!!!!

• Qui a besoin de faire une prédiction? un décideur (e.g. l’état INSEE) qui a besoin de l’expliquer à la société ou a son patient (médecin), ou un moteur de recherche qui veut maximiser une fonction? le ML s’intéresse plus à ces questions sans (ou avec moins) de contraintes d’explicabilité

• Plus proche de l’étape 3, inférentielle. !

• Data mining • “the practice of examining large pre-existing databases in order to generate new

information”

• Data science • Mot fourre tout.

13

«Machine learning is the subfield of computer science that gives computers the ability to learn without being explicitly programmed.» (A.Samuel, 1959)

Page 19: Introduction à la Statistique et à l’Econométriemarcocuturi.net/Teaching/ENSAE/2017/ISE/ISE1_.pdf · Econométrie Etymologie ... Pratique • Me contacter: • ... • 1ère

Survol du cours

14

1. Rappels de statistique descriptive

2. Analyse des données multivariées

3. Rappel des bases de la statistique paramétrique

4. Régression linéaire multiple

5. Tests d’adéquation

p✓

Page 20: Introduction à la Statistique et à l’Econométriemarcocuturi.net/Teaching/ENSAE/2017/ISE/ISE1_.pdf · Econométrie Etymologie ... Pratique • Me contacter: • ... • 1ère

1. Rappels de Statistique Descriptive

But: comment décrire des données en utilisant des visualisation assez simples (graphes, diagrammes)?

A. Histogrammes B. Statistiques d’un jeu de données C. Boxplots D. Covariance et corrélation

Page 21: Introduction à la Statistique et à l’Econométriemarcocuturi.net/Teaching/ENSAE/2017/ISE/ISE1_.pdf · Econométrie Etymologie ... Pratique • Me contacter: • ... • 1ère

16

• La Statistique sert à décrire tout type de données • molécules, réseaux sociaux, génome, déplacements etc…

• Nous ne considèrerons ici que des données simples. • donnée simple = {types de données proposées par défaut pour programmer}

• Hiérarchie des observations simples: • Nominales: observations qui appartiennent à des catégories sans

ordre ou hiérarchie, ex: couleur de cheveu, département de naissance, variable binaire (H/F).

• Ordinales: nominales + notion d’ordre (“pas satisfait, assez satisfait, satisfait, très satisfait”)

• Discrètes: chiffres, pris dans un ensemble fini (membres d’un ménage, étages d’un immeuble, couleurs dans une image digitale)

• Continues: données numériques pouvant prendre des valeurs arbitraires dans un ensemble continu. Seule la précision de la mesure est un facteur limitant dans la forme des valeurs prises.

Données

Page 22: Introduction à la Statistique et à l’Econométriemarcocuturi.net/Teaching/ENSAE/2017/ISE/ISE1_.pdf · Econométrie Etymologie ... Pratique • Me contacter: • ... • 1ère

16

• La Statistique sert à décrire tout type de données • molécules, réseaux sociaux, génome, déplacements etc…

• Nous ne considèrerons ici que des données simples. • donnée simple = {types de données proposées par défaut pour programmer}

• Hiérarchie des observations simples: • Nominales: observations qui appartiennent à des catégories sans

ordre ou hiérarchie, ex: couleur de cheveu, département de naissance, variable binaire (H/F).

• Ordinales: nominales + notion d’ordre (“pas satisfait, assez satisfait, satisfait, très satisfait”)

• Discrètes: chiffres, pris dans un ensemble fini (membres d’un ménage, étages d’un immeuble, couleurs dans une image digitale)

• Continues: données numériques pouvant prendre des valeurs arbitraires dans un ensemble continu. Seule la précision de la mesure est un facteur limitant dans la forme des valeurs prises.

Données

Page 23: Introduction à la Statistique et à l’Econométriemarcocuturi.net/Teaching/ENSAE/2017/ISE/ISE1_.pdf · Econométrie Etymologie ... Pratique • Me contacter: • ... • 1ère

17

• Les données !

• chaque valeur représente le résultat de la même expérience répétée n fois. ex: sondage d’opinion, expérience scientifique

• On dit que ces valeurs sont celles d’une variable (statistique) observées sur n individus.

• Attention à ne pas confondre les symboles mathématiques:

• Statistiques = “propriétés fréquentielles” des données • L’analyse doit être la même sous toute transformation des

données qui ne change pas leur fréquence, e.g. permutations

Données (x1, x2, . . . , xn) 2 Rn

(x1, x2, . . . , xn) 6= {x1, x2, . . . , xn}

(x1, x2, . . . , xn) ⇠ (x�1 , x�2 , . . . , x�n)

Page 24: Introduction à la Statistique et à l’Econométriemarcocuturi.net/Teaching/ENSAE/2017/ISE/ISE1_.pdf · Econométrie Etymologie ... Pratique • Me contacter: • ... • 1ère

18

!!

• Une variable statistique est dite discrète si le nombre de valeurs prises par cette variable est petit devant n. • Ex : On lance 100 fois un dé à 6 faces • nombre d’observations : 100 ; nombre de valeurs prises : 6.

Cette variable est donc discrète.

• Une variable qui n’est pas discrète est continue • Ex : Dans le but d’étudier les taux de contamination des sols par la substance

toxique PCB (biphenil polychlorinaté), 26 échantillons de sols ont été prélevés. Le taux de PCB contenus dans ces échantillons (mesurés en 10−4 g par kg de sol) sont :

Données (x1, x2, . . . , xn) 2 Rn

Cette variable est donc continue.

Page 25: Introduction à la Statistique et à l’Econométriemarcocuturi.net/Teaching/ENSAE/2017/ISE/ISE1_.pdf · Econométrie Etymologie ... Pratique • Me contacter: • ... • 1ère

19

!!

• l’histogramme est une fonction à variable réelle:

(x1, x2, . . . , xn) 2 Rn

8>>>>>><

>>>>>>:

h(x) =nX

i=1

1(xi = x) 2 N (e↵ectifs, frequence),

h(x) =1

n

nX

i=1

1(xi = x) 2 [0, 1] (frequence relative).

Histogramme (cas discret)

Page 26: Introduction à la Statistique et à l’Econométriemarcocuturi.net/Teaching/ENSAE/2017/ISE/ISE1_.pdf · Econométrie Etymologie ... Pratique • Me contacter: • ... • 1ère

20

Histogramme (cas discret) Ex : On lance 100 fois un dé à 6 faces

(5, 3, 5, 6, 1, 3, 2, . . . , 6) 2 {1, . . . , 6}100

Page 27: Introduction à la Statistique et à l’Econométriemarcocuturi.net/Teaching/ENSAE/2017/ISE/ISE1_.pdf · Econométrie Etymologie ... Pratique • Me contacter: • ... • 1ère

21

Ex : On observe les couleurs d’une image

(x1, . . . , xn) 2 {1, . . . , 2563}200⇥300

Histogramme (cas discret)

Page 28: Introduction à la Statistique et à l’Econométriemarcocuturi.net/Teaching/ENSAE/2017/ISE/ISE1_.pdf · Econométrie Etymologie ... Pratique • Me contacter: • ... • 1ère

22

Histogramme (généralisations)

Nuages de mots

d

Page 29: Introduction à la Statistique et à l’Econométriemarcocuturi.net/Teaching/ENSAE/2017/ISE/ISE1_.pdf · Econométrie Etymologie ... Pratique • Me contacter: • ... • 1ère

23

!!

• L’histogramme nécessite maintenant une partition

!

!

• On définit alors le nombre d’observation par intervalle,

!

!

• pour définir une fonction constante par morceaux,

Histogramme (continu) (x1, x2, . . . , xn) 2 Rn

I0, I1, . . . , Ik ⇢ R,k[

i=1

Ii = R, Ii \ Ij = ;

nj =nX

i=1

1(xi 2 Ij)

h(x) =

nj

n|Ij |, ou 9!j|x 2 Ij

Page 30: Introduction à la Statistique et à l’Econométriemarcocuturi.net/Teaching/ENSAE/2017/ISE/ISE1_.pdf · Econométrie Etymologie ... Pratique • Me contacter: • ... • 1ère

24

!!

• La partition est déterminante, souvent uniforme

Histogramme (continu) (x1, x2, . . . , xn) 2 Rn

Ij = [aj, a(j + 1)[, a > 0, j 2 Z

Arnak Dalalyan

1

8

Histogramme d’une série numériqueVariable continue

Pour une variable continue, on commence par choisir unepartition de R en un nombre fini d’intervalles : I0, I1, . . . , Ik .

On dénombre ensuite le nombre d’observations dans chacun des

intervalles : n

j

=nX

i=1

1l(xi

2 I

j

).

On définit l’histogramme h(x) comme une fonction constante parmorceaux donnée par :

h(x) =n

j

n|Ij

| , 8x 2 I

j

.

Exemple : Dans le but d’étudier lestaux de contamination des sols par lasubstance toxique PCB (biphenil po-lychlorinaté), 26 échantillons de solsont été prélevés. Le taux de PCBcontenus dans ces échantillons (me-surés en 10�4 g par kg de sol) sont :

3,5 1 . . . 1.5 9,79 15 . . . 16 22

Histogram of a

a

Density

0 20 40 60 80 100

0.00

0.01

0.02

0.03

0.04

0.05

Arnak Dalalyan

1

8

Histogramme d’une série numériqueVariable continue

Pour une variable continue, on commence par choisir unepartition de R en un nombre fini d’intervalles : I0, I1, . . . , Ik .

On dénombre ensuite le nombre d’observations dans chacun des

intervalles : n

j

=nX

i=1

1l(xi

2 I

j

).

On définit l’histogramme h(x) comme une fonction constante parmorceaux donnée par :

h(x) =n

j

n|Ij

| , 8x 2 I

j

.

Exemple : Dans le but d’étudier lestaux de contamination des sols par lasubstance toxique PCB (biphenil po-lychlorinaté), 26 échantillons de solsont été prélevés. Le taux de PCBcontenus dans ces échantillons (me-surés en 10�4 g par kg de sol) sont :

3,5 1 . . . 1.5 9,79 15 . . . 16 22

Histogram of a

a

Density

0 20 40 60 80 100 120

0.00

0.01

0.02

0.03

0.04

0.05

Ex : toxicité du sol

Page 31: Introduction à la Statistique et à l’Econométriemarcocuturi.net/Teaching/ENSAE/2017/ISE/ISE1_.pdf · Econométrie Etymologie ... Pratique • Me contacter: • ... • 1ère

25

!

• Représentation alternative, a.k.a. histogramme cumulé.

!

!

!

•Même définition dans les cas discrets & continus.

Fonction de Répartition

Fn(x) =1

n

nX

i=1

1(xix)

Arnak Dalalyan

1

9

Fonction de répartition empirique

Une représentation alternative des fréquences des valeurscontenues dans une série numérique est la fonction derépartition, appelée également histogramme cumulé.

Pour un x 2 R, la valeur en x de la fonction de répartition d’unesérie numérique x1, . . . , xn

est la proportion des éléments de la

série inférieurs ou égaux à x : F

n

(x) =1n

nX

i=1

1l(xi

x)

L’avantage de la fonction de répartition, comparé àl’histogramme, est que sa définition est identique dans le casd’une variable discrète et dans le cas d’une variable continue.

Dans les deux exemples précédents :

0 1 2 3 4 5 6 7

0.0

0.2

0.4

0.6

0.8

1.0

fonction de réparition empirique

Fn(x)

0 20 40 60 80 100 120

0.0

0.2

0.4

0.6

0.8

1.0

fonction de réparition empirique

Fn(x)

dés toxicité

Page 32: Introduction à la Statistique et à l’Econométriemarcocuturi.net/Teaching/ENSAE/2017/ISE/ISE1_.pdf · Econométrie Etymologie ... Pratique • Me contacter: • ... • 1ère

26

Fonction de RépartitionArnak Dalalyan

1

10

Meilleure vue des FdR

0 1 2 3 4 5 6 7

0.0

0.2

0.4

0.6

0.8

1.0

fn de réparition empirique

Fn(x)

0 20 40 60 80 100 120

0.0

0.2

0.4

0.6

0.8

1.0

fn de réparition empirique

Fn(x)

●●●●●●

●●●●●●

●●●●

●●●

●●

●●

Histogram of x

x

Density

1 2 3 4 5 6

0.00

0.10

0.20

Histogram of a

a

Density

0 20 40 60 80 100

0.00

0.02

0.04

dés toxicité

Page 33: Introduction à la Statistique et à l’Econométriemarcocuturi.net/Teaching/ENSAE/2017/ISE/ISE1_.pdf · Econométrie Etymologie ... Pratique • Me contacter: • ... • 1ère

27

Diagramme Stem & Leaf

Page 34: Introduction à la Statistique et à l’Econométriemarcocuturi.net/Teaching/ENSAE/2017/ISE/ISE1_.pdf · Econométrie Etymologie ... Pratique • Me contacter: • ... • 1ère

27

Diagramme Stem & Leaf

Page 35: Introduction à la Statistique et à l’Econométriemarcocuturi.net/Teaching/ENSAE/2017/ISE/ISE1_.pdf · Econométrie Etymologie ... Pratique • Me contacter: • ... • 1ère

28

statistiques!!

• statistique: fonction qui associe un (ou des) réels aux données.

!!!!!

• Ex: première et dernière statistiques d’ordre (min et max).

S(x1, . . . , xn) 2 Rp

statistique : donnees 7! reels

(x1, . . . , xn) 2 Rn 7!

2

4min

i=1,...,nxi

max

i=1,...,nxi

3

5

Page 36: Introduction à la Statistique et à l’Econométriemarcocuturi.net/Teaching/ENSAE/2017/ISE/ISE1_.pdf · Econométrie Etymologie ... Pratique • Me contacter: • ... • 1ère

29

statistiques de tendance centrale• Moyenne

!

!

• Médiane • Plus difficile à mettre en formule. La médiane du jeu de données est

le nombre tel que la moitié des valeurs sont plus grandes que celle-ci, et l’autre moitié des valeurs sont plus petites.

!

• Mode (variable discrètes uniquement) • Valeur apparaissant le plus fréquemment dans le jeu de

données(x1, . . . , xn

) 2 Rn 7! argmax

x

h(x)

(x1, . . . , xn) 2 Rn 7! x =1

n

nX

i=1

xi 2 R

Page 37: Introduction à la Statistique et à l’Econométriemarcocuturi.net/Teaching/ENSAE/2017/ISE/ISE1_.pdf · Econométrie Etymologie ... Pratique • Me contacter: • ... • 1ère

30

Ex : poids en kgs (arrondis) de bagages pré-enregistrés dans un avion

• Moyenne

!

• Médiane (après avoir réordonné toutes les valeurs) !

!

• Mode • 20: c’est le nombre qui apparaît le plus fréquemment.

statistiques de tendance centrale

Page 38: Introduction à la Statistique et à l’Econométriemarcocuturi.net/Teaching/ENSAE/2017/ISE/ISE1_.pdf · Econométrie Etymologie ... Pratique • Me contacter: • ... • 1ère

31

•Remarques évidentes mais fondamentale:

!• les statistiques sont un

résumé des données. !

• en général, et surtout si p est petit devant n, elles impliquent une perte d’information !

• Ex: ces 2 histogrammes ont la même moyenne.

statistiques de tendance centrale