Statistique : Statistiques descriptives - fun-mooc.fr©lécom_FBD... · Plan du cours Introduction...

21

Transcript of Statistique : Statistiques descriptives - fun-mooc.fr©lécom_FBD... · Plan du cours Introduction...

Statistique : Statistiques

descriptives

Introduction générale

Notion de statistique

Résumés basiques d'un jeu de données

Corrélation

Joseph Salmon

Statistique : Statistiques descriptives

Joseph Salmon

Septembre 2014

Fondamentaux pour le Big Data c© Télécom ParisTech 1/19

Statistique : Statistiques

descriptives

Introduction générale

Notion de statistique

Résumés basiques d'un jeu de données

Corrélation

Joseph Salmon

Plan du cours

Introduction générale

Notion de statistiqueRésumés basiques d'un jeu de donnéesCorrélation

Fondamentaux pour le Big Data c© Télécom ParisTech 2/19

Statistique : Statistiques

descriptives

Introduction générale

Notion de statistique

Résumés basiques d'un jeu de données

Corrélation

Joseph Salmon

Statistique

I On observe des réalisations (y1, . . . , yn) de variablesaléatoires inconnues (éventuellement vectorielles)

I On suppose ici que les variables sont indépendantes etidentiquement distribuées (i.i.d.) selon une loi PY

But de l'estimationComment apprendre certaines caractéristiques de PY à partir de

(y1, . . . , yn) ?

Souvent : on se prépare à observer yn+1.

Cas de la prédiction

Que peut-on attendre de yn+1 ? (en moyenne, ou avec unecertaine probabilité ?)

Fondamentaux pour le Big Data c© Télécom ParisTech 3/19

Statistique : Statistiques

descriptives

Introduction générale

Notion de statistique

Résumés basiques d'un jeu de données

Corrélation

Joseph Salmon

Vocabulaire

I Observations y = y1:n = (y1, . . . , yn) : échantillon de taille n.

I Grandeurs théoriques : dépendant de la loi PY inconnue

Exemple: l'espérance de la variable y sous la loi PY .

I Grandeurs empiriques : calculées à partir des observations yi .Exemple: yn = 1

n

∑ni=1

yi est la moyenne empirique

I Objectif général : apprendre les caractéristiques théoriques dePY à partir de résumés empiriques.

Fondamentaux pour le Big Data c© Télécom ParisTech 4/19

Statistique : Statistiques

descriptives

Introduction générale

Notion de statistique

Résumés basiques d'un jeu de données

Corrélation

Joseph Salmon

Statistique exploratoire et descriptive

I Première analyse sans hypothèse sur la loi PY .

I Analyse qualitative du jeu de données /échantillon

Dé�nition : Statistique

Une statistique est une fonction des observations (y1, . . . , yn).

Fondamentaux pour le Big Data c© Télécom ParisTech 5/19

Statistique : Statistiques

descriptives

Introduction générale

Notion de statistique

Résumés basiques d'un jeu de données

Corrélation

Joseph Salmon

Moyenne

Dé�ntion : Moyenne

yn =1

n

n∑i=1

yi

Notons 1n le vecteur (1, . . . , 1) ∈ Rn. La moyenne est (à facteur1/n près) un produit scalaire dans Rn :

yn = 〈y, 1n/n〉

cf. McKinney (2012) pour les statistiques avec python

Fondamentaux pour le Big Data c© Télécom ParisTech 6/19

Statistique : Statistiques

descriptives

Introduction générale

Notion de statistique

Résumés basiques d'un jeu de données

Corrélation

Joseph Salmon

Médiane empirique

On ordonne les yi : y(1) ≤ y(2) ≤ . . . ≤ y(n)

Dé�ntion : Médiane (NON-UNIQUE !)

Medn(y) =

{ y(b n2 c)+y(b n2 c+1)2

Si n est pair

y( n+12

) Si n est impair

Fondamentaux pour le Big Data c© Télécom ParisTech 7/19

Statistique : Statistiques

descriptives

Introduction générale

Notion de statistique

Résumés basiques d'un jeu de données

Corrélation

Joseph Salmon

Moyenne vs médiane

I Les deux statistiques ne coïncident pas

I Une médiane est plus robuste aux points atypiques (enanglais : outliers)

Fondamentaux pour le Big Data c© Télécom ParisTech 8/19

Statistique : Statistiques

descriptives

Introduction générale

Notion de statistique

Résumés basiques d'un jeu de données

Corrélation

Joseph Salmon

Dispersion

Variance empirique

varn(y) =1

n

n∑i=1

(yi − yn)2 =1

n‖y − yn1n‖

2

Écart-type empirique

sn(y) =√varn(y) ( =

1√n‖y − yn1n‖ )

Fondamentaux pour le Big Data c© Télécom ParisTech 9/19

Statistique : Statistiques

descriptives

Introduction générale

Notion de statistique

Résumés basiques d'un jeu de données

Corrélation

Joseph Salmon

Dispersion

Mean Absolute deviationDéviation médiane absolue :

MADn(y) = Med (|Med(y)− y|) ,

Fondamentaux pour le Big Data c© Télécom ParisTech 10/19

Statistique : Statistiques

descriptives

Introduction générale

Notion de statistique

Résumés basiques d'un jeu de données

Corrélation

Joseph Salmon

Histogramme

Répartition des données dans des � cases �L'aire de chaque case est proportionnelle à la fraction desdonnées qui � tombent � dans la case.

L'histogramme est une approximation de la densité de y

Fondamentaux pour le Big Data c© Télécom ParisTech 11/19

Statistique : Statistiques

descriptives

Introduction générale

Notion de statistique

Résumés basiques d'un jeu de données

Corrélation

Joseph Salmon

Fonction de répartition empirique

I Rappel : Fonction de répartition : F (u) = PY (−∞, u]

I Version empirique : proportion des données en-dessous de u

Fn(u) =1

n

n∑i=1

1{yi≤u}

Fondamentaux pour le Big Data c© Télécom ParisTech 12/19

Statistique : Statistiques

descriptives

Introduction générale

Notion de statistique

Résumés basiques d'un jeu de données

Corrélation

Joseph Salmon

Quantiles empiriques

I Inverse de la fonction de répartition empirique.

I Soit due le nombre entier tel que due − 1 < u ≤ due.

Quantiles empiriques

quantile d'ordre p = y(dnpe) = F←n (p) (p ∈ [0, 1])

Fondamentaux pour le Big Data c© Télécom ParisTech 13/19

Statistique : Statistiques

descriptives

Introduction générale

Notion de statistique

Résumés basiques d'un jeu de données

Corrélation

Joseph Salmon

Covariance et corrélation empirique

Covariance empirique

Pour deux échantillons x1:n et y1:n de moyennes et variancesempiriques x = xn, y = yn et varn(x), varn(y) :

covn(x , y) =1

n

n∑i=1

(xi − xn)(yi − yn) c'est-à-dire

covn(x , y) =1

n〈x1:n − xn1n, y1:n − yn1n〉

Corrélation empirique

ρ = corrn(x , y) =covn(x , y)√

varn(x)√

varn(y), c'est-à-dire

ρ =〈x1:n − xn1n, y1:n − yn1n〉‖x − xn‖ ‖y − yn‖

= cos(x1:n − xn1n, y1:n − yn1n)

Fondamentaux pour le Big Data c© Télécom ParisTech 14/19

Statistique : Statistiques

descriptives

Introduction générale

Notion de statistique

Résumés basiques d'un jeu de données

Corrélation

Joseph Salmon

Interprétation pour n = 3 et ‖x‖ = ‖y‖ = 1

Fondamentaux pour le Big Data c© Télécom ParisTech 15/19

Statistique : Statistiques

descriptives

Introduction générale

Notion de statistique

Résumés basiques d'un jeu de données

Corrélation

Joseph Salmon

Exemples de corrélations

Fondamentaux pour le Big Data c© Télécom ParisTech 16/19

Statistique : Statistiques

descriptives

Introduction générale

Notion de statistique

Résumés basiques d'un jeu de données

Corrélation

Joseph Salmon

Exemples de corrélations proches de zéros

Fondamentaux pour le Big Data c© Télécom ParisTech 17/19

Statistique : Statistiques

descriptives

Introduction générale

Notion de statistique

Résumés basiques d'un jeu de données

Corrélation

Joseph Salmon

Exemples de corrélations proches de zéros

Fondamentaux pour le Big Data c© Télécom ParisTech 17/19

Statistique : Statistiques

descriptives

Introduction générale

Notion de statistique

Résumés basiques d'un jeu de données

Corrélation

Joseph Salmon

Exemples de corrélations proches de zéros

Fondamentaux pour le Big Data c© Télécom ParisTech 17/19

Statistique : Statistiques

descriptives

Introduction générale

Notion de statistique

Résumés basiques d'un jeu de données

Corrélation

Joseph Salmon

Exemples de visualisation

Fondamentaux pour le Big Data c© Télécom ParisTech 18/19

Statistique : Statistiques

descriptives

Introduction générale

Notion de statistique

Résumés basiques d'un jeu de données

Corrélation

Joseph Salmon

Références I

W. McKinney.

Python for Data Analysis : Data Wrangling with Pandas, NumPy, and

IPython.

O'Reilly Media, 2012.

Fondamentaux pour le Big Data c© Télécom ParisTech 19/19