Statistique : Statistiques descriptives - fun-mooc.fr©lécom_FBD... · Plan du cours Introduction...

Statistique : Statistiques

descriptives

Introduction générale

Notion de statistique

Résumés basiques d'un jeu de données

Corrélation

Joseph Salmon

Statistique : Statistiques descriptives

Joseph Salmon

Septembre 2014

Fondamentaux pour le Big Data c© Télécom ParisTech 1/19


descriptives




Corrélation

Joseph Salmon

Plan du cours


Notion de statistiqueRésumés basiques d'un jeu de donnéesCorrélation



descriptives




Corrélation

Joseph Salmon

Statistique

I On observe des réalisations (y1, . . . , yn) de variablesaléatoires inconnues (éventuellement vectorielles)

I On suppose ici que les variables sont indépendantes etidentiquement distribuées (i.i.d.) selon une loi PY

But de l'estimationComment apprendre certaines caractéristiques de PY à partir de

(y1, . . . , yn) ?

Souvent : on se prépare à observer yn+1.

Cas de la prédiction

Que peut-on attendre de yn+1 ? (en moyenne, ou avec unecertaine probabilité ?)



descriptives




Corrélation

Joseph Salmon

Vocabulaire

I Observations y = y1:n = (y1, . . . , yn) : échantillon de taille n.

I Grandeurs théoriques : dépendant de la loi PY inconnue

Exemple: l'espérance de la variable y sous la loi PY .

I Grandeurs empiriques : calculées à partir des observations yi .Exemple: yn = 1

n

∑ni=1

yi est la moyenne empirique

I Objectif général : apprendre les caractéristiques théoriques dePY à partir de résumés empiriques.



descriptives




Corrélation

Joseph Salmon

Statistique exploratoire et descriptive

I Première analyse sans hypothèse sur la loi PY .

I Analyse qualitative du jeu de données /échantillon

Dé�nition : Statistique

Une statistique est une fonction des observations (y1, . . . , yn).



descriptives




Corrélation

Joseph Salmon

Moyenne

Dé�ntion : Moyenne

yn =1

n

n∑i=1

yi

Notons 1n le vecteur (1, . . . , 1) ∈ Rn. La moyenne est (à facteur1/n près) un produit scalaire dans Rn :

yn = 〈y, 1n/n〉

cf. McKinney (2012) pour les statistiques avec python



descriptives




Corrélation

Joseph Salmon

Médiane empirique

On ordonne les yi : y(1) ≤ y(2) ≤ . . . ≤ y(n)

Dé�ntion : Médiane (NON-UNIQUE !)

Medn(y) =

{ y(b n2 c)+y(b n2 c+1)2

Si n est pair

y( n+12

) Si n est impair



descriptives




Corrélation

Joseph Salmon

Moyenne vs médiane

I Les deux statistiques ne coïncident pas

I Une médiane est plus robuste aux points atypiques (enanglais : outliers)



descriptives




Corrélation

Joseph Salmon

Dispersion

Variance empirique

varn(y) =1

n

n∑i=1

(yi − yn)2 =1

n‖y − yn1n‖

2

Écart-type empirique

sn(y) =√varn(y) ( =

1√n‖y − yn1n‖ )



descriptives




Corrélation

Joseph Salmon

Dispersion

Mean Absolute deviationDéviation médiane absolue :

MADn(y) = Med (|Med(y)− y|) ,



descriptives




Corrélation

Joseph Salmon

Histogramme

Répartition des données dans des � cases �L'aire de chaque case est proportionnelle à la fraction desdonnées qui � tombent � dans la case.

L'histogramme est une approximation de la densité de y



descriptives




Corrélation

Joseph Salmon

Fonction de répartition empirique

I Rappel : Fonction de répartition : F (u) = PY (−∞, u]

I Version empirique : proportion des données en-dessous de u

Fn(u) =1

n

n∑i=1

1{yi≤u}



descriptives




Corrélation

Joseph Salmon

Quantiles empiriques

I Inverse de la fonction de répartition empirique.

I Soit due le nombre entier tel que due − 1 < u ≤ due.

Quantiles empiriques

quantile d'ordre p = y(dnpe) = F←n (p) (p ∈ [0, 1])



descriptives




Corrélation

Joseph Salmon

Covariance et corrélation empirique

Covariance empirique

Pour deux échantillons x1:n et y1:n de moyennes et variancesempiriques x = xn, y = yn et varn(x), varn(y) :

covn(x , y) =1

n

n∑i=1

(xi − xn)(yi − yn) c'est-à-dire

covn(x , y) =1

n〈x1:n − xn1n, y1:n − yn1n〉

Corrélation empirique

ρ = corrn(x , y) =covn(x , y)√

varn(x)√

varn(y), c'est-à-dire

ρ =〈x1:n − xn1n, y1:n − yn1n〉‖x − xn‖ ‖y − yn‖

= cos(x1:n − xn1n, y1:n − yn1n)



descriptives




Corrélation

Joseph Salmon

Interprétation pour n = 3 et ‖x‖ = ‖y‖ = 1



descriptives




Corrélation

Joseph Salmon

Exemples de corrélations



descriptives




Corrélation

Joseph Salmon

Exemples de corrélations proches de zéros



descriptives




Corrélation

Joseph Salmon

Exemples de visualisation



descriptives




Corrélation

Joseph Salmon

Références I

W. McKinney.

Python for Data Analysis : Data Wrangling with Pandas, NumPy, and

IPython.

O'Reilly Media, 2012.


Statistique : Statistiques descriptives - fun-mooc.fr©lécom_FBD... · Plan du cours Introduction...

Documents

Transcript of Statistique : Statistiques descriptives - fun-mooc.fr©lécom_FBD... · Plan du cours Introduction...