Rappel sur les concepts de base de statistiques et...

125

Transcript of Rappel sur les concepts de base de statistiques et...

Rappel sur les concepts de base de statistiques etstatistiques descriptives

Atelier de formation à l'analyse des données pour l'estimation des

stocks de carbone forestier, 30 juin�4 juillet 2014, Yaoundé

Nicolas Picard

[email protected]

Projet de renforcement des capacités institutionnelles en matière de

REDD+ pour la gestion durable des forêts dans le bassin du Congo

PREREDD (COMIFAC) Rappel sur les concepts de base de statistiques et statistiques descriptivesI 1 / 9

Panorama des statistiques et rappels

1 Panorama

2 Rappels de probabilités

3 Lois usuelles

4 Statistiques descriptives : cas unidimensionnel

5 Statistiques descriptives : cas multidimensionnel

6 Conclusion

Nicolas Picard (CIRAD / IRET) December 1, 2011 1 / 106

Utilité des statistiques en foresterieQuelques exemples

Inventorier une ressource forestière (stock de bois. . . )I on ne peut pas tout mesurerZ quelle règle d’échantillonnage pour estimer la ressource avec une

précision donnée ?

Mesurer des arbres (dendrométrie)I tarifs de cubage : prédire le volume en fonction du diamètre et/ou

de la hauteurI relation hauteur / diamètreZ comment établir une relation alors qu’il y a naturellement de la

variabilité ?

Nicolas Picard (CIRAD / IRET) December 1, 2011 2 / 106

Utilité des statistiques en foresterieQuelques exemples

Inventorier une ressource forestière (stock de bois. . . )I on ne peut pas tout mesurerZ quelle règle d’échantillonnage pour estimer la ressource avec une

précision donnée ?

å échantillonnageMesurer des arbres (dendrométrie)

I tarifs de cubage : prédire le volume en fonction du diamètre et/oude la hauteur

I relation hauteur / diamètreZ comment établir une relation alors qu’il y a naturellement de la

variabilité ?

å modélisation

Nicolas Picard (CIRAD / IRET) December 1, 2011 2 / 106

Utilité des statistiques en foresterieQuelques exemples (suite)

Comprendre l’écologie des espècesI relation sol / espèceZ comment tester une relation qui n’est pas univoque ?

Analyser des données d’inventaire d’aménagementI décrire la structuration des donnéesI définir des types de formations végétalesZ comment extraire l’information d’une masse de données ?Z comment classer des observations ?

Nicolas Picard (CIRAD / IRET) December 1, 2011 3 / 106

Utilité des statistiques en foresterieQuelques exemples (suite)

Comprendre l’écologie des espècesI relation sol / espèceZ comment tester une relation qui n’est pas univoque ?

å test statistiqueAnalyser des données d’inventaire d’aménagement

I décrire la structuration des donnéesI définir des types de formations végétalesZ comment extraire l’information d’une masse de données ?Z comment classer des observations ?

å statistiques descriptives (analyses multivariées)

Nicolas Picard (CIRAD / IRET) December 1, 2011 3 / 106

Statistiques et probabilités

Probabilité : théorie mathématique traitant des événementsaléatoiresStatistique : dès que l’on a affaire à des observations, des données

Z les statistiques s’appuient sur les probabilités. . .mais une partie des statistiques (en particulier les statistiquesdescriptives) ne font pas référence aux probabilités

Ce cours n’est pas un cours de mathématiques :approche intuitivesavoir quand utiliser les méthodes adéquatessavoir interpréter les résultatssavoir chercher de l’aide pour les analyses plus poussées !

Nicolas Picard (CIRAD / IRET) December 1, 2011 4 / 106

Panorama : probabilités

Probabilités

Variablealéatoire• fonction de

répartition• densité• moments• lois continues• lois discrètes• fonction

caractéristique

Couplede VA• loi jointe• loi marginale• loi condition-

-nelle

Vecteuraléatoire

Processusaléatoire• processus

temporel• processus

ponctuel

Nicolas Picard (CIRAD / IRET) December 1, 2011 5 / 106

Panorama : probabilités

Probabilités

Variablealéatoire• fonction de

répartition• densité• moments• lois continues• lois discrètes• fonction

caractéristique

Couplede VA• loi jointe• loi marginale• loi condition-

-nelle

Vecteuraléatoire

Processusaléatoire• processus

temporel• processus

ponctuel

Nicolas Picard (CIRAD / IRET) December 1, 2011 5 / 106

Panorama : probabilités

Probabilités

Variablealéatoire• fonction de

répartition• densité• moments• lois continues• lois discrètes• fonction

caractéristique

Couplede VA• loi jointe• loi marginale• loi condition-

-nelle

Vecteuraléatoire

Processusaléatoire• processus

temporel• processus

ponctuel

Nicolas Picard (CIRAD / IRET) December 1, 2011 5 / 106

Panorama : probabilités

Probabilités

Variablealéatoire• fonction de

répartition• densité• moments• lois continues• lois discrètes• fonction

caractéristique

Couplede VA• loi jointe• loi marginale• loi condition-

-nelle

Vecteuraléatoire

Processusaléatoire• processus

temporel• processus

ponctuel

Nicolas Picard (CIRAD / IRET) December 1, 2011 5 / 106

Panorama : probabilités

Probabilités

Variablealéatoire• fonction de

répartition• densité• moments• lois continues• lois discrètes• fonction

caractéristique

Couplede VA• loi jointe• loi marginale• loi condition-

-nelle

Vecteuraléatoire

Processusaléatoire• processus

temporel• processus

ponctuel

Nicolas Picard (CIRAD / IRET) December 1, 2011 5 / 106

Panorama : probabilités

Probabilités

Variablealéatoire• fonction de

répartition• densité• moments• lois continues• lois discrètes• fonction

caractéristique

Couplede VA• loi jointe• loi marginale• loi condition-

-nelle

Vecteuraléatoire

Processusaléatoire• processus

temporel• processus

ponctuel

Variablealéatoire• fonction de

répartition• densité• moments• lois continues• lois discrètes• fonction

caractéristique

Couplede VA• loi jointe• loi marginale• loi condition-

-nelle

Vecteuraléatoire

Journée 1

Nicolas Picard (CIRAD / IRET) December 1, 2011 5 / 106

Panorama : statistique exploratoire

Statistique exploratoire

Statistiques descriptives Analyses multivariées

Description d’une variable

• moyenne• médiane• quantiles• écart-type• graphiques

Liaison entre deux variables

• graphiques• numériques• ordinales• qualitatives• quantitative et qualitative

Analyse d’untableau

• ACP• AFC• AFCM

Couplage de2 tableaux• variables

instrumentales• co-inertie• canonique

Nicolas Picard (CIRAD / IRET) December 1, 2011 6 / 106

Panorama : statistique exploratoire

Statistique exploratoire

Statistiques descriptives Analyses multivariées

Description d’une variable

• moyenne• médiane• quantiles• écart-type• graphiques

Liaison entre deux variables

• graphiques• numériques• ordinales• qualitatives• quantitative et qualitative

Analyse d’untableau

• ACP• AFC• AFCM

Couplage de2 tableaux• variables

instrumentales• co-inertie• canonique

Nicolas Picard (CIRAD / IRET) December 1, 2011 6 / 106

Panorama : statistique exploratoire

Statistique exploratoire

Statistiques descriptives Analyses multivariées

Description d’une variable

• moyenne• médiane• quantiles• écart-type• graphiques

Liaison entre deux variables

• graphiques• numériques• ordinales• qualitatives• quantitative et qualitative

Analyse d’untableau

• ACP• AFC• AFCM

Couplage de2 tableaux• variables

instrumentales• co-inertie• canonique

Nicolas Picard (CIRAD / IRET) December 1, 2011 6 / 106

Panorama : statistique exploratoire

Statistique exploratoire

Statistiques descriptives Analyses multivariées

Description d’une variable

• moyenne• médiane• quantiles• écart-type• graphiques

Liaison entre deux variables

• graphiques• numériques• ordinales• qualitatives• quantitative et qualitative

Description d’une variable

• moyenne• médiane• quantiles• écart-type• graphiques

Liaison entre deux variables

• graphiques• numériques• ordinales• qualitatives• quantitative et qualitative

Journée 1

Analyse d’untableau

• ACP• AFC• AFCM

Couplage de2 tableaux• variables

instrumentales• co-inertie• canonique

Nicolas Picard (CIRAD / IRET) December 1, 2011 6 / 106

Panorama : statistique exploratoire

Statistique exploratoire

Statistiques descriptives Analyses multivariées

Description d’une variable

• moyenne• médiane• quantiles• écart-type• graphiques

Liaison entre deux variables

• graphiques• numériques• ordinales• qualitatives• quantitative et qualitative

Analyse d’untableau

• ACP• AFC• AFCM

Couplage de2 tableaux• variables

instrumentales• co-inertie• canonique

Nicolas Picard (CIRAD / IRET) December 1, 2011 6 / 106

Panorama : statistique exploratoire

Statistique exploratoire

Statistiques descriptives Analyses multivariées

Description d’une variable

• moyenne• médiane• quantiles• écart-type• graphiques

Liaison entre deux variables

• graphiques• numériques• ordinales• qualitatives• quantitative et qualitative

Analyse d’untableau

• ACP• AFC• AFCM

Couplage de2 tableaux• variables

instrumentales• co-inertie• canonique

Nicolas Picard (CIRAD / IRET) December 1, 2011 6 / 106

Panorama : statistique exploratoire

Statistique exploratoire

Statistiques descriptives Analyses multivariées

Description d’une variable

• moyenne• médiane• quantiles• écart-type• graphiques

Liaison entre deux variables

• graphiques• numériques• ordinales• qualitatives• quantitative et qualitative

Analyse d’untableau

• ACP• AFC• AFCM

Couplage de2 tableaux• variables

instrumentales• co-inertie• canonique

Classificationautomatique• hiérarchique• non hiérarchique

Nicolas Picard (CIRAD / IRET) December 1, 2011 6 / 106

Panorama : statistique exploratoire

Statistique exploratoire

Statistiques descriptives Analyses multivariées

Description d’une variable

• moyenne• médiane• quantiles• écart-type• graphiques

Liaison entre deux variables

• graphiques• numériques• ordinales• qualitatives• quantitative et qualitative

Analyse d’untableau

• ACP• AFC• AFCM

Couplage de2 tableaux• variables

instrumentales• co-inertie• canonique

Analyse d’untableau

• ACP• AFC• AFCM

Couplage de2 tableaux• variables

instrumentales• co-inertie• canonique

Classificationautomatique• hiérarchique• non hiérarchique

Journées 5 & 6

Nicolas Picard (CIRAD / IRET) December 1, 2011 6 / 106

Panorama : statistique inférentielle

Statistique inférentielle (1)

Distribution d’unéchantillon

• fonction derépartitionempirique

• moyenneempirique

• varianceempirique

• échantillongaussien

Estimation

• maximum devraisemblance

• moments• intervalle de

confiance• taille de

population

Échantillonnage

Nicolas Picard (CIRAD / IRET) December 1, 2011 7 / 106

Panorama : statistique inférentielle

Statistique inférentielle (1)

Distribution d’unéchantillon

• fonction derépartitionempirique

• moyenneempirique

• varianceempirique

• échantillongaussien

Estimation

• maximum devraisemblance

• moments• intervalle de

confiance• taille de

population

Échantillonnage

Nicolas Picard (CIRAD / IRET) December 1, 2011 7 / 106

Panorama : statistique inférentielle

Statistique inférentielle (1)

Distribution d’unéchantillon

• fonction derépartitionempirique

• moyenneempirique

• varianceempirique

• échantillongaussien

Estimation

• maximum devraisemblance

• moments• intervalle de

confiance• taille de

population

Échantillonnage

Nicolas Picard (CIRAD / IRET) December 1, 2011 7 / 106

Panorama : statistique inférentielle

Statistique inférentielle (1)

Distribution d’unéchantillon

• fonction derépartitionempirique

• moyenneempirique

• varianceempirique

• échantillongaussien

Estimation

• maximum devraisemblance

• moments• intervalle de

confiance• taille de

population

Échantillonnage

Nicolas Picard (CIRAD / IRET) December 1, 2011 7 / 106

Panorama : statistique inférentielle

Statistique inférentielle (1)

Distribution d’unéchantillon

• fonction derépartitionempirique

• moyenneempirique

• varianceempirique

• échantillongaussien

Estimation

• maximum devraisemblance

• moments• intervalle de

confiance• taille de

population

Échantillonnage

Tests

• ajustement• comparaison de

2 moyennes• comparaison

multiplede moyennes

• comparaison devariance

• du χ2

Nicolas Picard (CIRAD / IRET) December 1, 2011 7 / 106

Panorama : statistique inférentielle

Statistique inférentielle (1)

Distribution d’unéchantillon

• fonction derépartitionempirique

• moyenneempirique

• varianceempirique

• échantillongaussien

Estimation

• maximum devraisemblance

• moments• intervalle de

confiance• taille de

population

Échantillonnage

Tests

• ajustement• comparaison de

2 moyennes• comparaison

multiplede moyennes

• comparaison devariance

• du χ2

Journée 2

Nicolas Picard (CIRAD / IRET) December 1, 2011 7 / 106

Panorama : statistique inférentielle (suite)

Statistique inférentielle (2)

Modèle linéaire

• analyse de varianceà un facteur

• analyse de varianceà n facteurs

• régression simple• régression multiple• analyse de covariance• cas général

Dispositifs expérimentaux

Modèle nonlinéaire

Analysediscriminante

Nicolas Picard (CIRAD / IRET) December 1, 2011 8 / 106

Panorama : statistique inférentielle (suite)

Statistique inférentielle (2)

Modèle linéaire

• analyse de varianceà un facteur

• analyse de varianceà n facteurs

• régression simple• régression multiple• analyse de covariance• cas général

Dispositifs expérimentaux

Modèle nonlinéaire

Analysediscriminante

Nicolas Picard (CIRAD / IRET) December 1, 2011 8 / 106

Panorama : statistique inférentielle (suite)

Statistique inférentielle (2)

Modèle linéaire

• analyse de varianceà un facteur

• analyse de varianceà n facteurs

• régression simple• régression multiple• analyse de covariance• cas général

Dispositifs expérimentaux

Modèle nonlinéaire

Analysediscriminante

Nicolas Picard (CIRAD / IRET) December 1, 2011 8 / 106

Panorama : statistique inférentielle (suite)

Statistique inférentielle (2)

Modèle linéaire

• analyse de varianceà un facteur

• analyse de varianceà n facteurs

• régression simple• régression multiple• analyse de covariance• cas général

Dispositifs expérimentaux

Modèle nonlinéaire

Analysediscriminante

Nicolas Picard (CIRAD / IRET) December 1, 2011 8 / 106

Panorama : statistique inférentielle (suite)

Statistique inférentielle (2)

Modèle linéaire

• analyse de varianceà un facteur

• analyse de varianceà n facteurs

• régression simple• régression multiple• analyse de covariance• cas général

Dispositifs expérimentaux

Modèle nonlinéaire

Analysediscriminante

Nicolas Picard (CIRAD / IRET) December 1, 2011 8 / 106

Panorama : statistique inférentielle (suite)

Statistique inférentielle (2)

Modèle linéaire

• analyse de varianceà un facteur

• analyse de varianceà n facteurs

• régression simple• régression multiple• analyse de covariance• cas général

Dispositifs expérimentaux

Modèle nonlinéaire

Analysediscriminante

Modèle linéaire

• analyse de varianceà un facteur

• analyse de varianceà n facteurs

• régression simple• régression multiple• analyse de covariance• cas général Journées 3 & 4

Nicolas Picard (CIRAD / IRET) December 1, 2011 8 / 106

Et encore :

Statistique bayésienneSéries chronologiquesStatistiques spatiales :

I géostatistiqueI processus ponctuelsI lattices

Etc, etc.

Nicolas Picard (CIRAD / IRET) December 1, 2011 9 / 106

Panorama des statistiques et rappels

1 Panorama

2 Rappels de probabilités

3 Lois usuelles

4 Statistiques descriptives : cas unidimensionnel

5 Statistiques descriptives : cas multidimensionnel

6 Conclusion

Nicolas Picard (CIRAD / IRET) December 1, 2011 10 / 106

Probabilités : les basesApproche fréquentiste

Événement aléatoire défini par :I ses réalisations possiblesI la probabilité associée à chaque réalisation

Exemple : dé à 6 facesSi on note A1, . . . , An les réalisations possibles et Pr la mesure deprobabilité :

Pr(Ai ∪Aj) = Pr(Ai) + Pr(Aj) (i 6= j)n∑

i=1

Pr(Ai) = 1

Nicolas Picard (CIRAD / IRET) December 1, 2011 11 / 106

Probabilité conditionnelle et indépendance

Soient A et B deux événements aléatoiresProbabilité conditionnelle de A sachant B :

Pr(A|B) =Pr(A ∩B)

Pr(B)

Indépendance de A par rapport à B :

Pr(A|B) = Pr(A)

A indépendant de B :B indépendant de A

Pour des événements indépendants :

Pr(A ∩B) = Pr(A)× Pr(B)

Nicolas Picard (CIRAD / IRET) December 1, 2011 12 / 106

Variable aléatoireDéfinition

Application qui associe à chaque réalisation d’un événementaléatoire une valeur numérique (réelle)Exemple : dé à 6 faces ; on y associe X ∈ {1, 2, 3, 4, 5, 6}Exemple : statut d’un arbre pris au hasard en forêt

I dominant → 1I co-dominant → 2I dominé → 3

Exemple : diamètre d’un arbre pris au hasard en forêtD ∈ [dmin; +∞[

Nicolas Picard (CIRAD / IRET) December 1, 2011 13 / 106

Variable aléatoireDéfinition

Application qui associe à chaque réalisation d’un événementaléatoire une valeur numérique (réelle)Exemple : dé à 6 faces ; on y associe X ∈ {1, 2, 3, 4, 5, 6}Exemple : statut d’un arbre pris au hasard en forêt

I dominant → 1I co-dominant → 2I dominé → 3

Exemple : diamètre d’un arbre pris au hasard en forêtD ∈ [dmin; +∞[

Nicolas Picard (CIRAD / IRET) December 1, 2011 13 / 106

Variable aléatoireDéfinition

Application qui associe à chaque réalisation d’un événementaléatoire une valeur numérique (réelle)Exemple : dé à 6 faces ; on y associe X ∈ {1, 2, 3, 4, 5, 6}Exemple : statut d’un arbre pris au hasard en forêt

I dominant → 1I co-dominant → 2I dominé → 3

Exemple : diamètre d’un arbre pris au hasard en forêtD ∈ [dmin; +∞[

Nicolas Picard (CIRAD / IRET) December 1, 2011 13 / 106

Fonction de répartition

Définition :F (x) = Pr(X < x)

Fonction à valeurs dans [0, 1] monotone croissantePropriété :

Pr(a ≤ X < b) = F (b)− F (a)

Nicolas Picard (CIRAD / IRET) December 1, 2011 14 / 106

Différents types de variable

Variable discrèteI Variable ordinale

Exemple : statut de l’arbredominant > co-dominant > dominé

I Variable nominaleExemple : couleur du feuillagevert clair → 1 vert clair → 4vert foncé→ 2 ou bien vert foncé→ 8jaune → 3 jaune → 5

Variable continueExemple : diamètre

Nicolas Picard (CIRAD / IRET) December 1, 2011 15 / 106

Variable aléatoire discrèteLoi de probabilité

On indexe les modalités de la variable par des entiers 1, 2, 3, . . . , mLoi de probabilité : définie par Pr(X = i) pour tout i = 1, . . . ,m

Exemple : somme du lancer de deux dés à 6 faces

2 4 6 8 10 12

0.00

0.05

0.10

0.15

Pro

babi

lité

1/36

2/36

3/36

4/36

5/36

6/36

5/36

4/36

3/36

2/36

1/36

Nicolas Picard (CIRAD / IRET) December 1, 2011 16 / 106

Variable aléatoire discrèteFonction de répartition

Exemple : somme du lancer de deux dés à 6 faces

2 4 6 8 10 12

0.0

0.2

0.4

0.6

0.8

1.0

Pro

babi

lité

1/36

3/36

6/36

10/36

15/36

21/36

26/36

30/36

33/36

35/36

Nicolas Picard (CIRAD / IRET) December 1, 2011 17 / 106

Variable aléatoire continueLoi de probabilité

Densité de probabilité :

Pr(x < X < x+ dx) = f(x) dx

Fonction de répartition :

F (b) =

∫ b

−∞f(x) dx

En d’autres termes :f(x) = F ′(x)

Nicolas Picard (CIRAD / IRET) December 1, 2011 18 / 106

Variable aléatoire continueExemple

X défini par :

Pr(X > x) =

{exp(−λx)1

f(x) =

{λ exp(−λx) (x ≥ 0)0 (x < 0)

x

Pr(a < X < b)

a b0

λ

0

f(x)

x

0

1

0

F(x)

Nicolas Picard (CIRAD / IRET) December 1, 2011 19 / 106

Changement de variable

Nouvelle variable aléatoire Y = ϕ(X) avec ϕ bijectiveFonction de répartition de Y :

G(y) =

{F (ϕ−1(y)) (ϕ croissante)1− F (ϕ−1(y)) (ϕ décroissante)

Densité de Y :

g(y) =f [ϕ−1(y)]

|ϕ′[ϕ−1(y)]|

Nicolas Picard (CIRAD / IRET) December 1, 2011 20 / 106

Indépendance de deux variables aléatoires

X et Y sont indépendantes si et seulement si :Fonction de répartition du couple (X,Y ) :

H(x, y) = Pr(X < x et Y < y) = F (x)G(y)

Densité du couple (X,Y ) :

h(x, y) = f(x) g(y)

Nicolas Picard (CIRAD / IRET) December 1, 2011 21 / 106

Moments d’une variable aléatoire

Moment non centré d’ordre p :

mp =

∫ ∞

−∞xp f(x) dx

Moment centré d’ordre p :

µp =

∫ ∞

−∞(x−m1)

p f(x) dx

Par définition, le moment non centré d’ordre 1 s’appelle l’espéranceNotation : E(X)

Par définition, le moment centré d’ordre 2 s’appelle la varianceNotation : Var(X)

Nicolas Picard (CIRAD / IRET) December 1, 2011 22 / 106

Espérance

Interprétation : tirons n valeurs de X de façon indépendante :x1, x2, . . . , xn

Z la moyenne empirique (x1 + x2 + . . .+ xn)/n converge vers E(X)

Espérance d’une somme de deux variables aléatoires :

E(X + Y ) = E(X) + E(Y )

Espérance d’un produit de deux variables aléatoires :

X et Y indépendantes : E(XY ) = E(X)E(Y )

Nicolas Picard (CIRAD / IRET) December 1, 2011 23 / 106

Espérance d’une fonction d’une variable aléatoire

Changement de variable Y = ϕ(X) (pas forcément bijective)Espérance :

E[ϕ(X)] =

∫ ∞

−∞ϕ(x) f(x) dx

Exemple : moment non centré d’ordre p = E(Xp)

Nicolas Picard (CIRAD / IRET) December 1, 2011 24 / 106

Variance

Variance :Var(X) = E[(X − E(X))2]

Z mesure la dispersion autour de l’espéranceAutre expression équivalente :

Var(X) = E(X2)− [E(X)]2

« espérance du carré moins le carré de l’espérance »Écart-type : σ =

√Var(X)

Variance d’une somme de variables aléatoires :

X et Y indépendantes : Var(X + Y ) = Var(X) + Var(Y )

� Unités : si X en m, Var(X) en m2 (mais σ en m)

Nicolas Picard (CIRAD / IRET) December 1, 2011 25 / 106

Quantiles et médiane

quantile d’ordre q = F−1(q)

c’est la probabilité p telleque Pr(X < p) = q

médiane = quantile 50%

0.0

0.2

0.4

0.6

0.8

1.0

x

F(x

)1e

r qua

rtile

méd

iane

3e q

uarti

le

Nicolas Picard (CIRAD / IRET) December 1, 2011 26 / 106

Mode(s)

Mode = maximum (local) de la densité de distribution

x

f(x)

Nicolas Picard (CIRAD / IRET) December 1, 2011 27 / 106

Couple de variables aléatoires

fonction de répartition :

H(x, y) = Pr(X < x et Y < y)

densité de distribution (variables continues) :

h(x, y) =∂2H

∂x∂y

densités marginales :

f(x) =

Rh(x, y) dy F (x) = H(x,∞)

g(y) =

Rh(x, y) dx G(y) = H(∞, y)

Nicolas Picard (CIRAD / IRET) December 1, 2011 28 / 106

Couple de VA : covariance

Covariance :

Cov(X,Y ) = E[(X − E(X)) (Y − E(Y ))]

Autre expression équivalente :

Cov(X,Y ) = E(XY )− E(X)E(Y )

Si X et Y sont indépendants, alors Cov(X,Y ) = 0

Cov(X,X) = Var(X)

Nicolas Picard (CIRAD / IRET) December 1, 2011 29 / 106

Vecteur aléatoire

généralise le couple de variables aléatoires à p variables aléatoiresX = (X1, X2, . . . , Xp)

fonction de répartition :

F (x1, x2, . . . , xp) = Pr(X1 < x1 et X2 < x2 et . . . et Xp < xp)

densité de distribution :

f(x1, x2, . . . , xp) =∂pF

∂x1 ∂x2 . . . ∂xp

Nicolas Picard (CIRAD / IRET) December 1, 2011 30 / 106

Vecteur aléatoire : moments d’ordre 1 et 2

espérance : vecteur de longueur p

E(X1, X2, . . . , Xp) = (E(X1),E(X2), . . . ,E(Xp)) = m

matrice de variance-covariance : matrice p× p

Cov(X) =

σ21 Cov(X1, X2) . . . Cov(X1, Xp)

Cov(X2, X1) σ22

......

. . .Cov(Xp, X1) . . . σ2

p

= E(XtX)−mtm

Z matrice symétriqueZ matrice diagonale si X1, . . . , Xm mutuellement indépendants

Nicolas Picard (CIRAD / IRET) December 1, 2011 31 / 106

Panorama des statistiques et rappels

1 Panorama

2 Rappels de probabilités

3 Lois usuelles

4 Statistiques descriptives : cas unidimensionnel

5 Statistiques descriptives : cas multidimensionnel

6 Conclusion

Nicolas Picard (CIRAD / IRET) December 1, 2011 32 / 106

Loi uniforme (U)Lois discrètes

Ex.: dé à n facesparamètre : n

X ∈ {1, 2, 3, . . . , n}Pr(X = k) =

1

npour tout k

E(X) =n+ 1

2

Var(X) =n2 − 1

21 2 3 4 5 6

0.00

0.05

0.10

0.15

x

Pr(X

=x)

Nicolas Picard (CIRAD / IRET) December 1, 2011 33 / 106

Loi de BernoulliLois discrètes

Ex.: lancer d’une pièce(pile ou face)Ex.: survie d’un arbreparamètre : p

X ∈ {0, 1}Pr(X = 1) = p (0 < p < 1)E(X) = p

Var(X) = p(1− p)−0.5 0.0 0.5 1.0 1.5

0.0

0.2

0.4

0.6

x

Pr(X

=x)

Nicolas Picard (CIRAD / IRET) December 1, 2011 34 / 106

Loi binomiale (B)Lois discrètes

Ex.: nombre d’arbres mortsparamètres : n et p

somme de n variables indépendantes et identiquement distribuées(i.i.d) ∼ Bernoulli(p)X ∈ {0, 1, . . . , n}Pr(X = k) = Ck

npk(1− p)n−k

E(X) = np

Var(X) = np(1− p)

propriété d’additivité :

X ∼ B(n, p)Y ∼ B(m, p)X et Y indépendantes

: X + Y ∼ B(n+m, p)

Nicolas Picard (CIRAD / IRET) December 1, 2011 35 / 106

Loi binomiale (B) (suite)

0 2 4 6 8 10

0.0

0.1

0.2

0.3

0.4

0.5

0.6

x

Pr(X

=x)

n = 10p = 0.05

0 2 4 6 8 10

0.0

0.1

0.2

0.3

0.4

x

Pr(X

=x)

n = 10p = 0.1

0 2 4 6 8 10

0.00

0.10

0.20

0.30

x

Pr(X

=x)

n = 10p = 0.2

0 2 4 6 8 10

0.00

0.05

0.10

0.15

0.20

0.25

x

Pr(X

=x)

n = 10p = 0.5

Nicolas Picard (CIRAD / IRET) December 1, 2011 36 / 106

Loi de Poisson (P)Lois discrètes

paramètre : µ

X ∈ N

Pr(X = k) = exp(−µ)µk

k!E(X) = Var(X) = µ

Loi de référence pour les variables de comptageSi E(X) < Var(X), sous-dispersionSi E(X) > Var(X), sur-dispersionpropriété d’additivité :

X ∼ P(µ)Y ∼ P(λ)X et Y indépendantes

: X + Y ∼ P(λ+ µ)

Nicolas Picard (CIRAD / IRET) December 1, 2011 37 / 106

Loi de Poisson (P) (suite)

0 2 4 6 8 10

0.0

0.1

0.2

0.3

0.4

0.5

0.6

x

Pr(X

=x)

µ = 0.5

0 2 4 6 8 10

0.00

0.10

0.20

0.30

x

Pr(X

=x)

µ = 1.5

0 2 4 6 8 10

0.00

0.05

0.10

0.15

0.20

x

Pr(X

=x)

µ = 3

0 2 4 6 8 10

0.00

0.05

0.10

0.15

x

Pr(X

=x)

µ = 5

Nicolas Picard (CIRAD / IRET) December 1, 2011 38 / 106

Origines de la loi de Poisson

1 Limite d’une loi binomiale : soit un événement A de probabilité ptrès faible (< 0.1) que l’on essaie d’obtenir quelques fois enrépétant l’expérience un grande nombre de fois (n > 50). Lenombre de réalisations de A suit une loi binomiale B(n, p) avec :

B(n, p) ≈ P(np)

2 Processus temporel de Poisson :I temps d’attente indépendantsI la loi du nombre d’événements arrivant dans l’intervalle {t; t+ T}

ne dépend que de TI deux événements ne peuvent pas arriver simultanément

Alors le nombre d’événements suit une loi de Poisson3 Processus spatial de Poisson

Nicolas Picard (CIRAD / IRET) December 1, 2011 39 / 106

Autres loi discrètes

loi géométriqueloi hypergéométriqueloi de Pascalloi binomiale négativeetc. (N.ML. Johnson, A.W. Kemp & S. Kotz, 2005, UnivariateDiscrete Distributions, 3e édition, John Wiley & Sons, New York,646 p.)

Nicolas Picard (CIRAD / IRET) December 1, 2011 40 / 106

Loi uniformeLois continues

paramètre : a et b

X ∈ [a, b]

f(x) = 1/(b− a) pourx ∈ [a, b], 0 sinonF (x) = (x− a)/(b− a)pour x ∈ [a, b]

E(X) = (a+ b)/2

Var(X) = (b− a)2/12

x

f(x)

a b

1

b − a

Nicolas Picard (CIRAD / IRET) December 1, 2011 41 / 106

Loi exponentielleLois continues

paramètre : µ

X > 0

f(x) = µ exp(−µx) pourx > 0, 0 sinonF (x) = 1− exp(−µx) pourx > 0

E(X) = 1/λ

Var(X) = 1/λ2

x

f(x)

µ

Nicolas Picard (CIRAD / IRET) December 1, 2011 42 / 106

Loi de Laplace-Gauss (N )Lois continues

aussi appelée « loi normale»paramètre : m et σ

X ∈ R

f(x) =1

σ√2π

exp

[−1

2

(x−m

σ

)2]

E(X) = m

Var(X) = σ2

x

f(x)

m− 3σ

m− 2σ

m− σ m

m+ σ

m+ 2σ

m+ 3σ

Nicolas Picard (CIRAD / IRET) December 1, 2011 43 / 106

Quelques propriétés de la loi normale

quantiles à 95 % :

Pr(m− 1.96σ < X < m+ 1.96σ) = 0.95

propriété d’additivité :

X ∼ N (m,σ)Y ∼ N (p, τ)X et Y indépendantes

: X + Y ∼ N (m+ p,√σ + τ)

convergence de la loi de Poisson vers la loi normale : X ∼ P(µ)

X − µ√µ

−→µ→∞

N (0, 1)

Nicolas Picard (CIRAD / IRET) December 1, 2011 44 / 106

Théorème central-limite

il justifie le rôle central de la loi normale(Xn) suite de variables aléatoires i.i.d d’espérance µ et d’écart-typeσ

1√n

(X1 +X2 + . . .+Xn − nµ

σ

)−→n→∞

N (0, 1)

Nicolas Picard (CIRAD / IRET) December 1, 2011 45 / 106

Loi du chi-deux (χ2)Lois continues

Définition :U1, U2, . . . , Up

i.i.d∼ N (0, 1)

p∑

i=1

U2i ∼ χ2

p

paramètre : p ∈ N∗

X > 0

E(X) = p

Var(X) = 2p0 10 20 30 40 50 60 70

0.0

0.1

0.2

0.3

0.4

0.5

x

f(x)

1

2

345678910

15 20 25 30 40 50

Nicolas Picard (CIRAD / IRET) December 1, 2011 46 / 106

Loi de Fisher-Snedecor (F )Lois continues

Définition :X ∼ χ2

n

Y ∼ χ2p

X et Y indépendantsX/n

Y/p∼ F (n, p)

paramètre : n et p

Nicolas Picard (CIRAD / IRET) December 1, 2011 47 / 106

Loi de Student (T )Lois continues

Définition :U ∼ N (0, 1)

X ∼ χ2n

X et U indépendants

U√X/n

∼ T (n)

paramètre : n

E(X) = 0 (n > 1)Var(X) = n/(n− 2)(n > 2) −4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

x

f(x)

n = 1n = 2n = 5n = 10n = 50

Nicolas Picard (CIRAD / IRET) December 1, 2011 48 / 106

Autres lois continues

loi gammaloi bêta (type I, type II)loi de l’arc sinusloi log-normaleloi de Weibullloi Cauchyloi de Gumbelloi du T 2 de Hotellingloi du Λ de WilksEtc. (N.L. Johnson & S. Kotz, 1970, Distributions in Statistics:Continuous Univariate Distributions, vol.1, John Wiley & Sons,New York, 300 p.)

Nicolas Picard (CIRAD / IRET) December 1, 2011 49 / 106

Loi multinomiale (M)Loi multivariée discrète

Généralise la loi binomiale à k modalitésDéfinition :

I soit X variable modale à k modalitésI soit pi la probabilité de tirer la modalité iI on fait n tirages indépendants de XI soit Ni le nombre de fois où l’on a tiré la ie modalité

(N1, N2, . . . , Nk) ∼ M(n, p1, p2, . . . , pk)

Loi :

Pr(N1 = n1, . . . , Nk = nk) =n!

n1!n2! . . . nk!pn11 pn2

2 . . . pnkk

Nicolas Picard (CIRAD / IRET) December 1, 2011 50 / 106

Loi multinomiale (suite)

Espérance :

E(N1, N2, . . . , Nk) = (np1, np2, . . . , npk)

Résultat à la base du test du χ2 :

k∑

i=1

(Ni − npi)2

npi−→n→∞

χ2k−1

Nicolas Picard (CIRAD / IRET) December 1, 2011 51 / 106

Loi multinormaleLoi multivariée continue

Définition : X est un vecteur gaussien à p dimensions si toutecombinaison linéaire de ses composantes suit une loi deLaplace-Gaussdensité de probabilité :

f(x1, x2, . . . , xp) =1

(2π)p/2√detΣ

exp

(−1

2t(x−m)Σ−1(x−m)

)

avec m = espérance du vecteur et Σ = matrice devariance-covariance

Nicolas Picard (CIRAD / IRET) December 1, 2011 52 / 106

Loi multinormale (suite)

x

y

f(x,y)

x

y

f(x,y)

−3 −2 −1 0 1 2 3

−3

−2

−1

01

23

x

y

−3 −2 −1 0 1 2 3

−3

−2

−1

01

23

x

y

Nicolas Picard (CIRAD / IRET) December 1, 2011 53 / 106

Autres lois multivariées

loi de WishartEtc. (N.L. Johnson & S. Kotz (1972) Distributions in Statistics:Continuous Multivariate Distributions, vol.2, John Wiley & Sons,New York)

Nicolas Picard (CIRAD / IRET) December 1, 2011 54 / 106

Panorama des statistiques et rappels

1 Panorama

2 Rappels de probabilités

3 Lois usuelles

4 Statistiques descriptives : cas unidimensionnel

5 Statistiques descriptives : cas multidimensionnel

6 Conclusion

Nicolas Picard (CIRAD / IRET) December 1, 2011 55 / 106

Présentation des données : variable numérique discrète

Variable prenant des valeurs entières (plus rarement décimales)Nombre de valeurs distinctes assez faibles (. 20)Exemple : nombre de semis d’une essence dans 48 placeaux

24 19 13 0 26 16 0 0 0 13 15 0 0 9 12 1011 13 22 18 8 0 0 0 13 0 0 7 19 0 0 190 0 0 11 19 9 0 19 0 11 17 10 0 16 15 0

Nicolas Picard (CIRAD / IRET) December 1, 2011 56 / 106

Présentation des données : tableau statistiqueVariable numérique discrète

1ère colonne : observationsdistinctes rangées par ordrecroissant2e colonne : effectif3e colonne : effectif cumulé4e colonne : fréquence5e colonne : fréquence cumulée

x n N f F0 20 20 41.7 41.77 1 21 2.1 43.88 1 22 2.1 45.89 2 24 4.2 50.0

10 2 26 4.2 54.211 3 29 6.2 60.412 1 30 2.1 62.513 4 34 8.3 70.815 2 36 4.2 75.016 2 38 4.2 79.217 1 39 2.1 81.218 1 40 2.1 83.319 5 45 10.4 93.822 1 46 2.1 95.824 1 47 2.1 97.926 1 48 2.1 100.0

Nicolas Picard (CIRAD / IRET) December 1, 2011 57 / 106

Présentation des données : « stem-and-leaf »Variable numérique discrète

« tige » : chiffre des dizaines« feuille » : chiffre des unités

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 7 8 9 91 0 0 1 1 1 2 3 3 3 31 5 5 6 6 7 8 9 9 9 9 92 2 42 6

Nicolas Picard (CIRAD / IRET) December 1, 2011 58 / 106

Présentation des données : variable qualitative

Tableau statistiqueExemple : répartition de la population active selon la catégoriesocioprofessionnelle (France, 1988)

CSP effectif fréquenceagriculteurs 1312 6.1artisans, commerçants 1739 8.1cadres 2267 10.6professions intermédiaires 4327 20.1employés 5815 27.0ouvriers 6049 28.1

Nicolas Picard (CIRAD / IRET) December 1, 2011 59 / 106

Présentation des données : variable quantitative continue

Découpage en classesTableau statistique sur les classesExemple : diamètres de 255 sapelli (Entandrophragma cylindricum)avec D ≥ 10 cm

classe effectif fréquence[10, 20) 145 56.9[20, 30) 23 9.0[30, 40) 13 5.1[40, 50) 1 0.4[50, 60) 4 1.6[60,∞) 69 27.1

Nicolas Picard (CIRAD / IRET) December 1, 2011 60 / 106

Représentation graphique : diagramme en bâtonsVariable quantitative discrète

Exemple du nombre de semis dans 48 placeaux

0 5 10 15 20 25

510

1520

Nombre de semis

Effe

ctif

Nicolas Picard (CIRAD / IRET) December 1, 2011 61 / 106

Représentation graphique : diagramme cumulatifVariable quantitative discrète

Exemple du nombre de semis dans 48 placeaux

0 5 10 15 20 25 30

010

2030

40

Nombre de semis

Effe

ctif

cum

ulé

Nicolas Picard (CIRAD / IRET) December 1, 2011 62 / 106

Représentation graphique : diagramme en colonnesVariable qualitative

Exemple des catégories socioprofessionnelles

Effe

ctif

020

0040

0060

00

agric

ulteu

rs

artis

ans..

.

cadr

es

prof

s. int

erm

.

emplo

yés

ouvr

iers

Nicolas Picard (CIRAD / IRET) December 1, 2011 63 / 106

Représentation graphique : diagramme en barreVariable qualitative

Exemple des catégories socioprofessionnellesE

ffect

if cu

mul

é

050

0015

000

050

0015

000

agriculteursartisans...cadresprofs. interm.employésouvriers

Nicolas Picard (CIRAD / IRET) December 1, 2011 64 / 106

Représentation graphique : diagramme en secteursVariable qualitative

Exemple des catégories socioprofessionnelles

agriculteurs

artisans...

cadresprofs. interm.

employés

ouvriers

Nicolas Picard (CIRAD / IRET) December 1, 2011 65 / 106

Représentation graphique : courbe cumulativeVariable quantitative continue

Exemple des diamètres de sapelli

50 100 150

0.0

0.2

0.4

0.6

0.8

1.0

Diamètre (cm)

Fré

quen

ce c

umul

ée

Nicolas Picard (CIRAD / IRET) December 1, 2011 66 / 106

Représentation graphique : histogrammeVariable quantitative continue

Exemple des diamètres de sapelli

Diamètre (cm)

Effe

ctif

0 50 100 150

050

100

150

Nicolas Picard (CIRAD / IRET) December 1, 2011 67 / 106

Représentation graphique : histogramme (suite)Variable quantitative continue

Exemple des diamètres de sapelli

Diamètre (cm)

Den

sité

de

fréq

uenc

e

50 100 150

0.00

0.04

0.08

Nicolas Picard (CIRAD / IRET) December 1, 2011 68 / 106

Représentation graphique : courbe de densitéVariable quantitative continue

Exemple des diamètres de sapelli

0 50 100 150 200

0.00

00.

010

0.02

0

N = 255 Bandwidth = 11.29

Den

sité

Nicolas Picard (CIRAD / IRET) December 1, 2011 69 / 106

Représentation graphique : boîte à moustachesVariable quantitative continue

Exemple des diamètres de sapelli

5010

015

0

Dia

mèt

re (

cm)

Nicolas Picard (CIRAD / IRET) December 1, 2011 70 / 106

Résumés numériquesVariable quantitative continue

une variable :I moyenneI écart-typeI coefficient de variationI quartiles et médiane

deux variables : corrélation. . .n variables : matrice des corrélations. . .

Nicolas Picard (CIRAD / IRET) December 1, 2011 71 / 106

La moyenne empirique

Moyenne arithmétique :

x =1

n(x1 + x2 + . . .+ xn)

Il existe d’autres moyennes :I moyenne géométrique : n

√x1 . . . xn

→ certains indices économiquesI moyenne quadratique :

√(x2

1 + . . .+ x2n)/n

→ diamètre équivalentI moyenne harmonique :

1

1n

(1x1

+ . . .+ 1xn

)

Nicolas Picard (CIRAD / IRET) December 1, 2011 72 / 106

La médiane empirique

x1 < x2 < . . . < xn

m = x(n+1)/2 ouxn/2 + xn/2+1

2

Nicolas Picard (CIRAD / IRET) December 1, 2011 73 / 106

Le quantile empirique α

x1 < x2 < . . . < xnxm tel que

m

n= α

Exemple : quantile à 95 %

Nicolas Picard (CIRAD / IRET) December 1, 2011 74 / 106

L’écart-type empirique

Variance empirique :

s2 =1

n

n∑

i=1

(xi − x)2

Écart-type empirique : s =√s2

Nicolas Picard (CIRAD / IRET) December 1, 2011 75 / 106

Cas de la loi normale

Relation entre moyenne (m), écart-type (σ) et quantiles :

95 % des observations sont comprises entrem− 1.96σ

etm+ 1.96σ

Nicolas Picard (CIRAD / IRET) December 1, 2011 76 / 106

Limites de l’écart-typeValeur relative et absolue

Un écart-type de 500 g pour la masse n’a pas la même significationselon la taille de l’animal :

Nicolas Picard (CIRAD / IRET) December 1, 2011 77 / 106

Le coefficient de variation

CV =s

x

Nicolas Picard (CIRAD / IRET) December 1, 2011 78 / 106

Panorama des statistiques et rappels

1 Panorama

2 Rappels de probabilités

3 Lois usuelles

4 Statistiques descriptives : cas unidimensionnel

5 Statistiques descriptives : cas multidimensionnel

6 Conclusion

Nicolas Picard (CIRAD / IRET) December 1, 2011 79 / 106

Liaison entre deux variables quantitativesMéthode graphique

Nuage de points :une des variables sur l’axe des x

l’autre sur l’axe des y

Nicolas Picard (CIRAD / IRET) December 1, 2011 80 / 106

Coefficient de corrélation linéaire

Définition :ρ =

Cov(X,Y )

σXσY

Estimation :

Cov(X,Y ) =1

n

n∑

i=1

(Xi − X)(Yi − Y )

Remarque :

Cov(X,X) =1

n

n∑

i=1

(Xi − X)2 = Var(X) = S2X

donc ρ(X,X) = 1

Nicolas Picard (CIRAD / IRET) December 1, 2011 81 / 106

Coefficient de corrélation linéaire (suite)

Le coefficient de corrélation linéaire est aussi :la racine carrée du coefficient de détermination de la régressionlinéaire de Y par rapport à X

le pourcentage de variance expliquée par cette régression linéaire

Nicolas Picard (CIRAD / IRET) December 1, 2011 82 / 106

Il quantifie la « force » de la relation linéaireet varie entre −1 et 1

−2 −1 0 1 2

−2

−1

01

2

X

Y

R = 0

−3 −2 −1 0 1 2−

2−

10

12

X

Y

R = 0.3

−2 −1 0 1 2 3

−2

−1

01

2

X

Y

R = 0.5

−2 −1 0 1 2

−2

−1

01

2

X

Y

R = 0.7

−3 −2 −1 0 1 2

−2

−1

01

2

X

Y

R = 0.9

−2 −1 0 1 2−

2−

10

12

X

Y

R = −0.7

Nicolas Picard (CIRAD / IRET) December 1, 2011 83 / 106

Les pièges du coefficient de corrélation linéaire

§ρ = 0.77 ρ = 0.66

ρ = 0.8 ρ = 0.76

Nicolas Picard (CIRAD / IRET) December 1, 2011 84 / 106

Réchauffement climatiqueCorrélation positive. . .

Nicolas Picard (CIRAD / IRET) December 1, 2011 85 / 106

Réchauffement climatique. . . ou corrélation négative ?

Nicolas Picard (CIRAD / IRET) December 1, 2011 86 / 106

Liaison entre deux variables ordinales

Coefficient de corrélation des rangs τ de Kendall :k = 1 si Xi < Xj et Yi < Yj , ou si Xi > Xj et Yi > Yj

k = −1 sinonS =

∑k sur les n(n− 1)/2 couples

τ =2S

n(n− 1)

Nicolas Picard (CIRAD / IRET) December 1, 2011 87 / 106

Liaison entre une variable quantitative et une variablequalitative

Rapport de corrélation :

η2 =Var[E(Y |X)]

Var(Y )

C’est aussi :la racine carrée du coefficient de détermination de l’analyse devariance de Y par rapport à X

le coefficient de corrélation multiple de Y par rapport aux variablesindicatrices des modalités de X

la racine carrée du coefficient de détermination de la régressionmultiple de Y par rapport à ces variables indicatrices

Nicolas Picard (CIRAD / IRET) December 1, 2011 88 / 106

Liaison entre une variable quantitative et une variablequalitativeReprésentation graphique

Boîtes parallèles : une boîte à moustache de la variable quantitative parmodalité de la variable qualitative

a b c d e f

−2

02

46

8

Modalités

Val

eurs

Nicolas Picard (CIRAD / IRET) December 1, 2011 89 / 106

Liaison entre deux variables qualitatives

Coefficient de corrélation canonique : c’est la valeur maximale(autre que 1) du coefficient de corrélation linéaire entre unecombinaison linéaire des variables indicatrices des modalités de Xet une combinaison linéaire des variables indicatrices des modalitésde Y

C’est aussi la première valeur propre (autre que 1) de l’analysecanonique des tableaux disjonctifs complets formés à partir de Xet Y

Nicolas Picard (CIRAD / IRET) December 1, 2011 90 / 106

Liaison entre deux variables qualitatives

Statistique du χ2 sur table de contingence

Yj...

Xi · · · nij · · · ni....n.j n

X2 =∑

i

j

(nij −

ni.n.j

n

)2

ni.n.j

n

Nicolas Picard (CIRAD / IRET) December 1, 2011 91 / 106

Liaison entre deux variables qualitativesReprésentation graphique

Diagramme en barres : un diagramme pour l’une des variables parmodalité de l’autre variableExemple : durée d’obtention du DEUG en fonction de l’âged’obtention du bac

<18 18 19 >19

Âge d’obtention du bac (ans)

Effe

ctif

010

020

030

040

0

moy. 18 19 >19

Âge d’obtention du bac (ans)

Fré

quen

ce

0.0

0.2

0.4

0.6

0.8

1.0

Durée d’obtention du DEUG

2 ans3 ans4 ans

Nicolas Picard (CIRAD / IRET) December 1, 2011 92 / 106

Liaison entre n variables

Liaison deux à deux :matrice des corrélationsgraphiques

j L’absence de liaisons 2 à 2 ne signifie pas qu’il n’y apas de liaisons entre 3, 4. . . variables j

Contre-exemple : (X,Y, Z) avecX ∼ loi uniforme dans {−1, 1}Y ∼ loi uniforme dans {−1, 1} indépendamment de X

Z = X × Y

Nicolas Picard (CIRAD / IRET) December 1, 2011 93 / 106

Exemple : les iris de Fisher

Nicolas Picard (CIRAD / IRET) December 1, 2011 94 / 106

Relation entre n variables : tableau des nuages de points

Exemple des iris :

Sepal.Length

2.0 3.0 4.0 0.5 1.5 2.5

4.5

5.5

6.5

7.5

2.0

3.0

4.0

Sepal.Width

Petal.Length

12

34

56

7

4.5 5.5 6.5 7.5

0.5

1.5

2.5

1 2 3 4 5 6 7

Petal.Width

Nicolas Picard (CIRAD / IRET) December 1, 2011 95 / 106

Panorama des statistiques et rappels

1 Panorama

2 Rappels de probabilités

3 Lois usuelles

4 Statistiques descriptives : cas unidimensionnel

5 Statistiques descriptives : cas multidimensionnel

6 Conclusion

Nicolas Picard (CIRAD / IRET) December 1, 2011 96 / 106

Démarche

Question scientifique↓

Quelle méthode ? Quel dispositif de mesure ?↓

Acquisition, puis structuration des données↓

Analyses exploratoires↓

Analyse pour répondre à la question

Nicolas Picard (CIRAD / IRET) December 1, 2011 97 / 106

Quelle méthode ? Quel dispositif de mesure ?

EstimerExemple de la moyenne d’une population gaussienne→ quelle taille d’échantillon ?TesterExemple de la comparaison des moyennes de deux populationsgaussiennesLiaisons

Nicolas Picard (CIRAD / IRET) December 1, 2011 98 / 106