La statistique descriptive

49
La statistique descriptive objectif : présenter les données pour que l'on puisse en prendre connaissance facilement

description

La statistique descriptive. objectif : présenter les données pour que l'on puisse en prendre connaissance facilement. La statistique descriptive. peut concerner : une variable à la fois : statistique à une dimension deux variables à la fois : statistique à deux dimensions - PowerPoint PPT Presentation

Transcript of La statistique descriptive

Page 1: La statistique descriptive

La statistique descriptive

• objectif : présenter les données pour que l'on puisse en prendre connaissance facilement

Page 2: La statistique descriptive

La statistique descriptive

• peut concerner :– une variable à la fois : statistique à

une dimension– deux variables à la fois : statistique à

deux dimensions– plus de deux variables à la fois :

statistique multidimensionnelle

Page 3: La statistique descriptive

La statistique descriptive

• comporte :– les tableaux : distributions de

fréquences– les diagrammes : graphiques– les paramètres statistiques : réduction

des données à quelques valeurs numériques caractéristiques

Page 4: La statistique descriptive

Distribution groupée : exemple

Classe Ci ni fi Ni Fi

[140-160[ 150 10 0,05 10 0,05

[160-165[ 162,5 20 0,10 30 0,15

[165-170[ 167,5 30 0,15 60 0,30

[170-175[ 172,5 45 0,225 105 0,525

[175-180[ 177,5 40 0,20 145 0,725

[180-185[ 182,5 35 0,175 180 0,90

[185-190[ 187,5 15 0,075 195 0,975

[190-200[ 195 5 0,025 200 1,0

N=200 1k fi =1

k = nombre de classes

Page 5: La statistique descriptive

Polygone des fréquences

Exemple

Nombre de colonies bactériennes/dm2

1 2 3 4 5 6 7 8 9 10

11 1205

1015202530354045

Nombre de colonies bactériennes/dm2 ni1 52 73 154 255 356 457 328 289 1610 1211 312 1

Page 6: La statistique descriptive

Histogramme : exemple

Classe ni Densité (*10)[140-160[ 10 5[160-165[ 20 40[165-170[ 30 60[170-175[ 45 90[175-180[ 40 80[180-185[ 35 70[185-190[ 15 30[190-200[ 5 5

140 160 170 180 1900

10

20

3040

50

60

70

80

90

200

Page 7: La statistique descriptive

Diagramme sectoriel : exemple

GROUPE niA 35B 9O 40AB 16

A

BO

AB

Page 8: La statistique descriptive

• Appelée moyenne notée x– Paramètre central qui concerne

bien évidemment uniquement des variables quantitatives.

– Calculable quelque soit la loi qui régit la distribution.

– Somme des valeurs (T) divisée par le nombre de mesures (N).

– Suivant la forme de présentation des observations, différentes formules de calcul peuvent être employées.

La moyenne arithmétique :

Page 9: La statistique descriptive

• Propriétés :– Centre de gravité de la distribution. – La somme des écarts à la moyenne est nulle. – Affectée par les changements de variable.

• Si y = ax + b; on a : y = ax + b– La moyenne contrairement à la médiane est très

sensible aux valeurs extrêmes. – La moyenne d'un groupe résultant de la fusion

d'autres groupes n'est égale à la moyenne des moyennes que si tous les groupes ont le même effectif.

– Si la distribution de la variable suit une loi normale, la moyenne et la médiane et le mode sont confondus.

– La distribution des moyennes de petits échantillons (N<30) indépendants tirés de la même population suit une loi normale si la distribution de la variable est normale.

– Au delà de 30, la distribution des moyennes suit une loi normale sans condition sur la distribution de la variable.

– La moyenne de l'échantillon est le meilleur estimateur de la moyenne de la population.

La moyenne arithmétique :

Page 10: La statistique descriptive

N = Nombre total de mesures,p = Nombre de valeurs différentes observées, ni = Nombre d'occurrences de chaque valeur observée.fi = pourcentage de la valeur observée ig = nombre de groupes

N nii 1

p

T x ii1

N

ni xi i1

p

N * fixii 1

p

fi = ni

N fi

i =1

p

1

x T

N fix i

i1

p

La moyenne : formules

• Somme des valeurs / Nbre d'observations

Page 11: La statistique descriptive

• Soit la série statistique correspondant aux tailles de 6 étudiants : 160, 170, 180, 180, 190, 200

N = 6, T = 1080, x =1080/6 = 180

• Soit la distribution suivante

Nombre de colonies bactériennes/dm2 ni ni*xi1 5 52 7 143 15 454 25 1005 35 1756 45 2707 32 2248 28 2249 16 14410 12 12011 3 3312 1 12p = 12 N = 224 T = 1 366

x = 1 366 / 224 = 6,098

La moyenne

• Exemples

Page 12: La statistique descriptive

Les autres valeurs centrales

• Les autres moyennes– Moyenne géométrique d'une

série de valeur positives est la racine Nième du produit des N valeurs. Elle est toujours inférieure ou égale à la moyenne arithmétique.

Page 13: La statistique descriptive

Les autres valeurs centrales

• Les autres moyennes– Moyenne harmonique d'une

série de valeurs positives est égale à l'inverse de la moyenne des inverses.

Page 14: La statistique descriptive

Les autres valeurs centrales

• Les autres moyennes– Moyenne quadratique est la

racine carré de la moyenne arithmétique des carrés.

Page 15: La statistique descriptive

Les autres valeurs centrales

• La médiane notée x(tilde) est telle que la moitié des observations lui sont inférieure (ou égale) et la moitié supérieure (ou égale) : xi tel que Fi = 0,5.– Sur les distributions symétriques (normales par

exemple) la médiane est égale à la moyenne et au mode.

– Paramètre peu sensible aux valeurs extrêmes– Sur une distribution non groupée :

• Si N impair, la médiane est l'observation de rang (N+1)/2

• Si N est pair, tout nombre entre xN/2 et xN/2+1 convient. On prend la moyenne (pondérée en cas d'exaequo) entre ces deux valeurs.

– Sur distribution groupée, la classe médiane est celle qui contient la médiane.

• Détermination graphique• En admettant que les observations soient réparties

uniformément dans cette classe, on a :

xi limite inférieure de la classe contenant la médiane

i amplitude de la classe contenant la médiane

fi fréquence relative de la classe contenant la médiane

F ( xi) fréquence relative cumulée de la classe

xi -1

xi

˜ x = xi

i*

0 , 5 F ( xi)

fi

˜

Page 16: La statistique descriptive
Page 17: La statistique descriptive

71 210 268 342 741

Paramètres de dispersion

• Amplitude ou étendue– Ecart entre la valeur de l'observation maximale

et celle de l'observation minimale.– Non définie pour les distributions groupées– On montre que l'écart type est toujours inférieur

ou égal à la moitié de l'amplitude.– Dans les distributions unimodales en cloche

l'écart type est égal au tiers de l'amplitude pour N de l'ordre de 10, au quart de l'amplitude pour N entre 15 et 50, au cinquième pour des effectifs de 50 à 200 et au sixième pour des effectifs de 200 à 1000.

• Ecart interquartiles– Q3 -Q1– Englobe 50% des observations– On utilise parfois l'écart semi-interquartile (Q3-

Q1)/2– Donne naissance à la représentation en

« boxplot »

Page 18: La statistique descriptive

Paramètres de dispersion : Variance, Écart type

• Variance et écart type– La variance (variance) d'une série

ou d'une distribution de fréquence est la moyenne arithmétique des carrés des écarts à la moyenne.^

Page 19: La statistique descriptive

Paramètres de dispersion : Variance, Écart type

• Variance et écart type– C'est par rapport à la moyenne

que la somme des carrés des écarts est la plus faible.

^

Page 20: La statistique descriptive

Paramètres de dispersion : Variance, Écart type

• Variance et écart type– La variance de l'échantillon est

notée S2. Ce n'est pas un bon estimateur de la variance de la population notée 2. ^

Page 21: La statistique descriptive

Paramètres de dispersion : Variance, Écart type

• Coefficient de variation (cv)– C’est le rapport de l’écart type

divisé par la moyenne

• Écart type de la moyenne– Cf distribution des moyennes de

plusieurs échantillons

^

Page 22: La statistique descriptive

Paramètres de dispersion :

Coefficient de variation• Le coefficient de variation CV

(Coefficient of variation, percentage standard deviation) – CV est le rapport écart type

divisé par la moyenne.– CV est un nombre pur, sans

unités.– CV est totalement indépendant

des unités.– Le CV permet de comparer la

variabilité de distributions de variables qui ne sont pas dans les mêmes unités.

Page 23: La statistique descriptive

Statistique descriptive à 2 dimensions

• Situations :– Nature des variables : les deux

variables peuvent être quantitatives, qualitatives ou l'une quantitative et l'autre qualitative.

– Séries appariées : même variable mesurée dans deux circonstances

• Avant - Après traitement• Cas - Témoins on apparie un témoin

dépourvu de la maladie que l'on veut étudier sur différents points que l'on sait lier au phénomène étudié (par exemple pour une étude de la mortalité on apparie sur âge, sexe, ...)

– Séries non appariées• Deux variables mesurées chez le même

individu par exemple poids et taille; poids et couleur des yeux...

Page 24: La statistique descriptive

Poids Taille70 17080 18065 16575 17590 18273 17060 16268 16583 180

... ...

5560657075808590

160 165 170 175 180 185Taille

Poids

PoidsTaille 60 65 68 70 73 75 80 83 90 Tot.162 1 1165 1 1 2170 1 1 2175 1 1180 1 1 2182 1 1Tot. 1 1 1 1 1 1 1 1 1 9

Tableaux statistiques à deux dimensions et

représentation graphique• Séries• Distribution de fréquence• Table de contingence

Page 25: La statistique descriptive

Cheveux

Yeux Blonds Bruns Autres Tot. (Li)

Clairs 50 20 30 100

Foncés 60 80 60 200

Tot. (Cj) 110 100 90 300

300 = Nombre total de mesures

100 = Nombre d'individus ayant les yeux clairs

110 = Nombre d'individus ayant les cheveux blonds

50 / 300 = % d'individus ayant les cheveux blonds et les yeux clairs

50 / 110 = % d'individus parmi les blonds ayant les yeux clairs

50 / 100 = % d'individus parmi les yeux clairs ayant les cheveux blonds

Fréquences relatives

• Nombre de mesure totale N

• Total de chaque ligne = Li

• Total de chaque colonne = Ci

• Effectif d'une cas = nij

• Fréquences relatives:– nij / Li

– nij / Cj

– nij / N

– Li / N

– Cj / N

Page 26: La statistique descriptive

Cov (x,y) =

N

i = 1

N

x * y -i i N

T * Tx y

i = 1

N

x * y i i

= Txy = somme des produits

• sert au calcul du coefficient de corrélation r.

Covariance

– Variable quantitative– cov (x,y) = moyenne des produits des

écarts à la moyenne. 1/N * 1N(xi-x)*(yi-y)

pour i = 1 à N– si x' = ax+b et y'=cy + d,

on a Cov(x'y') = ac Cov (x,y)– toujours inférieure ou égale au produit des

écart types– positive = "nuage" croissant– négative = "nuage" décroissant

• calcul :

Page 27: La statistique descriptive

Table du Khi2

Page 28: La statistique descriptive

Table du t de Student

Page 29: La statistique descriptive

Qu’est ce qu’un test statistique ?

•A. Hypothèses statistiques

•B. Tests d’hypothèses et de signification

•C. Quelques rappels de logique :

•D. Tests bilatéraux et tests unilatéraux

•E. Les erreurs de première et de deuxième espèces

•F. Significativité ou niveau de signification

•H. Quelques exemples de questions

Page 30: La statistique descriptive

A. Hypothèses statistiques•Ce sont des affirmations relatives aux

distributions de probabilité.

•Ces affirmations peuvent être vraie ou fausse.

•Dans la plupart des tests on formule une

hypothèse dans le but de la rejeter.

•Exemple :

•le pourcentage observé dans la population est de

10%. Si l’on veut décider que le pourcentage

observé dans un groupe particulier diffère du

pourcentage observé dans la population. On

supposera qu’il n’y a aucune différence. On peut

encore formuler cette hypothèse sous la forme :

•“Toutes les différences observées sont dues à

des fluctuations d’échantillonnage : dues au

hasard.

•Une telle hypothèse est appelée hypothèse nulle

notée H0.

•Toutes les autres hypothèses sont dites

hypothèses alternatives et sont notées H1.

Page 31: La statistique descriptive

B. Tests d’hypothèses et de signification

•On appelle test d’hypothèses ou de signification les procédés statistiques qui permettent de décider si les hypothèses sont vraies ou fausses afin d’appréhender la réalité que l’on ne connaît pas.

•C'est un domaine des statistiques inférentielles

•Il existe des tests différents en fonction

•du type de variables étudiées (quantitative/qualitative)

•du type de problème (comparaison de 2 moyennes/comparaison de plus de 2 moyennes)

•des conditions d'application (modélisation en terme de loi de probabilité)

•Cependant la suite logique du déroulement d'un test est toujours la même

Page 32: La statistique descriptive

D. Tests bilatéraux et tests unilatéraux

•L’hypothèse nulle H0 retenue est le plus souvent l’égalité. Les hypothèses alternatives peuvent être alors toutes les autres situations que l’on peut diviser en deux grandes catégories : plus grand que; plus petit que.

•Lorsque l’on considère l’ensemble des hypothèses alternatives on parle de test bilatéral.

•Lorsque pour des questions de bon sens à priori, on ne considère qu’une partie des hypothèses alternatives : soit plus grand que soit plus petit que on parle de test unilatéral.

•ex : on désire comparer la taille des enfants de 3 et 4 ans. Le test est unilatéral, on ne "raccourcit pas les gosses"

Page 33: La statistique descriptive

E. Les erreurs de première et de deuxième espèces Risques alpha et beta

•1. L’erreur de première espèce :•Le système de décision que l’on emploie nous amène à rejeter l’hypothèse nulle alors que celle si est vraie. Exemple dans un essai concernant un nouveau médicament par rapport à un médicament plus ancien, on conclut à un différence des traitements alors que cela n’est pas la réalité. On commet un erreur de première espèce.

•2. L’erreur de deuxième espèce :•Elle représente une situation en miroir du premier cas. On accepte l’hypothèse nulle (le plus souvent d’égalité et on conclut à l’équivalence) alors que dans la réalité ce n’est pas vrai. Exemple dans un essai concernant un nouveau médicament par rapport à un médicament plus ancien, on conclut à l’équivalence des traitements alors que cela n’est pas la réalité. On commet un erreur de deuxième espèce.

•3. Remarque•Dans les tests unilatéraux, on peut isoler un cas particulier d’erreur dite de troisièmes espèce. C’est le cas ou l’on accepte l’hypothèse alternative (on rejette l’hypothèse nulle). On conclut alors à une différence signée (A>B par exemple) alors que dans la réalité, il y a une différence mais dans l’autre sens.

Page 34: La statistique descriptive

F. Significativité ou niveau de signification p•Lorsque l’on teste une hypothèse, la probabilité avec laquelle on accepte de réaliser une erreur de première espèce est appelée seuil de signification du test et est notée usuellement alpha. Ce risque est spécifié avant l’expérience, au moment où l’on pose le problème.

•La probabilité avec laquelle on accepte de réaliser une erreur de deuxième espèce est notée usuellement beta.

•La probabilité de rejeter H0 alors qu’elle est fausse est appelée puissance du test

Puissance = 1- beta

•Il n’y a pas de lien direct entre les deux risques alpha et beta. L’idéal serait de choisir alpha et beta aussi proche de 0 que possible. En général on choisit alpha très petit = 0.05 et l’on essaie de minimiser beta (en général 0,1).

Cf calcul du nombre de sujets nécessaires.

•Le seuil de signification p est la probabilité, sous l’hypothèse nulle d’observer une telle différence du fait du hasard (Cf étapes d’un test).

Page 35: La statistique descriptive

G. Les étapes d’un test•1. Énoncé de H0 que l’on accepte provisoirement

•2. Énoncé des hypothèses alternatives H1 et choix d’un test bilatéral ou unilatéral

•3. Choix d’une statistique T (ex Khi2, t de Student, Epsilon ...) : fonction des observations dont on connaît la loi de probabilité quand H0 est vraie et qui va permettre de prendre une décision.

•4. Détermination de la valeur critique C calculée d’après cette loi et d’après le risque alpha accepté

•5. Calcul tiré de l’échantillon de la valeur prise t par cette statistique T

•6. Comparaison de t et de C qui aboutit à accepter ou à rejeter H0

•7. Calcul du seuil de signification p : probabilité d’observer au moins cette différence du fait du hasard.

Page 36: La statistique descriptive

Comparaison d’un pourcentage observé à un pourcentage

théorique Situation du problème

• Situation du problème :– Variable qualitative dichotomique– Conformité d’un pourcentage observé à

un pourcentage théorique• On exprime la question sous une

forme compréhensible mais qui ne correspond pas à la réalité. Strictement, le pourcentage observé (Pobs) diffère du pourcentage théorique (Pth) (par exemple Pobs = 0,07 et Pth = 0,025). Ce qui est intéressant c’est de savoir si cette différence peut être attribuée au hasard ou encore si le pourcentage de la population dont est tiré l’échantillon observé peut être considéré comme valant Pth.

– Problème fréquent– Exemple : taux de décès au cours d ’un

intervention par rapport à une référence nationale.

Page 37: La statistique descriptive

Comparaison d’un pourcentage observé à un pourcentage

théorique. H0/H1

• Hypothèses– Hypothèse nulle H0 :

• L’échantillon peut être considéré comme issu d ’une population ayant comme pourcentage PH0

– PH0 = Pth– Hypothèses alternatives :

• Test bilatéral– PH0 # Pth

• Test unilatéral– PH0 > pth ou (exclusif) PH0< Pth

– Statistiques utilisables• Khi 2• Epsilon ou u (Loi normale)• Remarque : ces deux tests sont

équivalents et ont les mêmes conditions d ’application :

– N * Pth > 5– N * (1-Pth) >5

On approche une loi binomiale par une loi normale

• Si les conditions ne sont pas remplies on prend une autre méthode

Page 38: La statistique descriptive

Comparaison d’un pourcentage observé à un pourcentage

théorique : Khi 2• Utilisation du KHI2. Test Bilatéral

(unilatéral possible mais moins habituel)– Tableau des valeurs :

Décès Non Décès Total

Effectifs Observés O1 O2 N

Effectifs ThéoriquesC1 =

Pth*N

C2 =

(1-Pth)*NN

– Statistique :

Khi 2 = (O1-C1)

2

C1

(O2-C2)2

C2+

DDL = 1

– Décision :

– Valeur critique : table du Khi 2•Pour alpha = 0,05 Khi2 à 1 DLL = 3,84

alpha

Khi 2< Khi2 alpha

On rejette H0, on accepte H1

Il existe une différence statistiquement significative au seuil de risque alpha. On lit dans la table le seuil de significativité p

Khi 2 > Khi2 alpha

On accepte H0. Attention au risque Bêta

Conditions : C1 > 5 et C2 >5

Page 39: La statistique descriptive

Khi2 : exemple• Exemple :

– Dans un échantillon de 200 malades, on a observé un taux de décès dus à une maladie cardio-vasculaire de 30% alors que la référence nationale est de 40%. Peux -t- on considérer que le taux observé est statistiquement différent du taux national au seuil de risque 5% ?

– H0 PH0 = 0.4– H1 Test bilatéral : PH0 # 0.4

Décès Non Décès Total

Effectifs Observés 60 140 200

Effectifs Théoriques 80 120

Note : 60 = 0,3 *20080 = 0,4 *200

Khi 2 = (60-80)

2

80+

(140-120)2

120= 8,33

DDL =1

Khi 5% = 3,84 => Rejet de H0DDL =1 Le pourcentage de décès observés

diffère de manière significative de 40% au seuil de risque 5%

Lecture dans la table de p : 0,001 < p < 0,01 (Khi2 = 10,83 Khi 2 = 6,63)

Page 40: La statistique descriptive

Comparaison de pourcentages : séries

appariées : HO/H1• Hypothèses

– Hypothèse nulle H0• Si le comportement est le même avant et après

(entre cas et témoins) on doit s’attendre à avoir le même effectif de paires discordantes : de couple Oui -> Non et de couple Non -> oui. Le pourcentage de changement doit être de 50%>.

• Ceci revient à un test de comparaison d’un pourcentage observé {Oui -> Non / ( Oui->Non + Non->Oui) ou Non -> Oui / ( Oui->Non + Non->Oui )} à un pourcentage théorique 50%

– Hypothèse alternative H1• Bilatéral :

– Le pourcentage de Oui->Non ou de Non->Oui différe de 50%

• Unilatéral– On peut a priori s’attendre au sens

– Statistiques utilisables• Khi 2 : Test de Mac Nemar• Epsilon• Dans les 2 cas, on approche une loi binomiale

par une loi normale => Conditions d’application

Page 41: La statistique descriptive

Comparaison d'une distribution observée à une distribution

théorique• Exemple 1 :–Dans un essai thérapeutique, on a testé un médicament sur 200 patients. Les résultats ont été notés en bons, moyens et mauvais. On a obtenu les pourcentages de bons résultats suivants :

45% de bons résultats, 15% de résultats moyens et 40% de mauvais résultats

Dans la littérature ce traitement donne 75% de bons résultats, 22% de résultats moyens et 3% de résultats mauvais. Les résultats observés sont-ils conformes à ceux de la littérature?

•H0 : Les résultats sont conformes

•H1 : Les résultats ne sont pas conformes

Table de contingence

Bons Moyens Mauvais Total

Obs. 90 (0,45*200) 30 80 200

Théo 150 44 6 200

Khi2=(90-150)

150

2(30-44)

30

2(80 - 6)

6

2

2+ + = 941,12

La distribution n'est pas conforme à la distribution observée dans la littérature. Les résultats obtenus sont statistiquement moins bons que ceux de la littérature.Remarque : le calcul d'un seul des termes du khi 2 (le dernier par exemple) permet de rejeter H0.

DDL = 2; Khi20,001 =13,82 => p<0,001

Page 42: La statistique descriptive

Exemple

• Exemple 1 (suite)O A B AB Total

Nancy487 390 84 39

1 000

Metz403 340 75 22

840

Dijon283 227 51 12

573

Strasbourg195 151 32 3

381

Total 1 368 1 108 242 76 2 794

489,62 396,56 86,61 27,20

411,28 333,11 72,76 22,85

280,55 227,23 49,63 15,59

186,55 151,09 33,00 10,36

Les conditions d’application sont remplies (tous les effectifs théoriques sont supérieurs à 5).

Khi 2 = (487 - 489,62) 489,62

2

+ ...... +(3 - 10,36) 10,36

2

= 12,26

DDL = (4-1)*(4-1) = 9 Khi 2 5% pour DDL 9 = 16,92

On ne met pas en évidence de différence significative entre les distributions des groupes sanguins dans les 4 villes.

Page 43: La statistique descriptive

Statistique t de Student

• Statistique :– t de Student

• Condition d’application :– Si N < 30 : Normalité de la distribution

(cf paramètres de symétrie et d'aplatissement)

• Données nécessaires :– Moyenne théorique m, moyenne observée

x

– Estimateur de l’écart type

– Effectif de l’échantillon N

t =| x - m |

N

2

• Décision : t > t alpha lu dans la table : on rejette H0. Il y a

une différence significative. On recherche dans la table le degré de signification p.

Remarque : Pour décider, on aurait pu calculer p et comparer p au risque alpha retenu. Si p<alpha on rejette H0

DDL = N-1

Page 44: La statistique descriptive

Exemple

• Exemple :– On tire au sort un échantillon de 100 comprimés de

valium d’un lot de fabrication qui doit fournir des comprimés dosés à 5mg. On obtient les résultats suivants : Total des valeurs T= 495, Total des carrés des valeurs U = 2500. La fabrication peut-elle être considérée comme conforme au dosage prévu ? (on prend alpha = 5%)

– H0 : La fabrication est conforme.

x = 4,95495

100 2

= 2500 -

495100

100 - 1

2

= 0,5025

t =0,5025

100

5 - 4,95= 0,70 DDL = 99 talpha 5% = 1,96

Le t est inférieur au talpha 5% , je ne peux pas rejeter H0. La fabrication peut être considérée comme conforme. Mais attention au risque Bêta.

Remarque : t est le rapport entre l’écart des moyennes et l’ESM.

Page 45: La statistique descriptive

Exemple

• Exemple : Dans une production de médicaments, la valeur théorique de la concentration de principe actif doit être de 12mg. L’écart type de la population est de 1 mg. On réalise tous les jours un échantillon de 100 comprimés destiné au suivi de la qualité. => Pour alpha = 5%, d = 2 * 0,1

• Sur 15 jours on a les résultats suivants :

Moyenne de l'échantillon

11,99 11,91 11,83 12,13 12,24 12,07 11,96 12,04 12,11 11,86 11,91 11,86 11,82 11,96 11,94

11,5

11,6

11,7

11,8

11,9

12

12,1

12,2

12,3

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Borne Inf.

Moyenne

Borne Supérieure

Moyenne de l'échantillon

Sur les 15 jours un seul point est (j5) hors limite.

Page 46: La statistique descriptive

Corrélation• Position du problème

– On désire savoir, dans une population donnée, si le poids (y) et la taille (x) d'un individu sont deux variables indépendantes ou, au contraire, si elles sont liées en étudiant les variation de l’une en fonction de l’autre et réciproquement

– Si les variables sont indépendantes yi doit avoir, en moyenne, la même valeur quelque soit xi et inversement.

– Pour répondre au problème posé, on reléve sur un échantillon de N individus, les N couples de valeurs x,y

• Définitionr =

covariance (X,Y)

var(X) * var (Y)

• Le coefficient de corrélation mesure l’association linéaire entre X et Y

• Il fait jouer un rôle symétrique à X et Y• Il reste identique si on change d’unité ou

d’origine

Page 47: La statistique descriptive

Corrélation• Tableau des valeurs :

• Représentation graphique Nuage de points

• Paramètres :Moyennes, Écarts type estimés, Covariance, Coefficient de corrélation

Éléments nécessaires :Nombre de couples : NTotal des produits X*YTotal des X et des YTotal des carrés des X et des Y

Poids Taille70 18060 17550 16070 18055 160

Poids\Taille 160 175 18050 155 160 170 2

Poids et Taille

155

160

165

170

175

180

185

0 20 40 60 80

Page 48: La statistique descriptive

Corrélation

• Régression et corrélation :– x et y sont deux variables aléatoires : x en

fonction de y et y en fonction de x ont un sens (poids/taille) => corrélation

– y est explicable par x (action /dose) => régression

• Droite de régression des moindres carrés

y

x

••

d1

d2

y = a + b X

Droite de régression de y en xMinimise la somme des d1i

[yi - y(x)] = ( yi - a - b * xi)2 2

Cette somme, xi et yi étant connus, est fonction uniquement de a et b. Le minimum est connu en annulant les dérivées partielles par rapport à a et par rapport à b

Droite de régression de x en yMinimise la somme des d2i

Page 49: La statistique descriptive

Divers types de résultats• Importance de la visualisation du nuage de

points

2

3

4

5

6

7

8

9

10

2 3 4 5 6 7 8 -9

-8

-7

-6

-5

-4

-3

-2

2 3 4 5 6 7

456789

1011121314151617

2 4 6 8 -9-8-7-6-5-4-3-2-1012345

0 2 4 6 8

4

5

6

2 3 4 5 6 7

4,8

5

5,2

5,4

5,6

5,8

6

6,2

4,5 5 5,5 6 6,5

« Amande à petit ventre »

Forte corrélation positive r > +0,9 Forte corrélation négative r < -0,9

« Amande à gros ventre »

Faible corrélation positive Faible corrélation négative

Pas de corrélation r voisin de 0