STAT-G201: Chapitre 1: La statistique...

49
STAT-G201: Chapitre 1: La statistique descriptive Caroline Verhoeven

Transcript of STAT-G201: Chapitre 1: La statistique...

  • STAT-G201:Chapitre 1: La statistique descriptive

    Caroline Verhoeven

  • Table des matières

    1 Introduction

    2 Types de données

    3 TableauxDonnées quantitativesDonnées qualitatives

    4 Mesures statistiquesMesures de positionStatistiques de dispersion

    5 GraphiquesDonnées quantitativesDonnées qualitatives

    ULBBeamerlogo

    Caroline Verhoeven STAT-G201 2 / 49

  • 1. Introduction

    Acquisition des données : Types d’études

    Etudes observationnellesObservation dans le tempsSans intervention externe

    Etudes expérimentalesIntervention de l’expérimentateur

    ULBBeamerlogo

    Caroline Verhoeven STAT-G201 3 / 49

  • 1. Introduction

    Etudes observationnelles

    Prospectives (”cohort” studies)

    Rétrospectives (”case-control” studies)

    ULBBeamerlogo

    Caroline Verhoeven STAT-G201 4 / 49

  • 1. Introduction

    Etudes observationnelles : Prospectives

    Suivi d’une cohorte d’individus au cours du temps

    cohorte

    sujets

    contrôles

    conséquence

    sans conséquence

    conséquence

    sans conséquence

    début étude tempssens de l’étude

    ULBBeamerlogo

    Caroline Verhoeven STAT-G201 5 / 49

  • 1. Introduction

    Etudes observationnelles : Rétrospectives

    Etudes d’individus possédant un même ”résultat”

    sujets

    contrôles

    exposé

    pas exposé

    exposé

    pas exposé

    début étude tempssens de l’étude

    ULBBeamerlogo

    Caroline Verhoeven STAT-G201 6 / 49

  • 1. Introduction

    Etudes expérimentales : Essais cliniques

    Evaluation d’un traitement (intervention)

    Etudes comparatives : un groupe reçoit le traitement, l’autre pasComment choisir les 2 groupes ? Idéalement identiques avant letraitement

    Idéal : des jumeaux, 1 des 2 dans chaque groupeDes sujets dont “les variables relevantes” sont identiques2 groupes choisis au hasard

    ULBBeamerlogo

    Caroline Verhoeven STAT-G201 7 / 49

  • 2. Types de données

    Types de données I

    données

    Qualitatives Quantitatives

    Nominales Ordinales Discrètes Continues

    ULBBeamerlogo

    Caroline Verhoeven STAT-G201 8 / 49

  • 2. Types de données

    Types de données II

    Données qualitatives (catégorielles)Données nominalesExemple :Sexe : Homme ou femme, groupe sanguin : O, A, B, ABDonnées ordinalesExemple :Evaluation du prof : très défavorable, défavorable, satisfaisant,favorable, très favorable

    Données quantitatives (intrinsèquement numériques)Données discrètesExemple :Nombre d’enfants dans un ménageDonnées continuesExemple :Poids, taille, taux de cholestérol

    ULBBeamerlogo

    Caroline Verhoeven STAT-G201 9 / 49

  • 3. Tableaux 1. Données quantitatives

    Série statistique

    Ce tableau contient l’énumération des données

    Exemple 1

    Poids de la prof de stati xi1 57,02 57,43 57,34 57,85 56,96 56,57 56,98 57,39 56,6

    10 56,4

    i : “identification” du sujet

    xi : Mesures, ici poids de la prof

    ULBBeamerlogo

    Caroline Verhoeven STAT-G201 10 / 49

  • 3. Tableaux 1. Données quantitatives

    Variables continues : table de fréquences

    Lorsque les observations sont plus nombreuses, elles sont présentéessous forme groupées, on obtient un tableau de fréquences

    Exemple 2

    Le taux d’acide urique (mg/100ml) de N = 267 donneurs de sangrépartis en 8 classes

    Classe j nj n′j]3,00;4,00] 17 0,064]4,00;4,50] 33 0,124]4,50;5,00] 40 0,150]5,00;5,50] 54 0,202]5,50;6,00] 47 0,176]6,00;6,50] 38 0,142]6,50;7,50] 3 0,116]7,50;9,00] 7 0,026

    nj : Nombre de sujets dans laclasse j , fréquence absolue

    n′j : n′

    j = nj/N, fréquencerelative

    ULBBeamerlogo

    Caroline Verhoeven STAT-G201 11 / 49

  • 3. Tableaux 1. Données quantitatives

    Variables continues : table de fréquences cumulées

    On peut également faire une table de fréquences cumulées

    Exemple 3

    Le taux d’acide urique (mg/100ml) de N = 267 donneurs de sangrépartis en 8 classes

    Classe j nj Nj N ′j]3,00;4,00] 17 17 0,064]4,00;4,50] 33 50 0,188]4,50;5,00] 40 90 0,338]5,00;5,50] 54 144 0,540]5,50;6,00] 47 191 0,716]6,00;6,50] 38 229 0,858]6,50;7,50] 31 260 0,974]7,50;9,00] 7 267 1,000

    nj : Le nombre de sujets dansla classe j , fréquence absolue

    Nj : Nj = n1 + n2 + · · ·+ nj ,fréquence cumulée jusqu’à laclasse j incluse

    N ′j : Nj/N : fréquence cumuléerelative

    ULBBeamerlogo

    Caroline Verhoeven STAT-G201 12 / 49

  • 3. Tableaux 1. Données quantitatives

    Variables discrètes : Table de fréquences

    On regroupe les sujets ayant les mêmes mesures et on construit untableau de fréquences et de fréquences cumulées

    Exemple 4

    Nombre de garçons parmi N = 38495 familles de 8 enfants

    xj nj n′j Nj N′

    j

    0 161 0,004 161 0,0041 1152 0,030 1313 0,0342 3951 0,103 5264 0,1373 7603 0,198 12867 0,3354 10263 0,267 23130 0,6025 8498 0,221 31628 0,8236 4948 0,129 36576 0,9527 1635 0,042 38211 0,9948 284 0,007 38495 1,001

    xj , (j : 1, . . . ,9) : Mesure, nombrede garçons par famille

    nj : nombre de familles avec xjgarçons, fréquence absolue

    n′j : fréquence relative

    Nj : Nj = n1 + n2 + · · ·+ nj ,fréquence cumulée

    N ′j : Nj/N, fréquence cumuléerelative

    ULBBeamerlogo

    Caroline Verhoeven STAT-G201 13 / 49

  • 3. Tableaux 2. Données qualitatives

    Table de fréquences

    Exemple 5

    Tableau de fréquences des causes principales de mortalité chez lesjeunes de 15 à 19 ans aux Etats-Unis en 1999

    Cause de la mort Fréquence Pourcentage1 Accidents 6.688 48.542 Homicide 2.093 15,193 Suicide 1.615 11,724 Tumeurs malignes 745 5,415 Maladies cardiaques 463 3,366 Anomalies congénitales 222 1,617 Maladies respiratoires chroniques 107 0,788 Grippes et pneumonies 73 0.539 Maladies cérébrovasculaires 67 0.49

    10 Autres tumeurs 52 0,3811 Autres causes 1.653 12,00

    Total 13.778 100,0

    ULBBeamerlogo

    Caroline Verhoeven STAT-G201 14 / 49

  • 4. Mesures statistiques 1. Mesures de position

    La moyenne d’une série

    Moyenne pour les séries : x =1N

    N∑

    j=1

    xj

    Exemple 6

    Poids moyen de la prof de stat :

    x =1

    10(57, 0 + 57, 4 + 57, 3 + 57, 8 + 56, 9

    + 56, 5 + 56, 9 + 57, 3 + 56, 6 + 56, 4) = 57, 01

    ULBBeamerlogo

    Caroline Verhoeven STAT-G201 15 / 49

  • 4. Mesures statistiques 1. Mesures de position

    La moyenne d’une série regroupée

    Moyenne pour les séries regroupées : x =1N

    c∑

    j=1

    njx∗

    j

    c : le nombre de classes

    Exemple 7

    Taux d’acide uriqueClasse j nj x∗j

    ]3, 00; 4, 00] 17 3,50]4, 00; 4, 50] 33 4,25]4, 50; 5, 00] 40 4,75]5, 00; 5, 50] 54 5,25]5, 50; 6, 00] 47 5,75]6, 00; 6, 50] 38 6,25]6, 50; 7, 50] 31 7,00]7, 50; 9, 00] 7 8,25

    x∗j : centre de la classe

    taux moyen d’acide urique :

    x =1

    267(17 × 3,50 + 33 × 4,25 + 40 × 4,75

    + 54 × 5,25 + 47 × 5,75 + 38 × 6,25

    + 31 × 7 + 7 × 8,25) = 5,45

    ULBBeamerlogo

    Caroline Verhoeven STAT-G201 16 / 49

  • 4. Mesures statistiques 1. Mesures de position

    La moyenne de données discrètes

    Moyenne pour des variables discrètes x =1N

    c∑

    j=1

    njxj

    c : le nombre de mesures discrètes différentes

    Exemple 8

    Nombre de garçons parmi N = 38495 familles de 8 enfants

    xj nj0 1611 11522 39513 76034 102635 84986 49487 16358 284

    Moyenne du nombre de garçons :

    x =1

    38495(161 × 0 + 1152 × 1 + 3951 × 2

    + 7603 × 3 + 10263 × 4 + 8498 × 5

    + 4948 × 6 + 1635 × 7 + 284 × 8)

    = 4, 13

    ULBBeamerlogo

    Caroline Verhoeven STAT-G201 17 / 49

  • 4. Mesures statistiques 1. Mesures de position

    La médiane : principe

    Définition 9

    La médiane, x̃ , est “la mesure du milieu” : 50% des sujets auront desmesures plus petites, 50% des mesures plus grandes

    Comment calculer la médiane ?

    ULBBeamerlogo

    Caroline Verhoeven STAT-G201 18 / 49

  • 4. Mesures statistiques 1. Mesures de position

    La médiane d’une série

    Pour les séries :

    Exemple 10

    Poids de la prof de stati xi1 57,02 57,43 57,34 57,85 56,96 56,57 56,98 57,39 56,6

    10 56,4

    i xi10 56,46 56,59 56,65 56,97 56,91 57,03 57,38 57,32 57,44 57,8

    Ordonner les variables : petit −→ grand

    N impair ⇒ la médiane : la mesure à laplace N+12Exemple : N = 7 ⇒ x̃ : la mesure à laplace 82 = 4

    N pair ⇒ la médiane : la moyenne desmesures à la place N2 et

    N2 + 1

    Exemple : A gauche, N = 10 et doncx̃ = 12(56, 9 + 57, 0) = 56.95

    ULBBeamerlogo

    Caroline Verhoeven STAT-G201 19 / 49

  • 4. Mesures statistiques 1. Mesures de position

    La classe médiane

    Pour les séries regroupées :

    Exemple 11

    Taux d’acide uriqueClasse j nj Nj N ′j

    ]3, 00; 4, 00] 17 17 0,064]4, 00; 4, 50] 33 50 0,188]4, 50; 5, 00] 40 90 0,338]5, 00; 5, 50] 54 144 0,540]5, 50; 6, 00] 47 191 0,716]6, 00; 6, 50] 38 229 0,858]6, 50; 7, 50] 31 260 0,974]7, 50; 9, 00] 7 267 1,000

    On utilise le tableau et/ou lediagramme de fréquencescumulées

    La classe qui contient lamédiane : la 1ère classe pourlaquelle N ′j ≥ 0.5

    ULBBeamerlogo

    Caroline Verhoeven STAT-G201 20 / 49

  • 4. Mesures statistiques 1. Mesures de position

    La médiane pour les données discrètes

    Pour les variables discrètes

    Exemple 12

    Nombre de garçons dans une famille de 8 enfantsxj nj Nj N ′j0 161 161 0,0041 1152 1313 0,0342 3951 5264 0,1373 7603 12867 0,3354 10263 23130 0,6025 8498 31628 0,8236 4948 36576 0,9527 1635 38211 0,9948 284 38495 1,001

    On utilise la table de fréquencescumulées

    La médiane : la 1ère mesure pourlaquelle N ′j ≥ 0.5Exemple : On voit dans la tableauà gauche que cela correspond à 4garçons.

    ULBBeamerlogo

    Caroline Verhoeven STAT-G201 21 / 49

  • 4. Mesures statistiques 1. Mesures de position

    centiles

    Le cème centile est la mesure telle c% des sujets ont une mesureinférieure

    La médiane est un cas spécial : c’est le 50ème centile

    Pour calculer le centile exacte, on utilise souvent un logiciel.Pour les séries regroupées on peut aussi :

    Déterminer la classe du centile

    ULBBeamerlogo

    Caroline Verhoeven STAT-G201 22 / 49

  • 4. Mesures statistiques 1. Mesures de position

    Classe du centile : exemple

    Exemple 13

    Taux d’acide uriqueClasse j nj Nj N ′j

    ]3,00;4,00] 17 17 0,064]4,00;4,50] 33 50 0,188]4,50;5,00] 40 90 0,338]5,00;5,50] 54 144 0,540]5,50;6,00] 47 191 0,716]6,00;6,50] 38 229 0,858]6,50;7,50] 31 260 0,974]7,50;9,00] 7 267 1,000

    Déterminons la classe du 60ème

    centile

    Considérons la table defréquences cumulées

    La classe du 60ème centile est la1ère classe où N ′j ≥ 0.6

    Dans notre exemple : c’ est laclasse ]5, 50; 6, 00]

    ULBBeamerlogo

    Caroline Verhoeven STAT-G201 23 / 49

  • 4. Mesures statistiques 1. Mesures de position

    Les quartiles

    Les quartiles sont des cas particuliers des centiles :

    Le 1er quartile, Q1 correspond au 25èmecentile

    Le 2èmequartile correspond à la médiane

    Le 3ème quartile Q3 correspond au 75ème centile

    ULBBeamerlogo

    Caroline Verhoeven STAT-G201 24 / 49

  • 4. Mesures statistiques 1. Mesures de position

    Le mode

    La (les) mesure(s) de fréquence maximum

    On utilise les tableaux de fréquences

    Pour les séries et les variables discrètes : La (les) valeurs les plusobservées

    Pour les séries regroupées ”la classe modale” est la classe defréquence maximum

    ULBBeamerlogo

    Caroline Verhoeven STAT-G201 25 / 49

  • 4. Mesures statistiques 1. Mesures de position

    Conclusions tendances centrales

    Quand utiliser les tendances centrales :Statistiques Quand ?

    Moyenne quantitativespas de données aberrantesgrands échantillons

    Médiane quantitatives, ordinalesok avec les données aberrantes

    Mode quantitatives, qualitativesdistribution multimodale

    ULBBeamerlogo

    Caroline Verhoeven STAT-G201 26 / 49

  • 4. Mesures statistiques 2. Statistiques de dispersion

    Statistiques de dispersion

    Exemple 14

    Les séries de mesures

    {99, 100, 101}

    {0, 100, 200}

    on toutes 2 une moyenne x = 100, mais leur dispersion est trèsdifférente

    ULBBeamerlogo

    Caroline Verhoeven STAT-G201 27 / 49

  • 4. Mesures statistiques 2. Statistiques de dispersion

    L’étendue

    L’étendue E est donnée par

    E=maximum - minimum

    ULBBeamerlogo

    Caroline Verhoeven STAT-G201 28 / 49

  • 4. Mesures statistiques 2. Statistiques de dispersion

    Comment définir la variance ?

    Pour les séries :

    De quelle manière les mesurent diffèrent-elles de la moyenne ?

    Proposition : Regardons la différence entre les mesures et lamoyenne

    1N

    N∑

    i=1

    (xi − x)

    Problème : Exemple avec 3 données

    13

    (

    (x1 − x) + (x2 − x) + (x3 − x))

    =13(x1 + x2 + x3)− x = x − x = 0

    ULBBeamerlogo

    Caroline Verhoeven STAT-G201 29 / 49

  • 4. Mesures statistiques 2. Statistiques de dispersion

    La variance d’une série

    Autre proposition : Regardons le carré de la différence entre lesmesures et la moyenne

    s2x =1

    N − 1

    N∑

    j=1

    (xj − x)2,

    la variance !

    N − 1 : nombre de degrés de liberté1

    N−1 ≃1N pour N grand

    Exemple : 11000 = 0,001000 ≃1

    999 = 0,001001

    ULBBeamerlogo

    Caroline Verhoeven STAT-G201 30 / 49

  • 4. Mesures statistiques 2. Statistiques de dispersion

    La variance d’une série regroupée et de donnéesdiscrètes

    Pour les séries regroupées :

    s2x =1

    N − 1

    c∑

    j=1

    nj(x∗

    j − x)2

    c : nombre de classe, x∗j milieu de la classe j

    Pour les variables discrètes :

    s2x =1

    N − 1

    c∑

    j=1

    nj(xj − x)2

    c : nombre des mesures discrètes différentes

    ULBBeamerlogo

    Caroline Verhoeven STAT-G201 31 / 49

  • 4. Mesures statistiques 2. Statistiques de dispersion

    La déviation standard d’une série

    La déviation standard sx :

    sx =√

    s2xPour les séries :

    Exemple 15

    i xi (xi − x)2

    1 57,0 0,00012 57,4 0,15213 57,3 0,08414 57,8 0,62415 56,9 0,01216 56,5 0,26017 56,9 0,01218 57,3 0,08419 56,6 0,1681

    10 56,4 0,3721

    sx =

    1N − 1

    N∑

    j=1

    (xj − x)2

    Pour notre exemple :

    s2x =19(0,0001 + 0,1521 + 0,0841 + 0,6241

    + 0,0121 + 0,2601 + 0,0121

    + 0,0841 + 0,1681 + 0,3721) = 0,1966

    ⇒ sx =√

    0, 1966 = 0, 44ULBBeamerlogo

    Caroline Verhoeven STAT-G201 32 / 49

  • 4. Mesures statistiques 2. Statistiques de dispersion

    La déviation standard d’une série regroupée

    Pour les séries regroupées :

    sx =

    1N − 1

    c∑

    j=1

    nj(x∗j − x)2

    ULBBeamerlogo

    Caroline Verhoeven STAT-G201 33 / 49

  • 4. Mesures statistiques 2. Statistiques de dispersion

    La déviation standard de données discrètes

    Pour les variables discrètes :

    Exemple 16

    Nombre de garçons dans une famille de 8 enfants (N = 38495)xj nj0 1611 11522 39513 76034 102635 84986 49487 16358 284

    sx =

    1N − 1

    c∑

    j=1

    nj(xj − x)2

    Pour notre exemple :

    sx =

    138494

    (83.294, 24) = 1, 47

    ULBBeamerlogo

    Caroline Verhoeven STAT-G201 34 / 49

  • 4. Mesures statistiques 2. Statistiques de dispersion

    L’écart interquartile

    On en déduit l’écart interquartile IQR :

    IQR = Q3 − Q1

    Cette étendue va donc du 25ème centile au 75ème centile

    ULBBeamerlogo

    Caroline Verhoeven STAT-G201 35 / 49

  • 4. Mesures statistiques 2. Statistiques de dispersion

    Conclusions : mesures de dispersion

    Quand utiliser les mesures de dispersion :Statistiques Quand ?

    Etendue quantitativespas de données aberrantesêtre prudent

    Déviation standard quantitativespas de données aberrantesgrands échantillons

    Ecart interquartile quantitatives, ordinalesok avec des données aberrantes

    ULBBeamerlogo

    Caroline Verhoeven STAT-G201 36 / 49

  • 5. Graphiques 1. Données quantitatives

    Valeurs numériques continues : histogrammes

    Exemple 17

    Classe j nj Ij yj = nj/Ij]3, 00; 4, 00] 17 1,0 17,00]4, 00; 4, 50] 33 0,5 66,00]4, 50; 5, 00] 40 0,5 80,00]5, 00; 5, 50] 54 0,5 108,00]5, 50; 6, 00] 47 0,5 94,00]6, 00; 6, 50] 38 0,5 76,00]6, 50; 7, 50] 31 1,0 31,00]7, 50; 9, 00] 7 1,5 4,67

    Ij : largeur de la classe3 4 5 6 7 8 9

    20

    40

    60

    80

    100yj

    taux d’acide urique(mg/100ml)

    ULBBeamerlogo

    Caroline Verhoeven STAT-G201 37 / 49

  • 5. Graphiques 1. Données quantitatives

    Valeurs numériques continues : diagrammes desfréquences cumulées

    Exemple 18

    Classe j nj Nj N ′j]3, 00; 4, 00] 17 17 0,064]4, 00; 4, 50] 33 50 0,188]4, 50; 5, 00] 40 90 0,338]5, 00; 5, 50] 54 144 0,540]5, 50; 6, 00] 47 191 0,716]6, 00; 6, 50] 38 229 0,858]6, 50; 7, 50] 31 260 0,974]7, 50; 9, 00] 7 267 1,000 3 4 5 6 7 8 9

    0.2

    0.4

    0.6

    0.8

    1.0N ′j

    bb

    b

    b

    b

    b

    b

    b b

    taux d’acide urique(mg/100ml)

    ULBBeamerlogo

    Caroline Verhoeven STAT-G201 38 / 49

  • 5. Graphiques 1. Données quantitatives

    La médiane par le diagramme de fréquencescumulées

    Pour les séries regroupées :

    Exemple 19

    Taux d’acide urique

    3 4 5 6 7 8 9

    0.2

    0.4

    0.6

    0.8

    1.0N ′j

    bb

    b

    b

    b

    b

    b

    b b

    0.5

    x̃taux d’acide urique(mg/100ml)

    x̃ : la valeur qui correspond àN ′j = 0, 5

    ULBBeamerlogo

    Caroline Verhoeven STAT-G201 39 / 49

  • 5. Graphiques 1. Données quantitatives

    Le centile par le diagramme de fréquences cumulées

    Exemple 20

    3 4 5 6 7 8 9

    0.2

    0.4

    0.6

    0.8

    1.0N ′j

    bb

    b

    b

    b

    b

    b

    b b

    c60taux d’acide urique(mg/100ml)

    c60 : la valeur qui correspond à un N ′j =0, 6

    ULBBeamerlogo

    Caroline Verhoeven STAT-G201 40 / 49

  • 5. Graphiques 1. Données quantitatives

    Variables discrètes : diagramme en bâtons pour lesfréquences

    Exemple 21

    Nombre de garçons parmi N = 38495 familles de 8 enfants

    xj nj0 1611 11522 39513 76034 102635 84986 49487 16358 284 0 1 2 3 4 5 6 7 8 9

    2000

    4000

    6000

    8000

    10000

    12000nj

    Nombre de garçons

    ULBBeamerlogo

    Caroline Verhoeven STAT-G201 41 / 49

  • 5. Graphiques 1. Données quantitatives

    Variables discrètes : diagramme en bâtons pour lesfréquences cumulées

    Exemple 22

    xj nj Nj N ′j0 161 161 0,0041 1152 1313 0,0342 3951 5264 0,1373 7603 12867 0,3354 10263 23130 0,6025 8498 31628 0,8236 4948 36576 0,9527 1635 38211 0,9948 284 38495 1,001

    0 1 2 3 4 5 6 7 8 9

    0.2

    0.4

    0.6

    0.8

    1.0N ′j

    Nombre de garçons

    ULBBeamerlogo

    Caroline Verhoeven STAT-G201 42 / 49

  • 5. Graphiques 1. Données quantitatives

    La boı̂te à moustaches I

    Exemple 23

    Le taux de fer (mg/100g) de 14 aliments différentsAliment fer (xi )boeuf, cuit 6,16graines de tournesol,grillées, salées 3,81chocolat 3,13purée tomate, conserve 2,98haricots blancs, bouillis 2,94choux de bruxelles, bouillis 1,20lait de soja 1,10laitue, crue 1,00brocoli, cru 0,91épinards, crus 2,70chou rouge, cru 0,80framboises, crues 0,69fraises, crues 0,42pommes de terre, cuites 0,35

    x = 2, 014

    x̃ = 1, 150

    Q1 = 0, 828

    Q3 = 2, 970

    min= 0, 35

    max= 6, 16

    ULBBeamerlogo

    Caroline Verhoeven STAT-G201 43 / 49

  • 5. Graphiques 1. Données quantitatives

    La boı̂te à moustaches II

    Les données sont représentées dans la boı̂te à moustaches :

    1

    2

    3

    4

    5

    6fe

    r(m

    g/10

    0g)

    min

    max

    Q1

    Q3

    ULBBeamerlogo

    Caroline Verhoeven STAT-G201 44 / 49

  • 5. Graphiques 1. Données quantitatives

    La boı̂te à moustaches III

    Pourquoi a-t-on conseillé de manger des épinards ?

    Exemple 24

    Le taux de fer (mg/100g) de 14 aliments différentsAliment fer (xi )bœuf, cuit 6,16graines de tournesol,grillées, salées 3,81chocolat 3,13purée tomate, conserve 2,98haricots blancs, bouillis 2,94choux de bruxelles, bouillis 1,20lait de soja 1,10laitue, crue 1,00brocoli, cru 0,91épinards 35,00chou rouge, cru 0,80framboises, crues 0,69fraises, crues 0,42pommes de terre, cuites 0,35

    x = 4, 321

    x̃ = 1, 150

    Q1 = 0, 828

    Q3 = 3, 092

    min= 0, 35

    max= 35, 00ULBBeamerlogoCaroline Verhoeven STAT-G201 45 / 49

  • 5. Graphiques 1. Données quantitatives

    La boı̂te à moustaches IV

    Les données sont représentées dans la boı̂te à moustaches :

    10

    20

    30

    fer

    (mg/

    100g

    )

    La boite à moustache met labarre au maximum que si

    max≤ Q3 + 1.5 × IQR

    La boite à moustache met labarre au minimum que si

    min ≤ Q1 − 1.5 × IQR

    Si ce n’est pas le cas, il prendles premières valeurs quisatisfont à ces conditions

    Les autres mesures sontreprésentées à part et sontdite aberrantesULBBeamerlogo

    Caroline Verhoeven STAT-G201 46 / 49

  • 5. Graphiques 2. Données qualitatives

    On part de la table de fréquences

    Exemple 25

    Table de fréquences des causes principales de mortalité chez les jeunesde 15 à 19 ans aux Etats-Unis en 1999

    Cause de la mort Fréquence Pourcentage1 Accidents 6.688 48.542 Homicide 2.093 15,193 Suicide 1.615 11,724 Tumeurs malignes 745 5,415 Maladies cardiaques 463 3,366 Anomalies congénitales 222 1,617 Maladies respiratoires chroniques 107 0,788 Grippes et pneumonies 73 0.539 Maladies cérébrovasculaires 67 0.49

    10 Autres tumeurs 52 0,3811 Autres causes 1.653 12,00

    Total 13.778 100,0

    ULBBeamerlogo

    Caroline Verhoeven STAT-G201 47 / 49

  • 5. Graphiques 2. Données qualitatives

    Diagrammes en bâtons

    Exemple 26

    Données de l’exemple 23 en diagramme en bâtons

    ULBBeamerlogo

    Caroline Verhoeven STAT-G201 48 / 49

  • 5. Graphiques 2. Données qualitatives

    Diagrammes en camembert

    Exemple 27

    Données de l’exemple 23 en diagramme en camembert

    ULBBeamerlogo

    Caroline Verhoeven STAT-G201 49 / 49

    IntroductionTypes de donnéesTableauxDonnées quantitativesDonnées qualitatives

    Mesures statistiquesMesures de positionStatistiques de dispersion

    GraphiquesDonnées quantitativesDonnées qualitatives