Module Biostat 1AM Partie1

48
Pr_E. BOUAITI : Module BIOSTATISTIQUE 26/11/2015 1 BIOSTATISTIQUE Pr E. BOUAITI UPR Médecine sociale UNIVERSITE MOHAMMED V ‐ RABAT FACULTE DE MEDECINE ET DE PHARMACIE Objectif pédagogique principale Expliquer les grands aspects de la biostatistique ainsi que son utilité dans le domaine de la santé 2 26/11/2015 Objectifs pédagogiques spécifiques (1) Discuter l’intérêt des biostatistiques en sciences médicales Enumérer les principales sources de variabilité biologique Expliquer les concepts d’échantillon, de population, de représentativité. Définir les variables et citer un exemple pour chaque type de variables 3 26/11/2015 Objectifs pédagogiques spécifiques (2) Reconnaître la loi normale, citer les autres lois de probabilité. Comprendre et utiliser les concepts de fluctuation d’échantillonnage et d’intervalle de confiance. Décrire une série statistique Expliquer les tests statistiques ainsi que les résultats qui en découlent 4 26/11/2015 Programme 1. Principes de base en Biostatistiques 2. La statistique descriptive 3. Organisation et Présentation des données 4. Estimation et fluctuations d’échantillonnage 5. Les principales lois de probabilité 6. Principes des tests statistiques 7. Les tests de comparaison de pourcentages 8. Les tests de comparaison de moyennes 5 26/11/2015 Principes de base en biostatistique

description

médecine 1 ere année

Transcript of Module Biostat 1AM Partie1

Page 1: Module Biostat 1AM Partie1

Pr_E. BOUAITI : Module BIOSTATISTIQUE

26/11/2015

1

BIOSTATISTIQUE

Pr E. BOUAITI

UPR Médecine sociale

UNIVERSITE MOHAMMED V ‐ RABATFACULTE DE MEDECINE ET DE PHARMACIE

Objectif pédagogiqueprincipale

Expliquer les grands aspects de la

biostatistique ainsi que son utilité dans

le domaine de la santé

226/11/2015

Objectifs pédagogiquesspécifiques (1)

• Discuter l’intérêt des biostatistiques en sciences médicales

• Enumérer les principales sources de variabilité biologique

• Expliquer les concepts d’échantillon, de population, de représentativité.

• Définir les variables et citer un exemple pour chaque type de variables

326/11/2015

Objectifs pédagogiquesspécifiques (2)

• Reconnaître la loi normale, citer les autres lois de probabilité.

• Comprendre et utiliser les concepts de fluctuation d’échantillonnage et d’intervalle de confiance.

• Décrire une série statistique

• Expliquer les tests statistiques ainsi que les résultats qui en découlent

426/11/2015

Programme

1. Principes de base en Biostatistiques

2. La statistique descriptive

3. Organisation et Présentation des données

4. Estimation et fluctuations d’échantillonnage

5. Les principales lois de probabilité

6. Principes des tests statistiques 

7. Les tests de comparaison de pourcentages

8. Les tests de comparaison de moyennes

526/11/2015

Principes de base en biostatistique

Page 2: Module Biostat 1AM Partie1

Pr_E. BOUAITI : Module BIOSTATISTIQUE

26/11/2015

2

Plan

• Introduction • La biostatistique : Définition et intérêt• Variabilité• Unité statistique• Population• Échantillon• Variables statistiques• Les mesures de bases• Conclusion

726/11/2015

Introduction

Pourquoi un module de biostatistique?

Raisonnement

Méthodologie statistique

Incertitude

Exercice médicale

826/11/2015

Introduction

• Exemple: tabac et cancer du poumon

926/11/2015

Introduction

Formation médicale

Prévalence

Incidence

Facteur de risque

Population

Recherche clinique

Sensibilité

Spécificité

Essai clinique

FréquencePourcentage

Groupe a risque

Test statistique

Échantillon

Estimation

Moyenne

Écart type

Variance

Efficacité

Probabilité

1026/11/2015

Plan

• Introduction • La biostatistique : Définition et intérêt• Variabilité• Unité statistique• Population• Échantillon• Variables statistiques• Les mesures de bases• Conclusion

1126/11/2015

Définition

• Statistique :

– Ensemble des méthodes scientifiques consistant àréunir, organiser, présenter des donnéesnumériques sur une/plusieurs particularité(s)commune(s) chez un groupe de personnes ou dechoses, puis à analyser, tirer des conclusion etprendre des décisions.

• Une statistique : un nombre calculé à partir d'observations.

1226/11/2015

Page 3: Module Biostat 1AM Partie1

Pr_E. BOUAITI : Module BIOSTATISTIQUE

26/11/2015

3

Historique

• Dénombrement de populations humaines pour les besoins de la guerre et de l'impôt. 

• Véritable début : 18ième siècle : – Première classification des causes de décès– Calcul des probabilités (P. S. de Laplace, K. F. Gauss, S. D.  Poisson)

– 1853: premier congrès

1326/11/2015

• Première moitié du 20ième siècle– Statistiques biologiques et psychologiques

• Biométrie et Psychométrie

– 1940 Recherche opérationnelle

• Deuxième moitié du 20ième siècle– Développement de l'informatique– Analyse des données

14

Historique

26/11/2015

Domaines d’utilisation de la statistique

• Statistique officielle 

• Banques – Assurances

• Santé et Sciences de la vie

• Environnement ( air, eau, foresterie, pêche …)

• Sciences humaines

• Entreprises – Industrie  (contrôle de qualité, études de marché, management…)

• Presse – Médias

• ... Discipline transversale1526/11/2015

Biostatistique

1. Définition 

– Application des concepts et principes statistiques à des données médicales, biologiques et de santé public. 

2. Exemples

– Les effets d’un médicament.

– L’effet du niveau du cholestérol sur la pression artérielle.

– Le nombre de patients admis aux urgences.

1626/11/2015

BiostatistiqueDeux branches distinctes

Statistique descriptive

• Organisation, présentation et analyse des données 

• Synthèse de l’information: résumés statistiques.

• Expression des résultats : représentation graphique.

• Étape préliminaire

Statistique inférentielle

• Permet de généraliser à de grands ensembles 

d'éléments les conclusions tirées des résultats obtenus à partir d’un nombre réduit 

d’observations 

Echantillon Inférence Population ?

•Inférer = tirer une conclusion à partir de propositions ou de faits, et de règles1726/11/2015

A quoi sert la biostatistique?

• Gestion des observations (des données) 

– Recueillir, présenter, analyser

– Aider à la prise de décisions et à la résolution de problèmes.

• Comprendre et mener correctement des– Expériences– Enquêtes– Travaux de recherche

1826/11/2015

Page 4: Module Biostat 1AM Partie1

Pr_E. BOUAITI : Module BIOSTATISTIQUE

26/11/2015

4

Pourquoi des statistiques en médecine ?

Variabilité?

Échantillon?

1926/11/2015

Plan

• Introduction • La biostatistique : Définition et intérêt• Variabilité• Unité statistique• Population• Échantillon• Variables statistiques• Les mesures de bases• Conclusion

2026/11/2015

Variabilitéexemple

150 168 153174 177 188160 180 183187 175 175162 174 189180 185 176167 160 182185 185 160164 180 185153 187 182

Taille en cm de 30 étudiants de la faculté de médecine

On s'intéresse à la taille des étudiants de la faculté de médecine.Les données sont présentées commeelles ont été recueillies.  Ainsi, il n'est pas facile  de répondre à unequestion comme:  quel est le pourcentage des étudiants ayant une taille supérieure à 180?

2126/11/2015

Fluctuation d’échantillonnage

• Tirage au sort : Échantillon représentatif

• Plusieurs échantillons peuvent être constituésEchantillon 1 :

n1=30

m1= 172 Echantillon 2:

n2=30

m2= 174

Echantillon 3 :

n3=130

m3= 175

2226/11/2015 22

Variabilité

Variabilité totale 

Variabilité biologique 

Variabilité intra‐individuelle 

Variabilité inter‐individuelle

Variabilité métrologique 

Variabilité expérimentale 

Variabilité appareil de mesure

23

La variabilité = la règle et non l’exception26/11/2015

Variabilité biologique

Variabilité inter‐individuelle

Caractéristiques qui différent d’un individu à l’autre

Si vous observez des personnes dans la rue vous constatez qu’elles n’ont pas toutes la même couleur de 

cheveux.

Variabilité intra‐individuelle

Caractéristiques évoluant dans le temps chez un 

même individu

Si vous mesurez la tension artérielle d’un individu à différents moments de la 

journée vous obtiendrez des valeurs différentes.

La variabilité = la règle et non l’exception2426/11/2015

Page 5: Module Biostat 1AM Partie1

Pr_E. BOUAITI : Module BIOSTATISTIQUE

26/11/2015

5

Variabilité métrologique

• Variabilité de la mesure• Variabilité expérimentale

• Variabilité appareil de mesure

– Essayer de mesurer plusieurs (100) fois la taille en mm d’un individu : vous trouverez des valeurs différentes cependant dans l’absolu un individu a une taille et une seule.

La variabilité = la règle et non l’exception2526/11/2015

Variabilité : conséquences

• Il n’existe pas de « vraie valeur »

• Valeur usuelle 

• Valeur exceptionnelle, hors norme

Difficulté pour interpréter

et utiliser les informations mesurées

2626/11/2015

Variabilité : résumé

• Caractéristique dans le domaine des sciences de la santé : VARIABILITE 

– Chez un même individu

– Entre les individus

– Entre les groupes d’individus

– etc.

• Biostatistique : Traiter les problèmes de variabilité dans les données

La variabilité = la règle et non l’exception

2726/11/2015

Plan

• Introduction • La biostatistique : Définition et intérêt• Variabilité• Unité statistique• Population• Échantillon• Variables statistiques• Les mesures de bases• Conclusion

2826/11/2015

Unité statistiqueou individu

• Définition• Une unité distincte chez laquelle on peut observer une ou plusieurs caractéristiques données.

• Élément sur lequel sont effectuées des observations ou des mesures

• Exemples• Individu, animal, organe, cellule, champ de microscope,...

• Regroupement d’unités: Grappe ou cluster

• Patients d’un service

2926/11/2015

• La définition de l’individu dépend des paramètres étudiés• Exemple 1 : paramètre étudié : note d’un étudiant dans un groupe de TD

• Un individu = un étudiant

• Exemple 2 : paramètre étudié : note moyenne de chaque groupe de TD d’étudiant 

• Un individu  = un groupe de TD (Grappes)

3026/11/2015

Unité statistiqueou individu

26/11/2015 30

Page 6: Module Biostat 1AM Partie1

Pr_E. BOUAITI : Module BIOSTATISTIQUE

26/11/2015

6

Plan

• Introduction • La biostatistique : Définition et intérêt• Variabilité• Unité statistique• Population• Échantillon• Variables statistiques• Les mesures de bases• Conclusion

3126/11/2015

Population• Définition

– Ensemble d’individus (ou unités statistiques ) sur lequel on étudie une ou plusieurs caractéristiques et qui sont de même nature

• Exemples– Femmes atteintes du cancer du sein.

– Ensemble des patients hospitalisés dans un hôpital

– Toutes les naisances de l’année en cours 

– Ensemble des étudiants inscrits à la faculté de médecine

– …3226/11/2015

• On peut ne pas connaitre tous les individus qui composent une population

• Une population peut être partitionnée en sous populations:

• Hommes atteints du VIH.• Femmes fumeuses et atteintes du cancer du poumon.

• Taille de la population– Le nombre d'individus constituant la population.

– Généralement très grande  Notation : N3326/11/2015

Population

• Si population limitée : Exhaustive

– Recensement : Tous les sujets de la population sont « examinés »

34

Population

• Exemple : les étudiants de la 1ère année médecine

26/11/2015

Population

• Si population importante : Une partie des sujets de la population 

sont « examinés »

35

Population

Échantillon

• Exemple : tous les étudiants de la faculté de médecine

26/11/2015

Population Plan

• Introduction • La biostatistique : Définition et intérêt• Variabilité• Unité statistique• Population• Échantillon• Variables statistiques• Les mesures de bases• Conclusion

3626/11/2015

Page 7: Module Biostat 1AM Partie1

Pr_E. BOUAITI : Module BIOSTATISTIQUE

26/11/2015

7

Échantillon

1. Définition– Sous ensemble d’une population et qui est de de taille finie 

2. Exemples– 200 Femmes atteintes du cancer du sein

– 100 étudiants inscrits à la faculté de médecine

3726/11/2015

• On connait tous les individus qui composent un échantillon

• Taille de l'échantillon :  le nombre d‘individu dans l'échantillon. 

Notation : n3826/11/2015

Échantillon

Pourquoi travaille‐t‐on sur un échantillon ?

coût

temps

3926/11/2015

Échantillon : Inférence

40

Population

Caractéristiques?

Échantillon 

REPRESENTATIVITE

26/11/2015

• Échantillon représentatif : 

– Échantillon qui reflète fidèlement la complexité et la composition de la population. 

• Échantillonnage aléatoire : 

– Prélèvement au hasard, et de façon indépendante, d’un certain nombre " n " d’éléments à partir d’une population de " N " éléments. 

– Chaque élément de la population doit avoir la même probabilité d’être sélectionné.

4126/11/2015

Échantillon : Inférence Plan

• Introduction • La biostatistique : Définition et intérêt• Variabilité• Unité statistique• Population• Échantillon• Variables statistiques• Les mesures de bases• Conclusion

4226/11/2015

Page 8: Module Biostat 1AM Partie1

Pr_E. BOUAITI : Module BIOSTATISTIQUE

26/11/2015

8

Variable statistique

• Définition

– Caractéristique ou facteur susceptible de prendre une valeur différente selon les individus (ou les unités statistiques) étudiés

– Notation :  X , Y , W , ... (caractères)

• Exemple :

– Le sexe des patients hospitalisés

– Le poids, la taille, 

– La durée d’incubation d’une maladieVariable : variations

4326/11/2015

• Caractéristique mesurable pour toutes les unités statistiques. 

• Valeurs: les mesures distinctes d'une caractéristique donnée.

– Notation :  x1 , x2 , ...  (modalités)

– Exemple :

• Pour la couleur des yeux : {noir ; bleu ; vert} 

• Pour le sexe : {homme ; femme}

Variable : variations

4426/11/2015

Variable statistique

• Valeurs possibles Tous les résultats possibles a priori si on fait une observation d'une variable

– Exemple :• Sexe :  x1: Masculin, x2: Féminin• Groupe ABO: x1:  A, x2 : B, x3: O, x4: AB

• Valeur observéeRésultat a posteriori d'une observation d'une variable

– Exemple :• Sexe : x=x1: Masculin• Groupe ABO: x=x4 : AB

4526/11/2015

Variable statistique Types de variables

• Différentes natures ou types :

– Des catégories (Sexe, Couleur, Forme,…)

– Des rangs (position dans un ordre de préférence)

– Des comptages (nombre d’objets, nombre d’espèces, …)

– Des mesures physiques (température, pH, poids,…)

– Des profils, des items ….

4626/11/2015

• Variable qualitative(on définie des classes)

• Variable quantitative

4726/11/2015

Types de variables Variables qualitatives

• Définition– Une variable statistique est qualitative si ses valeurs, ou modalités, correspondent à des « qualités » :

• Non mesurables sur une échelle 

• Présence ou absence d’une caractéristique

Variable qualitative nominale Variable qualitative ordinale

4826/11/2015

Page 9: Module Biostat 1AM Partie1

Pr_E. BOUAITI : Module BIOSTATISTIQUE

26/11/2015

9

Variable qualitative nominale

• Définition :– C'est une variable qualitative dont les modalités ne sont pas ordonnées. 

– Si deux modalités : Dichotomique/ binaire

• Exemples– Variable binaire 

• Sexe : homme ou femme• État de santé : malade ou sain

– Groupe sanguin • A, B, AB, O

– Situation familiale : • Célibataire, marié, divorcé, veuf

26/11/2015 49

Variable qualitative ordinale

• Définition :– C'est une variable qualitative dont les modalités sont naturellement ordonnées (il existe un ordre entre les classes).

• Exemple :– Niveau d’étude : 

• Primaire, secondaire, universitaire.

– Stade de gravité d’une maladie : • Modéré, sévère, très sévère

5026/11/2015

Variable qualitativeExemple

• Population :  les résidents de Rabat (2015)

• Variable :  

X: la langue maternelle d'un résident

• Unité statistique :  un résident

• Valeurs : 

x : Arabe , Berbère , Français , Anglais , Autres .

Variable qualitative nominale

5126/11/2015

Variable qualitativeExemple

• Population :  les résidents de Rabat (2015)

• Unité statistique :  un résident

• Variable :  

X: le niveau socio ‐ économique

• Valeurs : 

x : Classe inférieure, Classe moyenne , Classe supérieure.

Variable qualitative ordinale

5226/11/2015

Variables quantitatives

• Définition– Une variable statistique est quantitative si ses valeurs sont des nombres exprimant une quantité, sur lesquels les opérations arithmétiques (somme, différence...) ont un sens.

Variable quantitative discrète Variable quantitative continue

5326/11/2015

Variable quantitative discrète 

• Définition

– Une variable discrète peut prendre un nombre limité ( le nombre de possibilités est fini) de valeurs isolées, généralement entières. 

• Exemples 

– Nombre d’enfants d’une famille : 0, 1, 2, 3, 4, …10

5426/11/2015

Page 10: Module Biostat 1AM Partie1

Pr_E. BOUAITI : Module BIOSTATISTIQUE

26/11/2015

10

Variable quantitative continue

• Définition

Une variable continue peut prendre n’importe quelle valeur (une infinité de valeurs possibles) entre le minimum et le maximum pour une certaine échelle de mesure.

• Exemples

– Âge, poids, taille, niveau de cholestérol,… .

5526/11/2015

Variable quantitativeExemple

• Population :  les ménages de la ville de Rabat

• Variable :  

X: le nombre d'individus dans le ménage

• Unité statistique :  un ménage

• Valeurs : 

x : 1 , 2 , 3 , 4 , ... , 11 . 

Variable quantitative discrète

5626/11/2015

Variable quantitative Exemple

• Population :  les résidents de la ville de Rabat

• Variable étudiée :

X :  le revenu mensuel en Dhs 

• Unité statistique : un résident

• Valeurs : 

x<3000, x  [3000 , 5000) ou [5000 , 10000) ou ... ou [20000 , 30000)

Variable quantitative continue

5726/11/2015

• On peut grouper une donnée continue ou discrète en classes de valeurs : donnée ordinale

– ex : âge < 20, 20‐25, 25‐30,  30

– ex : nb cigarettes/j = 0, 1‐10, 11‐20, > 20

• Prix : perte d’information !!!

58

Variables continues ou  discrètes ?

26/11/2015

Les variables en résumé

Variables

Variables qualitatives

Dichotomiques

Binaires

Nominales

Ordinales

Variables quantitatives

Continues

Discrètes

5926/11/2015

Plan

• Introduction • La biostatistique : Définition et intérêt• Variabilité• Unité statistique• Population• Échantillon• Variables statistiques• Les mesures de bases• Conclusion

6026/11/2015

Page 11: Module Biostat 1AM Partie1

Pr_E. BOUAITI : Module BIOSTATISTIQUE

26/11/2015

11

Les mesures de base

• Proportion 

• Ratio 

• Indice 

• Taux 

Rapports

6126/11/2015 62

Les mesures de base

Quel numérateur, quel dénominateur ?

Expression de la relation qui existe entre deux quantités.

XIl est de la forme x K

Y

Rapports

26/11/2015

Proportion

• Définition: 

– C’est le rapport où le numérateur est une part du dénominateur.

– Numérateur et dénominateur : même nature

– Expression : 

• Nombre compris entre 0 et 1

• Pourcentage  (pour mille, pour dix mille, …)

6326/11/2015

a+b

a

Proportion

Proportion = * kd

n

n inclus dans dk puissance de 10

souvent k=100

6426/11/2015

65

Proportionexemples

= = 0,5 = 50 p.1004

2

• Une population de 1000 personnes dont 300 fumeurs  la proportion des fumeurs dans ma population?

La proportion des fumeurs = 300/1000 = 30 % 

26/11/2015

Ratio

• Définition

– C’est le rapport des effectifs de deux classes d’une même variable.

– Le numérateur n’est pas inclus dans le dénominateur.

– Numérateur et dénominateur : même nature

– Expression : nombre sans unité

6626/11/2015

Page 12: Module Biostat 1AM Partie1

Pr_E. BOUAITI : Module BIOSTATISTIQUE

26/11/2015

12

Ratio

d

n

n non inclus dans dn et d de même nature

Ratio =

6726/11/2015 68

Ratioexemples

= = 0,5 homme pour 1 femme4

2

Homme

Femme

cancer : ratio 10,6 hommes pour une femme

26/11/2015

Ratioexemples

• Dans une école , nous avons 1200 écoliers dont 400 sont de sexe fémininle sexe ratio M/F?

• Une population de 1000 personnes dont 300 fumeurs  le ratio personnes fumeurs / personnes non fumeurs dans ma population?

Le sexe ratio M/F = 800 / 400 = 2

Le ratio fumeurs / non fumeurs =300/700 = 0,43

6926/11/2015

Indice

• Définition: 

– C’est le rapport des effectifs de deux classes de deux variables différentes.

– Le numérateur n’est pas compris dans le dénominateur.

– Numérateur et dénominateur : 

• Nature différente.

• Référent à des événements différents.

• Exemple : habitant / médecin

7026/11/2015

71

Indice

10 litres d’eau par personne85 lits pour 1 médecin1500 habitant pour 1 médecin

numérateur

dénominateur

de nature différente

26/11/2015

Taux

• Définition :

– C’est une forme particulière de la proportion qui renferme la notion de temps, il exprime la vitesse de changement d’un phénomène dans le temps

– Numérateur : individus ayant subi un événement au cours du temps

– Dénominateur : l’ensemble des individus susceptibles de connaître l’événement pendant cette période

– Expression : nombre de cas pour  10x  personnes ‐temps

7226/11/2015

Page 13: Module Biostat 1AM Partie1

Pr_E. BOUAITI : Module BIOSTATISTIQUE

26/11/2015

13

Taux

Nb de cas survenus au cours d’une période donnée

Taux =                                                                                                  x 10x

Effectif de la population à risqueau cours de la même période

7326/11/2015 74

TauxTaux = probabilité de survenue d’un événement

Population susceptibleEffectif

Temps

maladie

Événement

décès

* ky

x x nb événementsy population exposéek puissance de 10

26/11/2015

75

Taux de mortalité maternelle 

Nb de décès maternels au cours         d’une période

TMM= Nb de Nces vivantes au cours 

de la même période

Tauxexemple

En 2010 : TMM = 110 décès pour 100 mille naissances vivantes

26/11/2015

Conclusion

• Biostatistique et variabilité

– La variabilité est la règle

– La variabilité est non prévisible

• Biostatistique : nécessité pour les professionnels de santé

7626/11/2015

BIOSTATISTIQUE

Pr E. BOUAITI

UPR Médecine sociale

UNIVERSITE MOHAMMED V ‐ RABATFACULTE DE MEDECINE ET DE PHARMACIE Programme

1. Principes de base en Biostatistiques

2. La statistique descriptive

3. Organisation et Présentation des données

4. Estimation et fluctuations d’échantillonnage

5. Les principales lois de probabilité

6. Principes des tests statistiques 

7. Les tests de comparaison de pourcentages

8. Les tests de comparaison de moyennes

7826/11/2015

Page 14: Module Biostat 1AM Partie1

Pr_E. BOUAITI : Module BIOSTATISTIQUE

26/11/2015

14

Programme

1. Principes de base en Biostatistiques

2. La statistique descriptive

3. Organisation et Présentation des données

4. Estimation et fluctuations d’échantillonnage

5. Les principales lois de probabilité

6. Principes des tests statistiques 

7. Les tests de comparaison de pourcentages

8. Les tests de comparaison de moyennes

7926/11/2015

La Statistique Descriptive

Plan

• Définition

• Rappels

• Statistique descriptive : Variable qualitative

• Statistique descriptive : Variable quantitative

• Statistique à deux dimensions

• Conclusion

26/11/2015 81

La Statistique DescriptiveDéfinition

• C’est l'ensemble des méthodes et techniques permettant de– Présenter

– Décrire

– et Résumer

des données nombreuses et variées.

26/11/2015 82

La Statistique DescriptiveDéfinition

• Peut concerner :

–Une variable à la fois : statistique à une dimension

–Deux variables à la fois : statistique à deux dimensions

–Plus de deux variables à la fois : statistique multidimensionnelle.

26/11/2015 83

La Statistique DescriptiveDéfinition

• Décrire les données par 

– Des paramètres statistiques : 

• Réduction des données à quelques valeurs numériques caractéristiques.

– Des tableaux : distributions de fréquences.

– Des diagrammes : graphiques.

26/11/2015 84

Pour la bien mener il faut savoir de quelle type de variable s’agit‐il

Page 15: Module Biostat 1AM Partie1

Pr_E. BOUAITI : Module BIOSTATISTIQUE

26/11/2015

15

Plan

• Définition

• Rappels

• Statistique descriptive : Variable qualitative

• Statistique descriptive : Variable quantitative

• Statistique à deux dimensions

• Conclusion

26/11/2015 85

Rappels : Base de données

Nom Situation de famille

Nombre d’enfants

Age sexe

Patient 1 Marié 2 30 M

Patient 2 Veuf 3 45 M

Patiente 3 Mariée 0 27 F

Patiente 4 Célibataire 0 32 F

Patient 5 Marié 1 39 M

…. …. …. …. ….

Le nombre d'individus étant généralement grand, une telle série brute est difficilement lisible et interprétable. Il est indispensable de la résumer.26/11/2015 86

Exemple : base de donnéesN°patient Prénom Circonstances delaiconsultation Sexe Age Annee orig_vil Dur_hosj type_brul ATCD

15 Sanae phlyctène : henné F 20 2 008 19 2 2208 Zineb liq_chd même jour F 20 2 004 21 0 2125 Fatima flam_gaz dans la semaine F 21 2 006 45 0 262 Fatima Zahra flamme même jour F 23 2 007 Kenitra 14 0 2

135 Maguat flamme F 24 2 006 Mauritanie 110 0 290 Mahjouba liq_chd après un mois F 24 2 006 Temara 12 0 2

223 Loubna flamme dans la semaine F 26 2 004 Casa Blanca 10 0 1252 Fatima Zahra liq_chd même jour F 26 2 009 Rabat 22 0 118 Fatima ex_bo_gz même jour F 26 2 008 Taounate 21 0 249 Houda dans la semaine F 27 2 007 Kenitra 21 0 258 Hanane ex_bo_gz dans la semaine F 27 2 007 Taounate 30 0 211 Najat liq_chd après une semaine F 27 2 008 Salé 14 0 1

234 Hadhoum liq_chd même jour F 28 2 004 Rabat 5 0 2197 Rahma flam_gaz même jour F 28 2 005 88 0 240 Halima liq_chd F 29 2 008 Kenitra 9 0 250 Amina liq_chd dans la semaine F 29 2 007 Kenitra 13 0 2

330 Saida flam_gaz dans la semaine F 30 2 010 Midelt 62 0 2255 Zinba ex_bo_gz même jour F 30 2 009 Tadla 69 0 2274 Kaoutar liq_chd après une semaine F 30 2 009 7 0 1102 Khadija flam_gaz même jour F 31 2 006 Khemissat 50 0 2250 touriya liq_chd dans la semaine F 32 2 009 Salé 35 0 1336 Fatima flamme même jour F 32 2 010 Tiflet 92 0 2241 Touria flamme même jour F 32 2 004 13 0 1133 Fatima Zahra ex_bo_gz après une semaine F 32 2 006 Eljadida 0 1142 Fatima flamme dans la semaine F 34 2 005 24 0 2149 Najat liq_chd F 34 2 005 52 0 2140 Hassna ex_bo_gz même jour F 35 2 005 Méknés 9 0 2283 Achoura ex_bo_gz même jour F 35 2 009 Tiflet 93 0 2103 Lekheila flamme dans la semaine F 36 2 006 Mauritanie 27 0 2296 Amina liq_chd après une semaine F 36 2 010 Agadir 21 0 2

26/11/2015 87

Rappels : variables

Variables

Variables qualitatives

Dichotomiques

Binaires

Ordinales 

Nominales

Variables quantitatives

Continues

Discrètes

26/11/2015 88

Observables

Mesurables

‐ Couleur‐Ville d’origine

‐Niveaud’étude

‐Taille‐Poids

‐Nombredepatients

‐ Sexe

Plan

• Définition

• Rappels

• Statistique descriptive : Variable qualitative

• Statistique descriptive : Variable quantitative

• Statistique à deux dimensions

• Conclusion

26/11/2015 89

Statistique descriptiveVariable qualitative

Variables

Variables qualitatives

Dichotomiques

Binaires

Ordinales 

Nominales

Variables quantitatives

Continues

Discrètes

26/11/2015 90

Observables

Mesurables

‐ Sexe

‐ Couleur‐Ville d’origine

‐Niveaud’étude

‐Taille‐Poids

‐Nombredepatients

Page 16: Module Biostat 1AM Partie1

Pr_E. BOUAITI : Module BIOSTATISTIQUE

26/11/2015

16

Statistique descriptiveVariable qualitative

• Un caractère qualitatif ne peut être mesuré • D’où notion de fréquence

• Fréquence absolue : effectif• Nombre d’individus par classe : n– 100 sujets: 24 ont la maladie x

• Fréquences relatives• Pour chaque classe, le rapport de son effectif au

nombre total d’individus • Exprimées en pourcentage– p = : 0,24 ou 24 %

26/11/2015 91

Statistiques descriptivesvariables qualitatives

92

xi ni fi

x1 n1 f1

x2 n2 f2

… … …xp np fp

p xi n 1

Chaque ligne correspond à une modalité différente.

ni correspond au nombre d’observations (effectif) ayant comme valeur  xi   

fi correspond à la fréquence (pourcentage) d’observations ayant comme valeur  xi 

100n

nf i

i X

26/11/2015

Statistiques descriptivesvariables qualitatives

• On a noté la situation familiale des 150 patients d’une étude

Nom Situation de famille

Patient 1 Marié

Patient 2 Veuf

Patiente 3 Mariée

Patiente 4 Célibataire

Patient 5 Divorcé

…. ….

26/11/2015 93

Statistiques descriptivesvariables qualitatives

Modalités Effectifs (n)

Marié 80

Célibataire 30

Veuf 20

Divorcé 20

Total  150

26/11/2015 94

Statistiques descriptivesvariables qualitatives

Modalités Effectifs (n) Pourcentage

Marié 80 53,3%

Célibataire 30 20%

Veuf 20 13,3%

Divorcé 20 13,3%

Total  150 100%

26/11/2015 95

Statistiques descriptivesvariables qualitatives

96

Sexe n %

Masculin 70 58,3%

Féminin 50 41,7%

Total 120 100%

26/11/2015

Page 17: Module Biostat 1AM Partie1

Pr_E. BOUAITI : Module BIOSTATISTIQUE

26/11/2015

17

Statistiques descriptivesvariables quantitatives continues

97

Classe d'âge ni %[14‐16[ 10 9,1%

[16‐18[ 20 18,2%

[18‐20[ 35 31,8%

[20‐22[ 15 13,6%

[22‐24[ 5 4,5%

>24 25 22,7%

Total 110 100,0%

26/11/2015

Plan

• Définition

• Rappels

• Statistique descriptive : Variable qualitative

• Statistique descriptive : Variable quantitative

• Statistique à deux dimensions

• Conclusion

26/11/2015 98

Statistique descriptiveVariable qualitative

Variables

Variables qualitatives

Dichotomiques

Binaires 

Ordinales 

Nominales

Variables quantitatives

Continues

Discrètes

26/11/2015 99

Observables

Mesurables

‐ Sexe

‐ Couleur‐Ville d’origine

‐Niveaud’étude

‐Taille‐Poids

‐Nombredepatients

Statistiques descriptivesvariables quantitatives

• Paramètres de position : Mesures de la tendance centrale

• Paramètres de dispersion

10026/11/2015

Position

Dispersion

Paramètres de position

• Moyenne arithmétique

• Médiane 

• Mode

10126/11/2015

Moyenne arithmétique

102

• La somme de toutes les valeurs individuelles divisée par le nombre de valeurs

• Avec : – n : nombre d’observations 

– xi : les valeurs de la variable

– ∑ : la somme de toutes les valeurs observées.

26/11/2015

Page 18: Module Biostat 1AM Partie1

Pr_E. BOUAITI : Module BIOSTATISTIQUE

26/11/2015

18

Moyenne arithmétiqueExemple

103

• Exemple: Calculer la moyenne des valeurs suivantes : 10, 12, 18, 20, 25, 35

∑=

26/11/2015

Moyenne arithmétiquedonnées groupées

Tranches d’âge Nombre (ni)

[10‐20[ 4

[20‐30[ 6

[30‐40[ 10[40‐50[ 4

[50‐60[ 4[60‐70[ 2

Total (n) 30

10426/11/2015

Moyenne arithmétiquedonnées groupées

105

• Si les observations sont groupées en classes, alors

• ni : le nombre de sujets pour la classe xi 

• xi : la valeur centrale de la classe

26/11/2015

Moyenne arithmétiquedonnées groupées

Tranches d’âge Nombre (ni)Valeur centrale 

(xi)ni x xi

[10‐20[ 4 15 60

[20‐30[ 6 25 150

[30‐40[ 10 35 350

[40‐50[ 4 45 180

[50‐60[ 4 55 220

[60‐70[ 2 65 130

Total (n) 30 1090

106

∑ = 1090/30=36,3

26/11/2015

Paramètres de position

• Moyenne arithmétique

• Médiane 

• Mode

10726/11/2015

Médiane

108

• La médiane est la valeur qui divise les observations en 2 groupes de taille égale :

– Le premier contenant les valeurs inférieures à la médiane 

– Et le second les valeurs supérieures à la médiane

La valeur qui partage la série en 2 parties de même effectif (ordre croissant+++)

26/11/2015

Page 19: Module Biostat 1AM Partie1

Pr_E. BOUAITI : Module BIOSTATISTIQUE

26/11/2015

19

Médianeexemples

• 9 patients hospitalisés dans un service de médecine. Leurs durées de séjour (en jours) sont les suivantes :

3; 15; 23; 46; 64; 126; 279; 623; 1350

• La médiane est la valeur de rang 5 : 64j

26/11/2015 109

n=3 n=3

Médiane

110

• Méthode de calcul

– Classer les valeurs par ordre de grandeur (ascendante ou descendante). 

– Identifier le milieu de la série de valeurs :

• Place de la valeur médiane = 

Avec N = Nombre total de valeurs dans la série de valeurs.

– Le chiffre se trouvant à cette place dans la série de valeurs correspond à la médiane. 

26/11/2015

Médianeexemples

• Médiane d’un nombre impair de données 

10, 12, 18, 20, 25– Ranger les valeurs en ordre ascendant : 10, 12, 18, 20, 25

– Déterminer le point central de la série : (5 valeurs +1)/ 2 = 3.

– La médiane est donc la valeur en 3ème position dans la série 

– La 3ème valeur est 18. 

– La médiane équivaut donc à 18.

11126/11/2015

Médianeexemples

• Médiane d’un nombre pair de données 

10, 12, 18, 20, 25, 45– Ranger les valeurs en ordre ascendant : 10, 12, 18, 20, 25, 45

– Déterminer le point central de la série (6 valeurs+1)/2 = 7/2 = 3,5.

– La médiane est la valeur à mi‐chemin entre le 3ème

et le 4ème chiffre : Le 3ème chiffre est 18 et le 4ème

est 20. 

– La médiane est (18+20)/2 = 19.

11226/11/2015

Moyenne - Médiane

26/11/2015 113

Série de valeurs:10, 12, 18, 20, 25

10, 12, 18, 20, 45

Moyenne Médiane

17 18

21 18

La moyenne est sensible aux valeurs extrêmesLa médiane est insensible aux valeurs extrêmes

7, 12, 18, 20, 25 16,4 18

Paramètres de position

• Moyenne arithmétique

• Médiane 

• Mode

11426/11/2015

Page 20: Module Biostat 1AM Partie1

Pr_E. BOUAITI : Module BIOSTATISTIQUE

26/11/2015

20

Mode

• La valeur que l’on observe le plus fréquemment dans une série de valeurs. 

• Exemple 1 : Le mode des valeurs 10, 12, 12, 12, 18, 18, 20, 25, 35 est 12 

• Exemple 2 : La série  10, 12, 12, 12, 18, 18, 18, 20, 25, 35 à 2 modes, 12 et 18

11526/11/2015

Mode

26/11/2015 116

45 98 150 203 256 309 361 414 467 519 572

Créatinine (µmol/l)

0

40

80

120

N

2.1 3.3 4.6 5.8 7.0 8.3 9.5 10.8 12.0 13.3 14.5

Glycémie (mmol/l)

0

50

100

150

200

250

NDistribution unimodale Distribution

bimodale

• Si distribution unimodale, symétrique– les 3 coïncident

-4 -2 0 2 4

0.0

0.1

0.2

0.3

0.4

ddp

Mode = Médiane = Moyenne

18 22 23 25 27

Mode, médiane, moyenne

11726/11/2015

• Si distribution asymétrique

à droite à gauche

mode < médiane < moyenne moyenne < médiane < mode

0

2

4

6

8

10

12

14

16

18

20

1 2 3 4 5 6 7 8 9

PSA (ng/l)

%

Médiane

Moyenne

Mode

2 4 6 8 10

Notes

Histogramme

Mode

MédianeMoyenne

Mode, médiane, moyenne

11826/11/2015

Statistiques descriptivesvariables quantitatives

• Paramètres de position : Mesures de la tendance centrale

• Paramètres de dispersion

11926/11/2015

Position

Dispersion

Paramètres de dispersion

• Étendue

• Les quartiles

• La variance 

• Écart‐type

12026/11/2015

Page 21: Module Biostat 1AM Partie1

Pr_E. BOUAITI : Module BIOSTATISTIQUE

26/11/2015

21

Étendue

• L’étendue indique la distance entre la plus grande et la plus petite valeur observée dans la distribution. 

Étendue = valeur maximale ‐ valeur minimale

• Exemple : – Une série : 10, 12, 18, 20, 25, 35

– Étendue : 10 à 35.

12126/11/2015

Étendue

0

20

40

60

80

100

120

140

160

180

200

Nom

bre

0 100 200 300 400 500 600 700 800 900 1000Créatinine J PBR

Histogramme

Valeur min = 45µmol/l

Valeur max = 939 µmol/l

Etendue = 894 µmol/l

Valeur min = 45µmol/l

Valeur max = 572 µmol/l

Etendue = 527 µmol/l

0

20

40

60

80

100

120

140

Nom

bre

0 100 200 300 400 500 600 700 800 900Créatinine J PBR

Histogramme

12226/11/2015

Paramètres de dispersion

• Étendue

• Les quartiles

• La variance 

• Écart‐type

12326/11/2015

Les quartiles

Ce sont des valeurs (Q1, Q2, Q3) qui séparent l’échantillon en 4 parties qui contiennent le 

même nombre de données.

26/11/2015 124

25%

Quart 1

Quart 2

Quart 3

Quart 4

25% 25%25%

Les quartiles

• Le premier quartile ou le quartile inférieur  Q1 = 25 % des valeurs sont inférieures à Q1 et 75 % lui sont supérieures 

• Le troisième quartile ou le quartile supérieur  Q3 = 75 % des valeurs sont inférieures à Q3 et 25 % lui sont supérieures

• La médiane =  le deuxième quartile Q2

12526/11/2015

Les quartiles

1       2     3    4     5      6     7     8     9    10   11    12     13       14       15

3  4  4  5  5  5  6  6  6  6  8  8  10  12  15

26/11/2015 126

Médiane de la distribution (15+1)/2 = 8e donnée

Q2

Q1Q3

Médiane des données précédent Q2

Médiane des données qui suivent Q2

Quart 1

Quart 2

Quart 3

Quart 4

Page 22: Module Biostat 1AM Partie1

Pr_E. BOUAITI : Module BIOSTATISTIQUE

26/11/2015

22

Les quartilesexemple

• Données ordonnées : 10, 12, 18, 20, 25, 45

• Médiane  Q2: (20 + 18)/2 = 19

• Quartile inférieur Q1: 

– la médiane de 10, 12, 18 = 12

• Quartile supérieur Q3: 

– la médiane de 20, 25, 45 = 25

12726/11/2015

Paramètres de dispersion

• Étendue

• Les quartiles

• La variance 

• Écart‐type

12826/11/2015

La variance

• La variance : 

– La moyenne des carrés des écarts à la moyenne

– La somme des carrés des écarts à la moyenne divisée par le nombre d'observations

∑ 2

1

12926/11/2015

La varianceméthode de calcul

• Calculer la moyenne m

• Calculer la différence entre chaque observation et la moyenne (xi ‐ m) 

• Porter chacune de ces différences au carré

(xi ‐ m)2

• Additionner tous ces carrés et diviser la somme des carrés par le nombre d’observations moins 1 (n ‐1)

13026/11/2015

La varianceexemple

• Calculer la variance s2 : 10, 12, 18, 20, 25, 35

– Calculer la moyenne : m=20

Observations xi 10 12 18 20 25 35

Différence à la moyenne 

xi‐ 20‐10 ‐8 ‐2 0 +5 +15

Carré de la différence à la 

moyenne100 64 4 0 25 225

131

– Calculer la somme des carrés de la différence à la moyenne : 100+64+4+0+25+225=418

– Diviser la somme des carrés par n -1 soit : =

83,626/11/2015

Paramètres de dispersion

• Étendue

• Les quartiles

• La variance 

• Écart‐type

13226/11/2015

Page 23: Module Biostat 1AM Partie1

Pr_E. BOUAITI : Module BIOSTATISTIQUE

26/11/2015

23

Écart‐type

• Mesure la dispersion autour de m

• La mesure de dispersion la plus couramment utilisée

• = Standard Deviation (SD)

• Calcul 

26/11/2015 133

∑ 2

1 s =

Écart‐type

Représente l ’écart moyen des données de l’échantillon par rapport à  la moyenne

26/11/2015 134

m

x1x2

x4

x5x6x7x9

x10

x11

x12

x8

x3

Écart‐type

Représente l ’écart moyen des données de l’échantillon par rapport à  la moyenne

26/11/2015 135

m=20

10

181220

35

25

Écart‐type

• En pratique :– Calculer la variance 

– Puis prendre la racine carrée du résultat obtenu

• Exemple : calculer l’écart‐type de la série de 6 valeurs : 10, 12, 18, 20, 25, 35– On calcul la variance : s2 =83,6

– Puis l’écart‐type est la racine carrée du résultat obtenu := 83,6 = 9,14

26/11/2015 136

137

La signification probabiliste de l’écart-type

m

Echantillon 1 Echantillon 2

s2 < s1

s2

s1

26/11/2015

La signification probabiliste de l’écart‐type

138

50 % des individus en-dessous de la moyenne et 50 % au-dessus 68 % des individus entre µ-1σ et µ+1σ

95 % des individus entre µ-1,96σ et µ+1,96σ99,7 % des individus entre µ -3σ et µ+3σ

95 % des individus entre µ-1,96σ et µ+1,96σ

26/11/2015

Page 24: Module Biostat 1AM Partie1

Pr_E. BOUAITI : Module BIOSTATISTIQUE

26/11/2015

24

La signification probabiliste de l’écart‐type

• Exemple : Chez le sujet adulte non diabétique• La glycémie est distribuée selon une loi normale• Moyenne : 0,86 g/L• Écart ‐ type 0,07 g/L

139

95 % des sujets « normaux » de cette population ont une glycémie comprise entre 0,72 et 1,00 g/L

26/11/2015

95 % des individus entre µ-1,96σ et µ+1,96σ

Plan

• Définition

• Rappels

• Statistique descriptive : Variable qualitative

• Statistique descriptive : Variable quantitative

• Statistique à deux dimensions

• Conclusion

26/11/2015 140

Statistique descriptive à 2 dimensions

• Objectif : mettre en évidence les relations qui existent entre deux séries d'observations.– Nature des variables : les deux variables peuvent être 

• Qualitatives• Quantitatives • Ou l'une quantitative et l'autre qualitative.

– Deux variables mesurées chez le même individu• Exemples : 

– Présence d’un cancer et tabagisme...– Poids et taille

26/11/2015 141

Statistique descriptive à 2 dimensionsdeux variables qualitatives

Sujet Cancer Tabac1 oui oui2 oui oui3 non non4 oui oui5 oui oui6 oui non7 oui non8 oui oui9 non oui10 non Oui… … …

26/11/2015 142

Canceroui non total

Tabacoui 40 20 60non 10 30 40total 50 50 100

Distribution de fréquences : tables de contingence.

Statistique descriptive à 2 dimensionsdeux variables qualitatives

26/11/2015 143

Canceroui non total

Tabacoui 40 20 60non 10 30 40total 50 50 100

Nombre de mesures totale : n

Effectif d'une case = nij

Total de chaque ligne = li

Total de chaque colonne = cj

Statistique descriptive à 2 dimensionsdeux variables qualitatives

• 100 = Nombre total de mesures.• 50 = Nombre d'individus ayant 

un cancer.• 60= Nombre d'individus sont 

fumeurs.• 40 / 100 = % d'individus 

fumeurs ayant un cancer.• 40 / 60 = % d'individus parmi les 

fumeurs ayant un cancer. • 40 / 50 = % d'individus parmi les 

malades ayant un cancer qui sont des fumeurs.

26/11/2015 144

Canceroui non total

Tabacoui 40 20 60non 10 30 40total 50 50 100

Recherche de facteurs de risques

Page 25: Module Biostat 1AM Partie1

Pr_E. BOUAITI : Module BIOSTATISTIQUE

26/11/2015

25

Recherche de facteurs de risques

Cancer du poumon et tabagisme

• Fréquences relatives : Risques

26/11/2015 145

Canceroui non total

Tabacoui 40 20 60non 10 30 40total 50 50 100

• Cancer chez les fumeurs: • R1 = 40/60 = 0,70

• Cancer chez les non fumeurs: • R0 = 10/40 = 0,25

Statistique descriptive à 2 dimensionsdeux variables quantitativespatient Age (ans) taille (cm)

1 21 1692 24 1883 25 1624 22 1615 19 1806 21 1897 24 1848 22 1519 22 17510 21 162… … …

26/11/2015 146

Statistique descriptive à 2 dimensionsdeux variables quantitatives

• Coefficient de corrélation linéaire (ρ ou r)

• COV (X,Y)  = moyenne des produits des écarts à la moyenne

26/11/2015 147

VAR(Y)VAR(X)

Y)COV(X,,

YX

Coefficient de corrélation linéaire

• Mesure l'intensité de la liaison linéaire entre X et Y

• Le coefficient de corrélation varie entre ‐1 et 1.  

• 0 signifie une association nulle

• Le signe correspond à la direction de la corrélation.  – Quand les deux valeurs augmentent ou diminuent ensemble il s'agit d'une corrélation positive.  

– Quand une valeur augmente alors que l'autre diminue il s'agit d'une corrélation négative

• |ρx,y| Proche de 1  RELATION LINEAIRE entre les variables

26/11/2015 148

Exemple

26/11/2015 149

Conclusion

• La statistique descriptive

– Première étape d’études épidémiologiques

– Obligatoire

• Variable qualitative

– Effectif & Pourcentage

• Variable quantitative

– Moyenne ± écart‐ type

– Médiane et quartiles

26/11/2015 150

Page 26: Module Biostat 1AM Partie1

Pr_E. BOUAITI : Module BIOSTATISTIQUE

26/11/2015

26

BIOSTATISTIQUE

Pr E. BOUAITI

UPR Médecine sociale

UNIVERSITE MOHAMMED V ‐ RABATFACULTE DE MEDECINE ET DE PHARMACIE Programme

1. Principes de base en Biostatistiques

2. La statistique descriptive

3. Organisation et Présentation des données

4. Estimation et fluctuations d’échantillonnage

5. Les principales lois de probabilité

6. Principes des tests statistiques 

7. Les tests de comparaison de pourcentages

8. Les tests de comparaison de moyennes

15226/11/2015

Programme

1. Principes de base en Biostatistiques

2. La statistique descriptive

3. Organisation et Présentation des données

4. Estimation et fluctuations d’échantillonnage

5. Les principales lois de probabilité

6. Principes des tests statistiques 

7. Les tests de comparaison de pourcentages

8. Les tests de comparaison de moyennes

15326/11/2015

Organisation et Présentation des données

Plan

• Rappel

• Introduction

• Tableaux

• Graphiques

• Boîte à moustaches

• Diagramme de dispersion 

• Conclusion

26/11/2015 155

Rappels : variables

Variables

Variables qualitatives

Dichotomiques

Binaires

Ordinales 

Nominales

Variables quantitatives

Continues

Discrètes

26/11/2015 156

Observables

Mesurables

‐Ville d’origine

‐Niveaud’étude

‐Taille‐Poids

‐Nombred’enfants

‐ Sexe

Page 27: Module Biostat 1AM Partie1

Pr_E. BOUAITI : Module BIOSTATISTIQUE

26/11/2015

27

Statistique descriptiveVariables qualitatives

26/11/2015 157

VariablesVariables 

qualitatives

Dichotomiques

Binaires

Ordinales 

Nominales

Observables

Fréquence absolue : effectifNombre d’individus par classe : n

Fréquences relativesPour chaque classe, le rapport de son effectif au nombre total d’individus 

Exprimées en pourcentage

Statistique descriptiveVariables quantitatives

26/11/2015 158

VariablesVariables 

quantitatives

Continues

Discrètes

Mesurables

Paramètres de position : Mesures de la tendance centrale

Moyenne arithmétiqueMédianeMode

Paramètres de dispersionÉtendue

Les quartilesLa variance Écart‐type

Exemple

26/11/2015 159

Exemple

26/11/2015 160

26/11/2015 161

Introduction 

26/11/2015 162

N° patient sexe age tailleATCDs 

médicaux1 Féminin 20 175 diabéte

2 Masculin 22 175 diabéte3 Féminin 21 164 HTA4 Féminin 18 156 diabéte5 Féminin 25 176 diabéte

6 Féminin 21 165 grossesse7 Masculin 23 166 diabéte8 Masculin 23 166 diabéte

9 Féminin 23 161ménopaus

e

10 Masculin 22 166 HTA11 Masculin 24 163 diabéte12 Masculin 20 177 diabéte

13 Masculin 20 167 diabéte

14 Féminin 24 151ménopaus

e

15 Masculin 21 164 HTA16 Féminin 22 158 grossesse17 Masculin 25 170 HTA18 Féminin 21 174 HTA

19 Féminin 25 162ménopaus

e20 Masculin 22 166 diabéte

21 Féminin 23 155ménopaus

e

22 Masculin 23 179 diabéte23 Masculin 25 158 HTA

Base de données

Tableau des données brutes

Page 28: Module Biostat 1AM Partie1

Pr_E. BOUAITI : Module BIOSTATISTIQUE

26/11/2015

28

Introduction

• Étude sur un échantillon ou une population : Données brutes 

– Variables quantitatives : Une série de valeurs 

– Variables qualitatives : un tableau brut

– Présentation des données : rarement « parlante »

• Organisation et présentation des données : 

– Faire ressortir une partie de l’information

– Visualiser le résumé statistique

26/11/2015 163

Introduction

Les trois étapes du traitement des données statistiques:

– Des paramètres statistiques.

– Des tableaux : distributions de fréquences.

– Des diagrammes : graphiques.

26/11/2015 164

Introduction

• Tableau ou graphique : 

• Choix : Suivant le type de variable aléatoire

• Classes ou modalités +++

26/11/2015 165

Variables quantitatives continues 

Variables discrètes

Transformation

Rappels : variables

Variables

Variables qualitatives

Dichotomiques

Binaires

Ordinales 

Nominales

Variables quantitatives

Continues

Discrètes

26/11/2015 166

Observables

Mesurables

‐ Ville d’origine

‐Niveaud’étude

‐Taille‐Poids

‐Nombred’enfants

‐ Sexe

Plan

• Introduction

• Tableaux

• Graphiques

• Boîte à moustaches

• Diagramme de dispersion 

• Conclusion

26/11/2015 167

Tableaux

• Définition

– Matrice comportant au moins deux entrées :

• Une horizontale : lignes

• Une verticale : colonnes

• Objectif

– Présenter les données de façon exacte

26/11/2015 168

Présentation écrite des données statistiques

Page 29: Module Biostat 1AM Partie1

Pr_E. BOUAITI : Module BIOSTATISTIQUE

26/11/2015

29

Tableaux de fréquences

• Définition

– La distribution de fréquence d’une variablestatistique X est une fonction qui, à chaque valeurxi de la variable, fait correspondre sa fréquence fi .

– De façon similaire on définit la distribution defréquence relative.

• Types de variables

– Variables qualitatives

– Variables quantitatives

26/11/2015 169

Tableaux de fréquences

• Les tableaux statistiques :

– Distribution de fréquences absolues

– Distribution de fréquences relatives

– Distribution de fréquences relatives cumulées

• Présentation

– Les classes de la variables

– Les effectifs et les fréquences

– Total des effectifs et  total des fréquences

26/11/2015 170

!Éviter les données manquantes!

Tableaux de fréquences

• Variables qualitatives

• Variables quantitatives

– Discrètes

– Continues

• Deux variables ou plus

26/11/2015 171

Tableaux de fréquences

• Tableau à simple entrée, sans hiérarchie (sauf si le caractère est ordinal).

• La première colonne renseigne les modalités et les deux suivantes les effectifs et fréquences.

• Si le caractère est ordinal, on pourra rajouter une dernière colonne avec les fréquences cumulées.

26/11/2015 172

Tableaux de fréquences

173

xi ni fi

x1 n1 f1

x2 n2 f2

… … …xp np fp

p xi n 1

Chaque ligne correspond à une modalité différente.

ni correspond au nombre d’observations (effectif) ayant comme valeur  xi   

fi correspond à la fréquence (pourcentage) d’observations ayant comme valeur  xi 

100n

nf i

i X

26/11/2015

Tableaux de fréquencesExemple : V. qualitative 

26/11/2015 174

ATCDs médicaux Effectif des patients (n)

Pourcentage des patients (%)

Grossesse 129 12,9%Diabète 483 48,3%HTA 332 33,2%

Ménopause 56 5,6%Total 1000 100,0%

Distribution des patientes selon les ATCDs médicaux (n=1000)

Page 30: Module Biostat 1AM Partie1

Pr_E. BOUAITI : Module BIOSTATISTIQUE

26/11/2015

30

Tableaux de fréquencesExemple : V. quantitative discrète

Une enquête épidémiologique a été réalisée pour étudier le nombred’enfants par foyer au niveau de la région de Rabat.Posons X = la variable statistique représentant le nombre d’enfantsdans un foyer. Calculer les fréquences et présenter les résultat sousforme d’un tableau de fréquence2 1 3 0 6 0 1 2 3

3 0 2 0 4 1 0 4 0

1 1 3 2 3 3 2 1 1

0 1 2 4 1 2 2 7 3

0 1 1 2 5 5 3 4 3

1 2 2 3 0 1 2 0 2……..

26/11/2015 175

n=1000 foyers

Tableaux de fréquencesExemple : V. quantitative discrète

Nombre d'enfants

Effectif (n)Fréquence relative (%)

Fréquence cumulée (%)

0 129 12,9% 12,9%1 451 45,1% 58,0%2 332 33,2% 91,2%3 56 5,6% 96,8%4 21 2,1% 98,9%5 8 0,8% 99,7%6 3 0,3% 100,0%

Total  1000 100%

26/11/2015 176

Distribution des foyers de la region de Rabat selon le nombred’enfants (n=1000)

Tableaux de fréquencesExemple : V. quantitative continues

177

Classe d'âge ni %[14‐16[ 15 12,50%

[16‐18[ 20 16,67%

[18‐20[ 35 29,17%

[20‐22[ 15 12,50%

[22‐24[ 10 8,33%

>24 25 20,83%

Total 120 100,00%

26/11/2015

Tableaux de fréquencesExemple : 2 variables

26/11/2015 178

Classe d'âge

Hommes Femmes Totalni % ni % ni %

[14‐16[ 11 15,7% 4 8,0% 15 12,5%

[16‐18[ 10 14,3% 10 20,0% 20 16,7%

[18‐20[ 19 27,1% 16 32,0% 35 29,2%

[20‐22[ 8 11,4% 7 14,0% 15 12,5%

[22‐24[ 5 7,1% 5 10,0% 10 8,3%

>24 17 24,3% 8 16,0% 25 20,8%

Total 70 100,0% 50 100,0% 120 100,0%

Tableaux de fréquencesExemple

26/11/2015 179

Plan

• Introduction

• Tableaux

• Graphiques

• Boîte à moustaches

• Diagramme de dispersion 

• Conclusion

26/11/2015 180

Page 31: Module Biostat 1AM Partie1

Pr_E. BOUAITI : Module BIOSTATISTIQUE

26/11/2015

31

Graphiques

• Définition

– Images des données des études statistiques

• Objectif

– Faire ressortir une vision synthétique du phénomène étudié

– Permet de comparer d’un « coup d’œil » les différentes modalités

26/11/2015 181

Graphiques

• Deux axes :

– Axe horizontal : abscisses 

– Axe vertical : ordonnées

26/11/2015 182

0

1

2

3

4

5

6

Catégorie 1 Catégorie 2 Catégorie 3 Catégorie 4

Titre du graphique

Série 1 Série 2 Série 3

Graphiques

• Deux axes :

– Axe horizontal : abscisses

• Les modalités 

– Axe vertical : ordonnées

• Les effectifs (ou fréquences)

– La hauteur de chaque bande

• Proportionnelle à l’effectif correspondant

26/11/2015 183

Graphiques

• Recommandation :– Graphique simple

– Compréhensible

– Légendé (titre, axes, unités)

– Honnête

• A éviter :– Graphes 3D

– Les superpositions de multiples graphes sur une même graphique

– La coloration abusive : dégradé de gris +++

26/11/2015 184

Graphiques

• Types :

– Histogramme

– Polygone de fréquence

– Diagramme en barres

– Diagramme en barres horizontales

– Camembert

26/11/2015 185

Types de variables

Histogramme

• Types de variables :– Variables quantitatives discrètes– Variables quantitatives continues

• Un diagramme :– Barres verticales contiguës– Ordonnées : effectifs / fréquences– Abscisses : les classes de la variable– Échelle des abscisses :

• Variables continues : Les bornes des classes (intervalle de la classe)

• Variables discrètes : Le centre de la barre

26/11/2015 186

Page 32: Module Biostat 1AM Partie1

Pr_E. BOUAITI : Module BIOSTATISTIQUE

26/11/2015

32

HistogrammeExemples

26/11/2015 187

0

10

20

30

40

[14‐16[ [16‐18[ [18‐20[ [20‐22[ [22‐24[ >24

Distribution de l'âge chez 120 sujets adultes

Effectif : nombre de sujet

Variable quantitative : Age (ans)

HistogrammeExemples

26/11/2015 188

0

100

200

300

400

500

0 1 2 3 4 5 6

Distribution du nombre d'enfants par foyer dans une popiulation de 1000 foyers

Effectif : nombre

de foyers

Variable quantitative discrète : nombre d’enfants

Histogramme

• Nombre des barres :

– Trop de classe : effet « colonnes de Buren »

– Trop peu de classe : effet « podium olympique »

– Recommandé : maximum 6

26/11/2015 189

HistogrammeTrop de classe

26/11/2015 190

0

5

10

15

20

Distribution de l'âge chez 120 sujets adultes

« colonnes de Buren »

HistogrammePeu de classes

26/11/2015 191

0

20

40

60

80

[14‐20[ [20‐24[ >24

Distribution de l'âge chez 120 sujets adultes

« podium olympique »

HistogrammeÉtendue des classes

26/11/2015 192

Page 33: Module Biostat 1AM Partie1

Pr_E. BOUAITI : Module BIOSTATISTIQUE

26/11/2015

33

Histogramme4 règles

26/11/2015 193

Nombre de Classes (K): 6 < K < 15.K = 

Avec n : taille d’échantillonNB : Il faut arrondir la valeur K

et L (à l'excès : 3,5 4).Règle de STURGES : K = 1 + 3,3 log10 (N)

Calculer l’Intervalles de Classe (L):L = E / K

Déterminer les classes:1ère Classe = [min‐Ꜫ – mini‐Ꜫ+L[

2ème Classe = [min‐Ꜫ +L – min‐Ꜫ+2L[Dernière Classe =[maximale+Ꜫ ‐L – maximale+Ꜫ[

Calculer l’étendue EE = maximale – minimale.

11 20 18 10 20 1116 10 15 17 17 1111 12 12 11 20 1315 20 13 19 14 1516 11 20 12 10 1218 10 13 16 16 13

La durée d’hospitalisation de 36 malades

Arrondir L selon précision voulue ⇒ diminution ou

augmentation parfois de K de 1.

Histogramme4 régles

26/11/2015 194

Déterminer les classes:1ère Classe = [9 – 11[2ème Classe = [11 – 13[3ème Classe = [13 – 15[4ème Classe = [15 – 17[5ème Classe = [17 – 19[6ème Classe = [19 – 21[

11 20 18 10 20 1116 10 15 17 17 1111 12 12 11 20 1315 20 13 19 14 1516 11 20 12 10 1218 10 13 16 16 13

Nombre de Classes (K): 

K =  = 6

Calculer l’étendue EE =20 – 10 = 10

Intervalles de Classe (L):L = 10/6 =1,7 ≈2

La durée d’hospitalisation de 36 malades

Histogramme4 régles

26/11/2015 195

La durée d’hospitalisation de 36 malades

Polygone de fréquence

• Type de variable :– Variable quantitative continue

• Graphe linéaire : – Ordonnée : effectifs ou fréquences– Abscisse : valeurs du variable discrétisée

• Chaque point = effectif ou fréquence pour le point central de la classe de la variable.

• Polygone de fréquence doit commencer et se terminer à 0

• Intérêt : représenter sur un même graphique plusieurs distributions.

26/11/2015 196

Polygone de fréquenceExemples

26/11/2015 197

Effectif : nombre de sujet

Variable quantitative : Age (ans)

0

10

20

30

40

<14 [14‐16[ [16‐18[ [18‐20[ [20‐22[ [22‐24[ >24

Distribution de l'âge chez 120 sujets adultes

Polygone de fréquenceExemples 

26/11/2015 198

Effectif : nombre de sujet

Variable quantitative : Age (ans)

0

5

10

15

20

<14 [14‐16[ [16‐18[ [18‐20[ [20‐22[ [22‐24[ >24

Distribution de l'âge selon le sexe

Hommes Femmes

Page 34: Module Biostat 1AM Partie1

Pr_E. BOUAITI : Module BIOSTATISTIQUE

26/11/2015

34

Polygone de fréquenceExemples 

26/11/2015 199

a) Histogramme basé sur desgroupes mesurés (unités de 10ans).

b) Histogramme basé sur desgroupes mesurés (unités de 5ans).

c) Nombre infini (mesurés enmois).

26/11/2015 200

Diagramme en barres

• Type de variable :– Variable qualitative ordinale +++– Variable qualitative nominale

• Diagramme :– Barres verticales disjointes– Ordonnées : effectifs ou les fréquences– Abscisses : 

• sans échelle numérique• Libellés : modalités des variables 

– Les barres :• Largeur : identique

26/11/2015 201

Diagramme en barresExemple

26/11/2015 202

0,0%

10,0%

20,0%

30,0%

40,0%

50,0%

60,0%

asymptomatique modérée marquée sévère

Distribution des formes cliniques d'une maladie dansune série de 1000 patients

Pourcentage des patients

Variable qualitative ordinale : forme clinique

Diagramme en barresExemple

Consommation du tabac (n=200) 

26/11/2015 203

60,70%

33,40%

5,80%

0,00%

10,00%

20,00%

30,00%

40,00%

50,00%

60,00%

70,00%

non fumeurs anciens fumeurs fumeurs actifs

Diagramme en barresExemple

26/11/2015 204

Page 35: Module Biostat 1AM Partie1

Pr_E. BOUAITI : Module BIOSTATISTIQUE

26/11/2015

35

Diagramme en barresExemple

26/11/2015 205

Diagramme en barresExemple

26/11/2015 206

Diagramme en barresExemple

26/11/2015 207

Diagramme en barres

• Diagramme en barres horizontales

– Variable qualitative nominale

• Diagramme :

– Barres horizontales disjointes

– Ordonnées : Libellés des classes

– Abscisses : effectifs ou les fréquences

26/11/2015 208

Diagramme en barres horizontalesExemple

26/11/2015 209

Pourcentage des patients

Var

iab

le q

ual

itat

ive

no

min

ale

: A

TC

Ds

méd

icau

x

0,0% 10,0% 20,0% 30,0% 40,0% 50,0% 60,0%

grossesse

diabète

HTA

ménopause

Distribution des antécédents médicaux d'une série de 1000 patientes

Diagramme en barres horizontalesExemple

26/11/2015 210

Page 36: Module Biostat 1AM Partie1

Pr_E. BOUAITI : Module BIOSTATISTIQUE

26/11/2015

36

Camembert(Pie chart)

• Type de variable :

– Variable qualitative nominale

• Permet de bien visualiser la part relative de chaque modalité.

• Camembert :

– Cercle divisé en secteurs

– Chaque secteur : une classe de la variable

– La surface du secteur : proportionnelle à la fréquence

– Nombre de secteurs : moyenne de 6 

26/11/2015 211

CamembertExemple

26/11/2015 212

grossesse13%

diabète48%

HTA33%

ménopause6%

Distribution des antécédents médicaux d'une série de 1000 patientes

CamembertExemple

26/11/2015 213

Diagramme en barres horizontales

26/11/2015 214

Pourcentage des patients

Var

iab

le q

ual

itat

ive

no

min

ale

: A

TC

Ds

méd

icau

x

12,9%

48,3%

33,2%

5,6%

0,0% 20,0% 40,0% 60,0%

grossesse

diabète

HTA

ménopause

Distribution des antécédents médicaux d'une série de 1000 

patientesgrossesse

13%

diabète48%

HTA33%

ménopause6%

Distribution des antécédents médicaux d'une série de 1000 patientes

Camembert

Diagramme en barres horizontales

26/11/2015 215

Camembert

60,70%

33,40%

5,80%

non fumeurs anciens fumeurs fumeurs actifs

60,70%

33,40%

5,80%

0,00% 20,00% 40,00% 60,00%80,00%

non fumeurs

anciens fumeurs

fumeurs actifs

Plan

• Introduction

• Tableaux

• Graphiques

• Boîte à moustaches

• Diagramme de dispersion 

• Conclusion

26/11/2015 216

Page 37: Module Biostat 1AM Partie1

Pr_E. BOUAITI : Module BIOSTATISTIQUE

26/11/2015

37

Boîte à moustaches

• Définition:

– Résume quelques caractéristiques de position du caractère étudié (médiane, quartiles, minimum, maximum)

– Permet de faire une comparaison entre deux populations

26/11/2015 217

Boîte à moustaches

26/11/2015 218

Boîte à moustaches

26/11/2015 219

Boîte à moustachesExemple

26/11/2015 220

Boîte à moustachesExemple

26/11/2015 221

Plan

• Introduction

• Tableaux

• Graphiques

• Boîte à moustaches

• Diagramme de dispersion 

• Conclusion

26/11/2015 222

Page 38: Module Biostat 1AM Partie1

Pr_E. BOUAITI : Module BIOSTATISTIQUE

26/11/2015

38

Diagramme de dispersionNuage de points

• Définition:

– Outil pour représenter graphiquement la relation entre deux variables quantitatives continues

– Deux mesures réalisées sur un même individu.

– Permet de caractériser la direction, la force et la forme de la relation.

26/11/2015 223

Diagramme de dispersionNuage de points

26/11/2015 224

Y

X

(X;Y)

Diagramme de dispersionNuage de points

26/11/2015 225

Conclusion

26/11/2015 226

Organisation et Présentation des

données

Type des variables

Organisation et Présentation des données

26/11/2015 227

VariablesVariables 

qualitatives

Dichotomiques

Binaires

Ordinales 

Nominales

Observables

Tableaux de fréquencesGraphiques :Diagramme en barres

Diagramme en barres horizontalesCamembert

Organisation et Présentation des données

26/11/2015 228

VariablesVariables 

quantitatives

Continues

Discrètes

Mesurables

Tableaux de fréquencesGraphiques :

HistogrammePolygone de fréquenceBoîte à moustaches

Page 39: Module Biostat 1AM Partie1

Pr_E. BOUAITI : Module BIOSTATISTIQUE

26/11/2015

39

BIOSTATISTIQUE

Pr E. BOUAITI

UPR Médecine sociale

UNIVERSITE MOHAMMED V ‐ RABATFACULTE DE MEDECINE ET DE PHARMACIE Programme

1. Principes de base en Biostatistiques

2. La statistique descriptive

3. Organisation et Présentation des données

4. Estimation et fluctuations d’échantillonnage

5. Les principales lois de probabilité

6. Principes des tests statistiques 

7. Les tests de comparaison de pourcentages

8. Les tests de comparaison de moyennes

23026/11/2015

Programme

1. Principes de base en Biostatistiques

2. La statistique descriptive

3. Organisation et Présentation des données

4. Estimation et fluctuations d’échantillonnage

5. Les principales lois de probabilité

6. Principes des tests statistiques 

7. Les tests de comparaison de pourcentages

8. Les tests de comparaison de moyennes

23126/11/2015

Estimation et fluctuations d’échantillonnage

Plan

• Rappel

• Introduction

• Fluctuation d’échantillonnage

• Estimation ponctuelle

• Estimation par intervalle

• Intervalle de confiance d’une moyenne

• Intervalle de confiance d’une proportion

26/11/2015 233

Rappels : variables

26/11/2015 234

Variables

Variables qualitatives

Dichotomiques

Binaires

Ordinales 

Nominales

Variables quantitatives

Continues

Discrètes

Observables

Mesurables

‐Ville d’origine

‐Niveaud’étude

‐Taille‐Poids

‐Nombred’enfants

‐ Sexe

Page 40: Module Biostat 1AM Partie1

Pr_E. BOUAITI : Module BIOSTATISTIQUE

26/11/2015

40

Statistique descriptiveVariables qualitatives

26/11/2015 235

VariablesVariables 

qualitatives

Dichotomiques

Binaires

Ordinales 

Nominales

Observables

Fréquence absolue : effectifNombre d’individus par classe : n

100 sujets:  24 ont la maladie x Fréquences relatives

Pour chaque classe, le rapport de son effectif au nombre total d’individus Exprimées en pourcentage

p =  : 0,24 ou 24 %

Statistique descriptiveVariables quantitatives

26/11/2015 236

VariablesVariables 

quantitatives

Continues

Discrètes

Mesurables

Paramètres de position : Mesures de la tendance centrale

Moyenne arithmétiqueMédianeMode

Paramètres de dispersionÉtendue

Les quartilesLa variance Écart‐type

Introduction

• Si la population est trop nombreuse on ne peut pas étudier toutes les unités statistiques .

• On prend alors un échantillon de la population.

Recensement ou Échantillonnage

• Recensement = vérité

• Échantillonnage = estimation de la vérité

26/11/2015 237

Introduction

238

PopulationValeur théorique ou

vraie

ÉchantillonObservations

Valeur estimée

Prédiction Intervalle de fluctuation

Estimation Intervalle de confiance

26/11/2015

Plan

• Rappel

• Introduction

• Fluctuation d’échantillonnage

• Estimation ponctuelle

• Estimation par intervalle

• Intervalle de confiance d’une moyenne

• Intervalle de confiance d’une proportion

26/11/2015 239

Fluctuation d’échantillonnage

• Plusieurs échantillons peuvent être constitués 

Fluctuation d’échantillonnage

• Échantillon représentatif

Tirage au sort

240

Population26/11/2015

Page 41: Module Biostat 1AM Partie1

Pr_E. BOUAITI : Module BIOSTATISTIQUE

26/11/2015

41

Fluctuation d’échantillonnage

• Tirage au sort : Échantillon représentatif 

• Plusieurs échantillons peuvent être constitués Echantillon 1 :

n1=4

170, 175,

180, 182

Echantillon 2 :

n2=4

155, 170,

179, 186

Echantillon 3 :

n3=4

165, 174

186, 190

24126/11/2015

Fluctuation d’échantillonnageExemple

• Population : 1 000 000 sujets

– Malades : 20%

– Non malades : 80%

• Echantillon aléatoire : 20 sujets

– Malades : 4 (20%)

– Non malades : 16 (80%)

26/11/2015 242

Fluctuation d’échantillonnageExemple

Nombres de malades observés sur 10 000 échantillons de 20 sujets tirés d’une population où le pourcentage vrai de malades est 20%

104

601

1353

20062211

1793

1069

558

20475 19 6 1

0

500

1000

1500

2000

2500

0 1 2 3 4 5 6 7 8 9 10 11 12

26/11/2015 243

Fluctuation d’échantillonnageExemple

Nombres de malades observés sur 10 000 échantillons de 20 sujets tirés d’une population où le pourcentage vrai de malades est 20%

104

601

1353

20062211

1793

1069

558

20475 19 6 1

0

500

1000

1500

2000

2500

0 1 2 3 4 5 6 7 8 9 10 11 124(20%)26/11/2015 244

Fluctuation d’échantillonnage

• Loi des grands nombres

Convergence de la fréquence d’un événement vers sa probabilité 

n ∞

Fréquence de l’événement parmi n

observations

Nombre n d’observations (taille de l’échantillon)26/11/2015 245

En résumé

• Extraction de n échantillons d’une population P

– Si l’on extrait plusieurs échantillons représentatifs de taille n fixée, les différences observées entre les résultats obtenus sont dues à des fluctuations d’échantillonnage.

– A partir d’un échantillon, on n’a donc pas de certitudes mais des estimations de paramètres.

26/11/2015 246

Page 42: Module Biostat 1AM Partie1

Pr_E. BOUAITI : Module BIOSTATISTIQUE

26/11/2015

42

Estimation

• Estimation ponctuelle

– On donne une unique valeur calculée à partir des observations faites sur l'échantillon

• Estimation par intervalle

– On donne 2 valeurs entre lesquelles le paramètre peut se trouver

– On donne un intervalle qui a de "fortes chances" de contenir la vraie valeur.

– Intervalle de confiance à 95%

26/11/2015 247

Plan

• Rappel

• Introduction

• Fluctuation d’échantillonnage

• Estimation ponctuelle

• Estimation par intervalle

• Intervalle de confiance d’une moyenne

• Intervalle de confiance d’une proportion

26/11/2015 248

Estimation ponctuelle

• Estimation d’un pourcentage

– P = pourcentage vrai de malades dans la population

– Echantillon comprenant n sujets dont k malades

– Estimation de P :

26/11/2015 249

Estimation ponctuelle

• Estimation d’une moyenne

– μ = moyenne vraie de X

– Echantillon de n sujets tirés au sort dans la population

– Valeurs observées : x1, … , xn

– Estimation de μ :

26/11/2015 250

Estimation ponctuelle

• Estimation d’une variance

– μ = moyenne vraie de X 

– σ2 variance vraie de X

– Comme μ est inconnue

– Estimation de s2

• Autres expressions de s2 :

26/11/2015 251

Qualités d’une estimation

• Pas de biais

• Variance minimum

Présence de biais

Absence de biais

26/11/2015 252

Page 43: Module Biostat 1AM Partie1

Pr_E. BOUAITI : Module BIOSTATISTIQUE

26/11/2015

43

Plan

• Rappel

• Introduction

• Fluctuation d’échantillonnage

• Estimation ponctuelle

• Estimation par intervalle

• Intervalle de confiance d’une moyenne

• Intervalle de confiance d’une proportion

26/11/2015 253

Estimation par intervalle

254

PopulationValeur théorique ou vraie

P / μ ?

ÉchantillonObservations

Valeur estimée

po /mo

Estimation Intervalle de confiance

26/11/2015

Estimation par intervalle

255

PopulationValeur théorique ou vraie

P / μ ?26/11/2015

p1 /m1

p2 /m2

p3 /m3

Pn-1 /mn-1

pn /mn

Échantillon

Valeur estimée

. .. .. .

Estimation par intervalle

256

PopulationValeur théorique ou vraie

P ϵ [Pmin – Pmax]

μ ϵ [mmin – mmax]

26/11/2015

p1 /m1

p2 /m2

p3 /m3

Pn-1 /mn-1

pn /mn

Échantillon

Valeur estimée

. .. .. .

Estimation par intervalle

Consiste à construire, autour de l’estimation ponctuelle, un intervalle qui aura une grande probabilité (1‐) de contenir la vraie valeur du 

paramètre.

Intervalle de confiance

Valeur de la statistique calculée à partir de

l’échantillon

Limite inférieure Limite supérieure

26/11/2015 257

Estimation par intervalle

26/11/2015 258Intervalle de confiance à 95%)

Page 44: Module Biostat 1AM Partie1

Pr_E. BOUAITI : Module BIOSTATISTIQUE

26/11/2015

44

Estimation par intervalle

Moyenne, , est inconnue

Population Échantillon aléatoireJe suis confiant à 95% que est entre 40 & 60.

Moyenne = 50

Échantillon

26/11/2015 259Intervalle de confiance

Estimation par intervalle

• Objectif: 

– On veut inférer la valeur d’un paramètre d’une population (inconnue) à partir d’un échantillon

– La meilleure estimation de μ est x

– La meilleure estimation de P est p

Puisque cette estimation a peu de chance d’être exacte, on aimerait connaître un intervalle à l’intérieur duquel il est probable de trouver la 

vraie valeur du paramètre

26/11/2015 260

Plan

• Rappel

• Introduction

• Fluctuation d’échantillonnage

• Estimation ponctuelle

• Estimation par intervalle

• Intervalle de confiance d’une moyenne

• Intervalle de confiance d’une proportion

26/11/2015 261

Intervalle de confiance d’une moyenne

• Distribution normale. 

– La forme exacte d’une distribution normale dépend de:

• La moyenne μ 

• l’écart‐type σ

26/11/2015 262

Notation : N(μ, σ)

Intervalle de confiance d’une moyenne

• Une distribution d’échantillonnage : est une distribution de statistiques (par exemple    ) provenant de tous les échantillons possiblesd’une taille N donnée que l’on peut tirer d’unepopulation précise.

26/11/2015 263

x

Intervalle de confiance d’une moyenne

• Théorème limite centrale 

– Plus N est grand, plus la distribution d’échantillonnage de la moyenne s’apparente à une distribution normale :

26/11/2015 264

N

NX xx

,~

Distribution d’échantillonnage

de la moyenneL’écart-type

Page 45: Module Biostat 1AM Partie1

Pr_E. BOUAITI : Module BIOSTATISTIQUE

26/11/2015

45

265

1. mo est le plus souvent différent de μ

2. mo « proche » de μ est « plus probable »

- Fourchette . Centrée sur mo

. i est la précision (la marge d'erreur)

‐ Risque d’erreur mo

mo + i

mo

mo - i

+ i

- i

Intervalle de confiance de μ = m0 ± i

intervalle ponctuelle« μ » va être estimée à partir de mobservée

26/11/2015

Intervalle de confiance d’une moyenne

Intervalle de confiance d’une moyenne

À partir du théorème de la limite centrale, on obtient :

Mais, σ est aussi inconnu et doit lui aussi être estimé à partir de l’échantillon!

26/11/2015 266

NzmIC

*0 2/1

267

I.C. de  = m  i

Intervalle de confiance d’une moyenne

• Taille d’échantillon grande : n >30

26/11/2015

Intervalle de confiance d’une moyenne

• Expression :

Intervalle de confiance à  95 %  pour m :  

] n

1.96+ m - n

1.96 - m [ 2

0

2

0ss

26/11/2015 268

269

I.C. de  = m  i

Intervalle de confiance d’une moyenne

• Taille d’échantillon petite: n <30• et X suit une loi normale

s2 = variance n = effectif de l’échantillon

t/2 (n-1) = fonction et degré de liberté (ddl)

Tables : loi du Student

ns2

i = t/2(n-1) x

26/11/2015

Intervalle de confiance d’une moyenne

• Expression :

Intervalle de confiance à  95 %  pour m :

] n

t+ m - n

t- m [ 2

1)-(n,20

2

1)-(n,20

ss

26/11/2015 270

Page 46: Module Biostat 1AM Partie1

Pr_E. BOUAITI : Module BIOSTATISTIQUE

26/11/2015

46

Lois de Student

26/11/2015 271

Lois de StudentExemple

26/11/2015 272

Valeur tExemple : n= 10 et α = 0,05

ddl = 10 ‐ 1 = 9 

Dans la table de la distribution t on trouve que t0,05/2 = 2,262.

Intervalle de confiance d’une moyenneExemple

• Taille à la naissance : 

– m0 = 49 cm s2 = 7,8 cm2

• Intervalle de confiance à 95% de la moyenne des tailles de naissance observées sur un échantillon de taille 400 :

] 400

7,81,96 49 ;

400

7,81,96- 49 [ m

26/11/2015 273

Intervalle de confiance d’une moyenneExemple

• Interprétation :

Dans 95% des échantillons de 400 nouveau‐nés, la moyenne observée des tailles est comprise 

entre 48,73 cm et 49,27 cm.

IC95% = [48,7 – 49,3]

26/11/2015 274

Intervalle de confiance d’une moyenneExemple

• Taille à la naissance : 

– m0 = 49 cm s2 = 7,8 cm2

• Intervalle de confiance à 95% de la moyenne des tailles de naissance observées sur un échantillon de taille 10 :

Condition d’application : distribution des tailles de naissance normale.

n

sXtmIC n

2

1,2/1

26/11/2015 275

Intervalle de confiance d’une moyenneExemple

• Valeur t

– n= 10

– ddl = 10 ‐ 1 = 9 

– Dans la table de la distribution t on trouve que t0,025 = 2,262.

] 10

7,82.262 49 ;

10

7,82.262- 49 [ m

26/11/2015 276

Page 47: Module Biostat 1AM Partie1

Pr_E. BOUAITI : Module BIOSTATISTIQUE

26/11/2015

47

Intervalle de confiance d’une moyenneExemple

• Interprétation :

Dans 95% des échantillons de 10 nouveau-nés, la moyenne observée des tailles est

comprise entre 47 cm et 51cm.

IC95% = [47,0 – 51,0]

26/11/2015 277

Résumé des intervalles de confiance de moyenne

• Si n ≥ 30 :

• Si n <30, la population suit une loi normale

– Si la valeur de  est connue alors: 

– Si la valeur de  est inconnue alors:

n

sXtmIC n

2

1,2/1

nXzmIC

2

2/1

n

sXzmIC

2

2/1

26/11/2015 278

Plan

• Rappel

• Introduction

• Fluctuation d’échantillonnage

• Estimation ponctuelle

• Estimation par intervalle

• Intervalle de confiance d’une moyenne

• Intervalle de confiance d’une proportion

• Conclusion26/11/2015 279 280

1. po est le plus souvent différent de P

2. po « proche » de P est « plus probable »

- Fourchette . Centrée sur po

. i est la précision (la marge d'erreur)

‐ Risque d’erreur po

po + i

po

po - i

+ i

- i

Intervalle de confiance de P = po ± i

intervalle ponctuelle« P » va être estimée à partir de pobservée

26/11/2015

Intervalle de confiance d’une proportion

Intervalle de confiance d’une proportion

I.C. de P = po i

– Si np et nq sont ≥ 5

26/11/2015 281

Intervalle de confiance d’une proportion

Petits échantillons :  

np et nq sont < 5

26/11/2015 282

Tables

Page 48: Module Biostat 1AM Partie1

Pr_E. BOUAITI : Module BIOSTATISTIQUE

26/11/2015

48

26/11/2015 283

Intervalle de confiance d’une proportion

• Expression :

Intervalle de confiance à  95 %  pour p :  

] n

)p -(1p 1.96+ p -

n

)p-(1p 1.96 - p [

000

000

26/11/2015 284

Fluctuation d’échantillonnageExemple

Nombres de malades observés sur 10 000 échantillons de 20 sujets tirés d’une population où le pourcentage vrai de malades est 20%

104

601

1353

20062211

1793

1069

558

20475 19 6 1

0

500

1000

1500

2000

2500

0 1 2 3 4 5 6 7 8 9 10 11 12

26/11/2015 285

Po = 20%IC95% : [ 2,5% - 37,5%]

Intervalle de confiance d’une proportionExemple

• Taille d’échantillon : n =100

• p0 =0,28  (proportion de fumeurs dans l’échantillon de 100 personnes)

• Calculons un intervalle de confiance à 95% pour p (la proportion de fumeurs dans la population).

26/11/2015 286

Intervalle de confiance d’une proportionExemple

• np0 = 28 et nq0 = 72 sont ≥ 5

• On utilise la formule:

• l’intervalle de confiance à 95% =  

[ 19,3% - 36,7% ]• Interprétation :

– Dans 95% des échantillons de 100 sujets, le pourcentage observé de fumeurs Po est compris entre 19,3% et 36,7%.

] n

)p -(1p 1.96+ p -

n

)p-(1p 1.96 - p [

000

000

26/11/2015 287

ConclusionÉchantillon : Inférence

26/11/2015 288

Population

Caractéristiques inconnues

ÉchantillonCaractéristiques 

connues 

Estimation ponctuellep0   / m0

Estimation par intervalleIC à 95%