Post on 27-Jan-2016
description
Pr_E. BOUAITI : Module BIOSTATISTIQUE
26/11/2015
1
BIOSTATISTIQUE
Pr E. BOUAITI
UPR Médecine sociale
UNIVERSITE MOHAMMED V ‐ RABATFACULTE DE MEDECINE ET DE PHARMACIE
Objectif pédagogiqueprincipale
Expliquer les grands aspects de la
biostatistique ainsi que son utilité dans
le domaine de la santé
226/11/2015
Objectifs pédagogiquesspécifiques (1)
• Discuter l’intérêt des biostatistiques en sciences médicales
• Enumérer les principales sources de variabilité biologique
• Expliquer les concepts d’échantillon, de population, de représentativité.
• Définir les variables et citer un exemple pour chaque type de variables
326/11/2015
Objectifs pédagogiquesspécifiques (2)
• Reconnaître la loi normale, citer les autres lois de probabilité.
• Comprendre et utiliser les concepts de fluctuation d’échantillonnage et d’intervalle de confiance.
• Décrire une série statistique
• Expliquer les tests statistiques ainsi que les résultats qui en découlent
426/11/2015
Programme
1. Principes de base en Biostatistiques
2. La statistique descriptive
3. Organisation et Présentation des données
4. Estimation et fluctuations d’échantillonnage
5. Les principales lois de probabilité
6. Principes des tests statistiques
7. Les tests de comparaison de pourcentages
8. Les tests de comparaison de moyennes
526/11/2015
Principes de base en biostatistique
Pr_E. BOUAITI : Module BIOSTATISTIQUE
26/11/2015
2
Plan
• Introduction • La biostatistique : Définition et intérêt• Variabilité• Unité statistique• Population• Échantillon• Variables statistiques• Les mesures de bases• Conclusion
726/11/2015
Introduction
Pourquoi un module de biostatistique?
Raisonnement
Méthodologie statistique
Incertitude
Exercice médicale
826/11/2015
Introduction
• Exemple: tabac et cancer du poumon
926/11/2015
Introduction
Formation médicale
Prévalence
Incidence
Facteur de risque
Population
Recherche clinique
Sensibilité
Spécificité
Essai clinique
FréquencePourcentage
Groupe a risque
Test statistique
Échantillon
Estimation
Moyenne
Écart type
Variance
Efficacité
Probabilité
1026/11/2015
Plan
• Introduction • La biostatistique : Définition et intérêt• Variabilité• Unité statistique• Population• Échantillon• Variables statistiques• Les mesures de bases• Conclusion
1126/11/2015
Définition
• Statistique :
– Ensemble des méthodes scientifiques consistant àréunir, organiser, présenter des donnéesnumériques sur une/plusieurs particularité(s)commune(s) chez un groupe de personnes ou dechoses, puis à analyser, tirer des conclusion etprendre des décisions.
• Une statistique : un nombre calculé à partir d'observations.
1226/11/2015
Pr_E. BOUAITI : Module BIOSTATISTIQUE
26/11/2015
3
Historique
• Dénombrement de populations humaines pour les besoins de la guerre et de l'impôt.
• Véritable début : 18ième siècle : – Première classification des causes de décès– Calcul des probabilités (P. S. de Laplace, K. F. Gauss, S. D. Poisson)
– 1853: premier congrès
1326/11/2015
• Première moitié du 20ième siècle– Statistiques biologiques et psychologiques
• Biométrie et Psychométrie
– 1940 Recherche opérationnelle
• Deuxième moitié du 20ième siècle– Développement de l'informatique– Analyse des données
14
Historique
26/11/2015
Domaines d’utilisation de la statistique
• Statistique officielle
• Banques – Assurances
• Santé et Sciences de la vie
• Environnement ( air, eau, foresterie, pêche …)
• Sciences humaines
• Entreprises – Industrie (contrôle de qualité, études de marché, management…)
• Presse – Médias
• ... Discipline transversale1526/11/2015
Biostatistique
1. Définition
– Application des concepts et principes statistiques à des données médicales, biologiques et de santé public.
2. Exemples
– Les effets d’un médicament.
– L’effet du niveau du cholestérol sur la pression artérielle.
– Le nombre de patients admis aux urgences.
1626/11/2015
BiostatistiqueDeux branches distinctes
Statistique descriptive
• Organisation, présentation et analyse des données
• Synthèse de l’information: résumés statistiques.
• Expression des résultats : représentation graphique.
• Étape préliminaire
Statistique inférentielle
• Permet de généraliser à de grands ensembles
d'éléments les conclusions tirées des résultats obtenus à partir d’un nombre réduit
d’observations
Echantillon Inférence Population ?
•Inférer = tirer une conclusion à partir de propositions ou de faits, et de règles1726/11/2015
A quoi sert la biostatistique?
• Gestion des observations (des données)
– Recueillir, présenter, analyser
– Aider à la prise de décisions et à la résolution de problèmes.
• Comprendre et mener correctement des– Expériences– Enquêtes– Travaux de recherche
1826/11/2015
Pr_E. BOUAITI : Module BIOSTATISTIQUE
26/11/2015
4
Pourquoi des statistiques en médecine ?
Variabilité?
Échantillon?
1926/11/2015
Plan
• Introduction • La biostatistique : Définition et intérêt• Variabilité• Unité statistique• Population• Échantillon• Variables statistiques• Les mesures de bases• Conclusion
2026/11/2015
Variabilitéexemple
150 168 153174 177 188160 180 183187 175 175162 174 189180 185 176167 160 182185 185 160164 180 185153 187 182
Taille en cm de 30 étudiants de la faculté de médecine
On s'intéresse à la taille des étudiants de la faculté de médecine.Les données sont présentées commeelles ont été recueillies. Ainsi, il n'est pas facile de répondre à unequestion comme: quel est le pourcentage des étudiants ayant une taille supérieure à 180?
2126/11/2015
Fluctuation d’échantillonnage
• Tirage au sort : Échantillon représentatif
• Plusieurs échantillons peuvent être constituésEchantillon 1 :
n1=30
m1= 172 Echantillon 2:
n2=30
m2= 174
Echantillon 3 :
n3=130
m3= 175
2226/11/2015 22
Variabilité
Variabilité totale
Variabilité biologique
Variabilité intra‐individuelle
Variabilité inter‐individuelle
Variabilité métrologique
Variabilité expérimentale
Variabilité appareil de mesure
23
La variabilité = la règle et non l’exception26/11/2015
Variabilité biologique
Variabilité inter‐individuelle
Caractéristiques qui différent d’un individu à l’autre
Si vous observez des personnes dans la rue vous constatez qu’elles n’ont pas toutes la même couleur de
cheveux.
Variabilité intra‐individuelle
Caractéristiques évoluant dans le temps chez un
même individu
Si vous mesurez la tension artérielle d’un individu à différents moments de la
journée vous obtiendrez des valeurs différentes.
La variabilité = la règle et non l’exception2426/11/2015
Pr_E. BOUAITI : Module BIOSTATISTIQUE
26/11/2015
5
Variabilité métrologique
• Variabilité de la mesure• Variabilité expérimentale
• Variabilité appareil de mesure
– Essayer de mesurer plusieurs (100) fois la taille en mm d’un individu : vous trouverez des valeurs différentes cependant dans l’absolu un individu a une taille et une seule.
La variabilité = la règle et non l’exception2526/11/2015
Variabilité : conséquences
• Il n’existe pas de « vraie valeur »
• Valeur usuelle
• Valeur exceptionnelle, hors norme
Difficulté pour interpréter
et utiliser les informations mesurées
2626/11/2015
Variabilité : résumé
• Caractéristique dans le domaine des sciences de la santé : VARIABILITE
– Chez un même individu
– Entre les individus
– Entre les groupes d’individus
– etc.
• Biostatistique : Traiter les problèmes de variabilité dans les données
La variabilité = la règle et non l’exception
2726/11/2015
Plan
• Introduction • La biostatistique : Définition et intérêt• Variabilité• Unité statistique• Population• Échantillon• Variables statistiques• Les mesures de bases• Conclusion
2826/11/2015
Unité statistiqueou individu
• Définition• Une unité distincte chez laquelle on peut observer une ou plusieurs caractéristiques données.
• Élément sur lequel sont effectuées des observations ou des mesures
• Exemples• Individu, animal, organe, cellule, champ de microscope,...
• Regroupement d’unités: Grappe ou cluster
• Patients d’un service
2926/11/2015
• La définition de l’individu dépend des paramètres étudiés• Exemple 1 : paramètre étudié : note d’un étudiant dans un groupe de TD
• Un individu = un étudiant
• Exemple 2 : paramètre étudié : note moyenne de chaque groupe de TD d’étudiant
• Un individu = un groupe de TD (Grappes)
3026/11/2015
Unité statistiqueou individu
26/11/2015 30
Pr_E. BOUAITI : Module BIOSTATISTIQUE
26/11/2015
6
Plan
• Introduction • La biostatistique : Définition et intérêt• Variabilité• Unité statistique• Population• Échantillon• Variables statistiques• Les mesures de bases• Conclusion
3126/11/2015
Population• Définition
– Ensemble d’individus (ou unités statistiques ) sur lequel on étudie une ou plusieurs caractéristiques et qui sont de même nature
• Exemples– Femmes atteintes du cancer du sein.
– Ensemble des patients hospitalisés dans un hôpital
– Toutes les naisances de l’année en cours
– Ensemble des étudiants inscrits à la faculté de médecine
– …3226/11/2015
• On peut ne pas connaitre tous les individus qui composent une population
• Une population peut être partitionnée en sous populations:
• Hommes atteints du VIH.• Femmes fumeuses et atteintes du cancer du poumon.
• Taille de la population– Le nombre d'individus constituant la population.
– Généralement très grande Notation : N3326/11/2015
Population
• Si population limitée : Exhaustive
– Recensement : Tous les sujets de la population sont « examinés »
34
Population
• Exemple : les étudiants de la 1ère année médecine
26/11/2015
Population
• Si population importante : Une partie des sujets de la population
sont « examinés »
35
Population
Échantillon
• Exemple : tous les étudiants de la faculté de médecine
26/11/2015
Population Plan
• Introduction • La biostatistique : Définition et intérêt• Variabilité• Unité statistique• Population• Échantillon• Variables statistiques• Les mesures de bases• Conclusion
3626/11/2015
Pr_E. BOUAITI : Module BIOSTATISTIQUE
26/11/2015
7
Échantillon
1. Définition– Sous ensemble d’une population et qui est de de taille finie
2. Exemples– 200 Femmes atteintes du cancer du sein
– 100 étudiants inscrits à la faculté de médecine
3726/11/2015
• On connait tous les individus qui composent un échantillon
• Taille de l'échantillon : le nombre d‘individu dans l'échantillon.
Notation : n3826/11/2015
Échantillon
Pourquoi travaille‐t‐on sur un échantillon ?
coût
temps
3926/11/2015
Échantillon : Inférence
40
Population
Caractéristiques?
Échantillon
REPRESENTATIVITE
26/11/2015
• Échantillon représentatif :
– Échantillon qui reflète fidèlement la complexité et la composition de la population.
• Échantillonnage aléatoire :
– Prélèvement au hasard, et de façon indépendante, d’un certain nombre " n " d’éléments à partir d’une population de " N " éléments.
– Chaque élément de la population doit avoir la même probabilité d’être sélectionné.
4126/11/2015
Échantillon : Inférence Plan
• Introduction • La biostatistique : Définition et intérêt• Variabilité• Unité statistique• Population• Échantillon• Variables statistiques• Les mesures de bases• Conclusion
4226/11/2015
Pr_E. BOUAITI : Module BIOSTATISTIQUE
26/11/2015
8
Variable statistique
• Définition
– Caractéristique ou facteur susceptible de prendre une valeur différente selon les individus (ou les unités statistiques) étudiés
– Notation : X , Y , W , ... (caractères)
• Exemple :
– Le sexe des patients hospitalisés
– Le poids, la taille,
– La durée d’incubation d’une maladieVariable : variations
4326/11/2015
• Caractéristique mesurable pour toutes les unités statistiques.
• Valeurs: les mesures distinctes d'une caractéristique donnée.
– Notation : x1 , x2 , ... (modalités)
– Exemple :
• Pour la couleur des yeux : {noir ; bleu ; vert}
• Pour le sexe : {homme ; femme}
Variable : variations
4426/11/2015
Variable statistique
• Valeurs possibles Tous les résultats possibles a priori si on fait une observation d'une variable
– Exemple :• Sexe : x1: Masculin, x2: Féminin• Groupe ABO: x1: A, x2 : B, x3: O, x4: AB
• Valeur observéeRésultat a posteriori d'une observation d'une variable
– Exemple :• Sexe : x=x1: Masculin• Groupe ABO: x=x4 : AB
4526/11/2015
Variable statistique Types de variables
• Différentes natures ou types :
– Des catégories (Sexe, Couleur, Forme,…)
– Des rangs (position dans un ordre de préférence)
– Des comptages (nombre d’objets, nombre d’espèces, …)
– Des mesures physiques (température, pH, poids,…)
– Des profils, des items ….
4626/11/2015
• Variable qualitative(on définie des classes)
• Variable quantitative
4726/11/2015
Types de variables Variables qualitatives
• Définition– Une variable statistique est qualitative si ses valeurs, ou modalités, correspondent à des « qualités » :
• Non mesurables sur une échelle
• Présence ou absence d’une caractéristique
Variable qualitative nominale Variable qualitative ordinale
4826/11/2015
Pr_E. BOUAITI : Module BIOSTATISTIQUE
26/11/2015
9
Variable qualitative nominale
• Définition :– C'est une variable qualitative dont les modalités ne sont pas ordonnées.
– Si deux modalités : Dichotomique/ binaire
• Exemples– Variable binaire
• Sexe : homme ou femme• État de santé : malade ou sain
– Groupe sanguin • A, B, AB, O
– Situation familiale : • Célibataire, marié, divorcé, veuf
26/11/2015 49
Variable qualitative ordinale
• Définition :– C'est une variable qualitative dont les modalités sont naturellement ordonnées (il existe un ordre entre les classes).
• Exemple :– Niveau d’étude :
• Primaire, secondaire, universitaire.
– Stade de gravité d’une maladie : • Modéré, sévère, très sévère
5026/11/2015
Variable qualitativeExemple
• Population : les résidents de Rabat (2015)
• Variable :
X: la langue maternelle d'un résident
• Unité statistique : un résident
• Valeurs :
x : Arabe , Berbère , Français , Anglais , Autres .
Variable qualitative nominale
5126/11/2015
Variable qualitativeExemple
• Population : les résidents de Rabat (2015)
• Unité statistique : un résident
• Variable :
X: le niveau socio ‐ économique
• Valeurs :
x : Classe inférieure, Classe moyenne , Classe supérieure.
Variable qualitative ordinale
5226/11/2015
Variables quantitatives
• Définition– Une variable statistique est quantitative si ses valeurs sont des nombres exprimant une quantité, sur lesquels les opérations arithmétiques (somme, différence...) ont un sens.
Variable quantitative discrète Variable quantitative continue
5326/11/2015
Variable quantitative discrète
• Définition
– Une variable discrète peut prendre un nombre limité ( le nombre de possibilités est fini) de valeurs isolées, généralement entières.
• Exemples
– Nombre d’enfants d’une famille : 0, 1, 2, 3, 4, …10
5426/11/2015
Pr_E. BOUAITI : Module BIOSTATISTIQUE
26/11/2015
10
Variable quantitative continue
• Définition
Une variable continue peut prendre n’importe quelle valeur (une infinité de valeurs possibles) entre le minimum et le maximum pour une certaine échelle de mesure.
• Exemples
– Âge, poids, taille, niveau de cholestérol,… .
5526/11/2015
Variable quantitativeExemple
• Population : les ménages de la ville de Rabat
• Variable :
X: le nombre d'individus dans le ménage
• Unité statistique : un ménage
• Valeurs :
x : 1 , 2 , 3 , 4 , ... , 11 .
Variable quantitative discrète
5626/11/2015
Variable quantitative Exemple
• Population : les résidents de la ville de Rabat
• Variable étudiée :
X : le revenu mensuel en Dhs
• Unité statistique : un résident
• Valeurs :
x<3000, x [3000 , 5000) ou [5000 , 10000) ou ... ou [20000 , 30000)
Variable quantitative continue
5726/11/2015
• On peut grouper une donnée continue ou discrète en classes de valeurs : donnée ordinale
– ex : âge < 20, 20‐25, 25‐30, 30
– ex : nb cigarettes/j = 0, 1‐10, 11‐20, > 20
• Prix : perte d’information !!!
58
Variables continues ou discrètes ?
26/11/2015
Les variables en résumé
Variables
Variables qualitatives
Dichotomiques
Binaires
Nominales
Ordinales
Variables quantitatives
Continues
Discrètes
5926/11/2015
Plan
• Introduction • La biostatistique : Définition et intérêt• Variabilité• Unité statistique• Population• Échantillon• Variables statistiques• Les mesures de bases• Conclusion
6026/11/2015
Pr_E. BOUAITI : Module BIOSTATISTIQUE
26/11/2015
11
Les mesures de base
• Proportion
• Ratio
• Indice
• Taux
Rapports
6126/11/2015 62
Les mesures de base
Quel numérateur, quel dénominateur ?
Expression de la relation qui existe entre deux quantités.
XIl est de la forme x K
Y
Rapports
26/11/2015
Proportion
• Définition:
– C’est le rapport où le numérateur est une part du dénominateur.
– Numérateur et dénominateur : même nature
– Expression :
• Nombre compris entre 0 et 1
• Pourcentage (pour mille, pour dix mille, …)
6326/11/2015
a+b
a
Proportion
Proportion = * kd
n
n inclus dans dk puissance de 10
souvent k=100
6426/11/2015
65
Proportionexemples
= = 0,5 = 50 p.1004
2
• Une population de 1000 personnes dont 300 fumeurs la proportion des fumeurs dans ma population?
La proportion des fumeurs = 300/1000 = 30 %
26/11/2015
Ratio
• Définition
– C’est le rapport des effectifs de deux classes d’une même variable.
– Le numérateur n’est pas inclus dans le dénominateur.
– Numérateur et dénominateur : même nature
– Expression : nombre sans unité
6626/11/2015
Pr_E. BOUAITI : Module BIOSTATISTIQUE
26/11/2015
12
Ratio
d
n
n non inclus dans dn et d de même nature
Ratio =
6726/11/2015 68
Ratioexemples
= = 0,5 homme pour 1 femme4
2
Homme
Femme
cancer : ratio 10,6 hommes pour une femme
26/11/2015
Ratioexemples
• Dans une école , nous avons 1200 écoliers dont 400 sont de sexe fémininle sexe ratio M/F?
• Une population de 1000 personnes dont 300 fumeurs le ratio personnes fumeurs / personnes non fumeurs dans ma population?
Le sexe ratio M/F = 800 / 400 = 2
Le ratio fumeurs / non fumeurs =300/700 = 0,43
6926/11/2015
Indice
• Définition:
– C’est le rapport des effectifs de deux classes de deux variables différentes.
– Le numérateur n’est pas compris dans le dénominateur.
– Numérateur et dénominateur :
• Nature différente.
• Référent à des événements différents.
• Exemple : habitant / médecin
7026/11/2015
71
Indice
10 litres d’eau par personne85 lits pour 1 médecin1500 habitant pour 1 médecin
numérateur
dénominateur
de nature différente
26/11/2015
Taux
• Définition :
– C’est une forme particulière de la proportion qui renferme la notion de temps, il exprime la vitesse de changement d’un phénomène dans le temps
– Numérateur : individus ayant subi un événement au cours du temps
– Dénominateur : l’ensemble des individus susceptibles de connaître l’événement pendant cette période
– Expression : nombre de cas pour 10x personnes ‐temps
7226/11/2015
Pr_E. BOUAITI : Module BIOSTATISTIQUE
26/11/2015
13
Taux
Nb de cas survenus au cours d’une période donnée
Taux = x 10x
Effectif de la population à risqueau cours de la même période
7326/11/2015 74
TauxTaux = probabilité de survenue d’un événement
Population susceptibleEffectif
Temps
maladie
Événement
décès
* ky
x x nb événementsy population exposéek puissance de 10
26/11/2015
75
Taux de mortalité maternelle
Nb de décès maternels au cours d’une période
TMM= Nb de Nces vivantes au cours
de la même période
Tauxexemple
En 2010 : TMM = 110 décès pour 100 mille naissances vivantes
26/11/2015
Conclusion
• Biostatistique et variabilité
– La variabilité est la règle
– La variabilité est non prévisible
• Biostatistique : nécessité pour les professionnels de santé
7626/11/2015
BIOSTATISTIQUE
Pr E. BOUAITI
UPR Médecine sociale
UNIVERSITE MOHAMMED V ‐ RABATFACULTE DE MEDECINE ET DE PHARMACIE Programme
1. Principes de base en Biostatistiques
2. La statistique descriptive
3. Organisation et Présentation des données
4. Estimation et fluctuations d’échantillonnage
5. Les principales lois de probabilité
6. Principes des tests statistiques
7. Les tests de comparaison de pourcentages
8. Les tests de comparaison de moyennes
7826/11/2015
Pr_E. BOUAITI : Module BIOSTATISTIQUE
26/11/2015
14
Programme
1. Principes de base en Biostatistiques
2. La statistique descriptive
3. Organisation et Présentation des données
4. Estimation et fluctuations d’échantillonnage
5. Les principales lois de probabilité
6. Principes des tests statistiques
7. Les tests de comparaison de pourcentages
8. Les tests de comparaison de moyennes
7926/11/2015
La Statistique Descriptive
Plan
• Définition
• Rappels
• Statistique descriptive : Variable qualitative
• Statistique descriptive : Variable quantitative
• Statistique à deux dimensions
• Conclusion
26/11/2015 81
La Statistique DescriptiveDéfinition
• C’est l'ensemble des méthodes et techniques permettant de– Présenter
– Décrire
– et Résumer
des données nombreuses et variées.
26/11/2015 82
La Statistique DescriptiveDéfinition
• Peut concerner :
–Une variable à la fois : statistique à une dimension
–Deux variables à la fois : statistique à deux dimensions
–Plus de deux variables à la fois : statistique multidimensionnelle.
26/11/2015 83
La Statistique DescriptiveDéfinition
• Décrire les données par
– Des paramètres statistiques :
• Réduction des données à quelques valeurs numériques caractéristiques.
– Des tableaux : distributions de fréquences.
– Des diagrammes : graphiques.
26/11/2015 84
Pour la bien mener il faut savoir de quelle type de variable s’agit‐il
Pr_E. BOUAITI : Module BIOSTATISTIQUE
26/11/2015
15
Plan
• Définition
• Rappels
• Statistique descriptive : Variable qualitative
• Statistique descriptive : Variable quantitative
• Statistique à deux dimensions
• Conclusion
26/11/2015 85
Rappels : Base de données
Nom Situation de famille
Nombre d’enfants
Age sexe
Patient 1 Marié 2 30 M
Patient 2 Veuf 3 45 M
Patiente 3 Mariée 0 27 F
Patiente 4 Célibataire 0 32 F
Patient 5 Marié 1 39 M
…. …. …. …. ….
Le nombre d'individus étant généralement grand, une telle série brute est difficilement lisible et interprétable. Il est indispensable de la résumer.26/11/2015 86
Exemple : base de donnéesN°patient Prénom Circonstances delaiconsultation Sexe Age Annee orig_vil Dur_hosj type_brul ATCD
15 Sanae phlyctène : henné F 20 2 008 19 2 2208 Zineb liq_chd même jour F 20 2 004 21 0 2125 Fatima flam_gaz dans la semaine F 21 2 006 45 0 262 Fatima Zahra flamme même jour F 23 2 007 Kenitra 14 0 2
135 Maguat flamme F 24 2 006 Mauritanie 110 0 290 Mahjouba liq_chd après un mois F 24 2 006 Temara 12 0 2
223 Loubna flamme dans la semaine F 26 2 004 Casa Blanca 10 0 1252 Fatima Zahra liq_chd même jour F 26 2 009 Rabat 22 0 118 Fatima ex_bo_gz même jour F 26 2 008 Taounate 21 0 249 Houda dans la semaine F 27 2 007 Kenitra 21 0 258 Hanane ex_bo_gz dans la semaine F 27 2 007 Taounate 30 0 211 Najat liq_chd après une semaine F 27 2 008 Salé 14 0 1
234 Hadhoum liq_chd même jour F 28 2 004 Rabat 5 0 2197 Rahma flam_gaz même jour F 28 2 005 88 0 240 Halima liq_chd F 29 2 008 Kenitra 9 0 250 Amina liq_chd dans la semaine F 29 2 007 Kenitra 13 0 2
330 Saida flam_gaz dans la semaine F 30 2 010 Midelt 62 0 2255 Zinba ex_bo_gz même jour F 30 2 009 Tadla 69 0 2274 Kaoutar liq_chd après une semaine F 30 2 009 7 0 1102 Khadija flam_gaz même jour F 31 2 006 Khemissat 50 0 2250 touriya liq_chd dans la semaine F 32 2 009 Salé 35 0 1336 Fatima flamme même jour F 32 2 010 Tiflet 92 0 2241 Touria flamme même jour F 32 2 004 13 0 1133 Fatima Zahra ex_bo_gz après une semaine F 32 2 006 Eljadida 0 1142 Fatima flamme dans la semaine F 34 2 005 24 0 2149 Najat liq_chd F 34 2 005 52 0 2140 Hassna ex_bo_gz même jour F 35 2 005 Méknés 9 0 2283 Achoura ex_bo_gz même jour F 35 2 009 Tiflet 93 0 2103 Lekheila flamme dans la semaine F 36 2 006 Mauritanie 27 0 2296 Amina liq_chd après une semaine F 36 2 010 Agadir 21 0 2
26/11/2015 87
Rappels : variables
Variables
Variables qualitatives
Dichotomiques
Binaires
Ordinales
Nominales
Variables quantitatives
Continues
Discrètes
26/11/2015 88
Observables
Mesurables
‐ Couleur‐Ville d’origine
‐Niveaud’étude
‐Taille‐Poids
‐Nombredepatients
‐ Sexe
Plan
• Définition
• Rappels
• Statistique descriptive : Variable qualitative
• Statistique descriptive : Variable quantitative
• Statistique à deux dimensions
• Conclusion
26/11/2015 89
Statistique descriptiveVariable qualitative
Variables
Variables qualitatives
Dichotomiques
Binaires
Ordinales
Nominales
Variables quantitatives
Continues
Discrètes
26/11/2015 90
Observables
Mesurables
‐ Sexe
‐ Couleur‐Ville d’origine
‐Niveaud’étude
‐Taille‐Poids
‐Nombredepatients
Pr_E. BOUAITI : Module BIOSTATISTIQUE
26/11/2015
16
Statistique descriptiveVariable qualitative
• Un caractère qualitatif ne peut être mesuré • D’où notion de fréquence
• Fréquence absolue : effectif• Nombre d’individus par classe : n– 100 sujets: 24 ont la maladie x
• Fréquences relatives• Pour chaque classe, le rapport de son effectif au
nombre total d’individus • Exprimées en pourcentage– p = : 0,24 ou 24 %
26/11/2015 91
Statistiques descriptivesvariables qualitatives
92
xi ni fi
x1 n1 f1
x2 n2 f2
… … …xp np fp
p xi n 1
Chaque ligne correspond à une modalité différente.
ni correspond au nombre d’observations (effectif) ayant comme valeur xi
fi correspond à la fréquence (pourcentage) d’observations ayant comme valeur xi
100n
nf i
i X
26/11/2015
Statistiques descriptivesvariables qualitatives
• On a noté la situation familiale des 150 patients d’une étude
Nom Situation de famille
Patient 1 Marié
Patient 2 Veuf
Patiente 3 Mariée
Patiente 4 Célibataire
Patient 5 Divorcé
…. ….
26/11/2015 93
Statistiques descriptivesvariables qualitatives
Modalités Effectifs (n)
Marié 80
Célibataire 30
Veuf 20
Divorcé 20
Total 150
26/11/2015 94
Statistiques descriptivesvariables qualitatives
Modalités Effectifs (n) Pourcentage
Marié 80 53,3%
Célibataire 30 20%
Veuf 20 13,3%
Divorcé 20 13,3%
Total 150 100%
26/11/2015 95
Statistiques descriptivesvariables qualitatives
96
Sexe n %
Masculin 70 58,3%
Féminin 50 41,7%
Total 120 100%
26/11/2015
Pr_E. BOUAITI : Module BIOSTATISTIQUE
26/11/2015
17
Statistiques descriptivesvariables quantitatives continues
97
Classe d'âge ni %[14‐16[ 10 9,1%
[16‐18[ 20 18,2%
[18‐20[ 35 31,8%
[20‐22[ 15 13,6%
[22‐24[ 5 4,5%
>24 25 22,7%
Total 110 100,0%
26/11/2015
Plan
• Définition
• Rappels
• Statistique descriptive : Variable qualitative
• Statistique descriptive : Variable quantitative
• Statistique à deux dimensions
• Conclusion
26/11/2015 98
Statistique descriptiveVariable qualitative
Variables
Variables qualitatives
Dichotomiques
Binaires
Ordinales
Nominales
Variables quantitatives
Continues
Discrètes
26/11/2015 99
Observables
Mesurables
‐ Sexe
‐ Couleur‐Ville d’origine
‐Niveaud’étude
‐Taille‐Poids
‐Nombredepatients
Statistiques descriptivesvariables quantitatives
• Paramètres de position : Mesures de la tendance centrale
• Paramètres de dispersion
10026/11/2015
Position
Dispersion
Paramètres de position
• Moyenne arithmétique
• Médiane
• Mode
10126/11/2015
Moyenne arithmétique
102
• La somme de toutes les valeurs individuelles divisée par le nombre de valeurs
∑
• Avec : – n : nombre d’observations
– xi : les valeurs de la variable
– ∑ : la somme de toutes les valeurs observées.
26/11/2015
Pr_E. BOUAITI : Module BIOSTATISTIQUE
26/11/2015
18
Moyenne arithmétiqueExemple
103
• Exemple: Calculer la moyenne des valeurs suivantes : 10, 12, 18, 20, 25, 35
∑=
26/11/2015
Moyenne arithmétiquedonnées groupées
Tranches d’âge Nombre (ni)
[10‐20[ 4
[20‐30[ 6
[30‐40[ 10[40‐50[ 4
[50‐60[ 4[60‐70[ 2
Total (n) 30
10426/11/2015
Moyenne arithmétiquedonnées groupées
105
• Si les observations sont groupées en classes, alors
∑
• ni : le nombre de sujets pour la classe xi
• xi : la valeur centrale de la classe
26/11/2015
Moyenne arithmétiquedonnées groupées
Tranches d’âge Nombre (ni)Valeur centrale
(xi)ni x xi
[10‐20[ 4 15 60
[20‐30[ 6 25 150
[30‐40[ 10 35 350
[40‐50[ 4 45 180
[50‐60[ 4 55 220
[60‐70[ 2 65 130
Total (n) 30 1090
106
∑ = 1090/30=36,3
26/11/2015
Paramètres de position
• Moyenne arithmétique
• Médiane
• Mode
10726/11/2015
Médiane
108
• La médiane est la valeur qui divise les observations en 2 groupes de taille égale :
– Le premier contenant les valeurs inférieures à la médiane
– Et le second les valeurs supérieures à la médiane
La valeur qui partage la série en 2 parties de même effectif (ordre croissant+++)
26/11/2015
Pr_E. BOUAITI : Module BIOSTATISTIQUE
26/11/2015
19
Médianeexemples
• 9 patients hospitalisés dans un service de médecine. Leurs durées de séjour (en jours) sont les suivantes :
3; 15; 23; 46; 64; 126; 279; 623; 1350
• La médiane est la valeur de rang 5 : 64j
26/11/2015 109
n=3 n=3
Médiane
110
• Méthode de calcul
– Classer les valeurs par ordre de grandeur (ascendante ou descendante).
– Identifier le milieu de la série de valeurs :
• Place de la valeur médiane =
Avec N = Nombre total de valeurs dans la série de valeurs.
– Le chiffre se trouvant à cette place dans la série de valeurs correspond à la médiane.
26/11/2015
Médianeexemples
• Médiane d’un nombre impair de données
10, 12, 18, 20, 25– Ranger les valeurs en ordre ascendant : 10, 12, 18, 20, 25
– Déterminer le point central de la série : (5 valeurs +1)/ 2 = 3.
– La médiane est donc la valeur en 3ème position dans la série
– La 3ème valeur est 18.
– La médiane équivaut donc à 18.
11126/11/2015
Médianeexemples
• Médiane d’un nombre pair de données
10, 12, 18, 20, 25, 45– Ranger les valeurs en ordre ascendant : 10, 12, 18, 20, 25, 45
– Déterminer le point central de la série (6 valeurs+1)/2 = 7/2 = 3,5.
– La médiane est la valeur à mi‐chemin entre le 3ème
et le 4ème chiffre : Le 3ème chiffre est 18 et le 4ème
est 20.
– La médiane est (18+20)/2 = 19.
11226/11/2015
Moyenne - Médiane
26/11/2015 113
Série de valeurs:10, 12, 18, 20, 25
10, 12, 18, 20, 45
Moyenne Médiane
17 18
21 18
La moyenne est sensible aux valeurs extrêmesLa médiane est insensible aux valeurs extrêmes
7, 12, 18, 20, 25 16,4 18
Paramètres de position
• Moyenne arithmétique
• Médiane
• Mode
11426/11/2015
Pr_E. BOUAITI : Module BIOSTATISTIQUE
26/11/2015
20
Mode
• La valeur que l’on observe le plus fréquemment dans une série de valeurs.
• Exemple 1 : Le mode des valeurs 10, 12, 12, 12, 18, 18, 20, 25, 35 est 12
• Exemple 2 : La série 10, 12, 12, 12, 18, 18, 18, 20, 25, 35 à 2 modes, 12 et 18
11526/11/2015
Mode
26/11/2015 116
45 98 150 203 256 309 361 414 467 519 572
Créatinine (µmol/l)
0
40
80
120
N
2.1 3.3 4.6 5.8 7.0 8.3 9.5 10.8 12.0 13.3 14.5
Glycémie (mmol/l)
0
50
100
150
200
250
NDistribution unimodale Distribution
bimodale
• Si distribution unimodale, symétrique– les 3 coïncident
-4 -2 0 2 4
0.0
0.1
0.2
0.3
0.4
ddp
Mode = Médiane = Moyenne
18 22 23 25 27
Mode, médiane, moyenne
11726/11/2015
• Si distribution asymétrique
à droite à gauche
mode < médiane < moyenne moyenne < médiane < mode
0
2
4
6
8
10
12
14
16
18
20
1 2 3 4 5 6 7 8 9
PSA (ng/l)
%
Médiane
Moyenne
Mode
2 4 6 8 10
Notes
Histogramme
Mode
MédianeMoyenne
Mode, médiane, moyenne
11826/11/2015
Statistiques descriptivesvariables quantitatives
• Paramètres de position : Mesures de la tendance centrale
• Paramètres de dispersion
11926/11/2015
Position
Dispersion
Paramètres de dispersion
• Étendue
• Les quartiles
• La variance
• Écart‐type
12026/11/2015
Pr_E. BOUAITI : Module BIOSTATISTIQUE
26/11/2015
21
Étendue
• L’étendue indique la distance entre la plus grande et la plus petite valeur observée dans la distribution.
Étendue = valeur maximale ‐ valeur minimale
• Exemple : – Une série : 10, 12, 18, 20, 25, 35
– Étendue : 10 à 35.
12126/11/2015
Étendue
0
20
40
60
80
100
120
140
160
180
200
Nom
bre
0 100 200 300 400 500 600 700 800 900 1000Créatinine J PBR
Histogramme
Valeur min = 45µmol/l
Valeur max = 939 µmol/l
Etendue = 894 µmol/l
Valeur min = 45µmol/l
Valeur max = 572 µmol/l
Etendue = 527 µmol/l
0
20
40
60
80
100
120
140
Nom
bre
0 100 200 300 400 500 600 700 800 900Créatinine J PBR
Histogramme
12226/11/2015
Paramètres de dispersion
• Étendue
• Les quartiles
• La variance
• Écart‐type
12326/11/2015
Les quartiles
Ce sont des valeurs (Q1, Q2, Q3) qui séparent l’échantillon en 4 parties qui contiennent le
même nombre de données.
26/11/2015 124
25%
Quart 1
Quart 2
Quart 3
Quart 4
25% 25%25%
Les quartiles
• Le premier quartile ou le quartile inférieur Q1 = 25 % des valeurs sont inférieures à Q1 et 75 % lui sont supérieures
• Le troisième quartile ou le quartile supérieur Q3 = 75 % des valeurs sont inférieures à Q3 et 25 % lui sont supérieures
• La médiane = le deuxième quartile Q2
12526/11/2015
Les quartiles
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
3 4 4 5 5 5 6 6 6 6 8 8 10 12 15
26/11/2015 126
Médiane de la distribution (15+1)/2 = 8e donnée
Q2
Q1Q3
Médiane des données précédent Q2
Médiane des données qui suivent Q2
Quart 1
Quart 2
Quart 3
Quart 4
Pr_E. BOUAITI : Module BIOSTATISTIQUE
26/11/2015
22
Les quartilesexemple
• Données ordonnées : 10, 12, 18, 20, 25, 45
• Médiane Q2: (20 + 18)/2 = 19
• Quartile inférieur Q1:
– la médiane de 10, 12, 18 = 12
• Quartile supérieur Q3:
– la médiane de 20, 25, 45 = 25
12726/11/2015
Paramètres de dispersion
• Étendue
• Les quartiles
• La variance
• Écart‐type
12826/11/2015
La variance
• La variance :
– La moyenne des carrés des écarts à la moyenne
– La somme des carrés des écarts à la moyenne divisée par le nombre d'observations
∑ 2
1
12926/11/2015
La varianceméthode de calcul
• Calculer la moyenne m
• Calculer la différence entre chaque observation et la moyenne (xi ‐ m)
• Porter chacune de ces différences au carré
(xi ‐ m)2
• Additionner tous ces carrés et diviser la somme des carrés par le nombre d’observations moins 1 (n ‐1)
13026/11/2015
La varianceexemple
• Calculer la variance s2 : 10, 12, 18, 20, 25, 35
– Calculer la moyenne : m=20
Observations xi 10 12 18 20 25 35
Différence à la moyenne
xi‐ 20‐10 ‐8 ‐2 0 +5 +15
Carré de la différence à la
moyenne100 64 4 0 25 225
131
– Calculer la somme des carrés de la différence à la moyenne : 100+64+4+0+25+225=418
– Diviser la somme des carrés par n -1 soit : =
83,626/11/2015
Paramètres de dispersion
• Étendue
• Les quartiles
• La variance
• Écart‐type
13226/11/2015
Pr_E. BOUAITI : Module BIOSTATISTIQUE
26/11/2015
23
Écart‐type
• Mesure la dispersion autour de m
• La mesure de dispersion la plus couramment utilisée
• = Standard Deviation (SD)
• Calcul
26/11/2015 133
∑ 2
1 s =
Écart‐type
Représente l ’écart moyen des données de l’échantillon par rapport à la moyenne
26/11/2015 134
m
x1x2
x4
x5x6x7x9
x10
x11
x12
x8
x3
Écart‐type
Représente l ’écart moyen des données de l’échantillon par rapport à la moyenne
26/11/2015 135
m=20
10
181220
35
25
Écart‐type
• En pratique :– Calculer la variance
– Puis prendre la racine carrée du résultat obtenu
• Exemple : calculer l’écart‐type de la série de 6 valeurs : 10, 12, 18, 20, 25, 35– On calcul la variance : s2 =83,6
– Puis l’écart‐type est la racine carrée du résultat obtenu := 83,6 = 9,14
26/11/2015 136
137
La signification probabiliste de l’écart-type
m
Echantillon 1 Echantillon 2
s2 < s1
s2
s1
26/11/2015
La signification probabiliste de l’écart‐type
138
50 % des individus en-dessous de la moyenne et 50 % au-dessus 68 % des individus entre µ-1σ et µ+1σ
95 % des individus entre µ-1,96σ et µ+1,96σ99,7 % des individus entre µ -3σ et µ+3σ
95 % des individus entre µ-1,96σ et µ+1,96σ
26/11/2015
Pr_E. BOUAITI : Module BIOSTATISTIQUE
26/11/2015
24
La signification probabiliste de l’écart‐type
• Exemple : Chez le sujet adulte non diabétique• La glycémie est distribuée selon une loi normale• Moyenne : 0,86 g/L• Écart ‐ type 0,07 g/L
139
95 % des sujets « normaux » de cette population ont une glycémie comprise entre 0,72 et 1,00 g/L
26/11/2015
95 % des individus entre µ-1,96σ et µ+1,96σ
Plan
• Définition
• Rappels
• Statistique descriptive : Variable qualitative
• Statistique descriptive : Variable quantitative
• Statistique à deux dimensions
• Conclusion
26/11/2015 140
Statistique descriptive à 2 dimensions
• Objectif : mettre en évidence les relations qui existent entre deux séries d'observations.– Nature des variables : les deux variables peuvent être
• Qualitatives• Quantitatives • Ou l'une quantitative et l'autre qualitative.
– Deux variables mesurées chez le même individu• Exemples :
– Présence d’un cancer et tabagisme...– Poids et taille
26/11/2015 141
Statistique descriptive à 2 dimensionsdeux variables qualitatives
Sujet Cancer Tabac1 oui oui2 oui oui3 non non4 oui oui5 oui oui6 oui non7 oui non8 oui oui9 non oui10 non Oui… … …
26/11/2015 142
Canceroui non total
Tabacoui 40 20 60non 10 30 40total 50 50 100
Distribution de fréquences : tables de contingence.
Statistique descriptive à 2 dimensionsdeux variables qualitatives
26/11/2015 143
Canceroui non total
Tabacoui 40 20 60non 10 30 40total 50 50 100
Nombre de mesures totale : n
Effectif d'une case = nij
Total de chaque ligne = li
Total de chaque colonne = cj
Statistique descriptive à 2 dimensionsdeux variables qualitatives
• 100 = Nombre total de mesures.• 50 = Nombre d'individus ayant
un cancer.• 60= Nombre d'individus sont
fumeurs.• 40 / 100 = % d'individus
fumeurs ayant un cancer.• 40 / 60 = % d'individus parmi les
fumeurs ayant un cancer. • 40 / 50 = % d'individus parmi les
malades ayant un cancer qui sont des fumeurs.
26/11/2015 144
Canceroui non total
Tabacoui 40 20 60non 10 30 40total 50 50 100
Recherche de facteurs de risques
Pr_E. BOUAITI : Module BIOSTATISTIQUE
26/11/2015
25
Recherche de facteurs de risques
Cancer du poumon et tabagisme
• Fréquences relatives : Risques
26/11/2015 145
Canceroui non total
Tabacoui 40 20 60non 10 30 40total 50 50 100
• Cancer chez les fumeurs: • R1 = 40/60 = 0,70
• Cancer chez les non fumeurs: • R0 = 10/40 = 0,25
Statistique descriptive à 2 dimensionsdeux variables quantitativespatient Age (ans) taille (cm)
1 21 1692 24 1883 25 1624 22 1615 19 1806 21 1897 24 1848 22 1519 22 17510 21 162… … …
26/11/2015 146
Statistique descriptive à 2 dimensionsdeux variables quantitatives
• Coefficient de corrélation linéaire (ρ ou r)
• COV (X,Y) = moyenne des produits des écarts à la moyenne
26/11/2015 147
VAR(Y)VAR(X)
Y)COV(X,,
YX
Coefficient de corrélation linéaire
• Mesure l'intensité de la liaison linéaire entre X et Y
• Le coefficient de corrélation varie entre ‐1 et 1.
• 0 signifie une association nulle
• Le signe correspond à la direction de la corrélation. – Quand les deux valeurs augmentent ou diminuent ensemble il s'agit d'une corrélation positive.
– Quand une valeur augmente alors que l'autre diminue il s'agit d'une corrélation négative
• |ρx,y| Proche de 1 RELATION LINEAIRE entre les variables
26/11/2015 148
Exemple
26/11/2015 149
Conclusion
• La statistique descriptive
– Première étape d’études épidémiologiques
– Obligatoire
• Variable qualitative
– Effectif & Pourcentage
• Variable quantitative
– Moyenne ± écart‐ type
– Médiane et quartiles
26/11/2015 150
Pr_E. BOUAITI : Module BIOSTATISTIQUE
26/11/2015
26
BIOSTATISTIQUE
Pr E. BOUAITI
UPR Médecine sociale
UNIVERSITE MOHAMMED V ‐ RABATFACULTE DE MEDECINE ET DE PHARMACIE Programme
1. Principes de base en Biostatistiques
2. La statistique descriptive
3. Organisation et Présentation des données
4. Estimation et fluctuations d’échantillonnage
5. Les principales lois de probabilité
6. Principes des tests statistiques
7. Les tests de comparaison de pourcentages
8. Les tests de comparaison de moyennes
15226/11/2015
Programme
1. Principes de base en Biostatistiques
2. La statistique descriptive
3. Organisation et Présentation des données
4. Estimation et fluctuations d’échantillonnage
5. Les principales lois de probabilité
6. Principes des tests statistiques
7. Les tests de comparaison de pourcentages
8. Les tests de comparaison de moyennes
15326/11/2015
Organisation et Présentation des données
Plan
• Rappel
• Introduction
• Tableaux
• Graphiques
• Boîte à moustaches
• Diagramme de dispersion
• Conclusion
26/11/2015 155
Rappels : variables
Variables
Variables qualitatives
Dichotomiques
Binaires
Ordinales
Nominales
Variables quantitatives
Continues
Discrètes
26/11/2015 156
Observables
Mesurables
‐Ville d’origine
‐Niveaud’étude
‐Taille‐Poids
‐Nombred’enfants
‐ Sexe
Pr_E. BOUAITI : Module BIOSTATISTIQUE
26/11/2015
27
Statistique descriptiveVariables qualitatives
26/11/2015 157
VariablesVariables
qualitatives
Dichotomiques
Binaires
Ordinales
Nominales
Observables
Fréquence absolue : effectifNombre d’individus par classe : n
Fréquences relativesPour chaque classe, le rapport de son effectif au nombre total d’individus
Exprimées en pourcentage
Statistique descriptiveVariables quantitatives
26/11/2015 158
VariablesVariables
quantitatives
Continues
Discrètes
Mesurables
Paramètres de position : Mesures de la tendance centrale
Moyenne arithmétiqueMédianeMode
Paramètres de dispersionÉtendue
Les quartilesLa variance Écart‐type
Exemple
26/11/2015 159
Exemple
26/11/2015 160
26/11/2015 161
Introduction
26/11/2015 162
N° patient sexe age tailleATCDs
médicaux1 Féminin 20 175 diabéte
2 Masculin 22 175 diabéte3 Féminin 21 164 HTA4 Féminin 18 156 diabéte5 Féminin 25 176 diabéte
6 Féminin 21 165 grossesse7 Masculin 23 166 diabéte8 Masculin 23 166 diabéte
9 Féminin 23 161ménopaus
e
10 Masculin 22 166 HTA11 Masculin 24 163 diabéte12 Masculin 20 177 diabéte
13 Masculin 20 167 diabéte
14 Féminin 24 151ménopaus
e
15 Masculin 21 164 HTA16 Féminin 22 158 grossesse17 Masculin 25 170 HTA18 Féminin 21 174 HTA
19 Féminin 25 162ménopaus
e20 Masculin 22 166 diabéte
21 Féminin 23 155ménopaus
e
22 Masculin 23 179 diabéte23 Masculin 25 158 HTA
Base de données
Tableau des données brutes
Pr_E. BOUAITI : Module BIOSTATISTIQUE
26/11/2015
28
Introduction
• Étude sur un échantillon ou une population : Données brutes
– Variables quantitatives : Une série de valeurs
– Variables qualitatives : un tableau brut
– Présentation des données : rarement « parlante »
• Organisation et présentation des données :
– Faire ressortir une partie de l’information
– Visualiser le résumé statistique
26/11/2015 163
Introduction
Les trois étapes du traitement des données statistiques:
– Des paramètres statistiques.
– Des tableaux : distributions de fréquences.
– Des diagrammes : graphiques.
26/11/2015 164
Introduction
• Tableau ou graphique :
• Choix : Suivant le type de variable aléatoire
• Classes ou modalités +++
26/11/2015 165
Variables quantitatives continues
Variables discrètes
Transformation
Rappels : variables
Variables
Variables qualitatives
Dichotomiques
Binaires
Ordinales
Nominales
Variables quantitatives
Continues
Discrètes
26/11/2015 166
Observables
Mesurables
‐ Ville d’origine
‐Niveaud’étude
‐Taille‐Poids
‐Nombred’enfants
‐ Sexe
Plan
• Introduction
• Tableaux
• Graphiques
• Boîte à moustaches
• Diagramme de dispersion
• Conclusion
26/11/2015 167
Tableaux
• Définition
– Matrice comportant au moins deux entrées :
• Une horizontale : lignes
• Une verticale : colonnes
• Objectif
– Présenter les données de façon exacte
26/11/2015 168
Présentation écrite des données statistiques
Pr_E. BOUAITI : Module BIOSTATISTIQUE
26/11/2015
29
Tableaux de fréquences
• Définition
– La distribution de fréquence d’une variablestatistique X est une fonction qui, à chaque valeurxi de la variable, fait correspondre sa fréquence fi .
– De façon similaire on définit la distribution defréquence relative.
• Types de variables
– Variables qualitatives
– Variables quantitatives
26/11/2015 169
Tableaux de fréquences
• Les tableaux statistiques :
– Distribution de fréquences absolues
– Distribution de fréquences relatives
– Distribution de fréquences relatives cumulées
• Présentation
– Les classes de la variables
– Les effectifs et les fréquences
– Total des effectifs et total des fréquences
26/11/2015 170
!Éviter les données manquantes!
Tableaux de fréquences
• Variables qualitatives
• Variables quantitatives
– Discrètes
– Continues
• Deux variables ou plus
26/11/2015 171
Tableaux de fréquences
• Tableau à simple entrée, sans hiérarchie (sauf si le caractère est ordinal).
• La première colonne renseigne les modalités et les deux suivantes les effectifs et fréquences.
• Si le caractère est ordinal, on pourra rajouter une dernière colonne avec les fréquences cumulées.
26/11/2015 172
Tableaux de fréquences
173
xi ni fi
x1 n1 f1
x2 n2 f2
… … …xp np fp
p xi n 1
Chaque ligne correspond à une modalité différente.
ni correspond au nombre d’observations (effectif) ayant comme valeur xi
fi correspond à la fréquence (pourcentage) d’observations ayant comme valeur xi
100n
nf i
i X
26/11/2015
Tableaux de fréquencesExemple : V. qualitative
26/11/2015 174
ATCDs médicaux Effectif des patients (n)
Pourcentage des patients (%)
Grossesse 129 12,9%Diabète 483 48,3%HTA 332 33,2%
Ménopause 56 5,6%Total 1000 100,0%
Distribution des patientes selon les ATCDs médicaux (n=1000)
Pr_E. BOUAITI : Module BIOSTATISTIQUE
26/11/2015
30
Tableaux de fréquencesExemple : V. quantitative discrète
Une enquête épidémiologique a été réalisée pour étudier le nombred’enfants par foyer au niveau de la région de Rabat.Posons X = la variable statistique représentant le nombre d’enfantsdans un foyer. Calculer les fréquences et présenter les résultat sousforme d’un tableau de fréquence2 1 3 0 6 0 1 2 3
3 0 2 0 4 1 0 4 0
1 1 3 2 3 3 2 1 1
0 1 2 4 1 2 2 7 3
0 1 1 2 5 5 3 4 3
1 2 2 3 0 1 2 0 2……..
26/11/2015 175
n=1000 foyers
Tableaux de fréquencesExemple : V. quantitative discrète
Nombre d'enfants
Effectif (n)Fréquence relative (%)
Fréquence cumulée (%)
0 129 12,9% 12,9%1 451 45,1% 58,0%2 332 33,2% 91,2%3 56 5,6% 96,8%4 21 2,1% 98,9%5 8 0,8% 99,7%6 3 0,3% 100,0%
Total 1000 100%
26/11/2015 176
Distribution des foyers de la region de Rabat selon le nombred’enfants (n=1000)
Tableaux de fréquencesExemple : V. quantitative continues
177
Classe d'âge ni %[14‐16[ 15 12,50%
[16‐18[ 20 16,67%
[18‐20[ 35 29,17%
[20‐22[ 15 12,50%
[22‐24[ 10 8,33%
>24 25 20,83%
Total 120 100,00%
26/11/2015
Tableaux de fréquencesExemple : 2 variables
26/11/2015 178
Classe d'âge
Hommes Femmes Totalni % ni % ni %
[14‐16[ 11 15,7% 4 8,0% 15 12,5%
[16‐18[ 10 14,3% 10 20,0% 20 16,7%
[18‐20[ 19 27,1% 16 32,0% 35 29,2%
[20‐22[ 8 11,4% 7 14,0% 15 12,5%
[22‐24[ 5 7,1% 5 10,0% 10 8,3%
>24 17 24,3% 8 16,0% 25 20,8%
Total 70 100,0% 50 100,0% 120 100,0%
Tableaux de fréquencesExemple
26/11/2015 179
Plan
• Introduction
• Tableaux
• Graphiques
• Boîte à moustaches
• Diagramme de dispersion
• Conclusion
26/11/2015 180
Pr_E. BOUAITI : Module BIOSTATISTIQUE
26/11/2015
31
Graphiques
• Définition
– Images des données des études statistiques
• Objectif
– Faire ressortir une vision synthétique du phénomène étudié
– Permet de comparer d’un « coup d’œil » les différentes modalités
26/11/2015 181
Graphiques
• Deux axes :
– Axe horizontal : abscisses
– Axe vertical : ordonnées
26/11/2015 182
0
1
2
3
4
5
6
Catégorie 1 Catégorie 2 Catégorie 3 Catégorie 4
Titre du graphique
Série 1 Série 2 Série 3
Graphiques
• Deux axes :
– Axe horizontal : abscisses
• Les modalités
– Axe vertical : ordonnées
• Les effectifs (ou fréquences)
– La hauteur de chaque bande
• Proportionnelle à l’effectif correspondant
26/11/2015 183
Graphiques
• Recommandation :– Graphique simple
– Compréhensible
– Légendé (titre, axes, unités)
– Honnête
• A éviter :– Graphes 3D
– Les superpositions de multiples graphes sur une même graphique
– La coloration abusive : dégradé de gris +++
26/11/2015 184
Graphiques
• Types :
– Histogramme
– Polygone de fréquence
– Diagramme en barres
– Diagramme en barres horizontales
– Camembert
26/11/2015 185
Types de variables
Histogramme
• Types de variables :– Variables quantitatives discrètes– Variables quantitatives continues
• Un diagramme :– Barres verticales contiguës– Ordonnées : effectifs / fréquences– Abscisses : les classes de la variable– Échelle des abscisses :
• Variables continues : Les bornes des classes (intervalle de la classe)
• Variables discrètes : Le centre de la barre
26/11/2015 186
Pr_E. BOUAITI : Module BIOSTATISTIQUE
26/11/2015
32
HistogrammeExemples
26/11/2015 187
0
10
20
30
40
[14‐16[ [16‐18[ [18‐20[ [20‐22[ [22‐24[ >24
Distribution de l'âge chez 120 sujets adultes
Effectif : nombre de sujet
Variable quantitative : Age (ans)
HistogrammeExemples
26/11/2015 188
0
100
200
300
400
500
0 1 2 3 4 5 6
Distribution du nombre d'enfants par foyer dans une popiulation de 1000 foyers
Effectif : nombre
de foyers
Variable quantitative discrète : nombre d’enfants
Histogramme
• Nombre des barres :
– Trop de classe : effet « colonnes de Buren »
– Trop peu de classe : effet « podium olympique »
– Recommandé : maximum 6
26/11/2015 189
HistogrammeTrop de classe
26/11/2015 190
0
5
10
15
20
Distribution de l'âge chez 120 sujets adultes
« colonnes de Buren »
HistogrammePeu de classes
26/11/2015 191
0
20
40
60
80
[14‐20[ [20‐24[ >24
Distribution de l'âge chez 120 sujets adultes
« podium olympique »
HistogrammeÉtendue des classes
26/11/2015 192
Pr_E. BOUAITI : Module BIOSTATISTIQUE
26/11/2015
33
Histogramme4 règles
26/11/2015 193
Nombre de Classes (K): 6 < K < 15.K =
Avec n : taille d’échantillonNB : Il faut arrondir la valeur K
et L (à l'excès : 3,5 4).Règle de STURGES : K = 1 + 3,3 log10 (N)
Calculer l’Intervalles de Classe (L):L = E / K
Déterminer les classes:1ère Classe = [min‐Ꜫ – mini‐Ꜫ+L[
2ème Classe = [min‐Ꜫ +L – min‐Ꜫ+2L[Dernière Classe =[maximale+Ꜫ ‐L – maximale+Ꜫ[
Calculer l’étendue EE = maximale – minimale.
11 20 18 10 20 1116 10 15 17 17 1111 12 12 11 20 1315 20 13 19 14 1516 11 20 12 10 1218 10 13 16 16 13
La durée d’hospitalisation de 36 malades
Arrondir L selon précision voulue ⇒ diminution ou
augmentation parfois de K de 1.
Histogramme4 régles
26/11/2015 194
Déterminer les classes:1ère Classe = [9 – 11[2ème Classe = [11 – 13[3ème Classe = [13 – 15[4ème Classe = [15 – 17[5ème Classe = [17 – 19[6ème Classe = [19 – 21[
11 20 18 10 20 1116 10 15 17 17 1111 12 12 11 20 1315 20 13 19 14 1516 11 20 12 10 1218 10 13 16 16 13
Nombre de Classes (K):
K = = 6
Calculer l’étendue EE =20 – 10 = 10
Intervalles de Classe (L):L = 10/6 =1,7 ≈2
La durée d’hospitalisation de 36 malades
Histogramme4 régles
26/11/2015 195
La durée d’hospitalisation de 36 malades
Polygone de fréquence
• Type de variable :– Variable quantitative continue
• Graphe linéaire : – Ordonnée : effectifs ou fréquences– Abscisse : valeurs du variable discrétisée
• Chaque point = effectif ou fréquence pour le point central de la classe de la variable.
• Polygone de fréquence doit commencer et se terminer à 0
• Intérêt : représenter sur un même graphique plusieurs distributions.
26/11/2015 196
Polygone de fréquenceExemples
26/11/2015 197
Effectif : nombre de sujet
Variable quantitative : Age (ans)
0
10
20
30
40
<14 [14‐16[ [16‐18[ [18‐20[ [20‐22[ [22‐24[ >24
Distribution de l'âge chez 120 sujets adultes
Polygone de fréquenceExemples
26/11/2015 198
Effectif : nombre de sujet
Variable quantitative : Age (ans)
0
5
10
15
20
<14 [14‐16[ [16‐18[ [18‐20[ [20‐22[ [22‐24[ >24
Distribution de l'âge selon le sexe
Hommes Femmes
Pr_E. BOUAITI : Module BIOSTATISTIQUE
26/11/2015
34
Polygone de fréquenceExemples
26/11/2015 199
a) Histogramme basé sur desgroupes mesurés (unités de 10ans).
b) Histogramme basé sur desgroupes mesurés (unités de 5ans).
c) Nombre infini (mesurés enmois).
26/11/2015 200
Diagramme en barres
• Type de variable :– Variable qualitative ordinale +++– Variable qualitative nominale
• Diagramme :– Barres verticales disjointes– Ordonnées : effectifs ou les fréquences– Abscisses :
• sans échelle numérique• Libellés : modalités des variables
– Les barres :• Largeur : identique
26/11/2015 201
Diagramme en barresExemple
26/11/2015 202
0,0%
10,0%
20,0%
30,0%
40,0%
50,0%
60,0%
asymptomatique modérée marquée sévère
Distribution des formes cliniques d'une maladie dansune série de 1000 patients
Pourcentage des patients
Variable qualitative ordinale : forme clinique
Diagramme en barresExemple
Consommation du tabac (n=200)
26/11/2015 203
60,70%
33,40%
5,80%
0,00%
10,00%
20,00%
30,00%
40,00%
50,00%
60,00%
70,00%
non fumeurs anciens fumeurs fumeurs actifs
Diagramme en barresExemple
26/11/2015 204
Pr_E. BOUAITI : Module BIOSTATISTIQUE
26/11/2015
35
Diagramme en barresExemple
26/11/2015 205
Diagramme en barresExemple
26/11/2015 206
Diagramme en barresExemple
26/11/2015 207
Diagramme en barres
• Diagramme en barres horizontales
– Variable qualitative nominale
• Diagramme :
– Barres horizontales disjointes
– Ordonnées : Libellés des classes
– Abscisses : effectifs ou les fréquences
26/11/2015 208
Diagramme en barres horizontalesExemple
26/11/2015 209
Pourcentage des patients
Var
iab
le q
ual
itat
ive
no
min
ale
: A
TC
Ds
méd
icau
x
0,0% 10,0% 20,0% 30,0% 40,0% 50,0% 60,0%
grossesse
diabète
HTA
ménopause
Distribution des antécédents médicaux d'une série de 1000 patientes
Diagramme en barres horizontalesExemple
26/11/2015 210
Pr_E. BOUAITI : Module BIOSTATISTIQUE
26/11/2015
36
Camembert(Pie chart)
• Type de variable :
– Variable qualitative nominale
• Permet de bien visualiser la part relative de chaque modalité.
• Camembert :
– Cercle divisé en secteurs
– Chaque secteur : une classe de la variable
– La surface du secteur : proportionnelle à la fréquence
– Nombre de secteurs : moyenne de 6
26/11/2015 211
CamembertExemple
26/11/2015 212
grossesse13%
diabète48%
HTA33%
ménopause6%
Distribution des antécédents médicaux d'une série de 1000 patientes
CamembertExemple
26/11/2015 213
Diagramme en barres horizontales
26/11/2015 214
Pourcentage des patients
Var
iab
le q
ual
itat
ive
no
min
ale
: A
TC
Ds
méd
icau
x
12,9%
48,3%
33,2%
5,6%
0,0% 20,0% 40,0% 60,0%
grossesse
diabète
HTA
ménopause
Distribution des antécédents médicaux d'une série de 1000
patientesgrossesse
13%
diabète48%
HTA33%
ménopause6%
Distribution des antécédents médicaux d'une série de 1000 patientes
Camembert
Diagramme en barres horizontales
26/11/2015 215
Camembert
60,70%
33,40%
5,80%
non fumeurs anciens fumeurs fumeurs actifs
60,70%
33,40%
5,80%
0,00% 20,00% 40,00% 60,00%80,00%
non fumeurs
anciens fumeurs
fumeurs actifs
Plan
• Introduction
• Tableaux
• Graphiques
• Boîte à moustaches
• Diagramme de dispersion
• Conclusion
26/11/2015 216
Pr_E. BOUAITI : Module BIOSTATISTIQUE
26/11/2015
37
Boîte à moustaches
• Définition:
– Résume quelques caractéristiques de position du caractère étudié (médiane, quartiles, minimum, maximum)
– Permet de faire une comparaison entre deux populations
26/11/2015 217
Boîte à moustaches
26/11/2015 218
Boîte à moustaches
26/11/2015 219
Boîte à moustachesExemple
26/11/2015 220
Boîte à moustachesExemple
26/11/2015 221
Plan
• Introduction
• Tableaux
• Graphiques
• Boîte à moustaches
• Diagramme de dispersion
• Conclusion
26/11/2015 222
Pr_E. BOUAITI : Module BIOSTATISTIQUE
26/11/2015
38
Diagramme de dispersionNuage de points
• Définition:
– Outil pour représenter graphiquement la relation entre deux variables quantitatives continues
– Deux mesures réalisées sur un même individu.
– Permet de caractériser la direction, la force et la forme de la relation.
26/11/2015 223
Diagramme de dispersionNuage de points
26/11/2015 224
Y
X
(X;Y)
Diagramme de dispersionNuage de points
26/11/2015 225
Conclusion
26/11/2015 226
Organisation et Présentation des
données
Type des variables
Organisation et Présentation des données
26/11/2015 227
VariablesVariables
qualitatives
Dichotomiques
Binaires
Ordinales
Nominales
Observables
Tableaux de fréquencesGraphiques :Diagramme en barres
Diagramme en barres horizontalesCamembert
Organisation et Présentation des données
26/11/2015 228
VariablesVariables
quantitatives
Continues
Discrètes
Mesurables
Tableaux de fréquencesGraphiques :
HistogrammePolygone de fréquenceBoîte à moustaches
Pr_E. BOUAITI : Module BIOSTATISTIQUE
26/11/2015
39
BIOSTATISTIQUE
Pr E. BOUAITI
UPR Médecine sociale
UNIVERSITE MOHAMMED V ‐ RABATFACULTE DE MEDECINE ET DE PHARMACIE Programme
1. Principes de base en Biostatistiques
2. La statistique descriptive
3. Organisation et Présentation des données
4. Estimation et fluctuations d’échantillonnage
5. Les principales lois de probabilité
6. Principes des tests statistiques
7. Les tests de comparaison de pourcentages
8. Les tests de comparaison de moyennes
23026/11/2015
Programme
1. Principes de base en Biostatistiques
2. La statistique descriptive
3. Organisation et Présentation des données
4. Estimation et fluctuations d’échantillonnage
5. Les principales lois de probabilité
6. Principes des tests statistiques
7. Les tests de comparaison de pourcentages
8. Les tests de comparaison de moyennes
23126/11/2015
Estimation et fluctuations d’échantillonnage
Plan
• Rappel
• Introduction
• Fluctuation d’échantillonnage
• Estimation ponctuelle
• Estimation par intervalle
• Intervalle de confiance d’une moyenne
• Intervalle de confiance d’une proportion
26/11/2015 233
Rappels : variables
26/11/2015 234
Variables
Variables qualitatives
Dichotomiques
Binaires
Ordinales
Nominales
Variables quantitatives
Continues
Discrètes
Observables
Mesurables
‐Ville d’origine
‐Niveaud’étude
‐Taille‐Poids
‐Nombred’enfants
‐ Sexe
Pr_E. BOUAITI : Module BIOSTATISTIQUE
26/11/2015
40
Statistique descriptiveVariables qualitatives
26/11/2015 235
VariablesVariables
qualitatives
Dichotomiques
Binaires
Ordinales
Nominales
Observables
Fréquence absolue : effectifNombre d’individus par classe : n
100 sujets: 24 ont la maladie x Fréquences relatives
Pour chaque classe, le rapport de son effectif au nombre total d’individus Exprimées en pourcentage
p = : 0,24 ou 24 %
Statistique descriptiveVariables quantitatives
26/11/2015 236
VariablesVariables
quantitatives
Continues
Discrètes
Mesurables
Paramètres de position : Mesures de la tendance centrale
Moyenne arithmétiqueMédianeMode
Paramètres de dispersionÉtendue
Les quartilesLa variance Écart‐type
Introduction
• Si la population est trop nombreuse on ne peut pas étudier toutes les unités statistiques .
• On prend alors un échantillon de la population.
Recensement ou Échantillonnage
• Recensement = vérité
• Échantillonnage = estimation de la vérité
26/11/2015 237
Introduction
238
PopulationValeur théorique ou
vraie
ÉchantillonObservations
Valeur estimée
Prédiction Intervalle de fluctuation
Estimation Intervalle de confiance
26/11/2015
Plan
• Rappel
• Introduction
• Fluctuation d’échantillonnage
• Estimation ponctuelle
• Estimation par intervalle
• Intervalle de confiance d’une moyenne
• Intervalle de confiance d’une proportion
26/11/2015 239
Fluctuation d’échantillonnage
• Plusieurs échantillons peuvent être constitués
Fluctuation d’échantillonnage
• Échantillon représentatif
Tirage au sort
240
Population26/11/2015
Pr_E. BOUAITI : Module BIOSTATISTIQUE
26/11/2015
41
Fluctuation d’échantillonnage
• Tirage au sort : Échantillon représentatif
• Plusieurs échantillons peuvent être constitués Echantillon 1 :
n1=4
170, 175,
180, 182
Echantillon 2 :
n2=4
155, 170,
179, 186
Echantillon 3 :
n3=4
165, 174
186, 190
24126/11/2015
Fluctuation d’échantillonnageExemple
• Population : 1 000 000 sujets
– Malades : 20%
– Non malades : 80%
• Echantillon aléatoire : 20 sujets
– Malades : 4 (20%)
– Non malades : 16 (80%)
26/11/2015 242
Fluctuation d’échantillonnageExemple
Nombres de malades observés sur 10 000 échantillons de 20 sujets tirés d’une population où le pourcentage vrai de malades est 20%
104
601
1353
20062211
1793
1069
558
20475 19 6 1
0
500
1000
1500
2000
2500
0 1 2 3 4 5 6 7 8 9 10 11 12
26/11/2015 243
Fluctuation d’échantillonnageExemple
Nombres de malades observés sur 10 000 échantillons de 20 sujets tirés d’une population où le pourcentage vrai de malades est 20%
104
601
1353
20062211
1793
1069
558
20475 19 6 1
0
500
1000
1500
2000
2500
0 1 2 3 4 5 6 7 8 9 10 11 124(20%)26/11/2015 244
Fluctuation d’échantillonnage
• Loi des grands nombres
Convergence de la fréquence d’un événement vers sa probabilité
n ∞
Fréquence de l’événement parmi n
observations
Nombre n d’observations (taille de l’échantillon)26/11/2015 245
En résumé
• Extraction de n échantillons d’une population P
– Si l’on extrait plusieurs échantillons représentatifs de taille n fixée, les différences observées entre les résultats obtenus sont dues à des fluctuations d’échantillonnage.
– A partir d’un échantillon, on n’a donc pas de certitudes mais des estimations de paramètres.
26/11/2015 246
Pr_E. BOUAITI : Module BIOSTATISTIQUE
26/11/2015
42
Estimation
• Estimation ponctuelle
– On donne une unique valeur calculée à partir des observations faites sur l'échantillon
• Estimation par intervalle
– On donne 2 valeurs entre lesquelles le paramètre peut se trouver
– On donne un intervalle qui a de "fortes chances" de contenir la vraie valeur.
– Intervalle de confiance à 95%
26/11/2015 247
Plan
• Rappel
• Introduction
• Fluctuation d’échantillonnage
• Estimation ponctuelle
• Estimation par intervalle
• Intervalle de confiance d’une moyenne
• Intervalle de confiance d’une proportion
26/11/2015 248
Estimation ponctuelle
• Estimation d’un pourcentage
– P = pourcentage vrai de malades dans la population
– Echantillon comprenant n sujets dont k malades
– Estimation de P :
26/11/2015 249
Estimation ponctuelle
• Estimation d’une moyenne
– μ = moyenne vraie de X
– Echantillon de n sujets tirés au sort dans la population
– Valeurs observées : x1, … , xn
– Estimation de μ :
26/11/2015 250
Estimation ponctuelle
• Estimation d’une variance
– μ = moyenne vraie de X
– σ2 variance vraie de X
– Comme μ est inconnue
– Estimation de s2
• Autres expressions de s2 :
26/11/2015 251
Qualités d’une estimation
• Pas de biais
• Variance minimum
Présence de biais
Absence de biais
26/11/2015 252
Pr_E. BOUAITI : Module BIOSTATISTIQUE
26/11/2015
43
Plan
• Rappel
• Introduction
• Fluctuation d’échantillonnage
• Estimation ponctuelle
• Estimation par intervalle
• Intervalle de confiance d’une moyenne
• Intervalle de confiance d’une proportion
26/11/2015 253
Estimation par intervalle
254
PopulationValeur théorique ou vraie
P / μ ?
ÉchantillonObservations
Valeur estimée
po /mo
Estimation Intervalle de confiance
26/11/2015
Estimation par intervalle
255
PopulationValeur théorique ou vraie
P / μ ?26/11/2015
p1 /m1
p2 /m2
p3 /m3
Pn-1 /mn-1
pn /mn
Échantillon
Valeur estimée
. .. .. .
Estimation par intervalle
256
PopulationValeur théorique ou vraie
P ϵ [Pmin – Pmax]
μ ϵ [mmin – mmax]
26/11/2015
p1 /m1
p2 /m2
p3 /m3
Pn-1 /mn-1
pn /mn
Échantillon
Valeur estimée
. .. .. .
Estimation par intervalle
Consiste à construire, autour de l’estimation ponctuelle, un intervalle qui aura une grande probabilité (1‐) de contenir la vraie valeur du
paramètre.
Intervalle de confiance
Valeur de la statistique calculée à partir de
l’échantillon
Limite inférieure Limite supérieure
26/11/2015 257
Estimation par intervalle
26/11/2015 258Intervalle de confiance à 95%)
Pr_E. BOUAITI : Module BIOSTATISTIQUE
26/11/2015
44
Estimation par intervalle
Moyenne, , est inconnue
Population Échantillon aléatoireJe suis confiant à 95% que est entre 40 & 60.
Moyenne = 50
Échantillon
26/11/2015 259Intervalle de confiance
Estimation par intervalle
• Objectif:
– On veut inférer la valeur d’un paramètre d’une population (inconnue) à partir d’un échantillon
– La meilleure estimation de μ est x
– La meilleure estimation de P est p
Puisque cette estimation a peu de chance d’être exacte, on aimerait connaître un intervalle à l’intérieur duquel il est probable de trouver la
vraie valeur du paramètre
26/11/2015 260
Plan
• Rappel
• Introduction
• Fluctuation d’échantillonnage
• Estimation ponctuelle
• Estimation par intervalle
• Intervalle de confiance d’une moyenne
• Intervalle de confiance d’une proportion
26/11/2015 261
Intervalle de confiance d’une moyenne
• Distribution normale.
– La forme exacte d’une distribution normale dépend de:
• La moyenne μ
• l’écart‐type σ
26/11/2015 262
Notation : N(μ, σ)
Intervalle de confiance d’une moyenne
• Une distribution d’échantillonnage : est une distribution de statistiques (par exemple ) provenant de tous les échantillons possiblesd’une taille N donnée que l’on peut tirer d’unepopulation précise.
26/11/2015 263
x
Intervalle de confiance d’une moyenne
• Théorème limite centrale
– Plus N est grand, plus la distribution d’échantillonnage de la moyenne s’apparente à une distribution normale :
26/11/2015 264
N
NX xx
,~
Distribution d’échantillonnage
de la moyenneL’écart-type
Pr_E. BOUAITI : Module BIOSTATISTIQUE
26/11/2015
45
265
1. mo est le plus souvent différent de μ
2. mo « proche » de μ est « plus probable »
- Fourchette . Centrée sur mo
. i est la précision (la marge d'erreur)
‐ Risque d’erreur mo
mo + i
mo
mo - i
+ i
- i
Intervalle de confiance de μ = m0 ± i
intervalle ponctuelle« μ » va être estimée à partir de mobservée
26/11/2015
Intervalle de confiance d’une moyenne
Intervalle de confiance d’une moyenne
À partir du théorème de la limite centrale, on obtient :
Mais, σ est aussi inconnu et doit lui aussi être estimé à partir de l’échantillon!
26/11/2015 266
NzmIC
*0 2/1
267
I.C. de = m i
Intervalle de confiance d’une moyenne
• Taille d’échantillon grande : n >30
26/11/2015
Intervalle de confiance d’une moyenne
• Expression :
Intervalle de confiance à 95 % pour m :
] n
1.96+ m - n
1.96 - m [ 2
0
2
0ss
26/11/2015 268
269
I.C. de = m i
Intervalle de confiance d’une moyenne
• Taille d’échantillon petite: n <30• et X suit une loi normale
s2 = variance n = effectif de l’échantillon
t/2 (n-1) = fonction et degré de liberté (ddl)
Tables : loi du Student
ns2
i = t/2(n-1) x
26/11/2015
Intervalle de confiance d’une moyenne
• Expression :
Intervalle de confiance à 95 % pour m :
] n
t+ m - n
t- m [ 2
1)-(n,20
2
1)-(n,20
ss
26/11/2015 270
Pr_E. BOUAITI : Module BIOSTATISTIQUE
26/11/2015
46
Lois de Student
26/11/2015 271
Lois de StudentExemple
26/11/2015 272
Valeur tExemple : n= 10 et α = 0,05
ddl = 10 ‐ 1 = 9
Dans la table de la distribution t on trouve que t0,05/2 = 2,262.
Intervalle de confiance d’une moyenneExemple
• Taille à la naissance :
– m0 = 49 cm s2 = 7,8 cm2
• Intervalle de confiance à 95% de la moyenne des tailles de naissance observées sur un échantillon de taille 400 :
] 400
7,81,96 49 ;
400
7,81,96- 49 [ m
26/11/2015 273
Intervalle de confiance d’une moyenneExemple
• Interprétation :
Dans 95% des échantillons de 400 nouveau‐nés, la moyenne observée des tailles est comprise
entre 48,73 cm et 49,27 cm.
IC95% = [48,7 – 49,3]
26/11/2015 274
Intervalle de confiance d’une moyenneExemple
• Taille à la naissance :
– m0 = 49 cm s2 = 7,8 cm2
• Intervalle de confiance à 95% de la moyenne des tailles de naissance observées sur un échantillon de taille 10 :
Condition d’application : distribution des tailles de naissance normale.
n
sXtmIC n
2
1,2/1
26/11/2015 275
Intervalle de confiance d’une moyenneExemple
• Valeur t
– n= 10
– ddl = 10 ‐ 1 = 9
– Dans la table de la distribution t on trouve que t0,025 = 2,262.
] 10
7,82.262 49 ;
10
7,82.262- 49 [ m
26/11/2015 276
Pr_E. BOUAITI : Module BIOSTATISTIQUE
26/11/2015
47
Intervalle de confiance d’une moyenneExemple
• Interprétation :
Dans 95% des échantillons de 10 nouveau-nés, la moyenne observée des tailles est
comprise entre 47 cm et 51cm.
IC95% = [47,0 – 51,0]
26/11/2015 277
Résumé des intervalles de confiance de moyenne
• Si n ≥ 30 :
• Si n <30, la population suit une loi normale
– Si la valeur de est connue alors:
– Si la valeur de est inconnue alors:
n
sXtmIC n
2
1,2/1
nXzmIC
2
2/1
n
sXzmIC
2
2/1
26/11/2015 278
Plan
• Rappel
• Introduction
• Fluctuation d’échantillonnage
• Estimation ponctuelle
• Estimation par intervalle
• Intervalle de confiance d’une moyenne
• Intervalle de confiance d’une proportion
• Conclusion26/11/2015 279 280
1. po est le plus souvent différent de P
2. po « proche » de P est « plus probable »
- Fourchette . Centrée sur po
. i est la précision (la marge d'erreur)
‐ Risque d’erreur po
po + i
po
po - i
+ i
- i
Intervalle de confiance de P = po ± i
intervalle ponctuelle« P » va être estimée à partir de pobservée
26/11/2015
Intervalle de confiance d’une proportion
Intervalle de confiance d’une proportion
I.C. de P = po i
– Si np et nq sont ≥ 5
26/11/2015 281
Intervalle de confiance d’une proportion
Petits échantillons :
np et nq sont < 5
26/11/2015 282
Tables
Pr_E. BOUAITI : Module BIOSTATISTIQUE
26/11/2015
48
26/11/2015 283
Intervalle de confiance d’une proportion
• Expression :
Intervalle de confiance à 95 % pour p :
] n
)p -(1p 1.96+ p -
n
)p-(1p 1.96 - p [
000
000
26/11/2015 284
Fluctuation d’échantillonnageExemple
Nombres de malades observés sur 10 000 échantillons de 20 sujets tirés d’une population où le pourcentage vrai de malades est 20%
104
601
1353
20062211
1793
1069
558
20475 19 6 1
0
500
1000
1500
2000
2500
0 1 2 3 4 5 6 7 8 9 10 11 12
26/11/2015 285
Po = 20%IC95% : [ 2,5% - 37,5%]
Intervalle de confiance d’une proportionExemple
• Taille d’échantillon : n =100
• p0 =0,28 (proportion de fumeurs dans l’échantillon de 100 personnes)
• Calculons un intervalle de confiance à 95% pour p (la proportion de fumeurs dans la population).
26/11/2015 286
Intervalle de confiance d’une proportionExemple
• np0 = 28 et nq0 = 72 sont ≥ 5
• On utilise la formule:
• l’intervalle de confiance à 95% =
[ 19,3% - 36,7% ]• Interprétation :
– Dans 95% des échantillons de 100 sujets, le pourcentage observé de fumeurs Po est compris entre 19,3% et 36,7%.
] n
)p -(1p 1.96+ p -
n
)p-(1p 1.96 - p [
000
000
26/11/2015 287
ConclusionÉchantillon : Inférence
26/11/2015 288
Population
Caractéristiques inconnues
ÉchantillonCaractéristiques
connues
Estimation ponctuellep0 / m0
Estimation par intervalleIC à 95%