Introduction aux statistiques - LAAS-CNRS · Variable Peut-on faire la moyenne de deux observations...

60
Introduction aux statistiques

Transcript of Introduction aux statistiques - LAAS-CNRS · Variable Peut-on faire la moyenne de deux observations...

Introduction aux statistiques

Individu : objet étudié

Etudiant

Année

Patient

Population : ensemble des individus

Université Paul Sabatier

Entre 1305 et 2003

CHU de Rangueil

Variable : objet mesuré chez les individusAge, sexe, filière

Modalités d’une variable : valeurs possiblesAge : entre 17 et 30 ans

Sexe : homme ou femme

Filière : STAPS, SEGMI, …

Observation : valeur prisePour Thomas :

Age = 21

Sexe = homme

filière = STAPS

Nom Age Sexe Filière Année

Thomas 21 Homme SEGMI L3

Marion 18 Femme STAPS L1

Magalie 19 Femme SSA L1

Variable

Peut-on faire la moyenne de deux

observations ?

Variable qualitative

Peut-on ordonner les modalités ?

Variable nominale

Variable Ordonnée

Variable numérique

Le nombre de modalités est-il

grand ?

Variable discrète

Variable continue

Nature de [Nom]

Peut-on faire la moyenne ?

(Magalie + Isabelle)/2 = …

Non

Donc qualitative

Peut-on ordonner les modalités ?

Magalie < Isabelle ? Isabelle < Magalie ?

Non

Donc nominale

[Nom] est une variable nominale

Nature de [AnneeDEtude]

Peut-on faire la moyenne ?

(L2 + L3)/2 = …

Non

Donc qualitative

Peut-on ordonner les modalités ?

L1 < L2 < L3 < M1 < M2

Oui

Donc ordonnée

[AnneeDEtude] est une variable ordonnée

Nature de [NombreDeFreres]

Peut-on faire la moyenne ?

(0 + 2)/2 = 1

Oui

Donc numérique

Le nombre de modalités est-il grand ?

0, 1, 2, 3, 4, 5, 6…

Non

Donc discrète

[NombreDeFreres] est une variable discrète

Nature de [Taille]

Peut-on faire la moyenne ?

(182 + 176)/2 = 179

Oui

Donc numérique

Le nombre de modalités est-il grand ?

160, 161, 162, … 180, 181, …, 200, 201,…

Oui

Donc continue

[Taille] est une variable continue

Nature de [Age]On peut faite la moyenne donc numérique

Le nombre de modalités est-il grand ?

Ca dépend…

La nature d’une numérique dépend de la population étudiée !

Sur un UFR : 17 à 35 ans

Oui

Donc continue

Sur un TD : 19 à 23 ans

Non

Donc discrète

Règle absolue :

« Fumer donne le cancer ! »

Règle floue (probable) :

« Fumer augmente les chances d’avoir le cancer »

Règle statistique :

« Un non fumeur a x% de chances d’avoir un

cancer ;

Un fumeur a y% de chances d’avoir un cancer »

Statistiques descriptives

Tests Statistiques : statistique inductive permet

de retenir une hypothèse A plutôt que une

hypothèse B

Modélisation : application des méthodes

statistique aux performances sportives

Quelle est la valeur normale d’une grandeur

biologique, taille, poids, glycémie ?

Quelle est la fiabilité d’un examen

complémentaire ?

Quel est le risque de complication d’un état

pathologique, et quel est le risque d’un

traitement ?

Le traitement A est-il plus efficace que le

traitement B ?

Question Réponse Nombre

$ seul « Non » 9

$ seul « Oui » 91

Heure + $ « Non » 43

Heure + $ « Oui » 57

« Non » « Oui » Bilan

$ Seul 9 91 9% de oui

Heure + $ 43 57 43% de oui

Variabilité biologique :

Deux mesures dans des situations a priori

identiques

donnent des résultats différents

La variabilité n’est pas l’exception ;

C’est la règle !

La variabilité d’une grandeur mesurée a deux grandes composantes

Variab.Totale = Variab.Biologique+Variab.Métrologique

Variab.Biologique = Variab.Intra-individuelle + Variab.Inter-individuelle

Variab.Métrologique = Variab.Expérimentale + Variab.appareildemesure

La mesure de la pression artérielle peut grandement varier sur un individu donné suivant les conditions de cette mesure ; il est ainsi recommandé de la mesurer après un repos d’au moins 15 minutes, allongé, en mettant le patient dans des conditions de calme maximal. Cette recommandation vise à minimiser la variabilité due aux conditions expérimentales. La précision de l’appareil de mesure est une donnée intrinsèque de l’appareil, et est fournie par le constructeur.

Espérance : 80.6

Espérance : 80.1

Espérance : 61.3

Un test permet de trancher :

La différence observée est liée à la variabilité

biologique, il n’y a pas de vraie différence

La différence observée n’est pas liée à la

variabilité biologique, il y a sans doute des

causes « expliquant » cette différence.

Pas de vraie différence

Village de mineurs

Vraie différence

Un modèle est une description « simplifiée » du

monde

Permet une meilleure compréhension

Permet des prédictions

Effectif d’une modalité :

nombre d’individus dont la variable prend pour

valeur une certaine modalité

Exemple :

nombre d’individus dont la variable [Reponse]

prend la valeur (Oui)

La modalité (Oui) a pour effectif 52

[Reponse] Effectif

Oui 52

Non 148

Total 200

Fréquence

Effectif d’une modalité divisé par l’effectif

global

Exemple :

52 (Oui) divisé par 200 individus = 0.289

Il y a 28.9% de réponse (Oui)

[Reponse] Effectif Fréquence Pourcentage

Oui 52 52/180=0.289 28.9%

Non 148 0.711 71.1%

Total 200 1 100%

0

50

100

150

200

Oui Non

[Reponse]

0

50

100

150

L1 L2 L3 M1 M2

[NiveauDEtude]

0

10

20

30

[NombreDeFrere]

[Individu] [Taille]

1 167.9

2 166.1

3 170.0

4 171.4

5 176.5

6 173.5

7 165.6

8 179.7

9 161.3

10 166.8

[Taille] Effectif

161.3 1

165.6 1

166.1 1

166.8 1

167.9 1

170.0 1

171.4 1

173.5 1

176.5 1

179.7 1

[Taille] Effectif

[160-165[ 1

[165-170[ 4

[170-175[ 3

[175-180[ 2

0

0,5

1

1,5

Effectif[Taille] Effectif

161.3 1

165.6 1

166.1 1

166.8 1

167.9 1

170.0 1

171.4 1

173.5 1

176.5 1

179.7 1

[Taille] Effectif

[160-165[ 1

[165-170[ 4

[170-175[ 3

[175-180[ 2

0

1

2

3

4

5

Effectif Frequence Graphe

Nominale Oui Oui Diagramme

en bâton

Ordonné Oui Oui Diagramme

en bâton

Discrète Oui Oui Diagramme

en bâton

Continue Non Non Histogramme

0

5

10

15

20

Semaine2

0

5

10

15

20

Semaine1

Somme des observations divisée par le

nombre d’observations

Moyenne de 14, 15 et 10 : 133

101514

[Bac]

Bien

Assez-Bien

Passable

Assez-Bien

Passable

Assez-Bien

Très-Bien

Bien

Assez-Bien

[Bac], ordonnée

Passable

Passable

Assez-Bien

Assez-Bien

Assez-Bien

Assez-Bien

Bien

Bien

Très-bien

1

2

3

4

5

6

7

8

9

Médiane = Assez-Bien

Ordonner les observations

Calculer le rang de la médiane :

Rang Médiane =

Médiane : observation de rang Rang Médiane

Observation de rang 5 : Assez-Bien

2

1Global Effectif 52

19

[UFR]

STAPS

SJAP

STAPS

STAPS

SEGMI

SJAP

STAPS

SJAP

STAPS

[UFR] Effectifs

STAPS 5

SJAP 3

SEGMI 1

Mode = STAPS

Dresser le tableau des effectifs

Mode : Modalité dont l’effectif est le plus

grand

Eviter le mode

Moyenne vs médiane

[Id] [Temps]

R1 15.12

R2 16.65

R3 1448

R4 15.86

R5 17.12

Moyenne = 302.55

Médiane = 16.65

[Id] [Temps]

R1 15.12

R2 16.65

R3 14.48

R4 15.86

R5 17.12

Moyenne = 15.84

Médiane = 16.65

Moyenne Médiane Mode

Nominale Non Non Oui*

Ordonnée Non Oui*** Oui

Discrète Oui*** Oui*** Oui

Continue Oui*** Oui*** Non

0

5

10

15

20

Semaine2

0

5

10

15

20

Semaine3

Moyenne des écarts

0

5

10

15

20

+3 -6 +5 -4 +1 +4 -2 -4 +3 0

Semaine3

Moyenne des valeurs absolues des écarts

0

5

10

15

20

+3 -6 +5 -4 +1 +4 -2 -4 +3 0

Semaine3

3.210

0342414563

EAMSemaine2 = 1.0

EAMSemaine3 = 3.2

Variance : moyenne des carrés des écarts

0

5

10

15

20

+3 -6 +5 -4 +1 +4 -2 -4 +3 0

Semaine3

13.210

0342414563 2222222222

VSemaine2 = 1.6

VSemaine3 = 13.2

Ecart type : racine de la variance

0

5

10

15

20

+3 -6 +5 -4 +1 +4 -2 -4 +3 0

Semaine3

3.6310

0342414563 2222222222

sSemaine2 = 1.26

sSemaine3 = 3.63

Calculer les écarts à la moyenne

+3,-6,+5,-4,+1,+4,-2,-4,+3,0

Elever les écarts au carré

9, 36, 25, 16, 1, 16, 4, 16, 9, 0

Faire la moyenne des écarts au carré

Variance :

Prendre la racine carré

Ecart type : 3.6313.2

13.210

091641611625369

Médiane (Q2) : 50% - 50%

Les quartiles

Q1 : 25% - 75%

Q3 : 75% - 25%

Min : 0% - 100%

Max : 100% - 0%

Exemple

Q0 (Min) : Passable

Q1 : Assez-bien

Q3 : Bien

Q4 (Max) : Très-bien

[Bac], ordonnée

Passable

Passable

Assez-Bien

Assez-Bien

Assez-Bien

Assez-Bien

Bien

Bien

Très-bien

1

2

3

4

5

6

7

8

9

Rang

Q0 : rang 1

Q1 : rang

Q3 : rang

Q4 : rang n

Exemple

Q0 : rang 1

Q1 : rang

Q3 : rang

Q4 : rang 40

[Taille]

156.3

161.5

163.1

163.2

165.8

166.0

166.3

166.5

167.1

167.1

167.2

167.5

167.9

168.1

168.2

168.3

169.3

169.8

169.8

169.9

[Taille]

170.5

170.7

170.9

170.9

171.6

171.8

171.9

172.1

172.2

172.4

172.6

176.6

173.4

174.7

174.9

175.1

176.1

176.4

177.8

178.2

4

3n

4

13n

1010.754

340

3130.254

1403

Etendue : Q4-Q0

178.2-156.3=21.9

Etendue inter quartiles : Q3-Q1

172.6-167.1=5.5

Contient 50% des individus

Q1, Q2 et Q3

Lignes entre Q1 et Q3

Barrière inf = Q1 – 1.5 x Etendue Inter-Quartiles

165.7-1.5x(173.1-165.7)=154.6

Barrière sup = Q3 + 1.5 x Etendue Inter-Quartiles

173.1+1.5x(173.1-165.7)=184.2

Adhérence inf = Min(Obs ≥ Barrière inf)

158.49

Adhérence sup = Max(Obs ≤ Barrière sup)

181.88

Peaufinage…

Nettoyage…

Fini !

Effectif Centralité Dispersion Graphe

Nominale Oui Mode Non Diagramme

en bâton

Ordonné Oui Médiane Quartiles Diagramme

en bâton

Discrète Oui Moyenne

Médiane

Ecart type

Quartiles

Diagramme

en bâton

Continue Non Moyenne

Médiane

Ecart type

Quartile

Histogramme