LES STATISTIQUES -...

60
1 LES STATISTIQUES Valérie Bougault, PhD. [email protected] Référence: S. Champely. « Statistique vraiment appliquée au sport ». Ed de Boeck université (Bruxelles), Coll Sciences et pratiques du sport. 2004

Transcript of LES STATISTIQUES -...

1

LES STATISTIQUES

Valérie Bougault, PhD.

[email protected]

Référence: S. Champely. « Statistique vraiment appliquée au sport ». Ed de Boeck université (Bruxelles), Coll Sciences et pratiques du sport. 2004

2

I. INTRODUCTION: A QUOI SERT LA STATISTIQUE?

I.1. Définition

Méthode scientifique consistant à réunir des données chiffrées sur des ensembles nombreux (populations), puis à analyser, commenter et critiquer ces données.

❏ La statistique permet de rendre lisible un flux important de données.

Cours 1

3

Evolution des effectifs par discipline (U Bourgogne)I.2. Exemples

4

Le marché du Sport en France

L’évolution du marché (en milliards d’euros)

0123456789

10

2000 +5,1%

2001 +4,0%

2002 +4,1%

2003 +4,2%

2004 +2,5%

2005 +1,9%

2006 +0,3%

2007 +2,5%

2008 –0,5%

7,55 7,85 8,178,51 8,72 8,89 8,92 9,15 9,10

Tendance budget moyen par ménage en 2008: 332 €Source: L’observatoire Cetelem 2009

5

Le marché du Sport en France

Commerces associés ou franchisés 23,8%

Commerces intégrés (GSS) 47,5%

Autres commerces

spécialisés 7,5%

VPC 3,6%

Commerces monomarques et

indépendants 4,2%Grandes surfaces alimentaires 4,3%

Commerces d’équipement de la

personne 9,1%

Source: L’observatoire Cetelem 2009

6

Budget Sport des ménages en Europe

Top 3 du budget Sport des ménages en

Europe

Top 3 du budget Sport des ménages en

Europe, à revenus équivalents

7

II. PRODUIRE DE BONNES DONNEES

Sujets X Y1 A 752 B 853 B 854 B 955 C 906 D 957 D 95

2 mesures X et Y prises sur 7 sujets : Connaître le contexte des données

Peut-on généraliser les résultats obtenus à une population plus large?

Quelle est la qualité de ces données?

Peut-on établir des relations de cause à effet?

8

II.1. Mesurer

II.1.A. Validité d’une mesure

Une mesure est dite valide si elle mesure effectivement

l’information que l’on souhaite mesurer

Formes de validité :o Instruments de mesure adaptés

o Précision des caractéristiques de la mesure

Problème: Sciences du sport (beaucoup de caractéristiques)

9

o Validité prédictive

= lorsque la mesure peut être utilisée pour prédire avec une faible marge d’erreur ce que l’on souhaite mesurer.

o Validité du contenu (experts)= repose sur une sélection pertinente des mesures qui reflèteront les aspects essentiels de l’information recherchée.

o Validité du construit (experts)

= lorsque l’on essaie de savoir si un ensemble de mesures évalue correctement une caractéristique complexe et abstraite (tests psycho)

10

Validité et mesures dérivées :

Combinaison de plusieurs mesures en une seule pour en

augmenter la validité

Validité et contextualisation :

Une mesure doit être rapportée à d’autres, obtenues dans des

conditions comparables.

11

II.1.B. Les erreurs de mesure

Biais

Variabilité

12

Le biais :

= Tendance générale à la sur- ou sous-estimation de la

véritable valeur, par la méthode de mesure.

o Méthode de mesure

o Définition imprécise de la mesure

o Conditions de mesure

o Individu mesuré

o Effet HAWTHORNE

o Evaluateur

13

La variabilité :

Une mesure est dite peu variable si on obtient sensiblement les

mêmes résultats en la répétant dans des conditions identiques

o Variations biologiques

o Variations mécaniques

o Insuffisance d’un protocole

14

La fiabilité :

Une mesure est dite fiable ou précise si le biais et la variabilité

sont faibles.

o Plusieurs méthodes concurrentes pour une même

information

Laquelle choisir?

15

II.1.C. Autres considérations sur les mesures

Accessibilité des mesures :

o Facilité de mise en œuvre

o Coût raisonnable

Mesures observationnelles ou expérimentales :

o Facilité de mise en œuvre

o Coût raisonnable

16

Mesures observationnelles ou expérimentales :

o Mesures observationnelles

= Quand la seule intervention de l’évaluateur réside dans le

choix des unités statistiques à mesurer.

Représentativité de l’échantillon = Sondage, échantillonnage

Existence de nombreuses variables cachées

Ne permettent pas de démontrer des relations de cause à effet

17

o Mesures expérimentales

= Dans l’étude d’une relation de cause à effet, lorsque

l’évaluateur maîtrise la variable explicative, on parle de mesures

expérimentales.

Limitation des variables cachées

Beaucoup plus difficiles de mise en place

Coût

18

II.1.D. Echelles de mesure

Les mesures diffèrent en fonction du nombre de valeurs

qu’elles peuvent prendre :

o Qualitatives

o Ordinales

o Quantitatives

19

Mesures qualitatives : (Ex: Genre: F ou M)

= Indique l’appartenance de l’unité statistique à une catégorie

o Pas de différenciation des unités à l’intérieur de

chaque catégorie

o Pas de hiérarchie établie entre les catégories

o Souvent codées numériquement

o Pas de sens arithmétique

20

Variables ordinales :

= Indique l’appartenance de l’unité statistique à une catégorie

mais l’ensemble de ces catégories présente la particularité

d’être ordonné.

o Toutes les catégories doivent pouvoir être ordonnées.

21

Mesures quantitatives : (Ex: Poids, taille…)

= Vise à estimer une quantité numérique

o 2 unités statistiques sont séparées par une véritable

distance (comparaisons possibles des écarts)

o Opérations arithmétiques envisageables

NB o La séparation entre les échelles n’est pas imperméable

o Limitation le plus possible des variables qualitatives

22

II.1.E. Organisation des mesures dans un tableau

Objectifs d’un tableau mis à jour :

o Retrouver l’ensemble des mesures prises sur

une unité statistique

o Disposer de valeurs de l’échantillon complet

concernant une mesure (âge)

o Pouvoir facilement croiser les données des

mesures

23

Structure la plus efficace :

o Disposer les unités statistiques en ligne

o Disposer les mesures en colonne

o Données manquantes: ne pas mettre de

chiffre

Sujet Genre Age Sport H/sem Années CSP H/semAB F 20 Judo 10 3 Etudiant 20PL M 22 Kayak 3 1 Vendeur 30

24

II.2. Sonder

Exemple:

Journal « L’équipe »:

= principal fonds de commerce et principale « une » = Football

Interrogations:

o Le football tient-il réellement une place prépondérante dans les unes de ce quotidien?

o Quels sont les autres sports représentés?

Cours 2

25

II.2.A. Population et échantillon

Population = ensemble des unités statistiques (objets,

individus, organisations…) sur lequel nous voulons de

l’information.

o Doit être exactement adaptée aux objectifs de l’étude

o Doit reposer sur une définition précise

Echantillon = fraction de la population

26

Recensement = mesure de toute la population

Rare (sauf pour de très petites populations) :

o Coût

o Temps

o Bonne qualité des mesures

Sondage = mesure d’un échantillon supposé représentatif de

la population

27

II.2.B. Techniques empiriques de sélection

Sondage de convenance= Sélection des unités statistiques les plus accessibles

Thèmes PagesF1 4

Football 65,5Golf 1,5

Hand-ball 7,5Paris-Dakar 4

Rugby 6,5Science du sport 1

Ski 1Tennis 6Voile 2

Volley-Ball 1

Référence: S. Champely. 2004

Les « Unes » de l’Equipe

(du 1er janvier 2001 au 11 avril

2001)

28

o Biais de sondage : échantillon non représentatif

o Echantillon autosélectionné : quand les individus sondés

sont des volontaires (souvent observé en sport)

= Défauts majeurs des sondages de convenance

29

Sondage par quotas= Méthode généralement utilisée par les instituts de sondage

français

= Consistent à respecter dans la constitution de l’échantillon, certaines proportions de la population

o Variables sur lesquelles sont fondés les quotas doivent

être fortement relié au comportement étudié

o La proportion des catégories doit être bien à jour

30

La qualité du sondage par quotas repose sur 3 hypothèses :

o La variabilité de la caractéristique qui nous intéresse,

observée dans la population générale peut être

essentiellement caractérisée par les différences existantes

entre les sous-populations

o Au sein d’une même sous-population, l’opinion est

relativement homogène

o Le poids exact des sous-populations est connu

31

o Caractérisation ou caricature?

o Biais du sondeur (sélection représentative??)

o Biais du sondé (refus de répondre)

Dans la technique des quotas,le refus de répondre

n’est pas comptabilisé (« on passe au suivant)

32

Sondage par boule de neige

= Consiste d’abord à dénicher un certain nombre d’individus correspondants à une population d’étude. Il leur est demandé de répondre au sondage et ensuite de citer, parmi leurs connaissances, d’autres personnes appartenant également à l apopulation d’étude.

o Utilisé pour les populations rares ou d’accès difficile

o Ne touche que des populations bien particulières

33

Sondage empirique

= Sondages de convenance, par quotas et par boule de neige.

o Biais de sélection important (intérêt du tirage au sort des sondés)

34

II.2.C. Techniques aléatoires de sélection

2 étapes :

o 1- Construction de la liste des unités statistiques

formant la population = liste de sondage

o 2- Par une technique de tirage au sort dans cette liste,

on sélectionne les unités de l’échantillon

Sondage aléatoire simple= Technique aléatoire de sélection la plus simple

35

Sondage aléatoire stratifiéUne population est souvent constituée de sous-populations = strates

Sondage aléatoire stratifié = consiste à pratiquer indépendamment dans chaque sous-population un sondage aléatoire

Quelle taille choisir pour chaque population?

o Généralement, taille proportionnelle à l’importance de la

sous-population correspondante = allocation

proportionnelle

36

NB:

o Plus les strates sont différentes, plus on réalise de gain

par rapport à un sondage aléatoire simple

o Possibilité d’augmenter la précision pour des petites

sous-populations, puis de corriger le déséquilibre.

37

Problèmes des listes de sondage

= La difficulté pratique de ces sondages est de constituer

une liste de sondage

Défaut de couverture : Quand une liste de sondage ne

correspond pas à la population. Les résultats obtenus sur

l’échantillon ne se généralisent alors qu’à la liste de

sondage.

38

Sondage aléatoire systématique

Quand les unités sont classables dans un certain ordre, on peut employer cette technique. On parle alors plus de file de sondage que liste de sondage.

Le sondage aléatoire systématique consiste à :

o Sélectionner régulièrement les unités statistiques dans

une file de sondage.

o Le « saut » qu’il faut à chaque fois effectuer pour définir

l’unité suivante = le pas de sondage

o Pour définir l’unité statistique initiale = tirage au sort

39

Intérêt = pas besoin de liste de population. Il faut juste

avoir une idée de sa taille afin de choisir un pas

permettant de choisir au final un échantillon assez grand.

40

Sondage par degrés

Parfois le sunités statistiques peuvent être classées par petits groupes.

Le sondage par degrés consiste à :

o 1- Construire une liste des groupes d’unités et à

sélectionner par une méthode aléatoire un échantillon de

groupes (tirage au 1er degré)

o 2- A l’intérieur de chaque groupe sélectionné, on

constitue une liste de ses unités statistiques et on réalise

un tirage aléatoire pour obtenir un échantillon d’unité

(tirage au 2nd degré)

41

En pratique…

On combine souvent différents types de sondage pour constituer un échantillon.

Combien d’exemplaires choisir pour obtenir des résultats dignes d’intérêt ?

42

II.2.D. Taille de l’échantillon

Variation d’échantillonnage :

= lorsque le pourcentage calculé sur l’échantillon dépend de

l’échantillon choisi

o Nécessité de connaître son ampleur

o Quand le sondage a été effectué avec une composante

aléatoire, on peut obtenir une information sur ces variations

43

Fourchette :

= constituée de 2 quantités entre lesquelles la véritable valeur

(celle de la population) se trouve vraisemblablement.

o Il existe toujours une incertitude

o Plus l’échantillon est grand et plus la fourchette se rétrécit,

plus on est sûr du résultat

44

Population ± 5% ± 2,5% ± 1%100 79 94 99250 151 215 244500 217 377 4751000 278 606 90610 000 370 1332 4899100 000 383 1513 87621 000 000 384 1534 951310 000 000 384 1536 9595100 000 000 384 1537 9603

Taille d’échantillon à sonder pour un pourcentage suivant la taille de la population et la précision voulue

o Petits échantillons

o La précision ne dépend pas de la taille de la population

45

II.2.E. Les non-réponses

Taux de réponseo Problème de contact

o Problème de refus

- Il faut présenter systématiquement le taux de réponse dans vos rapports

- Un taux de réponse < 80% n’est pas satisfaisant

46

Influence du mode de passation sur le taux de réponse

Mode de passation = technique choisie pour présenter concrètement le questionnaire aux sondés 5téléphone, envoi, interview)

o Il existe des techniques d’amélioration du taux de réponse

47

II.2.F. Cas pratique

Objectif : connaître le souhait et la satisfaction des usagers des piscines de Lyon

o Définition de la population cible

o Précision de cette population

o Choix de la technique de sondage

o Mise en place du protocole et définition précise des modalités

48

II.2.G. Le questionnaire

On ne peut pas se prononcer sur la qualité des résultats d’un sondage sans connaître exactement les questions qui ont été posées.

Erreurs d’échantillonnage : problèmes de représentativité de l’échantillon (population mal ciblée, mauvaise méthode de sélection, taille d’échnatillon trop faible, taux de réponse trop bas)

Erreurs d’observation : proviennent de la rédaction du questionnaire et de son administration

Erreur totale : Somme des erreurs d’échantillonnage et d’observation

49

II.3. Expérimenter

Objectif

Déterminer l’effet sur l’objet de recherche de certaines causes.

Effet : mesuré par l’intermédiaire d’une variable dite variable de réponse ou variable dépendante

Cause (s) : mesurée (s) par par une ou plusieurs variables dites facteurs ou variables indépendantes

Une variable n’est ni dépendante ni indépendante par nature

50

Caractéristiques:

o Faire varier volontairement une partie des variables indépendantes en les manipulant

o Maîriser l’effet des autres variables indépendantes :

en utilisant un tirage au sort qui dilue leur influence (randomisation)

en organisant intelligemment les unités statistiques pour équilibrer leur effet

en les observant pour estimer leur incidence grâce à un modèle mathématique (technique des covariables)

51

II.3.A. Les trois composantes d’une expérience

Unité expérimentale : objets, individus… sur lesquels on

pratique l’expérience : on parle plutôt de sujets lorsque ce

sont des êtres humains

Facteur : cequi causeles faits, les changements (variable

indépendante)

Réponse : réaction de l’unité à l’action du facteur

52

II.3.B. Les répétitions

= quand plusieurs unités se voient appliquer le même traitement

o Recrutement de sujets souvent difficile mais un sujet ne suffit pas

o La répétition permet

d’estimer l’effet moyen du traitement

de séparer le traitement de la variabilité individuelle (cad des différences normales et naturelles )

de comparer l’effet du traitement à l’effet moyen d’autres traitements

53

o On n’est pas obligé d’utiliser le même nombre de répétitions pour chaque traitement mais c’est plus précis

o Différences peu importantes attendues = prévoir un nombre plus conséquent de répétitions

PS: Il existe des tests d’étude de la puissance statistique permettant de prévoir :

la variabilité attendue

la taille des effets espérés

le nombre de répétitions nécessaires

54

II.3.C. Des expériences comparatives

Confusion: lorsqu’on ne peut distinguer l’effet du facteur d’autres causes potentielles

Pour limiter les confusions, il faut rendre l’expérimentation comparative. On compare :

o plusieurs traitements

o l’absence de traitement à son application. Le groupe contrôle est celui qui ne subit pas le traitement

55

II.3.D. La randomisation

Randomisation : Utilisation du hasard pour affecter les traitements aux unités

o Permet d’éviter les confusions provenant des « différences existant normalement et naturellement » entre unités statistiques

II.3.E. Placebo et double-aveugleo Effet placebo (« quand on sait qu’on subit un traitement,

même inefficace, on se porte généralement mieux »)

o La procédure en double-aveugle (« seul le statisticien sait qui est qui»)

56

II.3.F. Le dispositif en blocsAfin de repérer de faibles différences, il convient d’avoir un bon nombre de répétitions, sinon on ne pourra pas atteindre une puissance satistique suffisante pour cette expérimentation.

Plutôt que de multiplier le nombre de sujets, il existe une autre possibilité qui passe par une meilleure maîtrise de la variabilité individuelle.

o Rassemblement d’individus en groupes homogènes pour appliquer les différents traitements à l’intérieur de chaque groupe.

= notion d’appariement

57

II.3.G. Le dispositif de cross-over= consiste en l’utilisation de chaque sujet comme un bloc, le traitement et le contrôle lui étant successivement appliqués. L’ordre d’application est tiré au hasard.

Intérêts: o Quand le nombre d’individus est faibleo Quand la variabilité d’une personne à l’autre est très forteo Quand impossibilité de construire un bloc homogène

Inconvénients:o Durée pour le sujeto Respect d’une période de latence entre 2 traitementso Si longue période, en tenir compte dans l’analyse statistique

58

II.3.H. Le dispositif factoriel= Plusieurs facteurs peuvent être étudiés simultanément si on effectue toutes les combinaisons entre eux pour former les traitements (randomisation classique pour l’affectation aux traitements)

Intérêts:

o Recherche d’interactions

Interaction : lorsque l’effet d’un facteur dépend des traitements employés par un autre facteur

o On ne peut deviner l’effet des 2 facteurs d’après les 2 études séparées

o On limite le nombre de répétitions nécessaires

59

II.3.I. Le dispositif en carré latin

Exemple : temps de cuisson des pâtes (5, 11, 16 et 20 min) et indice gycémique (étude de Bornet et al. 1990)

= Afin d’équilibrer chaque jour les types de cuisson et d’en construire toutes les successions, on emploie un carré latin

Sujets / Jours Jour 1 Jour 2 Jour 3

Sujet 1 A B C

Sujet 2 C A B

Sujet 3 B C A

60

II.3.K. Le dispositif fractionnaire= Consiste,lorsque le nombre de combinaisons factorielles est trop élevé, à se restreindre à un sous-ensemble de traitements (une fraction). Ils seront soigneusement choisis pour permettre le test de l’effet de tous les facteurs et,éventuellement de quelques interactions.

o Utiles en début d’étude lorsqu’on peut craindre d’oublier des effets importants.