METHODOLOGIE DE LA RECHERCHEcampusport.univ-lille2.fr/documents/doc-commun/stat-sidney.pdf-Une...
Transcript of METHODOLOGIE DE LA RECHERCHEcampusport.univ-lille2.fr/documents/doc-commun/stat-sidney.pdf-Une...
METHODOLOGIE DE LA RECHERCHE
STATISTIQUES
1. La mesure2. Observation expérimentale et méthode statistique3. Analyse descriptive des données
La méthode de choix en matière depreuve est la méthode expérimentale.Définition: « maniement actif devariables dans un cadre d'inductionstatistique. »
STATISTIQUES
1. La mesure
2. Observation expérimentale et méthode statistique
3. Analyse descriptive des données
2- Observation expérimentale et méthode statistique
2-1 Les variables
2-2 Groupes et tâches expérimentales
2-1 Les variables
2-1-1 Les différents niveaux de mesure
2-1-2 Variables aléatoires - variables statistiques
2-1-3 Précisions méthodologiques sur les variables
2-1-1 Les différents niveaux de mesure
• Variable nominale
• Variable ordinale
• Variable d'intervalle
• Variable de rapport
2-1-1 Les différents niveaux de mesure
• Variable nominale
-très peu structurée
-distribue la population étudiée en classe
d’équivalence: aucun classement ordonné.
-classification.
Nature des blessures en footballamateur (5 à 30 ans)
Données 1250 cas(SHIRPT)
•Pas de blessure plusgrave qu’une autre.
Répartition des médaillesaux Jeux Olympiques
39JAPON37FRANCE63CHINE
49AUSTRALIE48ALLEMAGNE
12BULGARIE
92RUSSIE103USA
Nombre demédailles
Pays•On peut diminuer le nombrede classes :
- continent
-pays fortement industrialisés
-population
Pertinence du choix dugroupement en fonction del’objet d’étude n’est pas duressort de la statistique
Attention: un nombre peut êtreune variable nominale!!!
288 255
297 922
286 191
271 361
Nb Mariages
112 6312001
114 0052000
116 8131999
116 5151998
Nb DivorcesAnnées
INSEE, 2004
Variable nominale
Utilité / flux d’informations important
Sociologie, grilles d’observation sur le terrain.
2-1-1 Les différents niveaux de mesure
• Variable ordinale-structure d’ordre
-classement
-impossible de quantifier l’écart entre 2 classes
Mesure del’extension du tronc
Normal et bon
Passable
Médiocre
•Ordre dans la mesure dela variable.
•Impossibilité dequantifier la différenceentre 2 classes
Zmédiocre
Ypassable
XNormal
Nb
2-1-1 Les différents niveaux de mesure
• Variable d'intervalle
-intervalles séparant 2 valeurs calculables et comparables
(soustraction-addition).
-définition arbitraire: zéro-origine, unité étalon.
-possibilité comparaison rapport entre 2 intervalles.
-Impossibilité rapport entre 2 valeurs de la variable
Exemple de 2 échelles d’intervalles arbitraires:
La mesure de température
2571588650Fahrenheit
F4F3F2F1Echelle
125703010Celsius
C4C3C2C1Echelle
Possible:
(C2-C1)/(F1-F2)=0,55
(C4-C3)/(F4-F3)=0,55
Impossible:
C2/C1=3
F2/F1=1,72
F = 1,8 C + 32
Y= a X + B
le B et a sont arbitraires
Notes aux examens
0 2015105
Comparaison possible notes même examen (unité points).
Impossibilité d’établir des relations de rapport.
2-1-1 Les différents niveaux de mesure
• Variable de rapport (numérique)
-zéro non arbitraire
-Scores et intervalles applicables aux opérations arithmétiques
-Unités arbitraires (yards (0,914-m), mètre, miles (1852-m),
mille (1852-m).
Exemples: JO 2004 disque femme
• 69,42• 63,45• NZLFaumuina Beatrice7
• 71,03• 64,92• ROMGrasu Nicoleta6
• 71,9• 65,75• UKR Antonova Olena5
• 72,26• 66,08• CZE Pospíšilová-Cechlová Vera4
• 72,39• 66,17• BLR Yatchenko Irina3
• 72,95• 66,68• GRE Kelesídou Anastasía2
• 73,3• 67,02• RUS Sadova Natalya1m yards
Y=aX a reste arbitraire
69
69,5
70
70,5
71
71,5
72
72,5
73
73,5
63 64 65 66 67 68
Enrichissement des variables:apport d’informations
Histoire de la physiologie del’exercice
Variable nominale:type d’activité physique
Classement Hébert, Méthode Naturelle 1910’s-marches-courses-lancers-sauts-quadrupédies-équilibres-défense-natation-grimpers
Variable ordinale:dépense énergétique
Hébert, Code de la force, 1911-absence de sudation-sudation-changement respiratoire-visage marqué
Variable de rapport : estimation de ladépense énergétique par quantification.
1 ski de fond
2 course de fond
3 coursed’orientation
4 course 800-1500
5 biathlon
1980
Enrichissement de variables:exemples en biomécanique
Variable ordinale: rattrapé, opposition, chevauchement
Variable d’intervalle en biomécanique
Appauvrissement de variables
63.4NZL Faumuina Beatrice7
64.9ROM Grasu Nicoleta6
65.7UKR Antonova Olena5
66.0CZE Pospíšilová-Cechlová Vera4
66.1BLR Yatchenko Irina3
66.6GRE Kelesídou Anastasía2
67.0RUS Sadova Natalya1 Rapport ordinale nominale
•Si uniquement prise en comptedu classement
•Si classification (type d’élan)
2-1-2 Variables aléatoires Variables statistiques
-Une variable ne peut être soumise au traitement statistique quesi elle est assimilable à une variable aléatoire.
-une variable représente ce qui varie: « ensemble de caractèredont on note les variations ».
- Chaque variable doit avoir un état (qualitatif ou quantitatif)auquel correspond une probabilité d’apparition.
Notions de probabilité P(A) = nb cas (A) / nb cas possible
P(1) = 4/36=1/9
P (10) = 0 = impossible
P (1ou2ou3ou4ou5ou6ou7ou8ou9) = 1 = certain
Loi des grands nombres et probabilité
« Si on effectue un grand nombre de fois un événementaléatoire, la fréquence d’apparition d’un événement A
se rapprochera de sa probabilité mathématique »
CASINO CERTAIN DE FAIRE DES BENEFICES (rembourse 7 fois la mise)
Jouer intelligemmentavec la loi des grands nombres?
Dans la soirée
-P(1)=1/9
-Si (1)7 fois la mise
-tous les 9 coups le 1 sort (en moyenne)
Tactique
Mise de 1 jusque 7 si gagne au pirerécupération.
De 7 à 14double la mise
De 14 à 21triple la mise
De 21à 28quadruple la mise (70 jetons)
Variable aléatoire
Etat Qualitatif:-nominale
0,25Membres <
1Total
0,17Tête
0,06tronc
0,52Membres >
Fréquenced’apparition
Nature desblessures en FB
+ Population importante,+ fréquence = probabilité
Variable aléatoire
Etat Qualitatif-variable ordinal
exceptionnellement
quotidiennement
Plusieurs fois semaine
hebdomadaire
jamais
Probabilitéd’apparition
Fréquence pratique sportive
Variable aléatoire
Etat Quantitatif-discrète: « qui passe d’une valeur ponctuelle à une autre »
0,1040,313
0,0900,1710,282
0,055
Fréquenced’apparition
Nombre debuts parmatch
Manipulation dutype continue
Ex: 2,6 buts /match
Variable aléatoire continue
Etat Quantitatif-continue: « entre 2 valeurs quelconques, il est
possible de situer une valeur intermédiaire »
La loi de probabilité pour chaque valeur de lavariable est donc impossible
La probabilité désigne les chances d’apparition dela valeur dans un petit intervalle qui comprendcette valeur.
63.45NZL Faumuina Beatrice7
64.92ROM Grasu Nicoleta6
65.75UKR Antonova Olena5
66.08CZE Pospíšilová-Cechlová Vera4
66.17BLR Yatchenko Irina3
66.68GRE Kelesídou Anastasía2
Pi?67.02RUS Sadova Natalya1
2-1-3 Précisions méthodologiques sur les variables
• variable indépendante
• variable dépendante
• variable parasite
EFFETS DE DEUX PROGRAMMES DE MUSCULATION(lourd vs léger, 9 semaines) SUR LES PERFORMANCES
(force max, VMA) EN CYCLISME
Mesure PMA
puissance
FC
Mesure Fmax (RM)
Nb rep 40% RM
La variable indépendante
La variable indépendante
« celle que l’expérimentateur fait varier pour décelerdes effets …»
2 VI:- type d’entraînement (groupe)
- temps d’entraînement (session)
avant après
lourd léger
La variable indépendante
-provoquée: explicitement pris en compte parl’expérimentateur.
-invoquée: modalités pré-établies, sexe, age, taille,niveau sociologique, traits de personnalité.
La variable dépendante« ce que l’expérimentateur mesure de façon différenciée en
réponse aux modifications systématiques qu’il fait subir à lavariable indépendante »
4 VD: - RM
- Nb répétition
-PMA
-Fc max
Les variable indépendanteset dépendantes
4 niveaux de mesure:-nominale-ordinale-intervalle-de rapport.
La variable parasite
« variable indésirable, susceptible d’intervenir surla variable dépendante sans quel’expérimentateur soit capable d’en mesurer leseffets »
Si elle est contrôlée: neutraliséeExemples: nutrition, motivation, personnalité del’entraîneur…
Exemple de variables parasitesEffet d’un type d’entraînementsur les performances d’ungroupe d’étalons.
VI: entraînement(longues/court)
VD: placement courses dansl’année.
Résultats fictifs
3.16.96.84.24.54.74.84.95.15.2Long
4.775.44.74.84.95.14.95.24.9court
10987654321courses
Une variable parasite pourrait avoir une influencesur
la variable place lors de la course?
Variable parasite-chaleur des juments
Variable neutralisée-hongre-course sans jument
Etudes fondamentales
Etudes appliquées
Etudes descriptives
Etudes de terrain
Etudes empiriques-
+CONTROLE
Troup, 1996
Lien entre variable indépendante etvariable dépendante
But : vérifier les effets de la variation dela variable indépendante sur la variable
dépendante-comparaison
-lien de causalité
-interactions
Effet variation type de population sur notes
????????????????
??????????????
NOTES
BRUNES
BLONDES
Association d’une variable qualitative etquantitative
COMPARAISONS
Comparaisons de 3 modalités de lavariable indépendante
0.7Whisky coca
0.65Vin
0.5Bière
Picd’alcoolémie(g/l)
Alcool(0.5g/kg)
Jusque xmodalités
Comparaison pour le même groupe
Evolution pondérale chez treize hommes sains de poidsnormal et stable (D'après Debry G.)
Comparaisonsde -3 modalitésde la VI (alcool)sur la VD
-5 modalités dela VI (temps) surVD
Alcoolémies après consommation de 0,5 gd'alcool pur/kg de poids selon le type deboisson (D'après Lereboullet J.)
Mesure des liens de causalité
Représente le lien entre 2 variables La manière dont évolue une variable / l’évolution
de l’autre Appelée mesure de la corrélation:-si relation linéaire: corrélation linéaire
Différent d’un lien de cause à effet.
Le nuage de points
Description relationentre 2 variablesquantitativesmesurées sur lesmême quantitésstatistiques
M(x,y)
x: valeur de VI 1
Y:valeur de VI 2
Relation linéaire entre 2 variables
Une relation est dite linéaire lorsque lenuage de points paraît étiré le longd’une droite.
Relation linéaire négative
« Si les valeurs d’une variable tendent àaugmenter quand les valeurs de l’autrevariable tendent à diminuer »
Lien entre la pointure etrésultats en philosophie
Les 2 variables évoluent sans aucun lien parrapport à l’autre
Lien entre pointure et performances au basket
L’augmentation de la pointure est accompagnéeplus ou moins fortement d’une augmentation desperfs.
Lien entre pointure et tailles
Plus je suis grand, plus j’ai de grands pieds et vice-versa.
Lien entre âge etnombre de bouquets de fleurs
L’augmentation de la VI (année de relation) esten relation avec une diminution de la VI (nbbouquets de fleurs).
Attention: différent de cause à effet!!
0
2
4
6
8
10
12
14
16
0 5 10 15 20 25
Vitesse donnée au ballon
Distance parcourue
L’étude du lien de causalité
Établir une relation entre 2 variables
La force de la relation se calcule par un coefficient
Ne correspond pas à un lien de cause à effet.
Mesure de l’interaction d’unevariable sur une autre
Heures de cours de statistiques
Bruit dans l’amphi
STAPS
Médecine
Mesure des effets
VI : heures de cours a effet sur VD « bruit » VI : groupe étudiant a effet sur VD « bruit »
Interaction: effet sur effetVI (groupe étudiant) a effet sur l’effet de la VI
(heures cours) sur la VD (bruit)VI (heures ce cours) a effet sur effet de VI
(étudiant) sur VD (bruit)
Pas d’effet temps ni d’interaction
Heures de cours de statistiques
Bruit dans l’amphi
STAPS
Médecine
Effet temps, effet groupe mais pasd’interaction
Heures de cours de statistiques
Bruit dans l’amphi
STAPS
Médecine
Remarques
La statistiques inductive permet de savoir laprobabilité pour que ces effets ou ces interactionsne soient pas dues au hasard.
2-2-1 groupe expérimental
2-2-2 groupe contrôle
2-2-3 groupe placebo
2-2-4 les méthodes
2-2 Groupes et tâches expérimentales
Le groupe expérimental
« Groupe dont les sujets accomplissent une ouplusieurs modalités précises de la (ou des)variable(s) indépendante(s) »
Ex: 2 groupes expérimentaux (entraînement lourd-léger)
Le groupe contrôle« Groupe servant de
référence dansune
expérimentation,en représentant ledegré zéro de la
variableindépendante
mise à l’épreuve »
Rééducation1
rien
Rééducation2
aprèsavantgroupes
Actes pédagogiques pour diminuer uneattitude scoliotique chez 12-16 ans
AméliorationEtirements (cervical,dorsal et lombaire)
Améliorationrien
AméliorationMusculation musclesdorsaux
aprèsavantgroupes
Tempère ou renforce les effets d’une variable
Le groupe placebo « je ferai plaisir »
« variété de groupe contrôle dont la fonction est dedéceler d’éventuels effets d’attente de typepsychologique »
Ex:médecineeffet de croyance, aussi sur l’intervenant
(Pygmalion)
Effet de la DHEA
Beaulieu et al., 2000
Les différentes méthodes
Groupes appariés: «groupe de mêmeeffectif dont tout lesmembres secorrespondentrespectivement terme àterme »
AprèsAvant
Les différentes méthodes
Groupe indépendant : « groupes non appariés,mais considérés comme équivalent dont onsouhaite comparer les productionsrelativement aux différences de modalités dela VI »
Etudes transversales-longitudinalesEvolution de la vitesse avec l'age
0
0,2
0,4
0,6
0,8
1
1,2
6ème 5ème 4ème 3ème 2de 1ère terminale
classes
vit
es
se
(m
.s-1
)
filles
garçons
Groupe apparié: étude longitudinale
Groupe indépendant: étude transversale
3- Analyse descriptive des données
But: faire parler des données en ymettant de l’ordre
3-1 présentation des variables
3-2 paramètres de tendance centrale
3-3 paramètres de dispersion
Fouillis de données
0,38487629,59693-0,335965-25,8357390,1413810,872124-1,456624-112,014391
0,35900727,607634-0,339357-26,0965340,1018747,834139-1,428708-109,867621
0,21950316,879766-0,33947-26,1052430,1294679,956034-1,496592-115,087946
0,36430128,014739-0,379044-29,1484780,0992087,62913-1,506619-115,858964
0,35636227,404204-0,345059-26,5350580,0580654,465177-1,366911-105,115453
0,38246429,411486-0,358437-27,5637790,16182712,444513-1,433835-110,261898
0,37498528,836312-0,374207-28,7765350,16581612,751279-1,527629-117,474706
0,3363425,864533-0,344812-26,5160330,113278,710492-1,371268-105,450471
0,37953229,185989-0,377409-29,0227790,14137510,871738-1,542968-118,654251
0,39183830,132337-0,346586-26,652487-0,041333-3,178493-1,340943-103,118481
0,34574326,587647-0,367367-28,2505420,14456211,116814-1,597323-122,834162
0,3794429,178925-0,366146-28,1566490,1048818,065372-1,51019-116,133591
0,36520828,084467-0,345972-26,6052410,0803516,179001-1,429552-109,932578
0,34185626,28872-0,350292-26,937467-0,016681-1,282806-1,43928-110,680621
0,29159422,423549-0,278507-21,4172260,0086880,668096-1,138379-87,541321
0,25973619,973682-0,298664-22,967242-0,014697-1,130196-1,152606-88,635368
0,29467422,660401-0,287662-22,1211980,0405193,115915-1,117401-85,928149
0,2626820,200064-0,307775-23,667898-0,03407-2,619961-1,260701-96,947915
0,28478621,900077-0,294471-22,6447940,0178451,372265-1,158994-89,126647
0,26222520,165122-0,298658-22,9667660,1199029,220494-1,236808-95,110552
0,31475824,204913-0,299314-23,0172780,0006250,048065-1,127292-86,688774
0,25930119,940238-0,295952-22,7587380,0916587,048513-1,233197-94,832819
0,24552418,880761-0,316785-24,360765-0,080155-6,163908-1,173034-90,206346
Int_Fy_D_recpInt_Fy_D_recpInt_Fy_D_propInt_Fy_D_propMoy_Fy_GMoy_Fy_GMoy_Fy_DMoy_Fy_D
Le tableau de contingence pourvariable nominale
1NTOTAL
nn/Nnnxn
ni/NniXi
n2/Nn2X2
n1/Nn1X1
Fréquence relativeFréquence absoluen
Modalité de lavariable
Exemple
1NTOTAL
n2/Nn2Femmes
n1/Nn1Hommes
Fréquence relativeFréquence absoluen
Utilisation internet
Présentation graphique
Le diagramme en bâtons
X: modalité
Y: fréquence
Présentation graphique des variablesqualitatives
Le camembert : secteur circulaire
L’angle de chaque modalitécorrespond à sa fréquence relative.
Plusieurs VI peuvent apparaître sur legraphique
Tableau de contingence pourvariables quantitatives
1
nn/N=fn
ni/N=fi
n2/N=f2
n1/N=f1
Fréquencerelative
1
f1+…+fi
f1+f2
f1
Fréquencecumulée
NTOTAL
nnXn
niXi
n2X2
n1X1
Fréquenceabsolue
Modalité dela variable
Présentation graphiquepour variables discrètes
0
20
40
60
80
100
18 19 20 21 22 23 24
Age amphi
Fréquence
Histogramme avec fréquence relative
0
0,05
0,1
0,15
0,2
0,25
18 19 20 21 22 23 24
40 % de l’amphi est constituéd’étudiants de 18 et 19 ans
Histogramme avec fréquence cumulée
0
0,2
0,4
0,6
0,8
1
1,2
18 19 20 21 22 23 24
80 % des étudiants de l’amphi ontmoins de 21 ans
Présentationpour variables continues
1nn/N=fnni/N=fin2/N=f2n1/N=f1
Fréquencerelative
1f1+…+fi
f1+f2f1
Fréquencecumulée
NTOTALnn[entre et ]ni[entre et ]n2[entre et ]n1[entre et ]
Fréquenceabsolue
n
Modalitéde la
variableRegroupementen classe
Amplitudeidentiquesimplifielecture desrésultats
Histogramme
Moyenne dela classe
Polygone statistique
Diagramme cumulatif
Les paramètres de tendance centrale
Mode Médiane Moyenne
Le mode
Le mode est la modalité observée la plus fréquenteLe mode est la modalité observée la plus fréquente
Nbre Nbre enfantsenfants EffectifEffectif
00 1111 3322 4433 22
1010
Effectif le plusEffectif le plusimportantimportant
Mode = 2Mode = 2Le mode est toujours calculable, quel que soitLe mode est toujours calculable, quel que soitle type de la variable (nominale, ordinale oule type de la variable (nominale, ordinale oucardinale).cardinale).
Le mode
Le mode nLe mode n’’est pas nécessairement uniqueest pas nécessairement unique
Nbre Nbre enfantsenfants EffectifEffectif
00 1111 3322 4433 2244 2255 4466 3377 11
Deux modes : 2 et 5Deux modes : 2 et 5
Le mode est vite calculé à l’aide desgraphiques
La médiane
……11 22 33 nn
Ordre croissantOrdre croissant
……11 22 33 nn
Ordre croissantOrdre croissant
50%50% 50%50%
MédianeMédiane ? ?
La Médiane :La Médiane :Les n observations étantLes n observations étantrangées et numérotéesrangées et numérotées
de 1 à n de manièrede 1 à n de manièrecroissante, trouver la valeurcroissante, trouver la valeur
qui permet de partagerqui permet de partagerla suite ordonnée enla suite ordonnée endeux parties ddeux parties d’é’égalegale
ImportanceImportance
1er cas de figure : n est pair1er cas de figure : n est pair
n pair, n = 2k ( = 10)n pair, n = 2k ( = 10)
2,52,5 2,82,8 3,23,2 3,33,3 3,53,5 4,54,5 5,65,6 5,95,9 6,46,4 6,86,8
k = 5 observationsk = 5 observations k = 5 observationsk = 5 observations
Médiane : interpolation entre 3,5 et 4,5Médiane : interpolation entre 3,5 et 4,5
Partage en deux séries égalesPartage en deux séries égalesdeux observations encadrantes : 3,5 et 4,5deux observations encadrantes : 3,5 et 4,5
3,5 + 4,53,5 + 4,522
= 4= 4
Deuxième cas de figure n est impairDeuxième cas de figure n est impair
n impair, n = 2k+1 ( = 11)n impair, n = 2k+1 ( = 11)
k = 5 observationsk = 5 observations k = 5 observationsk = 5 observations
Médiane : observation centrale : 4,5Médiane : observation centrale : 4,5
Une observation centraleUne observation centraleautant dautant d’’observations de part et dobservations de part et d’’autreautre
2,52,5 2,82,8 3,23,2 3,33,3 3,53,5 4,54,5 5,65,6 5,95,9 6,46,4 6,86,8 7,77,7
La médiane est vite repérée à l’aidedu diagramme cumulatif
La moyenne arithmétique
1
nn/N=fn
ni/N=fi
n2/N=f2
n1/N=f1
Fréquencerelative
NTOTAL
nnxn
niXi
n2X2
n1X1
Fréquence absolue
n
Modalitéde lavariable
M = (n1 * X1 +…+ Nn* Xn) / N
M= 1/N ∑ ni Xi
Si on a établi des classes, Xicorrespond au centre de classe.
Attention à bien utiliser la moyenne !!
1 voiture roule 2 tours de circuit de 6 kms
-200km/h
-300km/h
Quelle est la vitesse moyenne??
Moy arith = (200+300)/2=250 km/h
La vitesse est fonction de la distanceet du temps!!
1er tour: t= 6/200 = 0.03h =108 s2ème tour: t= 6/300 = 0.02h =72s
Temps pour les 2 tours: 0.05h (180s)Vitesse moyenne: 12/0.05 = 240 km/h
LA vitesse arithmétique donne une mauvaiseréponse
Moyenne harmonique
1/H = ½ (1/a + 1/b)
1/H = ½ (1/200 +1/300) = 5/1200
H = 1200/4 = 240 km/h
Autre exemple
Dans une fédération1986: 5000001987: augmentation de 4%1988: augmentation de 16%
Valeur moyenne de croissance sur les années?(16+4)/2 = 10%
Un pourcentage est fonction de sonnombre de base.
500000*1.04 = 520000 (1987)530000*1.16=603200 (1988)
Augmentation en 2 ans: 603200/500000 = 1.2064Soit 20.64% sur 2 ansMoyenne par an : X * X = 1.2064X = (1.2064)1/2 = 1.09836
Moyenne géométrique
g = (a.b)1/2
g = (1.04*1.16)1/2 = (1.2064)1/2 = 1.09836
La variance, l’écart type
Variance : « la moyenne des écarts à la moyenneau carré »
Ecart type: « racine carrée de la variance,moyenne des écarts à la moyenne »
Ils renseignent sur la dispersion des données autourde la moyenne
Variance
M
Ecart type
Parfois la moyenne ne correspond àrien!!
0
20
40
60
80
100
18 19 20 21 22 23 24
Age amphi
Nom
bre individus
0
10
20
30
40
50
60
70
80
18 19 20 21 22 23
Moyenne identique, variance différente
Les espaces interquartiles