Statistiques II -...

Post on 22-Jul-2020

6 views 1 download

Transcript of Statistiques II -...

Statistiques II

Faculty of Education

http://statsedu.weebly.com/

Objectifs du cours

• Découvrir l’environnement SPSS.

• Utiliser les statistiques pour poursuivre des travauxde recherche en éducation appliquée.

• Appliquer quelques principales analyses statistiques.

• Formuler des hypothèses statistiques correctes etmettre en œuvre les techniques statistiquescorrespondantes.

• Apprendre à utiliser efficacement les outilsinformatiques pour établir des statistiques.

• Apprendre à interpréter les résultats des analyses.

• Ce cours adopte une approche plus appliquée de la statistiqueconventionnelle en encourageant les étudiants à «mettre lamain sur des données».

• Au lieu d’être axées sur la théorie, l’accent sera mis davantagesur l’application pratique d’une variété de techniquessur l’application pratique d’une variété de techniquesstatistiques descriptives et inférentielles aux ensembles dedonnées.

• Ce cours se concentrera sur la transformation des participantsen utilisateurs compétents et confiants de SPSS pour leurpermettre de réaliser une analyse de données indépendantepour leurs propres besoins en matière de recherche.

Résultats d'apprentissage attendus:

Après avoir terminé ce matériel de cours, on devrait pouvoir:

• Déterminer quelle méthode statistique estappropriée dans une situation donnée.

• Utiliser SPSSpour analyserdes ensemblesde• Utiliser SPSSpour analyserdes ensemblesdedonnées et pouvoir interpréter les résultats.

• Tirer les conclusions appropriées à la suited'une analyse.

• Utiliser efficacement les outils informatiquesstatistiques de SPSS.

• Pré-requis

Les participants devraient avoir suivi un cours de baseen statistiques. Cependant, les autres peuvent biengérer ce parcours, étant donné qu'ils déploient desefforts supplémentaires pour compenser cettelacune.

• Logiciel

Paquet statistique pour les sciences sociales (SPSS)

Texte principalBrace, N., Kemp, R. et Snelgar, R. (2009).SPSS for

psychologists ou SPSS pour les psychologues(4thed.).Londres: Palgrave MacMillan.

SPSS Survival Manual,a step by step guide to data analysisusing IBMSPSS 5th edition, Julie Pallant. McGrawHill, 2013.

Lectures supplémentaires• Field, A. (2013). Discovering Statistics Using IBM SPSS• Field, A. (2013). Discovering Statistics Using IBM SPSS

Statistics(4thed.). Los Angeles: Sage.• Bluman, A.:Elementary Statistics, Mc GrawHill.• Verma, J.P. :Sport research with Analytical Solution using

SPSS.• Nikos Ntoumanis .A Step-by-Step Guide to SPSS for Sport

and Exercise Studies.• Statistiques sans maths pour psychologues SPSS pour

Windows - QCM et exercices corrigés ChristineDancey, John Reidy Traducteur : Nicolas Gauvrit, StéphanieBaggio

Méthodes d'enseignement

• Cours-démonstration par le professeur.

• Travaux pratiques :Exercices pratiquesappliqués à la théorie enseignée durant le coursetapplicationsavecle logiciel SPSS.etapplicationsavecle logiciel SPSS.

• Devoirs de groupes ( 2ou 3 par groupe).

Évaluation du cours

• - 40% de devoirs ou projets (peuvent êtreeffectués en groupes de 2-3) pour appliquerce que nous avons appris en classe.

• - Examen final à 60% nécessitant un travail• - Examen final à 60% nécessitant un travailindividuel et indépendant d'analyse desdonnées à des fins de recherche.

Exemples de questions de recherche

• En psychologie du sport, un étudiant peut être intéressé àexaminer si un certain nombre de variables psychologiquespeuvent prédire les niveaux d'anxiété avant la compétition d'ungroupe d'athlètes.

• En physiologiede l'exercice,un autreétudiantpeut souhaiter• En physiologiede l'exercice,un autreétudiantpeut souhaiterexaminer dans quelle mesure un programme d'entraînementparticulier a amélioré la capacité aérobique d'un groupe decoureurs.

• En biomécanique, on peut s’intéresser aux différences devitesse de décollage lors du saut en longueur entre athlètesd’élite et non élites.

• En contrôle moteur et en apprentissage, un élèvepeut trouver passionnant de rechercher si lenombre d'erreurs dans une habileté motricecomplexe variera entre les conditions d'anxiétécomplexe variera entre les conditions d'anxiétéélevée et faible.

• Dans le domaine de la promotion de l'exercice, unétudiant peut vouloir tester l'hypothèse selonlaquelle la fréquence et la durée de l'exercice sontliées au pourcentage de graisse corporelle.

Exemples de recherche

• Quel type de technologies semble être le plus utilepour apprendre des concepts spécifiques en ligne?Comment se passe l'interaction entre élèves et entreélève et enseignant? Existe-t-il une conceptionoptimaleduparcours?.optimaleduparcours?.

• La comparaison de l'efficacité de deux méthodes d'éducation, avec vidéo ou sans vidéo.

• L'impact des ressources vidéo dans l'enseignement. Étude comparative des SOUS-DIPLÔMÉS aux POST-DIPLÔMÉS.

• Identifier l'état de préparation des étudiants àl'apprentissage en ligne, étudier leurs préférenceset leur perception, et mesurer la qualité destutorielsenligne.tutorielsenligne.

• Enseigner et apprendre avec la technologie:efficacité de l'intégration des TICdans les écoles.

• Comparer en utilisant une approche traditionnellebasée sur les cours magistraux et l'autre enutilisant l'apprentissage en ligne.

• Pour répondre à ces questions et à bien d’autres encore, il estnécessaire que l’élève se familiarise avec certains testsstatistiques.

• Certains de ces tests (tests t, khi-deux, analyse de corrélation,par exemple) peuvent être réalisés à la main, mais la plupartdes autres sont trop compliqués et nécessiteraient une sommeconsidérablede tempset de connaissancesstatistiques. Mêmeconsidérablede tempset de connaissancesstatistiques. Mêmecertains des tests les plus simples peuvent prendre énormémentde temps lorsque la taille d'échantillon d'un jeu de données estgrande.

• Heureusement, avec l'avènement des ordinateurs modernes, laplupart des tests statistiques peuvent être effectués en quelquessecondes. Cependant, il faut tout d’abord savoir commententrer un jeu de données dans un fichier informatique.

• De plus, il faut connaître l'environnement du logicielstatistique car il n'est pas très difficile de sélectionner uneoption inappropriée, ou d'omettre une option importante etd'obtenir des résultats inappropriés.

• Même lorsque la procédure est correcte, il est nécessaire depouvoir comprendre et utiliser les parties les plus importantesd’unesortie.d’unesortie.

• En outre, il est important pour un étudiant de pouvoir présenterles résultats dans une thèse ou une affiche de manièretechniquement appropriée. En outre, un étudiant peut créer destableaux et des graphiques illustrant les résultats de testsstatistiques.

SPSS

• SPSS (logiciel statistique) peut répondre à cesexigences.

• SPSS est un programme statistique complet avec unegrande variété d'options et d'analyses statistiquesdisponiblespourlesspécialistesdessciencessociales.disponiblespourlesspécialistesdessciencessociales.

• Il comprend un certain nombre de tests statistiquespouvant être utilisés pour décrire des données etexaminer diverses hypothèses de recherche.

• Certains de ces tests sont très courants dans lalittérature (tests t, analyse de corrélation, par exemple),tandis que d’autres sont employés moins souvent.

SPSS

• Avec SPSS, vous pouvez créer et éditer une grandevariété de tableaux et de graphiques décrivant etrésumant une ou plusieurs variables.

• Bien quedenombreuxprogrammesstatistiquessoient• Bien quedenombreuxprogrammesstatistiquessoientdisponibles sur le marché, SPSS est le choix préférédes chercheurs.

• En effet, SPSS offre une grande variété d’options etconstitue un programme convivial.

Le chercheur doit considérer

• Nous commençons par identifier quelques conceptsclés de l'analyse numérique:

• échelles de données/scales of data

• donnéesparamétriquesetnonparamétriques,• donnéesparamétriquesetnonparamétriques,

• statistiques descriptives et inférentielles,

• variables dépendantes et indépendantes.

Variables

• Qualitatives : leurs valeurs ne représentent pas unequantité mais une catégorie. On ne peut donc paseffectuer d’opérations mathématiques avec cesvariables. On les appelle des facteurs , et les valeursqu’elles peuvent prendre des classes, niveaux oumodalités.modalités.

• Les variables qualitatives peuvent être de deux types :• — ordinales, lorsque les classes peuvent être

ordonnées : rang dans un classement, degré desatisfaction. . .

• — nominales, lorsque les classes ne peuvent pas êtreordonnées : sexe, pays. . .

Variables • Variables qualitatives

• Modalités : Catégories (mots, lettres), nonnumériques

Ex. :sexe, étude, profession, nationalité, niveau scolaire

• Variable dichotomique/binaire : deux catégories

Ex.: sexe (féminin, masculin), résolution vs. non-résolution d’une tâche, approbation vs.désapprobation d’un énoncé

• Variable polytomique : plusieurs catégories

Ex.: degré d’approbation (pas du tout d'accord, peud'accord, plutôt d'accord, tout à fait d'accord)

Variables qualitatives: Assigner des nombres

• Les variables qualitatives peuvent être codéesnumériquement.

• L’échelle nominale• On utilise les échelles nominales pour représenter la

différenceentrelessujets.différenceentrelessujets.• Le même nombre est assigné à toutes les personnes

ayant les mêmes caractéristiques.• Les nombres ne possèdent pas de propriétés

arithmétiques.• Ex: sexe (homme� 1, femme� 2)

• L’échelle ordinale• On utilise les échelles ordinales pour représenter la

différence et l’ordre entre les sujets (ordre selon lataille, l’intensité, etc.).

• Le mêmenombreest assignéà toutesles personnes• Le mêmenombreest assignéà toutesles personnesayant les mêmes caractéristiques.

• Un nombre plus grand est assigné à une personneappartenant à une catégorie plus grande.

• Ex.: degré d’approbation (1 pas du tout d'accord, 2peu d'accord, 3 plutôt d'accord, 4 tout à fait d'accord)

Variables Quantitatives

• Variables Quantitatives : leurs valeurs représentent unegrandeur quantifiable et le plus souvent associée à uneunité de mesure. On peut effectuer des opérationsmathématiques avec ces variables. Elles peuvent être dedeux types :

• — continues, lorsqu’elles peuvent prendre une infinité de• — continues, lorsqu’elles peuvent prendre une infinité devaleurs (dans un intervalle donné) : masse, temps, distance,volume. . .

• — discrètes, lorsqu’elles ne peuvent prendre que certainesvaleurs (dans un intervalle donné) : nombre d’individus,d’évènements. . . Ces variables sont liées le plus souvent àdes processus de comptage (où les valeurs prises nepeuvent être qu’entières et positives ou nulles).

Du questionnaire à la base de données

• Créer un fichier de données, pour cela, il faut élaborer et utiliser un plan de codage.

• Ex.1 Le questionnaire : Echelle d’expressivité

• • Amour• • Amour

• • Joie

• • Peur

• • Colère

• • Tristesse

• • Honte….etc…

Ex 2

Transformer les données

• Pourquoi transformer les données ?

• Modifier la structure (la forme) d’une variable(recodage)-> modifier la manière dont la variable aété initialement codéepour satisfaireaux exigencesété initialement codéepour satisfaireaux exigencesde certaines analyses.

• Créer une nouvelle variable -> création d’unenouvelle variable à l’aide d’opérations arithmétiqueset/ou d’opérations logiques sur une ou plusieursvariable(s) d’origine.

Recoder une variable : Exemple 1 : inverser l’échelle

• On cherche à mesurer l’ouverture aux sentiments avec les 5questions suivantes (échelle : 1 pas du tout d’accord à 5 tout àfait d’accord) :

• 8 : La manière dont je sens les choses est importante pour moi.• 14: Il est rare que j’accorde beaucoup d’attention à mes

sentimentsdumoment.sentimentsdumoment.• 19: J’éprouve une grande variété d’émotions ou de sentiments.• 24:Je remarque rarement les changements d’humeurs ou les

sentiments que provoquent des environnements différents.• 27 : Je trouve facile d’avoir de l’empathie, c’est-à-dire de

ressentir moi-même ce que les autres ressentent.• Les questions 8, 19 et 27 mesurent l’ouverture aux sentiments

et les questions 14 et 24 la « fermeture »

• recoder les questions 14 et 24 pour que l’échellemesure bien l’ouverture aux sentiments. Pour cela, onattribue la valeur 1 à la valeur 5, la valeur 2 à lavaleur 4, la valeur 3 à la valeur 3, la valeur 4 à lavaleur2 et la valeur5 à la valeur1 :valeur2 et la valeur5 à la valeur1 :

Créer une nouvelle variable : Ex 1 : une sous-échelle

• Pour construire la sous échelle d’ouverture aux sentiments, il a fallu dans un premier temps recoder deux des cinq variables mesurant cette dimension.

• A ce stade, nous avons 5 questions qui mesurent • A ce stade, nous avons 5 questions qui mesurent l’ouverture aux sentiments (Q : 8, 14r, 19, 24r et 27, où r signifie « renversé »).

• But : passer de 5 mesures à une seule -> moyenne de nos 5 questions :

• Mean (ouv08,ouv14r,ouv19,ouv24r,ouv27)

Exemple 2 : l’indice de masse corporelle (IMC)

• L’ « Indice de masse corporelle » s’obtient endivisant le poids d’un individu (exprimé en kg)par le carré de sa taille (en mètres).

• A partir des variables "Poids" et "Taille"• A partir des variables "Poids" et "Taille"figurant dans un fichier, on peut donc créer lanouvelle variable "Masse corporelle" :poids/taille2

Données Paramétriques and non-

paramétriques

• Les données paramétriques supposent uneconnaissance des caractéristiques de la population, afinque les inférences puissent être faites de manièresécurisée; ils supposent souvent une courbe dedistribution gaussienne normale, comme dans lesscores de lecture, par exemple. ils supposent aussi unescores de lecture, par exemple. ils supposent aussi unehomogénéité de la variance.

• Les données non paramétriques sont celles qui nesupposent aucune hypothèse sur la population,généralement parce que les caractéristiques de lapopulation sont inconnues.

Données Paramétriques and non-

paramétriques

• En pratique, cette distinction signifie que: les donnéesnominales et ordinales sont considérées comme nonparamétriques, tandis que les données d'intervalle et de ratiosont considérées comme des données paramétriques.

• La distinction, comme pour les quatre échelles de données,• La distinction, comme pour les quatre échelles de données,est importante, car la détermination du test statistique àutiliser dépend du type de données:

• il est incorrect d'appliquer une statistique paramétrique à desdonnées non paramétriques, bien qu'il soit possibled'appliquer statistiques non paramétriques en donnéesparamétriques (cela n’est cependant pas très répandu, car lesstatistiques sont généralement moins puissantes).

Nombre de variables

• Analyse univariée - analyse les qualités d’unevariable à la fois. Les tests descriptifs peuventêtre utilisés dans ce type d'analyse.

• Analyse bivariée - considère les propriétés dedeux variables l'une par rapport à l'autre. Desdeux variables l'une par rapport à l'autre. Desinférences peuvent être tirées de ce typed'analyse.

• Analyse multivariée - examine les relations entreplus de deux variables. De nouveau, desdéductions peuvent être tirées des résultats.

Représentations graphiques et mesures descriptives

• De telles statistiques ne font aucune inférence ou prédiction,elles rapportent simplement ce qui a été trouvé, de différentesmanières.

• Description des caractéristiques d’un ensemble d’observations/ d’individus à partir d’une seule variable. Deux familles demoyens:moyens:

• des tableaux (tableau d’effectifs) et des graphiques(diagramme en bâtons, diagramme circulaire,histogramme….).

• des indices numériques d’autre part:– mode, moyenne/mean, médiane/the median : La médiane

partage la distribution d’une série d’observations en deuxparties égales.

– minimum/ maximum– ….

Mesure de dispersion et de forme

• Etendue/the range

• Variance

• Ecart type/ the standard deviation

• Coefficient de symétrie/the skewness• Coefficient de symétrie/the skewness

• Mesure d’aplatissement/kurtosis

• ….

Les statistiques inférentielles

• Les statistiques inférentielles, en revanche, s'efforcentde faire des déductions et des prédictions basées sur lesdonnées recueillies. Celles-ci incluront, par exemple,les tests d'hypothèses, la régression et la régressionmultiple, les tests de différence (par exemple, les tests tet l'analysedela variance,l'analysefactorielle…...et l'analysedela variance,l'analysefactorielle…...

• Parfois, des fréquences simples et des statistiquesdescriptives parlent d’elles-mêmes, et une descriptionsoignée des données descriptives peut être importante.Cependant, ce sont souvent les statistiquesinférentielles qui ont plus de valeur pour les chercheurset qui sont généralement plus puissantes.

Signification statistique. Statistical significance

• Une grande partie de l'analyse statistique repose sur la notionde signification statistique. Kirk (1999: 337) indique qu ’« unrésultat statistiquement significatif en est un pour lequel lehasard est une explication improbable ».

• La recherche en mode hypothético-déductif commence• La recherche en mode hypothético-déductif commencesouvent par une ou plusieurs hypothèses. C’est l’essence destests d’hypothèses en recherche quantitative. En règlegénérale, les hypothèses peuvent être classées en deux types.

L’hypothèse nulle

• L’hypothèse nulle, un type majeur d’hypothèse,stipule par exemple:

• qu’il n’ya pas de relation entre deux variables,• qu’il n’ya pas eu de changement dans les participants

entreunprétestetunpost-test,entreunprétestetunpost-test,• ou qu’il n’ya pas de différence entre les écoles de

trois quartiers en ce qui concerne les résultats de leursexamens,

• ou qu’il n’existe aucune différence entre le vote deshommes et des femmes sur tel ou tel facteur.

L'hypothèse alternative• Un deuxième type d'hypothèse est appelé l'hypothèse

alternative. Alors que l'hypothèse nulle stipule qu'il n'y a pastel ou tel (par exemple changement, relation, différence),l'hypothèse alternative stipule qu'il y a tel ou tel, par exemple:

• il y a un changement de comportement des écoliers;

• il existe une différence entre les résultats des élèves en• il existe une différence entre les résultats des élèves enmathématiques et en sciences;

• il y a une différence entre les résultats du prétest et du post-test de telle ou telle classe.

• Cette forme d’hypothèse plus faible est souvent supportéelorsque l’hypothèse nulle est «non supportée», c’est-à-dire quesi l’hypothèse nulle n’est pas supportée, alors l’hypothèsealternative l’est.

• Les deux types d'hypothèses sont habituellement écrits ainsi:

• H0: l'hypothèse nulle

• H1: l'hypothèse alternative

• Parfois, l'hypothèse alternative est écrite en HA.

• H0 Il n'y a pas de différence statistiquement significative entreles hommes et les femmes dans les résultats de l'examenles hommes et les femmes dans les résultats de l'examend'anglais.

• H1: Il existe une différence statistiquement significative entreles hommes et les femmes dans les résultats de l'examend'anglais.

Le risque ou seuil de rejetα

• Le risqueα , ou seuil de rejet ou encore seuilde signification de l’hypothèse H0 , est unevaleur fixée arbitrairement avant la réalisationdetout teststatistiquedetout teststatistique

• Elle correspond à un risque assumé de setromper, celui de rejeter H0 si celle-ci estréellement vraie.

Principe des tests statistiques et risques associés à la conclusion

• Le principe de réalisation de tout test statistique estle suivant :

• 1. On pose une hypothèse nulle H0 , de type « rienà signaler » (ex : les moyennesμA et μB sontégales) ou « valeurponctuelle» (ex : la moyenneμégales) ou « valeurponctuelle» (ex : la moyenneμ=10, la proportion p=50 %).

• 2. On pose une hypothèse H1 , de telle manière queH0 et H1 soient exclusives (ex : les moyennesμA etμB sont différentes, la moyenneμ≠ 10).

• 3. On calcule la valeur de la Variable de Test (VT),d’après une formule qui dépend du test utilisé.

• 4. On trouve la valeur p ou p-value ou sig. , i.e.une probabilité d’obtenir la valeur mesurée(moyenne, pourcentage. . .) si H 0 est vraie.

• 5. On conclut sur les deux hypothèsesposées• 5. On conclut sur les deux hypothèsesposéesgrâce à cette p-value :

• —si la p-value est supérieure au seuilα fixé avantle test (5 % en général), on ne rejette pas H 0

• — si la p-value est inférieure au seuilα , onrejette H 0.

One-tailed and two-tailed tests

Tests unilatéraux et bilatéraux

• En utilisant les statistiques, les chercheurs sontparfois confrontés à la décision d'utiliser un testunilatéral ou bilatéral. Lequel utiliser est fonction dutype de résultat que l'on peut prédire.

• Dansun testunilatéral,on prédit,par exemple,qu'un• Dansun testunilatéral,on prédit,par exemple,qu'ungroupe obtiendra un score plus élevé que l'autre, alorsque dans un test bilatéral, on ne fait aucune telleprédiction.

Tests unilatéraux et bilatéraux

• Le test unilatéral est un test plus fort que le testbilatéral car il repose sur des hypothèses concernantla population et l'orientation du résultat (c.-à-d. Qu'ungroupe obtiendra un score plus élevé que l'autre) et,par conséquent,estplus puissant. qu'untestbilatéral.par conséquent,estplus puissant. qu'untestbilatéral.Un test unilatéral sera utilisé avec une hypothèsedirectionnelle (par exemple, «Les élèves qui fontleurs devoirs sans la télévision produisent demeilleurs résultats que ceux qui font leurs devoirsavec la télévision»).

Tests unilatéraux et bilatéraux

• Un test bilatéral sera utilisé avec unehypothèse non directionnelle (par exemple, «Ilexiste une différence entre les devoirseffectués dans des conditions bruyantesoueffectués dans des conditions bruyantesousilencieuses»). L’hypothèse directionnelleindique «plus» ou «moins», tandis quel’hypothèse non directionnelle indiqueuniquement la différence et non l’endroit où ladifférence peut se situer.