SPSS Cours

23
Traitement de données avec SPSS Une fois achevée la "récolte des données" par questionnaire, par entretien ou par toute autre méthode, celles-ci doivent être structurées et analysées. En fonction de la méthode utilisée, les données récoltées sont comptées, résumées, calculées ou interprétées, puis présentées de manière à en obtenir une bonne vue d'ensemble. Des connaissances spécifiques sont nécessaires à cet effet Quand les données récoltées sont examinées et structurées. Il existent des programmes électroniques qui facilitent le traitement de données numériques (par exemple Excel, SPSS) et de données verbales (par exemple Microsoft Word, Atlas-ti, …). Définition Le logiciel (SPSS) est un logiciel de gestion et d'analyse de données statistiques de portée générale. Le logiciel SPSS constitue un système de traitement de données permettant, à partir de fichiers SPSS ou à partir d’autres types de fichiers (Excel, Dbase, Access …) de générer divers tableaux, graphiques et diagrammes ou encore d’effectuer divers traitements statistiques ( descriptive / référentiel). Utilisation On peut utiliser le logiciel SPSS pour effectuer différentes tâches, comme par exemple: A) La présentation des données sources On peut importer ou saisir en direct des données dans une feuille de tableur présente dans le logiciel. Le Copier - coller de tableau permet de réutiliser en chaîne les valeurs résultats de tableau. On peut trier des résultats. . Le logiciel permet la division et l'éclatement de fichiers. La création d'une nouvelle variable est possible à partir d'autres variables et de formules.

Transcript of SPSS Cours

Page 1: SPSS Cours

Traitement de données avec SPSSUne fois achevée la "récolte des données" par questionnaire, par entretien ou par toute autre méthode, celles-ci doivent être structurées et analysées. En fonction de la méthode utilisée, les données récoltées sont comptées, résumées, calculées ou interprétées, puis présentées de manière à en obtenir une bonne vue d'ensemble. Des connaissances spécifiques sont nécessaires à cet effetQuand les données récoltées sont examinées et structurées. Il existent des programmes électroniques qui facilitent le traitement de données numériques (par exemple Excel, SPSS) et de données verbales (par exemple Microsoft Word, Atlas-ti, …).

Définition• Le logiciel (SPSS) est un logiciel de gestion et d'analyse de données statistiques de

portée générale.• Le logiciel SPSS constitue un système de traitement de données permettant, à partir de

fichiers SPSS ou à partir d’autres types de fichiers (Excel, Dbase, Access …) de générer divers tableaux, graphiques et diagrammes ou encore d’effectuer divers traitements statistiques ( descriptive / référentiel).

UtilisationOn peut utiliser le logiciel SPSS pour effectuer différentes tâches, comme par exemple:

A) La présentation des données sources • On peut importer ou saisir en direct des données dans une feuille de tableur présente

dans le logiciel. • Le Copier - coller de tableau permet de réutiliser en chaîne les valeurs résultats de

tableau. • On peut trier des résultats. . • Le logiciel permet la division et l'éclatement de fichiers. • La création d'une nouvelle variable est possible à partir d'autres variables et de

formules.

B) Le traitement des données

Toutes les opérations de base (écart-type, moyenne, variance, médiane, mode, etc...) peuvent être réalisées.

C) Les tests statistiques : Test student, Chi-deux, …

D) Représentations graphiques:

Les graphiques (histogrammes, secteurs, boites, points, etc.) sont copiables vers d’autres logiciels.

Page 2: SPSS Cours

I) Manipulation de base sur les données1) Saisie de données à partir de SPSS

Cette opération s’effectue en deux étapes :• Définir les variables et leurs propriétés• Saisir les données

Les règles à respecter pour définir le nom d’une variable   : Le nom doit commencer par une lettre. Un nom de variable ne peut se terminer par un point. La longueur du nom de la variable ne peut excéder 8 caractères. Le nom d’une variable ne peut contenir des espaces blancs ou des caractères

spéciaux (comme ! , ? et *). Chaque nom de variable doit être unique. Donner une étiquette à une variable c’est donner une identification plus

explicite à cette variable qui sera affichée dans les différents calculs statistiques.

a) Les types de données • Nous disons qu’une donnée est de type numérique lorsqu’elle réfère à un nombre tant

dans sa représentation que dans son utilisation.• Il arrive souvent que, pour faciliter le traitement, nous créons des données

artificiellement numériques. C’est à dire nous codifions par un chiffre une variable qualitative.

• Exemple : 1 pour sexe masculin et 2 pour sexe féminin.• Ce codage présente un double avantage :

- Il facilite la saisie des données en diminuant les risques d’erreur de frappe. - Il favorise une économie d’espace en mémoire et de temps.• Une donnée est de type alphanumérique lorsqu’elle peut prendre pour ‘valeurs’ à la

fois des lettres et des chiffres.• Les noms et les prénoms d’individus constituent des exemples de variable

alphanumériques.• Les traitements arithmétiques et statistiques possibles sont plus limités avec des

informations de cette nature• Il est possible d’effectuer des dénombrements et des tris, par exemple• Il existe d’autres types de données, tels ceux de dates et de devises

b) Affichage des variablesL’affichage des variables est utilisé pour spécifier les noms et les propriétés des variables

A) Saisir les noms de variables choisies (colonne ‘Nom’)Il suffit de nommer la première variable en respectant les règles pour nommer les variables

B) Changer le type de variable (colonne ‘Type’)Par défaut le type de variable montré dans la colonne étiquette Type est numérique, mais il y a d’autres types de variables disponibles dans SPSS.

- Variable chaîne : séquence de 20 caractères (lettres, symboles, espaces, chiffres)- Variables Date, Dollar, …

Page 3: SPSS Cours

C) Changer la largeur de la variable (colonne ‘Largeur’)

D) Changer le nombre de décimales de variable (colonne ‘Décimale’)

E) Saisir l’étiquette de variable (colonne ‘Etiquette’)- Il est souvent avantageux d’expliciter quelques fois le nom énigmatique d’une variable

avec une étiquette explicative plus longue. - Les étiquettes permettent d’améliorer les apparences des résultats.

F) Valeurs étiquettes de valeurs (colonne ‘Valeurs’)- Valeurs : sont des codes par ex : 0, 1, 2, 3 …- Etiquettes des valeurs : sont les continues des variables.

Ex : 1 : Masculin 2: Féminin C’est une étape très importante dans l’affichage des variables, car elle permet de codifier le contenu des variables.

G) Valeurs manquantes (colonne ‘Manquant’)• Dans SPSS, il ne peut y avoir aucune cellule vide dans la série de données. • Comme par ex. les colonnes (représentant les variables) et les lignes (représentant les

observations).• Par conséquent, si une cellule n’a pas été rempli par l’utilisateur, SPSS fournit une

valeur manquante système, qui est indiqué dans l’éditeur de données par un point.• SPSS exclura les valeurs manquantes système des calculs de moyenne, écart – type, et

autre statistique.• Souvent on utilise le code 99 pour les valeurs manquantes.

H) Niveau de mesure (colonne ‘mesure’)• Les données échelles : ce sont des données numérique : le poids, la taille, …• Les données nominales : le groupe sanguin, le genre, …. Ce sont des étiquettes.• Les données ordinales : constituants en des rangs, des affectations catégories

ordonnées ou d’informations séquentielles. Ex : Très satisfait Satisfait Non satisfait.

Page 4: SPSS Cours

2) Manipulations de données

Exemple : Dans une entreprise, le temps requis pour effectuer l’assemblage d’un montage transistorisé est de 10 minutes. Un chronométrage de cette opération sur 25 unités de même type donne le temps ci-contre.

Temps observés (minutes)

9,1 11,3 11,9 10,9 10,9

11,6 10,3 11,8 11,0 10,6

12,3 9,6 11,9 10,8 12,9

10,3 10,1 12,2 11,1 10,3

10,0 10,5 9,8 11,8 12,0

a) Trier des données Cliquer sur la commande Données / Trier les observations puis sélectionner la liste de

variable.

b) Listing des données: Commandes : Analyse / Rapport / Récapitulatif des observations

c) Afficher les informations sur le fichier des données : Commandes : Fichier / Afficher informations sur les données / Ouvrir.

Questionnaire

Page 5: SPSS Cours

Quel est votre âge en année ? :

Quel est votre sexe ? : M F

Quel est votre domaine d’étude : Arts Sciences Médecine Autres

Quel est votre niveau ? : Étudiant Maîtrise Doctorant Autre

Quel est votre poids en Kg ? :

Quelle est votre taille en mètre ? :

Quel est votre groupe sanguin ? : Groupe O Groupe A Groupe B Groupe AB

Est – ce que vous fumez ? : Oui Non

Age Sexe Étude Niveau Poids Taille Groupe Fume

30 M 2 3 75 1,80 3 1

25 F 1 2 55 1,75 4 2

27 F 3 2 57 1,70 1 1

33 F 4 1 59 1,65 3 2

40 M 1 1 85 1,83 2 1

24 M 2 4 65 1,78 1 2

21 F 4 2 60 1,62 4 2

45 M 2 1 87 1,67 3 2

23 F 2 1 55 1,59 4 1

36 M 3 4 79 1,73 2 1

II) La statistique descriptive

Page 6: SPSS Cours

1. Calcul de diverses statistiques

• Cliquer sur la commande Analyse / statistique descriptive / Fréquences.• Moyenne / Médiane / Mode / Somme / Ecart - type / Variance …

2. Dépouillement des valeurs d’une variable continue selon une distribution de fréquence

• On veut obtenir la distribution de fréquences en classes de la variable continue V (taille).

• A partir des résultas obtenus précédemment, la répartition des données en classes peut s’effectuer de la façon suivante.

Les classes sont : 1,55 < X < 1,66 ----------> 1 1,67 < X < 1,76 ----------> 2 1,77< X < 1,88 ----------> 3

Les commandes sont   : - Cliquer sur Transformer / Recoder / Création de variable - Entrer dans la boite de variable de destination - Cliquer sur la boite Remplacer - Cliquer sur la boite ancienne et nouvelle valeur- Entrer dans la boite nouvelle valeur ( exemple : 1)- Cliquer sur Intervalle- Enter les valeurs limites (exemple : 1,55 et 1,66)- Cliquer sur Ajouter- Répéter les mêmes opérations pour les autres données- Cliquer sur la boite Poursuivre- A la fin on faire l’étiquette pour la nouvelle variable (exemple :Ancienneté par classes)- Cliquer sur OK

3) Distribution de fréquences et histogramme

Pour obtenir la distribution de fréquences et histogramme,• cliquer sur la commande /Analyse / Fréquences / • Choisir la variable (ex : Poids par classe) / Diagrammes / Histogramme / Continue / • Désactiver toutes les commandes de la fenêtre Statistique (moyenne, mode, …) /

continue / OK.

4) Traitement de données nominales

Page 7: SPSS Cours

• Question 1 : Au cours des 12 mois, avez-vous pris l’autobus de façon régulière ou occasionnelle ?

- Régulière ………. - Occasionnelle ………. - Ne prend pas l’autobus ……..

• Question 2 : Sexe : Masculin … Féminin …

• Question 3 : Age : * 18 – 34 ans ….. * 35 – 54 ans ….. * 55 ans et plus ….

4.1) On va associer des codes et des étiquettes aux diverses modalités des variables

NOM ETIQUETTE VALEURS (MODALITES)

CODES

Quest1 Prendre l’autobus Régulière 1

Occasionnelle 2

    Ne prend pas l’autobus 3

       

Quest2 Sexe Masculin 1  Féminin 2

     

Quest3 Age 18 – 34 ans 1    35 – 54 ans 2

    55 ans et plus 3

Les commandes sont   :

- Cliquez sur Affichage des variables- Entrez dans la colonne Etiquette de la variable Quest1 la variable : Prendre l’autobus- Cliquer sur la colonne Valeurs, puis entrez dans le champ Valeur : 1, puis dans le champ Etiquette de valeur : Régulière.- Cliquez sur le bouton Ajouter et l’information saisie se retrouvera dans la zone voisine.- Entrez dans le champ Valeur : 2, puis dans le champ Etiquette de valeur : Occasionnelle.- Cliquez sur le bouton Ajouter et l’information saisie se retrouvera dans la zone voisine

- Entrez dans le champ Valeur : 3, puis dans le champ Etiquette de valeur: Ne prend pas l’autobus.- Cliquez sur le bouton Ajouter et l’information saisie se retrouvera dans la zone voisine

Page 8: SPSS Cours

- Cliquez sur Continue puis sur OK.

*La codification des modalités des variables Quest2 et Quest3 s’effectuent de la même façon.

Tableau des donnéesQuest1 Quest2 Quest3

Régulière Masculin 18 – 34 ans

Ne prend pas l’autobus Féminin 55 ans et plus

Occasionnelle Féminin 18 – 34 ans

Régulière Féminin 18 – 34 ans

Ne prend pas l’autobus Féminin 18 – 34 ans

Ne prend pas l’autobus Féminin 35 – 54 ans

Régulière Masculin 55 ans et plus

Ne prend pas l’autobus Masculin 18 – 34 ans

Occasionnelle Masculin 35 – 54 ans

Régulière Masculin 18 – 34 ans

Ne prend pas l’autobus Féminin 55 ans et plus

Occasionnelle Masculin 55 ans et plus

Ne prend pas l’autobus Masculin 55 ans et plus

Occasionnelle Masculin 35 – 54 ans

4.2) On va maintenant dépouiller les données (nominales) de la question 1 selon une distribution de fréquences et on trace un diagramme à secteurs (Graphique en secteurs).

• Cliquer sur la commande Statistique descriptive / Fréquences• Sélectionner la variable Quest1 • Cliquez sur le bouton Diagrammes puis sélectionner Graphique en secteurs et

pourcentages• Cliquer sur Continue puis OK• On procède de la même façon pour la variable Quest2. Au lieu de la commande

Graphique en secteurs on sélectionne Diagrammes en bâtons. Les résultats sont présentés de la façon suivante :

4.3) On veut élaborer un diagramme illustrant la répartition des répondants selon les diverses modalités de la question 1 (utilisation de l’autobus) en tenant compte du sexe du répondant.

Page 9: SPSS Cours

• Dans la barre menus, sélectionner Graphes / Bâtons. Ceci permet d’avoir la boite de dialogue Diagrammes en bâtons. Celle – ci présente trois types de diagrammes à barres, soit :

• Simple• Juxtaposé (Catégorisé) • Empilé • On veut le type Juxtaposé (Catégorisé), ce qui va nous permettre de visualiser le

pourcentage de répondants d’après la fréquence d’utilisation du transport en commun avec une distinction quant au sexe du répondant.

• Cliquez sur l’icône identifiant Juxtaposé / Récapitulatifs pour groupes d’observations puis Définir.

• Ceci permet d’avoir une boite de dialogue : • Placez la variable Quest1 sur l’axe des abscisses, puis la variable Quest2 sur l’axe des

ordonnées.• Cliquez sur le bouton % d’observations puis OK pour lancer le traitement.

Les niveaux de signification

- Lorsqu’on teste la différence (entre moyenne par exemple), on se posera la question suivante:

La différence observée entre les échantillons doit-elle être attribuée au hasard ou bienprovient-elle d’une cause systématique?

Accepter H0 : C’est la différence observée est attribuable aux fluctuations dues au hasard de l’échantillonnage.

Rejeter H0 : C’est la différence observée est due à une cause systématique

La règle arbitraire est la suivante :

• S’il y a plus de 5 % (0,05) des chances que la différence observée soit due au hasard, on adopte Ho et on dit que la différence n’est pas significative (N S).

• S’il y a 5% (0,05) des chances ou moins, que la différence soit due au hasard, on rejette Ho et on dit :

• Significative (S) : si la différence observée a plus de 1% (0,01) des chances (mais moins de 5%) d’être due au hasard.

• Très significative (T S) : si la différence observée à 1% de chance ou moins d’être due au hasard.

On note les niveaux de signification de la manière suivante :* Différence non significative à p > 0,05 (Non significative)* Différence significative à p ≤ 0,05 (Significative)* Différence significative à p ≤ 0,01 (Très significative)

III) Comparaisons de moyennes

Les différents tests de comparaison de moyenne qui existe en SPSS sont :

Page 10: SPSS Cours

1. Test T pour échantillon unique : Test de comparaison d’une moyenne à une valeur donnée.

2. Test T pour échantillons indépendants: Test d’égalité de deux moyenne.3. Test T pour échantillons appariés : comparaison de deux séries de mesures appariées.4. ANOVA à 1 facteur: Analyse de variance à un seul facteur.

1) Test de comparaison d’une moyenne de population normale à une valeur donnée

• On va choisir un petit échantillon provenant d’une population normale de variance inconnue. Ce test statistique s’est effectue avec le t de Student.

• Dans une entreprise, le temps requis pour effectuer l’assemblage d’un montage transistorisé est de 10 minutes. Un chronométrage de cette opération sur 25 unités de même type donne le temps ci-contre.

Temps observés (minutes)

9,1 11,3 11,9 10,9 1,9

11,6 10,3 11,8 11,0 10,6

12,3 9,6 11,9 10,8 12,9

10,3 10,1 12,2 11,1 10,3

10,0 10,5 9,8 11,8 12,0

Les commandes sont :

• Cliquer sur Statistiques descriptives / Comparer les moyennes / puis sur Test T pour échantillon unique.

• Introduisez la variable temps dans la zone Variable à tester et la valeur donnée (10) dans la zone Test Valeur de test.

• Cliquer sur OK pour lancer le traitement

2) Test d’égalité de deux moyennes

• Il s’agit d’un test d’égalité de deux moyennes.

Page 11: SPSS Cours

Exemple : Soit deux classes qui obtiennent au même test pédagogique (noté sur 10).

Tableau des données

Classe 1 Classe24 85 76 97 89 68 86 95 77 85 83 104 97 7  8

8  7Moyenne 1 = 5,84 Moyenne 2 = 7,93

• La classe 1 semble nettement plus faible que la classe 2. Peut-on attribuer cette différence à une cause systématique ou, au contraire, est-elle attribuable au hasard ?

• En d’autre terme, la classe 2 est-elle réellement plus forte que la classe 1, ou bien doit-on penser que la différence provient du hasard dans la composition des classes ?

• On va commencer par la saisie des données. Pour faire cette comparaison en SPSS, on doit utiliser deux variables, l’une pour la classe et l’autre pour les notes.

Tableau des données en SPSS

Classe Notes

1 4

Page 12: SPSS Cours

1 5

1 6

1 7

1 9

1 8

1 6

1 5

1 7

1 5

1 3

1 4

1 7

2 8

2 7

2 9

2 8

2 6

2 8

2 9

2 7

2 8

2 8

2 10

2 9

2 7

2 8

2 8

2 7

Les commandes sont :

• Cliquer sur Analyse / Comparer les moyennes puis Test T pour échantillons indépendants.

• - Introduisez la variable Notes dans la zone Variable à tester et la variable Classe dans la zone Critère de regroupement. Puis cliquer dans la boite Définir groupes.

• - Ecrire la valeur 1 dans la zone Groupe1 et la valeur 2 dans la zone Groupe2.• - Cliquer sur Continue puis OK pour lancer le traitement

Page 13: SPSS Cours

3) Comparaisons de deux séries de mesures appariées

- Il s’agit des données qui sont obtenues à partir de la même unité expérimentale (même individu par exemple) avant et après avoir subir un certain traitement. Nous somme alors en présence de mesures dépendantes ou appariées. - Il serait alors incorrect de procéder à un test de comparaison de moyennes. L’outil statistique approprié est alors un test sur la différence de mesures.

Exemple:On veut évaluer l’effet ou l’efficacité d’un programme d’apprentissage. Pour cela on a passer un test à un certain nombre de personne avant et après la formation. Les résultats obtenus sont présentés dan le tableau suivant 

Avant le programme Après le programme

15 17

13 16

8 10

9 9

7 9

12 13

11 14

12 15

11 14

9 11

10 14

12 11

11 13

7 10

12 13

Les commandes sont   :

• Sélectionner Analyse / Comparer les moyennes puis Test T pour échantillons appariés.

• Introduisez les deux variables (Avant et Après) dans la boite Variables appariées.• Cliquer sur le bouton Options et spécifier un intervalle de confiance à 99%.• Cliquer sur Continue puis OK pour lancer le traitement.

Page 14: SPSS Cours

4)Test d’égalité de trois moyennes

• Il s’agit de la comparaison plus de deux moyennes. On ne peut pas utiliser le test t de Student. L’outil statistique approprié est une analyse de variance suivant un seul facteur (One-way Anova).

• L’analyse de variance permet aussi de comparer les moyennes deux à deux

Exemple : On constitue trois groupes d’élèves sélectionnés au hasard et on leur enseigne la même matière de trois façons différentes :- Dans le groupe 1 on applique l’enseignement magistral- Dans le groupe 2 un cours programmé appliqué sous surveillance- Dans le groupe 3 partiellement à domicile. On veut comparer le résultat moyen de trois groupes d’élèves et tester s’il existe une différence significative au seuil de signification 5%.

Les résultats obtenus sont présentés dan le tableau suivant :

Groupe 1 Groupe 2 Groupe 3

10 17 14

12 19 18

8 14 15

14 18 15

9 17 14

13   16

    15

    13

- On va commencer par la saisie des données. - Pour faire cette comparaison en SPSS, on doit utiliser deux variables : l’une pour la classe

et l’autre pour les notes.

Classe Notes1 101 12

Page 15: SPSS Cours

1 81 141 91 132 172 192 142 182 173 143 183 153 153 143 163 153 13

Les commandes sont   :

• Sélectionner Analyse / Comparer les moyennes puis ANOVA à 1 facteur.• Introduisez la variable résultat dans la boite Variables dépendantes et la variable

classe la boite Critère.• Cliquer sur le bouton Options et choisir Caractéristique ; Test d’égalité des variances

et exclure les observations analyse par analyse puis Poursuivre.• Cliquer sur le bouton Post Hoc et sélectionner la méthode de comparaisons multiples

de Bonferroni avec un seuil de signification 0,05.• Cliquer sur Continue puis sur OK pour lancer le traitement.

VI) Le tableau croisé

Dans ce chapitre, on va :• associer un code et une étiquette aux diverses modalités d’une variable• élaborer un tableau croisé• obtenir diverses statistiques associées aux variables du tableau croisé

DéfinitionUn tableau croisé consiste en un tableau à double entrée où les modalités d’une variable sont croisées avec les modalités d’une autre variable. Ce tableau est fréquent lorsque l’on veut examiner s’il existe une certaine dépendance entre deux variables.

Page 16: SPSS Cours

Exemple : On va utiliser un sondage sur le transport en commun et élaborer un tableau croisé des modalités de la fréquence d’utilisation de l’autobus (quest1) avec les catégories d’âge.

Tableau des données Quest1 Quest2 Quest3

Régulière Masculin 18 – 34 ans

Ne prend pas l’autobus Féminin 55 ans et plus

Occasionnelle Féminin 18 – 34 ans

Régulière Féminin 18 – 34 ans

Ne prend pas l’autobus Féminin 18 – 34 ans

Ne prend pas l’autobus Féminin 35 – 54 ans

Régulière Masculin 55 ans et plus

Ne prend pas l’autobus Masculin 18 – 34 ans

Occasionnelle Masculin 35 – 54 ans

Régulière Masculin 18 – 34 ans

Ne prend pas l’autobus Féminin 55 ans et plus

Occasionnelle Masculin 55 ans et plus

Ne prend pas l’autobus Masculin 55 ans et plus

Occasionnelle Masculin 35 – 54 ans

Les commandes sont :

• Sélectionnez Statistiques descriptives / Tableaux croisés• Entrez la variable dans la ligne et l’autre dans la colonne • Cliquez sur le bouton Statistiques et choisir le test Chi - deux puis sur le bouton

continue• Cliquez sur le bouton Cellules et sélectionner les fréquences observées (Observé) et

les fréquences théoriques (Théorique).• Cliquez sur Continue puis sur OK pour lancer le traitement.

Subdiviser un fichier

• Cliquer sur la commande Données / Scinder un fichier / comparer les groupes • Sélectionner la liste de variable

La subdivision de fichier est équivalente à travailler avec deux ou trois fichiers.

(Exemples)