Techniques et méthodologie pour rédiger un...

24
SPHINX I) Techniques et méthodologie pour rédiger un questionnaire Il faut cibler les domaines d’interrogation, formuler clairement les questions et structurer le questionnaire. 4 types de questions : Comportement Identité Motifs Opinion Exercice : Créer un questionnaire avec trois grandes parties. Ce questionnaire s’appellera Sport, en-tête Elaboration d’un questionnaire, EMN Le Havre 2007-2008. 1 ère partie : identité de l’interrogé. 2 ième partie : pratique d’un sport 3 ième partie : préférences sportives. Différents types de questions définies par Sphinx : Question fermée unique : réponses fixées, une réponse. Question fermée multiple : réponses fixées, plusieurs réponses possibles. Question fermée ordonnée : réponses fixées, choix par ordre de préférence. Question fermée échelle : réponses fixées ordonnées, un seul choix. Question ouverte numériques : réponse par un nombre. Question ouverte texte : réponse par un texte quelconque. Question ouverte codifiée : réponse peut prendre des valeurs différentes et ce n’est pas un nombre. Rédaction du questionnaire : Libellé : libellé de la question Variable : nom qui sera utilisé dans les traitements statistiques Type : choisir le type de question Modalités : donnez les modalités des réponses séparées par un point virgule. Bibliothèque : Sphinx possède des questions types qu’il possède dans sa base. Contrôles : permet de forcer la réponse et/ou de la compléter analyse des données avec Sphinx - 1 - JLVT EMN Le Havre 2009

Transcript of Techniques et méthodologie pour rédiger un...

Page 1: Techniques et méthodologie pour rédiger un …jeanluc.vimbert.free.fr/TP_sphinx_AP2sept2009.doc · Web view1ère partie : identité de l’interrogé. 2ième partie : pratique d’un

SPHINX

I) Techniques et méthodologie pour rédiger un questionnaire Il faut cibler les domaines d’interrogation, formuler clairement les questions et structurer le questionnaire.

4 types de questions :ComportementIdentitéMotifsOpinion

Exercice :Créer un questionnaire avec trois grandes parties.Ce questionnaire s’appellera Sport, en-tête Elaboration d’un questionnaire, EMN Le Havre 2007-2008.1ère partie : identité de l’interrogé.2ième partie : pratique d’un sport3ième partie : préférences sportives.

Différents types de questions définies par Sphinx :Question fermée unique : réponses fixées, une réponse.Question fermée multiple : réponses fixées, plusieurs réponses possibles.Question fermée ordonnée : réponses fixées, choix par ordre de préférence.Question fermée échelle : réponses fixées ordonnées, un seul choix.Question ouverte numériques : réponse par un nombre.Question ouverte texte : réponse par un texte quelconque.Question ouverte codifiée : réponse peut prendre des valeurs différentes et ce n’est pas un nombre.

Rédaction du questionnaire : Libellé : libellé de la questionVariable : nom qui sera utilisé dans les traitements statistiquesType : choisir le type de question Modalités : donnez les modalités des réponses séparées par un point virgule.Bibliothèque : Sphinx possède des questions types qu’il possède dans sa base.Contrôles : permet de forcer la réponse et/ou de la compléter

Exemple :Dans la première partie créer la première question :1) Sexe : vous êtes… Homme Femme2) Quel âge avez vous?

Dans la deuxième partie :Combien de sport pratiquez vous ? Quelle est votre activité sportive principale ?La pratique est-elle à haut niveau ? oui non Dans la troisième partie :Quels sont vos sport favoris en tant que spectateur ?Préférez vous les sports collectifs ou individuels?Parmi les sports suivants, choisir les trois que vous préférez en les ordonnant.Football ; Basket ; Handball ; Tennis ; Athlétisme ; Cyclisme ; Natation ; Golf ; Rugby.analyse des données avec Sphinx - 1 - JLVT EMN Le Havre 2009

Page 2: Techniques et méthodologie pour rédiger un …jeanluc.vimbert.free.fr/TP_sphinx_AP2sept2009.doc · Web view1ère partie : identité de l’interrogé. 2ième partie : pratique d’un

On peut ensuite ajouter ou retrancher des questions.

Dans la partie identité demander le code postal, s’aider de la bibliothèque de Sphinx.Dans la partie pratique en dernière position, ajouter la question : pourquoi ne pratiquez vous aucun sport?

On peut ensuite inclure le questionnaire dans word.

II) Saisie des résultats Saisir deux résultats en saisie rapide et deux résultats en module opérateur.

III) Traitement et analyse DÉPOUILLEMENT DES RÉPONSES

Le dépouillement des réponses s’effectue dans le stade « traitement et analyse », il peut être automatique ou avec des options comme la prise en compte des non-réponses.

Quels traitements pour quelle décision ?

Les tableaux à plat de résultats permettent des descriptions du type il y a x % des personnes satisfaites, ou le revenu moyen des acheteurs est x, la qualité est le premier critère de choix retenu par les personnes interrogées.

Les tableaux croisés font apparaître des liens entre les variables si … alors….

L'analyse multidimensionnelle des données consiste à analyser simultanément plus de deux variables à la fois dans un but de synthèse ou d'analyse.

Le tri à plat des diverses variablesIl est conseillé de supprimer (pour des raisons de clarté) la ligne Non-réponse (sauf si elle revêt une

signification particulière). Plusieurs types de questions conduisent à plusieurs types de variables.

analyse des données avec Sphinx - 2 - JLVT EMN Le Havre 2009

Page 3: Techniques et méthodologie pour rédiger un …jeanluc.vimbert.free.fr/TP_sphinx_AP2sept2009.doc · Web view1ère partie : identité de l’interrogé. 2ième partie : pratique d’un

Questions fermées (les possibilités de réponses (modalités) sont imposées).

Question 1   : Variable fermée unique L’enquêté ne peut choisir qu’une modalité, il peut avoir à choisir entre deux modalités (Etesvous fumeur ? Oui ; Non) ou bien entre plus de 2 modalités (Dans quelle tranche d’âge vous situez vous ? 18 à 24 ans ; 25 à 39 ans ; 40 à 59 ans ; 60 ans et plus).

Variable 3 ( Quelle est la marque de votre voiture ?) (ici la question est semi ouverte car autre(s) précisez :)Il s’agit d’une variable fermée unique, on peut donc visualiser les résultats sur ungraphique.Présentez un graphique en « barres » en ayant supprimé la modalité « non réponse » et en ayant ordonné les marques par ordre décroissant de fréquence.Vous modifierez les dimensions du graphique. (largeur des barres : 600)Vous donnerez un titre au graphique : Automobile : classement par marque.

Réponse   :

Question 2   : Variable 3 (Quelle est la marque de votre voiture ?)Quelle est la proportion de voitures allemandes parmi les marques identifiées ?(Faire un regroupement des marques allemandes)

Réponse   :

Question 3   : Echelle sémantiqueOn pourra effectuer des calculs numériques en associant des valeurs aux échelons : calcul de valeurs moyennes et d'écart types.Variable 10 : vitesse. Attribuer une valeur à chaque niveau de satisfaction (1 pour pas dutout, 2 pour plutôt non…)Calculer la valeur moyenne de satisfaction compte tenu de ces barèmes« Analyser le tableau » puis « test ».

analyse des données avec Sphinx - 3 - JLVT EMN Le Havre 2009

Page 4: Techniques et méthodologie pour rédiger un …jeanluc.vimbert.free.fr/TP_sphinx_AP2sept2009.doc · Web view1ère partie : identité de l’interrogé. 2ième partie : pratique d’un

Questions ouvertesQuestion 4   : Les variables ouvertes numériques :

Combien de fois par an allez vous au cinéma ?On calcule des moyennes (avec/sans non réponses) et des écarts types etc.

Exemple : Var 22 (DEPENSE)Observez le tableau des classes et le tableau des valeursModifier les classes prédéterminées de manière à obtenir des intervalles d’amplitude 500 et une dernière classe « 2000 et plus ».

Question 5   : Les variables ouvertes textes : interprétations.Selon vous quelles sont les qualités de ce produit ?Tableau des mots utilisés, tableau des différentes réponses, nombre de mots de la réponse… Exemple d’analyse simple à partir de la variable 4 « MARQUE AUTRE »Faire apparaître le tableau des réponses et le tableau des mots avec leur nombre de citations:

Lors du dépouillement à plat, 3 choix d’analyse :tableau des réponses : regroupe sous forme d’un tableau les réponses recensées et les effectifs correspondants

tableau des mots : décompte non plus les réponses individuelles mais les mots qui ont été utilisés par l’ensemble des individus, N.B : dans le cas de la variable marque autre les tableaux de réponses et de mots sont quasiment identiques (différence Alpha-Roméo).

étudier les textes : permet soit de recoder un texte observation par observation, soit de sélectionner et classer les extraits des réponses, soit retrouver un tableau des réponses ou enfin utiliser l’atelier lexical.

Question 6   : Les variables ouvertes textes Variable 25 : décrivez la voiture idéale selon vos désirsA partir du tableau des mots décrire en trois mots la voiture idéale.

En observant le tableau des mots on peut constater que la voiture idéale est analyse des données avec Sphinx - 4 - JLVT EMN Le Havre 2009

Page 5: Techniques et méthodologie pour rédiger un …jeanluc.vimbert.free.fr/TP_sphinx_AP2sept2009.doc · Web view1ère partie : identité de l’interrogé. 2ième partie : pratique d’un

Question 7   : Les variables codes   : suite de caractères alphanumériques limitée à 25 caractères.Tableau des effectifs pour chaque code avec regroupement éventuel.Exemple avec la variable 29 : « analyser les codes », puis « réduire » pour ne retenir que les deux premiers chiffres. Classer et ordonner les réponses par département.

IV - Les tests de significativité

Question 8   : Intervalles de confianceCette information est importante pour pouvoir relativiser les résultats.Par exemple s’il s’agissait d’un sondage électoral dans lequel 2 candidats sont séparés par une différence de 1 ou 2%, compte tenu de la marge d’erreur, on ne pourrait dire lequel des deux sera élu.En étude marketing, l’intervalle de confiance est utile pour les extrapolations.

Variable 5 (S’agit-il d’une voiture achetée neuve ou d’occasion ?)Donnez un intervalle de confiance des voitures achetées neuves ou d’occasion, en prenant un risque de 5% puis en prenant un risque de 1%.

analyse des données avec Sphinx - 5 - JLVT EMN Le Havre 2009

Page 6: Techniques et méthodologie pour rédiger un …jeanluc.vimbert.free.fr/TP_sphinx_AP2sept2009.doc · Web view1ère partie : identité de l’interrogé. 2ième partie : pratique d’un

Avec un risque de 5% : Avec un risque de 1% :

Question 9   : Comparaison de deux fréquences.La proportion de voitures Renault est-elle significativement plus élevée que la proportion de Wolkswagen ?

Dans sphinx : 99 % < 1 - p très significatif95% < 1 – p < 99% significatif80% < 1 – p < 95 % peu significatif1- p < 80 % pas significatif

V) Traitement par strates

Une strate, c’est un sous ensemble de l’échantillon, en fait c’est un groupe d’enquêtés qui répond à une ou plusieurs conditions.Il y a deux façons de faire un tableau (à plat ou croisé) :

- Sur l’échantillon total (tableau non filtré)- Sur une strate (tableau filtré) où ne sont retenus que les enquêtés qui répondent aux conditions.

analyse des données avec Sphinx - 6 - JLVT EMN Le Havre 2009

Page 7: Techniques et méthodologie pour rédiger un …jeanluc.vimbert.free.fr/TP_sphinx_AP2sept2009.doc · Web view1ère partie : identité de l’interrogé. 2ième partie : pratique d’un

Question 10   : Variable 15 : esthétique. (Strate simple, une seule condition)Comparer les réponses à la question suivant que l’on soit un homme ou une femme.On dit que les tableaux sont filtrés.Regrouper ensuite les réponses « plutôt oui » et « satisfait » suivant que l’on soit un homme ou une femme.

Hommes Femmes

En comparant ces deux tableaux et si l’on regroupe les valeurs plutôt oui ou satisfait on obtient un écart très important entre les hommes et les femmes.

Hommes Femmes

Question 11   : Strate multicritères. (strates complexes)Parmi les hommes qui ont une voiture de marque française, quel est le pourcentage de ceux qui utilisent le GPL comme carburant ? (coller la légende sous votre tableau)

analyse des données avec Sphinx - 7 - JLVT EMN Le Havre 2009

Page 8: Techniques et méthodologie pour rédiger un …jeanluc.vimbert.free.fr/TP_sphinx_AP2sept2009.doc · Web view1ère partie : identité de l’interrogé. 2ième partie : pratique d’un

VI METTRE EN RELATION 2 VARIABLESL'analyse bivariée consiste à vérifier une hypothèse ou une intuition sur le lien causal entre 2 variables.Si n est le nombre de variables c'est au total n(n-1)/2 couples qu'il conviendrait d'examiner : 435 si le questionnaire comporte 30 questions.Il faut donc réfléchir sur les variables à mettre en relation. La méthode à utiliser dépend de la nature des variables :

V2 : nominale V2 : numérique

V1 : nominale

Tris croisés(test du Chi2)

Analyser / Tableaux croisés Analyser / Tableaux multiples

Comparaison(test de comparaison de moyennes,

analyse de la variance)

Approfondir / Tableau de moyennes croisées

V1 : numériqueComparaison (idem) Corrélation

(test de corrélation)

Analyser / Corrélation et nuage de points

Si l'une ou les deux variables sélectionnées sont numériques, le tableau des tris croisés est construit à partir des variables mises en classes, ce qui fait perdre de l'information. Il est préférable dans ce cas là d'analyser la relation par l'analyse de la corrélation (si 2 variables numériques) ou de la variance (si 1 variable numérique). On utilise alors toute l'information apportée par une variable numérique.

Un tableau croisé = 2 variables

Une variable indépendante ou explicative (V1) et une variable dépendante ou expliquée (V2).V2 dépend de V1.V2 est expliquée par V1.

Exemples :Variable 1 Variable 2 Commentaires

Age Pratique du sportL’âge explique la pratique du

sportCSP Choix du restaurant La CSP explique le choix du

restaurantSexe Intérêt pour le foot L’intérêt pour le football est

dépendant du sexeSituation familiale Type de voiture Le type de voiture dépend de la

situation familiale

VI.1 - TRIS CROISES : Nominale / Nominaleanalyse des données avec Sphinx - 8 - JLVT EMN Le Havre 2009

Page 9: Techniques et méthodologie pour rédiger un …jeanluc.vimbert.free.fr/TP_sphinx_AP2sept2009.doc · Web view1ère partie : identité de l’interrogé. 2ième partie : pratique d’un

Question 12   : Tris croisés   : Nominale / Nominale a) Y-a-t-il une dépendance entre le choix des marques et la puissance ?Montrer ce que cela donne sur un graphique.

Question 13 : Test du chi-deux, test d’indépendance entre deux variables.Les hommes et les femmes ont-ils les mêmes critères de choix pour l’achat d’unevoiture ?Faire un tableau croisés entre les variables sexe et critères. (supprimer les non réponses)Afficher le tableau des valeurs observées puis le tableau des valeurs théoriques.Conclure quant à l’indépendance des deux variables.

Test du Chi-deux

Résultat du test de chi-deux La relation entre les deux variables est…La dépendance est très significative très forteLa dépendance est significative importanteLa dépendance est peu significative faibleanalyse des données avec Sphinx - 9 - JLVT EMN Le Havre 2009

Page 10: Techniques et méthodologie pour rédiger un …jeanluc.vimbert.free.fr/TP_sphinx_AP2sept2009.doc · Web view1ère partie : identité de l’interrogé. 2ième partie : pratique d’un

La dépendance est non significative pas de relation

Important   : Même si le chi deux est « non significatif », le tri croisé a une valeur informative.Savoir qu’il n’y a pas de relation ou très peu entre les deux variables (par exemple entre l’âge et le type de consommation) constitue une information importante qui doit figurer dans le rapport d’étude.

Déjà vu à la question 9 :

Dans sphinx : 99 % < 1 - p très significatif95% < 1 – p < 99% significatif80% < 1 – p < 95 % peu significatif1- p < 80 % pas significatif

Utilisation des résultats du Chi Deux

1)Les règles du chi deux ne sont pas applicablesExemple de message dans la légende :La dépendance est significative…Attention 41 (36,6%) des cases ont un effectif inférieur à 5, les règles du chi deux ne sont pas réellement applicables..

Utilisation :a) Augmenter les effectifs des cellules en réunissant des lignes ou des colonnes.b) Supprimer des lignes ou des colonnes où les effectifs sont insuffisants.

2) La dépendance est significativea) Transférer le tableau croisé en pourcentages dans le rapport.b) Le commenter.

3) La dépendance n’est pas significativea) Transférer le tableau dans une annexe.b) Dans le rapport, faire un commentaire précisant l’absence de relation entre les deux variables.

Question 14 : Test du chi-deux, test d’indépendance entre deux variables.Y at-il un lien entre le sexe et la marque de la voiture? Faire un tableau croisé entre les variables sexe et les marques identifiées. (Supprimer les non réponses et marque autre)Lisez bien la légende.

analyse des données avec Sphinx - 10 - JLVT EMN Le Havre 2009

Page 11: Techniques et méthodologie pour rédiger un …jeanluc.vimbert.free.fr/TP_sphinx_AP2sept2009.doc · Web view1ère partie : identité de l’interrogé. 2ième partie : pratique d’un

Pour remédier à ce problème regrouper les marques par nationalité : Françaises, Allemandes et autres.

VI.2 - La corrélation entre 2 variables numériques

La recherche d'une relation entre 2 variables numériques x et y peut se faire soit par un graphique soit de manière algébrique en recherchant l'existence d'une relation linéaire : y = ax + b entre ces 2 variables.

Si la forme du nuage est proche de la droite de régression (ou que les valeurs calculées à partir de la droite de régression sont plus ou moins proches des observations réelles), on dira que la corrélation entre les 2 variables est bonne.

Le coefficient de corrélation mesure la qualité de l'ajustement entre les valeurs réelles y et x et le modèle de la relation représenté par y = ax + b.

En référence à une interprétation causale du modèle, y (ou V1) est appelée variable à expliquer et x (ou V2) variable explicative.

Lorsque le coefficient de corrélation linéaire (en valeur absolue) est proche de 1, les points du nuage sont groupés et alignés.Plus on s’approche de 1 plus la dépendance est forte.

Le logiciel Sphinx annonce que la dépendance est significative dès que > 0,5.

analyse des données avec Sphinx - 11 - JLVT EMN Le Havre 2009

Page 12: Techniques et méthodologie pour rédiger un …jeanluc.vimbert.free.fr/TP_sphinx_AP2sept2009.doc · Web view1ère partie : identité de l’interrogé. 2ième partie : pratique d’un

Cov (X ; Y) = = − ( )

avec n = , effectif total de la population et ni, l’effectif associé à la valeur (xi ; yi).

On appelle coefficient de corrélation linéaire des séries X et Y le nombre réel r tel que :

r = avec −1 r 1.

Question 15   : Corrélation entre deux variables numériques.Y-a-t-il une corrélation entre la note et l’âge de la voiture ?Faire la régression : Analyser / Corrélation et nuages de points / Choix V1 et V2Ensuite, regroupez les points sur des grilles (par proximité).

analyse des données avec Sphinx - 12 - JLVT EMN Le Havre 2009

Page 13: Techniques et méthodologie pour rédiger un …jeanluc.vimbert.free.fr/TP_sphinx_AP2sept2009.doc · Web view1ère partie : identité de l’interrogé. 2ième partie : pratique d’un

Question 16   : Corrélation entre deux variables numériques.Y-a-t-il une corrélation entre le confort et l’âge de la voiture ?Ensuite, regroupez les points sur des grilles (par proximité).

analyse des données avec Sphinx - 13 - JLVT EMN Le Havre 2009

Page 14: Techniques et méthodologie pour rédiger un …jeanluc.vimbert.free.fr/TP_sphinx_AP2sept2009.doc · Web view1ère partie : identité de l’interrogé. 2ième partie : pratique d’un

Question 17   : Corrélation entre deux variables numériques.Y-a-t-il une corrélation entre le kilométrage et la dépense ?Présentez un graphique de corrélation entre dépense et kilométrage en faisant varier La couleur des points selon le sexe des individus.Ensuite, regroupez les points sur des grilles (par proximité).

VI.3 Comparaison variable nominale-variable numérique : tableau de valeurs moyennes

Test de comparaison de moyennesanalyse des données avec Sphinx - 14 - JLVT EMN Le Havre 2009

Page 15: Techniques et méthodologie pour rédiger un …jeanluc.vimbert.free.fr/TP_sphinx_AP2sept2009.doc · Web view1ère partie : identité de l’interrogé. 2ième partie : pratique d’un

Ce test consiste à identifier les moyennes significativement différentes de la moyenne sur l'ensemble de l'échantillon. Pour cela, cliquer dans Tests et activer Comparaison de moyennes (par défaut au risque de 5%). Les cellules encadrées signalent une moyenne significativement différente de la moyenne sur l'ensemble de l'échantillon.

Question 18   : Comparaison variable nominale- variable numérique.Analyser/ Tableau de moyenne… Le kilométrage moyen des individus possédant une Toyota est-il très différent desautres individus ?

Question 19   : Comparaison variable nominale- variable numérique.Analyser/ Tableau de moyenne… Quelles sont les marques qui ont une note particulièrement élevée ?

Analyse de la variance   (test de Fisher) : Son but est d'établir si, au regard des valeurs de la variable numérique, les groupes d'individus correspondant aux modalités de la variable nominale sont significativement différents les uns des autres. Elle met en oeuvre les principes suivants :

analyse des données avec Sphinx - 15 - JLVT EMN Le Havre 2009

Page 16: Techniques et méthodologie pour rédiger un …jeanluc.vimbert.free.fr/TP_sphinx_AP2sept2009.doc · Web view1ère partie : identité de l’interrogé. 2ième partie : pratique d’un

- pour chaque modalité de la variable nominale, la moyenne de la variable numérique dissimule une dispersion autour de cette moyenne. La variance (le carré de l'écart-type) mesure cette dispersion appelée variance intra-modalité;

- d'une modalité à l'autre, la moyenne varie et révèle une hétérogénéité plus ou moins grande mesurée par un autre calcul de variance : variance inter-modalités.Le test d'analyse de la variance porte sur le rapport entre les variances inter-modalités et intra-modalité. Il a pour but de vérifier si l'hétérogénéité entre modalités est plus grande que l'hétérogénéité à l'intérieur des modalités. Si ce rapport est suffisamment élevé, on dit que la variable numérique discrimine entre les modalités de la variable nominale. Dans ce cas, le nom de la variable numérique est encadré de bleu.

Pour résumé :A partir de l’analyse de la variance le test de Fisher nous indique si la relation entre les deux variables est significative.Le Test de Fisher est significatif si la probabilité de rejet p est inférieure à 5%.

Dans l’exemple ci-dessus on peut donc conclure qu’il n’y a pas de relation entre le kilométrage et la marque.

Question 20   : Comparaison variable nominale- variable numérique.Y a-t-il un lien entre le sexe et la réponse à la question concernant la vitesse ?Analyser/ Tableau de moyenne…puis effectuer une analyse de la variance.

analyse des données avec Sphinx - 16 - JLVT EMN Le Havre 2009

Page 17: Techniques et méthodologie pour rédiger un …jeanluc.vimbert.free.fr/TP_sphinx_AP2sept2009.doc · Web view1ère partie : identité de l’interrogé. 2ième partie : pratique d’un

Question 21   : Comparaison variable nominale- variable numérique.Y a-t-il un lien entre le sexe et les réponses concernant la vitesse, le confort, l’espace et l’esthétique.Analyser/ Tableau de moyenne…puis effectuer une analyse de la variance.

analyse des données avec Sphinx - 17 - JLVT EMN Le Havre 2009

Page 18: Techniques et méthodologie pour rédiger un …jeanluc.vimbert.free.fr/TP_sphinx_AP2sept2009.doc · Web view1ère partie : identité de l’interrogé. 2ième partie : pratique d’un

analyse des données avec Sphinx - 18 - JLVT EMN Le Havre 2009