1 Évaluation des logiciels interactifs (2) M2-EIAH/DU-TICE, Paris 6 [email protected] .

1

Évaluation des logiciels interactifs (2)

M2-EIAH/DU-TICE, Paris [email protected]

http://www.lutes.upmc.fr/delozanne/2008-2009/M2-P6-EIAH-Accueil.htm

Méthodes impliquant les utilisateurs

Cours 3 (partie 2)

mailto:[email protected]

2

Évaluation

Cours 3.1 : Évaluer ? Méthodes d’inspection

Critères d’évaluation heuristique, scénariosCours 3.2 Tests avec utilisateurs

Les méthodes Recueil de données

Quelles méthodes choisir ?

3

(Rappel) cours 3.1 :

Méthodes d’évaluation sans utilisateurs Indispensables en cours de conception évaluer les

maquettes et prototypes Rapides, pas chères et efficaces Fondées sur des scénarios ou sur des heuristiques Permettent d’éliminer les erreurs de conception de

type « amateur »Méthodes d’évaluation avec utilisateurs Indispensables pour les problèmes liés au domaine, à

l’activité, aux usages

4

Méthodes d’évaluation

Tests d’utilisabilité (Usability Testing) Des utilisateurs accomplissent une

tâche avec un système (ou un prototype, une maquette)

Méthodes d’inspection Des gens expriment une opinion

5

Tests d’utilisabilité Qu’est-ce que c’est ?

Monter des expérimentations pour obtenir des informations sur un problème de conception

Quand en faire ? Tout au long du cycle de conception

Comment en faire ? A l’origine, des méthodes de psychologie expérimentale

avec des protocoles et des analyses statistiques rigoureuses Maintenant des techniques plus « légères »

• N’apportent pas de certitudes scientifiques• Apportent des informations qualitatives ou quantitatives

indispensables à la conception Principe simple :

• Trouver des utilisateurs • Étudier comment ils utilisent le produit et recueillir des

données• Analyser les données et en dégager des décisions

Où trouver des informations complémentaires ?

6

Les différentes méthodes

Expérimentations contrôlées Réf : http://wiki.lri.fr:8000/fondihm/cours.wiki?

cmd=get&anchor=cours Quasi-expérience Étude de cas Études de terrain (ergonomiques, ethnographiques)

Évaluation coopérative (Giboin) http://www-sop.inria.fr/acacia/ESSI/ESSI-Eval-Coo.p

pt

http://www-sop.inria.fr/acacia/ESSI/ESSI-Eval-Coo.ppt


7

Expériences contrôlées Discipline : psychologie expérimentale But :

tester une hypothèse ou étudier des corrélations produire une connaissance scientifique

Conception : Spécifier l'hypothèse : qu'est-ce qu'on étudie ? Spécifier les variables indépendantes : qu'est-ce qui varie ? Opérationnaliser le comportement

• comment on va étudier ces variations ? Spécifier les variables dépendantes

• qu'est-ce qu'on mesure ? Spécifier les procédures

• répartition des groupes • rôle de l'expérimentateur etc.

Identifier les tests statistiques appropriés• Y a-t-il une différence ?

8

Exemple (1) Mireille Bétrancourt, Effet de trois modalités d'intégration texte figure

dans les systèmes multi-média, IHM'94, Lille, France, 8-9 Décembre 1994, p. 219-224

Spécifier l'hypothèse qu'est-ce qu'on étudie ? le format de présentation des informations a une influence sur

l'apprentissage Spécifier les variables indépendantes

qu'est-ce qui varie ? trois formats de présentation du matériel d'apprentissage

• texte et figure séparés• présentation intégrée (texte et figure côte à côte)• texte en escamot (pop-up), bulles d'informations

Opérationnaliser le comportement Comment étudier cela ? une tâche de mémorisation et une tâche de résolution de problème

9

Exemple (2) Spécifier les variables dépendantes

qu'est-ce qu'on mesure ? temps d'apprentissage et mémorisation (nombre de

termes correctement replacés sur le graphique) Spécifier les procédures

répartition des groupes expérimentaux/ de contrôle rôle de l'expérimentateur etc. ex(résumé). : Test individuel pour 24 étudiants répartis

aléatoirement en 3 groupes ; consigne : étudier le graphique et le commentaire; tâche : on présente le graphique et il faut donner le commentaire)

Identifier les tests statistiques appropriés ex. : la différence entre le groupe escamot et le groupe

conventionnel est significative (f = 2, 94 et p = .028)

10

Quelques problèmes Méthodologie

de comparaison entre groupe expérimental et groupe témoin exposer les sujets à toutes les valeurs de la variable indépendante

Problèmes de fiabilité contrôle de l'affectation aléatoire dans les groupes, des conditions

d'expérimentation reproductibilité de l'expérience, différences individuelles ? utiliser un nombre "raisonnable" de sujets utiliser des statistiques appropriées et déterminer le degré de

confiance p Problèmes de validité

et en dehors du laboratoire ? utilisateurs représentatifs ? cobayes professionnels ? contexte social est-il indifférent ? tâches typiques ? environnement matériel indifférent ?

11

Expériences contrôlées Manipuler des variables indépendantes Observer les effets sur les variables dépendantes Tirer des conclusions à partir de tests statistiques significatifs Réalisées en labo

permettent un plus grand contrôle des variables ne peuvent pas être généralisées à des situations réelles

Utilisées par des spécialistes (psychologues, ergonomes) explorer une nouvelle technique d'interaction choisir entre des alternatives de conception évaluation d'un système comparer deux systèmes comparer des techniques d'évaluation !

Laboratoire d’utilisabilité lourds portables

12

Quasi-expériences But : Cf. expérimentation contrôlée mais en situation

réelle Problème : on ne contrôle pas tous les facteurs Solution :

Rendre explicites les menaces d'invalidité, identifier les sources potentielles d’interprétation erronée

Trianguler, trianguler, trianguler : faire varier • le dispositif expérimental• les méthodes

- expériences- études de cas- interviews

• recouper les informations

13

Études de cas pas du tout étude statistique compréhension profonde d'un sujet, d’une activité difficile à mener

généralement un expérimentateur pose des questions

enregistrement vidéo plusieurs personnes étudient et discutent

l'enregistrement aide

à émettre des hypothèses à expliciter des modèles à comprendre des difficultés, des fonctionnements,

une situation à repérer des régularités, des invariants

14

Études de terrain

Les observations de terrains sont souvent la meilleure façon d’anticiper les besoins de s’assurer de l’utilisabilité d’un produit

Pour un prototype assez avancé, il s’agit de le tester dans l’environnement de travail habituel des utilisateurs

Mises en œuvre par des professionnels (e.g. ergonomes, ethnologues)

15

Evaluation coopérative (Giboin) Méthode conçue par des spécialistes pour être mise

en oeuvre par des informaticiens Objectif : détecter des problèmes potentiels pour

améliorer la conception Étapes

1. Recruter des utilisateurs2. Préparer l’évaluation3. Réaliser l’évaluation : interagir avec les

utilisateurs4. Analyser les résultats de l’évaluation5. Tirer les conséquences de l’évaluation6. Rédiger le compte rendu de l’évaluation

16

Recruter des utilisateurs

Dimensions des utilisateurs Statut, niveau d’expérience, préférence

Typologie des utilisateurs Occasionnel, intensif, répété

Nombre d’utilisateurs Entre 1 et 5 à chaque itération

Recrutement Annonces, financement, autorisations

17

Préparation de l’évaluation

Définir les tâches :1. Représentatives des tâches réelles2. Permettre une exploration minutieuse de l’interface

Préparer une feuille de tâches à effectuer par l’utilisateur Donnée à l’utilisateur au début de la séance Tâches précises

• Contre Ex : Faites ce que vous faites normalement

• Ex : Inscrivez-vous en ligne au Master Tâches réalisables avec le prototype

Préparez une grille d’observation avec les points que vous voulez observer

18

Conseils Énoncer clairement les tâches Evaluer le temps nécessaire,

Décider d'un temps maximum pour chaque tâche Ajouter des tâches supplémentaires

plus simples pour les utilisateurs n'ayant pas terminé

Autres tâches pour les utilisateurs ayant terminé plus rapidement que prévu

Préparer des questions Tester la prise en main puis tester une nouvelle fois en

fin de séance Distinguer : découverte et utilisation Double examen des tâches importantes

• En début et en fin de séance

19

À Vérifier

Les tâches choisies sont-elles réalisables à l'aide du prototype ?

Les tâches vont-elles amener l'utilisateur à se centrer sur les parties de l'interface auxquelles vous vous intéressez ?

Combien de temps avez-vous alloué pour chaque utilisateur ?

À combien estimez-vous le temps nécessaire à chaque utilisateur pour réaliser les tâches ?

Le temps imparti dépasse-t-il d'au moins 50 % le temps nécessaire pour réaliser les tâches ?

L'énoncé des tâches est-il suffisamment clair pour un utilisateur novice ?

20

Avant l’évaluation Vérifiez que tout est en place

Le prototype est-il prêt ? L’environnement est-il tranquille ? Le matériel est-il prêt pour enregistrer ce que dit

l’utilisateur ? Ce qu’il fait ? Vérifiez le fonctionnement

Chronomètre ? Une feuille préformatée est-elle prête pour prendre

des notes ? Liste des questions à poser ? Phrase pour accueillir l’utilisateur ? Avez-vous testé vous-même la feuille de tâches pour

la vérifier ?

21

Déroulement (1) Introduction (5 min)

Pourquoi évaluer, pourquoi vous, quelle suite Présentation du déroulement de l’évaluation (3 min)

Donner la feuille de tâches, lui demander de commenter à voix haute ses actions

Scénario de tâches pour l’exploration de l’activité (60 min maxi)

Questionnaire d’identification du testeur (2 min) Distinguer : familiarisation et réalisation des tâches Observations et prise de notes sur les commentaires, le

comportement, les réactions, l’interaction On peut aussi chronométrer ou compter (des erreurs,

des clics…) ou filmer Aider l’utilisateur s’il pose une question

22

Déroulement (2)

Debriefing (10 min) Fonctionnalité non couvertes, points positifs et

négatifs Conclusion (10 min)

Points forts, points faibles, ce qu’il faut impérativement garder/changer

Listes des difficultés et propositions de solutions Questions spécifiques Remercier

Temps maxi : 1 h 30 utilisateur

23

Conseils

Conduite de la séance : mode informel (discussion libre)

Evitez les feuilles de consignes Si possible 2 observateurs :

Une conduit l’entretien l’autre prend des notes et s’occupe de la

technique Statut des utilisateurs :

évaluateurs et non sujets d’expérience Ce n’est pas le participant qui est évalué mais le

système

24

À l’arrivée des utilisateurs Mettez les participants en confiance

Présentez vous et énoncez vos objectifs• Regarder en quoi le système leur facilite ou leur

complique la tâche, peut les induire en erreur• Et non relever leurs erreurs

Garantissez l’anonymat et la sécurité Décrivez les équipements et la façon dont vous allez

étudier et utiliser les données recueillies Précisez au participant qu’il peut à tout moment arrêter

l’observation Présentez clairement ce que le participant doit faire

(penser à haute voix, chercher de l’aide etc., la tâche ou le scénario)

Demander s’il y a des questions préalables Démarrer l’enregistrement (autorisation)

25

Pendant l’exécution des tâches

Votre attitude Laisser parler les utilisateurs Être attentif à ce qui se passe Encourager les utilisateurs à parler à voix haute

pendant qu'ils utilisent le système Demander aux utilisateurs de commenter en

direct– ce qu'ils font et – ce qu'ils vont faire

Poser des questions

26

Exemples de questions

Comment faîtes ça ? Que voulez-vous faire ? Qu'arrivera-t-il si... ? Que vient de faire le système ? Que veut vous dire le système avec ce message ? Pourquoi le système a-t-il fait cela ? À quoi vous attendiez-vous ? Qu'êtes-vous en train de faire maintenant ?

27

Points à observer Comportement inattendu

Ex: L'utilisateur tape une série imprévue de commandes

Commentaires Ex : • "C'est chouette de pouvoir faire ça sans avoir à

retaper tout." • « Enocre, faut que je retape tout..."

Soupirs, sourires, impatience etc. Mesurer

Le temps, les clics, le nombre d’étapes, le nombre d’erreurs

Attention Objectif prioritaire : créer un dialogue avec

l'utilisateur Arrêter la prise de notes si elle gêne le dialogue

28

Debriefing Principe : discussion avec l’utilisateur Sur le prototype

Points forts, points faibles, points à améliorer impérativement

Facilité d’exécution des tâches, de compréhension des libellés

Suggestions Spécifiques au prototype : menus, valeurs par

défaut etc. Sur l’évaluation coopérative

L'enregistrement vous a-t-il gêné ? Est-ce que les tâches étaient semblables à ce

que vous avez l'habitude de faire ? Avez-vous trouvé le prototype réaliste ?

29

Debriefing (2)

Immédiatement après la séance Echanger avec le co-évaluateur Prendre des notes sur les impressions gnérales,

les incidents etc. Conseil : très important on oublie très vite

Revoir les utilisateurs une deuxième fois Pour vérifier les interprètations Étudier les changements possibles

30

Analyser les résultats

Classez les résultats Objets d’interface, navigation, conception générale

Faites ressortir les points positifs et les points négatifs Tirez les conséquences des évaluations

Modifications à apporter Module d’aide

Rédiger un rapport Présenter l’état du système avant Présenter l’évaluation (les utilisateurs, les tâches,

les données recueillies et leur analyse, les résultats ) Présenter les améliorations à apporter (et une

nouvelle maquette)

31

Évaluation

Cours 3.1 : Évaluer ? Méthodes d’inspection

Critères d’évaluation heuristique, scénariosCours 3.2 Tests avec utilisateurs

Les méthodes Recueil de données

Quelles méthodes choisir ?

32

Observation directe observer et enregistrer les utilisateurs se servant du système

en laboratoire ou sur le terrain conseil :

soignez les détails utilisation

pour détecter les gros problèmes, tests d'utilisabilité très utilisée en cours de conception méthode intrusive, complément d'une autre méthode adaptable au budget

• Cahier, chronomètre et qualités d’observation• Laboratoires d’utilisabilité

Compléments Entretien d'explicitation, d'auto-confrontation, d'auto-

confrontation croisée

33

Laboratoires d’utilisabilitéExemple : EVALAB, université de Lille Un laboratoire fixe

faculté de médecine de Lille (Pôle Recherche), équipé de glaces sans tain

• observations d'un système d'enregistrement audio-vidéo

• garder la trace des comportements et verbalisations Des laboratoires portatifs

effectuer les mêmes types d'enregistrements sur site Comportent

• Un convertisseur transformant le signal de l'écran en format vidéo

• Un microphone • Un magnétoscope numérique enregistrant l'audio et la

vidéo• Un écran de contrôle

Autres : ordinateurs portables, chronomètres, suivi du mouvement des yeux

34

Laboratoire fixe : plan

35

Laboratoire fixe

36

Procédure d’observation Décider ce que l'on veut observer/ mesurer

Objectif général : • facilité d’apprentissage

Objectifs opérationnels (si possible mesurables)• combien d’utilisateurs savent réaliser la tâche sans erreurs

et sans aide au bout de 20 min Définir une mission spécifique

exécuter une tâche, résoudre un problème, dérouler un scénario Utiliser au moins 2 observateurs (pour confronter) Fournir des instructions

pour les observateurs, pour les utilisateurs Choisir le cadre du test

Labo, terrain (attention aux pb de matériel écran, DD, mémoire) Demander aux utilisateurs d'effectuer des tâches

Recueillir les observables Coder les observations

Définir des catégories, évènements sont discrets ou continus Analyser les résultats

37

Recueil de données (1)

Fiches remplies par les observateurs pas cher, peu de détails, incomplet

Protocoles verbaux penser à haute voix (biais), travail avec un pair pour saisir les plans des utilisateurs, leurs

difficultés, leurs réactions coûteux en temps, nécessite des grilles d'analyse

difficiles à mettre au point études de cas

38

Recueil de données (2)

protocoles vidéo permet d'intercepter des événements passés inaperçus encore plus longs et coûteux à dépouiller et à analyser : très

coûteux études de cas et fonction de communication à l'intérieur de

l'équipe de conception et à l'extérieur mouchard électronique

mémorise des événements datés générés par l'utilisateur Permet l’analyse automatique, permet des calculs, de rejouer

une session pour l'analyser pas cher et non intrusif (normalement) pas toujours bien

accepté ne permettent pas d'inférer les modalités d'utilisation recueil d'un très grand nombre d'informations mais le

problème est de leur donner une signification

39

Magicien d'Oz utile dans les phases initiales principe :

un compère humain supplée les déficiences du prototype et simule le futur système

intelligence naturelle pas artificielle le "Magicien" interprète les entrées de l'utilisateur

et contrôle le comportement du système l'utilisateur a la sensation d'utiliser un "vrai"

système les sessions sont enregistrées

utilisé par exemple pour recueillir des expertises pour recueillir des corpus Ex : Duplàa Emmanuel, Visser Willemien, « e-Ti »,

expérimentale, Actes IHM’2002

40

Entretiens

utilisés pour les enquêtes d'opinion (coûteux en temps) pour le recueil d'expertise pour l'analyse de besoins et l'étude ergonomique préalable

peuvent être structurés

• mêmes questions et mêmes formats pour tout le monde• + facile à mener, + facile de comparer

ouverts • permettent de saisir des réactions spontanées• permettent de saisir la façon de faire de l'utilisateur

technique de l'incident critique Cf. le cours N°2 et le polycopié de W. Mackay

41

Questionnaires Intérêts

peu coûteux, rapides à mettre en œuvre et à dépouiller utilisés pour les enquêtes d'opinions, pour avoir un résumé

utile des avis de nombreux utilisateurs délicats à mettre en œuvre

réponses stéréotypées, questions biaisées (termes, subjectivité, formulation trop restrictive, trop floue)

effet du mode d'administration (papier-crayon, en-ligne, téléphone, entretien)

questions fermées

+Faciles à analyser, faire comparaisons, des classes, grand nombre de questionnaires

– Dictent les réponses ouvertes

+comprendre les réponses fermées, donnent des idées– difficiles à dépouiller

42

Préparer une enquête4 phases : Définition des objectifs, du public et des moyens

Que cherche-t’on à connaître ?• Évitez les enquêtes fourre-tout

Choisir la population cible et sa taille (prévoir des refus) Modes d’administration

• Courrier, web- Moins de 20 % de réponses

• Entretiens, téléphone- Plus cher

Durée, modes de récupération, moyens matériels et humains Élaboration et administration Traitement des réponses Rédaction d’un rapport d’enquête

43

Concevoir les questions penser au dépouillement numéroter les questions adopter des structures parallèles pour les questions ordre des réponses à choix multiple cohérent (positif vers négatif) distinguer une réponse moyenne (bof) d'une abstention (je ne sais pas) inciter les sondés à prendre partie

en évitant les réponses moyennes en citant des points positifs et négatifs

degré de confiance dans la réponse contrôle de cohérence éviter les questions aux réponses prévisibles se faire assister par quelqu'un de compétent et/ou copier des

questionnaires existants http://www.dsi.cnrs.fr/bureau_qualite/ergonomie http://www.lap.umd.edu/lap/

tenir compte des caractéristiques des utilisateurs (age etc.) Aux USA réponses quantifiées (1 à 10) en France elles sont plutôt

qualifiées (mauvais, bon très bon etc.)

http://www.dsi.cnrs.fr/bureau_qualite/ergonomie

44

Biais dans les questionnaires

Prestige Se faire mal juger

Défense par rapport à des questions personnelles Réponse suggérées par la formulation de la question Attraction des réponses positives

Proposer des échelles Peur de certains mots Méfiance par rapport aux sondages Effet de la longueur ou de la complexité du

questionnaire

45

Analyse des données analyses quantitatives

méthodes statistiques nécessitent une formation

analyses qualitatives interprétations :

• se font à l'intérieur d'un cadre de travail théorique• nécessitent aussi une formation (socio-psycho)

critiquer vos interprétations, chercher des interprétations alternatives

« Trianguler » confronter les données obtenues avec plusieurs dispositifs confronter vos analyses avec des travaux antérieurs ou

voisins

46

Évaluations avec utilisateurs (1)

47

Évaluations avec utilisateurs Bilan 2 À tous les prix pour s'adapter au budget

tests exploratoires • Fixer vous des objectifs précis et quantifiables

évaluations expérimentales• faire appel à des spécialistes• mise au point de protocoles expérimentaux rigoureux• les objectifs, les hypothèses et les variables sont clairement

identifiées : analyse a priori• les mesures ne sont pas biaisées• analyses relevant de l'étude de cas ou de l'étude statistique

sont menées de façon fiable soignez les détails de mises de mise en place attention en particulier

aux interprétations inévitables : chercher et discuter les interprétations alternatives

aux généralisations

48

Critères de choix d’une méthode Temps, budget, moments, compétences Triangulez Méthodes légères

Interviews Inspection heuristique, scénarios (+ expert du

domaine) Évaluations coopératives

• Recommandées pour les informaticiens Projet à risque : méthodes rigoureuses

Faire appel à des spécialistes : ergonomes, sociologues, voir ethnologues

49

Quelle méthode choisir ?

Utiliser plusieurs méthodes pour croiser les résultats et les interprétations

Dépend des objectifs de l’évaluation, du budget, du temps

Analyse de l’existant Méthodes d’inspection Évaluation coopérative Enquêtes, études de terrain

En cours de conception Méthodes d’inspection Évaluation coopérative Expérimentations contrôlées (alternative de

conception)

50

En résumé

Méthodes d’évaluation sans utilisateurs Indispensables en cours de conception évaluer les

maquettes et prototypes Rapides, pas chères et efficaces Permettent d’éliminer les erreurs de conception de

type « amateur »Méthodes d’évaluation avec utilisateurs Indispensables pour les problèmes liés au domaine, à

l’activité, aux usages Évaluation coopérative : méthode pour informaticien

51

Évaluation et cycle de développement

un état d'espritprocessus qui débute dès la spécification du logiciel

dès le début • se préoccuper des utilisateurs, de leurs

activités• construire des maquettes et des prototypes

- les critiquer- les faire critiquer

• mener des tests exploratoires informels

plus le cycle de développement avance plus les tests doivent être rigoureux

52

Évaluation et conception tenir compte des guides, principes, critères

ergonomiques, des standards, des normes (ISO, AFNOR), des Design Patterns

cumuler et confronter les diverses données : croiser les mesures, les avis, les méthodes et les

points de vue créer des relations de confiance avec les utilisateurs

et des mécanismes de retours d'informations des utilisateurs vers les concepteurs

adapter les méthodes d'évaluation aux moyens et contraintes de votre projet mais attention aux économies coûteuses

53

L'évaluation au cœur de la conception

54

Une autre représentation…

55

Ref. « pratiques » Running usability evaluation (Landy & Van Duyne)

http://guir.berkeley.edu/courses/cs160/2002_spring/readings_files/vldh_end_appdxa-d_1220-uncopyedited.pdf

Brangier E., Barcenilla J., Concevoir un produit facile à utiliser : Adapter les technologies à l’homme, Editions d’organisation, 2003. (ch 5)

cours et des TP sur la conception participative de Wendy Mackay à la conférence IHM’2002, Poitiers, Novembre 2002

Cours Alain Giboin http://www-sop.inria.fr/acacia/ESSI/ESSI-Eval-Coo.ppt

Cours Beaudoin-Lafon http://wiki.lri.fr:8000/fondihm/cours.wiki?cmd=get&a

nchor=cours Cours Wendy Mackay

http://www-ihm.lri.fr/~mackay/ Corinne Ratier (CNRS)

http://www.dsi.cnrs.fr/bureau_qualite/ergonomie Cours d’ergonomie en ligne

http://www.univ-pau.fr/~lompre


http://wiki.lri.fr:8000/fondihm/cours.wiki?cmd=get&anchor=cours

http://wiki.lri.fr:8000/fondihm/cours.wiki?cmd=get&anchor=cours

http://www.dsi.cnrs.fr/bureau_qualite/ergonomie

http://www.univ-pau.fr/~lompre

56

Take Home Messages

L’évaluation au cœur de la conception Pensez aux critères d’évaluation du logiciel dès la

phase de spécification Même sur des petits projets, organisez très tôt des

tests informels avec des utilisateurs finaux Mieux vaut des tests informels que pas de tests du

tout Triangulez, croisez méthodes et résultats Évaluation coopérative

Ne vous contentez pas des opinions Observez des gens qui accomplissent des actions

1 Évaluation des logiciels interactifs (2) M2-EIAH/DU-TICE, Paris 6 [email protected] .

Documents

Transcript of 1 Évaluation des logiciels interactifs (2) M2-EIAH/DU-TICE, Paris 6 [email protected] .