Présentation Multimodale de l'Information

90
Mémoire présenté par Yacine BELLIK en vue de l'obtention de l'habilitation à diriger des recherches de l'Université d'Orsay Paris-Sud Discipline : INFORMATIQUE Présentation Multimodale de l'Information Date de soutenance : 14 Décembre 2006 devant le jury constitué de : M. BEAUDOUIN-LAFON Michel, Professeur, LRI, Université Paris XI, Orsay Mme. COUTAZ Joëlle, Professeur, CLIPS-IMAG, Université Joseph Fourier, Grenoble (Rapporteur) M. MARIANI Joseph, Directeur de Recherches, LIMSI-CNRS, Orsay Mme. NIGAY Laurence, Professeur, CLIPS-IMAG, Université Joseph Fourier, Grenoble M. PALANQUE Philippe, Professeur, IRIT, Université Paul Sabatier, Toulouse (Rapporteur) M. VANDERDONCKT Jean, Professeur, BCHI, Université Catholique de Louvain, Belgique (Rapporteur) Habilitation préparée au sein du Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur (LIMSI-CNRS)

Transcript of Présentation Multimodale de l'Information

Page 1: Présentation Multimodale de l'Information

Mémoire

présenté par

Yacine BELLIK

en vue de l'obtention de l'habilitation à diriger des recherches de l'Université d'Orsay Paris-Sud

Discipline : INFORMATIQUE

Présentation Multimodale de l'Information

Date de soutenance : 14 Décembre 2006

devant le jury constitué de : M. BEAUDOUIN-LAFON Michel, Professeur, LRI, Université Paris XI, Orsay Mme. COUTAZ Joëlle, Professeur, CLIPS-IMAG, Université Joseph Fourier, Grenoble (Rapporteur) M. MARIANI Joseph, Directeur de Recherches, LIMSI-CNRS, Orsay Mme. NIGAY Laurence, Professeur, CLIPS-IMAG, Université Joseph Fourier, Grenoble M. PALANQUE Philippe, Professeur, IRIT, Université Paul Sabatier, Toulouse (Rapporteur) M. VANDERDONCKT Jean, Professeur, BCHI, Université Catholique de Louvain, Belgique (Rapporteur)

Habilitation préparée au sein du Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur (LIMSI-CNRS)

Page 2: Présentation Multimodale de l'Information

2

Page 3: Présentation Multimodale de l'Information

3

Il y a une chose plus belle que les plus belles découvertes,

c'est la connaissance de la manière dont l'esprit humain les réalise

Leibniz

Page 4: Présentation Multimodale de l'Information

4

Page 5: Présentation Multimodale de l'Information

5

Remerciements

Mes remerciements vont à toutes les personnes qui, de près ou de loin, directement ou indirectement, ont contribué à l'aboutissement de ce travail.

Les citer toutes nommément ici serait une entreprise risquée car j'en oublierais sûrement. Qu'elles trouvent ici l'expression de ma profonde gratitude.

Page 6: Présentation Multimodale de l'Information

6

Page 7: Présentation Multimodale de l'Information

7

Résumé Nos travaux prennent place dans le domaine de l'interaction Homme-Machine et plus particulièrement dans celui de l'interaction multimodale. Ils concernent l'analyse, la conception, le développement et l'évaluation de systèmes interactifs disposant de différents moyens d'interaction et sortant du cadre classique des interfaces graphiques. Dans ce contexte, nous nous intéressons plus spécifiquement à la présentation multimodale de l'information. Les récentes évolutions technologiques et sociales (avènement de la société de l'information, mobilité des utilisateurs en situation d'interaction, apparition de l'informatique ambiante,…) créent de nouveaux besoins en termes d'interaction. La diversité des utilisateurs, des systèmes et des environnements fait qu'il n'est plus possible de continuer à proposer des interfaces au comportement prédéfini et figé. Face à ce problème nous adoptons une approche qui consiste à intégrer dans le système interactif des mécanismes d'adaptation qui vont lui permettre de modifier dynamiquement son comportement pour être en adéquation avec un contexte d'interaction en perpétuelle évolution. Nous envisageons l'adaptation sous l'angle de la multimodalité. La diversité des interactions qu'offrent les interfaces multimodales, leur flexibilité et leur caractère intuitif et naturel, les rendent aptes à cibler différentes catégories d'utilisateurs. Ces propriétés leur confèrent d'importantes capacités à s'accommoder des fréquentes modifications que peut subir l'environnement physique de l'interaction et à exploiter de façon optimale les ressources physiques des systèmes qui les accueillent. C'est pourquoi nous pensons que la multimodalité est particulièrement intéressante à exploiter dans le cadre d'un contexte sujet à de fréquentes évolutions. Nous cherchons dans nos travaux à élaborer des modèles et outils logiciels qui permettent d'exploiter de façon "intelligente" toutes les modalités dont peut disposer le système à un instant donné, pour communiquer une information à l'utilisateur. Nous déclinons nos travaux selon trois axes : la présentation contextuelle de l'information, la présentation opportuniste de l'information dans l'ambiant et enfin la présentation non visuelle de l'information. Mots-clefs Interaction Homme-Machine, Interaction Multimodale, Mobilité, Intelligence Ambiante, Interaction Non Visuelle, Interfaces pour Non-voyants, Adaptation, Architectures Logicielles, Systèmes Interactifs.

Page 8: Présentation Multimodale de l'Information

8

Page 9: Présentation Multimodale de l'Information

9

Table des matières

1 Introduction .................................................................................................................. 15 1.1 Motivations........................................................................................................... 16 1.2 Position de nos travaux ........................................................................................ 23

2 Présentation contextuelle de l'information ................................................................... 29 2.1 Axe de recherche.................................................................................................. 29 2.2 Contribution à cet axe de recherche ..................................................................... 30

3 Présentation opportuniste de l'information................................................................... 43 3.1 Axe de recherche.................................................................................................. 43 3.2 Contribution à cet axe de recherche ..................................................................... 45

4 Présentation non visuelle de l'information ................................................................... 59 4.1 Axe de recherche.................................................................................................. 59 4.2 Contribution à cet axe de recherche ..................................................................... 63

5 Conclusion et Perspectives........................................................................................... 69 5.1 Extensions du modèle WWHT............................................................................. 70 5.2 Extensions du modèle KUP.................................................................................. 71 5.3 Influence des entrées sur les sorties ..................................................................... 72 5.4 Aide au déplacement : vers le bâtiment "intelligent" ........................................... 74 5.5 Convergence physico-numérique : un défi multidisciplinaire majeur ................. 75

6 Références .................................................................................................................... 77

Page 10: Présentation Multimodale de l'Information

10

Page 11: Présentation Multimodale de l'Information

11

Préambule Ce mémoire résume les travaux que j'ai effectués au LIMSI (Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur) au sein du groupe Interaction et Multi-Modalités de 1997 à 2001, puis dans le groupe AMI (Architecture et Modèles pour l'Interaction) depuis 2001. Ces travaux ont été menés dans le cadre de différents projets de recherche, en collaboration avec des collègues d'autres laboratoires de l'Université Paris Sud (Laboratoire Aimé Cotton, SUPELEC), d'universités françaises (CLIPS-IMAG, LIIHS-IRIT), d'universités étrangères (Ecole de Technologie Supérieure de l'Université de Montréal) ainsi qu'avec des industriels (Thales-Avionics, Technibraille). Ces travaux n'auraient pas pu aboutir sans l'aide des étudiants en thèse et en stage que j'ai encadrés ou que je continue à encadrer.

Page 12: Présentation Multimodale de l'Information

12

Page 13: Présentation Multimodale de l'Information

13

Chapitre 1

Introduction

Page 14: Présentation Multimodale de l'Information

14

Page 15: Présentation Multimodale de l'Information

15

1 Introduction

Nos travaux prennent place dans le domaine de l'interaction Homme-Machine et plus particulièrement dans celui de l'interaction multimodale. Ils concernent l'analyse, la conception, le développement et l'évaluation de systèmes interactifs disposant de différents moyens d'interaction et sortant du cadre classique des interfaces WIMP1. La multimodalité a d'abord été étudiée dans le sens de l'entrée (de l'utilisateur vers le système). La première interface multimodale fut ainsi développée dès 1980 aux Etats-Unis, au sein du MIT (Massachusetts Institut of Technology), par Richard Bolt [Bolt 1980]. C'est dans cette première interface multimodale que fût introduit le célèbre "Put That There" pour la manipulation d'objets graphiques, montrant ainsi certaines des potentialités que peuvent offrir les interfaces multimodales. Malgré cela, il y eut par la suite une période creuse, probablement due à la non maturité des systèmes de reconnaissance de modalités non conventionnelles à l'époque, tels que les systèmes de reconnaissance de parole ou les systèmes de reconnaissance de gestes. Toutefois, en 1983, le MediaLab fût créé au MIT dans le but d'étudier ces nouvelles technologies de communication Homme-Machine. En 1985, la compagnie BOEING étudia l'intégration des systèmes de reconnaissance de parole et des écrans tactiles dans des opérations de navigation aérienne [Anderson 1985]. En 1990, des chercheurs de la même compagnie ont développé une interface multimodale intégrant un système de reconnaissance vocale et une "TrackBall" sur une station de travail simulant les cockpits des avions radar AWACS [Salisbury 1990]. Ce n'est qu'à partir de 1990 que les recherches sur les interfaces multimodales se sont véritablement développées. Différents projets européens ont été créés pour explorer cette nouvelle tendance dans la communication Homme-Machine, tels que le projet MMI2 [Binot 1992] [Wilson 1993] et le projet ARCHIE [Smart 1993]. De grands groupes industriels se sont également intéressés à la multimodalité. La compagnie japonaise HITACHI s'est intéressée à la multimodalité pour des applications de conception et d'aménagement d'intérieur. Des chercheurs de NEC ont développé un système multimodal basé sur les grammaires à clauses définies. En France, un groupe de travail du GDR-PRC CHM, dédié à l'interaction multimodale, a été créé au début des années 90. De nombreux laboratoires de recherche français se sont alors intéressés au sujet [IHM 1992] et plusieurs thèses furent soutenues dans le domaine de la multimodalité [Bourguet 1992] [Nigay 1994] [Bellik 1995] [Martin 1995]. Certaines grandes entreprises se sont également penchées sur le problème, à l'image de Thalès-Avionics, qui a étudié et continue d'étudier l'intégration des interfaces multimodales dans les futurs cockpits d'avions [Perbet 1990] [Bastide 2005]. Aux Etats-Unis, ce n'est qu'à la fin des années 90-début des années 2000, que les recherches sur l'interaction multimodale ont réellement connu un regain d'intérêt [Oviatt 1999] [McGee 2001] [Oviatt 2001] [Wu 2002] [Cohen 2002] [Oviatt 2003]. Cette réactivation des recherches sur les interfaces multimodales a notamment été encouragée par les programmes de la NSF (National Science Foundation), tels que les programmes "Human-Computer Interaction2", "Universal Access3" et "Information and Intelligent Systems4", ainsi que grâce à 1 Windows, Icons, Menus, Pointer. Le terme WIMP désigne les interfaces graphiques classiques. 2 http://www.nsf.gov/funding/pgm_summ.jsp?pims_id=5209&org=CISE&sel_org=CISE&from=fund 3 http://www.nsf.gov/funding/pgm_summ.jsp?pims_id=5214&org=NSF

Page 16: Présentation Multimodale de l'Information

Chapitre 1. Introduction

16

un certain nombre de conférences et de workshops comme par exemple, la conférence ICMI (International Conference on Multimodal Interfaces), la conférence IUI (Intelligent User Interfaces) ou le workshop PUI (Perceptual User Interfaces)5.

1.1 Motivations Au départ, la majorité des travaux, qu'ils soient français ou internationaux, ont principalement porté sur la multimodalité en entrée (de l'utilisateur vers le système). Peu de travaux se sont intéressés à la multimodalité en sortie (du système vers l'utilisateur) et ceux qui l'ont fait se sont penchés en général sur une facette partielle de ce que serait un système multimodal en sortie plus global. Ceci s'explique à notre avis par deux raisons principales. D'une part, l'apparition de nouvelles technologies de communication de l'homme vers la machine, dans les années 80-90 (tels que les systèmes de reconnaissance vocale, les oculomètres, les systèmes de reconnaissance de gestes, etc.) a plutôt favorisé l'étude de la multimodalité en entrée [Bellik 1997a] [Teil 2000]. D'autre part, l'absence, à l'époque, d'un réel besoin et d'une problématique claire concernant l'utilisation "intelligente" de plusieurs modalités en sortie, n'a pas encouragé les chercheurs à s'intéresser au sujet. Les systèmes multimodaux en sortie étaient d'ailleurs parfois confondus avec les systèmes multimédias, bien que Coutaz eût déjà explicité la différence entre les deux types de systèmes dès le début des années 90 [Coutaz 1991] [Coutaz 1992]. Le qualificatif "intelligent" a par la suite été introduit pour distinguer les deux catégories de systèmes (Intelligent Multimedia Interfaces). Néanmoins, depuis quelques années, trois évolutions majeures, de natures différentes (technologique, sociale et culturelle) mais non indépendantes, sont apparues et ont créé de nouveaux besoins en termes d'interaction Homme-Machine et plus particulièrement en termes de présentation multimodale de l'information. Ces évolutions concernent :

• la mobilité des utilisateurs en situation d'interaction,

• la naissance de l'informatique ambiante,

• l'avènement de la société de l'information.

1.1.1 Mobilité L'apparition de dispositifs portables de plus en plus riches en fonctionnalités et de plus en plus réduits en taille (PDA6s, téléphones7 et lecteur multimédia portables, ordinateurs de bord, GPS8, etc.), a encouragé la mobilité des utilisateurs en situation d'interaction avec la machine. Cette mobilité a pour conséquences une modification perpétuelle du contexte dans lequel prend place l'interaction. On peut ainsi passer d'un environnement calme à un environnement bruité, d'un éclairage naturel à un éclairage artificiel (passage dans un tunnel par exemple), d'un lieu où l'usage des modalités sonores est permis à un lieu où elles sont prohibées (hôpital, cinéma,...), etc. Le système interactif doit alors être capable de répondre à ces modifications fréquentes du contexte d'interaction, en adaptant dynamiquement ses sorties. La théorie de l'action située préconise bien que toute action dépend étroitement des circonstances dans lesquelles elle a lieu [Suchman 1987]. 4 http://www.nsf.gov/funding/pgm_summ.jsp?pims_id=13503&org=CISE&sel_org=CISE&from=fund 5 En raison du recouvrement des thématiques abordées par ICMI et PUI, il a été décidé en 2002, de fusionner ces deux manifestations pour ne plus laisser place qu'à la conférence ICMI. 6 Personal Digital Assistant 7 Il se vend actuellement 4 fois plus de téléphones portables que d'ordinateurs. 8 Global Positioning System

Page 17: Présentation Multimodale de l'Information

Chapitre 1. Introduction

17

En physique, la relativité du mouvement est connue depuis l'époque de Galilée et Newton. En informatique, la mobilité doit également être considérée comme une notion relative. Une entité A peut être mobile par rapport à une entité B mais demeurer fixe par rapport à une entité C. Nous nous intéressons en particulier à trois entités : l'utilisateur, le système et l'environnement9. En analysant les relations de mobilité relative qui peuvent exister entre ces trois entités, nous arrivons à identifier des catégories de systèmes (Tableau 1) et partant de là à situer nos propres travaux.

Cas Utilisateur / Système

Utilisateur / Environnement

Système / Environnement

Catégorie de système

Position de nos travaux

1 Fixe Fixe Fixe Station de travail classique

Axe 1 Modèle WWHT

Plate-forme ELOQUENCE

2 Fixe Fixe Mobile ?

3 Fixe Mobile Fixe ?

4 Fixe Mobile Mobile

Informatique nomade (PDA,

téléphone portable, etc.);

Informatique embarquée

(voiture, cockpit d'avion, etc.);

Wearable computing (lunettes, vêtements

intelligents, etc.)

Axe 1 Modèle WWHT

Plate-forme ELOQUENCE

Axe 3 Système Télétact 2

5 Mobile Fixe Fixe ?

6 Mobile Fixe Mobile Système de Robotique

Axe 2 Modèle KUP

Plate-forme PRIAM

7 Mobile Mobile Fixe

Domotique; Informatique

ambiante, diffuse, disséminée, enfouie, etc.

Axe 2 Modèle KUP

Plate-forme PRIAM

8 Mobile Mobile Mobile Ambiant + Robotique

Axe 2 Modèle KUP

Plate-forme PRIAM

Tableau 1. Relations de mobilité entre Utilisateur, Système et Environnement

9 Nous entendons par environnement, l'environnement physique de l'utilisateur duquel on exclue le système informatique. Nous ne traitons pas ici des environnements virtuels.

Page 18: Présentation Multimodale de l'Information

Chapitre 1. Introduction

18

Notons que les relations de mobilité entre entités, décrites ci-dessus, ne présupposent pas de l'entité qui est en déplacement intrinsèque. Par exemple, lorsqu'une case de la première colonne contient "Mobile", ceci signifie simplement qu'il existe une relation de mobilité entre l'utilisateur et le système. Selon les cas, l'entité qui bouge intrinsèquement peut être soit l'utilisateur, soit le système, soit les deux. Par exemple, dans le cas 7, c'est l'utilisateur qui est en déplacement par rapport au système, alors que dans le cas 6, c'est le système qui est en déplacement par rapport à l'utilisateur. Dans le cas 8, les deux peuvent être en déplacement. Par ailleurs, le fait qu'une entité soit fixe par rapport à une autre n'implique pas que ces entités soient dans un état statique ou figé. Par exemple, dans le cas 1, l'utilisateur est fixe par rapport à son environnement mais cela ne veut aucunement dire que cet environnement soit dans un état invariable. Toutefois, on peut s'attendre à ce que cette variabilité soit plus fréquente et plus importante lorsque les deux entités sont mobiles l'une par rapport à l'autre. Enfin, les cas 2, 3 et 5 semblent à priori impossibles actuellement, mais cela pourrait peut-être changer dans le futur. Le premier axe de nos travaux traite de la présentation multimodale de l'information dans le cas 4. Cependant, le modèle WWHT établi pour cet axe et la plate-forme logicielle qui en dérive, ELOQUENCE, peuvent également concerner le cas 1, bien que la variabilité du contexte soit généralement plus limitée dans ce cas. Le second axe traite du même problème mais cette fois-ci dans le cas 7. De même, les caractéristiques du modèle KUP défini pour ce second axe et la plate-forme logicielle PRIAM qui en découle, permettent également de l'appliquer aux cas 6 et 810. Enfin, le troisième et dernier axe concerne de nouveau le cas 4 mais pour une catégorie particulière d'utilisateurs : les non-voyants. Pour ce dernier axe il s'agit d'étudier, à travers la conception d'un système d'aide au déplacement des non-voyants, l'impact de l'absence de la vision sur le problème de la présentation de l'information plutôt que celui de la mobilité, ce dernier étant déjà traité dans le premier axe.

1.1.2 Informatique ambiante Les progrès technologiques récents dans le domaine de la miniaturisation des processeurs, des capteurs, des effecteurs et des réseaux sans fils permettent désormais d'envisager la possibilité d'intégrer dans des objets du quotidien (porte, vêtement, billet de train/avion, etc.) des capacités de calcul, de communication avec d'autres objets et d'interaction avec des utilisateurs humains. On passe ainsi d'un schéma classique où l'utilisateur interagit avec un unique système à un schéma dans lequel l'utilisateur interagit avec divers objets de son environnement quotidien. C'est ce que l'on appelle informatique ou intelligence ambiante, informatique disséminée, informatique diffuse, etc.. Celle-ci marque, en réalité, la concrétisation d'un concept très séduisant : celui de la convergence des mondes physiques et numériques. L'informatique ambiante préconise une vision écologique de l'interaction Homme-Machine et de l'informatique en général. Elle favorise l'enrichissement de l'existant plutôt que sa substitution, s'accordant ainsi avec un critère ergonomique essentiel : la compatibilité [Baudel 1995]. En s'appuyant sur des objets de notre environnement quotidien, elle vise à sauvegarder l'expérience que nous avons du monde réel tout en l'enrichissant de façon la plus discrète et harmonieuse possible.

10 Bien que nous n'ayons pas explicitement traité de la robotique dans nos travaux, le modèle KUP a été défini de manière à ce qu'il puisse également s'appliquer dans les cas où le système est capable de bouger de façon autonome.

Page 19: Présentation Multimodale de l'Information

Chapitre 1. Introduction

19

Bien que le concept de l'ambiant ait été introduit, il y a une quinzaine d'années, sous le nom d'informatique ubiquitaire, par Mark Weiser [Weiser 1991] [Weiser 1993], ce n'est que récemment que ce domaine commence à connaître un véritable essor grâce aux progrès technologique cités ci-dessus. Le projet britannique EQUATOR11, prévu sur une durée de six années, en est la parfaite illustration. Le choix d'EQUATOR comme nom de projet est, par ailleurs, particulièrement judicieux. Bien que l'équateur désigne une ligne séparatrice entre les deux hémisphères de la terre, il n'en demeure pas moins que, pour un marin, la traversée de cette ligne se fait de façon quasi-inconsciente. Par similarité, le choix de ce nom préconise que le passage du monde numérique au monde physique (et inversement) doit se faire de façon continue et fluide sans que l'utilisateur ne s'en rende compte. Ceci rejoint la vision de Mark Weiser pour qui le meilleur des systèmes est celui qui sait se faire le plus discret et par conséquent qui soit le plus harmonieusement possible intégré à notre environnement physique. Pour Mark Weiser, l'avènement de l'informatique ambiante, marque la naissance du troisième paradigme de l'informatique. Le premier paradigme a réservé l'informatique aux centres de calculs là où un même ordinateur était exploité par plusieurs utilisateurs. Le deuxième paradigme a permis à l'informatique d'entrer dans les foyers et de devenir "personnelle", chaque utilisateur ayant son propre ordinateur. Enfin, le paradigme de l'informatique ambiante permet à celle-ci de se disséminer dans les objets de notre environnement physique. On est alors, selon Mark Weiser, dans un schéma où une même personne peut être amenée à interagir avec plusieurs systèmes de façon "papillonaire"12 (Figure 1).

Figure 1. Graphe montrant l'évolution des 3 paradigmes de l'informatique selon Mark Weiser

11 http://www.equator.ac.uk/ 12 Bien que le mot "papillonaire" n'existe pas dans la langue française, il serait à inventer. Nous trouvons qu'il exprime bien le concept d'interaction avec différents systèmes pendant de courts laps de temps. On pourrait ainsi parler "d'interaction papillonnaire".

Page 20: Présentation Multimodale de l'Information

Chapitre 1. Introduction

20

En réalité, dans le cas de l'informatique ambiante, nous nous trouvons plus dans le schéma d'une relation n-n que dans celui d'une relation 1-n. En effet, un même objet d'un système ambiant peut aussi être amené à interagir avec différents utilisateurs. Même si cela ne se fait pas nécessairement de façon simultanée mais séquentielle, il n'en demeure pas moins que ceci entraîne un impact important sur notre problématique de présentation de l'information car cela induit une grande variabilité aussi bien au niveau des utilisateurs que des systèmes. Un utilisateur donné peut être amené à interagir avec divers objets, disposant de différentes capacités d'interaction, dans un laps de temps très court. De même un objet de l'ambiant peut-être amené à interagir avec divers utilisateurs possédant des préférences et des caractéristiques différentes (âge, sexe, langue maternelle13, etc.) dans un laps de temps tout aussi court. Ces deux entités14 (utilisateur et objet de l'ambiant) doivent alors être capables de s'échanger des informations sur leurs capacités d'interaction en vue de permettre à l'objet de déterminer les meilleures modalités d'interaction à utiliser pour communiquer avec l'utilisateur. Le deuxième axe de nos travaux concerne la présentation multimodale de l'information dans le cadre de l'ambiant. Pour respecter le principe de technologie calme et périphérique de Mark Weiser [Weiser 1996], nous concevons le processus de présentation des informations selon un modèle opportuniste qui ne réclame aucune action explicite de la part de l'utilisateur. Dès que ce dernier s'approche15 d'un objet de l'ambiant, celui-ci est capable de lui présenter des informations contextuelles pertinentes selon des modalités adéquates. Plusieurs systèmes ont déjà été proposés pour fournir des informations contextuelles à des utilisateurs mobiles lors de leurs déplacements. Par exemple, le système CoolTown [Kindberg 2001] montre des pages web aux utilisateurs en fonction de leurs positions. Dans la plupart des cas, ces informations contextuelles sont fournies aux utilisateurs par l’intermédiaire de petits dispositifs portables. Par exemple, le Cyberguide [Long 1996], un guide touristique pour les musées, est basé sur l’assistant personnel d’Apple (Newton). Plus généralement, on se rend compte que la plupart des systèmes sensibles au contexte se basent soient sur des dispositifs portables qui sont censés fournir des informations aux utilisateurs sur leur environnement (comme par exemple, "où se trouve la pizzeria la plus proche ?" [Hull 1997]), soit sur des systèmes publics d’affichage. C’est ce que fait, par exemple, le Gossip Wall [Streitz 2003]. Dans ce type de réalisations, le système public d’affichage joue plusieurs rôles : fournir des informations d’intérêt général quand personne n’est à proximité immédiate, et fournir des informations plus personnelles lorsqu’un utilisateur engage une interaction explicite. Ce comportement n’est pas sans soulever des problèmes de respect de la vie privée [Vogel 2004]. En comparaison avec ces systèmes, nos travaux visent, à travers l'exploitation de la multimodalité, à tirer parti de tous les types de dispositifs de présentation disponibles à un instant donné, qu'ils soient publics ou privés, visuels, auditifs ou tactiles, tout en prenant en compte la diversité des utilisateurs (préférences, capacités sensori-motrices, etc.) et celle des contraintes environnementales.

13 Dans un aéroport par exemple, la langue maternelle des utilisateurs peut être très variable. 14 Ou plus précisément, leurs représentations logicielles, comme nous le verrons au chapitre 3. 15 Nous verrons au chapitre 3 que cette proximité entre entités n'est pas uniquement spatiale. Elle prend également en compte les capacités d'interaction de ces entités. Nous parlons alors de proximité sensorielle.

Page 21: Présentation Multimodale de l'Information

Chapitre 1. Introduction

21

1.1.3 Accès universel Avec l'émergence de la société de l'information [Stephanidis 1999], les concepts de "User Interface for All" et de "Universal Access" ont (re)fait leurs apparitions [Stephanidis 2001b]. Le terme "Universal Access" trouve ses origines en 1934 lorsque les services de télécommunications américains s'étaient fixés comme objectif de rendre accessible les services du téléphone et du télégraphe à tous les citoyens américains indépendamment de leurs races, couleurs, religions, nationalités d'origine ou lieux de vie (par exemple, zones rurales isolées) [Shneiderman 2000]. Dans le cadre de la société de l'information, le défi à relever consiste à permettre à tous les citoyens, quelque soit leurs différences intellectuelles, culturelles, sociales, physiques, etc., d'accéder aux technologies de l'information. Ceci est d'autant plus critique pour les utilisateurs handicapés ne disposant pas de leurs pleines capacités sensori-motrices, en particulier les utilisateurs non voyants. Ne pas pouvoir accéder aujourd'hui aux technologies de l'information et de la communication risque de ramener les personnes non voyantes au même état d'isolement dans lequel elles se trouvaient avant l'existence du braille. Si dans un premier temps (l'époque des interfaces textuelles) l'ordinateur a été d'un apport considérable pour les non-voyants et leur a ouvert une porte d'accès vers un espace de connaissances beaucoup plus vaste, aujourd'hui les nouvelles technologies de l'information peuvent remettre en cause cet acquis, si les concepteurs de ces technologies ne sont pas sensibilisés au problème. C'est pourquoi le groupe WAI16 du W3C17 propose, par exemple, un ensemble de recommandations18 aux concepteurs de sites web afin que leurs pages puissent être accessibles aux personnes handicapées. Mais les problèmes d'accessibilité ne concernent pas uniquement Internet et les ordinateurs de façon générale. Ils touchent à tous les domaines ou l'informatique peut être présente. Par exemple, le simple accès à un DVD19 pour écouter la bande son d'un film ou d'un documentaire se révèle difficile en raison de l'interface de navigation des DVD, celle-ci ne comportant pas, généralement, de retours auditifs. A l'inverse, permettre aux personnes aveugles d'accéder aux technologies de l'information et de la communication peut être une grande chance d'améliorer considérablement leur vie quotidienne et leur permettre une meilleure intégration avec les voyants. De plus en plus de services publics, privés et de procédures administratives deviennent accessibles en ligne et il devient envisageable pour un non-voyant, utilisant un ordinateur, de remplir de manière indépendante, sa feuille d'impôts, d'effectuer des opérations bancaires, de modifier sa police d'assurances, de consulter sa facture téléphonique, etc. Une personne non voyante explique même qu'elle peut discuter sur MSN Messenger20 avec des personnes du monde entier sans que celles-ci se rendent compte de son handicap. Longtemps le problème de l'accessibilité a été considéré comme étant spécifique et cloisonné dans un domaine à part, celui de l'aide au handicap (Assistive Technology) [Stephanidis 1998] [Vanderheiden 1998]. Aujourd'hui, dans le contexte de la société de l'information, il a plutôt tendance à devenir un critère de qualité. De plus en plus de personnes, non nécessairement handicapés, éprouvent des difficultés à exploiter les nouvelles technologies de l'information et de la communication. Le problème qui, initialement ne concernait que les handicapés, a tendance à devenir plus large et touche de plus en plus de catégories d'utilisateurs tels que les

16 Web Accessibility Initiative 17 World Wide Web Consortium 18 http://www.w3.org/TR/WCAG10/wai-pageauth.html 19 Digital Video Disc ou Digital Versatile Disc 20 MSN Messenger est le logiciel de communication en ligne de Microsoft

Page 22: Présentation Multimodale de l'Information

Chapitre 1. Introduction

22

personnes âgées [Pew 2004] [Xiao 2003]). C'est pourquoi aujourd'hui, le terme "Universal Access" vise, entre autres, à garantir l'accès aux technologies de l'information et de la communication à toutes les catégories de la population y compris les personnes handicapées. Cet élargissement de la population cible a eu pour effet de rapprocher la communauté des chercheurs travaillant dans le domaine de l'aide a handicap, de la communauté des chercheurs travaillant dans le domaine de l'interaction Homme-Machine. Un des premiers projets à aller dans ce sens a été le projet ACCESS21 dont l'objectif était d'étudier l'adaptation des interfaces Homme-Machine en vue de répondre aux besoins des personnes âgées ou handicapées. D'autres grands projets sont apparus par la suite, tel le projet AVANTI [Stephanidis 2001c] et différents groupes de travail et réseaux22 ont été créés pour explorer des solutions visant à offrir des solutions génériques capables de répondre aux besoins de différentes catégories d'utilisateurs. Nous pensons que la multimodalité, par la richesse des interactions qu'elle peut offrir [Oviatt 2004] constitue une piste intéressante à explorer. En l'absence du sens visuel, le problème de la présentation de l'information devient encore plus complexe. Il convient alors d'exploiter toutes les capacités interactionnelles du système pour essayer de compenser cette déficience chez l'utilisateur. Le mode23 visuel est riche en modalités (texte, dessin, photo, diagramme, icônes, etc.). Pour compenser cette perte conséquente de modalités, il est nécessaire d'explorer, voire d'inventer, de nouvelles modalités relatives aux modes auditif et tactilo-proprio-kinesthésique24. Les travaux menés dans le cadre de l'axe 3 constituent un pas allant dans ce sens. Différentes études ont déjà été menées dans ce domaine ([Bach-y-Rita 1969] [Gaver 1989] [Blattner 1989] [Stevens 1994]) allant même jusqu'à l'exploration de modalités gustatives [Sampaio 2001]. Cependant, l'application choisie dans notre cas, en l'occurrence l'aide au déplacement des non-voyants, présente deux caractéristiques importantes qui rendent le problème encore plus complexe. D'une part le flux d'informations (distances aux obstacles) perçues par l'utilisateur aveugle n'est pas ponctuel mais continu, et d'autre part, ce flux peut s'étaler de manière importante dans le temps (plusieurs heures par jour, de façon quotidienne). Par conséquent il devient absolument indispensable que l'activité perceptive de la modalité explorée, puisse acquérir un caractère réflexe chez l'utilisateur. Dans le cas contraire, si la perception des informations par l'utilisateur nécessite un effort attentionnel important, l'acceptation du système par les utilisateurs est vouée à l'échec. Les objectifs des travaux présentés dans l'axe 3 sont donc différents, mais complémentaires, de ceux effectués dans les deux premiers axes. Il ne s'agit pas ici d'élaborer des modèles et des plates-formes logicielles génériques qui permettent une présentation dynamique et contextuelle de l'information. Il s'agit plutôt d'explorer, dans le cadre d'une application spécifique, de nouvelles modalités non visuelles dans le but d'acquérir une expérience et des connaissances relatives à leurs usages. Ces connaissances pourront, ensuite, être mises à profit dans la conception de systèmes adaptatifs, en particulier pour ce qui est des recommandations d'adaptation ciblant l'utilisateur.

21 http://www.dinf.ne.jp/doc/english/Us_Eu/conf/tide98/164/stephanidis_emiliani.html 22 Tels que le groupe de travail ERCIM "User Interfaces for All", le groupe de travail "Information Society for All' de la commission européenne, le forum scientifique international "Towards an Information Society for All", etc. 23 Pour les définitions des termes mode, modalité et média, voir la section 2.2.1 du chapitre 2. 24 Nous n'envisageons pas pour l'instant l'étude des modes olfactif et gustatif.

Page 23: Présentation Multimodale de l'Information

Chapitre 1. Introduction

23

1.2 Position de nos travaux Nos travaux prennent place dans le domaine de l'ingénierie de l'interaction et plus particulièrement de l'interaction multimodale. Ils concernent plus spécifiquement la présentation multimodale de l'information. Ils touchent cependant à des domaines plus vastes tels que le génie logiciel, l'ergonomie, les sciences cognitives et la sociologie. Comme nous venons de le voir, les évolutions technologiques, sociales et culturelles de ces dernières années créent de nouveaux besoins en termes d'interaction Homme-Machine. La diversité des utilisateurs, des systèmes et des environnements fait qu'il n'est plus possible de proposer des interfaces au comportement prédéfini et figé. Face à ce problème deux approches peuvent être envisagées. La première consiste à prévoir à priori plusieurs interfaces pour une même application, chacune d'elle étant adaptée à un contexte d'interaction donné. C'est l'approche qui est, par exemple, adoptée dans certains travaux sur les interfaces à base de modèle [Stanciulescu 2005] [Eisenstein 2001]. La deuxième approche consiste à intégrer dans l'interface des mécanismes d'adaptation qui vont lui permettre de modifier dynamiquement son comportement pour être en adéquation avec le contexte d'interaction. C'est cette seconde approche que nous avons privilégiée dans nos travaux car elle nous semble plus souple et moins coûteuse. L'adaptation [IFIP 1996] peut être caractérisée par différents critères selon le point de vue adopté (centrée utilisateur [Browne 1990] [Dieterich 1993], orientée cible de l'adaptation [Stephanidis 2001a] [Brusilovsky 2001] [Kobsa 2001], architecture logicielle [Thevenin 2002], etc.). Notre objectif n'est pas de proposer un nouveau point de vue débouchant sur une nouvelle taxonomie de l'adaptation, mais nous retenons, parmi les différents points de vue, les cinq critères suivants qui nous permettent de bien positionner nos travaux :

• L'acteur : désigne l'entité responsable de la tâche d'adaptation. Il peut s'agir, par exemple, de l'utilisateur (on parle alors d'adaptabilité), ou du système (on parle alors d'adaptativité).

• Les composants adaptés : désigne les entités logicielles qui vont subir des modifications pour réaliser l'adaptation. Il peut s'agir de l'aide du système, du noyau fonctionnel, du modèle de la tâche, du contrôleur de dialogue, des interacteurs logiques, des interacteurs physiques [Bass 1992], etc.

• Le temps : désigne le moment de l'adaptation. Celle-ci peut être statique (effectuée au moment de la conception) ou dynamique (au moment de l'exécution), voire accomplie d'une session à une autre.

• Le sens : indique l'orientation de l'adaptation. Le système peut adapter ses sorties et/ou savoir s'adapter à ses entrées.

• La cible : désigne l'entité par rapport à laquelle on désire effectuer l'adaptation. Il peut s'agir de l'utilisateur, de l'environnement ou du système (caractéristiques physiques, ressources matérielles).

Le tableau 2 situe nos travaux par rapport à ces cinq critères. Comme nous pouvons le constater, l'axe 1 et l'axe 2 peuvent sembler traiter l'adaptation sous le même angle. En réalité, nous verrons que la présentation multimodale de l'information dans un cadre ambiant (axe 2) nécessite une modélisation du système interactif et une architecture logicielle complètement différentes de celles qui ont été employées dans l'axe 1.

Page 24: Présentation Multimodale de l'Information

Chapitre 1. Introduction

24

Axe 1

Présentation contextuelle

Axe 2 Présentation opportuniste

Axe 3 Présentation non visuelle

Acteur Système Système Utilisateur

Composants Interacteurs logiques et physiques

Interacteurs logiques et physiques

Interacteurs logiques et physiques

Temps Dynamique Dynamique Dynamique

Sens Sortie Sortie Sortie

Cible Utilisateur,

Environnement et Système

Utilisateur, Environnement et

Système Utilisateur

Tableau 2. Position de nos travaux par rapport à la problématique de l'adaptation.

La diversité des interactions qu'offrent les interfaces multimodales, leur flexibilité et leur caractère intuitif et naturel, les rendent aptes à cibler différentes catégories d'utilisateurs. Ces propriétés leur confèrent également d'importantes capacités à s'accommoder des fréquentes modifications que peut subir l'environnement physique de l'interaction et à exploiter de façon optimale les ressources physiques des systèmes qui les accueillent. Elles deviennent, par conséquent, particulièrement intéressantes à exploiter dans le cadre d'un contexte sujet à de fréquentes évolutions. C'est pourquoi nous envisageons l'adaptation sous l'angle de la multimodalité. Nous cherchons dans nos travaux à exploiter de façon "intelligente" toutes les modalités dont peut disposer le système interactif à un instant donné, pour communiquer une information à l'utilisateur [Stock 2005]. L'objectif de notre recherche a été dans un premier temps d'essayer de mieux comprendre les difficultés soulevées par la présentation multimodale de l'information, dans l'objectif d'aboutir à une organisation cohérente de l'espace problème. Puis, dans un second temps nous avons cherché à proposer des solutions efficaces aux problèmes identifiés. Ceci nous a amené à conduire nos travaux selon la démarche scientifique suivante :

1. Analyse des besoins et établissement de cahiers des charges. 2. Identification des caractéristiques et des concepts sous-jacents mis en jeu dans la

problématique soulevée. 3. Organisation de ces concepts et de leurs relations en vue de l'élaboration de modèles

conceptuels. 4. Définition de modèles d'architecture logicielles en s'inspirant des modèles conceptuels

précédents. 5. Mise en oeuvre d'outils logiciels et de plate-forme de développement conformes aux

modèles d'architecture définis. 6. Implémentation d'applications tests à l'aide des outils logiciels développés. 7. Evaluation des applications et des outils.

Page 25: Présentation Multimodale de l'Information

Chapitre 1. Introduction

25

Nous allons à présent décrire plus en détails les bases de nos travaux sur la présentation multimodale de l'information. Le chapitre 2 ("Présentation contextuelle de l'information") étudie le problème dans le cadre d'un contexte sujet à de fréquentes modifications. Le chapitre 3 ("Présentation opportuniste de l'information") s'intéresse au même problème dans le cadre de l'ambiant. Enfin, le chapitre 4 ("Présentation non visuelle de l'information") traite ce problème dans le cas d'utilisateurs non voyants en situation de déplacement. Chaque chapitre est structuré en deux sections principales : la première présente brièvement l'axe de recherche abordé et la seconde développe notre contribution. Un chapitre "Conclusion et perspectives" clôt ce mémoire en proposant une liste de problèmes susceptibles de constituer un agenda de recherches pour les années à venir.

Page 26: Présentation Multimodale de l'Information

26

Page 27: Présentation Multimodale de l'Information

27

Chapitre 2

Présentation contextuelle de

l'information

Page 28: Présentation Multimodale de l'Information

28

Page 29: Présentation Multimodale de l'Information

29

2 Présentation contextuelle de l'information

2.1 Axe de recherche La démocratisation de l'informatique a rendu l'accès aux ordinateurs possible pour des catégories d'utilisateurs de plus en plus variées (enfants, adolescents, adultes, seniors, novices, experts, handicapés,…). Par exemple, la gestion électronique d'informations personnelles (déclaration de revenus, gestion de comptes bancaires, etc.) destinée à l’ensemble de la population n'est plus au rang des nouveautés technologiques. Parallèlement, le niveau de miniaturisation atteint aujourd'hui par les composants électroniques, a permis le développement d'une gamme diversifiée de systèmes portables (ordinateur portable, téléphone mobile, agenda électronique, lecteurs multimédia portables, etc.). Cette portabilité a encouragé la mobilité des utilisateurs créant ainsi des situations d'interaction nouvelles et rendant les environnements physiques d'interaction de plus en plus variés. De nouveaux usages jusqu’ici insoupçonnés émergent. Il est commun de téléphoner dans la rue, de travailler dans les transports en commun, ou bien encore de consulter son courrier électronique à la terrasse d’un café. L’environnement d’interaction jusqu’ici réduit à un espace fixe et fermé, s’est brusquement transformé en un espace dynamique et ouvert. Cette diversification des utilisateurs, des systèmes et des environnements d’interaction entraîne une complexification du contexte d’interaction [Savidis 2004]. L’interface doit alors être capable de s’adapter afin de préserver sa pertinence et son utilisabilité [Thevenin 1999]. En sortie, la contextualisation de l’interaction requiert la mise en place de nouveaux concepts [Vanderdonckt 2005] et de nouveaux mécanismes pour l'élaboration d'une présentation multimodale de l’information adaptée à l'utilisateur, au système et à l'environnement. Parmi les modèles conceptuels, SRM (Standard Reference Model) [Bordegoni 1997] est l'un des premiers à aborder le problème. Stephanidis le complète pour intégrer le contexte d’interaction dans la conception initiale d’une présentation multimodale [Stephanidis 1997], mais cette intégration reste partielle. Concernant l’évolution dynamique de la présentation, de nouveaux concepts tel que la plasticité [Thevenin 1999] ont été introduits. En réalité, nous pouvons remarquer que les systèmes existants ont souvent abordé le problème sous un angle spécifique. Par exemple, WIP [André 1993] s'est penché sur le problème de la coordination de textes et de graphiques. Il est capable de générer automatiquement à partir de textes et de graphiques des manuels d'utilisation pour des appareils de la vie courante. Le système COMET [Feiner 1991] traite également du même problème mais dans le cadre d'une application différente (diagnostic, réparation et maintenance). Alors que ces deux systèmes soulèvent le problème de la coordination de modalités différentes relevant d'un même mode (visuel), MAGIC [Dalal 1996], s'intéresse, au contraire, à la coordination de modalités de modes différents (visuel et auditif) pour la génération de comptes-rendus post-opératoires. Le système AIFresco [Stock 1993] aborde, quant à lui, la problématique de la génération du langage naturel dans le cadre d'un système hypermédia (système d'informations sur les fresques italiennes du 14ème siècle pour AIFresco). Les systèmes PostGraphe [Fasciano 1996] et SAGE [Kerpedjiev 1997] ont pour caractéristique commune de centrer la méthode de génération des présentations multimodales sur la notion de but de la présentation. CICERO [Arens 1995] introduit une gestion à base de modèles (média, information, tâche, discours et utilisateur). AVANTI [Stephanidis 2001a] est un des premiers systèmes à prendre en compte le contexte, même si celui-ci traite principalement la composante utilisateur. Le Tableau 3 récapitule l'apport de ces différents systèmes25.

25 Ce tableau se veut illustratif et non exhaustif.

Page 30: Présentation Multimodale de l'Information

Chapitre 2. Présentation contextuelle de l'information

30

Systèmes Problématiques abordées

WIP (1993), COMET (1993), AlFresco (1993) Coordination de modalités visuelles

MAGIC (1997) Coordination de modalités visuelles et auditives

AlFresco (1993) Génération du langage naturel

CICERO (1995) Gestion de modèles

AVANTI (2001) Gestion d'un modèle de l'utilisateur

PostGraphe (1996), SAGE (1997) Gestion des buts de présentation

Tableau 3. Problématiques traitées par quelques systèmes existants

Cependant, la richesse interactionnelle qu'offre la multimodalité en sortie, n'a pas encore été réellement exploitée en tant que moyen d'adaptation de l'interface. C'est ce que nous nous proposons de faire à travers tout d'abord, l'élaboration d'un modèle conceptuel qui nous permettra d'organiser l'espace problème de la multimodalité en sortie, et dont nous nous inspirerons ensuite pour la mise en place d'une plate-forme logicielle d'aide à la conception de systèmes multimodaux en sortie. Ce premier axe de recherche a fait l'objet de la thèse de Cyril Rousseau.

2.2 Contribution à cet axe de recherche Notre contribution par rapport à cet axe de recherche a été de proposer un modèle conceptuel permettant d'organiser et de structurer la démarche de conception d'une présentation multimodale dynamique et contextuelle [Rousseau 2006a] [Rousseau 2006b]. Ce modèle intitulé WWHT (What, Which, How, Then) a donné lieu à une plate-forme logicielle dénommée ELOQUENCE qui regroupe un ensemble d'outils accompagnant le concepteur/développeur dans le processus d'élaboration des présentations multimodales [Rousseau 2005a]. Cette plate-forme a été utilisée dans le cadre de deux applications du projet DGA26 "INTUITION" (INTeraction mUltimodale Intégrant les Technologies InnOvaNtes) [Bastide 2005] : la première concerne un simulateur de cockpit d'avion de chasse, la seconde un simulateur pour le contrôle de trafic aérien.

2.2.1 Les composantes du modèle WWHT Le modèle WWHT repose sur quatre composantes principales : l'information à présenter, les moyens de présentations, le contexte d'interaction et la présentation multimodale résultante.

L'information L’information est l’objet de nature sémantique (en provenance du noyau fonctionnel et transitant par le contrôleur de dialogue [Bass 1992]) que le système doit présenter à l’utilisateur. Par exemple, en téléphonie mobile, la "réception d’un nouvel appel" constitue une information de nature sémantique que le système en charge des sorties d’un téléphone portable doit savoir exprimer. 26 Délégation Générale pour l'Armement.

Page 31: Présentation Multimodale de l'Information

Chapitre 2. Présentation contextuelle de l'information

31

Les moyens de présentation Les moyens de présentation désignent les capacités de communication physiques ou logiques dont dispose le système pour exprimer une information (en vue de sa communication à l'utilisateur). Nous distinguons trois types de moyens de présentation : mode, modalité et média. Selon les auteurs, ces trois termes peuvent avoir des sémantiques différentes [Frohlich 1991], [Bernsen 1994], [Nigay 1995], [Bordegoni 1997], [Martin 1998]. Dans notre cas, les définitions adoptées sont orientées utilisateur [Bellik 1995]. Le mode en sortie fait référence au système sensoriel de l'être humain, sollicité pour percevoir une présentation donnée27 (mode visuel, auditif, tactile, etc.). Une modalité en sortie est définie par la structure de l'information telle qu’elle est perçue par l'utilisateur (texte, sonnerie, vibration, etc.) et non pas telle qu’elle est représentée au sein de la machine28. Enfin un média en sortie est un périphérique (dispositif physique) permettant l'expression d'une modalité (écran, haut-parleur, vibreur, etc.). Ces trois moyens de présentation sont inter-dépendants. A un mode correspond un ensemble de modalités et à une modalité est rattaché un ensemble de médias permettant son expression. La modalité "Vibration" s'exprime, par exemple, sur le média "Vibreur" et fait appel au mode "Tactile". Il convient cependant de distinguer deux types de relations entre les modes et les modalités : principales et secondaires. Une relation principale est définie entre un mode A et une modalité B, si le système sensoriel correspondant au mode A est celui qui est communément sollicité par les utilisateurs pour percevoir la modalité B29. La liaison secondaire résulte quant à elle d’un effet de bord de la relation principale. Dans notre exemple, les vibrations d'un téléphone portable sont destinées à être perçues par l’utilisateur de façon tactile, ce qui se traduit par une relation principale entre le mode "Tactile" et la modalité "Vibration". Cependant elles peuvent également être entendues, ce qui se traduit par une liaison de type secondaire entre le mode "Auditif" et la modalité "Vibration".

Le contexte d'interaction Selon Dey [Dey 2000], "Le contexte est toute information pouvant être utilisée pour caractériser la situation d'une entité. Une entité est une personne, un lieu ou un objet considéré comme pertinent pour l'interaction entre l'utilisateur et l'application". Cette définition nous donne une bonne base de départ pour identifier ce que l'on entend par contexte. Cependant, nous pensons que le contexte est une notion relative et qu'il convient tout d'abord d'indiquer quelle est l'entité de référence (l'objet de l'étude) à laquelle on s'intéresse. Nous pouvons ensuite définir le contexte par rapport à cette entité de référence. Par exemple, si l'entité de référence est une tâche, alors l'utilisateur qui accomplit cette tâche pourrait être considéré comme un élément du contexte. En revanche, si l'entité de référence est l'utilisateur, alors c'est la tâche qu'accomplit cet utilisateur, à un moment donné, qui peut être considérée cette fois-ci comme un élément du contexte. Pour Dey (et pour nous également), l'entité de référence est l'interaction entre l'utilisateur et l'application. Dans ce cas aussi bien l'utilisateur que la tâche pourraient être considérés comme des éléments du contexte. Par ailleurs, la dimension temporelle peut être tout aussi importante que la

27 Naturellement, pour une présentation multimodale, plusieurs modes peuvent être sollicités. 28 Les deux structures peuvent être différentes. Par exemple, un texte scanné et stocké par la machine sous forme d'un fichier image (sans utilisation d'un logiciel de reconnaissance de caractères), sera quand même perçu comme un texte par l'utilisateur et non comme une image. 29 Dans l'absolu, il convient de paramétrer cette relation par la catégorie des utilisateurs. Par exemple, pour un non-voyant, il existe une relation principale entre le braille et la modalité tactile, alors que pour un voyant, cette relation principale lie le braille au mode visuel (les personnes voyantes qui connaissent le braille, le lisent visuellement).

Page 32: Présentation Multimodale de l'Information

Chapitre 2. Présentation contextuelle de l'information

32

dimension spatiale dans la définition du contexte d'interaction. Ces considérations nous amènent donc à modifier légèrement la définition de Dey : "Le contexte est toute information pouvant être utilisée pour caractériser la situation d'une entité de référence. Le contexte d'interaction est toute information relative à une personne, un objet, un lieu ou un intervalle temporel considéré comme pertinent pour l'interaction entre l'utilisateur et l'application". Dans nos travaux, nous utilisons une approche à base de modèles [Arens 1995] pour spécifier les éléments du contexte d'interaction (modèle du système, modèle de l’utilisateur, modèle de l’environnement, etc.). A chaque modèle, est associé un ensemble de critères dynamiques ou statiques relatifs à l'élément considéré (disponibilité des médias, préférences de l'utilisateur, niveau de bruit, etc.). De nombreux travaux de recherche sont en cours pour la définition d’une ontologie relative au contexte d’interaction [Gu 2004] mais ces travaux ne sont pas encore à un stade suffisamment abouti pour pouvoir être exploités. C’est pourquoi, pour le moment, il revient au concepteur de l’application de décider des modèles et des critères à prendre en compte pour une application donnée.

La présentation multimodale L’expression d’une information se fait à l’aide d’une présentation multimodale. Cette présentation se compose d’un ensemble de couples (modalité, média) liés par des propriétés de redondance et/ou de complémentarité [Coutaz 1995]. La réception d’un appel sur un téléphone portable peut par exemple s’exprimer par une présentation multimodale se composant de deux couples (modalité, média) : un premier couple (Sonnerie, Haut parleur) signale l’arrivée d’un appel, un second (Texte, Ecran) présente l'identifiant (nom et/ou numéro) de la personne à l’origine de l’appel.

2.2.2 Le modèle WWHT Le modèle conceptuel WWHT s'appuie sur quatre questions principales : • What : Quelle information présenter ? • Which : Quelles présentations multimodales choisir (modalités et médias) ? • How : Comment instancier ces présentations multimodales ? • Then : Comment faire évoluer ces présentations ? Les trois premières questions (What, Which et How) font référence à la phase de construction d’une présentation multimodale [Bordegoni 1997] tandis que la dernière (Then) s’intéresse à son devenir [Calvary 2003]. La Figure 2 présente le processus de conception initiale d’une présentation multimodale adaptée au contexte d’interaction. Le devenir de la présentation est traité dans la sous-section "Then".

What : quelle information présenter ? Le point de départ du modèle est l'information de nature sémantique qu'il faut présenter à l'utilisateur. On se propose, en premier lieu, de réduire la complexité du problème en décomposant l’information sémantique initiale (Figure 2, UI) en unités d’information élémentaire (Figure 2, UIEi). Cette décomposition, qui peut éventuellement se faire en plusieurs étapes, formalise la communication entre le contrôleur de dialogue (au sens de ARCH [Bass 1992]) et le module en charge des sorties. Par exemple, pour la réception d’un appel sur un téléphone portable, l’unité d’information "Appel en provenance de X" est décomposable en deux unités d’information élémentaire : l’évènement (appel) et l’identité de l’appelant (X).

Page 33: Présentation Multimodale de l'Information

Chapitre 2. Présentation contextuelle de l'information

33

Figure 2. Conception d'une présentation multimodale adaptée au contexte d'interaction

Notons que le terme "fission" est communément employé par opposition au terme "fusion" pour qualifier le processus de sélection des modalités en sortie (Figure 3, A). Il s'agit là d'un raccourci un peu trop rapide, à notre sens. La fission est un processus qui s'applique à quelque chose de déjà construit et qui ne forme qu'une seule entité. Dans notre cas, la seule entité déjà construite est l'information en provenance du contrôleur de dialogue. La présentation multimodale, en revanche, est une entité qu'on cherche à construire. Cela n'a donc pas de sens de parler de fission à propos de la présentation multimodale. La fission en sortie doit effectivement avoir lieu mais à un niveau plus haut : au niveau sémantique. C’est pourquoi nous préférons parler de fission sémantique lors de la décomposition d’une unité d’information en unités d’information élémentaire et d’allocation lors de la sélection des modalités (Figure 3, B). La fission sémantique extrait les informations élémentaires à présenter à l’utilisateur. Les moyens de présentations alloués sont alors dédiés à une ou plusieurs informations élémentaires facilitant ainsi leur perception par l’utilisateur. Généralement, la fission sémantique est réalisée de façon manuelle par les concepteurs de l’application lors de la spécification des sorties. Son automatisation nécessite des mécanismes d’analyse sémantique de l’information, rendant le problème particulièrement délicat. Le sujet reste néanmoins intéressant comme perspective de recherche à long terme.

HOWWHICHWHAT

Fission sémantique Allocation Instanciation

Cn

Ci

C2

C3

C1

UIIi

UIE2

UIEn

Mod1 Med1

Mod2 Med2

. . .

CRMod1 Med1

Mod2 Med2

… … PMi

Mod1 Med1

Mod3 Med3

...

CRModi Medj

Modk Medl

… Ck

Cj

Valeur1

Valeur2

… Valeuru

Attribut1 Valeur1

Valeur2

Valeurv

Attributk

Valeur1

Valeur2

Valeurh

Contenu Mod1

PMi1

Mod3

PMi2

UIi : Unité d’Information UIIi : Unité d’Information Intermédiaire UIEi : Unité d’Information Élémentaire Ci : état du Contexte d’interaction

Modi : Modalité en sortie Medi : Média en sortie CR : Complémentaire / Redondant PMi : Présentation Multimodale

UIi

UIE1

Page 34: Présentation Multimodale de l'Information

Chapitre 2. Présentation contextuelle de l'information

34

Mod : Modalité PM : Présentation Multimodale

Figure 3. Place de la fission dans le processus de construction d'une présentation

multimodale

Which : quelles présentations multimodales choisir ? Suite à la décomposition de l’information, une présentation doit lui être allouée. L’allocation consiste à sélectionner pour chaque unité d’information élémentaire, une présentation multimodale (Figure 2, [Modi, Medj]) adaptée à l’état courant du contexte d’interaction (Figure 2, Ci) puis à les regrouper en une même présentation (Figure 2, PMi) qui correspond à l’expression de l’unité d’information initiale. La présentation résultante se compose alors d’un ensemble de couples (modalité, média) liés par des propriétés de redondance et/ou de complémentarité. Cette phase d’allocation ne se résume donc pas à une simple recherche de modalités en sortie mais bien à l’identification de couples (modalité, média) adaptés au contexte d’interaction. Il s’agit de prendre en compte une description donnée de l’état du contexte comme facteur de décision dans le choix du ou des couples (modalité, média) à déployer. Ceci induit une complexité non négligeable, en particulier dans le cadre d’applications à fort potentiel de communication et/ou d’un contexte d’interaction sujet à de fréquentes évolutions. La Figure 4 présente un exemple de présentations multimodales possibles pour l'expression de l'information "Appel en provenance de X" sur un téléphone portable.

Figure 4. Différentes présentations possibles pour exprimer la réception d'un appel sur un téléphone portable

(Photo, Écran) (Vibration, Vibreur)

(Musique, Haut Parleur)

067079…

(Texte3, Écran) (Musique4, HP)

067079…

(Texte, Écran) (Vibration7, VibreurC)

(Logo1, ÉcranA) (Sonnerie2, HPB)

(Photo5, Écran)(Musique, HP)

Cyril Rousseau

(Photo, Écran)(Voix Synt.6, HP)

2

1 A

B

4

3 5

6

C

7 …

Fission

Information sémantique

Allocation

… UIE1 UIE2 UIEn

… PM1 PM2 PMm

Allocation

Information sémantique

Fission

PM

… Mod1 Mod2 Modm

A B

Page 35: Présentation Multimodale de l'Information

Chapitre 2. Présentation contextuelle de l'information

35

Le processus de sélection des moyens de présentation en fonction du contexte s’appuie sur un modèle comportemental. Ce modèle spécifie les moyens de présentation (modes, modalités et médias) adaptés à un état donné du contexte. Il ne se limite pas à catégoriser (adapté / inadapté) les moyens de présentation. Il les classe selon un poids contextuel, une valeur qui peut être entière ou réelle30 et qui dénote le niveau d’adéquation du moyen de présentation au contexte courant. La représentation du modèle comportemental peut s'effectuer de diverses façons selon les systèmes : règles [Stephanidis 1997], matrices [Duarte 2006], automates [Johnston 2005], réseau de Pétri [Navarre 2005], etc. Dans la plate-forme ELOQUENCE, nous avons utilisé une représentation à base de règles [Rousseau 2005b]. Cette représentation a l’avantage de proposer un raisonnement simple et intuitif, limitant le coût d’apprentissage pour le concepteur. Elle soulève néanmoins des problèmes de cohérence, de complétude et d’évolutibilité du modèle comportemental, pour lesquels des outils de vérification et de visualisation de la base de règles doivent être proposés.

How : comment instancier les présentations multimodales ? Une fois l'allocation accomplie, la présentation multimodale résultante doit être instanciée. L’instanciation consiste à déterminer, selon l’état du contexte d’interaction (Figure 2, Cj), les contenus lexico-syntaxiques31 concrets des modalités de la présentation (Figure 2, PMi) ainsi que leurs attributs morphologiques32. Dans un premier temps, un contenu concret à exprimer à travers les modalités de la présentation est choisi [Colineau 2004]. Puis en cohérence avec ce contenu, les attributs de la présentation (attributs des modalités [Layaïda 2005], paramètres spatiaux [Graf 1995] et temporels [Dalal 1996]) sont fixés. Cette phase du modèle aborde le problème, particulièrement délicat, de la génération multimodale [André 2000] [Rist 2005]. Les choix à réaliser au niveau du contenu et surtout des attributs des modalités de la présentation peuvent être très nombreux et doivent s’effectuer en étroite collaboration sous peine d’incompatibilité. De plus, l’état courant du contexte d’interaction doit être pris en considération afin de préserver la qualité d'adaptation de la présentation élue. Dans l’idéal, la génération du contenu devrait être automatique mais ceci demeure un problème ouvert pour chaque modalité considérée et constitue le sujet de nombreuses recherches telles que la génération de textes [Varile 1996] [Zock 2002] [André 2003] ou la synthèse de gestes [Braffort 2004]. A ce niveau, notre problématique concerne donc la sélection d’un contenu de modalité (parmi n contenus préalables) ajusté aux informations élémentaires à exprimer, formaté au média associé et adapté au contexte d’interaction courant. La Figure 5A illustre cette problématique dans le cadre de la modalité Photographie. Il s’agit de sélectionner un des portraits disponibles afin de présenter la personne à l’origine d’un appel téléphonique. Chacun des portraits proposés est associé à une même personne disposant de différents numéros de téléphone (travail, domicile et portable).

30 Dans la plate-forme ELOQUENCE (chapitre 2), nous avons utilisé des valeurs entières pouvant être positives ou négatives. Dans la plate-forme PRIAM (chapitre 3), nous avons utilisé des valeurs réelles comprises entre 0 et 1. 31 Par exemple, pour un texte, la chaîne de caractères correspondante. 32 Par exemple, pour un texte, la taille de la police de caractères employée.

Page 36: Présentation Multimodale de l'Information

Chapitre 2. Présentation contextuelle de l'information

36

Figure 5. Quels contenus et quels attributs pour la modalité Photographie ?

La Figure 5B s’intéresse aux attributs morphologiques à utiliser pour instancier la modalité Photographie [Rist 2002]. Les quatre attributs présentés donnent un aperçu de la complexité des choix possibles dans cette seconde phase de l’instanciation. Même si le problème peut paraître complexe et à forte combinatoire, il n'est pas pour autant insoluble car il est possible de réduire l'espace des combinaisons à un ensemble plus restreint de valeurs-clés. En pratique, on constate que le nombre d’instances utilisées pour une modalité donnée est souvent peu significatif au regard des possibilités. C’est pourquoi, il est possible de spécifier un ensemble de modèles d’instanciation d’attributs au lieu de considérer l’ensemble des instances possibles pour chaque attribut de modalité. La Figure 6 illustre ce concept dans le cadre de la modalité Texte. Il est donc tout à fait possible d’effectuer de façon automatique la détermination des valeurs des attributs des modalités.

Figure 6. Exemple de modèles d’instanciation des attributs pour la modalité Texte

Then : comment faire évoluer les présentations ? On pourrait penser qu'une fois la phase d'instanciation accomplie, la résolution du problème de construction d'une présentation multimodale adaptée au contexte d'interaction, soit achevée. En réalité, le contexte d’interaction peut être sujet à évolution, en particulier, dans le cadre d'une interaction en situation de mobilité. Ceci soulève alors un problème de péremption de la présentation. La présentation est en effet adaptée lors de sa conception mais risque de ne plus l’être dans le cas d’une évolution du contexte. Ce problème de péremption concerne principalement les présentations dites persistantes, une évolution du contexte étant peu probable (mais pas impossible) dans le cas de présentations ponctuelles. Une présentation multimodale doit donc être adaptée au contexte d’interaction tout au long de son cycle de vie.

La couleur La luminosité

Le contraste

La taille

Le contenu Les attributs morphologiques

Au domicile En extérieur

Au travail

BA

256 combinaisons 3 modèles

11 12 14 16

TailleNormalItalique

Gras Souligné

StyleNoir

Blanc RougeBleu

CouleurCourrierTimes Arial

Verdana

Police

Police : Times Style : Normal Taille : 12 Couleur : Noir Paragraphe

Police : Times Style : Normal Taille : 12 Couleur : Rouge

Correction

Police : Arial Style : Gras Taille : 16 Couleur : Noir

Titre

Modalité Texte

Page 37: Présentation Multimodale de l'Information

Chapitre 2. Présentation contextuelle de l'information

37

Cette contrainte nécessite la mise en place de mécanismes garantissant une évolution de la présentation en accord non seulement avec le contexte d'interaction mais également avec un certain nombre d'autres facteurs. Nous avons identifié cinq facteurs d'évolution susceptibles de remettre en cause la pertinence d'une présentation :

• le facteur informationnel, • le contexte d’interaction, • le facteur temporel, • le facteur spatial, • les actions de l’utilisateur.

Le facteur informationnel est un facteur courant d’évolution. Le noyau fonctionnel de l’application actualise un paramètre en cours de présentation, ce qui entraîne l'évolution de celle-ci. Par exemple, la présentation d'une batterie d’un ordinateur portable, évolue selon l'état de cette dernière. Concernant le contexte d'interaction, toutes ses évolutions n'impliquent pas nécessairement une péremption des présentations en cours. L’évolution doit se produire uniquement par rapport aux éléments du contexte susceptibles d’influer sur la présentation. Par exemple, l’augmentation du niveau de bruit n’a aucune incidence sur une présentation visuelle. Pour ce qui est du facteur temporel, les logiciels de type "agenda électronique", offrent de bons exemples d'évolution des présentations en fonction du temps. La Figure 7 présente un rendez-vous à deux instants différents (avant et après l'heure du rendez-vous) sous l’application Agenda Fusion pour Pocket PC.

Figure 7. L'influence du facteur temporel dans l'évolution d'une présentation Le facteur spatial fait référence à la position et à l’espace alloué à une présentation. L’application FlexClock [Grolaux 2002] adaptant la présentation d’une horloge en fonction de la taille de la fenêtre support est un exemple de système exploitant ce facteur d’évolution (Figure 8). L’horloge se voit ainsi composée d’une modalité graphique et d’un calendrier dans le cadre d’une fenêtre de grande taille et d’une simple modalité Texte dans une situation inversée.

Page 38: Présentation Multimodale de l'Information

Chapitre 2. Présentation contextuelle de l'information

38

Figure 8. L'influence du facteur spatial dans l'évolution d'une présentation [Grolaux 2002] Enfin, les actions de l’utilisateur sur une présentation sont également un facteur d’évolution. Le survol d’une icône par un dispositif de pointage peut par exemple provoquer l’affichage d’un texte rappelant la sémantique de l’icône. L’interaction avec cette dernière peut pareillement avoir des répercussions sur la forme et le contenu de la présentation. Tous ces facteurs d'évolution n'induisent pas nécessairement le même type d'évolution. Nous distinguons deux types d’évolution (non exclusifs) : le raffinement et la mutation. Le raffinement ne change pas les moyens de présentation (modalités, média) utilisés mais leurs instanciations. En revanche, la mutation opère un changement au niveau même des modalités et/ou médias de la présentation. Cette distinction est importante car elle induit des traitements différents pour chaque type d'évolution. Le raffinement nécessite un retour en arrière uniquement jusqu'à la phase d'instanciation (how) alors que la mutation remet en cause la présentation jusqu'au niveau de la phase d'allocation (which). Considérons par exemple, une présentation multimodale indiquant le niveau de batterie d’un périphérique portable quelconque. La Figure 9 propose quatre évolutions possibles de la présentation initiale, en l'adaptant à l'état de la batterie. La présentation à 70% (Etat 2) évolue (entre autres) en ajoutant une modalité "Texte". Il s'agit dans ce cas d'une mutation. La présentation à 37% (Etat 3) ajuste simplement ses couleurs. Il s'agit cette fois-ci d'un raffinement. Enfin, la présentation d’une coupure imminente (Etat 5) combine les deux types d'évolution33.

Figure 9. Les types d’évolution d’une présentation

33 On observe également un raffinement touchant à la taille du rectangle interne et à la position du texte tout le long des différentes évolutions.

BatterieFaible

CoupureImminente

Evolutions

Raffinement (attributs) Mutation (modalités) Texte

Couleur Couleur Couleur Style

Bulle Earcon

Etat 1

70%

Etat 2

37%

Etat 3

18%

Etat 45%

Etat 5

Page 39: Présentation Multimodale de l'Information

Chapitre 2. Présentation contextuelle de l'information

39

2.2.3 La plate-forme ELOQUENCE S'inspirant du modèle WWHT, une plate-forme logicielle a été mise en œuvre pour accompagner le concepteur/développeur dans sa démarche de construction d'un système multimodal en sortie, en adoptant une approche itérative. Cette plate-forme, intitulée ELOQUENCE, a été exploitée dans deux applications du projet DGA "INTUITION" : un simulateur de cockpit d'avion de chasse (Figure 10) et un simulateur pour le contrôle de trafic aérien (Figure 11) [Bastide 2005].

Figure 10. Application "Simulateur de cockpit d'avion de chasse"

Figure 11. Application "Simulateur pour le contrôle de trafic aérien"

Retours de commandes vocales

Page 40: Présentation Multimodale de l'Information

Chapitre 2. Présentation contextuelle de l'information

40

La plate-forme se compose de deux outils permettant respectivement de spécifier et de simuler les sorties du système et d’un noyau permettant l’exécution du système final [Rousseau 2004]. L'outil de spécification permet au concepteur de définir les éléments nécessaires à l’application du modèle : les unités d’information, les moyens de présentation, le contexte d’interaction, le modèle comportemental et le modèle d’instanciation. Cette spécification s’effectue à l’aide de cinq éditeurs graphiques dédiés. L'utilisation de ces éditeurs présente l'avantage de rendre transparent pour le concepteur le langage de représentation de données propriétaire que nous avons défini pour sauvegarder ses spécifications34. L'outil de simulation sert de support pour une évaluation prédictive du système final. Il permet au concepteur de visualiser instantanément les résultats de ses spécifications et facilite de ce fait la démarche de conception itérative du système. Enfin, le noyau d'exécution s'intègre dans le système final. Pour cette première plate-forme, le noyau d'exécution dispose d'une architecture modulaire centralisée (Figure 12). Les trois principaux modules de l’architecture (moteurs d’allocation, d’instanciation et d’évolution) implémentent les concepts fondamentaux du modèle WWHT. Un module de gestion des présentations multimodales complète l’architecture en centralisant les ressources et les communications. Le modèle WWHT et la plate-forme ELOQUENCE sont décrits plus en détails dans la première publication jointe à ce manuscrit.

Figure 12. Architecture du noyau d'exécution Dans le chapitre suivant, nous verrons qu'une architecture à agents, distribuée, s'avère plus adaptée pour la présentation multimodale de l'information dans un cadre ambiant.

34 Ce langage est intitulé MOXML (Multimodal Output eXtended Markup Language). Il est basé sur XML.

Module de Gestion des

Présentations Multimodales

UIi Moteur de

Rendu

Médium 1

Médium 2

Médium 3

Présentation multimodale

Commandesde rendu

UIi : unité d’information CXi : état du contexte d’interaction COi : composant d’interaction MC : modèle comportemental MI : modèle d’instanciation

dèl d d

Contrôleur du Dialogue

Moteur d’allocation

Moteur d’instanciation

MC MI

Serveur de contexte

COi

CXi

Moteur d’évolution

Valide / Invalide ?

MR

Page 41: Présentation Multimodale de l'Information

41

Chapitre 3

Présentation opportuniste de

l'information

Page 42: Présentation Multimodale de l'Information

42

Page 43: Présentation Multimodale de l'Information

43

3 Présentation opportuniste de l'information

3.1 Axe de recherche Depuis quelques années, l'informatique commence à envahir des espaces de plus en plus larges de notre environnement quotidien. Après s'être très vite répandue dans des objets qui en étaient, il n'y a pas encore si longtemps, quasiment dépourvus (appareils photos, téléphones, autoradios, etc.) les chercheurs s'intéressent aujourd'hui à son intégration dans des objets encore plus quotidiens (vêtements, portes, murs, meubles, etc.). Différents termes pour caractériser cette tendance sont apparus : informatique diffuse, systèmes mixtes, informatique disséminée, systèmes enfouis, intelligence ambiante en sont quelques exemples. Cependant tous visent à décrire le même concept. Celui d'intégrer l'informatique dans les objets physiques du quotidien de manière à les doter de capacités supplémentaires de calcul, de communication sans fils et d'interaction avec l'être humain. Bien que le concept en lui-même soit déjà apparu au début des années 90 [Weiser 1993], sa concrétisation en systèmes opérationnels s'est heurtée à certaines difficultés en raison du niveau de miniaturisation requis pour les composants électroniques nécessaires à la réalisation de tels systèmes. Toutefois, les progrès récents en matière de miniaturisation, de réseaux sans fils et de nouvelles techniques d'interaction sont entrain de lever ces difficultés et poussent de plus en plus d'équipes de recherche à s'intéresser au problème. Certains voient même dans cette expansion de l'informatique une révolution similaire à celle qui a vu dans les années 80, les ordinateurs sortir des centres de calculs pour se répandre dans les bureaux puis un peu plus tard dans les foyers. Un groupe de travail européen, l'ISTAG (Information Society Technologies Advisory Group), a cherché en 2001 à mieux définir les caractéristiques et spécificités de l'intelligence ambiante [Ducatel 2001]. C'est ainsi que trois axes principaux caractérisant l'intelligence ambiante, ont pu être identifiés:

• Informatique ubiquitaire : il s'agit d'intégrer des microprocesseurs dans des objets du quotidien qui habituellement sont dépourvus d'électronique tels que des meubles, des vêtements, des revêtements muraux, etc. Certains envisagent d'ores et déjà d'enfouir des balises RFID35

dans des matériaux de construction (béton, peinture) ou dans des meubles [Bohn 2004].

• Communications ubiquitaires : ces objets doivent en outre disposer de capacités de

communication sans fils, posséder des sources d'énergie qui leur garantissent un niveau d'autonomie suffisant et faire preuve d'interopération spontanée [Kindberg 2002] (capacité à engager une communication avec d'autres objets sans configuration manuelle préalable).

• Interfaces utilisateurs intelligentes : les utilisateurs humains doivent pouvoir interagir

avec ces objets de façon naturelle (voix, gestes, etc.) et personnalisée. Ces derniers doivent donc être capables de prendre en charge les préférences des utilisateurs et tenir compte du contexte d’utilisation.

35 Radio-Frequency Identification

Page 44: Présentation Multimodale de l'Information

Chapitre 3. Présentation opportuniste de l'information

44

On peut constater à travers ces trois points un changement de paradigme assez fondamental dans l'interaction (Figure 13). On n'est plus dans une situation ou le même utilisateur interagit de façon individuelle avec son poste de travail, mais dans une situation ou plusieurs utilisateurs vont interagir avec plusieurs objets. Pour schématiser ce changement de paradigme, on pourrait dire qu'on passe de l'interaction Homme-Machine à l'interaction Hommes-Machines :

• la mise au pluriel du mot "Homme" sert à dénoter la multiplicité non seulement des utilisateurs, mais également de leurs catégories. Dans un système d'intelligence ambiante, plusieurs utilisateurs peuvent entrer en interaction (simultanément ou pas) avec un objet du système. Celui-ci doit donc être capable d'interagir avec différents utilisateurs tout en prenant en compte leurs préférences, leurs capacités sensori-motrices, leurs aptitudes cognitives, leurs expériences, etc. (personnes âgées, mal ou non-voyants, sourds, novices, experts,...);

• la mise au pluriel du mot "Machine" met en exergue le fait que dans un système

d'intelligence ambiante les utilisateurs sont en général dans une situation de mobilité et par conséquent un même utilisateur peut être amené à interagir avec différents objets du système ambiant dans un laps de temps très court, au fur et à mesure de ses déplacements.

Figure 13. De l'interaction Homme-Machine vers l'interaction Hommes-Machines De façon générale, les systèmes d’intelligence ambiante interagissent avec leurs utilisateurs alors même que ces derniers ne se trouvent pas en situation d’interaction "classique". Ces systèmes doivent être capables de réagir de manière discrète et non intrusive aux actions des êtres humains. Jusqu'à un passé récent, leur réalisation impliquait de posséder des connaissances aussi bien en matière logicielle que matérielle, ce qui constituait un frein à leur développement. C’est pourquoi des plates-formes matérielles rapidement exploitables ont été proposées, afin de permettre aux spécialistes du logiciel de s'intéresser aux systèmes ambiants [Gellersen 2004] sans pour autant avoir des connaissances approfondies quant aux aspects matériels. Les travaux présentés dans ce deuxième axe ont fait l'objet de la thèse de Christophe Jacquet.

Page 45: Présentation Multimodale de l'Information

Chapitre 3. Présentation opportuniste de l'information

45

3.2 Contribution à cet axe de recherche Nos travaux, par rapport à cet axe de recherche, concernent plus spécifiquement la présentation opportuniste et multimodale de l'information à des utilisateurs en situation de mobilité dans un environnement ambiant [Jacquet 2005] [Jacquet 2006a]. L'objectif est de fournir des informations à ces utilisateurs mobiles en exploitant soit des dispositifs privés qu'ils peuvent transporter sur eux-mêmes (PDA, téléphone, lecteur multimédia portable,...), soit s'ils n'en ont pas, des dispositifs publics qu'ils peuvent rencontrer au fur et à mesure de leurs déplacements (écrans publics d'information, haut-parleurs,...). Notons tout de suite, trois points importants :

• les informations à fournir aux utilisateurs vont généralement dépendre de l'espace physique dans lequel ils vont se situer à un moment donné. Par exemple, une personne qui rentre dans un restaurant sera très probablement intéressée par le menu de ce restaurant; un voyageur qui rentre dans un aéroport, lui sera plutôt intéressé par le comptoir d'enregistrement et la porte d'embarquement de son vol, etc.;

• les informations doivent être ciblées par rapport aux utilisateurs qui les reçoivent. En effet, il ne sert à rien de présenter une information qui n'intéresse personne. Ceci n'aura pour conséquence qu'entraîner des confusions chez les utilisateurs et des temps de recherche importants avant de trouver l'information voulue. Cela est particulièrement vrai dans le cas de dispositifs publics d'affichage comme les écrans d'affichage qu'on peut rencontrer dans les aéroports [Jacquet 2006b] (Figure 14);

• nous séparons la fourniture de l'information et la présentation de celle-ci en deux processus distincts. Autrement dit, un utilisateur (ou plus précisément l'entité logicielle qui va le représenter) peut emmagasiner des informations au fur et à mesure de ses déplacements mais ne prendre connaissance de ses informations qu'au moment où il rencontrera un dispositif de présentation approprié.

Figure 14. A l'aéroport de Roissy, un mur d'écrans affiche en permanence une liste 160 vols,

même lorsque seulement trois voyageurs y recherchent leurs informations

Page 46: Présentation Multimodale de l'Information

Chapitre 3. Présentation opportuniste de l'information

46

De cette façon, l'utilisateur "récolte" de façon opportuniste des informations au fur et à mesure de leur découverte, même s’il n’y a pas de dispositif de présentation disponible à ce moment-là. La présentation pourra se faire plus tard, de façon opportuniste elle aussi, lorsque l’utilisateur se trouvera à proximité d’un dispositif de présentation adéquat (à condition bien sûr que l'information ait gardé son caractère pertinent). Le découplage entre les deux phases est la condition du fonctionnement doublement opportuniste du système. Pour obtenir ce découplage, il est nécessaire, au niveau de l'architecture logicielle, que le noyau fonctionnel ne soit plus directement relié à l'interface. L'existence d'une entité intermédiaire entre l'interface et le noyau fonctionnel devient indispensable. Dans le cas contraire, la fourniture et la présentation de l’information seront nécessairement liées.

3.2.1 Le modèle KUP Dans un système d'intelligence ambiante, la co-existence d'entités physiques et d'entités numériques associée au changement de paradigme décrit plus haut, nous ont amené à proposer un nouveau modèle conceptuel pour les interactions dans le cadre de l'intelligence ambiante. Ce modèle, intitulé KUP (Knowledge, User, Presentation), comporte 3 entités principales, chacune d'entre elles ayant une déclinaison physique et numérique (logicielle) :

• K est l'entité qui représente les sources d'informations ou de connaissances (Knowledge). Nous appellerons unités sémantiques36 les informations produites par ces entités (une unité sémantique peut être, par exemple, la porte d'embarquement d'un passager). La déclinaison logicielle de cette entité correspond à la composante sémantique des modèles d'architecture classiques (noyau fonctionnel d'ARCH [Bass 1992], facette abstraction de PAC [Coutaz 1987], Modèle dans MVC [Krasner 1988], etc.).

• U est l'entité utilisateur. Sa déclinaison physique correspond à l'utilisateur humain. Sa déclinaison logicielle est active et va au-delà de la simple représentation des caractéristiques de l'utilisateur.

• P est l'entité chargée de la présentation des informations à l'utilisateur. Sa déclinaison logicielle correspond à l'interface des modèles d'architecture classiques. Puisqu'on s'intéresse ici aux sorties, celle-ci représente donc uniquement la partie responsable de la présentation de l'information. Sa déclinaison physique correspond au dispositif de présentation37.

Le modèle d'architecture logicielle dérivé de KUP apporte deux aspects originaux :

1. il prévoit une représentation logicielle active de l'utilisateur (U), alors qu'elle est généralement absente ou réduite dans les modèles classiques. Cette représentation logicielle va bien au delà de la simple caractérisation des utilisateurs par un profil ou des préférences;

2. cette entité logicielle, représentant l'utilisateur, trouve sa place au centre du modèle. Elle confère ainsi à l'utilisateur une place prépondérante, notamment du fait que toutes les communications au sein du modèle vont désormais transiter par cette entité logicielle. C'est finalement grâce à cette entité logicielle "Utilisateur" que le découplage entre les phases de fourniture de l'information et celle de sa présentation va être possible.

36 Equivalent de "unité d'information élémentaire" du modèle WWHT, décrit au chapitre 2. 37 Dans notre modèle nous ne nous préoccupons pas du "design" physique des objets de l'ambiant. Il convient naturellement, dans le cadre de l'informatique ambiante, que les sources d'informations et les dispositifs de présentation soient discrètement et harmonieusement intégrés aux objets physiques.

Page 47: Présentation Multimodale de l'Information

Chapitre 3. Présentation opportuniste de l'information

47

Ainsi, le modèle d'architecture dérivé de KUP se distingue clairement des modèles d'architecture classiques (ARCH, Seeheim [Pfaff 1983], PAC, MVC, ...) du fait que dans ces derniers l’utilisateur est toujours à l’extérieur du système; il n’y est jamais représenté explicitement, en tant qu'entité active (Figure 15). En revanche, dans le modèle KUP (Figure 16), l’entité logicielle représentant utilisateur est considérée comme l’entité centrale qui permet le découplage entre la fourniture d’informations par les entités K et leur présentation par les entités P.

Figure 15. Modèle classique d'IHM : l'utilisateur n'est pas représenté explicitement au sein du système interactif

Figure 16. Modèle KUP : l'utilisateur est au centre du système d'intelligence ambiante L'espace physique occupe une importance primordiale dans un système d'intelligence ambiante. C'est en particulier grâce aux déplacements de l'utilisateur dans cet espace que se créent des interactions au sein de notre système38. Pour comprendre ces interactions ainsi que les événements susceptibles de leur donner naissance, nous introduisons deux notions qui nous semblent particulièrement importantes dans un système d'intelligence ambiante : la notion d'espace perceptuel d'une entité et la notion réciproque correspondante, son espace de rayonnement. 38 On peut cependant imaginer que dans quelques années, le développement de la robotique aidant, on puisse assister à la naissance de dispositifs de présentation dotés de capacité de mobilité autonome. Par exemple dans un aéroport, des écrans d'affichage dotés de moteurs pourraient se déplacer de façon autonome pour venir se positionner là où un regroupement ponctuel de voyageurs nécessiterait un nombre supplémentaire d'écrans.

U

Noyau fonctionnel

Interface

Système interactif

Niveau physique

Niveau logique

Source d'Informations

Utilisateur

Système d'intelligence ambiante

Niveau physique

Niveau logique Présentation

K P

Page 48: Présentation Multimodale de l'Information

Chapitre 3. Présentation opportuniste de l'information

48

Espace perceptuel Nous pourrions définir l'espace perceptuel d'une entité e comme étant l'ensemble des points de l'espace physique tels que si une autre entité e' y est située, alors elle peut être perçue par e. Cependant, cette définition est incomplète. En effet, l'entité e peut disposer de différentes modalités en entrée, chaque modalité pouvant induire un espace perceptuel différent. Par exemple dans le cas de l'entité Utilisateur, le champ visuel et le champ auditif d'un être humain ne sont pas identiques. Ainsi, l'affichage produit par un écran situé deux mètres derrière l'utilisateur ne peut être perçu par ce dernier, alors que les sons émis par un haut-parleur situé au même endroit peuvent l'être. Dans ce cas, faut-il considérer cette région de l'espace comme faisant partie de l'espace perceptuel de l'utilisateur ou pas ? La réponse à cette question dépend en vérité de la modalité de communication utilisée. On peut même avancer qu'au delà de la modalité cela dépend également des valeurs d'attributs utilisée pour l'instanciation de cette modalité. Par exemple, un texte affiché à deux mètres devant l'utilisateur pourra être perçu sans problème s'il est affiché avec une taille de 7239, alors qu'il ne le sera pas s'il est affiché dans une taille de 8. Par conséquent, on peut dire que l'espace perceptuel dépend de l'espace physique, de l'espace des modalités, et de l'espace des attributs de modalités. Ceci nous amène donc à définir d'abord la notion d'espace modalisé ou m-espace, comme étant le produit cartésien entre l'espace physique E, l'espace des modalités disponibles M et l'espace des attributs de modalités A40. Un point de ce m-espace sera caractérisé par un n-uplet constitué des coordonnées physiques c de ce point, d'une modalité m donnée, et d'une instanciation i donnée de cette modalité (ensemble de valeurs pour les attributs de m). On peut alors définir la notion d'espace perceptuel d'une entité e comme étant l'ensemble des points X(c,m,i) de ce m-espace tels que si une autre entité est située aux coordonnées physiques c et utilise la modalité m selon l'instanciation i, alors elle sera perçue par e. De cette façon, la définition de l'espace perceptuel d'une entité e recouvre certes des positions spatiales, mais elle est conditionnée par les modalités utilisées en ces positions. Remarquons qu'il peut paraître paradoxal de parler d'espace perceptuel pour une entité de présentation. Cependant le fait qu'une entité de présentation ait pour vocation première une activité de diffusion n'empêche pas que celle-ci soit également dotée de capacités de "perception". Par exemple, un écran d'affichage peut très bien disposer d'un lecteur RFID lui permettant de détecter des utilisateurs à proximité. La même remarque peut s'appliquer aux sources d'informations. Etant donné une entité e, il est utile dans un système d'intelligence ambiant de caractériser l'ensembles des autres entités que e peut percevoir. On définit pour cela, l’ensemble perceptuel d’une entité e comme étant l’ensemble des entités qui se trouvent à l’intérieur de son espace perceptuel. Notons que les déplacements de l'entité e et/ou des autres entités du modèle va entraîner une modification permanente du contenu de l'ensemble perceptuel de e, au fur et à mesure que des entités entrent et sortent de son espace perceptuel. L’inclusion d'une entité donnée dans l’ensemble perceptuel d'une autre entité dépend non seulement de la position géographique des deux entités41 mais également des caractéristiques multimodales de celles-ci. Ainsi, un écran situé à un mètre devant un utilisateur aveugle ne sera pas dans son ensemble perceptuel, au contraire d’un haut-parleur situé à la même distance.

39 Pour un utilisateur disposant d'une acuité visuelle normale. 40 Pour être plus précis, il s'agit d'une union de produits cartésiens car l'espace des attributs de modalités varie en fonction de la modalité considérée. 41 Position géographique au sens large incluant l'orientation des entités.

Page 49: Présentation Multimodale de l'Information

Chapitre 3. Présentation opportuniste de l'information

49

Espace de rayonnement On définit l'espace de rayonnement d'une entité e s'exprimant à travers une modalité m, selon une instanciation i, vis-à-vis d'une entité e', comme étant l'ensemble des point x de l'espace physique E, tels que si e' est situé en x, alors e appartient à l'ensemble perceptuel de e'. Autrement dit, il s'agit de l'ensemble des points de l'espace à partir desquels e' peut percevoir e. On peut noter que l'espace de rayonnement d'une entité e est toujours défini par rapport à une autre entité e'. En effet, cet espace de rayonnement ne dépend pas que des capacités émettrices de l'entité e mais dépend également des capacités réceptrices de l'entité e'. Ainsi en un même point x de l'espace, une entité e'1 pourra percevoir l'entité e alors qu'une autre entité e'2 ne le pourra pas. Par exemple l'espace de rayonnement d'un haut-parleur qui émet un message sonore en utilisant un niveau de volume donné ne sera pas le même selon l'entité réceptrice considérée (utilisateur entendant, mal entendant ou sourd). Il n'est donc pas possible de définir un espace de rayonnement dans l'absolu. On peut faire à ce propos, une analogie avec les zones de couvertures satellitaires. La zone de couverture (espace de rayonnement) d'un satellite est l'ensemble des points de la surface terrestre ou la réception de ses signaux est possible avec une antenne d'un diamètre donné. La zone de couverture est donc bien définie par rapport à l'antenne réceptrice utilisée (Figure 17).

Figure 17. Document Astra décrivant les zones de couvertures du faisceau Europe du satellite SIRIUS 2. Les zones de couvertures dépendent de la taille de l'antenne utilisée

De même que l'ensemble perceptuel d'une entité sert à caractériser les entités qu'elle peut percevoir, on définit l'ensemble de rayonnement d'une entité pour caractériser les entités qui peuvent la percevoir. L'ensemble de rayonnement d'une entité e correspond par conséquent à l'ensemble des entités qui se trouvent à l'intérieur de son espace de rayonnement. Les concepts d'espace perceptuel et d'espace de rayonnement peuvent faire penser respectivement aux concepts de nimbus et d'aura introduits par Benford et Fahlen [Fahlen 1992] [Benford 1993]. Cependant, si le nimbus d'une entité représente ce qui est perçu par cette entité, l'espace perceptuel représente en réalité la dimension spatio-modale au sein de laquelle ce nimbus se constitue. De même, si l'aura d'une entité représente l'ensemble des manifestations de cette entité, l'espace de rayonnement, représente, en réalité, la dimension spatio-modale au sein de laquelle cette aura se manifeste.

Page 50: Présentation Multimodale de l'Information

Chapitre 3. Présentation opportuniste de l'information

50

Cas des sources d'information Les notions d'espace perceptuel et d'espace de rayonnement ne concernent pas uniquement les entités U et P. Elles peuvent également être étendues aux entités K. Pour une source d'information (K), l’espace de rayonnement est défini comme étant la zone géographique dans laquelle elle doit diffuser ses informations, pour un utilisateur donné. En général, une entité K diffuse ses informations uniquement dans la partie de l'espace au sein de laquelle celles-ci sont réputées pertinentes pour les utilisateurs. C'est pourquoi, son espace perceptuel est défini comme étant égal à son espace de rayonnement. En effet, il découle du point précédent qu’une source d’information diffuse des informations à des entités (utilisateurs dans la plupart des cas) qui se situent dans son espace de rayonnement. La détection de ces entités doit donc se produire dans le même périmètre que la diffusion d’informations à leur intention.

Proximité sensorielle : l'événement générateur Dans le modèle actuel, toutes les interactions entre entités prennent naissance suite à un événement particulier : la proximité sensorielle. Cet événement survient lorsqu'une entité e1 entre dans l'espace perceptuel d'une autre entité e242 ou en sort43. Etant donné les définitions précédentes des espaces perceptuel et de rayonnement, il est important de noter que cette proximité sensorielle recouvre deux aspects : d'une part une proximité spatiale référant aussi bien à la distance qui sépare les deux entités que leurs orientations respectives. D'autre part, elle réfère aux capacités en termes de modalités d'entrées/sorties des deux entités considérées44. Ainsi un utilisateur aveugle s'approchant à 50 centimètres d'un écran ne déclenchera aucun événement de proximité sensorielle. Il en sera de même pour un utilisateur voyant situé à la même distance mais tournant le dos à l'écran. Etant donné que l'objet de nos études porte sur la présentation de l'information et donc sur les sorties, l'événement de proximité sensorielle peut être considéré comme étant le seul événement en entrée dans le système. C'est lui qui déclenche toutes les sorties produites au sein du système ambiant. Nous ne nous sommes pas intéressés pour le moment aux autres types d'entrée (entrées explicites de l'utilisateur). Nous reviendrons sur ce point dans le chapitre consacré aux perspectives.

Un modèle opportuniste pour la présentation des informations Le modèle KUP permet de séparer la phase de fourniture d'une information de sa phase de présentation. Lorsqu'un utilisateur (U) pénètre dans l'espace de rayonnement d'une source d'informations (K), celle-ci lui fournit une ou plusieurs unités sémantiques pertinentes. Il est possible qu'au moment où l'utilisateur reçoit ces unités sémantiques, aucun dispositif de présentation (P) ne soit à proximité (au sens de la proximité sensorielle). Cependant vu que les utilisateurs sont mobiles, il est possible qu'ultérieurement, un dispositif de présentation pénètre dans l'espace perceptuel de l'utilisateur. Ceci provoquera alors un événement de proximité sensorielle qui aura pour effet de déclencher le processus de présentation des unités sémantiques de l'utilisateur sur le dispositif en question45.

42 Ceci équivaut à dire que l'entité e2 entre dans l'espace de rayonnement de e1. 43 L'événement de proximité sensorielle peut prendre les valeurs Vrai ou Faux selon qu'il s'agisse de l'entrée d'une entité dans l'espace perceptuel d'une autre entité ou de sa sortie. 44 De ce fait la proximité sensorielle n'est pas nécessairement commutative. 45 Cette présentation est conditionnée par le fait que ces unités sémantiques ne soient pas périmées. Nous introduisons à ce propos deux types de péremption : la péremption spatiale et la péremption temporelle. La péremption spatiale peut se produire (mais pas toujours) lorsque l'utilisateur sort de l'espace de rayonnement de la source d'informations qui a fourni l'unité sémantique. La péremption temporelle est indiquée par une méta-donnée associée à l'unité sémantique.

Page 51: Présentation Multimodale de l'Information

Chapitre 3. Présentation opportuniste de l'information

51

3.2.2 Architecture à agents Dans notre système d'intelligence ambiante, nous disposons de trois types d'entités (K, U, P) mais celles-ci peuvent être multiples. De plus, nous ne posons aucune contrainte de mobilité. Nous supposons que les trois types d'entités peuvent être mobiles. Nous souhaitons donner au personnel des lieux dans lesquels le système est déployé la possibilité de réorganiser la disposition des sources d'informations, de déplacer les dispositifs de présentation, d’en apporter de nouveaux si un événement particulier survient, etc., sans être obligé de configurer quoi que ce soit. Les dispositifs de présentation doivent être capables de s’adapter d’eux-mêmes aux changements, sans qu’une intervention humaine ne soit nécessaire. C'est pourquoi, une architecture logicielle décentralisée, basée sur la notion d’agent s'impose cette fois-ci. Chacun des trois types d’entités évoqués précédemment correspond à un type d’agent:

• les agents utilisateurs (U) : font office de représentation logicielle active des utilisateurs humains;

• les agents informateurs (K) : correspondent à la déclinaison logicielle des sources d’information; ils fournissent des informations aux agents utilisateurs ;

• les agents présentateurs (P) : constituent une interface logicielle avec les dispositifs physiques de présentation; ils sont capables d’évaluer le coût de la présentation d’une information sur un dispositif et d’effectuer cette présentation.

Ainsi, le monde des agents constitue le " miroir" du monde réel, du moins en ce qui concerne nos trois types d’entités d’intérêt. Nous supposons que tous les agents peuvent communiquer entre eux. Les communications peuvent passer par des réseaux sans fils de typeWiFi. Les relations de proximité sensorielle dans le monde physique sont répercutées dans le monde des agents. Par exemple, si un utilisateur a perçoit un dispositif de présentation b, alors la même relation existera entre les agents associés. Les agents sont réactifs : ils restent en sommeil la plupart du temps, et réagissent lorsque des événements particuliers se produisent. En pratique, un agent donné a peut réagir à trois sortes d’événements :

1) un autre agent b vient de s’approcher46 de a ; 2) un agent b, auparavant proche de a, vient de s’en éloigner ; 3) a vient de recevoir un message par le réseau, en provenance d’un agent c quelconque,

qui n’est pas nécessairement proche de a. Ainsi, si les agents se trouvaient seuls dans le système, il ne se passerait jamais rien. Les agents ont des comportements réactifs lorsque se déplacent les entités physiques qu’ils incarnent. Cela signifie que toute la proactivité du système est assurée par les entités physiques, en particulier les utilisateurs humains : ce sont ces derniers qui vont généralement se déplacer et de là, déclencher des cascades de réactions dans le système.

3.2.3 Allocation et instanciation dans KUP Dans KUP, l'allocation et l'instanciation des modalités se fait de façon décentralisée. Dans notre première étude présentée au chapitre 2, en raison du fait que l'interaction concernait généralement un unique utilisateur et un unique poste de travail, nous avions opté pour une approche centralisée. En revanche, dans cette deuxième étude, étant donnée la nature disséminée des entités intervenant dans un système d'intelligence ambiante, il est plus

46 Au sens de la proximité sensorielle.

Page 52: Présentation Multimodale de l'Information

Chapitre 3. Présentation opportuniste de l'information

52

judicieux d'adopter une approche décentralisée conforme à l'architecture à agents décrite précédemment. Ainsi, lorsqu'une entité U pénètre dans l'espace de rayonnement d'une entité P, les deux agents associés à ces entités vont négocier pour déterminer la modalité47 (et son instanciation) la plus adéquate à utiliser pour présenter les unités sémantiques de U. Ce processus de négociation repose sur la notion de profil. Un profil est un ensemble de pondérations attribuées aux différentes modalités et à leurs instances. Les profils sont définis par rapport à une taxonomie arborescente des modalités, commune aux trois types d'entités. La Figure 18 donne un exemple d'arbre taxonomique partiel de modalités en sortie.

Figure 18. Exemple de taxonomie partielle de modalités en sortie Chaque entité définit un arbre de pondération qu'elle va superposer à l'arbre taxonomique des modalités48. Le principe d’un arbre de pondération est simple : il s’agit d’ajouter des pondérations à un arbre taxonomique afin d’exprimer les capacités, préférences et contraintes des utilisateurs, des dispositifs et des unités sémantiques. Une pondération est un nombre réel compris entre 0 (inclus) et 1 (inclus également). Elle peut être située à deux endroits différents :

• au niveau d’un nœud : la pondération s’applique alors au sous-arbre ayant ce nœud pour racine. Une pondération à 1 signifie que les modalités du sous-arbre sont acceptées, voire souhaitées, tandis qu’une pondération à 0 signifie que les modalités correspondantes sont refusées, ou non prises en charge. Les valeurs intermédiaires permettent de nuancer ces deux extrêmes et ainsi d’exprimer des niveaux de préférence;

47 Pour ne pas mélanger les problèmes nous avons préféré pour ce deuxième axe nous restreindre au type de multimodalité exclusive, la complémentarité et la redondance de modalités ayant déjà fait l'objet de l'étude dans l'axe 1. Nous avons préféré ici nous focaliser sur l'étude des contraintes spécifiques induites par le cadre ambiant. 48 Sauf les entités K qui elles définissent un arbre de pondération pour chaque unité sémantique qu'elles produisent. En effet, chaque unité sémantique est susceptible de pouvoir s'exprimer selon des modalités propres. Par conséquent dans le cas des entités K, les arbres de pondération sont rattachés aux unités sémantiques produites et non à l'entité qui les génère.

Page 53: Présentation Multimodale de l'Information

Chapitre 3. Présentation opportuniste de l'information

53

• au niveau d’un attribut : on spécifie alors une fonction définie sur l’ensemble des valeurs possibles de cet attribut, et à valeurs dans l'intervalle réel [0; 1]. Cette fonction indique la pondération accordée à chaque valeur possible de l’attribut. La signification des pondérations est la même que précédemment. Ainsi, les valeurs de l’attribut proches de 1 seront souhaitées, tandis que les valeurs proches de 0 ne le seront pas, voire seront refusées pour une pondération à 0.

Un profil (tel qu’évoqué précédemment) est défini comme étant un arbre de pondération dont la racine correspond à la racine de la taxonomie des modalités. La Figure 19 donne un exemple de profil partiel. Il pourrait correspondre à un utilisateur américain malvoyant, qui préférerait largement les modalités auditives aux modalités visuelles : les pondérations correspondantes sont indiquées en blanc sur fond noir, à proximité des nœuds. Les fonctions de pondération sont indiquées pour quelques attributs : selon que les attributs sont à variations continues ou à valeurs discrètes, les fonctions de pondération sont continues ou discrètes.

Figure 19. Exemple de profil partiel (arbre de pondération)

Etant donné, un utilisateur u, un dispositif de présentation d et une unité sémantique s, la détermination de la modalité (et de son instanciation) la plus adéquate pour présenter s à u sur d, est réalisée en effectuant l'intersection des trois arbres de pondération respectifs. Ce mécanisme d'intersection [Jacquet 2006a] produit à son terme, un arbre de pondération résultat dont les feuilles indiquent les modalités candidates. Il suffit alors de choisir la modalité ayant obtenue la plus forte pondération et de l'instancier en utilisant les valeurs d'attributs ayant elles aussi obtenu les plus fortes pondérations. Cette situation correspond, en réalité, au cas le plus simple : celui d'une unique unité sémantique, d'un unique utilisateur et d'un unique dispositif de présentation. Dans le cas, plus général, où plusieurs utilisateurs sont à proximité du dispositif ou à l'inverse, plusieurs dispositifs sont à proximité de l'utilisateur (où même dans le cas où plusieurs utilisateurs sont à proximité des mêmes dispositifs), des algorithmes plus complexes ont été mis en œuvre de manière à faire collaborer plusieurs dispositifs [Jacquet 2006c] dans le but d'assurer une cohérence globale de la répartition des présentations tout en garantissant un niveau de satisfaction minimal à tous les utilisateurs. Ces algorithmes sont décrits plus en détails dans la deuxième publication jointe à ce manuscrit.

Page 54: Présentation Multimodale de l'Information

Chapitre 3. Présentation opportuniste de l'information

54

3.2.4 La plate-forme PRIAM S'inspirant du modèle KUP, une plate-forme à agents, dénommée PRIAM (PRésentation d’Informations dans l’Ambiant) a été développé pour implémenter et valider les différents concepts introduits. La mise en place d’expérimentations grandeur nature étant relativement lourde est coûteuse, cette plateforme est accompagnée d'un simulateur qui permet de tester toutes les composantes de l'application, sans pour autant devoir les déployer grandeur nature (Figure 20). Ce simulateur a permis de vérifier le bon fonctionnement des algorithmes d'allocation et d'instanciation. Différentes situations, de la plus simple à la plus complexe peuvent être testés de cette manière, avec le nombre nécessaire de dispositifs de présentation, d’utilisateurs et de sources d’information.

Figure 20. Simulateur de la plate-forme PRIAM Néanmoins, nous n'avons pas voulu nous arrêter au stade de la simulation. Trois expérimentations en conditions quasi-réelles ont été réalisées. La première est relative à la présentation des résultats d'un examen à des étudiants sur un panneau dynamique capable de reconnaître les étudiants à proximité et de ne présenter que leurs notes. Une évaluation comparative entre un affichage classique présentant les notes de tous les étudiants et cette présentation dynamique a ainsi pu être réalisée. La seconde expérimentation porte sur la présentation dynamique d'informations concernant les portes d'embarquement de passagers devant prendre un avion. Enfin la dernière concerne l'aiguillage de voyageurs en train, devant prendre des correspondances. Ces trois expérimentations ont permis de tester la plate-forme en conditions quasi-réelles et de démontrer l’intérêt de n’afficher que les informations relatives aux utilisateurs situés à proximité d’un dispositif de présentation. En effet, celui-ci est dans ce cas moins chargé et les utilisateurs retrouvent plus vite leurs informations. Elles ont également permis de mettre en évidence certains problèmes tels que le respect de la vie privée. Par exemple, lorsqu'un voyageur est seul devant un écran, il devient facile pour une tierce personne de connaître sa

Page 55: Présentation Multimodale de l'Information

Chapitre 3. Présentation opportuniste de l'information

55

destination. Une solution possible dans ce cas serait d'introduire dans la présentation, quelques informations supplémentaires factices de manière à ajouter du bruit et empêcher ainsi une personne indélicate d'obtenir une information qui ne la concerne pas. Dans ce second axe, nous avons exploré le problème de la présentation multimodale de l'information dans un cadre ambiant. La nature disséminée des systèmes informatiques au sein de l'environnement physique des utilisateurs nous a naturellement amené à opter cette fois-ci pour un modèle multi-agents au sein duquel les agents représentant les utilisateurs occupent une place prépondérante. Nous avons en particulier souligné le fait que ce monde d'agents n'était qu'un miroir du monde réel et que la proactivité du système était assurée par les utilisateurs humains qui en se déplaçant déclenchent des réactions dans le système. Au final, on ne construit pas réellement un monde d’agents, mais plutôt une agentification du monde réel. On rejoint ainsi la vision de l’intelligence ambiante, dans laquelle des systèmes informatiques sont discrètement à l’écoute des actions des êtres humains, et peuvent ainsi intervenir de façon opportune et non intrusive.

Page 56: Présentation Multimodale de l'Information

56

Page 57: Présentation Multimodale de l'Information

57

Chapitre 4

Présentation non visuelle de

l'information

Page 58: Présentation Multimodale de l'Information

58

Page 59: Présentation Multimodale de l'Information

59

4 Présentation non visuelle de l'information

La présentation non visuelle de l'information concerne l'interaction entre un système et un utilisateur non voyant. Nous ne traitons pas ici de l'interaction avec les utilisateurs mal voyants car il s'agit là d'une problématique différente. Nous nous plaçons donc exclusivement dans le cas d'utilisateurs aveugles. En l'absence du sens visuel, il convient d'exploiter de façon optimale les autres sens disponibles. C'est ce que font généralement les personnes non voyantes puisque leurs sens tactiles et auditifs sont généralement plus développés que chez une personne voyante. La présentation multimodale de l'information doit donc essayer de tirer parti au maximum de ces deux modes de communication afin d'essayer de compenser autant que faire se peut la déficience du mode visuel. Dans ce troisième axe nous ne cherchons pas à concevoir un système adaptatif, mais un système adaptable, dynamiquement, pour une catégorie particulière d'utilisateurs. Nous proposerons ainsi à l'utilisateur aveugle deux modalités (une tactile, l'autre auditive) et celui-ci pourra les exploiter à sa convenance. Après avoir exploré dans des travaux précédents le problème de l'accès aux interfaces graphiques [Bellik 1994] [Bellik 1997b] et au Web [Farhat 1999], nous avons choisi, cette fois-ci, le problème de l'aide au déplacement des non-voyants car ce type d'application présente la particularité de produire un flux permanent d'informations qu'il faut présenter de façon continue à l'utilisateur aveugle. De ce fait les présentations que nous cherchons à concevoir doivent permettre une perception quasi-réflexe de l'information sans quoi l'effort cognitif à produire serait trop important et rendrait le système inutilisable au quotidien. Les travaux présentés dans ce troisième axe ont été menés en collaboration avec le laboratoire Aimé Cotton. Ils diffèrent de ceux présentés dans les deux précédents axes, dans le sens où il ne s'agit pas d'élaborer des modèles, des architectures et des outils, mais de concevoir une interface spécifique en suivant une démarche très expérimentale. Notre objectif est d'explorer les difficultés que pose la présentation multimodale de l'information en l'absence d'un sens aussi important que la vision afin d'acquérir une expérience qui nous permettra plus tard d'intégrer les enseignements tirés dans la conception de systèmes multimodaux en sortie "universels".

4.1 Axe de recherche D’après l’Organisation Mondiale de la Santé, il y aurait 45 millions de personnes aveugles dans le monde. Bien que ce chiffre ne corresponde qu’à environ 1‰ à 2‰ de la population des pays industrialisés, il convient de ne pas le négliger et de se pencher sur les problèmes que les non-voyants rencontrent dans leur vie quotidienne. En particulier, ceux-ci sont confrontés à de grandes difficultés lorsqu'il s'agit de se déplacer en ville, où les rues, les transports publics et les centres commerciaux représentent des environnements hostiles en perpétuel changement. En conséquence, les personnes aveugles peuvent se sentir en situation de danger lorsqu’elles se déplacent seules, ce qui limite leur autonomie. En effet, si les non-voyants connaissent bien en général le parcours pour se rendre dans quelques endroits connus, ils ne peuvent cependant pas prévoir à l’avance les obstacles inopinés qui pourraient se présenter. Au final, la peur de l’inconnu conduit souvent les personnes aveugles à restreindre leurs univers à un petit nombre d’endroits familiers. Ils n’osent pas s’aventurer ailleurs, ce qui limite fortement leur liberté de déplacement. Les chiens-guides constituent une aide précieuse pour éviter les obstacles et trouver son chemin en environnement inconnu, mais ils sont très onéreux : le coût par binôme personne-chien est compris entre 15.000 et 30.000 euros. En dépit du soutien financier de certaines associations, rares sont les aveugles qui peuvent disposer d’un chien-guide, alors que les demandes sont nombreuses.

Page 60: Présentation Multimodale de l'Information

Chapitre 4. Présentation non visuelle de l'information

60

On peut se demander pourquoi les chiens-guides sont si utiles. La principale raison est qu’ils perçoivent les obstacles à distance et peuvent ainsi anticiper les manœuvres d’évitement. Les aveugles qui utilisent la classique canne blanche ne peuvent percevoir les obstacles silencieux qu’au bout de leur canne, donc leur capacité d’anticipation s’en trouve très limitée [Jansson 1991]. Le chien peut améliorer leurs performances d’anticipation, ce qui conduit directement à des trajectoires plus fluides, à des déplacements plus aisés, et à une bien plus grande confiance en soi [Blash 1991]. De même, l’idée à la base des systèmes d’aide au déplacement est de fournir des informations aux utilisateurs à l’avance, de façon à leur donner la capacité à anticiper la présence d’obstacles et à adapter leur comportement en conséquence. Il est important de préciser que la canne blanche n’est pas seulement un outil utile à la détection des obstacles; c’est aussi un moyen qui permet aux aveugles d’être identifiés comme tels par les personnes voyantes. En conséquence, tous les dispositifs d’aide au déplacement des aveugles doivent être conçus pour être des compléments, et non des substituts, à la canne blanche: comme ce ne sont pas des indicateurs sociaux de cécité, ils ne peuvent pas prétendre la remplacer. Les systèmes électroniques d’aide au déplacement pour non-voyants sont confrontés à deux problèmes différents. D’une part, ils doivent acquérir des informations sur l'environnement de l'utilisateur aveugle : en général il s'agit d'informations de distance. En effet, comme leur objectif premier est d’avertir les utilisateurs des obstacles qui se trouvent sur leurs chemins, ils doivent être capables de mesurer la distance séparant l’utilisateur de ces obstacles. D’autre part, ils doivent présenter cette information aux utilisateurs. La méthode de présentation doit être adaptée à des personnes non voyantes et doit convenir à une utilisation intensive. Différentes aides électroniques au déplacement existent et proposent différentes solutions aux deux problèmes soulevés.

4.1.1 Capture de l’information Tous les dispositifs actuels capturent des informations de distance. Ils utilisent pour cela diverses variétés de télémètres et de proximètres basés sur trois principaux types de capteurs : les capteurs infrarouges, les capteurs à ultrasons et les télémètres laser. Les capteurs infrarouges sont caractérisés par leur ouverture angulaire assez importante (20 degrés), ce qui permet la détection d’obstacles dans la direction générale de déplacement de l’utilisateur. Cependant, leur portée est limitée à quelques mètres, ce qui réduit leurs capacités d’anticipation. Le Tom Pouce (Figure 21), développé au LAC49, est un proximètre à infrarouges qui est capable de détecter des obstacles à des distances de 0,5, 1,5 ou 3 mètres selon la configuration choisie par l'utilisateur non voyant. Celui-ci peut sélectionner la portée voulue à l’aide d’un interrupteur à trois positions. Ainsi, il est possible de détecter des objets soit très proches, soit plus éloignés, en fonction de la tâche courante, par exemple suivre un couloir ou essayer de trouver une porte dans un mur. Les capteurs à ultrasons ont à peu près les mêmes caractéristiques que les capteurs à infrarouges, que ce soit en termes de portée ou d’ouverture angulaire. Le Miniguide50

et le Polaron51 sont des exemples d’aides au

déplacement qui utilisent des capteurs à ultrasons pour détecter les obstacles. Les deux appareils peuvent être configurés pour détecter des obstacles à différentes distances (ne dépassant pas 5 mètres).

49 Laboratoire Aimé Cotton 50 Le Miniguide est un produit de la société australienne GDP Research, voir http://www.gdp-research.com.au 51 3Le Polaron est un produit de la société Nurion-Raycal, voir http://www.nurion.net/polaron2.htm

Page 61: Présentation Multimodale de l'Information

Chapitre 4. Présentation non visuelle de l'information

61

Figure 21. Photo du Tom Pouce Enfin les télémètres laser utilisent une diode pour émettre un rayon laser de faible puissance. A l'aide d'une petite caméra et d'une méthode de calcul simple, il est possible de déterminer avec une précision plus que suffisante, la distance à laquelle apparaît le spot rouge du laser, ce qui détermine la distance à l'obstacle puisque le spot laser apparaît toujours sur le premier obstacle rencontré. Un bon exemple de télémètre à laser est le Télétact 1 [Farcy 2001], développé par le LAC. En balayant l'espace avec le dispositif et grâce à la propriété de proprioception (conscience de la position et de l'orientation de son corps et de ses membres dans l'espace), l'utilisateur aveugle peut facilement déduire la direction de l’appareil et de là celle de l'obstacle. Le Lasercane N-200052

est un autre dispositif laser assez similaire au Télétact 1. Cependant, le Lasercane est intégré dans une canne blanche traditionnelle, tandis que le Télétact 1 peut se fixer ou se détacher de la canne. L’autre différence réside dans la portée des appareils : le Télétact 1 porte à 10 m, contre seulement 3,65 m pour le Lasercane N-2000. Les dispositifs à infrarouges ou ultrasons sont plus faciles à utiliser que les appareils à laser car ils ont une plus grande ouverture angulaire : il suffit juste de pointer devant soi pour détecter les obstacles. A l’inverse, les systèmes à laser ont un faisceau très fin, obligeant les utilisateurs à balayer leur environnement de gauche à droite et de droite à gauche, ce qui requiert un apprentissage et de bonnes capacités de proprioception. Les capteurs à laser souffrent d’un autre défaut : leur rayon laser à 670 nm ne peut pas détecter les fenêtres propres parce qu’il traverse le verre sans être réfléchi, et ce sont les objets situés derrière les fenêtres qui sont alors détectés. Les surfaces très sombres, telles que les carrosseries des voitures noires métallisées posent le même problème. Ceci crée une gêne certaine pour les utilisateurs. Cependant, les capteurs à laser sont bien plus précis que ceux basés sur les infrarouges ou les ultrasons, ce qui leur confère un avantage certain.

4.1.2 Présentation de l’information Une fois l’information de distance mesurée, le dispositif d'aide au déplacement doit la présenter à l’utilisateur aveugle sous une forme adaptée. Les systèmes existants utilisent soit des interfaces sonores soit des interfaces tactiles (le plus souvent sous forme de vibrations). Par exemple, le Lasercane N-2000 met en oeuvre une interface sonore rudimentaire : le

52 Le Lasercane N-2000 est un produit de la société Nurion- Raycal, voir http://www.nurion.net/lasercane.htm.

Page 62: Présentation Multimodale de l'Information

Chapitre 4. Présentation non visuelle de l'information

62

système utilise simplement un haut-parleur qui émet un signal quand un obstacle se trouve devant l’utilisateur. L’appareil possède également une interface tactile sous forme de vibrations envoyées à l'index, ce qui permet aux signaux sonores d'être désactivés dans les endroits où le bruit est prohibé (musées, théâtres, etc.). Le système fournit donc, une information du type tout ou rien sur la présence d’obstacles. Si l'utilisateur entend un signal sonore ou ressent une vibration au niveau de son index il doit s’arrêter. A l’inverse, en l’absence de signal ou de vibration, il peut continuer à avancer. Pour transmettre une information de distance plus précise, le Télétact 1 exploite 28 notes de musique différentes, qui correspondent à 28 intervalles de distance (plus la fréquence est élevée, plus la distance à l'obstacle est courte). Les 28 intervalles de distance sont inégaux : ils sont plus petits à faible distance, de manière à offrir à l'utilisateur une plus grande précision lorsque les obstacles deviennent plus proches (Figure 22).

Figure 22. Correspondance entre les notes de musique et les intervalles de distance du Télétact 1 (échelle logarithmique)

Pour obtenir le profil des obstacles en face de soi, l'utilisateur aveugle doit balayer l’espace situé devant lui de gauche à droite et de droite à gauche. Il est plus important d’interpréter la “mélodie” générée par le profil de l’environnement que de réussir à reconnaître les notes émises de façon individuelle. Les utilisateurs doivent donc développer des capacités d’interprétation des mélodies afin de pouvoir identifier des motifs courants comme des couloirs, des escaliers, etc. Pour éviter une confusion entre les sons émis par le Télétact et les éventuels bruits environnants (venant d’une rue ou de la foule, par exemple), le Télétact utilise une oreillette dont on peut régler le volume à tout moment afin de toujours bien distinguer le signal. De plus, cette solution présente l’avantage de ne pas perturber l’environnement. Notons l'importance ici d'utiliser une oreillette et non un casque qui aurait pour effet d'isoler l'utilisateur de son environnement. Ceci permet à l'utilisateur aveugle de continuer à percevoir les sons de son environnement ce qui est crucial chez les personnes non voyantes.

Page 63: Présentation Multimodale de l'Information

Chapitre 4. Présentation non visuelle de l'information

63

4.2 Contribution à cet axe de recherche Notre contribution à cet axe de recherche a donné lieu à la deuxième génération des appareils brevetés Télétact [Bellik 2001] (Figure 23). Deux améliorations majeures ont été apportées à cette seconde génération d'appareils. La première concerne la miniaturisation des capteurs et l'ajout de capteurs infrarouges en complément du télémètre laser. Cette partie du travail qui relève de l'électronique et de l'optique a été prise en charge par René Farcy et son équipe du laboratoire Aimé Cotton. La deuxième amélioration concerne l'interface Homme-Machine du dispositif et c'est à ce niveau là qu'est intervenu notre apport [Bellik 2002a].

Figure 23. Photo du Télétact 2 L’interface sonore du Télétact 1 présente certains défauts. Elle nécessite une longue période d'apprentissage encadré (6 mois) [Farcy2003] qui rend l'usage du dispositif rédhibitoire pour un nombre important d'utilisateurs. Réussir à différencier les notes de musique dans la rue n’est pas un problème, grâce en particulier à l'oreillette et au volume ajustable. Mais lorsque le bruit ambiant fluctue de manière fréquente, il faut alors sans cesse modifier le volume, et il est difficile dans ce cas de concevoir une commande automatique et efficace pour le réglage du volume. En outre, certaines personnes ont des difficultés à fusionner rapidement l’information sonore et l’information de proprioception (mouvement du poignet) pour en déduire des indications spatiales. Cette fusion doit devenir une activité réflexe après apprentissage, car si elle reste consciente, l’utilisation du dispositif requiert alors un effort important de concentration mentale et induit une fatigue chez l'utilisateur. Enfin certains utilisateurs aveugles n'aiment pas que leur audition soit monopolisée (même partiellement) par les sons produits par le dispositif et préfèrent garder toute leur audition libre pour percevoir les bruits de l'environnement. C’est pourquoi nous avons proposé une nouvelle interface tactile en complément de l'interface sonore, d'une part afin que les utilisateurs puissent avoir le choix entre les deux modalités, et d'autre part, afin de pouvoir mener des études comparatives sur l'usage de ces deux modalités. Nous n'avons pas souhaité proposer des interfaces tactiles similaires à celles qui existent déjà pour deux raisons principales. La première est que les interfaces tactiles existantes présentent certains défauts que nous voulions justement corriger. Par exemple, l'interface tactile du Lasercane N-2000 qui est binaire ne présente pas un niveau de précision suffisant. Quant à

Page 64: Présentation Multimodale de l'Information

Chapitre 4. Présentation non visuelle de l'information

64

l'interface tactile du Miniguide, celle-ci module la fréquence des vibrations produites en fonction de la distance des obstacles. Ceci nécessite un effort de concentration intense pour arriver à discriminer les stimulations tactiles, ce qui devient rapidement fatiguant dans le cadre d'un usage quotidien. La deuxième raison est qu'il n'y aurait eu aucun apport original à reprendre le même principe d'une interface existante, même si cela nous aurait quand même permis de mener des études comparatives sur l'usage des deux modalités tactile et sonore. Pour concevoir et mettre en oeuvre l'interface tactile du Télétact 2, nous avons adopté une approche itérative et expérimentale [Bellik 2002b]. Avant d'arriver à l'interface finale, différents types d'interface ont été testés avec des sujets aveugles. La première de ces interfaces a consisté en l'utilisation de deux vibreurs, chacun ayant un rôle propre. Le premier vibreur était utilisé pour transmettre les informations de distances; les vibrations devenaient de plus en plus rapides et de plus en plus granuleuses au fur et à mesure que la distance à l'obstacle se raccourcissait. Le deuxième vibreur a quant à lui été utilisé pour indiquer la présence d'angles (transitions rapides). Nous pensions que l'ajout d'un effet granuleux aux vibrations pouvait aider à obtenir un meilleur effet discriminatoire mais cela s'est avéré insuffisant. De plus l'information de distance était ainsi présentée de façon relative et non absolue, ce qui a gêné les utilisateurs. Cette solution a donc été assez rapidement rejetée et une deuxième interface a alors été testée.

Figure 24. Interfaces tactiles testées Le principe de la seconde interface était d'utiliser non plus deux vibreurs, mais huit disposés selon la Figure 24 (a).Le principe de cette interface consistait à associer à chaque vibreur un intervalle de distance donné, allant du premier vibreur pour les distances les plus éloignées jusqu'au dernier pour les plus rapprochées. L'index de l'utilisateur positionné sur les 8 vibreurs devait lui permettre de déduire la distance à l'obstacle selon le vibreur qui était actif. Malheureusement cette solution n'a pas non plus donné satisfaction en raison de son faible pouvoir discriminant. Les utilisateurs avaient beaucoup de mal à identifier le vibreur qui entrait en action. Nous avons alors essayé de modifier le positionnement de la main de manière à ce que chaque doigt soit positionné à la frontière de deux vibreurs (Figure 24 (b)). Cette solution s'est avérée meilleure que la précédente mais avec un pouvoir discriminant encore insuffisant. Cependant elle nous a permis d'aboutir à l'interface finale présentée dans la Figure 24 (c). Le principe de la méthode est très simple. Chaque doigt (sauf le pouce) est en contact avec un seul vibreur. Chaque vibreur correspond à un intervalle de distance particulier ([0m, 1.5m], [1.5m, 3m], [3m, 6m], [6m, +∞]). Si un obstacle est détecté dans l’un des quatre intervalles, alors le vibreur correspondant est activé. Cette interface est celle qui a donné le plus de satisfaction. Cela s'explique d'une part par la simplicité de son principe qui ne nécessite pas un apprentissage de longue durée ni un effort cognitif important même lors d'une utilisation intensive du dispositif. D'autre part, elle offre un meilleur pouvoir discriminant du fait de la séparation des vibreurs.

Index Majeur

Annulaire Auriculaire

Index

Majeur

Auriculaire

Annulaire

(a) (b) (c)

Page 65: Présentation Multimodale de l'Information

Chapitre 4. Présentation non visuelle de l'information

65

Avec cette nouvelle modalité tactile, la perception est plus directe et plus intuitive. C’est pourquoi les débutants préfèrent généralement cette modalité. Cependant, les personnes habituées à la modalité sonore estiment que la modalité tactile est moins précise. En effet, les meilleurs résultats à ce jour ont été obtenus avec la modalité sonore, par des utilisateurs expérimentés. En conséquence, les meilleurs utilisateurs ont tendance à choisir la modalité sonore. Mais globalement, lors d'un usage quotidien, les performances des modalités sonore et tactile ne sont pas si éloignées, en dépit de la réduction du nombre d’intervalles de 32 à 4 dans le cas de l’interface tactile. De plus, certains utilisateurs expérimentés commencent à accomplir avec l’interface tactile des tâches que nous n'avions pas imaginées au départ comme par exemple, suivre une personne dans la foule. Ceci confirme bien le concept de co-adaptation de Mackay [Mackay 1990]. Des expériences en cours vont certainement indiquer comment ces interfaces peuvent encore être améliorées. Cependant, il semble clair que l'utilisation du dispositif demande une bonne représentation de l’espace chez l’utilisateur, ainsi qu’une bonne proprioception et une attitude active [Farcy 2004]. Il faut en effet balayer l’environnement pour chercher les obstacles. Ceci est très difficile pour les aveugles de naissance en raison de leur manque de représentation spatiale. Dans ce cas, une longue période d’apprentissage est requise avant de pouvoir utiliser un dispositif électronique d’aide au déplacement au quotidien en toute sécurité, et les personnes âgées ont des difficultés supplémentaires (bien que quelques exceptions existent). Le principal avantage de ces dispositifs réside dans les bonnes capacités d’anticipation obtenues par les utilisateurs, ainsi que dans l’optimisation des déplacements. Les meilleurs résultats sont obtenus par des aveugles actifs âgés de 20 à 30 ans et qui ont vu auparavant. Avant de clore cette section, signalons un point important concernant l'évaluation de la modalité tactile [Leroux 2005] (et d'un système interactif en général). La modalité tactile du Télétact 2 est utilisée au quotidien par quelques utilisateurs depuis deux ans. Les résultats de cette longue période d'utilisation ont montré que des effets de résonance pouvaient se produire au niveau des doigts ce qui empêche la bonne identification du vibreur actif. C'est pourquoi les utilisateurs préfèrent actuellement utiliser uniquement deux vibreurs, le premier étant placé au niveau de l'index et le second au niveau de l'auriculaire de manière à éloigner au maximum les deux vibreurs et éviter ainsi les effets de résonance. Pour compenser le nombre d'intervalles qui chute alors à deux, deux types de vibrations sont actuellement utilisées (lisse et granuleuse). Cela semble être un bon compromis, pour le moment, pour retrouver les quatre intervalles de distance tout en évitant les effets de résonance. Des problèmes liés à l'utilisation des vibreurs par temps froid sont également apparus. La solution à ce problème pourrait être d'établir une connexion sans fil entre les vibreurs et le télémètre de manière à ce que l'utilisateur puisse avoir les vibreurs autour de ses doigts tout en gardant la main au chaud dans un gant ou dans sa poche par exemple. Ceci nous confirme l'importance d'une évaluation à long terme [Hornbæk 2006]. En effet, les résultats d'une évaluation portant sur une longue période peuvent faire apparaître des éléments que les résultats d'une évaluation de courte durée ne montrent pas. Ces effets de résonance n'avaient pas été signalés lors des évaluations courtes de même que nous n'avions pas menés nos tests en période froide. C'est un usage au quotidien qui a permis de révéler ces problèmes. Beaucoup de travaux dans le domaine des IHMs se basent sur des évaluations de courte durée. Bien que ce type d'évaluation puisse être bénéfique pour avoir une idée sur l'utilisabilité d'un système interactif donné, il convient cependant d'être prudent quant aux résultats que le même système produirait s'il était utilisé régulièrement pendant une longue période de temps.

Page 66: Présentation Multimodale de l'Information

66

Page 67: Présentation Multimodale de l'Information

67

Chapitre 5

Conclusion et perspectives

Page 68: Présentation Multimodale de l'Information

68

Page 69: Présentation Multimodale de l'Information

69

5 Conclusion et Perspectives

De par la richesse des interactions qu'elle offre, la multimodalité constitue une alternative intéressante pour répondre à une variabilité de plus en plus croissante du contexte d'interaction. Face à la diversité des utilisateurs, des systèmes et des environnements, il n'est plus concevable aujourd'hui de continuer à proposer des interfaces au comportement rigide. Au caractère dynamique du contexte d'interaction, l'interface doit, elle aussi, répondre par une adaptation dynamique. Cependant, cette adaptation doit se faire selon des critères ergonomiques d'utilisabilité, de continuité, de pertinence, etc. En un mot, elle doit être "intelligente". Ceci encouragera sans doute, dans les années à venir, le rapprochement entre l'ingénierie de l'interaction et l'intelligence artificielle. Les travaux présentés dans ce mémoire ont exploré l'intérêt de disposer de plusieurs modalités en sortie pour améliorer la présentation d'informations à l'utilisateur. Nous avons mené nos études dans trois cadres différents : le cadre de la mobilité qui offre un contexte riche et dynamique, le cadre de l'intelligence ambiante qui introduit de nouvelles contraintes et qui ouvre un large champ de perspectives au domaine de l'interaction Homme-Machine en général et à l'interaction multimodale en particulier et enfin le cadre de l'interaction non visuelle qui soulève le problème l'intégration de tous les citoyens et des handicapés en particulier à la société de l'information. Dans les deux premiers axes de nos travaux, nous avons proposé des modèles pour des systèmes multimodaux en sortie adaptatifs. Nous avons veillé à distribuer les problèmes étudiés entre les deux axes de manière à ne pas cumuler les difficultés et à procéder de façon incrémentale dans la recherche de solutions. En particulier, pour le deuxième axe, nous avons préféré nous focaliser sur les nouvelles contraintes induites par le cadre ambiant de l'étude (nécessité d'adopter une architecture à agents distribuée contrairement à l'architecture centralisée du premier axe, importance de disposer d'une représentation logicielle active de l'utilisateur, etc.) et restreindre certains aspects de la problématique multimodale, déjà étudiés dans le premier axe. C'est ainsi que dans ce deuxième axe, nous avons préféré nous limiter à l'exploitation de la multimodalité exclusive53 et au traitement de présentations non évolutives, aspects qui ont été traités dans l'axe 1. Le troisième axe de nos travaux se distingue des deux premiers par le fait que l'étude a porté sur la conception d'un système multimodal en sortie adaptable et non adaptatif. Ce dernier axe a permis de montrer qu'en l'absence d'un système sensoriel humain (la vision dans notre cas), la conception d'une simple interface, uniquement adaptable, requiert de nombreuses évaluations ergonomiques et un long processus itératif. Cependant les résultats issus de ce type d'étude pourraient à terme être exploités dans des systèmes adaptatifs. Les modèles que nous avons élaborés, les outils et les plates-formes que nous avons proposés, les évaluations effectuées, constituent un début de réponse au problème de la présentation multimodale de l'information mais soulèvent parallèlement de nouvelles questions et de nombreuses perspectives relatives aussi bien aux travaux effectués qu'à de nouvelles études qu'il convient de mener dans le futur. Nous résumons ci-dessous ces différentes perspectives.

53 La multimodalité exclusive autorise l'usage de différentes modalités mais pas de manière combinée (complémentaire ou redondante).

Page 70: Présentation Multimodale de l'Information

Chapitre 5. Conclusion et perspectives

70

5.1 Extensions du modèle WWHT

5.1.1 La fusion en sortie La fusion est habituellement associée à la multimodalité en entrée, car c'est l'utilisateur qui produit plusieurs éléments liés à travers différentes modalités et c'est le système qui doit les regrouper et les fusionner pour en dégager la sémantique globale. Mais aussi paradoxal que cela puisse paraître, nous retrouvons également de la fusion en sortie. Reprenons l'exemple de réception d'un appel téléphonique, évoqué au chapitre 2. Nous avions vu que cette information pouvait être décomposé en deux unités d'informations élémentaires : l'événement appel téléphonique et l'origine de l'appel. Supposons à présent, que pour chacune de ces deux unités d'informations, ce soit la modalité sonnerie qui ait été choisie par le processus d'allocation : une sonnerie générique pour l'événement appel et une sonnerie personnalisée qui permet d'identifier l'appelant pour l'origine de l'appel. Actuellement dans le modèle, cela a pour effet de provoquer une incohérence au sein de la présentation globale, ce qui va entraîner un retour en arrière et une demande de réallocation. Une solution possible serait d'exploiter le facteur temporel pour jouer de façon séquentielle les deux sonneries. Mais cela n'aurait en réalité aucun intérêt. Si on jour en premier la sonnerie personnalisée, la seconde ne sert plus à rien et si on joue en premier la sonnerie générique, l'utilisateur aura probablement déjà répondu à l'appel avant que la seconde sonnerie personnalisée ne se déclenche. Une meilleure solution serait d'arriver à fusionner les deux éléments de la présentation pour ne garder au final que la sonnerie personnalisée. En effet, cette dernière est capable d'indiquer aussi bien l'événement appel que son origine. Cela soulève un point intéressant : une instanciation donnée peut parfois être associée à deux unités d'informations différentes ! Ce type de relations n'est pas pour l'instant géré par le modèle. Il convient par conséquent d'étendre le modèle WWHT pour supporter ce type de relations et par la suite de définir les mécanismes de fusion en sortie qui peuvent en découler.

5.1.2 Instanciation hétérogène Le modèle WWHT associe à un contenu concret, une instanciation unique de modalité. Par exemple le texte "Porte d'embarquement n° 15" représentant le contenu concret de l'unité d'information élémentaire indiquant la porte d'embarquement d'un vol donné, pourrait être affiché dans une police de type Arial, de taille 72 et de couleur blanche. L'instanciation est donc homogène et s'applique à tous les éléments du contenu concret. Or parfois, il se peut que l'on désire appliquer une instanciation donnée à une partie du contenu concret et une autre instanciation à la partie restante. Pour reprendre l'exemple précédent, il est possible que l'on souhaite afficher le numéro "15" selon une couleur différente du reste du texte, avec un attribut gras et un effet de clignotement. Cela n'est malheureusement pas possible à spécifier, de façon simple, dans le modèle actuel. Une solution possible serait de décomposer à nouveau cette unité d'information élémentaire (qui ne le serait plus dans ce cas) en deux autres unités d'information élémentaires de manière à pouvoir instancier chacune d'elle de façon indépendante. Cette solution présente néanmoins le risque, dans le cas d'une mauvaise conception du modèle comportemental, d'attribuer à chaque partie du contenu concret non seulement une instanciation différente mais une modalité différente. De plus, cela risque d'alourdir considérablement le modèle comportemental. Une solution plus intéressante à étudier, serait de définir une nouvelle modalité "2Textes" qui aurait en son sein un contenu concret composé de deux chaînes de caractères et des attributs morphologiques dédoublés de manière à ce que chaque chaîne de caractère puisse disposer de ses propres valeurs d'instanciation. On pourrait, de cette façon, disposer d'une instanciation hétérogène pour un même contenu concret.

Page 71: Présentation Multimodale de l'Information

Chapitre 5. Conclusion et perspectives

71

5.1.3 Relations temporelles Lors de la conception d'une présentation multimodale, il est possible que l'on désire spécifier des fenêtres temporelles différentes pour chacun des éléments composant la présentation. Par exemple, dans le cas de la réception d'un appel téléphonique, il est possible qu'on désire commencer par produire 2 vibrations, puis renforcer la présentation par une sonnerie. Ce type de comportement peut-être géré dans le modèle WWHT grâce aux mécanismes d'évolution de la présentation. Dans un premier temps la présentation est produite sous forme de vibrations puis dans un second temps elle subit une mutation. Cependant, ceci peut se révéler relativement lourd à spécifier pour un cas aussi simple ne comportant pas de raffinement (changement des valeurs d'instanciation). Il serait plus simple dans ce cas (mutations uniquement) de rajouter la possibilité de spécifier directement des relations temporelles entre les différentes modalités composant la présentation.

5.1.4 Approche à base de négociation Actuellement, les différentes phases du modèle WWHT sont appliquées de façon séquentielle. En cas de blocage dans une phase donnée un retour en arrière est effectué vers l'étape précédente pour lui demander de proposer une autre solution susceptible d'aboutir (backtracking). Il serait intéressant d'étudier une autre approche à base d'une véritable négociation entre les différents modules intervenant dans les différentes phases du modèle (Figure 25). Cependant les mécanismes de ce processus de négociation restent encore à définir.

Figure 25. Vers une élaboration négociée de la présentation multimodale

5.2 Extensions du modèle KUP

5.2.1 Prise en compte de l'environnement Dans le modèle KUP, les contraintes liées à l'environnement sont prises en charge par les dispositifs de présentation. Par exemple, nous avons supposé qu'un système de haut-parleurs pouvait disposer d'un microphone servant à mesurer le bruit ambiant ce qui lui permet d'ajuster dynamiquement son profil de manière à favoriser une instanciation avec un volume plus élevé. Ce choix a été fait dans un souci de ne pas trop complexifier le modèle dès le départ et parce qu'il peut paraître assez naturel que le dispositif puisse s'auto-réguler en fonction des contraintes environnementales. Cependant, ce choix présente l'inconvénient de devoir dupliquer au sein de dispositifs proches les uns des autres, des capteurs liés à un même

Information sémantique

Contrôleur de dialogue

Informationnon présentable

Présentation multimodale instanciée

Informations élémentaires

Moteur de rendu

Présentation multimodale

allouée

Allocation

Instanciation

Fission sémantique

Présentationnon instanciable

Moteur de rendu

Allocation Instanciation

Fissionsémantique

NCF

NégociationCoordination

Fusion

Contrôleurde dialogue

Page 72: Présentation Multimodale de l'Information

Chapitre 5. Conclusion et perspectives

72

environnement. C'est pourquoi, il serait intéressant, d'étudier l'extension du modèle en introduisant explicitement une nouvelle entité "Environnement" (E). Cette nouvelle entité disposerait alors de son propre profil, lequel serait intégré dans les opérations d'intersection avec les profils de l'utilisateur, de l'information et du dispositif en vue de la détermination de la modalité la plus adéquate et de son instanciation. La question qui se pose alors est : quelle déclinaison physique associer à cette entité ? Trois options différentes peuvent être envisagées :

1. diviser l'espace physique de façon exhaustive et associer une entité E à chaque portion de cet espace,

2. associer une entité E à chaque entité U, 3. associer une entité E à des groupes de dispositifs. Les dispositifs subissant les mêmes

contraintes environnementales seraient associés au même groupe. La première option ne nous semble pas intéressante car elle pose la question de l'intérêt de disposer d'une entité E là où il n'y pas d'entités de présentation disponibles. La prise en compte des contraintes environnementales a pour but d'influer sur le processus de présentation. En l'absence d'entité de présentation, l'intérêt de disposer d'entités E paraît donc limité. La seconde option présente un avantage certain lorsque l'utilisateur utilise des dispositifs de présentation privés (écran de PDA, téléphone, etc.). En revanche, elle impose le port de capteurs supplémentaires ce qui risque d'être gênant pour l'utilisateur. De plus cette solution ne fait que déporter le problème de la duplication des capteurs sur les entités U. Enfin la troisième option nous semble la plus intéressante car elle permet de factoriser les capteurs autour des dispositifs concernés par un même environnement.

5.2.2 Prise en compte des propriétés CARE Actuellement le modèle KUP ne permet de prendre en charge que la multimodalité exclusive. Pour contourner le problème des propriétés CARE, la solution adoptée consiste à éclater un dispositif qui disposerait de plus d'une modalité en autant d'entités de présentation. Par exemple, un écran qui disposerait de haut-parleurs se verrait modélisé par deux entités de présentations distinctes : une pour l'écran proprement dit et l'autre pour les haut-parleurs. Si cette solution est bien adaptée dans le cas de modalités attachées à des modes distincts, elle s'avère moins pratique lorsque les modalités concernent le même mode et un dispositif physique naturellement indivisible. Par exemple, un écran est capable d'afficher aussi bien des images que du texte. Dans ce cas, représenter le même écran par deux entités différentes s'avère moins approprié. Une extension doit donc être apportée au modèle afin qu'il puisse gérer de manière efficace des relations de complémentarité et de redondance. Une solution possible consisterait à ajouter au sein des arbres de pondération, des liens horizontaux (pondérés eux aussi) entre modalités. Ces liens permettraient alors aux différentes entités de spécifier leurs préférences en termes d'usage exclusif, redondant ou complémentaire des modalités.

5.3 Influence des entrées sur les sorties Les entrées et les sorties d'un système interactif peuvent être considérées comme des flux d'informations dynamiques inter-dépendants. La cohérence de l'interaction qui en résulte est un principe de base dans la conception des interfaces graphiques. Mais ce principe peut et doit être étendu aux interfaces de façon générale et en particulier aux interfaces multimodales. Les sorties d’un système multimodal doivent rester cohérentes par rapport à ses entrées afin de garantir la continuité de l’interaction. Cette continuité ne peut être obtenue que si les entrées sont incorporées dans le processus de conception des sorties et inversement. La nature des

Page 73: Présentation Multimodale de l'Information

Chapitre 5. Conclusion et perspectives

73

modalités et médias utilisés en entrées peut parfois influer sur le choix des modalités en sortie, en particulier pour les retours lexicaux. La saisie de caractères au clavier produira dans la majorité des cas un feedback visuel sous forme textuelle. En revanche, pour une commande vocale, on peut parfois préférer un retour auditif (synthèse vocale de la commande reconnue). Outre les conséquences sur le choix des modalités de sortie, les entrées peuvent également avoir une influence sur l’instanciation même de ces modalités. Par exemple, la désignation avec le doigt sur un écran tactile nécessitera l'affichage de boutons plus grands que dans le cas d’une désignation avec un stylet, en raison des dimensions du pointeur d'entrée (doigt ou stylet). Nous pouvons distinguer deux types de présentations : les présentations passives et les présentations interactives. Les présentations passives sont des présentations insensibles aux entrées de l'utilisateur (elles peuvent cependant être sensibles au contexte). Au contraire, les présentations interactives peuvent réagir aux entrées de l'utilisateur. Une action de l’utilisateur sur une présentation interactive peut alors se traduire par une évolution de cette dernière. Par exemple, le passage de la souris au dessus d’un bouton peut se traduire par une mutation permettant le rajout d’une modalité Texte décrivant la fonctionnalité du bouton (info-bulle). Ce passage peut être également à l’origine d’un raffinement de la présentation en modifiant par exemple le background du bouton afin de le mettre en évidence. L'application de simulation de contrôle de trafic aérien, ATC54, (Chapitre 2, Section 2.2.3), développée dans le cadre du projet INTUITION, a permis de commencer à étudier ce type de couplage entre les entrées et les sorties notamment pour ce qui est des retours lexicaux qui n'exigent pas nécessairement un passage par le contrôleur de dialogue. Concernant les retours de nature sémantique, l'application ATC a mis en évidence l'importance pour le module en charge des sorties de maintenir à jour une représentation interne des présentations effectuées afin de pouvoir répondre à des requêtes d'identification provenant soit du contrôleur de dialogue soit du module en charge des entrées. Par exemple, lorsque l'utilisateur clique à un endroit (X, Y) de l'écran, le module des sorties doit être capable d'identifier l'objet qui se trouve à cet endroit puisqu'il est le seul à savoir quelles modalités et quelles valeurs d'attributs de ces modalités, ont été utilisées lors de la présentation des objets. De même lors de l'énonciation vocale des items d'un menu, il est le seul à pouvoir identifier l'item qui était en cours d'énonciation (ou venait juste d'être énoncé) au moment où l'utilisateur a validé son choix. L'application ATC a également montré qu'il est nécessaire que le module des sorties puisse avoir accès à la connaissance des moyens d’interaction (modalités et médias) utilisés en entrée, afin que le système multimodal puisse proposer des sorties qui soient cohérentes avec les entrées de l'utilisateur. Bien que cette étude ait permis de commencer à explorer quelques pistes de réflexion, celles-ci nécessitent encore d'être approfondies car certaines questions demeurent en suspens, notamment en ce qui concerne l'architecture logicielle globale du système. Est-il, par exemple, préférable que la connaissance des moyens d'interaction utilisées par le module des entrée et le module des sorties reste le privilège exclusif de chacun d'eux quitte à ce que ceux-ci soient contraints de fournir des services d'identification aux autres modules de l'architecture, ou serait-il plus intéressant de partager ces informations avec les autres modules de l'architecture en les intégrant par exemple comme éléments du contexte ?

54 Air Traffic Control

Page 74: Présentation Multimodale de l'Information

Chapitre 5. Conclusion et perspectives

74

5.4 Aide au déplacement : vers le bâtiment "intelligent" Grâce aux systèmes existants d'aide au déplacement tel que celui décrit au chapitre 4, les utilisateurs non voyants sont capables de percevoir les obstacles suffisamment à l’avance pour pouvoir anticiper et mieux optimiser leurs trajectoires de déplacement. Cependant ces systèmes ne peuvent fournir que des données de nature physique (distance aux obstacles). Ils sont incapables de produire des informations de nature symbolique Par exemple, ils ne permettent pas de répondre aux questions suivantes, pourtant fréquentes chez les non-voyants:

• “où suis-je ?”, • “qu'y a-t-il en face de moi à 10 mètres ?”,

Pour pouvoir répondre à la question “où suis-je ?”, il est nécessaire de disposer, d'une part, d'une description de l'environnement spatial de l'utilisateur, autrement dit, un plan des lieux visités, et d'autre part, d'une méthode de positionnement efficace permettant de situer l'utilisateur par rapport à ce plan. Les plans doivent offrir une description structurelle précise des lieux visités par l’utilisateur. Dans un bâtiment, la structure regroupe les éléments architecturaux, comme les pièces, les murs, les escaliers, etc. Cependant, il faut faire attention à ne pas omettre des éléments qui peuvent être importants pour un non-voyant. Par exemple, la séparation entre une zone "fumeurs" et une zone "non fumeurs" est généralement indiquée sur les lieux mêmes par une affiche, pour les voyants. Pour les non-voyants, une solution pourrait être d'intégrer dans la description structurelle un mur virtuel n'ayant pas d'existence physique mais permettant de séparer ces deux zones. Lorsque un utilisateur non voyant rencontre un obstacle (à trois mètres par exemple), les dispositifs actuels sont uniquement capables de signaler qu’“il existe un obstacle à trois mètres”. Ils sont incapables d'indiquer, par exemple, que “cet obstacle est une porte”, et que “cette porte donne accès à la cafétéria”. Améliorer les systèmes existants pour leur donner de telles capacités implique, qu'outre la description structurelle de l'environnement, ils doivent disposer d’annotations sémantiques sur cet environnement. Il sera ainsi possible de préciser des propriétés et des relations de plus haut niveau entre des objets physiques, des personnes, et des concepts plus abstraits. Par exemple, à une pièce pourront être associées des informations sur son propriétaire, son planning d’utilisation, son inventaire, ses restrictions d’accès, etc. Un système qui utilisera de telles descriptions serait alors capable de déterminer où se trouve l’utilisateur et quel objet ou quel lieu il désigne (Figure 26).

Figure 26. Futur système d'aide au déplacement pour les non-voyants

"Ceci est la porte de la cafétéria"

Page 75: Présentation Multimodale de l'Information

Chapitre 5. Conclusion et perspectives

75

5.5 Convergence physico-numérique : un défi multidisciplinaire majeur L'avènement de l'informatique ambiante marque la convergence des mondes physiques et numériques. Celle-ci représente un enjeu majeur pour l'interaction Homme-Machine dans les années à venir. Ceci est d'autant plus vrai que les domaines d'application demandeurs de la mise en œuvre de systèmes mixtes sont de plus en plus nombreux, à l'image des transports, de la santé, de l'architecture, de l'aide au handicap, de l'éducation, etc. C'est pourquoi de grands projets ont commencé à voir le jour à travers le monde, tels que les projets Aura55 et Oxygen56 aux Etats-Unis, l'initiative FET Disappearing Computer57 du 5ème PCRD en Europe ou encore le projet britannique interdisciplinaire EQUATOR58 qui regroupe pas moins de huit partenaires dans des disciplines aussi variées que l'informatique, la psychologie, la sociologie, les sciences cognitives, l'ethnologie, l'art et le design. Cela montre bien que la réussite de la convergence des mondes numériques et physiques, est conditionnée par la nécessaire collaboration de chercheurs de différentes disciplines ainsi que d'industriels. Pour relever ce défi, il est nécessaire que des travaux multidisciplinaires soient menés dans différents domaines touchant aux réseaux, aux logiciels embarqués, aux interfaces Homme-Machine, à la sécurité des systèmes, au design, etc. Il ne faut pas non plus négliger les aspects sociétaux, éthiques et juridiques, et être vigilant pour que l'informatique ambiante ne se transforme pas en un moyen d'atteinte à la vie privée des personnes en raison d'une mauvaise maîtrise des processus de divulgation ambiante d'informations personnelles. Enfin au-delà du développement de systèmes ambiants exploratoires, il conviendra de mener un travail plus en profondeur sur la définition de méthodes d'analyse, de conception et d'évaluation de ce nouveau type de systèmes pour lesquels les méthodes existantes peuvent s'avérer inadaptées.

55 http://www.cs.cmu.edu/~aura/ 56 http://www.oxygen.lcs.mit.edu/ 57 http://www.disappearing-computer.net/ 58 http://www.equator.ac.uk/

Page 76: Présentation Multimodale de l'Information

76

Page 77: Présentation Multimodale de l'Information

77

6 Références

[Anderson 1985]

C.D. Anderson, "Application of Speech Recognition and Touch-Screen Input Systems to Airborne C3 Operations Results of Mission Simulator Evaluation", Document No. 10180-28809-1, The Boeing Co., Seattle. Wash., 1985.

[André 1993] E. André, W. Finkler, W. Graf, T. Rist, A. Schauder, W.Wahlster, "Wip : the Automatic Synthesis of Multimodal Presentations", in Intelligent Multimedia Interfaces, M. T. Maybury, (Eds.), AAAI Press, 1993, pp. 75-93.

[André 2000] E. André, "The Generation of Multimedia Presentations", in R. Dale, H. Moisl and H. Somers (Eds.), A Handbook of Natural Language Processing, 2000, pp. 305–327.

[André 2003] E. André, "Natural Language in Multimedia/Multimodal Systems", in Computational Linguistics, R. Mitkov (Ed.), Oxford University Press, 2003, pp. 650-669.

[Arens 1995] Y. Arens, E. H. Hovy, "The Design of a Model-Based Multimedia Interaction Manager", in Artificial Intelligence, vol. 9, num. 3, 1995, pp. 167-188.

[Bach-y-Rita 1969] P. Bach-y-Rita, C. C. Collins, F. Saunders, B. White, L. Scadden, "Vision Substitution by Tactile Image Projection", in Nature, num. 221, 1969, pp. 963-964.

[Bass 1992] L. Bass, R. Faneuf, R. Little, N. Mayer, B. Pellegrino, S. Reed, R. Seacord, S. Sheppard, M. Szczur, "A Metamodel for the Runtime Architecture of an Interactive System", SIGCHI Bulletin, vol. 24, n° 1, 1992, pp. 32-37.

[Bastide 2005] R. Bastide, Y. Bellik, J. Bouchet, T. Ganille, L. Nigay, C. Rousseau, "Rapport de synthèse", PEA INTUITION, PHASE 3, Réf. CDS/05/010847 I.R.00, Fourniture F24.1, Marché DGA/DSP/STTC 02.34.049, Novembre 2005.

[Baudel 1995] T. Baudel, "Aspects Morphologiques de l'Interaction Humain-Ordinateur: Étude de Modèles d'Interaction Gestuels", Thèse de doctorat, Université Paris XI (Orsay), 1995.

[Bellik 1994] Y. Bellik, D. Burger, "Multimodal Interfaces: New Solutions to the Problem of Computer Accessibility for the Blind", in Proc. of the Human Factors in Computing Systems Conference, CHI 94, ACM Press Publ., Boston, 24-28 Apr 1994.

Page 78: Présentation Multimodale de l'Information

78

[Bellik 1995] Y. Bellik, "Interfaces Multimodales: Concepts, Modèles et Architectures", Thèse de doctorat, Université Paris XI (Orsay), 1995.

[Bellik 1997a] Y. Bellik, "Modality Integration: Speech and Gesture", in Survey of the State of the Art in Human Language Technology, Chapter 9: MultiModality, Cambridge University Press, 1997.

[Bellik 1997b] Y. Bellik, "Multimodal Text Editor Interface Including Speech for the Blind", in Speech Communication Journal, Elsevier Publ., Volume 23, No. 4, December 1997, pp. 319-332.

[Bellik 2001] Y. Bellik, R. Farcy, R. Leroux, "Procédé de codage d'une grandeur physique ou d'un alphabet par des sensations tactiles", Brevet n° 01 14254, 29/10/2001.

[Bellik 2002a] Y. Bellik, R. Farcy, "Comparison of Various Interface Modalities for a Locomotion Assistance Device", in Proc. of the 8th International Conference on Computers Helping People with Special Needs, ICCHP 2002, K. Miesenberger, J. Klaus, W. Zagler (Eds.), Springer Publ., University of Linz (Austria), 15 - 20 July, 2002, pp.421-428.

[Bellik 2002b] Y. Bellik, R. Farcy, "Experimental Interfaces for a Locomotion Assistance Device", in Proc. of the, 6th International Conference on Work With Display Units, WWDU 2002, Berchtesgaden, Germany, May 22-25, 2002.

[Benford 1993] S. Benford, L. Fahlen, "A Spatial Model of Interaction in Virtual Environments", in Proc. of the Third European Conference on Computer Supported Cooperative Work (ECSCW'93), 1993.

[Bernsen 1994] N. O. Bernsen, "Foundations of Multimodal Representations : a Taxonomy of Representational Modalities", in Interacting with Computers, vol. 6, num. 4, 1994.

[Binot 1992] J. L. Binot, L. Debille, D. Sedlock, B. Vandecapelle, H. Chappel, and M. D. Wilson, "Multimodal Integration in MMI2 : Anaphora Resolution & Mode Selection", in Proc. of Work With Display Units, WWDU'92, Berlin, Germany, 1-4 Sept. 1992.

[Blash 1991] B. B. Blash, R.G. Long, "Use or Non-Use of Electronic Travel Aids in the United States", in Proc. of the Sixth International Mobility Conference, the Spanish National Organization of the Blind (Eds.), 1991.

Page 79: Présentation Multimodale de l'Information

79

[Blattner 1989] M. Blattner, D. Sumiliava, E. GreenBerg, "Earcons and Icons: their Structure and Common Design Principles", in Human-Computer Interaction, vol. 4, 1989, pp. 11-44.

[Bohn 2004] J. Bohn, F. Mattern, "Super-Distributed RFID Tag Infrastructures", in Proc. of the 2nd European Symposium on Ambient Intelligence (EUSAI 2004), Lecture Notes Computer Science (LNCS), num. 3295, Springer-Verlag (Eds.), Eindhoven, The Netherlands, Nov. 2004, pp. 1–12.

[Bolt 1980] R. A. Bolt, "Put-That-There : Voice and Gesture at the Graphics Interface", in Computer Graphics, Vol. 14, N° 3, Aug. 1980, pp.262-270.

[Bourguet 1992] M. L. Bourguet, "Conception et réalisation d'une interface de dialogue personne-machine multimodale", Thèse de doctorat, ICP, INPG, Université Joseph Fourier Grenoble 1, 1992.

[Bordegoni 1997] M. Bordegoni, G. Faconti, M. T. Maybury, T. Rist, S. Ruggieri, P. Trahanias, M. Wilson, "A Standard Reference Model for Intelligent Multimedia Presentation Systems", in Computer Standards and Interfaces, vol. 18, num 6-7, 1997, pp. 477-496.

[Braffort 2004] A. Braffort, A. Choisier, C. Collet, P. Dalle, F. Gianni, B. Lenseigne, J. Segouat, "Toward an Annotation Software for Video of Sign Language, Including Image Processing Tools and Signing Space Modelling", in Proc. of the Language Resources and Evaluation Conference, LREC’04, Lisbonne, Portugal, May 2004.

[Browne 1990] D. Browne, P. Totterdell, M. Norman, "Adaptive User Interfaces", in Computer and People Series, Academic Press Publ., 1990.

[Brusilovsky 2001] P. Brusilovsky, "Adaptive Hypermedia", in User Modeling and User-Adapted Interaction, vol. 11 (1-2), Kluwer Academic Publ., 2001, pp. 87-110.

[Calvary 2003] G. Calvary, J. Coutaz, D. Thevenin, Q. Limbourg, L. Bouillon, J. Vanderdonckt, "A Unifying Reference Framework for Multi-Target User Interfaces", in Interacting With Computer, vol. 15, num. 3, 2003, pp. 289-308.

[Cohen 2002] P. R. Cohen, R. Coulston, K. Krout, "Multimodal Interaction During Multiparty Dialogues: Initial Results", in Proc. of the 4th IEEE International Conference on Multimodal Interfaces, October 14-16, Pittsburgh, PA, 2002.

Page 80: Présentation Multimodale de l'Information

80

[Colineau 2004] N. Colineau, C. Paris, M. Wu, "Actionable Information Delivery", in Revue d'Intelligence Artificielle, Special Issue on Tailored Information Delivery, vol. 18, num. 4, 2004, pp. 549-576.

[Coutaz 1987] J. Coutaz, "PAC, an Object-Oriented Model for Dialog Design", in Proc. of the 2nd IFIP International Conference on Human-Computer Interaction, INTERACT 87, H.-J. Bullinger, B. Shackel (Eds.), North-Holland, pp. 431-436, September 1987.

[Coutaz 1991] J. Coutaz, J. Caelen, "A Taxonomy for Multimedia and Multimodal User Interfaces", in Proc. of the ERCIM Workshop on Multimedia Technology, Lisbonne, Nov. 1991.

[Coutaz 1992] J. Coutaz, "Multimedia and Multimodal User Interfaces : A Software Engineering Perspective", in Proc. of the International Workshop on Human Computer Interaction, St Petersburg, Russia, 1992.

[Coutaz 1995] J. Coutaz, L. Nigay, D. Salber, A. Blandford, J. May, R. M. Young, "Four Easy Pieces for Assessing the Usability of Multimodal Interaction: the CARE Properties", in Proc. of the IFIP Conference on Human-Computer Interaction, INTERACT'95, Lillehammer, Norway, 1995.

[Dalal 1996] M. Dalal, S. Feiner, K. McKeown, S. Pan, M. Zhou, T. Höllerer, J. Shaw, Y. Feng, J. Fromer, "Negotiation for Automated Generation of Temporal Multimedia Presentations", in Proc. of ACM Multimedia’96, Boston, USA, November 1996, pp. 55-64.

[Dey 2000] A. K. Dey, "Providing Architectural Support for Building Context-Aware Applications", Thesis of the Georgia Institute of Technology, College of Computing, 2000.

[Dieterich 1993] H. Dieterich, U. Malinowski, T. Kuehme, M. Schneider-Hufschmidt, "State of the Art in Adaptive User Interfaces", in Human Factors in Information Technology, vol. 10, 1993, pp. 13-48.

[Duarte 2006] C. Duarte, L. Carriço, "A Conceptual Framework for Developing Adaptive Multimodal Applications", in Proc. of Intelligence User Interfaces, IUI’06, Sydney, Australia, Jan. 2006, pp. 132-139.

Page 81: Présentation Multimodale de l'Information

81

[Ducatel 2001] K. Ducatel, M. Bogdanowicz, F. Scapolo, J. Leijten et J-C. Burgelman, "Scenarios for Ambient Intelligence in 2010", Final report, Information Society Technologies Advisory Group (ISTAG), European Commission, Feb. 2001.

[Eisenstein 2001] J. Eisenstein, J. Vanderdonckt, A. Puerta, "Applying Model-Based Techniques to the Development of UIs for Mobile Computers", in Proc. of the 6th international conference on Intelligent User Interfaces, IUI 2001, ACM Press Publ., Santa Fe, New Mexico, USA, 2001, pp. 69-76.

[Farcy 2001] R. Farcy, B. Denise, R. Damaschini, "Triangulating laser profilometer as a navigational aid for the blind: optical aspects", in Applied Optics, vol. 35, n° 7, 1996, pp. 1161–1166.

[Farcy 2003] R. Farcy, R. Leroux, R. Damaschini, R. Legras, Y. Bellik, C. Jacquet, J. Greene, P. Pardo, "Laser Telemetry to improve the mobility of blind people: report of the 6 month training course", in Proc. of the International Conference On Smart homes and health Telematics, ICOST 2003, Paris, September 24-26, 2003.

[Farcy 2004] R. Farcy, R. Damaschini, R. Legras, R. Leroux, Y. Bellik, C. Jacquet, J. Greene, P. Pardo, "Perception de l'espace et locomotion des non-voyants par profilométrie laser : Aides électroniques à la locomotion", dans la revue en ligne J3eA, Journal sur l'enseignement des sciences et technologies de l'information et des systèmes, Volume 3, Hors-Série 1, 2004.

[Fahlen 1992] L. Fahlen, C. Brown, "The Use of a 3D Aura Metaphor for Computer Based Conferencing and Teleworking", in Proc. of the 4th Multi-G workshop, 1992, pp. 69-74.

[Farhat 1999] S. Farhat, Y. Bellik, "SeeWeb: Dynamic Improvement of the Accessibility of HTML Documents for Blind Persons", in Proc. of the 7th IFIP Conference on Human-Computer Interaction, INTERACT'99, Edinburgh, Scotland, 30 Aug. - 3 Sep., 1999.

[Fasciano 1996] M. Fasciano, G. Lapalme, "PosGraphe : a System for the Generation of Statistical Graphics and Text", in Proc. of the 8th International Workshop on Natural Language Generation, Sussex, 1996, pp. 51-60.

Page 82: Présentation Multimodale de l'Information

82

[Feiner 1991] S. K. Feiner, K. R. McKeown, "Automating the Generation of Coordinated Multimedia Explanations", in Intelligent Multimedia Interfaces, M. T. Maybury, (Eds.), AAAI Press, 1993, pp. 117-139.

[Frohlich 1991] D. M. Frohlich, "The design space of interfaces", in Multimedia Principles, Systems and Applications, L. Kjelldahl, (Ed.), Springer Verlag Publ., 1991, pp. 69-74.

[Gaver 1989] W. W. Gaver, "The Sonic Finder: An Interface that Uses Auditory Icons", in Human-Computer Interaction, vol. 4, 1989, pp. 67-94.

[Gellersen 2004] H. Gellersen, G. Kortuem, A. Schmidt, M. Beigl, "Physical Prototyping with Smart-Its", in IEEE Pervasive Computing, vol. 3, no. 3, 2004, pp. 74–82.

[Graf 1995] W. H. Graf, "The Constraint-Based Layout Framework LayLab and its Applications", in Proc. of the ACM Multimedia Workshop on Effective Abstractions in Multimedia Layout, Presentations, and Interaction, San Francisco, U.S.A, 1995.

[Grolaux 2002] D. Grolaux, P. Van Roy, J. Vanderdonckt, "FlexClock: A Plastic Clock Written in Oz with the QTk Toolkit", in Proc. of the Workshop on Task Models and Diagrams for User Interface Design, TAMODIA 2002, Bucharest, Romania, July 2002.

[Gu 2004] T. Gu, X. H. Wang, H. K. Pung, D. Q. Zhang, "An Ontology-based Context Model in Intelligent Environments", in Proc. of Communication Networks and Distributed Systems Modeling and Simulation Conference, San Diego, California, USA, January 2004.

[Hornbæk 2006] K. Hornbæk, "Current Practice in Measuring Usability: Challenges to Usability Studies and Research ", in International Journal of Human-Computer Studies, 64, Elsevier Publ., 2006, pp. 79–102.

[Hull 1997] R. Hull, P. Neaves, J. B. Roberts, "Towards Situated Computing", in ISWC’97, Washington, DC, USA, 1997.

[IFIP 1996] IFIP WG 2.7, "Design Principles for Interactive Software", C. Gram and G. Cockton (Eds.), ISBN 0-412-72470-7, Chapman & Hall Publ., July 1996.

Page 83: Présentation Multimodale de l'Information

83

[IHM 1992] Compte rendu IHM'92, Atelier: "Interfaces multimodales et architecture logicielle", IHM'92. 4èmes Journées sur l'ingénierie des interfaces Homme-Machine, Paris, 30 Nov-2 Déc 1992.

[Jacquet 2005] C. Jacquet, Y. Bellik, Y. Bourda, "An Architecture for Ambient Computing", in Proc. of the IEE International Workshop on Intelligent Environments, H. Hagras and V. Callaghan (Eds.), Colchester, UK, june 2005, pp. 47-54.

[Jacquet 2006a] C. Jacquet, Y. Bellik, Y. Bourda, "KUP, un modèle pour la présentation multimodale et opportuniste d'informations en situation de mobilité", dans la revue Ingénierie des systèmes d’information (ISI), numéro spécial "Adaptation et gestion de contexte", à paraître.

[Jacquet 2006b] C. Jacquet, Y. Bellik, Y. Bourda, "PRIAM : affichage dynamique d’informations par des écrans coopérants en environnement mobile", dans les actes des 3e Journées Francophones Mobilité et Ubiquité, UBIMOB 2006, Paris, 5-8 Septembre, 2006.

[Jacquet 2006c] C. Jacquet, Y. Bellik, Y. Bourda, "Dynamic Cooperative Information Display in Mobile Environments", in Proc. of the 10th International Conference on Knowledge-Based & Intelligent Information & Engineering Systems, KES 2006, Bournemouth, England, 9-11 Oct. 2006.

[Jansson 1991] G. Jansson, "The functions of Present and Future Electronic Travel Aids for Visually Impaired Children and Adults", in Proc. of the sixth International Mobility Conference, the Spanish National Organization of the Blind (Eds.), 1991.

[Johnston 2005] M. Johnston, S. Bangalore, "Finite-state Multimodal Integration and Understanding", in Natural Language Engineering, vol. 11, num. 2, 2005, pp. 159-187.

[Kerpedjiev 1997] S. Kerpedjiev, G. Carenini, S. F. Roth, J. D. Moore, "Integrating Planning and Task-Based Design for Multimedia Presentation", in Proc. of the International Conference on Intelligent User Interfaces, Orlando, USA, 1997, pp. 145-152.

[Kindberg 2001] T. Kindberg, J. Barton, "A Web-based Nomadic Computing System", in Computer Networks, vol. 35, num. 4, pp. 443–456, 2001.

Page 84: Présentation Multimodale de l'Information

84

[Kindberg 2002] T. Kindberg, A. Fox, "System Software for Ubiquitous Computing", in IEEE Pervasive Computing, vol. 1, no. 1, 2002, pp. 70–81.

[Krasner 1988] G. E. Krasner, S. T. Pope, "A Cookbook for Using the Model-View Controller User Interface Paradigm in Smalltalk-80", in Journal of Object Oriented Programming, vol. 1, n° 3, 1988, p. 26-49.

[Kobsa 2001] A. Kobsa, J. Koenemann, W. Pohl, "Personalized Hypermedia Presentation Techniques for Improving Online Customer Relationships", in The Knowledge Engineering Review 16(2), 2001, pp. 111-155.

[Layaïda 2005] N. Layaïda, T. Lemlouma, V. Quint, "NAC : une architecture pour l'adaptation multimédia sur le Web", dans Technique et Science Informatiques, vol. 24, num. 7, 2005, pp. 789-813.

[Leroux 2005] R. Leroux, R. Farcy, R. Legras, R. Damashi, Y. Bellik, P. Pardo, J. Greene, "Perception de l’espace des non-voyants par profilométrie laser : progression et contexte d’utilisation des interfaces sonores et tactiles", dans les actes de la 3ème conférence pour l’essor des technologies d’assistance, HANDICAP 2004, Paris, 17-18 Juin, 2004.

[Long 1996] S. Long, R. Kooper, G. D. Abowd, C. G. Atkeson, "Rapid Prototyping of Mobile Context-Aware Applications : The Cyberguide Case Study", in Proc. of the 2nd Annual International Conference on Mobile Computing and Networking, ACM Press, 1996, pp. 97–107.

[Mackay 1990] W. E. Mackay, "Users and Customizable software: A Co-Adaptive Phenomenon", Ph.D. Thesis, Sloan School of Management, Massachusetts Institute of Technology, Cambridge, MA, USA, 1990.

[Martin 1995] J.C. Martin, "Coopérations entre modalités et liage par synchronie dans les interfaces multimodales", Thèse de doctorat, Université Paris XI, Orsay, 1995.

[Martin 1998] J.C. Martin, "TYCOON: Theoretical framework and software tools for multimodal interfaces", in Intelligence and Multimodality in Multimedia Interfaces, J. Lee, (Ed.), AAAI Press, 1998.

Page 85: Présentation Multimodale de l'Information

85

[McGee 2001] D. R. McGee, P. R. Cohen, "Creating Tangible Interfaces by Augmenting Physical Objects with Multimodal Language", in Proc. of the International Conference on Intelligent User Interfaces (IUI), ACM Press, Santa Fe, NM, Jan. 14-17, 2001.

[Navarre 2005] D. Navarre, P. Palanque, R. Bastide, A. Schyn, M. A. Winckler, L. Nedel, C. Freitas, "A Formal Description of Multimodal Interaction Techniques for Immersive Virtual Reality Applications", in Proc.of the IFIP Conference on Human-Computer Interaction, INTERACT’05, Rome, Italy, September 2005.

[Nigay 1994] L. Nigay, "Conception et modélisation logicielles des systèmes interactifs", Thèse de doctorat, Université Joseph Fourier Grenoble 1, 1994.

[Nigay 1995] L. Nigay, J. Coutaz, "A Generic Platform for Addressing the Multimodal Challenge", in Proc. of the Conference on Human Factors in Computing Systems, CHI'95, Denver, Colorado, USA, 1995, pp. 98-105.

[Oviatt 1999] S. L. Oviatt, "Ten Myths of Multimodal Interaction", in Communications of the ACM, Vol. 42, No. 11, November, 1999, pp. 74-81.

[Oviatt 2001] S. L. Oviatt, P. R. Cohen, L. Wu, J. Vergo, L. Duncan, B. Suhm, J. Bers, T. Holzman, T. Winograd, J. Landay, J. Larson, D. Ferro, "Designing the User Interface for Multimodal Speech and Gesture Applications: State-of-the-Art Systems and Research Directions ", in Human Computer Interaction, vol. 15, no. 4, 2000 [Re-publié dans Human-Computer Interaction in the New Millennium, chapter 19, J. Carroll (Eds)., Addison-Wesley Press, 2001].

[Oviatt 2003] S. L. Oviatt, "Multimodal Interfaces", in The Human-Computer Interaction Handbook: Fundamentals, Evolving Technologies and Emerging Applications, Chap. 14, J. Jacko and A. Sears (Eds.), Lawrence Erlbaum Assoc. Publ., Mahwah, NJ, 2003.

[Oviatt 2004] S. L. Oviatt, T. Darrell, M. Flickner, (Eds.), "Multimodal Interfaces that Flex, Adapt, and Persist", Communications of the ACM, Special issue, vol. 47, issue 1, ACM Press, 2004.

[Pew 2004] R. W. Pew, S. B. Van Hemel, (Eds.),"Technology for Adaptive Aging", Steering Committee for the Workshop on Technology for Adaptive Aging, The National Academies Press, 2004.

Page 86: Présentation Multimodale de l'Information

86

[Pfaff 1983] G. Pfaff, (Ed.),"User Interface Management Systems", Proc. of the Workshop on User Interface Management Systems, Seeheim, Germany, 1-3 Nov., 1983.

[Rist 2002] T. Rist, P. Brandmeier, "Customizing Graphics for Tiny Displays of Mobile Devices", in Personal and Ubiquitous Computing, vol. 6, num. 4, 2002, pp. 260-268.

[Rist 2005] T. Rist,"Supporting Mobile Users Through Adaptive Information Presentation", in O. Stock and M. Zancanaro (Eds.), Multimodal Intelligent Information Presentation, vol. 27 of Text, Speech and Language Technologies, chap. 6, Kluwer Academic Publ., 2005, pp. 113–141.

[Rousseau 2004] C. Rousseau, Y. Bellik, R. Gruaz, F. Etienne, F. Vernier, "Manuel Utilisateur de MOST", PEA INTUITION – Phase 2, Réf. CDS/ET/TT/04-158 I.R.01, Fourniture F12.3, Marché DGA/DSP/STTC 02.34.049, Juillet 2004.

[Rousseau 2005a] C. Rousseau, Y. Bellik, F. Vernier, "Multimodal Output Specification / Simulation Platform", in Proc. of the 7th International Conference on Multimodal Interfaces, ICMI 2005, ACM Press Publ., Trento, Italy, 04-06 October, 2005, pp.84-91.

[Rousseau 2005b] C. Rousseau, Y. Bellik, F. Vernier,"WWHT : Un modèle conceptuel pour la présentation multimodale d'information", dans les actes de la 17ième Conférence Francophone sur l'Interaction Homme-Machine, IHM 2005, ACM Press Publ., Toulouse, France, 27-30 Septembre, 2005, pp. 59-66.

[Rousseau 2006a] C. Rousseau, Y. Bellik, F. Vernier, D. Bazalgette,"A Framework for the Intelligent Multimodal Presentation of Information", in Signal Processing, Vol. 86, Issue 12, Elsevier Publ., European Association for Signal Processing (EURASIP), Décembre 2006.

[Rousseau 2006b] C. Rousseau, Y. Bellik, F. Vernier,"Un modèle conceptuel pour une présentation multimodale et contextuelle de l’information", dans la Revue d'Interaction Homme-Machine, RIHM, Europia Publ., 27 pages, à paraître.

[Salisbury 1990] M. W. Salisbury, "Talk and Draw : Bundling Speech and Graphics", in IEEE Computer, Aug. 1990, pp. 59-65.

Page 87: Présentation Multimodale de l'Information

87

[Sampaio 2001] E. Sampaio, S. Maris, P. Bach-y-Rita, "Brain plasticity:"visual" acuity of blind persons via the tongue", in Brain research, num. 908, 2001, pp. 204-207.

[Savidis 2004] A. Savidis, C. Stephanidis, "Unified User Interface Design: Designing Universally Accessible Interactions", in Interacting with Computers, vol. 16, num. 2, 2004, pp. 243-270.

[Shneiderman 2000] B. Shneiderman, "Universal Usability : Pushing Human-Computer Interaction Research to Empower Every Citizen", CS-TR-4043, Communications of the ACM, vol. 43, num. 5, 2000.

[Smart 1993] W. D. Smart, A. Cobley, I. W. Ricketts, Y. Alistair, "Practical Multimodality", in Working Material of the ERCIM Workshop on Multimodal Human-Computer Interaction, Nancy, France, 2-4 Nov. 1993.

[Stanciulescu 2005] A. Stanciulescu, Q. Limbourg, J. Vanderdonckt, B. Michotte, F. Montero, "A Transformational Approach for Multimodal Web User Interfaces Based on UsiXML", in Proc. of the 7th International Conference on Multimodal Interfaces, ICMI 2005, ACM Press Publ., Torento, Italy, 2005, pp. 259 – 266.

[Stephanidis 1997] C. Stephanidis, C. Karagiannidis, A. Koumpis, "Decision Making in Intelligent User Interfaces", in Proc. of Intelligent User Interfaces, IUI’97, 1997, pp. 195-202.

[Stephanidis 1998] C. Stephanidis, G. Salvendy, D. Akoumianakis, N. Bevan, J. Brewer, P. L. Emiliani, A. Galetsas, S. Haataja, I. Iakovidis, J. Jacko, P. Jenkins, A. Karshmer, P. Korn, A. Marcus, H. Murphy, C. Stary, G. Vanderheiden, G. Weber, J. Ziegler, "Toward an Information Society for All : An International R&D Agenda ", in International Journal of Human-Computer Interaction, vol. 10, num. 2, 1998, 107-134.

[Stephanidis 1999] C. Stephanidis, P. L. Emiliani, "Connecting to the Information Society: a European Perspective", in Technology and Disability Journal, vol. 10, num. 1, 1999, pp. 21-44.

[Stephanidis 2001a] C. Stephanidis, A. Savidis, "Universal Access in the Information Society : Methods, Tools, and Interaction Technologies", in UAIS journal, vol. 1, num. 1, 2001, pp. 40-55.

Page 88: Présentation Multimodale de l'Information

88

[Stephanidis 2001b] C. Stephanidis, "Adaptive Techniques for Universal Access", in User Modeling and User-Adapted Interaction, Volume 11, Issue 1-2, ISSN:0924-1868, Kluwer Academic Publ., 2001.

[Stephanidis 2001c] C. Stephanidis, A. Paramythis, M. Sfyrakis, A. Savidis, "A Case Study in Unified User Interface Development: The AVANTI Web Browser", in User Interfaces for All - Concepts, Methods, and Tools, C. Stephanidis (ed.), Lawrence Erlbaum Associates, 2001, pp. 525-568.

[Stevens 1994] R. D. Stevens, S. A. Brewster, P. C. Wright, A. D. N. Edwards, "Design and Evaluation of an Auditory Glance at Algebra for Blind Readers", in Auditory Display : The Proceedings of the Second International Conference on Auditory Display, G. Kramer, (Ed.), Addison-Wesley Publ., 1994.

[Streitz 2003] N. A. Streitz, C. Röcker, T. Prante, R. Stenzel, D. van Alphen, "Situated Interaction with Ambient Information: Facilitating Awareness and Communication in Ubiquitous Work Environments", in Proc. of HCI International, June 2003.

[Stock 1993] O. Stock and the ALFRESCO Project Team, "ALFRESCO : Enjoying the Combination of Natural Language Processing and Hypermedia for Information Exploration", in Intelligent Multimedia Interfaces, M. T. Maybury, (Eds.), AAAI Press, 1993, pp. 197-224.

[Stock 2005] O. Stock, M. Zancanaro (Eds.), "Multimodal Intelligent Information Presentation", Springer Publ., 2005.

[Suchman 1987] L. A. Suchman, "Plans and situated action: the problem of human-machine interaction", R. Pea & J. S. Brown (Eds.), Cambridge University Press., 1987.

[Teil 2000] D. Teil, Y. Bellik, "Multimodal Interaction Interface Using Voice and Gesture", in The Structure of Multimodal Dialog II, Chapter 19, M. M. Taylor, F. Néel and D. G. Bouwhuis (Eds.), 2000, pp. 349-366.

[Thevenin 1999] D. Thevenin, J. Coutaz, "Plasticity of User Interfaces : Framework and Research Agenda", in Proc. of the 7th IFIP Conference on Human-Computer Interaction, INTERACT'99, Edinburgh, Scotland, 30 Aug. - 3 Sep., 1999, pp.110-117.

Page 89: Présentation Multimodale de l'Information

89

[Thevenin 2002] D. Thevenin, J. Coutaz, "Adaptation des IHM : Taxonomies et Archi. Logicielle", in Proc. of the 14th French conference on Human Computer Interaction, IHM'2002, Poitiers, France, Nov. 2002, pp. 26-29.

[Vanderdonckt 2005] J. Vanderdonckt, D. Grolaux, P. Van Roy, Q. Limbourg, B. Macq, B. Michel, "A Design Space for Context Sensitive User Interfaces", in Proc. of IASSEi'05, Toronto, Canada, July 2005.

[Vanderheiden 1998] G. Vanderheiden, "Universal Design and Assistive Technology in Communication and Information Technologies : Alternatives or compliments ?", in Assistive Technology Journal, vol. 10, num. 1, 1998, pp. 29-36.

[Varile 1996] G. Varile, A. Zampolli, R. A. Cole, J. Mariani, H. Uszkoreit, A. Zaenen, V. Zue, (Eds.), "Survey of the State of the Art in Human Language Technology", chap. 4, Cambridge University Press, 1996, pp. 131–153.

[Vogel 2004] D. Vogel, R. Balakrishnan, "Interactive Public Ambient Displays : Transitioning From Implicit to Explicit, Public to Personal, Interaction with Multiple Users", in Proc. of UIST ’04, ACM Press, Santa Fe, NM, USA, 2004, pp. 137–146.

[Weiser 1991] M. Weiser, "The Computer for the Twenty-First Century", in Scientific American, September 1991, pp. 94-10.

[Weiser 1993] M. Weiser, "Some Computer Science Issues in Ubiquitous Computing", in Communications of the ACM, vol. 36, no. 7, 1993, pp. 75–84.

[Weiser 1996] M. Weiser, J. Brown, "Designing Calm Technology", in PowerGrid Journal, 1 (1), 1996.

[Wilson 1993] M. D. Wilson, G. A. Ringland, G. Wickler, "Cooperative Dialogue and Multimodal Interfaces", in Working Material of the ERCIM Workshop on Multimodal Human-Computer Interaction, Nancy, France, 2-4 Nov. 1993.

[Wu 2002] L. Wu, S. L. Oviatt, P. R. Cohen, "From Members to Teams to Committee: A Robust Approach to Gestural and Multimodal Recognition", in IEEE Transactions on Neural Networks, Special issue on "Intelligent Multimedia processing", vol. 13, no. 4, 2002.

Page 90: Présentation Multimodale de l'Information

90

[Xiao 2003] B. Xiao, R. Lunsford, R. Coulston, M. Wesson, S. L. Oviatt, "Modeling Multimodal Integration Patterns and Performance in Seniors: Toward Adaptive Processing of Individual Differences", in Proc. of the International Conference on Multimodal Interfaces, ICMI 2003, ACM Press, Vancouver, B.C., 2003, pp. 265-272.

[Zock 2002] M. Zock, G. Sabah, "La génération automatique de textes", in Production du langage, M. Fayol (Ed.), Hermès Publ., pp. 263–285, 2002.