Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 –...

143
Action spécifique 32 CNRS / STIC Web sémantique Rapport final Éditeurs Jean Charlet, Philippe Laublet & Chantal Reynaud V3 – décembre 2003

Transcript of Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 –...

Page 1: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Action spécifique 32 CNRS / STIC

Web sémantiqueRapport final

Éditeurs

Jean Charlet, Philippe Laublet & Chantal Reynaud

V3 – décembre 2003

Page 2: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation
Page 3: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

iii

Ce document est le rapport produit par les chercheurs de l’action spécifique duCNRS Web sémantique <http://www.lalic.paris4.sorbonne.fr/stic/> rattachée au réseauthématique pluridisciplinaire Document!: création, indexation et navigation<http://rtp-doc.enssib.fr/> relevant du domaine Interaction humaine et cognition dudépartement STIC du CNRS. L’action spécifique étant terminée, son site est archivéau sein du site du RTP où le présent rapport peut être téléchargé <http://rtp-doc.enssib.fr/archiveas.html>. Il a pour but de donner une vue synthétique desprincipaux aspects du Web sémantique à ce jour et de proposer des perspectives derecherche. Le groupe de travail qui s’est mis en place dans le cadre de cette action atravaillé de décembre 2001 à septembre 2003, date de finalisation de ce rapport.

Les recherches menées pour le développement du Web sémantique ne peuvent sedévelopper qu’en s’appuyant sur un ensemble de recherches, d’origine parfoisanciennes et provenant de secteurs différents. Les premières discussions, dans cegroupe, ont permis de choisir un certain nombre de thèmes qui sont apparus essentielsà discuter et à analyser afin de mieux comprendre et de mieux faire comprendre lesprojets, les réalités et les perspectives ouvertes par le projet du Web sémantique. Ilssont au nombre de six et sont repris dans la structure du rapport!: (2) langages duWeb sémantique, (3) Méta-données et annotations dans le Web sémantique, (4)ontologies pour le Web sémantique, (5) Intégration de sources de données, (6)adaptation et personnalisation dans le Web sémantique et (7) Web servicessémantiques. Ces thèmes doivent être vus comme des angles d’approche différents desrecherches sur le Web sémantique qui en associent souvent plusieurs simultanément.

Nous avons souhaité, en séparant ces approches, donner des entrées multiples à laproblématique du Web sémantique, entrées qui peuvent correspondre aux centresd’intérêts de différentes communautés de chercheurs mais nous sommes bienconscients que le Web sémantique demande une approche globale et sera ce que nousobtiendrons si nous réalisons le même processus de globalisation sur la représentationdes connaissances que celui que le Web fit initialement sur l’hypertexte. La conclusionsynthétise les travaux du groupe et propose des pistes de recherche pour que le Websémantique de Tim Berners-Lee, Web de demain comme un vaste espace d’échangede ressources entre êtres humains et machines permettant une exploitation,qualitativement supérieure, de grands volumes d’informations et de services variés,devienne une réalité.

Page 4: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation
Page 5: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

v

1 – INTRODUCTION 1

1 LE WEB SÉMANTIQUE 12 L’ORGANISATION DU DOCUMENT 43 L’ORGANISATION DES CHAPITRES 53.1 PRÉSENTATION ET IMPORTANCE DE LA PROBLÉMATIQUE DU POINT DE

VUE DES USAGES 53.2 MÉTHODES, TECHNIQUES, OUTILS EXISTANTS SUR LESQUELS ON PEUT

S’ APPUYER 53.3 TRAVAUX ET RÉSULTATS EXISTANTS DU WEB SÉMANTIQUE 63.4 RECHERCHES FUTURES POUR LE WEB SÉMANTIQUE 6

2 – LES LANGAGES DU WEB SÉMANTIQUE 9

1 PRÉSENTATION ET IMPORTANCE DE LA PROBLÉMATIQUE DUPOINT DE VUE DES USAGES 9

2 MÉTHODES, TECHNIQUES, OUTILS EXISTANTS SUR LESQUELS ONPEUT S’APPUYER 10

3 TRAVAUX ET RÉSULTATS EXISTANTS DU WEB SÉMANTIQUE 113.1 LANGAGES D’ ASSERTIONS ET D’ ANNOTATIONS 123.1.1 RDF 123.1.2 Cartes topiques 143.2 LANGAGES DE DÉFINITIONS D’ ONTOLOGIES 153.3 LANGAGES DE DESCRIPTION ET DE COMPOSITION DE SERVICES 173.3.1 UDDI 173.3.2 WSDL 183.3.3 DAML-S 183.3.4 XL 193.3.5 XDD 194 RECHERCHES FUTURES POUR LE WEB SÉMANTIQUE 204.1 MODULARISATION DES LANGAGES 204.2 MOTEURS D’ INFÉRENCE 214.3 TRANSFORMATION DE LANGAGES 214.4 INFÉRENCES ROBUSTES 224.5 LANGAGES DE RÈGLES 22

3 – MÉTA-DONNÉES ET ANNOTATIONS DANS LE WEB SÉMANTIQUE 25

1 PRÉSENTATION ET IMPORTANCE DE LA PROBLÉMATIQUE DUPOINT DE VUE DES USAGES 26

1.1 MÉTA-DONNÉES ET ANNOTATIONS SUR LE WEB SÉMANTIQUE 261.2 EXEMPLES D’ UTILISATION DE MÉTA-DONNÉES ET D’ ANNOTATION ET

D’ ADAPTATION DANS LE WEB SÉMANTIQUE 281.2.1 Introduction 281.2.2 Première partie : recherche d’information et création manuelle de

cours 291.2.3 Seconde partie : composition dynamique de cours adaptatifs 301.2.4 Troisième partie : lecture et apprentissage par un apprenant 322 MÉTHODES, TECHNIQUES, OUTILS EXISTANTS SUR LESQUELS ON

PEUT S’APPUYER 333 TRAVAUX ET RÉSULTATS EXISTANTS DU WEB SÉMANTIQUE 35

Page 6: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

vi

4 RECHERCHES FUTURES POUR LE WEB SÉMANTIQUE 39

4 – ONTOLOGIES POUR LE WEB SÉMANTIQUE 43

1 PRÉSENTATION ET IMPORTANCE DE LA PROBLÉMATIQUE DUPOINT DE VUE DES USAGES 44

2 MÉTHODES, TECHNIQUES, OUTILS EXISTANTS SUR LESQUELS ONPEUT S’APPUYER 45

2.1 DÉFINITIONS 452.1.1 Les ontologies en Ingénierie des connaissances 452.1.2 Que représente-t-on dans une ontologie ? 462.2 QUELLES MÉTHODES POUR CONSTRUIRE DES ONTOLOGIES ? 482.2.1 À la recherche d’une méthodologie constructive 482.2.2 Acquérir des ontologies à partir de corpus 482.2.3 Ontologie versus thesaurus 502.2.4 La réutilisation et les ontologies génériques 513 TRAVAUX ET RÉSULTATS EXISTANTS DU WEB SÉMANTIQUE 533.1 LE WEB SÉMANTIQUE AU SEIN DES RECHERCHES EN RC ET IC 533.2 DES MÉTHODOLOGIES DE CONSTRUCTION D’ ONTOLOGIES 533.2.1 De bons principes méthodologiques 533.2.2 Acquérir une ontologie à partir de DTD 543.3 DES ÉDITEURS D’ ONTOLOGIES 543.3.1 Introduction 543.3.2 PROTÉGÉ-2000 553.3.3 OILEd 553.3.4 OntoEdit 563.3.5 WebODE 563.3.6 DOE 563.3.7 Des outils à parfaire 573.4 COMPARAISON ET VERSIONS DES ONTOLOGIES 574 RECHERCHES FUTURES POUR LE WEB SÉMANTIQUE 584.1 VERS UNE MÉTHODOLOGIE ET DES OUTILS INTÉGRÉS 584.2 COMPARAISON ET FUSION DES ONTOLOGIES 594.3 CACHER LA COMPLEXITÉ 59

5 – L’INTÉGRATION DE SOURCES DE DONNÉES 65

1 PRÉSENTATION ET IMPORTANCE DE LA PROBLÉMATIQUE DUPOINT DE VUE DES USAGES 66

2 MÉTHODES, TECHNIQUES ET OUTILS EXISTANTS SUR LESQUELSON PEUT S’APPUYER 67

2.1 L’APPROCHE MÉDIATEUR 672.1.1 Présentation générale 672.1.2 Panorama des médiateurs existants 682.1.3 Problèmes étudiés 692.2 L’APPROCHE ENTREPÔT DE DONNÉES 692.2.1 Les étapes d’intégration 692.2.2 Les types d’intégration 713 TRAVAUX ET RÉSULTATS EXISTANTS DU WEB SÉMANTIQUE 714 RECHERCHES FUTURES POUR LE WEB SÉMANTIQUE 734.1 VERS DES SYSTÈMES DE MÉDIATION DÉCENTRALISÉS 734.2 INTÉGRATION DE DONNÉES MULTIMÉDIAS 744.3 INTÉGRATION ET ANALYSE DE DONNÉES EN TEMPS RÉEL 74

Page 7: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

vii

4.4 DE L’ INTÉGRATION DE DONNÉES À L’ INTÉGRATION DECONNAISSANCES 76

6 – ADAPTATION ET PERSONNALISATION DANS LE WEB SÉMANTIQUE 79

1 PRÉSENTATION ET IMPORTANCE DE LA PROBLÉMATIQUE DUPOINT DE VUE DES USAGES 80

1.1 ADAPTATION/PERSONNALISATION SUR LE WEB SÉMANTIQUE 801.2 EXEMPLES D’ UTILISATION DE L’ ADAPTATION / PERSONNALISATION

DANS LE WEB SÉMANTIQUE 822 MÉTHODES, TECHNIQUES, OUTILS EXISTANTS SUR LESQUELS ON

PEUT S’APPUYER 822.1 LES HYPERMÉDIAS ADAPTATIFS 832.2 LA MODÉLISATION UTILISATEUR 842.3 LES DOCUMENTS VIRTUELS PERSONNALISABLES 853 TRAVAUX ET RÉSULTATS EXISTANTS DU WEB SÉMANTIQUE 874 RECHERCHES FUTURES POUR LE WEB SÉMANTIQUE 874.1 MODÉLISATION DES UTILISATEURS ET DES UTILISATIONS 874.2 PROTECTION DE LA VIE PRIVÉE 884.3 LA RECHERCHE D’ INFORMATION 884.4 SERVICES ET DOCUMENTS ADAPTATIFS /PERSONNALISABLES 894.5 ERGONOMIE DES SERVICES ET DOCUMENTS 89

7 – LES WEB SERVICES SÉMANTIQUES 93

1 PRÉSENTATION ET IMPORTANCE DE LA PROBLÉMATIQUE DUPOINT DE VUE DES USAGES 93

2 MÉTHODES, TECHNIQUES, OUTILS EXISTANTS SUR LESQUELS ONPEUT S’APPUYER 95

2.1 ARCHITECTURE DE RÉFÉRENCE 962.2 PROBLÉMATIQUE DE L’ INTÉGRATION 972.3 ARCHITECTURE ÉTENDUE 993 TRAVAUX ET RÉSULTATS EXISTANTS AUTOUR DES WEB

SERVICES SÉMANTIQUES ET RECHERCHES FUTURES 1013.1 MODÉLISATION DES SERVICES 1023.1.1 DAML-S 1023.1.2 WSFM 1023.2 PROBLÈMES D’ AUTOMATISATION 1033.2.1 Découverte dynamique des services 1033.2.2 Composition des services 1033.3 ÉVALUATION DES PERFORMANCES DES WEB SERVICES SÉMANTIQUES

1044 CONCLUSION 106

8 – APPLICATIONS DU WEB SÉMANTIQUE 111

1 INTRODUCTION 1122 E-COMMERCE 1122.1 QUELS USAGES DES ONTOLOGIES POUR LE E-COMMERCE ? 1122.2 LE E-COMMERCE À BASE DE CONNAISSANCES : OntoSeek® ET

Mkbeem® 1133 APPLICATIONS MÉDICALES 114

Page 8: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

viii

3.1 LE PARTAGE DE RESSOURCES 1153.2 L’INDEXATION ET LE CATALOGAGE 1153.3 DES SERVICES WEB POUR L’ INTEROPÉRABILITÉ 1163.4 ET DANS LE FUTUR ? 1174 PORTAILS ET MÉMOIRES D’ENTREPRISE 1174.1 LES SERVICES OFFERTS 1174.2 DES PORTAILS D’ ENTREPRISE SÉMANTIQUES : Ontoknowledge® ET

COmma® 1195 TRAITEMENT AUTOMATIQUE DES LANGUES 1195.1 L’USAGE D’ONTOLOGIES “ LINGUISTIQUES” DANS LES APPLICATIONS

1195.2 LA TRADUCTION AUTOMATIQUE : Pangloss® ET Mikrokosmos® 1206 CONCLUSION 121

9 – CONCLUSION 123

1 QUELQUES RÉFLEXIONS 1232 PROPOSITIONS DE RECHERCHE 124

10 – ACTIVITÉS DE L’ACTION SPÉCIFIQUE « WEB SÉMANTIQUE » 127

1 LISTE DES ACTIVITÉS DE L’AS 1272 PROGRAMMES 129

Page 9: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

1

1 – Introduction

1 LE WEB SÉMANTIQUE

L’expression Web sémantique, due à Tim Berners-Lee (Berners-Lee et al., 2001)au sein du W3C, fait d’abord référence à la vision du Web de demain comme un vasteespace d’échange de ressources entre êtres humains et machines permettant uneexploitation, qualitativement supérieure, de grands volumes d’informations et deservices variés. Espace virtuel, il devrait voir, à la différence du Web que nousconnaissons aujourd’hui, les utilisateurs déchargés d’une bonne partie de leurs tâchesde recherche, de construction et de combinaison des résultats, grâce aux capacitésaccrues des machines à accéder aux contenus des ressources et à effectuer desraisonnements sur ceux-ci.

Le Web actuel est essentiellement syntaxique, dans le sens que la structure desdocuments (ou ressources au sens large) est bien définie, mais que son contenu restequasi inaccessible aux traitements machines. Seuls les humains peuvent interpréterleurs contenus. La nouvelle génération de Web – Le Web sémantique – a pourambition de lever cette difficulté. Les ressources du Web seront plus aisémentaccessibles aussi bien par l’homme que par la machine, grâce à la représentationsémantique de leurs contenus.

Le Web sémantique, concrètement, est d’abord une infrastructure pour permettrel’utilisation de connaissances formalisées en plus du contenu informel actuel du Web,même si aucun consensus n’existe sur jusqu’où cette formalisation doit aller. Cetteinfrastructure doit permettre d’abord de localiser, d’identifier et de transformer desressources de manière robuste et saine tout en renforçant l’esprit d’ouverture du Webavec sa diversité d’utilisateurs. Elle doit s’appuyer sur un certain niveau de consensusportant, par exemple, sur les langages de représentation ou sur les ontologies utilisés.Elle doit contribuer à assurer, le plus automatiquement possible, l’interopérabilité etles transformations entre les différents formalismes et les différentes ontologies. Elledoit faciliter la mise en œuvre de calculs et de raisonnements complexes tout enoffrant des garanties supérieures sur leur validité. Elle doit offrir des mécanismes deprotection (droits d’accès, d’utilisation et de reproduction), ainsi que des mécanismespermettant de qualifier les connaissances afin d’augmenter le niveau de confiance desutilisateurs.

Page 10: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

2

Mais restreindre le Web sémantique à cette infrastructure serait trop limitatif. Cesont les applications développées sur celle-ci qui font et feront vivre cette vision et quiseront, d’une certaine manière, la preuve du concept (Cf. chapitre 8). Bien sûr, demanière duale, le développement des outils, intégrant les standards du Websémantique, doit permettre de réaliser plus facilement et à moindre coût desapplications ou des services développés aujourd’hui de manière souvent ad-hoc.

A titre d’illustration évoquons ici quelques applications courantes et soulignons lesgoulots d’étranglements qui devraient trouver une solution via l’usage destechnologies promises du Web sémantique.

La recherche d’information (précision et complétude) : rechercher des documentssur le Web est souvent une tâche laborieuse. Les recherches sont imprécises etrequièrent une activité de « tri manuel » des documents retournés pour espérer trouverle(s) document(s) recherché(s) d’ailleurs sans aucune assurance. Ici, le Websémantique devrait largement faciliter l’appariement sémantique entre la requête del’utilisateur et les documents indexés (manuellement ou de manière semi-automatique).

Maintenance de base documentaire (passage à l’échelle, cohérence) : créer un siteWeb est très simple aujourd’hui grâce aux éditeurs très intuitifs du marché, maismettre à jour ce site et les bases documentaires associés deviennent rapidement unetrès lourde tâche dès que la taille augmente. Ici le passage à l’échelle du Web (mêmed’un Intranet) requiert la mise à disposition d’outils d’assistance assurant des mises àjour (semi-) automatique maintenant la cohérence globale.

Le commerce électronique (confiance, passage à l’échelle des services, cohérence,hétérogénéité) : le commerce de gros (B2B) ou le commerce de détails (B2C) fontappel à un assemblage de technologies de base telles la Recherche d’Information oubien l’intégration de sources de produits d’origine très diversifiée et donc trèshétérogène dans leur description. Une intégration aisée se réalise via une couched’abstraction sémantique (ontologies de domaine) donnant une vue unifiée auxinternautes clients.

Enfin dans le domaine des services immatériels (e.g . e.work et e.business) (systèmede médiation sémantique, confiance et délégation) il y a une forte demanded’intégration et d’automatisation des processus. Ceci n’est pas nouveau (cf. EDI,EbXML) mais le Web sémantique fait espérer une véritable orchestration automatiséede processus très courants dans le monde de l’industrie et du commerce. C’est lafilière Web Services sémantiques (dont SOAP, UDDI, WSDL ne sont que les briquesde bas) qui est ici concernée.

Pour réaliser cette vision les recherches actuellement réalisées s’appuient sur unexistant riche venant, d’abord, des recherches en représentation ou en ingénierie desconnaissances, mais aussi de bien d’autres domaines comme les bases de données, ladémonstration automatique de théorèmes, l’apprentissage automatique, leshypermedia, l’ingéniérie linguistique ou bien encore les interactions personne-machine. Mais l’utilisation et l’acceptation de ces recherches à l’échelle du (ou d’unepartie du) Web posent de nouveaux problèmes et défis : changement d’échelle dû aucontexte de déploiement : le Web sur Internet et ses dérivés (intranet, extranet), lanécessité d’un niveau élevé d’interopérabilité, d’ouverture, de standardisation,diversités des usages, distribution bien sûr et aussi impossibilité d’assurer unecohérence globale. Comme l’écrit, en substance, Tim Berners-Lee, le Web sémantiqueest ce que nous obtiendrons si nous réalisons le même processus de globalisation surla représentation des connaissances que celui que le Web fit initialement surl’hypertexte.

Page 11: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

1 – Introduction

3

FIG. 1 1– Les couches du Web sémantique selon le W3C

Les propositions faites autour de l’infrastructure du Web sémantique doiventpermettre aussi bien la réalisation d’outils généralistes avec des utilisateurs mal définis(un exemple pourrait être des moteurs de recherche prenant plus en compte lecontenu sémantique de documents) que la réalisation d’applications pour des tâchesplus complexes comme la gestion de connaissances au service des membres d’uneentreprise2. Suivant le niveau de complexité, on pourra parfois s’appuyer surtout surl’utilisation de méta-données (Cf. chapitre 3). Mais, dans beaucoup de cas, on relèverala nécessité de méthodes et de systèmes d’intégration de données hétérogènes (Cf.chapitre 5) ou bien encore la nécessité de faire appel et de combiner des services Websémantiques (Cf. chapitre 7).

Les langages proposés sont à la base de la démarche, ne serait-ce que pour desquestions de standardisation, même si l’infrastructure ne se réduit pas à ceux-ci. Leurproblématique est présentée au chapitre 2. Ils sont souvent l’aspect du Websémantique le plus connu avec le schéma de la figure 1 souvent repris sous des formesvariées.

Mais les recherches sur le Web sémantique ne se limitent évidemment pas auxlangages. Celui-ci nécessite l’utilisation de ressources adaptées aux différentes tâchescomme les schémas de méta-données ou les ontologies. Le chapitre 4 discute, parexemple, du rôle important, pour la réalisation du Web sémantique, de ces ontologieset des méthodes et outils permettant de les construire et de les mettre en œuvre. Celles-ci sont souvent indispensables pour l’ensemble des recherches évoquées dans cedocument et pour les applications du Web sémantique qu’elles utilisent ou non lesservices Web. En effet, elles permettent aux logiciels qui communiquent entre euxd’utiliser les mêmes termes avec la même sémantique. En résumé, il est nécessaire de :

1. développer des langages de représentation (des connaissances) de lasémantique des contenus ou des ressources, et quand cela est nécessaire,support de mécanismes d’inférence aux bonnes propriétés (validité,complétude, complexité) ;

2. développer des ressources linguistiques ou conceptuelles ( espaces de noms,thésaurus, ontologies, …) utilisant ces langages, les standardiser – si possible –et les rendre disponibles ;

3. développer des outils et des architectures ouvertes permettant la rapideexpérimentation de ces nouvelles technologies ;

4. appliquer ces technologies à un large champ d’applications et montrer le sautqualitatif obtenu.

1 La numérotation des figures est faite chapitre par chapitre.2 Cette opposition a surtout valeur argumentative. Tous les intermédiaires peuvent se présenter. Si l’on prend l’exempledu e-learning , on peut avoir aussi bien des outils qui permettent de trouver des offres de cours que des applicationsdédiées utilisant, par exemple, des méta-données pour personnaliser les parcours.

Page 12: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

4

Il est clair que la diversité des recherches relevant aujourd’hui du Web sémantiquerend illusoire toute volonté d’exhaustivité pour ce document dont l’objectif est demettre en évidence les points importants pour la réalisation de la vision du Websémantique. Pour d’autres points de vue on pourra consulter les premiers livres ouactes de conférence parus, par exemple (Cruz et al., 2002 ; Fensel et al., 2002 ;Horrocks & Hendler, 2002) et (Hyvönen et al., 2002) ainsi que (Euzenat et al., 2002).

2 L’ORGANISATION DU DOCUMENT

Ce document a pour but de donner une vue synthétique des principaux aspects duWeb sémantique. Il est produit par les membres du groupe3 de travail et de réflexionmis en place dès le début de l’action spécifique « Web sémantique » (décembre2001). Les premières discussions, dans ce groupe, ont permis de choisir un certainnombre de thèmes qui sont apparus essentiels à discuter et à analyser afin de mieuxcomprendre et de mieux faire comprendre les projets, les réalités et les perspectivesouvertes par le projet du Web sémantique. Bien sûr, comme déjà souligné, lesrecherches menées pour le développement du Web sémantique ne peuvent sedévelopper qu’en s’appuyant sur un ensemble de recherches, d’origine parfoisanciennes et provenant de secteurs différents. Il nous a donc semblé important desituer aussi les recherches actuelles par rapport à l’existant sur lequel elles s’appuient.

Les chapitres suivants présentent synthétiquement chacun des thèmes. Enrichis parles discussions des versions successives par le groupe de travail, et par les différentesactivités de l’AS (journées scientifiques, contacts, …), ces chapitres ont été élaborés etrédigés par un ou plusieurs membres du groupe du travail avec parfois lacollaboration d’autres chercheurs.

Ces chapitres, avec leurs auteurs, sont intitulés :1 –Introduction2 –Les langages du Web sémantique : Jean-François Baget, Etienne Canaud,

Jérôme Euzenat et Mohand Saïd-Hacid ;3 –Méta-données et annotations dans le Web sémantique : Yannick Prié et Serge

Garlatti ;4 –Les ontologies pour le Web sémantique : Jean Charlet, Bruno Bachimont et

Raphaël Troncy ;5 –L’intégration de sources de données : Mohand-Saïd Hacid et Chantal

Reynaud ;6 –Adaptation et personnalisation dans le Web sémantique : Serge Garlatti et

Yannick Prié ;7 –Les Web services sémantiques : Patrick Kellert et Farouk Toumani ;8 –Applications du Web sémantique : Alain Léger et Jean Charlet ;9 –Conclusion ;Annexe – les activités de l’AS.

Ces thèmes doivent être vus comme des angles d’approche différents des recherchessur le Web sémantique qui en associent souvent plusieurs. Mais, nous avons souhaité,en séparant ces approches, donner des entrées multiples à la problématique du Websémantique, entrées qui peuvent correspondre aux centres d’intérêts de différentescommunautés de chercheurs. Bien sûr, d’autres thèmes auraient pu s’ajouter, maisceux présentés ici semblent constituer le socle minimal pour la réalisation du Websémantique.

Dans la partie suivante, nous détaillons l’organisation en quatre parties, choisie afin dedonner un cadre de réflexion commun aux chapitres 2 à 7. Notons qu’elle n’aurait 3 Voir la liste des membres de ce groupe dans le rapport d’activités de l’AS annexé à ce document.

Page 13: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

1 – Introduction

5

pas eu de pertinence pour le chapitre 8 sur les applications. Ce chapitre, en plus del’intérêt propre des réalisations présentées, met en évidence l’intérêt des perspectivesouvertes par le Web sémantique mais aussi les difficultés qui se présentent.

Pour revenir au cadre, utilisé pour les chapitres 2 à 7, il s’est avéré plus ou moins bienadapté aux différents chapitres. Mais il nous a paru intéressant de le présenter dans cetavant-propos, d’abord comme un guide du document mais aussi comme un cadre deréflexion éventuellement réutilisable pour d’autres actions spécifiques.

3 L’ORGANISATION DES CHAPITRES

3.1 PRÉSENTATION ET IMPORTANCE DE LA PROBLÉMATIQUE DUPOINT DE VUE DES USAGES

Dans la première partie de chacun des chapitres mentionnés (deux à sept), lesauteurs cherchent à montrer en quoi le Web sémantique est concerné par laproblématique développée spécifiquement dans ce chapitre et pourquoi les travauxqui vont être présentés dans la suite sont utiles ou indispensables pour aller dans ladirection du Web sémantique.

On s’intéresse dans cette partie essentiellement au point de vue des usages et del’exploitation de différents types de ressources à l’aide des technologies du Web (surl’internet, des intranets, …). Il s’agit d’illustrer les avancées qui devraient êtrepossible, avec le Web sémantique par rapport à ce que le niveau actuel des théories,méthodes et outils permet de faire.

En fait dans cette partie, il y a un peu deux types d’argumentation possibles etparfois complémentaires, suivant les chapitres.

Du genre, soit, certes les résultats déjà obtenus sont intéressants de tels ou telspoints de vue grâce à telle ou telle technologie, mais il faut aller plus loin. Soit, lespromesses faites par, par exemple les Web services, ne seront atteignables que sicertains travaux autour du Web sémantique aboutissent.

On s’est attaché à donner des exemples de ce que l’on pourrait voir se réaliser dupoint de vue des usages, si possible en hiérarchisant le court terme et le long terme.

Deux points sont évidemment importants dans cette partie. Premièrement, on peutchercher à illustrer quelles tâches, aujourd’hui à la charge de l’utilisateur, pourrontêtre en partie prises en charge par des modules logiciels afin d’en décharger cetutilisateur. Deuxièmement, on peut montrer comment disposer des infrastructurescommunes du Web sémantique est soit utile, soit indispensable pour améliorerl’utilisation et les usages des ressources Web. C’est aussi la question de l’intérêt decertaines formes de standardisation qui est alors posée.

Notons, par contre, que ce n’est pas dans cette partie qu’on explique commenttechniquement l’utilisateur peut être déchargé par des modules logiciels et comments’appuyer sur des infrastructures communes. Le « comment » est plutôt expliqué dansles parties suivantes.

3.2 MÉTHODES , TECHNIQUES, OUTILS EXISTANTS SUR LESQUELSON PEUT S’APPUYER

Dans cette deuxième partie, on s’intéresse, de manière plus détaillée et plustechnique, à ce qui n’est pas encore du Web sémantique mais qui constitue le socle sur

Page 14: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

6

lequel viennent se positionner les travaux présentés dans le chapitre. Ceci est fait dupoint de vue des théories ou des outils déjà disponibles.

Exemples : pour les langages : XML et sa galaxie, pour les Web servicessémantiques: les protocoles SOAP, UDDI, WSDL, etc.

3.3 TRAVAUX ET RÉSULTATS EXISTANTS DU WEB SÉMANTIQUE

On s’intéresse dans cette partie, à présenter les travaux et les résultats déjà obtenusdans le cadre des débuts du Web sémantique sans oublier de prendre en compte :

- comment ces travaux s’articulent sur l’existant présenté dans la partieprécédente ?

- quelles sont les premières réalisations qui montrent l’impact, en termed’améliorations des propositions du Web sémantique. Quels sont les nouveauxusages déjà possibles avec ces technologies ?

- quelles sont les réalisations qui sont envisageables (non encore abouties) avecles méthodes et technologies du Web sémantique qui existent d’ores et déjà ?

On a pu souligner aussi, dans cette partie, quelles sont les questions qui apparaissentà partir de ces recherches et les choix et débats qui se posent à partir de ces premièresexpérimentations : il ne s’agit évidemment pas de trancher mais de poser les termesdu débat en les reliant si possible aux recherches qui permettraient d’avancer parrapport à ces questions.

3.4 RECHERCHES FUTURES POUR LE WEB SÉMANTIQUE

Il s’agit dans cette partie de réfléchir, de manière plus prospective, en s’appuyantsur les recherches actuelles présentées dans la partie précédente. Il s’agit donc detenter d’expliquer à chaque fois les recherches qui seraient intéressantes de favoriser :

- Les problèmes qui se posent et dont la solution peut être basée sur des résultatsdéjà connus, à reprendre tels quels ou à adapter et les recherches nécessaires.

- Les problèmes nouveaux non encore étudiés et les recherches nécessaires.

On pourra compléter avec plusieurs aspects qui relèveraient de coopérations soit auniveau français, soit au niveau européen :

- Quels sont les outils ou plate-forme qu’il serait utile de développer ?- Quelles ressources seraient intéressantes de développer et de mettre à la

disposition des différentes communautés ?- Même question pour l’évaluation ?- Quels standards sont importants et à favoriser ?- Quelles sont les recherches pluridisciplinaires qu’il faudrait encourager ?

Un des aspects importants, en vue de l’adoption du Web sémantique, est la capacitéd’aider des utilisateurs non spécialistes à créer et à exploiter des ressourcesexploitables dans le cadre des infrastructures et des outils proposés dans le cadre duWeb sémantique. En d’autres termes, comment cacher la complexité des technologiesdu Web sémantique. Quelles seraient les recherches nécessaires sur ce plan ? Cela peutêtre relié au point précédent sur les recherches pluridisciplinaires mais pas seulement.

Page 15: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

1 – Introduction

7

RÉFÉRENCES

BERNERS-LEE Tim, HENDLER James & LASILLA Ora (2001). The Semantic Web, ScientificAmerican,.

CRUZ Isabel, DECKER Stefan, EUZENAT Jérôme & MCGUINNESS Deborah (eds) (2002). Theemerging Semantic Web, Selected papers from the first Semantic web working symposium,IOS press, Amsterdam (NL).

EUZENAT Jérôme (ed) (2002). Research challenges and perspectives of the Semantic Web, Reportof the EU-NSF strategic workshop, Sophia-Antipolis.

FENSEL Dieter, HENDLER James, LIEBERMAN Henry & WAHLSTER Wolfgang (eds) (2002).Spinning the Semantic Web : Bringing the World Wide Web to Its Full Potential, The MITPress.

HORROCKS Ian & HENDLER James (eds) (2002). The Semantic web – ISWC 2002, Proceedingsof the “First International Semantic Web Conference“, Sardinia, June 2002, LNCS 2342,Springer.

HYVÖNEN Eero (ed) et al. (2002). Semantic Web Kick-Off in Finland, Vision, Technologies,Research and Applications, HIT Publications.

Page 16: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation
Page 17: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

9

2 – Les langages du Web sémantiqueJean-François Baget#, Étienne Canaud*, Jérôme Euzenat# et Mohand Saïd-Hacid*

# INRIA Rhône-Alpeshttp://www.inrialpes.fr/exmo

[email protected]

* LIRIS FRE 2672 CNRSUniversité Claude Bernard Lyon 1

[email protected]

Résumé

La manipulation des ressources du Web par des machines requiert l’expression oula description de ces ressources. Plusieurs langages sont donc définis à cet effet, ilsdoivent permettre d’exprimer données et métadonnées (RDF, Cartes Topiques), dedécrire les services et leur fonctionnement (UDDI, WSDL, DAML-S, etc.) et dedisposer d’un modèle abstrait de ce qui est décrit grâce à l’expression d’ontologies(RDFS, OWL). On présente ci-dessous l’état des travaux visant à doter le Websémantique de tels langages. On évoque aussi les questions importantes qui ne sontpas réglées à l’heure actuelle et qui méritent de plus amples travaux.

Mots-c lés : RDF, Cartes Topiques, RDFS, OWL, DAML, UDDI, WSDL,DAML-S, XL, XDD, Règles, Ontologies, Annotation, Sémantique, Inférence,Transformation, Robustesse.

1 PRÉSENTATION ET IMPORTANCE DE LAPROBLÉMATIQUE DU POINT DE VUE DES USAGES

Le Web sémantique doit pouvoir être manipulé par les machines. Dans l’état actuelde la technologie, il est alors nécessaire de disposer de langages pour :

- exprimer les données et les méta-données (cf. chapitre 3) ;- exprimer les ontologies (cf. chapitre 4) ;

Page 18: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

10

- décrire les services (cf. chapitre 7).

Certes, il existe déjà des langages développés pour ces activités indépendamment duWeb sémantique (KIF (Genesereth & Fikes, 1992) ou WPDL (WFMC, 1999)). Ils nesont pas utilisés tels quels dans le Web sémantique car il est nécessaire de leurpermettre d’accepter les caractères propres au Web à savoir sa distribution (il faut êtrecapable de tirer parti d’information dont on ne dispose pas localement) et sonouverture (n’importe qui peut ajouter de l’information à tout instant).

Disposer de chacun de ces langages est indispensable au développement desfonctionnalités correspondantes du Web sémantique. Ces langages permettrontdiverses applications nouvelles telles que :

- la recherche d’information fondée sur des descriptions formelles ;- la composition de services en fonction de leurs descriptions ;- l’interconnexion de catalogues sur la base de leur description.

Le but du Web sémantique est principalement que les services soient mieux rendussans engendrer de surcharge pour les utilisateurs. Dans cette perspective, les usages nedevraient se voir impacter que positivement par les langages développés. Mais l’idéedu Web est que les usagers en soient les contributeurs. C’est en ce sens que leslangages développés pour le Web sémantique pourront avoir un impact sur ceux quiles utiliseront pour décrire leurs ressources voire leurs services.

Par ailleurs, même si ces langages étaient destinés à rester cachés (c’est-à-direaccessible au travers d’une application plus conviviale), les langages utilisés risquentd’imposer indirectement leurs contraintes aux usagers. Ainsi, dans une application derecherche d’information, l’expressivité du langage de requêtes contraindra la formeet l’étendue de la réponse. Ces problèmes seront illustrés dans les sections 3 et 4.

2 MÉTHODES, TECHNIQUES, OUTILS EXISTANTS SURLESQUELS ON PEUT S’APPUYER

XML est le langage de base. Il a l’avantage d’être fait pour la communication enréseau et de disposer de nombreux outils. Il est donc naturellement utilisé pourencoder les langages du Web sémantique. Mais il a surtout la propriété d’être unmétalangage (une description de type de document, DTD, permet de décrire lagrammaire des documents admissibles).

Bien entendu, ceci ne permet pas à une machine de manipuler sémantiquement undocument. Mais cela a la vertu de permettre une manipulation syntaxique de tous lesdocuments. Ainsi, une annotation sera attachée de la même manière à un paragraphe,un exposant dans une formule mathématique ou un polygone dans un dessin parceque ceux-ci sont encodés en XML. C’est cette propriété qui permet d’insérer deséléments du Dublin-core dans une ontologie et d’annoter des documents à l’aide dela connaissance formalisée.

Cette compatibilité entre les langages décrits en XML permet de construire leslangages présentés ci-dessous et de les considérer comme des documents XML.

Mais XML est limité car il ne dispose pas d’une sémantique (au sens logique desémantique dénotationnelle d’un langage). Rien ne justifie donc les raisonnements oumanipulations appliquées à des documents XML. C’est pourquoi il est nécessaire dedévelopper d’autres langages.

La seconde source d’inspiration est celle de la représentation de connaissance etnotamment les langages de représentation de connaissance que sont les logiques dedescriptions et les réseaux sémantiques (que nous considérerons ici sous leur aspect

Page 19: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

2 – Les langages du Web sémantique

11

plus avancé des graphes conceptuels). Ces langages permettent d’exprimer laconnaissance de nature ontologique (décrire des classes d’entités, les relier parspécialisation, décrire et typer leurs attributs) ou assertionnelle (décrire l’état dumonde par des individus en relations entre eux, individus et relations étant décrits dansl’ontologie).

Depuis une quinzaine d’années ces langages sont définis par leur sémantique etcaractérisés par leur décidabilité et complexité. Ceci permet de développer desmoteurs d’inférence dont on connaît clairement les limites d’application.

Ces langages ont certaines limitations dans la prise en compte de la nécessaireouverture du Web (relations entre objets distribués, ajout de connaissance incontrôlé);ils sont donc reconsidérés dans ce contexte.

Enfin, dans le cadre des descriptions de services, les dernières sources d’inspirationsont les langages de description de plans et en particulier les langages de descriptionde “Workflow” permettant d’exprimer de manière abstraite des activités (ou tâches)et leurs dépendances (séquence, parallélisme, synchronisation…). Ces langages sontexécutables par des logiciels qui contrôlent l’exécution du plan à l’aide d’événementsprédéfinis (envoi d’un mail, remplissage d’un formulaire, signature d’unengagement…). Le langage le plus emblématique est certainement WPDL, proposépar la “Workflow Management Coalition”, parce qu’il est compris par différentslogiciels de workflow. Il a été récemment décliné en XML (XPDL (WFMC, 2002)).

Ces langages sont en général destinés à être supervisés par les humains quiexécutent les tâches du workflow, ils doivent donc acquérir plus de rigueur dans ladescription des tâches pour pouvoir être manipulés par des machines dans le cadre duWeb sémantique.

3 TRAVAUX ET RÉSULTATS EXISTANTS DU WEBSÉMANTIQUE

Il semble clair que le Web sémantique ne pourra voir le jour sans un minimum destandardisation. Différents consortiums et organismes mettent donc les acteurs autourd’une table pour définir les langages à utiliser dans le Web sémantique. L’intérêt decette approche standardisante est bien sûr d’assurer des traitements uniformes surl’ensemble des documents écrits dans ces langages. Un inconvénient peut être le geld’autres travaux de recherche plus originaux (Ginsberg, 1991). Une approche moinscontraignante aurait pu être la définition de métalangages : en permettant de décriredes langages (que ce soit par leur sémantique, en décrivant leurs règlesd’interprétation, ou de façon opérationnelle, en fournissant des règles encodant lesmécanismes de raisonnement), cette standardisation n’aurait pas gêné l’ouverture versd’autres travaux (Euzenat, 2000).

Les travaux de standardisation sont aujourd’hui bien avancés : RDF et SOAP sontdes recommandations du W3C, TopicMaps une norme ISO, et OWL est sur les pas deRDF.

Nous décrirons ici trois sortes de langages :- des langages d’assertions (RDF et cartes topiques) ;- un langage de définition d’ontologies pour le Web (OWL) ;- différents langages de description et de composition de services (UDDI et

autres).

Dans les deux premiers cas nous nous appuierons principalement sur les langagesproposés par le W3C qui a réussi à faire interagir un grand nombre d’acteurs tant

Page 20: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

12

académiques qu’industriels (et à bâtir sur différents langages proposésantérieurement). Ces langages sont munis d’une sémantique formelle, en théorie desmodèles. Un des intérêts de munir les langages d’une sémantique formelle est depouvoir définir de façon naturelle la notion de conséquence : un document RDF estconséquence d’un autre veut dire que toute information contenue dans ce dernier estaussi contenue dans le premier ; et une classe OWL est conséquence d’une autre veutdire que toutes les instances de la seconde sont des instances de la première. Cecipermet de comparer des faits (dans RDF) ou des classes (dans OWL), et donc permetd’interroger une base de documents : l’utilisateur peut par exemple définir undocument RDF (la question), et lancer un mécanisme de recherche sur le Web pour lesdocuments RDF dont la question est une conséquence. Ce seront les réponses à cettequestion. Ceci ne fait cependant pas de RDF un vrai langage de requêtes. Bien qu’ilpuisse répondre à certaines questions (« y a-t-il un train de Grenoble à Paris partantentre 8h00 et 9h30 demain ? »), il ne permet pas d’agir (dans ce cas, réserver lesbillets). Il faudrait pour cela encapsuler ces langages dans des langages de requêtessimilaires à ceux que l’on peut trouve en bases de données, à moins que cette tâche nesoit totalement dévolue aux services.

3.1 LANGAGES D’ASSERTIONS ET D’ANNOTATIONS

Les assertions affirment l’existence de relations entre des objets. Elles sont doncadaptées à l’expression des annotations que l’on veut associer aux ressources du Web.On évoquera principalement RDF ici car il nous semble présenter des avantagesdéterminants pour la manipulation informatique, mais le formalisme des cartestopiques mérite que l’on s’y intéresse. Une comparaison des deux peut être trouvéedans (Garshol, 2003).

3.1.1 RDF

RDF (Lassila & Swick, 1999) (Klyne & Carroll, 2003) est un langage formel quipermet d’affirmer des relations entre des « ressources ». Il sera utilisé pour annoterdes documents écrits dans des langages non structurés, ou comme une interface pourdes documents écrits dans des langages ayant une sémantique équivalente (des basesde données, par exemple).

Un document RDF est un ensemble de triplets de la forme <sujet, prédicat, objet>.Les éléments de ces triplets peuvent être des URIs (Universal Resource Identifiers(Berners-Lee et al., 1998)), des littéraux ou des variables. Cet ensemble de triplets peutêtre représenté de façon naturelle par un graphe (plus précisément un multi-grapheorienté étiqueté), où les éléments apparaissant comme sujet ou objet sont les sommets,et chaque triplet est représenté par un arc dont l’origine est son sujet et la destinationson objet. Ce document sera codé en machine par un document RDF/XML(Beckett, 2003) ou N3, mais est souvent représenté sous une forme graphique (voirfigure x.1).

Page 21: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

2 – Les langages du Web sémantique

13

FIG. 1 — Un graphe RDF.

La figure x.1 présente une partie d’un document RDF (il s’agit d’un exemplefictif, montrant comment la SNCF pourrait donner une interface RDF à sa base dedonnées de voyages). Les termes de la forme http://... sont des URIs qui identifient desressources définies de façon unique. Notons dans les URIs que certaines ressourcessont spécifiques à la SNCF (le train), et que d’autres (departure…) sont issus d’uneontologie dédiée aux voyages. Les objets d’un triplet qui sont des littéraux sontreprésentés dans un rectangle (ici, 13h27). Le sommet non étiqueté représente unevariable. Intuitivement, ce graphe peut se comprendre comme « le train TER 85158part de Grenoble à 13h27 ». Cette sémantique « intuitive » ne suffisant pas à untraitement automatique, il faut munir les documents RDF d’une sémantique formelle.

La sémantique d’un document RDF est exprimée en théorie des modèles(Hayes, 2003). L’objectif est de donner des contraintes sur les mondes qui peuventêtre décrits par un document RDF. L’utilisation de la théorie des ensembles pourdécrire ces modèles a deux intérêts : la généricité de la notion d’ensemble (fondementdes mathématiques ) et son universalité (culture commune pour ceux qui vonts’intéresser à cette sémantique).

Un document RDF peut aussi être traduit en une formule de la logique positive(sans négation), conjonctive, existentielle du premier ordre (sans symbolesfonctionnels), dont les modèles sont identiques à ceux définis par la sémantiquedirecte en théorie des modèles. À chaque triplet <s, p, o> on associe la formuleatomique p(o, s), où p est un nom de prédicat, et o et s sont des constantes si ceséléments sont des URIs ou des littéraux dans le triplet, et des variables sinon. Ledocument RDF se traduit par une formule qui est la fermeture existentielle de laconjonction des formules atomiques associées à ses triplets. Ainsi, le document RDFutilisé précédemment en exemple se traduit par la formule :

x (departure(ter85158, x) time(x, 13h27) localisation(x, Grenoble))

L’information contenue dans un document RDF R1 est déjà présente dans ledocument RDF R2 si et seulement si la formule logique associée à R1 est conséquencede celle associée à R2. Cette « traduction logique » de RDF permet de l’identifier à denombreux autres paradigmes de raisonnement : la logique, bien sûr, mais aussi lesbases de données (Datalog positif) ou les graphes conceptuels.

Bien qu’un mécanisme d’inférence adéquat et complet par rapport à la sémantique(on ne trouve que des conséquences, et toutes les conséquences) soit évoqué dans lespropositions du W3C, ceci n’entre pas dans la standardisation. L’objectif est de laisserla plus grande liberté à ceux qui vont implémenter des outils fondés sur RDF, en

http://www.travel-ont.org/localisation

http://www.travel-ont.org/departure

http://www.travel-ont.org/time

http://www.sncf.org/rdf/trains/ter85158

13h27

http://www.villes.fr/rdf/Grenoble

Page 22: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

14

n’établissant pas la certification sur les mécanismes de raisonnements. Lerapprochement avec les graphes conceptuels simples permet cependant de préciser cemécanisme de raisonnement. Il s’agit d’un homomorphisme de graphes étiquetés,pour lequel des algorithmes efficaces (bien qu’il s’agisse d’un problème NP-complet) ont été développés.

RDF propose aussi certains mots-clés réservés, qui permettent de donner unesémantique particulière à des ressources. Ainsi, on peut représenter des ensemblesd’objets (rdf:bag), des listes (rdf:sequence), des relations d’arité quelconque(rdf:value)… Ce ne sont cependant pas de réelles extensions du langage présenté ci-dessus, puisqu’une transformation (la réification) permet d’exprimer cette« sémantique étendue » dans le langage de base : R1 est une conséquence (sémantiqueétendue) de R2 si et seulement si réif(R1) est une conséquence (au sens précédent) deréif(R2).

RDFS (pour RDF Schéma (Brickley et Guha, 1999; 2003)) a pour but d’étendre lelangage en décrivant plus précisément les ressources utilisées pour étiqueter lesgraphes. Pour cela, il fournit un mécanisme permettant de spécifier les classes dont lesressources seront des instances, comme les propriétés. RDFS s’écrit toujours à l’aidede triplets RDF, en définissant la sémantique de nouveaux mots-clés comme :

- <ex:Vehicule rdf:type rdfs:Class> la ressource ex:Vehicule a pour typerdfs:Class, et est donc une classe ;

- <sncf:TER8153 rdf:type ex:Vehicule> la ressource sncf:TER8153 est uneinstance de la classe ex:Vehicule que nous avons définie ;

- <sncf:Train rdfs:subClassOf ex:Vehicule> la classe sncf:Train est une sous-classe de ex:Vehicule, toutes les instances de sncf:Train sont donc desinstances de ex:Vehicule ;

- <ex:localisation rdf:type rdfs:Property> affirme que ex:localisation estune propriété (une ressource utilisable pour étiqueter les arcs) ;

- <ex:localisation rdfs:range ex:Ville> affirme que toute ressource utiliséecomme extrémité d’un arc étiqueté par ex:localisation sera une instance de laclasse ex:Ville.

Ce besoin de spécifier davantage les classes est à l’origine du langage dédié auxdéfinitions de classes : OWL.

3.1.2 Cartes topiques

Les cartes topiques (“Topic maps” (Biezunski et al., 1999)) sont un standard ISOissu de HyTime dont le but était d’annoter les documents multimédia. Issu de SGML,il s’est vu récemment attribuer une syntaxe XML (XTM (Pepper & Moore, 2001)).Par ailleurs, un groupe de l’ISO s’occupe de définir un langage de requêtes pour lescartes topiques (TMQL).

Les cartes topiques sont bâties autour de quatre notions primitives (nous faisons iciabstraction des sujets) :

- les “topics” que l’on peut comprendre comme des individus des langages dereprésentation de connaissances ;

- les noms donnés aux topics : l’une des originalités des cartes topiques est laséparation des concepts et de leurs noms. Cela permet d’avoir plusieurs nomspour le même concept (et donc d’avoir des cartes topiques multilingues) etdes noms partagés par plusieurs concepts ;

- les occurrences sont des “proxis” d’entités externes qui peuvent ainsi êtreindexés par les topics (ou les entités littérales lorsque celles-ci sontreprésentables) ;

- les portées, qui sont parfois vues comme une quatrième dimension, permettentde spécifer le contexte dans lequel une relation est valide.

Page 23: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

2 – Les langages du Web sémantique

15

Par exemple, le topic de vol est instancié par myFlight, il a pour nom « vol pourBoston » dont la portée est celle de mes discussions au déjeuner avec les collègues et« flight AF322 » lors de discussions avec l’immigration américaine.

landAt

instanceOf

named named

myFlight BOS

Flight

Déjeuner

Collègue

USImmigration

Vol pour BostonAF322

class

instance

topic

locationevent

namename

scope

FIG. 2 — Une carte topique.

Si ces quatre dimensions sont spécifiées de manière indépendante, elles sont enréalité interdépendantes : les topics et les noms ont des portées, les topics ont desnoms, les portées sont des ensembles de topics…).

Dans la nouvelle syntaxe des cartes topiques, celles-ci sont représentées par desgraphes comprenant 3 types de nœuds (topic, association, portée) et un certainnombre de types d’arcs (instance, occurrence, portée, nom). Les relations sontreprésentées par des nœuds dont les arcs sortants portent des étiquettes identifiant leurrôle. Par ailleurs, différentes interprétations sont données à ces primitives suivant lesétiquettes placées sur les arcs et les nœuds. Autant dire que les cartes topiques nedisposent pas d’une sémantique claire et que, au contraire, ses concepteurs onttendance à considérer que la richesse du langage tient dans les interprétationsmultiples que l’on peut en faire.

Ceci ne le rend pas un candidat très souhaitable pour le Web sémantique malgré sesqualités indéniables. Il existe cependant des outils permettant de tirer parti de manièreutile des cartes topiques qui sont utilisées dans un certain nombre d’applications.

3.2 LANGAGES DE DÉFINITIONS D’ONTOLOGIES

RDF, langage dédié à l’expression d’assertions sur les relations entre objets, s’estheurté à la nécessité de définir les propriétés des classes dont ces objets sont instances.Cependant, l’extension à RDFS ne fournit que des mécanismes primitifs pourspécifier ces classes. Le langage OWL (Dean & Schreiber 2003), quant à lui, est dédié

Page 24: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

16

aux définitions de classes et de types de propriétés, et donc à la définitiond’ontologies. Inspiré des logiques de descriptions (et successeur de DAML+OIL (vanHarmelen et al., 2001)), il fournit un grand nombre de constructeurs permettantd’exprimer de façon très fine les propriétés des classes définies. La rançon de cetteexpressivité est l’indécidabilité du langage obtenu en considérant l’ensemble de cesconstructeurs. C’est pour cela que OWL a été fractionné en trois langages distincts :

- OWL LITE ne contient qu’un sous-ensemble réduit des constructeursdisponibles, mais son utilisation assure que la comparaison de types pourraêtre calculée (un problème de NP, donc « simple » en représentation deconnaissances) ;

- OWL DL contient l’ensemble des constructeurs, mais avec des contraintesparticulières sur leur utilisation qui assurent la décidabilité de la comparaisonde types. Par contre, la grande complexité de ce langage (un de ses fragmentsest P-SPACE-complet) semble rendre nécessaire une approche heuristique ;

- OWL FULL, sans aucune contrainte, pour lequel le problème de comparaisonde types est vraisemblablement indécidable.

La syntaxe d’un document OWL est donnée par celle des différents constructeursutilisés dans ce document. Elle est le plus souvent donnée sous la forme de tripletsRDF. La sémantique de chaque constructeur est donnée en théorie des modèles (Patel-Schneider et al., 2003). Elle est directement issue des logiques de descriptions. Lasémantique associée aux mots-clés de OWL est plus précise que celle associée audocument RDF représentant une ontologie OWL (elle permet plus de déductions).

Nous donnons ici l’ensemble des constructeurs utilisés dans OWL, dans unesyntaxe simplifiée (les mots-clés réservés de OWL, habituellement préfixés de OWL :sont soulignés), ainsi que leur « sémantique intuitive ». Les constructeurs de OWLLITE sont cités les premiers.

OWL LITE- Reprend tous les constructeurs de RDF (c’est-à-dire fournit des mécanismes

permettant de définir un individu comme instance d’une classe, et de mettredes individus en relation),

- Utilise les mots-clés de RDFS (rdfs:subClassOf, rdfs:Property,rdfs:subPropertyOf, rdfs:range, rdfs:domain), avec la même sémantique,

- Permet de définir une nouvelle classe (owl:Class) comme étant plusspécifique ou équivalente à une intersection d’autres classes,

- owl:sameIndividualAs et owl:differentIndividualFrom permettent d’affirmerque deux individus sont égaux ou différents,

- Des mots-clés permettent d’exprimer les caractéristiques des propriétés :owl:inverseOf sert à affirmer qu’une propriété p est l’inverse de p’ (dans cecas, le triplet <s p o> a pour conséquence <o p’ s>) ; d’autres caractéristiquessont par exemple la transitivité (owl:TransitiveProperty), la symétrie(owl:SymmetricProperty),

- owl:allValuesFrom associe une classe C à une propriété P. Ceci définit laclasse des objets x tels que si <x P y> est une relation, alors la classe de y est C(quantification universelle de rôle en logique de descriptions).owl:someValuesFrom encode la quantification existentielle de rôle,

- owl:minCardinality (resp. owl:maxCardinality) associe une classe C, unepropriété P, et un nombre entier n. Ceci définit la classe des objets x tels qu’ilexiste au moins (resp. au plus) n instances différentes y de C avec <x P y>.Pour des raisons d’efficacité algorithmique, OWL LITE ne permet d’utiliserque des entiers égaux à 0 ou 1. Cette restriction est levée dans OWL DL.

Page 25: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

2 – Les langages du Web sémantique

17

OWL DL- Reprend tous les constructeurs d’OWL LITE,- Permet tout entier positif dans les contraintes de cardinalité,- owl:oneOf permet de décrire une classe en extension par la liste de ses

instances,- owl:hasValue affirme qu’une propriété doit avoir comme objet un certain

individu,- owl:disjointWith permet d’affirmer que deux classes n’ont aucune instance

commune,- owl:unionOf et owl:complementOf permettent de définir une classe comme

l’union de deux classes, ou le complémentaire d’une autre classe.

OWL FULL- reprend tous les constructeurs d’OWL DL,- reprend tout RDF Schema,- permet d’utiliser une classe en position d’individu dans les constructeurs.

Nous n’avons pas cité ici certains constructeurs, qui peuvent être trivialementimplémentés grâce à ceux que nous avons évoqués (par exemple owl:sameClassAs,servant à affirmer que deux classes sont identiques, peut être écrit grâce à deuxrdfs:subClassOf). Il serait intéressant d’identifier quels sont les constructeurs primitifsnécessaires pour ces langages, et ceux qui ne sont que des macros.

Des moteurs d’inférence ont déjà été implémentés pour des sous-ensemblessignificatifs de OWL DL (dans le cadre des logiques de descriptions) et peuvent êtreutilisés dans divers outils (OilEd, Protégé…).

3.3 LANGAGES DE DESCRIPTION ET DE COMPOSITION DE SERVICES

Cette partie a pour but de décrire différents langages, architectures et standardsconcernant les services sur le Web (ou services Web, cf. chapitre 7). De nouveauxlangages dédiés aux services Web sont régulièrement proposés par les organismes derecherche industriels et universitaires. Il ne faut pas perdre de vue que la plupart deslangages présentés sont complémentaires et ne répondent pas aux mêmes besoins.Nous allons donc présenter les objectifs et les fonctionnalités des principaux langagesconsacrés aux services sur le Web.

3.3.1 UDDI

Le protocole UDDI (Universal Description, Discovery and Integration (Curbera etal., 2002)) est une plate-forme destinée à stocker les descriptions des services Webdisponibles, à la manière d’un annuaire de style « Pages Jaunes ». Des recherches surles services peuvent être effectuées à l’aide d’un système de mots-clés fournis par lesorganismes proposant les services. UDDI propose également un système de « PagesBlanches » (adresses, numéros de téléphone, identifiants…) permettant d’obtenir lescoordonnées de ces organismes. Un troisième service, les « Pages Vertes », permetd’obtenir des informations techniques détaillées à propos des services et permettent dedécrire comment interagir avec les services en pointant par la suite vers un PIPRosettaNet ou une “service interface” WSDL. Le vocabulaire utilisé pour lesdescriptions obéit à une taxonomie bien précise afin de permettre une meilleurecatégorisation des services et des organismes.

De par sa simplicité, UDDI permet de stocker l’ensemble des services Web sur unseul serveur, dont le contenu est dupliqué et synchronisé sur plusieurs sites miroirs.Des implémentations d’UDDI ont été réalisées, et on peut d’ores et déjà enregistrer

Page 26: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

18

son entreprise et les services proposés sur UDDI. Cependant, on peut s’interroger surla réelle efficacité en matière de recherche d’une architecture aussi simple où lasémantique des données est inexistante et où la description des services se limite à desmots-clés sur lesquels aucune approximation n’est possible. De plus, il n’est pascertain que des serveurs uniques puissent supporter la charge du nombre de services àvenir.

3.3.2 WSDL

WSDL (Curbera et al., 2002) est un langage basé sur XML servant à décrire lesinterfaces des services Web, c’est-à-dire en représentant de manière abstraite lesopérations que les services peuvent réaliser, et cela indépendamment del’implémentation qui en a été faite. Il ne comporte pas de moyen de décrire demanière plus abstraite les services (tâche plutôt dévolue à DAML-S ou à UDDI), ni demoyen de conversation et de transaction de messages (tel que SOAP ou d’autresimplémentations spécifiques), mais est en général utilisé comme passerelle entre cesreprésentations de haut niveau et de bas niveau.

Dans WSDL, les services sont définis à l’aide de “endpoints”. Les “endpoints”sont des ensembles de ports, c’est-à-dire d’adresses sur le réseau associées à certainsprotocoles et formats de données. Cela va permettre de fournir un cadre abstrait etindépendant des implémentations pour les communications avec les services.

Il y a quatre types d’opérations de base définies dans WSDL : « sens-unique »,« double-sens » requête-réponse, « double-sens » sollicitation-réponse, et « sens-unique » de message de notification. Les messages et les opérations étant définis demanière abstraite, ce qui permet de faire correspondre ces représentations avec deslangages plus abstraits (tel que DAML-S) ; de plus, la réutilisation en est simplifiée.Les messages sont typés, mais on ne peut pas définir de contraintes logiques entre lesparamètres d’entrées/sorties au sein de WSDL.

3.3.3 DAML-S

DAML-S (Ankolenkar et al., 2002) est un langage de description de services basésur XML utilisant le modèle des logiques de descriptions (et plus précisémentDAML+OIL, voir plus haut). Son intérêt est qu’il est un langage de haut niveau pourla description et l’invocation des services Web dans lequel la sémantique est incluse,contrairement par exemple à UDDI. DAML-S est composé de trois partiesprincipales :

- Service Profile, qui permet la description, la promotion et la découverte desservices, en décrivant non seulement les services fournis, mais également despréconditions à la fourniture de ce service, comme « avoir une carte bleuevalide » ou « être membre d’un des pays de l’Union Européenne ». Lesrecherches sur les services peuvent se faire en prenant n’importe quel élémentde Service Profile comme critère.

- Service Model, qui présente le fonctionnement du service en décrivant dans ledétail et de manière relativement abstraite les opérations à effectuer pour yaccéder. Certains éléments du Service Model peuvent être utilisés à la manièredu Service Profile afin de fournir des informations supplémentaires à unutilisateur pour qui les opérations à effectuer seraient également un critère dechoix. C’est le Service Model qui va permettre une composition des servicessi besoin est. Il permet également d’effectuer un contrôle poussé dudéroulement du service.

- Service Grounding va présenter clairement et dans le détail la manièred’accéder à un service. Tout type abstrait déclaré dans le Service Model s’yverra attribuer une manière non ambiguë d’échanger l’information. C’est

Page 27: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

2 – Les langages du Web sémantique

19

dans cette partie que le protocole et les formats des messages entre autres sontspécifiés.

Pour l’instant, DAML-S est un langage qui est encore en cours de spécification,mais dont les grandes lignes sont déjà tracées. Un moyen de l’interfacer avec WSDL aété proposé afin de pallier son absence de gestion d’échange de messages, ce quipermettra par exemple d’utiliser SOAP pour échanger des messages XML. DAML-Spourra alors être réservé à une description abstraite et sémantique des services,permettant également d’exprimer des contraintes sur les paramètres et d’utiliser desconstructeurs (comme « si…alors…sinon… »).

DAML-S est une des seules solutions proposant une réelle sémantique des données,et pas seulement des champs prédestinés par la structure des standards ou par des« feuilles de styles » utilisées pour décrire les services ; de plus, son utilisation deslogiques de descriptions pour modéliser les services permet une grande puissanced’expression, que ne possèdent pas les autres systèmes.

3.3.4 XL

XL (Florescu et al., 2003) est une plate-forme destinée aux services Web, axée surXML, utilisant un langage propre de haut niveau (XL), et prenant en compte lestechnologies du W3C (WSDL, SOAP) afin de permettre une interopérabilité desapplications XL avec d’autres applications écrites dans un langage autre que XL. Toutservice Web est considéré comme une entité recevant des messages XML ettransmettant en retour des messages XML, avec (achat d’un livre) ou sans(consultation de la météo) modification du monde. Les types de données utilisés sontceux de XQuery, développé lui aussi par le W3C et dont est inspirée la syntaxe de XL.

La principale motivation de XL est de créer une plate-forme qui permette auxprogrammeurs d’implémenter rapidement des services Web en permettant uneréutilisabilité maximale. Le langage de requête est un langage déclaratif (à la manièrede SQL) et peut donc être optimisé de manière automatique. De plus, comme celangage est de haut niveau, il permet une composition facilitée des services. XLintègre également une politique de sécurité basée sur J2EE (Java 2 EnterpriseEdition), et met l’accent sur le traitement des instructions en mode pipeline, afind’être plus réactif face à des sources XML importantes ou continues.

Cependant, même si XL permet de manipuler relativement facilement des servicesWeb, il ne permet pas de les décrire autrement que par des entrées/sorties XML, et lasémantique est absente, contrairement à DAML-S par exemple. Bien que ce systèmesoit encore en phase de spécification, un prototype de démonstration a étéimplémenté.

3.3.5 XDD

XDD (XML Declarative Description) (Wuvongse et al., 2001) est un langagecapable de décrire toute la sémantique d’une ressource Web en ajoutant un langagedéclaratif à la syntaxe d’XML.

Une description utilisant XDD est un ensemble d’éléments XML classiques,d’éléments XML étendus à l’aide de variables, et de relations entre les éléments XMLsous forme de clauses. Un élément XML classique représente une unité sémantique etpeut se substituer à un objet (au sens large) du domaine d’application. Un élémentétendu, lui, permettra de représenter une information implicite ou un ensembled’unités sémantiques. Les clauses peuvent exprimer des règles, des relationsconditionnelles, des contraintes d’intégrité, et des axiomes ontologiques. Parmi lesaxiomes importants manquants dans XML et RDF (Lassila & Swick, 1999) (Klyne &Carroll, 2003) mais implémentés dans XDD, on peut relever la symétrie, lacomposition, et la relation inverse.

Page 28: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

20

XDD peut également représenter tous les langages balisés basés sur XML, tels queSDL ou ebXML. Il peut de plus représenter de manière simple toutes les applicationsXML ayant des conventions standardisées portant sur la sémantique, la syntaxe et lastructure, pour un certain nombre de domaines spécifiques, tels que :

- WML (Wireless Markup Language);- MathML (Mathematical Markup Language);- RDF;- XMI (XML Metadata Interchange Format, technologie recommandée par le

‘Object Management Group’ pour décrire des diagrammes UML en XML).

Une fois encodés en XDD, ces langages peuvent avoir leur propre sémantiquedéfinie formellement. XDD permet dès lors la convergence entre la sémantique et lasyntaxe de ces langages, accentuant l’interopérabilité et le développementindépendant des produits.

4 RECHERCHES FUTURES POUR LE WEB SÉMANTIQUE

Le travail sur les langages du Web sémantique n’en est qu’à son début. Ceslangages devront passer le crible des applications pour déterminer s’ils doivent êtreamendés ou totalement abandonnés. En attendant, ils laissent derrière eux un certainnombre de questions qui méritent de plus amples recherches afin de faciliter lacompréhension de ce que pourra être le Web sémantique.

4.1 MODULARISATION DES LANGAGES

Nous avons vu que RDF s’intéresse à des assertions sur les relations entre objets,tandis que OWL s’intéresse à décrire les classes de ces objets. Il s’agit d’undécoupage assez naturel, entre connaissances factuelles et les connaissancesontologiques. Cette structuration des connaissances a été apportée à la fois par leslogiques de descriptions (A-Box et T-Box (Baader et al., 2003)) et les graphesconceptuels (graphe et support) par rapport à leur ancêtre commun, les réseauxsémantiques. Au niveau des usages, cette séparation est tout aussi importante : laconception des ontologies relève du domaine d’un spécialiste, tandis que lesconnaissances factuelles, utilisant une ontologie donnée, sont du ressort d’unutilisateur averti. Il aurait été naturel de cloisonner RDF et OWL suivant cesspécifications, mais le besoin d’augmenter l’expressivité de chacun des langagessemble avoir été le plus fort. L’extension de RDF à RDFS mélange dans un mêmegraphe deux niveaux d’abstraction très différents, et ce manque de structurationcomme de lisibilité est un des principaux reproches faits aux réseaux sémantiques(avec le manque d’une sémantique formelle, défaut auquel RDF remédie). De lamême façon, on peut coder en OWL DL des connaissances factuelles qui sont duressort de RDF. Il y a donc un manque de lisibilité sur les objectifs de ces langages,aggravé par leur multiplicité (RDF, RDFS, OWL LITE, OWL DL, OWL FULL).

Un découpage plus clair entre RDF et OWL aurait permis de développer d’une partdes ontologies, et d’autre part des documents RDF dont les ressources seraient desclasses ou des propriétés décrites dans un document OWL. Cette utilisation communedes deux langages, pourtant naturelle, n’a pour l’instant pas été étudiée. Même si lasémantique de ce langage RDF+OWL se définit immédiatement par les sémantiquesdes langages qui le composent, d’importants problèmes théoriques se posent : si desalgorithmes sont connus pour raisonner sur des documents RDF (homomorphisme degraphe), et pour raisonner dans certains sous-ensembles de OWL (travail réalisé pourles logiques de descriptions), la juxtaposition RDF+OWL ne permet pas la simplejuxtaposition des algorithmes (des problèmes ouverts équivalents peuvent se retrouver

Page 29: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

2 – Les langages du Web sémantique

21

en BD pour l’inclusion de requêtes). Même le découpage de OWL (LITE, DL, FULL)pourrait être remis en cause par la complexité des sous-langages de RDF+OWLcorrespondant.

Par ailleurs, les besoins différents des utilisateurs peuvent nécessiter un découpagedifférent de celui retenu par le W3C. Ainsi, on pourrait préférer à OWL DL unlangage dont la disjonction est exclue et la sémantique de la négation intuitionniste etoù les classes peuvent être considérée comme des instances. Un tel langage n’est pasdéfini actuellement. Pour en bénéficier, il aurait fallu développer une approche plusmodulaire des langages du Web sémantique pour laquelle des travaux seraient lesbienvenus.

4.2 MOTEURS D’INFÉRENCE

Le développement d’outils efficaces pour raisonner dans le Web sémantique seraun critère décisif pour l’adoption de tel ou tel langage. Ce sont ces moteursd’inférence qu’il faudra encapsuler dans des systèmes de requêtes plus évolués afind’interroger le Web et agir sur les réponses obtenues.

Or, pour le plus simple de ces langages (RDF), la subsomption est un problème NP-complet. Des algorithmes efficaces ont pourtant été développés pour calculer leshomomorphismes de graphes qui répondent à ce problème (basés sur lesaméliorations de rétrogression développés pour les réseaux de contraintes). Cesalgorithmes permettent, pour donner un ordre de grandeur, de calculer leshomomorphismes d’un graphe à 500 sommets dans un graphe à 3000 sommets dansun temps raisonnable (si ces graphes ne sont pas trop denses). Le problème estmaintenant tout autre. Même si nous pouvons supposer que l’ordre de grandeur d’ungraphe question est de 50 sommets, la base de faits est l’ensemble des documents RDFdisponibles sur le Web. Il y a aujourd’hui plus de 3 milliards de pages HTMLréférencées par Google, et, sans présager du succès de RDF, on peut se demandercombien de documents RDF seront disponibles demain. Bien que nous pensons que laréalisation d’algorithmes efficaces soit possible (avec de bons mécanismesd’indexation pour démarrer le raisonnement, car il suffit d’étendre localement deshomomorphismes partiels), seule une expérimentation sur une grande masse dedonnées réelles peut permettre de valider cette intuition.

Cependant, dans le langage RDF+OWL que nous jugeons souhaitable, lesproblèmes deviennent tout autres. Même en n’ajoutant que la négation atomique detype, le problème de subsomption devient Π2

P-complet. Un traitement local del’information au cours de l’exécution de l’algorithme n’est alors plus envisageable.

4.3 TRANSFORMATION DE LANGAGES

Il y a fort à parier que la connaissance sera disponible sur le Web dans des formes(langages) différentes, avec des modèles (ontologies) différents. Qui plus est, certainesapplications auront besoin de fusionner de telles sources de connaissance ou de lesadapter à leurs besoins. Cette activité est pour l’instant réalisée de manière ad hoc(dans l’écriture de wrappers par exemple). Il sera nécessaire pour tirer pleinementparti de la connaissance disponible dans le Web sémantique de la transformer et del’importer sous des contextes (langages, ontologies) différents. Il existe une grandevariété de telles transformations (fusion de catalogues, extraction de bases de données,normalisation de théories) nécessitant diverses propriétés (filtrantes, préservant lesconséquences…) (Omelayenko & Klein, 2003). Un premier effort de recherchedevrait permettre de caractériser ces transformations et leurs relations. Il devrait aussiêtre possible de définir de manière standard une transformation « sémantique » etsurtout de l’exécuter. Actuellement, il n’existe aucune infrastructure detransformation pour RDF et l’on utilise toujours XML pour cela.

Page 30: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

22

Enfin, puisque ces opérations sont destinées à être effectuées par des machines(sans discernement), il est essentiel pour la crédibilité du Web sémantique que l’onpuisse prouver la correction des transformations par rapport à leurs spécifications.

4.4 INFÉRENCES ROBUSTES

Une propriété typique du Web est la quantité d’information que l’on y trouve.Malheureusement, il s’y trouve beaucoup d’information erronée, périmée, redondanteou incomplète. Le surfer humain est en général capable de discerner ces problèmes etde les surmonter sans trop y penser. Mais il n’en ira pas de même des applications duWeb sémantique. Il est donc nécessaire de développer des modes de raisonnement quitirent parti du Web sémantique, c’est-à-dire qui sont le plus fidèles possible auxspécifications des langages utilisés, sans pour autant être perturbés par ces problèmes.En un mot, il faut des moteurs d’inférence robustes.

Ceux-ci pourraient utiliser des techniques très variées (logiques paraconsistantes oumodèles statistiques, raisonnement non monotone) adaptées au contexte du Websémantique. Le raisonnement anytime ou sous contraintes de ressources pourrait êtrequant à lui utilisé pour gérer l’immense taille du Web.

4.5 LANGAGES DE RÈGLES

Une autre nécessité, soulignée par de nombreuses personnes travaillant sur le Websémantique, est de développer un langage de règles. Si un organisme X déclare surson document RDF qu’un train va de la ville A à la ville B, et un organisme Y déclarequ’un train va de la ville B à la ville C, alors il faut en déduire qu’il existe un trajetallant de A à C. Pourtant, cette information ne peut se trouver ni sur le site de X, ni surcelui de Y. Une solution immédiate peut être de déclarer, dans un document OWL, quela propriété trajet est transitive, mais le problème devient insoluble dès lors que l’onveut prendre en compte l’existence ou la durée de la correspondance. Il est nécessaired’utiliser une règle « SI … ALORS …» que l’on pourrait représenter comme sur lafigure x.3.

FIG. 3 — Une règle sur un graphe RDF.

Ce type de règle a été étudié comme une extension des graphes conceptuelssimples, et les résultats obtenus sont immédiatement transférables à une extension deRDF. Ces règles sont dotées d’une sémantique, qui correspond à des formuleslogiques de la forme :

compatible

departarrivee

arrivee arriveedepartdepart

locheure

train Trajet-train

locheure locheure locheure

Trajet-train

SI

ALORS

Page 31: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

2 – Les langages du Web sémantique

23

x (P(x) ( y Q(x,y)))

où P(x) est une conjonction de formules atomiques dont les variables sont cellesapparaissant dans x, et Q(x,y) est une conjonction de formules atomiques dont lesvariables sont celles apparaissant dans x et y. Notons que ces formules correspondentaux TDGs (Tuple Generating Dependencies) en bases de données. L’utilisation detelles règles génère un langage très expressif (puisqu’il s’agit d’un modèle de calcul),et malheureusement indécidable. Des sous-ensembles décidables (et même NP-complets) intéressants ont été exhibés. Il est à noter que l’expressivité d’un tellangage de règles en ferait un bon candidat pour un métalangage permettant, parexemple, de doter un langage de définition d’ontologies de nouveaux constructeurs,en définissant de manière opérationnelle leur sémantique.

Ces travaux, comme d’ailleurs tous les travaux sur les langages, ne peuvent se fairede manière isolée. Il est donc normal qu’ils soient poursuivis en liaison avec lesgroupes de travail internationaux contribuant à faire avancer l’état de l’art. Par contreun effort conséquent pourrait être produit par une communauté restreinte en ce quiconcerne les moteurs d’inférence et de transformation. Mais cela demande uninvestissement important à moyen terme.

RÉFÉRENCES

ANKOLENKAR Anupriya, BURSTEIN Mark, HOBBS Jerry, LASSILA Ora, MARTIN David,MCILRAITH Sheila, NARAYANAN Srini, PAOLUCCI Massimo, PAYNE Terry, SYCARA Katia& ZENG Honglei, Eds. (2002). DAML-S: semantic markup for web services. In CRUZ Isabel,DECKER Stefan, EUZENAT Jérôme & MCGUINNESS Deborah, Eds. (2002), The emergingsemantic web, p 131-152. Amsterdam (NL): IOS press.

BAADER Franz, CALVANESE Diego, MCGUINNESS Deborah, NARDI Daniele & PATEL-SCHNEIDER Peter, Eds. (2003). The description logic handbook. Cambridge (UK): Cambridgeuniversity press.

BECKETT Dave, Ed. (2003). RDF/XML Syntax Specification (Revised). W3C Working Draft.http://www.w3.org/TR/rdf-syntax-grammar

BERNERS-LEE Tim, FIELDING Roy & MASINTER Larry (1998). Uniform Resource Identifiers(URI): Generic Syntax. Request for Comments 2396, IETF. http://www.ietf.org/rfc/rfc2396.txt

BIEZUNSKI Michel, BRYAN Martin & NEWCOMB Steven, Eds. (1999). ISO/IEC 13250:2000Topic Maps: Information Technology — Document Description and Markup Languages.http://www.y12.doe.gov/sgml/sc34/document/0129.pdf

BRICKLEY Dan & GUHA Ramanathan, Eds. (1999). Resource description framework schemaspecification. Proposed recommandation, W3C. http://www.w3.org/TR/PR-rdf-schema

BRICKLEY Dan & GUHA Ramanathan, Eds. (2003). RDF Vocabulary description language 1.0:RDF Schema. Working draft, W3C. http://www.w3.org/rdf-schema

CHAMPIN Pierre-Antoine (2000). RDF tutorial. http://www710.univ-lyon1.fr/~champin/rdf-tutorial/

CURBERA Francisco, DUFTLER Matthew, KHALAF Rania, NAGY William, MUKHI Nirmal &WEERAWARANA Sanjiva (2002). Unraveling the web Services web: An Introduction toSOAP, WSDL, and UDDI. IEEE Internet computing 6(2) p. 86-93.

DEAN Mike & SCHREIBER Guus Eds. (2003). OWL web Ontology Language: Reference. W3CWorking Draft. http://www.w3.org/TR/owl-ref/

EUZENAT Jérôme (2000). XML est-il le langage de représentation de connaissance de l’an 2000?Actes 6e journées langages et modèles à objets, Mont-Saint-Hilaire (CA), p 59-74.

FLORESCU Daniela, GRUNHAGEN Andreas & KOSSMANN Donald (2003). XL: A Platform forweb Services, Conference on Innovative Data Systems Research (CIDR), Asilomar (CA US).

GARSHOL Lars Marius (2003). Living with Topic maps and RDF. Ontopia, Trondheim (NO).http://www.ontopia.net/topicmaps/materials/tmrdf.html

Page 32: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

24

GENESERETH Michael & FIKES Richard, Eds. (1992). Knowledge Interchange Format, Version 3.0Reference Manual. Computer Science Department, Stanford University, Technical ReportLogic-92-1. http://www-ksl.stanford.edu/knowledge-sharing/papers/kif.ps

GINSBERG Matthew (1991). Knowledge interchange format: the KIF of death. AI magazine 12(3),p. 57-63. http://www.aaai.org/Magazine/Issues/Vol12/12-03/Ginsberg.pdf

HAYES Patrick, Ed. (2003). RDF Semantics. W3C Working Draft. http://www.w3.org/TR/rdf-mt/

KLYNE Graham & CARROLL Jeremy, Eds. (2003). Resource Description Framework (RDF):Concepts and Abstract Syntax. W3C Working Draft, 2003 http://www.w3.org/TR/rdf-concepts/

LASSILA Ora & SWICK Ralph, Eds. (1999). Resource Description Framework (RDF) Model andsyntax specification. Recommendation, W3C. http://www.w3.org/TR/REC-rdf-syntax

OMELAYENKO Borys & KLEIN Michel, Eds. (2003). Knowledge transformations for the semanticweb. Amsterdam (NL): IOS press.

PATEL-SCHNEIDER Peter, HAYES Patrick & HORROCKS Ian, Eds. (2003). OWL web OntologyLanguage: Abstract Syntax and Semantics. W3C Working Draft. http://www.w3.org/TR/owl-semantics/

PEPPER Steve & MOORE Graham, Eds. (2001). XML Topic Maps (XTM) 1.0. TopicMaps.OrgSpecification. http://www.topicmaps.org/xtm/1.0/

VAN HARMELEN Frank, PATEL-SCHNEIDER Peter & HORROCKS Ian, Eds. (2001). Referencedescription of the DAML+OIL ontology markup language. W3C.http://www.daml.org/2001/03/reference.html

WORKFLOW MANAGEMENT COALITION (1999). Workflow Process Definition Language, version11. WFMC-TC-1016. http://www.wfmc.org/standards/docs/TC-1016-P_v11_IF1_Process_definition_Interchange.pdf

WORKFLOW MANAGEMENT COALITION (2002). Workflow Process Definition Interface -- XMLProcess Definition Language, version 1.0. WFMC-TC-1025.http://www.wfmc.org/standards/docs/TC-1025_10_xpdl_102502.pdf

WUWONGSE Vilas, ANUTARIYA Chutiporn, AKAMA Kiyoshi & Nantajeewarawat E. (2001).XML Declarative Description (XDD): A Language for the Semantic web. IEEE Intelligentsystems 16(3) p. 54-65.

Page 33: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

25

3 – Méta-données et annotationsdans le Web sémantique

Yannick Prié1, Serge Garlatti2

1 LIRIS FRE 2672 CNRSUniversité Claude Bernard Lyon 1

[email protected]

2 Département IASC GET - ENST [email protected]

Résumé

Le Web sémantique repose sur des langages et une infrastructure dont l’objectif estde se donner la possibilité d’enrichir le Web actuel à l’aide d’informations dites« sémantiques », utilisables par des machines, qui faciliteront la recherche et l’usagede ressources Web (pages Web, images, services, etc.). Il s’agit donc d’associer à cesdernières des informations structurées descriptives sous la forme de métadonnées (ouannotations).. Plusieurs dimensions sont alors à considérer : les types de ressources,plus ou moins fragmentées, concernées par les annotations / métadonnées;l’automatisation plus ou moins marquée de la mise en place de ces dernières, lastructuration plus ou moins forte de leur « schéma », les tâches qu’elles soutiennent(ou sous-tendent), ou encore l’utilisation plus ou moins « intelligente » qui en estfaite par les agents logiciels,. Après une rapide discussion de la notiond’annotation / métadonnées, nous en proposons un scénario d’utilisationconséquent, dans le domaine de l’enseignement à distance. Nous montrons ensuiteque si la problématique en soi n’est pas nouvelle, et est déjà traitée dans de nombreuxdomaines, l’échelle du Web et le niveau d’intégration technologique nécessaire sontquant à eux novateurs. Nous passons ensuite en revue un certain nombre de systèmesliés aux annotations / métadonnées pour le Web sémantique, et concluons sur lesdirections probables que va prendre la recherche, en insistant sur la nécessitéd’intégrer des chercheurs de SHS dans la réflexion.

Page 34: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

26

1 PRÉSENTATION ET IMPORTANCE DE LAPROBLÉMATIQUE DU POINT DE VUE DES USAGES

1.1 MÉTA-DONNÉES ET ANNOTATIONS SUR LE WEB SÉMANTIQUE

Un des grands principes du Web sémantique est qu’il est nécessaire d’associer auxressources du Web des informations exploitables par des agents logiciels afin defavoriser l’exploitation de ces ressources.

Associer par exemple une notice comprenant des champs : Auteur, Date decréation, Date de modification, Mots-clés, à une page Web permet de considérer celle-ci non plus seulement comme comprenant du texte qui ne pourra qu’être traitéstatistiquement par un robot indexeur, mais également des informations structurées àla sémantique connue et utilisable comme telle par un agent logiciel. De la mêmemanière, si ce qui apparaît comme un simple nombre dans une page Web est de façonexplicite marqué comme un couple (valeur, devise), alors un agent pourra faire usagede ces connaissances.

Associer une information exploitable à une ressource signifie deux chosesessentielles.

La première est que cette information doit d’une manière ou d’une autre êtrestructurée – utilisable – et descriptive – de la ressource, de son utilisation – afin defaciliter et d’en améliorer l’accès dans le cas d’une ressource directement visualiséepar un utilisateur (par exemple en permettant une recherche d’information plusefficace et plus ciblée), mais aussi l’exploitation dans le cas d’une ressource exploitéedans le cadre d’un service à l’utilisateur (l’utilisateur n’est alors pas forcémentconscient de l’utilisation de la ressource).

La seconde est que la ressource en question doit exister et pouvoir être exploitéesur le Web indépendamment des informations qui lui sont associées dans le cadre duWeb sémantique : celles-ci sont utiles, mais non nécessaires pour accéder et utiliser laressource, la page Web ou le service4.

4 Bien entendu, si la ressource est indépendante de ses méta-données, les méta-données ne sont pas indépendantes de laressource : si celle-ci évolue, les méta-données peuvent devenir obsolètes voire fausses et inutiles. Mais c’est aucréateur des méta-données de gérer la cohérence, et non au gestionnaire de la ressource.

Page 35: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

3. Méta-données et annotations dans le Web sémantique

27

Le schéma ci-dessus donne une vision (proposée sur le sitehttp://www.semanticweb.org/) de l’utilisation des méta-données sur le Web sémantique.Des pages Web sont annotées à partir de connaissances disponibles dans une ouplusieurs ontologies (qui ont pour objectif de normaliser la sémantique desannotations), et ces annotations, regroupées en entrepôts de méta-données deviennentutiles pour des agents de recherche d’information, faisant ou non appel à des moteursd’inférence permettant de déduire de nouvelles connaissances formelles desannotations.

Au-delà de ce schéma (sur lequel nous reviendrons au travers d’un scénariod’utilisation dans le domaine de l’apprentissage à distance), remarquons que deuxtermes principaux sont utilisés dans la littérature afin de décrire les informationsassociées à des ressources : méta-données et annotations.

Si nous revenons sur ces notions, et de façon générale :- une méta-donnée est « une donnée sur une donnée ». Cette définition est un

peu vague voire ambiguë, et elle est comprise de manière différente pardifférentes communautés qui conçoivent, créent, décrivent, préservent etutilisent des systèmes d’information et des ressources. Par exemple, danscertains cas la donnée sur laquelle la méta-donnée porte est considérée commeayant le même statut de donnée formalisée, traitable par un systèmeinformatique, dans d’autres, la donnée n’est qu’interprétable par un êtrehumain, et seule la méta-donnée en permet le traitement automatique.

- une annotation est à la base une note critique ou explicative accompagnant untexte, et par extension, une quelconque marque de lecture portée sur undocument, que celui-ci soit textuel ou image.

On le voit, les termes de méta-donnée ou d’annotation prennent bien en comptecette notion d’ajout d’information à une ressource, et on pourra a priori les utiliser

Page 36: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

28

indifféremment pour décrire ces informations que le Web sémantique doit ajouter auWeb pour le rendre plus utilisable par des machines.

Pour autant, si ces deux termes existent, c’est qu’ils n’ont pas le même sens.

La communauté anglophone du Web sémantique, circonspecte sur ladifférenciation, considère par exemple dans le schéma que nous reprenons plus hautque les annotations de pages Web deviennent des méta-données dès qu’elles sontstockées dans une base sur un serveur. On différencie alors l’information en tantqu’elle est attachée à (et présentée avec) une ressource et l’information manipulableet exploitable de façon plus indépendante de celle-ci.

D’un point de vue plus lié à la pratique de l’annotation / méta-données (du pointde vue du processus de mise en place), et s’il est nécessaire de distinguer, nousproposons ce distinguo :

- une méta-donnée sera plutôt attachée à une ressource identifiée en tant quetelle sur le Web – aura plutôt une pertinence a priori et sera plutôt saisiesuivant un schéma. Par exemple, la description normalisée d’un service Web,l’auteur d’un document, qui permettront de mettre en place des inférences.

- une annotation sera plus située au sein de cette ressource et écrite au coursd’un processus d’annotation / lecture. Par exemple, un commentaire libreassocié à un fragment d’une page Web – quelques mots, un paragraphe –déterminé au besoin.

Evidemment, cette distinction n’a rien de définitive, il s’agit simplement de mettrel’accent sur le caractère plus situé au sein de la ressource (du fait de son exploitationpar un utilisateur) de l’annotation, par rapport à une méta-données plus indépendante,voire ressource en tant que telle.

Plusieurs critères, non indépendants – que nous illustrerons dans la suite – peuventêtre envisagés pour considérer les différents types de méta-données (annotations) :

- les types de ressources qu’elles concernent, plus ou moins fragmentées,- l’automatisation plus ou moins marquée de leur mise en place,- la structuration plus ou moins forte de leur « schéma »,- les tâches qu’elles soutiennent (ou sous-tendent),- l’utilisation qui en est faite par les agents logiciels, plus ou moins

« intelligente ».

Remarquons que pour le Web sémantique, on parlera le plus souvent de méta-données ou d’annotations sémantiques. Deux possibilités d’interprétation sont icidisponibles : « sémantique » au sens de « sémantique formelle », et puis au sens plusvague de « faisant sens dans le cadre d’une tâche pour un utilisateur ». Si certainstenants du Web sémantique souhaitent limiter la portée de celui-ci au premier sens –formel – ces deux interprétations nous semblent pourtant tout à la fois pertinentes etde toutes façons inextricablement reliées dans le cadre d’un Web sémantique riche etouvert, à l’image de la richesse et de la diversité du Web actuel, qu’on pourraitqualifier d’ « un peu sémantique ».

1.2 EXEMPLES D’UTILISATION DE MÉTA-DONNÉES ETD’ANNOTATION ET D’ADAPTATION DANS LE WEB SÉMANTIQUE

1.2.1 Introduction

Nous présentons dans la suite un scénario d’utilisation du web sémantique articuléautour de l’enseignement à distance. Ce scénario s’intéresse autant à l’utilisation desméta-données qu’à celle de l’adaptation qui est présentée dans une autre partie.

« Le professeur Bern de l’université de Stuttgart est impliqué dans la création decours diplômant sur les réseaux à l’intention d’étudiants de toute la Communauté

Page 37: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

3. Méta-données et annotations dans le Web sémantique

29

Européenne. Afin de constituer son cours, il va chercher à utiliser toutes sortes deressources trouvées sur le Web :

- Des ressources « classiques » telles que des articles scientifiques ou des coursnumérisés : cours donnés en présence d’élèves et mis à disposition sousdifférents formats (textes, vidéos, présentations multimédia).

- Des ressources composées d’éléments proposés par différentes universités ouécoles, structurées par un ou plusieurs professeurs pour être accessibles enligne, qui constituent des parcours cohérents à destination des étudiants.Certaines de ces ressources sont prévues pour être composéesautomatiquement par un logiciel à partir d’une spécification afin d’engendrerdynamiquement un cours personnalisé.

Pour cela, le scénario se divise en trois phases : la première est essentiellementcentrée sur la recherche d’information principalement interprétable par un humain, laconstitution d’un corpus et son indexation pour créer des cours en lignemanuellement, la seconde phase fait appel un système de composition dynamique decours adaptatifs spécifiés par un auteur et l’utilisation de méta-données sémantiquesinterprétables par un logiciel et la troisième phase met en scène les apprenants.

1.2.2 Première partie : recherche d’information et création manuelle de cours

Dans un premier temps, le Pr. Bern utilise un moteur de recherche de type« Google » pour retrouver des ressources intéressantes pour son cours. Pour cela, ilcommence par une requête simple : « Network » AND « Course », et obtient quelquesmillions de réponses, dont un grand nombre sont – dès les premières pages – nonpertinentes. En effet, le terme « Network » y prend une sémantique bien différenteque celle cherchée (réseaux sociaux, réseaux d’excellence, réseauxd’entreprise) tandis que « course » est présent dans de nombreuses pages dansl’expression « of course ». Découragé par la masse de document à analyser, le Pr.Bern décide de changer de méthode et d’utiliser un moteur de recherche fondé surune approche de type « Web sémantique » utilisant un schéma de méta-données (Dublin Core – DC). L’outil lui propose un ensemble de descripteurs dont ilpeut préciser les valeurs ou domaines de valeurs à l’aide de mots clés. Par rapport à larecherche précédente, il peut désormais préciser si les termes recherchés sont dans leTitre du document (network), son Sujet (network) ainsi que sa Date de création. Parcontre, le Format (html, pdf, etc.), le Type (course) et le Langage utilisé (anglais ouallemand) sont des contraintes fournies par son profil utilisateur. Il n’a donc pas à lesfournir au système. En spécifiant ainsi un rôle et une sémantique pour les différentstermes de sa requête, il lui est possible de mieux cibler sa recherche, et d’obtenir desressources plus pertinentes. Cela n’est évidemment possible que parce que le moteur,lorsqu’il parcourt le Web utilise les méta-données Dublin Core associées auxressources. Cependant, avec un schéma de méta-données comme le Dublin Core, lesauteurs des méta-données, s’ils sont à peu près tous d’accord sur ce que signifie Titre,ne le sont pas forcément en ce qui concerne le Sujet ou le Type d’un document. Ilpourra donc y avoir des ambiguïtés sur le rôle et le sens de ces champs.

Le Pr. Bern a quand même réussi à récupérer bon nombre d’éléments potentiels decours qu’il va lui être possible d’organiser pour produire un cours complet. Commeau cours de toute navigation sur le Web, pour les parties les plus pertinentes de chaqueressource (ensemble de paragraphes, images), il a ajouté une annotation textuelledécrivant la ou les utilisations qu’il prévoit d’en faire plus tard pour faciliter sa tâcheultérieurement.

Conformément à la pratique de son institution, le Pr. Bern ajoute tout d’abord cesdocuments à la base générale documentaire de l’université. Pour cela, il va être obligéde modifier certains champs de méta-données. A la différence de la pratiquehabituelle sur le Web, un thésaurus propre à l’université est utilisé. Celui-ci décrit levocabulaire à utiliser dans les différents champs, et sert de guide d’utilisation du

Page 38: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

30

schéma. De par le référentiel commun constitué par le thésaurus, le Pr. Bern et sescollègues sont à peu près sûrs d’utiliser les mêmes termes pour décrire les documents,et peuvent utiliser la structure de navigation constituée par le thésaurus pour atteindreceux-ci. Pour toutes les saisies de méta-données du DC, le Pr. Bern n’est pas obligé deremplir tous les champs puisque certains sont obtenus à partir de son identifiantpersonnel et des références de son université tels que « créateur, éditeur, source, date,format». Il est par contre bien évident qu’il doit remplir lui-même les champs « titre,sujet, couverture, relation, droits, langage et description »

Un des documents ajoutés à la base possède dans sa description Dublin Core unélément qui va être utilisé automatiquement par un logiciel d’alerte, permettant deprévenir trois abonnés de l’université qu’ils peuvent consulter un article les intéressantpotentiellement. L’un deux va le consulter, y laisse quelques annotations de lecture (iln’est pas du tout d’accord avec une affirmation de la troisième partie). Unediscussion s’engage alors lorsque les deux autres utilisateurs ainsi que le Pr Bern(prévenu que le document a été annoté) s’opposent à cet avis avec véhémence.Chacun faisant référence dans son argumentation à d’autres parties du document.

Afin de mettre en place le cours lui-même, le Pr. Bern va réutiliser les documents.Certains sont réutilisables en l’état (par exemple une figure illustrant particulièrementbien une notion), et d’autres ne le sont pas. En effet, sortis de leur contexte decréation, ils ne sont pas intégrables directement dans un parcours cohérent, etdemandent une fragmentation / modification / adaptation, ainsi qu’une organisationad hoc.

Si la précision d’utilisation avec le moteur de recherche utilisant les méta-donnéesest meilleure qu’avec le moteur classique, et s’appuie sur des méta-données mises enplace de façon simple et peu coûteuse en temps, elle n’est suffisante que pour uneutilisation par un utilisateur humain, et non par un logiciel de génération automatiquede cours. En effet, il est uniquement possible de l’utiliser pour de la recherched’information qui sera interprétée (et exploitée) par un humain : même si un schématel que le Dublin Core définit une structure de méta-données, l’exploitation de celle-cipar des logiciels est limitée puisque aucune sémantique – interprétable par unemachine – n’est associée aux domaines de valeur des différents champs et donccertaines ressources retrouvées pourraient ne pas convenir. Même si les termes sont lesbons dans le bon rôle, ils peuvent ne pas avoir été utilisés avec une même sémantique,ou encore la qualité de la saisie des méta-données n’a pas été validée ou vérifiée.

1.2.3 Seconde partie : composition dynamique de cours adaptatifs

Pour composer son cours, le professeur Bern utilise un nouvel environnementappelé « E-Learning 2010 ». Ce dernier engendre dynamiquement un cours adapté àchaque étudiant (connu d’après son profil d’étude). « E-Learning 2010 » calcule uncours adapté à chaque étudiant à partir d’une structure de cours choisie par unprofesseur et d’une spécification du contenu selon un schéma de méta-donnéesappelé « LOM+ », ainsi que des modes d’évaluation des contenus et de leur utilisationpar les méthodes d’adaptation. LOM+ utilise des ontologies comme vocabulairepartagé pour les termes du domaine du cours (ici les « réseaux informatiques»), pourles modèles de cours en fonction d’une approche pédagogique choisie (une structureglobale de cours qui organise l’accès aux contenus qui sont typés : présentationd’une notion, puis exercice, approfondissement, etc.), enfin pour les modesd’évaluation et les méthodes d’adaptation pour un modèle utilisateur donné.

Toutes les ressources qu’il a trouvées / définies précédemment peuvent êtreréutilisées, mais il est nécessaire d’y associer de nouvelles méta-données LOM+ pourleur permettre d’être insérées dans la trame du cours. La saisie des méta-données àpartir de « E-Learning 2010 » est bien plus simple que précédemment puisque desdomaines de valeurs – définies par différentes ontologies (domaine, approche

Page 39: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

3. Méta-données et annotations dans le Web sémantique

31

pédagogique, modèle utilisateur, adaptation) – sont associées aux différents champs.Pour chaque champ, l’outil propose soit une liste de termes, soit une valeur déduitepar le système en fonction du contexte, qu’il suffit de valider ou non selon le type dechamp (pour le champ « Status », dans la catégorie « Lyfecycle » la valeur estdirectement proposée par le système à partir du contexte courant, par contre pour leschamps « Difficulty » et « IntendedEnduserRole », les valeurs suivantes sontrespectivement proposées : <low, average, high> and <PassiveLearner, ActiveLearner,CollaborativeLearner, TutorLearner, ProfesseurLearner>). Sont fournis également unguide d’utilisation du champ munis d’exemples et de contre-exemples et unnavigateur d’ontologie permettant de mieux comprendre la structure de celle-ci etdonc la sémantique des concepts ou relations liés à un terme donné. On voit bien dansl’exemple précédent que sans explication ou guide d’utilisation, il aurait été difficileau professeur Bern de fixer une valeur pour ces champs.

Il est possible de rechercher plus précisément de nouvelles ressources qui sontdisponibles à partir de « E-Learning 2010 ». Pour cela, il lui suffit de sélectionner unélément du modèle de cours muni d’un type – exercice, solution, problème,définition, approfondissement, explication, éclaircissement, etc. – et une interface derecherche d’information est proposée n’utilisant que les champs de méta-donnéespertinents dont certains sont déjà définis comme par exemple le type d’élément. Pourles autres une liste de valeurs est disponible. S’il n’est pas possible au système detrouver dans la base de « E-Learning 2010 », les ressources nécessaires, il lui estpossible de réaliser une recherche élargie sur Internet. Cette recherche étant guidéepar les ontologies disponibles, il n’y aura plus d’ambiguïté sur les sens des termesutilisés. En effet, il est possible au logiciel de recherche de rechercher toutes lesressources indexées à partir de ces mêmes ontologies ou d’une partie d’entre elles ouencore d’élargir à d’autres ontologies équivalentes mais avec lesquelles il seranécessaire de réécrire les termes pour assurer une transcription jugée sémantiquementjuste. Il lui est également possible de fixer certains critères d’évaluation dans sonprofil utilisateur pour une recherche adaptative afin de filtrer les résultats ou de leguider dans sa recherche.

Après avoir choisi une approche pédagogique, le professeur Bern sélectionne unestructure de cours particulière qui convient à sa manière d’enseigner. Il obtient ainsiune structure globale de cours dans laquelle il doit spécifier des contenus à partir duschéma de méta-données « LOM+ ». Dans ce schéma de méta-données, certainesentrées sont dédiées à l’adaptation tels que par exemple les pré-requis qui prennentleurs valeurs dans l’ontologie du domaine, le type d’étudiants – 1ére année, 2émeannée, etc. C’est cette spécification qui permettra alors au système de générer lescours en fonction des profils des étudiants - qui ont parmi leurs caractéristiquesutilisateur un modèle de recouvrement permettant de connaître pour chaque conceptdu modèle de domaine le niveau de connaissance acquis ou supposé acquis parl’étudiant. Pour l’adaptation, il doit aussi préciser pour différents stéréotypesd’étudiants les méthodes d’adaptation autorisées, les modes d’évaluation descontenus. Chaque méthode d’adaptation utilise le résultat de l’évaluation desfragments.

Pour la constitution du cours, le professeur Bern a parfois eu des difficultés à biencomprendre la méthodologie de conception liée à « E-Learning 2010 », car cetenvironnement est assez complexe. Cependant, en plus de la documentation desdiverses ontologies et schémas de méta-données, une assistance logicielle et humainetant au niveau interne qu’externe lui est proposée pendant la conception. Sa tâche està la fois rendue plus complexe sur certains aspects mais aussi grandement facilitéepour d’autres. Ses cours ou éléments de cours sont plus facilement réutilisables pourlui-même et pour les autres puisqu’il lui a fallu avoir une réflexion sur la granularité– taille de chaque élément et niveau d’abstraction pour ceux qui ne sont pasatomiques – des éléments et leur réutilisation. Un suivi de la qualité des méta-donnéesest mis également en place au sein de l’université afin d’assurer la cohérence de

Page 40: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

32

chaque cours ou élément de cours disponible en ligne. Ces dernières doivent êtresaisie de manière bien plus rigoureuse lorsqu’une partie des champs est destinée à unlogiciel de composition de cours. En effet, si l’intention de l’auteur lors du choixd’une valeur de champ n’est pas conforme à l’utilisation que va en faire le logiciel decomposition, le résultat ne sera guère prévisible.

1.2.4 Troisième partie : lecture et apprentissage par un apprenant

Chaque étudiant accédant à « E-Learning 2010 » peut choisir un cours et uneapproche pédagogique particulière (par résolution de problème, collaborative, etc.).En fonction de son niveau scolaire et de ces acquis précédents, certains courscomplémentaires – unités de valeurs – peuvent lui être proposés à partir de son profilutilisateur. En effet, ces unités de valeurs peuvent être indispensables à une bonnecompréhension. Dans certains cas, ces différents éléments peuvent aussi résulter d’unenégociation avec son tuteur afin par exemple d’assurer une charge de travailraisonnable, ainsi qu’une progression satisfaisante de son apprentissage. Cet étudiantétant à l’université du Sussex, il aura à sa disposition une présentation et une structurede ses pages de cours – contenu, barre de navigation et fonctions - qui sontcommunes à tous les étudiants du Sussex. En effet ceux de l’université de Stuttgartn’ont pas tout à fait les mêmes habitudes, et ont donc un environnement légèrementdifférent. Chaque étudiant peut potentiellement disposer d’une structure globale decours et d’un contenu différent. Néanmoins, chacun peut accéder à l’ensemble s’il ledésire.

Chaque étudiant se doit d’être au courant de son propre modèle utilisateur et de sesparties privées / publiques. Un étudiant possède un modèle utilisateur global qui peutêtre enrichi dynamiquement en fonction des cours auxquels il est inscrit. Pour chaquecours, avant d’accepter l’enrichissement de son modèle, une négociation a été faiteentre le système, le tuteur et l’apprenant afin de se mettre d’accord sur les donnéesprivées / publiques. En effet, certaines sont obligatoires pour le suivi de l’apprenantpar un tuteur et d’autres peuvent être gardées privées ou publiques – pour partageravec d’autres apprenants par exemple. Tout au long de l’apprentissage, ce modèleglobal est maintenu et enrichi au fur et à mesure qu’il progresse dans ses études.Comme ces informations sont disponibles sur un serveur de modèles utilisateur, il luiest tout à fait possible de continuer ses études dans un autre pays et de continuer àutiliser son modèle. Ceci n’est possible que parce que des vocabulaires communs –ontologies – sont partagés entre différents pays.

On le voit dans cet exemple, si le simple ajout de méta-données à une ressource(document ou fragment) n’est le plus souvent qu’orienté vers une tâche de« recherche d’information » dans toute sa généralité (schéma général), des schémas dedescription des ressources peuvent être spécialisés pour des tâches (lecture active) oudes domaines d’application particuliers. Par exemple la construction ou l’utilisationde cours en ligne, les échanges liés à l’information (XMLNews) ou aux produitsbancaires, les documents audiovisuels (MPEG7). Une même ressource peut bienentendue être décrite suivant plusieurs espaces d’indexation (points de vues). Cesschémas de méta-données se résument le plus souvent en des standards descriptifsexprimés sous la forme de DTD ou de schéma XML qui dans de nombreux cas,n’utilisent bien souvent que des mots-clé, voire au mieux des vocabulairesstandardisés tels que AAT, ULAN. Ils ne permettent alors ni de définir de manièreprécise la sémantique opérationnelle (liée à des inférences automatiques) desdifférents champs des descriptions, ni celles de leurs domaines de valeurs. L’étapesuivante proposée par le Web sémantique est donc celle des schémas de méta-donnéesfondés sur des ontologies, autorisant des inférences formelles sur les méta-données oules annotations.

Le scénario que nous venons de présenter illustre un certain nombre de pointsimportants liés aux annotations / méta-données :

Page 41: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

3. Méta-données et annotations dans le Web sémantique

33

- Il est possible d’annoter une ressource dans son ensemble, ou un fragment deressource documentaire (pour peu que la ressource soit fragmentable : uneimage ou un texte l’est, un service de réservation d’hôtel l’est moinsimmédiatement).

- Les schémas de méta-données / annotation peuvent être plus ou moinsgénéraux ou spécialisés : du Dublin Core permettant de décrire tout type dedocuments avec des descripteurs basiques, à une ontologie formelle permettantd’annoter précisément des fragments de cours, ou des dépêches d’agencepour la veille financière (rachat, annonce de perte, etc.), beaucoup de chosessont possibles.

- La mise en place des annotations peut être plus ou moins automatisée : de lamise en place manuelle (« tel paragraphe est intéressant, je vais le réutiliser telquel »), à l’automatique (cette suite de chiffres suivie du caractère signifiequ’il convient de l’annoter avec le concept Prix), en passant par le semi-automatique (je vous propose de considérer que ce « 37000 » est un codepostal, à vous de me le confirmer).

- Les méta-données / annotations peuvent être utilisées ou connues desutilisateurs finaux (cas des données permettant de rechercher avec le DublinCore), ou bien uniquement par des spécialistes (les concepts de descriptiond’une progression de cours ne sont connus que des enseignants).

- Les méta-données / annotations sont utilisées pour deux grandes tâches. Lapremière est la recherche d’information, puisque toute méta-donnéeinformatique liée à une ressource représente de fait un index pour cetteressource, et peut être utilisée comme telle. La seconde est la composition dedocuments, de fragments de documents, de services en vue de construire denouveaux documents (cours à la carte, catalogues, réponses à une question,etc.) ou de nouveaux services (hôtel + spectacle).

- Les schémas de méta-données sont plus ou moins formalisés et permettentd’offrir des services considérés comme plus ou moins intelligents, puisque lesagents logiciels peuvent plus ou moins s’en emparer pour mener desinférences.

- Les annotations et méta-données peuvent rester dans la sphère personnelle(mes annotations sur une page Web), ou s’inscrire dans une collectivité plusou moins restreinte (mon groupe de travail, mes étudiants, l’ensemble desusagers du Web). L’annotation peut être mise en place de façon collaborative,être plus ou moins partagée ou publiée. On peut avoir plus ou moinsconfiance en des méta-données.

- Point plus technique : les méta-données / annotations de ressources du Webpeuvent être stockées ou mises à disposition dans ou hors de cette ressource :les documents peuvent être « équipés » par leurs méta-données (alors unmoteur pourra collecter celles-ci), ou bien on pourra avoir de véritables basesde (méta-) données centralisant celles-ci. La diffusion des méta-données peutse faire de façon centralisée ou bien de façon plus directe (P2P).

2 MÉTHODES, TECHNIQUES, OUTILS EXISTANTS SURLESQUELS ON PEUT S’APPUYER

Il va de soi que le Web sémantique, considéré du point de vue des annotations etdes méta-données ne peut que s’appuyer sur les standards existants qui formentl’ossature technologique du Web :

- protocole HTTP pour la transmission,- langages HTML et XML, feuilles de style pour la présentation des résultats,- langage RDF (Ressource Description Framework) pour l’expression et

l’échange des méta-données elles-mêmes, sous la forme de triplets, mêmes si

Page 42: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

34

ceux-ci peuvent également être stockés dans des bases de données pour unegestion plus efficace.

De la même façon que le Web n’a pas attendu le Web sémantique pour offrir desinformations qualifiables de « sémantiques » sur le Web, les problématiques des méta-données et des annotations sont prises en compte depuis que le Web est Web. Lesméta-données sur des ressources Web sont utilisées dans tous les systèmesd’indexation de documents Web, que ce soient des moteurs de recherche, desannuaires, des signets personnels, et de façon plus générale dans tous les systèmes degestion d’information, ces derniers bénéficiant d’une vieille tradition dans le mondede la documentation et des bibliothèques (schéma d’indexation, utilisation dethésaurus, etc.). De la même manière, les échanges électroniques de documents au seinde communautés plus ou moins fermées à travers le réseau ont souvent conduit celles-ci à définir et à utiliser de façon courante aussi bien des modèles de documents quedes schémas de méta-données adaptés à leurs pratiques5, conduisant à de véritablesnormes. L’utilisation de thésaurus et autre modèles de connaissances afin d’indexerdes documents au sein d’intranets, dans le cadre de la « gestion des connaissances »est également une réalité sur laquelle le Web sémantique ne peut faire l’impasse.

Depuis le fameux navigateur Mosaic, déjà équipé en 1994 de la possibilité de gérerdes annotations, de nombreux systèmes ont vu le jour, qui permettaient à desutilisateurs d’annoter des documents du Web, et de lire des annotations. En ce quiconcerne le stockage des annotations, beaucoup de possibilités ont été essayées : dansles documents eux-mêmes (balises ad-hoc, RDF), dans les URL, dans des basesprésentes sur des serveurs centralisés. Ces annotations, le plus souvent sous formesimplement textuelle, éventuellement typées (commentaire positif, négatif, voire lien –on peut alors parler d’« annotation-lien » –, etc.) ont pu être plus ou moins partagées.De nombreux systèmes – Yawas (Denoue et al., 1999), Critlink (Yee, 1999), etc. –, ycompris commerciaux (comme le défunt Thirdvoice) ont été lancés, souvent avec desrésultats décevants : pas de diffusion généralisée des principes. L’expérienceaccumulée au cours de ces multiples essais mérite sans aucun doute d’être analyséedans le cadre du Web sémantique.

On peut donc dire que ce sont tout à la fois :- des méthodes de conception de schémas de méta-données (thésaurus,

ontologies),- des outils et des principes d’utilisation de méta-données, d’annotation, de

présentation de celles-ci, aussi bien dans le monde numérique qu’à l’extérieur(par exemple (Marshall, 98) pour une revue des types d’annotation),

- des architectures de stockage / requêtes / diffusion d’annotations,- des modèles et des langages de descriptions et d’échange de méta-données /

annotations,

qui constituent un référentiel aussi bien technique que méthodologique sur lequels’appuyer.

Ajoutons à cette liste- les multiples outils, méthodes et techniques d’extraction d’information de

documents sur le Web (fouille de données textuelles, méthodes statistiques ouplus ou moins intelligentes, fondées sur des connaissances et spécialisées)propres à proposer à l’utilisateur telle annotation, ou à remplirautomatiquement tel ou tel champ de méta-données.

- les outils et méthodologies permettant l’extraction et la mise en place plus oumoins automatisée de schémas de description à partir de corpus Web(terminologies, ontologies formelles), la construction coopérative de cesschémas, etc.

5 Les schémas de document consistant dans bien des cas en la simple intégration de méta-données devenues constitutivesdes structures documentaires électroniques.

Page 43: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

3. Méta-données et annotations dans le Web sémantique

35

- les outils d’échanges de contenu selon les principes du « peer to peer », etl’expérience massive d’ajout distribué de méta-données distribuées qui enrésulte.

On le voit donc, l’approche de Web sémantique, si elle n’est pas à proprementparler nouvelle du point de vue des méta-données ou des annotations, y compris àbase d’ontologies formelles, peut avec raison s’appuyer sur des nombreux travaux,techniques, modèles et outils. Cela est évidemment vrai du côté des techniques du Web(puisque c’est le socle du Web sémantique), mais aussi du côté de tous les domainesde recherche liés à la recherche et à la gestion d’informations et des connaissances.

L’approche du Web sémantique, qu’on pourrait qualifier de plus « systématique »pourrait par contre contribuer à l’unification de nombre de ces travaux sous unebannière commune, du fait de la stabilisation et de la standardisation de langages et deprincipes architecturaux relativement semblables.

3 TRAVAUX ET RÉSULTATS EXISTANTS DU WEBSÉMANTIQUE

Il nous apparaît que les travaux sur le Web sémantique, considérés du point de vuedes annotations et des méta-données peuvent se répartir comme suit :

- travaux sur les langages de description d’ontologies et de méta-données ;- travaux sur la construction des ontologies pour associer des méta-données,

décrire des pages Web ;- travaux sur l’utilisation de méta-données pour la personnalisation de pages

Web ;- travaux sur des applications pilotes, mettant en jeu :

- des schémas / ontologies pour annoter,- des outils pour annoter conformément à ces schémas,- des applications :

• faisant usages de méta-données en tant que telles (recherched’information),

• faisant également usage des annotations pour les présenter enmême temps que les pages à l’utilisateur,

- des architectures pour soutenir ces applications,- des « leçons apprises ».

Nous nous concentrerons dans cette partie uniquement sur ces derniers travaux (liésaux applications permettant de mettre en œuvre de façon concrète les grands principesdu Web sémantique), les autres types de travaux étant traités dans d’autres parties duprésent rapport.

Pour cela, nous présentons dans un tableau récapitulatif un état de l’art de quelquessystèmes liés au Web sémantique6, considérés comme représentatifs du fourmillementactuel. Ces systèmes sont étudiés suivant différents critères :

- types de ressources annotées : que peut-on annoter à l’aide du système ? (unepage Web dans son ensemble, un fragment de document XML délimité pardeux balises ?) ;

- langage pour les annotations / localisation : dans quel langage de descriptionsont représentées les annotations ? (du texte simple, un langage structurécomme XML, un langage de description de triplets comme RDF ?). Quel estplus spécifiquement le moyen de désigner les fragments ?

- schémas de méta-données : dans quel langage sont exprimées les contraintessur les annotations que l’on peut créer ? Un ensemble d’attributs – Creator –

6 Un point d’entrée utilisé est http://km.aifb.uni-karlsruhe.de/annotation/index.html .

Page 44: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

36

et de types de valeurs – chaîne de caractères – comme le Dublin Core, unlangage de description d’ontologies comme DAML+OIL ?

- architectures des systèmes : quelques considérations techniques sur le stockage,la recherche et la diffusion des méta-données ;

- l’utilisation actuelle possible des systèmes et des méta-données présentées.

Au vu du tableau, qui décrit quelques grands types d’outils d’annotation ou desystèmes à base d’annotation, quelques commentaires peuvent être faits sur lepanorama qu’il dresse :

- RDF est largement utilisé pour exprimer les méta-données associées à desressources Web et joue donc le rôle pour lequel il avait été prévu.

- En ce qui concerne les schémas de méta-données, un certain nombre desystèmes se limitent à de simples schémas RDF (des classes, pas forcément enhiérarchie, auxquelles sont associées des propriétés), sans aller jusqu’à utiliserdes langages spécialement conçus pour décrire des ontologies (DAML+OIL,OWL).

- La gestion des méta-données d’un point de vue « inférentiel » se limite alors àleur utilisation par des programmes dédiés : alors qu’un champ Creator telque défini par le Dublin Core ne dit absolument rien sur ce qu’il est possibled’en faire, avec OWL LITE, il est possible de préciser que deux instances d’unconcept Créateur : Romain Gary et Emile Ajar sont par exemples considéréescomme identiques, dans le langage d’expression de méta-données lui-même,donc utilisable par tout système connaissant ce langage.

- Les outils d’annotation permettent soit d’annoter des ressources en tant quetelles (dans les faits, décrites par des URL), soit des fragments, pour deux typesde documents (pages HTML, et XML en général avec XML-fragment /XPointer : exemple SVG).

- Les outils d’annotations permettent soit des annotations a posteriori sur lesressources, soit – pour des pages Web – la conception de celles-ci etl’intégration concomitante de méta-données (Cf. Smore et Ontomat).

- Les méta-données doivent être stockées sur des serveurs dédiés (le plus souventserveurs Web instrumentés avec des services). Elles peuvent l’être directement,ou bien après passage d’un robot (crawler) parcourant le Web et les extrayantdes pages Web rencontrées.

- On assiste à deux principes de développement différents. Dans un cas, leproblème est attaqué de façon globale, et est pensé pour tout faire d’entrée dejeu (KAON suite + Ontomat), dans un autre (Annotea), on a la mise en placed’une infrastructure minimale (architecture, schéma RDF) d’annotation defragments sur le Web, puis extension pour prendre en compte plus de choses :passage à l’annotation d’image, travaux en cours pour étendre le schéma, puispour changer de schéma, etc.

Page 45: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

37

Rem

arqu

es

Poss

ibili

té d

eré

pond

re à

une

anno

tatio

npa

r un

eau

tre.

Impl

anta

tion

Moz

illa

:Pe

ud’

actu

alis

atio

n de

puis

2000

.

Inte

rfac

egr

aphi

que

deco

nstr

uctio

nde

req

uête

s.E

xpor

t des

onto

logi

esSH

OE

ver

sD

AM

L.

Lié

au

proj

etC

OH

SEC

once

ptua

lO

pen

Hyp

erm

edia

Proj

ect

http

://co

hse

.sem

ant

Inte

rfac

e tr

èsco

mpl

exe

Uti

lisat

ion

des

mét

adon

nées

Aff

icha

gede

san

nota

tions

asso

ciée

s lo

rsde

la

lect

ure

suiv

ante

de

cett

e pa

ge

Rec

herc

hed’

imag

es.

Rec

herc

hed’

info

rmat

ion

. Gén

érat

ion

d’ «

hyp

erm

édi

ason

tolo

giqu

es

» (p

ages

Web

enr

ichi

epa

r de

san

nota

tions

àR

eche

rche

d’in

form

atio

n

Arc

hit

ectu

re S

erve

urs

HT

TP

dédi

és.

Inte

rfac

ed’

anno

tatio

n.N

avig

ateu

rin

stru

men

tés

pour

prés

ente

r le

sS

erve

urs

dédi

és,

stoc

kage

imag

es +

MD

(jig

saw

)

Inte

rfac

egr

aphi

que

d’an

nota

tion.

Rob

ot p

our

récu

pére

r le

sas

sert

ions

, et

les

stoc

ker

dans

une

Out

il po

uran

nota

tion.

Ser

veur

sd’

anno

tatio

ndé

diés

.

Ser

veur

part

agé

Sché

ma

de m

éta-

donn

ées

Sché

ma

RD

Fsi

mpl

e : u

ne c

lass

ean

nota

tion,

des

prop

riét

és ti

tre,

corp

s, a

uteu

r, d

ate,

etc.

Dub

lin C

ore

éten

du(s

chém

a su

bjec

t :po

rtra

it,ar

chit

ectu

re, e

tc. +

sché

ma

tech

niqu

e(a

ppar

eil,

film

...)

Ont

olog

ie S

HO

E :

clas

sifi

catio

n,re

lati

on, i

nfér

ence

s.

Ont

olog

ie D

AM

L

Ont

olog

ie –

gra

phes

conc

eptu

els.

Ont

olog

ie g

énér

ale

cons

trui

te à

par

tir

de W

ordn

et.

Lan

gage

pou

rle

san

nota

tion

s/lo

calis

atio

n

RD

F /

XPo

inte

r

RD

F

Ext

ensi

on d

eH

TM

L(S

impl

eH

TM

LO

ntol

ogy

Ext

ensi

on)

pour

déc

rire

des

onto

logi

eR

DF

RD

F

Typ

es d

e re

ssou

rces

anno

tées

Fra

gmen

ts d

e pa

ges

Web

HT

ML

et X

ML

(S

VG

,X

HT

ML

,...)

Imag

es

Pag

e W

eb H

TM

L

Fra

gmen

ts d

e pa

ges

Web

HT

ML

Tou

te r

esou

rce

Web

Syst

ème

/ app

licat

ion

Ann

otea

http

://w

ww

.w3.

org/

2001

/Ann

otea

/ R

DF

Pic

http

://jig

saw

.w3.

org/

rdfp

ic/

SH

OE

Kno

wle

dge

Ann

otat

orht

tp://

ww

w.c

s.um

d.ed

u/pr

ojec

ts/p

lus/

SHO

E/K

no w

ledg

eAnn

otat

or.h

tml

CO

HSE

Ann

otat

orht

tp://

ww

w.e

cs.s

oton

.ac.

uk/~

tmb/

cohs

e/an

nota

to r/ W

EB

KB

http

://w

ww

.web

kb.o

rg/

Page 46: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

38

Rem

arqu

es

Voi

r au

ssi

Ont

oAnn

otat

e (O

util

d’an

nota

tion

de O

ntop

rise

)

Ver

sion

pou

ran

nota

tion

d’im

age

et d

eco

urri

erél

ectr

oniq

ues

Pas

vrai

men

td’

exem

ples

Poss

ibili

téd’

anno

tatio

nde

fra

gmen

tsd’

imag

esSV

G

Ann

otat

ion

auto

mat

ique

des

page

sgr

âce

au p

lu-

gin

Am

ilca

re(a

naly

se d

ela

lan

gue)

Uti

lisat

ion

des

mét

adon

nées

Tou

teut

ilisa

tion

:vi

sual

isat

ion,

rech

erch

ein

fére

ntie

lle.

Cré

atio

n /

anno

tatio

n de

page

s W

eb.

Port

ails

lié

aux

anno

tatio

nspo

ur R

I,ge

stio

n.

Gén

érat

ion

de s

ite

Web

de r

ésum

és.

Tou

tes

appl

icat

ions

utili

sant

des

conn

aiss

ance

s Rec

herc

hede

per

sonn

es,

de li

ens

entr

epe

rson

nes,

etc.

Tou

teut

ilisa

tion

:vi

sual

isat

ion,

rech

erch

ein

fére

ntie

lle

Arc

hit

ectu

re O

util

decr

éati

on d

epa

ges

Web

et

anno

tatio

n.M

D d

ans

les

docu

men

ts,

robo

t +se

rveu

rin

fére

ntie

l.

Ser

veur

dédi

é

Util

isat

ion

deW

ebsc

ript

erpo

ur p

arse

rle

sde

scri

ptio

ns

???

Ser

veur

uniq

ue d

édié

.

Bro

wse

rW

eb, o

util

dena

viga

tion

d’on

tolo

gie

etde

cré

atio

nd’

inst

ance

dans

une

BC

Sché

ma

de m

éta-

donn

ées

Ont

olog

ie D

AM

L +

OIL

Sché

ma

RD

F.Fo

ndé

sur

des

onto

logi

esex

téri

eure

s a

prio

riou

con

stru

ctio

n du

sché

ma

aprè

san

nota

tion.

Sché

ma

RD

F /

DA

ML

sim

ple

:au

teur

, pag

e W

eb,

emai

l, ad

ress

e,in

stitu

tion,

dat

e de

créa

tion

.

Sché

ma

XM

Lgé

néra

l : p

ropr

iété

slin

guis

tique

s,co

nver

sati

onne

lles

,et

c.

Sché

ma

RD

F +

prop

riét

és D

AM

Ldé

criv

ant

une

pers

onne

sur

leW

eb

Ont

olog

ies

DA

ML

+O

IL o

uSc

hém

a R

DF

Lan

gage

pou

rle

san

nota

tion

s/lo

calis

atio

n

RD

F / D

AM

L+

OIL

RD

F

Tri

plet

s R

DF

dans

les

abst

ract

s

XM

L

RD

F

RD

F /

DA

ML

+O

IL,

OC

ML

Typ

es d

e re

ssou

rces

anno

tées

Fra

gmen

t de

pag

e W

eb

Fra

gmen

ts d

e pa

ges

Web

HT

ML

Imag

es S

VG

Abs

trac

ts H

TM

L p

our

laco

nfér

ence

IC

SW

200

2

Pag

es W

eb H

TM

L

Phot

ogra

phie

s de

pers

onne

s

Fra

gmen

ts d

e P

ages

Web

HT

ML

Syst

ème

/ app

licat

ion

Ont

omat

Ann

otiz

erht

tp://

anno

tatio

n.se

man

ticw

eb.o

rg/to

ols/

onto

mat

SMO

RE

: Sem

antic

Mar

kup,

Ont

olog

y an

d R

DF

Edi

tor

http

://w

ww

.min

dsw

ap.o

rg/~

aditk

al/e

dito

r2.s

htm

l R

ésum

és a

nnot

ésht

tp:/

/ann

otat

ion.

sem

anti

cweb

.org

/isw

c/do

cum

en ts

.htm

l G

DA

Glo

bal D

ocum

ent A

nnot

atio

nht

tp://

ww

w.i-

cont

ent.o

rg/G

DA

/ R

DF

Web

http

://rd

fweb

.org

/ M

nMht

tp://

kmi.o

pen.

ac.u

k/pr

ojec

ts/a

kt/M

nM/

Au niveau architectural, les directions prises par les travaux sur les méta-donnéessont liées à la distribution et au stockage des méta-données – voir par exemple l’étude

Page 47: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

3. Méta-données et Annotations

39

de la distribution des méta-données RDF suivant les principes P2P (peer to peer) : lestravaux autour d’EDUTELLA (http://edutella.jxta.org/reports/edutella-whitepaper.pdf),ou le récent projet SWAP (Semantic Web and Peer to peer http://km.aifb.uni-karlsruhe.de/projects/swap). Au niveau de la mise en place semi-automatiqued’annotation, on citera l’outil d’extraction d’information AMILCARE(http://nlp.shef.ac.uk/amilcare/) qui paraît impliqué dans un nombre respectable deprojets.

4 RECHERCHES FUTURES POUR LE WEB SÉMANTIQUE

Il nous apparaît que les travaux liés aux annotations / méta-données visant à mettreen action les théories du web sémantique sont nombreux, et que force est de constaterqu’ils commencent à fournir des résultats techniquement impressionnants en terme deprototypes et d’architectures, concrétisant énormément d’efforts au niveauinternational (par exemple KAON / Ontomat). Cependant, même si les bénéficespotentiels apportés par ces nouvelles possibilités d’applications sont indéniables, il nenous semble pour l’instant pas exister d’applications réellement utilisées de façonroutinière sur le Web.

Deux explications peuvent être données à cet état de fait : (1) il est encore trop tôtpour que les prototypes sortent des laboratoires pour aller directement sur le Web(peut-être un passage par une case intranet est-il nécessaire pour rôder à petite échelleun certain nombre de techniques7). (2) il ne suffit pas de bonnes idées et de leur miseen place en termes techniques pour entraîner l’utilisation des systèmes (problèmesomme toute classique en informatique).

On peut considérer plusieurs cas pour le statut des méta-données vis-à-vis desutilisateurs et des concepteurs qui les manipulent :

- Dans le cas d’applications pour lesquelles les annotation / méta-données sontconnues et éventuellement mises en place par les utilisateurs finaux dessystèmes, il nous semble qu’il faut qu’un certain nombre de conditions soientremplies afin que les systèmes développés rencontrent du succès, à savoir

- un bon schéma de méta-données lié à la pratique d’une communauté,- associé à la diffusion dans cette communauté d’outils facilement

utilisables,- lesquels apportent immédiatement un gain aussi bien individuel que

collectif incitant les personnes qui le doivent à ajouter les méta-donnéesaux ressources communes.

- Dans un cas intermédiaire, celui où existent des concepteurs « secondaires »,comme par exemple les enseignants qui spécifient des méta-données dans lecadre de la conception de cours en ligne adaptatifs, alors que les étudiants nefont qu’utiliser les documents qu’on leur présente, on se retrouve dans lepremier cas, avec une communauté plus réduite.

- Enfin, dans le cas d’applications pour lesquelles les annotation / méta-donnéesne sont connues et mises en place que par les concepteurs des systèmes, c’est-à-dire lorsque l’utilisateur final n’est jamais conscient des mécanismes en jeu,on se retrouve dans le cas plus classique de développement de services sur leWeb, qui peuvent fonctionner ou non.

Dans un Web sémantique concerné par l’instrumentation de ressourcesprincipalement documentaires à l’aide d’ontologies (que ce soient de simplesschémas de méta-données, ou bien des hiérarchies de types et de concepts plusraffinées) se pose d’entrée de jeu la problématique de l’utilisation et de la

7 Voir par exemple les outils proposés par Ontoprise (www.ontoprise.de).

Page 48: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

40

compréhension de ces ontologies par les utilisateurs, qui doivent en acquérir uneexpertise suffisante.

Cette expertise passe par la compréhension de l’utilisation qui va être faite desméta-données, et donc des inférences qu’elles vont permettre, à divers degrés. Parexemple, si j’affirme qu’une chaîne de caractères est bien le Titre de mon document,je suppose qu’un outil permettra de mener une recherche dans ce champ seul, ou bienpourra construire une table des matières à partir de lui. Si j’affirme que ce paragrapheprésente une Notion du cours que je prépare, que cette notion précède telle autre dansle déroulement du cours, et que ce document apporte des Eclaircissements (sachantqu’un Eclaircissement est une sorte d’Explication), alors je dois savoir quelle estl’utilisation qui sera faite de cette indication : par exemple génération d’un documentlistant les notions, génération d’un document composé de paragraphes se suivant dansun ordre adapté à l’étudiant avec des liens vers des documents annexes, etc.

Le degré de formalisation de l’ontologie, son étendue, et les possibilitésd’inférences liées déterminent tout à la fois le degré d’expertise que son utilisateurdoit acquérir pour annoter, la complexité possible de l’interface d’annotation desdocuments, et les raffinement possibles d’utilisation des méta-données.

Il ne fait pas de doute que les recherches actuelles vont être poursuivies, sans doutedans toutes les directions à la fois, étant donnée l’effervescence actuelle autour duWeb sémantique. Cependant, une certaine attention de recherche doit être portée dansquelques directions, moins étudiées mais à notre sens fondamentales et qui, pourbeaucoup, devraient impliquer des équipes pluridisciplinaires (Informatique / SHS) :

- Usage actuel (hors du Web sémantique) des méta-données / annotations parrapport aux différentes tâches d’utilisation d’un système d’informationdocumentaire, en lien avec la plus ou moins grande formalité des schéma dedescription utilisés. Quels sont les systèmes (d’ajout de méta-données /annotations à des documents) qui fonctionnent actuellement, et pourquoi ? Denombreux travaux ont été menés sur les annotations et les méta-données dansdes domaines qui ne relèvent pas du Web sémantique : il serait coûteux de lesignorer.

- Interfaces d’écriture (plus ou moins assistées) et de visualisation de méta-données sur / dans des documents (beaucoup de progrès restent à accomplir).Doit-on annoter avec une ontologie pré-existante, ou bien construire uneontologie adaptée au cours de l’annotation ? Quelle est la sémantique de larelation d’annotation d’une donnée par un concept issu d’une ontologie(Bechhofer et al., 2001) : que veut-on exactement décrire (le monde ? ledocument ? une utilisation ?) Que dire de la notion d’auto-indexation liée àdes outils de création de documents Web et ajout de méta-données : quelle enest la signification, comment peut-elle être exploitée ? Peut-on faire confianceà un utilisateur pour bien décrire ses propres documents (à comparer parexemple avec la fonction d’un documentaliste).

- Droit, cycle de vie et annotations : diffusion des méta-données, responsabilité,vie privée. Une méta-donnée peut être publiée dans le cadre d’une tâche, cequi suppose la maîtrise de l’utilisation qui peut en être faite par son auteur. Ordes usages non prévus peuvent surgir. Etude de la notion de « validité » desméta-données, par rapport à l’évolution des documents, mais aussi au niveautemporel : cycle de vie, qualité et validation des méta-données / annotations.

Terminons en remarquons que la question fondamentale qui nous semble posée àlong terme est celle du statut des méta-données dans le cadre de l’hypertextualité, liéeà la définition, du codage et de la structuration des documents et de l’information surle Web. En effet, ajouter une méta-données à un document consiste à lui ajouter unestructure ; coder un document textuel dans un arbre XML consiste à en définir leséléments structurels essentiels, qui en annotent le contenu textuel ; générer enfin undocument adaptatif à partir de multiples sources peut consister à mettre ensemble des

Page 49: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

3. Méta-données et Annotations

41

éléments de contenu et de structure provenant à la fois de données (documents) et deméta-données pour créer une nouvelle structure, dont le statut est encore peu clair etnécessitera sans doute des travaux théoriques poussés8.

RÉFÉRENCES

BECHHOFER S., L. CARR et al. (2002). The Semantics of Semantic Annotation. FirstInternational Conference on Ontologies, Databases, and Applications of Semantics for LargeScale Information Systems. Irvine, California. 2159: 1151-1167.

DENOUE, L. & L. VIGNOLLET (1999). Yawas : un outils d’annotation pour les navigateurs duweb, IHM’99, Montpellier, France, 22-26, Novembre 1999

HANDSCHUH S . & S TAAB S. (2002) Authoring and Annotation of Web Pages in CREAM.http://www.aifb.uni-karlsruhe.de/WBS/sha/papers/aa_cream_www11.pdf

MARSHALL C. C. (1998). Toward an ecology of hypertext annotation. Hypertext’98. New York,ACM Press: 40-49.

NILSSON M., PALMÉR M., et al. (2002). Semantic Web Metadata for e-Learning - SomeArchitectural Guidelines. 11th World Wide Web Conference (WWW2002). Hawaii, USA.

YEE, K.P. (1998) The CritLink Mediator, [ http://www.crit.org/critlink.html ]

8 Note en passant : ce rapport (ou au moins le tableau recensant les différentes applications) fatalement incomplet,pourra être rendu disponible sur le web, et actualisé et complété en fonction des réactions – pour toute réaction :[email protected]

Page 50: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation
Page 51: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

43

4 – Ontologies pour le Web sémantiqueJean Charlet1, Bruno Bachimont2,3, Raphaël Troncy2,4

1Mission de recherche STIM, AP-HP & INSERM ERM [email protected]

2Institut National de l’Audiovisuel{bbachimont,Raphael.Troncy}@ina.fr

3Université Technologique de Compiè[email protected]

4INRIA Rhône-Alpes, Équipe [email protected]

Résumé

Les ontologies sont un des concepts de base du Web sémantique. Dans cettepartie, nous voulons revenir sur l’origine des travaux sur les ontologies au sein de lacommunauté Ingénierie des connaissances pour montrer les acquis sur lesquels leschercheurs se sont appuyés pour développer le concept au sein du Web sémantique.Dans un souci de clarté et de précision, nous revenons sur la définition desontologies pour clarifier les limites de l’approche ontologique et les contraintes quis’imposent à elle. Cela nous permet d’aborder les méthodologies de constructiond’ontologies et la question de la généricité.

Ceci posé, nous pouvons passer en revue les apports du Web sémantique entermes de méthodologies, d’outils, d’éditeurs en essayant de préciser lesproblématiques particulières dans chaque domaine. Enfin, dans une dernière section,nous tentons de faire le point sur les problèmes que rencontre le Web sémantique parrapport aux ontologies et les axes de réflexion ou de recherche qui semblentprometteurs en ce domaine.

Mots-c lés : Ontologies, Ingénierie des connaissances, thésaurus, corpus,

Page 52: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

44

1 PRÉSENTATION ET IMPORTANCE DE LAPROBLÉMATIQUE DU POINT DE VUE DES USAGES

Permettre un traitement symbolique des connaissances, le but premier del’Intelligence Artificielle, rejoint celui du Web sémantique dans les attendus de ses« créateurs », à savoir, se donner les moyens de faire faire des traitementsautomatiques à des modules logiciels au sein du Web, que ce soit pour faire interagiret interopérer des machines entre elles ou faire interagir des machines avec deshumains. En effet, ces traitements rejoignent directement la question de lareprésentation des connaissances et des inférences en Intelligence Artificielle.

Tout programme informatique manipule, à travers des symboles, les objets dudomaine modélisé. L’ensemble de ces objets correspond à ce qui est appelé référentieldans le domaine des systèmes d’informations. Pour un domaine mettant en œuvre desconnaissances complexes sur lesquelles on veut effectuer des traitements intelligents9,le programme élaboré est un système à base de connaissances qui manipule une basede connaissances. Cette base répertorie, entre autres, et de la même façon que dans lessystèmes d’information, les concepts du domaine hiérarchiquement organisés dansune « ontologie », nommée ainsi en faisant référence à ARISTOTE10.

Les ontologies sont alors centrales pour le Web sémantique qui, d’une part, chercheà s’appuyer sur des modélisations de ressources du Web à partir de représentationsconceptuelles des domaines concernés et, d’autre part, a pour objectif de permettre àdes programmes de faire des inférences dessus. Les recherches à leur sujet sont doncindispensables. Une fois construite et acceptée par une communauté particulière, uneontologie doit en effet traduire un consensus explicite et un certain niveau de partage,deux aspects essentiels pour permettre l’exploitation des ressources du Web pardifférentes applications ou agents logiciels. D’autre part, la formalisation, autre facettedes ontologies, est nécessaire pour qu’il soit possible de raisonner automatiquementdessus afin de décharger les utilisateurs d’une partie de leur tâche d’exploitation et decombinaison des ressources du Web. Les ontologies servent alors (1) pour levocabulaire, la structuration et l’exploitation des méta-données (cf. chap. 3), (2)comme représentation pivot pour l’intégration de sources de données hétérogènes(cf. chap. 5) (3) pour décrire les services Web et, en général, partout où il va êtrenécessaire d’appuyer des modules logiciels sur des représentations sémantiquesnécessitant un certain consensus.

9 Nous n’entrons pas dans le débat sur ce qu’est l’intelligence. Nous nous bornons à noter quel’Intelligence artificielle intervient dans des domaines et pour des problèmes où l’on ne peut construiredes programmes avec des solutions algorithmiques simples et pour lesquels les connaissances à utilisersont difficilement formalisables.10 ARISTOTE a défini l’Ontologie comme la science de l’Être. Définition que l’on retrouve dans le PetitRobert avec « O n t o l o g i e » : la partie de la métaphysique qui s’intéresse à l’Etre en tant qu’Etre ».Mais l’Ontologie est habituellement davantage comprise comme une science des étants que comme unescience de l’Etre en tant qu’Etre, c’est-à-dire qu’elle s’intéresse davantage à ce qui existe (les étants ouexistants) qu’aux principes de ce qui existe (l’Etre). Cette science, l’Ontologie, produit des ensembles,les ontologies. Pour être complet, notons que le mot lui-même date du 17e siècle, avec des dates précisesdiscordantes selon les sources. Enfin, le mot ontologie, utilisé dans le contexte de l’Ingénierie desconnaissances ou du Web sémantique, semble d’un usage abusif à certains. Nous n’entrerons pas dans cedébat de dénomination en nous bornant ici à éclairer la filiation de réflexion.

Page 53: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

4 – Ontologies pour le Web sémantique

45

2 MÉTHODES, TECHNIQUES, OUTILS EXISTANTS SURLESQUELS ON PEUT S’APPUYER

2.1 DÉFINITIONS

2.1.1 Les ontologies en Ingénierie des connaissances

Les ontologies sont apparues au début des années 90 dans la communautéIngénierie des connaissances, dans le cadre des démarches d’acquisition desconnaissances pour les systèmes à base de connaissances (SBC). Faisant suite auxsystèmes experts qui séparaient une base de connaissances « déclarative » et un moteurd’inférence « procédural », les SBC proposaient alors de spécifier, d’un côté, desconnaissances du domaine modélisé et, de l’autre, des connaissances de raisonnementdécrivant les règles heuristiques d’utilisation de ces connaissances du domaine. L’idéede cette séparation modulaire était de construire mieux et plus rapidement des SBC enréutilisant le plus possible des composants génériques, que ce soit au niveau duraisonnement ou des connaissances du domaine. Les connaissances du domaineprécisent tout ce qui a trait au domaine. Dans ce contexte, les chercheurs ont proposéde fonder ces connaissances sur la spécification d’une ontologie, ensemble structurépar différentes relations, principalement l’hyperonymie11 des objets du domaine donton note déjà que son élaboration relève de choix du modélisateur.

Ontologie (déf. 1) : Ensemble des objets reconnus comme existant dans ledomaine. Construire une ontologie c’est aussi décider de la manière d’être etd’exister des objets.

Dans cette définition, les objets ne sont pas pris dans un sens informatique maiscomme objets du monde réel que le système modélise. Pour poursuivre vers unedéfinition de l’ontologie, il nous semble indispensable de rappeler que les travaux surles ontologies sont développés dans un contexte informatique – que ce soit celui del’Ingénierie des connaissances, de l’Intelligence artificielle ou de la gestion et dessystèmes d’information ou plus spécifiquement ici le contexte du Web sémantique – oùle but final est de spécifier un artefact informatique. Dans ce contexte, l’ontologiedevient alors un modèle des objets existants qui y fait référence à travers des concepts,les concepts du domaine. Cette ontologie et les connaissances du domaine quis’appuient dessus correspondent, à la suite des travaux de Newell (1982), à unemodélisation au « niveau des connaissances » (le Knowledge Level de Newell). Ceniveau de modélisation de l’ontologie nous situe au niveau du sens, au niveau del’intension. Cette ontologie devra ensuite être opérationalisée, c’est-à-dire codée dansun langage opérationnel, exécutable.

Pour avancer vers une définition complète, on peut revenir à un travail de N.Guarino et P. Giaretta (1995) qui ont essayé de trouver des définitions de l’ontologiedurant son processus d’élaboration12, à savoir l’ontologie comme un systèmeconceptuel informel, puis l’ontologie comme la représentation d’un systèmeconceptuel via une théorie logique et son vocabulaire. On peut alors proposer la

11 Pour ne pas dévier de notre propos, nous ne développons pas l’historique de la classification enIntelligence artificielle mais un certain nombre de travaux s’étaient déjà posés des question au sujet dela classification des objets du monde. Parmi ceux-ci, on peut citer les travaux autour des réseauxsémantiques, comme Brachman (Brachman, 1983; Brachman et al., 1991) s’interrogeant sur la nature dulien is-a ou Woods (1991) s’attachant à des questions de représentation et de niveau de description desconnaissances.12 Les développements faits ici sont une libre interprétation des attendus des travaux de N. Guarino et P.Giaretta (1995). Ils ont pour but de progresser vers une définition rendant compte d’un processus deconstruction évolutif. Nous renvoyons le lecteur qui veut approfondir la question aux articles de cesauteurs.

Page 54: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

46

seconde définition de ce qu’est une ontologie, en reprenant les spécifications deGruber (1993) et M. Uschold et al. (1996), l’équipe de ce dernier ayant appliqué lesrésultats des réflexions du premier dans le contexte applicatif d’une ontologied’entreprise, the enterprise ontology :

Ontologie (déf. 2) : Une ontologie implique ou comprend une certaine vue dumonde par rapport à un domaine donné. Cette vue est souvent conçue comme unensemble de concepts – e.g. entités, attributs, processus –, leurs définitions et leursinterrelations. On appelle cela une conceptualisation.

[...]Une ontologie peut prendre différentes formes mais elle inclura nécessairement unvocabulaire13 de termes et une spécification de leur signification.

[...]Une ontologie est une spécification rendant partiellement compte d’uneconceptualisation.

Cette seconde définition propose un autre point de vue que la première, cohérentavec elle mais plus précis, en termes de spécification et par rapport à une applicationinformatique. Elle nous permet de préciser les contraintes qui s’imposentsuccessivement au concepteur d’ontologies :

- une ontologie est bien une conceptualisation, entendons par là que l’on ydéfinit des concepts ;

- devant être par la suite utilisée dans un artefact informatique dont on veutspécifier le comportement, l’ontologie devra également être une théorielogique pour laquelle on précisera le vocabulaire manipulé ;

- enfin, la conceptualisation étant spécifiée parfois de manière très précise, unethéorie logique ne peut pas toujours en rendre compte de façon exacte : ellene peut assumer la richesse interprétative du domaine conceptualisé dans uneontologie et ne le fait donc partiellement14.

2.1.2 Que représente-t-on dans une ontologie ?

À partir des définitions proposées jusque-là pour les ontologies15, quatre grandstypes de caractéristiques nous permettent de préciser ce qui peut être représenté dansune ontologie ainsi que le processus de modélisation :

Le type d’ontologie. Les méthodes en Ingénierie des connaissances ontrépertorié plusieurs types d’ontologie liés à l’ensemble des objetsconceptualisés et manipulés au sein d’un SBC. Nous allons en citer quelques-unes : (1) l’ontologie du domaine (cf. § 116), (2) l’ontologie générique, ou quise veut comme telle, qui repère et organise les concepts les plus abstraits dudomaine (cf. § 2.2.4), (3) l’ontologie d’une méthode de résolution deproblème où le rôle joué par chaque concept dans le raisonnement est renduexplicite (p. ex. signe ou syndrome dans le cadre du raisonnement médical), (4)l’ontologie d’application qui se veut une double spécialisation : d’une

13 « Vocabulaire » est utilisé ici tel qu’il apparaît dans le texte. Il doit être compris dans un sens logiqueet être vu comme le vocabulaire des expressions manipulées par une théorie logique. Ceci dit, cevocable prête à confusion dans le domaine des ontologies où la question de la langue et l’oppositiontermes versus concepts est fondamentale (cf. § 2.2.2).14 Cet écart est principalement dû des problèmes de calculabilité des théories qui pourraient rendre comptede la spécification et sont donc inadéquates. Cet écart entre la conceptualisation et la spécificationformelle est décrit par N. Guarino comme l’engagement ontologique que le concepteur doit assumer aupassage de l’une à l’autre (Guarino & Giaretta, 1995).15 Nous ne développerons pas ici l’historique de la classification, de Aristote aux Sciences naturelles.Nous renvoyons le lecteur intéressé à (Charlet, 2002) et rappelons qu’un des apports de cet historiqueest de montrer toute la variabilité de définition des objets du monde en fonction des buts dumodélisateur.16 La numérotation des références de paragraphes correspond aux différentes parties de ce chapitre.

Page 55: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

4 – Ontologies pour le Web sémantique

47

ontologie du domaine et d’une ontologie de méthode, enfin (5) l’ontologie dereprésentation qui repère et organise les primitives de la théorie logiquepermettant de représenter l’ontologie (p. ex. la frame ontologyd’ONTOLINGUA (Gruber, 1993)) ou l’ontologie de « propriétés » de Guarino& Welty (2000).

Les propriétés. Une ontologie est non seulement le repérage et la classificationdes concepts mais c’est aussi des caractéristiques qui leur sont attachées etqu’on appelle ici des propriétés17. Ces propriétés peuvent être valuées. Ens’intéressant aux taxinomies en sciences naturelles, les vertébrés ont untégument (la peau) comportant des poils – p. ex. pour les mammifères – oudes plumes – p. ex. pour les oiseaux. Dans une ontologie sur le monde animal,on pourra ainsi avoir les concepts de « mammifère » ou « d’oiseau » pourlesquels est précisé le type de tégument, respectivement à poil et à plume. Enpratique, un attribut « tégument » pourra être attaché aux concepts et sa valeurvariera suivant le concept auquel on fait référence.

La relation « is-a ». La relation de subsomption is-a qui définit un lien degénéralisation – i.e. hyperonymie – est utilisée pour structurer les ontologies.Cette relation qui permet formellement l’héritage de propriétés est un choixqui s’impose depuis ARISTOTE. Elle doit être complétée par d’autres relationspour exprimer la sémantique du domaine.

Les autres relations. Les relations unissent les concepts ensemble pourconstruire des représentations conceptuelles complexes qui vont être autant deconnaissances nécessaires au SBC que l’on construit. Si la connaissanceconstruite correspond à un concept dans le monde modélisé, celui-ci est ditdéfini , à l’opposé des concepts insérés dans l’arborescence de l’ontologie quisont dits primitifs. Par exemple, si l’on définit l’appendicite comme uneinflammation localisée-sur l’appendice, c’est un concept dit défini. Dansl’exemple précédent, localisée-sur est une relation binaire qui se définit par lesconcepts qu’elle relie et par le fait qu’elle est, comme les concepts, inséréedans une hiérarchie, ici de relations.

La relation is-a qui structure l’ontologie est une relation du même type que lesautres. Elle a cela de spécifique que c’est elle qu’on a justement choisi commerelation de structuration de l’arborescence ontologique. Elle est donc implicite danscette ontologie. Au niveau des choix, il faut aussi remarquer que les concepts etrelations de l’ontologie sont duals l’un par rapport à l’autre. Un concept primitifpourrait être un concept défini, une relation pourrait se retrouver implicitementdéfinie au sein d’un concept primitif. Ce sont les choix assumés du concepteur del’ontologie qui auront permis de décider de ce qui est essentiel – et donc primitif – ounon (cf. § 2.2.2). Ainsi, on peut décider que le fait, pour un être humain, d’être unétudiant est temporaire donc non définitoire. On caractérise alors les êtres humainsavec une relation de rôle social qui permettra de préciser une fonction d’étudiant oude professeur.

Un autre choix de conception qui doit être fait durant la conception d’uneontologie est de décider si une connaissance doit être modélisée dans une propriété ouà l’aide d’une relation pointant sur un autre concept. Un critère peut être de dire quec’est une propriété dès lors que les valeurs possibles sont d’un type dit primitif(entier, chaîne de caractères), et c’est une relation dès lors que les valeurs possiblessont d’un type dit complexe c’est-à-dire un autre concept de l’ontologie. Mais cettefrontière peut aussi être remise en question.

Enfin, dans certains cas, il peut être nécessaire de compléter la structuration del’ontologie par la relation is-a avec une relation de partie-tout ou méronymie. Ce typede relation est, par exemple, indispensable en anatomie médicale où il est nécessaire 17 Des attributs dans le contexte des langages à objets.

Page 56: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

48

de décrire des organes ou des systèmes et ce qui les compose. Cette relation n’est passans poser des problèmes de modélisation dans la mesure où elle est, selon lessituations, transitive ou intransitive.

Les réflexions sur les ontologies dans le contexte du Web sémantique s’appuientsur ces différents acquis en notant que dans le cas où l’ontologie est utilisée commerepérage et structuration de méta-données, le fait qu’elle permette de faire desinférences est moins mis en avant et donc moins recherché que dans le cas oùl’ontologie est utilisée au sein d’un module logiciel type SBC, nécessitant justementd’effectuer des inférences.

2.2 QUELLES MÉTHODES POUR CONSTRUIRE DES ONTOLOGIES ?

2.2.1 À la recherche d’une méthodologie constructive

Les méthodologies de construction d’ontologies ne sont pas légion. Nousentendons par là, la donnée argumentée de procédures de travail, d’étapes, quidécrivent le pourquoi et le comment de la conceptualisation puis de l’artefactconstruit. Sur le fond, on trouve des réflexions linguistiques et épistémologiques(Bachimont, 2000) et des réflexions sur les ontologies formelles (Guarino & Giaretta,1995). Elles sont à l’origine de méthodes de construction d’ontologies à partir decorpus que nous allons aborder dans la section suivante. Ensuite, on trouve destravaux qui proposent de bonnes pratiques méthodologiques de constructiond’ontologies comme ceux de Th. R. Gruber (1993) ou de M. Fernàndez et al.(1999). Nous les présenterons plus rapidement dans la section 3.2.1.

2.2.2 Acquérir des ontologies à partir de corpus

La première méthode que nous présentons ici a été mise au point à l’occasion de laconstruction de l’ontologie du projet MENELAS18 (Zweigenbaum et al., 1995). Elleest fondée sur les travaux de B. Bachimont (2000) enrichis de considérations sur lescorpus textuels développées au sein du groupe TIA19. Nous choisissons de la décrireici car l’ensemble de ses étapes est paradigmatique de ces approches et nous permettrad’aborder, dans la suite de cette étude, les problèmes liés à la construction desontologies. Les 4 étapes de la méthode sont :

1re étape : la primauté du corpus et son analyse. Nous sommes, par hypothèse,dans des domaines où les données et les connaissances s’expriment en langue.Il est alors aisé20 de trouver des textes explicitant les connaissances dudomaine, dans des buts de pratique ou de transmission des connaissances.On peut ainsi construire un corpus textuel qui sera la source privilégiéepermettant de caractériser les notions utiles à la modélisation d’une ontologieet le contenu sémantique qui lui correspond. Pour ce faire, on utilise une «démarche de corpus » et des outils terminologiques pour commencer àmodéliser le domaine. Ces outils, pour la plupart, reposent sur la recherche deformes syntaxiques particulières manifestant les notions recherchées commedes syntagmes nominaux pour des candidats termes, des relations syntaxiquesmarqueurs de relations sémantiques, ou des proximités d’usage – e.g.contextes partagés – pour des regroupements de notions (Bourigault & Fabre,2000 ; Bourigault, 2002).

18 http://www.biomath.jussieu.fr/projets/Menelas/ontologie19 http://www.biomath.jussieu.fr/TIA/20 Dans le sens où ces textes existent bien et en quantité. Nous n’abordons pas la question, parfoiscomplexe, de la disponibilité réelle de ces textes sous forme numérique. La question des corpus estdéveloppée plus spécifiquement dans le cadre de l’Action spécifique du CNRS «Construction deressources terminologiques a partir de corpus» – ASSTICCOT <http://www.irit.fr/ASSTICCOT/>.

Page 57: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

4 – Ontologies pour le Web sémantique

49

2e étape : la normalisation sémantique. L’étape précédente fournit des candidatstermes dont les libellés ont un sens pour le lecteur, souvent spécialiste dudomaine. Mais rien n’assure que ce sens soit unique : au contraire, noussommes dans un fonctionnement linguistique où les significations sontambiguës, les définitions circulaires et dépendent en particulier du contexteinterprétatif des locuteurs. Or, dans la modélisation ontologique, on cherche àconstruire des primitives dont le sens ne dépend pas des autres primitives et estsurtout non contextuel. Il est nécessaire, pour prendre le chemin du formel, denormaliser les significations des termes pour ne retenir, pour chacun d’eux,qu’une seule signification, qu’une seule interprétation possible par un êtrehumain. C’est ce que permet l’utilisation de la sémantique différentielle,proposée par B. Bachimont et travaillant les proximités d’usage produites àl’étape précédente. À la fin de cette étape, nous avons un arbre de primitivesconceptuelles valable dans la seule région du monde modélisée où lesconcepts retenus correspondent bien à ceux de l’ontologie, par définitiondécontextualisée. Nous avons une ontologie régionale.Corollaire de la méthodologie, le sens d’un concept est principalement définien fonction de ce qu’il est (héritage par rapport au père) et de ce qu’il n’estpas (différence par rapport au père ou aux frères).

3e étape : l’engagement ontologique. L’engagement ontologique correspond àl’évolution de l’ontologie régionale vers une ontologie formelle. Lasémantique formelle ne considère plus des notions sémantiques mais desextensions, c’est-à-dire l’ensemble des objets qui vérifient des propriétésdéfinies en intension dans l’étape précédente, propriétés ayant une définitionformelle à ce niveau. La structure de l’ontologie formelle est alors un treillis(Bachimont, 2000).Au sein de cette ontologie formelle, le treillis des concepts doit être compriscomme la possibilité de créer des concepts dits définis en combinant lesconcepts primitifs comme, par exemple, une personne qui a pour rôle sociald’être un médecin. Cet « objet » défini en extension hérite des caractéristiquesdes personnes et des médecins alors qu’au niveau précédent, l’intension despersonnes et des médecins était irréductible.

4e étape : l’opérationalisation. Dernière étape de la méthodologie (et debeaucoup d’autres), l’opérationalisation consiste en la représentation del’ontologie dans un langage de représentation des connaissances permettantde surcroît des services inférentiels de type classification des concepts ougénéralisation, etc. Selon les langages considérés, les calculs possibles et doncles services inférentiels ne sont pas identiques et, à ce niveau aussi, il y a unengagement qui est pris avec de nouvelles contraintes et possibilités, justifiantl’existence d’une ontologie computationnelle.Il y a plusieurs possibilités de choix de langage d’opérationalisation, commeles graphes conceptuels et les logiques de description, permettant, l’un commel’autre, d’effectuer un certain nombre d’opérations sur des ontologies :inférences propres aux structures de graphes comme la jointure ou laprojection pour les graphes conceptuels, classifications dans des structuresarborescentes pour les logiques de description. Les logiques de descriptionsont le type de langage retenu par le Web sémantique pour représenter lesontologies et faire des inférences dessus. Les différents axiomes quiaccompagnent chaque possibilité ne sont pas anodins en termes deconnaissances représentables et de calculabilité. Ce problème est approfondiau chapitre 2.

Cette méthodologie a été utilisée dans plusieurs domaines comme l’audiovisuel(Troncy, 2003) ou la médecine (Le Moigno et al., 2002; Weis & Charlet, 2003).

Page 58: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

50

Une 2e méthodologie, réifiée dans le système TERMINAE développé par N.Aussenac-Gilles et al. (2003), est dans un paradigme identique à la précédente mais(1) le dépouillement des corpus et l’étude linguistique y sont encore plus mis enavant, en particulier le repérage des relations et (2) la question de l’opérationalisationdans une logique de description et son influence sur la modélisation a étéspécifiquement étudiée. Ainsi, aux outils de repérage de candidats termes et deregroupement de contextes – SYNTEX et UPERY (Bourigault, 2002) – est rajouté unoutil de repérage de relations, YAKWA (Rebeyrolles, 2000), proposant une meilleureaide au repérage de celles-ci.

Enfin, des approches cherchant à plus automatiser la structuration de l’ontologievia des algorithmes d’apprentissage ont été développées comme celle de Maedche etStaab (2000) ou ASIUM développé par Faure et Nedellec (1999) :

- La première approche cherche à minimiser les interactions et construitautomatiquement une taxinomie de concepts à partir d’un dictionnaire dudomaine. Le résultat obtenu, comportant beaucoup de concepts « feuilles »(terminaux) doit être complété par une extraction de candidats termes placésmanuellement pour finir de structurer l’ontologie.

- La seconde approche, ASIUM, utilise des techniques d’apprentissage pourconstruire interactivement une ontologie. Plus précisément, ASIUM apprenddes cadres de sous-catégorisation de verbes et des ontologies à partir del’analyse syntaxique de corpus de textes techniques. Cette technique est àrapprocher de la construction de notions par les contextes partagés (cf. supra).

Les différentes expériences menées jusque-là avec Les méthodologies décrites icimontrent que l’intervention humaine est indispensable et même primordiale dans leschoix de conceptualisation à faire. Il est alors plus important d’outiller cetteintervention que de chercher à la minimiser.

2.2.3 Ontologie versus thesaurus

Des modélisations conceptuelles ou terminologiques existent depuis longtempsdans le domaine de la recherche d’information au sein des bibliothèques et dans ledomaine de la terminologie, par exemple en médecine où il existe, entre autres, desthesaurus de spécialités répertoriant l’ensemble des termes médicaux à utiliser pourdécrire l’activité médicale – i.e. un vocabulaire contrôlé. En reprenant un vocable deBourigault et al. (2003), les différentes ressources terminologiques ou ontologiques(RTO) élaborées dans différents domaines doivent être précisées et conceptuellementcaractérisées pour bien comprendre leur signification par rapport à une modélisationconceptuelle et formelle et si elles peuvent être ou servir d’ontologies et à quellesconditions. Pour cela, nous allons reprendre ici, rapidement, trois définitions parrapport à des produits terminologiques existant parallèlement aux ontologies, lesthesaurus, classifications et terminologies :

Un thesaurus est un ensemble de termes normalisés fondé sur une structurationhiérarchisée. Les termes y sont organisés de manière conceptuelle et reliésentre eux par des relations sémantiques. Organisé alphabétiquement, il formeun répertoire alphabétique de termes normalisés pour l’analyse de contenu, leclassement et donc l’indexation de documents d’information (dans denombreux cas, les thesaurus proposent aussi une définition des termes utilisés).

Une classification est l’action de distribuer par classes par catégories (rien n’estdit sur le type d’objets classifiés). C’est aussi le résultat de cette action.

Une terminologie est un ensemble des termes particuliers à une science, à un art, àun domaine. Les termes y sont également définis par un texte en languenaturelle et caractérisés par différentes propriétés linguistiques ougrammaticales suivant l’usage prévu de cette terminologie. Avec leur mise sursupport informatique, les terminologies ont beaucoup évolué et sont parfoisenrichies de relations entre termes, formant ainsi un réseau terminologique.

Page 59: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

4 – Ontologies pour le Web sémantique

51

À partir de là, on peut s’intéresser à quelques RTO, par exemple WORDNET ou leMeSH, pour vérifier quelle est leur nature exacte, ce qu’on peut en faire et pourquoi :

WORDNET est une base de données lexicales. Les termes y sont organisés sousformes d’ensembles de synonymes, les synsets. Chaque synset est un conceptlexicalisé (en reprenant les termes de M. Slodzian (1999)). Ces conceptslexicalisés sont reliés par des relations conceptuelles (is-a, has-a). Lesconcepteurs de WORDNET affirment ainsi construire une ontologie linguistique.Si nous pensons qu’une ontologie a pour but de conceptualiser un domaine etnous le maintenons, alors le processus qui mène à cette ontologie doitclairement en prendre la direction. Ce n’est pas le cas de WORDNET qui jongleallègrement entre relations conceptuelles et termes21. Précisons bien lamotivation de ces remarques : WORDNET est un énorme dictionnairehypermédia de l’anglais-américain (plus de 100 000 synsets) et sa richesse etsa facilité d’accès en font un intéressant outil pour la recherche d’informationou d’autres tâches comme le traitement du langage naturel mais ce n’est pasune ontologie, cela n’en prend pas le chemin et essayer de l’utiliser tel quelou avec un minimum de modification dans un système formel est voué àl’échec.

MeSH (Medical Subject Heading) est un thesaurus médical. C’est le thesaurusd’indexation de la base bibliographique MEDLINE22. Il est traduit en françaispar l’INSERM et sert aussi de thesaurus au site CISMeF (cf. chap. 8). Le MeSHoffre une organisation hiérarchique et associative et comprend jusqu’à neufniveaux de profondeur. Sans revenir sur sa description précise qui montre quel’on est en face d’un thesaurus développé pour l’indexation et non pour lesinférences (Charlet, 2002), on peut citer les concepteurs qui écrivent :

Many individuals have tried to use MeSH as a concept representationlanguage with only modest succes. That the relationships in the MeSHtree structure were designed with a different view, and with a different(an not formal) meaning of “broader-than”, has frustated theirefforts. The MeSH hierarchical structure was designed to reflect a viewof the literature for a user.[...] The trees thus indicate what appears tobe a useful set of relationships, based on the perceveid needs ofsearchers (Nelson et al., 2001).

À la suite de ces quelques exemples23 on peut constater que ces ressourcesterminologiques ne sont pas des ontologies. Ce n’est pas étonnant : dans denombreux domaines, des thesaurus ont été développés d’abord pour des besoins denormalisation des termes employés et à un moment où une utilisation informatique24

n’était pas envisagée. Les ontologies n’étant pas sans rapport avec les terminologies,on peut trouver dans ces thesaurus des ressources pour amorcer une ontologie. Mais ilfaut prendre garde au fait que ce ne sont que des « ressources pour » et pas des« embryons de ».

2.2.4 La réutilisation et les ontologies génériques

La première et originelle utilité d’une ontologie était liée à une volonté deréutilisation (cf. § 2.1.1). Cette propriété étant attendue mais ni démontrée, nidéfinitoire, elle est restée comme pétition de principe alors que la nature del’ontologie se précisait au fur et à mesure que des travaux utilisaient le concept. Ainsi, 21 M. Slodzian (1999; 2000) développe très longuement des arguments épistémologiques etlinguistiques à ce sujet. Nous renvoyons le lecteur intéressé à ces articles.22 Le MeSH est accessible à http://www.nlm.nih.gov/mesh/meshome.html23 Voir (Charlet, 2002) pour un panorama plus large en notant que nous nous sommes intéresséssciemment à des ressources au statut problématique. Il y a évidemment d’autres ressources dont le statutontologique est incontestable comme la GeneOntology <http://www.geneontology.org>.24 Utilisation, au sens fort, c’est-à-dire pour faire des inférences.

Page 60: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

52

réutilisable ou pas, l’ontologie devait servir de représentation des connaissances dudomaine pour un SBC. Plus précisément, on peut dire maintenant qu’elle sert desquelette à la représentation des connaissances du domaine dans la mesure où elledécrit les concepts, leurs propriétés et la façon dont il peuvent se combiner pourconstituer des connaissances du domaine complètes. Cette caractéristique est valablepour tout SBC, qu’il soit isolé ou doive servir à faire des inférences dans le contextedu Web sémantique.

Des questions épistémologiques sur la réutilisabilité et incidemment la nature desontologies ont alimenté de longs débats (Charlet et al., 1996; Guarino, 1997; vanHeijst et al., 1997). La communauté française est particulièrement active dans cedomaine, en particulier au niveau du groupe TIA, au sein duquel ontologies,terminologies, bases de connaissances terminologiques, entre autres « produits » de larecherche, sont caractérisés par rapport aux besoins de la Terminologie et del’Ingénierie des connaissances. Des nombreuses expériences menées au sein dugroupe, il ressort que la réutilisation simple des ontologies espérée au début desannées 90 a disparu et que des réflexions et outils nouveaux sont apparus nécessairespour aborder la question de la construction des ontologies et de leur réutilisation(cf. § 2.2.2). L’autre conséquence est la nécessité d’assumer une certaine nonréutilisabilité des ontologies : en effet, les ontologies sont des artefacts construits enfonction d’une tâche précise et ne peuvent être réutilisées, en tant qu’objet formel,pour une autre tâche.

Ce constat fait, il en découle un certain nombre de recherches sur la réutilisabilitédu « haut » des ontologies dont l’argumentaire est le suivant : puisqu’il est difficile,voire impossible, de réutiliser directement des ontologies, trop proches de vuesdétaillées qu’on peut avoir sur un domaine, intéressons-nous au « haut » del’ontologie qui répertorie et organise de grandes catégories de la pensée ou de lasociété humaine qui devraient pouvoir être réutilisables dans de très nombreusesapplications et être alors « génériques ». C’est l’objectif du groupe SUO25 (StandardUpper Ontology) qui réfléchit à la constitution d’un haut d’ontologie, the SUMO(Suggested Upper Merged Ontology), qui se voudrait universel pour les grandescatégories d’objets et de pensées. Les discussions intenses au sein de ce groupe deréflexion semblent montrer que le but ne sera pas atteint tout de suite. Mais sera-t-ilatteint un jour ? Avec les mêmes arguments épistémologiques que précédemment surla non réutilisabilité des ontologie, on peut penser qu’on ne sera pas capable deconstruire ce type d’ontologie universelle.

Ajouté au fait qu’il est difficile de mettre d’accord de nombreuses personnes ouinstitutions sur des conceptualisations partagées, une conséquence des réflexionsprécédentes et qui semble inéluctable pour le Web sémantique est que les différentescommunautés de travail ou de pratiques vont développer et mettre à disposition desontologies portant sur des domaines restreints avec des ontologies différentes portantsur des champs de conceptualisation identiques. Les questions autour principalementde la comparaison, de la fusion, etc. des ontologies vont alors devenir cruciales(cf. § 3.4).

25 http://suo.ieee.org

Page 61: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

4 – Ontologies pour le Web sémantique

53

3 TRAVAUX ET RÉSULTATS EXISTANTS DU WEBSÉMANTIQUE

3.1 LE WEB SÉMANTIQUE AU SEIN DES RECHERCHES EN RC ET IC

Les travaux et recherches décrits jusque-là ont commencé antérieurement à ladiffusion des recherches sur le Web sémantique. C’est la raison pour laquelle ils sontsitués dans les acquis même si des recherches sont encore nécessaires. Ceci étant, lesrecherches sur le Web sémantique ont pris leur essor avec l’implication de chercheursen Représentation des connaissances, autour des langages et systèmes d’inférences etavec les chercheurs de l’Ingénierie des connaissances sur la question desméthodologies d’élaboration des ontologies. C’est pourquoi, à partir de là, nous nechercherons pas à préciser l’origine de ces recherches et considérerons que ce sontdes acquis du Web sémantique.

Un des résultats forts du Web sémantique sur les ontologies est la normalisation deleur expression. Ce point, indispensable si l’on veut que les ontologies puissent êtrepartagées, semble justement trouver une solution dans le contexte du Websémantique : la définition du langage OWL (Ontologies Web Language) à différentsniveaux de complexité (capacité de complexité des descriptions versus calculabilité)en est le meilleur exemple. Cette question et d’autres sur les langages sontdéveloppées au chapitre 2.

Après avoir abordé, à la section précédente, des problématiques que nousconsidérons fondamentales et qui préexistaient aux recherches sur le Web sémantique,nous allons poursuivre cette réflexion méthodologique avec des considérations plusparticulièrement issues de ces recherches.

3.2 DES MÉTHODOLOGIES DE CONSTRUCTION D’ONTOLOGIES

3.2.1 De bons principes méthodologiques

Passées les questions de méthodologies fondamentales, un certain nombre detravaux proposent des principes de construction d’ontologies. Nous allons nousattarder sur deux d’entre eux, paradigmatiques, les travaux de Th. R. Gruber (1993)et ceux de M. Fernàndez et al. (1999).

Th. R. Gruber propose ainsi un certain nombre de principes à respecter pourconstruire une ontologie :

Clarté. Les ambiguïtés doivent être réduites. Quand une définition peut êtreaxiomatisée, elle doit l’être. Dans tous les cas, des définitions en langagenaturel doivent être fournies.

Cohérence. Une ontologie doit être cohérente. Les axiomes doivent êtreconsistants. La cohérence des définitions en langage naturel doit être vérifiéeautant que faire se peut.

Extensibilité. L’ontologie doit être construite de telle manière que l’on puissel’étendre facilement, sans remettre en cause ce qui a déjà été fait.

Biais d’encodage minimal. L’ontologie doit être conceptualiséeindépendamment de tout langage d’implémentation. Le but est de permettrele partage des connaissances (de l’ontologie) entre différentes applicationsutilisant des langages de représentation différents.

Engagement ontologique minimal. Une ontologie doit faire un minimumd’hypothèses sur le monde : elle doit contenir un vocabulaire partagé mais ne

Page 62: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

54

doit pas être une base de connaissances comportant des connaissancessupplémentaires sur le monde à modéliser.

D’autres principes du même type sont proposés par d’autres auteurs (cf. article deA. GómezPérez (2000)). Il est facile de voir que la méthodologie que nous avonsdécrite (cf. supra) fournit des moyens d’appliquer ces principes, au niveausémantique ou au niveau formel selon les cas.

M. Fernàndez et al. proposent, dans la méthodologie METHONTOLOGY, deconstruire une ontologie en respectant des activités de gestion de projet (planification,assurance qualité), de développement (spécification, conceptualisation, formalisation,implémentation, maintenance) et des activités de support (intégration, évaluation,documentation). On retrouve là des problématiques de génie logiciel et de gestion deprojet informatique qu’on a tout intérêt à voir s’appliquer à la construction degrandes ontologies, si on a une méthodologie réelle de construction, évidemment.Cette méthodologie rejoint pour partie celle décrite par F. Gandon (2002) etdéveloppée au sein de l’équipe ACACIA de l’INRIA.

Enfin, nous renvoyons à l’article de A. Gómez-Pérez (2000), pour une descriptionplus complète d’ontologies et de méthodologies centrées sur des problématiques decycle de vie des ontologies.

3.2.2 Acquérir une ontologie à partir de DTD

Dans le cadre du Web sémantique, les systèmes médiateurs permettent d’établir uneconnexion entre différentes sources d’information sur un même domaine. Ils utilisentune ontologie qui sert de schéma global intermédiaire dans lequel sont exprimées lesrequêtes qui peuvent être traduites dans la représentation de chaque sourced’information. Si ces sources d’information sont été développées avant le médiateur,ce qui est le cas des organisations relatives à l’industrie du voyage, on peut disposerdes ontologies des sources (souvent sous forme de DTD XML) pour essayer deconstruire l’ontologie du médiateur. C’est ce type de travail qui a été expérimentédans le projet PICSEL et qui est abordé au chapitre 5, section 3 (Giraldo & Reynaud,2002).

Il est important de noter que le Web sémantique ne se construira que si lespersonnes et les institutions au sens large partagent une même sémantique d’undomaine. Dans un domaine comme le voyage, décrit ici, il y a un existant dont il fauttenir compte et on ne peut créer une ontologie ex-nihilo. Des approches à partir deDTD, si elles n’aboutissent pas encore à des méthodologies stables permettent de tenircompte de l’existant et sont ainsi indispensables à l’avènement et au fonctionnementdu Web sémantique (cf. § 3.4).

3.3 DES ÉDITEURS D’ONTOLOGIES

3.3.1 Introduction

De nombreux outils permettent aujourd’hui d’éditer des ontologies. Parmi ceux-ci,quelques uns essaient de guider leur utilisateur dans l’élaboration de l’ontologie ensuivant une méthodologie de conception plus ou moins complète, que ce soit enrespectant des principes de cycle de vie et validation logiciels (cf. § 3.2.1), d’un côté,ou, de l’autre côté, en outillant une réflexion épistémologique (cf. § 2.2.2). Dans tousles cas, force est de constater qu’aucun de ces outils n’a réussi à s’imposer et laréflexion sur l’outillage de la construction des ontologies reste donc ouverte. Lesoutils proposés peuvent se regrouper grossièrement en deux catégories. Dans lapremière, on trouve les plus anciens historiquement, qui permettent de spécifier les

Page 63: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

4 – Ontologies pour le Web sémantique

55

ontologies au niveau symbolique (voir, par exemple, le serveur ONTOLINGUA26

(Farquar et al., 1995)) : une grande partie des définitions des objets se faitdirectement dans un langage de représentation de connaissances donné (pourONTOLINGUA, il s’agit de KIF), auquel le créateur et l’utilisateur de l’ontologiedoivent se plier. Dans la seconde catégorie, les outils prennent mieux en comptel’importance du niveau des connaissances : ils proposent à leur utilisateur de créerl’ontologie de manière relativement indépendante de tout langage implémenté etprennent ensuite automatiquement en charge l’opérationalisation de l’ontologie, en latransposant dans divers langages. Cette évolution tend à rapprocher les ontologies deleur but original : il semble en effet naturel de chercher à s’abstraire – dans unpremier temps – du niveau symbolique si on veut obtenir une ontologie permettant unréel partage d’une compréhension. Cette dernière catégorie regroupe les outilsprincipalement utilisés aujourd’hui.

3.3.2 PROTÉGÉ-2000

PROTÉGÉ-200027 (Noy et al., 2000) est un environnement graphique dedéveloppement d’ontologies développé par le SMI de Stanford. Dans le modèle desconnaissances de PROTÉGÉ, les ontologies consistent en une hiérarchie de classes quiont des attributs (slots), qui peuvent eux-mêmes avoir certaines propriétés (facets).L’édition des listes de ces trois types d’objets se fait par l’intermédiaire de l’interfacegraphique, sans avoir besoin d’exprimer ce que l’on a à spécifier dans un langageformel : il suffit juste de remplir les différents formulaires correspondant à ce quel’on veut spécifier. Ce modèle autorise d’ailleurs une liberté de conception assezimportante puisque le contenu des formulaires à remplir peut être modifié suivant lesbesoins via un système de métaclasses, qui constituent des sortes de « patrons » deconnaissance. L’interface, très bien conçue, et l’architecture logicielle permettantl’insertion de plugins pouvant apporter de nouvelles fonctionnalités (par exemple, lapossibilité d’importer et d’exporter les ontologies construites dans divers langagesopérationnels de représentation ou encore la spécification d’axiomes) ont participé ausuccès de PROTÉGÉ-2000 qui regroupe une communauté d’utilisateurs assezimportante et constitue une référence pour beaucoup d’autres outils.

3.3.3 OILEd

OILEd28 (Bechhofer et al., 2001), développé sous la responsabilité de l’universitéde Manchester, a été conçu pour éditer des ontologies dans le langage dereprésentation OIL, un des précurseurs du langage OWL29 (Ontology Web Language) qui estaujourd’hui en voie d’être une recommandation W3C (cf. chap. 2). Officiellement, iln’a pas d’autre ambition que de construire des exemples montrant les vertus dulangage pour lequel il a été créé. A ce titre, OILEd est souvent considéré comme unesimple interface de la logique de description SHIQ. Néanmoins, il offre la plus grandepartie de ce que l’on peut attendre d’un éditeur d’ontologies. On peut créer deshiérarchies de classes et spécialiser les rôles, et utiliser avec l’interface les typesd’axiomes les plus courants. Cet éditeur offre également les services d’un raisonneur,FaCT, qui apermet de tester la satisfaisabilité des définitions de classes et de découvrirdes subsomptions restées implicites dans l’ontologie.

26 http://www-ksl-svc.stanford.edu:5915/27 http://protege.stanford.edu/index.shtml28 http://oiled.man.ac.uk/29 http://www.w3.org/2001/sw/WebOnt/

Page 64: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

56

3.3.4 OntoEdit

Contrairement aux deux outils précédents, ONTOEDIT (Sure et al., 2002) n’est pasdisponible gratuitement dans sa version complète30. Il présente les fonctionnalitésessentielles communes aux autres éditeurs (hiérarchie de concepts, expressiond’axiomes, export de l’ontologie dans des langages divers) et a le mérite des’appuyer sur une réflexion méthodologique significative. La modélisation desaxiomes a fait l’attention de soins particuliers pour pouvoir être effectuée – en toutcas pour les types les plus répandus – indépendamment d’un formalisme privilégié etcela pour faciliter la traduction d’un langage de représentation à un autre. Il proposeégalement une gestion originale des questionnaires de compétences. Des questionspour les réponses desquelles l’ontologie doit fournir le matériel conceptuel, on peutextraire les termes appelés à intégrer l’ontologie. Un petit outil fait une comparaisonlexicale des termes extraits des différentes questions pour en déduireautomatiquement d’éventuelles subsomptions. Le procédé semble cependant loind’être fiable puisqu’il repose sur l’hypothèse que le nom d’un concept se retrouveparfois dans le nom de ses spécialisations.

3.3.5 WebODE

WebODE31 (Arpirez et al., 2001), développé par le LAI de Madrid, est une plate-forme de conception d’ontologies fonctionnant en ligne. D’un point de vueméthodologique, l’outil fait suite à ODE, un éditeur qui assurait fidèlement le supportde la méthodologie maison METHONTOLOGY (cf. § 3.2.1). Il illustre bien l’évolutiondes outils de construction d’ontologies, puisque les nombreuses tables de sonprédécesseur ont été remplacées par une interface très travaillée, réalisant un passupplémentaire vers une conception au niveau des connaissances. On peut cependantregretter que cette évolution se soit faite au détriment de l’application des contraintesméthodologiques : les représentations intermédiaires utilisées dans le processus deconception sont désormais moins mises en avant, à tel point que le guide del’utilisateur ne les signale que pour « assurer la compatibilité conceptuelle avecODE ». L’accent a plus été mis sur la possibilité d’un travail collaboratif ou sur lamise à disposition d’outils complémentaires, comme un moteur d’inférences.

3.3.6 DOE

Le dernier outil présenté ici est DOE pour Differential Ontology Editor32 (Bachimontet al., 2002; Troncy & Isaac, 2002). Cet outil n’a pas pour ambition de concurrencerles grands environnements existants, mais plutôt de fournir un débutd’implémentation à la méthodologie de structuration différentielle proposée par B.Bachimont (cf. § 2.2.2). A l’instar des autres éditeurs, il offre une représentationgraphique des arbres de concepts et des relations de l’ontologie et permet d’interagiravec les hiérarchies. L’outil assiste également la saisie des principes différentiels issusde la méthodologie en automatisant partiellement cette tâche. Le modèle dereprésentation de l’ontologie est finalement proche de celui du langage RDFS, à ceciprès qu’il autorise la modélisation de relations n-aires. Au niveau formel, l’éditeur estcapable de faire quelques inférences en vérifiant la consistance de l’ontologie(propagation de l’arité le long de la hiérarchie des relations et héritage des domainespar exemple).

30 Une version de démonstration est disponible sur le site d’Ontoprise, la société qui le développe encollaboration avec l’AIFB de Karlsruhe31 http://delicias.dia.fi.upm.es/webODE/32 L’outil est disponible gratuitement à http://opales.ina.fr/public/

Page 65: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

4 – Ontologies pour le Web sémantique

57

3.3.7 Des outils à parfaire

Tous ces outils sont capables de produire des ontologies dans les langagesDAML+OIL33 et RDFS34. Mais comme le montrent les expérimentations effectuéesdans le cadre des Workshops EON (Angele & Sure, 2002), les ontologies généréessont loin d’être interopérables malgré un langage commun. Le support de ces outilsvis-à-vis du nouveau langage OWL est, lui, très hétérogène : PROTÉGÉ, OILEd et DOEproduisent des ontologies OWL valides mais seul DOE est capable d’en importer. Enfin,et c’est l’objet de la prochaine section, ils n’ont pas toutes les fonctionnalités, de plusen plus nombreuses au fur et à mesure que les recherches se précisent, que réclame ledéveloppement distribué du Web sémantique.

3.4 COMPARAISON ET VERSIONS DES ONTOLOGIES

Nous avons vu précédemment les problèmes fondamentaux liés à la constructiond’ontologies réutilisables ou universelles (cf.. § 2.2.4). La conséquence de cettesituation est de solliciter des réflexions sur la façon de comparer et fusionner desontologies. En effet, même si on admet que les ontologies pour le Web sémantiquevont être partagées, au moins dans un premier temps, par des communautés d’intérêtsrestreintes, les ontologies déjà développées pour un même domaine sont multiples, parexemple dans le cas des voyages (cf. § 3.2.2) ou de la médecine. Plus, on peut trèsfacilement imaginer que les ontologies vont être développées dans des environnementdistribués et décentralisés qui vont requérir des fonctionnalités spécifiques (Klein &Noy, 2003).

Les travaux autour de la question de la comparaison/fusion visent donc à prendreen charge d’abord la tâche de comparaison de concepts au sein d’une ontologie :c’est, en effet, via cette comparaison que l’on pourra décider de la fusion.L’apparition d’environnements décentralisés connectés nous interrogent eux sur lagestion des versions des ontologies au sens large. Sur ces questions, un rapport duprojet ONTOWEB35 fait le point sur le fonctionnement et l’intégration d’un certainnombre d’outils et nous a servi de point d’entrée pour cette analyse (OntoWeb, 2002)mais en plus d’y renvoyer le lecteur nous voulons discuter les aspects sémantiques ettechniques importants de ces questions :

Comparaison des concepts dans la structure ontologique globale. Lacomparaison des ontologies pour partage ou fusion n’est possible que si leslangages de représentation sont identiques. Leur puissance d’expressionpermet alors des comparaisons logiques, sur les propriétés, etc. très fructueusesmais le point crucial reste le sens réel des concepts : 2 concepts A et B ,respectivement dans 2 ontologies O1 et O2 , qui semblent semblablescorrespondent-ils réellement au même concept ? Le nom du concept, son labeldans l’ontologie ne suffit pas, surtout pas, à répondre : en effet, ce n’est pas lelabel du concept qui fait sa signification dans une ontologie, c’est sa placedans l’arborescence (cf. § 2.2.2). Si ce label nous aide à intuiter lasignification du concept, il n’est porteur de rien vis-à-vis de la représentationet peut même laisser croire à des identités qui n’en sont pas (Bachimont,2000). Dans ce contexte, certains travaux comme ceux de Noy et Musen(2001) sont intéressants : ils partent de paires de concepts qui semblentproches (découverts de façon automatique ou proposés manuellement) etcalculent leur similarité « hors contexte » en étudiant les chemins qui relientles paires de concepts. Le « hors contexte » vient que les paires de conceptsétudiées (les ancres de la recherche) peuvent être éloignées. Ces réflexions

33 http://www.daml.org/language/34 http://www.w3.org/TR/rdf-schema/35 http://www.ontoweb.org

Page 66: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

58

sont implémentées dans Anchor-PROMPT et, à notre avis, prometteuses pourune comparaison sémantique des ontologies.

Gestion des versions. La gestion des versions est une tâche indispensable del’ingénierie ontologique au sein des environnements distribuées (cf. supra).La plupart des éditeurs d’ontologies (cf. § 3.3) ont une fonction de log quioffre une trace des changements effectués sur l’ontologie éditée mais elle estinsuffisante dans de tels environnements : en effet, il ne suffit pas d’avoir unesimple trace des changements effectués dans une ontologie, il faut pouvoirprendre en charge un certain nombre de fonctionnalités répondant auquestionnement suivant (Klein & Noy, 2003) :Mise à jour d’ontologies. Les évolutions d’une ontologie sont-elles

conceptuelles ou sont-elles des évolutions de la spécification, c’est-à-direde la théorie logique sous-jacente ? Il est clair que ces 2 caractéristiquespeuvent évoluer différemment et que la spécification (le formel) ne suffitpas à décrire une ontologie. Quel est alors le bon niveau de descriptiond’une ontologie en vue gérer ses évolutions (Klein et al., 2002) ?

Mise à jour d’ontologies distribuées. Si on adapte une ontologie distante à unusage local et que cette ontologie distante évolue, il faut pouvoir (sinécessaire) faire évoluer l’ontologie locale. À la suite de la questionprécédente, peut-on construire une grammaire des changements à prendreen compte ? Peut-on construire une ontologie des changements (Klein etal., 2002) ?

Vérification et validation d’une ontologie. Si plusieurs personnes ou équipesinterviennent pour faire évoluer des ontologies, il faut pouvoir valider oupas les changements et faire marche arrière si nécessaire. Cela pose desquestions du même type que précédemment.

Consistance. Si une ontologie évolue, quel est le statut de cette évolution,formellement parlant ? La théorie logique sous-jacente peut évoluer. Lesaxiomes valables dans l’ancienne version, sont-ils toujours valables dans lanouvelle ? Les données interprétées dans l’ancienne version sont-ellestoujours correctement interprétées dans la nouvelle ?

Ces questions sont abordées et obtiennent des propositions de réponses dans lesréférences citées ici et d’autres au sein de la communauté Web sémantique.

4 RECHERCHES FUTURES POUR LE WEBSÉMANTIQUE

4.1 VERS UNE MÉTHODOLOGIE ET DES OUTILS INTÉGRÉS

Les propositions méthodologiques faites dans la section 2.2.2 n’abordent pastoutes les conséquences logiques de l’engagement ontologique, pourtant nécessaire àtoute formalisation. Si l’on veut développer une méthodologie qui prenne en comptetoutes les étapes de la construction d’ontologie, il est alors nécessaire d’étudier lesliens qu’entretiennent la normalisation sémantique et l’engagement ontologique de N.Guarino36.

36 La question a été abordée dans (Bachimont, 2001) qui constate que la formalisation est unespécification formelle donc extensionnelle de l’ontologie ainsi définie et que le sens des concepts estalors dans les objets définis en extension. Ainsi, N. Guarino a abordé des problèmes analogues à lanormalisation sémantique, en proposant, au niveau formel (Guarino, 1999), une méthode à base demétapropriétés (identité, rigidité, anti-rigidité, dépendance) qui contraint l’organisation d’une ontologieformelle, en particulier la relation de subsomption, en fonction des propriétés des nœuds qui la

Page 67: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

4 – Ontologies pour le Web sémantique

59

Par ailleurs, il ne se dégage pas de consensus sur les méthodologies de constructiond’ontologies. Cela est dû en partie à la diversité des motivations de construction desontologies et à la complexité des domaines. Une ontologie d’indexation d’équipes derecherche comme exemplifiée dans le projet (KA)2 (Benjamins et al., 1998) estbeaucoup plus simple et appréhendable qu’une ontologie de la réanimationchirurgicale destinée à rendre des services terminologiques (Le Moigno et al., 2002).Ce sont pourtant deux facettes des problèmes d’indexation dans le contexte du Websémantique. La conséquence d’une telle disparité se retrouve au sein des nombreuxoutils, les éditeurs d’ontologies, développés. Ces outils ont besoin d’être utilisés dansde nombreux projets pour tester leur utilisabilité et réfléchir sur les fonctionnalitésnécessaires à l’édition d’ontologies du début à la fin du processus. Nous verrons, dansles cas les plus complexes, que d’autres solutions doivent être envisagées quel’élaboration et l’utilisation d’une « simple » ontologie (cf. § 4.3).

4.2 COMPARAISON ET FUSION DES ONTOLOGIES

Si les travaux sur les ontologies ont une dizaine d’années, ceux sur la fusion ou lagestion des versions sont évidemment encore plus récents (cf. § 3.4) et leur poursuiteest indispensable pour que les ontologies servent le Web sémantique : que ce soit dansla dimension syntaxique, où les travaux du Web sémantique sont bien avancés mêmes’ils soulèvent de nombreuses questions de représentation (cf. chap. 2), ou dans ladimension logique où l’utilisation d’une ontologie doit pouvoir être caractérisée etassurée durant l’évolution de celle-ci. Plus important encore, la dimension sémantiquedes ontologies doit être prise en compte dans les comparaisons/fusions, c’est-à-direque les ontologies doivent pouvoir être comparées pour la signification des conceptset pas seulement, même si c’est nécessaire, pour leur caractéristique logique. Cetteprise en compte est ainsi cruciale dans de nombreux points du Web sémantique, enparticulier, dans le contexte des systèmes de médiations centralisés (cf. chap. 5, § 4.1).Nous renvoyons le lecteur à ce dernier chapitre pour approfondir les nécessités autourdes ontologies en ce domaine.

4.3 CACHER LA COMPLEXITÉ

Un des aspects importants, en vue de l’adoption du Web sémantique, est la capacitéd’aider des utilisateurs non spécialistes à créer et à exploiter des ressourcesexploitables dans le cadre des infrastructures et des outils proposés par le Websémantique. En d’autres termes, comment cacher la complexité des technologies duWeb sémantique ?

Avant de répondre à cette dernière question, il est nécessaire de prendre conscienceque le niveau de conceptualisation des ontologies n’est pas toujours accessible auxutilisateurs, même spécialistes du domaine. Ainsi, les ontologies en médecine sontinaccessibles à d’autres que leurs créateurs : d’abord parce qu’elles représentent unniveau de conceptualisation utile pour la tâche qui est demandé au SBC mais inutile àl’expression des concepts médicaux dans la pratique médicale, ensuite parce qu’enmédecine comme dans d’autres domaines, l’expression des connaissances se fait enlangue naturelle et que cette expression est normée par des thesaurus développés etutilisés depuis de très nombreuses années (cf. § 2.2.3). Ainsi, l’accès aux ontologiespar des utilisateurs, mêmes professionnels, nécessite de gérer le lien entre les conceptsdes ontologies et les termes du langage naturel, que ce soit pour une simplecompréhension ou pour l’indexation et la construction de requêtes destinées à destâches de recherche d’information. Les solutions mises en œuvre à ce jour passent pardeux types de propositions :

composent. Cette convergence de vues peut être intéressante à exploiter dans la recherche d’uneméthodologie intégrée.

Page 68: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

60

– des méthodologies séparant explicitement les termes et les concepts d’undomaine et c’est ce qui est expérimenté en médecine dans des serveurs determinologie (Rector, 1998) ou dans d’autres domaines dans ce que leschercheurs appellent des thesaurus sémantiques (Roussey et al., 2002) ;

– des méthodologies s’écartant de la formalisation des ontologies et recherchantdes proximités conceptuelles dans les termes d’un domaine permettant d’enappréhender intuitivement la complexité (Bourigault & Lame, 2002) ;

Cette dernière approche interroge directement les chercheurs du Web sémantique :saurons-nous mettre en place des ressources formelles, des ontologies, pour le Websémantique ou devrons-nous en passer par des ressources moins formelles maisappréhendables par les utilisateurs ? Ces deux possibilités n’étant d’ailleurs pasexclusives.

RÉFÉRENCES

J. ANGELE & Y. SURE , Eds. (2002). First International Workshop Evaluation of Ontology-basedTools (EON’02) , volume (62) of CEUR-WS, Sigüenza, Espagne. http://CEUR-WS.org/Vol-62/.

ARPIREZ J., CORCHO O., FERNÁNDEZ-LÓPEZ M. & GÓMEZ-PÉREZ A. (2001). WebODE : aWorkbench for Ontological Engineering. In First international Conference on KnowledgeCapture (K-CAP’01), p. 6–13, Victoria, Canada: ACM.

AUSSENAC-GILLES N., BIEBOW B. & SZULMAN S. (2003). D’une méthode à un guide pratique demodélisation des connaissances à partir de textes. In Actes des 5es journées Terminologie etIntelligence Artificielle, p. 41–53, Strasbourg.

BACHIMONT B. (2000). Engagement sémantique et engagement ontologique : conception etréalisation d’ontologies en ingénierie des connaissances. In J. CHARLET, M. ZACKLAD, G.KASSEL & D. BOURIGAULT, Eds.,Ingénierie des connaissances : évolutions récentes etnouveaux défi , chapter 19. Paris: Eyrolles.

BACHIMONT B. (2001). Modélisation linguistique et modélisation logique des ontologies :l’apport de l’ontologie formelle. In J. CHARLET, Ed., Actes des 5es Journées Ingénierie desConnaissances, p. 349–68, Grenoble, France.

BACHIMONT B., ISAAC A. & TRONCY R. (2002). Semantic Commitment for DesigningOntologies: A Proposal. In A. GOMEZ-PÉREZ & V. BENJAMINS, Eds., 13th InternationalConference on Knowledge Engineering and Knowledge Management (EKAW’02) , volume(2473) of Lecture Notes in Artificial Intelligence, p. 114–121, Sigüenza, Espagne: SpringerVerlag.

BECHHOFER S., HORROCKS I., GOBLE C. & STEVENS R. (2001). OilEd: a Reason-able OntologyEditor for the Semantic Web. In Joint German/Austrian conference on Artificial Intelligence(KI’01), volume (2174) of Lecture Notes in Artificial Intelligence, p. 396–408, Vienne,Autriche: Springer Verlag.

BENJAMINS V. R ., FENSEL D. P. A. (1998). Knowledge management through ontologies. InProceedings of the 2nd Conf. On Practical Aspects of Knowledge Management, Basel,Switzerland.

BOURIGAULT D. (2002). Analyse distributionnelle étendue. In Actes de la 9e conférence sur letraitement automatique des langues, Nancy.

BOURIGAULT D., AUSSENAC-GILLES N. & CHARLET J. (2003). Construction de ressourcesterminologiques ou ontologiques à partir de textes : un cadre unificateur pour trois études decas. Revue d’Intelligence Artificielle . À paraître.

BOURIGAULT D. & FABRE C. (2000). Approche linguistique pour l’analyse syntaxique de corpus.Cahiers de Grammaires, (25), 131–51. numéro spécial « sémantique et corpus ».

Page 69: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

4 – Ontologies pour le Web sémantique

61

BOURIGAULT D. & LAME G. (2002). Analyse distributionnelle et structuration de terminologie.application à la construction d’une ontologie documentaire du droit. Traitement automatiquedes langues, 43 (1).

BRACHMAN R. (1983). What IS-A Is and Isn’t: An analysis of taxonomic links in semanticnetworks. IEEE Computer, 16(10), 30–6.

BRACHMAN R. J., MCGUINESS D. L., PATEL-SCHNEIDER P. F., RESNIK L. A. & BORGIDA A.(1991). Living with Classic: When and how to use a KL-ONE-like language. In J. F. SOWA,Ed., Principles of Semantic Networks, chapter 14, p. 401–456. San Mateo, Ca. MorganKaufmann Publishers.

CHARLET J. (2002). L’Ingénierie des connaissances : développements, résultats et perspectivespour la gestion des connaissances médicales. Habilitation à diriger des recherches, UniversitéParis 6.

CHARLET J., BACHIMONT B., BOUAUD J. & ZWEIGENBAUM P. (1996). Ontologie etréutilisabilité : expérience et discussion. In N. AUSSENAC-GILLES, P. LAUBLET & C.REYNAUD, Eds., Acquisition et ingénierie des connaissances : tendances actuelles, chapter 4,p. 69–87. Cepaduès-éditions.

FARQUAR A., FIKES R., PRATT W. & RICE J. (1995). Collaborative Ontology Construction forInformation Integration. Rapport de recherche KSL-95-63, Knowledge Systems Laboratory,Department of Computer Science.

FAURE D. & NEDELLEC C. (1999). Knowledge acquisition of predicate argument structures fromtechnical texts using machine learning: The system ASIUM. In Proc. of the 11th EuropeanWorkshop, Knowledge Acquisition, Modelling and Management, number 1937 in LNAI, p.329–334, Juan-les-Pins, France: Springer-Verlag.

FERNÀNDEZ M., GÓMEZ-PÉREZ A., PAZOS J. & PAZOS A. (1999). Bulding a chemical ontologyusing methontology and the ontology design environment. IEEE Intelligent System and theirApplications, 14 (1), 37–45.

GANDON F. (2002). Ontology Engineering : a Survey and a Return on Experience. Rapportinterne 4396, INRIA. 181 p., ISSN 0249-6399.

GIRALDO G. & REYNAUD C. (2002). Construction semi-automatique d’ontologies à partir deDTDs relatives à un même domaine. In B. BACHIMONT, Ed., Actes des 6es Journées Ingénieriedes Connaissances, p. 53–61, Rouen, France.

GÓMEZ-PÉREZ A. (2000). Développements récents en matière de conception, de maintenance etd’utilisation d’ontologies. Terminologies Nouvelles, (19), 9–20. Traduit de l’anglais par S.Descotte.

GRUBER T. R. (1993). A translation approach to portable ontology specifications. KnowledgeAcquisition, 5 , 199–220.

GUARINO N. (1997). Undestanding, building, and using ontologies. International Journal ofHumanComputer Studies, 45 (2/3), 293–310.

GUARINO N. (1999). The role of identity conditions in ontology design. In V. BENJAMINS, B.CHANDRASEKARAN, A. GOMEZ-PEREZ, N. GUARINO & M. USCHOLD, Eds., Proc. of theIJCA’99 Workshop on Ontologies and Problem-Solving Methods, p. 2/1–2/7, Sweden.

GUARINO N. & GIARETTA P. (1995). Ontologies and knowledge bases. In Towards Very LargeKnowledge Bases. Amsterdam: IOS Press.

GUARINO N. & WELTY C. (2000). A Formal Ontology of Properties. In R. DIENG & O. CORBY,Eds., 12th International Conference on Knowledge Engineering and Knowledge Management(EKAW’00) , volume (1937) of Lecture Notes in Computer Science, p. 97-112, Juan-les-Pins,France: Springer Verlag.

KLEIN M., KIRYAKOV A., OGNYANOFF D. & FENSEL D. (2002). Finding and specifyingrelations between ontology versions. In Proceedings of the workshop on Ontologies andSemantic Interoperability at the 15th ECAI , Lyon, France. Accessible àhttp://sunsite.informatik.rwth-aachen.de/Publications/CEUR-WS/Vol-64/.

Page 70: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

62

KLEIN M. & NOY N. F. (2003). A component-based framework for ontology evolution. InProceedings of the workshop on Ontologies and Distributed Systems at the 9th IJCAI,Acapulco, Mexico.

LE MOIGNO S., CHARLET J., BOURIGAULT D. & JAULENT M.-C. (2002). Construction d’uneontologie à partir de corpus : expérimentation et validation dans le domaine de la réanimationchirurgicale. In B. BACHIMONT, Ed., Actes des 6es Journées Ingénierie des Connaissances, p.229–38, Rouen, France.

MAEDCHE A.& STAAB S. (2000). Mining ontologies from text. In R. DIENG & O.CORBY, Eds.,Proc. of the 12th European Workshop, Knowledge Engineering and Knowledge management:methods, models and Tools.

NELSON S. J., JOHNSTON D. & HUMPHREYS B. L. (2001). Relationships in medical subjectheadings. In C. A. BEAN & R.GREEN, Eds., Relationships in the organization of knowledge,New York: Kluwer Academic Publishers.

NEWELL A. (1982). The knowledge level. Artificial Intelligence , 18, 87–127.

NOY N., FERGERSON R. & MUSEN M. (2000). The knowledge model of Protégé2000 :Combining interoperability and flexibility. In R. D IENG & O.CORBY, Eds., 12th InternationalConference on Knowledge Engineering and Knowledge Management (EKAW’00) , volume(1937) of Lecture Notes in Computer Science, p. 17–32, Juan-les-Pins, France: SpringerVerlag.

NOY N. F. & MUSEN M. A. (2001). Using non-local context for semantic matching. InProceedings of the workshop on Ontologies and Information Sharing at the 17th IJCAI, Seattle.

ONTOWEB C. (2002). Ontology-based information exchange for knowledge management andelectronic commerce. Deliverable 1.3, IST Projetc IST-2000-29243 OntoWeb.

REBEYROLLES J. (2000). Repérage automatique de structures linguistiques en corpus : le cas desénoncés définitoires. Cahiers de Grammaires, (25), 153–74. numéro spécial «sémantique etcorpus ».

RECTOR A. L. (1998). Thesauri and formal classifications: Terminologies for people andmachines. Methods of Information in Medicine, 37(4–5), 501–509.

ROUSSEY C., CALABRETTO S. & PINON J.-M. (2002). Le thésaurus sémantique : contribution àl’ingénierie des connaissances documentaires. In B. BACHIMONT, Ed., Actes des 6es JournéesIngénierie des Connaissances, p. 209–20, Rouen, France.

SLODZIAN M. (1999). WordNet et EuroWordNet : questions impertinentes sur leur pertinencelinguistique. Sémiotiques, (17), 51–70. Numéro spécial Dépasser les sens iniques dans l’accèsautomatisé aux textes, coordonné par B. Habert.

SLODZIAN M. (2000). Wordnet: what about its linguistic relevancy? In R. DIENG, Ed., Proc. ofthe EKAW conference, Juan-les-Pins, France.

SURE Y., ERDMANN M., ANGELE J., STAAB S., STUDER R. & WENKE D. (2002). OntoEdit:Collaborative Ontology Engineering for the Semantic Web. In I. HORROCKS & J. HENDLER,Eds., First International Semantic Web Conference (ISWC’02), volume (2342) of LectureNotes in Computer Science,p. 221–235, Chia, Sardaigne, Italie: Springer Verlag.

TRONCY R. (2003). Le raisonnement dans les descriptions documentaires : l’apport de lareprésentation des connaissances. In R. DIENG-KUNTZ, Ed., Actes des 7es Journées Ingénieriedes Connaissances, Laval, France: Presses universitaires de Grenoble.

TRONCY R. & ISAAC A. (2002). DOE : une mise en œuvre d’une méthode de structurationdifférentielle pour les ontologies. In 13es Journées Francophones d’Ingénierie desConnaissances (IC’02) , p. 63–74, Rouen, France.

USCHOLD M. & GRUNINGER M. (1996). Ontologies: Principles, methods and applications.Knowledge Engineering Review.

VA N HEIJST G., SCHREIBER A. T. & WIELINGA B. J. (1997). Using explicit ontologies in KBSdevelopment. International Journal of Human-Computer Studies, 45(2/3), 183–292.

Page 71: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

4 – Ontologies pour le Web sémantique

63

WEIS J.-C. & CHARLET J. (2003). Construction d’ontologie à partir de textes : application à unréseau de périnatalité. In R. DIENG-K UNTZ, Ed., Actes des 7es Journées Ingénierie desConnaissances, Laval, France: Presses universitaires de Grenoble.

WOODS W. A. (1991). Understanding subsumption and taxonomy: A framework for progress. InJ . F. SOWA,Ed.,Principles of Semantic Networks, chapter 1, p. 45–94. San Mateo, Ca:Morgan Kaufmann Publishers.

ZWEIGENBAUM P., BACHIMONT B., BOUAUD J., CHARLET J. & BOISVIEUX J.-F. (1995). Issuesin the structuring and acquisition of an ontology for medical language understanding. Methodsof Information in Medicine, 34(1/2).

Page 72: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation
Page 73: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

65

5 – L’intégration de sources de donnéesMohand-Saïd Hacid1, Chantal Reynaud2

1 LIRIS FRE 2672 CNRSUniversité Claude Bernard Lyon 1

[email protected]

2 Université Paris X LRI (Université Paris-Sud & CNRS), UR INRIA Futurs *

(*) Gemo, Pôle Commun de Recherche en Informatique du plateau de Saclay,CNRS, École Polytechnique, INRIA, Université Paris-Sud.

[email protected]

Résumé

La diversité des sources d’information distribuées et leur hétérogénéité est une desprincipales difficultés rencontrées par les utilisateurs du Web aujourd’hui.L’infrastructure du Web sémantique doit permettre leur intégration donnant ainsil’impression à l’utilisateur qu’il utilise un système homogène. Les solutions àl’intégration d’information proposées dans le cadre du Web sémantique tireront partides recherches concernant les approches médiateurs et les entrepôts de données. Lespremières réalisations sont en cours. Un des premiers verrous scientifiques à leverconcerne le passage à l’échelle du Web. Parmi les travaux futurs, dont ledéveloppement doit être favorisé, figurent la mise en œuvre de systèmes de médiationdécentralisés, l’étude des problèmes liés à l’intégration de données multimédias,l’intégration temps réel et également la prise en compte de la complexité croissantedes données à intégrer, signe d’une évolution vers une intégration de connaissances.

Mots-clés : intégration d’information, médiateurs, entrepôts de données.

Page 74: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

66

1 PRÉSENTATION ET IMPORTANCE DE LAPROBLÉMATIQUE DU POINT DE VUE DES USAGES

La diversité des sources d’information distribuées et leur hétérogénéité est une desprincipales difficultés rencontrées par les utilisateurs du Web aujourd’hui. Cettehétérogénéité peut provenir du format ou de la structure des sources (sourcesstructurées : bases de données relationnelles, sources semi-structurées : documentsXML, ou non structurées : textes), du mode d’accès et de requête ou del’hétérogénéité sémantique : entre les schémas conceptuels ou ontologies implicitesou explicites sous-jacentes. Il est en effet illusoire de penser qu’une même ontologie“ universelle ” sera largement utilisée. Par ailleurs, les termes sont parfois exprimésdans des langues différentes.

La prise en compte de ces problèmes est une des clés de la mise en placed’applications Web sémantique. Elle s’avèrera encore plus fondamentale si l’onadhère à la vision, à plus long terme, d’agents logiciels capables de raisonner enaccédant à des ressources variées. Dans ce contexte, le Web sémantique doit d’abordêtre une infrastructure dans laquelle l’intégration des informations d’une variété desources peut être réalisée et facilitée. Le Web sémantique devrait donc tirer largementbénéfice des recherches déjà effectuées en intégration d’information, concernant enparticulier la réalisation de systèmes de médiation et la réalisation d’entrepôts dedonnées et des résultats déjà obtenus.

L’aide apportée par les systèmes de médiation peut recouvrir différentes formes :découvrir les sources pertinentes étant donnée une requête posée, puis aider à accéderà ces sources pertinentes, évitant à l’utilisateur d’interroger lui-même chacune d’ellesselon leurs propres modalités et leur propre vocabulaire, enfin combinerautomatiquement les réponses partielles obtenues de plusieurs sources de façon àdélivrer une réponse globale. De tels systèmes de médiation offrent à l’utilisateur unevue uniforme et centralisée des données distribuées, cette vue pouvant aussicorrespondre à une vision plus abstraite, condensée, qualitative des données et donc,plus signifiante pour l’utilisateur. Ces systèmes de médiation sont, par ailleurs, trèsutiles, en présence de données hétérogènes, car ils donnent l’impression d’utiliser unsystème homogène. Parmi les différentes grandes catégories d’applications de cessystèmes de médiation, on peut citer les applications de recherche d’information,celles d’aide à la décision en ligne (avec entre autres l’utilisation d’entrepôts dedonnées) et celles, de manière plus générale, de gestion de connaissances au senslarge.

A titre d’illustration très simple du premier type d’applications, supposons qu’unutilisateur pose la requête suivante : quels sont les films de Woody Allen à l’affiche àParis ce soir ? où ? leurs critiques ? Supposons l’existence de deux sourcesd’information. La première, Internet Movie Data Base, utilise un système de gestionde bases de données relationnel et contient une liste de films, précisant pour chacunle titre, les acteurs et le cinéaste. La seconde, Pariscope, qui peut utiliser des fichiersXML, contient, par film, les salles où le film peut être vu et, pour chaque salle, le nomde la salle et l’adresse. La réponse à la requête devra être construite en interrogeantchacune d’elles et en combinant les résultats de l’interrogation de façon à offrir àl’utilisateur une réponse globale.

Plus récemment, de nouvelles applications ont vu le jour dans les entreprises :eCRM, Business Intelligence, eERP , eKM, etc. Ces applications, que l’on désigneparfois sous le vocable de WebHouse (Kimball & Merz, 2000) si elles sont menéesdans le contexte du Web, s’appuyent sur la construction d’entrepôts de données sur leWeb. Elles se trouvent également confrontées au problème de la médiationpuisqu’elles mettent en œuvre un processus d’acquisition de données, souvent entemps réel, provenant de sources multiples, distribuées et hétérogènes. La conception

Page 75: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

5 – L’Intégration de sources de données

67

d’outils de médiation intelligents entre les utilisateurs et les sources d’informations,accessibles via le Web ou stockées localement, est nécessaire. Ils aident l’utilisateur àspécifier facilement les données qu’il recherche, celui-ci ayant l’impression d’utiliserun système unique et homogène.

L’approche médiateur a fait l’objet de nombreux travaux. Les résultats obtenus àce jour sont intéressants mais ne peuvent être mis en œuvre en l’état à l’échelle duWeb. Dans le cadre du Web sémantique, l’intégration de sources d’information devras’appuyer sur de multiples systèmes de médiation, ces systèmes participant de manièredistribuée et collective au traitement des requêtes utilisateurs. Les connexions entresystèmes de médiation donneront au Web toute sa puissance, autorisant la recherchede données dans des sources non directement connectées aux sources du serveurinterrogé.

2 MÉTHODES, TECHNIQUES ET OUTILS EXISTANTS SURLESQUELS ON PEUT S’APPUYER

Les solutions à l’intégration d’information proposées dans le cadre du Websémantique tireront parti des recherches déjà effectuées dans le domaine. Nousprésentons ci-dessous les deux approches d’intégration existantes : les approchesmédiateurs et les approches entrepôts de données.

2.1 L’APPROCHE MÉDIATEUR

2.1.1 Présentation générale

L’approche médiateur (Wiederhold, 1992) consiste à définir une interface entrel’agent (humain ou logiciel) qui pose une requête et l’ensemble des sourcesaccessibles via le Web potentiellement pertinentes pour répondre. L’objectif est dedonner l’impression d’interroger un système centralisé et homogène alors que lessources interrogées sont réparties, autonomes et hétérogènes.

Un médiateur (Cf. Fig. 1) comprend un schéma global, ou ontologie, dont le rôleest central. C’est un modèle du domaine d’application du système. L’ontologiefournit un vocabulaire structuré servant de support à l’expression des requêtes. Parailleurs, elle établit une connexion entre les différentes sources accessibles. En effet,dans cette approche, l’intégration d’information est fondée sur l’exploitation de vuesabstraites décrivant de façon homogène et uniforme le contenu des sourcesd’information dans les termes de l’ontologie. Les sources d’information pertinentes,pour répondre à une requête, sont calculées par réécriture de la requête en termes deces vues. Le problème consiste à trouver une requête qui, selon le choix de conceptiondu médiateur, est équivalente ou implique logiquement, la requête de l’utilisateur maisn’utilise que des vues. Les réponses à la requête posée sont ensuite obtenues enévaluant les réécritures de cette requête sur les extensions des vues.

L’approche médiateur présente l’intérêt de pouvoir construire un systèmed’interrogation de sources de données sans toucher aux données qui restent stockéesdans leurs sources d’origine. Ainsi, le médiateur ne peut pas évaluer directement lesrequêtes qui lui sont posées car il ne contient pas de données, ces dernières étantstockées de façon distribuée dans des sources indépendantes. L’interrogation effectivedes sources se fait via des adaptateurs, appelés des wrappers en anglais, qui traduisentles requêtes réécrites en termes de vues dans le langage de requêtes spécifique acceptépar chaque source.

Page 76: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

68

F I G . 1 - Architecture d’un système médiateur

2.1.2 Panorama des médiateurs existants

Les différents systèmes d’intégration d’informations à base de médiateurs sedistinguent par : d’une part, la façon dont est établie la correspondance entre leschéma global et les schémas des sources de données à intégrer, d’autre part leslangages utilisés pour modéliser le schéma global, les schémas des sources de donnéesà intégrer et les requêtes des utilisateurs.

Concernant le premier point, on distingue l’approche Global As Views (GAV) del’approche Local As Views (LAV). L’approche GAV, qui provient du monde desbases de données fédérées, consiste à définir le schéma global en fonction desschémas des sources de données à intégrer. Les systèmes suivant cette approche sont :HERMES (Subrahmanian et al., 1995), TSIMMIS (Chawathe et al., 1994) (Ullman,1997), MOMIS (Beneventano et al., 2000). L’approche LAV est l’approche duale.Elle est adoptée dans les systèmes suivants : Razor (Friedman & Weld , 1997), InternetSoftbot (Etzioni & Weld, 1994), Infomaster (Genesereth et al., 1997), InformationManifold (Kirk et al., 1995) (Levy et al., 1996), SIMS (Arens & Knoblock, 1993),OBSERVER (Mena et al., 1996), PICSEL (Rousset et al., 2002). Les avantages etinconvénients de ces deux approches sont inverses (Rahm et al., 2001). Selonl’approche LAV, il est très facile d’ajouter une source d’information, cela n’a aucuneffet sur le schéma global. En revanche, la construction des réponses à des requêtes estcomplexe, contrairement à la construction de réponses dans un système adoptant uneapproche GAV qui consiste simplement à remplacer les prédicats du schéma global dela requête par leur définition.

Requête de l’utilisateur : Film (Woody Allen, Adresse, Date)

Domaine d’application 1

Schémaglobal 1

Vues de lasource 11

Vues de lasource 12

Vues de lasource 1k

Domaine d’applicationn

Schéma

global n

Vues de lasource n1

Vues de lasource n2

Vues de lasource nl

Moteurde

requêtes

Requêtes

et réponses

Réécritureset réponses

Adaptateur

11Adaptateur

12Adaptateur

1k

Adaptateur

n1Adaptateur

n2Adaptateur

nl

Base de données Fichiers HTML

SchémaDonnées

SchémaDonnées

SchémaDonnées

SchémaDonnées

SchémaDonnées

SchémaDonnées

Fichiers XML Base de données Fichiers HTML Fichiers XML

Page 77: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

5 – L’Intégration de sources de données

69

Les systèmes existants se différencient également par le langage qu’ils utilisentpour exprimer le schéma global. On distingue les systèmes fondés sur un schémaglobal à base de règles (Razor, Internet Softbot, Infomaster, Information Manifold,HERMES), des systèmes fondés sur un schéma à base de classes (langage orienté objet(TSIMMIS)), logique de description (SIMS, OBSERVER, MOMIS), ou encore dessystèmes combinant le pouvoir d’expression d’un formalisme à base de règles etd’un formalisme à base de classes (PICSEL). Enfin, plus récemment, sont apparus desmédiateurs au dessus de données semi-structurées ayant le format de documents XML(C-Web, Xyleme (Xyleme, 2001)). Ces systèmes sont fondés sur un schéma global àbase d’arbres. Ils relèvent à la fois de l’approche GAV et LAV, la correspondanceentre le vocabulaire du médiateur et celui des sources étant exprimée par de simplesmappings de chemins.

2.1.3 Problèmes étudiés

Les travaux réalisés jusqu’alors dans le domaine des systèmes médiateurs se situentdans le contexte d’une médiation centralisée.

Dans ce cadre, des études ont porté sur les langages pour modéliser le schémaglobal, pour représenter les vues sur les sources à intégrer et pour exprimer lesrequêtes provenant des utilisateurs humains ou d’entités informatiques (Goasdoué etal., 2000).

Des travaux ont porté sur la conception et la mise en œuvre d’algorithmes deréécriture de requêtes en termes de vues sur les sources de données pertinentes, celles-ci pouvant être connectées directement ou indirectement aux sources du serveurinterrogé. Le problème à ce niveau peut consister à générer des expressions de calculpermettant de définir tous les objets du niveau global à partir des sources existantes.Le calcul de ces expressions nécessite la connaissance de l’ensemble des sources utilesà sa dérivation.

Enfin, plus récemment, certains travaux portent sur la conception d’interfacesintelligentes assistant l’utilisateur dans la formulation de requêtes, l’aidant à affinerune requête en cas d’absence de réponses ou de réponses beaucoup trop nombreuses(Bidault et al. 2000).

L’idée de médiation entre sources de données utilisant des relations sémantiqueslocales n’est par ailleurs pas nouvelle. Ce problème a été également étudié dans lecadre des bases de données fédérées, consistant à étudier les mises en correspondanceentre relations stockées. Dans le contexte du Web, toutefois, les techniques de bases dedonnées fédérées ne sont pas réutilisables car le problème est étudié à plus grandeéchelle et les techniques proposées ne sont pas suffisamment flexibles. Il doit être bienplus facile de faire des ajouts ou des retraits de données et donc des mises encorrespondance entre relations. Les systèmes accessibles via le Web sont par ailleursparticuliers dans la mesure où ils peuvent jouer des rôles multiples. Il peut s’agir desources de données et/ou de systèmes intégrant des services.

2.2 L’APPROCHE ENTREPÔT DE DONNÉES

Un Data Warehouse répond aux problèmes de données surabondantes et localiséessur de multiples systèmes hétérogènes, c’est une architecture capable de servir defondation aux applications décisionnelles. Pour être exploitables, toutes les donnéesprovenant des systèmes distribués doivent être organisées, coordonnées, intégrées etenfin stockées pour donner à l’utilisateur une vue globale des informations.

2.2.1 Les étapes d’intégration

Nous distinguons deux niveaux dans la construction des entrepôts de données. Lepremier niveau correspond à la construction des sources de données opérationnelles,

Page 78: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

70

et de l’entrepôt de données global. Le second niveau englobe tous les entrepôts dedonnées locaux. La raison de cette distinction est, qu’à chaque niveau, sont associéesdifférentes étapes de traitement et différentes difficultés techniques.

Au premier niveau, le processus de construction est décomposé en quatre étapesprincipales, qui sont : (1) l’extraction des données des sources de donnéesopérationnelles, (2) la transformation des données aux niveaux structurel etsémantique, (3) l’intégration des données, et (4) le stockage des données intégréesdans le système cible. La figure 2 résume l’enchaînement de ces étapes de traitement.

F I G . 2 - Etapes de traitement du premier niveau de construction d’un entrepôt de données

Notez cependant que cette décomposition est seulement logique. L’ étaped’extraction et une partie de l’étape de transformation peuvent être groupées dans lemême composant logiciel, tel qu’un « wrapper » ou un outil de migration de données.L’étape d’intégration est souvent couplée avec des possibilités de transformation dedonnées riches dans un même composant logiciel, qui, habituellement, réalise lechargement dans l’entrepôt de données. Toutes les étapes de traitement peuvent aussiêtre groupées dans un même logiciel, comme par exemple un système multibase.Quand les étapes d’extraction et d’intégration sont séparées, les données nécessitentd’être stockées entre les deux. Ceci peut être fait en utilisant un média par source ouun média pour toutes les sources. Une vue opérationnelle typique de ces composantsest donnée par la figure 3. Les composants logiciels sont représentés par desrectangles. Les ellipses désignent des stockages intermédiaires des résultats de l’étaped’extraction/transformation. Toutes les données qui sont en entrée du composantintégration utilisent le même modèle de représentation de données. Finalement, un« wrapper » est associé à chaque source, fournissant ainsi une interface API à lasource.

Au second niveau, le processus de construction comporte trois étapes distinctes, quisont : (1) l’extraction de données à partir d’une base de données (entrepôt dedonnées local ou global), (2) le calcul des données dérivées pour l’entrepôt dedonnées local cible, et (3) le stockage des résultats dans l’entrepôt de données local.L’étape d’extraction est un cas particulier de celle du premier niveau car les donnéesde l’entrepôt sont stockées dans une base de données. A l’opposé, dans le premierniveau, l’extraction peut concerner des sources de données arbitraires, comme desfichiers par exemple. Le calcul des données dérivées est assez spécifique car il peutimpliquer des requêtes complexes avec agrégats.

Chargement

IntégrationTransformation

ExtractionSources DW

Page 79: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

5 – L’Intégration de sources de données

71

F I G . 3 - Vue opérationnelle des composants utilisés pour la construction d’entrepôts de données

2.2.2 Les types d’intégration

Le type d’intégration réalisé dans la conception d’un entrepôt de données est celuique l’on réalise dans le domaine de l’intégration d’information, qui a été explorédans différents domaines comme :

- les bases de données,- les systèmes d’information coopératifs,- les systèmes d’information globaux,- la représentation des connaissances.

Une première classification des différentes approches repose sur le contexted’intégration, et par conséquent, le type des entrées/sorties du processus d’intégration,et le but du processus lui-même. Nous distinguons l’intégration de schémas,l’intégration de données virtuelle, et l’intégration de données matérialisée.

- Intégration de schémas : Dans ce cas, l’entrée de l’intégration est un ensemblede schémas sources, et la sortie est un schéma de données correspondant à lareprésentation intensionnelle réconciliée de tous les schémas en entrée.L’entrée comporte également la spécification de la façon d’associer lesschémas des données sources à des parties du schéma résultant (cible).

- Intégration de données virtuelle (médiateurs) : L’entrée est un ensemble dedonnées sources, et la sortie est une spécification décrivant la façon de fournirun accès global et unifié aux sources dans le but de satisfaire certains besoinsen information, sans interférer avec l’autonomie des sources.

- Intégration de données matérialisée : Comme dans le cas précédent, l’entréeest un ensemble de données sources, mais ici la sortie est un ensemble dedonnées représentant une vue réconciliée des sources, à la fois au niveauintensionnel et au niveau extensionnel.

3 TRAVAUX ET RÉSULTATS EXISTANTS DU WEBSÉMANTIQUE

Face à l’ampleur du nombre de sources d’informations accessibles via le Web, lepassage à l’échelle ne représente pas simplement un saut technologique. Il nécessiteun véritable travail de recherche pour s’attaquer de façon fondamentale à certainsverrous scientifiques qui sont des obstacles importants à la mise en œuvre d’uneapproche médiateur à l’échelle du Web. Des travaux relatifs à certains de ces verrousscientifiques ont déjà débuté.

Un des problèmes abordés concerne la construction d’ontologies comme supportpour l’interrogation de données pré-existantes pouvant être nombreuses,sémantiquement hétérogènes et réparties dans des sources multiples. La construction

Source

Source

Wrapper

Extraction/Transformation

Extraction/Transformation

Intégration/Transformation/

Chargement

DW

Page 80: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

72

d’ontologies est centrale dans le développement de systèmes médiateurs. Laconstruction manuelle d’une ontologie, même assistée par des outils conviviaux, estun travail de modélisation long et difficile. Actuellement des travaux mettant enoeuvre différentes approches permettant d’automatiser la construction d’ontologiespour des systèmes médiateurs sont en cours de développement. Il s’agira ensuited’exploiter les ontologies ainsi construites, qui factorisent et abstraient un ensembleimportant de sources d’informations, pour répondre aux requêtes des utilisateurs defaçon efficace et coopérative. De telles approches ne sont possibles que si on se libèrede l’hétérogénéité des formats des sources d’information considérées.

Dans le projet PICSEL 2 au Laboratoire de Recherche en Informatique de Paris-Sud, c’est le problème de l’intégration d’un grand nombre de sources de donnéesayant le format de documents XML qui est étudié. Un premier prototype, OntoMedia,a été développé pour extraire des composants d’une ontologie à base de classes àpartir de DTD spécifiques à un domaine d’application donné (Giraldo & Reynaud,2002). Une expérimentation réalisée à partir de DTD élaborés par un organisme destandardisation de transactions commerciales laisse penser que l’approche peutpermettre la construction de systèmes médiateurs plus « ouverts ». Ces dernierspourraient être capables de regrouper a priori tous les systèmes dont l’interface estconforme aux standards ayant permis la construction de l’ontologie mais qui, aumoment de la construction de cette ontologie, ne sont pas forcément identifiés. Unetelle ouverture est intéressante dans une optique Web sémantique même s’il ne s’agitpas d’une approche complètement générale, s’appliquant à toutes les ressourcesidentifiables via le Web, quelle qu’elles soient.

D’autres travaux portent sur la conception d’outils de « data mining » pourregrouper automatiquement un vaste ensemble de documents similaires (Termier etal., 2002) L’objectif est ensuite de structurer les regroupements, de les caractériser pardes descripteurs pertinents, puis de fusionner ces descripteurs, pouvant être vuscomme des parties d’ontologies, de façon à obtenir une ontologie intégrée.

Un second verrou scientifique est la conception d’architectures de médiationdécentralisées et facilement extensibles de façon à ce qu’un utilisateur puisse à toutmoment ajouter de nouvelles données dans une source, modifier le schéma locald’une source ou les mises en correspondance entre schémas locaux, ceci quelque soitla source et son domaine d’application. Ce sont ces architectures qui permettrontréellement le passage à l’échelle du Web. L’objectif est d’éviter la conception d’unschéma global unique, exigeant un gros travail de conception, difficilementextensible.

Des travaux réalisés dans le cadre des systèmes de gestion de données pair-à-pair(PDMS - Peer Data Management System) ont débuté dans cette direction àl’Université de Washington à Seattle aux Etats-Unis (Halevy et al., 2003). Ilss’appuient sur les travaux concernant les architectures distribuées pair-à-pair maisvont au-delà, ces architectures ne prenant absolument pas en compte la sémantiquedes données. Les premières réalisations portent sur la médiation de schémas dans lessystèmes de données pair-à-pair, plus particulièrement sur l’étude et la conceptiond’un langage suffisamment flexible pour être utilisé dans le cadre d’une médiationdécentralisée. Ce langage est une extension des formalismes d’intégration de donnéesconnus de façon à les rendre utilisables dans le cadre d’une architecture distribuée.L’objectif est d’avoir un langage qui reste très expressif mais beaucoup plus flexible.Le changement de contexte soulève deux problèmes majeurs. Le langage utilisable ausein d’une architecture distribuée doit, d’une part, permettre d’établir des mises encorrespondance entre des schémas d’un système et celui de ses pairs, chaque systèmeétant soit une source de données, soit un médiateur. Il ne s’agit plus d’établir desrelations entre d’un côté, un médiateur, de l’autre côté, un ensemble de sources dedonnées. D’autre part, le langage doit permettre de définir localement des relationssémantiques entre les schémas locaux de quelques systèmes et également de répondre

Page 81: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

5 – L’Intégration de sources de données

73

globalement aux requêtes utilisateurs en exploitant le réseau des systèmes reliéssémantiquement. Là encore, on se différencie de l’approche médiation centraliséefondée sur une architecture à deux niveaux pour laquelle les algorithmes et lacomplexité du problème de la reformulation des requêtes ont fait l’objet denombreuses études.

Enfin, le troisième point que des travaux commencent à aborder concerne la miseen correspondance entre ontologies. Doan, Domingos et Halevy ont travaillé sur unproblème similaire en intégration d’information selon une approche médiateur. Lesystème GLUE (Doan et al., 2002) qu’ils proposent a été conçu à partir du systèmeLSD (Doan et al., 2001) dont l’objectif était d’identifier, dans un contexte demédiation centralisée, des mises en correspondance entre un schéma global et leschéma (DTD) de sources d’information XML. Le système GLUE est appliqué aucontexte du Web sémantique. Il permet d’assister le processus de mise encorrespondance entre les taxinomies de deux ontologies en proposant d’utiliserplusieurs techniques d’apprentissage automatique, chacune exploitant des typesd’information différents : les termes, leur format, leur fréquence, leur position, lescaractéristiques des distributions de valeurs. Un méta-système combine l’ensemble desrésultats obtenus. L’approche ne porte que sur des mises en correspondance de type1-1. Le problème est posé en ces termes : étant donné un concept d’une taxinomie,quel est le concept le plus similaire dans la taxinomie d’une autre ontologie ?

4 RECHERCHES FUTURES POUR LE WEB SÉMANTIQUE

4.1 VERS DES SYSTÈMES DE MÉDIATION DÉCENTRALISÉS

L’intégration de sources d’information hétérogènes dans le cadre du Websémantique s’appuiera nécessairement sur de multiples systèmes de médiation.Certains systèmes pourront suivre une approche centralisée. D’autres suivront uneapproche décentralisée consistant à considérer une coalition de serveursd’information, chaque serveur jouant indifféremment le rôle de serveurs de donnéesou de médiateurs avec ses pairs, et participant de manière distribuée et collective autraitement des requêtes des utilisateurs. Une telle architecture sera plus adaptée grâce àsa flexibilité. Dans ce contexte de médiation décentralisée apparaissent de nouveauxchallenges.

Il est important de concevoir une nouvelle catégorie d’outils d’interrogation dedonnées réparties au sein de systèmes multiples, ces outils étant dotés de langages derequêtes riches. Il s’agit réellement d’outils d’un type nouveau dont l’utilisation doitêtre compatible avec la possibilité pour quiconque d’ajouter à tout moment denouvelles données dans un des systèmes, d’établir des relations avec les concepts ouschémas déjà définis, de définir de nouveaux schémas locaux alors immédiatementutilisables pour poser des requêtes au niveau global, de définir des mises encorrespondance entre schémas locaux. Une architecture pair-à-pair s’imposenaturellement. Les recherches dans ce domaine sont ainsi fondamentales mais nonsuffisantes. A l’aspect décentralisé auquel les travaux sur les architectures pair-à-pairpeuvent apporter des solutions, s’ajoute la dimension sémantique, indispensable pourconnecter sémantiquement les systèmes mis en relation.

Un problème nouveau et important lié à cette dimension sémantique concerne ladéfinition de correspondances sémantiques entre les ontologies manipulées parchacun des systèmes amenés à communiquer. Il faut pouvoir disposer d’uneapproche simple et naturelle de description de correspondances sémantiques entreontologies. Le passage à l’échelle du Web n’est envisageable que si la conception deces définitions peut être en partie automatisée. Il est donc nécessaire d’étudier

Page 82: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

74

comment cette automatisation est possible, sachant qu’elle devra pouvoir être établieentre des ontologies qui sont locales à des sources et qui sont hétérogènes. Lesrecherches pourront s’appuyer sur les travaux effectués sur la mise encorrespondance de schémas proposant une automatisation partielle pour des domainesd’application particuliers. Dans le contexte du Web sémantique, néanmoins, il seraitsouhaitable que les solutions proposées au problème de mise en correspondancesoient indépendantes de tout domaine d’application et prennent en compte toute lacomplexité des ontologies. En particulier, des travaux de recherche doivents’intéresser à l’automatisation des mises en correspondance de type 1-n ou n-m, passeulement de type 1-1. Ils doivent également chercher à exploiter les contraintes surles attributs ou les relations définies au sein des ontologies.

Il faut ensuite pouvoir raisonner sur les correspondances entre ontologies. Il fauts’attendre à une explosion du nombre d’ontologies utilisées. Beaucoup décriront desdomaines similaires mais n’utiliseront pas forcément les mêmes termes, d’autresdécriront des domaines qui pourront se recouvrir. Il est nécessaire pour cela dedévelopper des recherches portant sur la représentation explicite des mises encorrespondance entre ontologies ainsi que sur la conception d’algorithmes deraisonnement efficaces et adaptés au traitement des mises en correspondance dedifférentes sortes : égalité, inclusion, recouvrement.

Enfin, ces systèmes distribués reposent sur l’exploitation d’ontologies elles-aussidistribuées. Un champ de recherches à favoriser concerne alors la gestion à grandeéchelle de ce nombre très important d’ontologies pouvant couvrir des domainesidentiques ou se recouvrant.

4.2 INTÉGRATION DE DONNÉES MULTIMÉDIAS

La numérisation de l’information multimédia a permis l’apparition de nouveauxéquipements et de nouvelles applications (enseignement à distance, télé-médecine,surveillance électronique, etc.). Cette production croissante de données multimédiasnumérisées amplifie les problèmes classiques de gestion de données multimédias et encrée de nouveaux tels que l’accès par le contenu, la personnalisation des contenus,l’accès à partir d’appareils mobiles, etc. Les problèmes majeurs concernent lamodélisation, le stockage et l’indexation physique des données multimédias,l’intégration des données multimédias, et le traitement des requêtes sur ces données.

4.3 INTÉGRATION ET ANALYSE DE DONNÉES EN TEMPS RÉEL

Les pressions résultant des demandes des clients et de la compétitivité liée à lanouvelle économie ont créé une demande insatiable pour une intégration et analyse,en temps réel, de l’information. Il n’est plus acceptable pour les décideurs de prendredes décisions en se basant sur des données datant de plus d’une semaine, voir mêmed’une journée. Les employés, les décideurs, les clients et tous les partenaireséconomiques ont besoin d’accéder à l’information quand elle est pertinente.

La possibilité d’accéder à temps et de façon simple à des données pertinentes aumoyen d’outils d’interrogation et d’analyse est fondamentale pour les organisationsqui souhaitent être compétitives. Cependant, avec la prolifération d’environnementshétérogènes qui doivent être intégrés à des systèmes d’aide à la décision, à desentrepôts de données, etc., les défis sont nombreux. Les données – données clients,données financières, données de navigations – constituent un avantage considérablesous réserve qu’elles soient intégrées et utilisées pour faciliter les échanges entrepartenaires économiques. Une solution au problème de l’intégration de données entemps réel constituera une étape importante vers l’exploitation effective despossibilités de l’Internet dans le domaine de l’aide à la décision.

Page 83: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

5 – L’Intégration de sources de données

75

Le traitement et l’intégration de gros volumes de données sur le Web posent desproblèmes épineux comme le montrent les résultats de tests effectués sur un PentiumIII, 700 MHz, 1 Go Ram et 100 Mbit Ethernet (cf. table 1).

Taille Fichiers Logs Temps de Traitementdes fichiers Logs sur le

réseau

Temps de traitementdes fichiers Logs sur une

même machine100 Mo 8 min 4 min1 Go 44 min 23 min2.5 Go 1h12 min 48 min5 Go 2h08 min 1h32 min

T a b l e 1 - Temps de calcul nécessaire à l’intégration en temps réel de données sur le Web

Ainsi, dans le cas du WebHouse par exemple, le problème majeur reste celui deconcevoir et de développer des agrégateurs incrémentaux efficaces. Des solutions à ceproblème d’intégration de données pourraient conduire à terme à unifier proprementles différents services d’une entreprise géographiquement distribuée (cf. FIG. 5).

F I G . 4 - Phases de transformation de données pour une analyse en temps réel de données collectées sur

le Web

FichiersLogs

Transformateur Analyseur Générateurrapports

RAPPORTS

Webhouse

AutreBD

Data Mining

Page 84: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

76

4.4 DE L’INTÉGRATION DE DONNÉES À L’INTÉGRATION DECONNAISSANCES

Bien que l’idée de construire un entrepôt de données intégré soit séduisante d’unpoint de vue conceptuel, elle est difficilement réalisable en pratique. Les observationsindiquent que les architectures fédérées pour les entrepôts de données sont beaucoupplus pratiques des points de vues politique, opérationnel et technique (Kerscherg &Weishar, 2000) (Firestone, 1999). Les organisations réalisent de plus en plus leurséchanges via Internet et établissent des partenariats via des portails et des «extranets»avec leurs clients et leurs fournisseurs, les données pour une e-entreprise sont alorsréparties entre plusieurs entités.

La notion d’entrepôt de données doit par ailleurs être étendue pour inclure nonseulement les données orientées transactions, mais aussi des données créées par lesemployés au sein de l’entreprise. Nous devons, à l’avenir, pouvoir inclure desrapports techniques, des présentations vidéos, audio, etc.

Un autre facteur d’influence concerne le développement des services web(Mcllraith et al., 2001), ceux-ci permettant la création de e-entreprises configurablesdynamiquement. Les concepts et outils des entrepôts de données devront évoluer pourinclure des mécanismes d’accès à des bases de données de ces services web. Lesinformations obtenues devront pouvoir être intégrées et stockées dans des entrepôts dedonnées fédérés. On peut ainsi imaginer des agents intelligents (Kerschberg, 1997a),(Kerschberg, 1997b) interagissant avec des fournisseurs des services web pour obtenirdes informations pertinentes pour des entrepôts de données.

L’entrepôt de données deviendra alors petit à petit un entrepôt de connaissancescomportant des données issues des entrepôts traditionnels mais aussi desconnaissances du domaine, des ontologies, des méta données, etc.

FIG. 5 – Exemple de data Warehouse intégrant les différents services d’une entreprisegéographiquement distribuée

Page 85: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

5 – L’Intégration de sources de données

77

RÉFÉRENCES

BENEVENTANO D. & BERGAMASCHI S. & CASTANO S. & CORNI A. & GUIDETTI R. &MALZVEZZI G. & MELCHIORI M. & VINCINI M. (2000). Information integration: TheMOMIS project demonstration. In VLDB 2000 proceedings of 26 th International Conference onVery large Data Bases. September 10-14. Cairo – Egypt. p. 611-614.

BIDAULT A. & FROIDEVAUX CH. & SAFAR B. (2000). Repairing queries in a mediatorapproach. In 14th European Conference on Artificial Intellignece. p. 406-410. Berlin.

CHAWATHE S. & GARCIA-MOLINA H. & HAMMER J. & IRELAND K. & PAPAKONSTANTINOUY. & ULLMAN J. & WIDOM J. (1994). The TSIMMIS project: Integration of heterogeneousinformation sources. In proceedings of IPSI conference, Tokyo Japan.

DOAN A. & DOMINGOS P. & LEVY A. (2001). Reconciling Schemas of Disparate Data Sources:A Machine-Learning Approach. Proceedings of the 2001 ACM SIGMOD InternationalConference on management of Data. p. 509-520. Santa Barbara. CA: ACM Press.

DOAN A. & MADHAVAN J. & DOMINGOS P. & HALEVY A. (2002). Learning to map betweenOntologies on the Semantic Web. Proceedings of the 11th international Conference on WWW.p. 662-673. Honolulu, Hawaï, USA.

ETZIONI O. & WELD D. (1994). A Softbot-Based Interface to the Internet. Communications ofthe ACM. Vol. 37(7). p. 72-76.

FIRESTONE J. M. (1999). DKMS Brief No. Nine: Entreprise integration, Data federation, andDKMS: A Commentary. Executive Information Systems, Inc.

FRIEDMAN M. & WELD D. S. (1997). Efficiently executing information-gathering plans. In15th International Joint Conference on Artificial Intelligence. p. 785-791, Nagoya. Japan.

GENESERETH M. R. & KELLER A. M. & DUSCHKA O. M. (1997). Infomaster: aninformation integration system. In proceedings of SIGMOD 97. p. 539-542. New-York.

GIRALDO G. & REYNAUD Ch. (2002). Construction semi-automatique d’ontologies à partir deDTDs relatifs à un même domaine. 13èmes journées francophones d’Ingénierie desConnaissances. Rouen.

GOASDOUE F. & LATTES V. & ROUSSET M.-CH. (2000). The use of the Carin language andalgorithms for Integration Information: the PICSEL system. International Journal ofCooperative Information Systems. Vol. 9(3). p. 383-401.

GRIBBLE S. & HALEVY A. & IVES Z. & RODRIG M. & SUCIU D. (2001). What can databases dofor Peer-to-Peer ? WebDB01 - Workshop on databases on the Web. p. 31-36. Santa Barbara,California, USA.

HALEVY A. Y. & IVES Z. G. & SUCIU D. & TATARINOV I. (2003). Schema Mediation in PeerData management Systems. ICDE. Bangalore, India.

HAMMER J. & GARCIA-MOLINA H. & WIDOM J. & LABIO W. & ZUGHE Y. (1995). The Stanford Data WarehousingProject. In Data Engineering, Special Issue on Materialised Views on Data Warehousing. Vol. 18(2), p. 41-48.

HULL R. & ZHOU G. (1996). A framework for supporting data integration using the materialized and virtual approaches.In proceedings of the ACM SIGMOD International Conference of the Management of Data. p. 481-492. Montreal,Canada.

KERSCHBERG L . & WEISHAR D. (2000). Conceptual Models and Architectures for AdvancedInformation Systems. Applied Intelligence. Vol. 13(2). p. 149-164.

KERSCHBERG L. (1997). Knowledge Rovers: Cooperative Intelligent Agent Support for Enterprise InformationArchitectures. In Cooperative Information Agents . Vol. 1202, LNAI. P. Kandzia & M. Klusch Eds. p. 79-100.

KERSCHBERG L. (1997). The Role of Intelligent Agents in Advanced Information Systems. In Advances in Databases.Vol. 1271, LNCS. C. Small & P. Douglas & R. Johnson & P. King & N. Martin Eds. p. 1-22.

KIMBALL R. & MERZ R. (2000). The data Webhouse Toolkit : Building the Web-Enabled DataWarehouse. John Wiley & Sons Inc.

KIMBALL R.. (1996). The Data Warehouse Toolkit: Practical Techniques for Building Dimensional Data Warehouses.John Wiley & Sons, Inc.

Page 86: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

78

KIRK T. & LEVY A. Y. & SAGIV Y. & SRIVASTAVA D. (1995). The Information Manifold. In proceedings of the AAAI1995 Spring Symposium on Information Gathering from Heterogeneous, Distributed Environments, StanfordUniversity, California. p. 85-91.

LEVY A. & SRIVASTAVA D. & KIRK T. (1995). Data Model and Query Evaluation in GlobalInformation Systems. Journal of Intelligent Information Systems. Vol.5. p.121-143.

LEVY A. Y. & RAJARAMAN A. & ORDILLE J. (1996). Query answering algorithms forinformation agents. In proceedings of the 13th National Conference on Artificial Intelligence(AAAI-96). Portland, Oregon. p. 40-47.

MCLLRAITH S. A. & SON T. C. & ZENG H. (2001). Semantic Web Services. In IEEE IntelligentSystems. Special Issue on the Semantic Web. Vol. 16(2). p. 46-53.

MENA E. & KASHYAP V. & SHETH A. & ILLARRAMENDI A. (1996). OBSERVER: Anapproach for query processing in global information systems based on interoperation acrosspre-existing ontologies. In 4 th Int. Conf. on Cooperative Information Systems. p. 14-25.Bruessels. Belgium.

RAHM E. & BERNSTEIN P. A. (2001). A survey of approaches to automatic schema matching,VLDB Journal. Vol. 10. p.334-350.

ROUSSET M.-Ch. & BIDAULT A. & FROIDEVAUX Ch. & GAGLIARDI H. & GOASDOUEF. & REYNAUD Ch. & SAFAR B. (2002). Construction de médiateurs pour intégrer dessources d’information multiples et hétérogènes : le projet PICSEL. Revue I3. Vol.2. n°1. p.5-59.

SUBRAHMANIAN V.S. & ADALI S. & BRINK A. & EMERY R. & LU J. J. & RAJPUT A. &ROGERS T. J. & ROSS R. & WARD C. (1995). HERMES: A heterogeneous reasoning andmediator system. Technical Report. Univ. of Maryland.

TERMIER A. & ROUSSET M.-Ch. & SEBAG M. (2002). Treefinder: a first step towards xmldata mining. In International Conference on data Mining ICDM02. Maebashi Terrsa, MaebashiCity, Japan.

ULLMAN V. (1997). Information integration using logical views. In proceedings of the 6th

International Conference on Database Theory (ICDT’97). p. 19-40. Delphi, Greece.

WIEDERHOLD G. (1992). Mediators in the architecture of future information systems, Computer,Vol. 25(3). p.38-49.

WIENER J. L. & GUPTA H. & LABIO W. J. & ZHUGE Y. & GARCIA-MOLINA H. & WIDOM J.(1996). A System Prototype for Warehouse View Maintenance. Proceedings of the ACMWorkshop on Materialized Views: Techniques and Applications. p. 26-33. Montreal, Canada.

XYLEME L. (2001). A dynamic warehaouse for xml data of the web. IEEE Data EngineeringBulletin. Vol. 24(2). p. 40-47.

ZHOU V & HULL R. & KING R. & FRANCHITTI J.-C. (1995). Data integration and warehousingusing HO2. IEEE Bulletin of the Technical Committee on Data Engineering. Vol. 18(2) p.29-40.

ZHOU V & H ULL R . & K ING R. & FRANCHITTI J.-C. (1995). Using Object matching andmaterialization to integrate heterogeneous databases. In proceedings of the 3rd InternationalConference on Cooperative Information Systems (CoopIS’95). p. 4-18.

ZHOU V & HULL R. & KING R. (1996). Generating Data Integration Mediators That UseMaterialization. In Journal of Intelligent Information Systems. Vol. 6(2). p. 199-221.

http://www.intelligententerprise.com/info_centers/data_int/

http://www.pdit.com/

http://www.datajunction.com/

http://www.hummingbird.com/products/dirs/

http://www.paladyne.com/

Page 87: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

79

6 – Adaptation et personnalisationdans le Web sémantique

S. Garlatti1, Y. Prié2

1 Département IASC GET - ENST [email protected]

2 LIRIS FRE 2672 CNRSUniversité Claude Bernard Lyon 1

[email protected]

Résumé

Au travers d’Internet, un nombre potentiellement infini de services et dedocuments est accessible à tous les usagers. La plupart des services et documentsfournis actuellement sur Internet proposent une organisation, un contenu, un moded’interaction et une présentation uniques pour tous. Ceci peut être suffisant danscertains cas. Mais tous les utilisateurs ne sont pas intéressés par les mêmesinformations et n’ont pas les mêmes attentes, connaissances, compétences, centresd’intérêts, etc. Ils ne sont capables de comprendre ou d’accepter que des services et desdocuments dont l’organisation, le contenu, les modes d’interaction et la présentationsont adaptés à leurs besoins. Parmi les problèmes qui se posent on peut citer :l’accès à l’information pertinente, la navigation dans un grand espace de ressources etla compréhension d’une ressource complexe. L’adaptation / personnalisation dans le«Web sémantique » peut s’appuyer sur les domaines suivants : les hypermédiaadaptatifs, la modélisation utilisateur et les documents virtuels personnalisables. Lestravaux actuels sur l’adaptation dans le Web sémantique peuvent être décomposés endeux parties : l’une sur les hypermédias adaptatifs et l’autre sur les documentsvirtuels adaptatifs. Les futures recherches sur le Web Sémantique pour l’adaptation /personnalisation peuvent s’articuler autour des cinq points suivants : la modélisationutilisateur et des utilisations, la protection de la vie privée, la recherched’information, les services et documents adaptatifs, et l’ergonomie des services et desdocuments.

Page 88: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

80

1 PRÉSENTATION ET IMPORTANCE DE LAPROBLÉMATIQUE DU POINT DE VUE DES USAGES

1.1 ADAPTATION/PERSONNALISATION SUR LE WEB SÉMANTIQUE

Au travers d’Internet, un nombre potentiellement infini de services et de documentsest accessible à tous les usagers. La plupart des services et documents fournisactuellement sur Internet propose une organisation, un contenu, un moded’interaction et une présentation uniques pour tous. Ceci peut être suffisant danscertains cas. Mais tous les utilisateurs ne sont pas intéressés par les mêmesinformations et n’ont pas les mêmes attentes, connaissances, compétences, centresd’intérêts, etc. Ils ne sont capables de comprendre ou d’accepter que des services etdes documents dont l’organisation, le contenu, les modes d’interaction et laprésentation sont adaptés à leurs besoins. Parmi les problèmes qui se posent on peutciter :

- L’accès à l’information pertinente : la recherche d’information sur Internetpar des mots clés n’est pas satisfaisante. En effet, les critères de rappel et deprécision ne sont pas satisfaisants (précision souvent inférieure à 1%).L’utilisation d’ontologies et donc du « web sémantique » va grandementaméliorer les résultats. Néanmoins, il restera bien souvent un nombreconsidérable de ressources qui satisferont les demandes des utilisateurs. Il estdonc nécessaire de mieux cibler les résultats en fonction des besoinsutilisateurs afin d’effectuer un filtrage des ressources.

- La navigation dans un grand espace de ressources : dès que l’espaced’information accessible à un utilisateur par navigation est important, la pertede repères et la désorientation ne permettent pas à l’utilisateur de retrouver lesinformations recherchées ni de savoir d’où il vient, où il peut aller et commenty aller. Il est important ici de pouvoir guider l’utilisateur dans cet espaced’information en d’autres termes d’adapter l’accès à l’information enfonction de ses besoins.

- La compréhension d’une ressource complexe – site web, service, etc. : enpsychologie cognitive, la compréhension d’un document est souventcaractérisée par la construction mentale d’une représentation, d’un modèle dece document. La lisibilité du document peut être définie comme l’effortmental nécessaire au processus de construction d’un modèle (Kaheneman,1973; Thüring, Hannemann et al., 1995). Afin d’accroître la lisibilité d’undocument hypermédia, il est nécessaire d’assister l’utilisateur dans laconstruction de ce modèle mental, par exemple en favorisant les facteurs utilespour le processus de construction, et en diminuant les facteurs qui leperturbent. Deux facteurs principaux ont été identifiés : la cohérence et lesurcoût cognitif (Thüring, Hannemann et al., 1995). Pour augmenter lacohérence d’un document, il faut fournir à l’utilisateur des repères l’aidant àidentifier les composants majeurs du document et sa structure globale. Pourréduire l’effort mental de compréhension, il n’est pas suffisant d’avoir unestructure globale cohérente. Il faut aussi communiquer cette structure àl’utilisateur. Il est alors possible de lui fournir les différents composants dudocument ainsi que leurs relations, par exemple à l’aide d’outils graphiques.Conklin caractérise le surcoût cognitif comme l’effort supplémentaire et laconcentration nécessaire pour gérer plusieurs tâches en même temps (Conklin,1987). Ce phénomène est dû aux capacités cognitives limitées du processushumain de traitement de l’information (Kaheneman, 1973). Dans undocument hypermédia, ces efforts sont dus à l’orientation et la navigation.Pour éviter la désorientation, l’utilisateur doit non seulement connaître lastructure globale du document, mais aussi ses déplacements dans cette

Page 89: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

6 – Adaptation et personnalisation dans le Web sémantique

81

structure. Il doit en fait savoir où il est, d’où il vient et où il peut aller.Compréhension et orientation sont en effet très fortement liées. Lacompréhension d’un document hypermédia ou autre est donc liée à lacompréhension de la structure globale de ce dernier, à sa présentation et à soncontenu. Assurer une bonne compréhension d’une ressource complexenécessite donc d’être capable d’adapter la structure globale d’une ressource,son contenu et sa présentation aux besoins utilisateurs.

Dans l’avenir, l’adaptation et la personnalisation seront des points clés pourl’utilisation, la vente et l’accès aux services et documents par les entreprises et lesparticuliers. Toutefois, il est important de faire la différence entre adaptable etadaptatif (Bra, 1999), même si la conjonction des deux est possible. Dans un systèmeadaptable, l’utilisateur définit un ensemble de contraintes au travers d’une requête,d’un questionnaire ou d’un formulaire. Le système propose alors une ressource quicorrespond au profil de l’utilisateur – les contraintes. Ce profil peut regrouper lespréférences de l’utilisateur en terme de présentation (couleurs, type de média, styled’apprentissage, etc.) ainsi que son savoir-faire (qualifications, connaissances). Dansun système adaptatif, ce dernier observe le comportement de l’utilisateur et utilise sesobservations afin d’adapter la présentation de l’information. L’évolution despréférences et de la connaissance de l’utilisateur est alors déduite (en partie) des accèsaux pages Web. Le plus souvent, l’adaptation est obtenue au travers de la navigationde l’utilisateur, mais parfois le système peut aussi utiliser le comportement del’ensemble des autres utilisateurs pour adapter la ressource. On se placera ici dans lecadre de l’adaptation/personnalisation (adaptable ou adaptatif) pour des utilisateurs aumoyen de ressources liées à ces derniers – on ne se préoccupe pas de problèmesd’adaptation entre agents ou services qui ne font pas intervenir l’utilisateur ou desinformations sur celui-ci.Le cadre général que nous proposons est fondé sur le principe général suivant :

- Un ensemble de ressources est disponible sur le web (pages web, documentsstructurés, résultats de services, services) ;

- Un utilisateur « demande un résultat » ou pose une requête liée à sa tâche à unmodule logiciel en fixant un ensemble de contraintes qui sont des donnéesnon persistantes définies à partir d’un formulaire ou d’un simple hyperlienqui peut avoir été calculé pour ses besoins.

- Le module logiciel, à partir de cette demande, plus éventuellement un« profil » (données rémanentes caractérisant un utilisateur ou un grouped’utilisateurs particuliers) sélectionne un sous-ensemble de ces ressources(requêtes logicielles). Un profil peut contenir des caractéristiques sur lesconnaissances, les préférences, les objectifs, les centres d’intérêts, etc. d’unutilisateur ou d’un groupe d’utilisateurs.

- Puis, le module logiciel compose ces ressources pour fournir à cet utilisateurun document ou service Web (page simple : liste ordonnée d’URL - adressesde documents, de page web ou de services - ou encore un site web ou service :portails, cours en ligne, musées virtuels, etc.), avec lequel l’utilisateur peutinteragir à nouveau.

Dans un tel contexte, que peut faire le web sémantique dans le cadre del’adaptation/personnalisation pour aider l’utilisateur ?

Une aide à l’utilisateur peut se faire aux étapes 2, 3 et 4 :2) Demande utilisateur : proposer des termes adéquats au contexte de la tâche

utilisateur, réécrire interactivement ou non sa demande en termes « reconnus »par les ressources et/ou les systèmes de gestion de ressources – hétérogènes,fournir à l’utilisateur un lien activant une requête adaptée à ses besoins.

3) Recherche et filtrage des ressources pertinentes à partir de la requête utilisateuret de son profil : la demande initiale et certaines données du profil utilisateurpeuvent servir au filtrage des ressources pertinentes, que celui-ci soit

Page 90: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

82

automatique ou interactif. L’enjeu est ici de réduire l’espace des ressources àcelles qui s’apparient ou qui sont adéquates aux contraintes de la demande,aux besoins utilisateurs (via le profil).

4) Composition des ressources : après sélection des ressources pertinentes, ils’agit de les organiser pour les présenter à l’utilisateur. Cette organisation estle résultat de l’application de règles de composition qui peuvent prendrenotamment les formes suivantes :

- Une structure implicite résultat d’un calcul comme un simple tri – detype résultat de moteur de recherche, ordre temporel, etc.

- Une structure explicite comme un modèle de tâche, une structurenarrative, etc. qui organise un site Web (portail, musée virtuel, ...), etc.

L’organisation sert de support pour la navigation et la compréhension. Eneffet, celle-ci est fortement liée à l’organisation et l’orientation dans unservice ou document. Il est ici possible d’adapter/personnaliser l’organisation,le contenu, les modes d’interaction et la présentation des services oudocuments.

1.2 EXEMPLES D’UTILISATION DE L’ADAPTATION /PERSONNALISATION DANS LE WEB SÉMANTIQUE

Un scénario d’utilisation du web sémantique et de l’adaptation articulé autour del’enseignement à distance est présenté dans la partie dédiée aux annotations et auxméta-données. Ce scénario montre qu’il est possible d’effectuer de la recherched’information adaptative à partir des méta-données qui caractérisent les ressources etd’un profil utilisateur. Par exemple à partir des connaissances acquises par unutilisateur dans un domaine particulier et des connaissances nécessaires à lacompréhension d’une ressource, on peut juger de la pertinence de cette ressource eten informer l’utilisateur. Il est aussi possible de modifier l’organisation d’un cours,son contenu et sa présentation en fonction d’un profil utilisateur.

2 MÉTHODES, TECHNIQUES, OUTILS EXISTANTS SURLESQUELS ON PEUT S’APPUYER

On a pu voir au travers du scénario que l’on doit être capable de calculer undocument ou un service dynamiquement en fonction d’une spécification et/ou d’unprofil utilisateur. L’adaptation/personnalisation dans le « web sémantique » peuts’appuyer sur les domaines suivants : les hypermédia adaptatifs, la modélisationutilisateur et les documents virtuels personnalisables (pour de plus de détails voir(Iksal, 2002)).

Le Web peut être vu comme un immense hypermédia dans lequel les informationssont reliées entre elles par des liens. Dès la fin des années 80, des équipes se sontintéressées à la notion d’ « hypermédia flexible ». Un système hypermédia flexible estun système qui propose différentes vues d’un même hypermédia en fonction del’utilisateur ou qui génère dynamiquement l’hypermédia et son contenu au momentde la consultation. Ils se déclinent principalement autour de deux approches(Oberlander & Milasavljevic, 1997) :

- L’utilisation des techniques venant de la recherche d’information et dufiltrage afin d’évaluer la pertinence des nœuds d’un hypermédia et demodifier la présentation de l’information en fonction de cette évaluation.

- Les hypermédias adaptatifs (Brusilovsky, 1996) utilisent des caractéristiques del’utilisateur afin de modifier la topologie d’hypermédias existants et de

Page 91: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

6 – Adaptation et personnalisation dans le Web sémantique

83

présenter le contenu informationnel en fonction de ces caractéristiques37. Lepoint central de cette approche est la prise en compte de modèles utilisateurs.

2.1 LES HYPERMÉDIAS ADAPTATIFS

Le principe des hypermédia adaptatifs repose sur la constatation suivante : leshypermédia traditionnels présentent les mêmes pages et les mêmes hyperliens à tousles utilisateurs. Or, ceux-ci peuvent différer les uns des autres par leurs objectifs, leursacquis, leurs antécédents et leurs connaissances par rapport au sujet traité parl’hypermédia. Par conséquent, ils ne seront pas intéressés par les mêmes informationsde la page et ne suivront pas les mêmes liens lors de leur navigation. Les informationset liens non pertinents pour un utilisateur mais présentés à l’écran n’entraînentqu’une surcharge cognitive de celui-ci. L’utilisateur est facilement « perdu » dansl’étendue parfois vaste de l’hyperespace. Il a notamment souvent des difficultés àretrouver lui-même des chemins qu’il a précédemment suivis et il tourne facilementen rond dans son parcours des liens. Il éprouve souvent des difficultés à évaluer laquantité de pages qu’il a déjà visitées - ou qu’il lui reste à visiter. Rapidement,l’utilisateur peut mal interpréter le document, et se faire une mauvaise représentationmentale de la structure de l’hypermédia. Les objectifs des hypermédias adaptatifs sontdonc de réduire la désorientation de l’utilisateur et le risque d’incompréhension dudocument qui en résulte le plus souvent.

Peter Brusilovsky nous en donne la définition suivante « By adaptive hypermediasystems we mean all hypertext and hypermedia systems which reflect some features ofthe user in the user model and apply this model to adapt various visible aspects of thesystem to the user » (Brusilovsky, 1996). Toutefois, il est important de connaître ladifférence entre un hypermédia adaptable et un hypermédia adaptatif (Bra, 1999) (cf.plus haut). Un hypermédia est composé de deux types d’éléments, des contenus et desliens. Les méthodes d’adaptation ont donc été classées en deux catégories, lesméthodes de présentation adaptative qui manipulent le contenu des hypermédia et lesméthodes de navigation adaptative qui concernent plus particulièrement les liens (Bra1999 & Brusilovsky, 2001). L’idée de la présentation adaptative est d’adapter lecontenu d’une page accédée par un utilisateur particulier, à sa connaissance, sesobjectifs ou encore d’autres caractéristiques qui lui sont propres. La navigationadaptative a pour but d’aider les utilisateurs à trouver leur chemin dans l’espaced’information en adaptant la présentation des liens en fonction des objectifs, de laconnaissance ou encore d’autres caractéristiques de l’utilisateur. Ces caractéristiquessont utilisées afin de classer les pages Web - appelées aussi nœuds - qui correspondentaux destinations des liens. Le système manipule alors les liens afin de guiderl’utilisateur vers l’information la plus intéressante, la plus pertinente. Il se sert de laclasse d’un nœud afin par exemple d’annoter ou de supprimer le lien qui pointe versce dernier.

37 Il n’est pas ici question de générer dynamiquement l’hypermédia et son contenu mais uniquement d’effectuer del’adaptation par rapport à un hypermédia préexistant.

Page 92: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

84

Méthodes pourHypermédias

Adaptatifs

PrésentationAdaptative

NavigationAdaptative

Présentationmultimédiaadaptative

Présentationadaptative de

texte

Adaptation demodalité

Guidage Direct

Tri des liens

Masquage desliens

Annotation deliens

Adaptation decarte

Masquage

Désactivation

Suppression

Fragmentsconditionnels

Pages et fragmentsvariants

Strechtext

Tri de fragments

Techniques à basede frames

Fig1. Méthodes d’adaptation

Les travaux de recherche sur les hypermédia adaptatifs qui nous intéressent se sontprincipalement portés sur deux axes : l’adaptation de documents hypermédia (dessites Web – ELMART, AHA, INTERBOOK, etc. ou des applications locales) dont lastructure globale était le plus souvent fixée à priori et sur la recherche d’informationadaptative. Dans tous les cas, l’adaptation de la navigation, du contenu et desinformations retrouvées nécessite des méthodes d’évaluation des liens, des contenusou des informations retrouvées qui sont à la base des méthodes d’adaptation qui ontété proposées.

2.2 LA MODÉLISATION UTILISATEUR

Adapter, personnaliser un document ou une application pour un utilisateurparticulier nécessite de disposer d’informations sur ce dernier permettant d’évaluer lapertinence des objets disponibles (fragments de texte, menus, boutons, etc.) ou d’aiderle système à faire des choix. Le modèle utilisateur est « une source de connaissances,une base de données sur un utilisateur » (McTear, 1993). Plus précisément, il s’agitd’un ensemble de données persistantes qui caractérisent un utilisateur ou un grouped’utilisateurs particuliers. Un tel modèle peut contenir des caractéristiques sur lesconnaissances, les préférences, les objectifs, les centres d’intérêts, etc. d’un utilisateur.

Il existe différents types de modèles utilisateur qui peuvent être combinés. Lemodèle individuel regroupe les caractéristiques propres à un individu. Il s’agitd’informations pouvant être soit renseignées par l’utilisateur, soit déduites par lesystème, soit acquises lors de l’utilisation de l’application. Le stéréotype correspond àun condensé des caractéristiques les plus représentatives d’un groupe - ou classe -d’individus, que nous pouvons qualifier de valeurs par défaut. Le stéréotype peut êtreutilisé tel quel, ou dans une optique d’individualisation de modèle (Rich, 1989). Lemodèle de recouvrement associe pour un utilisateur particulier, une valeur à chaqueconcept du modèle de domaine. Chaque valeur correspond à une estimation duniveau de connaissance de l’utilisateur pour le concept. Le modèle de recouvrementest facile à mettre à jour mais souvent difficile à initialiser. Les actions de l’utilisateursont analysées pour augmenter ou réduire le niveau de connaissance des concepts du

Page 93: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

6 – Adaptation et personnalisation dans le Web sémantique

85

domaine (Brusilovsky, Eklund et al., 1998). Le modèle partagé est un modèleréutilisable dans plusieurs applications. En effet, de nombreuses caractéristiques d’unutilisateur sont utilisées systématiquement par toutes les applications adaptatives.L’idée du modèle partagé est de disposer d’une partie commune et de partiesspécifiques à chacune des applications ou tâches à réaliser. Kobsa et Wahlster (1989)proposent de disposer d’un modèle central et de plusieurs sous-modèles disjoints.L’utilisateur peut être modélisé selon plusieurs points de vue :

- La connaissance de l’utilisateur apparaît comme la caractéristique la plusutilisée dans un système adaptatif. La façon la plus simple de gérer lesconnaissances est de mémoriser ce que l’utilisateur connaît ou ne connaît pas.Pour cela, on utilise souvent soit un stéréotype (modèle de groupe) soit unmodèle de recouvrement (modèle individuel) qui associent aux concepts d’unmodèle de domaine un niveau de connaissance (vrai/faux ou une valeurnumérique).

- L’expérience et les compétences sont deux caractéristiques similaires à laconnaissance définie dans le paragraphe précédent mais qui en diffèrent depar la nature même de l’information qu’elles représentent. L’expérience del’utilisateur représente son savoir-faire, la familiarité et l’aisance qu’il possèdeavec le type de système qui lui est présenté. Les compétences possédées parl’utilisateur correspondent aux connaissances qui ne relèvent ni du domaine,ni de l’expérience mais qui sont néanmoins considérées comme pertinentesdans le fonctionnement du système.

- Les préférences de l’utilisateur peuvent porter sur une généralité et/ou unpoint particulier. Par exemple, un voyageur exige le côté fenêtresystématiquement, sauf pour l’avion, où il demande le couloir. Contrairementaux autres caractéristiques, les préférences ne peuvent être déduites par lesystème. En effet, chaque utilisateur possède ses propres préférences, et c’est àlui de les renseigner.

- Les objectifs : dans les systèmes d’information en ligne, les utilisateurs ontl’habitude de n’accéder qu’à une partie de l’espace d’information - ensemblede fragments - qui dépend principalement de leurs objectifs (Brusilovsky,Schwarz et al., 1996; Vassileva, 1996). L’objectif est un état que l’utilisateurespère atteindre, et les plans décrivent les étapes pour y arriver. Les modèles detâches sont très appropriés pour modéliser ces plans et par conséquent lesobjectifs des utilisateurs. Souvent ces démarches sont typiques d’une catégoried’utilisateurs, c’est pourquoi on associe un modèle de tâches statique à unstéréotype (Garlatti, 1999). Ces modèles de tâches sont souvent utilisés eninteraction homme/machine pour l’évaluation et l’interprétation (Tricot &Nanard, 1997) ainsi que la conception d’hypermédia (Fraissé 1997; Garlatti,Iksal et al., 1999). Il n’est envisageable d’utiliser une telle méthode quelorsque les objectifs utilisateur ont une certaine stabilité.

Nous avons vu que l’adaptation nécessite des connaissances sur les utilisateurs. Cesconnaissances sont obtenues grâce à la gestion de modèles utilisateurs qu’ils soientconstruits pour des communautés (stéréotypes) ou pour des individus. De nombreuxtravaux ont été menés sur les méthodes et outils de gestion de modèles utilisateurs.L’acquisition des caractéristiques utilisateur peut être réalisée par observation directe,interviews, questionnaires ou encore par apprentissage. Néanmoins dans le cadre duWeb, le passage à l’échelle nécessitera d’avoir des méthodes adaptées.

2.3 LES DOCUMENTS VIRTUELS PERSONNALISABLES

Les hypermédias flexibles ont évolué vers la notion de document virtuel. Lesdocuments virtuels sont nés d’un besoin d’interactivité et d’individualisation desdocuments, plus particulièrement sur le Web. Dès 1993, Thomas Gruber définit les

Page 94: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

86

documents virtuels comme des documents hypermédia qui sont générés à la demandeen fonction de plusieurs sources d’information et en réponse à une demande del’utilisateur (le lecteur) (Gruber, Vemuri et al., 1996). En 1999, lors de la premièreconférence sur les documents virtuels, Carolyn Watters et Michael Shepherd (Watters& Shepherd, 1999) définissent brièvement le document virtuel comme étant undocument qui ne possède pas d’état persistant et pour lequel toutes les instances sontgénérées lors de la consultation. Maria Milosavljevic (Milosavljevic, Vitali et al., 1999)lors de l’introduction de la conférence, précise que le document virtuel est composéde l’information et des mécanismes nécessaires à la génération du document réel quisera consulté par le lecteur. Un document virtuel possède donc les caractéristiquessuivantes :

- réutilisation de différentes sources d’information,- génération dynamique du document à la demande en fonction de l’utilisateur.

Il correspond à un espace d’information et des mécanismes de génération.

Si un utilisateur peut adapter/personnaliser le document réel produit en fonction deses besoins, on parlera de document virtuel personnalisable (DVP), sinon uniquementde document virtuel. Un document virtuel peut être personnalisé à partir d’au moinsun des trois critères suivants :

- Les contraintes utilisateur sont des données non persistantes définies à partird’une requête, d’un formulaire ou d’un simple hyperlien et qui lui sontpropres.

- Le modèle utilisateur : il s’agit d’un ensemble de données persistantes quicaractérisent un utilisateur ou un groupe d’utilisateurs particuliers. Un telmodèle peut contenir des caractéristiques sur les connaissances, lespréférences, les objectifs, les centres d’intérêts, etc. d’un utilisateur (Rich,1989; Brusilovsky, Schwarz et al., 1996).

Le contexte (Brézillon, 2002) : support de lecture, taille d’écran, vitesse detransfert, conditions géographiques, météorologiques (Garlatti & Iksal, 2000),etc.

En 1999, Sylvie Ranwez et Michel Crampes définissent les documents virtuelspersonnalisables comme les éléments et les mécanismes permettant de réaliser uneconstruction dynamique de documents adaptatifs. Un DVP peut être considérécomme un ensemble d’éléments (ou fragments) associé à des mécanismes de filtrage,d’organisation et d’assemblage sous contraintes, c’est-à-dire en respectant un modèlede l’utilisateur et des principes narratifs (Ranwez & Crampes, 1999). Bien souvent,l’organisation et la sélection de fragments pertinents nécessitent des mécanismes derecherche d’information et de filtrage qui utilisent entre autres les index desfragments. L’indexation des fragments peut aller de l’utilisation d’un simple conceptissu d’un modèle de domaine à celle plus complexe d’un schéma de méta-données.La caractérisation de ces fragments et de leur indexation ne peut pas être séparée decelle des mécanismes d’un DVP. En effet, un DVP est fondé sur deux étapesprincipales qui sont indissociables : la spécification et la composition du documentréel. La spécification d’un DVP, c’est l’ensemble des informations nécessaires ausystème pour composer le document. Cette étape dépend bien évidemment desprincipes mis en oeuvre dans la composition. Elle permet au minimum aux auteursd’un DVP de définir les fragments (nature, granularité et indexation), mais aussi lesrègles d’organisation et d’assemblage. Les deux dernières ne sont pas toujoursaccessibles aux auteurs. La composition a pour objet la construction d’un documentréel à partir d’une spécification et des critères de personnalisation. Spécification etcomposition sont en quelque sorte deux faces d’une même pièce ; elles ne peuventêtre conçues l’une sans l’autre et forment un tout indissociable.

Dans le cadre des documents virtuels personnalisables sur Internet qui génèrent deshypermédias, il est intéressant de prendre en compte les méthodes et techniques

Page 95: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

6 – Adaptation et personnalisation dans le Web sémantique

87

d’adaptation proposées dans le domaine des hypermédias adaptatifs. Lapersonnalisation, l’adaptation pour un utilisateur donné est favorisée par l’utilisationdes modèles utilisateurs qui représentent ces utilisateurs. En ce qui nous concerne, lesDVP sont fondés sur des informations provenant de sources hétérogènes, laréutilisation et le partage sont des enjeux des DVP qui peuvent être assurés par le WebSémantique.

3 TRAVAUX ET RÉSULTATS EXISTANTS DU WEBSÉMANTIQUE

Les travaux actuels sur l’adaptation dans le Web sémantique peuvent êtredécomposés en deux parties : l’une sur les hypermédias adaptatifs et l’autre sur lesdocuments virtuels adaptatifs. Dans le domaine des hypermédias adaptatifs denombreux travaux sont en cours sur l’adaptation au support physique et auxpréférences de l’utilisateur. Le système Cuypers a pour objet la générationautomatique de présentations hypermédia temporelles adaptées aux préférences etcapacités des utilisateurs et du support physique (Ossenbruggen, Hardman et al.,2001). La méthodologie Hera a été utilisée pour la conception de systèmesd’information intelligents et adaptatifs sur Internet. L’adaptation se fait par rapportau support physique et à l’historique de navigation des utilisateurs (Frassincar &Houben, 2002). Des travaux sont également en cours sur des systèmes adaptatifs àl’initiative de l’utilisateur (Aragão, Fernandes et al., 2001). Dans le domaine desdocuments virtuels personnalisables, on peut citer des travaux sur la création demémoires d’entreprise (Fortier & Kassel, 2002), ainsi que le projet RNRT KMP(Knowledge Management Portal), les dossiers thématiques personnalisables (Iksal &Garlatti 2001; Iksal, Garlatti et al., 2001) (projet ICCARS) (Iksal, 2002) et le E-learning (Projet Candle, http://www.candle.eu.org/). Dans la cadre des prochainsworkshops intitulé Adaptive Hypermedia and Adaptive Web-Based Systems(http://wwwis.win.tue.nl/ah2003/) d’autres travaux seront présentés.Il existe actuellement de nombreux travaux sur la description des politiques de gestiondes données utilisateur – publiques/privées : travaux du W3C autour de P3P(http://www.w3c.org/P3P/) (possibilité de comprendre et de gérer l’utilisation de sesdonnées personnelles).

4 RECHERCHES FUTURES POUR LE WEB SÉMANTIQUE

Les futures recherches sur le Web Sémantique pour l’adaptation/personnalisationpeuvent s’articuler autour des cinq points suivants :

- la modélisation utilisateur et des utilisations,- la protection de la vie privée,- la recherche d’information,- les services et documents adaptatifs,- l’ergonomie des services et des documents.

4.1 MODÉLISATION DES UTILISATEURS ET DES UTILISATIONS

Pour la modélisation utilisateur/utilisation, il est important d’avoir des standards demodèles utilisateur/utilisation disponibles sous formes d’ontologies pour descatégories de services/documents (possibilité d’enrichissement dynamique du modèleutilisateur courant afin qu’il puisse bénéficier de services adaptatifs/personnalisables).

Page 96: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

88

En effet, si nous pouvons espérer dans l’avenir disposer de nombreux services et/oudocuments adaptatifs, il sera nécessaire d’avoir accès à différentes catégories demodèles utilisateur/utilisation qui ne seront sans doute pas sans intersection commune.Il en de même aujourd’hui pour les méta-données puisque différents schémas deméta-données ont des champs qui sont communs et d’autres qui différent. Il seradonc nécessaire de standardiser certains modèles.

Actuellement, la plupart des méthodes d’analyse du comportement des utilisateurssur le Web pose le problème du passage à l’échelle et du choix des critères pertinentsà analyser. En fait, on peut disposer d’énormes quantités de données, mais il estdifficile de savoir comment les analyser et lesquelles sont pertinentes pour un objectifdonné des utilisateurs et/ou des concepteurs. Il y a donc un réel problème pourl’acquisition et la maintenance des modèles utilisateur – dynamiques et/ou statiques,ainsi que pour l’acquisition de connaissances sur les utilisateurs/utilisations parobservation de comportements. Il s’agit notamment ici de développer desobservatoires des usages, et de mettre en place des outils permettant de saisir desutilisations significatives, et non de simples « logs ininterprétables ». A partir de cesobservatoires, il faudrait pouvoir déterminer les paramètres pertinents à observer chezles utilisateurs par classe de services et en déduire des standards de modèles utilisateurqui seraient réutilisables et partageables.

4.2 PROTECTION DE LA VIE PRIVÉE

Comme on vient de le voir, l’utilisation de modèles utilisateur est des points clés del’adaptation/personnalisation. Chacun aura un ou plusieurs modèles qui seront mis àjour par les services accédés. Mais qui va posséder/archiver ses modèles ? Commentpeut-on contrôler l’utilisation de ceux-ci a fortiori lorsque certains logiciels ferontdes déductions à partir des données enregistrées ? Il faut donc mettre en place despolitiques claires sur l’utilisation, l’archivage et la mise à jour des modèles. Il faudraétablir des standards de services et de qualité de services à propos de la sécurité et dupartage entre données privées/publiques. Il est probable qu’il faudra développer desserveurs de modèles utilisateurs indépendants des services proposés afin d’assurer unminimum d’indépendance entre l’archivage, l’utilisation, la mise à jour et lesfournisseurs de services.

Il serait donc intéressant d’avoir des services muni de « certificats » qui assurentune qualité de service et de confidentialité conforme à des standards établis. Chaqueclasse de service aura des méta-données conformes à leur « certification » et qui serontainsi accessible par des moteurs de recherche utilisant les schémas de méta-donnéesadéquats qui devront être à disposition sur internet.

4.3 LA RECHERCHE D’INFORMATION

Dans l’avenir, il existera très certainement plusieurs ontologies sur le mêmedomaine ou ayant le même objectif. Elles vont devoir coexister et collaborer. En effet,il est difficile de mettre tout d’accord avec une unique ontologie dans certainsdomaines. Il sera donc nécessaire d’aider les utilisateurs à poser une requête parsélection d’une ou plusieurs ontologies pour un domaine donné ou par propositionde différents vocabulaires. Il en est de même pour la transformation d’une requête enune autre fonction des ressources hétérogènes disponibles sur le réseau et de leurmodélisation. Il s’agit ici de développer des systèmes médiateurs capables d’établir lescorrespondances entre différentes modélisation d’un domaine.

Pour la recherche d’information adaptative, Il serait également important d’êtrecapable de filtrer des ressources et/ou d’annoter et/ou de classer des ressources enfonction de modèles utilisateur (situation géographique, tâche courante, préférences,support physique ou nature du réseau de transmission). Pour cela, il faut développer

Page 97: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

6 – Adaptation et personnalisation dans le Web sémantique

89

des méthodes d’évaluation des ressources qui devront prendre en compte des schémasde méta-donnés, des modèles utilisateur et des méthodes d’adaptation qui devronttous être « standardisés » - ontologies pour les schémas de méta-données, les modèlesutilisateurs et les modèles d’adaptation.

4.4 SERVICES ET DOCUMENTS ADAPTATIFS /PERSONNALISABLES

Pour fournir des services et documents adaptatifs aux utilisateurs, il est nécessaired’être capable de construire dynamiquement ces services et ces documents à partir deressources, d’une spécification du service ou document, d’un modèle utilisateur et deméthodes d’adaptation et d’évaluation des ressources. Du point de vue desfournisseurs de services ou documents, il est important d’avoir des méthodes decréation et de maintenance, les plus automatisables possible. Pour cela, il faut doncétudier l’apport des ontologies, des méta-données et des mécanismes d’inférence quiassurent cette automatisation.

Pour l’adaptation, les relations entre les méta-données, la granularité et les modèlesutilisateurs jouent un rôle important. Par exemple, l’adaptation se fait-elle par le choix– filtrage - d’un document ou service pertinent ou par la sélection d’une partie duservice ou document, certains types de méta-données sont-elles dédiés à l’adaptation ?Est-ce un invariant pour tous les services ou documents ou dédiés à certaines classesde services ou documents ? etc. La standardisation et/ou la description sémantique deces relations entre modèles utilisateurs, méta-données, granularité et adaptation devraitassurer une bonne réutilisation de ces services et documents adaptatifs.

Du coté des auteurs/concepteurs, il est nécessaire de développer des environnementsqui permettent autant que possible de voir le système auteur comme une « Glass Box »afin que ceux-ci soient en mesure de connaître le comportement du système à partirde leur spécification et plus particulièrement pour l’adaptation. En effet, un systèmepeut potentiellement engendrer une infinité de services ou documents réels. Pour cela,il faut analyser en quoi l’utilisation des ontologies et du raisonnement peu faciliter lestâches des auteurs et quelles sont les IHM les plus pertinents et comment pourrait-onles engendrer dynamiquement à partir de leur description à un niveau sémantique. ILest en effet tout à fait possible d’utiliser les principes des DVP pour la créationd’interface adaptative. Là encore, l’utilisation de description au niveau sémantiquedevrait permettre une mise en œuvre plus rapide et une meilleure réutilisation.

Pour chaque service, ses politiques d’adaptation et les modèles utilisateur requisdoivent être clairement identifié afin qu’un modèle « global » de l’utilisateur soit misà jour sans dupliquer certaines données déjà présentes et non spécifiques à un service.Il faut donc pour cela établir des schémas de méta-données particuliers et/ou descatégories de schémas.

4.5 ERGONOMIE DES SERVICES ET DOCUMENTS

Pour l’ergonomie des services et des documents, il est nécessaire de développer desrecherches dans les domaines de la sociologie, de la psychologie cognitive et del’ergonomie cognitive sur les aspects suivants :

- Évaluation de l’utilisabilité, de l’utilité, de l’acceptabilité et de l’ergonomiedes services et documents.

- Études sur la présentation de l’information, les formats et la compréhension,…

RÉFÉRENCES

Page 98: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

90

ARAGÃO V. R., FERNANDES A. A. A. et al. (2001). Towards an Architecture for Personalizationand Adaptivity in the Semantic Web. Proc. 3rd. Intl. Conf. on Information Integration &Web-Based Applications & Service, IIWAS 2001, Linz, Austria. Austrian ComputerSociety: 139-149.

BRA P. D. (1999). Design issues in adaptive hypermedia application development. Workshop onAdaptive Systems and User modeling on the World Wide Web , Toronto & Banff.

BRÉZILLON P. (2002). Hors du contexte, point de salut. S. O. Communicants". Autrans, France.

BRUSILOVSKY P. (1996). “Methods and techniques of adaptive hypermedia.” User Modeling andUser-Adapted Interaction 6 (2-3): 87-129.

BRUSILOVSKY P. (2001). “Adaptive Hypermedia.” User Modeling and User-Adapted Interaction11 : 87-110.

BRUSILOVSKY P., EKLUND L. et al. (1998). Web-based Education for all: A tool for developmentadaptive courseware. Seventh International World Wide Web Conference. ComputerNetworks and ISDN Systems, (30): 291-300.

BRUSILOVSKY P., SCHWARZ E. et al. (1996). ELM-ART: An intelligent tutoring system onWorld Wide Web. Third International Conference on Intelligent Tutoring Systems, ITS-96, Montreal: 261-269.

CONKLIN J. (1987). “Hypertext: An introduction & Survey.” IEEE Computer, 20(9):17--41

FORTIER J. Y. & KASSEL G. (2002). Génération de documents virtuels personnalisés à partir demodèles de connaissances. Documents Virtuels Personnables 2002, Brest, 10-11 Juillet,S. Garlatti, M. Crampes, ENST Bretagne: 115-126.

FRAISSÉ S. (1997). Une approche systèmatique pour la conception de documents hypermédias.Hypertextes et Hypermédia. J. P. Balpe, A. Lelu, M. Nanard & I. Saleh, Hermes: 249-260.

FRASSINCAR F. & HOUBEN G.-J. (2002). Hypermédia Presentation Adaptation on the SemanticWeb. Adaptive Hypermedia and Adaptive Web-Based Systems, Malaga, Springer Verlag,Lecture Notes in Computer Science: 133-142.

GARLATTI S. (1999). Adaptive Web Server for On-line Information Systems. 5th EuropeanSummer School , EUNICE’99, Barcelone.

GARLATTI S. & IKSAL S. (2000). Concept Filtering & Spatial Filtering in an AdaptiveInformation System. Adaptive Hypermedia & Adaptive Web-Based Systems. P.Brusilovsky, O. Stock & C. Strapparava. Trento, Springer Verlag: 315-318.

GARLATTI S., IKSAL S. et al. (1999). Adaptive On-line Information System by means of a TaskModel & Spatial Views. Second Workshop on Adaptive Systems & User Modeling onthe World Wide Web , Toronto & Banff, Eindhoven University of Technology.

GRUBER T. R., VEMURI S. et al. (1996). Model-based Virtual Document Generation, KnowledgeSystems Laboratory, KSL-96-16.

IKSAL S. (2002). Spécification Déclarative et composition sémantique pour des documents virtuelspersonnalisables. Thèse IASC . Brest, ENST Bretagne.

IKSAL S. & GARLATTI S. (2001). Revisiting and Versioning in Virtual Special Reports.Hypermedia: Openness, Structural Awareness and Adaptivity, Third Workshop onAdaptive Hypertext & Hypermedia . S. Reich, M. M. Tzagarakis and P. D. Bra. Åarhus,Denmark, Springer Verlag: 264-279.

IKSAL S., GARLATTI S. et al. (2001). Semantic composition of special reports on the Web: Acognitive approach. Hypertextes and Hypermédia H2PTM’01. P. Balpe, S. Lelu-Merviel,I. Saleh & J.-M. Laubin, Hermès: 363-378.

KAHENEMAN D. (1973). Attention & Effort. Englewood Cliffs, Prentice Hall.

KOBSA A. & WAHLSTER W. (1989). User Models in Dialog Systems, Springer Verlag.

MCTEAR M. F. (1993). “User modelling for adaptive computer systems: a survey of recentdevelopments.” Artificial Intelligence Review 7 : 157-184.

Page 99: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

6 – Adaptation et personnalisation dans le Web sémantique

91

MILOSAVLJEVIC M., VITALI F. et al. (1999). Introduction of the virtual document workshop.Workshop on Virtual Document, Hypertext Functionality & the Web , Toronto.

OBERLANDER J. & MILASAVLJEVIC M. (1997). Flexible Hypertext - introduction. Hypertext’97,Proceedings of Flexible Hypertext Workshop , Southampton, UK.

OSSENBRUGGEN J. R. V., HARDMAN H. L. et al. (2001). Hypermedia and the semantic web: aresearch agenda, Centrum voor Wiskunde in Informatica.

RANWEZ S. & CRAMPES M. (1999). Conceptual document and hypertext documents are twodifferent forms of virtual document. Workshop on Virtual Document, HypertextFunctionality and the Web , Toronto.

RICH E. (1989). Stereotypes and user modeling. user models in dialog systems. A. Kobsa & W.Wahlster. Berlin, Springer verlag: 35-51.

THÜRING M., HANNEMANN J. et al. (1995). “Hypermedia & Cognition: Designing forComprehension.” Communication of the ACM 38 (8): 57-66.

TRICOT A. & NANARD J. (1997). Un point sur la modélisation des tâches de recherched’informations dans le domaine des hypermédias. Hypertextes and Hypermédia. J. P.Balpe, A. Lelu, M. Nanrd & I. Saleh, Hermes: 35-56.

VASSILEVA J. (1996). “A Task-Centered Approach for user Modeling in a hypermedia OfficeDocumentation system.” User Models & User Adapted Interaction (6): 185-223.

WATTERS C. & SHEPHERD M. (1999). Research issues for virtual documents. Workshop onVirtual Document, Hypertext Functionality & the Web , Toronto.

Page 100: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation
Page 101: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

93

7 – Les web services sémantiquesPatrick Kellert et Farouk Toumani

Laboratoire LIMOS - UMR (6158) du CNRSISIMA - Campus des Cezeaux - B.P. 125

63173 AUBIERE CedexEmail : [email protected] et [email protected]

Résumé

Les web services sémantiques se situent à la convergence de deux domaines derecherche importants qui concernent les technologies de l’Internet, à savoir le websémantique et les web services. Ce chapitre s’efforce de définir le concept de webservice sémantique et son apport potentiel aux technologies existantes (web serviceset workflow). Un recensement des problématiques de recherche actuelles est proposéet des directions pour les recherches futures dans ce domaine sont suggérées.

Mots-c lés : Web services, Web sémantique, Ontologies, QoS, E-Workflow.

1 PRÉSENTATION ET IMPORTANCE DE LAPROBLÉMATIQUE DU POINT DE VUE DES USAGES

Les web services sémantiques (DAML Services Coalition, 2002 ; Fensel et al.,2002 ; McIlraith et al., 2001) se situent à la convergence de deux domaines derecherche importants qui concernent les technologies de l’Internet : le Websémantique et les web services. Le Web sémantique s’intéresse principalement auxinformations statiques disponibles sur le Web et les moyens de les décrire de manièreintelligible pour les machines (cf. l’introduction et le chapitre 2 sur les langages). Lesweb services, quant à eux, ont pour préoccupation première l’interopérabilité entreapplications via le Web en vue de rendre le Web plus dynamique.

La notion de «web service» désigne essentiellement une application (unprogramme) mise à disposition sur Internet par un fournisseur de service, et accessiblepar les clients à travers des protocoles Internet standards (Fensel et al., 2002 ; Casati &

Page 102: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

94

Shan, 2001). Des exemples de services actuellement disponibles concernent lesprévisions météorologiques, la réservation de voyage en ligne, les services bancairesou des fonctions entières d’une entreprise comme la mise en œuvre de la gestion de lachaîne logistique.

Le consortium W3C (http://www.w3.org/2002/ws/) définit un web service commeétant une application ou un composant logiciel qui vérifie les propriétés suivantes :

- Il est identifié par un URI ;- Ses interfaces et ses liens (binding) peuvent être décrits en XML ;- Sa définition peut être découverte par d’autres web services ;- Il peut interagir directement avec d’autres web services à travers le langage

XML et en utilisant des protocoles Internet.

L’objectif ultime de l’approche web services est de transformer le Web en undispositif distribué de calcul où les programmes (services) peuvent interagir demanière intelligente en étant capables de se découvrir automatiquement, de négocierentre eux et de se composer en des services plus complexes (Fensel et al., 2002 ;McIlraith et al. 2001). En d’autres termes, l’idée poursuivie avec les web services, estde mieux exploiter les technologies de l’Internet en substituant, autant que possible,les humains qui réalisent actuellement un certain nombre de services (ou tâches), pardes machines en vue de permettre une découverte et/ou une composition automatiquede services sur l’Internet. L’automatisation est donc un concept clé qui doit êtreprésent à chaque étape du processus de conception et de mise en œuvre des webservices. Comme mentionné dans (Casati & Shan, 2001 ; Fensel et al., 2002),l’automatisation est essentielle pour intégrer les facteurs suivants :

- Passage à l’échelle : il faut être capable de traiter un nombre important deweb services (annuaire de services au niveau mondial).

- Forte réactivité dans un environnement hautement dynamique.- Réduction des coûts de développement et de maintenance des web services.

On peut de plus rajouter les facteurs suivants:- Forte adaptabilité facilitant la maintenance et l’évolution des web services : il

est vraisemblable que vu l’enjeu que représente leur réussite et de par leurorientation métier, les web services créés seront amenés à être modifiésfréquemment.

- Prise en compte de critères de qualité de services aussi bien d’un point de vuequalitatif que quantitatif : il est clair que la plupart des critères de qualité deservices proposés actuellement (e.g., le prix) ne prennent pas en compte desaspects qualitatifs (e.g., la notion de réputation d’un fournisseur (Maximilien& Singh, 2001)).

Or la plupart des travaux existants qui s’intéressent à l’intégration fonctionnelleévite le problème fondamental de l’automatisation des différentes étapes liées à lafourniture d’un web service (par exemples, découverte et composition) puisqu’ilslimitent l’usage des web services aux utilisateurs humains plutôt qu’aux machines. Eneffet, de nombreuses connaissances, indispensables pour l’automatisation des services,sont soit absentes, soit décrites pour être interprétées et exploitées par des humains. Ilen résulte un rôle prédominant pour le programmeur humain. Il semble doncnécessaire de tendre vers des services intelligibles pour des machines : c’est le conceptde web service sémantique.

Le besoin d’automatisation du processus de conception et de mise en œuvre desweb services rejoint les préoccupations à l’origine du Web sémantique, à savoircomment décrire formellement les connaissances de manière à les rendre exploitablespar des machines. En conséquence, les technologies et les outils développés dans lecontexte du Web sémantique peuvent certainement compléter la technologie des web

Page 103: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

7 – Les web services sémantiques

95

services en vue d’apporter des réponses crédibles au problème de l’automatisation.Par exemple, la notion d’ontologie peut jouer un rôle prépondérant pour permettred’expliciter la sémantique des services facilitant ainsi les communications hommes-machines, d’une part, et les communications machines-machines, d’autre part.

De manière générale, l’objectif visé par la notion de web services sémantiques estde créer un Web sémantique de services dont les propriétés, les capacités, les interfaceset les effets sont décrits de manière non ambiguë et exploitable par des machines et ceen utilisant les couches techniques sans pour autant en être conceptuellementdépendants. La sémantique ainsi exprimée permettra l’automatisation desfonctionnalités suivantes qui sont nécessaires pour une collaboration inter-entreprisesefficace :

- Processus de description et de publication des services ;- Découverte des services ;- Sélection des services ;- Composition des services ;- Fourniture et administration des services ;- Négociation des contrats.

2 MÉTHODES, TECHNIQUES, OUTILS EXISTANTS SURLESQUELS ON PEUT S’APPUYER

Les web services tendent à devenir un domaine de recherche à part entière quisuscite beaucoup d’intérêt de la part de chercheurs de communautés très variées. Onpeut citer à titre d’exemple, le génie logiciel, les workflows, les bases de données, lamodélisation d’entreprises, la représentation des connaissances ou les multi-agents.Cependant, on constate aujourd’hui que la littérature scientifique traitant des webservices est trop dispersée. Il en résulte une absence d’unification et d’intégration deses concepts rendant, tout au moins actuellement, difficile une appréhension globale etsynthétique de ce domaine. Ce phénomène est accentué par la diversité (et parfoisl’inconsistance) des visions proposées par les différentes communautés de recherche.En effet, à l’exception du consensus constaté autour de l’infrastructure de base qui neconcerne que les couches basses de la pile des web services (descriptions techniquespour assurer l’interopérabilité), des divergences de vues sur le rôle et le contenu descouches hautes de la pile (e.g., les relations entre les web services, les businessprocesses et les workflows) apparaissent clairement dans la littérature. Ce point estimportant car il interpelle directement les problèmes d’intégration de processusd’entreprises, i.e., une intégration effectuée à un haut niveau d’abstraction ens’appuyant sur la sémantique des services. Ce type d’intégration constitue un desapports les plus prometteurs de l’approche web services. C’est la raison pour laquelle,dans la suite de cette section, nous présentons d’abord l’infrastructure de base desweb services. Nous abordons ensuite, à travers la notion de pile conceptuelle des webservices, les différents problèmes liés à la définition et la modélisation des contenusdes couches hautes de cette pile.

Techniquement, un web service peut donc être perçu comme étant une interfacedécrivant une collection d’opérations accessibles via le réseau à travers des messagesXML standardisés. D’un point de vue technique, la description d’un web serviceinclut tous les détails nécessaires à l’interaction avec le service comme, par exemples,le format des messages, les signatures des opérations, le protocole de transport et lalocalisation du service. Les web services s’appuient sur des mécanismes et desprotocoles standards et sont donc indépendants des langages de programmation (Java,

Page 104: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

96

J#, C++, Perl, C#, etc.), du modèle objet (COM, EJB, etc.) ainsi que des plates-formesd’implémentation (J2EE, .NET, etc.).

2.1 ARCHITECTURE DE RÉFÉRENCE

Les efforts de recherche et de développement récents autour des web services ontconduit à un certain nombre de spécifications qui définissent aujourd’huil’architecture de référence des web services. Cette architecture vise trois objectifsimportants (http://www.w3.org/2002/ws/) : (i) identification des composantsfonctionnels, (ii) définition des relations entre ces composants et (iii) établissementd’un ensemble de contraintes sur chaque composant de manière à garantir lespropriétés globales de l’architecture.

L’architecture de référence des web services (cf. figure X1) s’articule autour destrois rôles suivants :

- Le fournisseur de service : correspond au propriétaire du service. D’un pointde vue technique, il est constitué par la plate-forme d’accueil du service.

- Le client : correspond au demandeur de service. D’un point de vue technique,il est constitué par l’application qui va rechercher et invoquer un service.L’application cliente peut être elle-même un web service.

- L’annuaire des services : correspond à un registre de descriptions de servicesoffrant des facilités de publication de services à l’intention des fournisseursainsi que des facilités de recherche de services à l’intention des clients.

Les interactions de base entre ces trois rôles incluent les opérations de publication,de recherche et de liens (bind) d’opérations. Nous décrivons ci-dessous un scénariotype d’utilisation de cette architecture. Le fournisseur de services définit la descriptionde son service et la publie dans un annuaire de service. Le client utilise les facilités derecherche disponibles au niveau de l’annuaire pour retrouver et sélectionner unservice donné. Il examine ensuite la description du service sélectionné pour récupérerles informations nécessaires lui permettant de se connecter au fournisseur du service etd’interagir avec l’implémentation du service considéré.

Client§ Recherche/localisation§ Lier(bind)/connecter§ Invocation

service/méthodes

1- Publier (WSDL)

4- invoquer (SOAP)

3- Lier/connecter

2- Rechercher WSDLAnnuaire de services

(e.g., UDDI)

Fournisseur de services§ Implémentation§ Déploiement§ Description et publication

FIG. 1- Architecture des web services.

Page 105: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

7 – Les web services sémantiques

97

Pour garantir l’interopérabilité des trois opérations précédentes (publication,recherche et lien), des propositions de standards ont été élaborées pour chaque typed’interactions. Nous citons, notamment les standards émergents suivants :

- SOAP définit un protocole de transmission de messages basé sur XML.- WSDL introduit une grammaire commune pour la description des services.- UDDI fournit l’infrastructure de base pour la publication et la découverte des

services.

L’infrastructure de base autour de ces standards répond aux problèmesd’intégration technique des applications. En effet, contrairement aux approchesd’intégration classiques qui ne sont pas exemptes d’inconvénients (Stal, 2002) (e.g.,les EAI qui sont des applications propriétaires), les web services proposent uneapproche flexible et ‘universelle’ pour l’intégration de systèmes hétérogènes ens’appuyant sur un modèle d’intégration basé sur un couplage faible des composants(peer-to-peer) et en exploitant de manière intensive les standards du Web. Ceci a poureffet de permettre une intégration des applications plus rapide et moins coûteuse etavec des perspectives d’évolution et de réutilisation réelles pour les entreprises.

Cependant, cette infrastructure n’est pas suffisante pour permettre une utilisationeffective des web services dans les domaines dont les exigences vont au-delà de lacapacité d’interactions simples via des protocoles standards. Par exemple, dans ledomaine du e-business, cette utilisation est motivée par les possibilités de coopérationet de coordination entre des entreprises telles qu’on peut les percevoir dans la mise enœuvre de la gestion d’une chaîne logistique (eSCM) ou celle de la gestion desrelations clients (eCRM). Le challenge est alors d’être capable de spécifier et demettre en œuvre des business processes intra ou inter entreprises. Ceci pose doncfondamentalement un problème d’intégration fonctionnelle des activités d’entreprisesqui dépasse la simple capacité d’interactions via des protocoles standard. Pour desraisons de cohérence du discours, nous introduisons dans la section suivante laproblématique de l’intégration inter-organisationnelle ainsi que ses concepts sous-jacents proposés dans la littérature.

2.2 PROBLÉMATIQUE DE L’INTÉGRATION

Les entreprises actuelles sont organisées en silos fonctionnels (ou par fonction) ets’avèrent, de fait, très inefficaces lorsqu’il s’agit de coordonner les flots de processusentre leurs différentes fonctions. La nécessité de les rendre réactives à leurenvironnement et performantes, les conduit de plus en plus à migrer vers uneorganisation transfonctionnelle (ou horizontale ou orientée processus) (Garvin, 1998).Le décloisonnement de ces silos revient en conséquence à définir des objectifscommuns aux activités d’une entreprise : ce but peut être efficacement atteint via laspécification des processus opérationnels (business processes) de l’entreprise(Vernadat, 1993 ; Vernadat, 1996), voire, dans le cas d’une entreprise étendue, desprocessus opérationnels inter-entreprises ou inter-organisationnels38 (Klingemann etal., 1998 ; Grefen et al., 2000). Selon le consortium « Workflow ManagementCoalition » (WfMC : www.wfmc.org), un processus opérationnel est un ensemble deune ou plusieurs activités liées qui réalisent collectivement un objectif d’entreprise,normalement dans le contexte d’une structure organisationnelle définissant les rôlesfonctionnels et les associations. Plus concrètement, au niveau organisationnel, unprocessus opérationnel est une structure logique indépendante des frontières établiespar la hiérarchie de l’entreprise, qui exprime un regroupement d’activités ou de sous-processus réalisés par les différents départements (ou services) de l’entreprise. End’autres termes, plutôt que de décrire les fonctions des services de l’entreprise en

38 Un processus opérationnel inter-organisationnel est un processus organisationnel dont au moins une activité est sous-traitée par une organisation différente de celle qui est propriétaire de ce processus opérationnel.

Page 106: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

98

termes d’activités non nécessairement liées, on identifie un ensemble d’activités, issuesde fonctions diverses, mais résumées autour de la réalisation d’un objectif commun.Via cette approche par processus, on a une vue dynamique de comment uneorganisation crée (ou non) de la valeur ajoutée. Mais la complexité des processusd’une entreprise est telle qu’il s’avère indispensable de les modéliser. Cette tâche peutelle-même s’avérer très complexe. C’est pourquoi la communauté des chercheursd’Ingénierie d’Entreprise s’est efforcée, au cours des années 1990, de proposer desméthodologies de modélisation de processus d’entreprise intégrée implantées dansdes architectures logicielles dont les plus reconnues sont ARIS (Scheer, 1992 ; Scheer,1999 ; Scheer, 2000), CIMOSA (Vernadat, 1996), PERA (Williams, 1994) ou encoreGERAM (Williams, 1995). Une fois les processus opérationnels d’une entreprisemodélisés, l’étape suivante consiste à transcrire ces modèles en une forme(informatique) exécutable qui permet de suivre et de contrôler l’exécution desprocessus. Cette problématique de coordonner des activités issues de différentesfonctions autour d’un objectif commun, interpelle directement la notion de travail degroupe39 supporté par un système de gestion de workflow (WfMS) ou systèmeworkflow ou encore système de gestion de processus (opérationnels). Un WfMSpermet la définition et la création et la gestion de l’exécution des workflows quiautomatisent (tout ou en partie) les processus opérationnels, ces derniers étant, dans lescas les plus complexes, des processus opérationnels inter-entreprises. La gestion d’unprocessus prend également en charge la coordination et la synchronisation desdifférents acteurs — ou agents : humains, machines autonomes ou applicationslogicielles — du processus (attribution à chaque acteur et au bon moment, des tâchesdont il a la responsabilité avec les ressources — moyens inertes : machines, outils,véhicules… — et les informations qui lui sont nécessaires).

Il est donc fondamental, dans le cas de workflows intégrés, de bien situer leur placepar rapport aux processus opérationnels. La technologie workflow s’appuiebeaucoup, en effet, sur la technique de modélisation puisqu’un workflow se doitd’implanter un modèle en répondant, en particulier, aux questions suivantes :

- Quelles sont les activités à réaliser ?- Quelles sont les compétences nécessaires pour réaliser ces activités ?- Quand faut-il réaliser ces activités ?- Quels sont les outils et les informations nécessaires à la réalisation de ces

activités ?

En d’autres termes, pour espérer implanter efficacement un processus opérationneldans un souci d’intégration via un workflow, il s’avère indispensable de modéliser ceprocessus avant de modéliser le workflow (Bussler, 1996). Les modèles de processusopérationnels relèvent, en effet, de l’intégration fonctionnelle, tandis que les modèlesde workflows relèvent de l’intégration technique. Grosso-modo, un système degestion de workflow est aux processus opérationnels ce qu’un système de gestion debase de données est aux données (Stohr & Zhao, 2001, p. 283). Le consortiumWfMC propose la définition suivante d’un workflow : « un workflow est un processusd’une organisation, gérable par un outil workflow. Il est établi dans le but principald’automatiser l’exécution du processus, mais il peut aussi servir à le simuler et àl’analyser ». Toujours selon le WfMC : « un système workflow définit, gère et réalisedes procédures en exécutant des programmes dont l’ordre d’exécution est prédéfinidans une représentation informatique de la logique de ces procédures — lesworkflows ». (Stohr & Zhao, 2001) font le point sur les problèmes posés lors de

39 La notion de travail de groupe supporté par un outil de type système workflow est différente de celle de travail engroupe supporté par un outil de type collecticiel. La différence entre système workflow et collecticiel, est que lessystèmes workflow prennent efficacement en charge la communication asynchrone entre les activités — c’est la priseen charge du processus en cours —, contrairement aux collecticiels qui eux, privilégient l’aspect communicationsynchrone — c’est la prise en charge de l’activité en cours.

Page 107: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

7 – Les web services sémantiques

99

l’automatisation des workflows. (McCready, 1992) identifie trois catégories desystèmes workflows, à savoir :

- Les systèmes workflows administratifs (General Purpose WorkflowManagement Systems) qui implantent des processus administratifs. Lesworkflows obtenus sont répétitifs, à forte prédictibilité, à structure simple etsans grande complexité. De plus, ils subissent très rarement des modifications.

- Les systèmes workflows Ad hoc qui permettent la gestion de processus nonstructurés ou peu structurés dans le sens où les tâches peuvent ne pas êtreconnues lors de l’activation d’un workflow. Un processus non structuré est,par essence, très difficile à automatiser. Ils sont essentiellement utilisés pourles besoins d’un travail collaboratif, pour la co-décision, les acteurs étant leshumains.

- Les workflows transactionnels permettent la gestion de processus et de tâchesstructurellement complexes (en particulier, les activités des processus sontréparties sur plusieurs sites). Ces processus sont à forte valeur ajoutée etréalisent le traitement d’un important volume de transactions. La mise enœuvre d’un workflow transactionnel nécessite l’interrogation de plusieurssystèmes d’information hétérogènes et distribués. De par leur orientationmétier, les processus réalisés par ces workflows transactionnels, sont appelés àêtre fréquemment modifiés.

Dans la suite, nous ne nous intéressons qu’aux systèmes workflows transactionnelsinter-organisationnels40 (Klingemann et al., 1998) qui interpellent directement lecontexte des web services.

(Stal, 2002) souligne qu’actuellement, les solutions pour résoudre les problèmesd’intégration technique d’entreprises s’appuient beaucoup sur la technologie EAI.Or, les solutions EAI sont, par essence, des solutions propriétaires, c’est-à-dire dédiéesà la résolution de problèmes spécifiques, complexes à utiliser et qui ne peuvent pasbien interopérer les unes avec les autres. Par exemple, quand plusieurs entreprisesintègrent des systèmes qui sont eux-mêmes intégrés en utilisant des EAI, lesdéveloppeurs sont confrontés au problème récursif d’intégrer des solutions elles-mêmes intégrées. Dans un environnement très versatile où les intégrationsfonctionnelle et technique doivent quasiment être réalisées au fil de l’eau, il estévident que la technologie EAI ne peut prétendre avoir l’ambition de s’imposer, neserait-ce que parce qu’elle exige une forte composante humaine avec des temps deréaction très longs. Contrairement aux web services qui intrinsèquement peuvent êtreconçus pour être indépendants des technologies hétérogènes des partenaires d’uneorganisation virtuelle.

On comprend alors mieux pourquoi l’infrastructure de base des web services n’estpas suffisante pour répondre de manière satisfaisante à cette problématique del’intégration. Cette dernière, en effet, exige, par essence, la définition d’un protocolequi permet aux activités intra et/ou inter entreprises composant un processus, d’êtrecohérentes relativement à une organisation afin d’atteindre l’objectif visé. Il s’avèredonc nécessaire d’étendre l’architecture de base des web services comme présentédans la section suivante.

2.3 ARCHITECTURE ÉTENDUE

Différentes extensions de l’architecture de référence ont été proposées dans lalittérature. Le groupe architecture du W3C travaille activement à l’élaboration d’unearchitecture étendue standard.

40 Un workflow inter-organisationnel est l’implantation d’un processus opérationnel inter-organisationnel.

Page 108: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

100

Une architecture étendue est constituée de plusieurs couches se superposant lesunes sur les autres, d’où le nom de pile des web services. La figure X2 décrit unexemple d’une telle pile. La pile est constituée de plusieurs couches, chaque couches’appuyant sur un standard particulier. On retrouve, au-dessus de la couche detransport, les trois couches formant l’infrastructure de base décrite précédemment.Ces couches s’appuient sur les standards émergents SOAP, WSDL et UDDI.

Comme mentionné précédemment, l’infrastructure de base définit les fondementstechniques permettant de rendre les business processes accessibles à l’intérieur d’uneentreprise et au-delà même des frontières d’une entreprise. Dans ce contexte deuxtypes de couches permettent de la compléter : (i) les couches dites transversales(Gottschalk et al., 2002) (e.g., sécurité, administration, transactions et qualité deservices (QoS)) rendent viable l’utilisation effective des web services dans le mondeindustriel ; (ii) une couche Business processus permet l’utilisation effective des webservices dans le domaine du e-business. Dans la suite, nous nous intéresserons qu’à lacouche business processus pour laquelle, on peut relever dans la littérature, lesproblèmes sous-jacents suivants :

- comment les business processes peuvent-ils être représentés comme des webservices ?

- nécessité de décrire comment les web services sont utilisés pour implanter lesactivités d’un business process.

- les problèmes de composition de service, i.e., quel(s) partenaire(s) va (vont)exécuter quelle(s) partie(s) d’un business process ?

Différents auteurs de la communauté de recherche s’accordent sur la nécessité despécifier le comportement externe de chaque partie impliquée dans le protocoled’intégration de processus (partie publique) sans pour autant révéler leursimplémentations internes (partie privée). Deux raisons justifient cette séparation :

1 Les entreprises ne tiennent pas forcément à révéler leurs prises de décisionsinternes et souhaitent préserver la confidentialité de leurs données.

ADMINISTRATION

TransportHTTP/HTTPR, SMTP/MIME, MOM/JMS …

ExchangeSOAP

DescriptionWSDL

DiscoveryUDDI

Business ProcessBPEL4WS, BPML, WSFL, … S

ECURITE

1 T

RANSACTIONS

Figure X2- Pile des web services

QoS

Page 109: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

7 – Les web services sémantiques

101

2 La séparation publique-privé permet de modifier la partie privéeindépendamment de la partie publique.

A cet effet, différents langages ont été proposés dans le but de décrire le processuspublic d’un service (e.g., WSCL) ou la spécification, de manière procédurale, de lacomposition de services (e.g., BPML (http://www.bpmi.org/), BPEL4WS (http://www-106.ibm.com/developerworks/library/ws-bpel/)).

3 TRAVAUX ET RÉSULTATS EXISTANTS AUTOUR DES WEBSERVICES SÉMANTIQUES ET RECHERCHES FUTURES

L’utilisation intensive des standards, d’une part, et celle du langage XML, d’autrepart, constituent les deux caractéristiques fondamentales de la technologie des webservices. Par conséquent, les différentes spécifications d’un web service peuvent êtrefacilement traitées par une machine. Par exemple, une description WSDL peut êtreautomatiquement analysée par un parseur XML pour générer un proxy client (i.e., lecode du stub client) facilitant ainsi la tâche du programmeur lors de l’implantation deson application. Cependant, le consensus sur la mécanique des interactions (e.g.,format des messages, types des données et protocoles d’échanges) n’est pas suffisantpour permettre aux web services d’interagir de manière claire et non ambiguë. Parexemple, deux descriptions XML identiques peuvent avoir des significationsdifférentes selon le contexte (Paolucci et al., 2002 ; http://www.w3.org/TR/webont-req).L’absence d’une sémantique explicite limite les possibilités d’automatisation des webservices (DAML Services Coalition, 2002 ; Fensel et al. 2002 ; Benatallah et al.,2003). Pour pallier cette limitation, il y a clairement un besoin de langages dedescriptions des services qui permettent de conférer une signification explicite et nonambiguë aux descriptions des web services. Par exemple, la nouvelle version dulangage WSDL préconisé par le W3C permet de définir la sémantique des termesutilisés dans une description WSDL en référençant des ontologies RDF. La figure X3ci-dessous reprend la pile des web services augmentée d’une couche représentant lasémantique. Cette couche peut être exploitée par les trois couches horizontalessupérieures (description, découverte et business processus) ainsi que par certainescouches verticales telles que les couches transactions ou QoS.

2

3

4

5

6

7

8

9

10

11

ADMINISTRATION

TransportHTTP/HTTPR, SMTP/MIME, MOM/JMS …

ExchangeSOAP

DescriptionWSDL

DiscoveryUDDI

Business ProcessBPEL4WS, BPML, WSFL, … S

ECURITE

12 T

RANSACTIONS

Figure X3- Pile des web services sémantiques

QoS

Page 110: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

102

Notons qu’une condition sine qua non pour permettre une automatisation effectivedes web services est que la sémantique de ces derniers soit décrite dans un langage quila rend intelligible pour une machine.

De manière générale, la problématique de l’automatisation sous-tend deux classesde problèmes :

- Problèmes de modélisation : il s’agit d’abord d’identifier et de classifier lesconnaissances pertinentes en fonction d’un ensemble de fonctionnalités visées(e.g., découverte, composition, évaluation des performances, etc.) puisd’étudier ensuite comment les décrire de manière formelle et standard. Dansce contexte, la notion d’ontologie en tant que conceptualisation formelle etconsensuelle d’un domaine donné, peut jouer un rôle important pour associerune sémantique formelle à la description d’un web service.

- Problèmes d’automatisation : il s’agit de développer des algorithmes et desmécanismes de raisonnement exploitant la sémantique des services pourautomatiser les différentes fonctionnalités (e.g., découverte de service,composition, évaluation de performances).

Nous décrivons ci-dessous quelques travaux de recherche relatifs à ces deux classesde problèmes.

3.1 MODÉLISATION DES SERVICES

3.1.1 DAML-S

DAML-S (DAML Services Coalition, 2002) est une ontologie de web services baséesur le langage DAML+OIL (Horrocks et al., 2002a ; Horrocks, 2002b). DAML-Sdéfinit un ensemble de classes et de propriétés spécifiques à la description desservices. Dans une description DAML-S, la section profile spécifie les informationsrelatives aux capacités d’un service. Elle consiste dans trois types d’informations :

- Une description du service compréhensible par les humains;- Le comportement fonctionnel du service représenté comme une

transformation des paramètres d’entrée du service vers ses paramètres desortie ;

- Plusieurs attributs fonctionnels qui spécifient des informationssupplémentaires relatives au service (e.g., prix du service).

Dans l’approche DAML-S, la section profile est utilisée à la fois par lesfournisseurs pour publier leurs services et par les clients pour spécifier leurs besoins.Par conséquent, elle constitue l’information utile pour la découverte et la compositionde services.

3.1.2 WSFM

WSFM est un cadre complet de description de services proposé dans le cadre duprojet européen SWWS41 . Il s’appuie sur les deux principes suivants :

- Découplage fort des divers composants qui réalisent une application decommerce électronique. Ceci implique une distinction claire entre lesdescriptions internes d’un service et ses descriptions publiques.

- Des mécanismes de médiation permettant un dialogue automatique entre lesdifférents composants. De tels mécanismes incluent la médiation entredifférentes terminologies ainsi que la médiation entre différents modèlesd’interaction.

41 http://swws.semanticweb.org

Page 111: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

7 – Les web services sémantiques

103

WSFM comprend quatre éléments principaux :Ontologies qui fournissent la terminologie utilisée par les autres éléments.Répertoire d’objectifs qui définit les problèmes qui doivent être résolus par les

web services.Descriptions des web services qui définissent les différents aspects liés aux web

services.Médiateurs qui sont en charge des problèmes d’interopérabilité.

Dans le cadre du projet SWWS, WSFM devrait être complété par la définition d’uncadre pour la découverte de services ainsi que des mécanismes de médiation pour lesweb services.

3.2 PROBLÈMES D’AUTOMATISATION

3.2.1 Découverte dynamique des services

On entend par découverte dynamique la possibilité de localiser automatiquementun web service qui répond à des besoins particuliers. Différentes approches ont étéproposées dans la littérature pour réaliser la découverte dynamique de services(Bernstein & Klein, 2002 ; Chakraborty et al., 2001 ; Gonzàlez-Castillo et al. 2001 ;Paolucci et al. 2002 ; Benatallah et al., 2003). Toutes ces approches implantent en faitune découverte approximative car il n’est pas réaliste d’imaginer qu’il y a toujoursun service qui correspond exactement aux besoins spécifiés. Ces approches diffèrentpar le langage de description de services utilisé (e.g., DAML-S, logique de description(Baader et al. 2003), …) et/ou par l’algorithme de découverte utilisé (matchmaking(Paolucci et al. 2002 ), test de subsumption (Gonzàlez-Castillo et al. 2001 ), réécriture(Benatallah et al., 2003)). Par exemple, (Bernstein & Klein, 2002 ) propose d’utiliserdes ontologies de processus pour décrire le comportement des services et définit unlangage d’interrogation de processus (Process Query Language) pour interroger cesontologies. (Chakraborty et al., 2001) définit une ontologie basée sur le langageDAML pour décrire des ressources mobiles et proposent un processus decorrespondance qui localise les ressources en fonction de leurs caractéristiques. Leprocessus de correspondance s’appuie sur des règles qui exploitent l’ontologie, lesprofils des services et la requête du client pour réaliser une correspondance à partirdes relations attributs-valeurs. Un moteur de raisonnement Prolog permet la mise enœuvre d’un tel processus de correspondance. D’autres approches basées sur unedescription DAML-OIL des services proposent d’exploiter les mécanismes deraisonnement fournis par DAML-OIL pour supporter la découverte dynamique desweb services. (Gonzàlez-Castillo et al. 2001) décrit une telle mise en œuvre danslaquelle l’algorithme de correspondance repose sur les tests de subsumption et deconsistance des descriptions. (Paolucci et al. 2002 ) propose un algorithme decorrespondance plus élaboré entre des services et des requêtes décrits en DAML-S.L’algorithme reconnaît différents degrés de correspondance qui sont déterminés parla distance minimale entre les concepts dans la taxonomie de concepts. De la mêmefaçon, le système ATLAS (Payne et al., 2001) opère sur des ontologies DAML-S etutilise deux ensembles séparés de filtres : (i) les attributs fonctionnels et (ii) les E/S desservices. Enfin, le projet MKBEEM (http://www.mkbeem.com) exploite les logiques dedescription pour décrire les ontologies de services et définit un algorithme dedécouverte de service basé sur la notion de réécriture de concepts (Hacid et al., 2002 ;Benatallah et al., 2003).

3.2.2 Composition des services

L’objectif de la composition de service est de créer de nouvelles fonctionnalités encombinant des fonctionnalités offertes par d’autres services existants, composés ounon en vue d’apporter une valeur ajoutée. Étant donnée une spécification de haut

Page 112: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

104

niveau des objectifs d’une tâche particulière, la composition de service implique lacapacité de sélectionner, de composer et de faire interopérer des services existants.Contrairement aux business processes « traditionnels » qui sont exécutés de manièreprévisible et répétitive dans un environnement statique, les web services composéss’exécutent dans un environnement versatile où le nombre de services disponiblesévolue très rapidement. De plus, la forte compétition engendrée par la multitude defournisseurs de services oblige les entreprises à adapter leurs services pour mieuxrépondre aux besoins des clients et ce à moindre coût. Comme le soulignent (Casati &Shan, 2001), ces deux facteurs imposent des contraintes fortes sur les systèmes quidélivrent des services composés. En conséquence, les business processes qui décriventdes services composés devront intégrer d’emblée ces contraintes en exhibant despossibilités réelles d’adaptabilité à leur environnement.

Des résultats concernant cette problématique commencent seulement à émerger.Les travaux existants s’intéressent à une modélisation abstraite des services et à ladéfinition d’un cadre formel pour les composés (Hull et al., 2003, Bultan et al.2003). Des travaux récents de la communauté Web sémantique (Narayanan &McIlraith, 2002 ; Hendler et al., 2003) commencent à explorer des approchescombinant des outils d’annotation de services et de planification de manière à pouvoircomposer automatiquement des services en vue d’atteindre des fonctionnalitésprédéfinies. Ce type d’approche constitue une alternative aux langages procédurauxde type BPEL4WS en permettant de générer l’implantation d’un service composite àpartir de spécifications déclaratives de son comportement. D’un autre côté, (Hull etal., 2003, Bultan et al. 2003) s’intéressent à la définition d’un cadre formelpermettant de mieux comprendre les relations entre les propriétés globales d’unservice composite et les propriétés locales de ses composants. La motivation étant dedévelopper des techniques de vérification et de synthèse (construction) des propriétésd’un service composite à partir des propriétés des de ses composants. Tous cestravaux tentent de ré-exploiter et d’étendre des techniques existantes, telles que leslogiques temporelles, l’algèbre des processus, les réseaux de Petri, la logique dessituations, etc.

3.3 ÉVALUATION DES PERFORMANCES DES WEB SERVICESSÉMANTIQUES

De manière générale, il existe deux types de critères de performance : ceux orientésutilisateur42 et ceux orientés système43 (Menascé & Almeida, 1998). La QoS d’unworkflow inter-organisationnel — comportant donc des services externes ou webservices — est un critère de performance orienté utilisateur. Puisque la QoS d’un telworkflow dépendra étroitement de celles des web services qui le composent, oncomprend aisément que la notion de qualité de web services devient prédominante. Ilconvient de distinguer la QoS opérationnelle44, proposée a priori aux clients etmesurée sur le système réel, de la QoS qualitative et quantitative45 elle aussi mesuréeet exploitée a posteriori pour comprendre comment améliorer les performances d’unweb service offert. La problématique abordée ici concerne l’analyse a priori aussibien qualitative46 que quantitative47 des performances d’un web service. Il est clair que

42 par exemple, le temps de réponse du système, c’est-à-dire le temps qui s’écoule entre la date de soumission d’untravail au système et celle de la fin d’exécution de cette tâche43 par exemple, le débit du système qui mesure le taux de productivité du système relativement à sa charge, ou encoreles taux d’occupation de ses ressources qui aident à identifier les goulets d’étranglement du système44 Sécurité, intégrité des informations, traçabilité des opérations, audits de sécurité, contrôle, filtrage et supervision desaccès45 délai, gigue ou variation du délai de bout en bout, débit maximum atteint, disponibilité ou taux moyen d’erreurs d’uneliaison46 absence de verrous mortels dans un web-service, validation d’un web-service ou test que le web-servicese comporte comme attendu, vérification de l’existence de certaines propriétés d’un web-service

Page 113: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

7 – Les web services sémantiques

105

tout industriel raisonnable qui entrevoit l’apport potentiel des technologies del’Internet en terme de bénéfices, n’acceptera d’y souscrire que s’il est capable, entreautres, d’évaluer a priori et objectivement les performances qualitatives et/ouquantitatives des web services (complexes ou non) qu’il souhaite proposer.

Concernant l’évaluation qualitative d’un workflow, ce sont les chercheurs de lacommunauté des réseaux de Petri (Diaz, 2001) qui sont le plus actifs. L’un desrésultats des plus intéressants est donné dans (Narayanan & MacIlraith, 2002)puisqu’il propose des solutions pour décrire, simuler, composer automatiquement,tester et vérifier la composition de web services décrits avec l’ontologie DAML-S. Ilss’intéressent donc — et c’est ce qui est novateur — à des web services sémantiques.Un processus composite décrit avec DAML-S, est traduit dans un langage de lalogique du premier ordre, puis cette spécification est elle-même représentée sansambiguïté par un réseau de Petri dont les propriétés sont étudiées par simulation.Cependant, même si les auteurs évoquent le problème de l’évaluation desperformances de la QoS d’un web service, il faut bien avouer que cet objectif leur estactuellement inaccessible, ne serait-ce que parce que les réseaux de Petri considérésn’intègrent ni le temps, ni le partage des ressources informatiques exécutant les webservices, la prise en compte de ces ressources étant prévue comme une extension deDAML-S.

Comme le souligne à juste titre (Cardoso et al. 2002), si la QoS a été unepréoccupation majeure, sinon fondamentale, de domaines tels que les réseaux (Cruz,1995 ; Georgiadis et al., 1996), les applications temps-réel (Clark et al., 1992) et lemiddleware (Zinky et al., 1997 ; Forlund & Koistinen, 1998 ; Hiltunen et al., 2000),peu de groupes de chercheurs se sont efforcés d’intégrer le concept de QoS dans lessystèmes de gestion de workflows à l’exception, peut-être, de (Moorsel, 2001 ;O’Sullivan et al., 2002 ; Zeng et al., 2003). En conséquence, très peu de travaux derecherche traitent du problème de l’évaluation des performances quantitatives de laQoS d’un workflow et, a fortiori, d’un workflow inter-organisationnel (donc de webservices). Or, le concept de QoS d’un workflow est devenu aujourd’huiincontournable pour certifier un workflow en termes de performances qualitative etquantitative, comme le montrent la création de modèles de qualité proposés par lanorme ISO 8402. Selon les auteurs, la QoS d’un workflow représente lescaractéristiques qualitatives et quantitatives d’une application workflow nécessairespour atteindre un ensemble d’objectifs prédéfinis. Toujours selon les auteurs, cettesituation est due, à l’absence de mécanismes dans les WfMS actuels permettant despécifier la QoS d’un workflow. Ils proposent donc un modèle de QoS d’unworkflow inter-organisationnel construit en définissant des métriques QoS des tâchespouvant composer un tel workflow. Les métriques QoS d’une tâche jugées pertinentessont le temps et le coût d’une tâche, ainsi que la fiabilité et la fidélité d’une tâche.

Force est de constater que l’exploitation d’un modèle d’évaluation desperformances d’un système, nécessite de disposer a priori des caractéristiques descomposants du modèle puisque ces caractéristiques sont les données d’entrée dumodèle. En ce qui concerne les web services, il faut connaître (au moins) des durées(moyennes) des activités, ainsi que la manière dont ces activités s’enchaînent, cetenchaînement pouvant être spécifié par des probabilités (dont les valeurs sontgénéralement supposées être indépendantes du temps). L’obtention descaractéristiques d’un web service n’est pas triviale puisque le fait qu’un web servicesoit exécuté par un fournisseur, conduit le client à une quasi-impossibilitéé deconnaître a priori ces caractéristiques. Une solution consiste alors à effectuer desmesures sur le système pour tenter, à l’aide de techniques statistiques, telles que cellesproposées par (Musa, 1993 ; Musa, 1999), d’estimer ces caractéristiques, puis de lesinjecter dans un modèle d’évaluation. (Cardoso et al., 2002) ont exploité cette 47 durée moyenne de réalisation d’un web-service, taux moyen d’échecs d’un web-service, coût moyend’un web-service

Page 114: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

106

technique pour alimenter le modèle QoS qu’ils proposent. Brièvement, leur modèlefournit une approche multidimensionnelle pour la découverte de web services et leurintégration à l’aide de métriques syntaxiques, sémantiques et comporte des métriquesopérationnelles principales (ou dimensions) qui sont le temps, le coût, la fiabilité et lafidélité, ces métriques étant calculées automatiquement. Selon les auteurs, ce modèleQoS offre la possibilité de construire des e-workflows interopérables grâce, enparticulier, à l’utilisation d’ontologies pour décrire les interfaces entre les tâches d’une-workflow et les web services exploités par ce e-workflow. Le modèle QoS proposépermet également de calculer la QoS d’un e-workflow à partir des attributs (oumétriques) de ses composants selon deux techniques : (i) en utilisant une modélisationmathématique (Cardoso, 2002a ; Cardoso, 2002b), qui est une méthode de réductionde workflow stochastiques qui consiste à appliquer un ensemble de règles deréduction à un workflow jusqu’à ce que ce workflow se réduise à une tâche atomique(Kochut et al., 1999), (ii) en utilisant la simulation aléatoire à événements discrets(Nair et al., 1996 ; Miller et al., 1997 ; Miller et al., 2000). Le choix d’une de cestechniques dépend essentiellement du compromis entre le temps de calcul des QoSd’un e-workflow et la qualité des résultats obtenus.

Dans (Klingemann et al., 1999 ; Klingemann et al., 1998), les auteurs proposentd’évaluer les performances quantitatives d’un web service avec des chaînes de Markovà temps continu et espace d’état discret. Le problème (fondamental) pour modéliserun service inter-organisationnel et en accord avec (Cardoso et al., 2002), est que l’onne le maîtrise pas explicitement. Il est donc nécessaire de collecter des informationsconcernant ce service pendant son exécution (ce service étant réalisé par unfournisseur de services). Une hypothèse forte est alors que le comportement observéd’un service représente son comportement futur (l’objectif étant de faire desprédictions). Dans ces travaux, un service est constitué d’un ensemble de tâche quipourront être activées lors d’une exécution de ce service. Les auteurs définissent l’étatd’un service (observé) comme l’ensemble des tâches actives d’un service à un instantdonné. L’exécution d’un service est alors modélisée par une chaîne de Markov dontles états sont obtenus à partir du journal de ce service et dont les caractéristiques sontcalculées par un processus d’agrégation des données (Klingemann et al., 1998).

Dans le contexte des web services sémantiques, la motivation de recherche résidedans la possibilité d’intégrer, dans un modèle d’évaluation des performances d’unweb service, des aspects sémantiques permettant d’identifier de nouveaux critères dequalité d’un web service et de retenir ces critères dans la mise en œuvre effective d’unweb service pour la découverte et la composition dynamique de web services.

L’aspect sémantique pour les web services n’est actuellement considéré par leschercheurs qu’au niveau des tâches d’un e-workflow. Il serait peut-être opportund’étendre ce concept de sémantique à d’autres fonctions de l’entreprise, c’est-à-direde réfléchir à quels peuvent être les impacts, par exemple financiers, des web servicessémantiques. Cela reviendrait alors à raisonner, non plus sur des critères deperformances d’un e-workflow, mais sur des indicateurs de performances perçuscomme pertinents par les décideurs d’une entreprise, indicateurs bien sûr qu’il resteaujourd’hui à identifier et à construire. Pour y parvenir, nous pensons qu’il devra êtrenécessaire d’intégrer, entre autres, la notion d’échelle de temps dans les ontologiesdes métriques QoS des web services sémantiques et d’étudier leurs conséquences surles problèmes d’évaluation qui ne manqueront pas de surgir lorsque l’échelle detemps des indicateurs et celles des critères se rapprocheront.

4 CONCLUSION

Aujourd’hui, les web services sémantiques constituent une voie prometteusepermettant de mieux exploiter les web services en automatisant, autant que possible,

Page 115: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

7 – Les web services sémantiques

107

les différentes tâches liées au cycle de vie d’un service. Ils apparaissent doncindispensables pour permettre une utilisation effective des web services dans desapplications industrielles (e.g., problème du passage à l’échelle, versatilité du Web,etc.). Ils posent aujourd’hui un certain nombre de problèmes, qui interpellentdifférentes communautés de recherche, aussi bien théoriques qu’appliqués. Lenombre de nouvelles revues, le volume important de publications et de projets dédiésà ce thème dénotent une vitalité réelle de ce domaine de recherche émergent.

Cependant, on remarque que la tendance actuelle des communautés de recherches’intéressant aux web services sémantiques est de ne pas tenir compte explicitementdes caractéristiques fondamentales des web services et de l’environnement dans lequelils doivent s’intégrer (e.g., les e-workflows). A notre avis, le succès de cette voie derecherche dépendra étroitement de sa capacité, entre autres, à tenir compte desfacteurs suivants :

- Les travaux de recherche devront intégrer le plus possible les caractéristiquesdes futurs standards actuellement en cours d’élaboration, les éditeurs delogiciels (e.g., IBM, Microsoft…) étant fortement impliqués dans cette tâche.Ils doivent donc s’efforcer d’exploiter/compléter ces futurs standards et nonpas ignorer leur existence ou les concurrencer. De la même manière, il estimportant de bien identifier les contraintes imposées par les fonctionsd’entreprise afin de resituer les problématiques de recherche.

- La volonté d’automatiser à outrance n’est certainement pas une voie réaliste.Certains travaux de recherche semblent faire abstraction de la complexité ducontexte de l’intégration de par les hypothèses simplificatrices fortes qu’ilsimposent dans leurs solutions. En effet, le contexte de l’intégrationfonctionnelle est tel que de nombreuses tâches doivent rester à la charged’humains. Il est, par exemple, illusoire de vouloir automatiser complètementla gestion d’une chaîne logistique. Par ailleurs, comme le souligne (Reijers,2003) pour les workflows, la dimension temps est une composantefondamentale à prendre en compte pour l’automatisation des web servicessémantiques. Dans ce sens, l’intégration d’un web service sémantique dans une-workflow n’a de sens que s’il est pertinent et réaliste d’automatiser lestâches de ce web service de sorte à apporter de la valeur ajoutée au e-workflow.

- Le concept de sémantique tel que défini dans le contexte du Web sémantique,i.e., décrire la sémantique de manière à la rendre intelligible pour lesmachines, semble trop restrictif. En effet, il est également très importantd’expliciter la sémantique des web services en vue de faciliter leur utilisationpar les humains, même pour les situations où l’automatisation ne semble pasréaliste. Il est notoire que dans le domaine des bases de données par exemple,les modèles sémantiques (e.g., le modèle Entité/Association de Chen) ont étéproposés à l’origine pour faciliter la compréhension de la sémantique desdonnées d’un système d’information par les humains. Ces modèles se sontavérés très utiles par la suite pour automatiser partiellement le processus deconception d’une base de données.

RÉFÉRENCES

F. BAADER , D. CALVANESE, D. MCGUINNESS, D. NARDI & P.F. PATEL-SCHNEIDER, (editors)(2003). The Description Logic Handbook. Theory, Implementation and Applications,Cambridge University Press, 574 pages.

B. BENATALLAH , M-S. HACID, C. REY & F. TOUMANI (2003). Semantic Reasoning for WebServices Discovery, WWW Workshop on E-Services and the Semantic Web, Budapest,Hungary.

Page 116: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

108

A. BERNSTEIN & M. KLEIN (2002). Discovering Services: Towards High Precision ServiceRetrieval. In CaiSE workshop on Web Services, e-Business, and the Semantic Web:Foundations, Models, Architecture, Engineering and Applications. Toronto, Canada.

T. BULTAN, X. FU, R. HULL & J. SU (2003). Conversation specification: a new approach todesign and analysis of e-service composition. WWW 2003: 403-410.

C. BUSSLER (1996). Workflow-Management-Systems as enterprise engineering tools, inModelling and methodologies for enterprise integration, Edited by Bernus, P. and Nemes, L.,234-247, Chapman & Hall.

J. CARDOSO (2002a). Stochastic Workflow Reduction Algorithm. LSDIS Lab, Department ofComputer Science, University of Georgia.

J. CARDOSO (2002b). Workflow Quality of Service and Semantic Workflow Composition. Ph.D.Dissertation. Department of Computer Science, University of Georgia, Athens, GA.

J. CARDOSO, J. MILLER, A. SHETH & J. ARNOLF (2002). Modeling Quality of Service forworkflows and Web Service Processes. Technical Report# 02-2002, LSDIS Lab. ComputerScience, University of Georgia, 44 pages.

F. CASATI & M-C. SHAN (2001). Models and Languages for Describing and Discovering E-Services. In ACM SIGMOD, Santa Barbara, USA.

D. CHAKRABORTY, F. PERICH, S. AVANCHA, & A. JOSHI (2001). DReggie: Semantic ServiceDiscovery for M-Commerce Applications. In Workshop on Reliable and Secure Applicationsin Mobile Environment, 20th Symposium on Reliable Distributed Systems, pages 28–31.

D. CLARK, S. SHENKER & L. ZHANG (1992). Supporting Real-Time Applications in anIntegrated Services Packet Network: Architecture and Mechanism. Proceedings of ACMSIGCOMM, pp. 14-26.

R.L. CRUZ (1995). Quality of service guarantees in virtual circuit switched networks. IEEE J.Select. Areas Commun. 13(6): p.1048-1056.

DAML Services Coalition (2002). DAML-S: Web Service Description for the Semantic Web. InThe First International Semantic Web Conference (ISWC), pages 348–363.

M. DIAZ (2001). Les réseaux de Petri. Hermès.

D. FENSEL, C. BUSSLER, & A. MAEDCHE (2002). Semantic Web Enabled Web Services. InInternational Semantic Web Conference, Sardinia, Italy, pages 1–2.

S. FORLUND & J. KOISTINEN (1998). Quality-of-Service Specification in Distributed ObjectSystems. Distributed Systems Engineering Journal 5(4).

D.A. GARVIN (1998). The Processes of Organization and Management. Sloan ManagementReview, Summer, 33-50.

L. GEORGIADIS, R. GUERIN, V. PERIS & K. SIVARAJAN (1996). Efficient QoS ProvisioningBased on Per Node Traffic Shaping. IEEE ACM Transactions on Networking 4(4):482-501.

J. GONZÀLEZ-CASTILLO, D. TRASTOUR, & C. BARTOLINI (2001). Description Logics forMatchmaking of Services. In KI-2001 Workshop on Applications of Description LogicsVienna, Austria, Sep. http://sunsite.informatik.rwth-aachen.de/Publications/CEUR-WS/Vol-44/.

K. D. GOTTSCHALK, S. GRAHAM, H. KREGER & J. SNELL (2002). Introduction to Web servicesarchitecture. IBM Systems Journal 41(2): 170-177.

P. GREFEN, K. ABERER, Y. HOFFNER & H. LUDWIG (2000). CrossFlow: cross-organisationalworkflow management in dynamic virtual enterprises. International Journal of ComputerSystems Science & Engineering, vol. 15, N°5, 277-290.

M.S. HACID, A. LEGER, C. REY & F. TOUMANI (2002). Dynamic discovery of e-services: Adescription logics based approach, BDA’2002, Paris, 21—25.

J. HENDLER & D. L. MCGUINNESS (2000). The DARPA Agent Markup Language. IEEEIntelligent Systems, 15(6):67–73.

J. HENDLER, D. NAU, B. PARSIA, E . S IRIN & D. WU (2003). Automating DAML-S WebServices Composition Using SHOP2. à paraître dans ISWC’03.

Page 117: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

7 – Les web services sémantiques

109

M.A. HILTUNEN, R. SCHLICHTING, C.A. UGARTE & G.T. WONG (2000). Survivability throughCustomization and Adaptability: The Cactus Approach. DARPA Information SurvivabilityConference and Exposition (DISCEX 2000), pp. 294-307.

I. HORROCKS, P.F.PATEL-SCHNEIDER, & F . VAN HARMELEN (2002a). Reviewing the Designof DAML+OIL: An Ontology Language for the Semantic Web. In Proc. of the 18th Nat.Conf. on Artificial Intelligence (AAAI), 792-797.

I. HORROCKS (2002b). DAML+OIL: A Reasonable Web Ontology Language. In Proc. of theEDBT’2002 Prague, Czech Republic, pages 2–13.

R. HULL, M. BENEDIKT, V. CHRISTOPHIDES & J. SU (2003). E-services: a look behind thecurtain. PODS 2003, 1-14.

J. KLINGEMANN, J. WÄSCH & K. ABERER (1998). Adaptative outsourcing in cross-organizationalworkflows. GMD Report 30, GMD – German National Research Center for InformationTechnology.

J. KLINGEMANN, J. WÄSCH & K. ABERER (1999). Deriving Service Models in Cross-Organizational Workflows. Procs. 9th Int. Worksh. Research Issues in Data Eng., Sydney,Australia.

K.J. KOCHUT, A.P. SHETH & J.A. MILLER (1999). ORBwork: A CORBA-Based FullyDistributed, Scalable and Dynamic Workflow Enactment Service for METEOR. Large ScaleDistributed Information Systems Lab, Department of Computer Science, University ofGeorgia, Athens, GA.

E. M. MAXIMILIEN & M.P. S INGH, (2001). Conceptual Model of Web Service Reputation,SIGMOD Record 31(4): 36-41

MCCREADY (1992). There is more than one kind of workflow software. Computerworld,November 2: 86-90.

S. MCILRAITH, T.C. SON, & H. ZENG (2001). Semantic Web Services. IEEE IntelligentSystems. Special Issue on the Semantic Web, 16(2):46–53.

D.A. MENASCÉ & V.A.F. ALMEIDA (1998). Capacity Planning for WEB PERFORMANCE.Prentice Hall.

J.A. MILLER, R. NAIR, Z. ZHANG & H. ZHAO (1997). JSIM: A Java-Based Simulation andAnimation Environment. Proceedings of the 30th Annual Simulation Symposium, Atlanta,GA., 786-793.

J.A. MILLER, A.F. SEILA & X. XIANG (2000). The JSIM Web-based Simulation Environment.Future Generation Computer Systems: Special Issue on Web-Based Modeling and Simulation,17(2): 119-133.

A.V. MOORSEL (2001). Metrics for the Internet Age: Quality of Experience and Quality ofBusiness. Technical Report HPL-2001-179, HP Labs, August 2001. Also published in 5thPerformability Workshop, Erlangen, Germany.

J.D. MUSA (1993). Operational Profiles in Software-Reliability Engineering. IEEE Software,10(2): 14-32.

J.D. Musa (1999). Software reliability engineering: more reliable software, faster development andtesting. New York, McGraw-Hill.

R. NAIR, J.A. MILLER & Z. ZHANG (1996). A Java-Based Query Driven SimulationEnvironment. Proceedings of the 1996 Winter Simulation Conference, Colorado, CA., 786-793.

S. NARAYANAN & S. MCILRAITH (2002). Simulation, Verification and Automated Compositionof Web Services, Eleventh International World Wide Web Conference (WWW2002), Honolulu.

J. 0’SULLIVAN, D. EDMOND & A. TER HOFSTEDE (2002). What’s in a Service? Distributed andParallel Databases, 1 2(2-3), p. 117-133.

M. PAOLUCCI, T. KAWAMURA, T.R. PAYNE, & K.P. SYCARA (2002). Semantic Matching ofWeb Services Capabilities. In Int. Semantic Web Conference, Sardinia, Italy, pages 333–347.

Page 118: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

110

T.R. PAYNE, M. PAOLUCCI, & K. SYCARA (2001). Advertising and Matching DAML-S ServiceDescriptions (position paper). In International Semantic Web Working Symposium, StanfordUniversity, California, USA.

H.A REIJERS, (2003). Design and control of workflow processes, LNCS 2617, Springer-verlag,Berlin Heidelberg, 1-29.

A.-W. SCHEER (1992). Architecture of Integrated Information Systems. Springer-Verlag, Berlin.

A.-W. SCHEER (1999). ARIS – Busines Process Frameworks. Third Edition, Springer-Verlag,Berlin.

A.-W. SCHEER (2000). ARIS – Busines Process Modeling. Third Edition, Springer-Verlag, Berlin.

M. STAL (2002). Web Services: Beyond Component-Based Computing, Com. of The ACM,45(10), 71-76.

E.A STOHR & J.L. ZHAO (2001). Workflow Automation: Overview and Research Issues.Information Systems Frontiers, Kluwer Academic Publishers, 3:3, 281-296.

F.B. VERNADAT (1993). CIMOSA: Enterprise Modelling and Integration Using a Process-basedApproach, In: DIISM.

F.B. VERNADAT (1996). Enterprise modelling and integration: principles and applications,Editions Chapman & Hall.

T.J. WILLIAMS (1994). The Purdue Enterprise Reference Architecture. Computers in Industry,24(2-3), 141, 158.

T.J. WILLIAMS (1995). Development of GERAM, a Generic Enterprise Reference Architecture andEnterprise Integration Methodology. In Integrated Manufacturing Systems Engineering (P.Ladet and F.B. Vernadat, eds), Chapman & Hall, London, UK, 279-288.

L. ZENG, B. BENATALLAH, M. DUMAS, J. KALAGNANAM & Q. SHENG (2003). Quality-drivenWeb Service Composition. In Proc. of 14th International Conference on World Wide Web(WWW’03), Budapest, Hungary, p. 411-421, ACM Press.

Page 119: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

111

8 – Applications du Web sémantiqueAlain Léger1 et Jean Charlet2

1 France Telecom R&D, 4, rue du Clos Courtel, 35512 Cesson - France2 Mission de recherche STIM, DPA/AP-HP & Université Paris 6 - France

[email protected]@biomath.jussieu.fr

Résumé

Les technologies du web sémantique sont de plus en plus appliquées à un largespectre d’applications au sein desquelles une connaissance de domaine est modéliséeet formalisée (ontologie) afin de servir de support à des traitements très diversifiés(raisonnements) effectués par des machines. En outre, ces représentations peuvent-être rendues compréhensibles par l’homme pour assurer un couplage optimal entreraisonnements humains (cognitifs) et mécaniques (sémantique formelle) confiant àl’homme et à la machine des tâches complémentaires.

Pour citer quelques-unes de ces applications : Portails d’entreprises et Mémoired’entreprises, E-Commerce, E-Work, Traitement Automatique des Langues etTraduction Automatique, Recherche d’Information, Intégration d’Entreprises et E-Work, Communautés d’Intérêts, Data Mining, etc. D’un point de vue économique etsociétal, cette technologie doit pouvoir contribuer à la croissance économique, enpermettant aux entreprises d’inter-fonctionner plus aisément et de trouver plusrapidement de nouvelles et meilleures opportunités de marchés, mais égalementcontribuer à la société civile dans sa vie quotidienne au travail et pour ses loisirs.

Au carrefour d’une maturité technologie émergente et d’une pression économiquepressentant des gains potentiels et l’élargissement ou la création de nouveauxmarchés, se manifeste un intérêt croissant pour l’évaluation des technologies du Websémantique sous l’angle des coûts et bénéfices mesurables qu’offre cette nouvelletechnologie. Une première étape dans la mesure objective de l’intérêt de cettenouvelle technologie est d’en présenter simplement de premiers résultats pré-industriels pour des applications prototypes les plus prometteuses. C’est bienl’objectif de ce document qui essaie de tracer les résultats les plus significatifs et lesplus lisibles à ce jour.

Mots-c lés : Web sémantique, ontologies, applications, évaluation.

Page 120: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

112

1 INTRODUCTION

Via la pénétration profonde des technologies numériques au sein de la société del’information, le contenu du Web est multiforme, incertain et très dynamique. Celaconduit naturellement à tenter d’abstraire cette complexité apparente, en fournissantdes nouveaux services capables de raisonner sur des représentations conceptuelles(sémantiques) via des automates – ex. Web services. Cette couche sémantique, faitl’objet d’une très forte activité de R&D mondiale dénommée « Web sémantique »(DARPA, IST), OntoWeb (2002), Semantic Web (2001), ERCIM News (2002), dontles applications premières sont évidentes, mais dont les prolongements semblentpotentiellement très riches de retombées technologiques et de services pour tous lesacteurs de la chaîne de traitement de l’information.

Cette nouvelle technologie est à la croisée de nombreuses disciplines telles lessciences cognitives, l’apprentissage symbolique, le traitement automatique deslangues, les systèmes multi-agents, l’ingénierie des connaissances, les sciences duraisonnement et de la décision, qui adoptent une approche formelle, normative etalgorithmique des raisonnements de sens commun et leurs traces fortes dans la languevia la rencontre machinerie-computationnelle/facteur-humain.

Nous présentons ici quelques applications phares, ayant fait l’objet de travauximportants dans différents domaines applicatifs, ainsi que leurs résultats.

2 E-COMMERCE

2.1 QUELS USAGES DES ONTOLOGIES POUR LE E-COMMERCE ?

Le commerce électronique doit permettre un échange plus fluide d’information etde transactions entre tous les acteurs économiques, depuis l’offreur de produits ouservices jusqu’aux clients finals. On distingue usuellement deux scénarios : desoffreurs aux clients (B2C – Business-to-Customer) et entre offreurs et grossistes (B2B– Business-to-Business).

Les applications du B2C permettent aux offreurs de produits et services depropager et présenter leurs offres, et aux clients, de trouver et de commanderl’offre(s) sélectionnée(s). En fournissant un accès unique à une large collectiond’articles ou de services fréquemment mise à jour, une place de commerceélectronique facilite la rencontre entre l’offre et la demande grâce à des outils demédiation commerciale.

Les applications du B2B ont une plus longue histoire et utilisent les échangesinformatisés via des structures de messages et de protocoles très codifiées, pré-établieset normalisées (EDI – Electronic Data Interchange ou Échange de DonnéesInformatisés) récemment assouplies via des standards basés sur XML (eXtensibleMarkup Language).

Une nouvelle génération de services d’échange de messages compatible XML esten développement : ebXML (electronic business in XML). UN/CEFACT, OASIS et denombreux acteurs du commerce électronique ont uni leurs efforts pour concevoir unnouveau standard pour le commerce électronique. Loin de devoir remplacerEDIFACT, ebXML se positionne dans la complémentarité et dans la continuité.EDIFACT est particulièrement adapté aux échanges de gros volumes avec despartenaires stables, alors que ebXML doit répondre, en plus, à la problématique despetits échanges entre partenaires épisodiques.

Page 121: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

8 – Applications du Web sémantique

113

Actuellement, les systèmes à base d’ontologies apparaissent comme une technologie clé pour le développement desolutions d’E-Commerce efficaces, ouvertes et profitables. Cependant, par manque de normes de modèles de domaine etde processus métier dans les plus larges secteurs économiques, le E-Commerce peine à décoller.

En effet, la variété d’entreprises et de solutions de commerce électronique déployées faisant usage de configurationsd’échanges très diversifiées, associée au manque de fiabilité et de sécurité sur Internet, rendent impossible le passage àl’échelle par l’intégration et l’inter-fonctionnement de ces différentes solutions.

Par ailleurs, dans une situation de marché où coopérations et compétitionsinterfèrent, l’adoption de standards de domaines et de transactions économiques esttrès difficile à atteindre.

De plus,Les pratiques commerciales sont très variées et rendent très difficiles les

alignements normatifs ;Les entreprises sont complexes : la description des produits et services (seuls ou

associés), et leurs interactions sont difficiles à modéliser ;Les règles du jeu économique sur des places de marché sont très opportunistes ;L’adoption de standards pourrait limiter la créativité commerciale.

Malgré toutes ces difficultés, de réels bénéfices pourraient être tirés de l’usaged’ontologies dans les domaines suivants :

- catégorisation de produits dans des catalogues,- catégorisation de services (dont les Web services),- pages Jaunes des sociétés de services,- identification des pays, régions et monnaies,- identification des organisations, de personnes et d’entités légales,- identification de containers de transport (type, situation, routes et contenus),- classification de données statistiques.

Quelques applications B2B font usage de références codées dans des classifications(ex. UNSPSC, OTA) pour réduire la taille des données à transmettre entre acteurséconomiques. De tels codes s’affranchissent des ambiguïtés inhérentes de la languenaturelle (polysémie sur les noms de produit et polymorphisme sur les noms propres).Enfin, pratiquement aucun des schémas de classification utilisés n’est décritformellement comme le devrait être une ontologie.

Nous présentons dans la suite deux exemples de tentatives d’usage des technologiesdu web sémantique au contexte du E-Commerce.

2.2 LE E-COMMERCE À BASE DE CONNAISSANCES : OntoSeek® ETMkbeem®

Pour des services de pages jaunes ou des catalogues de produits, une représentationstructurée des contenus couplée à des ontologies linguistiques améliore de manièrenotable le rappel et la précision des outils de recherche marchands. Le systèmeONTOSEEK (1996-1998) a couplé une représentation des connaissances du domaine(langage à pouvoir d’expression très limité de la famille de graphe conceptuel GC) àune large ontologie linguistique multilingue (SENSUS basé sur WORDNET) pour unerecherche de produits en langue naturelle multilingue (Guarino et al., 1998).

ONTOSEEK combine un mécanisme de recherche par le contenu sémantique(ontologie) avec un formalisme de représentation assez pauvre (GC). A la différencedes systèmes connus, l’utilisateur n’est pas supposé connaître le vocabulaire de

Page 122: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

114

codage des produits mais grâce à l’ontologie linguistique SENSUS peut s’exprimeravec les termes de son vocabulaire.

Les principaux choix d’architecture fonctionnelle d’ONTOSEEK :- usage d’une Ontologie linguistique généraliste pour représenter finement les

produits ;- grande flexibilité terminologique dans l’expression des requêtes, grâce à un

mécanisme d’intersection sémantique entre les requêtes et la description desproduits ;

- Assistance interactive pour la formulation de la requête par généralisation etspécialisation.

Ils font usage d’un formalisme de représentation basique des GC pour représenterles requêtes et les descriptions des produits. Le mécanisme d’intersection sémantiqueest basé sur un simple calcul de subsomption sur les arcs et les nœuds du graphe et nemet pas en œuvre un calcul complet d’endomorphisme de graphe.

ONTOSEEK n’a pas fait l’objet de déploiement commercial mais à son époque atrès bien montré les gains potentiels que les prémisses de technologie du Websémantique pouvaient apporter aux moteurs marchands pour le commerceélectronique.

MKBEEM (2000–2002) projet IST du FP5 avait pour objectif de développer uneplate-forme de commerce électronique multilingue et multiculturelle principalementcentré vers des services pour le B2C. Les résultats finaux ont clairement indiqué quepour des domaines commerciaux bien délimités – mais totalement réalistes - lestechnologies de la connaissance (KRR) couplées à des technologies du traitementautomatique des langues (TAL) fournissent des services de traduction etd’interprétation de grande qualité et opérationnels à très court terme (Mkbeem,2002).

L’innovation clé réside dans ce couplage du TAL et du KRR offrant à ce jour lesservices suivants :

- représentation de la requête langue naturelle dans une représentationsémantique (ontologie) ;

- maintenance aisée de catalogues de produits et services multilingues ;- création aisée d’offres composites de produits et de services ;- recherche en langue naturelle de produits ou de services par le contenu

sémantique ;- catégorisation et indexation automatiques des produits ou des services décrits

en langue naturelle ;- intégration aisée et rapide de nouvelles offres de produits ou de services dans

un contexte multilingue et pluriculturel.

La qualité des résultats a été jugée sur un prototype pan-européen pour le Finnois, leFrançais, l’Espagnol et l’Anglais dans les domaines du tourisme (SNCF) et de la ventepar correspondance (Redoute-Ellos). Cette technologie fait l’objet de transfert vers laRedoute et la RMN.

3 APPLICATIONS MÉDICALES

La médecine est un des domaines d’applications privilégiés du Web sémantiquecomme elle l’a été, à une autre époque, des techniques de l’Intelligence Artificielle, en

Page 123: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

8 – Applications du Web sémantique

115

particulier les systèmes experts. C’est en effet un domaine complexe où lesinformations à partager sont nombreuses et où il n’y a pas ou peu de solutionsalgorithmiques à ce partage comme à l’usage des connaissances, en particuliercliniques. Ainsi, un des principaux mécanismes du Web sémantique qui est ladescription de ressources via des annotations est de la plus grande importance en bio-informatique, plus particulièrement autour des questions de partage des ressourcesgénomiques. Dans le contexte, plus ancien, de la recherche d’information, lamédecine a une longue tradition de développement de thésaurus comme le MeSH(Medical Subject Heading) ou UMLS (Unified Medical Language System –http://www.nlm.nih.gov/research/umls/umlsmain.html) et les utilise maintenant dans lecadre des mécanismes du Web sémantique. Enfin, et plus récemment, les services Webproposent des solutions à la problématique récurrente et non résolue del’interopérabilité en médecine, en particulier dans le contexte des SIS (Systèmesd’Information Hospitaliers). C’est dans ces 3 champs de l’informatique médicale quenous allons décrire les travaux de recherche qui se développent, les résultats et lesperspectives attendues48.

3.1 LE PARTAGE DE RESSOURCES

Dans le domaine de la génomique fonctionnelle, il est nécessaire d’accéder à unemultitude de bases de données et de connaissances accessibles via le Web, maishétérogènes dans leur structure et leur terminologie. Parmi ces ressources, citons lesbases de données comme Swissprot, où les produits de gènes sont annotés parGENEONTOLOGY, GENBANK, etc. En comparant ces ressources, on s’aperçoitqu’elles proposent de l’information identique – e.g. des références à des articles –sous des formats extrêmement différents, bien que XMLl soit mis en avant commelangage de description (Mougin et al., 2003).

Dans un autre domaine que la génomique mais en utilisant les mêmes mécanismesdu Web sémantique (ontologies, médiateurs), le projet NEUROBASE (Barillot et al.) estun projet soutenu par le ministère français de la Recherche (MENRT) qui a pourobjectif de fédérer au travers d’Internet des bases d’informations en neuroimagerie,situées dans différents centres d’expérimentation, cliniques neurologiques ou derecherche en neurosciences. Ce projet consiste à spécifier comment relier et accéder àces bases d’informations par la définition d’une architecture informatique permettantl’accès et le partage de résultats d’expérimentations ou bien encore de méthodes detraitement des données au sein d’un même site ou entre sites différents. Cettearchitecture repose sur le concept de médiateurs (Cf. chap. 5). Cela permettra, parexemple et au sein de ces bases d’informations, la recherche de résultats similaires, larecherche d’images contenant des singularités ou encore des recherches transversalesde type « fouille de données » pour mettre en évidence d’éventuelles régularités. Lemédiateur de NEUROBASE devrait être expérimenté sur une application clinique d’aideà la décision en chirurgie de l’épilepsie.

3.2 L’INDEXATION ET LE CATALOGAGE

Le site PubMed <http://www.ncbi.nlm.nih.gov/PubMed/> de la NLM (NationalLibrary of Medicine) donne accès à la plus grande base d’articles scientifiques dans ledomaine de la bioinformatique. Ces articles sont indexés à l’aide des termes du MeSH<http://www.nlm.nih.gov/mesh/meshhome.html>, un thésaurus contenant près de22 000 descripteurs. La maintenance de PubMed met en lumière un des problèmes del’indexation, le travail que représente le choix d’index pertinent pour représenter lesarticles. Cela rejoint, comme le projet suivant, la question de la mise en place des

48 Ces descriptions doivent beaucoup au workshop organisé par le Laboratoire d’informatique médicale (LIM) deRennes en collaboration avec l’AS Web sémantique (Web sémantique Médical, 2003)

Page 124: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

116

annotations (Cf. chap. 3), difficile d’autant plus qu’elle est effectuée a posteriori. LaNLM a ainsi un gros projet d’indexation automatique des ressources fondée surl’analyse du titre, du résumé de l’article et des index déjà posés sur les articles cités enréférence (Aronson et al., 2000).

Le site CISMeF du CHU de Rouen, reconnu en France comme étant le site deréférence en informatique médicale, « catalogue » et indexe l’ensemble des sitesmédicaux francophones de qualité (environ 12 000 en 2003 – <http://www.chu-rouen.fr/cismef/>). En dehors du fait que cela ne se fait pas sans méthode et sans unecertaine force de travail, il est intéressant d’explorer d’un peu plus près les modesd’indexation des sites (Darmoni et al,. 2000) : ainsi, quand une page Web estcataloguée, elle est indexée pour pouvoir être retrouvée et reproposée aux intéressés.RDF et les balises du Dublin Core sont alors utilisés pour décrire des informations detype bibliographique au sujet de la page (langue utilisée dans le document, année,auteurs, sujet (mots-clés), etc.). Des balises nécessaires aux ressources médicalescomme la gratuité de la ressource ou son niveau de preuve s’y ajoutent. Comme pourMedline, c’est le thésaurus MeSH qui est utilisé pour indexer le contenu médical desressources.

Ces applications, en particulier CISMeF, nous interrogent sur l’utilisation desthésaurus pour l’indexation par rapport à la possibilité qu’offriraient les ontologies.Si les thésaurus montrent ici parfois leur limite avec une organisation des conceptsmédicaux parfois ambiguë ou incohérente, la mise en place d’ontologies a un coût(en temps en particulier) non négligeable et dont la rentabilité n’est pas évidente. Deplus, une ontologie manipule des concepts à une telle granularité qu’ils ne sont pasfacilement accessibles dans le contexte du travail courant du praticien. Des solutionssemblent se mettre en place en reliant les concepts de l’ontologie aux termes desthésaurus dans un serveur de terminologie comme en propose le projet GALEN (Rectoret al., 1995) qui rejoint les propositions de thésaurus sémantiques dans d’autresdomaines (Roussey & Calabretto, 2002).

3.3 DES SERVICES WEB POUR L’INTEROPÉRABILITÉ

Les services Web abordés au § 2.1.1 permettent de proposer des solutions auproblème de l’interopérabilité en médecine. C’est ce type d’usage que cherche àpromouvoir l’association Edisanté <http://www.edisante.org/> dans le cadre de songroupe de travail GT11 au sein d’un projet « EDI données cliniques » soutenu par leMENRT. La proposition consiste à utiliser les propositions de E-Commerce et leslangages des services Web, en particulier ebXML et SOAP (Simple Object AccessProtocol) en les augmentant d’éléments spécifiques à la santé pour proposer unenorme d’échange de données cliniques entre praticiens ou institutions (Cordonnier etal., 2003).

Les propositions du GT11 portent sur une structure permettant de transporter desdonnées et des documents hétérogènes mais avec des informations associées à cetransport, renseignant sur la finalité du message et son contenu, et en permettant lagestion et le traitement – c’est le concept d’enveloppe. Ce concept rejoint totalementle concept récent d’enveloppe ebXML. Il s’en différencie par deux pointsprincipaux :

Le patient comme unique objet de la transaction. Un tel échange ne saurait êtreanonyme du point de vue du couple émetteur-récepteur. Il concerne donc unémetteur et un destinataire, qui tous deux sont impliqués et responsabilisésdans l’échange. Le seul moyen de permettre à un émetteur de signer un envoiréservé à un récepteur précis, concernant un patient qui a le droit d’exigerd’en connaître le contenu, aboutit à une structure nécessairement unique pourle triplet {émetteur, récepteur, patient}.

Page 125: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

8 – Applications du Web sémantique

117

Le caractère multimédia des informations transportées. Une analyse de l’existantfait apparaître clairement l’existence chez la majorité des acteurs de santé desources multiples d’informations concernant un même patient. Cesinformations médicales ne sont pas nécessairement liées entre elles,notamment sur le plan informatique, et se présentent sous des formes et surdes supports divers (bases de données, documents textuels formatés ou pas,propriétaires ou pas, images, etc.). Si ces informations ne sont pas toujoursgérées de manière centralisée chez l’émetteur, il peut être fondamental de lesréunir à l’occasion d’un échange avec un autre acteur de santé, qui, lui, sauraéventuellement les intégrer dans sa base de données. Même sans lieninformatique structuré, le fait de les envoyer ensemble a un sens sur le planmédical, par rapport au contexte précis de l’échange, comme par exempledans le cas de l’échange d’une image et de son compte rendu. Sur le plan dela traçabilité de l’échange, il est donc fondamental pour l’émetteur et lerécepteur de pouvoir prouver que ces informations ont été transmisesensemble.

L’intérêt d’une telle approche est qu’elle trace un chemin vers l’interopérabilitéplus facilement que des normes spécifiant précisément les items d’informationéchangés comme le propose le consortium américain HL7 (Health Level 7) oul’organisme de normalisation européen CEN TC251 (Charlet et al., 2002). Ellepermet une certaine interopérabilité, loin de l’interopérabilité sémantique quedevraient offrir les ontologies mais plus réaliste dans le contexte de l’informatiquemédicale à ce jour.

3.4 ET DANS LE FUTUR ?

Les différents projets et applications reflètent bien un usage majeur du Web attendupar les communautés médicales, le partage ou l’intégration d’informations ouconnaissances hétérogènes et proposent d’explorer des méthodes ou architecturesdifférentes pour y répondre : approche médiateur, architecture type système à base deconnaissance reposant sur les langages standards RDF et OWL. Les méthodes,langages, outils en cours de développement pour le Web Sémantique doivent prendreen compte ces attentes. Notons enfin que, dans ce cas comme dans d’autres domaines,le Web sémantique est une vision intégratrice et cohérente de problèmes pour lesquelsdes solutions sont réfléchies depuis longtemps.

4 PORTAILS ET MÉMOIRES D’ENTREPRISE

4.1 LES SERVICES OFFERTS

Depuis quelques années, la capitalisation des connaissances est vue comme un sujetstratégique pour les entreprises. C’est ainsi que se sont développées tant du point devue méthodologique que technologique les activités de « Mémoire d’entreprise » oude « gestion des connaissances de l’entreprise » (KM – Knowledge Management).Très clairement le KM est interdisciplinaire et fait appel à la gestion des ressourceshumaines, à l’organisation et à la culture de l’entreprise, et enfin aux technologiesNTIC qui peuvent y jouer un rôle très fort de mutation des usages.

Dans (Van Heijst et al., 1996), la “mémoire d’entreprise” est définie comme la“représentation explicite, persistante, et désincarnée, des connaissances et desinformations dans une organisation”. Elle peut inclure par exemple, les connaissancessur les produits, les procédés de production, les clients, les stratégies de vente, lesrésultats financiers, les plans et buts stratégiques, etc. . La construction d’une mémoire

Page 126: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

118

d’entreprise repose sur la volonté de “préserver, afin de les réutiliser plus tard ou leplus rapidement possible, les raisonnements, les comportements, les connaissances,même en leurs contradictions et dans toute leur variété” (Pomian, 1996). Leprocessus de capitalisation des connaissances permet de réutiliser, de façon pertinente,les connaissances d’un domaine donné, précédemment stockées et modélisées, afind’accomplir de nouvelles tâches (Simon, 1996). Le but est de “localiser et rendrevisible les connaissances de l’entreprise, être capable de les conserver, y accéder et lesactualiser, savoir comment les diffuser et mieux les utiliser, les mettre en synergie etles valoriser (Grundstein, 1995).

Dans un passé récent, les solutions de KM se sont principalement tournées vers lessilos de documents textuels produits par l’entreprise comme lieu privilégié de laconnaissance. Dans un futur proche, les technologies du web sémantique, et toutparticulièrement les ontologies et les raisonnements sémantiques associés offrent denouvelles perspectives aux solutions de KM.

Bien que les premières tentatives aient déjà clairement montré tout le potentiel quel’on pouvait en tirer, de nombreux champs d’investigation restent ouverts avant que leWeb Sémantique tienne ses promesses, par exemple :

- Une intégration « sans couture » des savoirs de l’entreprise est absolumentnécessaire, pour éviter toutes les redondances et surcharges superflues ;

- Une méthodologie, un outillage et une stratégie de mise en place sontindispensables pour soutenir l’effort de création et de capitalisation desconnaissances. Par exemple des outils de maintenance (semi-) automatisée desontologies pour suivre l’évolution dynamique des savoirs ;

- L’accès et la présentation de la connaissance doivent tenir compte du contextedes tâches courantes ;

- La personnalisation doit tenir compte des attentes des utilisateurs pour éviterla surcharge cognitive et pour délivrer l’information au bon niveau degranularité.

Le développement de portails des savoirs servant les besoins de l’entreprise ou decommunautés est plus ou moins à ce jour une tâche essentiellement manuelle. Dansun contexte économique très versatile et opportuniste, Ontologies et Outilsd’inférence, TAL, devraient faciliter la maintenance évolutive des portails qui doiventêtre à jour et de plus en plus pertinents.

Les services classiques associés aux solutions de KM pour lesquelles lestechnologies du web sémantique seront fortement contributives sont :

- accès des employés en situation de mobilité à la mémoire de l’entreprise(Mobile KM) ;

- partage entre employés d’une même communauté (P2P – Peer-to-Peercomputing) où la construction de la connaissance (Ontologie et annotations)s’opère de manière naturelle et consensuelle ;

- intégration des mémoires d’entreprises décentralisées et multinationales ;- formation professionnelle continue (e.Learning) sur le portail de l’entreprise

sur lequel l’employé se voit offrir des parcours de formation diversifiés etsurtout personnalisés.

Le KM est évidemment un champ applicatif des technologies du web sémantiquetrès prometteur. Les technologies documentaires classiques ont clairement montréleurs limites – très faible capitalisation des savoirs – l’introduction de ces nouvellestechnologies laissent entrevoir de réelles avancées de l’offre et des usages.

Page 127: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

8 – Applications du Web sémantique

119

4.2 DES PORTAILS D’ENTREPRISE SÉMANTIQUES :Ontoknowledge® ET COmma®

OntoBroker (1998) est le premier exemple avancé de mise en œuvre destechnologies du web sémantique au KM. L’architecture se compose d’une interfaced’interrogation, d’un moteur d’inférence et d’un collecteur (crawler) de données surle web. Le formalisme d’interrogation est à base de « frame » et définissant la notiond’instances, de classes, d’attributs et de valeurs (OntoBroker, 1998).ONTOKNOWLEDGE (Ontoknowledge, 2001) est le projet qui a enrichi les résultatsOntobroker.

ONTOBROKER a été mis en œuvre avec succès sur les scénarios d’usage suivants :- portails communautaires : Acquisition et partage de connaissances en

communautés d’employés ;- annotation de documents (projet (KA)2 – Knowledge Annotation Initiative) ;- gestion des ressources humaines.

CoMMA (Comma, 2002) est un projet IST subventionné par la commissionEuropéenne visant à développer et tester un environnement de gestion de la mémoired’entreprise. Le projet s’attache à préserver le contexte de l’existence et del’utilisation de la mémoire d’entreprise en s’intéressant en particulier à deuxscénarios :

Aide à l’insertion d’un nouvel employé : Utiliser la mémoire d’entreprise pourpermettre aux nouveaux employés de s’insérer rapidement, de comprendre lapolitique, le fonctionnement et l’organisation de l’entreprise et les rendreopérationnels le plus rapidement possible en leur permettant de trouver ou enleur suggérant pro-activement l’information dont ils ont besoin.

Support de la veille technologique : Utiliser la mémoire d’entreprise pour assisterl’identification et l’évaluation de technologies émergentes concernantl’activité de l’entreprise, et diffuser l’information pertinente aux personnesconcernées et compétentes.

CoMMA se distingue par son approche basée sur l’intégration de plusieurstechnologies émergentes (Langages du web sémantique : XML, RDF-S, Systèmesmulti-agents, Apprentissage symbolique, Ingénierie des connaissances). Chacune deces technologies apporte des éléments de solution pour la réalisation, la gestion etl’exploitation d’une mémoire organisationnelle distribuée et hétérogène. LesIntranets reposant sur la technologie Internet, bénéficient des progrès du websémantique.

5 TRAITEMENT AUTOMATIQUE DES LANGUES

5.1 L’USAGE D’ONTOLOGIES “LINGUISTIQUES” DANS LESAPPLICATIONS

« Ce qui concerne le sens est le point faible des études sur le langage, et le resterajusqu’à ce que nos connaissances aient avancé bien loin de leur état actuel »conjecturait (Bloomfield, 1933).

Que peut apporter le Web sémantique au traitement automatique des langues(TAL) ? Le langage humain est construit de mots individuels (niveau lexical), quipeuvent avoir plusieurs sens, et parfois appartenir à plusieurs catégories lexicales ouparties du discours. Les textes en langue humaine sont des objets très structurés,présentant une cohésion inter et intra-phrase très forte (IJCAI-97, 1997).

Page 128: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

120

La sémantique pour le traitement automatique s’intéresse à la modélisation desphénomènes sémantiques intervenant dans le langage humain (anaphore, ellipses,comparatif, références temporelles, attitudes, verbes, …). Traditionnellement, lesapproches formelles se sont situées au niveau de la phrase. Elles ont été ensuiteétendues au niveau du discours (FraCaS, a framework for Computational Semantics, –Fracas, 1998).

Quand un auditeur reçoit un message d’un orateur, il essaie de comprendre ce queet pourquoi ce locuteur a produit ce message en faisant appel à ses compétenceslinguistiques, sa connaissance en général et en particulier celles de la situationd’énonciation, ses croyances, etc. L’auditeur construit donc une représentation (trèsprobablement sémantique) de ce qu’il comprend de la proposition du locuteur, afinde sélectionner une réaction en retour.

Pour construire cette représentation, il doit partager avec l’orateur quelquescroyances et connaissances :

- reconnaissance phonétique et lexicale (si message vocal),- connaissances lexicales,- connaissances grammaticales,- connaissances sémantiques du domaine du discours,- règles conversationnelles et cohérence discursive,- connaissances contextuelles.

Selon (Zyl et al., 2000), il y a eu quelques applications faisant usage d’ontologieslinguistiques49. En complément de l’usage traditionnel de ces ontologies pour lagénération (Natural Language Generation, NLG) et la traduction, ces applications lesmettaient en œuvre pour l’extraction de sens d’un texte, pour la recherched’information, et pour l’intégration d’informations hétérogènes.

Une ontologie linguistique telle que définie dans (Zyl et al., 2000) sert de formatpivot entre applications ou entre interprétations possibles communes de différenteslangues. Les ontologies linguistiques ont généralement pour objet de résoudre lesquestions suivantes : comment représenter les connaissances d’un univers donné etcomment lier cette représentation à celles aujourd’hui classiques des grammaires etdes lexiques ?

De nombreuses applications (toutes ?) du web sémantique devraient à l’avenir faireappel aux outils traditionnels du TAL enrichis des représentations et des traitementssémantiques associés.

5.2 LA TRADUCTION AUTOMATIQUE : Pangloss® ET Mikrokosmos®

Une application de génération de langue naturelle fait traditionnellement appel àune représentation neutre (pivot) à laquelle on relie les différents termes d’une baselexicale multilingue. Ces applications sont des systèmes de traduction à base deconnaissances (KBMT – Knowledge-Based Machine Translation), traduisant via lesens (sémantique) un texte d’une langue vers d’autres langues. La représentation dusens est modélisée dans une ontologie indépendante des langues qui joue le rôle« d’interlingua ».

Les principaux bénéfices attendus sont : de fournir un fondement pour représenterle sens de texte dans un « interlingua » ; pour permettre à des lexiques de différentes

49 Le terme d’« ontologie linguistique » peut faire penser à un oxymoron dans la mesure où une ontologie à trait auxconcepts, pas aux mots de la langue. En pratique, les utilisateurs principaux de ce terme (Zyl et al., 2000) décrivent plutôtl’association d’une ontologie et de lexiques de différentes langues dans le but de créer une représentation pivot.

Page 129: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

8 – Applications du Web sémantique

121

langues de partager un même modèle. Le modèle ontologique résultant est du couppartagé pour le TAL par l’analyse et la génération.

WORDNET et EUROWORDNET (Vossen, 1998) en est un archétype. A la différencede WORDNET dédié à la langue anglaise, EUROWORDNET est une base multilingue(Allemand, Hollandais, Français, Italien, Espagnol, Tchèque et Estonien). Le réseau estorganisé de manière identique à WORDNET en « synsets » (ensembles de motssynonymes) lié par des liens basiques de synonymie. Ces ensembles sont ensuite reliésà un interlingua (Inter-Lingual-Index) basé sur le Princeton Wordnet. Au travers decet index, les langages sont interconnectés de telle sorte qu’il est possible de passerdes mots d’une langue aux mots similaires d’une autre langue.

Le système PANGLOSS® (Knight et al., 95) traduit des textes Espagnols enAnglais. L’ontologie linguistique utilisée dans Pangloss ® est SENSUS (identique àcelle utilisée dans le système ONTOSEEK cité plus haut).

Le système MIKROKOSMOS® (Viegas, 99 ;Mahesh, 95) traduit des textesEspagnols et Chinois en Anglais. Il inclut un interlingua (TMR – Text MeaningRepresentation) qui produit une représentation sémantique pour les langues sourcescitées. Il propose aussi un outil d’édition et une API pour accéder à l’ontologieMIKROKOSMOS.

6 CONCLUSION

Nous avons résumé dans le paragraphe précédent quelques classes d’applicationsarchétypes de l’usage immédiat et tangible des technologies du web sémantique. Il nefait aucun doute que cette technologie du sens doive apporter un saut qualitatifindiscutable si ce n’est une réelle rupture technologique.

Toutefois, la technologie est encore immature et de nombreuses questionsscientifiques restent ouvertes telles :

- le passage à l’échelle du web,- la tenue en contexte de forte hétérogénéité (modélisations et langages),- la tenue en milieu fortement évolutif.

Le réel décollage des technologies du web sémantique ne se fera que quand lestechnologies auront atteint un niveau de maturité et de conviction suffisantes (ce quiest déjà vrai pour quelques domaines comme le E-Commerce) et quand les modèleséconomiques feront apparaître de manière évidente les gains en terme de retour surinvestissement (ROI) et d’extension ou d’ouverture vers de nouveaux marchés.

C’est l’objectif majeur du réseau thématique IST-Ontoweb et du futur réseaud’excellence NoE-KnowledgeWeb (FP6).

RÉFÉRENCES

ARONSON AR, BODENREIDER O, CHANG HF, HUMPHREY SM, MORK JG, NELSON SJ,RINDFLESCH TC & WILBUR WJ (2000), The NLM Indexing Initiative, Proc AMIA Symp p.17-21.

BLOOMFIELD L., (1933) Language, Holt, Rinehart and Winston, New York, 1933.

CHARLET J., CORDONNIER E.& GIBAUD B. (2002) Interopérabilité en médecine : quand lecontenu interroge le contenant et l’organisation. Revue Information, interaction, intelligence2(2).

CoMMA (2002) http://www.si.fr.atosorigin.com/sophia/comma/Htm/HomePage.htm

Page 130: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

122

CORDONNIER E., CROCI S., LAURENT J.-F., GIBAUD B. (2003) Interoperability and MedicalCommunication Using “Patient Envelope”-Based Secure Messaging Proceedings of theMedical Informatics Europe Congress,

DARMONI S.-J., LEROY J.-P., BAUDIC F., DOUYÈRE M., PIOT J. & THIRION B. (2000). CISMeF: a structured health resource guide. Methods of Information in Medicine, 39(1).

ERCIM News (2002) http://www.ercim.org/publication/Ercim_News/enw51/ Special: SemanticWeb, October.

FRACAS (1998) Survey of the state of the art in human language technology, Chapter 3 onLanguage Analysis and Understanding.

[IJCAI-97, 1997] Ontologies and Multilingual NLP, Kavi Mahesh, August 23-29, 1997, Nagoya,Japan.

GUARINO N., MASOLO C.& VETERE G., OntoSeek: (1999) Content-Based Access to the Web,IEEE Intelligent System.

KNIGHT, K.; CHANCER, I.; HAINES, M.; HATZIVASSILOGLOU. V.; HOVY, E. H.; IIDA M.; LUK,S.K.; WHITNEY, R.A. & YAMADA, K.( 1995) Filling Knowledge Gaps in a Broad-CoverageMT System. Proceedings of the 14th IJCAI Conference. Montreal (Canada)..

MAHESH, K.& NIRENBURG, S.(1995) A Situated Ontology for Practical NLP. Proceedings of theWorkshop on Basic Ontological Issues in Knowledge Sharing, International Joint Conferenceon Artificial Intelligence (IJCAI-95), Aug. 19-20, 1995, Montreal, Canada.

MKBEEM (2002) Multilingual Knowledge-Based E-Commerce < http://www.mkbeem.com >

ONTOBROKER (1998) http://ontobroker.semanticweb.org/

ONTOKNOWLEDGE (2001) http://www.ontoknowledge.org

OntoWeb (2002). Web site of the EC project IST-OntoWeb http://www.ontoweb.org et SIG4http://sig4.ago.fr

RECTOR et al (1999) Terminology and concept representation languages: where are we? ArtificialIntelligence in Medecine. Jan;15(1):1-4

ROUSSEY C., CALABRETTO S. & PINON J.-M. (2002). Le thésaurus sémantique : contribution àl’ingénierie des connaissances documentaires. In B. Bachimont, Coordinateur, Actes des 6es

Journées Ingénierie des Connaissances, p. 209-20, Rouen, France.SABAH G. (2000) Sens et traitements automatiques des Langues pp 77-108 in Ingénierie des

langues, Jean-Marie Pierrel, Hermes..

Semantic Web (2001) http://www.ercim.org/EU-NSF/semweb.html Research Challenges andPerspectives of the Semantic Web, Sophia Antipolis, France, 3-5 October.

VIEGAS (1999), An Overt Semantics with a Machine-guided Approach for Robust LKBs. TheProceedings of SIGLEX99 Standardizing Lexical Resources, as part of ACL99. University ofMaryland, USA, Maryland.

VOSSEN, P. (ed.) (1998) ; EuroWordNet: A Multilingual Database with Lexical SemanticNetworks. Kluwer Academic Publishers, Dordrecht .

WEB SÉMANTIQUE MÉDICAL (2003) Premières journées Web sémantique médical organisées par leLaboratoire d’Informatique Médicale de Rennes et l’AS Web sémantique du CNRS.Présentations, résumés et compte rendu accessible en 2003 à http://wsm2003.org/

ZYL J.& CORBETT D. (2000), A framework for Comparing the use of a Linguistic Ontology in anApplication, Workshop Applications of Ontologies and Problem-solving Methods,ECAI’2000, Berlin Germany, August.

Page 131: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

123

9 – Conclusion

1 QUELQUES RÉFLEXIONS

Quelles seront les clés de la pénétration des technologies du Web sémantique ?Comme pour toute nouvelle technologie dont les usages potentiels sont nombreux, ilest difficile de prévoir lesquels prévaudront et comment telle ou telle catégorie deprofessionnels ou d’utilisateurs trouveront un bénéfice réel aux nouvelles possibilitésoffertes. Il est néanmoins possible de repérer d’ores et déjà des obstacles à ladiffusion du Web sémantique. Dans une vision prospective, Euzenat (2002) souligneun ensemble de recherches qu’il serait utile de développer et discute de différentsmodèles de croissance du Web sémantique. Les deux modèles extrêmes sont d’unepart celui qui verrait se développer le Web sémantique par des processus similaires àceux qu’a connu le Web en HTML (réalisation par analogie et « couper-coller ») etd’autre part le modèle opposé dans lequel n’existeraient que de « petits » Webssémantiques de différentes communautés. Tout intermédiaire est évidemmentpossible.

Nous nous contenterons d’insister, dans la première partie de cette conclusion, surdeux de ces obstacles qui sont particulièrement cruciaux pour les débuts même duWeb sémantique.

Le premier, indéniable, est la diversité et la complexité des langages tels qu’ils sontactuellement proposés par le W3C. Cela est sans doute inévitable dans cette phaseinitiale. Mais il est sans doute bon de rappeler que des raisons du succès d’HTMLsont la diversité de ses utilisations et sa simplicité ainsi que celle des outils permettantsa mise en œuvre. De même, XML reste relativement simple pour la réalisationd’applications dans différents métiers et surtout est maintenant bien maîtrisé par denombreux développeurs. Même si on n’adhère pas complètement à ce que JamesHendler50 a écrit, on peut affirmer que la convivialité des outils pour la mise en œuvredes langages du Web sémantique sera ainsi une des principales clés.

50 « Sur le Web, l’expressivité est le baiser de la mort, les langages et les solutions plus simples vont plus loin que les pluscomplexes » in (Staab et al, 2002).

Page 132: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

124

Le deuxième obstacle provient du fait que la détermination et l’ajout, même desimples méta-données, n’est pas une activité naturelle pour la plupart des personnes.Les expériences des chercheurs et des praticiens de la documentation sont éclairantesde ce point de vue. La difficulté dans le cas de connaissances plus formalisées estévidemment accrue. Les expériences dans la construction d’ontologies sont, ici aussi,instructives et pourraient contribuer à lever quelques illusions.

Comme le souligne Euzenat et al. (2001), dans l’idéal les méta-données et lesannotations sémantiques devraient être un sous-produit automatique ou effet de borddes activités usuelles, personnelles ou professionnelles, des différents typesd’utilisateurs. Même si on ne peut penser atteindre cet objectif en toute généralité, desavancées dans cette direction doivent être l’objet de recherches. Comme souligné ci-dessus, on peut, à ce propos, se poser la question de savoir si le Web sémantique segénéralisera ou restera cantonné dans des communautés réduites de professionnels.

Les journées scientifiques organisées par l’AS ont en tout cas montré que la voiesemble ouverte pour deux visions, pour nous complémentaires, du Web sémantique.La première met plus l’accent sur la réalisation d’outils logiciels utilisant desreprésentations munies de sémantique formelle et des mécanismes inférentielspuissants, avec un coût souvent élevé de construction et de maintenance desconnaissances. La deuxième met plus l’accent sur des représentations semi-formelleset repose plus sur l’utilisateur pour leur exploitation opérationnelle. Pour sespartisans, elle peut, à court terme, être plus souple à réaliser et finalementcorrespondre mieux aux fonctionnements cognitifs de ces utilisateurs. La première,par contre, permettra une meilleure prise en charge de différentes tâches par les agentslogiciels et devrait permettre d’obtenir un meilleur niveau de confiance et de sécuritédans l’utilisation du Web. Le débat est ouvert y compris avec ceux qui expriment despropositions intermédiaires.

2 PROPOSITIONS DE RECHERCHE

Nous récapitulons dans cette conclusion, les propositions de recherche quiémergent des travaux de l’AS et qui sont pour la plupart justifiées dans les chapitresprécédents, particulièrement dans la quatrième partie des chapitres correspondants.

Deux remarques s’imposent :- La première est que ces thèmes ne sont pas indépendants. Par exemple, les

thèmes métadonnées ou ontologies peuvent être l’objet de recherches en tantque telles mais sont bien sûr présents dans beaucoup d’autres recherchescomme celles portant sur l’intégration de sources d’information hétérogènesou l’accès et la composition de services Web sémantiques ou bien encore danstoutes les problématiques d’adaptation ou de personnalisation dans les cas oùces tâches se posent dans le contexte du Web sémantique.

- La deuxième est bien sûr qu’une partie de ces recherches existeindépendamment du Web sémantique. Mais d’une part, elles sontindispensables au développement du Web sémantique. Et d’autre part, le faitde les mener dans ce contexte transforme souvent les problèmes posés et letype de méthodes et d’outils à considérer afin d’avancer vers la solution deces problèmes, comme il a été longuement expliqué dans les différentschapitres de ce document. Ces nouvelles dimensions peuvent d’ailleurs avoirun effet en retour sur des recherches menées par ailleurs.

Ces propositions sont ainsi :Infrastructures et Langages

- rôles des différents langages : RDF + OWL, nouvelles solutions, etc ;

Page 133: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

9 – Conclusion

125

- transformations entre langages : modes de spécification et d’exécution,preuve de la correction des transformations par rapport à leursspécifications ;

- services d’inférence automatiques pour les ontologies et le WS :efficacité, très grandes bases de connaissance, raisonnement en présenced’informations erronées, périmées, redondantes ;

- technologies des SGBD pour le Web sémantique.Annotations et métadonnées

- rôle et usages des métadonnées et des annotations dans les activitésindividuelles ou collectives ;

- interfaces d’écriture et de visualisation des métadonnées/annotations etproblèmes associés ;

- aide à la construction de méta-données à partir de documents textuels etautres ;

- cycle de vie des méta-données : évolution, historique, droits.Ontologies

- méthodologies pour la construction et l’évolution des ontologies ;- correspondances sémantiques entre ontologies (fusion, alignement) ;- aide à la construction d’ontologies (et de méta-données) à partir de

documents textuels et autres ;- outils pour la réalisation et l’utilisation d’ontologies (visualisation,

stockage, recherche) ;- bibliothèques d’ontologies de haut niveau ou spécifiques ;- recherches sur les processus d’utilisation distribuées d’ontologies.

Intégration de sources de données- médiation décentralisée : conception d’architectures flexibles et

extensibles, langages d’interrogation riches et puissants et outilsconviviaux ;

- intégration de données multimédia et en temps réel ;- méthodes et outils de fouille de données (data mining) sur des

documents non structurés ou mal structurés.Personnalisation / Adaptation

- modèles utilisateurs et modèles d’utilisation pour le Web sémantique ;- qualité de services, sécurité et protection de la vie privée ;- adaptation à l’utilisateur pour la recherche d’information ;- adaptation dans le contexte de l’accès et de l’utilisation des Web services.

Web services sémantiques- méthodes et outils du Web sémantique pour automatiser autant que

possible les différentes tâches liées au cycle de vie des services Webs ;- étude des modèles temporels pour les Web services ;- Web services sémantiques dans le contexte des e-workflows et des

processus métiers ;- modèles sémantiques pour les Web services.

Applications- montrer l’utilité économique et sociétale (innovations) ;- pousser aux limites ces nouvelles technologies sur plusieurs champs

applicatifs concrets et utiles (test de domaine de validité et verroustechnologiques) ;

- faire remonter de nouvelles problématiques scientifiques (fertilisationcroisée) ;

- montrer qu’elles sont ou seront sous peu opérationnelles (passage àl’échelle) ;

- accélérer le temps de cycle de transfert vers l’industrie et les services(transfert technologique et commercial).

Page 134: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

126

Questions générales- qualité de service ;- contributions du Web sémantique au travail coopératif ;- modèles de confiance (en fonction du contexte, propagation) ;- modèles de preuve ;- facilitation de la prise en main du Web sémantique par les producteurs de

ressources et les différents types d’utilisateurs.

RÉFÉRENCES

EUZENAT Jérôme (ed) (2002). Research challenges and perspectives of the Semantic Web, Reportof the EU-NSF strategic workshop, Sophia-Antipolis.

STAAB Stefen (ed) et al. (2002). Ontologies’KISSES in Standardization, IEEE IntelligentSystems, March-April 2002, p.70-79.

Page 135: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

127

10 – Activités de l’action spécifique « Web sémantique »

1 LISTE DES ACTIVITÉS DE L’AS

L’action spécifique « Web sémantique », financée par le département STIC duCNRS de fin s’est déroulée de fin novembre 2001 à fin juin 2003. Elle a été placéesous la responsabilité de Jean Charlet, Philippe Laublet et Chantal Reynaud qui ontdès le début constitué un groupe de travail et de réflexion (GT) avec les 14 chercheurssuivants :

Jean Charlet – AP-HP/STIM & Paris 6

Philippe Laublet - LaLICC, Paris 4

Chantal Reynaud - Paris 10 et LRI, Paris 11

Bruno Bachimont - Ina & UT Compiègne

Olivier Corby - INRIA Sophia-Antipolis

Jérôme Euzenat - INRIA Rhône-Alpes

Serge Garlatti - ENST Bretagne, Brest

Mohand-Saïd Hacid - LISI, Lyon1

Alain Léger - R&D France-Télécom, Rennes

Jean-Luc Minel - LaLICC, Paris 4

Amedeo Napoli51 - LORIA, Nancy

Yannick Prié - LIRIS, Lyon1

Farouk Toumani-LIMOS, Clermont-Ferrand

Francky Trichet - IRIN, Nantes

Les premières activités de l’AS ont été :La réalisation d’un site Web : http://www.lalic.paris4.sorbonne.fr/stic/ qui a été

réalisé et géré successivement par Philippe Gauvain (LaLICC) puis StéphanieWerli (LaLICC).

Un appel à présentation de recherches dans le domaine sous forme de résumésqui ont été rendus accessibles sur le site de l’AS. A la fin de l’AS, desprésentations de recherches relevant du Web sémantique et provenant de 22équipes ont été regroupées dans un dossier spécifique publié dans le numéro54 d’avril 2003 du Bulletin de l’AFIA.

Les réunions du groupe de travail qui a organisé sa réflexion en six thèmes :- les langages du Web sémantique ;- les méta-données et annotations dans le Web sémantique ;- les ontologies pour le Web sémantique ;- l’intégration de sources de données hétérogènes ;

51 Remplacé à certaines réunions par Emmanuel Nauer – LORIA, Nancy

Page 136: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

128

- l’adaptation et la personnalisation dans le Web sémantique ;- les Web services sémantiques.

L’AS a été en 2002 rattachée au réseau thématique pluridisciplinaire (RTP)« Document: création, indexation et navigation » relevant du domaine « Interactionhumaine et cognition » du département STIC du CNRS dont on pourra consulter lesactivités sur le site http://rtp-doc.enssib.fr/

L’AS a organisé ou co-organisé plusieurs journées scientifiques et ses responsablesont effectué un certain nombre de présentations sur la problématique du Websémantique. L’ensemble est synthétisé dans le tableau ci-dessous et commenté à lasuite. Notons que les programmes, les présentations et les tutoriaux ainsi que lesrésumés et articles, quand ils existent, se trouvent sur le site Web de l’AS.

GT52 Journées scientifiques (JS) organisées (ou co-organisées)par l’AS - Autres Présentations (Pr) – Divers

Décembre 17Janvier2002

29 7 Tutoriel RFIA – Angers (a)

FévrierMarsAvril 29 5 Pr : Journées STIC – ParisMai 24 Pr : Journées ISDN – Yenne (b)Juin 18 Pr : Journées STIC – ParisJuilletAoutSeptembre 9Octobre 10/11 JS de l’AS : “Web Sémantique” – Paris – Ivry (c)NovembreDécembre 4/5/6 Pr (avec article) : Assises GDR I3 – Nancy (d)Janvier2003

9

FévrierMars 28 17 JS : “Web sémantique médical” – Rennes (e)

Avril Dossier “Web sémantique” du bulletin de l’AFIA n°54Mai 6 JS : “Semantic Web and Biomedical Informatics” – (f)

7 JS de l’AS : “Web Sémantique et SHS” – Paris – Ivry (g)Juin 4Juillet 4 JS “Web sémantique et industrie” AFIA – Laval (h)

(a)D. BOURIGAULT, J. CHARLET, Ph. LAUBLET, Tutoriel intitulé "Ontologies,terminologies, vers le Web sémantique", Congrès RFIA 2002, Angers, janvier2002.

(b)Ph. LAUBLET, Web sémantique, J. CHARLET, Ontologies, Séminaire ISDN,Yenne, mai 2002.

(c)Cette journée a regroupé plus de 100 chercheurs (voir programme ci-dessous).

52 Dans cette colonne sont indiquées, juste pour mémoire, les dates des réunions du groupe de travail de l’AS.

Page 137: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

10 – Activités

129

(d)Philippe LAUBLET, Chantal REYNAUD, Jean CHARLET, Sur quelques aspectsdu Web sémantique, Assises du GDR I3 , Editions Cépadues, Nancy, décembre2002.

(e)Cette journée a été co-organisée avec le laboratoire d’informatique médicalede Rennes par Anita BURGUN (LIM Rennes) et Jean CHARLET (AP-HP - pourl’AS Web sémantique). Le site officiel de la journée WSM 2003 esthttp://www.wsm2003.org/. Elle a regroupé plus de 60 chercheurs (voirprogramme ci-dessous)

(f)Ce Workshop a été co-organisé par Jean CHARLET (AP-HP - pour l’AS Websémantique) et Anita BURGUN (LIM Rennes) durant la conférence MedicalInformatics Europe 2003 (MIE 2003 – site du workshop :http://www.med.univ-rennes1.fr/mie2003/wab.html). Il a réuni environ 30chercheurs.

(g)Cette journée a regroupé plus de 60 chercheurs (voir programme ci-dessous)(h)Cette journée a été co-organisée par l’AFIA, sur sa plate-forme 2003, l’AS et

le SIG 4 du projet européen Ontoweb (Eunika MERCIER-LAURENT, JérômeEUZENAT et Alain LÉGER). Elle a regroupé environ 20 chercheurs (voirprogramme ci-dessous)

2 PROGRAMMES

Cette section détaille le programme des 4 journées organisées par l’AS.

Page 138: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

130

Programme des journées scientifiques“Web sémantique”

10 et 11 octobre 2002

9h45 Présentation des journées : Philippe Laublet.

-------------------------------------------------------------------------

Session 1 : Ontologies pour le Web sémantique (Jeudi 10 Octobre)

-------------------------------------------------------------------------

10h : Organising Web Documents into Thematic Subsets using an Ontology(THESUS), B. Nguyen, M. Vazirgianis, I. Varlamis, M. Halkidi.

10h20 : Une ontologie du droit français pour la reformulation de requêtes sur le Web,D. Bourigault, G. Lame.

10h40 : Un modèle formel d’ontologie pour l’ingénierie, le commerce électronique etle Web sémantique, le modèle de dictionnaire sémantique PLIB, G.Pierra

11h : Discussion sur le thème introduite par Jean Charlet.

-------------------------------------------------------------------------

Session 2 : Intégration de sources de données hétérogènes pour le Web sémantique

-------------------------------------------------------------------------

11h 55 : Vers l’automatisation de la construction de systèmes de médiation pour lecommerce électronique, C. Reynaud, G. Giraldo.

12h15 : Production de réponses coopératives dans un contexte médiateur, B. Safar, A.Bidault, C. Froidevaux, H. Gagliardi, C. Reynaud

12h35 : Discussion sur le thème introduite par Mohand-Saïd Hacid.

-------------------------------------------------------------------------

Session 3 : Langages pour le Web sémantique

-------------------------------------------------------------------------

14h30 : Une plate-forme XML pour représenter des documents et leur contenu pour lamise en œuvre du Web sémantique, R. Al-Hulou, O.Corby, R. Dieng-Kuntz, J. Euzenat,C. Medina Ramirez, A. Napoli, R. Troncy.

14h50 : Proposition d’un méta-modèle basé sur les Topic Maps pour la structurationet la recherche d’information, M. Zacklad, J. Caussanel, J.P. Cahier.

15h10 : De la sémantique des langages de programmation à la vérificationsémantique des sites Web, T. Despeyroux, B.Trousse.

15h30 : Discussion sur le thème introduite par Jérôme Euzenat.

-------------------------------------------------------------------------

Session 4 : Les Web-services avec le Web sémantique

-------------------------------------------------------------------------

16h30 : Découverte dynamique de e-services, C. Rey.

16h50 : Programmer des composants actifs dans le web sémantique, Nicolas Sabouret

Page 139: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

10 – Activités

131

17h10 : Suivi d’exécution de services accessibles par l’Internet, M.-C. Fauvet, M.Dumas, B. Benatallah

17h30 : Discussion sur le thème introduite par Farouk Toumani.

-------------------------------------------------------------------------

Session 5 : Applications avec le Web sémantique (Vendredi 11 Octobre)

-------------------------------------------------------------------------

9h : Collecte de données biologiques à partir de sources multiples et hétérogènes. versune structure de médiation conviviale et orientée source, M-D. Devignes, M. Smaïl.

9h20 : Intégration de sources de données génomiques du Web, C. Froidevaux, S.Cohen Boulakia.

9h40 : Indexation sémantique de documents sur le Web : application aux ressourceshumaines, E. Desmontils, C. Jacquin, E. Morin.

10h : E-learning et Web sémantique : le projet MEMORAe, M-H. Abel, D. Lenne, O.Cissé.

10h 20 : Une approche du développement de Webs sémantiques d’entreprise centréesur un modèle de l’entreprise, Gilles Kassel.

10h40 : Discussion sur le thème introduite par Alain Léger.

-------------------------------------------------------------------------

Session 6 : Méta-données et annotations dans le Web sémantique

-------------------------------------------------------------------------

11h30 : Topic maps et navigation intelligente sur le Web, B. Le Grand, M. Sotto.

11h50 : Annotations sur le Web : notes de lecture, E. Desmontils, C. Jacquin.

12h10 : SyDoM : un outil d’annotation pour le Web sémantique, C. Roussey, S.Calabretto, J-M Pinon.

12h30 : Discussion sur le thème introduite par Yannick Prié.

-------------------------------------------------------------------------

Session 7 : Utilisation du Web à l’aide du Web sémantique : navigation, adaptationet personnalisation

-------------------------------------------------------------------------

14h30 : Fusion de distances et de probabilités pour évaluer un facteurd’affaiblissement pendant la propagation d’un indice de pertinence, J. Révault.

14h50 : DefineCrawler : un crawler paramétrable pour la recherche d’informationintelligente sur le Web, E. Nauer.

15h10 : Génération de parcours recommandés dans un Web communautaire, T- A.Ta, J-M. Saglio.

15h30 : Musette : un modèle pour réutiliser l’expérience sur le Web sémantique, P-A.Champin , Y. Prié.

15h50 : Discussion sur le thème introduite par Serge Garlatti.

Page 140: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

132

Programme de la journée scientifique“Web sémantique et SHS”

7 mai 2003-------------------------------------------------------------------------

Session 1 : Introduction

-------------------------------------------------------------------------

09h30 : Introduction au Web sémantique - Ph. Laublet

10h00 : Annotations et métadonnées pour le Web sémantique - Y. Prié

-------------------------------------------------------------------------

Session 2 : Quelles sémantiques pour le Web - Anim. : J. Charlet

-------------------------------------------------------------------------

10h30 : Le Web sémantique : entre calcul et interprétation, quelques remarques surles questions posées par le Web sémantique aux sciences technologies et aux scienceshumaines ou sociales - B. Bachimont

11h30 : De la sémantique formelle à une approche computationnelle del’interprétation - J. Euzenat

12h00 : Du Web cognitivement sémantique au Web socialement sémantique :exigences représentationnelles de la coopération - M. Zacklad, J.-P. Cahier, X. Petard

12h30 : Discussion

-------------------------------------------------------------------------

Session 3 : Web sémantique pour l’entreprise - Anim. : S. Garlatti

-------------------------------------------------------------------------

14h00 : KMP (Knowledge Management Platform) : exemple de collaborationpluridisciplinaire pour la construction d’un portail sémantique inter-entreprises - C.Thomas, A. Giboin, S. Garlatti et équipe KMP

14h30 : Les ontologies dans l’entreprise pour le non structuré : enjeux et cas concrets- A. Garnier, N. Dessaigne

-------------------------------------------------------------------------

Session 4 : Web sémantique et approches linguistiques - Anim. : Ch. Reynaud

-------------------------------------------------------------------------

15h00 : Rôle des ontologies pour le Web sémantique : métadonnées ou données ? -B. Pincemin

15h30 : La linguistique textuelle peut-elle contribuer au Web sémantique ? Réflexionssur un exemple : « Identifier qui a rencontré qui ? Où ? Quand ? » - J.-P. Desclés

-------------------------------------------------------------------------

16h30 : Table ronde

----------------------------------------------------------------------

Web sémantique et/avec les Sciences humaines et sociales Anim. : B. Bachimont avecLouis Chamming’s, Jean-Pierre Desclés, Jean-Michel Salaün.

Page 141: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

10 – Activités

133

Programme de la journée scientifique“Web sémantique et Médecine”

17 mars 2003 – Rennes

9h30 : Présentation de la journée A. Burgun

-------------------------------------------------------------------------

Exposés généraux

-------------------------------------------------------------------------

9h35 : Introduction au Web sémantique médical, J. Charlet, P. Laublet, C. Reynaud

10h15 : Besoins et langages pour le Web en médecine, C. Golbreich

-------------------------------------------------------------------------

Terminologies et ontologies

-------------------------------------------------------------------------

10h45 : Terminologies et ontologies en médecine : analyse de l’existant, A. Burgun

11h20 : Ressources IMGT et IMGT-ONTOLOGY dans le contexte du Web sémantiquemédical, C. Protat et al.

11h40 : Caractérisation de groupes de gènes co-exprimés grâce à l’ontologie GO, M.Courtine, J-D. Zucker, K. Clément

12h00 : Ontologie stratifiée de l’anatomie du cortex cérébral : application aumaintien de la cohérence, O. Dameron, A. Burgun, X. Morandi, B. Gibaud

12h20 : Vers une Ontologie Anatomo-Fonctionnelle du Cerveau, G. Diallo, D.Bernhard, B. Batrancourt, M. Simonet

-------------------------------------------------------------------------

Indexation / Annotation

-------------------------------------------------------------------------

14h00 : Les métadonnées dans le cadre du Web sémantique : applications audomaine biomédical, F. Mougin, A. Burgun, P. Le Beux

14h20 : CISMeF dans l’infrastructure du Web sémantique, LF. Soualmia et al.

14h40 : Indexer le Web médical francophone avec l’UML, P. Zweigenbaum

-------------------------------------------------------------------------

Applications

-------------------------------------------------------------------------

15h20 : La Méta-Modélisation pour la représentation polymorphe des connaissancesdes experts, B. Huet, G. Blain

15h40 : Neurobase : Gestion de données et de connaissances distribuées enneuroimagerie, C. Barillot et al.

16h00 : Vers un Web sémantique en cancérologie, S. Brachais, M. d’Aquin, J. Lieber,A. Napoli

-------------------------------------------------------------------------

Page 142: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

Rapport AS « Web sémantique »

134

Synthèse et table-ronde

-------------------------------------------------------------------------

16h20 : Synthèse de la journée et ouverture à la discussion par P. Le Beux

16h30 : Table ronde animée par M. Cuggia et F. Le Duff

17h30 : Synthèse de la table ronde et clôture de la journée par A. Burgun et J. Charlet

Page 143: Éditeurs - Accueil - École des Mines de Saint-Étiennebeaune/websem/AS_Web_Sem.pdf · v 1 – introduction 1 1 l e w eb sÉmantique 1 2 l’ organisation du document 4 3 l’ organisation

10 – Activités

135

Programme de la journée“Web sémantique et industrie”

4 juillet 2003 - Laval

-------------------------------------------------------------------------

9h00 - 10h00 : Introduction

-------------------------------------------------------------------------

- Pourquoi le web sémantique? Eunika Mercier-Laurent (EML conseil) présenté parJean Rhomer

- Etat de l’art : Jérôme Euzenat (INRIA Rhône-Alpes)

-------------------------------------------------------------------------

10h30 - 15h30 : Présentation de travaux et applications

-------------------------------------------------------------------------

- Web sémantique Web services et Multilinguisme (sémantique) : services pour LaRedoute et la SNCF (IST-Mkbeem): Johannes Heinecke et Alain Léger (FranceTélécom R&D)

- Le projet européen Hi-Touch : Jean Delahousse (Mondeca)

- Les ontologies dans l’entreprise pour le non structuré : enjeux et cas concrets :Nicolas Dessaigne (Arisem)

- Comment faire coopérer le Web Sémantique avec les systèmes traditionnels del’entreprise (bases de données relationnelles et gestion documentaire) JeanRohmer (Thalès)

-------------------------------------------------------------------------

16h00 - 17h30 : Discussion / Table ronde

-------------------------------------------------------------------------

- OntoWeb SIG 5 : Didier Riou (AGO)