Semantic Information Systems

74
Les Systèmes d’Information Sémantiques S. Garlatti

description

ISITC APRIL 2011Hammam Sousse

Transcript of Semantic Information Systems

Page 1: Semantic Information Systems

Les Systèmes d’Information Sémantiques

S. Garlatti

Page 2: Semantic Information Systems

PLAN Cours 1 (1h30) : • Problématique, Problème1

Cours 2 (1h30) : • Le web sémantique,

Cours 3 (3h00) :• RDF / RDFS, les Ontologies,

Cours 4 (3h00) :• OWL, SKOS, SIOC, FOAF

Cours 5 (3H00) : • Linked Data ou Web of Data, Le langage Sparql

Cours 6 (1H30) : • Le web sémantique & social en Action

Page 3: Semantic Information Systems

Problématique

Hypothèses• Systèmes d'information (SI)

- Accessibles sur Internet et/ou Intranet

- A l’aide d'un navigateur

• Architecture distribuées fondée sur l’architecture du Web

• Appelés « Sémantiques » parce que fondés sur les principes du Web Sémantique

Page 4: Semantic Information Systems

Problématique

Enjeu principal des SI

• Réutilisation, partage et échange des données

- sur internet / Intranet

- Par les machines (automatiquement)

Page 5: Semantic Information Systems

Problématique

Internet / Intranet• Technologie pour

- Accéder à des informations non structurées, hétérogènes et distribuées

- L’accès à l’information et à des sources de connaissance devient essentiel

• L’importance d’Internet est due :

- Aux services qu’il nous fournis: IRC, ICQ, Chat, email, News groups, FTP, WWW, E-commerce, B2B, B2C, etc.

Page 6: Semantic Information Systems

Problématique

WWW : succès fondé sur sa simplicité, MAIS !• Développé pour des lecteurs humains

- Les données actuelles sont principalement organisées et structurées pour être simple à transmettre et être présentées à des humains

– HTML et PDF sont principalement des langages de présentation de données

» <H2> Triple X </H2> : ne dit rien sur le titre sauf pour des humains

- Internet est de plus en plus utilisé par des machines – search engines, robots, etc.

Page 7: Semantic Information Systems

Problématique

Problèmes• Accéder, traiter l’information, extraire et interpréter

l’information

- La majorité des données sur le web est sous une forme qui ne permet pas de l’utiliser à grande échelle.

- Pas de système global de publication de données permettant aux machines et aux humains de les traiter

– Évènements sportifs, météo, guides TV, guides cinéma, etc. sont présentés par de nombreux sites Web, mais presque tous au format HTML (structure logique + présentation)

– Comment trouver et extraire l’information pertinente pour différents services

Page 8: Semantic Information Systems

Problématique

Problèmes• Entrave la recherche, l’extraction, la maintenance et la

génération d’information• Actuellement, pas d’accès réel au contenu des

documents

- Contenu et Information pas accessible ni interprétable par des machines

Page 9: Semantic Information Systems

Semantic Web in Actionpage 9

Problématique

Problèmes• Qualité de la recherche d’information

- Comment la machine peut-elle savoir que les résultats de la recherche sont pertinents ?

• Réutilisation des contenus de sites web

- Comment peut-on réutiliser les contenus de sites web ?

Page 10: Semantic Information Systems

Semantic Web in Actionpage 10

Problématique

Recherche d’information de type Google• Polysémie• Nombre de résultats très important

Requête : « directeur » « André Chomette »

• Intention : On ne veut que le site de Telecom Bretagne !• 44 000 résultats : toutes les pages qui contiennent ces

deux termes ou l’un des deux

Page 11: Semantic Information Systems

Problématique

Comment donner du

sens

aux Données

Page 12: Semantic Information Systems

Problématique

Comment attribuons-nous du sens aux données ?

Que voyez-vous ?

Page 13: Semantic Information Systems

Problématique

Que voyez-vous ?

Page 14: Semantic Information Systems

Problématique

Que voyez-vous ?

Page 15: Semantic Information Systems

Problématique

Que voyez-vous ?

Page 16: Semantic Information Systems

Problématique

Que voyez-vous ?

Page 17: Semantic Information Systems

Problématique

Que voyez-vous ?

Page 18: Semantic Information Systems

Problématique

Que voyez-vous ?

Page 19: Semantic Information Systems

Problématique

Que voyez-vous ?

Page 20: Semantic Information Systems

Problématique

Que voyez-vous ?

Page 22: Semantic Information Systems

Problématique

Page 23: Semantic Information Systems

Problématique

Pour Donner du sens aux données

• Nous utilisons nos connaissances dans des domaines spécifiques pour identifier / reconnaître ces données

• Connaissances partagées par des communautés

Page 24: Semantic Information Systems

page 24

Problématique

Donner du sens aux informations

• Description du site Telecom Bretagne

- Forme générale d’une description– Des phrases de type :

Sujet Verbe Complément

- Exemple– Telecom Bretagne a pour directeur André Chomette– Telecom Bretagne est une grande école française– Telecom Bretagne a pour site web http://www.tele...

Page 25: Semantic Information Systems

page 25

Problématique

Donner du sens aux informations

• Compréhension de ces phrases

- Différents contextes : différents termes– « a pour directeur », « président », « Dean », …

- Interprétation commune liée à des connaissances communes

– Utilisation de vocabulaires standards partagés par tous !

– Chaque vocabulaire détermine un sens unique aux verbes, aux catégories de sujets et de compléments

Page 26: Semantic Information Systems

page 26

Problématique

Plus formellement, ou presque• Telecom Bretagne dbpprop:president André Chomette (en)• Telecom Bretagne dbpprop:type French Grande Ecole (en)• Telecom Bretagne dbpprop:website http://www.tele...

Questions • French Grande Ecole dont André Chomette est président ?

- ?Grande_Ecole dbpprop:president André Chomette (en)

- ?Grande_Ecole dbpprop:type French Grande Ecole (en)

Page 28: Semantic Information Systems

Semantic Web in Actionpage 28

Le Web sémantique

Objectifs• Réutilisation, partage, échange des données• Automatisation ou semi-automatisation de certains

services en réutilisant les données

Moyens• Les données sont décrites / indexées de tel sorte que les

contenus – sens et sémantique - du web soient « interprétables » par les machines.

Page 29: Semantic Information Systems

Le Web sémantique

Le Web sémantique

• Les données doivent être encodées de tel sorte que les contenus – sens et sémantique - du web soient plus « compréhensibles » pour les machines, ou en d’autres termes par des algorithmes.

Page 30: Semantic Information Systems

1ère Génération WWW (Début 1990)

Séparation de la présentation et de la localisation

Fondée sur HTML, PDF, ...

2ème Génération WWW (Fin 1990)

Séparation de la structure et de la présentation

Fondée sur XML, XSL, ..

3ème Génération WWW

Séparation de la sémantique et de la stucture

Fondée sur RDF, RDFS, Ontologies, Logique, ...

Le Web sémantique

Page 31: Semantic Information Systems

Le Web sémantique

Tim Berners-Lee• Première vision du « Semantic Web »

- Accès automatique à l’information fondé sur une sémantique des données interprétable par l’ordinateur et des heuristiques utilisant celle-ci.

- Une sémantique explicite des données, associée à des théories sur des domaines (ontologies), permettra l’accès à de nouveaux services sur Internet

Page 32: Semantic Information Systems

Le Web sémantique• Point clé de l’automatisation ou de la semi-

automatisation- Recherche d’information pertinentes : Rappel et Précision

• Recherche d’information précise- Réutilisation, partage, échange et composition possible des

informations retrouvées

- Mais aussi, capacité à concevoir certaines « opérations  » automatiquement

• Donc pas de services élaborés possible : pas d’automatisation ou semi-automatisation de certains services ou tâches- Comment assurer le B2B, B2C “automatiquement”

– Exemple: voyage complexe avec réservation,

Page 33: Semantic Information Systems

Architecture du SW

Le SW nécessite • Une architecture partagée par tous pour échanger des

ressources sur Internet• Des standards pour

- Les ontologies et mécanismes d’inférence associés

- La sémantique explicite des ressources ou méta données sémantiques liées à des ontologies

- Le format des ressources ou documents

- L’adressage des ressources ou documents

Page 34: Semantic Information Systems

Architecture du SW

URI

Ontology

RDF + RDFSchema

XML + Name Spaces

Proof:InferenceEngine

Naming/AddressingLevel

Syntactic level

Semantic Level

Page 35: Semantic Information Systems

Architecture du SW

Page 36: Semantic Information Systems

Niveau Adressage /Nommage : URI

URI : Uniform Resource Identifier (RFC 2396)• Un simple identifieur Web

- Chacun peut en créer – décentralisé -

- Ressource avec une URI être sur le Web

• URL: ftp, gopher, http, internet mail, etc. (normalisée)

- 1 Protocole, 1 machine, 1 chemin

• URN : URI persistente• W3C maintient une liste des schémas d’URI

Page 37: Semantic Information Systems

Niveau Syntaxique: XML

XML : eXtensible Markup Language

- Sélection d’un sous-ensemble de SGML simple à implanter, mais néanmoins extensible : chacun défini ses propres balises

• Séparation de la présentation et du contenu• XML a été conçu pour décrire des données• Les balises XML ne sont pas prédéfinis. Vous devez

définir vos propres balises• XML utilise un Document Type Definition (DTD) or an

XML Schéma pour un « modèle » des données

Page 38: Semantic Information Systems

Niveau Syntaxique: XML

• XML n’est pas un remplacement d’HTML

- HTML a été conçu pour afficher des données et se concentre surtout sur leur présentation (taille, couleur, etc.)

• XML a été conçu pour décrire des données et se concentre sur la structure de ces données.

• XML a été conçu pour assurer l’interopérabilité• XML et HTML sont complémentaire

- XSL / XSLT transforme XML en HTML

Page 39: Semantic Information Systems

Niveau Syntaxique: XML

Propriétés de XML• Indépendant des logiciels et matériels • Infrastructure des échanges de données structurées• Interopérabilité : conçu pour décrire des données, les

stocker, les transporter et les échanger et les partager– XML DTD: une DTD défini les éléments constitutifs d’un documents. Il

défini la structure syntaxique (un arbre) d’un document type à l’aide d’une grammaire.

– Il permet donc à toute application de vérifier la conformité d’un document à la DTD

– Et donc de manipuler et transformer celui-ci lorsqu’il est conforme à cette DTD.

Page 40: Semantic Information Systems

Niveau Syntaxique: XML

• XML peut être utilisé pour créer de nouveaux langages

- XML est le prère de WAP et WML (Wireless Markup Language).

- MATHML, etc.

Page 41: Semantic Information Systems

Niveau Syntaxique : XML

<?xml version="1.0"?> <!DOCTYPE note [ <!ELEMENT note (to,from,heading,body)> <!ELEMENT to (#PCDATA)> <!ELEMENT from (#PCDATA)> <!ELEMENT heading (#PCDATA)> <!ELEMENT body (#PCDATA)> ]> <note><to> Tove </to> <from> Jani </from> <heading>Reminder </heading> <body> Don't forget me this weekend </body> </note>

Page 42: Semantic Information Systems

Niveau Syntaxique: XML

<?xml version="1.0" encoding="ISO-8859-1"?> <!-- Edited with XML Spy v4.2 --> <CATALOG>

<CD> <TITLE>Empire Burlesque</TITLE> <ARTIST>Bob Dylan</ARTIST> <COUNTRY>USA</COUNTRY> <COMPANY>Columbia</COMPANY> <PRICE>10.90</PRICE> <YEAR>1985</YEAR> </CD> <CD> <TITLE>Hide your heart</TITLE> <ARTIST>Bonnie Tyler</ARTIST> <COUNTRY>UK</COUNTRY> <COMPANY>CBS Records</COMPANY><PRICE>9.90</PRICE> <YEAR>1988</YEAR> </CD>

</CATALOG>

Page 43: Semantic Information Systems

Niveau Syntaxique: XML

Réutilisation des ressources/documents• Le même contenu peut apparaître de manières

différentes dans différents contextes indépendamment des plate formes

- Différents média : papier, en ligne,

- Différentes tailles : manuels, rapports

- La présentation peut être adaptée/personnalisée aux préférences de l’utilisateur

- Présentations standardisées peuvent être réalisées : entreprises, universités, mairies, etc.

Page 44: Semantic Information Systems

Niveau Syntaxique: XML

XML • Ne contient aucune sémantique formelle pour l’ordinateur• Ce sont les humains qui donnent un sens, une

sémantique, aux balises et leur contenu pas les machines

• « La sémantique »est un domaine qui étudie comment les symboles se référent aux objets

• « Note » ne référence rien pour une machine, la référence est uniquement faite dans l’esprit des lecteur humains

- D’où RDF pour la sémantique

Page 45: Semantic Information Systems

Niveau sémantique : RDF/RDFS

RDF – Resource Description Framework RDFS – Resource Description Framework Schema RDF/RDFS a été créé pour le traitement des

métadonnées• Ce sont des langages de description de métadonnées au

niveau sémantique• Fournit l’interopérabilité – au niveau sémantique - entre

applications pour l’échange, le partage et la réutilisation d’informations non interprétable pour la machine

Page 46: Semantic Information Systems

Niveau sémantique : RDF/RDFS

RDF/RDFS provient principalement des communautés• De standardisation du Web• Des bibliothèques• Des documents structurés• Représentation de connaissances• Programmation orientée objets et langages de

modélisation, • Etc.

Page 47: Semantic Information Systems

Niveau sémantique : RDF/RDFS

Langages Interprétables par une machine• Un langage peut être compris (interprété) par une

machine si et seulement si ce langage possède une sémantique formelle.

- Le langage doit se référencer à un modèle sous-jacent.

• En logique, le sens est fondé sur une théorie des modèles qui associe, entre autres, une valeur de vérité à chaque formule bien formée.

- Elle permet donc de « relier » les formules aux objets du monde modélisé.

Page 48: Semantic Information Systems

Niveau sémantique : RDF/RDFS

Logique• Théorie axiomatique

- Un langage et des formules bien formées

- Des axiomes, des règles d’inférences

- A, (A B) -- B

- Des théorèmes: formules bien formées déduites des axiomes et règles d’inférences

• Théorie des modèles

- Interprétation, Formules vraies/fausses

- Formules valides

Page 49: Semantic Information Systems

Niveau sémantique : RDF/RDFS

Théorème Formule valide

Une démonstrateur automatique de théorèmes est un algorithme qui « respecte les axiomes et règles d’inférences »

Il « respecte aussi le principe ci-dessus » Les opérations de la machine « respecte la sémantique

formelle »

Page 50: Semantic Information Systems

Niveau sémantique : RDF/RDFS

Calcul des prédicats• Théorie axiomatique : des prédicats• Théorie des modèles : des relations

Le web sémantique• Importe l’idée d’une sémantique formelle dans le

monde du WWW (point de vue logico-linguistique).• RDF/RDFS propose un langage adéquat à l’implantation

de métadonnées sémantiques associées aux ressources.

Page 51: Semantic Information Systems

Niveau sémantique: RDF/RDFS

RDF est• Un simple modèle relationnel

- Une déclaration RDF est constituée d’un triplet

« Objet, Attribut, Valeur », dont chaque membre peut être un littéral ou une ressource web

- Ce triplet peut être interprété comme le tuple suivant :

- « Sujet, Prédicat, Objet » ou encore Prédicat (Sujet, Objet)

Exemple• <http://music.fi/pieces#finlandia, creator,

http://composer.org/Sibelius>• <http://music.fi/pieces#finlandia, type, music>

Page 52: Semantic Information Systems

Le modèle de données RDF est formellement défini par:

• Un ensemble appelé Ressources.• Un ensemble appelé Littéraux• Un sous-ensemble de Ressources appelées

Propriétés.• Un ensemble appelé Déclarations, dont chaque

élément est un triplet (prédicat, sujet, objet)

« prédicat » est une propriété (membre de Propriétés), « sujet » est une ressource (membre de Ressources)« objet » est soit une ressource soit un littéral (membre de Littéraux).

Niveau sémantique: RDF/RDFS

Page 53: Semantic Information Systems

Niveau sémantique: RDF/RDFS

Le modèle de données RDF• N’est pas une sérialisation d’un arbre syntaxique XML,

ou les branches devraient être présentées dans l’ordre spécifié par une DTD XML.

Le modèle de données RDF est un ensemble de triplet !!!!!!!!!!• C’est un graphe orienté

Page 54: Semantic Information Systems

Niveau sémantique: RDF/RDFS

{creator, [http://www.w3.org/Home/Lassila], "Ora Lassila"}

Page 55: Semantic Information Systems

Niveau sémantique: RDF/RDFS

Page 56: Semantic Information Systems

Niveau sémantique: RDF/RDFS

<rdf:rdf xmlns:rdf=« http://www.w3.org/1999/02/22-rdf-syntax-nms# »

xmlns:dc=« http://purl.org/dc/elements/1.1 »

<rdf:description rdf:about=« http://music.fi/pieces#Finlandia »>

<dc:creator rdf:resource=« http://composer.org/Sibelius »>

<rdf:type music </rdf:type>

</rdf:description>

<rdf:rdf>

Page 57: Semantic Information Systems

Niveau sémantique: RDF/RDFS

RDF Schéma• RDF ne permet pas de spécifier le vocabulaire utilisé

dans une description RDF, comme par exemple : « author », « music », « creator », etc.

• C’est-à-dire définir la « sémantique » des propriétés• RDF Schéma est une extension de RDF avec laquelle il

et possible de

- Décrire les concepts utilisés dans des déclarations RDF

- Un ensemble de contraintes sur les objets et les valeurs du triplet.

Page 58: Semantic Information Systems

Niveau sémantique: RDF/RDFS

RDF Schema • Pourrait être vu comme un modèle orienté objet pour le

WWW

- « rdfs:Class » & « rdfs:SubClass » définissent la hiérarchie des classes

- « rdf:type » défini les instances d’une classe

- « rdf:domain » & « rdf:range » défini des contraintes sur les types de ressources

Page 59: Semantic Information Systems

Niveau sémantique: RDF/RDFS

Page 60: Semantic Information Systems

Niveau sémantique : RDF/RDFS

• Mais, RDF schéma définie les propriétés en terme de classes de ressources auxquelles elles s’appliquent au lieu de définir les classes en terme de propriétés que les instances possèdent.

- Par exemple, on définit la propriété « eg:author » avec pour « domain » « eg:Document » et avec un « range » de « eg:Person », tandis qu’un système classique orienté objet aurait défini une classe « eg:Book « avec un attribut appelé « eg:author » de type « eg:Person ».

- En utilisant une approche RDF, il est facile pour les autres de définir des propriétés additionnelles avec un « domain » de « eg:Document » or un « range » « eg:Person ».

Page 61: Semantic Information Systems

Niveau sémantique : RDF/RDFS

• On peut le faire sans avoir besoin de redéfinir la description originale de ces classes.

• Un des avantages de cette approche centrée propriété est qu’il est très facile à chacun de dire ce qu’ils veulent au sujet d’une ressource.

• C’est l’un des principes de l’architecture du Web [BERNERS-LEE98].

• Sinon, il serait nécessaire de définir une nouvelle propriétés dans une classe et de la partager avec les autres !!!!!

• Il permet de combiner des méta descriptions dans différentes partie du Web en un seul graphe !!!!!!

Page 62: Semantic Information Systems

Le niveau sémantique: RDF/RDFS

une collection d’alternativesrdf:Alt

une collection ordonnéerdf:Seq

une collection non ordonnéerdf:Bag

représente l’ensemble des Conteneurs.

rdfs:Container

la classe de RDF déclarationsrdf:Statement

la classe littéral represente les valeurs de type littéral

rdfs:Literal

le concept de propriétérdf:Property

le concept de Classerdfs:Class

la classe Ressource. rdfs:Resource

CommentaireNom de la classe

Page 63: Semantic Information Systems

Niveau sémantique: RDF/RDFS

Page 64: Semantic Information Systems

Niveau sémantique: RDF/RDFS

Page 65: Semantic Information Systems

Niveau sémantique: RDF/RDFS

RDFS est limité en termes de pouvoir d’expression• Il est souvent nécessaire de pouvoir exprimer des

contraintes supplémentaires

- Cardinalités min et Max, contraintes entre propriétés, etc. Les ontologies dans le cadre du Web sémantique sont

des extensions de RDFS.

Page 66: Semantic Information Systems

Niveau sémantique: les Ontologies

Langages logiques : formalismes typiques• Logiques de descriptions

- Loom, FaCT, Racer, Jena, …

• Logiques de frames

- Ontobroker, Florid, XSB, KAON…

• Graphes conceptuels

- Prolog+CG, Corese, etc.

• RDF / RDF Schéma

- Sesame, RQL, TRIPLE, SiLRi, …

Page 67: Semantic Information Systems

Niveau sémantique: les Ontologies

OWL site du W3C http://www.w3.org/2004/OWL/

Semantic Web • http://www.semanticweb.org/• http://www.w3.org/2001/sw/• http://www.lalic.paris4.sorbonne.fr/stic/as5.html • http://www.schemaweb.info/default.aspx • AS Web Sémantique, rapport final

- http://rtp-doc.enssib.fr/basedoc/rapports/ASWebSemantique2003.pdf

Page 68: Semantic Information Systems

Niveau sémantique: les Ontologies

Ontologies• http://www.w3.org/2001/sw/WebOnt/ • http://www.formalontology.it/index.htm • http://ontology.buffalo.edu/ • http://www.cs.utexas.edu/users/mfkb/related.html • http://www.daml.org/ontologies/ • http://www.jfsowa.com/ontology/ • http://www-ksl-svc.stanford.edu:5915/

Page 69: Semantic Information Systems

Niveau sémantique: les Ontologies

Les outils/environnements• http://www.semanticweb.org/ • Les logiques de descriptions :

- http://dl.kr.org/

- http://www.ida.liu.se/labs/iislab/people/patla/DL/

• Les graphes conceptuels :

- http://www.cs.uah.edu/~delugach/CG/ ;

- http://www.jfsowa.com/cg/ ;

Page 70: Semantic Information Systems

Niveau sémantique: les Ontologies

Les outils/environnements• Les Frames Logic

– http://www.informatik.uni-freiburg.de/~dbis/Publications/95/flogic-jacm.html

– http://www.cs.sunysb.edu/~kifer/dood/papers.html – http://www.ontoprise.de/members/angele/pubs/ontologyhandbook.pdf

Page 71: Semantic Information Systems

Ontology Web Langage OWL• C’est une version modifiée de DAML (Darpa) + OIL

(Europe)• Conçu pour des applications qui traitent le contenu, pas

uniquement la présentation des informations• Une extension de RDFS, muni d’une sémantique

formelle• Constitué de trois langages

- OWL Lite

- OWL DL

- OWL Full

Page 72: Semantic Information Systems

Ontology Web Langage

OWL Lite• Classification hiérarchie + contraintes simples

OWL DL• Pouvoir d’expression supérieur, avec complétude (toutes

les conclusions sont calculables) et décidabilité• C’est une logique de description (DL)

OWL Full• Expressivité maximale, pas de garantie sur les résultats

de calculs

Page 73: Semantic Information Systems

Ontology Web Langage

Toute ontologie OWL Lite valide est une ontologie OWL DL valide

Toute ontologie OWL DL valide est une ontologie OWL Full valide

Toute conclusion valide de OWL Lite est une conclusion valide de OWL DL

Toute conclusion valide de OWL DL est une conclusion valide de OWL Full

Page 74: Semantic Information Systems

Ontology Web Langage

Exemples• http://www.schemaweb.info/schema/BrowseSchema.asp

x• http://www.daml.org/ontologies/category.html • http://www.daml.org/ontologies/category.html