Découvrir le web sémantique en 15 minutes (Decideo 2014)

Post on 22-May-2015

1.547 views 0 download

description

Présentation sur le Web Sémantique au forum Decideo 2014 à Québec

Transcript of Découvrir le web sémantique en 15 minutes (Decideo 2014)

Découvrir le Web Sémantique

en 15 minutesFrançois Belleau

http://ca.linkedin.com/in/fbelleau

http://slideshare.net/fbelleau

Quel pays a produit le plus grand nombre de compositeurs ?

Demandons à GOOGLE...

Demandons à Wikipedia...

Demandons à DBpedia, la version sémantique de Wikipedia…

http://dbpedia.org/fct/

1...

2...

3...

4...

5...

6...

7...

8...

9...

10, et voilà !

Le secret : le langage de requête SPARQL au coeur du Web Sémantique

Qu’est-ce que le Web Sémantique ?

Selon Google

Web sémantique selon Wikipedia

Le Web sémantique, ou toile sémantique1, est un mouvement collaboratif mené par le World Wide Web Consortium (W3C)2 qui favorise des méthodes communes pour échanger des données.Le Web sémantique vise à aider l'émergence de nouvelles connaissances en s'appuyant sur les connaissances déjà présentes sur Internet. Pour y parvenir, le Web sémantique met en œuvre le Web des données qui consiste à lier et structurer l'information sur Internet pour accéder simplement à la connaissance qu'elle contient déjà3.Selon le W3C, « le Web sémantique fournit un Modèle qui permet aux données d'être partagées et réutilisées entre plusieurs applications, entreprises et groupes d'utilisateurs »3.

RDF

Resource Description Framework (RDF) est un modèle de graphe destiné à décrire de façon formelle les ressources Web et leurs métadonnées, de façon à permettre le traitement automatique de telles descriptions.

Un document RDF est composé de triplets

<SUJET> <PRÉDICAT> <OBJET> .ou

<SUJET> <PRÉDICAT> “LITÉRAL” .

La version HTML dans Wikipedia

La version RDF de DBpedia

Les triplets en format NTRIPLE

Triplestore

Un triplestore est une base de données spécialement conçue pour le stockage et la récupération de données RDF (Resource Description Framework).

Virtuoso d’OpenLink est un triplestore disponible en logiciel libre.http://virtuoso.openlinksw.com/dataspace/doc/dav/wiki/Main/VOSDownload

OWL

Web Ontology Language (OWL) est un langage de représentation des connaissances construit sur le modèle de données de RDF. Il fournit les moyens pour définir des ontologies web structurées. Sa deuxième version est devenue une recommandation du W3C fin 2012.

Protégé est un excellent éditeur d’ontologie.http://protege.stanford.edu/

SPARQL

SPARQL (prononcé sparkle en anglais : « étincelle ») est un langage de requête et un protocole qui permet de rechercher, d'ajouter, de modifier ou de supprimer des données RDF disponibles à travers Internet. Son nom est un acronyme récursif qui signifie SPARQL Protocol and RDF Query Language.

http://www.w3.org/TR/sparql11-overview/

Linked Datahttp://linkeddata.org/

Comment le Web Sémantique peut-il nous aider dans l’analyse des données et la prise de décision ?

L’expérience du projet Bio2RDF :Pour répondre à une question difficile, il faut d’abord construire la base de données spécifique pour y répondre, il faut amalgamer les données (mashup).

Méthodologie du mashup sémantique

● Concevoir son ontologie;● Identifier les sources de données

disponibles dans le nuage du Linked Data;● Convertir ses propres données en triplets,

au format RDF;● Populer un triplestore avec les triplets

nécessaires (Virtuoso, Jena, 4store, etc)● Explorer le mashup et soumettre sa question

en SPARQL

Les outils utilisées dans le cadre du projet Bio2RDF

● Le site DataHub.io recence plus de 700 SPARQL endpoints○ http://datahub.io/fr

● Le triplestore Virtuoso d’OpenLink, le MySQL du web sémantique

● L’éditeur d’ontologie Protégé● Le logiciel d’ETL Talend

○ http://www.talend.com/● Les composants sémantiques pour Talend

○ https://github.com/fbelleau/talend4sw

Processus Talend pour copier localement le RDF de DBpedia

http://localhost:8890/fct/facet.vsp

Talend4SW : des composants ETL pour le web sémantiquehttps://github.com/fbelleau/talend4sw

En résumé

● Le Web Sémantique est une famille de technologies du W3C qui facilitent l’intégration des connaissances.

● Les meilleurs outils du WS sont des logiciels libres.

● La technologie d’ETL permet de transformer des données en RDF et de construire des mashup.

● Il est maintenant possible de poser des questions au Web!