Post on 22-May-2015
description
Découvrir le Web Sémantique
en 15 minutesFrançois Belleau
http://ca.linkedin.com/in/fbelleau
http://slideshare.net/fbelleau
Quel pays a produit le plus grand nombre de compositeurs ?
Demandons à GOOGLE...
Demandons à Wikipedia...
Demandons à DBpedia, la version sémantique de Wikipedia…
http://dbpedia.org/fct/
1...
2...
3...
4...
5...
6...
7...
8...
9...
10, et voilà !
Le secret : le langage de requête SPARQL au coeur du Web Sémantique
Qu’est-ce que le Web Sémantique ?
Selon Google
Selon Wikipedia
● Web Sémantique○ http://en.wikipedia.org/wiki/Semantic_Web
● RDF○ http://en.wikipedia.
org/wiki/Resource_Description_Framework● OWL
○ http://en.wikipedia.org/wiki/Web_Ontology_Language
● SPARQL○ http://en.wikipedia.org/wiki/SPARQL
● Triplestore○ http://en.wikipedia.org/wiki/Triplestore
● Linked Data○ http://en.wikipedia.org/wiki/Linked_data
Web sémantique selon Wikipedia
Le Web sémantique, ou toile sémantique1, est un mouvement collaboratif mené par le World Wide Web Consortium (W3C)2 qui favorise des méthodes communes pour échanger des données.Le Web sémantique vise à aider l'émergence de nouvelles connaissances en s'appuyant sur les connaissances déjà présentes sur Internet. Pour y parvenir, le Web sémantique met en œuvre le Web des données qui consiste à lier et structurer l'information sur Internet pour accéder simplement à la connaissance qu'elle contient déjà3.Selon le W3C, « le Web sémantique fournit un Modèle qui permet aux données d'être partagées et réutilisées entre plusieurs applications, entreprises et groupes d'utilisateurs »3.
RDF
Resource Description Framework (RDF) est un modèle de graphe destiné à décrire de façon formelle les ressources Web et leurs métadonnées, de façon à permettre le traitement automatique de telles descriptions.
Un document RDF est composé de triplets
<SUJET> <PRÉDICAT> <OBJET> .ou
<SUJET> <PRÉDICAT> “LITÉRAL” .
La version HTML dans Wikipedia
La version RDF de DBpedia
Les triplets en format NTRIPLE
Triplestore
Un triplestore est une base de données spécialement conçue pour le stockage et la récupération de données RDF (Resource Description Framework).
Virtuoso d’OpenLink est un triplestore disponible en logiciel libre.http://virtuoso.openlinksw.com/dataspace/doc/dav/wiki/Main/VOSDownload
OWL
Web Ontology Language (OWL) est un langage de représentation des connaissances construit sur le modèle de données de RDF. Il fournit les moyens pour définir des ontologies web structurées. Sa deuxième version est devenue une recommandation du W3C fin 2012.
Protégé est un excellent éditeur d’ontologie.http://protege.stanford.edu/
SPARQL
SPARQL (prononcé sparkle en anglais : « étincelle ») est un langage de requête et un protocole qui permet de rechercher, d'ajouter, de modifier ou de supprimer des données RDF disponibles à travers Internet. Son nom est un acronyme récursif qui signifie SPARQL Protocol and RDF Query Language.
http://www.w3.org/TR/sparql11-overview/
Comment le Web Sémantique peut-il nous aider dans l’analyse des données et la prise de décision ?
L’expérience du projet Bio2RDF :Pour répondre à une question difficile, il faut d’abord construire la base de données spécifique pour y répondre, il faut amalgamer les données (mashup).
Méthodologie du mashup sémantique
● Concevoir son ontologie;● Identifier les sources de données
disponibles dans le nuage du Linked Data;● Convertir ses propres données en triplets,
au format RDF;● Populer un triplestore avec les triplets
nécessaires (Virtuoso, Jena, 4store, etc)● Explorer le mashup et soumettre sa question
en SPARQL
Les outils utilisées dans le cadre du projet Bio2RDF
● Le site DataHub.io recence plus de 700 SPARQL endpoints○ http://datahub.io/fr
● Le triplestore Virtuoso d’OpenLink, le MySQL du web sémantique
● L’éditeur d’ontologie Protégé● Le logiciel d’ETL Talend
○ http://www.talend.com/● Les composants sémantiques pour Talend
○ https://github.com/fbelleau/talend4sw
Processus Talend pour copier localement le RDF de DBpedia
http://localhost:8890/fct/facet.vsp
Talend4SW : des composants ETL pour le web sémantiquehttps://github.com/fbelleau/talend4sw
En résumé
● Le Web Sémantique est une famille de technologies du W3C qui facilitent l’intégration des connaissances.
● Les meilleurs outils du WS sont des logiciels libres.
● La technologie d’ETL permet de transformer des données en RDF et de construire des mashup.
● Il est maintenant possible de poser des questions au Web!
http://linkeddatabook.com/editions/1.0/