20120313 coepia-mise-à-disposition-et-valorisation-des-données-publiques

Post on 04-Dec-2014

1.632 views 2 download

description

 

Transcript of 20120313 coepia-mise-à-disposition-et-valorisation-des-données-publiques

1

Présentation réalisée avec l'équipe du projet DataliftEt le soutien de l'Agence Nationale pour la Recherche

Publier et interconnecter les données publiques :Le projet Datalift

13 Mars 2012, COEPIA, ParisFormation spécialisée « Mise à disposition et valorisation des données publiques »

François ScharffeFrancois.scharffe@lirmm.fr@lechatpito

Au sommaire

Ø Problématiques

Ø Le web sémantique comme solution

Ø Le projet Datalift

Ø Processus de publications des données

Ø Exemple avec les données de l'annuaire du service public

Ø Vocabulaires, identifiants et interconnexion

Ø Vers un écosystème de jeux de données de référence

Problématiques

Ø Redondance des identifiants

Ø Hétérogénéité des formats de données

Ø Diversité des formats de métadonnées

Ø Hétérogénéité des protocoles d'accès aux données

Le Web sémantique comme solution

Ø Un système d'identifiants global: les URIs

Ø Un format unique: RDF

Ø Un langage de représentation de vocabulaires de métadonnées: RDFS+OWL, SKOS

Ø Un protocole d'acccès uniforme: HTTP, SPARQL

Datalift

Plateforme logicielle pour assister la publication de données

Publication de jeux de données

R&D pour automatiser le processus de publication

Formations, tutoriels, camps de publication de données

but de datalift

De données brutes ouvertesà des données sémantiques

interconnectées

Données publiées et interconnectées sur le Web

Applications

Interconnexion

Infrastructure de publication

Conversion des données

Sélection de vocabulaires

Données brutes

Un ascenseur pour les données

Le processus de publicationDBPedia IGN

Ontologie du service public

SPARQL

Négociation de contenu

Dé-référencement des URIs

INSEE

Conversion XML → RDF

Conversion RDF → RDFOntologie

géographique

Ø Qu’est-ce qu’un (bon) vocabulaire pour des données liées?

§ Critères d’utilisabilité

§ Simplicité, visibilité, pérennité, intégration, cohérence …

Ø Différents types de vocabulaires

§ De métadonnées, de référence, de domaine, généraliste …

§ Les piliers du Linked Data : Dublin Core, FOAF, SKOS

Ø Bonnes et moins bonnes pratiques

§ Ex : Programmes BBC vs legislation.gov.uk

§ Vocabulary of a Friend : les vocabulaires en réseau

Ø Problèmes linguistiques

§ Les vocabulaires existants sont en anglais à 99%

§ Approche terminologique : quels vocabulaires pour « Evénement » « Organisation »

sélection

conversionØGuide des bonnes pratiques pour les données liées:

§ La ressource: http://dbpedia.org/resource/Paris

§ Le document: http://dbpedia.org/page/Paris

§ Les données: http://dbpedia.org/data/Paris

Ø Cas d’étude: legislation.gov.uk

§ L’identifiant: http://www.legislation.gov.uk/id/ukpga/1985/67

§ Le document: http://www.legislation.gov.uk/ukpga/1985/67

§ La représentation (en XML plutôt que HTML): http://www.legislation.gov.uk/ukpga/1985/67/data.xml

Tim Berners Lee, http://www.w3.org/DesignIssues/LinkedData.html

publication§ Utiliser le format RDF

§ Utiliser des URI pour nommer les choses

§ Utiliser des URI HTTP (URL) pour pouvoir leur demander des informations

§ Donner des informations (HTML, RDF) quand les liens sont dé-référencés

§ Inclure dans ces infos les URIs pointant vers d'autres données pour permettre la découverte

Interconnexion

§ Comment identifier les jeux de données à lier ?

§ Comment trouver les resourceséquivalentes ?

Élévation de données expérimentations en cours ou prévues

Ø IGN, INSEE, DILA

Ø Regards Citoyens (nosdeputes.fr)

Ø Etalab – data.gouv.fr

Ø Version Française de DBPedia (INRIA, ministère de la culture)

Ø Office national des transports (CETE Méditerranée)

Ø Ville de Montpellier

Ø EU projects LOD2, LATC, PlanetData

Ø SharePSI.eu, W3C Linked Open Government Data, CKAN

BDAdresseIGN

Reférentiel des communes

INSEE

BDTopoIGN

RecensementINSEE

Annuaire duService Public

DILA

DBPedia.frMin.Culture

Offres des servicesDe transport

CETEAdministrations locales

(villes, agglos, départements, régions)

Education

Culture

Finances

Intérieur

Dev. DurableIndustrie

Recherche

Santé

Associations Médias

data.BNF.fr

Nuage de données .fr

DA

TALI

FT

En route vers le web de données

Datalift Platform

Quelques exemples de requêtes

● Quels sont les services publics disponibles à Melun classés par type de service ?

● Quels sont les horaires d'ouverture des services publics en Île de France ?

● Dans quelles villes y a t'il des instances préfectorales ? Quel est leur numéro de téléphone ? Quel est le nom de ces communes en Japonais ?

18

Credits

This presentation was realized thanks to the work of the Datalift team.It can be freely distributed under Creative Commons licence BY-NC-SA 3.0