Download - 2015 ed spi

Transcript
Page 1: 2015 ed spi

1

www.irstea.fr

Pour mieux

affirmer

ses missions,

le Cemagref

devient Irstea

Catherine ROUSSEY

TSCF équipe COPAIN

Échange de données sur le

web

Merci à

Fabien AMARGER

Fabien GANDON

Stephan BERNARD

Page 2: 2015 ed spi

2

Plan

•Échange des données

• les problèmes liés à l'interopérabilité des systèmes d’information

• les bonnes pratiques à mettre en place

• exemple à l’Irstea : BDOH site web des données de capteur hydro

•L’ouverture des données et le web de données liées

•Les technologies web sémantique

•Exemple à l’Irstea: publication de données capteurs météo

Page 3: 2015 ed spi

3

Définitions: Données, Informations

Donnée: un élément d’information,

percevable,

manipulable

Information: donnée +

sens + contexte

type structure de données

Guide pratique pour la gestion des données de la recherche irstea

Une donnée est une information qui peut être enregistrée, traitée,

analysée ou communiquée, quelle que soit sa nature. Lorsque la donnée

n’a pas encore été traitée ou contextualisée, on parle de donnée brute.

Page 4: 2015 ed spi

4

Problème de l’interopérabilité lexicale

Le même terme est utilisé pour représenter différents objets

Le même objet est référencé par des termes différents

Credit Fabien GANDON

Page 5: 2015 ed spi

5

Normaliser le vocabulaire

5

rivière

fleuve

river

rio

A relatively large

natural stream of

water

Water course

Una corriente

relativamente larga

corriente de agua natural

Cours d’eau naturel de moyenne

ou de faible importance, qui en

principe n’aboutit pas directement

à la mer

Cours d’eau naturel

généralement important

(plus spécialement lorsque

ce cours d’eau se jette

dans la mer)

Page 6: 2015 ed spi

6

Thesaurus: exemple de vocabulaire normalisé

Page 7: 2015 ed spi

7

Problème de l’interopérabilité des structures de

données

Page 8: 2015 ed spi

8

Global Sensor Network

L’organisation des

données (schéma,

structure) est différente

Credit JP Calbimonte

Page 9: 2015 ed spi

9

Standard d’échange de données Le dictionnaire agricole GIEEA en UML

Page 10: 2015 ed spi

10

Echange de données : les bonnes pratiques

• Normaliser le vocabulaire

• Choisir un format non propriétaire (XML, txt, html, csv)

• Définir un schéma de données commun

• Documenter le schéma

• Choisir une licence d’usage de ces données

• Rendre accessible les fichiers de données sur le web

Exemple à l’Irstea Base de Données des Observatoires en Hydrologie

BDOH https://bdoh.irstea.fr/

Page 11: 2015 ed spi

11

Ouverture des données (publiques)

Open data is data that can be freely used, reused and redistributed by

anyone - subject only, at most, to the requirement to attribute and

sharealike.

The most important aspects to consider: –Availability and Access: the data must be available as a whole and at no

more than a reasonable reproduction cost, preferably by downloading over

the internet. The data must also be available in a convenient and modifiable

form.

–Reuse and Redistribution: the data must be provided under terms that

permit reuse and redistribution including the intermixing with other datasets.

–Universal Participation: everyone must be able to use, reuse and

redistribute - there should be no discrimination against fields of endeavour or

against persons or groups. For example, ‘non-commercial’ restrictions that

would prevent ‘commercial’ use, or restrictions of use for certain purposes

(e.g. only in education), are not allowed.

Source http://opendatahandbook.org/en/what-is-open-data/

Page 12: 2015 ed spi

12

Modèle 5 étoiles Web de Données liées ouvertes

source: Tim Berners-Lee, http://5stardata.info/

Page 13: 2015 ed spi

13

Exemple de site open data

Auvergne http://opendata.auvergne.fr/

France https://www.data.gouv.fr/fr/

Europe http://ec.europa.eu/eurostat/fr

Regards citoyens http://www.regardscitoyens.org/

Data Publica le tableau de bord des communes

Page 14: 2015 ed spi

14

Le web de données liées (Linked Open Data)

An extension of the

current Web…

… where data are given

well-defined and explicitly

represented meaning, …

… so that it can be

shared and used by

humans and machines,

...

... better enabling them to

work in cooperation

And clear principles on

how to publish data

Video europeana qu’est ce que le web des données

https://vimeo.com/49231111

Page 15: 2015 ed spi

15

Les technologies Web Sémantique

World Wide Web Consortium

(W3C)

Credit Benjamin Nowak

Page 16: 2015 ed spi

16

Syntaxe de base du web sémantique RDF: Resource Description Framework

is a triple model i.e. every piece of

knowledge is broken down into

( subject , predicate , object )

RDF

Credit Fabien GANDON

Page 17: 2015 ed spi

17

http://inria.fr/~fabien#me

http://inria.fr/schema#author

http://inria.fr/rr/doc.html

http://inria.fr/schema#theme

"Music"

17

Credit Fabien GANDON

Page 18: 2015 ed spi

18 <rdf:RDF

xmlns:rdf="http://www.w3.org/1999/02/22-

rdf-syntax-ns#"

xmlns:inria="http://inria.fr/schema#" >

<rdf:Description

rdf:about="http://inria.fr/rr/doc.html">

<inria:author rdf:resource=

"http://inria.fr/~fabien#me" />

<inria:theme>Music</inria:theme>

</rdf:Description>

</rdf:RDF>

18

Credit Fabien GANDON

Page 19: 2015 ed spi

19

Les ontologies dans le web de données

Une ontologie contient un vocabulaire et un schéma de données:

• consensuels,

• publiés sur le web et documentés

• formalisés avec des standards du web (RDF, OWL, SPARQL)

• Avec des contraintes en DL (conditions nécessaires et/ou suffisantes)

= un schéma de données pour le web de données

Page 20: 2015 ed spi

20

www.irstea.fr

Pour mieux

affirmer

ses missions,

le Cemagref

devient Irstea

Publication de données

météo de l'Irstea sur le web

de données

Page 21: 2015 ed spi

21

Semantic Sensor Network Ontology Une partie du schema de données

Page 22: 2015 ed spi

22

Description d'une "Observation" Exemple d'un Anémomètre

Page 23: 2015 ed spi

23

Publication des données de la station météo

Données publiées sous la licence open data etalab

SPARQL endpoint visible sur datahub

http://ontology.irstea.fr/weather/snorql/

Page 24: 2015 ed spi

24

Ou trouver des ontologies ?

SWOOGLE

http://swoogle.umbc.edu/

Watson

http://watson.kmi.open.ac.uk/WatsonWUI/

LOV Linked Open Vocabulary http://lov.okfn.org/dataset/lov/

W3C groups

http://www.w3.org/Consortium/activities

Credit Fabien Gandon

Page 25: 2015 ed spi

25

Autres exemples de jeux de données

Dbpedia

http://dbpedia.org/snorql/

http://dbpedia.org/fct/

Agrovoc en skos http://aims.fao.org/aos/agrovoc/c_16047.html

IGN http://data.ign.fr/endpoint.html

Open Data cloud diagram, by Richard Cyganiak and Anja

Jentzsch. http://lod-cloud.net/

Datahub.io http://datahub.io/

Une liste de sparql end point disponible

http://www.w3.org/wiki/SparqlEndpoints

Page 26: 2015 ed spi

26

Conclusion et Perspectives

Publication des données de la station météo (2014 à jour)

pas si simple au début…

Publication d’autres données capteurs

Proposer une interface d’interrogation en français plus intuitive qu’une

requête SPARQL

Lier nos données aux données de l’IGN pour une interrogation

spatialisée

Tester différents serveurs RDF (requête avec agrégats)

Découverte et utilisation de ces données ?

Utiliser ces données dans des modèles météorologiques

Conversion au format netcdf?