Des langages documentaires au Web sémantique · Des langages documentaires au Web sémantique I -...

39
Des langages documentaires au Web sémantique I - Métadonnées et valorisation des ressources numériques Journée ISKO, Lyon, 8 juin 2010 “Les instruments d'organisation des connaissances à l'ère du web sémantique” Catherine Morel-Pair INIST-CNRS, Département Edition et Publications Numériques [email protected]

Transcript of Des langages documentaires au Web sémantique · Des langages documentaires au Web sémantique I -...

Page 1: Des langages documentaires au Web sémantique · Des langages documentaires au Web sémantique I - Métadonnées et valorisation des ressources numériques Journée ISKO, Lyon, 8

Des langages documentaires au Web sémantique

I - Métadonnées et valorisation des ressources numériques

Journée ISKO, Lyon, 8 juin 2010“Les instruments d'organisation des connaissances à

l'ère du web sémantique”

Catherine Morel-PairINIST-CNRS, Département Edition et Publications Numériques

[email protected]

Page 2: Des langages documentaires au Web sémantique · Des langages documentaires au Web sémantique I - Métadonnées et valorisation des ressources numériques Journée ISKO, Lyon, 8

1 – Métadonnées ?

Métadonnée : une donnée à propos d’une autre donnée Un jeu de métadonnées : un ensemble structuré

d’information pour “représenter” des ressources Ensemble de propriétés/éléments : titre, auteur, type, date …

Renseignés par des “valeurs” Décrit, explicite, localise la ressource

Pour en faciliter la recherche, l’usage, la gestion (NISO)

Web et tous ensembles de ressources électroniques Ou physiques … Terme ancien dans certains domaines (BD, images, géospatial),

plus récent dans les métiers bib-doc

C. Morel-Pair, journée ISKO

Page 3: Des langages documentaires au Web sémantique · Des langages documentaires au Web sémantique I - Métadonnées et valorisation des ressources numériques Journée ISKO, Lyon, 8

Un monde sans métadonnées

Source : http://www.collectionscanada.gc.ca/obj/s37/f2/s37-4016.1-f.pdf

Haricots Bonduelle

Contient du sodiumDate limite 2010-10-10

Distribué par X

Page 4: Des langages documentaires au Web sémantique · Des langages documentaires au Web sémantique I - Métadonnées et valorisation des ressources numériques Journée ISKO, Lyon, 8

Resource discovery: recherche, navigation sémantisation

Labellisation Evaluation

Collections

Propriété, responsabilité droits d’usage

Fonctions & typologie

des métadonnées

Pérennisation

Interopérabilité

mutualisation

Caractéristiques techniques

Identification, loc.

m. descriptives du contenu

m. de structure

m. de droitsm. techniques

StandardsXML, RDF

m. administratives

Tous types m. techniques ++

Appropriationtags,

folksonomies

C. Morel-Pair, journée ISKO

Page 5: Des langages documentaires au Web sémantique · Des langages documentaires au Web sémantique I - Métadonnées et valorisation des ressources numériques Journée ISKO, Lyon, 8

A fonctions diverses standards et pratiques divers … Nombreux standards complémentaires, parfois concurrents

Objectifs et objets décrits très divers Acteurs divers : bib-doc-archives, NTIC, commerce Complexité variable

Contenu des éléments varié … Types : Valeurs “texte” : contrôlées ou modélisées / texte libre Valeurs complexes : formules, vignettes …

Créées manuellement / automatiquement / par transformation

Lisibles par l’homme et la machine Tableau, formats “délimités” ? Efficience des langages de balises – (X)HTML, XML … RDF

<dc:title>Métadonnées et valorisation …</dc:title> Embarquées ou externes

C. Morel-Pair, journée ISKO

Page 6: Des langages documentaires au Web sémantique · Des langages documentaires au Web sémantique I - Métadonnées et valorisation des ressources numériques Journée ISKO, Lyon, 8

Des métadonnées “courantes”

1 - Métadonnées Windows

… Dans le fichier et des fichiers satellites

Variable entre versions

Explorateur Windowsclic droit sur un fichier“Propriétés”

15/06/10 C. Morel-Pair, journée ISKO

Page 7: Des langages documentaires au Web sémantique · Des langages documentaires au Web sémantique I - Métadonnées et valorisation des ressources numériques Journée ISKO, Lyon, 8

Métadonnées (techniques) images

Tags image

Page 8: Des langages documentaires au Web sémantique · Des langages documentaires au Web sémantique I - Métadonnées et valorisation des ressources numériques Journée ISKO, Lyon, 8

Photothèque collaborative Flick’r

Page 9: Des langages documentaires au Web sémantique · Des langages documentaires au Web sémantique I - Métadonnées et valorisation des ressources numériques Journée ISKO, Lyon, 8

Carte de site

Page 10: Des langages documentaires au Web sémantique · Des langages documentaires au Web sémantique I - Métadonnées et valorisation des ressources numériques Journée ISKO, Lyon, 8

Catalogue, annuaire

Page 11: Des langages documentaires au Web sémantique · Des langages documentaires au Web sémantique I - Métadonnées et valorisation des ressources numériques Journée ISKO, Lyon, 8

Grands standards

de métadonnées

Pérennisation

m. descriptives du contenu

m. de structure

m. de droits

m. techniques

Bib-doc : MARC-XML, MODS, BiblioML

Métiers du livre : ONIXImage : IPTCEvaluation … sites santé : Net scoring, label HON

Nouveautés des sites : RSS …

Creative Commons, GNUACAPODRL, XrML … DRM

‘Conteneurs’METS, DIDLOAI-ORE

EAD

Image : EXIF, MIX

Technique ++ : PREMISRecord management, OAISidentifiants : URI / PID

LOM ISO 19115 MPEG 21

Dublin Core

1 - Sur les “ressources”

15/06/10 C. Morel-Pair, journée ISKO

Page 12: Des langages documentaires au Web sémantique · Des langages documentaires au Web sémantique I - Métadonnées et valorisation des ressources numériques Journée ISKO, Lyon, 8

2 - Métadonnées et autres “objets”

Personnes et réseauxUtilisateursCréateurs … acteurs divers

Connaissances :EvénementsLieuxPratiques métiersConcepts

Expérimentation et résultats scientifiques

métadonnées sur les

métadonnées

login, certificats, fédération d’identité, logs session vCards, fichiers d’autorité… FOAF …

Très spécialisés ! Linguistique : OLAC, DIMDIEnquêtes : DDIBiologie : ISA … …

hCalendargeonames, KML, GML, geo …

“Ontologies”C. Morel-Pair, journée ISKO

Page 13: Des langages documentaires au Web sémantique · Des langages documentaires au Web sémantique I - Métadonnées et valorisation des ressources numériques Journée ISKO, Lyon, 8

2 – Standard Dublin Core

Dublin Core Metadata Initiative, 1995 Atelier à Dublin (Ohio) en 1995 Objectif : “Pallier les insuffisances des métadonnées

HTML” pour donner une sémantique au Web […] et améliorer la “resource discovery”

Par un standard généraliste Une “description bibliographique simplifiée” … pour tout type de ressource, de producteur

Fondation active Groupes de travail thématiques évolutifs, workshop

annuel http://dublincore.org

C. Morel-Pair, journée ISKO

Page 14: Des langages documentaires au Web sémantique · Des langages documentaires au Web sémantique I - Métadonnées et valorisation des ressources numériques Journée ISKO, Lyon, 8

http://ganesha.fr/index.php?post/2008/03/31/Dublin-Core

DC simple : 15 éléments

DC qualifié + étendu

+ schémas d’encodage :

valeurs contrôlées : MeSH, RAMEAU, DDCet modélisées : ISO …

+ mark-up lang. :attributs lang, type …

C. Morel-Pair, journée ISKO

Page 15: Des langages documentaires au Web sémantique · Des langages documentaires au Web sémantique I - Métadonnées et valorisation des ressources numériques Journée ISKO, Lyon, 8

3 - XMLUn métalangage universel

eXtensible Mark-up Language, 1998

Structuration hiérarchique et sémantique avec des éléments marqués/par des <balise>

Standard ouvert et libre -, pérenne et interopérable

Mode texte, Unicode et tous encodages “Métalangage” base de différents

modèles et applications Efficient - comprend

Le document XML Ses modèles (DTD, schémas) partagés Des modules de requête et traitement

intégrés XPath, XSL, XQuery, DOM …

Un seul document transformations et réutilisations multiples

LE standard d’échange effectif aujourd’hui

Maintenu par W3C Soutenu par l’industrie (OASIS)

Intégré applications bureautique, Web, toutes plateformes informatiques, logiciels courants, BD …

Tous types de documents, tous domaines, et applications

Web: XHTML, Web2, Web services, Web sémantique …

Standards de publication TEI, NLM, DocBook, eBooks … Images (SVG), multimédia (SMIL) … Implémentation des standards de

métadonnées RDF s’écrit souvent en XML

C. Morel-Pair, journée ISKO

Page 16: Des langages documentaires au Web sémantique · Des langages documentaires au Web sémantique I - Métadonnées et valorisation des ressources numériques Journée ISKO, Lyon, 8

XML, pourquoi (3)

Soutenu par de gros consortiums industriels, représentés par OASIS, Organization for the Advancement of Structured Information Standards, organisme de normalisation industriel international plus de 600 organismes adhérents

Airbus, General Motors, Dell, Nokia, Oracle, Adobe, Reuters …

Liste des centaines de standards / normes de documents XML + diffuse les spécifications techniques du W3C

Page 17: Des langages documentaires au Web sémantique · Des langages documentaires au Web sémantique I - Métadonnées et valorisation des ressources numériques Journée ISKO, Lyon, 8

4 – Applications : valorisation …

Bibliothèques numériques

Protocole OAI-PMH Archives ouvertes

Autres usages Mutualisation des services

culturels et patrimoniaux

Corpus Recherche OLAC , IMDI …

CyberthèsesTEF

Rép et portails del’information publiqueINSPIRE, URBADOC

Annuaires et portails

Flux de production « tout XML »

Ex : CN2SV, INISTOutils de production

ArchivistesEditeurs outils pédagogiques

et livres - eBooksRecord Management

Profils d’applications

OpenURL

Web sémantique

Web 2

C. Morel-Pair, journée ISKO

Page 18: Des langages documentaires au Web sémantique · Des langages documentaires au Web sémantique I - Métadonnées et valorisation des ressources numériques Journée ISKO, Lyon, 8

C. Morel-Pair, journée ISKO

1 - Protocole OAI-PMH

… Né dans un contexte stratégique, le mouvement du libre accès aux publications scientifique – Open Access “OA”

Revues en libre accès – voir le DOAJ : 5000 revues aujourd’hui Archives ouvertes – Open Archive Initiative “OAI” Site d’actualités OA : http://openaccess.inist.fr/

Quelle interopérabilité pour ces “archives ouvertes” ? “architecture distribuée” , “Web invisible” (BDs) protocole OAI-PMH, 2001

Convention de Santa Fé, 1999 : Z39.50 … ? Protocole de “moissonnage” (harvesting) de l’OAI

pour la collecte des métadonnées des “entrepôts” des archives ouvertes

… Protocole simple et ouvert … … autres usages ensuite

Page 19: Des langages documentaires au Web sémantique · Des langages documentaires au Web sémantique I - Métadonnées et valorisation des ressources numériques Journée ISKO, Lyon, 8

C. Morel-Pair, journée ISKO

Un registre d’entrepôts OAI-PMH

~ 1700 entrepôts

20 millions de ressources

Page 20: Des langages documentaires au Web sémantique · Des langages documentaires au Web sémantique I - Métadonnées et valorisation des ressources numériques Journée ISKO, Lyon, 8

C. Morel-Pair, journée ISKO

Un ‘‘moissonneur’’ :résultat d’une requête

Entrepôts répondant Enregistrement :

métadonnées

Accès ressource

Page 21: Des langages documentaires au Web sémantique · Des langages documentaires au Web sémantique I - Métadonnées et valorisation des ressources numériques Journée ISKO, Lyon, 8

15/06/10 C. Morel-Pair

ListRecords ou GetRecord&…‘creator’

‘date’(s)

‘identifier’

‘description’(s)

‘format’‘language’

‘publisher’

‘rights’

‘source’

‘subject’

OAI-PMH : HTTP, XML, enregistrement minimum : Dublin Core simple

Page 22: Des langages documentaires au Web sémantique · Des langages documentaires au Web sémantique I - Métadonnées et valorisation des ressources numériques Journée ISKO, Lyon, 8

C. Morel-Pair, journée ISKO

Displayed record

Dublin Core

MARC21

MODS

OAI-PMH : une ressource peut avoir plusieurs représentations

School of arts for girls Kiz Sanayi Mektebi]

oai:lcoa1.loc.gov:loc.pnp/cph.3b23005

Source : [email protected], FReDoc 2009

… ETD-MS, MARC-XML, TEI, METS, DIDL ...

Tout fichier XML peut être moissonné …

voir http://gita.grainger.uiuc.edu/registry/ListSchemas.asp

Page 23: Des langages documentaires au Web sémantique · Des langages documentaires au Web sémantique I - Métadonnées et valorisation des ressources numériques Journée ISKO, Lyon, 8

C. Morel-Pair, journée ISKO

OAI-PMH : autres usagesMutualisation du patrimoine culturel numériséFrance, Europe

Portail national, http://collections.culture.fr

régionaux, thématiques …

Page 24: Des langages documentaires au Web sémantique · Des langages documentaires au Web sémantique I - Métadonnées et valorisation des ressources numériques Journée ISKO, Lyon, 8

15/06/10 C. Morel-Pair, journée ISKO

Réseau de portails et archive ouverte Enseignement Supérieur

DC, LOM, TEF, FOAF, Dewey …

Page 25: Des langages documentaires au Web sémantique · Des langages documentaires au Web sémantique I - Métadonnées et valorisation des ressources numériques Journée ISKO, Lyon, 8

C. Morel-Pair, journée ISKO

…’’Le protocole OAI-PMH : mutualiser les métadonnées pour valoriser les ressources ‘’ http://renatis.cnrs.fr/spip.php?article156

Page 26: Des langages documentaires au Web sémantique · Des langages documentaires au Web sémantique I - Métadonnées et valorisation des ressources numériques Journée ISKO, Lyon, 8

2 - La plateforme du CN2SV pour les fonds d’archives des sciences

http:/www.arch.cn2sv.cnrs.fr/

C. Morel-Pair, journée ISKO

Page 27: Des langages documentaires au Web sémantique · Des langages documentaires au Web sémantique I - Métadonnées et valorisation des ressources numériques Journée ISKO, Lyon, 8

C. Morel-Pair, journée ISKO

Page 28: Des langages documentaires au Web sémantique · Des langages documentaires au Web sémantique I - Métadonnées et valorisation des ressources numériques Journée ISKO, Lyon, 8

CN2SV : XML et métadonnées standard à tous les étages

METS

Data centerModèle OAIS

Entrepôt OAI-PMHDC- XML[MODS]

AjoutMétas IPTC

embarquées

(XMP)

Création fichier EAD

extracti

on

diffu

sio narchivage

diff

Moteursgénéralistes

KML

cartes

C. Morel-Pair, journée ISKO

Page 29: Des langages documentaires au Web sémantique · Des langages documentaires au Web sémantique I - Métadonnées et valorisation des ressources numériques Journée ISKO, Lyon, 8

5 – Interopérabilité … des métadonnées ?

Niveaux d’interopérabilité Standards et normes de métadonnées

Mappings, crosswalks Bonnes pratiques …

Utilisation homogène des éléments, valeurs contrôlées et modélisées

Implémentation : encodage, [HTML], XML, … RDF Protocoles d’échange machines

Modélisation % objectifs FRBR, CIDOC-CRM … Qualité … projet, échanges …

Web sémantique, web de données ‘’Le web de données est un web de métadonnées’’

C. Morel-Pair, journée ISKO

Page 30: Des langages documentaires au Web sémantique · Des langages documentaires au Web sémantique I - Métadonnées et valorisation des ressources numériques Journée ISKO, Lyon, 8

Sujet

C. Morel-Pair, journée ISKO

FRBR trouver – identifier – choisir - accéder

Œuvre A

Expression

Manifestation1b

Item

Acteurs

ExpressionA2ExpressionA1

Œuvre B

ManifestationA1a

ItemItem

attributs

attributs

attributs

attributs

attributs

Page 31: Des langages documentaires au Web sémantique · Des langages documentaires au Web sémantique I - Métadonnées et valorisation des ressources numériques Journée ISKO, Lyon, 8

15/06/10 C. Morel-Pair

Exemple : un “livre” …Les Misérables, Victor Hugo

Ce film est tiré de mon livre préféré

J’aimerais lire ce livre en Français

Il faut que la bibliothèque commande ce livre

J’ai égaré mon livre

Œuvre Titre, forme, contexte … Créateur - sujet

Expression de l’œuvre Titre, forme, langue, date, … Contributeur : traducteur …

Manifestation d’un expression Titre, date-lieu, édition, caract

physiques, identifiant Éditeur

Exemplaire, document, item Provenance, annoations, [ident] Propriétaire

Source: tsig.wikispaces.com/file/view/RivaFRBRFRADforCLA-fre.pdf

Page 32: Des langages documentaires au Web sémantique · Des langages documentaires au Web sémantique I - Métadonnées et valorisation des ressources numériques Journée ISKO, Lyon, 8

Web sémantique :libérer les données …

Requête spécifiques / protocoles spécifiques … réponses spécifiques

Non / peu structurées pour les machines

structurées

HALPubMed

WoS

SUDOC

C. Morel-Pair, journée ISKO

Page 33: Des langages documentaires au Web sémantique · Des langages documentaires au Web sémantique I - Métadonnées et valorisation des ressources numériques Journée ISKO, Lyon, 8

Données, métadonnées et Web sémantique

D’un Web de “silos” et de “documents pour l’homme” à un Web de “données ouvertes,“libérées” , compréhensibles par les machines Qui génèrent d’autres données “automatiquement” (inférence)

Structuration des données par des standards RDF : triplets sujet-propriété-objet …

Décrivant personnes, créations, lieux, conncepts, droits … Via “ontologies” : OWL, SKOS, DC, FOAF, geo … Qualité : namespaces, URI, propriétés liantes ‘sameAs’

Langage de requête standard, SPARQL

DBPedia, WordNet, Geonames, Libris…10 MILLIARDS triplets ! Recherche : Sindice, Swoogle …

Google, Yahoo !C. Morel-Pair, journée ISKO

Page 34: Des langages documentaires au Web sémantique · Des langages documentaires au Web sémantique I - Métadonnées et valorisation des ressources numériques Journée ISKO, Lyon, 8

C. Morel-Pair, journée ISKO

Les RSS : un archétype du web sémantique

intégré au Web 2 <rss version="0.91"> <channel>

<title>Libre accès a l'information scientifique et technique. Actualites, problématiques et perspectives</title>

<link>http://www.inist.fr/openaccess/</link> […]<item> <title> Débat autour des propositions britanniques en faveur de

l'auto-archivage</title> <link>http://www.inist.fr/openaccess/breve.php3?id_breve=311

</link> <date>2005-07-13 14:13:15</date> <description> La proposition publiée par les conseils de la

recherche britanniques (Resarch Councils ou RCUK) de conditionner le financement des recherches qu'ils subventionnent à une obligation d'auto-archivage des publications suscite un vif débat.… </description>

</item><item> <title> Congrès en Chine […]

Page 35: Des langages documentaires au Web sémantique · Des langages documentaires au Web sémantique I - Métadonnées et valorisation des ressources numériques Journée ISKO, Lyon, 8

15/06/10 C. Morel-Pair, journée ISKO

… à l’usage

Page 36: Des langages documentaires au Web sémantique · Des langages documentaires au Web sémantique I - Métadonnées et valorisation des ressources numériques Journée ISKO, Lyon, 8

15/06/10 C. Morel-Pair, journée ISKO

Page 37: Des langages documentaires au Web sémantique · Des langages documentaires au Web sémantique I - Métadonnées et valorisation des ressources numériques Journée ISKO, Lyon, 8

LIBRIS, catalogue collectif suédois :

triplets RDF et ontologies standard

C. Morel-Pair, journée ISKOSource : http://blog.libris.kb.se/semweb/?p=7

Catalogues et autorités SUDOC : prévu en2010-2011

Page 38: Des langages documentaires au Web sémantique · Des langages documentaires au Web sémantique I - Métadonnées et valorisation des ressources numériques Journée ISKO, Lyon, 8

Sémantisation d’un article tags RDFa

“Semantic enhancement of a research article” : leptospirosis

C. Morel-Pair, journée ISKO

Page 39: Des langages documentaires au Web sémantique · Des langages documentaires au Web sémantique I - Métadonnées et valorisation des ressources numériques Journée ISKO, Lyon, 8

Merci de votre attention

… Des langages documentaires au Web sémantique Partie I : des métadonnées pour

valoriser les ressources : fin ! Partie II : modélisation,

environnements sémantiques et Web de données : tout de suite !

C. Morel-Pair, journée ISKO