Des langages documentaires au Web sémantique · Des langages documentaires au Web sémantique I -...

Post on 25-Jul-2020

6 views 0 download

Transcript of Des langages documentaires au Web sémantique · Des langages documentaires au Web sémantique I -...

Des langages documentaires au Web sémantique

I - Métadonnées et valorisation des ressources numériques

Journée ISKO, Lyon, 8 juin 2010“Les instruments d'organisation des connaissances à

l'ère du web sémantique”

Catherine Morel-PairINIST-CNRS, Département Edition et Publications Numériques

catherine.morel@inist.fr

1 – Métadonnées ?

Métadonnée : une donnée à propos d’une autre donnée Un jeu de métadonnées : un ensemble structuré

d’information pour “représenter” des ressources Ensemble de propriétés/éléments : titre, auteur, type, date …

Renseignés par des “valeurs” Décrit, explicite, localise la ressource

Pour en faciliter la recherche, l’usage, la gestion (NISO)

Web et tous ensembles de ressources électroniques Ou physiques … Terme ancien dans certains domaines (BD, images, géospatial),

plus récent dans les métiers bib-doc

C. Morel-Pair, journée ISKO

Un monde sans métadonnées

Source : http://www.collectionscanada.gc.ca/obj/s37/f2/s37-4016.1-f.pdf

Haricots Bonduelle

Contient du sodiumDate limite 2010-10-10

Distribué par X

Resource discovery: recherche, navigation sémantisation

Labellisation Evaluation

Collections

Propriété, responsabilité droits d’usage

Fonctions & typologie

des métadonnées

Pérennisation

Interopérabilité

mutualisation

Caractéristiques techniques

Identification, loc.

m. descriptives du contenu

m. de structure

m. de droitsm. techniques

StandardsXML, RDF

m. administratives

Tous types m. techniques ++

Appropriationtags,

folksonomies

C. Morel-Pair, journée ISKO

A fonctions diverses standards et pratiques divers … Nombreux standards complémentaires, parfois concurrents

Objectifs et objets décrits très divers Acteurs divers : bib-doc-archives, NTIC, commerce Complexité variable

Contenu des éléments varié … Types : Valeurs “texte” : contrôlées ou modélisées / texte libre Valeurs complexes : formules, vignettes …

Créées manuellement / automatiquement / par transformation

Lisibles par l’homme et la machine Tableau, formats “délimités” ? Efficience des langages de balises – (X)HTML, XML … RDF

<dc:title>Métadonnées et valorisation …</dc:title> Embarquées ou externes

C. Morel-Pair, journée ISKO

Des métadonnées “courantes”

1 - Métadonnées Windows

… Dans le fichier et des fichiers satellites

Variable entre versions

Explorateur Windowsclic droit sur un fichier“Propriétés”

15/06/10 C. Morel-Pair, journée ISKO

Métadonnées (techniques) images

Tags image

Photothèque collaborative Flick’r

Carte de site

Catalogue, annuaire

Grands standards

de métadonnées

Pérennisation

m. descriptives du contenu

m. de structure

m. de droits

m. techniques

Bib-doc : MARC-XML, MODS, BiblioML

Métiers du livre : ONIXImage : IPTCEvaluation … sites santé : Net scoring, label HON

Nouveautés des sites : RSS …

Creative Commons, GNUACAPODRL, XrML … DRM

‘Conteneurs’METS, DIDLOAI-ORE

EAD

Image : EXIF, MIX

Technique ++ : PREMISRecord management, OAISidentifiants : URI / PID

LOM ISO 19115 MPEG 21

Dublin Core

1 - Sur les “ressources”

15/06/10 C. Morel-Pair, journée ISKO

2 - Métadonnées et autres “objets”

Personnes et réseauxUtilisateursCréateurs … acteurs divers

Connaissances :EvénementsLieuxPratiques métiersConcepts

Expérimentation et résultats scientifiques

métadonnées sur les

métadonnées

login, certificats, fédération d’identité, logs session vCards, fichiers d’autorité… FOAF …

Très spécialisés ! Linguistique : OLAC, DIMDIEnquêtes : DDIBiologie : ISA … …

hCalendargeonames, KML, GML, geo …

“Ontologies”C. Morel-Pair, journée ISKO

2 – Standard Dublin Core

Dublin Core Metadata Initiative, 1995 Atelier à Dublin (Ohio) en 1995 Objectif : “Pallier les insuffisances des métadonnées

HTML” pour donner une sémantique au Web […] et améliorer la “resource discovery”

Par un standard généraliste Une “description bibliographique simplifiée” … pour tout type de ressource, de producteur

Fondation active Groupes de travail thématiques évolutifs, workshop

annuel http://dublincore.org

C. Morel-Pair, journée ISKO

http://ganesha.fr/index.php?post/2008/03/31/Dublin-Core

DC simple : 15 éléments

DC qualifié + étendu

+ schémas d’encodage :

valeurs contrôlées : MeSH, RAMEAU, DDCet modélisées : ISO …

+ mark-up lang. :attributs lang, type …

C. Morel-Pair, journée ISKO

3 - XMLUn métalangage universel

eXtensible Mark-up Language, 1998

Structuration hiérarchique et sémantique avec des éléments marqués/par des <balise>

Standard ouvert et libre -, pérenne et interopérable

Mode texte, Unicode et tous encodages “Métalangage” base de différents

modèles et applications Efficient - comprend

Le document XML Ses modèles (DTD, schémas) partagés Des modules de requête et traitement

intégrés XPath, XSL, XQuery, DOM …

Un seul document transformations et réutilisations multiples

LE standard d’échange effectif aujourd’hui

Maintenu par W3C Soutenu par l’industrie (OASIS)

Intégré applications bureautique, Web, toutes plateformes informatiques, logiciels courants, BD …

Tous types de documents, tous domaines, et applications

Web: XHTML, Web2, Web services, Web sémantique …

Standards de publication TEI, NLM, DocBook, eBooks … Images (SVG), multimédia (SMIL) … Implémentation des standards de

métadonnées RDF s’écrit souvent en XML

C. Morel-Pair, journée ISKO

XML, pourquoi (3)

Soutenu par de gros consortiums industriels, représentés par OASIS, Organization for the Advancement of Structured Information Standards, organisme de normalisation industriel international plus de 600 organismes adhérents

Airbus, General Motors, Dell, Nokia, Oracle, Adobe, Reuters …

Liste des centaines de standards / normes de documents XML + diffuse les spécifications techniques du W3C

4 – Applications : valorisation …

Bibliothèques numériques

Protocole OAI-PMH Archives ouvertes

Autres usages Mutualisation des services

culturels et patrimoniaux

Corpus Recherche OLAC , IMDI …

CyberthèsesTEF

Rép et portails del’information publiqueINSPIRE, URBADOC

Annuaires et portails

Flux de production « tout XML »

Ex : CN2SV, INISTOutils de production

ArchivistesEditeurs outils pédagogiques

et livres - eBooksRecord Management

Profils d’applications

OpenURL

Web sémantique

Web 2

C. Morel-Pair, journée ISKO

C. Morel-Pair, journée ISKO

1 - Protocole OAI-PMH

… Né dans un contexte stratégique, le mouvement du libre accès aux publications scientifique – Open Access “OA”

Revues en libre accès – voir le DOAJ : 5000 revues aujourd’hui Archives ouvertes – Open Archive Initiative “OAI” Site d’actualités OA : http://openaccess.inist.fr/

Quelle interopérabilité pour ces “archives ouvertes” ? “architecture distribuée” , “Web invisible” (BDs) protocole OAI-PMH, 2001

Convention de Santa Fé, 1999 : Z39.50 … ? Protocole de “moissonnage” (harvesting) de l’OAI

pour la collecte des métadonnées des “entrepôts” des archives ouvertes

… Protocole simple et ouvert … … autres usages ensuite

C. Morel-Pair, journée ISKO

Un registre d’entrepôts OAI-PMH

~ 1700 entrepôts

20 millions de ressources

C. Morel-Pair, journée ISKO

Un ‘‘moissonneur’’ :résultat d’une requête

Entrepôts répondant Enregistrement :

métadonnées

Accès ressource

15/06/10 C. Morel-Pair

ListRecords ou GetRecord&…‘creator’

‘date’(s)

‘identifier’

‘description’(s)

‘format’‘language’

‘publisher’

‘rights’

‘source’

‘subject’

OAI-PMH : HTTP, XML, enregistrement minimum : Dublin Core simple

C. Morel-Pair, journée ISKO

Displayed record

Dublin Core

MARC21

MODS

OAI-PMH : une ressource peut avoir plusieurs représentations

School of arts for girls Kiz Sanayi Mektebi]

oai:lcoa1.loc.gov:loc.pnp/cph.3b23005

Source : muriel.foulonneau@tudor.lu, FReDoc 2009

… ETD-MS, MARC-XML, TEI, METS, DIDL ...

Tout fichier XML peut être moissonné …

voir http://gita.grainger.uiuc.edu/registry/ListSchemas.asp

C. Morel-Pair, journée ISKO

OAI-PMH : autres usagesMutualisation du patrimoine culturel numériséFrance, Europe

Portail national, http://collections.culture.fr

régionaux, thématiques …

15/06/10 C. Morel-Pair, journée ISKO

Réseau de portails et archive ouverte Enseignement Supérieur

DC, LOM, TEF, FOAF, Dewey …

C. Morel-Pair, journée ISKO

…’’Le protocole OAI-PMH : mutualiser les métadonnées pour valoriser les ressources ‘’ http://renatis.cnrs.fr/spip.php?article156

2 - La plateforme du CN2SV pour les fonds d’archives des sciences

http:/www.arch.cn2sv.cnrs.fr/

C. Morel-Pair, journée ISKO

C. Morel-Pair, journée ISKO

CN2SV : XML et métadonnées standard à tous les étages

METS

Data centerModèle OAIS

Entrepôt OAI-PMHDC- XML[MODS]

AjoutMétas IPTC

embarquées

(XMP)

Création fichier EAD

extracti

on

diffu

sio narchivage

diff

Moteursgénéralistes

KML

cartes

C. Morel-Pair, journée ISKO

5 – Interopérabilité … des métadonnées ?

Niveaux d’interopérabilité Standards et normes de métadonnées

Mappings, crosswalks Bonnes pratiques …

Utilisation homogène des éléments, valeurs contrôlées et modélisées

Implémentation : encodage, [HTML], XML, … RDF Protocoles d’échange machines

Modélisation % objectifs FRBR, CIDOC-CRM … Qualité … projet, échanges …

Web sémantique, web de données ‘’Le web de données est un web de métadonnées’’

C. Morel-Pair, journée ISKO

Sujet

C. Morel-Pair, journée ISKO

FRBR trouver – identifier – choisir - accéder

Œuvre A

Expression

Manifestation1b

Item

Acteurs

ExpressionA2ExpressionA1

Œuvre B

ManifestationA1a

ItemItem

attributs

attributs

attributs

attributs

attributs

15/06/10 C. Morel-Pair

Exemple : un “livre” …Les Misérables, Victor Hugo

Ce film est tiré de mon livre préféré

J’aimerais lire ce livre en Français

Il faut que la bibliothèque commande ce livre

J’ai égaré mon livre

Œuvre Titre, forme, contexte … Créateur - sujet

Expression de l’œuvre Titre, forme, langue, date, … Contributeur : traducteur …

Manifestation d’un expression Titre, date-lieu, édition, caract

physiques, identifiant Éditeur

Exemplaire, document, item Provenance, annoations, [ident] Propriétaire

Source: tsig.wikispaces.com/file/view/RivaFRBRFRADforCLA-fre.pdf

Web sémantique :libérer les données …

Requête spécifiques / protocoles spécifiques … réponses spécifiques

Non / peu structurées pour les machines

structurées

HALPubMed

WoS

SUDOC

C. Morel-Pair, journée ISKO

Données, métadonnées et Web sémantique

D’un Web de “silos” et de “documents pour l’homme” à un Web de “données ouvertes,“libérées” , compréhensibles par les machines Qui génèrent d’autres données “automatiquement” (inférence)

Structuration des données par des standards RDF : triplets sujet-propriété-objet …

Décrivant personnes, créations, lieux, conncepts, droits … Via “ontologies” : OWL, SKOS, DC, FOAF, geo … Qualité : namespaces, URI, propriétés liantes ‘sameAs’

Langage de requête standard, SPARQL

DBPedia, WordNet, Geonames, Libris…10 MILLIARDS triplets ! Recherche : Sindice, Swoogle …

Google, Yahoo !C. Morel-Pair, journée ISKO

C. Morel-Pair, journée ISKO

Les RSS : un archétype du web sémantique

intégré au Web 2 <rss version="0.91"> <channel>

<title>Libre accès a l'information scientifique et technique. Actualites, problématiques et perspectives</title>

<link>http://www.inist.fr/openaccess/</link> […]<item> <title> Débat autour des propositions britanniques en faveur de

l'auto-archivage</title> <link>http://www.inist.fr/openaccess/breve.php3?id_breve=311

</link> <date>2005-07-13 14:13:15</date> <description> La proposition publiée par les conseils de la

recherche britanniques (Resarch Councils ou RCUK) de conditionner le financement des recherches qu'ils subventionnent à une obligation d'auto-archivage des publications suscite un vif débat.… </description>

</item><item> <title> Congrès en Chine […]

15/06/10 C. Morel-Pair, journée ISKO

… à l’usage

15/06/10 C. Morel-Pair, journée ISKO

LIBRIS, catalogue collectif suédois :

triplets RDF et ontologies standard

C. Morel-Pair, journée ISKOSource : http://blog.libris.kb.se/semweb/?p=7

Catalogues et autorités SUDOC : prévu en2010-2011

Sémantisation d’un article tags RDFa

“Semantic enhancement of a research article” : leptospirosis

C. Morel-Pair, journée ISKO

Merci de votre attention

… Des langages documentaires au Web sémantique Partie I : des métadonnées pour

valoriser les ressources : fin ! Partie II : modélisation,

environnements sémantiques et Web de données : tout de suite !

C. Morel-Pair, journée ISKO