Post on 25-Jul-2020
Des langages documentaires au Web sémantique
I - Métadonnées et valorisation des ressources numériques
Journée ISKO, Lyon, 8 juin 2010“Les instruments d'organisation des connaissances à
l'ère du web sémantique”
Catherine Morel-PairINIST-CNRS, Département Edition et Publications Numériques
catherine.morel@inist.fr
1 – Métadonnées ?
Métadonnée : une donnée à propos d’une autre donnée Un jeu de métadonnées : un ensemble structuré
d’information pour “représenter” des ressources Ensemble de propriétés/éléments : titre, auteur, type, date …
Renseignés par des “valeurs” Décrit, explicite, localise la ressource
Pour en faciliter la recherche, l’usage, la gestion (NISO)
Web et tous ensembles de ressources électroniques Ou physiques … Terme ancien dans certains domaines (BD, images, géospatial),
plus récent dans les métiers bib-doc
C. Morel-Pair, journée ISKO
Un monde sans métadonnées
Source : http://www.collectionscanada.gc.ca/obj/s37/f2/s37-4016.1-f.pdf
Haricots Bonduelle
Contient du sodiumDate limite 2010-10-10
Distribué par X
Resource discovery: recherche, navigation sémantisation
Labellisation Evaluation
Collections
Propriété, responsabilité droits d’usage
Fonctions & typologie
des métadonnées
Pérennisation
Interopérabilité
mutualisation
Caractéristiques techniques
Identification, loc.
m. descriptives du contenu
m. de structure
m. de droitsm. techniques
StandardsXML, RDF
m. administratives
Tous types m. techniques ++
Appropriationtags,
folksonomies
C. Morel-Pair, journée ISKO
A fonctions diverses standards et pratiques divers … Nombreux standards complémentaires, parfois concurrents
Objectifs et objets décrits très divers Acteurs divers : bib-doc-archives, NTIC, commerce Complexité variable
Contenu des éléments varié … Types : Valeurs “texte” : contrôlées ou modélisées / texte libre Valeurs complexes : formules, vignettes …
Créées manuellement / automatiquement / par transformation
Lisibles par l’homme et la machine Tableau, formats “délimités” ? Efficience des langages de balises – (X)HTML, XML … RDF
<dc:title>Métadonnées et valorisation …</dc:title> Embarquées ou externes
C. Morel-Pair, journée ISKO
Des métadonnées “courantes”
1 - Métadonnées Windows
… Dans le fichier et des fichiers satellites
Variable entre versions
Explorateur Windowsclic droit sur un fichier“Propriétés”
15/06/10 C. Morel-Pair, journée ISKO
Métadonnées (techniques) images
Tags image
Photothèque collaborative Flick’r
Carte de site
Catalogue, annuaire
Grands standards
de métadonnées
Pérennisation
m. descriptives du contenu
m. de structure
m. de droits
m. techniques
Bib-doc : MARC-XML, MODS, BiblioML
Métiers du livre : ONIXImage : IPTCEvaluation … sites santé : Net scoring, label HON
Nouveautés des sites : RSS …
Creative Commons, GNUACAPODRL, XrML … DRM
‘Conteneurs’METS, DIDLOAI-ORE
EAD
Image : EXIF, MIX
Technique ++ : PREMISRecord management, OAISidentifiants : URI / PID
LOM ISO 19115 MPEG 21
Dublin Core
1 - Sur les “ressources”
15/06/10 C. Morel-Pair, journée ISKO
2 - Métadonnées et autres “objets”
Personnes et réseauxUtilisateursCréateurs … acteurs divers
Connaissances :EvénementsLieuxPratiques métiersConcepts
Expérimentation et résultats scientifiques
métadonnées sur les
métadonnées
login, certificats, fédération d’identité, logs session vCards, fichiers d’autorité… FOAF …
Très spécialisés ! Linguistique : OLAC, DIMDIEnquêtes : DDIBiologie : ISA … …
hCalendargeonames, KML, GML, geo …
“Ontologies”C. Morel-Pair, journée ISKO
2 – Standard Dublin Core
Dublin Core Metadata Initiative, 1995 Atelier à Dublin (Ohio) en 1995 Objectif : “Pallier les insuffisances des métadonnées
HTML” pour donner une sémantique au Web […] et améliorer la “resource discovery”
Par un standard généraliste Une “description bibliographique simplifiée” … pour tout type de ressource, de producteur
Fondation active Groupes de travail thématiques évolutifs, workshop
annuel http://dublincore.org
C. Morel-Pair, journée ISKO
http://ganesha.fr/index.php?post/2008/03/31/Dublin-Core
DC simple : 15 éléments
DC qualifié + étendu
+ schémas d’encodage :
valeurs contrôlées : MeSH, RAMEAU, DDCet modélisées : ISO …
+ mark-up lang. :attributs lang, type …
C. Morel-Pair, journée ISKO
3 - XMLUn métalangage universel
eXtensible Mark-up Language, 1998
Structuration hiérarchique et sémantique avec des éléments marqués/par des <balise>
Standard ouvert et libre -, pérenne et interopérable
Mode texte, Unicode et tous encodages “Métalangage” base de différents
modèles et applications Efficient - comprend
Le document XML Ses modèles (DTD, schémas) partagés Des modules de requête et traitement
intégrés XPath, XSL, XQuery, DOM …
Un seul document transformations et réutilisations multiples
LE standard d’échange effectif aujourd’hui
Maintenu par W3C Soutenu par l’industrie (OASIS)
Intégré applications bureautique, Web, toutes plateformes informatiques, logiciels courants, BD …
Tous types de documents, tous domaines, et applications
Web: XHTML, Web2, Web services, Web sémantique …
Standards de publication TEI, NLM, DocBook, eBooks … Images (SVG), multimédia (SMIL) … Implémentation des standards de
métadonnées RDF s’écrit souvent en XML
C. Morel-Pair, journée ISKO
XML, pourquoi (3)
Soutenu par de gros consortiums industriels, représentés par OASIS, Organization for the Advancement of Structured Information Standards, organisme de normalisation industriel international plus de 600 organismes adhérents
Airbus, General Motors, Dell, Nokia, Oracle, Adobe, Reuters …
Liste des centaines de standards / normes de documents XML + diffuse les spécifications techniques du W3C
4 – Applications : valorisation …
Bibliothèques numériques
Protocole OAI-PMH Archives ouvertes
Autres usages Mutualisation des services
culturels et patrimoniaux
Corpus Recherche OLAC , IMDI …
CyberthèsesTEF
Rép et portails del’information publiqueINSPIRE, URBADOC
Annuaires et portails
Flux de production « tout XML »
Ex : CN2SV, INISTOutils de production
ArchivistesEditeurs outils pédagogiques
et livres - eBooksRecord Management
Profils d’applications
OpenURL
Web sémantique
Web 2
C. Morel-Pair, journée ISKO
C. Morel-Pair, journée ISKO
1 - Protocole OAI-PMH
… Né dans un contexte stratégique, le mouvement du libre accès aux publications scientifique – Open Access “OA”
Revues en libre accès – voir le DOAJ : 5000 revues aujourd’hui Archives ouvertes – Open Archive Initiative “OAI” Site d’actualités OA : http://openaccess.inist.fr/
Quelle interopérabilité pour ces “archives ouvertes” ? “architecture distribuée” , “Web invisible” (BDs) protocole OAI-PMH, 2001
Convention de Santa Fé, 1999 : Z39.50 … ? Protocole de “moissonnage” (harvesting) de l’OAI
pour la collecte des métadonnées des “entrepôts” des archives ouvertes
… Protocole simple et ouvert … … autres usages ensuite
C. Morel-Pair, journée ISKO
Un registre d’entrepôts OAI-PMH
~ 1700 entrepôts
20 millions de ressources
C. Morel-Pair, journée ISKO
Un ‘‘moissonneur’’ :résultat d’une requête
Entrepôts répondant Enregistrement :
métadonnées
Accès ressource
15/06/10 C. Morel-Pair
ListRecords ou GetRecord&…‘creator’
‘date’(s)
‘identifier’
‘description’(s)
‘format’‘language’
‘publisher’
‘rights’
‘source’
‘subject’
OAI-PMH : HTTP, XML, enregistrement minimum : Dublin Core simple
C. Morel-Pair, journée ISKO
Displayed record
Dublin Core
MARC21
MODS
OAI-PMH : une ressource peut avoir plusieurs représentations
School of arts for girls Kiz Sanayi Mektebi]
oai:lcoa1.loc.gov:loc.pnp/cph.3b23005
Source : muriel.foulonneau@tudor.lu, FReDoc 2009
… ETD-MS, MARC-XML, TEI, METS, DIDL ...
Tout fichier XML peut être moissonné …
voir http://gita.grainger.uiuc.edu/registry/ListSchemas.asp
C. Morel-Pair, journée ISKO
OAI-PMH : autres usagesMutualisation du patrimoine culturel numériséFrance, Europe
Portail national, http://collections.culture.fr
régionaux, thématiques …
15/06/10 C. Morel-Pair, journée ISKO
Réseau de portails et archive ouverte Enseignement Supérieur
DC, LOM, TEF, FOAF, Dewey …
C. Morel-Pair, journée ISKO
…’’Le protocole OAI-PMH : mutualiser les métadonnées pour valoriser les ressources ‘’ http://renatis.cnrs.fr/spip.php?article156
2 - La plateforme du CN2SV pour les fonds d’archives des sciences
http:/www.arch.cn2sv.cnrs.fr/
C. Morel-Pair, journée ISKO
C. Morel-Pair, journée ISKO
CN2SV : XML et métadonnées standard à tous les étages
METS
Data centerModèle OAIS
Entrepôt OAI-PMHDC- XML[MODS]
AjoutMétas IPTC
embarquées
(XMP)
…
Création fichier EAD
extracti
on
diffu
sio narchivage
diff
Moteursgénéralistes
KML
cartes
C. Morel-Pair, journée ISKO
5 – Interopérabilité … des métadonnées ?
Niveaux d’interopérabilité Standards et normes de métadonnées
Mappings, crosswalks Bonnes pratiques …
Utilisation homogène des éléments, valeurs contrôlées et modélisées
Implémentation : encodage, [HTML], XML, … RDF Protocoles d’échange machines
Modélisation % objectifs FRBR, CIDOC-CRM … Qualité … projet, échanges …
Web sémantique, web de données ‘’Le web de données est un web de métadonnées’’
C. Morel-Pair, journée ISKO
Sujet
C. Morel-Pair, journée ISKO
FRBR trouver – identifier – choisir - accéder
Œuvre A
Expression
Manifestation1b
Item
Acteurs
ExpressionA2ExpressionA1
Œuvre B
ManifestationA1a
ItemItem
attributs
attributs
attributs
attributs
attributs
15/06/10 C. Morel-Pair
Exemple : un “livre” …Les Misérables, Victor Hugo
Ce film est tiré de mon livre préféré
J’aimerais lire ce livre en Français
Il faut que la bibliothèque commande ce livre
J’ai égaré mon livre
Œuvre Titre, forme, contexte … Créateur - sujet
Expression de l’œuvre Titre, forme, langue, date, … Contributeur : traducteur …
Manifestation d’un expression Titre, date-lieu, édition, caract
physiques, identifiant Éditeur
Exemplaire, document, item Provenance, annoations, [ident] Propriétaire
Source: tsig.wikispaces.com/file/view/RivaFRBRFRADforCLA-fre.pdf
Web sémantique :libérer les données …
Requête spécifiques / protocoles spécifiques … réponses spécifiques
Non / peu structurées pour les machines
structurées
HALPubMed
WoS
SUDOC
C. Morel-Pair, journée ISKO
Données, métadonnées et Web sémantique
D’un Web de “silos” et de “documents pour l’homme” à un Web de “données ouvertes,“libérées” , compréhensibles par les machines Qui génèrent d’autres données “automatiquement” (inférence)
Structuration des données par des standards RDF : triplets sujet-propriété-objet …
Décrivant personnes, créations, lieux, conncepts, droits … Via “ontologies” : OWL, SKOS, DC, FOAF, geo … Qualité : namespaces, URI, propriétés liantes ‘sameAs’
Langage de requête standard, SPARQL
DBPedia, WordNet, Geonames, Libris…10 MILLIARDS triplets ! Recherche : Sindice, Swoogle …
Google, Yahoo !C. Morel-Pair, journée ISKO
C. Morel-Pair, journée ISKO
Les RSS : un archétype du web sémantique
intégré au Web 2 <rss version="0.91"> <channel>
<title>Libre accès a l'information scientifique et technique. Actualites, problématiques et perspectives</title>
<link>http://www.inist.fr/openaccess/</link> […]<item> <title> Débat autour des propositions britanniques en faveur de
l'auto-archivage</title> <link>http://www.inist.fr/openaccess/breve.php3?id_breve=311
</link> <date>2005-07-13 14:13:15</date> <description> La proposition publiée par les conseils de la
recherche britanniques (Resarch Councils ou RCUK) de conditionner le financement des recherches qu'ils subventionnent à une obligation d'auto-archivage des publications suscite un vif débat.… </description>
</item><item> <title> Congrès en Chine […]
15/06/10 C. Morel-Pair, journée ISKO
… à l’usage
15/06/10 C. Morel-Pair, journée ISKO
LIBRIS, catalogue collectif suédois :
triplets RDF et ontologies standard
C. Morel-Pair, journée ISKOSource : http://blog.libris.kb.se/semweb/?p=7
Catalogues et autorités SUDOC : prévu en2010-2011
Sémantisation d’un article tags RDFa
“Semantic enhancement of a research article” : leptospirosis
C. Morel-Pair, journée ISKO
Merci de votre attention
… Des langages documentaires au Web sémantique Partie I : des métadonnées pour
valoriser les ressources : fin ! Partie II : modélisation,
environnements sémantiques et Web de données : tout de suite !
C. Morel-Pair, journée ISKO