La démocratisation du XML documentaire : normes, …CN2SV : réseau de personnes ayant des...

Post on 25-Jul-2020

2 views 0 download

Transcript of La démocratisation du XML documentaire : normes, …CN2SV : réseau de personnes ayant des...

Stéphane POUYLLAU, IE CNRS - pouyllau@ivry.cnrs.fr / www.stephanepouyllau.org

La démocratisation du XML documentaire : normes, méthodes, outils pour l'informatisation des e-documents

Stéphane POUYLLAU, Ingénieur d'études au CNRS

Responsable technologique de la plateforme technologique du Centre de recherche en histoire des sciences et des techniques

Responsable du Centre National pour la Numérisation de Sources Visuelles (CN2SV, centre national de ressources numériques du CNRS)

pouyllau@ivry.cnrs.frwww.crhst.cnrs.fr - www.cn2sv.fr

Stéphane POUYLLAU, IE CNRS - pouyllau@ivry.cnrs.fr / www.stephanepouyllau.org

XML : 10eme anniversaire !

● 1998 – 2008 : XML à 10 ans● World Wide Web Consortium : http://www.w3.org/XML/● Les parents d'XML : SGML et le HTML● La structure d'un document XML peut être validée par un

schéma ou DTD● Un document XML est entièrement transformable dans un

autre document XML à l'aide de feuilles de style XSL● XML est un outil

Stéphane POUYLLAU, IE CNRS - pouyllau@ivry.cnrs.fr / www.stephanepouyllau.org

XML : il est partout

● Echanges entre BDD ?● Des images et des textes en

ligne ?● Echanges de notices

bibliographiques ?● Flux RSS ?● Web 2.0 (AJAX) ?● Blogs ?● Archives ouvertes utilisant

OAI-PMH (HAL...) ?● Google Maps ?

● XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML...

Stéphane POUYLLAU, IE CNRS - pouyllau@ivry.cnrs.fr / www.stephanepouyllau.org

XML : pourquoi ça marche ?

● Langage simple (texte)● Langage balisé donc ...

structuré et hiérarchisé● Universel et non

propriétaire● Son objectif initial :

échange automatisé de contenus entre systèmes d'informations hétérogènes (interopérabilité)

Stéphane POUYLLAU, IE CNRS - pouyllau@ivry.cnrs.fr / www.stephanepouyllau.org

XML : un choix pour l'avenir

● Stockage des données = texte● XML utilise Unicode (norme informatique pour les

caractères)● Description des contenus XML : DTD ; Schéma● XML peut être validé (conforme par rapport...)● XML est compatible les langages de programmation :

Java ; PHP ; Perl, ...● XML à un fils : XHTML

Stéphane POUYLLAU, IE CNRS - pouyllau@ivry.cnrs.fr / www.stephanepouyllau.org

XML : au coeur des projets

● Les plateformes web du CRHST : du XML à tous les étages ? – du XMP à l'OAI : XML et les normes

● La plateforme du CN2SV pour les fonds d'archives des sciences : une application XML– XML comme comme méthode et brique de construction dans un système

d'information

● Faire du XML sans le savoir ou les futurs outils : de Zotero à MonCarnet 2.0– Des outils communicants utilisant XML et leurs limites actuelles

Stéphane POUYLLAU, IE CNRS - pouyllau@ivry.cnrs.fr / www.stephanepouyllau.org

Le Centre de Recherche en Histoire des Sciences et techniques

● Créé en 1986 par la Cité des sciences et de l'industrie

● Equipe de l'unité mixte de recherche du CNRS : Centre Alexandre-Koyré/CRHST (50 personnes)

● CRHST : plateforme technologique

● 3 personnels CNRS / 3 CDD● 2 ANR / 2 projets EU.

● www.crhst.cnrs.fr

Stéphane POUYLLAU, IE CNRS - pouyllau@ivry.cnrs.fr / www.stephanepouyllau.org

CN2SV : présentation

● CN2SV : centre national de ressources numériques● Label créé par la Direction SHS et la DIS du CNRS en 2006● CN2SV est un opérateur du Très grand équipement

ADONIS-CNRS● CN2SV : réseau de personnes ayant des compétences sur le

digital humanities● Sa mission : expertise sur les digital humanities /

assistance à maîtrise d'ouvrage dans l'informatisation des données iconographiques (photos, cartes, plans, correspondances scientifiques, carnets de terrain, carnets d'expériences, etc)

Stéphane POUYLLAU, IE CNRS - pouyllau@ivry.cnrs.fr / www.stephanepouyllau.org

CN2SV : un site portail

www.cn2sv.fr

Stéphane POUYLLAU, IE CNRS - pouyllau@ivry.cnrs.fr / www.stephanepouyllau.org

CN2SV : partenaires

www.tge-adonis.fr

Stéphane POUYLLAU, IE CNRS - pouyllau@ivry.cnrs.fr / www.stephanepouyllau.org

Les plateformes web du CRHST : du XML à tous les étages ?

Stéphane POUYLLAU, IE CNRS - pouyllau@ivry.cnrs.fr / www.stephanepouyllau.org

Un pôle informatique d'ingénierie web

L'informatisation des données en SHS : un objet à définir● Mettre à disposition pour la recherche (chercheurs,

étudiants, enseignants) des données numériques natives ou numérisées (textes, images, etc.) selon des normes internationales dans un environnement numérique professionnel

● Mettre en oeuvre le traitement et l'accessibilité de ces données numériques

● Assurer la pérennité de ces données numériques● Faire le lien avec les outils de l'édition numérique

(revue.org, etc.)

Stéphane POUYLLAU, IE CNRS - pouyllau@ivry.cnrs.fr / www.stephanepouyllau.org

Les digital humanities

DocumentationIST

Archives

Rechercheen scienceshumaines

Informatique

Stéphane POUYLLAU, IE CNRS - pouyllau@ivry.cnrs.fr / www.stephanepouyllau.org

Un pôle informatique d'ingénierie web

Notre savoir-faire

● Maîtrise d'oeuvre dans le développement de plateformes web pour la recherche

● Assistance à maîtrise d'ouvrage dans le montage et la réalisation de projets de recherche ayant des besoins « numériques »

● Mise en ligne de fonds d'archives de science (CN2SV)

● Mise en oeuvre du modèle de gestion OAIS / pérennité des données numériques

Stéphane POUYLLAU, IE CNRS - pouyllau@ivry.cnrs.fr / www.stephanepouyllau.org

Stéphane POUYLLAU, IE CNRS - pouyllau@ivry.cnrs.fr / www.stephanepouyllau.org

Stéphane POUYLLAU, IE CNRS - pouyllau@ivry.cnrs.fr / www.stephanepouyllau.org

Stéphane POUYLLAU, IE CNRS - pouyllau@ivry.cnrs.fr / www.stephanepouyllau.org

Stéphane POUYLLAU, IE CNRS - pouyllau@ivry.cnrs.fr / www.stephanepouyllau.org

Stéphane POUYLLAU, IE CNRS - pouyllau@ivry.cnrs.fr / www.stephanepouyllau.org

Extractions PDF « à la demande »

Stéphane POUYLLAU, IE CNRS - pouyllau@ivry.cnrs.fr / www.stephanepouyllau.org

Annotations de références électroniques(web ou OAI)et des textes

issues de nos plateformes

(pour les chercheurs)-

Folksonomie(nuages de mots-clés,

exportation XML)

ICEberg+ : l'annotation de ressources

Stéphane POUYLLAU, IE CNRS - pouyllau@ivry.cnrs.fr / www.stephanepouyllau.org

Nos plateformes web (quelques exemples)

● Les grands scientifiques– www.ampere.cnrs.fr (manuscrits, ouvrages, correspondance,

espace pédagogique)– www.buffon.cnrs.fr (histoire nat. + supp., correspondance, etc.)– www.lamarck.cnrs.fr (manuscrits, herbier, ouvrages)

● Les thématiques– www.criminocorpus.cnrs.fr (ENAP, Min. Justice, CNRS,

SciencePo)– www.histmap.cnrs.fr (Ecoles des Mines, CNRS, Univ. Caen)– www.histnet.cnrs.fr/research/nadirane/– www.histnet.cnrs.fr/research/periodiques-savants...

Stéphane POUYLLAU, IE CNRS - pouyllau@ivry.cnrs.fr / www.stephanepouyllau.org

Framework : ICEberg

CMS : SPIP / Lodel / Drupal

MétadonnéesDublinCore

RSS

OAI-PMHDublinCore

Le web

SGBDR : MySQL

Stéphane POUYLLAU, IE CNRS - pouyllau@ivry.cnrs.fr / www.stephanepouyllau.org

Les plateformes web : normes utilisées

● Images = métadonnées « embarquées »– IPTC core : travaux entre Adobe et l'International

Press Telecommunications Council (2004) – IPTC core = XMP (techno Adobe) + entête IPTC +

EXIF– EXIF > prise de vue ; – IPTC > Photoshop, XnView ; – Exploitation web des métadonnées IPTC core via

des scripts PHP

Stéphane POUYLLAU, IE CNRS - pouyllau@ivry.cnrs.fr / www.stephanepouyllau.org

IPTC : exploitation des métadonnées dans plusieurs applications

CN2SV : pleadeArchéovision (Ausonius) :

ArchéoGrid

Une image + des métadonnées embarquées =

plusieurs applications

Stéphane POUYLLAU, IE CNRS - pouyllau@ivry.cnrs.fr / www.stephanepouyllau.org

Les plateformes web : normes utilisées

● Texte = TEI Lite et XHTML– TEI = Text Encoding

Initiative– Issue du SGML– Ex. : Histoire

Naturelle de Buffon en TEI

Stéphane POUYLLAU, IE CNRS - pouyllau@ivry.cnrs.fr / www.stephanepouyllau.org

Les plateformes web : normes utilisées

● Les échanges de données entre bases de données : l'interpérabilité à l'aide d'XML

● IPTC core / identifiant de l'image <-> identifiant notice / MySQL

Stéphane POUYLLAU, IE CNRS - pouyllau@ivry.cnrs.fr / www.stephanepouyllau.org

Les plateformes web : normes utilisées

● Géoréférencement de données : GeoRSS ; KML (Google) ; GeoXML <-> logiciels SIG

Stéphane POUYLLAU, IE CNRS - pouyllau@ivry.cnrs.fr / www.stephanepouyllau.org

Les plateformes web : normes utilisées

●Flux RSS, Atom : du XML pour les informations...

Stéphane POUYLLAU, IE CNRS - pouyllau@ivry.cnrs.fr / www.stephanepouyllau.org

Du XML à tous les étages ?

● Oui, mais nous avons toujours des bases de données « SQL » (MySQL, PostgreSQL)

● Les plateformes web du CRHST : XML est un « connecteur »

● Interopérabilité des données

Stéphane POUYLLAU, IE CNRS - pouyllau@ivry.cnrs.fr / www.stephanepouyllau.org

La plateforme du CN2SV pour les fonds d'archives

scientifiques : une application XML

Le CN2SV est supporté par le

Stéphane POUYLLAU, IE CNRS - pouyllau@ivry.cnrs.fr / www.stephanepouyllau.org

Plateforme de fonds d'archives scientifique

● Plateforme web/extranet/OAI-PMH diffusant des inventaires électroniques de fonds d'archives.

● Elle permet la publication d'instruments de recherche XML utilisant la grammaire EAD (Encoded Archival Description ; norme internationale ; www.loc.gov/ead)

● EAD est un schéma XML (grammaire XML)● http:/www.arch.cn2sv.cnrs.fr/ead/

Stéphane POUYLLAU, IE CNRS - pouyllau@ivry.cnrs.fr / www.stephanepouyllau.org

SDX (brique -2 : gestionnaire XML)

MySQL (brique -3 : SGBDR pour le stockage du XML)

PLEADE (brique -1 : application web)

Serveur web

Les données XML

CN2SV : l'application composite, le règne de l'open source et du XML fragmenté

Stéphane POUYLLAU, IE CNRS - pouyllau@ivry.cnrs.fr / www.stephanepouyllau.org

Stéphane POUYLLAU, IE CNRS - pouyllau@ivry.cnrs.fr / www.stephanepouyllau.org

Stéphane POUYLLAU, IE CNRS - pouyllau@ivry.cnrs.fr / www.stephanepouyllau.org

Stéphane POUYLLAU, IE CNRS - pouyllau@ivry.cnrs.fr / www.stephanepouyllau.org

Stéphane POUYLLAU, IE CNRS - pouyllau@ivry.cnrs.fr / www.stephanepouyllau.org

Faire du XML sans le savoir ou les futurs outils : de Zotero à

MC2.0® (MonCarnet) en passant par OAI

Stéphane POUYLLAU, IE CNRS - pouyllau@ivry.cnrs.fr / www.stephanepouyllau.org

Zot[é]ro

● Zotéro est un module pour Firefox (mozilla).● Récupération, classement, annotation de références

bibliographiques ou de ressources web● Utilisation des métadonnées Dublin Core● Utilisation du XML pour :

– Le stockage local– L'interopérabilité (import-export ; RDF, etc.)

Stéphane POUYLLAU, IE CNRS - pouyllau@ivry.cnrs.fr / www.stephanepouyllau.org

MC2.0 : un outil pour les chercheurs... et les professionnels de l'information

● Plateforme web de classement, annotation, édition de références OAI-PMH (OAIster = + de 15 millions de réf.)

● Outil « en ligne »● En cours de réalisation (maquette avancé en septembre sur

www.cn2sv.fr/mc2/● Supporté par le TGE ADONIS

Stéphane POUYLLAU, IE CNRS - pouyllau@ivry.cnrs.fr / www.stephanepouyllau.org

XML et l'open archives initiative (OAI)

● OAI-PMH : Open Archives Initiative’s Protocol for Metadata Harvesting

● OAI-ORE : Open Archives Initiative Object Reuse and Exchange (en cours de développement)

● Protocole d'échange de données structurées à l'aide d'XML et utilisant HTTP

● Réservoir de métadonnées XML (au format Dublin Core au minimum) donnant accès à des ressources numériques en ligne

● http://www.openarchives.org

Stéphane POUYLLAU, IE CNRS - pouyllau@ivry.cnrs.fr / www.stephanepouyllau.org

Schéma de l'OAI

www.buffon.cnrs.fr

Entrepôt demétadonnées

DublinCore

www.lamarck.cnrs.fr

www.criminocorpus.cnrs.fr

www.ampere.cnrs.frIPTCTEI

XHTML

IPTCTEI

XHTMLIPTCTEI

XHTML

IPTCTEI

XHTML

Stéphane POUYLLAU, IE CNRS - pouyllau@ivry.cnrs.fr / www.stephanepouyllau.org

Entrepôt OAI-PMH du CRHST

● 2.700 documents inédits référencés (>60.000 images/pages) et moissonnables via la norme OAI (métadonnées : DublinCore)

● Documents inédits : correspondances, manuscrits, planches d'herbier, collection, etc.

● Accès possible via : OAIster.org (+ de 14M de ressources), In-extenso.org, scientificcommons.org...

● http://www.crhst.cnrs.fr/esources/

Stéphane POUYLLAU, IE CNRS - pouyllau@ivry.cnrs.fr / www.stephanepouyllau.org

Entrepôt OAI-PMH du CRHST et du CN2SV

● But n°1 : échanger et diffuser facilement des ressources via des métadonnées

● But n°2 : faciliter l'interopérabilité des ressources documentaires scientifiques et/ou culturelles

● But n°3 : promouvoir un format XML simplifié de description des ressources : le Dublin Core

● But n°4 : possibilité pour un fournisseur de service de proposer des ressources ayant des origines différentes (méta-portail).

Stéphane POUYLLAU, IE CNRS - pouyllau@ivry.cnrs.fr / www.stephanepouyllau.org

Stéphane POUYLLAU, IE CNRS - pouyllau@ivry.cnrs.fr / www.stephanepouyllau.org

Informatiser : nécessité d'une infrastructure pour le stockage des données● Grappe de serveurs (financement

dépt. SHS du CNRS en 2006)● 6 TéraOctets● Centre de Calcul de l'IN2P3-CNRS

(Villeurbanne)

Stéphane POUYLLAU, IE CNRS - pouyllau@ivry.cnrs.fr / www.stephanepouyllau.org

Merci de votre attention● Nos partenaires ● Contacts

– www.crhst.cnrs.fr– crhst-hstl@cite-sciences.fr

● Stéphane POUYLLAU, IE CNRS

– pouyllau@ivry.cnrs.fr

– Blog : http://blog.stephanepouyllau.org