La démocratisation du XML documentaire : normes, …CN2SV : réseau de personnes ayant des...

47
Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org La démocratisation du XML documentaire : normes, méthodes, outils pour l'informatisation des e-documents Stéphane POUYLLAU, Ingénieur d'études au CNRS Responsable technologique de la plateforme technologique du Centre de recherche en histoire des sciences et des techniques Responsable du Centre National pour la Numérisation de Sources Visuelles (CN2SV, centre national de ressources numériques du CNRS) [email protected] www.crhst.cnrs.fr - www.cn2sv.fr

Transcript of La démocratisation du XML documentaire : normes, …CN2SV : réseau de personnes ayant des...

Page 1: La démocratisation du XML documentaire : normes, …CN2SV : réseau de personnes ayant des compétences sur le digital humanities Sa mission : expertise sur les digital humanities

Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org

La démocratisation du XML documentaire : normes, méthodes, outils pour l'informatisation des e-documents

Stéphane POUYLLAU, Ingénieur d'études au CNRS

Responsable technologique de la plateforme technologique du Centre de recherche en histoire des sciences et des techniques

Responsable du Centre National pour la Numérisation de Sources Visuelles (CN2SV, centre national de ressources numériques du CNRS)

[email protected] - www.cn2sv.fr

Page 2: La démocratisation du XML documentaire : normes, …CN2SV : réseau de personnes ayant des compétences sur le digital humanities Sa mission : expertise sur les digital humanities

Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org

XML : 10eme anniversaire !

● 1998 – 2008 : XML à 10 ans● World Wide Web Consortium : http://www.w3.org/XML/● Les parents d'XML : SGML et le HTML● La structure d'un document XML peut être validée par un

schéma ou DTD● Un document XML est entièrement transformable dans un

autre document XML à l'aide de feuilles de style XSL● XML est un outil

Page 3: La démocratisation du XML documentaire : normes, …CN2SV : réseau de personnes ayant des compétences sur le digital humanities Sa mission : expertise sur les digital humanities

Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org

XML : il est partout

● Echanges entre BDD ?● Des images et des textes en

ligne ?● Echanges de notices

bibliographiques ?● Flux RSS ?● Web 2.0 (AJAX) ?● Blogs ?● Archives ouvertes utilisant

OAI-PMH (HAL...) ?● Google Maps ?

● XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML...

Page 4: La démocratisation du XML documentaire : normes, …CN2SV : réseau de personnes ayant des compétences sur le digital humanities Sa mission : expertise sur les digital humanities

Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org

XML : pourquoi ça marche ?

● Langage simple (texte)● Langage balisé donc ...

structuré et hiérarchisé● Universel et non

propriétaire● Son objectif initial :

échange automatisé de contenus entre systèmes d'informations hétérogènes (interopérabilité)

Page 5: La démocratisation du XML documentaire : normes, …CN2SV : réseau de personnes ayant des compétences sur le digital humanities Sa mission : expertise sur les digital humanities

Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org

XML : un choix pour l'avenir

● Stockage des données = texte● XML utilise Unicode (norme informatique pour les

caractères)● Description des contenus XML : DTD ; Schéma● XML peut être validé (conforme par rapport...)● XML est compatible les langages de programmation :

Java ; PHP ; Perl, ...● XML à un fils : XHTML

Page 6: La démocratisation du XML documentaire : normes, …CN2SV : réseau de personnes ayant des compétences sur le digital humanities Sa mission : expertise sur les digital humanities

Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org

XML : au coeur des projets

● Les plateformes web du CRHST : du XML à tous les étages ? – du XMP à l'OAI : XML et les normes

● La plateforme du CN2SV pour les fonds d'archives des sciences : une application XML– XML comme comme méthode et brique de construction dans un système

d'information

● Faire du XML sans le savoir ou les futurs outils : de Zotero à MonCarnet 2.0– Des outils communicants utilisant XML et leurs limites actuelles

Page 7: La démocratisation du XML documentaire : normes, …CN2SV : réseau de personnes ayant des compétences sur le digital humanities Sa mission : expertise sur les digital humanities

Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org

Le Centre de Recherche en Histoire des Sciences et techniques

● Créé en 1986 par la Cité des sciences et de l'industrie

● Equipe de l'unité mixte de recherche du CNRS : Centre Alexandre-Koyré/CRHST (50 personnes)

● CRHST : plateforme technologique

● 3 personnels CNRS / 3 CDD● 2 ANR / 2 projets EU.

● www.crhst.cnrs.fr

Page 8: La démocratisation du XML documentaire : normes, …CN2SV : réseau de personnes ayant des compétences sur le digital humanities Sa mission : expertise sur les digital humanities

Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org

CN2SV : présentation

● CN2SV : centre national de ressources numériques● Label créé par la Direction SHS et la DIS du CNRS en 2006● CN2SV est un opérateur du Très grand équipement

ADONIS-CNRS● CN2SV : réseau de personnes ayant des compétences sur le

digital humanities● Sa mission : expertise sur les digital humanities /

assistance à maîtrise d'ouvrage dans l'informatisation des données iconographiques (photos, cartes, plans, correspondances scientifiques, carnets de terrain, carnets d'expériences, etc)

Page 9: La démocratisation du XML documentaire : normes, …CN2SV : réseau de personnes ayant des compétences sur le digital humanities Sa mission : expertise sur les digital humanities

Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org

CN2SV : un site portail

www.cn2sv.fr

Page 10: La démocratisation du XML documentaire : normes, …CN2SV : réseau de personnes ayant des compétences sur le digital humanities Sa mission : expertise sur les digital humanities

Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org

CN2SV : partenaires

www.tge-adonis.fr

Page 11: La démocratisation du XML documentaire : normes, …CN2SV : réseau de personnes ayant des compétences sur le digital humanities Sa mission : expertise sur les digital humanities

Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org

Les plateformes web du CRHST : du XML à tous les étages ?

Page 12: La démocratisation du XML documentaire : normes, …CN2SV : réseau de personnes ayant des compétences sur le digital humanities Sa mission : expertise sur les digital humanities

Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org

Un pôle informatique d'ingénierie web

L'informatisation des données en SHS : un objet à définir● Mettre à disposition pour la recherche (chercheurs,

étudiants, enseignants) des données numériques natives ou numérisées (textes, images, etc.) selon des normes internationales dans un environnement numérique professionnel

● Mettre en oeuvre le traitement et l'accessibilité de ces données numériques

● Assurer la pérennité de ces données numériques● Faire le lien avec les outils de l'édition numérique

(revue.org, etc.)

Page 13: La démocratisation du XML documentaire : normes, …CN2SV : réseau de personnes ayant des compétences sur le digital humanities Sa mission : expertise sur les digital humanities

Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org

Les digital humanities

DocumentationIST

Archives

Rechercheen scienceshumaines

Informatique

Page 14: La démocratisation du XML documentaire : normes, …CN2SV : réseau de personnes ayant des compétences sur le digital humanities Sa mission : expertise sur les digital humanities

Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org

Un pôle informatique d'ingénierie web

Notre savoir-faire

● Maîtrise d'oeuvre dans le développement de plateformes web pour la recherche

● Assistance à maîtrise d'ouvrage dans le montage et la réalisation de projets de recherche ayant des besoins « numériques »

● Mise en ligne de fonds d'archives de science (CN2SV)

● Mise en oeuvre du modèle de gestion OAIS / pérennité des données numériques

Page 15: La démocratisation du XML documentaire : normes, …CN2SV : réseau de personnes ayant des compétences sur le digital humanities Sa mission : expertise sur les digital humanities

Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org

Page 16: La démocratisation du XML documentaire : normes, …CN2SV : réseau de personnes ayant des compétences sur le digital humanities Sa mission : expertise sur les digital humanities

Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org

Page 17: La démocratisation du XML documentaire : normes, …CN2SV : réseau de personnes ayant des compétences sur le digital humanities Sa mission : expertise sur les digital humanities

Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org

Page 18: La démocratisation du XML documentaire : normes, …CN2SV : réseau de personnes ayant des compétences sur le digital humanities Sa mission : expertise sur les digital humanities

Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org

Page 19: La démocratisation du XML documentaire : normes, …CN2SV : réseau de personnes ayant des compétences sur le digital humanities Sa mission : expertise sur les digital humanities

Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org

Page 20: La démocratisation du XML documentaire : normes, …CN2SV : réseau de personnes ayant des compétences sur le digital humanities Sa mission : expertise sur les digital humanities

Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org

Extractions PDF « à la demande »

Page 21: La démocratisation du XML documentaire : normes, …CN2SV : réseau de personnes ayant des compétences sur le digital humanities Sa mission : expertise sur les digital humanities

Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org

Annotations de références électroniques(web ou OAI)et des textes

issues de nos plateformes

(pour les chercheurs)-

Folksonomie(nuages de mots-clés,

exportation XML)

ICEberg+ : l'annotation de ressources

Page 22: La démocratisation du XML documentaire : normes, …CN2SV : réseau de personnes ayant des compétences sur le digital humanities Sa mission : expertise sur les digital humanities

Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org

Nos plateformes web (quelques exemples)

● Les grands scientifiques– www.ampere.cnrs.fr (manuscrits, ouvrages, correspondance,

espace pédagogique)– www.buffon.cnrs.fr (histoire nat. + supp., correspondance, etc.)– www.lamarck.cnrs.fr (manuscrits, herbier, ouvrages)

● Les thématiques– www.criminocorpus.cnrs.fr (ENAP, Min. Justice, CNRS,

SciencePo)– www.histmap.cnrs.fr (Ecoles des Mines, CNRS, Univ. Caen)– www.histnet.cnrs.fr/research/nadirane/– www.histnet.cnrs.fr/research/periodiques-savants...

Page 23: La démocratisation du XML documentaire : normes, …CN2SV : réseau de personnes ayant des compétences sur le digital humanities Sa mission : expertise sur les digital humanities

Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org

Framework : ICEberg

CMS : SPIP / Lodel / Drupal

MétadonnéesDublinCore

RSS

OAI-PMHDublinCore

Le web

SGBDR : MySQL

Page 24: La démocratisation du XML documentaire : normes, …CN2SV : réseau de personnes ayant des compétences sur le digital humanities Sa mission : expertise sur les digital humanities

Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org

Les plateformes web : normes utilisées

● Images = métadonnées « embarquées »– IPTC core : travaux entre Adobe et l'International

Press Telecommunications Council (2004) – IPTC core = XMP (techno Adobe) + entête IPTC +

EXIF– EXIF > prise de vue ; – IPTC > Photoshop, XnView ; – Exploitation web des métadonnées IPTC core via

des scripts PHP

Page 25: La démocratisation du XML documentaire : normes, …CN2SV : réseau de personnes ayant des compétences sur le digital humanities Sa mission : expertise sur les digital humanities

Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org

IPTC : exploitation des métadonnées dans plusieurs applications

CN2SV : pleadeArchéovision (Ausonius) :

ArchéoGrid

Une image + des métadonnées embarquées =

plusieurs applications

Page 26: La démocratisation du XML documentaire : normes, …CN2SV : réseau de personnes ayant des compétences sur le digital humanities Sa mission : expertise sur les digital humanities

Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org

Les plateformes web : normes utilisées

● Texte = TEI Lite et XHTML– TEI = Text Encoding

Initiative– Issue du SGML– Ex. : Histoire

Naturelle de Buffon en TEI

Page 27: La démocratisation du XML documentaire : normes, …CN2SV : réseau de personnes ayant des compétences sur le digital humanities Sa mission : expertise sur les digital humanities

Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org

Les plateformes web : normes utilisées

● Les échanges de données entre bases de données : l'interpérabilité à l'aide d'XML

● IPTC core / identifiant de l'image <-> identifiant notice / MySQL

Page 28: La démocratisation du XML documentaire : normes, …CN2SV : réseau de personnes ayant des compétences sur le digital humanities Sa mission : expertise sur les digital humanities

Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org

Les plateformes web : normes utilisées

● Géoréférencement de données : GeoRSS ; KML (Google) ; GeoXML <-> logiciels SIG

Page 29: La démocratisation du XML documentaire : normes, …CN2SV : réseau de personnes ayant des compétences sur le digital humanities Sa mission : expertise sur les digital humanities

Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org

Les plateformes web : normes utilisées

●Flux RSS, Atom : du XML pour les informations...

Page 30: La démocratisation du XML documentaire : normes, …CN2SV : réseau de personnes ayant des compétences sur le digital humanities Sa mission : expertise sur les digital humanities

Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org

Du XML à tous les étages ?

● Oui, mais nous avons toujours des bases de données « SQL » (MySQL, PostgreSQL)

● Les plateformes web du CRHST : XML est un « connecteur »

● Interopérabilité des données

Page 31: La démocratisation du XML documentaire : normes, …CN2SV : réseau de personnes ayant des compétences sur le digital humanities Sa mission : expertise sur les digital humanities

Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org

La plateforme du CN2SV pour les fonds d'archives

scientifiques : une application XML

Le CN2SV est supporté par le

Page 32: La démocratisation du XML documentaire : normes, …CN2SV : réseau de personnes ayant des compétences sur le digital humanities Sa mission : expertise sur les digital humanities

Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org

Plateforme de fonds d'archives scientifique

● Plateforme web/extranet/OAI-PMH diffusant des inventaires électroniques de fonds d'archives.

● Elle permet la publication d'instruments de recherche XML utilisant la grammaire EAD (Encoded Archival Description ; norme internationale ; www.loc.gov/ead)

● EAD est un schéma XML (grammaire XML)● http:/www.arch.cn2sv.cnrs.fr/ead/

Page 33: La démocratisation du XML documentaire : normes, …CN2SV : réseau de personnes ayant des compétences sur le digital humanities Sa mission : expertise sur les digital humanities

Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org

SDX (brique -2 : gestionnaire XML)

MySQL (brique -3 : SGBDR pour le stockage du XML)

PLEADE (brique -1 : application web)

Serveur web

Les données XML

CN2SV : l'application composite, le règne de l'open source et du XML fragmenté

Page 34: La démocratisation du XML documentaire : normes, …CN2SV : réseau de personnes ayant des compétences sur le digital humanities Sa mission : expertise sur les digital humanities

Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org

Page 35: La démocratisation du XML documentaire : normes, …CN2SV : réseau de personnes ayant des compétences sur le digital humanities Sa mission : expertise sur les digital humanities

Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org

Page 36: La démocratisation du XML documentaire : normes, …CN2SV : réseau de personnes ayant des compétences sur le digital humanities Sa mission : expertise sur les digital humanities

Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org

Page 37: La démocratisation du XML documentaire : normes, …CN2SV : réseau de personnes ayant des compétences sur le digital humanities Sa mission : expertise sur les digital humanities

Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org

Page 38: La démocratisation du XML documentaire : normes, …CN2SV : réseau de personnes ayant des compétences sur le digital humanities Sa mission : expertise sur les digital humanities

Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org

Faire du XML sans le savoir ou les futurs outils : de Zotero à

MC2.0® (MonCarnet) en passant par OAI

Page 39: La démocratisation du XML documentaire : normes, …CN2SV : réseau de personnes ayant des compétences sur le digital humanities Sa mission : expertise sur les digital humanities

Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org

Zot[é]ro

● Zotéro est un module pour Firefox (mozilla).● Récupération, classement, annotation de références

bibliographiques ou de ressources web● Utilisation des métadonnées Dublin Core● Utilisation du XML pour :

– Le stockage local– L'interopérabilité (import-export ; RDF, etc.)

Page 40: La démocratisation du XML documentaire : normes, …CN2SV : réseau de personnes ayant des compétences sur le digital humanities Sa mission : expertise sur les digital humanities

Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org

MC2.0 : un outil pour les chercheurs... et les professionnels de l'information

● Plateforme web de classement, annotation, édition de références OAI-PMH (OAIster = + de 15 millions de réf.)

● Outil « en ligne »● En cours de réalisation (maquette avancé en septembre sur

www.cn2sv.fr/mc2/● Supporté par le TGE ADONIS

Page 41: La démocratisation du XML documentaire : normes, …CN2SV : réseau de personnes ayant des compétences sur le digital humanities Sa mission : expertise sur les digital humanities

Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org

XML et l'open archives initiative (OAI)

● OAI-PMH : Open Archives Initiative’s Protocol for Metadata Harvesting

● OAI-ORE : Open Archives Initiative Object Reuse and Exchange (en cours de développement)

● Protocole d'échange de données structurées à l'aide d'XML et utilisant HTTP

● Réservoir de métadonnées XML (au format Dublin Core au minimum) donnant accès à des ressources numériques en ligne

● http://www.openarchives.org

Page 42: La démocratisation du XML documentaire : normes, …CN2SV : réseau de personnes ayant des compétences sur le digital humanities Sa mission : expertise sur les digital humanities

Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org

Schéma de l'OAI

www.buffon.cnrs.fr

Entrepôt demétadonnées

DublinCore

www.lamarck.cnrs.fr

www.criminocorpus.cnrs.fr

www.ampere.cnrs.frIPTCTEI

XHTML

IPTCTEI

XHTMLIPTCTEI

XHTML

IPTCTEI

XHTML

Page 43: La démocratisation du XML documentaire : normes, …CN2SV : réseau de personnes ayant des compétences sur le digital humanities Sa mission : expertise sur les digital humanities

Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org

Entrepôt OAI-PMH du CRHST

● 2.700 documents inédits référencés (>60.000 images/pages) et moissonnables via la norme OAI (métadonnées : DublinCore)

● Documents inédits : correspondances, manuscrits, planches d'herbier, collection, etc.

● Accès possible via : OAIster.org (+ de 14M de ressources), In-extenso.org, scientificcommons.org...

● http://www.crhst.cnrs.fr/esources/

Page 44: La démocratisation du XML documentaire : normes, …CN2SV : réseau de personnes ayant des compétences sur le digital humanities Sa mission : expertise sur les digital humanities

Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org

Entrepôt OAI-PMH du CRHST et du CN2SV

● But n°1 : échanger et diffuser facilement des ressources via des métadonnées

● But n°2 : faciliter l'interopérabilité des ressources documentaires scientifiques et/ou culturelles

● But n°3 : promouvoir un format XML simplifié de description des ressources : le Dublin Core

● But n°4 : possibilité pour un fournisseur de service de proposer des ressources ayant des origines différentes (méta-portail).

Page 45: La démocratisation du XML documentaire : normes, …CN2SV : réseau de personnes ayant des compétences sur le digital humanities Sa mission : expertise sur les digital humanities

Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org

Page 46: La démocratisation du XML documentaire : normes, …CN2SV : réseau de personnes ayant des compétences sur le digital humanities Sa mission : expertise sur les digital humanities

Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org

Informatiser : nécessité d'une infrastructure pour le stockage des données● Grappe de serveurs (financement

dépt. SHS du CNRS en 2006)● 6 TéraOctets● Centre de Calcul de l'IN2P3-CNRS

(Villeurbanne)

Page 47: La démocratisation du XML documentaire : normes, …CN2SV : réseau de personnes ayant des compétences sur le digital humanities Sa mission : expertise sur les digital humanities

Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org

Merci de votre attention● Nos partenaires ● Contacts

– www.crhst.cnrs.fr– [email protected]

● Stéphane POUYLLAU, IE CNRS

[email protected]

– Blog : http://blog.stephanepouyllau.org