La démocratisation du XML documentaire : normes, …CN2SV : réseau de personnes ayant des...
Transcript of La démocratisation du XML documentaire : normes, …CN2SV : réseau de personnes ayant des...
Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org
La démocratisation du XML documentaire : normes, méthodes, outils pour l'informatisation des e-documents
Stéphane POUYLLAU, Ingénieur d'études au CNRS
Responsable technologique de la plateforme technologique du Centre de recherche en histoire des sciences et des techniques
Responsable du Centre National pour la Numérisation de Sources Visuelles (CN2SV, centre national de ressources numériques du CNRS)
[email protected] - www.cn2sv.fr
Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org
XML : 10eme anniversaire !
● 1998 – 2008 : XML à 10 ans● World Wide Web Consortium : http://www.w3.org/XML/● Les parents d'XML : SGML et le HTML● La structure d'un document XML peut être validée par un
schéma ou DTD● Un document XML est entièrement transformable dans un
autre document XML à l'aide de feuilles de style XSL● XML est un outil
Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org
XML : il est partout
● Echanges entre BDD ?● Des images et des textes en
ligne ?● Echanges de notices
bibliographiques ?● Flux RSS ?● Web 2.0 (AJAX) ?● Blogs ?● Archives ouvertes utilisant
OAI-PMH (HAL...) ?● Google Maps ?
● XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML XML...
Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org
XML : pourquoi ça marche ?
● Langage simple (texte)● Langage balisé donc ...
structuré et hiérarchisé● Universel et non
propriétaire● Son objectif initial :
échange automatisé de contenus entre systèmes d'informations hétérogènes (interopérabilité)
Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org
XML : un choix pour l'avenir
● Stockage des données = texte● XML utilise Unicode (norme informatique pour les
caractères)● Description des contenus XML : DTD ; Schéma● XML peut être validé (conforme par rapport...)● XML est compatible les langages de programmation :
Java ; PHP ; Perl, ...● XML à un fils : XHTML
Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org
XML : au coeur des projets
● Les plateformes web du CRHST : du XML à tous les étages ? – du XMP à l'OAI : XML et les normes
● La plateforme du CN2SV pour les fonds d'archives des sciences : une application XML– XML comme comme méthode et brique de construction dans un système
d'information
● Faire du XML sans le savoir ou les futurs outils : de Zotero à MonCarnet 2.0– Des outils communicants utilisant XML et leurs limites actuelles
Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org
Le Centre de Recherche en Histoire des Sciences et techniques
● Créé en 1986 par la Cité des sciences et de l'industrie
● Equipe de l'unité mixte de recherche du CNRS : Centre Alexandre-Koyré/CRHST (50 personnes)
● CRHST : plateforme technologique
● 3 personnels CNRS / 3 CDD● 2 ANR / 2 projets EU.
● www.crhst.cnrs.fr
Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org
CN2SV : présentation
● CN2SV : centre national de ressources numériques● Label créé par la Direction SHS et la DIS du CNRS en 2006● CN2SV est un opérateur du Très grand équipement
ADONIS-CNRS● CN2SV : réseau de personnes ayant des compétences sur le
digital humanities● Sa mission : expertise sur les digital humanities /
assistance à maîtrise d'ouvrage dans l'informatisation des données iconographiques (photos, cartes, plans, correspondances scientifiques, carnets de terrain, carnets d'expériences, etc)
Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org
CN2SV : un site portail
www.cn2sv.fr
Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org
CN2SV : partenaires
www.tge-adonis.fr
Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org
Les plateformes web du CRHST : du XML à tous les étages ?
Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org
Un pôle informatique d'ingénierie web
L'informatisation des données en SHS : un objet à définir● Mettre à disposition pour la recherche (chercheurs,
étudiants, enseignants) des données numériques natives ou numérisées (textes, images, etc.) selon des normes internationales dans un environnement numérique professionnel
● Mettre en oeuvre le traitement et l'accessibilité de ces données numériques
● Assurer la pérennité de ces données numériques● Faire le lien avec les outils de l'édition numérique
(revue.org, etc.)
Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org
Les digital humanities
DocumentationIST
Archives
Rechercheen scienceshumaines
Informatique
Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org
Un pôle informatique d'ingénierie web
Notre savoir-faire
● Maîtrise d'oeuvre dans le développement de plateformes web pour la recherche
● Assistance à maîtrise d'ouvrage dans le montage et la réalisation de projets de recherche ayant des besoins « numériques »
● Mise en ligne de fonds d'archives de science (CN2SV)
● Mise en oeuvre du modèle de gestion OAIS / pérennité des données numériques
Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org
Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org
Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org
Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org
Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org
Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org
Extractions PDF « à la demande »
Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org
Annotations de références électroniques(web ou OAI)et des textes
issues de nos plateformes
(pour les chercheurs)-
Folksonomie(nuages de mots-clés,
exportation XML)
ICEberg+ : l'annotation de ressources
Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org
Nos plateformes web (quelques exemples)
● Les grands scientifiques– www.ampere.cnrs.fr (manuscrits, ouvrages, correspondance,
espace pédagogique)– www.buffon.cnrs.fr (histoire nat. + supp., correspondance, etc.)– www.lamarck.cnrs.fr (manuscrits, herbier, ouvrages)
● Les thématiques– www.criminocorpus.cnrs.fr (ENAP, Min. Justice, CNRS,
SciencePo)– www.histmap.cnrs.fr (Ecoles des Mines, CNRS, Univ. Caen)– www.histnet.cnrs.fr/research/nadirane/– www.histnet.cnrs.fr/research/periodiques-savants...
Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org
Framework : ICEberg
CMS : SPIP / Lodel / Drupal
MétadonnéesDublinCore
RSS
OAI-PMHDublinCore
Le web
SGBDR : MySQL
Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org
Les plateformes web : normes utilisées
● Images = métadonnées « embarquées »– IPTC core : travaux entre Adobe et l'International
Press Telecommunications Council (2004) – IPTC core = XMP (techno Adobe) + entête IPTC +
EXIF– EXIF > prise de vue ; – IPTC > Photoshop, XnView ; – Exploitation web des métadonnées IPTC core via
des scripts PHP
Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org
IPTC : exploitation des métadonnées dans plusieurs applications
CN2SV : pleadeArchéovision (Ausonius) :
ArchéoGrid
Une image + des métadonnées embarquées =
plusieurs applications
Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org
Les plateformes web : normes utilisées
● Texte = TEI Lite et XHTML– TEI = Text Encoding
Initiative– Issue du SGML– Ex. : Histoire
Naturelle de Buffon en TEI
Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org
Les plateformes web : normes utilisées
● Les échanges de données entre bases de données : l'interpérabilité à l'aide d'XML
● IPTC core / identifiant de l'image <-> identifiant notice / MySQL
Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org
Les plateformes web : normes utilisées
● Géoréférencement de données : GeoRSS ; KML (Google) ; GeoXML <-> logiciels SIG
Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org
Les plateformes web : normes utilisées
●Flux RSS, Atom : du XML pour les informations...
Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org
Du XML à tous les étages ?
● Oui, mais nous avons toujours des bases de données « SQL » (MySQL, PostgreSQL)
● Les plateformes web du CRHST : XML est un « connecteur »
● Interopérabilité des données
Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org
La plateforme du CN2SV pour les fonds d'archives
scientifiques : une application XML
Le CN2SV est supporté par le
Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org
Plateforme de fonds d'archives scientifique
● Plateforme web/extranet/OAI-PMH diffusant des inventaires électroniques de fonds d'archives.
● Elle permet la publication d'instruments de recherche XML utilisant la grammaire EAD (Encoded Archival Description ; norme internationale ; www.loc.gov/ead)
● EAD est un schéma XML (grammaire XML)● http:/www.arch.cn2sv.cnrs.fr/ead/
Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org
SDX (brique -2 : gestionnaire XML)
MySQL (brique -3 : SGBDR pour le stockage du XML)
PLEADE (brique -1 : application web)
Serveur web
Les données XML
CN2SV : l'application composite, le règne de l'open source et du XML fragmenté
Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org
Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org
Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org
Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org
Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org
Faire du XML sans le savoir ou les futurs outils : de Zotero à
MC2.0® (MonCarnet) en passant par OAI
Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org
Zot[é]ro
● Zotéro est un module pour Firefox (mozilla).● Récupération, classement, annotation de références
bibliographiques ou de ressources web● Utilisation des métadonnées Dublin Core● Utilisation du XML pour :
– Le stockage local– L'interopérabilité (import-export ; RDF, etc.)
Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org
MC2.0 : un outil pour les chercheurs... et les professionnels de l'information
● Plateforme web de classement, annotation, édition de références OAI-PMH (OAIster = + de 15 millions de réf.)
● Outil « en ligne »● En cours de réalisation (maquette avancé en septembre sur
www.cn2sv.fr/mc2/● Supporté par le TGE ADONIS
Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org
XML et l'open archives initiative (OAI)
● OAI-PMH : Open Archives Initiative’s Protocol for Metadata Harvesting
● OAI-ORE : Open Archives Initiative Object Reuse and Exchange (en cours de développement)
● Protocole d'échange de données structurées à l'aide d'XML et utilisant HTTP
● Réservoir de métadonnées XML (au format Dublin Core au minimum) donnant accès à des ressources numériques en ligne
● http://www.openarchives.org
Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org
Schéma de l'OAI
www.buffon.cnrs.fr
Entrepôt demétadonnées
DublinCore
www.lamarck.cnrs.fr
www.criminocorpus.cnrs.fr
www.ampere.cnrs.frIPTCTEI
XHTML
IPTCTEI
XHTMLIPTCTEI
XHTML
IPTCTEI
XHTML
Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org
Entrepôt OAI-PMH du CRHST
● 2.700 documents inédits référencés (>60.000 images/pages) et moissonnables via la norme OAI (métadonnées : DublinCore)
● Documents inédits : correspondances, manuscrits, planches d'herbier, collection, etc.
● Accès possible via : OAIster.org (+ de 14M de ressources), In-extenso.org, scientificcommons.org...
● http://www.crhst.cnrs.fr/esources/
Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org
Entrepôt OAI-PMH du CRHST et du CN2SV
● But n°1 : échanger et diffuser facilement des ressources via des métadonnées
● But n°2 : faciliter l'interopérabilité des ressources documentaires scientifiques et/ou culturelles
● But n°3 : promouvoir un format XML simplifié de description des ressources : le Dublin Core
● But n°4 : possibilité pour un fournisseur de service de proposer des ressources ayant des origines différentes (méta-portail).
Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org
Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org
Informatiser : nécessité d'une infrastructure pour le stockage des données● Grappe de serveurs (financement
dépt. SHS du CNRS en 2006)● 6 TéraOctets● Centre de Calcul de l'IN2P3-CNRS
(Villeurbanne)
Stéphane POUYLLAU, IE CNRS - [email protected] / www.stephanepouyllau.org
Merci de votre attention● Nos partenaires ● Contacts
– www.crhst.cnrs.fr– [email protected]
● Stéphane POUYLLAU, IE CNRS
– Blog : http://blog.stephanepouyllau.org