Récupération de notices et interopérabilité des catalogues [email protected] Les...

58
Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ- lemans.fr Les étapes techniques d’une récupération de notices

Transcript of Récupération de notices et interopérabilité des catalogues [email protected] Les...

Page 1: Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ-lemans.fr Les étapes techniques dune récupération de notices.

Récupération de notices et interopérabilité des catalogues

[email protected]

Les étapes techniquesd’une récupération de notices

Page 2: Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ-lemans.fr Les étapes techniques dune récupération de notices.

Contexte et enjeux

Page 3: Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ-lemans.fr Les étapes techniques dune récupération de notices.

La coopération entre les bibliothèques : une vieille histoire.

L’interopérabilité des catalogues vise d’abord l’échange de données.

- facilite la production des informations- facilite l’échange d’informations- facilite la circulation des documents eux-mêmes

On discerne déjà la nécessité de pratiques harmonisées entre les bibliothèques avec l’utilisation de

- normes- formats- protocoles

Tous très richement documentés !

Motivées par des nécessités économiques (baisse des coûts de production). Les nombreux efforts de normalisation en sont la conséquence.

Page 4: Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ-lemans.fr Les étapes techniques dune récupération de notices.

Normes en vigueur dans les bibliothèques pour la description bibliographique :

Z 44-050 Catalogage des monographies - texte imprimé  

Z 44-063Catalogage des ressources continues

Z 44-074 Catalogage des monographies anciennes

Z 44-065   Catalogage des vidéogrammes

Z 44-066   Catalogage des enregistrements sonores

Z 44-067 Catalogage des documents cartographique

Z 44-069 Catalogage de la musique imprimée

Z 44-077Catalogage des images fixes

Z 44-078 Catalogage des parties composantes

Z 44-082   Catalogage des ressources électroniques

Z 44-073 Catalogage des monographies - texte imprimé (description allégée )

Z 44-059   Catalogage - Choix des accès à la description bibliographique

Z 44-060 Catalogage d’auteurs et d’anonymes :   forme et structure des

vedettes de collectivités auteurs

Z 44-061   Catalogage d’auteurs et d’anonymes : Forme et structure des

vedettes noms de personne, des vedettes titres, des rubriques de classement et des titres forgés

Z 44-079Catalogage - Forme et structure des vedettes titres musicaux Z 44-081

Z 44-081Catalogage - Forme et structure des vedettes : Noms géographiques

Z 44-070Documentation - Indexation analytique par matières

Z 44-005 Documentation - Références bibliographiques : contenu, forme et structure  

Page 5: Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ-lemans.fr Les étapes techniques dune récupération de notices.

Formats utilisés en bibliothèque :

MARC (MARC 21, UNIMARC)

Mais aussi DublinCore (format normalisé!), XML

Protocoles utilisés en bibliothèque :

Par exemple pour l’échange de données : Z39-50, SRU/SRW ; WAIS(Wide area information service), FTP (File transfert protocol)

Page 6: Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ-lemans.fr Les étapes techniques dune récupération de notices.

L’interopérabilité, qu’est-ce que c’est ?

« L’ interopérabilité est la capacité que possède un produit ou un système, dont les interfaces sont intégralement connues, à fonctionner avec d'autres produits ou systèmes existants ou futurs et ce sans restriction d'accès ou de mise en œuvre . » (AFUL)

vs

compatibilité interopérabilité

Cela nécessite une grande transparence sur les mécanismes ou les formats employés…

Page 7: Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ-lemans.fr Les étapes techniques dune récupération de notices.

L’intéropérabilité en trois mouvements

Elle met en jeu trois niveaux techniques complémentaires(1) :

1. Une description des ressources avec une sémantique commune

2. Un contexte générique d’implémentation des descriptions dans des langages structurés standardisés, interprétables par des machines

3. Des protocoles informatiques d’échange de ces données normalisées

(1)Abderrazak Mkadmi, Imad Saleh, Bibliothèque numérique et recherche d’informations

Page 8: Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ-lemans.fr Les étapes techniques dune récupération de notices.

<Jeu de métadonnées>

<Cadre générique d’implémentation>

<Protocoles>

MARC (< Z44-050)

ISO 2709

WAIS, FTP, Z39.50

DublinCore, MarcXML, MODSEADLOM (Learning Object Metadata)

SCORM

XMLURLRDF (Resource Description and Framework)

httpOAI-PMHSRU/SRW

Standards traditionnels

Standards plus récents

Page 9: Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ-lemans.fr Les étapes techniques dune récupération de notices.

Schéma global d’un SID

SIGBOPAC

Fournisseurs de notices MARCBnF, ABES, Electre, Zebris, …

Autres catalogues de bibliothèques

import

Z 39.50

SRU

Entrepôt OAI-PMHmoissonnage

« ingest »

Sources« hétérogènes »

connecteurs

API

Page 10: Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ-lemans.fr Les étapes techniques dune récupération de notices.

La fourniture de notices :le paysage en France

Page 11: Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ-lemans.fr Les étapes techniques dune récupération de notices.

Nom Type de document Nombre de notices Conditions de fourniture Autres formats proposés

ABES Tous supports + autorités 9 millions, 2 millions Membres du réseau SUDOC Marc21, formats tabulés,XML

ADAV Images animées. 70.000 Clients de la société sur la base d'une commande de produits

BnF Tous supports + autorités 10 millions, 2 millions Inscription nécessaire

CD Mail CD audio 800.000 Fourniture comprise dans le cadre de la vente de CD

COLACO DVD, CD-ROMS, VHS 40.000 Fourniture comprise dans le cadre de la vente de CD

CVS CD audio, MP3, DVD, CD-ROM, DVD-ROM + RE

357.000 Fourniture comprise dans le cadre de la vente de produits

USMARC, XML

DAWSON France Livres, e-books, CD audio et DVD

9.6 millions de titres Fourniture comprise dans le cadre de la vente de produits

Marc21

DECITRE Livres 650.000 Clients

ELECTRE Livres, CD audio, CD-ROM, Périodiques (monographies)

1.2 millions Dans le cadre d’un abonnement Marc21, Onix, XML, CSV, DBase III

GAM Documents sonores 246.700 Fourniture comprise dans le cadre de la vente de produits

INDEXPRESSE Articles de périodiques Dépouillement de 198 titres Abonnement « à la carte »

ISSN Publications en série 1.5 millions Abonnement annuel Marc21, ISSN-MARC

MOCCAM Tous supports + autorités BnF + Amazon (isbn) Gratuite sans condition A la demande + tabulé

OCLC BV Tous supports 175 millions Payant Marc21, MAB, DC, Onix, XML

Sciences Po Paris Articles de périodiques 220.000 Gratuit sur la base d’une coopération

XML

TITE-LIVE Livres – musique 700.000 Gratuite mais licence d’utilisation

TXT, XML, Onix

VHS Images animées 100.000 Fourniture accompagnant la vente

ZEBRIS Livres Bnf (<1990) + Decitre Abonnement annuel

Page 12: Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ-lemans.fr Les étapes techniques dune récupération de notices.

Sélection sur les réservoirs de notices en ligne (en France):

BnF [http://catalogue.bnf.fr]GratuitPaquets de 500 notices maximumformat UNIMARC : oui + InterMARCmodalités : récupération par FTP, immédiate ou en différé (24 h)Origine des notices : Bibliothèque nationale de France -----MoCCAM en ligne [http://www.moccam-en-ligne.fr/]Gratuit format UNIMARC : oui modalités : récupération immédiateOrigine des notices : BnF et Amazon pour les références qui ne figureraient pas encore dans BN-OPALE-PLUS-----ZEBRIS [http://www.zebris.fr]Payant : de 1250 à 3100 € HT en fonction de la taille du client (infos : 2008)format UNIMARC : oui modalités : récupération d'un panierOrigine des notices : Indexpresse -----ELECTRE [http://www.electre.com] Payant : abonnement annuel (calcul du tarif selon le nombre de licences)format UNIMARC : oui modalités : récupération immédiate Origine des notices : electre.com -----Attention : les mentions légales relatives à l'utilisation de ces notices sont particulières à chaque institution ou entreprise ! Pour plus d'information, voir le site de l'ADBDP et le site du CfU

Page 13: Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ-lemans.fr Les étapes techniques dune récupération de notices.

Constitution de lots de notices : 2 exemples

Page 14: Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ-lemans.fr Les étapes techniques dune récupération de notices.

Catalogue de la BnF

Page 15: Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ-lemans.fr Les étapes techniques dune récupération de notices.
Page 16: Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ-lemans.fr Les étapes techniques dune récupération de notices.
Page 17: Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ-lemans.fr Les étapes techniques dune récupération de notices.
Page 18: Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ-lemans.fr Les étapes techniques dune récupération de notices.
Page 19: Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ-lemans.fr Les étapes techniques dune récupération de notices.
Page 20: Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ-lemans.fr Les étapes techniques dune récupération de notices.

electre.com

Page 21: Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ-lemans.fr Les étapes techniques dune récupération de notices.
Page 22: Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ-lemans.fr Les étapes techniques dune récupération de notices.
Page 23: Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ-lemans.fr Les étapes techniques dune récupération de notices.
Page 24: Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ-lemans.fr Les étapes techniques dune récupération de notices.
Page 25: Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ-lemans.fr Les étapes techniques dune récupération de notices.
Page 26: Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ-lemans.fr Les étapes techniques dune récupération de notices.

La récupération de données par fichier(s) de notice(s)

Page 27: Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ-lemans.fr Les étapes techniques dune récupération de notices.

ISO 2709:2008 (indice de classement Z 47-300)

Révision de 2008 avec l’intégration des caractères codés sur plusieurs octets

Format d’échange pour l’information

Appareil normatif (1)

ISO/CEI 646 ~ ASCII

ISO/CEI 10646

Jeu de caractères latins suffisants pour l’anglais moderne (7bits-128 caractères)

UTF-n : UCS (Universal Character Set) Transformation Format. Jeu de caractères codés sur plusieurs octets

Cf UNICODE vise à donner à tout caractère de n’importe quel système d’écriture un nom et un identifiant numérique de manière unifiée, quelle que soit la plateforme informatique utilisée.

ISO/IEC 6429:1992 Technologies de l'information. Fonctions de commande pour les jeux de caractères codés

Références normatives

Page 28: Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ-lemans.fr Les étapes techniques dune récupération de notices.

NF ISO 25577:2009 (Z47-302) « MarcXchange »

Références normatives

ISO 2709:2008 (Z 47-300)

ISO/CEI 646 ~ ASCII

ISO/CEI 10646

Jeu de caractères latins suffisants pour l’anglais moderne (7bits-128 caractères)

UTF-n : UCS (Universal Character Set) Transformation Format. Jeu de caractères codés sur plusieurs octets

MarcXchange est étroitement lié à ISO 2709 :En 2001, la LOC élabore un cadre pour traiter les données MARC dans un environnement XML : MARCXML, qui « permet une conversion réversible et sans perte d’une notice MARC21 » en XML.

MarcXchange est une version généralisée de MARCXML pour représenter tout format existant sur ISO 2709.

Appareil normatif (2)

Format généralisé d’échange de notices bibliographiques(et autres types de métadonnées) fondé sur XML

Page 29: Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ-lemans.fr Les étapes techniques dune récupération de notices.

ANSI/NISO Z 39.50 (ISO 23950:1998) Protocole d’échange pour une utilisation bibliographiquequi régit le « dialogue » entre clients et serveurs, décrit et utilisé aux États-unis à partir de 1984.La norme date de 1988, provient du « New York Item » ;maintenue par la Bibliothèque du Congrès avec la « Z39.50 Maintenance Agency ».

SRU Search/Retrieve via URL Créé et maintenu par la Bibliothèque du Congrès, permet d’interroger via le protocole http des bases de données de bibliothèques « invisibles »,ou « prisonnières » des OPAC et des systèmes d’information.

Protocoles en vigueur dans les bibliothèques pour l’interopérabilité

ANS1 : Abstract Notation Syntax 1 (ISO 8824) Un langage de description de données indépendant des matériels et logiciels permettant de codes des messages entre clients et serveurs

BER : Basic Encoding Rules (ISO 8825) Des règles de conversion de syntaxes abstraites en une syntaxe spécifique de transfert de données

Page 30: Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ-lemans.fr Les étapes techniques dune récupération de notices.

L’échange de données en iso2709

Une notice enregistrée au format ISO 2709 présente le schéma suivant :

Voir aussi :

Page 31: Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ-lemans.fr Les étapes techniques dune récupération de notices.

XML par la pratique [Texte imprimé] : bases indispensables, concepts et cas pratiques / [Sébastien Lecomte]. - Nantes : Éd. ENI, cop. 2005. - 1 vol. (353 p.) : ill., couv. ill. ; 21 cm. - (Ressources informatiques, ISSN 1627-8224).

Index ISBN 2-7460-2906-5 (br.) : 27,14 EUR. - EAN 9782746029064

Exemple de notice : de l’isbd à iso2709

01510nam1 22003612i 450 00100110000000500170001101000380002810000410006610100080010710200070011510501800122200009300140205001200233210002200245211001300267215005500280225004000335330029800375333001700673345001800690410005200708606003000760610008400790676001400874676001300888700004100901801003300942901008300975902001701058903002801075903003501103947001001138-2008401207-20081010000000.0- a978-2-7460-4644-3 bBr. d27.14 EUR- a20081010d2008 m |0fre|01 ||||ba-0 afre- aFR- aa 0||y|-1 aXML par la pratique ebases indispensables, concepts et cas pratiques fSÂebastien Lecomte- a2e Âed.- aNantes cENI d2008- a20081208- a353 p. cillustrations en noir et blanc d22 x 18 cm-2 aRessources informatiques x1627-8224- aPrÂesentation des concepts fondamentaux de XML au travers de cas pratiques Áa implÂementer. Aborde notamment la syntaxe du langage XML, montre comment concevoir des documents et des grammaires XML simples, comment lier des documents XML entre eux, et comment mettre en forme des documents XML.- aTous niveaux- b9782746046443- 0 34237610000 tRessources informatiques x1627-8224- aXML (langage de balisage)-0 aInternet alangage de programmation astructure de donnÂees adocument multimÂedia- a005.3 v99- a004 v99a- 1 32003090210 aLecomte bSÂebastien 4070- 3 aFR bElectre c20081010 gAFNOR- 39800003724 aExtendible markup language 39800003724 aExtensible markup language- aTous niveaux- aTechniques Informatique- aLivres pratiques Autoformation- c27.14-

Label

Répertoire

Zones

Séparateur de notices (invisible)

Page 32: Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ-lemans.fr Les étapes techniques dune récupération de notices.

le LABEL (taille fixe : 24 octets)

Si on décompose le label de la notice de la façon indiquée, on a 8 "groupes" d'information.01510nam1·22003612i·450·

Ce qui nous donne :

1 2 3 4 5 6 7 8

01510 nam am1- 2 2 00361 2i· 450·

nombre d’octets!

Page 33: Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ-lemans.fr Les étapes techniques dune récupération de notices.

le répertoire (taille variable)

Le répertoire comprend les éléments suivants :a/ une étiquette (=3 octets)

b/ une longueur de zone qui correspond à la position 20 du label (=4 octets)

c/ la position du premier caractère qui correspond à la position 21 du label (=5 octets)

d/ longueur de la partie relative à l'application qui correspond à la position 22 du label (=0 octet)

b+c+d= « 450 » du label UNIMARC

Si on lit le répertoire de notre notice en suivant la fréquence de 3/4/5/0 octets :

00100110000000500170001101000380002810000410006610100080010710200070011510501800122200009300140205001200233210002200245211001300267215005500280225004000335330029800375333001700673345001800690410005200708606003000760610008400790676001400874676001300888700004100901801003300942901008300975902001701058903002801075903003501103947001001138

Page 34: Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ-lemans.fr Les étapes techniques dune récupération de notices.

001 0011 00000005 0017 00011 010 0038 00028 100 0041 00066101 0008 00107102 0007 00115105 0018 00122200 0093 00140210 0022 00245211 0013 00267215 0055 00280225 0040 00335330 0298 00375333 0017 00673345 0018 00690410 0052 00708606 0030 00760610 0084 00790676 0014 00874676 0013 00888700 0041 00901801 0033 00942901 0083 00975902 0017 01058903 0028 01075903 0035 01103947 0010 01138

… on obtient :

Page 35: Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ-lemans.fr Les étapes techniques dune récupération de notices.

XML par la pratique [Texte imprimé] : bases indispensables, concepts et cas pratiques / [Sébastien Lecomte]. - Nantes : Éd. ENI, cop. 2005. - 1 vol. (353 p.) : ill., couv. ill. ; 21 cm. - (Ressources informatiques, ISSN 1627-8224).

Index ISBN 2-7460-2906-5 (br.) : 27,14 EUR. - EAN

9782746029064

Page 36: Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ-lemans.fr Les étapes techniques dune récupération de notices.

01510nam1 22003612i 450 00100110000000500170001101000380002810000410006610100080010710200070011510501800122200009300140205001200233210002200245211001300267215005500280225004000335330029800375333001700673345001800690410005200708606003000760610008400790676001400874676001300888700004100901801003300942901008300975902001701058903002801075903003501103947001001138-2008401207-20081010000000.0- a978-2-7460-4644-3 bBr. d27.14 EUR- a20081010d2008 m |0fre|01 ||||ba-0 afre- aFR- aa 0||y|-1 aXML par la pratique ebases indispensables, concepts et cas pratiques fSÂebastien Lecomte- a2e Âed.- aNantes cENI d2008- a20081208- a353 p. cillustrations en noir et blanc d22 x 18 cm-2 aRessources informatiques x1627-8224- aPrÂesentation des concepts fondamentaux de XML au travers de cas pratiques Áa implÂementer. Aborde notamment la syntaxe du langage XML, montre comment concevoir des documents et des grammaires XML simples, comment lier des documents XML entre eux, et comment mettre en forme des documents XML.- aTous niveaux- b9782746046443- 0 34237610000 tRessources informatiques x1627-8224- aXML (langage de balisage)-0 aInternet alangage de programmation astructure de donnÂees adocument multimÂedia- a005.3 v99- a004 v99a- 1 32003090210 aLecomte bSÂebastien 4070- 3 aFR bElectre c20081010 gAFNOR- 39800003724 aExtendible markup language 39800003724 aExtensible markup language- aTous niveaux- aTechniques Informatique- aLivres pratiques Autoformation- c27.14-

Page 37: Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ-lemans.fr Les étapes techniques dune récupération de notices.

01510nam1 22003612i 450 00100110000000500170001101000380002810000410006610100080010710200070011510501800122200009300140205001200233210002200245211001300267215005500280225004000335330029800375333001700673345001800690410005200708606003000760610008400790676001400874676001300888700004100901801003300942901008300975902001701058903002801075903003501103947001001138-2008401207-20081010000000.0- a978-2-7460-4644-3 bBr. d27.14 EUR- a20081010d2008 m |0fre|01 ||||ba-0 afre- aFR- aa 0||y|-1 aXML par la pratique ebases indispensables, concepts et cas pratiques fSÂebastien Lecomte- a2e Âed.- aNantes cENI d2008- a20081208- a353 p. cillustrations en noir et blanc d22 x 18 cm-2 aRessources informatiques x1627-8224- aPrÂesentation des concepts fondamentaux de XML au travers de cas pratiques Áa implÂementer. Aborde notamment la syntaxe du langage XML, montre comment concevoir des documents et des grammaires XML simples, comment lier des documents XML entre eux, et comment mettre en forme des documents XML.- aTous niveaux- b9782746046443- 0 34237610000 tRessources informatiques x1627-8224- aXML (langage de balisage)-0 aInternet alangage de programmation astructure de donnÂees adocument multimÂedia- a005.3 v99- a004 v99a- 1 32003090210 aLecomte bSÂebastien 4070- 3 aFR bElectre c20081010 gAFNOR- 39800003724 aExtendible markup language 39800003724 aExtensible markup language- aTous niveaux- aTechniques Informatique- aLivres pratiques Autoformation- c27.14-

|-1 aXML par la pratique ebases indispensables, concepts et cas pratiques fSÂebastien Lecomte-

Etiquette 200

La zone comporte (00)93 octets

Elle commence à la position (00)140

200 0093 00140

Page 38: Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ-lemans.fr Les étapes techniques dune récupération de notices.

Le précédent contrôle appliqué par le répertoire ISO 2709 n’existe pas avec MarcXchange (absent du format), il faut le créer via l’applicatif, et le recalculer à chaque conversion vers ISO 2709…

MarcXchange : exemple

<?xml version "1.0" encoding="UTF-8" ?><collection xmlns="info:lc/xmlns/marcxchange-v-1" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"[…]> <record format="UNIMARC" type="Bibliographic">

<leader>01510nam1 22003612i 450</leader>[…]

<datafield tag="200" ind1="1" ind2=" "><subfield code="a">XML par la pratique</subfield><subfield code="e">bases indispensables, concepts et cas pratiques</subfield><subfield code="f">SÂebastien Lecomte</subfield>

</datafield>[…] </record></collection>  

Le label des notices est traité comme un simple chaîne

Page 39: Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ-lemans.fr Les étapes techniques dune récupération de notices.

MarcXchange : structure du schéma

collection

record

subfield

datafieldcontrolfieldleader

id

id, format, type

idid

tag

id, ind1,… ind8

tag

id

code

Élément de plus haut niveau

Élément racine : début de la notice

Label de la notice de l’ISO 2709 (24 octets)

Elément de contrôleZone de l’identifiantDe l’ISO 2709

Déclaration des zones

Structure hiérarchique

attribut obligatoire

attribut facultatif

Déclaration desSous-zones

Page 40: Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ-lemans.fr Les étapes techniques dune récupération de notices.

MarcXchange

Cadre d’élaboration général pour des schémas « locaux »

MARC 21 et UNIMARC sont reconnus comme des schémas locaux, mais nécessitent tout de même des adaptations locales pour la mise en œuvre de MarcXchange.

Assure la compatibilité de schémas locaux simples, sans perte d’informations (ou un minimum de pertes qui peuvent être répertoriées).

Schéma conçu de façon à contenir des données MARC

Peut servir à l’échange de notices MARC ou de « moyen de transport » pour faire migrer des notices au format natif MARC vers DublinCore.

Page 41: Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ-lemans.fr Les étapes techniques dune récupération de notices.

MarcXchange

Usages majeurs

• Représenter une notice MARC en XML

• Décrire une ressource en XML

• Échanger des notices MARC en XML

• Transférer des notices MARC via des services en ligne (par exemple SRU)

• Transmettre des données à un éditeur

• Utiliser un format temporaire qui permet toute forme de transformation : conversion, publication, édition, validation

Par exemple, une notice peut entrer dans un « Workflow » (cycle de vie du document) au format XML, dans une application de gestion, puis être « verrouillée » et stockée à nouveau dans un format MARC.

Page 42: Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ-lemans.fr Les étapes techniques dune récupération de notices.

Outils disponibles pour les administrateursIl existe un ensemble d’outils, le plus souvent libres d’utilisation, disponibles sur le site de la Bibliothèque du Congrès.

Ils sont orientés pour la gestion de notices MARC21, mais certains peuvent être utilisés pour UNIMARC.

http://www.loc.gov/marc/marcservice.html

AGent™ Arabic Translitrator - Free / Open Source Athenaeum MARC Utility Aurora ZMarc Collector BIBLIObase BookWhere Cataloging Calculator - Free CyberTools for Libraries DK's INDscripteR - Indic Script Converter eZcat/eZcat Pro FRBR Display Tool -Free InfoWorks Link Checker InfoWorks Spelling Checker for Database Maintenance MARC Magician MARC Report MARC RTP - Free MARC Toolkit for Libraries (formerly MARC Template Library) - Free MARCBreaker - Free MarcEdit - Free MARConvert™. MarciveWeb SELECT MARCMaker - Free MARC/Perl - Free MARCView™ MicroLIF Conversion Tool - Free NOTEbookS OCLC, Online Computer Library Center, Inc. Surpass Copycat USEMARCON Plus - The Universal MARC Record Convertor - Free

Visual MARC Editor

Web & XML Tools

MARC4J - Free MarcEdit - Free MARC to XML / XML to MARC Conversion Utilities - Free MARCXGen - Free MARCXML - Free MarcXml Converter - Free XMARC - Free ZMARCO - Free

Page 43: Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ-lemans.fr Les étapes techniques dune récupération de notices.

MarcEdit :

Utilitaire qui permet de lire des fichiers et bien plus :- d'extraire une notice à partir d'un fichier de notices- de joindre des fichiers MARC - d'ajouter un champ- d'éclater un format MARC dans un schéma DC ou XML- d'effacer un champ - de fabriquer un fichier MARC

MarcView

Utilitaire qui permet de lire des fichiers ISO 2709 et de voir les notices MARC contenues

Exemples d’utilitaires

Un prestataire de plate-forme de gestion de bibliothèque doit livrer un utilitaire ou un moyen de conversion pour permettre d’effectuer des vérifications après un import de notices

Page 44: Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ-lemans.fr Les étapes techniques dune récupération de notices.

Questions liées à l’environnementEn cas de problème lors d’une récupération, il faut d’abord dresser une cartographie des outils mis en œuvre et de l’environnement informatique

• OS : UNIX/Windows ? Le caractère de contrôle CR n’est pas traité de la même façon (apparition de ^M en fin de ligne)

• Encodage du fichier source :

• ASCII• Latin étendu (iso8859-1 /8859-15/ 8859-2)• ISO 5426 • UTF-8• ANSI• Windows 1252

• Little/Big Endian ?

• Encodage du système cible : divers encodages proposés

• Oracle 9i, 9.2.0, 10g, 11g, …• MySQL 4.1.11, 5.0

• Version de la base de données du système cible :

Le processus d’import doit prendre en compte ces variétés d’encodages et de versions

Page 45: Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ-lemans.fr Les étapes techniques dune récupération de notices.

Tableau de gestion du format ISO-5426 Liste des caractères gérés par ISO 8859-1

0 1 2 3 4 5 6 7 8 9 ! " # $ % & ' ( ) * + , - . / : ; < = > ? @ A B C D E 70 F G H I J K L M N O 80 P Q R S T U V W X Y 90 Z [ \ ] ^ _ ` a b c d e f g h i j k l m n o p q r s t u v w x y z { | } ~ € ‚ ƒ „ … † ‡ ˆ ‰ Š ‹ Œ Ž ‘ ' “ ” • – — ˜ ™ š › œ ž Ÿ   ¡ ¢ £ ¤ ¥ ¦ § ¨ © ª « ¬ ® ¯ ° ± ² ³ ´ µ ¶ · ¸ ¹ º » ¼ ½ ¾ ¿ À Á Â Ã Ä Å Æ Ç È É Ê Ë Ì Í Î Ï Ð Ñ Ò Ó Ô Õ Ö × Ø Ù Ú Û Ü Ý Þ ß à á â ã ä å æ ç è é ê ë ì í î ï

ð ñ ò ó ô õ ö ÷ ø ù úûüýþÿ

256 caractères hexadécimaux (0 1 2 3 4 5 6 7 8 9 A B C D E F) Pour convertir un octet, on le partage en 2 groupes de 4 bits, qui correspondent chacun à un chiffre hexadécimalEncodage encore très utilisé

Page 46: Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ-lemans.fr Les étapes techniques dune récupération de notices.

Un import pas à pas

Un processus d’import peut se déclencher manuellement, mais sur les systèmes plus volumineux, il est lancé de façon programmée par un « cron », qui charge un script.

Décodage du fichier ISO 27.09, selon la séquence label-répertoire-zones-séparateur

L’outil d’import prépare la possibilité :

- d’insérer la notice décodée [INSERT];- de « recouvrir la notice décodée[UPDATE]

- de protéger éventuellement des zones en fonction de règles inscrites dans les outils de paramétrage de l’import [no_update] ;- de rejeter la notice décodée.

Le décodage du fichier iso 2709 ne suffit pas dans certains cas (c’est le cas pour les imports SUDOC). La plupart du temps, le décodeur iso 2709 est étendu à l’aide d’un handler, qui permet un traitement à partir d’une analyse des données.

La première étape consiste à créer des notices au format XML pour les fournir à l’outil d’import qui va se charger du traitement des données.

Page 47: Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ-lemans.fr Les étapes techniques dune récupération de notices.

Fichier(s) Décodeur Outil d’import

 crée un fichier d’import

Analyseur

modèle

BDDXML insert

update

recherche

Assigne des attributs

Lit le fichier iso 2709 et prépare les élements XML

Interroge successivement la base et appliquedes traitements prévus par les handlers

Page 48: Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ-lemans.fr Les étapes techniques dune récupération de notices.

Le modèle est un fichier ayant une structure d’éléments identiques à la source XML à importer, mais chaque élément est assorti d’attributs qui précisent comment gérer les champs

<?xml version="1.0" encoding="UTF-8"?><UNIMARC tagtype="marc" where="FR_BN='${FR_BN}' or SORT='${SORT.sql}'" update="merge" update.merge.keep=« BLOB,MARC,610"><GESTION1 def_value="1"/><GESTION2 def_value="2"/><GESTION3 def_value="3"/><UNIMARC_FIELDS><_200><_200a NFZ="1"/><_200c NFZ="1"/><_200d NFZ="1"/><_200e NFZ="1"/><_200i NFZ="1"/></_200>[…]</UNIMARC_FIELDS>

Il peut ajouter par exemple des champs de gestion en fonction du décodage du label pour traiter :-le type de document-le type de support-le scénario à adopter en fonction du type de document-Le filtrage des zones : - 210 Autorité éditeur

- 4XX autorité collection- 6XX autorité matière- 7XX autorité auteur (…)

Un modèle existe pour les tables suivantes :

AUTEURCOLLECTIONCOLLECTIVITEEDITEURFOURNISSEURMATIERETITRE_UNIFORMEUNIMARC

Par exemple le modèle UNIMARC peut convoquer d’autres modèles à l’intérieur de son schéma pour traiter des zones particulières qui vont devenir des liens avec d’autres tables<_210><_2105 include="EDITEUR.mdl"/></_210>…<_606><_606a include="MATIERE_light.mdl"/><_606x include="MATIERE_light.mdl"/><_606y include="MATIERE_light.mdl"/><_606z include="MATIERE_light.mdl"/></_606>

Page 49: Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ-lemans.fr Les étapes techniques dune récupération de notices.

L’analyseur va fournir des éléments déduits à partir de l’observation précise de séquences du label

# Paramètres de decodeDocumentTypedocumenttype.label.pos67.aa=monographiedocumenttype.label.pos67.ac=monographiedocumenttype.label.pos67.am=monographiedocumenttype.label.pos67.as=periodiquedocumenttype.label.pos67.bm=monographiedocumenttype.label.pos67.cm=monographiedocumenttype.label.pos67.cs=periodiquedocumenttype.label.pos67.dm=monographiedocumenttype.label.pos67.em=monographiedocumenttype.label.pos67.es=periodiquedocumenttype.label.pos67.fm=monographiedocumenttype.label.pos67.ga=audiovisueldocumenttype.label.pos67.gc=audiovisueldocumenttype.label.pos67.gm=audiovisueldocumenttype.label.pos67.gs=audiovisueldocumenttype.label.pos67.im=monographiedocumenttype.label.pos67.is=monographiedocumenttype.label.pos67.jm=monographiedocumenttype.label.pos67.js=periodiquedocumenttype.label.pos67.km=monographiedocumenttype.label.pos67.lm=document_electroniquedocumenttype.label.pos67.ls=document_electroniquedocumenttype.label.pos67.mc=monographiedocumenttype.label.pos67.mm=monographiedocumenttype.label.pos67.ms=monographiedocumenttype.label.pos67.rm=monographie

Ex. type de document

Aller-retour permanent entre la base de données locale et le fichier d’import qui permet par exemple la confrontation avec une liste de supports interne à l’application

Attribution d’un nouvel identifiant (clé primaire) si la notice n’existe pas déjà dans la base

Validation du schéma MARC pour effectuer soit un INSERT, un UPDATE ou un REJET

Page 50: Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ-lemans.fr Les étapes techniques dune récupération de notices.

Méthode de dédoublonnage possible

Concaténation d’éléments puisés dans les balises XML pour créer un « identifiant » qui va servir au dédoublonnage :

<concat param1="200a,92/700a,25,/205a,10,/210c,25,/210d,5,/010a,17,/200b,6,/200e,25,/200i,20,/200v,5,/200h,10,"/>

ALBERT CAMUSGRENIER , ROGER , 1919-..GALLIMARD19872-07-070866-7SOLEIL ET OMBRE

Réindexation des notices importées pour les positionner au même niveau que les notices existantes.

Gestion des traces des opérations effectuées dans un fichier de logs

20.07.2009 10:12:53 23 notices insérées dans la table 'MATIERE' (source 'default')20.07.2009 10:12:53 12 notices insérées dans la table 'COLLECTION' (source 'default')20.07.2009 10:12:53 36 notices insérées dans la table 'UNIMARC' (source 'default')20.07.2009 10:12:53 26 notices insérées dans la table 'AUTEUR' (source 'default')20.07.2009 10:12:53 2 notices insérées dans la table 'EDITEUR' (source 'default')20.07.2009 10:12:53 9 notices insérées dans la table 'COLLECTIVITE' (source 'default')20.07.2009 10:12:53 16 notices mises à jour dans la table 'UNIMARC' (source 'default')20.07.2009 10:12:53 265 notices autorités trouvées dans la table 'MATIERE' (source 'default')20.07.2009 10:12:53 17 notices autorités trouvées dans la table 'COLLECTION' (source 'default')20.07.2009 10:12:53 30 notices autorités trouvées dans la table 'AUTEUR' (source 'default')20.07.2009 10:12:53 69 notices autorités trouvées dans la table 'EDITEUR' (source 'default')20.07.2009 10:12:53 25 notices autorités trouvées dans la table 'COLLECTIVITE' (source 'default')

Les opérations au niveau de l’import lui-même sont transparentes pour l’utilisateur. Seuls doivent être paramétrés (éventuellement) le modèle et le décodeur. Il appartient à l’administrateur de pouvoir comparer un fichier source et une notice importée dans sa plateforme. Les opérations d’insertion, d’update, de réindexation renvoient à la gestion de l’applicatif, ce qui dépasse de loin le processus d’import

Page 51: Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ-lemans.fr Les étapes techniques dune récupération de notices.

Un autre dispositif asynchrone : OAI-PMH

Page 52: Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ-lemans.fr Les étapes techniques dune récupération de notices.

OAI-PMH

Définition : OAI - PMH

Open Archive Initiative Protocol for Metadata Harvesting

Mvt 1 de l’interopérabiblité : aspect « normatif » : empilement structuré des données

Mvt 3 de l’interopérabilité : le protocole d’échange

Mvt 2 de l’interopérabiblité : XMLDublinCore

Page 53: Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ-lemans.fr Les étapes techniques dune récupération de notices.

Un peu de vocabulaire…

Ressource (‘resource’) : c’est le document qui est décrit par un appareil bibliographique (la réalité à laquelle la description renvoie, une monographie imprimée, un document électronique…)

Item : c’est la notice informatique qui contient la description. Cette notice se voit attribuer un identifiant unique supplémentaire, totalement indépendant de celui du système hérité.

Enregistrement (‘record’): ce sont une partie des métadonnées de l’item qui sont choisies et « poussées » dans un fichier XML qui deviennent un enregistrement. OAI-PMH ne travaille pas avec la totalité des données, mais un jeu allégé.

Lot (‘set’) : c’est un possibilité d’OAI-PMH pour constituer des ensembles thématiques ou autres (par exemple ; les thèses d’un établissent dans un format donné et pour une période donnée).

Page 54: Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ-lemans.fr Les étapes techniques dune récupération de notices.

001 092151655010 ##$a2-7460-2906-5$bBr.$d27,14 €073 #1$a9782746029064200 1#$a@XML par la pratique$bTexte imprimé$ebases indispensables, concepts et cas pratiques$f[Sébastien Lecomte]210 ##$aNantes$cÉd. ENI$dcop. 2005215 ##$a1 vol. (353 p.)$cill., couv. ill. en coul.$d22 cm225 0#$a@Ressources informatiques$fJoe Ú lle Musset$x1627-8224320 ##$aIndex410 ##$aRessources informatiques (Nantes), ISSN 1627-8224606 ##$aXML (langage de balisage)$2 rameau606 ##$aEchange électronique d'information$2rameau676 ##$a006.74$v22$zeng700 #1$aLecomte, Sébastien (19..-.... ; informaticien)$4070

Métadonnées sur la ressource

<record>

<dc:title> Xml par la pratique : bases indispensables, concepts et cas pratiques</dc:title><dc:creator>Sébastien Lecomte</dc:creator><dc:type>Monographie imprimée</dc:type>…</record>

<identifier>oai:1380</identifier>

Page 55: Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ-lemans.fr Les étapes techniques dune récupération de notices.

Principe général

Base 1 (spécificités

internes)

Base 2 (spécificités

internes)

Base 3 (spécificités

internes)

Base 4 (spécificités

internes)

Entrepôt commun

Création d’enregistreme

nts en DC

Création d’enregistreme

nts en DC

Création d’enregistreme

nts en DC

Création d’enregistreme

nts en DC

Pour l’usager : formulation d’une requête unique

?

Spécificité commune

Page 56: Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ-lemans.fr Les étapes techniques dune récupération de notices.

Conclusion

Page 57: Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ-lemans.fr Les étapes techniques dune récupération de notices.

La stratégie de catalogage qui repose sur la récupération de notices représente une économie d'échelle, un gain, mais impose des contraintes techniques importantes.

Elle nécessite une technicité importante : une ou plusieurs ressource(s) humaine(s) à l'aise dans la manipulation de données informatiques...

- dédoublonnage, “nettoyage” de la base

- paramétrage (métier) des outils d'import,

- vérification de la cohérence de la base (si les réservoirs sont disparates, il faut harmoniser),

- connaissance des formats à bas niveau (ex. décodage du label),

- traitement des autorités,

- connaissance du fonctionnement des index.

... mais aussi une expertise métier plus importante, des catalogueurs plus qualifiés dans des opérations particulières :

Page 58: Récupération de notices et interopérabilité des catalogues Philippe.Bourdenet@univ-lemans.fr Les étapes techniques dune récupération de notices.

Récupération de notices et interopérabilité des catalogues

[email protected]

Merci de votre attention !

[email protected]