collection
La Boîte à outi ls
C o n d u i r e u n p r o j e t
d e n u m é r i sa t i o n l
sous la direction de Charlette Buresi et Laure Cédelle-Joubert
école nationale supérieure des sciences de l'information et des bibliothèques
Catalogage Électre-Bibliographie (avant publication) Conduire un projet de numérisation / dir. Charlette Buresi, Laure Cédelle-Joubert. - Paris : Tec et Doc ; Villeurbanne (Rhône) : Presses de l'Enssib, 2002. - (La boîte à outils ; 13) ISBN 2-7430-0551-3 ISBN 2-910227-43-X RAMEAU :
DEWEY : Public concerné
documentation de bibliothèque : numérisation gestion de projets numérisation : spécifications 025 : Opérations bibliothéconomiques et documentaires Professionnel, spécialiste
DANGER PHOTOCOPILLAGE
TUE LE LIVRE
© LAVOISIER, 2002 11, rue Lavoisier - 75008 Paris
ISBN: 2-7430-0551-3
© ENSSIB, 2002 17-21, bd du 11 Novembre 1918 - 69623 Villeurbanne cedex
ISBN: 2-910227-43-X ISSN : 1259-4857
Toute reproduction ou représentation intégrale ou partielle, par quelque procédé que ce soit, des pages publiées dans le présent ouvrage, faite sans l'autorisation de l'éditeur ou du Centre français d'exploitation du droit de copie (20. rue des Grands-Augustins, 75006 Paris), est illicite et constitue une contrefaçon. Seules sont auton-sées. d'une part, les reproductions stnctement réservées à l'usage privé du copiste et non destinées à une utilisation collective, et. d'autre pan, les analyses et courtes citations justifiées par le caractère scientifique ou d'information de l'œuvre dans laquelle elles sont incorporées (loi du lerjuillet 1992 - art. L 122-4 et L 122-5 et Code pénal art. 425 ).
Conduire un projet de numérisation
sous la direct ion de Charlette Buresi et Laure Cédel le-Joubert
collection la Boîte à outils
école nationale supérieure des sciences de l'information et des bibliothèques DOC
Editions TEC
Chez le même éditeur
Construire des indicateurs et tableaux de bord collection « La Boîte à outils » n0 15 P. Carbone, coord., 2002
Intégrer des personnels non permanents dans la bibliothèque collection « La Boîte à outils » n0 14 F. Mondon, coord., 2002
Recherche et veille sur le web visible et invisible - Agents intelligents, annuaires sélectifs, inteifaces des grands serveurs, portails thématiques B. Fœnix-Riou, 2001
ONT CONTRIBUÉ À CE VOLUME :
Olivier BOGROS, directeur de la bibliothèque municipale de Lisieux
Charlette BURESI, conservateur, directrice de la bibliothèque de l'École du Louvre, Paris, précédemment chargée du dossier numérisation, sous-direction des bibliothèques et de la documentation, ministère de l'Éducation nationale.
Laure CÉDELLE-JOUBERT, conservateur au bureau des politiques documentaires, Direction du livre et de la lecture, ministère de la Culture et de la Communication
Thierry DELCOURT, directeur de la bibliothèque municipale à vocation régionale de Troyes
Jocelyne DESCHAUX, conservateur responsable du fonds ancien de la bibliothèque municipale à vocation régionale de Toulouse
Marie-Pierre DION, directrice de la bibliothèque municipale de Valenciennes
Carine EL-BEKRI DINOIRD, directrice du SCD de Reims
Valérie GAME, chef du service juridique de la Bibliothèque nationale de France
Jacques GANA, conservateur à la bibliothèque interuniversitaire de médecine (BIUM) à Paris
Pierre GUINARD, conservateur responsable du fonds ancien de la bibliothèque municipale de Lyon
Catherine LUPOVICI, directrice du département de la bibliothèque numérique de la Bibliothèque nationale de France
José SANCHEZ, ingénieur de recherche, CINES (Centre informatique national de l'enseignement supérieur)
Albert SITRUK, ingénieur consultant, Parker Williborg
Mireille VlAL, conservateur à la bibliothèque interuniversitaire de Montpellier (médecine)
| Sommaire
MODE D'EMPLOI par Laure Cédelle-Joubert et Charlette Buresi.. 1
1. Pourquoi numériser ? 4 1.1. Diffuser 4 1.2. Valoriser 5 1.3. Préserver 6 1.4. Aider et susciter la recherche 7
2. Conduire un projet 8 Les défis 8
3. La numérisation en bibliothèque 10
PREMIÈRE PARTIE : Cadrer le projet A Les publics
par Thierry Delcourt 15
1. La diffusion 16
2. Les projets éditoriaux 18
3. Les usages savants 19 3.1. Consultation sur place et à distance 19 3.2. Les conséquences pour les bibliothèques . . 2 1
4. Les usages culturels et de loisir 22 4.1. L'usage culturel individuel 23 4.2. L'usage culturel de groupe 24
5. Les usages pédagogiques 27 5.1. L'éventail des projets possibles 27
6. Les usages touristiques 29 6.1. Les bornes interactives 30 6.2. Les catalogues multimédia 31
7. Conclusion 31
Les utilisations multiples d'un document numérisé par Thierry Delcourt 33
VIII Conduire un projet de numérisation
Numériser pour un public déficient visuel par Carine El-Bekri Dinoird 35
B Aspects juridiques de la numérisation par Valérie Game 43
1. Les grands principes du droit d'auteur 45 1.1. Le droit moral 45 1.2. Les droits patrimoniaux 46
2. L'utilisation des œuvres 47 2.1. La création littéraire et musicale 47
2.1.1. Le manuscrit 47 2.1.2. La correspondance 49 2.1.3. L'imprimé 51 2.1.4. Le reprint 54 2.1.5. La presse 56
2.2. La mise à disposition d'images -Cartes postales et photographies 58
3. Conclusion 62
DEUXIÈME PARTIE : Conduire le projet C La mise en œuvre de la numérisation
par Albert Sitruk 65
1. Élaboration d'un cahier des charges de numérisation 65 1.1. Introduction 65 1.2. Les composantes fonctionnelles
d'un système de GED 66 1.2.1. Les différentes natures
de documents numériques 66 1.2.2. L'architecture technique 71
1.3. Définition d'un projet de GED 78
Sommaire
1.4. Préparation du cahier des charges 80 1.4.1. Documents imprimés 81 1.4.2. Documents iconographiques 87 1.4.3. Microformes 90
2. Calculer les coûts financiers et humains 92 2.1. Procédure de production 92
2.1.1. Organisation des livraisons vers le centre de numérisation (CN).. 94
2.1.2. Organisation de la numérisation.... 95 2.2. Chronogramme des opérations 101 2.3. Simplification en cas de numérisation
en interne 104 3. Évaluer un prestataire 105
3.1. Capacités opérationnelles 105 3.2. Capacités financières 106 3.3. Références de réalisations similaires 106 3.4. Analyse de l'offre 106
4. Peser le choix entre interne et externe 107 4.1. Le poids de l'investissement 107 4.2. La disponibilité des personnels 108 4.3. La taille de l'opération 108 4.4. La spécificité des techniques mises
en œuvre 109 4.5. L'aptitude du fonds documentaire
à être déplacé 109
Numérisation interne ou externe - Le choix de Lyon par Pierre Gumard 111
Choisir son prestataire par Jocelyne Deschaux 115
Conduire un projet de numérisation
D Calculer les coûts induits de la numérisation par Jocelyne Deschaux 121 1. Avant et pendant la numérisation 122
1.1. Les coûts induits à prévoir au moment de la sélection des documents 122
1.2. Les coûts induits liés au choix du prestataire.. 123 1.2.1. Un test 123 1.2.2. Le cahier des charges 124
1.3. Le transfert des documents 125 1.3.1. Le transport 125 1.3.2. L'assurance 125
2. Après la numérisation 125 2.1. Le contrôle qualité 125 2.2. L'indexation 126
2.2.1. L'acquisition des outils 126 2.2.2. Le temps passé et le personnel
concerné 126
3. Conclusion 128
E Les choix techniques de la numérisation des documents imprimés par Catherine Lupovici 131
1. Les différents modes de numérisation des contenus 132 1.1. La numérisation en mode image 133
1.1.1. Les différents modes image 134 1.1.2 La résolution des images 135 1.1.3. La compression des données . . . . 1 3 6
1.2. La numérisation en mode texte 138 1.2.1. Le codage des systèmes d'écriture. . 139 1.2.2. La structure physique 140 1.2.3. La structure logique 141 1.2.4. Quel mode texte choisir ? 143
1.3. Les formats de fichiers 144
Sommaire
2. Les métadonnées 146 2.1. Les métadonnées descriptives 146
2.1.1 Le catalogage du document numérisé 147
2.1.2. Métadonnées descriptives incluses dans le document numérisé 149
2.2. Les métadonnées administratives 159 2.2.1. L'identification du document
numérisé 160 2.2.2. La gestion des accès 161 2.2.3. La gestion de la conservation à long
terme des documents numérisés. . . 162 2.3. Les métadonnées de structure 163
Les choix techniques à Lisieux : Des réserves à l'Internet - Les étapes de la mise en ligne par Olivier Bogros 167
TROISIÈME PARTIE : Évaluer et valoriser
F Constituer une base de données numérique par Charlette Buresi et Laure Cédelle-Joubert 177
1. Créer une base de données -L'exemple des enluminures médiévales -Les bases « Enluminures » et « LiberFloridus » .. 178 1.1. Historique du projet 178 1.2. Les futures bases 179
1.2.1. Le corpus 180 1.2.2. Le public et ses besoins 180
1.3. Informations et accessibilité 181 1.3.1. Déterminer les champs descriptifs ..181 1.3.2. Structuration des données 182 1.3.3. Les difficultés 186
XII Conduire un projet de numérisation
2. Consultation 187 2.1. Interface utilisateur 187
2.1.1. La présentation de la base 187 2.1.2. Le formulaire de recherche 187
3. Diffuser une base de données 194 3.1. La convention 194 3.2. Conditions juridiques de diffusion 195 3.3. L'aide en ligne 196 3.4. À la rencontre du public 197 3.5. Mise en ligne finale 198
Élaboration et consultation d'une base structurée José Sanchez 199
La solution Internet - L'exemple de Lyon par Pierre Guinard 205
Créer et diffuser un CD-ROM de documents numérisés - L'exemple du CD-ROM des manuscrits musicaux de Montpellier par Mireille Vial 211
1. L'État des lieux 212 1.1. Analyse de la situation 212
1.1.1. Les points positifs 212 1.1.2. Les points négatifs 212
1.2. Les facteurs « déclenchants » 213
2. Les enjeux 214 2.1. Pour quoi faire ? Les objectifs 214 2.2. Quoi ? Les réponses informatiques 215 2.3. Quoi ? La matière 217 2.4. Pour qui? 217
3. La réalisation 218 3.1. Les atouts 218
Sommaire XIII
3.2. Comment 218 3.2.1. L'équipe 218 3.2.2. Le budget 219 3.2.3. Les étapes techniques 220
3.3. Les difficultés 224
4. Le CD-ROM 225 4.0.1. La bibliothèque 225 4.0.2. Le corpus des folios choisis 225 4.0.3. La musique au fil des siècles 226 4.0.4. Les instruments de musique 226 4.0.5. Sur Internet 227
5. Bilan 227 5.1. Un outil de signalement et de référence ... 227 5.2. Le pari pédagogique 228
6. Conclusion 229
H Intégrer les documents numérisés dans un catalogue par Marie-Pierre Dion 231
1 1. Le choix du catalogue 232
| 2. L'enrichissement du catalogue 236 | 2.1. Le choix des corpus 236 I 2.2. La description des données numérisées. .. 238 | 2.3. L'évaluation des usages 240
g Q.
1 I Réaliser une exposition virtuelle sur Internet | Pourquoi, comment ?
"ï par Jacques Gana 243 .o
| 1. Pourquoi une exposition virtuelle 243 i 1.1. Expositions réelles et expositions virtuelles... 243 | 1.2. Sites web de bibliothèques 244 _i ©
XIV Conduire un projet de numérisation
2. Préparer l'exposition 246 2.1. Choisir un sujet 246 2.2. Élaborer la structure 248 2.3. Traiter les documents iconographiques . .. 248
3. Passage à la réalisation 250 3.1. Une préoccupation essentielle :
le temps de chargement 250 3.1.1. Les performances du mode
de connexion à Internet 250 3.1.2. Les formats de documents :
les images 251 3.1.3. Couleur ou noir et blanc 254 3.1.4. Les formats de documents :
les animations 254 3.1.5. Les formats de documents :
le son 255 3.1.6. Les formats de documents :
la vidéo 255 3.1.7. Les formats de documents :
le texte 256 3.2. Mise en forme 256
MÉMENTO
Les étapes d'un programme de numérisation par Charlette Buresi et Laure Cédelle-Joubert 261
1. Conception du projet 262 1.1. Objectifs de la numérisation 262 1.2. Choix du corpus 262 1.3. Vérification de la propriété
des droits reposant sur les documents . . . . 2 6 2 1.4. Identification du public visé 263 1.5. Évalutation des ressources
de la bibliothèque 263
Sommaire
1.6. Identification du projet au sein des missions et de la politique de la bibliothèque 264
2. La numérisation 264 2.1. Sélection des documents 264
2.1.1. Concertation entre les conservateurs.. 264 2.1.2. Collection choisie 264 2.1.3. Traitement 265
2.2. Développement 265 2.2.1. Rédaction du cahier des charges... 265 2.2.2. Combien de documents
mettre en ligne ? 266 2.2.3. Inventaire 266
2.3. Production 266 2.3.1. Numérisation proprement dite ....266 2.3.2. Qualité technique : images
acceptables selon quels critères ? .. 267
3. Accès et mise en ligne 267 3.1. Description des données 267 3.2. Édition numérique des images 267
3.2.1. Scénario 267 3.2.2. Maquette 267 3.2.3. Tests 268 3.2.4. Lancement du produit numérique.. .268
3.3. Maintenance 268 3.3.1. Révisions et mises à jour 268 3.3.2. Archivage 268 3.3.3. Anticiper la demande du public .. .269
ANNEXES : ANNEXE 1 : Modèle de cahier des charges
Cahier des charges de numérisation par Albert Sitruk 273
1. Objet du marché 273
XVI Conduire un projet de numérisation
2. Spécifications techniques et opératoires 274 2.1. Description du fonds 274
2.1.1. Objectifs de la numérisation 274 2.1.2. Caractéristiques du fonds
de documents 274 2.1.3. Caractéristiques particulières 276
2.2. Conditions de mise à disposition 276 2.2.1. Constitution des lots 276 2.2.2. Conditionnement des lots 277 2.2.3. Identification du lot
et de ses constituants 277 2.2.4. Conditions de sous-traitance
de la préparation des lots 278 2.3. Conditions de retour des lots 279
2.3.1. Retour des documents originaux . . 279 2.3.2. Livraison du support informatique. . .280 2.3.3. Le rapport de contrôle
de production 281 2.3.4. Contrôle de réception 281 2.3.5. Conditions de sous-traitance
du reclassement des documents . .282 2.4. Spécification des traitements demandés.. . 283
2.4.1. Numérisation 283 2.4.2. Indexation 286 2.4.3. Contrôle 288 2.4.4. Définition des supports de livraison. . 290
2.5. Calendrier d'échelonnement des opérations ..291
3. Conditions d'exécution de la prestation 293 3.1. Préparation des lots 294 3.2. Réception des lots 294 3.3. Numérisation des lots 294 3.4. Contrôle des lots 294 3.5. Conditionnement des lots 295 3.6. Contrôle de réception 295
Sommaire XVII
4. Dispositions administratives générales 296 4.1. Modalités de règlement 296 4.2. Respect des délais et pénalités de retard.. 296 4.3. Régime de propriété 297 4.4. Règlement des litiges 297
5. Présentation de l'offre 298 5.1. Dossier commercial 298 5.2. Dossier technique 299 5.3. Engagements du prestataire 299 5.4. Fiche de prix par type de prestation 300
ANNEXE 2
Fiches de spécifications des travaux de numérisation Albert Sitruk 305
1. Numérisation de documents imprimés 306
2. Numérisation de documents iconographiques . . .309
3. Numérisation de microformes 312
ANNEXE 3
Repères techniques Charlette Buresi et Laure Cédelle-Joubert 315
ANNEXE 4
Quelques textes utiles Valérie Game 319
ANNEXE 5
Contrats de cession ou d'acquisition de droits d'auteur Valérie Game 321
BIBLIOGRAPHIE par Charlette Buresi et Laure Cédelle-Joubert 323
MODE D'EMPLOI
par Laure Cédel le-Joubert et Charlette Buresi
Sujet d'actualité et de surcroît « brûlant » en matière de bibliothéconomie, la numérisation ne laisse pas de susciter maints commentaires.
Selon ses détracteurs, c'est un procédé onéreux, complexe, dont la conservation à long terme des données s'avère incertaine, voire improbable.
Pourtant, la numérisation est un moyen fabuleux - cette appréciation n'étant pas exclusive aux seuls inconditionnels de cette technologie - de diffusion de tout type de document auprès du plus grand nombre. Trésors cachés ou réservés jusqu'alors à des cercles « d'initiés », méconnus, parfois inaccessibles, ils sont désormais à notre portée.
Richesse et diversité des informations fournies, découverte de documents rares ou difficiles d'accès, recherches multiples facilitées par une navigation experte, accès à distance (le développement de l'enseignement à distance et la multiplicité des expositions virtuelles le prouvent), rapidité dans le transfert des données (si le débit le permet !), récupération en temps réel des informations grâce à l'impression ou au téléchargement, tels sont les maîtres mots de la numérisation.
Conduire un projet de numérisation
Certains se demanderont ce qui justifie une nouvelle publication sur le sujet. Les journées d'étude ne manquent pas en effet, elles présentent pourtant l'inconvénient de décrire essentiellement l'état d'avancement de grandes réalisations ou de traiter de travaux de recherche si complexes qu'ils sont souvent très éloignés de la réalité des établissements plus modestes dans leur politique numérique. En termes de publications, la littérature francophone n'est pas extrêmement riche. Le très bon livre d'Alain Jacquesson et d'Alexis Rivier, Bibliothèques et documents numériquesoffre un panorama complet de l'état de l'art ; mais il garde une présentation de manuel et ne s'attache qu'aux enjeux des nouvelles technologies. Sur les sites web de la Direction de l'enseignement supérieur et de la Direction du livre et de la lecture, le lecteur pourra consulter des fiches techniques ; mais là encore cette documentation se résume à une série de mémentos techniques. L'essentiel de la littérature est en fait dispersé à travers une pléiade d'articles qu'il serait fastidieux de rassembler pour toute personne désireuse de se former rapidement.
Face à la pauvreté de la bibliographie française, la production anglo-saxonne, en revanche, est particulièrement florissante, tant sur le web que dans les librairies. Le lecteur trouvera en fin d'ouvrage une bibliographie de base où les auteurs américains et britanniques sont largement représentés. En simplifiant, on peut dire que leur approche est double. Ils proposent d'une part une vision extrêmement technique de la numérisation, analysant les différents modes de numérisation, les résolutions adéquates à chaque type de document, les avantages et inconvénients des différents formats. Cette littérature s'accompagne d'autre part d'une réflexion plus « gestionnaire », définissant des parcours types pour mener à bien un projet numérique. Des organismes professionnels élaborent également des questionnaires types, des feuilles de route, des tableaux permettant de formaliser les
1. Voir la bibliographie en Hn d'ouvrage.
Mode d'emploi
dépenses. L'apport anglo-saxon est riche d'enseignements ; il n'en existe malheureusement le plus souvent qu'une version anglaise.
À propos du présent manuel
Conduire un projet de numérisation à son terme, dans les meilleures conditions, est une tâche ardue qui peut s'avérer longue si les différentes opérations ne sont pas appréciées ou évaluées correctement.
L'ambition de ce volume est donc de se poster à mi-chemin entre l'ouvrage technique et le guide pratique. Il n'indique aucune solution toute faite, mais offre plutôt un essai d'illustrations des différentes étapes qui jalonnent la réalisation d'un projet. Les questions ou difficultés susceptibles de surgir au fur et à mesure que progressent les opérations sont, dans la mesure du possible, identifiées.
Sans avoir la prétention de se substituer aux professionnels de la numérisation, ce manuel fait intervenir différents experts et acteurs qui ont eux-mêmes rencontré et surmonté des difficultés ; certains d'entre eux effectuent de la veille dans leur domaine d'excellence. Ils nous livrent ici généreusement leur expérience, leurs conseils, les « dernières nouveautés ».
Les questions théoriques posées seront donc toujours ancrées dans la réalité du terrain. Toutes les bibliothèques sont représentées et chaque professionnel pourra se reconnaître : bibliothèques municipales, bibliothèques universitaires, bibliothèques spécialisées. En annexe, le lecteur trouvera des textes de référence, textes juridiques et structure d'un cahier des charges, des renseignements pratiques ainsi qu'une bibliographie.
Trois grandes parties structurent ce volume : la première aborde les questions préalables a tout projet c'est-à-dire la définition des objectifs. La question du droit d'auteur est
Conduire un projet de numérisation
délibérément traitée d'emblée dans ce chapitre. En effet, aucune numérisation ne peut s'effectuer sans connaître auparavant le statut juridique des documents. La deuxième partie montre la façon de conduire les opérations et nous éclaire, entre autres, sur des questions de pointe en matière de gestion des fichiers et de structuration des données. La troisième partie présente les différents aspects de la valorisation et de l'exploitation d'un corpus.
1. POURQUOI NUMÉRISER ?
Numériser permet de mieux diffuser un fonds, pour le valoriser tout en le préservant et/ou pour aider et susciter la recherche.
1.1. Diffuser
Le premier objectif qui justifie une telle entreprise est sans nul doute une meilleure diffusion dans des conditions optimales de communication et de consultation.
Fichier de données textuelles ou iconographiques, le fichier numérique, tout en permettant une restitution aussi proche que possible de l'original, vient s'ajouter à la liste des substituts traditionnels que sont le microfilm, la microfiche, la diapositive ou l'ektachrome. Aisément reproductible, à faible coût et dans des délais extrêmement rapides, le fichier numérique fournit une solution intéressante pour pallier les déficiences de la communication des originaux (par exemple, les conditions de consultation de documents fragiles ou rares conservés à la « réserve »). Par conséquent, la numérisation peut favoriser une certaine « démocratisation » de l'accès à la culture, nul besoin de produire un justificatif sur son programme de recherche ou son niveau d'études : tout utilisateur peut désormais accéder au patrimoine écrit. Tout document, dans la
Mode d'emploi
limite des droits de reproduction1 et de diffusion, est ainsi potentiellement consultable par tous les lecteurs.
Nombre de bibliothèques préfèrent actuellement la solution du numérique à la consultation des microfilms. Le fichier numérique présente effectivement certains avantages : il ne s'use pas à la lecture et peut être visionné sur des postes standard équipés d'imprimantes, d'un entretien moins coûteux que celui des lecteurs reproducteurs de microfilms. Plusieurs bibliothèques et services d'archives ont adopté ce système pour la consultation de documents très demandés comme les usuels, le cadastre ou l'état civil. L'atout du numérique est d'offrir une grande souplesse de diffusion : le document devient consultable au sein de la bibliothèque ou de l'université en intranet, ou en dehors de ses murs sur le web. Son accès est libre ou restreint à un groupe d'utilisateurs délimité, le document est accessible simultanément par plusieurs lecteurs. De ce fait, la bibliothèque numérique modifie profondément les modes de diffusion et de consultation.
1.2. Valoriser
La numérisation trouve une nouvelle application dans la valorisation du patrimoine2.
La découverte de la richesse d'un fonds - textes anciens, reliures précieuses, manuscrits, enluminures, unica, collections rares - présentés sur un site d'accueil, sous forme de « vitrine » ou dans le cadre d'expositions virtuelles peut rendre une bibliothèque plus attractive. Dans cette perspective, l'usage de l'image numérique trouve toute son efficacité pour des documents trop fragiles pour être sortis de la réserve ou ceux appartenant à des collections étrangères qui n'ont pu être empruntés.
1. Voir sur cette question l'article de V. Game. 2. Voir l'article de Th Delcourt sur les publics.
6 Conduire un projet de numérisation
L'image numérique peut pallier certaines insuffisances de la muséographie du livre. Notre frustration est souvent grande dans les expositions quand nous ne pouvons admirer que les deux pages ouvertes d'un livre exposé sous vitrine. Cette limitation peut être contournée, le recours aux nouvelles technologies permettant d'associer près de l'original exposé une borne interactive où le visiteur pourra feuilleter l'ensemble du document virtuel : ainsi connaissance et agrément seront étroitement liés. Cet emploi du numérique est sans doute un moyen de nous extraire d'une muséographie qui peut-être figée pour le public actuel. Par ailleurs, les périodes d'exposition des originaux habituellement limitées dans le temps lors de manifestations traditionnelles, ne connaissent aucune restriction dans le cas d'expositions virtuelles. Le prolongement d'une exposition, après sa fermeture sur site, lui permet, sous une forme virtuelle définitive et accessible du monde entier1, de trouver une nouvelle vie et un nouveau public.
La multiplicité des supports (site web, CD-ROM, DVD) et l'attractivité de l'image sur écran, liée aux possibilités du multimédia, sont susceptibles de sensibiliser de nouveaux publics en leur présentant des ressources dont ils ne soupçonnaient pas l'existence.
1.3. Préserver
Numériser pour préserver et sauvegarder ? Numériser pour conserver ? Des spécialistes ont déjà longuement débattu la question de l'apport de la numérisation dans les politiques de conservation. C'est un fait semble-t-il acquis aujourd'hui, la reproduction numérique constituerait un nouveau mode de préservation plutôt qu'un moyen de conservation. Les études consacrées à la durée de
1. C'est le parti adopte par la BNF pour certaines de ses expositions
Mode d'emploi
vie des fichiers numériques nous inclinent à penser que le microfilm demeure le substitut de conservation le plus fiable pour le moment, car nul ne peut assurer qu'un fichier numérique sera encore lisible dans 10 ans.
Le recours aux images numériques peut jouer en revanche un rôle réel dans les stratégies de préservation, en permettant la production de substituts « papier », de nombreuses copies de l'original sans l'altérer et dès lors que sa consultation est restreinte.
1.4. Aider et susciter la recherche
Les chercheurs trouveront dans les corpus numérisés un outil précieux.
La facilité de l'accès à distance, une description des données satisfaisante, la présentation d'une masse critique importante seront autant d'atouts pour simplifier les investigations et la consultation, pour favoriser la confrontation des documents et leur identification. Ces études facilitées par l'hypertexte suscitent et stimulent de nouveaux rapprochements, de nouvelles hypothèses jusqu'à la création d'éditions critiques.
Deux exemples illustrent cet apport : la création du Digital scriptorium par des bibliothèques universitaires américaines a permis de découvrir que deux manuscrits conservés dans deux bibliothèques ne formaient qu'un seul et même manuscrit. Outre ce type de découverte, les chercheurs pourront travailler plus vite. La numérisation des revues de sociétés savantes à la BnF, en particulier leurs tables en mode texte, évitera à bien des chercheurs de fastidieuses heures de dépouillement.
Par ailleurs, sur le plan technique, le zoom permet d'accentuer des détails imperceptibles à l'oeil nu et de révéler les détails d'une enluminure, ou encore d'identifier un personnage sur une photographie.
Conduire un projet de numérisation
2. CONDUIRE UN PROJET
Il est possible de répondre relativement aisément aux incontournables interrogations - pourquoi numériser, pour quels usages, quels documents -, pour quels publics, mais une fois ces objectifs définis, le « Comment procéder ? » est à cette étape du projet la question essentielle à résoudre.
Les défis
• Numériser un fonds est un enjeu aux défis multiples. Le premier d'entre eux qui demande le plus d'attention, de connaissances et de pugnacité et auquel nous allons nous attacher est le défi technologique.
Les choix à effectuer sont nombreux et ne souffrent aucune erreur sous peine d'échec ou de retard. Tout doit être judicieusement évalué qu'il s'agisse de prestations, de choix techniques1 relatifs à l'achat de matériel ou au mode de numérisation. Comment saisir les données et les rendre accessibles ? Quelle résolution adopter ? Les formats, le stockage des fichiers, la récupération des données, l'indexation, la pérennité des données, la structuration et le balisage des documents numérisés, sont autant de questions déterminantes qui seront présentées et commentées par des experts. Un cahier des charges2 correctement élaboré soit en interne (les modèles existent) soit par un prestataire, doit recenser dans le détail les différentes phases de l'opération, en cela il représente le gage de la réussite.
• Le deuxième défi est économique. Il s'agit d'évaluer le coût de l'opération, d'identifier les moyens en personnel, en prestations3 et en matériel. Le résultat de cet examen orientera la prise de décision finale de la mise en œuvre.
1. Voir les articles de P. Gumard. C. Lupovici. 2. Voir l'article de A. Sitruk et l'annexe en fin d'ouvrage consacrés au cahier des charges 3. Voir les deux articles de J. Deschaux.
Mode d'emploi
L'utilisation des compétences, de la polyvalence du personnel, relèvent de l'expertise du chef de projet, de même le mode de financement doit être défini pour décider de la viabilité ou de la faisabilité de l'opération. Quant à l'appréciation de la durée de l'ensemble du projet ce point devra figurer dans le CCTP sur la base du cahier des charges.
• Le troisième défi est juridique1 car « nul n'est censé ignorer la loi » : être au fait de la législation en matière de propriété intellectuelle et artistique et de la jurisprudence. La question du droit d'auteur ne doit pas avoir de secret pour vous. Nous constatons une méconnaissance partielle, voire complète des textes. De surcroît la constante évolution des pratiques dans le domaine des nouvelles technologies et plus particulièrement celui de la numérisation, complique de façon certaine les applications et les interprétations de la loi.
Il est indispensable de s'assurer d'emblée que le corpus choisi est libre de droits. A contrario, il faut identifier les ayants droit et connaître les bases de négociations avec les auteurs, éditeurs, photographes...
• Sans l'étudier dans le détail il convient d'évoquer le défi professionnel que représente un tel projet et souligner la place et le rôle prépondérants du bibliothécaire. La numérisation ne vient pas troubler l'ordre établi. Elle apporte au contraire une ouverture vers l'extérieur et de nouvelles réponses aux missions traditionnelles. Elle constitue de ce fait une autre approche dans la relation lecteur-professionnel des bibliothèques, elle enrichit les échanges dans les domaines de l'information et de la formation aux usagers et exprime l'engagement des professionnels dans l'application des nouvelles technologies qui permettent d'améliorer et d'enrichir de façon pratique, esthétique, voire élégante la communication des documents.
1. Voir rarticle consacré aux aspects jundiques par V. Game
Conduire un projet de numérisation
3. LA NUMÉRISATION EN BIBLIOTHÈQUE
Si elle n'est pas généralisée, la numérisation n'en devient pas moins une pratique de plus en plus usitée dans les bibliothèques. Les grandes réalisations nous permettent de juger de l'état de l'art : bases de données multimédia proposant images, video, sons et textes, sur l'exemple de VAmerican Memory, expositions virtuelles reprenant les grandes expositions présentées dans les bibliothèques, numérisation au service de la recherche, sur le modèle du De motu locali' des Discorsi de Galilée, etc.
Un regard rapide sur la situation française pourrait faire croire que, mis à part l'immense projet Gallica, seules quelques rares bibliothèques se sont lancées dans l'aventure. Deux enquêtes menées en 1999 et en 2000 par la Direction du livre et de la lecture et par la sous-direction des bibliothèques et de la documentation ont permis d'évaluer la pénétration de la numérisation dans les établissements.
Depuis ces enquêtes de nouveaux projets ont déjà émergé, néanmoins leurs résultats donnent un aperçu des projets en cours. Ainsi, début 2000, une quinzaine de bibliothèques municipales avaient déjà réalisé au moins une campagne de numérisation. Certaines d'entre elles comme Lyon, Valenciennes ou Troyes étaient engagées dans plusieurs programmes dont les résultats sont déjà consultables sur leurs sites web. Une vingtaine d'autres établissements s'apprêtaient à engager des programmes. Enfin le programme national de numérisation des enluminures des manuscrits médiévaux conservés dans les bibliothèques publiques concerne déjà 92 bibliothèques de tailles très variables. Si Lyon et Toulouse ont déjà traité leurs fonds, d'autres bibliothèques dans des villes comme Marseille, Douai, Châteauroux ou Épemay, bénéficieront de cette opération. Dans leurs projets les bibliothèques municipales sont soutenues par le plan de numérisation du ministère de la
1. http:llwww mpiwg-bei hn mpg delGalileo_PmtotypelINDEX HTM.
Mode d'emploi
Culture et de la Communication, ainsi que par les aides des DRAC. Les contrats de plan État-région, en particulier, intègrent de plus en plus la numérisation comme un enjeu important de la politique culturelle.
Les réalisations des bibliothèques publiques et leurs projets en cours sont recensés et décrits dans le catalogue des fonds numérisés du ministère de la Culture et de la Communication, consultable en ligne sur le site du ministère1.
Parfaitement conscientes du rôle qui leur incombe dans le nouvel environnement technologique, les bibliothèques de l'enseignement supérieur se sont lancées dans la numérisation de corpus de choix ; c'est ainsi que la campagne de numérisation de manuscrits médiévaux a permis la création d'une base d'enluminures (cf. chapitre sur la structuration de la base). Certains fonds patrimoniaux, comme celui de la bibliothèque nationale et universitaire de Strasbourg qui a entrepris la numérisation de fonds divers dont un corpus de manuscrits relatifs à la mystique rhénane, sont en passe de faire l'objet de bases précieuses et recherchées pour la rareté ou l'intérêt des documents menacés de destruction. Dans le domaine patrimonial, signalons également à titre d'exemple, la bibliothèque Interuniversitaire de médecine (BIUM) à Paris, leader en matière d'histoire de la médecine, qui a adopté une politique de numérisation dynamique pour accompagner les initiatives des chercheurs et bâtir des partenariats scientifiques privilégiés. Son objectif vise à mettre à disposition du public des ensembles de textes rares comme par exemple ceux d'Hippocrate, de Galien ou de Pline.
Le Muséum national d'histoire naturelle fut l'un des pionniers en mettant sur son site, principalement l'intranet, des banques d'images, mal connues et peu accessibles.
/. hnp -H www culture fi U ultui eimrt'numei isatwn.
| Les publics
par Thierry Delcourt
La démarche la plus habituelle pour monter un projet de numérisation consiste à identifier d'abord un corpus documentaire (fonds constitué ou documents rassemblés spécifiquement selon des critères intellectuels ou physiques), puis à déterminer la faisabilité de la numérisation en vérifiant la disponibilité, la qualité du signalement et l'état de conservation des documents, leurs caractéristiques techniques externes (format, support, lisibilité), la question des droits d'auteur et enfin l'adéquation entre le coût de l'opération et le budget disponible.
Cette approche pragmatique ne doit cependant pas empêcher les bibliothécaires de s'interroger, avant le démarrage d'un projet de numérisation, sur les publics visés. Cette réflexion est même un préalable indispensable, car elle peut induire certains choix techniques (notamment en ce qui concerne la résolution et le poids des images), ou entraîner des conséquences lourdes pour l'établissement, telles que l'achat de matériel et de logiciels de consultation, ou la mobilisation du personnel sur des tâches de traitement documentaire et d'indexation.
L'éventail des publics auxquels s'adressent les bibliothèques est aujourd'hui extrêmement large. La numérisation peut
Conduire un projet de numérisation
tous les concerner : chercheurs et étudiants, adultes (individuels ou en groupe), scolaires, touristes, nouveaux publics éloignés de la lecture... Grâce à Internet, elle permet également de toucher des utilisateurs lointains dont les attentes sont souvent particulières et qui ne peuvent bénéficier de l'aide des bibliothécaires. On n'insistera donc jamais assez sur la variété des attentes des utilisateurs de documents numérisés. Il faut en outre se rappeler que les contours des publics et de leurs besoins se modifient sans cesse, à mesure que les nouvelles technologies de l'information et de la communication se répandent et se banalisent.
C'est pourquoi la question des publics ne peut être dissociée de celles des usages - tant il est vrai qu'un individu utilisateur d'une bibliothèque peut rarement être réduit à une seule catégorie (chercheur spécialisé, curieux, touriste), et qu'il passera de l'une à l'autre suivant qu'il inscrira la consultation des documents numérisés dans une démarche professionnelle, de formation ou de loisir, et qu'il s'y adonnera seul ou dans un cadre collectif...
Nous avons distingué plusieurs usages possibles des documents numérisés en bibliothèque : un usage savant, un usage culturel, un usage pédagogique et un usage touristique. Ils s'exercent suivant des modalités variables : seul ou en groupe, sur place ou à distance. Sélection ou exhaustivité, mode texte ou mode image, indexation générale ou fine, résolution basse ou élevée... : c'est en fonction des usages et des modalités qu'elle souhaite encourager que la bibliothèque est amenée à faire ces choix, à chacune des étapes du projet de numérisation.
1. LA DIFFUSION
Pour chaque projet de numérisation, il convient de déterminer le(s) mode(s) de diffusion qu'on souhaite privilégier : consultation sur place, diffusion à distance via un serveur web,
Les publics
ou utilisation dans un but éditorial (livre, CD-ROM ou DVD). Ces trois modes de diffusion peuvent coexister dans le cadre d'un même projet de numérisation. Leur déploiement peut également faire l'objet d'une programmation dans le temps : par exemple, d'abord la consultation en local, sur quelques postes en réseau, puis la diffusion sur Internet, enfin des projets éditoriaux à long terme. Cette programmation peut obéir à plusieurs logiques parallèles : logique budgétaire et administrative, logique politique - voire être simplement le fruit d'opportunités saisies, telle la création d'un site web par la Mairie ou une proposition d'un éditeur.
L'idéal est, chaque fois que c'est possible, de numériser en tenant compte de ces trois modes de diffusion. Par exemple, si l'on est amené à fournir fréquemment des reproductions de certains documents précieux à des éditeurs d'art (c'est le cas pour les miniatures de manuscrits), on aura tout intérêt à conserver une version brute, non retouchée et non compressée, des fichiers correspondants ; si l'on dispose, pour la consultation sur place, d'écrans 19 pouces (voire au-delà), il faudra prévoir une résolution haute, qui permette d'utiliser au mieux leurs possibilités, etc.
En tout cas, il n'est plus envisageable, aujourd'hui, de numériser des documents sans prendre en compte leur diffusion sur le web, à plus ou moins longue échéance - et cela, même si la bibliothèque n'a pas de projet immédiat en ce sens. Tout projet de numérisation devra être mené avec l'idée que les documents seront, un jour ou l'autre, mis en ligne sur Internet. Il sera donc indispensable de stocker les données numérisées dans des formats compatibles avec les capacités actuelles du réseau, et d'organiser leur conservation de telle sorte qu'elles puissent être facilement réutilisables. C'est pourquoi il faut définir - et respecter - des règles précises pour le nommage et la documentation des fichiers et des supports de conservation, et éviter que cette information soit maîtrisée par une seule personne.
Conduire un projet de numérisation
2. LES PROJETS ÉDITORIAUX
Les bibliothèques qui conçoivent des projets d'édition multimédia utilisant des documents numérisés sont de plus en plus nombreuses. Même s'il s'agit d'opérations lourdes et coûteuses, qui nécessitent un partenariat avec des structures spécialisées, CD-ROM et DVD constituent - à côté des publications imprimées - l'un des moyens efficaces de mettre le patrimoine à la portée d'un public plus large.
La bibliothèque de Troyes a ainsi été associée à deux projets de publication de CD-ROM grand public. Trésors des premiers imprimeurs, produit en 1997 par l'association de coopération régionale Interbibly, a atteint son but : faire connaître les incunables des bibliothèques de Champagne-Ardenne à travers l'histoire de l'invention de l'imprimerie. Écrit par Dominique Brisson, auteur par ailleurs de nombreux CD-ROM culturels {Le Louvre, Orsay), édité et diffusé par Index +, il a reçu une Flèche d'or de la FNAC.
Le CD-ROM Louis-François, colporteur d'histoires répond à une approche différente. En 1999-2000, la conteuse Agnès Chavanon a conduit une résidence durant laquelle elle utilisait les bois gravés de la Bibliothèque bleue comme support pour faire inventer des histoires à des enfants et des adultes. De cette expérience est née l'idée d'un CD-ROM pédagogique et ludique, destiné prioritairement à un public de collégiens et qui associe trois établissements : le Musée national des arts et traditions populaires, le Musée de l'imprimerie de Lyon, et la bibliothèque de Troyes. L'arrière-plan historique en est le colportage, la littérature et l'imagerie populaires, et les bois gravés. A côté des jeux, qui constituent le cœur du projet, on y trouve également des éléments documentaires qui permettront un usage pédagogique en classe et en CDI, dans les espaces multimédia des bibliothèques ou à la maison.
Les publics
3. LES USAGES SAVANTS
L'utilisation des documents numériques à des fins d'étude ou de recherche est encore balbutiante dans les bibliothèques municipales, alors qu'elle est prise en compte depuis assez longtemps par les bibliothèques universitaires et la BnF. Il est vrai que les disciplines qui fournissent la très grande majorité des chercheurs en bibliothèque municipale - littérature, histoire, histoire du livre - ne se sont ouvertes que récemment aux nouvelles technologies. Ajoutons que le public des lycéens et des étudiants est encore souvent vu avec une certaine suspicion par nombre de bibliothèques municipales, qui considèrent que c'est aux CDI et aux bibliothèques universitaires de répondre aux demandes liées à leurs études.
3.1. Consultation sur place et à distance
La consultation sur place permet de répondre aux attentes des chercheurs et érudits qui se rendent à la bibliothèque pour travailler. Dans ce contexte, la numérisation permet à la fois de favoriser la conservation des originaux, qui seront moins consultés, et d'offrir de meilleurs services aux utilisateurs (possibilité d'obtenir facilement une copie des documents sur CD-ROM ou sur papier)... Elle vise alors un public spécialisé, qui souhaite avant tout disposer du document qu'il cherche le plus rapidement possible, avec une qualité de reproduction maximale et dans les meilleures conditions de confort.
Mais, de plus en plus, les chercheurs souhaitent aussi pouvoir consulter les ressources de la bibliothèque à distance, sans se déplacer. Les bibliothèques seront donc amenées à leur offrir, en particulier grâce à Internet, les mêmes services que sur place (sous réserve bien entendu que les droits correspondants aient été obtenus, s'il s'agit de documents couverts par le droit d'auteur).
Conduire un projet de numérisation
Chercheurs et étudiants peuvent être concernés par la numérisation de documents intégraux (documents patrimoniaux, thèses, « littérature grise »...), par la mise à disposition d'outils de repérage des sources, ou par la constitution de dossiers documentaires numériques. Le préalable indispensable de ces projets étant bien entendu que la bibliothèque ait le droit de numériser et de diffuser les documents concernés. C'est donc à leur intention qu'on constituera des catalogues enrichis (qui leur permettront d'affiner leur sélection de documents, à domicile ou sur place, avant qu'ils n'en demandent la communication ou la reproduction à la bibliothèque), des banques de textes ou d'images, des recueils de sommaires ou de tables de matières de revues savantes locales, que l'on numérisera intégralement des répertoires, des inventaires de fonds, voire des catalogues qu'on n'aura pas jugé utile ou souhaitable d'inclure dans un programme de conversion rétrospective traditionnelle. Tous ces outils pourront être diffusés sur le web et, dans certains cas, sous forme de CD-ROM.
Les exemples d'établissements qui mènent des projets de ce type sont de plus en plus nombreux : après la Bibliothèque nationale de France, les bibliothèques municipales de Valenciennes et de Lyon ont fait figure de pionnières. Elles sont aujourd'hui suivies par beaucoup d'autres, qui inscrivent de plus en plus leur démarche dans un cadre coopératif : plans régionaux de numérisation dans le cadre des contrats de plan, projets pilotés par le ministère de la Culture (par exemple le plan de numérisation des microfilms de manuscrits médiévaux de l'Institut de recherche et d'histoire des textes).
On pourra également tenir à jour pour eux des dossiers documentaires d'intérêt local, d'actualité, ou liés aux programmes scolaires et universitaires. Ces dossiers permettent d'exploiter au mieux, en la regroupant de manière thématique, une information éparse et souvent difficilement accessible dans les périodiques. Mais ils supposent que la question des droits ait été réglée au préalable avec les éditeurs. Il faut également être conscient que cette activité représente une charge de travail énorme, dont on devra
Les publics
bien peser l'impact à long terme avant de s'y engager : identification des thèmes de dossiers, sélection des documents, indexation, élimination des documents obsolètes.
Enfin, même s'ils sont encore embryonnaires, les services de numérisation à la demande se développent rapidement. On peut également évoquer le succès des services de fourniture de livres à la demande qui utilisent la numérisation, tel celui qui a été développé à Lyon et à Troyes en partenariat avec Librissimo / Phénix Éditions.
3.2. Les conséquences pour les bibliothèques
Envisager un usage savant, ou de recherche, des documents numérisés entraîne donc plusieurs conséquences lourdes pour l'établissement.
Il faudra, chaque fois que c'est possible, viser l'exhaustivité plutôt que l'échantillonnage. Les chercheurs ont besoin de disposer de la totalité des fonds qui les intéressent. Il est souvent utile de discuter de leurs besoins avec les habitués de la bibliothèque. On constatera alors qu'il faut avant tout éviter d'établir une sélection a priori. A un projet de numérisation des « cent plus belles miniatures de la bibliothèque », les historiens de l'art préféreront un programme, étalé dans le temps, qui couvre progressivement l'ensemble de la collection, et dont le résultat gardera une certaine cohérence même s'il doit être interrompu prématurément : une programmation chronologique ou par fonds et/ou scriptorium aura alors toute sa légitimité.
Les documents écrits seront de préférence numérisés en mode texte (et non en mode image) afin que les chercheurs puissent accéder à leur contenu. Même si cette opération présente des inconvénients (notamment la quasi obligation de relire les textes numérisés, en raison des lacunes des logiciels d'OCR, qui laissent un taux d'erreur élevé,tout particulièrement pour les
Conduire un projet de numérisation
documents anciens), elle permet de limiter l'indexation du contenu, puisque les utilisateurs peuvent utiliser la recherche en texte intégral sur les fichiers ainsi obtenus. Les documents intégrés dans des dossiers documentaires (notamment les articles de journaux) pourront en revanche être numérisés en mode image, car on y trouve généralement à la fois du texte, des photographies, des graphiques.
L'indexation est en effet l'une des principales contraintes induites par l'usage savant des documents numérisés. Ainsi, les images nécessitent le recours à des thésaurus spécifiques (tel celui de l'abbé Garnier pour l'iconographie religieuse) que peu de bibliothécaires maîtrisent. Plus généralement, le traitement des documents numérisés à des fins de recherche implique à la fois des compétences pointues dans le domaine concerné, une bonne maîtrise des nouveaux outils d'indexation, et surtout une forte disponibilité sur une durée assez longue.
La numérisation proprement dite ne représente donc que la partie émergée d'un projet de numérisation orienté vers l'usage savant. De la réponse à la question du personnel qui peut y être affecté - compétences de contenu, maîtrise technique, disponibilité - dépend son succès ou son échec.
4. LES USAGES CULTURELS ET DE LOISIR
On peut consulter des documents numérisés, à des fins d'enrichissement culturel et de loisir, de deux façons : seul (à la bibliothèque ou chez soi), ou en groupe. En fonction de l'un ou l'autre usage, les modalités de présentation et d'exploitation des documents sont assez différentes pour la bibliothèque.
Les publics
4.1. L'usage culturel individuel
La consultation individuelle, culturelle, de loisir ou d'information, est sans doute l'usage le moins aisé à cerner, car elle correspond à une attente particulière à chaque lecteur. Les difficultés que rencontrent les bibliothécaires pour définir une politique d'acquisition en direction du « grand public » se retrouvent à l'identique lors de la conception d'un projet de numérisation qui lui serait destiné. Son ambition peut sans doute être définie de la manière suivante : satisfaire la curiosité, l'envie de découverte culturelle, d'utilisateurs dont les besoins spécifiques ne sont pas définis au préalable, et qui - sauf exception - doivent être considérés comme autonomes dans leur démarche.
Il va de soi que le grand public non érudit peut consulter, comme les chercheurs, les bibliothèques virtuelles et les catalogues enrichis. Mais ces outils ne donnent que des informations brutes, qui ne permettent guère de satisfaire la curiosité d'un lecteur butinant à l'aventure. Il vaut donc mieux privilégier une présentation qui associe des documents, des commentaires, des liens hypertexte, des renvois à des sites web, etc. Il peut s'agir d'expositions virtuelles ou de dossiers documentaires organisés, dans lesquels le lecteur est guidé vers la découverte d'un savoir nouveau.
Ces outils sont très utiles, mais ils présentent de sérieuses contraintes si l'on ne veut pas décourager les utilisateurs. Les embûches sont nombreuses : textes trop longs ou pas assez explicites pour des utilisateurs qui ne connaissent rien au sujet traité ; documents trop nombreux ; mise en page statique ; amateurisme de la présentation. Les expositions virtuelles doivent être réalisées comme des expositions réelles, avec un commissaire responsable et un graphiste / scénographe professionnel (appartenant ou non à l'équipe de la bibliothèque). Elles nécessitent donc du temps, des compétences, des moyens.
Conduire un projet de numérisation
Comme les expositions réelles, elles doivent être renouvelées régulièrement. Il en va de même des dossiers documentaires, qui doivent être constamment tenus à jour et rafraîchis, par ajout de nouveaux documents et par suppression de données obsolètes. Il est donc quasiment indispensable que la bibliothèque dispose, en interne, des moyens (matériel, logiciels, compétences) pour réaliser elle-même ses expositions virtuelles, sans passer, par exemple, par le service de communication de la collectivité.
Enfin, il convient de cibler assez précisément les tranches d'âge visées : on ne conçoit pas de la même façon une exposition ou un dossier pour des adultes, de jeunes enfants ou des adolescents. L'exposition virtuelle de la bibliothèque de Troyes sur les Fêtes de la bonneterie, qui s'appuie sur une exposition réelle réalisée en 1997 dans le cadre du mois du patrimoine écrit, a ainsi été conçue prioritairement pour un public d'adultes, voire de personnes âgées, qui s'intéressent à l'histoire locale, et plus particulièrement aux traditions liées à l'industrie. Elle sert aussi de support à des animations menées dans le cadre de maisons de retraite et de clubs du 3e âge, où l'on trouve beaucoup d'anciens ouvriers de la bonneterie.
Les CD-ROM ou DVD édités qui intègrent des documents numérisés de la bibliothèque sont conçus, le plus souvent, pour un usage prioritairement individuel. On pourra donc les mettre à la disposition du public sur le réseau informatique de la bibliothèque, pour consultation sur place, et bien sûr dans les collections empruntables. Mais ils pourront aussi faire l'objet de présentations en groupe dans le cadre d'ateliers.
4.2. L'usage culturel de groupe
Au contraire de la consultation individuelle, l'usage en groupe des documents numérisés, à des fins culturelles, suppose un encadrement spécifique par du personnel de la bibliothèque ou formé par elle. Le projet de numérisation doit alors s'inscrire
Les publics
dans une programmation conçue en partenariat étroit avec les personnels qui sont appelés à animer ces ateliers.
Deux types de projets de groupe utilisant des documents numérisés sont possibles : des ateliers limités à la présentation et à la découverte du patrimoine, ou des ateliers de création multimédia. Les premiers ne nécessitent qu'un matériel réduit, et peuvent même être conduits à l'extérieur de la bibliothèque pour peu qu'on dispose d'un ordinateur portable. Ils peuvent s'appuyer sur des expositions virtuelles. Les seconds sont bien entendu beaucoup plus lourds et nécessitent un équipement important (postes en réseau, scanner, imprimante couleur, graveur).
Pour les séances de découverte comme pour les ateliers de création, il est indispensable de disposer d'un réservoir de documents de la bibliothèque numérisés à l'avance - tout en ne s'interdisant pas d'utiliser d'autres sources que locales (CD-ROM édités, tel Le Trésor des humbles sur les manuscrits de Cîteaux, celui sur les manuscrits musicaux de la BIU de Montpellier et Trésors des premiers imprimeurs sur les incunables, ou sites web comme Gallica). Les participants aux ateliers de création pourront enrichir le corpus en y intégrant eux-mêmes d'autres documents.
Ce réservoir doit être à la fois riche, représentatif du thème présenté, facilement consultable dans un temps réduit (ce qui suppose une organisation simple des fichiers), bien documenté (la qualité du légendage des images est cruciale). On évitera donc toute sophistication dans les interfaces de consultation, et l'utilisation de logiciels professionnels complexes qui risqueraient de dérouter les stagiaires et de rendre le produit final de l'atelier incompatible avec l'équipement domestique courant. C'est aussi pourquoi les images devront être stockées en JPEG.
Les fonds patrimoniaux sont une source inépuisable pour ce type d'activités. Outre les grands classiques que constituent les manuscrits et les incunables, la documentation locale permet d'imaginer une infinité de projets. Avec les groupes de seniors.
Conduire un projet de numérisation
on pourra ainsi travailler sur la mémoire de la ville (par exemple autour des conditions de travail en usine, des grands événements, des changements dans l'urbanisme...) ; pour les jeunes, on pourra imaginer des ateliers consacrés à l'histoire du club de football... L'actualité peut aussi fournir le prétexte à des animations : les élections, le passage du Tour de France, un anniversaire, une fête locale sont autant de prétextes à saisir. On peut même imaginer de « coller » à une actualité moins heureuse : à l'occasion de la récente épidémie de fièvre aphteuse, il eût été intéressant de créer un dossier multimédia sur l'histoire de cette maladie à travers les livres et la presse, nationale ou locale...
Ces ateliers de groupe ne sont pas réservés au public cultivé. À Troyes, une médiatrice du patrimoine travaille ainsi, pour une partie de son temps, avec les bibliothécaires, les médiateurs du livre et les animateurs de l'espace culture multimédia, sur des projets de diffusion du patrimoine à destination des nouveaux publics, en partenariat avec des structures extérieures à la bibliothèque -maisons de retraite, centres de loisirs, associations d'insertion et de lutte contre l'illettrisme, mission locale, restaurants du cœur... Les projets, qui s'inscrivent en général dans une démarche globale de longue durée où l'on trouve également des actions de lecture à haute voix, des ateliers d'écriture ou de calligraphie, des interventions autour du graphisme etc., se déroulent en plusieurs étapes : après que les centres d'intérêt des participants ont été identifiés, la médiatrice s'appuie le plus souvent sur des produits multimédia élaborés (CD-ROM culturels ou ludiques en lien avec le patrimoine de la bibliothèque) pour une première sensibilisation dans les structures partenaires. Une visite du fonds ancien, avec présentation de documents originaux, permet ensuite de développer des actions plus élaborées qui peuvent aller des ateliers de reliure ou d'enluminure à la création de pages web et de CD-ROM. Nous avons ainsi pu vivre des moments très émouvants, par exemple lorsque des stagiaires des APP, après avoir consulté le CD-ROM Le Trésor des humbles et les miniatures de Clairvaux numérisées,
Les publics
sont venus avec plusieurs heures d'avance au rendez-vous de la bibliothèque pour être sûrs de ne pas manquer la visite du fonds ancien.
5. LES USAGES PÉDAGOGIQUES
Le contexte de l'accueil des élèves en bibliothèque a profondément changé durant la dernière décennie. Certes, les bibliothèques accueillent depuis longtemps des classes dans leurs sections jeunesse. Mais, désormais, l'action en direction du milieu scolaire se constitue de plus en plus en démarches de projet, qui associent bibliothécaires et enseignants durant toute une année scolaire.
Depuis quelques années, certaines bibliothèques ont mis en place, autour de leurs fonds patrimoniaux, de véritables services éducatifs, en général assurés par des enseignants mis à leur disposition, une ou deux demi-journées par semaine, par l'Éducation nationale. En outre, les bibliothèques sont souvent parties prenantes des Contrats Éducatifs Locaux, destinés à favoriser les pratiques culturelles (mais aussi sportives) dans le temps péri- et extrascolaire. Enfin, les espaces d'initiation au multimédia sont très largement ouverts à l'accueil de classes ou de centres de loisirs.
5.1. L'éventail des projets possibles
Les possibilités de projets pédagogiques autour du patrimoine, au sens large, sont aussi variées que les fonds eux-mêmes. Avec les classes de cinquième, on travaillera par exemple sur la civilisation médiévale à partir des manuscrits. La presse du XIXe siècle intéressera davantage les lycées. En primaire ou en collège, on mettra en place des ateliers de pratique artistique sur
Conduire un projet de numérisation
le conte, l'écriture, le dessin, la création multimédia... qui pourront s'appuyer en partie sur le patrimoine écrit.
Comment intégrer des documents numérisés dans ces projets ? Dans certains cas, le travail sur écran - qui peut se faire dans le cadre scolaire - sera un préalable à la découverte des documents originaux, qui se fera dans un second temps, à la bibliothèque. Il importe alors de proposer aux enseignants des sélections limitées, mais représentatives, des documents étudiés, sous la forme de bases en ligne ou de CD-ROM. Celles-ci devront être accompagnées de supports pédagogiques spécifiques, sur papier ou sur écran : présentation du contexte et des documents, questionnaires à remplir par les élèves...
Le service pédagogique de la bibliothèque de Troyes, qui associe un enseignant d'histoire-géographie, une bibliothécaire et une médiatrice du patrimoine, s'appuie ainsi sur divers produits multimédias édités (ceux déjà cités sur les manuscrits ou l'invention de l'imprimerie, mais aussi VEncyclopédie de Diderot et d'Alembert sur CD-ROM), et sur des sélections de documents numérisés : miniatures, incunables, livrets de colportage de la bibliothèque bleue, bientôt journaux du XIXe siècle. Les dossiers pédagogiques correspondants sont progressivement mis en ligne sur le site de la bibliothèque, pour permettre aux enseignants de préparer la découverte, toujours indispensable, des documents originaux.
Les fonds numérisés sont également mis à contribution lors des classes-patrimoine. Ils peuvent également servir de support à des projets de création multimédia : constitution de dossiers thématiques par les élèves à partir de la bibliothèque virtuelle, ou réalisation de produits à part entière - CD-ROM ou site web, par exemple dans le cadre de classes-multimédia. Les fonds patrimoniaux des bibliothèques permettent de couvrir la plupart des disciplines : histoire et lettres, bien sûr, mais aussi sciences de la vie et de la terre à partir des bestiaires, géographie avec les atlas, arts plastiques...
Les publics
Le projet de numérisation devra alors être conçu, en amont, en partenariat étroit avec les enseignants concernés et, si possible, l'Inspection académique, qui permettront au bibliothécaire de réaliser une sélection large correspondant à leurs besoins. L'espace culture multimédia de la bibliothèque et le service éducatif de la ville de Troyes ont ainsi monté, avec une classe de ZEP, un projet de création assistée par ordinateur d'un dessin animé, sur le scénario du Chevalier de la charrette (Lancelot) de Chrétien de Troyes, qui utilise comme répertoire de décors et de personnages les miniatures numérisées d'une Bible historiale du XIIF siècle.
L'utilisation pédagogique des documents numérisés implique une forte réactivité de la bibliothèque, en rapport avec les projets montés en début d'année avec les enseignants. Sauf s'il dispose d'un réservoir déjà très riche de ressources numériques, il est donc souhaitable que l'établissement se dote d'un équipement de numérisation en interne (scanner, logiciel de traitement de l'image, graveur de CD-ROM) pour pouvoir réaliser des corpus à la demande, et enrichir ainsi progressivement sa bibliothèque virtuelle.
6. LES USAGES TOURISTIQUES
La fonction touristique des bibliothèques est encore peu développée en France, même si certaines villes utilisent déjà leur patrimoine écrit comme un outil de promotion touristique, au même titre que les musées ou les monuments. L'exemple le plus frappant en est Avranches, dans la Manche, qui se définit comme la « cité des manuscrits du Mont Saint-Michel ». La future BMVR de Troyes intégrera également une dimension touristique particulièrement développée.
Conduire un projet de numérisation
Plus généralement, un projet de numérisation peut s'intégrer dans une démarche de cet ordre, soit à l'occasion d'une exposition particulièrement importante, soit dans le cadre d'un partenariat avec d'autres établissements. Les musées, en particulier, peuvent être amenés à compléter leurs collections par des fonds conservés dans les bibliothèques : au-delà même des gravures, des estampes, des dessins ou des monnaies, qui sont souvent répartis entre ces deux types d'établissements, on peut imaginer des projets de numérisation qui rapprochent les manuscrits médiévaux des bibliothèques, les vitraux et la statuaire des églises, et les ivoires, émaux ou peintures conservés par les musées.
6.1. Les bornes interactives
Pour un usage associé à une visite, on peut envisager deux types de projets de numérisation. Des bornes peuvent venir ponctuer le parcours d'exposition, afin de compléter la présentation statique des objets par un élément plus dynamique et pédagogique. Dans ce cas, la consultation ne doit pas excéder quelques minutes (trois à cinq au grand maximum), l'interactivité de la borne doit être simple (l'écran tactile est l'idéal), et elle ne doit pas être redondante avec l'exposition elle-même. Les documents numérisés seront intégrés dans un produit complexe, scénarisé, où les éléments graphiques et dynamiques, le son et la vidéo tiendront une grande place.
Plus qu'un simple projet de numérisation, la conception de ce type de borne représente donc un véritable projet multimédia qui nécessite des compétences très particulières, qu'on trouvera le plus souvent en dehors de la bibliothèque en faisant appel à des prestataires spécialisés. Son coût est généralement très élevé, au minimum de 10 000 €.
Les publics
6.2. Les catalogues multimédia
Par ailleurs, à l'issue du parcours, il est possible de présenter, sur des postes multimédia traditionnels, un produit multimédia qui reprenne, en les complétant, les éléments numérisés -objets, panneaux, cartels - que le visiteur vient de voir. Sur CD-ROM ou DVD, il constituera une sorte de catalogue multimédia de l'exposition, et pourra être commercialisé au même titre qu'un catalogue papier.
Le catalogue multimédia n'est guère pratiqué pour le moment que par les grands établissements, à l'occasion de manifestations particulièrement prestigieuses. Pensons notamment aux très beaux CD-ROM édités par la Bibliothèque nationale de France lors de ses expositions. Mais il s'agit alors de produits culturels complexes, avec une interactivité forte et une présentation luxueuse, absolument pas à la portée des bibliothèques municipales ou universitaires.
11 est cependant possible de produire des CD-ROM beaucoup plus simples, dont la conception et la réalisation ne reviendra pas forcément beaucoup plus cher que la mise en page et la composition d'un catalogue imprimé en couleurs. En outre, la duplication d'un CD-ROM étant nettement moins onéreuse que l'impression d'un livre, on pourra finalement obtenir un prix de vente attractif.
Compte tenu de son coût relativement faible, ce type de produit multimédia simple peut en réalité constituer une réponse au problème récurrent de la mévente des catalogues d'exposition imprimés.
CONCLUSION
La numérisation peut être un excellent moyen de fédérer les gestionnaires de collections, les techniciens et les médiateurs
Conduire un projet de numérisation
autour d'un projet commun. Cependant, le recul manque pour juger de sa réception par le public des bibliothèques.
Les usages savants sont encore difficiles à évaluer, car les corpus numériques demeurent souvent fragmentaires. Toutes les études menées en bibliothèque universitaire, dans les grands établissements et à l'étranger (en particulier aux États-Unis) montrent toutefois que les chercheurs utilisent très rapidement, et intensément, les documents mis à leur disposition dès lors qu'ils correspondent à leurs attentes. De même, les services de fourniture de documents à la demande ont sans doute un grand avenir dans les bibliothèques riches en fonds patrimoniaux. Compte tenu de la maîtrise des nouvelles technologies par les enfants et les adolescents, l'utilisation des documents numérisés à des fins pédagogiques semble également une évidence.
Les principales interrogations concernent les usages culturels (et, plus marginalement car ils sont moins répandus en bibliothèque, touristiques). Au vu de certaines difficultés rencontrées, notamment lorsque des projets où la technologie occupait une grande part ont été proposés à des publics peu habitués aux nouvelles technologies, la numérisation n'a alors de sens que si elle n'est ni mythifiée, ni utilisée comme un gadget, mais considérée comme un moyen parmi d'autres de parvenir au but que l'on s'est fixé. Expositions virtuelles, ateliers multimédia, publications électroniques sont légitimes et utiles chaque fois qu'ils s'inscrivent dans une démarche cohérente dont l'objet n'est pas le numérique lui-même, mais le développement culturel des individus qui y participent.
Les utilisations multiples d'un document numérisé
par Thierry Delcourt
À l'issue du projet de numérisation des manuscrits de Clair-vaux, mené en partenariat avec les Archives départementales de l'Aube dans le cadre du programme national du ministère de la Culture en 1999-2000, la bibliothèque de Troyes disposait d'un réservoir d'environ 4 000 miniatures, enluminures et lettres ornées, qui font actuellement l'objet d'une exploitation poussée, sous les formes les plus variées et à destination de publics différents. Celle-ci a été rendue possible par le choix initial d'une numérisation simultanée en plusieurs résolutions, compatibles avec les contraintes d'une diffusion sur le web, en local et sous forme éditoriale :
- mise en ligne progressive de l'ensemble du fonds, dans le cadre d'une bibliothèque virtuelle consultable sur le site web de la Bibliothèque, soit par déplacement dans une arborescence, soit par divers critères d'interrogation ;
- réalisation d'expositions virtuelles (la première a été consacrée à la Bible de saint Bernard) ;
-ateliers de découverte destinés aux scolaires, à partir d'une centaine de vues qui peuvent être fournies aux enseignants sous la forme d'un CD-ROM ;
- conception de dossiers pédagogiques, qui sont peu à peu mis en ligne sur le site ;
- actions de diffusion en direction de publics éloignés de la lecture, réalisées par une médiatrice du patrimoine en lien avec des structures partenaires de la Bibliothèque (mission locale, associations d'insertion, groupes de lutte contre l'illettrisme...) ;
- ateliers de création dans le cadre de l'Espace Culture Multimédia, dont le premier, qui a débuté en mars 2001, consiste en la réalisation d'un dessin animé, sur le scénario du Chevalier de la charrette (Lanœlot) de Chrétien de Troyes, à partir des personnages et éléments de décor issus des miniatures d'une Bible historiale du XIII8 siècle ;
- participation à la publication d'un CD-ROM sur la fabrication des manuscrits, en partenariat avec plusieurs autres bibliothèques municipales (notamment celles de Châlons-en-Champagne, Avranches et Reims) et le musée Condé de Chantilly.
Une exploitation comparable est en cours ou en projet autour du fonds de livrets de colportage de la Bibliothèque bleue.
Numériser pour un public déficient visuel
par Carine El-Bekri Dinoird
1. NUMÉRISER POUR QUEL PUBLIC ?
Le handicap visuel affecte essentiellement l'accès à l'information écrite ou iconographique. Cet accès peut être de nos jours facilité en partie grâce aux nouvelles technologies de l'information. La population concernée est aujourd'hui importante. Lors d'une journée thématique sur le livre numérique organisée par l'association BrailleNet à la Cité des sciences de la Villette le 1" février 2000, Monique Duchateau estimait le nombre d'aveugles en France à 77 000 adultes, 15 000 en âge de travailler et un millier d'étudiants ; 7 000 d'entre eux seulement pratiqueraient le braille. En matière d'insertion dans le système éducatif classique des efforts notables ont été réalisés par des associations, des instituts spécialisés pour permettre la mise en place d'un système adapté ; pourtant ces efforts sont encore jugés insuffisants. Ce type de handicap atteint un nombre croissant de personnes du fait notamment de l'allongement de l'espérance de vie, et des troubles visuels qui accompagnent le vieillissement.
Quand on parle numérisation, de manière générale un corpus est d'abord défini, numérisé, diffusé, puis les utilisateurs décident de le consulter - ou de ne pas le consulter. De fait, notre politique de numérisation n'a pas suivi ce processus. C'est un public spécifique - des handicapés visuels - qui nous a engagés dans la numérisation d'un corpus spécifique. Il ne s'agissait donc pas de déterminer à l'avance un corpus pour un public, mais c'est le public - ici les déficients visuels - qui a fait le choix des documents à numériser.
Le support numérique retransformé - avec une lisibilité adaptée pour les besoins de ce type particulier d'usagers - a permis la mise en œuvre d'une numérisation « au coup par coup » - voire « au cas par cas », effectuée en fonction des demandes. Le fonds numérisé dont nous disposons correspond donc à l'ensemble de ces demandes toutes particulières.
2. LES SERVICES OFFERTS
2.1. Le service Déficients visuels au sein d'une bibliothèque La prise de conscience dans le monde universitaire de la
présence parmi le public étudiant d'handicapés visuels, a provoqué en 1992 la création du service Déficients visuels du service
Conduire un projet de numérisation
commun de la documentation de l'université de Reims-Champa-gne-Ardenne.
À l'évidence, l'université se devait non seulement de mieux les accueillir, mais de les accueillir tout simplement. Cela nécessitait l'aménagement de locaux et de services particuliers. Grâce au développement de la micro-informatique il est désormais possible d'envisager d'autres moyens de communication et d'information, d'autres manières de travailler.
Les services de médecine préventive universitaire constatent les difficultés multiples auxquelles se trouvent confrontés un nombre croissant d'étudiants aveugles ou malvoyants qui désirent suivre normalement un cursus universitaire dans de bonnes conditions. Ces étudiants souhaitent avoir la possibilité d'accéder à la documentation au même titre que tous les autres étudiants. Concernée au premier chef, la bibliothèque universitaire en coordination avec le service de médecine préventive universitaire et l'AGEFIRH (Agence française pour l'insertion professionnelle des personnes handicapées) a donc décidé la création du service Déficients visuels destiné aux étudiants de l'université de Reims mais également à toute personne potentiellement concernée par ce service (aussi bien sur place qu'à distance).
Le succès rencontré dès l'ouverture est la preuve que le service répond à un véritable besoin. Un financement privé peu important (mutuelle étudiante, banque, assurance et association caritative) et une subvention de l'AGEFIRH ont permis à l'atelier informatique de s'équiper de trois postes informatiques spécialisés, de recruter une bibliothécaire adjointe responsable du service (mi-temps pris sur les effectifs de la bibliothèque) et une employée contractuelle à mi-temps pour les travaux de saisie et de correction.
2.2. La fourniture de documents Le service avait une double mission : proposer aux étudiants
et aux usagers un service d'accueil sur place pour travailler sur les postes dédiés - cf. §3 « l'accès à l'information » - et un service d'impression braille ou de disquette à distance, par voie postale puis par le réseau. C'est ce service à distance qui s'est de plus en plus développé, principalement la fourniture de documents numérisés et
Les publics
corrigés, sur support disquette en format texte. Les usagers sont majoritairement éloignés géographiquement du service.
La capacité de fournir des documents corrigés, directement et immédiatement exploitables par les logiciels ad hoc est une spécificité du service rémois et l'une des raisons de son succès dans la prise en compte des besoins des usagers. Nous avons constaté un travail de correction important pour produire un document en format texte de qualité. Toutes les erreurs de transcription sont corrigées, car des textes simplement scannés en générant des problèmes de compréhension importants voire des contresens sont totalement inexploitables. Le nombre d'utilisateurs est relativement peu élevé (il oscille entre 30 et 50 usagers par an) mais leurs demandes sont lourdes à gérer : environ 10 000 pages scannées par an. Aujourd'hui, les sorties en braille - 2 000 en moyenne - intéressent de moins en moins de personnes et ont chuté cette année.
2.3. Des documents pour chaque type de public Les étudiants et professionnels, utilisateurs du service, ont
des besoins à la fois particuliers et spécifiques qui reflètent cependant parfaitement l'ensemble de notre public universitaire.
Même si la demande de numérisation de cours polycopiés peut sembler importante, ce sont les collections de la bibliothèque qui servent de base à notre travail de numérisation. Nous n'avons pas enrichi spécialement des collections à l'intention des utilisateurs. Le développement des enregistrements sonores ne nous est pas apparu d'une grande nécessité compte tenu de la demande qui correspond souvent à un intérêt soit culturel soit lié aux loisirs. Le fonds numérisé est donc l'expression des demandes spécifiques de nos usagers.
Pour une part importante, les ouvrages ou documents demandés relèvent du droit public (des traités), du droit administratif ; il s'agit également de mémoires de maîtrise ou de thèses de droit et d'économie. D'autre part, des manuels médicaux ont été numérisés pour répondre à la demande de professionnels, notamment kinésithérapeutes.
38 Conduire un projet de numérisation
3. L'ACCÈS À L'INFORMATION : LES OUTILS INFORMATIQUES OU DE LA MANIÈRE DE SE PROCURER DES TEXTES LORSQUE L'ON EST DÉFICIENT VISUEL
3.1. Les logiciels Grâce à l'évolution constante des nouvelles technologies de
l'information, les possibilités d'accès à l'information pour les personnes déficientes visuelles se sont grandement améliorées et développées.
Il est possible d'accéder aux documents à partir d'un texte numérisé, soit sous forme de disquette comme nous le proposons à la demande, soit sous la forme des CD-ROM de type « encyclopédies » ou de corpus en texte intégral édités de façon commerciale.
Signalons d'emblée la complexité d'utilisation de ces outils d'aide à la lecture.
Trois moyens sont actuellement à la disposition des non-voyants et malvoyants :
- si sa vision est suffisante, l'usager dispose de logiciels de grossissement de caractères affichés à l'écran, ces logiciels vont lui permettre d'adapter la taille, le contraste, la couleur et le mode de défilement des caractères en fonction de ses besoins propres ;
- si la vision est complètement défaillante, l'usager dispose de logiciels de synthèse vocale destinés à toute personne qui ne peut lire son écran et ne maîtrise pas le braille. Ces logiciels lisent les textes soit phrase par phrase, soit mot par mot ou lettre par lettre selon les besoins ou la difficulté de lecture ;
- enfin, la transcription en braille : les postes informatiques sont reliés à une « imprimante braille ». Le travail d'impression est dans ce cas beaucoup plus long et plus bruyant. La lecture peut s'effectuer également directement sur une plage tactile que le lecteur va découvrir au fur et à mesure du défilement du texte, il maîtrise dans ce cas la vitesse de défilement.
Le braille, seul système de lecture adapté aux aveugles nécessite un apprentissage assez long, c'est une technique complexe qui demande beaucoup de temps, à l'instar de la gymnastique imposée (aux yeux ou aux oreilles) pour le déchiffrement lettre par lettre.
Les publics
La transcription en braille sur papier a l'Inconvénient d'être très « gourmande » en volume (1 page en écriture normale produit environ 4 pages en braille).
3.2. Les postes de consultation L'atelier du SCD de Reims est composé de trois postes infor
matiques renouvelés au fil des évolutions technologiques ; ils correspondent aux trois usages possibles que nous venons de citer.
Pour les logiciels destinés au grossissement de caractères, un écran 20 pouces facilite la lecture. L'équipement a tendance à se standardiser et les coûts ont également baissé, un nombre croissant de personnes handicapées peuvent ainsi posséder leur propre équipement.
Notre vocation d'accueil au sein de la bibliothèque s'oriente vers une formation aux modes de consultation et de recherche de documents sur place ou de consultation et d'exploitation des textes à partir d'une disquette que nous fournissons.
3.3. Internet ? Le réseau Internet représente aujourd'hui pour les déficients
visuels une source d'information considérable, mais il ne faut pas sous estimer les difficultés d'accès à ce nouveau média. Si, comme nous l'avons décrit précédemment, un texte numérisé leur est désormais accessible, l'informatique peut générer une exclusion certaine si l'on ne veille pas à leur faciliter l'accès aux sites.
En se connectant à des serveurs spécialisés les déficients visuels peuvent découvrir de nombreux fonds documentaires ; cela n'eut jamais été possible dans des conditions de lecture traditionnelle. La presse quotidienne et scientifique, les bibliothèques du monde entier et les éditeurs proposent désormais quantité de fonds disponibles sous forme numérique. Cependant il importe, lors de l'élaboration des sites, de veiller au respect des normes d'accessibilité sous peine de rendre ces fonds numérisés inexploitables par les déficients visuels. Il est en effet indispensable, pour construire son site, de programmer les pages web de manière cohérente et structurée : les solutions adoptées (synthèse vocale ou terminal braille) pourront ainsi interpréter les données.
Conduire un projet de numérisation
> Les normes Des normes précises d'accessibilité permettent de tester les
sites et ont été rédigées dans le cadre du programme WAI (Web Acccessibility Initiative) financé en partie par des institutions nord-américaines (The US Department of Education's National Institute on Disability and Rehabilitation Research, Canada's Assistive Devices Industry Office), par des programmes de la Commission européenne et des fondations privées issues des grands groupes informatiques (comme Microsoft ou IBM par exemple). Le site www.w3.org/WAI décrit largement l'utilisation de ces règles. Ces normes sont basées sur le pragmatisme et la mise à jour permanente et adaptées aux évolutions technologiques. Elles listent notamment les règles à appliquer lors de la conception et de la réalisation de sites web et signalent les éléments qui risqueraient de faire définitivement obstacle à l'accessibilité et à la lisibilité des documents dans le cas de handicap visuel. Comment transcrire, par exemple, un schéma ou un dessin s'il n'est pas « traduit » en mode texte par une légende ? Comment naviguer dans des menus déroulants, des cases à cocher, des icônes. C'est le cas de la plupart des catalogues informatisés de bibliothèques accessibles via le web.
Selon le programme WAI, une page HTLM doit s'adapter à tous les usages possibles : quel que soit le type d'ordinateur, quelle que soit la main qui l'utilise, tout le monde doit être en mesure de lire cette page (y compris les malvoyants ou non-voyants). Ces conditions extrêmes témoignent d'une perception militante d'un monde où l'usage des nouvelles technologies de l'information doivent être accessibles à tous.
4. QUEL AVENIR ?
Militer pour promouvoir l'idée d'une numérisation dédiée aux déficients visuels exige conviction et persévérance. Peu d'universitaires ou d'institutions sont prêts à favoriser ces projets en octroyant des moyens financiers ou en personnel. Néanmoins, les grandes sociétés informatiques s'investissent dans le développement des outils de lecture, IBM, Microsoft, Apple développent tous des produits pour déficients visuels.
Les publics
Le service du SCD de Reims s'attache aujourd'hui à faire un état des lieux complet :
- il évalue ou réévalue les services proposés aux déficients visuels ;
-il s'interroge sur les inévitables questions relatives aux droits d'auteur.
Ce problème est d'actualité car pour l'heure la loi ne prévoit aucune disposition particulière pour les transcriptions de ce type -quant aux éditeurs, ils ne produisent que très rarement une édition en braille ;
- il essaie de trouver de nouvelles solutions pour faire progresser l'accessibilité et l'intégration des déficients visuels au sein de l'Université.
Quelle(s) incidence(s) sur notre savoir-faire avec l'apparition des e-books dont on peut penser qu'ils révolutionneront d'ici peu le monde de réd@ition scolaire et universitaire? Microsoft, en collaboration avec Puise Data, a annoncé l'élaboration d'une interface spéciale pour les mal voyants. L'objectif est de fournir soit une interface vocale soit une transcription en braille éphémère par le biais de la plage tactile.
Qu'en sera-t-il alors de notre modeste travail de numérisation ?
Aspects juridiques de la numérisation
par Valér ie Game
Parmi les différents domaines du droit privé, la propriété intellectuelle englobe le droit de la propriété industrielle et celui de la propriété littéraire et artistique. Comme le droit des brevets et marques, le droit d'auteur a pour objet la protection de la création.
Il trouve ses fondements dans le domaine littéraire avec l'apparition de l'imprimerie. Les privilèges, dits « de libraires », étaient délivrés par l'autorité royale. Ce n'est qu'à partir de 1760 que les auteurs se virent progressivement accorder également un droit. Ainsi, les petites-filles de La Fontaine obtinrent un privilège pour les Fables en 1761.
L'abolition des privilèges lors de la révolution française ouvrit une courte période de vide juridique rapidement comblé par deux lois promulguées, la première pour assurer la protection des auteurs de spectacles, la seconde pour donner aux auteurs d'écrits en tous genres le droit de jouir leur vie entière du droit exclusif de vendre leurs ouvrages et d'en céder la propriété en tout ou partie.
Conduire un projet de numérisation
Depuis lors, sur cette base assez sommaire, s'est développé un droit jurisprudentiel que la loi du 11 mars 1957 est venue consacrer. Ce texte a été régulièrement modifié et complété, le droit d'auteur montrant qu'il pouvait s'adapter aux avancées techniques comme le phonographe, le cinématographe, la photographie, la télédiffusion, le satellite...
Le développement des nouvelles technologies, la généralisation de la technique de numérisation et la rapidité de la communication par les réseaux ont modifié de manière radicale les conditions de diffusion de la création. Les auteurs voyaient leurs droits menacés.
Très vite, les théoriciens du droit se sont interrogés sur les effets de cette évolution sur le droit d'auteur : « transformation de nature ou simple modification de degré »'. La question s'est posée de savoir si les règles traditionnelles pouvaient continuer à s'appliquer ou s'il devait être envisagé de les réviser.
L'intérêt de maintenir dans ce nouvel environnement une ferme protection des auteurs afin de favoriser le développement de la création fut réaffirmé. Pour ce faire, il ne fut pas nécessaire de remettre en cause les grands principes du droit d'auteur, les textes internationaux et nationaux ont fait et font encore l'objet de simples précisions.
Les bibliothèques comme les autres institutions culturelles dont le rôle est de porter les créations à la connaissance du plus grand nombre sont nécessairement confrontées à l'application du droit de la propriété littéraire. Le développement des nouvelles technologies a rendu cette question plus présente dans leur univers ; jusqu'alors, seules les institutions en charge de l'archivage et de la communication de documents sonores ou audiovisuels s'y étaient trouvées réellement confrontées.
1. « Industries culturelles et nouvelles techniques ». rapport de la commission présidée par Pierre Sirinelh, juin 1994.
Aspects juridiques de ia numérisation
Il n'est plus envisageable aujourd'hui d'assurer une mission de lecture publique sans développer une politique de réseau, même s'il est encore tôt pour savoir si la priorité sera donnée aux réseaux inter bibliothèques ou au réseau Internet.
Quels sont ces droits attribués aux auteurs que doivent prendre en considération les utilisateurs des œuvres ? Quelles sont les questions qu'il convient de se poser afin d'agir en toute légalité ? Pour y répondre, il est indispensable de bien comprendre ce que recouvre le droit d'auteur et comment il s'applique aux différents types de documents susceptibles d'être numérisés dans les bibliothèques.
1. LES GRANDS PRINCIPES DU DROIT D'AUTEUR
La loi française distingue droit moral et droit patrimonial.
1.1. Le droit moral
Le droit moral est perpétuel et imprescriptible. Il perdure donc après la mort de l'auteur au profit de ses ayants droit. Il est composé de trois prérogatives essentielles :
- le droit de divulgation, en vertu duquel seul l'auteur décide de porter ou non son œuvre à la connaissance du public ;
- le droit à la paternité ; à savoir le droit pour l'auteur d'exiger que son nom soit apposé sur l'œuvre ou au contraire de choisir de la publier de manière anonyme ou sous un pseudonyme ;
- le droit au respect de l'œuvre, qui permet de la protéger contre toutes les atteintes qui pourraient y être portées (modifications, altérations, destruction...).
Il est également inaliénable.
Conduire un projet de numérisation
1.2. Les droits patrimoniaux
Les droits patrimoniaux sont temporaires. Au décès de l'auteur, le monopole d'exploitation d'une œuvre persiste au bénéfice de ses ayants droit pendant les soixante-dix années qui suivent. Le droit d'exploitation comprend le droit de représentation et le droit de reproduction.
La représentation consiste dans la communication au public par un procédé quelconque : récitation publique, projection publique, télédiffusion... La représentation s'entend également de la présentation publique, donc de l'exposition.
La reproduction consiste en la fixation matérielle de l'œuvre par tout procédé permettant de la communiquer au public de manière indirecte. La fixation matérielle peut s'effectuer par tous procédés : imprimerie, dessin, gravure, photographie, moulage, enregistrement mécanique, cinématographique, magnétique et numérique.
Ces droits sont exclusivement cessibles par l'auteur ou ses ayants droit. La cession peut intervenir à titre gratuit ou onéreux. Nul ne peut donc les exercer sans l'autorisation de l'auteur. L'acte de cession n'est licite que si chacun des droits cédés fait l'objet d'une mention distincte, si leur étendue et destination sont précisées ainsi que la durée et le lieu d'exploitation.
Les rares exceptions à l'autorisation de l'auteur listées par la loi sont interprétées de manière très restrictive par la jurisprudence. Lorsque l'œuvre a déjà été divulguée, seuls ne peuvent être interdits par l'auteur :
- les représentations privées et gratuites effectuées exclusivement dans un cercle de famille,
- les copies à usage privé ; - les impératifs par nécessité d'information (citations, ana
lyses, revues de presse, catalogues d'enchères publiques...) ; - la parodie, le pastiche et la caricature.
Aspects juridiques de la numérisation
Sont ainsi protégées toutes les œuvres sans considération de leur genre (littéraire, musical, les arts plastiques...), sans considération de leur mérite, et à la seule condition construite par la jurisprudence d'être originales c'est-à-dire, selon la formule des directives communautaires, d'être une création intellectuelle propre à son auteur.
2. L'UTILISATION DES ŒUVRES
2.1. La création littéraire et musicale
2.1.1. Le manuscrit
De nombreuses bibliothèques sont chargées de la conservation et de la gestion de manuscrits, patrimoine de l'État ou des collectivités locales.
Les brouillons d'écrivains suscitent un intérêt justifié, structuré autour de démarches scientifiques sur les secrets de la création. Les ventes d'autographes atteignent aujourd'hui des prix qui les placent sur un terrain comparable à celui du marché de l'art.
Un intérêt particulier se porte sur l'image des manuscrits ; leur commercialisation sous forme de fac-similés et leur numérisation pour communication en réseaux se développent. Or, pour numériser et mettre en réseau des manuscrits, il ne suffit pas d'en être propriétaire et détenteur mais, s'il s'agit d'une œuvre encore protégée au titre du droit d'auteur, il est indispensable d'avoir préalablement recueilli l'accord du ou des titulaires des droits de propriété intellectuelle afférents à cette œuvre.
L'image du manuscrit ne bénéficie pas d'une protection en tant que telle, l'objet de la protection est la « création
Conduire un projet de numérisation
intellectuelle », le contenu du texte. Ainsi, lorsque le texte est déjà publié, l'éditeur va être le plus souvent le titulaire des droits par cession de l'auteur ou de ses ayants droit.
Dans le cas des brouillons d'écrivains, il convient de veiller également au respect du droit moral de l'auteur. En effet, si le document qu'il est envisagé de numériser et de mettre en réseau n'est pas le manuscrit définitif du texte publié mais contient des états préparatoires, l'auteur n'en a pas toujours autorisé la divulgation.
La propriété matérielle est distincte et indépendante de la propriété intellectuelle d'une œuvre.
Le plus souvent, les institutions publiques ne détiennent que la propriété matérielle de leurs collections.
Il est en effet très rare qu'une bibliothèque se trouve investie de droits de propriété intellectuelle sur une œuvre. Il peut arriver exceptionnellement qu'un auteur ou un ayant droit sans héritier dans le cadre d'un legs transmette à la fois de la propriété matérielle et des droits de propriété intellectuelle de ses œuvres.
En outre, l'article L. 123-4 du code de la propriété intellectuelle (CPI) prévoit la naissance de droits patrimoniaux d'une durée de vingt-cinq ans au profit de celui qui détient la propriété matérielle d'une œuvre et procède ou fait procéder à l'édition de cette œuvre, lorsque celle-ci n'a jamais été communiquée au public du vivant de son auteur ni dans les 70 années suivant son décès. Cette prérogative est une exception au principe du droit d'auteur selon lequel propriété matérielle et propriété intellectuelle ne se confondent pas.
Si une personne publique est ainsi investie de droits d'auteur sur une œuvre, elle peut alors céder des droits patrimoniaux par contrat. Le contrat de cession permet de prévoir une rémunération proportionnelle, mais il permet surtout de délimiter le champ de la cession et son étendue. Il peut être décidé par exemple de ne pas attribuer aux même opérateurs le droit de publier sous forme de livre et celui d'exploiter sous forme numérique.
Aspects juridiques de la numérisation
Il doit être veillé en cédant un droit de reproduire un texte en vue d'une publication sous forme de livre, à ne pas se dessaisir de la libre utilisation de l'image d'un manuscrit en fac-similé. En effet, il est nécessaire parallèlement à l'utilisation qu'en ferait un tiers que l'institution puisse continuer à communiquer voire mettre en réseau en totalité ou en partie ce document.
C'est l'une des nombreuses raisons qui plaident pour que les institutions publiques ne concluent jamais de contrats de cession exclusive. A cette occasion, il doit être rappelé que l'absence d'exclusivité doit être expressément prévue au contrat, car selon la loi « l'auteur doit garantir à l'éditeur l'exercice paisible et, sauf convention contraire, exclusif du droit cédé » ( article L. 132-8 du CPI.)
La Bibliothèque nationale de France est souvent sollicitée en vue de l'édition de manuscrits inédits dont elle détient la propriété et cela est d'autant plus vrai pour les compositions musicales inédites.
Pour les compositions musicales, la Bibliothèque nationale de France a adhéré à la SACEM qui gère les droits de reproduction mécanique ainsi que d'exécution et de représentation publique des œuvres éditées à titre posthume. Les contrats particuliers conclus avec les éditeurs de musique renvoient à cette gestion par la SACEM et à l'application de ses barèmes pour la rémunération à percevoir. Seule la publication sous forme de livret donne lieu à une rémunération directement perçue par la bibliothèque.
2.1.2. La correspondance
L'intérêt actuel pour les œuvres manuscrites se porte également sur la correspondance. Il est d'usage de considérer que la correspondance d'une personne quelle qu'elle soit constitue une œuvre.
Conformément au principe déjà rappelé selon lequel propriété matérielle et propriété intellectuelle sont distinctes, deux
Conduire un projet de numérisation
droits trouvent en l'espèce application ; celui de la personne qui détient la correspondance pour l'avoir reçue et celui de son auteur.
La communication et plus encore la diffusion de correspondance suppose en conséquence de veiller tant au respect du droit de propriété intellectuelle de l'auteur qu'au respect de la vie privée de l'auteur, du destinataire ou de toute personne évoquée par la correspondance (article 9 du code civil).
Des réserves de communication peuvent être expressément formulées comme ce fut le cas pour les lettres de Victor Hugo à Juliette Drouet qui n'ont pu être communiquées qu'en 1964, ou les lettres de Romain Rolland à sa femme dont la communication est réservée jusqu'en 2004.
Les bibliothèques se doivent de respecter toute demande des auteurs de ne pas communiquer leurs écrits pendant une certaine durée conformément à l'exercice de leur droit de divulgation.
Elles doivent également respecter les conditions posées par les propriétaires des correspondances.
En effet, l'article 10 de la loi sur les archives du 3 janvier 1979 dispose que « lorsque l'État et les collectivités locales reçoivent des archives privées à titre de don, de legs, de cession, de dépôt révocable ou de dation au sens de la loi n0 68-1251 du 31 décembre 1968 tendant à favoriser la conservation du patrimoine artistique national, les administrations dépositaires sont tenues de respecter les conditions de conservation et de communication qui peuvent être mises par les propriétaires. »
Le respect dû à la vie privée s'applique même en l'absence de réserves de communication expressément formulées.
La question peut donc se poser de savoir si le respect de la vie privée peut limiter l'accès des lecteurs chercheurs à certains documents dans l'enceinte d'une bibliothèque
Il a été jugé (Cour de cassation, civil P chambre, 15.01.1969, Gazette du Palais 1969, jurisprudence p. 168) que « le dépôt d'un chartrier privé aux Archives nationales et l'autorisation donnée à
Aspects juridiques de la numérisation
celles-ci de le microfilmer n'impliquaient pas nécessairement le droit de le communiquer au public. »
En tout état de cause la numérisation et mise en réseau de correspondances suppose la plus grande prudence. Chaque situation ne pourra être appréciée qu'au cas par cas.
2.1.3. L'imprimé
L'expérience de la Bibliothèque nationale de France en matière de numérisation d'ouvrages imprimés est bien connue.
Il y a plus de dix années la Bibliothèque nationale de France engageait un programme de numérisation de cent mille ouvrages imprimés. Plus de quarante-cinq mille sont aujourd'hui consultables sur Internet, sur le site Gallica de la Bibliothèque nationale de France.
Le choix d'une bibliothèque numérique du XIXe siècle a soulevé pour sa constitution et sa communication de nombreuses difficultés.
Comme il s'agissait d'une expérimentation, la plupart des éditeurs, agissant comme titulaires des droits de leurs auteurs, avaient autorisé dans les années 1990 la numérisation.
En 1997, les conditions d'une mise en communication sur postes de lecture sur le site de la Bibliothèque nationale de France ont été encadrées dans un protocole d'accord avec le Syndicat national de l'édition (SNE).
Sur cette base, des contrats d'autorisation ont été conclus avec dix-sept éditeurs pour environ cinq mille ouvrages protégés.
Cette démarche contractuelle a montré ses limites et dans un secteur où la gestion collective n'est pas de tradition, l'obtention des autorisations nécessaires pour de massives numérisations est irréaliste. Il faut rappeler à ce titre que pour ces œuvres protégées, la Bibliothèque nationale de France n'a pas obtenu d'autorisation de mise en réseau.
Conduire un projet de numérisation
Pour les ouvrages protégés, l'objectif est de disposer dans la mesure du possible avant numérisation de toutes les autorisations correspondant aux utilisations envisagées.
Il n'est pas toujours possible d'anticiper toutes les utilisations futures, l'exemple de la Bibliothèque nationale de France le montre : comment imaginer en 1989 la demande actuelle de consultations à distance des fonds institutionnels à travers le réseau Internet ?
En l'absence de sites à accès payant qui pourraient constituer l'assiette d'une rémunération proportionnelle des ayant droits, la sélection en priorité d'ouvrages du domaine public en vue de leur numérisation est de facto devenue la voie privilégiée par les institutions.
Il convient néanmoins de déterminer avec précaution si une œuvre est ou non dans le domaine public.
[> Les éditions critiques L'édition critique d'une œuvre classique depuis longtemps
tombée dans le domaine public ne peut être numérisée et diffusée si l'appareil critique est encore protégé.
Les ouvrages critiques sont des œuvres dérivées, c'est à dire qu'elles reprennent des éléments d'une œuvre préexistante tout en y intégrant un travail nouveau et personnel.
Ainsi, une édition commentée de textes tombés dans le domaine public est absolument originale. Les droits sur cet ouvrage appartiennent à son auteur sa vie durant et soixante dix ans près sa mort à ses ayant droits.
Même en l'absence de commentaires et critiques, le CPI (article L.l 12-3) accorde protection aux auteurs d'anthologies ou de recueils d'œuvres ainsi que, depuis 1998, aux auteurs de bases de données qui par le choix ou la disposition des matières, constituent des créations intellectuelles.
Or, il est souvent difficile de connaître la date de décès de ces auteurs bénéficiant d'une notoriété moindre, afin de calculer la durée de protection.
Aspects juridiques de la numérisation
La date d'édition est utile, mais n'est qu'un repère. Un ouvrage édité en 1920, dont l'auteur aurait eu alors vingt ans et serait décédé à l'âge de quatre-vingts ans, soit en 1980, est encore protégée jusqu'en 2050. En l'absence d'identification de la date de décès d'un auteur, aucune numérisation et diffusion d'une œuvre ne pourrait raisonnablement être faite en 2001 d'éditions postérieures à 1870.
Il importe également, pour mesurer si un ouvrage est ou non dans le domaine public, de déterminer s'il s'agit d'une œuvre de collaboration ou d'une œuvre collective.
!> Œuvre de collaboration et œuvre collective • L'œuvre de collaboration est celle à laquelle ont concouru
plusieurs personnes physiques ayant une communauté d'inspiration.
Les participations de chacun doivent avoir été concertées. Les auteurs se connaissent entre eux et travaillent ensemble dans un projet commun.
L'œuvre de collaboration est protégée durant soixante dix ans après la mort du dernier des auteurs survivant.
• L'article L.l 13-2 du CPI définit l'œuvre collective comme étant celle « créée sur l'initiative d'une personne physique ou morale qui l'édite, la publie et la divulgue sous sa direction et sous son nom et dans laquelle la contribution personnelle des divers auteurs participant à son élaboration, se fond dans l'ensemble en vue duquel elle est conçue, sans qu'il soit possible d'attribuer à chacun d'eux un droit distinct sur l'ensemble réalisé. »
La personne morale compose et structure l'ouvrage comme elle le souhaite et elle l'édite, la publie et la divulgue sous son nom.
Le second critère de l'œuvre collective, à savoir l'impossibilité d'attribuer des droits distincts sur l'ensemble n'exclut pas l'identification des contributions comme le montre l'exemple des dictionnaires ou des journaux.
Conduire un projet de numérisation
La durée de protection des œuvres collectives est de soixante dix années à compter du 1er janvier de l'année civile suivant celle où elle a été publiée.
La qualification d'œuvre collective est donc attrayante dans la mesure où elle permet plus rapidement et à une date certaine de disposer librement de l'œuvre.
Mais la prudence exige pourtant de retenir largement la qualification d'œuvre de collaboration, régime de droit commun de l'œuvre créée par les efforts conjugués de plusieurs auteurs, l'œuvre collective n'étant que l'exception.
Ceci est d'autant plus nécessaire que la jurisprudence actuelle est ambiguë oscillant entre une interprétation restrictive favorisant les auteurs et une interprétation extensive favorisant les investisseurs.
2.1.4. Le reprint
Le reprint ou la reproduction fidèle d'un texte d'une ancienne édition sans changement de composition ne nécessite, par nature, aucune autorisation préalable de l'auteur si l'œuvre originale est tombée dans le domaine public.
Le fait par un éditeur de reprint de reproduire servilement une première édition épuisée, de même que sa numérisation, en particulier en mode image, ne font pas renaître des droits d'auteur au profit de l'œuvre reproduite.
Une partie minoritaire de la doctrine a tenté, à une certaine époque de soutenir que le travail éditorial de présentation du texte par ailleurs libre de droits (notamment sur les caractères typographiques choisis, la disposition des marges, etc...) était susceptible en soi d'être protégé au titre du droit d'auteur.
Cette conception a été rejetée par la jurisprudence (tribunal correctionnel de Laval 8 janv. 1964, tribunal correctionnel de Lille 13 juin 1961, cour d'appel de Douai 17 mai 1962, cour d'appel d'Aix-en-Provence 1980).
Aspects juridiques de la numérisation
Le débat a été réveillé par la reproduction par voie de numérisation et certains auteurs de doctrine voient dans le document numérisé en mode texte, une nouvelle œuvre en particulier en cas de création de modes de navigation dans le texte.
Si la numérisation d'une édition du domaine public ne fait pas renaître de protection au titre du droit d'auteur, le travail de l'éditeur bénéficie-t-il d'une protection sur un autre fondement juridique tel que par exemple l'action en concurrence déloyale ? (article 1382 du code civil)
Le champ traditionnel de cette action présuppose la mise en évidence d'un comportement fautif (s'attribuer la réputation d'un concurrent par exemple) mais une partie de la jurisprudence l'a étendu à l'ensemble des comportements pouvant être considérés comme des agissements parasitaires. Cette conception vise à sanctionner le simple fait de profiter du travail d'autrui.
Il existe en ce sens un arrêt isolé de la Cour de cassation déjà ancien (18 janvier 1982) lequel énonce que «la reproduction photographique en tant que procédé de copie servile dans le cas où il permet d'obtenir un prix de revient inférieur à ceux des produits copiés, constitue un acte de concurrence déloyale. »
C'est ce qui a conduit le SNE à recommander aux éditeurs de reprint de demander l'autorisation de l'éditeur d'origine de l'œuvre reproduite par procédé photographique, même lorsque cette dernière est libre de droits.
L'extension de cette interprétation à la reproduction numérique en mode image va de soi.
On peut toutefois s'interroger sur le bien-fondé de cette démarche visant à reconstituer ainsi un droit privatif sur une création tombée dans le domaine public.
Certainement, ce droit n'a en revanche pas vocation à s'appliquer en cas de nouvelle saisie et présentation du texte pour communication sur écran.
Conduire un projet de numérisation
2.1.5. La presse
Les articles rédigés par les journalistes (articles de fond, interview...) sont soumis au droit d'auteur dès lors qu'est respectée la condition d'originalité en tant qu'empreinte de la personnalité de l'auteur.
Les droits d'auteur appartiennent au journaliste même lorsqu'il agit sur instructions de son employeur.
Le contrat de travail qui lie le journaliste à l'organe de presse est sans incidence sur la titularité de ces droits (article L.l 11-1 du CPI).
Le cas des journalistes est cependant particulier : l'article L.121-8 alinéa 2 du CPI consacre indirectement le principe d'une cession automatique des droits patrimoniaux du journaliste à son employeur en ce qu'il dispose :
« pour toutes les œuvres publiées dans un journal ou dans un recueil périodique, l'auteur conserve, sauf stipulation contraire le droit de les faire reproduire et de les exploiter sous quelque forme que ce soit, pourvu que cette reproduction ou cette exploitation ne soit pas de nature à faire concurrence à ce journal ou à ce recueil périodique. »
Cela signifie à contrario que le journaliste ne peut s'opposer à une publication dans le journal auquel il est lié ce qui revient à reconnaître une cession de plein droit opérée par le contrat de travail.
Sur ce point, un débat a opposé ces deux dernières années journalistes et organes de presse au sujet de la mise en place d'éditions en ligne sur le réseau Internet.
Les décisions de justice rendues ont été défavorables aux organes de presse (USJF et SNJ c/ SDV Plurimédia « Dernières Nouvelles d'Alsace », tribunal de grande instance de Strasbourg 03.02.1998 ; «Le Progrès de Lyon », cour d'appel de Lyon, 9 décembre 1999 ; SNJ et huit journalistes c/Sté de gestion du Figaro, cour d'appel de Paris, 10 mai 2000).
Aspects juridiques de la numérisation
Les deux cours d'appel ont affirmé que l'exploitation télématique des journaux sur minitel et Internet devait être soumise à l'autorisation des journalistes.
Elles se sont notamment fondées sur les articles L. 131 -3 et L. 131-6 du CPI selon lesquels chaque cession doit faire l'objet d'une mention distincte et l'article 761-9 du code du travail qui subordonne à une convention expresse le droit de faire paraître dans plus d'un journal ou périodique les articles dont le journaliste est l'auteur.
Ainsi, en l'absence de convention expresse contraire, la rémunération versé au journaliste n'emporterait qu'un droit de reproduction épuisé dès la première publication.
Dans l'affaire du Progrès, la diffusion des éléments du journal pris séparément a eu une incidence certaine sur la position de la Cour. Celle-ci aurait-elle été différente si le journal avait été diffusé sur Internet dans son ensemble ?
Depuis lors, des accords ont été conclus entre le syndicat national des journalistes et les organes de presse concernés.
Le GESTE (Groupement des éditeurs de services en ligne), association créée à l'instigation de groupes de presse français en vue du développement des éditions en ligne, a défendu l'idée que l'éditeur de presse disposait d'un droit non contestable d'exploiter l'œuvre collective dont il est propriétaire. Il estime que la voie de la négociation collective pour les entreprises qui souhaitent s'engager dans l'exploitation en ligne constitue une réponse sociale appropriée mais considère que la négociation doit porter d'abord sur le plan salarial et que le mode de rémunération n'a pas à être modifié.
Ce groupement a mis en place une charte de l'Internet, qu'il conseille d'annexer à tout contrat d'édition en ligne (http:// www.geste.fr).
En tout état de cause, l'interlocuteur des bibliothèques qui souhaitent numériser des fonds de la presse est l'éditeur. La bibliothèque doit toutefois, compte tenu du contexte précité,
Conduire un projet de numérisation
s'assurer que l'organe de presse délivre son autorisation en accord avec ses journalistes.
2.2. La mise à disposition d'images - Cartes postales et photographies
Avant de numériser et mettre en réseau des fonds de cartes postales ou de photographies, il faut bien évidemment vérifier auparavant leur situation au regard du droit d'auteur mais il est également indispensable de veiller au respect d'autres règles juridiques telles que le droit à l'image.
La loi de 1957 avait limité le champ de la protection des photographies aux œuvres « artistiques et documentaires ». Les photographes durent attendre la loi de 1985 pour pouvoir bénéficier de la même protection que les autres créateurs.
Cette restriction a eu plusieurs conséquences. En particulier, de nombreuses photographies du début du siècle ne sont pas signées ce qui rend l'identification de leurs auteurs fort difficile.
Elles peuvent alors être traitées comme des œuvres anonymes.
L'article L. 123-3 du CPI prévoit que pour les œuvres anonymes la durée du droit exclusif est de soixante dix années à compter du 1er janvier de l'année civile suivant celle où l'œuvre a été publiée.
Toutefois, lorsque le ou les auteurs d'œuvres anonymes se sont fait connaître, la durée du droit exclusif redevient celle du régime général à savoir 70 années suivant le décès de l'auteur.
Il faut souligner que les photographes sont très attentifs au respect de l'exercice de leur droit de représentation y compris en cas de simple exposition. Ainsi, deux arrêts rendus par la cour d'appel de Paris le 20 septembre 2000 ont condamné sans indulgence Paris Bibliothèques pour avoir utilisé dans le cadre d'une
Aspects juridiques de la numérisation
exposition, les clichés de deux photographes sans autorisation préalable.
Cartes postales et photographies peuvent superposer plusieurs droits : les droits d'auteur des photographes qui viennent d'être évoqués mais également des droits attachés au sujet ou à l'objet photographié.
• La reproduction de la photographie peut être soumise à l'autorisation de l'auteur de l'objet photographié.
Ainsi, il n'est pas rare qu'une œuvre d'art graphique ou plastique ou bien une œuvre architecturale soit un sujet de photographie protégé en tant que tel.
Les autorisations pour reproduction et diffusion de ces œuvres peuvent être délivrées par des sociétés de gestion collectives. Dans le domaine de l'art graphique, l'ADAGP est représentative. Cette société de gestion collective a mis en place des barèmes pour mise en réseau.
• La reproduction de la photographie peut être soumise à l'autorisation des personnes photographiées.
Toute personne a sur son image et sur l'utilisation qui en est faite un droit absolu qui lui permet de s'opposer à sa reproduction et à sa diffusion sans son autorisation expresse, quel que soit le support autorisé.
Le droit à l'image est une composante des droits de la personnalité et sa protection repose sur l'article 9 du code civil : « chacun a droit au respect de sa vie privée. » Il s'agit d'un droit absolu et exclusif.
En outre, conformément au principe de spécialité du code de la propriété intellectuelle, l'autorisation donnée par une personne à l'exploitation sur un support déterminé ne vaut que pour ce support et doit être renouvelée pour toute exploitation autre que celle initialement prévue.
La protection porte également sur l'image des personnes décédées. La jurisprudence est en revanche plus incertaine en ce
Conduire un projet de numérisation
domaine et il est généralement jugé que la fixation de l'image d'une personne décédée n'est prohibée qu'en cas d'atteinte à la dignité de la personne humaine.
La simple atteinte du droit à l'image ouvre droit à réparation, la victime n'ayant pas à démontrer l'existence d'un préjudice.
Certaines nuances sont à apporter car la protection n'est pas absolue dans tous les cas.
- Une protection absolue est conférée à l'image d'une personne dans un lieu privé.
Le code pénal (art. 226-1) punit « d'un an d'emprisonnement et de 45 000 € d'amende le fait de porter atteinte à l'intimité de la vie privée d'autrui » en « fixant, enregistrant ou transmettant, sans le consentement de celle-ci, l'image d'une personne se trouvant dans un lieu privé. »
• Une protection plus relative est conférée à l'image d'une personne dans un lieu public.
Cette atténuation au principe découle du conflit entre le droit à l'image et la liberté d'information.
Au nom de la liberté d'information, la jurisprudence a tendance à tolérer la photographie et la diffusion d'un cliché. Cette tolérance s'accroît à mesure que la notoriété de la personne est grande. Si le principe demeure que toute personne, quelle que soit sa notoriété, possède un droit exclusif sur son image (cour d'appel de Paris, 12 septembre 1995), plus la personne est célèbre, plus sa représentation peut être liée à l'exigence d'information. Néanmoins, la photographie ne doit pas être utilisée hors du contexte dans lequel elle a été prise et ne vaut bien sûr pas pour la sphère privée des personnes publiques.
D'une façon générale, la jurisprudence sanctionne les cas où la prise de vue donne lieu à une exploitation commerciale alors même qu'une autorisation avait été donnée pour la prise de vue mais que l'exploitation commerciale n'était pas prévue à l'origine.
Aspects juridiques de la numérisation
Le droit de communiquer un ensemble de photographies à des chercheurs ne donne pas pour autant le droit de les numériser et de les mettre en réseau.
• La reproduction de la photographie peut être soumise à l'autorisation du propriétaire de l'immeuble photographié.
Le respect de la vie privée de la personne a une incidence en matière de reproduction de l'image des biens. En effet, la jurisprudence sanctionne la reproduction et la diffusion de l'image d'un bien réalisées sans l'autorisation du propriétaire du bien, lorsque cette publication porte atteinte à la vie privée ou à la respectabilité de ce dernier (par exemple, cour d'appel de Paris, 7 janvier 1991, diffusion de l'image d'un voilier sans l'autorisation de son propriétaire).
Plus récemment, la jurisprudence s'est orientée vers la reconnaissance d'une protection de l'image sur le fondement du droit de propriété (article 544 du code civil). Par un arrêt du 10 mars 1999, la Cour de cassation a considéré que la reproduction et la diffusion de cartes postales représentant le café de Bénouville portait atteinte au droit de jouissance du propriétaire et que le propriétaire avait seul le droit d'exploiter son bien sous quelque forme que ce soit.
Cette protection est toutefois plus limitée qu'elle ne ('apparaissait au premier abord. En effet, le 25 janvier 2000, la Cour de cassation refusait de casser un arrêt de la cour d'appel d'Angers en considérant que « les juges du fond ont caractérisé le trouble manifestement illicite causé » au propriétaire d'une péniche par la commercialisation de cartes postales de ladite péniche.
De même, la cour d'appel de Paris (31 mars 2000) a statué plus restrictivement sur la demande des propriétaires d'un château qui avait été représenté sous forme de dessin dans des livrets distribués gratuitement consacrés à la découverte du patrimoine. La cour d'appel les a déboutés au motif qu'il n'y avait ni trouble de jouissance, ni mise en péril du site, ni exploitation commerciale et que le souci pédagogique d'information relevait de la liberté d'expression.
Conduire un projet de numérisation
Enfin, la Cour de cassation, dans un arrêt du 2 mai 2001, a cassé un arrêt rendu le 24 novembre 1998 par la cour d'appel de Rennes au motif que la Cour avait interdit l'usage de la photographie de l'îlot de Roch Arhon sans préciser en quoi l'exploitation de la photographie portait un trouble certain au droit d'usage et de jouissance du propriétaire.
L'utilisation des images en vue d'une opération de numérisation doit donc être faite dans le triple respect des droits de propriété intellectuelle (photographe, œuvre représentée par l'image), des droits de la personnalité (droit au respect de la vie privée, droit à l'image) et des droits du propriétaire du bien représenté (impérativement en cas d'exploitation commerciale).
En outre, l'utilisation des images doit correspondre strictement au cadre de l'autorisation donnée.
CONCLUSION
La question du statut juridique des documents à reproduire et mettre en réseau est inévitable. Elle doit être posée avant l'acte de reproduction et doit être prise en compte au même titre que les critères scientifiques pour la sélection des documents à numériser.
Les bibliothèques et institutions culturelles se doivent d'être exemplaires dans l'application d'un dispositif mis en place par le ministère de la Culture pour protéger la création. Mais de nombreuses autres règles de droit trouvent application à l'occasion de la communication et diffusion du patrimoine culturel.
Les premiers réflexes juridiques nécessaires peuvent être complétés par chacun en se référant aux textes eux-mêmes, en consultant quelques revues spécialisées (y compris en ligne), ainsi qu'en s'adressant aux sociétés de gestion collective chargées de la perception et répartition des droits d'auteur. En complément à cette brève présentation, quelques textes de référence sont cités à titre indicatif en fin d'ouvrage.
La mise en œuvre de la numérisation
par Albert Sitruk
1. ÉLABORATION D'UN CAHIER DES CHARGES DE NUMÉRISATION
1.1. Introduction
Une opération de numérisation d'un fonds documentaire doit nécessairement s'inscrire dans un objectif global, lequel détermine les conditions de mise en œuvre et d'exploitation du fonds numérisé qui résulte de cette numérisation. Le simple fait de conduire une action de scanning ne peut se justifier en soi sans qu'auparavant on ait défini le contexte d'emploi des images numériques obtenues. Un tel projet implique notamment l'engagement de dépenses - en termes d'équipements et d'infrastructure informatiques - qui dépasseront largement le simple budget lié à l'opération de numérisation. Toute opération de numérisation doit donc s'inscrire dans un contexte de
Conduire un projet de numérisation
GED (gestion électronique de documents), quelle que soit la nature de cette GED - archivage, ou diffusion.
1.2. Les composantes fonctionnelles d'un système de GED
Afin de clarifier notre propos, nous rappelons succinctement les concepts fonctionnels ainsi que les technologies mis en jeu dans les systèmes de GED. Ce bref rappel permettra de préciser les concepts impliqués par ces technologies, de positionner les différents composants techniques dans une architecture globale et de rapporter ces composants à des fonctions bien déterminées de la chaîne de traitement du document.
1.2.1. Les différentes natures de documents numériques
Le schéma suivant positionne les différentes natures de documents intervenant dans une opération de numérisation et les traitements associés qui permettent de les convertir en données informatiques aptes à être exploitées par l'ordinateur.
Le principe général illustré décrit les transformations subies par des documents sous forme physique (papier ou autre) afin de les transformer en données informatiques de trois natures différentes :
1.2.1.1. Image « bitmap »
Chaque page est « photographiée » et transformée en une suite de points représentant des valeurs binaires (noir ou blanc, niveaux de gris ou composantes chromatiques).
Cette représentation s'obtient grâce aux techniques de numérisation lesquelles mettent notamment en jeu un scanner.
La mise en œuvre de la numérisation
On observera que cette représentation, sans autre traitement supplémentaire, ne permet pas d'autre exploitation du document que la simple consultation par affichage d'images. Il faut donc nécessairement accompagner chaque image d'une information d'identification permettant d'adjoindre à l'image numérique une information sémantique qui en permet l'exploitation (l'indexation documentaire).
1.2.1.2. Données caractères
Le document est constitué d'une suite de codes représentant les caractères qui le composent.
Cette représentation s'obtient de deux manières différentes : - à partir d'un poste de création de documents (traitement
de textes) dans ce cas le document possède une forme numérique au départ et ne nécessite pas de numérisation. Ce type de document conservera alors sa forme de présentation en plus de son contenu, si l'on maintient le format « texte riche » initial. Cette option limite cependant son utilisation à un environnement d'exploitation similaire à l'environnement de création. Certains afficheurs de documents savent néanmoins reproduire une grande partie de la présentation initiale pour des documents provenant des traitements de textes les plus courants (Word ou XML par exemple) ;
- par numérisation du document et application d'un traitement de lecture optique (OCR) aux images obtenues. Dans ce cas, seul le contenu textuel est récupéré, la présentation est généralement perdue. On peut obtenir une partie de la structure logique du document par reconnaissance des titres de paragraphes, par exemple. Dans ce cas, on obtiendra un format de données traitement de texte ou XML. Les techniques d'OCR sont développées plus loin.
Un document au format « caractères » permet une large exploitation tant au niveau de la recherche documentaire
Conduire un projet de numérisation
puisqu'il permet une indexation plein-texte du contenu, ce qui autorise une recherche par le contenu, qu'au niveau de sa réutilisation ou sa modification. On notera en outre que l'indexation plein-texte permet d'alléger l'indexation documentaire sans cependant l'éliminer totalement dans la mesure où il faudra quand même saisir certaines informations d'identification du document.
1.2.1.3. Données vectorielles
Cette forme de représentation est applicable aux plans ou schémas, dans laquelle les éléments géométriques composant le document sont codifiés.
Cette représentation s'obtient de deux manières : - à partir d'un poste de création de dessins (DAO, CAO), le
document initial est déjà sous forme numérique. Ce type de document conservera sa structuration en objets composés (formes liées, couches de dessins) à distinguer des simples formes géométriques de base. Il sera exploitable au moyen de l'environnement de DAO ou CAO qui aura permis sa production. Il existe certains visualiseurs qui permettent l'affichage des formats CAO les plus courants (Autocad par exemple) ;
-par vectorisation d'un plan scanné, cette opération étant effectuée par un programme de reconnaissance de formes. Le document obtenu possède une structure beaucoup plus simple que dans le cas précédent, on y retrouve que des formes géométriques élémentaires. En général, le fichier obtenu comporte un grand nombre de vecteurs (certaines formes non reconnues sont décomposées en autant de vecteurs élémentaires), ce qui rend parfois difficile son exploitation (affichage lent, stockage volumineux).
Un plan en format vectoriel peut être utilisé pour consultation et modification, ces opérations pouvant s'avérer
La mise en œuvre de la numérisation
néanmoins impraticables si la qualité de la vectorisation n'est pas suffisante.
Une troisième méthode est employée pour transformer un plan papier en représentation vectorielle. Cette méthode est entièrement manuelle, elle consiste, à l'aide d'une tablette graphique à redessiner le plan et à identifier les différents éléments qui le composent. Cette méthode est désignée sous le terme de « digitalisation » pour la distinguer de la numérisation. Le résultat obtenu est d'une grande qualité et permet un usage plus efficace du plan vectoriel. Cette méthode est notamment mise en œuvre pour la récupération de schémas anciens ou de plans de ville.
Nous voyons à travers l'analyse qui précède, que la finalité de la numérisation peut varier en fonction du contexte et de l'objectif de cette opération. Les images numériques obtenues se suffiront à elles-mêmes le plus fréquemment pour constituer une base de documents accessibles en consultation. Elles peuvent dans certains cas donner lieu à traitement ultérieur pour l'obtention de données informatiques autorisant une exploitation plus étendue qu'une simple image.
La mise en œuvre de la numérisation
1.2.2. L'architecture technique
Le schéma suivant identifie les composantes matérielles constituant un système de gestion de documents numérisés et leur interaction.
1.2.2.1. Le poste de numérisation
Le poste de numérisation comporte trois éléments : • Le PC de pilotage. C'est un composant standard qui se
distingue néanmoins par les caractéristiques suivantes : - un écran de grande dimension (19 ou 20 pouces) afin de
permettre le contrôle des documents scannés par affichage en mode pleine page ;
- une capacité disque suffisante pour stocker en local le volume correspondant à une production journalière (6 Go minimum). En fait, le transfert des images vers le serveur s'opère progressivement au fur et à mesure que les lots de numérisation s'écoulent. Il faut cependant prévoir les situations où le serveur est arrêté par exemple pour des raisons de maintenance, dans ce cas la numérisation ne sera pas interrompue ;
- le prix moyen d'un tel équipement se situe aux environ de 2 700 €.
• le scanner. On dimensionnera le scanner en fonction des volumes à traiter et de la nature des documents.
La mise en œuvre de la numérisation
Le tableau suivant indique les principaux scanners existants et les classifie en fonction de leurs nature, capacités et prix (observés fin 2001).
Modèle Capacités Prix
moyen observé
Scanner de pages noir et blanc Canon DR40B0 A3 - 47 pages/min - 100/600 dpi - duplex - 5 000 pages/jour 70 KF Canon DR5020 A3 - 90 pages/min - 200/400 dpi - duplex - 4 000 pages/jour 100 KF Fujitsu M3093 A4+ - 27 pages/min -100/600 dpi - duplex - 2 000 pages/jour 30 KF Fujitsu M3096 A3 - 22 pages/min -100/600 dpi - simplex - 2 000 pages/jour 40 KF Fujitsu M4097 A3 - 50 pages/min - 100/600 dpi - duplex - 3 000 pages/jour 60 KF Fujitsu 4099 A3 - 90 pages/min - 100/400 dpi - duplex - 5 000 pages/jour 180 KF Kodak 1500 A3 - 50 pages/min - 100/600 dpi - duplex - 3 000 pages/jour 60 KF Kodak 2500 A3 - 60 pages/min - 100/600 dpi - duplex - 5 000 pages/jour 80 KF Kodak 3500-3510 A3+ - 75 pages/min - 200/300 dpi - simplex ou duplex -
10 000 pages/jour 150 KF
Kodak 3520 A3+ - 85 pages/min - 200/300 dpi - duplex -10000 pages/jour
200 KF
Kodak 7520 A3+ - 120 pages/min - 70/300 dpi - simplex ou duplex -25 000 pages/jour
300 KF
Kodak 9520 A3+ - 160 pages/min - 70/300 dpi - simplex ou duplex -40 000 pages/jour
800 KF
Panasonic KV-SS25D A4+ - 20 pages/min - 150/300 dpi - duplex - 2 000 pages/jour 40 KF Panasonic KV-S2055 A3 - 50 pages/min - 100/600 dpi - duplex - 5 000 pages/jour 70 KF Panasonic KV-SS855 A3 - 85 pages/min - 100/400 dpi - duplex - 6 000 pages/jour 200 KF Ricoh IS420 A3 - 46 pages/min - 200/400 dpi simplex - 1 000 pages/jour 40 KF Ricoh IS430 A3 - 62 pages/min - 100/600 dpi - simplex ou duplex -
4 000 pages/jour 80 KF
Ricoh IS450 A3 - 70 pages/min200/400 dpi - simplex ou duplex -5 000 pages/jour
100 KF
Scanner de pages couleur Canon DR5080C A3 - 90 pages/min - 200/300/400dpi - duplex -
5 000 pages/jour 100 KF
Fujitsu 4750C A3 - 20 pages/min 150 dpi - duplex - 5 000 pages / jour 100 KF
Conduire un projet de numérisation
Modèle Capacités Prix
moyen observé
Kodak 3590C A3+ - 85 pages/min - 100/150 dpi - 100/150 dpi - duplex -5 000 pages / jour - bi-chromodal (premier plan en couleur,
arrière plan en N&B)
280 KF
Kodak 4500 A3+ - 85 pages/min - 100/150 dpi - simplex ou duplex -6 000 pages / jour
300 KF
Umax Powerlook 1100 A4 - 1200 x 2400 dpi max - 42 bits couleur -adaptateur pour diapos
10 KF
Umax Powerlook III A4 - 1200 x 2400 dpi max - 42 bits couleur -adaptateur pour diapos
20 KF
Umax Powerlook 2100 XL A3 - 800 x 1600 dpi max - adaptateur pour diapos 15 KF Scanner de microformes
ACS4200 Cartes à fenêtre - 30 sec par vue - scanne et indexe -magasin 100 cartes
100 KF
CanoScanFS27I0 Film 35 mm couleur/N&B positive/négative -2570 x 3855 pixels - 10/50 sec. Par vue
20 KF
Kodak RFS3570 Film 35 mm couleur/N&B positive/négative -2570 x 3855 pixels - 10/50 sec. Par vue
MEKEL M525 Film 16/35 mm N&B et niveaux de gris positive/négative -200 dpi - 100 vues/mn
200 KF
Scanner de plans Contex Chameleon 257 36"
64/90 cm de lèse (A1/A0) - Couleur/N&B -600 dpi - 2" / sec
100 KF
SuperWide 8050 125 cm de lèse ( A0+) - Couleur - 800 dpi - 2" / sec 300 KF Scanners de livres I2S - DIGIBOOK Livres Al (60 x 84 cm) - couleur ou N&B -
épaisseur de 4 à 12 cm - Porte livre - 5 000 à 10 000 pixels -250 à 800 pages / heure
300 à 500 KF
Minolta - BookScribe Livres A3 (30 x 42 cm) - N&B - Porte livre (option) -400dpi - 120 pages / heure
100 KF
Minolta PS3000 Livres A3 (30 x 42 cm) - N&B - Porte livre - 400 dpi -800 pages / heure
100 KF
Minolta PS7000 Livres A3 (30 x 42 cm) - N&B - Porte livre - 600 dpi -800 pages / heure
150 KF
Note : les prix indiqués sont donnés à titre indicatif. La capacité simples / duplex correspond au scannrag recto seul ou recto/verso. Le débit journalier correspond à la résistance mécanique de l'appareil donnée par le constructeur.
La mise en œuvre de la numérisation
• Le logiciel de pilotage assure la commande du scanner mais aussi la gestion de l'activité de numérisation dans son ensemble : comptage des pages, contrôle, reprise en cas d'incidents, traitement d'images, conversion de format. Certains produits incluent des fonctions d'OCR.
Il existe un grand nombre de produits correspondant à cette fonction chaque offre GED propose un environnement de numérisation. Nous citerons les produits génériques suivants :
- ASCENT de Kofax ; - Capture de Kodak ; - Acrobat Capture d'Adobe ; - ScanOS d'IDEAL. Ces scanners fonctionnent sous les normes ISIS ou TWAIN.
1.2.2.2. Logiciels d'OCR
Les principaux logiciels d'OCR du marché sont listés au tableau suivant :
Fabricant Logiciel Langues CAERE OmniPage Pro 6 ou 7 ou 8 13+13 dictionnaires XEROX TextBridge Pro 3/95/98 11 + 11 dictionnaires Logitech PageScan Mimetics Easy Rider Elite 10 + 5 dictionnaires Mimetics Easy Rider Classic 10 + dictionnaires français
IRIS IrisPen 29 + 29 dictionnaires IRIS IrisPen Executive 29 + 29 dictionnaires IRIS Iris Translater 5 langues au choix
RECOGNITA Recognita Plus 3.0 63 + 63 dictionnaires RECOGNITA Recognita Card
ADOBE Capture
Conduire un projet de numérisation
Le choix d'un logiciel d'OCR est fortement déterminé par les capacités de contrôle qu'il propose et notamment de la disponibilité de dictionnaires spécialisés correspondant aux ouvrages traités.
Le prix moyen d'un tel logiciel varie entre 750 et 1 500 €. Il est important de valider au moyen de tests appliqués aux
documents à traiter. Le rendement effectif d'un traitement d'OCR dépend :
- de la qualité des documents. Les documents présentant une qualité d'image insuffisante (manque de contraste des textes, présence d'un bruit de fond important...) ou une structure de page trop complexe (multicolonnes, placement irrégulier des illustrations, taille des caractères trop petite...) donneront des résultats insatisfaisants.
- du soin mis à réaliser le scanning. L'alignement de la page, le niveau de contraste et de luminance choisi, la résolution impactent de manière fondamentale le taux de reconnaissance.
Dans la plupart des cas, on tablera sur un taux de reconnaissance inférieur à 50 %. Il en résulte une quantité de données importante à saisir en correction. Ce taux peut être amélioré d'une part en optimisant les conditions de scanning et d'autre part en mettant en œuvre les techniques d'ICR (intelligent cha-racter récognition) qui vont employer des moyens de contrôle sophistiqués permettant d'assister la reconnaissance par appel à des dictionnaires spécialisés et à des algorithmes spécifiques de reconnaissance des données lues. Cette technique d'ICR s'applique à une catégorie de documents particulière et permettrait de tendre vers un taux de reconnaissance qui avoisinerait 90 %.
1.2.2.3. L'indexation
L'indexation des documents procède en deux temps : -indexation primaire : saisie des données d'identification
de l'image. Cette saisie s'opère immédiatement après (parfois
La mise en œuvre de la numérisation
avant) le scanning. Elle peut être facilitée par la mise en œuvre de la technologie « codes à barres ».
-indexation secondaire: saisie des données de l'analyse documentaire (mots-clés, résumé...).
Un traitement OCR peut en outre être exploité afin d'indexer en plein-texte le contenu pour servir à la recherche documentaire.
1.2.2.4. Le serveur d'impressions
Il devra être dimensionné en fonction des volumes de reproduction de documents estimés. Dans certaines bibliothèques, un service de reproduction « lourd » pourrait être offert afin de permettre aux lecteurs d'emporter des extraits des ouvrages consultés.
On privilégiera le serveur d'impression centralisé à l'impression locale. Ce type d'architecture permet en effet de contrôler les volumes de documents imprimés et d'en faciliter la logistique (facturation du service et maintenance de l'imprimante). On préférera les imprimantes à technologie laser qui garantissent une qualité optimale et des vitesses d'impression satisfaisantes.
1.2.2.5. Le serveur de documents
Il supportera l'application centrale de gestion de documents. Elle comporte les fonctions suivantes :
-gestion du stockage des fichiers images et pilotage des périphériques de stockage de masse (disques durs et juke-box de disques optiques ou CD-ROM) ;
- gestion de l'indexation des documents ; - prise en charge de la recherche documentaire. L'application de GED procure aux postes de consultation
une interface adéquate. On tirera avantage du client léger de
78 Conduire un projet de numérisation
type navigateur web qui évite de devoir spécialiser les postes de consultations en y installant des logiciels clients spécifiques.
1.3. Définition d'un projet de GED
Sur la base de ces observations, il nous semble important de développer les éléments qui contribuent à définir le projet de GED et à en présenter les impacts sur l'opération de numérisation.
La numérisation d'un fonds documentaire trouve sa justification selon tout un registre de motivations qui le plus souvent se complètent :
- volonté de préserver le fonds original d'une détérioration graduelle liée à des conditions de rangement inadaptées où à une fréquence de consultation importante ;
- besoin d'alléger la charge en personnel liée à la gestion du fonds physique et de palier ainsi le manque d'effectifs présents dans les centres de documentation ou les bibliothèques ;
- désir de promouvoir le fonds et de le mettre à disposition d'un plus grand nombre d'utilisateurs :
- projet d'intégrer le fonds documentaire dans une application serveur à vocation plus large qui exploite les moyens de diffusion basés sur les technologies web.
De ces différentes motivations se dégagent les spécifications fonctionnelles et techniques de diverses applications de GED :
• une GED d'archivage dont la vocation majeure est de garantir la conservation du fonds. Les caractéristiques d'une telle application déterminent les éléments suivants :
- numérisation à haute résolution afin de conserver au mieux les informations du fonds documentaire. On envisagera 300 ou 600 dpi selon la qualité souhaitée et la nature des documents scannés ;
La mise en œuvre de la numérisation
- indexation minimale des documents suffisante pour un accès simple et immédiat aux documents ;
- conservation sur des supports à longue pérennité pour assurer une conservation à long terme ;
- on pourra envisager de conserver ces supports au sein d'un serveur de données ou de simplement les disposer dans un lieu de rangement adéquat en fonction des besoins de consultations estimés ;
• une GED de consultation en réseau local (au sein de la bibliothèque) dont l'objectif est de permettre aux visiteurs d'accéder aux documents numérisés dans les meilleures conditions. Les caractéristiques d'une telle application déterminent les éléments suivants :
- numérisation à une résolution moyenne compatible avec une consultation de qualité associée à des délais d'affichage acceptables. Une résolution de 200 dpi permet une consultation sur un réseau local avec des temps d'accès à l'image de l'ordre de quelques secondes ;
- traitement en lecture optique (OCR) des documents images pour en assurer la diffusion sous forme textuelle et pour mieux en exploiter le contenu dans la recherche documentaire ;
- indexation riche et ciblée relativement au profil des utilisateurs attendus ;
- stockage des fichiers numériques dans un serveur de consultation dimensionné pour répondre aux estimations de volumé-trie et de taux de consultation projetées ;
- mise en place d'une application « cliente » au niveau des postes de consultation.
• une GED de diffusion sur le web dont le but est de servir un grand nombre d'utilisateurs au travers d'un réseau à faible débit. Les caractéristiques d'une telle application déterminent les éléments suivants :
-numérisation à faible résolution permettant des temps de transmission acceptables sur le réseau téléphonique. Une résolution
Conduire un projet de numérisation
de 100 dpi sur un réseau commuté à 56 Kbds nécessite en moyenne 1 minute pour la transmission d'une page monochrome à un poste distant ;
- indexation à caractère moins spécialisé que précédemment dans la mesure où le public visé est probablement moins professionnel et où l'utilisateur ne disposera pas de l'assistance éventuelle d'un personnel qualifié ;
- stockage des fichiers numériques dans un serveur de diffusion orienté Internet avec nécessité d'opter pour un format de données compatible avec ce type de réseau.
Ces différents objectifs doivent fréquemment être combinés. On devra alors envisager les solutions adaptées pour y répondre - conversion de résolution pour transformer par programme une image haute résolution en basse résolution, double numérisation (à haute résolution pour la conservation de l'image dans la meilleure qualité et à basse résolution pour la consultation à distance), mise en œuvre de différents serveurs et applications spécialisées.
1.4. Préparation du cahier des charges
L'objectif du cahier des charges est de permettre à chaque bibliothèque de spécifier les conditions de numérisation de son fonds de documents.
La numérisation des documents pourra être effectuée : en interne ou par des prestataires.
Pour une reprise effectuée par des prestataires, les bibliothèques s'appuieront sur des fiches de consultation, procurées en annexe du « cahier des charges » qui leur permettront de fournir aux prestataires toutes les informations nécessaires à l'établissement d'un devis et réaliser les travaux demandés.
Dans le cas d'un travail effectué en interne, ces mêmes fiches permettront au responsable de la bibliothèque de spécifier
La mise en œuvre de la numérisation
les travaux à l'atelier de numérisation et serviront de fiches internes de circulation pour formaliser les échanges entre les différents acteurs.
Dans les paragraphes qui suivent on trouvera une sorte de « guide pédagogique » devant servir aux responsables des bibliothèques universitaires à qualifier leur demande en travaux de numérisation dans un triple objectif :
- appréhender les besoins de numérisation en précisant les objectifs pour chaque catégorie de fonds disponible ;
- arrêter des choix techniques quant aux procédés à employer, aux supports de données à produire et aux formatage des documents numériques ;
- spécifier les travaux à effectuer par le prestataire (ou l'atelier de numérisation interne en termes techniques, opératoires et quantitatifs.
La démarche prend en compte les diversités de supports imprimés existant dans les bibliothèques. Chaque catégorie de média est déclinée selon les différentes modalités possibles de manière à prendre en considération les différentes situations qui peuvent se présenter.
1.4.1. Documents imprimés
La numérisation de documents imprimés nécessite des équipements adaptés au type de support :
- l'équipement le plus courant est le scanner de pages - ce type d'équipement convient pour traiter des pages séparées ou des brochures qu'il est possible de dégrafer ;
- pour traiter des ouvrages reliés, on emploie un scanner de livres, qui représente une solution plus coûteuse et moins courante que la précédente ;
- pour traiter des documents comportant à la fois des textes et des photos en couleur, il faut employer un scanner couleur.
Conduire un projet de numérisation
La problématique de numérisation de documents imprimés consiste à déterminer les critères de numérisation en fonction du document considéré et de l'usage qu'on entend faire des documents images. Ces critères sont rappelés ci-après:
• résolution : ce paramètre détermine la finesse de l'image obtenue. Cependant plus la résolution est élevée, plus le fichier obtenu sera volumineux, ce qui impactera lourdement la configuration du système de stockage et les temps de transmission et d'affichage de l'image. Pour la plupart des documents on optera pour une résolution de 300 dpi, qui correspond à la pratique la plus courante. Cependant on peut envisager d'aller au-delà pour des documents particulièrement difficiles - comportant un grand nombre de détails de petites dimensions. On pourra dans certains cas, scanner à 600 dpi pour constituer des « bruts de scan » à haute résolution et convertir ces images à 300 dpi pour l'exploitation.
• couleur : trois situations sont à considérer : - les documents textuels en noir et blanc, on choisira donc
de numériser en une seule couleur ( 1 bit par point image) ; - les documents comportant des images à niveaux de gris :
on choisira alors de numériser en niveaux de gris soit 8 bits par point image ;
- les documents comportant des images couleur : on optera alors pour une numérisation en couleur, chaque point image étant alors représenté par 3 fois 8 bits pour chacune des couleurs fondamentales.
• format de stockage : C'est le format de codage des images à des fins de conservation long terme (c'est-à-dire applicable au fichier « brut de scan »). Pour ce format on optera pour un standard bien établi :
- le TIFF Gr. 4 pour les documents en noir et blanc ; - le TIFF LZW pour les documents à niveaux de gris ; - le TIFF non compressé pour les documents en couleur.
La mise en œuvre de la numérisation
• format de diffusion : C'est le format de codage réservé aux documents que l'on entend diffuser. On optera pour des formats compressés,
- le PDF pour les documents en noir et blanc ou le TIFF Gr. 4 ; - le JPEG avec facteur de qualité de 80 % pour les autres
types de documents. On privilégiera les formats pour lesquels le recours à un
logiciel d'affichage spécifique au poste de consultation n'est pas indispensable. Les formats cités sont tous traités par les outils standard disponibles sous Windows.
• support de conservation : C'est un support qui se caractérise par sa durée de vie et sa pérennité opérationnelle. On optera pour le CD-ROM - qui est limité à une capacité de 640 Mo - ou pour la bande DLT qui offre une capacité allant jusqu'à 80 Go avec compression ;
• support d'échange ou de diffusion : le CD-R reste le support le plus approprié en attendant la stabilisation du DVD-R qui apportera une capacité de 4 Go ;
• indexation : C'est le moyen d'identifier le document image afin d'établir un lien entre la notice bibliographique de ce document et le ou les fichiers image correspondant. Nous proposons d'attribuer à chaque document un identifiant unique qui permettra d'établir ce lien. Cet identifiant unique sera étiqueté sur le document physique et sera porté sur la notice bibliographique.
Une reprise des fonds en interne est possible dans la mesure où la bibliothèque disposerait de l'équipement nécessaire. L'organisation des opérations de numérisation reste identique à celle qui est préconisée dans le cahier des clauses techniques particulières et permet de garantir un déroulement fiable des opérations.
La configuration nécessaire pour conduire une telle opération comprend les équipements suivants :
• un ou des postes de numérisation en fonction des volumes à traiter (cf. Calcul du dimensionnement plus loin) ;
Conduire un projet de numérisation
• un ou des scanners pour les différentes catégories de supports et de formats à traiter soit :
- scanner A4 recto/verso noir et blanc ; - scanner A3 recto/verso noir et blanc ; - scanner A4 recto/verso couleur ; - scanner A3 recto/verso couleur ; - scanner de livres ; - scanner de plans pour les formats supérieurs à A3, noir et
blanc ou couleur. En cas de documents anciens, sensibles à la lumière, on
veillera à équiper le scanner d'une lampe à lumière froide. Certains travaux de « retouche » spécifiques peuvent être nécessaires pour ces documents afin de nettoyer les pages pour en faire disparaître les tâches, le moisi et en améliorer le contraste. Ces travaux pourront être réalisés par des logiciels de retouche photos. Certains logiciels de numérisation haut de gamme (tels que Ascent de Kofax ou BookRestorer de I2S ce dernier étant vendu avec les scanners du constructeur) effectuent un traitement automatique des images pour en améliorer la qualité.
Il faut prévoir au niveau des postes de numérisation ou au niveau d'un serveur auquel ces postes seraient rattachés :
- des capacités de stockage sur disque magnétique pour contenir un nombre de fichiers images correspondant à plusieurs jours de production ;
- de moyens de production de supports de sauvegarde de type CD-ROM ou DLT.
Utilisation des fiches de consultation (voir fiche p. 305) Numérisation de documents imprimés
Les paragraphes qui suivent fournissent des renseignements utiles pour remplir les fiches de spécifications employées pour la consultation.
On précisera l'objectif de la prestation afin de permettre au prestataire de mieux en appréhender le contexte et de proposer d'éventuels aménagements qui contribueraient à atteindre cet objectif.
Les publics
Les principaux objectifs identifiés sont : - la préservation du fonds documentaire- sous-entend que
le fonds est en péril et que le prestataire pourra proposer des traitements de restauration applicables aux images. Dans tous les cas, la numérisation doit être effectuée de telle manière à éviter tout recours futur aux originaux. On y appliquera donc le plus grand soin ce qui implique une haute résolution de scanning (600 dpi) et un contrôle exhaustif ;
- la production de CD-ROM- présume la constitution d'images à haute résolution pour permettre une consultation optimale en disposant d'un facteur de zoom confortable. On peut cependant faire coexister des images de différentes résolutions pour combiner différents modes de consultation ;
- pour la diffusion sur le web, on privilégiera les images à faible résolution et les formats de données normalisés sur le web (JPEG, PDF, voire GIF).
Ces objectifs peuvent bien évidemment se combiner. On décrira le fonds en précisant sa nature, sa structuration
éventuelle et sa volumétrie totale. On renseignera pour chaque catégorie de support les carac
téristiques du fonds correspondant : - format : on indiquera les dimensions - standard (A4, A3...)
- ou non standard en précisant les dimensions. On s'efforcera de séparer les fonds de formats différents ou si ce n'est pas possible on en spécifiera les principales catégories ;
- couleur : on précisera si le fond est en noir et blanc, en niveaux de gris ou en couleur ;
- volume : on précisera pour chaque catégorie le nombre d'unités (livres, liasses de plans...) et le nombre d'éléments par unités (pages, feuillets...) ;
- qualité : on indiquera le niveau de qualité du fonds -bonne, moyenne, mauvaise. L'appréciation de la qualité tiendra compte à la fois de l'état physique des documents que de la qualité des contenus (contraste, présence de fond, tâches...) ;
- commentaires : cette zone permet de donner des précisions permettant de mieux estimer la nature des travaux à réaliser.
Conduire un projet de numérisation
On indiquera l'identification des différents lots ainsi que des éléments composant ces lots. Ces données constitueront les identifiants des supports informatiques retournés par le prestataire.
On précisera les différents traitements demandés au prestataire.
- préparation - On indiquera s'il est nécessaire ou autorisé d'intervenir sur les documents pour les apprêter pour la numérisation - dégrafage, massicotage, voire tri et ordonnancement des documents. Dans ce dernier cas on devra préciser la nature de cette tâche ;
- numérisation - On indiquera la ou les résolutions retenues ; - encodage - On précisera les formats de données retenus
-TIFF, JPEG, DjVU ; - traitements images - On pourra demander au prestataire
d'effectuer (par programme) des traitements légers sur les images. Pour des traitements qui ressortent de la restauration de documents, il faudra l'envisager au cas par cas ;
- saisie de l'indexation - Nous conseillons de limiter cette opération à la saisie de l'identification du lot et du document (avec une numérotation séquentielle des pages) ainsi qu'à la génération du fichier d'identification. Si d'autres besoins s'avèrent nécessaires, on les précisera à la rubrique « Autres » ;
- contrôle - On rappellera au prestataire les exigences de contrôle spécifiées au CCTP ;
-reconditionnement - Dans le cas où les documents auraient été défaits pour la mise en oeuvre du scanning, on demandera au prestataire de restituer leur état initial ;
- génération des supports numériques - On envisagera les différents supports adaptés à l'archivage (DLT de sauvegarde et/ou CD-ROM « brut de scan ») ou à la diffusion (CD-R). Si on envisage une diffusion sur CD-ROM on pourra demander au prestataire de réaliser le pressage. Il faudra dans ce cas spécifier la structure de ce CD-ROM et fournir les logiciels de consultation associés.
On précisera la constitution des supports de la fourniture. On indiquera notamment si on autorise la juxtaposition de plusieurs lot sur un même CD-R. On estimera le nombre de CD-R à produire dans chaque catégorie.
On précisera enfin l'identification des supports attendus. Cette identification sera imprimée sur le CD-R.
La mise en œuvre de la numérisation
1.4.2. Documents iconographiques
La numérisation de documents iconographiques nécessite des équipements adaptés aux types de support :
- pour traiter des phototypes, on emploie un scanner de film couleur haute définition (3 000 dpi) ;
- pour traiter des tirages papier photos (couleur et noir et blanc), il faut employer un scanner couleur à 600 dpi.
La problématique de numérisation de documents iconographiques est semblable à la numérisation de documents imprimés.
La difficulté est de déterminer les critères de numérisation en fonction du document considéré et de l'usage qu'on entend faire des documents images. Ces critères sont décrits dans le paragraphe sur l'utilisation des fiches de consultation.
Une reprise des fonds en interne est possible dans la mesure où la bibliothèque disposerait de l'équipement nécessaire. L'organisation des opérations de numérisation reste identique à celle qui est préconisée dans le cahier des clauses techniques particulières et permet de garantir un déroulement fiable des opérations.
La configuration nécessaire pour conduire une telle opération comprend les équipements suivants :
• un ou des postes de numérisation en fonction des volumes à traiter ;
• un ou des scanners pour les différentes catégories de supports et de formats à traiter soit :
- scanner A4 recto/verso couleur à 600 dpi ; - scanner de film couleur jusqu'à 6 x 9 à 3 000 dpi. Il faut prévoir au niveau des postes de numérisation ou au
niveau d'un serveur auquel ces postes seraient rattachés ; -des capacités de stockage sur disque magnétique pour
contenir un nombre de fichiers images correspondant à plusieurs jours de production ;
88 Conduire un projet de numérisation
- de moyens de production de supports de sauvegardes de type CD-ROM ou DLT.
Utilisation des fiches de consultation (voir fiche p. 309) Numérisation de documents iconographiques
La diversité des formats importe peu d'un point de vue technique car les techniques de numérisation permettent de traiter quasiment tous les formats existants.
On indiquera le nombre de documents iconographiques contenus dans le lot à traiter, par type (N&B ou couleur) et par polarité (positif ou négatif).
On pourra ajouter des précisions sur une ou plusieurs des informations données. Par exemple, pour des phototypes 24 x 36 couleur positifs (diapositive 24 x 36), on pourra indiquer que les documents initiaux sont sous cache et qu'il doivent être restitués dans le même état. Cela signifie que le prestataire devra éventuellement retirer le cache, numériser le phototype puis remettre le cache.
On identifiera clairement la totalité des documents par un identifiant unique.
Selon leur état de conservation, les documents source peuvent nécessiter une préparation avant la numérisation (nettoyage de phototype ou de tirage papier,...)
La reproduction de tirage papier a plusieurs objectifs : - les chaînes de numérisation sont différentes selon que l'on
numérise un phototype ou un tirage. On pourra, pour homogénéiser la chaîne, procéder à la reproduction des tirages pour ne numériser que les reproductions ;
-les phototypes offrent, à l'heure actuelle, une meilleure définition de l'image. La reproduction permet alors d'obtenir un phototype du tirage papier à des fins de conservation.
Le contretypage vers phototype 24 x 36 permet, à partir de phototypes de tout autre format, d'obtenir des phototypes au format 24 x 36.
Il peut également être couplé à la reproduction, permettant ainsi d'obtenir, à partir d'un tirage papier de n'importe quel format, un phototype 24 x 36.
Une numérisation à haute résolution (TIFF) a pour objectif d'obtenir une image de qualité suffisante pour permettre :
- l'impression de bonne qualité ; - la consultation experte (analyse de détails de l'image par zoom) ;
La mise en œuvre de la numérisation
- une réutilisation informatique (production de fichiers de consultation, montages...).
Le format TIFF est le format le plus adapté à cet objectif. On adaptera la résolution au format à numériser pour éviter d'obtenir des fichiers trop volumineux :
Format Résolution minimum (dpi) Tirage papier 10 x 15 600 Tirage papier 13 x 18 600 Tirage papier 13 x 18 400 Tirage papier 21 x 29,7 300 Phototype 24 x 36 3 000 Phototype 4x4 2 000 Phototype 4x5 2 000 Phototype 6x6 1 500 Phototype 6x7 1 400 Phototype 6x9 1 200
Le recadrage technique permet de supprimer les marges dues au contretypage.
Les formats de consultation seront générés à partir du format TIFF par une compression JPEG. Le facteur de qualité JPEG utilisé sera de 80 %.
On obtiendra deux formats d'image à la résolution de 76 dpi : - plein écran : contenu dans un cadre de 768 pixels de largeur
par 512 pixels de hauteur. Le format plein écran permet de consulter le document iconographique en plein écran mais ne permet pas la consultation experte de ce document. Pour cela, on utilisera l'image TIFF.
- vignette : contenu dans un cadre de 192 pixels de largeur par 128 pixels de hauteur. Le format vignette permet généralement l'affichage de plusieurs vignettes sur l'écran pour en choisir une et la consulter au format plein écran.
On indiquera, selon les prestations demandées, le ou les supports souhaités.
Conduire un projet de numérisation
1.4.3. Microformes
Les microformes disponibles peuvent être de différentes natures :
- microfilms COM (générées par ordinateur) ou documentaires (générés par procédé photographique) ;
- microfiches COM ou documentaires ; - cartes à fenêtres.
Les deux premières catégories comportent un nombre important de formats que nous répertorions.
La numérisation de microformes doit être considérée comme une variante de la numérisation de documents imprimés, opération spécifiée plus haut, dans la mesure où les documents traités sont de même nature. Il faut donc envisager une numérisation à des résolutions équivalentes pour des restitutions à l'échelle 1.
La numérisation de microformes met en œuvre des scanners spéciaux. Une mise en œuvre en interne peut être envisagée dans les mêmes conditions que pour les documents imprimés, à condition néanmoins de disposer du scanner adéquat. On observera cependant, que si l'on dispose de microformes de différentes natures et de différents formats, le coût des équipements spéciaux nécessaires pourrait être dissuasif et favoriserait alors une prestation en externe.
Utilisation des fiches de consultation (voir fiche p. 312) Numérisation de microformes
La fiche correspondante reprend les éléments de la fiche destinée aux documents imprimés. Nous limiterons donc notre description pour les seules rubriques spécifiques aux microformes.
Les microformes seront décrites par les paramètres suivants :
- taux de réduction : 24X ou 48 X parfois d'autres taux (20X, 42X, 72X ...)
La mise en œuvre de la numérisation
- nombre de vues : 2 400 ou 4 800 pour les microfilms (ou autre), 98 ou 207 pour les microfiches (ou autre).
Pour les cartes à fenêtre on indiquera le format des documents (A4 à A0).
- couleur : noir et blanc ou à niveau de gris (la couleur est pratiquement inexistante)
- BLIP ou perforations : Présence de BLIP d'indexation des vues lesquels seront interprétés par le scanner pour compléter l'indexation des images. De même pour les perforations des cartes à fenêtres lorsque ces dernières sont présentes.
- conditionnement : bobine ou cassette, jaquette, cartes perforées ou non.
- volume : on indiquera le nombre d'éléments du lot. - orientation : on précisera l'orientation des vues dans le micro
film. Les autres éléments de spécification sont identiques à ce
qui est précisé pour les documents imprimés. On observera cependant qu'il est important d'évaluer le plus justement possible la qualité des microformes - qualité du film, vieillissement du support, apparition de tâches ou d'auréoles - ce facteur étant d'une importance majeure en ce qui concerne le résultat de la numérisation.
On précisera les traitements demandés et en particulier pour les microformes les données suivantes :
- préparation - dépose des jaquettes, positionnement des débuts de session lorsqu'un même film comporte des séquences multiformats, on précisera en commentaire s'il y a présence d'une amorce permettant de calibrer le scanner de façon automatique ;
- numérisation - Les résolutions indiquées sont celles souhaitées pour le document à taille réelle. Le prestataire devra calculer la résolution de numérisation à appliquer aux images de la microforme pour atteindre la valeur demandée. En fonction du taux de réduction et de la résolution nominale du scanner on pourra obtenir des résolutions plus ou moins haute - de 200 à 400 dpi.
-Traitement d'images - En plus des traitements génériques aux images numérisées, les microformes peuvent nécessiter de procéder à la séparation des pages pour les orientations 2A ou 2B afin de constituer une image indépendante pour chaque partie de l'image originale.
Conduire un projet de numérisation
-Saisie de l'indexation - Le logiciel de numérisation pourra exploiter les BLIP insérés dans l'image pour indexer automatiquement les images. De même, pour les cartes à fenêtre, l'information qui y est présente peut être lue et reportée dans les données d'indexation.
- Reconditionnement - on demandera au prestataire de reconditionner les microformes après traitement (remise dans les jaquettes, rembobinage).
2. CALCULER LES COÛTS FINANCIERS ET HUMAINS Le calcul des coûts d'une prestation de numérisation
nécessite au préalable la construction d'un chronogramme des opérations qui décrit le déroulement des tâches à effectuer ainsi que les temps affectés à chaque activité.
2.1. Procédure de production
La norme NF Z42-013 publiée par l'Afnor en juillet 1999 définit les conditions optimales de conduite d'une opération de numérisation. Nous nous appuierons sur ces préconisations pour l'organisation de la chaîne de production.
Le schéma suivant décrit la procédure de production. Y sont représentées l'ensemble des tâches qui incombent au centre de numérisation. L'organisation de ces activités est détaillée ci-après.
La mise en œuvre de la numérisation
Procédure de production « Reprise stock »
(Tivraison vers CN
(Numérisation
/Production Vdes CD-ROM ^ I (Contrôle qualité
/Duplication Vdes CD-ROM
/Analyse ( des statistiques \de production
X
(Th X
3
3
Rejets "résolus
//Traitement Vdes rejets
Rejets non résolus
Une application informatique de gestion de la production assure l'enregistrement et la traçabilité de tous les événements se produisant tout au long de la procédure. Les fonctionnalités de cette application permettent :
- l'enregistrement d'une livraison de valises en provenance d'une bibliothèque ;
- l'enregistrement du contrôle de réception ; - le suivi de l'avancement des travaux de production-enregis
trement des lots de scan, suivi des états de chaque lot, enregistrement des temps passés à chaque étape du processus de production ;
- l'édition des différents formulaires à destination du maître d'ouvrage ;
- la production de « situations » de production et des statistiques associées.
Conduire un projet de numérisation
2.1.1. Organisation des livraisons vers le centre de numérisation (CN)
Le respect de la norme NF Z 42-013 implique l'enregistrement de la livraison afin d'assurer la traçabilité des transferts.
Cet enregistrement pourra s'opérer au moyen de l'envoi d'un formulaire comportant les données suivantes :
• formulaire de livraison vers le centre de numérisation - bibliothèque d'origine ; - date d'enlèvement ; - responsable de l'emballage à la bibliothèque ; - responsable de l'enlèvement convoyeur ; - nombre de valises ; - liste des numéros de valises du colis. Le colis sera accompagné d'un deuxième formulaire spéci
fiant le contenu des valises objet de la livraison ; • formulaire de composition du colis Bibliothèque - bibliothèque émettrice ; - date de préparation du colis ; - responsable de la préparation du colis ; - nombre de cartons d'emballage ; - liste des identifiants de cartons d'emballage ; - liste de répartition des cartons d'emballage par valise ; - nombre de documents contenus dans chaque carton. Nous préconisons d'adopter une codification pour la dési
gnation des cartons d'emballage. Cette désignation regroupera l'identifiant de la bibliothèque d'origine et un numéro séquentiel.
Les formulaires employés peuvent être gérés sous forme électronique. Dans ce cas, les données seront transmises par réseau et viendront automatiquement enrichir la base de données d'exploitation.
La mise en œuvre de la numérisation
2.1.2. Organisation de la numérisation
Le schéma suivant décrit les différentes étapes de prise en charge de la numérisation.
Nous en spécifierons dans un premier temps les conditions de déroulement. Nous présenterons ensuite le chronogramme des opérations qui garantit le respect des délais de production imposés dans le cahier des charges.
En premier lieu on notera l'intérêt du découpage de la procédure en postes de travail distincts. Cette organisation rationnelle des activités assure à la fois la meilleure productivité et le contrôle optimal de chaque opération. Elle permet d'une part de séparer organiquement les tâches garantissant ainsi une meilleure visibilité de la procédure et d'autre part de spécialiser les personnels par nature d'activité, ce qui permet d'obtenir le meilleur rendement mais aussi une maîtrise parfaite de chaque tâche.
Chaque étape donne lieu à enregistrement, dans la base de production des données, d'informations caractérisant la tâche en question. Ces enregistrements garantissent la traçabilité des opérations ainsi que le contrôle de l'avancement des travaux et le suivi des délais.
2.1.2.1. Réception
La réception des colis dans l'atelier de production implique un contrôle précis de la fourniture, seul moyen de garantir la parfaite conservation des documents fournis tout au long de la production. Les colis reçus seront donc comptabilisés dès la réception tant au niveau des valises et des cartons d'emballage reçus que du contenu de ces cartons. En effet le « nombre de pièces reçues » reste une information majeure pour le contrôle de l'intégrité des documents traités et par conséquent rendus au maître d'ouvrage. Nous conseillons au maître d'ouvrage de procéder à un comptage des feuillets contenus dans chaque fourniture afin de s'assurer de l'intégrité des fournitures rendues.
Conduire un projet de numérisation
En fin de réception, le système de gestion de la production édite un formulaire spécifiant les caractéristiques du colis réceptionné lequel servira de référence contractuelle pour la fourniture tant pour le retour de documents que pour le nombre de documents électroniques produits.
2.1.2.2. Préparation
Le but de cette opération est la constitution de « lots de scan » qui seront disposés dans le magasin d'alimentation du scanner. Un lot de scan est un ensemble d'environ 100 feuillets de même format qui seront traités en une seule passe.
La constitution de ces lots peut nécessiter les actions suivantes :
- dégrafage des documents s'il y a lieu ; - remise en état de certains documents détériorés - il peut
s'agir soit de recoller des pages en mauvais état soit d'en effectuer une photocopie recto-verso. Cette deuxième alternative ne devant s'appliquer que dans les situations extrêmes, ceci afin d'éviter autant que possible la disparité des formats et des grammages de documents d'un même lot. Les lots présentant une qualité jugée insuffisante seront rendus au maître d'œuvre. Ceux qui, suite à une restauration, présenteraient des risques opératoires, seront signalés dans le système de production afin que les opérateurs de scanning et de contrôle qualité veillent à leur assurer le meilleur traitement ;
- séparation des documents annexes. Les documents accompagnés de pièces annexes seront regroupés dans un (ou plusieurs) même lot. Cette disposition nous permettra de traiter ces lots particuliers sans affecter la cadence de la chaîne de production. En retour, ces lots ne seront pas restitués dans l'ordre initial. L'information de numéro de lot, fournie avec les données d'indexation des images permettra au maître d'œuvre de localiser, le cas échéant, le lot dans lequel se trouve l'original du document recherché.
La mise en œuvre de la numérisation
Chaque lot est accompagné d'un séparateur de lot contenant un codes barres (CAB), qui spécifie les données caractéristiques de ce lot : numéro de lot, nombre de feuillets, signalement du lot. Le numéro de lot regroupe les notions suivantes : bibliothèque, numéro de valise, numéro de carton.
Un formulaire de préparation récapitulant les données de l'ensemble des lots issus d'une même livraison, est transmis au maître d'œuvre.
2.1.2.3. Numérisation
Les lots de scan, affectés de leur CAB (code barres) d'identification, sont dispatchés sur les scanners de production. L'alimentation automatique permet le traitement des lots à une vitesse optimale relativement au débit nominal du scanner. Le paramétrage du scanner est défini par défaut pour l'ensemble des lots. En cas de signalement de lot « difficile » par le système de production, on pourra éventuellement recalibrer le scanner en conséquence.
Le logiciel de pilotage mémorise pour chaque lot le nombre de feuillets scannés (1 feuillet = 2 images/recto-verso) et affecte au lot un numéro séquentiel unique. Lors du traitement d'image qui suit, le CAB de chaque lot sera décodé et le lien « numéro de lot » et ID-lot est établi. Ces données sont transmises au système de gestion de production.
Les anomalies de scanning sont traitées au poste de traitement des rejets, pour celles détectées par le système (écart entre les compteurs) ou au poste de contrôle qualité lorsque la qualité de l'image est en cause.
Des mires de contrôles sont insérées tous les 10 lots. Ces mires sont envoyées au poste de contrôle qualité, accompagnée du numéro de lot courant. En cas de détection d'anomalie au poste de contrôle, la chaîne est interrompue pour correction de l'anomalie.
Conduire un projet de numérisation
2.1.2.4. Lecture optique du CAB
Cette étape effectue la lecture automatique du CAB.
2.1.2.5. Indexation
Au poste de saisie de l'indexation les images sont contrôlées. Elles permettent en outre de saisir les données d'indexation du document.
A ce stade, l'indexation du document doit être minimale et exclure toute analyse documentaire. Il s'agit simplement d'identifier le document pour assurer le lien identifiant/image. On se contentera donc de saisir le minimum de champs : Titre, numéro ISBN, ou toute information discriminante. Des données de gestion annexe - date de numérisation, nombre de pages ... - pourront venir s'ajouter automatiquement dans le masque d'indexation.
Toute autre forme d'indexation donnant lieu à une qualification plus précise de l'ouvrage (mots-clés, résumé...) nécessitera une prestation complémentaire qui sera réalisée par la bibliothèque ou par un prestataire externe qualifié pour une opération de ce genre. Si la bibliothèque dispose déjà d'un fichier signalétique, le lien entre le document image et ce fichier sera assuré par l'identifiant du document saisi à cette étape.
En cas de difficultés pour l'opérateur de saisir les données d'indexation, le document est inséré dans un lot de rejets, qui donnera lieu à une analyse ultérieure au poste de traitement des rejets.
Les statistiques d'indexation - nombre de champs saisis, nombre de caractères total saisis, nombre de documents en rejet - sont transmises au système de production.
2.1.2.6. Reconditionnement
Après traitement, les lots sont re-déposés dans les cartons d'emballage. Auparavant, chaque lot donne lieu à un comptage
La mise en œuvre de la numérisation
des documents qu'il contient. Les données de re-conditionne-ment - nombre de cartons d'emballage, nombre de documents par cartons d'emballage, nombre de valises, sont enregistrées dans le système de production.
Toutes les données du colis en provenance de la bibliothèque sont consolidées par le système de production afin de contrôler l'intégrité du colis et la bonne correspondance entre les données images et les données physiques.
Un formulaire de livraison est édité et transmis au maître d'œuvre.
100 Conduire un projet de numérisation
£ S s s
s o ••e S
a, s s s 0
••C « yi S 1 © « S
«s o 1>2
c « S <
5Ç E-J o -o
w, E
W-oU se
La mise en œuvre de la numérisation 101
2.2. Chronogramme des opérations
Le chronogramme des opérations est bâti sur des hypothèses de cadences de production attribuées à chaque nature d'activité. Le tableau suivant précise ces hypothèses, il sera complété afin d'estimer le nombre de postes de travail nécessaire à la conduite de chaque activité.
Tableau d'évaluation du nombre de postes de travail
Hypothèse Njours
Poste de travail Cadence (unités/heure)
% à traiter
Nombre de postes
Réception NR 100%
Préparation NP 100%
Numérisation NN 100 %
Indexation NI 100 %
Reconditionnement NC 100 %
Contrôle qualité NQ 5 %
Traitement des rejets NJ 10 %
| Les cadences (Ni) seront estimées selon l'abaque donnée ci-§ après en fonction de la nature des documents à scanner et pour | chaque étape du traitement.
§ Le tableau suivant indique des ordres de grandeur, généra-f lement constatés, pour chaque nature de documents concernés.
On s'appuiera sur ces valeurs pour une première estimation des | charges et des coûts. On affinera ces valeurs dans un second
ï temps - par des essais réels si nécessaire - pour approcher plus 1 précisément les estimations de charges et de coûts. co _l ©
102 Conduire un projet de numérisation
s
s •§ •s
ê ik Q Cv,
Q
1
« crj Ô Ci, k « O. ;•§ s ••S *§ 2
'2 « 0
1
i 1
p CJ w S c U «
o o o o o lO
O O o S m o o o o o o
i 1
s s ig " s «=
o o lo /ca o S O ir*j
(—1 ̂O ̂r- g O o c<">
o o m o o o o
i 1
ô c*}
a ̂s «
o o o o o l/~) § 1 r- ̂O o m
o o o o o o o
1 •s =• Sa s s*
1 i 0 § .Si
p 3 <
o un /73 O
o «o /CO o
o LO r̂3 O o o CI
o ir% O
o o o o 1 •s =•
Sa s s*
1 i 0 § .Si
O a. c3 5
o o o o o tn O O in
o o m O o o o o m
o o C-4
1 •s =• Sa s s*
1 i 0 § .Si
c/î O O Ê
o o o o o W-J
o o o o o m o o o o o m
o o CN
1 t 42
i
èxi ̂2 — •— 0 > cj 'G .2 g ̂ i —
o o o m /C3 O
r̂ j 'G o o O-l o o o o O o
1 t 42
i 3 o< -S O
o o CN O O
O /C3 •/I
o o CM o o C-J
o o CN o o
1 t 42
i ^ x •—• <D ̂il S» l t é
o o o CJ o o l/~)
O O CM O o m o o o r--}
O o V) o o m
aj S g l i s 5 § «
PC Z S S U Z C
Z 2
1 S -S
I 0ù
c .2 H, o o V(D oc
c .2 cd c3 D.
OH
C _o cS
v<L> S 3 Z
c .2 c3 X <u -o c
c oj E o c c .2 '-5 c o o D CtS
V<D *c3 3 cr nj <o c o U
5/5 'ÔJ1
C/3 O T3 C (U s QJ
'cd H
La mise en œuvre de la numérisation 103
se ëM ss
ss s s ss s s ss s ë ss ss s ̂ ?3« mm ^55
s m âô ôs s ̂ fl ̂
Si 51 ss S2S sa» = =
s s
Si s s
s ËL îë
0 «
1 i ^ a
i o
o a_> Ce£
"3 O y
[2
104 Conduire un projet de numérisation
2.3. Simplification en cas de numérisation en interne
Le schéma de production détaillé plus haut, ainsi que le chronogramme associé peuvent être simplifiés dans le cas où la numérisation se déroule en interne à la bibliothèque, avec les moyens disponibles.
Nous conseillons de conserver à la procédure une grande partie de son caractère formel dans la mesure où cette formalisation constitue à la fois une garantie de qualité et un guide d'organisation de l'activité.
Les points sur lesquels il serait envisageable d'apporter des simplifications concernent :
• les tâches d'enregistrement et de suivi des travaux dont on adaptera les modalités pratiques en fonction de l'importance de l'activité de numérisation et des effectifs impliqués. On pourra notamment remplacer toute la gestion informatique préconisée par un simple registre manuel de relevé des travaux. On pourra de même renoncer à l'utilisation du code à barres pour le signalement des lots de scanning ;
• les tâches de contrôle pourront être allégées moyennant des précautions minimes : s
- comptage systématique des pages de chaque lot et con- § trôle par rapport aux compteurs indiqués par le logiciel de scan- 1 ning. Cette disposition est nécessaire pour éviter toute perte de f pages en cours de numérisation ; |
-vérification aléatoire des images et de l'indexation pour § assurer la qualité de la numérisation qui peut se dégrader graduel- | lement du fait de l'usure de l'équipement (vieillissement de la | lampe ou des galets d'entraînement en particulier) ou du manque f d'attention des opérateurs ; i
• les tâches de reconditionnement peuvent être suppri- | mées ou confiées à un service externe. ^
Pour le reste, nous estimons que toute opération de numéri- § sation d'une certaine ampleur (quelques centaines voire milliers ^
La mise en œuvre de la numérisation 105
d'ouvrages) nécessite la mise en place d'une organisation adéquate qui se rapproche de celle que nous avons décrite.
3. ÉVALUER UN PRESTATAIRE
Le choix d'un prestataire de numérisation passe par le contrôle d'un certain nombre de critères auxquels doit satisfaire le candidat à la prestation. Ces critères se répartissent selon les catégories suivantes.
3.1. Capacités opérationnelles
- nature des documents traités : imprimés, photos, microformes.
- nature des équipements disponibles : modèles et capacité des scanners utilisés.
- effectifs et capacité de production : nombre d'opérateurs de scanning, d'opérateurs d'indexation, d'opérateurs de prépara-
I tion, effectifs alloués au contrôle qualité, plages horaires tra-B vaillées. V)
g - capacités logistiques : moyens de colisage, moyens de | transports, distance relativement à la bibliothèque, fréquence
1 des tournées proposée, capacité éventuelle de se déplacer sur le I site. | - capacité contractuelle de production : nombre de docu-1 ments/jour, durée d'immobilisation des documents, périodicité
™ des enlèvements, durée totale de l'opération, date de fin de l'opé-^ ration.
</> c
LU
w o > ro ©
106 Conduire un projet de numérisation
3.2. Capacités financières
- date de création de la société et chiffre d'affaires dégagé les trois dernières années par l'activité de numérisation.
- effectifs total et effectif affecté à l'activité de numérisation
- assurance civile disponible : compagnie, niveau de couverture, conditions d'application.
3.3. Références de réalisations similaires
3.4. Analyse de l'offre
Le tableau suivant permet de recenser et de rapprocher les coûts les plus significatifs.
Tâche Coût unitaire Quantité Coût
total Préparation Numérisation Indexation Re-conditionnement Production des médias (CD-ROM) Transport
L'analyse de l'ensemble de ces paramètres, lesquels pourront être pondérés en fonction des exigences particulières à chaque opération, doit permettre le choix objectif d'un prestataire.
La mise en œuvre de la numérisation 107
4. PESER LE CHOIX ENTRE INTERNE ET EXTERNE
Le problématique de déterminer si l'opération de numérisation doit être effectuée en interne ou être confiée à un prestataire externe dépend de différents facteurs que nous recensons ci-après. Le poids relatif de chacun de ces facteurs sera décidé en fonction des contraintes particulières à chaque bibliothèque et des circonstances spécifiques à chaque opération. La plupart de ces facteurs sont interdépendants, il faudra rechercher :
4.1. Le poids de l'investissement
Il est déterminé par le prix d'achat des équipements nécessaires à la numérisation - scanners et postes de travail rattachés - ainsi que le serveur de stockage et le matériel pour la production des médias (graveur de CD-ROM par exemple). La fourchette de prix pour ce type de matériel est relativement large et dépend des supports que l'on envisage de traiter. Ainsi le coût
I moyen d'un poste de numérisation évoluera entre 6 100 € (scan-| ner A4 et PC) et 30 500 € (scanner de microfilms et PC), voire
ï plus pour des scanners spécialisés. Ce prix doit être multiplié par | le nombre de postes nécessaires pour conduire l'opération dans | les délais impartis. | L'amortissement de cet investissement doit être envisagé | en fonction des volumes à traiter et de la répétitivité éventuelle | de l'opération.
f- On comparera le coût unitaire obtenu (total investissement/ ^ nombre de pages scannées) à celui proposé par le prestataire 1 (lequel se situera selon les spécificités de l'opération entre 0,045 ^ et 0,45 € voire 0,75 € la page). « o ro ©
108 Conduire un projet de numérisation
4.2. La disponibilité des personnels
La charge nécessaire à la réalisation de la tâche de numérisation sera estimée en fonction des éléments fournis plus haut. On jugera alors si on dispose du personnel nécessaire. On étudiera en outre les capacités humaines du personnel pressenti pour prendre en charge l'activité et à assumer la maîtrise d'une technologie somme toute avancée. On tiendra compte enfin de la présence effective du personnel au poste de travail et on prendra en considération en particulier les périodes de congé et les absences éventuelles pour dimensionner l'équipe de numérisation afin d'assurer un volume de production constant.
Il faudra en outre provisionner un poste de responsable pour cette équipe, cette personne devant avoir les compétences requises pour maîtriser la technologie, l'organisation de la production et assurer un encadrement efficace.
On se posera en outre la question de la durée de l'opération et donc de la mission qui sera dévolu à ces personnels au terme de l'opération.
4.3. La taille de l'opération
Elle se définit en termes de volume (nombre de documents à numériser) et de délai de mise en œuvre, donc de flux quotidien induit.
Dans le cas d'un service à la demande, on estimera un volume quotidien potentiel.
A partir d'un certain volume (estimé à quelques centaines ou quelques milliers d'exemplaires selon la nature de documents à traiter), l'opération nécessite la mise en place d'une infrastructure industrielle, qui, de notre point de vue, outrepasse les missions d'une bibliothèque. On envisagera donc de faire appel à des ressources externes pour de telles opérations.
La mise en œuvre de la numérisation
On peut distinguer deux phases distinctes dans une opération de numérisation :
- la reprise du fonds existant qui sera en principe confié à un prestataire externe ;
- la numérisation « au fil de l'eau » des nouvelles acquisitions ou de prestations à la demande qui pourront, moyennant la mise en place d'une petite unité de numérisation, être effectuées en interne. On étudiera cependant avec attention la proposition du prestataire pour ce deuxième type de traitement, une offre financièrement intéressante n'étant pas à exclure, dans la continuité de l'opération initiale.
4.4. La spécificité des techniques mises en œuvre
Si la numérisation met en œuvre des techniques très particulières - telles que par exemple la numérisation de microformes ou la numérisation de documents couleur de grande qualité, on aura du mal à développer en interne les compétences requises. A contrario, il n'est pas impossible que l'on ne puisse également trouver de prestataire disposant de ce type de compétences. On jugera alors de l'intérêt de prendre en charge l'opération et des moyens d'y parvenir.
4.5. L'aptitude du fonds documentaire à être déplacé
Certains fonds ne sont pas facilement déplaçables, soit du fait de leur fragilité, soit de leur valeur intrinsèque, soit parce qu'ils doivent être disponibles à tout moment.
Dans ce cas, on envisagera une numérisation en interne. Certains prestataires sont disposés à déplacer sur site une unité de numérisation, cette alternative sera aussi étudiée.
Numérisation interne ou externe - Le choix de Lyon
par Pierre Guinard
Même les grandes entreprises démarrent petitement et les options techniques prises au départ résultent moins d'un choix théorique reposant sur un ensemble de critères parfaitement maîtrisés que de l'adaptation à une situation donnée : le pragmatisme fait souvent loi. C'est le cas des opérations de numérisation de la bibliothèque municipale de Lyon engagées avec les moyens modestes et expérimentaux, privilégiant dans un premier temps une solution interne sans repousser pour autant une solution externe.
La numérisation a débuté en 1993 selon deux axes : d'une part, les articles de presse concernant la région Rhône-Alpes, d'autre part les enluminures. La question de numériser en interne ou en externe n'a pas été la question première : il fallait d'abord numériser, à moindre coût et le plus efficacement possible. Les réponses apportées ont d'ailleurs différé, en tenant compte des caractères spécifiques des documents. De plus, l'acte de numériser n'est pas à prendre en compte seui car d'autres critères l'accompagnent. En amont, c'est le choix des documents à numériser, en aval c'est leur description, leur catalogage ou leur indexation.
Pour les articles de presse, une longue pratique de constitution de dossiers existait : les bibliothécaires dépouillaient chaque jour la presse régionale, nationale ou internationale, prélevaient ou photocopiaient les articles et les répartissaient dans des dossiers selon 200 thèmes différents. Avec la numérisation, il ne s'agissait pas de reprendre le travail déjà fait, mais de le poursuivre au quotidien en substituant à la version papier une consultation finale sur écran. On passait ainsi de deux opérations successives (choix des articles et intégration dans un dossier) à trois (choix des articles, numérisation et indexation). Au final, la qualité d'accès au document était grandement améliorée pour le public, puisqu'au lieu de consulter un des 200 thèmes, il pouvait utiliser un thésaurus qui comporte aujourd'hui 20 000 termes, établir ses propres critères de recherche et constituer à loisir un recueil d'articles personnalisé. Dans ces conditions, l'option interne s'est imposée d'elle-même, en considérant que le choix des articles et leur indexation faisaient partie du travail normal de politique documentaire des bibliothécaires du département de la documentation régionale et pouvaient difficilement être sous-traités. Du coup, l'opération intermédiaire de numérisation n'avait plus de raison d'être déportée, d'autant qu'elle ne posait pas de problème technique : les articles
Conduire un projet de numérisation
photocopiés pouvaient facilement être numérisés sur un scanner à plat et aussitôt brièvement décrits (auteur et titre de l'article, date et nom du journal). Dans ce cas, la numérisation peut se faire avec un matériel ordinaire et relativement bon marché.
Pour les enluminures, le corpus à numériser représentait environ 12000 images, qui existaient sous forme de diapositives grâce à la campagne photographique menée avec l'Institut de recherche et d'histoire des textes (IRHT). L'existence de ce support intermédiaire a permis dans un premier temps de faire numériser à l'extérieur, par la société Kodak, 2 500 images sous forme de CD-Photos. L'objectif était alors simplement de permettre au public de consulter en local sur un écran les enluminures, mais sans qu'une recherche approfondie soit possible. Il aurait été possible de numériser l'ensemble des images à l'extérieur, puisque l'argument de ne pas faire sortir des documents précieux et parfois fragiles de la bibliothèque ne tenait pas dans le cas présent. La décision de se doter d'un équipement propre, (appareil photo numérique et scanner couplé à un chargeur de diapositives), résulte plutôt de la volonté d'expérimenter une nouvelle technologie, de la faire adopter par les deux photographes de la bibliothèque, d'ailleurs désireux de se former, et de maîtriser ainsi de façon souple les demandes émanant de l'établissement et du public. Finalement, l'apparition d'une nouvelle technique ne modifiait pas fondamentalement les raisons qui avaient pousser la bibliothèque à se doter depuis longtemps de son propre outil de reproduction en photographie et microfilmage.
Les appareils achetés ont effectivement permis d'abord d'achever la numérisation totale des enluminures, de constituer plusieurs expositions virtuelles à partir des documents montrés à la bibliothèque - dans un souci de diffusion plus large -, de commencer celle des estampes et photographies contemporaines - dans un souci d'archivage.
Le recours à la numérisation externe n'est pas systématiquement rejeté et la bibliothèque a d'ailleursà plusieurs reprises, mais longtemps sans succès, déposé des dossiers de demande de subvention pour des opérations qui auraient entraîné le recours à un prestataire extérieur. Elle a en revanche obtenu des crédits de l'Agence Rhône-Alpes pour les sciences humaines et sociales pour acheter du matériel et acheter en 1998 un scanner
Numérisation interne ou externe 113
à plat couleur d'excellente qualité. La diversité des réponses aux demandes de subvention influence parfois aussi la politique de rétablissement.
Les documents d'abord numérisés ont été des pièces isolées, plates et non reliées. En revanche les livres ou périodiques reliés qui constituent cependant la plus grande partie des collections n'avaient quasiment pas été touchés, faute de matériel adapté. À l'occasion d'un programme européen auquel la bibliothèque a participé1, elle a testé une caméra numérique noir et blanc. Elle a ensuite fait l'acquisition fin 2000 d'un scanner couleur permettant la numérisation de documents reliés, y compris de grand format2.
Ainsi aujourd'hui la bibliothèque peut-elle répondre à la diversité des demandes qui lui sont faites.
1. QUELLES LEÇONS TIRER DE CES QUELQUES ANNÉES D'EXPÉRIMENTATION ?
Il n'y a pas de solution unique : les conditions propres à chaque établissement avec ses moyens matériels et humains, la nature des collections à numériser, la possibilité de bénéficier de subventions sont à prendre en compte.
Dans le cas lyonnais, les conditions de départ prédisposaient à une expérimentation en interne avec la présence ancienne sur place d'un laboratoire photographique et le souci de limiter au maximum la sortie des documents précieux dans un but de bonne conservation. Dans un second temps, la volonté de faire une offre de produits numériques au public a renforcé l'équipement en interne. Celui-ci a l'avantage de permettre un grande réactivité et une souplesse de fonctionnement non négligeable.
Cependant, les deux solutions ne sont pas exclusives l'une de l'autre et présentent d'ailleurs des exigences communes. Chacune demande de déterminer au préalable la finalité du travail et de prendre en compte les caractéristiques des documents numérisés pour
1. Le programme DEBORA (Digital access to books of the Renaissance) court sur 1999-2001 et vise à permettre aux chercheurs l'accès à des livres du XVI" siècle. Il réunit les bibliothèques de Coïmbra et Casanentense de Rome et Lyon, l'ENSSIB et plusieurs équipes de recherches de Lyon, de Lisbonne et de Lancaster. 2. Scanner Titan couleur SMA 6650 A0
Conduire un projet de numérisation
fixer des paramètres de prises de vues très précis. Si la solution externe nécessite la rédaction d'un cahier des charges, la solution interne ne doit pas faire l'économie de ce même travail, même s'il est moins formalisé, pour que les indications techniques soient claires pour les photographes et pour les bibliothécaires. Dans ce domaine, la collaboration et l'échange de compétences entre les deux métiers sont fructueux.
On peut ainsi dégager une double perspective. La numérisation externe intéresserait des corpus homogènes de documents auxquels des critères généraux peuvent être appliqués : diapositives, microfilms ou documents originaux de même structure, en prenant soin que toutes les garanties de sécurité soient remplies par le prestataire de service. Dans ce cas, et pour des quantités importantes, la solution externe présente vraisemblablement une meilleure productivité.
En revanche la numérisation en interne conserve des avantages pour des opérations plus fragmentées ou pour lesquelles la réactivité doit être plus grande (commandes du public, besoin d'illustration pour des publications électroniques ou sur papier).
L'idéal est donc de posséder plusieurs fers au feu afin de répondre à un besoin et à une demande qui grandissent. Ainsi la bibliothèque municipale de Lyon, s'étant dotée d'un équipement propre, doit faire prochainement numériser l'ensemble des microfilms de ses manuscrits médiévaux dans le cadre des projets de numérisation aidés par la Mission à la recherche et à la technologie.
Choisir son prestataire
par Jocelyne Deschaux
Le choix du prestataire est une phase essentielle dans le projet de numérisation. Les risques d'un mauvais choix peuvent se mesurer, dans l'ordre croissant d'importance, en termes financiers (une mauvaise numérisation sera à refaire et coûtera à nouveau de l'argent), en terme de service non rendu, ici la mission de conservation (l'un des buts de la numérisation est de ne plus avoir à recourir aux originaux, la qualité doit donc en être excellente), enfin et surtout de perte de l'original (dégâts irrémédiables).
Une fois le cahier des charges rédigé, il faut donc choisir le prestataire le mieux placé. Il est bien sûr intéressant de demander des devis à plusieurs sociétés, de façon à ce que l'étude des propositions puisse n'en retenir que deux ou trois ; on testera ensuite, sur un échantillon représentatif des documents à numériser, la qualité réelle de ces offres pour en dégager celle qui correspond le mieux aux besoins de l'établissement.
1. LES CRITÈRES DE CHOIX POSSIBLES
1.1. La sécurité des originaux La sécurité des originaux constitue le tout premier niveau
d'exigence - tellement évident qu'il peut être parfois oublié. Que penserait-on d'une qualité numérique excellente qui se traduirait par une détérioration des documents eux-mêmes ? Cette spécification de sécurité accompagnera donc toutes les étapes du processus : le transport aller-retour, le stockage d'attente, et la manipulation pendant la numérisation.
1.2. Le degré de spécialisation du prestataire Ceci paraît être un élément important. N'est-il pas raisonnable
de penser qu'on ne numérise pas, par exemple, un livre relié comme des photographies anciennes sur plaques de verre ? Si le produit final est le même (des images numériques sur un CD), les moyens pour parvenir à un résultat de qualité requièrent des spécificités qui ne s'improvisent pas et qui s'améliorent généralement avec l'expérience. Cela peut valoir la peine, dans le cas de collections de type particulier (par exemple donc, des plaques de verre), de rechercher des prestataires spécialisés ; un moyen de les connaître est d'interroger les collègues qui ont pu les faire travailler.
Conduire un projet de numérisation
1.3. Le matériel utilisé Il faut aussi s'arrêter quelque peu sur le matériel utilisé par
les différentes sociétés postulantes. En effet, dans le cas, par exemple, de la numérisation de documents reliés, il est essentiel de savoir si le scanner prévu est un scanner à plat où les livres ou registres seront retournés et forcés au niveau de la couture, ou s'il s'agit d'un scanner à prise de vue zénithale ou « à potence », qui conviendra beaucoup mieux à ce type de documents. Par ailleurs, la qualité de résolution (le nombre de dpi), ne sera pas la même selon les différents matériels.
1.4. Les références Les références, c'est-à-dire les établissements publics pour
lesquels le prestataire potentiel a déjà travaillé, est une donnée également à mettre en exergue. Encore faut-il vérifier ces références (certaines sont fausses ou anciennes), donc contacter les personnes qui ont directement été en relation avec le prestataire et les interroger afin de savoir, outre le type de collection concerné, d'une part, bien sûr, leur degré de satisfaction sur le travail (« à chaud » et avec le recul) et d'autre part, si leurs objectifs étaient comparables aux vôtres. Des questions concernant les délais, la sécurité pendant le transport, la finition de la présentation des supports numériques, le respect des originaux, la sécurité des locaux pourront trouver ainsi des réponses assez fiables.
1.5. La distance Certains privilégieront la notion de distance entre l'atelier du
prestataire et les collections. La distance du transport n'est pas à mon avis, un critère essentiel. En effet, si l'on a décidé que l'opération de numérisation se ferait dans des locaux extérieurs, à partir du moment où les documents quittent leur bibliothèque, ils vont faire l'objet d'un conditionnement spécial pour être transportés sans dommage ; que la distance à parcourir alors représente 20 ou 200 km ne change pas grand chose.
En revanche, il est vrai qu'il peut être intéressant de trouver un prestataire qui présente tous les autres critères de choix, et qui de surcroît, soit proche de l'établissement en question, de sorte que le chef de projet ait la possibilité plus facile de se rendre sur
Numérisation interne ou externe 117
les lieux pourvoir le matériel, les locaux, les conditions de sécurité, de manipulations, etc.
1.6. Les prix Bien sûr, le prix proposé dans le devis doit être un des critè
res de choix mais on sera surtout vigilant au niveau de prestations offertes (cf. infra).
2. L'ÉTUDE DES DEVIS
L'étude des devis permettra donc de dégager 2 ou 3 prestataires soumissionaires que l'on pourra ensuite départager par une analyse de qualité sur échantillon de test.
La vigilance initiale est de ne pas se laisser « impressionner » par des devis qui peuvent vite être envahis, aux yeux de non spécialistes, par des notions techniques et technologiques. Le prestataire doit pouvoir identifier et décrire précisément et simplement les différentes phases du travail et leurs particularités.
Le bibliothécaire non spécialiste pourra, en dépouillant les différentes offres, se constituer la trame de référence idéale de ses exigences, et analyser ensuite la conformité et le degré de couverture de chaque prestataire à celle-ci. Cette trame permettra en outre de demander des compléments à l'offre retenue.
2.1. Un devis détaillé On privilégiera sans hésitation les devis détaillés, précisant
la nature et l'ordonnancement des opérations, et le prix correspondant à chacune et à chaque fourniture. C'est ainsi que l'on pourra véritablement comparer les devis les uns aux autres. Le détail donné n'empêchera pas le contact direct (téléphonique) avec chaque prestataire, pour reprendre chaque ligne de la proposition et s'en faire préciser le contenu. Des malentendus sur des intitulés sont malheureusement fréquents, mais ils ne sont souvent découverts qu'à la fin...
2.2. Les prix unitaires Les tarifs unitaires sont intéressants à comparer, mais il faut
faire attention à ceux qui sont affichés parfois artificiellement bas :
118 Conduire un projet de numérisation
ils ne recouvrent souvent que le cœur de l'activité (la numérisation), et omettent les « à-côtés » qui font la qualité de la prestation finale.
2.3. Le prix total Malgré des tarifs unitaires parfois comparables, le prix total
peut différer de façon importante d'un devis à l'autre. Pourront alors entrer en ligne de compte les réponses proposées au différentes exigences du cahier des charges, comme les délais de réalisation, les garanties, les délais d'acceptation (c'est-à-dire le temps prévu entre la remise des images numérisées et la mise en paiement de la facture, pour permettre une visualisation exhaustive ou sur échantillonnage représentatif de chaque CD livré), le niveau de sécurité des collections, l'identification des données (chaque CD doit avoir son numéro, chaque vue sur son CD le sien, et un photo-index en jacquette facilitera les repérages, surtout dans le cas de documents iconographiques), ou la possibilité de reprise de certaines images en cas de non-satisfaction.
3. LE TEST SUR ÉCHANTILLON REPRÉSENTATIF
Le choix ultime du prestataire ne devrait pas se faire sans la mise en oeuvre d'un test sur échantillon représentatif des originaux à numériser : documents noir et blanc et couleurs, de formats différents, le cas échéant au tracé pictural différent : si les propositions peuvent se valoir sur le papier, elles pourront varier du tout au tout dans le produit final. Les documents sélectionnés pour le test devront être représentatifs de l'ensemble, notamment en faisant ressortir les particularités, pour voir comment le prestataire « s'en sort » sur les difficultés pressenties : ainsi, on choisira des exemples du cas le plus général, et divers exemples de « cas spéciaux ».
La gratuité, fréquente, de ce type de test, peut être d'autant plus exigée qu'elle est d'emblée prévue dans le cahier des charges. Mais dans ce cas, on veillera quand même à ce que la charge de travail reste raisonnable (notamment pour le traitement de l'échantillon des cas particuliers), afin de ne pas décourager des candidats de petites structures qui peuvent, in fine, se révéler plus performants, mais qui peuvent craindre des tests trop onéreux pour eux en cas de non obtention de la commande.
Numérisation interne ou externe
Ces remarques ne prétendent pas faire la liste exhaustive des critères de sélection d'un prestataire, mais le suivi de ces quelques règles de bon sens devraient permettre cependant d'éliminer la plupart des pièges ou risques.
Calculer les coûts induits de la numérisation
par Jocelyne Deschaux
La numérisation comporte d'importants coûts induits, complémentaires à la facture payée au prestataire ou au fournisseur de scanner, et qu'un projet se doit de considérer dès le départ. Ces coûts induits se posent à la fois en termes de temps passé à diverses opérations impliquées par la numérisation, et en termes financiers. Les exemples seront pris dans cet article dans le cadre de deux opérations de numérisation menées ces dernières années par le fonds patrimonial de la bibliothèque municipale de Toulouse (BMT). La première a consisté en la numérisation, en 1997, des 3 700 diapositives existantes d'enluminures de manuscrits médiévaux. L'indexation de ces enluminures numérisées n'a été achevée qu'en 2000. La seconde, actuellement en cours, consiste en la scannérisation de 5 000 photographies sur plaques de verre datant des années 1860-1920. La phase technique de ces deux projets a été réalisée par un prestataire extérieur ; en revanche, les phases de préparation et d'indexation ont bien sûr été assurées par la bibliothèque.
22 Conduire un projet de numérisation
1. AVANT ET PENDANT LA NUMÉRISATION
1.1. Les coûts induits à prévoir au moment de la sélection des documents
Sans entrer dans le détail de la sélection des documents à numériser, il faut savoir que cette phase peut engendrer des coûts induits, d'abord en temps mais aussi en opérations onéreuses. L'un des buts principaux d'une sélection rigoureuse étant de constituer un ensemble cohérent et homogène, on peut être amené à compléter la base de départ : dans le cas de numérisation réalisée à partir de supports de substitution tels que des photographies, des diapositives ou des microfilms, il peut être parfois nécessaire d'en refaire une série pour homogénéiser par exemple le cadrage, le rendu des couleurs, la qualité photographique, notamment si les photos de base ont été réalisées dans le cadre de campagnes successives antérieures, sans critères prédéfinis (au niveau notamment du cadrage).
Bien sûr, la sélection sera moins problématique s'il s'agit d'une numérisation systématique de tous les documents d'une série. Mais même dans ce cas (représenté par la BMT par l'opération sur les plaques de verre), des problèmes de conservation peuvent venir interférer et poser question (par exemple : les plaques de verre cassées seront-elles numérisées ? jusqu'à quel niveau de casse ? acceptera-t-on des plaques en deux, trois morceaux ou plus ? le rendu en sera-t-il acceptable ?)
Une fois les documents sélectionnés, il peut être nécessaire de procéder à quelques traitements de conservation : un dépoussiérage, de petites réparations, voire des restaurations, une mise en boîtes ou en pochettes pour le transport des documents, peuvent induire des coûts préalables à la numérisation, et qui permettront de numériser des documents en bon état, offrant donc une qualité supérieure de lecture. Ainsi, à la BMT, la numérisation des
Calculer les coûts induits de la numérisation 123
5 000 plaques de verre a-t-elle été précédée d'une longue préparation, réalisée, après formation spécifique, pendant 4 mois par deux agents, à 3/4 de temps : inventaire précis, mise en état de conservation par dépoussiérage document par document, et mise en pochettes de conservation.
Une fois l'ensemble des documents sélectionnés, la constitution d'un inventaire, à remettre au prestataire, est indispensable et doit être fait avec soin : il comprendra des éléments de repères tant bibliothéconomiques (par exemple : cote du manuscrit, numéro de feuillet, numéro de diapo, numéro de la boîte dans laquelle la diapositive parviendra au prestataire), que descriptifs (description brève, dans le cas des plaques de verre, permettant un repérage immédiat d'un document qui n'a pas de mention de cote sur le document lui-même, mais sur la pochette de conservation). Le contrôle de cet inventaire a une importance primordiale, car le prestataire le prendra pour base afin de numéroter les images numérisées. Pour cette raison, il est bon de constituer des lots de n vues qui correspondront au nombre d'images par disque obtenu (en général 100). Le prestataire n'a plus ensuite qu'à ajouter le numéro de CD et le numéro d'image correspondant dans le CD.
= Cette première phase de sélection et l'inventaire précis des ? documents à numériser doit pouvoir être faite dans la rigueur et » sans précipitation, en tout début de l'opération, de préférence 1 avant même que le choix du prestataire ne soit fait. Du nombre I total et précis de documents à numériser dépendra bien sûr le § budget à prévoir sur la ligne des prestations de services. $ Q_ O O o 0 a. 1.2. Les coûts induits liés au choix du prestataire co _J 1 .g co
•S 1.2.1. Un test ÇD § Le choix du prestataire est une phase délicate, dont | dépendra la qualité technique de la numérisation, mais aussi les
124 Conduire un projet de numérisation
bonnes conditions de sécurité et conservation des documents, pendant l'opération elle-même. Il n'est pas inutile de faire procéder à un test préalable, qui peut parfois être facturé : pour le choix du prestataire du projet de numérisation des diapositives d'enluminures, une présélection représentative de 30 diapositives a été confiée aux deux sociétés pressenties pour une numérisation test (gratuite) sur un même jeu de diapos, aux cadrages et couleurs variés (pleines pages, détails, lettres seules, couleurs éclatantes, écriture majoritaire, fond de parchemin vierge majoritaire...).
Pour pouvoir effectuer le contrôle de ce test, il faut évidemment avoir à disposition une chaîne de visualisation d'images (écran et logiciel) assez puissante permettant la comparaison entre les différentes propositions de numérisation et entre celles-ci et l'original. A noter que les magazines informatiques proposent parfois des petits logiciels temporaires de ce type, qui peuvent éventuellement être utilisés ponctuellement en dépannage. Mais il est bien évident qu'il faudra avoir acquis l'équipement définitif pour le contrôle qualité des disques.
"O 1.2.2. Le cahier des charges |
CD
La rédaction du cahier des charges est une étape importante, | car tout oubli ou imprécision générera des frais supplémentaires. | Le prestataire s'engage par écrit à respecter ce document contrac- | tuel, qui concerne l'ensemble des opérations depuis le départ de | la collection jusqu'à son retour dans ses locaux habituels de stoc- | kage, (transport, stockage, numérisation, contrôle, aspect final f des CD avec par exemple, photos index pour chaque disque, gra- "i1
vage de sauvegarde...) | LU
g3 w o > co
Calculer les coûts induits de la numérisation 125
1.3. Le transfert des documents
1.3.1. Le transport
Le transport peut être assuré soit par le prestataire, soit par l'établissement. Dans les deux cas, on doit veiller à ce que soit prévue la fourniture (et donc éventuellement l'achat par la bibliothèque) des caisses de transport appropriées qui permettront de stocker sans dommage les documents.
1.3.2. L'assurance
Quand un document quitte la bibliothèque, il doit être assuré. En général, les collectivités territoriales ont une assurance permanente ; il suffit pour la bibliothèque de déclarer la nature, le nombre et la valeur individuelle des constituants de la collection, mais certains établissements doivent souscrire eux-mêmes une assurance et donc en acquitter le montant.
f 2. APRÈS LA NUMÉRISATION 3 to CD ® m) to | 2.1. Le contrôle qualité
CO c 0 c
| À la réception des disques d'images numériques, doit | s'effectuer le contrôle qualité. Cette vérification qui consiste
a d'une part à vérifier pièce à pièce que tous les documents ont bien j, été scannés, et d'autre part que la qualité de cette numérisation 1 ainsi que tous les autres points sont conformes à ce qui était t: demandé dans le cahier des charges. Là encore, la qualité de la 1 chaîne de visualisation doit permettre de faire ce contrôle sans | problème. Le temps passé au contrôle qualité ne doit pas être
126 Conduire un projet de numérisation
sous-estimé : un bon contrôle permettra de relever des erreurs cor-rigeables par le prestataire avant le paiement de la facture (avant le délai de 90 jours). Cette vérification peut également se faire par échantillon pendant cette période, l'exhaustivité du contrôle étant assurée par une période de garantie à convenir dans le cahier des charges.
2.2. L'indexation
2.2.1. L'acquisition des outils
La chaîne de visualisation d'images (écran, logiciel...) doit avoir été achetée au préalable (on a vu qu'il était utile de l'avoir pour le test et le contrôle qualité). A la BMT, le logiciel « Micromusée » a été acquis en 1997 pour 7 622 € (formation comprise), à quoi s'est ajoutée une formation supplémentaire pour le conservateur chargé de l'indexation (533 € pour deux jours).
A noter en outre, que l'indexation peut induire un certain nombre de frais induits en terme d'ouvrages de référence. Ainsi, l'indexation des enluminures à la BMT a-t-elle été faite à partir s
r -0 du thésaurus de François Garnier, que la bibliothèque d'étude ? conservait ; plusieurs autres ouvrages de références (guides ico- % nographiques et autres) ont été nécessaires ; il faut bien sûr en J prévoir l'acquisition s'ils ne se trouvent pas déjà dans les collec- | tions. g
c Q) CL O O o
2.2.2. Le temps passé et le personnel concerné f
Une fois l'opération de numérisation réceptionnée, il j, « reste » à indexer l'ensemble des données. Il est à noter en effet § que l'indexation a rarement été réalisée au préalable. Il est clair ^ que cette opération est extrêmement coûteuse en temps, en per- 1 sonnel, en matériel. -3
Calculer les coûts induits de la numérisation 127
Ainsi, la numérisation des enluminures à la BMT a-t-elle permis d'achever l'identification de chaque enluminure, et plus encore, l'inventaire de tous les sujets représentés. Pour cet exemple, le temps consacré à l'indexation des 3 700 images a été d'environ 8 mois équivalent temps plein (2 x 3,5 mois pour deux conservateurs-stagiaires successifs, 1 mois pour le contrôle et les corrections par le conservateur responsable). La moitié des enluminures avait été indexée avant le projet de numérisation ; une fois celle-ci réalisée, il a fallu saisir dans « Micromusée » l'indexation déjà effectuée, puis indexer la seconde partie des enluminures. Il y a eu ensuite l'importation des images dans le serveur, leur compression et enfin la vérification systématique et intégrale de l'ensemble de l'indexation selon le thésaurus choisi.
Il est important d'insister sur le temps pris par l'indexation proprement dite des données numérisées. C'est un travail qui doit être effectué de façon continue, à temps quasiment complet, pendant le temps nécessaire ; faute de quoi l'indexation manquera de rigueur, d'homogénéité et finalement d'efficacité pour les recherches. Il importe en effet que chaque sujet soit toujours indexé de la même manière, par le même mot, sinon la recherche
s ultérieure n'en sera pas facilitée. C'est pourquoi il peut être inté-f ressant, connaissant la somme de travail et la diversité des tâches | confiées aux responsables des fonds (patrimoniaux) et la diffi-
§ culté que ceux-ci peuvent avoir à se consacrer de façon continue, | ininterrompue et régulière à une tâche de fond, d'avoir recours à
§ des personnes extérieures et compétentes qui, stagiaires ou vaca-| taires chargées spécifiquement de cette tâche, pourront réaliser | un travail plus homogène, régulier et rigoureux. Dans le cas
f d'indexation d'images - qu'elles soient d'enluminures, plaques i de verre, gravures ou autres - les stagiaires de l'Enssib ou des | IUT compétents en histoire de l'art, peuvent rendre bien des ser-
ï vices à des bibliothèques qui ont du mal à décharger leur person-! nel du travail habituel pour qu'il puisse se consacrer uniquement 5 à la partie scientifique d'un projet de numérisation. 6
Conduire un projet de numérisation
CONCLUSION
Il n'est pas exagéré de considérer que les coûts induits d'un projet de numérisation en bibliothèque représentent les 2/3 des coûts (financiers et en temps) globaux.
On a souvent tendance à se focaliser sur le coût bien visible, et nécessaire, du prestataire (d'autant plus qu'on peut bénéficier de subventions pour cela), et à négliger l'effort que la bibliothèque devra fournir en accompagnement, effort qui se traduira par des coûts induits en temps passé et en frais annexes. C'est pourtant cet accompagnement qui permettra véritablement au projet d'atteindre sa finalité : être un nouveau service à l'utilisateur, c'est-à-dire un outil souple et performant de consultation et de préservation des documents originaux.
Calculer les coûts induits de la numérisation 129
a. -e ;
s. s: fc s o ^ .® ? "S "SK «
s S a . ^ q a
£ s ^ «S» .2 S •« a & « g IN S? 5< 4) o „ B g a ^ "S
13 E?® S"* •o â "§ a Ts •~ S e a •S" o <a -H « o « S y a -S
ï5 S ^ s S 5a S «»- a a « ?"s
1 1 -•G ^ c<s *5» «S ««a a rS ®
a p,. ^
? 0 s >â "= S A s -o. S
S 3 • S-s
S S ta h >2 ><! a s
5|-« •<
e2
1 06
-o g
Wi ^
11
•8 a 1 *— •*- CO «L> « G ^ QJ 3 'o P-3 3^ ^ Q. c3 « - s-H 3 c u S u ,1) P- £ t-t-. t-
rï -C y y
•n i« a e 53 <u e «
u •2 W O T3 > , s£> fe o-U
CJ3 TD
_o c3
-o c
• o
'<
H 55 ai? Ki
•a i -s
flS o « OÛ <
O 3 O § 2 CQ S o < a ci-O-, SI
e .2 g,.! ? S > | a 8 S: a "O <& Pm
a 5 IL
3 CQ Z
§ t U <u
_o 5 c (Q <U C -c g ^ c £ ._ -j I C
130 Conduire un projet de numérisation
s s-
!=
O
« • o 'o "ïJ çp 5î) 'o 2 O Tr. >
CJ) s -b 2 «5 fll
ri 0 J?- ^ U niD •< -O
« S a 'S A A o o £ ^ 1 1 es s. S o jr s "O
£ r®
s •B g a g h af H s ?• O "9 'C3
a «
is I .S [
= e
Les choix techniques de la numérisation des documents imprimés
par Catherine Lupovici
Les choix techniques d'une opération de numérisation constituent la phase clef de la réalisation du projet. Elle traduit les objectifs définis dans la phase préparatoire en contenus qui seront utilisables directement par les outils informatiques d'exploitation prévus pour la diffusion des ressources numériques. Selon les choix techniques effectués le résultat sera utilisable non seulement dans le programme initial mais aussi dans des programmes supplémentaires de diffusion et de valorisation qui pourraient être construits ultérieurement sur le corpus ainsi créé. Ces choix conditionnent également, en fonction des standards retenus, les échanges de données entre les institutions, la possibilité d'interconnecter les corpus numérisés, de construire des corpus virtuels ou de contribuer à des portails. Enfin comme pour toute information numérique ces choix sont vitaux pour la préservation du travail effectué au-delà du seul court terme si l'on souhaite réaliser un investissement numérique qui pourra être exploité dans toutes circonstances comme n'importe quelle collection documentaire.
Conduire un projet de numérisation
Ces choix techniques sont donc aussi cruciaux pour la réalisation de contenus numériques que l'a été la mise en œuvre au début des années 1970 de la création des formats standard pour l'information secondaire et les catalogues de bibliothèques, dès lors que l'objectif du projet dépasse la réalisation d'un seul produit éditorial ponctuel.
Les choix techniques pour la numérisation des collections concernent :
- la saisie du contenu : préparation de la communication et de la pérennisation des contenus ;
- la saisie des métadonnées associées qui permettront la gestion des accès, la gestion des documents numérisés et l'organisation de la navigation dans les collections.
La numérisation des documents imprimés conduit à s'intéresser essentiellement aux textes imprimés et aux illustrations accompagnant ce texte. Ces illustrations peuvent aller de simples figures, schémas et graphiques dans le texte jusqu'à des illustrations hors texte en couleur. Les techniques retenues pour un volume imprimé devront donc tenir compte de cette diversité de nature d'information. Elle peut conduire à utiliser des modes de numérisation complémentaires ce qui aura un impact sur les outils de visualisation et d'impression. Au contraire, elle peut conduire à choisir le meilleur compromis du mode de numérisation pour les pages qui contiennent de l'information mixte texte et image.
1. LES DIFFÉRENTS MODES DE NUMÉRISATION DES CONTENUS
Les contenus des imprimés peuvent être numérisés selon deux modes de codage différents : le mode image et le mode texte. Pour mémoire on peut également utiliser le mode vectoriel
Les choix techniques de la numérisation des documents imprimés 133
pour les illustrations graphiques, mais ce mode est principalement utilisé dans le cadre de dessins et de plans et ne sera pas traité ici. Un même document contenant des données de type différent peut être numérisé en mode mixte combinant ces différents modes de base, selon la nature de l'information, l'état des originaux et le type d'usage prévu. Ces deux modes ne permettent pas le même type d'exploitation pour l'indexation et la recherche d'information, pour l'affichage à l'écran et pour l'impression. Un même document original numérisé selon chacune de ces méthodes n'aura pas le même volume ; il sera donc plus ou moins facile à stocker et à transmettre efficacement sur un réseau local ou sur Internet ; enfin il nécessitera l'utilisation de logiciels différents pour la visualisation.
1.1. La numérisation en mode image
Le document peut être numérisé en fac-similé de l'original. On encode ainsi le texte comme une image réalisant une représentation photographique de chaque page du document original.
I Chaque page est décomposée en un certain nombre de points lors | de l'opération de numérisation. On appelle ce type d'images
S numériques des images bitmap ou images rasters ou images en | mode point. | A chaque point ou pixel (picture élément) est associé le | codage du noir et blanc ou de la couleur. Selon le mode de codage | qui comporte un nombre de nuances plus ou moins élevé, on uti-| lise un code plus ou moins complexe qui se fait à l'aide d'un bit, f de plusieurs bits, voire de plusieurs octets, généralement trois ^ octets ou 24 bits pour les images en couleur. Le nombre de bits | utilisé pour le codage de chaque pixel est souvent désigné par la
t! profondeur du pixel ou bit depth. Le mode image se décompose ! en mode bitonal, mode niveaux de gris et mode couleur.
_i ©
134 Conduire un projet de numérisation
1.1.1. Les différents modes image
1.1.1.1. Le mode bitonal
Le codage des pixels sur un bit permet le codage du noir ou du blanc. L'image résultante est donc faite de points noirs ou de points blancs. Ce mode de codage, qui est le plus économique de la numérisation du texte en mode image, est très performant pour les documents très contrastés et dont le fond est propre. Il est insuffisant pour les fonds colorés, les encres pâlies ou les pages tachées. Ce mode est donc principalement utilisé pour la numérisation de documents imprimés en bon état. Il pourra plus difficilement être utilisé pour les illustrations.
1.1.1.2. Le mode niveaux de gris
Le codage des pixels sur un ou plusieurs octets est utilisé pour le mode niveaux de gris. On utilise fréquemment un codage sur 8 bits qui permet de coder 256 nuances de gris allant du blanc au noir. Au contraire du mode bitonal, il permet de respecter l'aspect d'un original noir et blanc. Il est utilisé pour les illustrations photographiques noires et blanches des textes imprimés. Il peut également être préféré au mode bitonal pour le texte imprimé dont le fond est coloré voire taché. Ce mode codage est plus volumineux que le codage bitonal.
1.1.1.3. Le mode couleur
Le mode de codage est identique à celui du niveau de gris, mais on code des nuances de couleurs élémentaires au lieu de se contenter du codage des nuances du noir. Les trois couleurs dont les nuances sont enregistrées sont le rouge, le vert et le bleu (RVB). On utilise généralement 8 bits par couleur élémentaire soit 24 bits par pixel et on peut ainsi distinguer 16 777 216 couleurs différentes. Les fichiers résultant de ce mode de codage sont
Les choix techniques de la numérisation des documents imprimés 135
donc très volumineux. Il faut noter que la décomposition en couleurs élémentaires de l'image bitmap et de celle de l'écran de visualisation n'est pas identique à la décomposition en couleurs élémentaires de l'imprimerie pour laquelle les couleurs élémentaires sont le rouge, le bleu, le jaune et le noir. On utilise principalement ce mode de numérisation pour les illustrations en couleur de documents textuels imprimés.
1.1.2. La résolution des images
La résolution d'une image est le nombre de pixels par unité de mesure de l'image numérisée. Elle correspond donc à la densité du grain de l'image. Une résolution élevée garantit une bonne qualité de l'image numérique, mais elle produit un fichier plus volumineux qu'une résolution plus basse.
La résolution s'exprime généralement en points par pouce ou dpi (dots per inch). Par exemple on parle d'une résolution de 300 dpi, ce qui pour une page A4 (21 x 29,7 cm) correspond à 8 494 000 pixels. Une résolution de 600 dpi pour une page A4 correspond à 33 976 000 pixels.
On utilise aussi la notion de définition de l'image qui est la résolution multipliée par la dimension. On obtient ainsi la définition horizontale qui donne le nombre de pixels de la largeur et la définition verticale qui donne le nombre de pixels de la hauteur de l'image numérisée. Par exemple une définition de 2 000 x 3 000 pixels ou de 4 000 x 6 000 pixels peut être utilisée pour numériser une page d'illustration selon le format de la page d'original et selon la finesse du grain recherchée.
La résolution appliquée lors de la numérisation est fondamentale pour le projet. Elle peut ultérieurement être diminuée par un programme qui va fusionner des pixels et recalculer les valeurs moyennes des couleurs (noir, blanc, niveaux de gris, nuances de rouge, de vert et de bleu) des pixels que l'on fusionne. Si elle s'avère insuffisante, elle ne peut être augmentée automatiquement
136 Conduire un projet de numérisation
de manière fidèle à l'original et l'on doit alors recommencer la numérisation.
Les matériels informatiques utilisés lors de la numérisation, et lors de la restitution sur écran ou sur imprimante n'ont pas tous la même résolution. Ainsi un écran d'ordinateur ordinaire a une résolution de 72 dpi, une imprimante bureautique noir et blanc va avoir une résolution de 300 à 600 dpi (par comparaison une résolution d'imprimerie est de 1 200 dpi minimum). Les opérations de visualisation sur un écran ordinaire et d'impression s'accompagnent donc éventuellement d'un recalcul de la résolution qui peut produire une dégradation du rendu par rapport à la qualité de la numérisation.
Il faut donc déterminer la résolution optimale pour préserver une bonne lisibilité du texte imprimé et de tous les accents, voire des symboles dans le cas d'un texte de mathématiques par exemple. La lisibilité est une lisibilité par l'œil humain sur écran et sur sortie imprimée mais aussi éventuellement selon le type de projet une lisibilité par un programme de reconnaissance optique de caractère. Le texte illustré ou comportant des schémas, des graphiques ou des symboles nécessitera des tests pour définir la bonne résolution rendant correctement à la fois le texte et les £
illustrations. 1 La numérisation des imprimés dans les programmes nord- jg
américains est généralement faite en mode bitonal à 600 dpi pour | la version d'archivé et à 300 dpi pour la version de communica- 1 tion. La Bibliothèque nationale de France utilise le mode bitonal g à 300 ou 400 dpi selon la nature du texte pour la version d'archivé 1 et la version de communication. s
o Q. ro [
1.1.3. La compression des données |
La numérisation en mode image donne toujours un fichier ^ volumineux qu'il faut compresser pour gagner de la place de | stockage et dans tous les cas pour la transmission sur les réseaux ^
Les choix techniques de la numérisation des documents imprimés 137
dont nous disposons aujourd'hui, qu'il s'agisse de réseaux locaux ou de l'Internet. Les différentes méthodes de compression qui existent se répartissent en compression avec perte d'information et compression sans perte d'information.
La compression avec perte d'information élimine des informations créées lors du processus de numérisation de manière non détectable par l'œil humain.
Dans la compression sans perte, l'utilisation de calculs mathématiques permet de factoriser des informations répétées et de minimiser ainsi la taille du document numérique. Pour un même document numérisé en mode image, la compression avec perte est plus efficace que la compression sans perte d'information et elle est d'autant plus utilisée que le document numérique est volumineux c'est à dire pour la numérisation en couleurs.
On préférera donc les compressions avec pertes pour les projets de communication et les compressions sans perte dans les projets de numérisation patrimoniale où les données numériques seront conservées sur le long terme et pourront être réutilisées dans d'autres projets de communication et de valorisation des documents.
I Dans le cas d'un projet qui allie la communication et la | numérisation patrimoniale on pourra créer deux fichiers, le
g fichier compressé sans perte étant archivé pour le long terme. 1 Les formats de fichiers d'images numérisées, en dehors du | fichier bitmap dont l'extension est .bmp, utilisent l'une ou l'autre | de ces méthodes de compression et le format de fichier choisi | comporte donc implicitement une compression plus ou moins
s efficace avec ou sans perte d'information. f Les standards de compression sont en développement per-"i1 manent. .g | Cependant les modes bien stabilisés les plus couramment ^ utilisés sont pour la compression sans perte : | - l'un length coding. Les pixels identiques consécutifs sont | codés une seule fois en associant au code le nombre d'occurrences.
138 Conduire un projet de numérisation
Ce mode de compression est généralement employé avec le mode bitonal ;
- le codage de Huffman. Les occurrences de valeurs les plus nombreuses sont affectées d'un code court ;
- la compression LZW (Lempel-Ziv-Welch). Les taux de compression entre 1,2 et 2,5 sont déterminés par les caractéristiques du document.
La compression CCITT groupe 4 très fréquemment utilisée en numérisation du texte combine le run length coding et le codage de Huffman.
Les modes de compression avec perte les plus fréquemment utilisés sont :
- la transformée cosinus (DTC) ; - la méthode fractale ; - la méthode des ondelettes. La compression JPEG qui est très utilisée en numérisation
pour les illustrations s'appuie sur la méthode DTC.
1.2. La numérisation en mode texte
La numérisation en mode texte consiste à coder le texte en tant que tel et offre ainsi la possibilité d'effectuer de la recherche plein texte à l'intérieur des documents, de prendre des notes en copiant et collant le texte.
Le texte est composé de tous les caractères servant à l'écriture et utilisés dans l'imprimerie : alphabet, ponctuation, chiffres, symboles. Le texte est également structuré et mis en forme typographique dans les documents imprimés et l'on peut souhaiter conserver cette information en codant non seulement les signes de l'écriture mais aussi la présentation. Enfin, il est possible de coder la structuration logique lors de l'acquisition de l'information numérique en interprétant la présentation physique des documents, ce qui permettra d'appliquer des feuilles de style
Les choix techniques de la numérisation des documents imprimés 139
typographique différentes lors de la présentation dans différentes applications pour l'écran ou pour le papier. La structuration logique peut également être utilisée pour sélectionner des portions significatives du document pour la recherche textuelle.
1.2.1. Le codage des systèmes d'écriture
Les différents systèmes d'écritures peuvent être codés en machine et nécessitent un code plus ou moins long selon le nombre de signes distincts.
Ainsi l'écriture latine peut être codée sur 8 bits qui autorisent le codage de 256 signes différents. Le standard le plus répandu qui permet ce codage est le code ASCII (American Standard Code for Information Interchange) ou ISO 646. Cependant l'ASCII ne permet de représenter que l'écriture latine simple sans symboles sophistiqués et sans caractères spéciaux dont on peut avoir besoin dans des textes anciens ou des textes scientifiques.
Le codage sur 16 bits défini au niveau international en 1991 dans la norme Unicode permet désormais le codage de 65 536 signes différents ce qui couvre l'écriture latine et les dia-
g critiques utilisés dans les différents systèmes d'écriture fondés § sur l'écriture latine, le codage des autres langues 1 alphabétiques (arabe, arménien, cyrillique, grec, hébreux), les | symboles mathématiques et scientifiques et le codage des carac-! tères idéographiques (dont principalement les idéogrammes chi-| nois, japonais et coréens). § Seul le codage en Unicode permet donc de représenter cor-! rectement la diversité des imprimés qu'une bibliothèque peut £ souhaiter numériser en mode texte dès qu'il y a des textes anciens j, ou des textes scientifiques par exemple. En effet les imprimés ont | été la plupart du temps réalisés avec des caractères plus divers
^ que ceux présents dans l'ASCII. I La saisie en Unicode n'est cependant pas encore possible | actuellement avec n'importe quel logiciel. Les dernières versions
140 Conduire un projet de numérisation
des normes d'encodage des textes structurés logiquement que sont SGML, XML et HTML supportent Unicode et permettent, moyennant de disposer des polices de caractères adéquates, de l'afficher. L'affichage dans des applications web se fera également par l'ajout de polices de caractères sur les postes de consultation de la bibliothèque ou par l'installation par l'utilisateur distant de ces polices sur son ordinateur personnel s'il dispose d'une version récente de navigateur.
Enfin, il faut signaler que l'ASCII est inclus dans Unicode et qu'un texte saisi en ASCII pourra être converti, à son niveau minimum de sophistication, en Unicode qui sera à moyen terme la norme universelle pérenne de codage du texte pour l'ensemble des systèmes d'écriture et qui est la forme de stockage de préférence pour la conservation à long terme de l'information textuelle.
1.2.2. La structure physique
La structure physique d'un document correspond à la mise en forme de présentation faite pour faciliter la lecture et la compréhension. On peut distinguer la macrostructure qui correspond aux règles de mise en page de chaque type de page à l'intérieur du document comme par exemple la structure de page avec titre centré ou la structure de page en deux colonnes. La microstructure quant à elle est constituée des attributs typographiques qui permettent de typer chaque portion du texte et qui constituent le style du texte au sens des traitements de textes habituels tel que la mise en valeur par le gras, l'italique ou le souligné, les polices de caractère comme Times ou Garamont et les différentes tailles de caractères utilisées pour les différentes portions comme corps 10 ou corps 12.
On peut souhaiter vouloir conserver les éléments de structure physique au niveau de la macrostructure et/ou au niveau de la microstructure de manière à se rapprocher de la mise en page de la reproduction de type photographique obtenue par la numérisation
Les choix techniques de la numérisation des documents imprimés 141
en mode image, mais avec des fichiers beaucoup moins volumineux au moins pour les parties purement textuelles et avec la possibilité d'effectuer de la recherche plein texte. On ajoutera alors au code du texte une codification selon un standard qui permettra d'effectuer la mise en forme lors de l'affichage des documents, en utilisant un logiciel approprié.
Le format PDF (portable document format) de la société Adobe et qui est associé au logiciel Acrobat permet de stocker des documents encodés en mode texte en conservant les éléments de présentation physique. De plus l'outil Acrobat Capture permet de convertir un fichier image de texte en texte, en respectant la présentation physique et en conservant en mode image les parties non reconnues du texte. Il permet enfin d'encapsuler des images et en particulier des conversions en format PDF de fichiers TIFF.
1.2.3. La structure logique
La structure logique quant à elle s'abstrait des règles de présentation pour s'attacher aux types d'éléments logiques déconnectés de leur présentation physique tels que titre, auteur,
I chapitre, section, figure, notes, bibliographie etc... Elle permet, 1 tout comme les formats bibliographiques de type MARC o (machine readable catalogue) de construire des applications qui | savent filtrer les éléments de la structure pour l'indexer ou pour | 1 ' afficher. L ' affichage se fait alors par l'appl ication de feuilles de
g styles qui peuvent être différentes pour une version papier ou | pour une version écran par exemple. | La capture de la structure logique à partir d'un document
f imprimé existant se déduit généralement de la présentation phy-j, sique de chaque document. Il existe des structures génériques | normalisées par types de documents qui peuvent s'appliquer à la
t: conversion de documents anciens. | La codification de la structure logique s'ajoute au code du | texte proprement dit. Les fichiers sont peu volumineux au moins
142 Conduire un projet de numérisation
pour la partie textuelle, ils permettent une indexation sélective, une présentation élaborée par l'application d'une feuille de style qui sera interprétée par un logiciel approprié pour l'affichage ou pour l'impression.
La norme de codage de la structure logique est la norme SGML (standard generalized markup language), ISO 8879, 1996. SGML comporte une syntaxe, la DTD (définition de type de document), qui permet de définir la structure générique pour une classe documents comme les livres, les périodiques, les articles dans les périodiques. Une DTD très particulière est la DTD HTML (hypertext markup language) qui définit la structure logique des pages du web1. Entre la structure très simple HTML et les possibilités très complexes qu'offre SGML, un format intermédiaire a été défini qui permet de répondre à tous les besoins de distribution et d'indexation de documents textuels structurés : le XML (extended markup language)2. Ce nouveau format développé par le W3 Consortium est destiné à remplacer HTML sur le web. XML peut être couplé avec une DTD mais aussi avec une description de structure exprimée en schéma XML. Chacun des sites de format cités propose des outils dans le domaine public et des outils commerciaux pour saisir des documents et des défini- £
lions de structure logique. Une structure logique générique très f importante pour la conversion de documents en SGML et main- | tenant en XML est la DTD TEI ( text encoding initiative f qui per- | met de définir des structures de livres et de périodiques mais | aussi de manuscrits et autres types de documents textuels qui g soient cohérentes entre elles sur le plan du codage et sur celui de | l'exploitation. Beaucoup de projets de numérisation de docu- § ments en mode texte structuré utilisent une DTD TEI. C'est le cas t nj
_i I _g (/) co
1 http:liwwww3 org/TRIhtnil40I/si>ml/dtd.html (visité le 12 novembre 2001). Pour l'historique de iS cette DTD, consulter le site http//www.utoronto.ca/webdocs/HTMLdocs/HTML Spei/html.htnû ^ (visité le 12 novembre 2001). jô 2 XML en 10 points. http:flwww.w3.orgfXML/1999/XML-in-I0-potnts (visité le 12 novembre 2001). > 3 http-Hwwwtei-c org (visité le 12 novembre 2001 ).
Les choix techniques de la numérisation des documents imprimés 143
par exemple de la numérisation de la Revue de synthèse (1900-1999) effectuée par la BnF en partenariat avec la Fondation pour la science et les éditions Albin Michel.
1.2.4. Quel mode texte choisir ?
On voit donc que la saisie en mode texte peut se situer à différents niveaux de complexité qui correspondent à des niveaux de prix et à des fonctionnalités différentes.
Le texte ASCII qui est l'opération la plus simple ne permet que la recherche en plein texte et le copier/coller pour la prise de notes. Dans certains projets de numérisation il est associé à l'image du document. L'association des deux modes permet alors de faire des recherches sur le texte intégral d'un document et d'afficher ou d'imprimer un fac-similé de l'original.
Le fichier PDF textuel permet de faire une recherche textuelle, et d'afficher ou d'imprimer un quasi-fac-similé de l'original. PDF ne permet pas de véritable couper/coller car si le document est présenté en plusieurs colonnes il ne permet pas de copier des caractères contenus dans une seule colonne. Le format | ne gère que l'aspect présentation de la totalité de la page et ne
g gère pas l'organisation logique du contenu. On peut comparer la | manipulation du texte d'une page PDF à celle des caractères | mobiles d'un marbre d'imprimeur où l'on compose ligne à ligne 1 au travers de différentes colonnes. Enfin PDF ne signifie recher-! che textuelle que si le contenu est du mode texte. Mais PDF peut | aussi encapsuler du mode image pur pour lequel aucune recher-! che textuelle n'est possible. C'est le cas dans l'affichage PDF des
m ouvrages numérisés en mode image lors de la consultation de l Gallica (http://gallica.bnf.fr). PDF est cependant intéressant à | utiliser pour la diffusion car il possède un bon taux de compres-
g sion lorsque l'on a des images à envoyer sur le réseau. Le visua-§ liseur Acrobat est gratuit et compatible avec les versions ^ relativement récentes des navigateurs web.
144 Conduire un projet de numérisation
Le document HTML quant à lui est assez peu structuré. Il s'agit d'un vrai fichier texte qui permet la recherche plein texte et le copier/coller avec une présentation relativement simple. On peut introduire une navigation hypertexte entre les pages HTML. On peut encapsuler des fichiers de toute nature, y compris de la vidéo. Le document XML est plus intéressant car en plus des fonctionnalités du HTML on peut exploiter la structure plus sophistiquée pour une indexation par type de données. On peut isoler des types de portion de document avec des caractéristiques différentes en particulier en terme de droit d'accès. On peut créer des liens bidirectionnels à tous les niveaux de la structure à l'intérieur d'un document et non plus seulement renvoyant à une page entière comme avec HTML. On peut, à l'aide de feuilles de styles écrites dans un langage normalisé indépendant des plates-formes, faire des présentations aussi sophistiquées qu'avec l'imprimerie. C'est aujourd'hui LE standard du document structuré pour la saisie des contenus en mode texte. Cependant il ne faut pas oublier que plus on souhaite saisir de fonctionnalités dans l'opération de numérisation plus le prix de l'opération sera élevé.
1.3. Les formats de fichiers § O 3 nj
Les contenus numériques compressés ou non selon les I cas sont empaquetés dans un fichier. Il existe des formats | ouverts (indépendants des plates formes de production) de J fichier qu'il est recommandé d'utiliser de préférence à des J formats propriétaires peu répandus au moins pour la version ^ d'archivé. Le format de communication doit tenir compte du | taux de compression pour la transmission sur les réseaux et ^ des outils de visualisation qui seront nécessaires sur le poste | de l'utilisateur. |
Les choix techniques de la numérisation des documents imprimés 145
Les formats de fichiers pour la numérisation en mode image les plus courants sont :
-TIFF (tagged image file format) est un format de fichier ouvert qui permet de véhiculer des images numérisées en mode point, non compressées ou compressées avec certains modes de compression, en noir et blanc, en niveaux de gris ou en couleur. Les compressions que l'on peut inclure dans un fichier TIFF comprennent les données non compressées, la compression LZW, la compression CCITT Groupe3 et 4, JPEG. Le format TIFF après avoir été développé et maintenu par Aldus et Microsoft est actuellement la propriété d'Adobe, et on trouve les spécifications du format sur le site d'Adobe1. C'est un format de fichier très utilisé qui est un standard de fait. Le fichier TIFF comporte un en-tête structuré dans lequel on peut mettre un certain nombre de métadonnées techniques relatives à chaque image. Le format TIFF est utilisé par les scanners comme format d'échange et dans les applications de numérisation de patrimoine culturel comme format de stockage à long terme ;
JFIF (JPEG file interchange format) est le format ouvert d'échange de fichiers spécifique pour véhiculer les images com-
s pressées selon la norme JPEG à raison d'une image par fichier. | La décompression est séquentielle lors de l'affichage ;
jjj GIF (graphie interchange format) est un format ouvert 1 développé par CompuServe. Il est très utilisé dans les techniques i Internet. Il permet d'intégrer des images compressées en LZW ; c 8 PNG (portable network graphies) est un format ouvert de | fichier développé par le W3 Consortium pour la transmission | efficace sur Internet d'images de bonne qualité. Il a été développé
jg pour remplacer GIF et il peut également remplacer le format à TIFF pour certains usages. Comparé à GIF il offre de vraies pos-| sibilités de codage de la couleur et il permet la décompression
I progressive de l'image, c'est-à-dire un affichage de toute l'image v> o co
1. TIFF 6.0 Spécification (visite le 12 novembre 2001 )
Conduire un projet de numérisation
dans une faible résolution qui s'affine ensuite progressivement. Il a été soumis à 1TSO comme norme internationale ;
-PDF (portable document format) est un format propriétaire qui ne peut être manipulé que par les outils Acrobat de la société Adobe. La décompression est séquentielle lors de l'affichage.
2. LES MÉTADONNÉES
Les métadonnées associées aux documents numérisés sont créées dans le déroulement même de l'opération de numérisation. Elles seront utilisées dans la restitution des documents numérisés et dans leur gestion. La numérisation de documents constitue des collections au même titre que les collections de reproductions sur microformes et elles doivent être gérées de manière similaire, quel que soit l'objectif initial du projet de numérisation, dès lors que l'on souhaite réutiliser cet investissement initial.
On distingue trois types de métadonnées à créer et à associer aux reproductions numériques : les métadonnées descriptives, les métadonnées administratives et les métadonnées de structure.
2.1. Les métadonnées descriptives
Les métadonnées descriptives permettent d'effectuer la recherche des documents dans un catalogue ou plus généralement dans un instrument de recherche informatisé et/ou dans l'application de consultation qui va être développée qui peut également être un produit d'édition intégrant les documents numérisés.
La difficulté pour une bibliothèque qui commence un projet de numérisation est de définir la méthode la plus appropriée de
Les choix techniques de la numérisation des documents imprimés 147
création des métadonnées descriptives. Cette méthode doit correspondre à la fois au contexte de la bibliothèque et au contexte du projet qui peut être un projet coopératif associant d'autres types d'institutions qui n'ont ni les mêmes règles, ni les mêmes outils, ni les mêmes formats de description.
On peut donc vouloir concilier la philosophie de la recherche d'information dans le catalogue informatisé de la bibliothèque et dans le catalogue des autres institutions et la philosophie de découverte et de navigation que nous offre aujourd'hui le web. Ces deux approches sont souvent vécues dans les opérations de numérisation comme antagonistes et peuvent donner lieu à des querelles entre les puristes du catalogage et du catalogue et les puristes de l'Internet.
Il est donc important de comprendre la finalité, les avantages et les limites de chacune des approches afin de pouvoir définir sa méthode de description qui aboutira généralement à une combinaison des deux approches. Il sera alors nécessaire de prévoir des mécanismes de passerelles entre le catalogue et les autres métadonnées descriptives afin de rationaliser la production de ces informations et d'éviter la duplication du travail de description, voire une certaine incohérence entre les contenus de métadonnées équivalentes dans le catalogue et dans le document par exemple.
2.1.1. Le catalogage du document numérisé
La bonne gestion des collections numérisées, conduit à conserver la numérisation et à décrire les reproductions numériques dans le catalogue de la bibliothèque comme toutes les ressources de la bibliothèque qui peuvent être utilisées par les lecteurs et quel que soit le projet de numérisation qui a conduit à leur production.
148 Conduire un projet de numérisation
L'opération de numérisation s'accompagne donc d'une opération de catalogage complémentaire voire complet dans certains cas.
Traiter la reproduction numérique dans l'outil de catalogage de la bibliothèque présente l'avantage de s'appuyer sur un format documenté, souvent lié à des fichiers d'autorité pour le contrôle des points d'accès et sur un système existant maîtrisé par le personnel de la bibliothèque donc directement utilisable.
Le catalogage des unités bibliographiques numérisées peut être effectué de deux manières :
- en traitant la reproduction numérique du document original conservé dans les collections de la bibliothèque comme n'importe quelle autre reproduction de substitution, par exemple un microfilm ou un jeu de microfiches. Les informations seront alors des données locales ajoutées à la notice décrivant l'original qui a été reproduit. Cette méthode convient à des opérations de numérisation qui ne comportent pas de travail scientifique sur le document original. La numérisation correspond par exemple à une reproduction en fac-similé ou à une transcription textuelle fidèle sans interprétation ou correction ;
- en traitant la reproduction numérique comme une édition s originale et en créant une nouvelle notice. Cette méthode est plus § appropriée si le travail de numérisation s'accompagne d'un vérita- $ ble travail de réédition avec non seulement transcription mais aussi | correction, annotation et mise en relation avec un appareil critique, f
La norme qui se dessine, au niveau international et pour des I projets de numérisation à caractère patrimonial visant à reproduire | des imprimés existants en fac-similé ou en réalisant une simple J transcription textuelle souvent associée à l'image de 1 'original, est £ d'utiliser la première méthode. C'est la recommandation pour le J, projet coopératif NDLP (National Digital Library Programme) J aux États-Unis. C'est aussi la norme pour l'extension du catalo- ^ gue collectif européen EROMM (European Register of Micro- § forme Masters) aux reproductions numériques. C'est ce |
Les choix techniques de la numérisation des documents imprimés 149
traitement qui permet d'échanger des informations descriptives entre bibliothèques et de contribuer à des catalogues collectifs donnant accès à des collections de reproductions numériques réparties entre différentes bibliothèques.
Les informations saisies dans les données locales doivent alors inclure les données de localisation sous forme de notation d'URL (uniform resource locator) avec une structure identique à celle décrite pour le contenu du champ 856 dans les formats MARC 21 et UNIMARC. Le format UNIMARC est d'ailleurs en cours d'évolution pour permettre comme le fait déjà MARC21 d'avoir des champs de données locales incluant des liens vers la reproduction numérisée.
Dans le cas où la bibliothèque considère que sa numérisation constitue une édition originale elle créera une notice indépendante en s'appuyant sur les règles de catalogage en vigueur pour les documents électroniques. Elle pourra alors créer un champ 856 comportant les informations de localisation permettant de construire un lien cliquable pour accéder à la ressource numérique.
| 2.1.2. Métadonnées descriptives incluses ~ dans le document numérisé 0 0 § Les documents numérisés peuvent être intégrés dans un pro-| duit éditorial qui va nécessiter une description de portions de conte-| nus plus fine que le niveau accepté dans le catalogue. Ils peuvent | également être attachés à un corpus numérique comme une collec-! tion qui ne sera pas non plus décrite dans le catalogue. Dans certains f cas des métadonnées de description complémentaires à la simple ^ notice bibliographique peuvent devoir être créées. 1 Des formats de documents textuels dont le codage s'appuie s sur la famille SGML/XML/HTML comportent la possibilité, et | dans certains cas l'obligation, d'inclure dans des étiquettes norma-
^ lisées des métadonnées descriptives dans le document lui-même.
Conduire un projet de numérisation
Ces métadonnées descriptives seront exploitées directement par tout moteur d'indexation et de recherche approprié. En particulier les métadonnées incluses dans des documents offerts sur le Web en tant que pages statiques seront directement utilisables par les moteurs de recherche sur Internet.
La norme de fait à utiliser pour la création de métadonnées descriptives dans les documents est le Dublin Core (DC). C'est un ensemble de 15 types de métadonnées destinées à faciliter la découverte des ressources sur Internet. Depuis sa création en 1995 l'ensemble des 15 éléments de base s'est enrichi de qualificatifs développés par des groupes d'utilisateurs pour leurs besoins particuliers. Le Dulin Core qui au départ a été développé pour intégrer des étiquettes « méta » normalisées dans des pages HTML est aujourd'hui utilisable dans une syntaxe XML ou RDF (resource description framework). Des outils de saisie ont été développés qui permettent de saisir et de transformer des éléments descriptifs Dublin Core (DC) dans une syntaxe appropriée ou de dériver les éléments DC à partir de notices MARC plus complexes. Certains de ces outils sont des logiciels libres. On peut citer l'exemple de l'outil développé par Ukoln en Grande Bretagne : dcdot'. Il permet de saisir des métadonnées descriptives en DC et de générer les métadonnées en syntaxe HTML, XML ou RDF. On trouve sur le site web du Dublin Core2 une liste des outils qui permettent de saisir des données Dublin Core et de les préparer au format requis pour leur intégration dans un document textuel numérique. Ce document textuel peut être une enveloppe qui contiendra une numérisation en mode image ou en mode vectoriel selon le modèle de la page HTML du Web.
Ces éléments de description sont très utilisés dans les projets de numérisation qui associent les institutions culturelles telles que les bibliothèques, les musées et les archives qui trouvent ainsi un
1. http //www ukoln ac uk/metudata/dcdot (visité le 12 novembre 2001 ). 2. hîtp //dublincore.org/tools (visité le 12 novembre 2001 )
Les choix techniques de la numérisation des documents imprimés 151
dénominateur commun permettant la traduction des données saisies dans les divers formats traditionnels de ces institutions pour les mettre en commun dans un projet de mise à disposition de documents numérisés. Le résultat après traduction d'une description réalisée dans le système propre de chaque type d'institution est directement utilisable dans un environnement Web.
Les 15 éléments du Dublin Core peuvent être répartis en trois catégories :
- les éléments liés au contenu du document qui est décrit ; - les éléments liés à la gestion de la propriété intellectuelle
du document qui est décrit ; -les éléments liés à l'instance particulière du document
numérisé qui est décrit. Le nom des éléments est normalisé en anglais et utilisé sous
cette forme par les différents programmes du web capables d'interpréter directement les différentes syntaxes possibles.
Les éléments Dublin Core de contenu
- Title : titre du document. Il peut être répété pour diverses formes de titres qui seront précisées par l'utilisation d'un qualificatif pour le titre alternatif, le titre traduit, etc. ;
- Subject : sujet ou mot clé. Peut être un mot clé libre ou une vedette matière. Un qualificatif précisera alors le référentiel utilisé comme par exemple Rameau ;
- Description : une description textuelle du contenu du document comme par exemple un résumé ou une table des matières ;
- Type : catégorie du document, par exemple page d'accueil, poésie, document de travail ;
- Source : autre document à partir duquel le document est dérivé. Cet élément peut être utilisé pour indiquer l'original à partir duquel la numérisation a été effectuée ;
152 Conduire un projet de numérisation
- Relation : relation avec d'autres documents. Par exemple description d'une partie d'une publication en série ou autres éditions du document décrit ;
- Coverage : caractéristiques spatiales et temporelles du contenu intellectuel de la ressource.
Les éléments Dublin Core de propriété intellectuelle - Creator : créateur ou auteur, responsabilité principale du
contenu intellectuel ; - Publisher : éditeur, entité responsable de la mise à dispo
sition de la ressource dans sa forme actuelle ; - Contributeur : personne ou organisme qui a fourni une
contribution intellectuelle importante à la réalisation du document ;
- Rights : gestion des droits, lien vers une mention de gestion des droits ou un service donnant ce type d'information.
Les éléments Dublin Core d'instanciation - Date : on peut se référer à une norme de forme de date ; - Format : format des données (logiciel et matériel
nécessaires pour utiliser le document) ; I - Identifier : identifiant du document, chaîne de caractères |
ou numéro utilisé pour identifier de manière unique la ressource ï (URL, URI, ISBN...) ; J
- Language : langue du document. On peut se référer à un f code normalisé de langue. g
Les métadonnées exprimées en éléments Dublin Core peu- | vent être introduites dans différents formats de documents. Dans § des pages HTML elles seront encodées selon le format HTML ^ dans des étiquettes <meta>. Ces étiquettes ne s'affichent pas dans ^ les pages HTML mais elles sont repérables spécifiquement par | des moteurs d'indexation. Elles peuvent également être expri- ^ mées en XML ou en RDF/XML de manière à être introduites | dans la section de l'étiquette <head>...<lhead> d'une page ^
Les choix techniques de la numérisation des documents imprimés
XML. Enfin si le document est encodé en XML selon une DTD de type TEI, elles peuvent être introduites en XML par exemple dans la zone de l'étiquette <fileDesc>... </fileDesc> de l'en-tête du fichier TEI.
Voici à titre d'exemple les métadonnées créées en Dublin Core pour le document de la bibliothèque électronique de Lisieux qui est en ligne à l'adresse suivante : http:llwww.bmlisieux.com/ archives!lebrazOl .htm (visité le 13 février 2002).
Métadonnées en HTML telles qu'elles figurent dans le document en ligne (afficher le fichier HTML source du document pour les consulter à partir de votre navigateur)
<META NAME-"DCJitle" CONTENT = "La bague du capitaine"> <META i\'AME="DC.Creator" CONTENT="Le Braz, Anatole"> <META NAME="DC.Subject" CONTENT =""> <META N AME-" DC.Description" CONTENT=""> <META NAME="DC.Publisher" CONTENT="bibIiothèqiie
municipale de Lisieux"> <META NAME="DC.Contribiitor" CONTENT=""> <META NAME="DC.Date" CONTENT="2001 "> <META NAME= "DC.Type" CONTENT="text"> <META NAME="DC.Format" CONTENT="text/html"> <META NAM E=" DC .Identifier" C ONTENT-"http:!Iwww.bmli-
sieux.comlarchivesIlebrazOl .htm"> <META NAME="DC.Source" CONTENT=""> <META NAME="DC.Language" CONTENT="fr"> <META NAME="DC.relation.IsDerivedFrom" CONTENT=""> <META NAME="DC.Coverage" CONTENT="France"> <META NAME="DC.Rights" CONTENT="Public domain"> On voit que 10 éléments sur les 15 éléments DC sont utilisés
dans ce cas, sans qualificatif. Voici les mêmes métadonnées reformatées en XML (refor
matage automatique effectué avec l'outil « dcdot ») <?xml version-"!.0"?> <DublinCore>
154 Conduire un projet de numérisation
<Title> La bague du capitaine <ITitle> <Creator> Le Braz, Anatole </Creator> <Publisher> bibliothèque municipale de Lisieux </Publisher> <Date> 2001 <IDate> <Type> text </Type> <Format> text/html </Format> <ldentifier> http://www.bmlisieux.com/archives/lebraz01 .htm </Identifier> <Language> /'• </Language> <Coverage> France <ICoverage> <Rights> Public domain </Rights> Les mêmes métadonnées reformatées en RDF selon un
schéma Dublin Core en XML (reformatage automatique effectué avec l'outil « dcdot »)
<?xml version="1.0"?>
Les choix techniques de la numérisation des documents imprimés 155
<!DOCTYPE rdf.RDF SYSTEM "http://purl.org/dc/sche-mas/dcmes-xml-20000714.dtd">
< rdf.RDF xmlns :rdf=" http ://www.w3.org!1999102122-rdf-syntax-ns#" xmlns:dc-"http://purI.0rg/dc/elements/l .!/"> <rdf.'Description aboiit=" http : U www .bmlisieux.com/archi
ve si lehrazOl .htm"> <dc:title> La bague du capitaine </dc:title> <dc:creator> Le Braz, Anatole <ldc:creator> <dc:publisher> bibliothèque municipale de Lisieux </dc:publisher> <dc:date> 2001 <ldc:date> <dc:type> text <ldc:type> <dc:format> text/html <ldc:format> <dc:language>
</dc:language> <dc:coverage> France </dc:coverage> < d c : ri gh ts > Public domain <Idc:rights>
156 Conduire un projet de numérisation
<lrdf.'Description Voici enfin les mêmes métadonnées présentées en XML
mais en suivant une philosophie de type ISBD comme il est usuel dans les projets anglo-saxons et intégrées dans un en-tête TEI (reformatage automatique effectué avec l'outil « dcdot »)
<teiHeader> <fileDesc> <titleStmt> <title> La bague du capitaine </title> <author> Le Braz, Anatole </author> </titleStmt> <extent> 9384 </extent> <publicationStmt> <publisher> bibliothèque municipale de Lisieux </publisher> <date> 2001 </date> <idno> http://www.bmlisieux.com/archives/lebraz01 .htm </idno> <lpubl ica tio nS tm t > <notesStmt> <note> format: text/html </note> <note>
Les choix techniques de la numérisation des documents imprimés 157
coverage: France </note> <note> rights: Public domain <lnote> </notesStmt> </fi!eDes(>
Le Dublin Core est également utilisé pour l'insertion de métadonnées descriptives dans les thèses déposées sous forme électroniques selon la circulaire ministérielle parue au Bulletin officiel de l'Éducation nationale n0 34 du 28 septembre 2000 ou numérisées à partir de la version papier. Un avant-projet de norme française est en cours de discussion. Il propose les métadonnées Dublin Core suivantes :
DC Élément Qualificatif Schéma d'encodage Langue Commentaire
DC.Contributor namePersonal
Rôle
Nom, prénom du directeur de thèse « Directeur »
DC.Contributor namePersonal
Rôle
Nom, prénom des membres du jury et rapporteurs selon leur rôle zone à répéter autant de fois que de membres de jury
DC.Contributor nameCorporate
Rôle
Nom de l'établissement, composante, sous-composante « Université de soutenance »
DC.Contributor nameCorporate
Rote
Nom de l'établissement, composante, sous-composante « co-tutelle »
DC.Coverage Spatial Temporal
DC.Creator namePersonal Nom, prénom de l'auteur
DC.Date valid W3C-DTF Date de soutenance
158 Conduire un projet de numérisation
DC Élément Qualificatif Schéma d'encodage Langue Commentaire
DC.Date available W3C-DTF Date d'autorisation de diffusion de la thèse
DC.Description abstract fre Résumé français
DC.Description abstract eng Résumé anglais
DC.Description abstract selon la langue
Résumé en une autre langue
DC.Format médium IMT
DC.Format extent ex. « 3419 bytes »
DC.Identifier URI URN de la thèse en texte intégral
DC.Identifier NoThèses n0 de la thèse attribué par l'université
DC.Language ISO 639-2 langue de la thèse, par défaut « fre »
DC.Publisher nameCorporate université responsable de l'édition électronique de la thèse
DC.Relation Is Version Of Has Version Is Replaced By Replaces Is Required By Requires Is Part Of Has Part Is Referenced By References Is Format Of Has Format
URI
DC.Rights indique les modalités de diffusion de la thèse
DC.Rights Mention de copyright
DC.Source Mention d'origine du document
Les choix techniques de la numérisation des documents imprimés 159
DC Élément Qualificatif Schéma d'encodage Langue Commentaire
DC.Subject fre Mots clés français de l'auteur zone à répéter autant de fois que de mots-clés
DC.Subject eng Mots clés anglais de l'auteur zone à répéter autant de fois que de mots-clés
DC.Subject selon la langue
Mots clés de l'auteur dans une autre langue zone à répéter autant de fois que de mots-clés
Dans ce dernier cas la description est plus détaillée. Elle montre que différentes occurrences du même élément sont utilisées pour fournir des informations répétitives ou de nature complémentaire. Des qualificatifs sont également proposés.
La correspondance ou mapping entre le Dublin Core et le format UNIMARC qui peut permettre de définir un outil de conversion de l'un à l'autre a été établie dans le cadre du projet européen BIBLINK. La documentation fait partie du document D4.1 produit par le projet et est disponible à l'adresse http:llhosted.ukoln.ac.ukl
•g bihlink/wp4/d4.HdocOOô-l .html (visité le 12 novembre 2001 ). Ce | document peut servir de base à l'établissement d'un programme de
J conversion pour un projet de numérisation. ta
o "5 co c o
s 2.2. Les métadonnées administratives Q. O O O o
f Les métadonnées administratives sont utilisées pour la ges-tion des documents numérisés qui doivent être stockés, commu-
§ niqués librement ou de manière contrôlée et conservés pendant ^ une certaine durée ou indéfiniment selon les cas. Les méta-5 données de gestion permettent d'appliquer aux documents nume-* risés les traitements administratifs traditionnels effectués pour © r
Conduire un projet de numérisation
les documents analogiques. Le document numérique doit avoir un identifiant univoque équivalent au numéro inventaire qui permet de gérer l'entité pour toute opération de stockage, de communication, de reproduction ou de conservation. Les modalités d'acquisition seront enregistrées selon des types d'acquisition propres à la numérisation. Le document numérique a un statut juridique lié à la législation sur la propriété littéraire et artistique et sa communication peut faire l'objet d'un contrat avec le ou les ayants droit dont les paramètres devront être enregistrés dans le système de gestion automatisé de communication des documents numérisés.
2.2.1. L'identification du document numérisé
L'identification du document numérisé doit être faite de manière univoque dans l'ensemble des documents numérisés par la bibliothèque mais également par rapport aux identifiants attribués par d'autres institutions.
Il doit donc comporter en préfixe un identifiant de l'institution, suivi de l'identifiant du document numérisé. On peut choisir de numéroter de manière séquentielle tous les documents numérisés ou d'avoir un numéro composé du numéro de la collection suivi par le numéro à l'intérieur de la collection. Comme pour un numéro inventaire classique on peut choisir un numéro plus ou moins signifiant, le plus simple étant un numéro séquentiel attribué par un système de code à barres pour les unités physiques à numériser.
Si la reproduction numérique est offerte sur Internet l'identifiant du répertoire contenant l'ensemble des fichiers constituant la reproduction numérique d'une unité bibliographique sera intégré dans l'adresse Internet. Cette adresse permettra de construire un lien actif vers le document. Elle pourra être utilisée dans des portails ou des catalogues collectifs signalant et donnant directement accès à des documents numérisés.
Les choix techniques de la numérisation des documents imprimés 161
2.2.2. La gestion des accès
Les bibliothèques gèrent déjà des documents qui ont des droits d'accès différents liés à un statut du document comme par exemple « Exclu du prêt » et à des catégories de lecteur ou d'usager. Lorsque des documents comme des manuscrits issus d'une donation qui comporte des conditions restrictives de communication sont demandés par un lecteur, la notice dans le catalogue aura déjà eu une mention indicative et bien souvent le document lui-même comportera une information que le magasinier connaît et qui permettra d'alerter sur les conditions de communication. Le personnel en service public jouera le jeu de filtre pour vérifier que les conditions sont remplies. Avec le document numérique la communication est automatique et le système lui-même doit savoir effectuer les filtrages liés au statut du document qui doit être encodé et pouvoir être restitué à l'utilisateur dans l'affichage d'un message d'information en clair.
La numérisation du document constitue de plus une reproduction et sa communication une représentation qui peut être protégée par le droit d'auteur, le droit à l'image ou le droit patrimonial. Elle peut avoir fait l'objet d'une négociation avec
= les ayants droits qui peut comporter le versement de droits I d'accès et la collecte de statistiques d'utilisation à cet effet. Cet » accord peut être limité à une période de temps. 1 Le système qui gère la communication des documents 1 numérisés doit donc savoir gérer un certain nombre d'informa-| tions sur l'accès et savoir afficher un certain nombre de messages | en clair pour les utilisateurs dès lors que la communication des | documents numérisés est liée à un contrat avec des ayants droits, f Ces informations seront gérées concrètement soit dans le catalo-^ gue, soit dans le système de communication des documents 1 numérisés. Cependant si des portions de documents ont des droits ^ d'accès différents, les informations de restriction d'accès ne peu-1 vent qu'être associées au document lui-même. La structure XML s M
©
Conduire un projet de numérisation
peut permettre d'encoder les droits associés à une portion de contenu. Les éléments à prendre en compte sont :
• le type d'accès : - pas de restriction d'accès ; - affichage seul par accord avec l'ayant droit ; - affichage et impression par accord avec l'ayant droit ; - affichage, impression et déchargement par accord avec
l'ayant droit ; - accessible seulement dans l'enceinte de la bibliothèque.
Cet espace peut être l'espace physique des locaux, un espace géographique tel qu'un campus ou une ville ou un espace de réseau local à accès contrôlé ;
- conditions spécifiques qui peuvent être liées au possesseur de l'original qui a été numérisé ou au donateur de l'original ;
• information sur l'institution ou le collectionneur qui possède l'original numérisé :
- nom de l'institution ou du collectionneur ; - coordonnées à utiliser pour demander des autorisations
d'accès particulières ou de réutilisation.
2.2.3. La gestion de la conservation à long terme des documents numérisés
Les documents numériques se dégradent de deux manières : par le vieillissement du support sur lequel les données sont enregistrées et par l'obsolescence technologique de la plate-forme technique associée au contenu pour l'accès et la communication. Il est donc nécessaire d'enregistrer des informations de gestion de ces vieillissements de manière à prendre toutes les mesures préventives qui sont des questions de bon sens. Des métadonnées de gestion de la conservation seront utilisées par le système de stockage pour préparer toutes les actions préventives nécessaires avant la disparition des données ou d'un élément technique de la plate-forme de consultation.
Les choix techniques de la numérisation des documents imprimés
Les métadonnées importantes sont : • les informations liées à l'acquisition, au stockage et à sa
pérennisation telles que : - responsable de la prestation de numérisation ; - date de création de la copie et date à laquelle il faut prévoir
le prochain rafraîchissement du support ; - historique des actions de préservation : date et nature des
migrations de fichiers ; • les informations techniques liées à la numérisation et aux
documents numérisés : -mode de numérisation, résolutions, formats de fichiers,
compression ; - outils de capture et réglage des outils de capture ; -liste et organisation des fichiers composant un objet
numérique ; - informations sur ou pointeurs vers la documentation des
techniques utilisées afin de pouvoir s'y reporter dans le futur pour savoir à nouveau interpréter le codage des contenus.
Les métadonnées de préservation des documents numériques font l'objet d'une intense discussion internationale depuis 1996. Les éléments principaux donnés ci-dessus sont extraits des règles définies dans différents projets.
Certaines de ces métadonnées sont incluses dans les en-têtes des formats normalisés de fichiers. Le système de gestion de la conservation des documents numériques doit donc gérer ces données figurant dans les fichiers et celles qui sont en dehors des fichiers pour piloter toutes les actions de conservation préventives quelle que soit leur nature.
2.3. Les métadonnées de structure
Les métadonnées de structure des collections numérisées permettent de gérer le stockage et la navigation dans les collections
Conduire un projet de numérisation
numérisées et jusque dans les documents eux-mêmes. Elles permettent également la présentation des documents à l'écran.
Chaque document numérisé stocké est composé, selon le mode de numérisation et le type de document numérisé, de sous ensembles physiques de fichiers informatiques qui peuvent être de nature différente. Mais la consultation va se faire au travers du filtre des parties composantes logiques du document tels que parties liminaires, chapitres, sections pour un livre. Dans le cas d'un périodique il s'agira d'années, fascicules, articles et à l'intérieur même d'un article du résumé, de sections et de bibliographie. De plus les documents peuvent être présentés individuellement ou collectivement au travers de fonds identiques aux fonds originaux reproduits ou de collections définies spécialement pour regrouper des documents numérisés et organiser la navigation dans un ensemble trop vaste pour que l'utilisateur puisse le manipuler facilement.
L'unité documentaire que l'on décrit dans le catalogue va donc avoir une structure logique interne qui permettra à l'utilisateur de se déplacer dans chaque document. Elle sera également une partie composante d'un ensemble logique externe qui n'aura pas non plus de description bibliographique classique.
Si le document est numérisé dans un mode qui ne permet pas l'encodage d'une structure logique interne, la création de métadonnées de structure sera nécessaire pour assurer la correspondance entre la structure logique et les fichiers physiques. C'est typiquement la table des matières qui fournit cette structure interne. Dans le cas du document numérisé en mode image ou en mode texte non structuré, la table des matières devra être saisie en plus du document. Dans le cas d'une numérisation en mode texte structuré au niveau logique, les outils de visualisation permettent d'avoir une vue des seules informations qui constituent la table des matières, sans avoir à la créer ou à la gérer spécifiquement.
Les choix techniques de la numérisation des documents imprimés
La saisie de métadonnées au niveau de la collection sera également nécessaire pour présenter la navigation dans un ensemble de documents.
Ces métadonnées permettent d'offrir à l'utilisateur des modes de découverte qui ne sont plus ceux du seul catalogue mais qui s'apparentent à une classification en libre accès au niveau de la collection et au feuilletage par la table des matières à l'intérieur d'un document en plus du parcours séquentiel du document. Enfin dans les documents textuels numérisés il doit être possible d'aller directement à une page ou un groupe de pages qui aura été cité dans une référence bibliographique. Il faut donc également conserver des métadonnées de la structure physique d'origine qui est la page pour assurer l'exacte correspondance entre la pagination (y compris dans le cas de paginations multiples de l'original) et les fichiers informatiques.
Ces métadonnées seront encodées et utilisées de manière différente selon le système qui sera choisi pour stocker et gérer la communication des documents. Cependant les éléments de métadonnées sont en voie de normalisation entre les projets de numérisation texte, image et vidéo dans les grands projets coopératifs au niveau international et européen. La normalisation qui a commencé vers 1999 concerne non seulement les éléments de données mais aussi le format d'échange qui est d'ores et déjà fixé dans un cadre unique XML1. Il est donc important, comme pour les données catalographiques d'utiliser un système qui peut recevoir ces données et les exporter dans le format d'échange qui se prépare. Ce format d'échange est aussi important pour la pérennité des collections numériques des bibliothèques que l'a été le format MARC pour l'information bibliographique.
1. Pour les métadonnées des bibliothèques numériques voir le site de la Library of Congress à l'URL http:llkweb.loc.govlstandardslmetadala (visité le 12 novembre 2001) et pour le format d'échange voir : Metadata Encoding and Transmission Standard http://lcweb.loc.go/standards/mets (visité le 12 novembre 2001)
Conduire un projet de numérisation
Les systèmes requis pour le stockage et la communication numérique patrimoniale ne sont donc pas identiques à des systèmes de GED courants. Un certain nombre de systèmes commerciaux clés en main de gestion des collections numérisées qui répondent aux besoins des bibliothèques commencent à être disponibles au moins dans le continent nord-américain1.
1. Pour une analyse comparative des systèmes qui existent sur le marché voir : Digital object library produets / William Lund. Harold B. Lee Library. In . RLG DigiNews. 2001. Vol. 5, n" 5. http // wwwrlg.org/preserYldiginews/diginms5-5 htm (visité le 12 novembre 2001).
Les choix techniques à Lisieux : Des réserves à l'Internet
Les étapes de la mise en ligne
par Olivier Bogros
« C'est en pratiquant le détour qu'on parvient à l'accès » (Vieux proverbe chinois)
LIMINAIRE
Les choix techniques de la bibliothèque municipale de Lisieux en matière de numérisation de documents imprimés se caractérisent par une faiblesse d'ambition, de moyens et de financement : des outils de base, quelques compétences locales et le désir de mettre la main à la pâte pour se lancer dans une expérience d'animation littéraire du web qui n'avait aucune raison de se prolonger. Le choix du mode texte, en l'absence de tout autre possible, s'est donc imposé tout naturellement pour une « numérisation à la suite » (pas de corpus défini ou définitif), réalisée en interne et sur fonds propres1.
Les moyens techniques (1996-2000) : Un ordinateur bureautique de type PC 1386, pour la saisie Un ordinateur portable avec connexion au réseau pour
l'encodage, la mise en ligne et la maintenance du site Un espace disque gratuit (5 Mo), puis un espace disque loué
(30 Mo + nom de domaine) sur un serveur privé.
Les moyens humains (1996-2000) : 1 conservateur pour le choix des textes, l'encodage et ia
maintenance des pages du site 1 agent administratif pour la saisie 1 contractuel (CES) pour la relecture
Les moyens financiers (1996-2000) : 2 500 F annuels (380 €) pour la location de l'espace disque,
45 h de travail par mois (2,4 % du volume horaire mensuel de l'établissement).
Une rapide description des différentes étapes de la mise un ligne des textes sur le site de la bibliothèque électronique de
1. Pour l'historique de la numérisation à Lisieux, voir le BBF n* 3,1997.
168 Conduire un projet de numérisation
Lisieux (http://www.bmlisieux.com/) rendra bien compte de nos pratiques artisanales.
1. SÉLECTION DES TEXTES ET PRÉPARATION DE LA COPIE
il est procédé deux jours par an à une sélection d'œuvres littéraires et documentaires susceptibles d'être intégrées dans la bibliothèque électronique, soient 50 à 60 textes. Cette sélection s'effectue non à partir du catalogue mais par immersion dans les collections en magasins. Quelques documents proviennent aussi de collections privées. Ne sont retenus que des textes courts mais intégraux d'auteurs français réputés être du domaine public.
Pour chaque oeuvre sont d'abord rassemblés des éléments d'identification pour l'établissement de l'étiquette bibliographique qui sera placée en tête du texte.
Exemple d'étiquette : PICARD, Edmond (1836-1924)) : La Veillée de l'huissier,
conte de Noël - Bruxelles : Ferdinand Larcier, Libraire-Éditeur, 10 rue des Minimes, 1885 - 66 p. ; 19,5 cm.
Saisie du texte : S. Pestel pour la collection électronique de la bibliothèque municipale de Lisieux (08.ll.2000)
Texte relu par : A. Guézou Adresse: Bibliothèque municipale, B.P. 27216, 14107
LjSjeux cedex Tél. : 02 31 48 66 50 - Minitel : 02 31 48 66 55 - Fax :
02 31 48 66 56. Mél : [email protected], [Olivier Bogros] bibJisieux@com-
puserve.com http://www.bmlisieux.com/ Diffusion libre et gratuite (freeware) Orthographe et graphie conservées Texte établi sur un exemplaire (coll. part.) de l'édition ori
ginale. Ex n° U paraphé par l'éditeur sur Hollande VanGelder à toutes marges (255 x 155).
On sait que contrairement à une numérisation en mode image qui permet une reproduction fidèle d'un document, le mode texte (numérisation + OCR ou saisie au clavier) conduit à une
Numérisation interne ou externe 169
représentation ou reconstruction du document original, aussi une lecture préalable du texte est-elle nécessaire pour fixer quelques consignes pour la saisie :
- la pagination de l'édition suivie n'est pas maintenue ; - les illustrations ne sont pas reproduites ; - l'orthographe et la graphie de l'édition sont conservées. On
maintient par exemple « enfans » (enfants), tems (temps). De même, les cédilles et les accents manquants ne sont pas rajoutés. Les fautes typographiques et les coquilles sont rarement modifiées ;
- pour les textes plus anciens on restitue les i/j, u/v, les « s » longs et on résout les abréviations pour permettre un traitement informatique du texte. Ainsi la phrase suivante : « lors que la Pefte à diuerfes reprifes y faifoit des rauages eftranges dans les Villes, les Bourgades & la Campagne, où je n'ay refusé mes aBiftâces à perfonne... » devient « lors que la Peste à diverses reprises y faisoit des ravages estranges dans les Villes, les Bourgades & la Campagne, où je n'ay refusé mes assistances à personne...1
Il ne s'agit pas d'établir une édition scientifique, simplement de trouver un compromis entre le respect du texte et les exigences informatiques2.
2. SAISIE DU TEXTE, RELECTURE, CORRECTIONS
La saisie des textes au clavier à partir de l'exemplaire ou d'une photocopie est effectuée par ia secrétaire de la bibliothèque, véritable cheville ouvrière de cette expérience, pour environ 20 heures mensuelles. Cet horaire peut varier dans l'année en fonction des charges de travail principales (secrétariat, comptabilité) mais l'objectif fixé est toutefois d'arriver à produire 4 à 5 textes nouveaux par mois.
1. Discovrs sommaire et méthodique de la cure & preferuation de la Pefte... ! Marin Hamel. - À Rouen, MDCLVIII (Bm Lx norm 899). Saisie programmée pour la fin de l'année. 2. Voir l'exposé de Danielle Trudeau : « Uapport des nouvelles technologies au domaine de l'édition critique » (http://www.sjsu.edu/depts/foreign_lang/Constant/ apport.html).
170 Conduire un projet de numérisation
Les textes sont saisis dans un simple éditeur de texte, Write en l'occurrence, sans mise en page particulière1 :
- enregistrement au format texte (ASCII) ; - nommage des fichiers sur onze caractères au maximum
dont trois pour l'extension (par exemple princita.txt pour Princesse d'Italie de Jean Lorrain) ;
- saut de ligne entre chaque paragraphe, même pour les dialogues ;
- les enrichissements du texte sont signalés par un code (par exemple les mots ou expressions en italiques sont encadrés par deux*) ;
- les notes de bas de pages sont regroupées en fin de texte. Après la saisie, un premier balayage du fichier avec un cor
recteur orthographique révèle les principales fautes de frappe qui sont immédiatement corrigées2.
La relecture ligne à ligne, tâche assurée par l'agent vacataire chargé du portage de livre à domicile, s'effectue avec l'exemplaire ou sa copie et la sortie imprimée de la saisie. Cette opération longue (4 heures pour un texte simple) est essentielle puisqu'elle permet de signaler encore quelques fautes de frappe, mais surtout de vérifier l'intégralité de la saisie par rapport au texte original (mots ou morceaux de phrases oubliés). Elle permet aussi de corriger les modifications spontanées du copiste visant à moderniser le texte.
Les textes présents sur le site ne sont pas parfaits et des fautes résiduelles sont régulièrement signalées par des « e-lecteurs ».
3. ENCODAGE ET MISE EN LIGNE
Après les dernières corrections le fichier d'origine est sauvegardé. Une copie va être encodée en html selon la DTD HTML v.4.0. Il est prévu à terme un passage vers le XML par conversion/
1. On pourrait bien sûr utiliser les traitements de texte Word, Wordperfect,... qui savent enregistrer les fichiers directement en .html, mais le code généré (notamment pas MsWord) semble lourd, redondant et sans finesse. Il en est de même des convertisseurs .rtf / .html. 2. Write étant dénué de correcteur orthographique on utilise une application indépendante développée par la société Brian Quinion (http://www.quinion.com/) : le logiciel Spell Check for Edit Boxes v.3.02 et son dictionnaire français qu'il faut enrichir au fil des saisies.
Numérisation interne ou externe 171
épurement de tous les fichiers à l'aide d'un logiciel comme HTML Tidy de Dave Raggett'.
La mise en page est basique sans « frames » ni « javaniaiseries ». Les pages sont statiques, permettant ainsi leur indexation par les moteurs de recherches généraux (Google, Voila, Alltheweb,...) ou spécialisés (Alpeh,...) et les portails littéraires2. L'application choisie pour générer les fichiers .html est le logiciel HomeSite v4.03. Là encore quelques règles sont établies :
- le texte est présenté sur une seule page ; - le nommage des fichiers est identique à celui de la saisie
initiale : huit caractères minuscules au plus et trois pour l'extension (princita.htm) ;
- les caractères accentués ne sont pas systématiquement rendus sous forme d'entités html (« à » pour « à », « Seacute; » pour « é »,...), les navigateurs sont maintenant assez permissifs sur ce point et n'obligent pas à l'encodage, qui d'ailleurs ne sera plus nécessaire en XML ;
- aucune police n'est imposée, le texte se présente dans le navigateur de l'usager avec la police par défaut (généralement Time New Roman, ce qui convient parfaitement aux textes littéraires) ;
- le texte s'affiche en noir sur un fonds jaune pâle (<body bgcolor="FFFFE8">) ;
- les paragraphes sont justifiés (<p align="justify">) ; -afin de réduire la longueur de la ligne affichée qui croit à
mesure de l'augmentation des résolutions d'écran, le texte est encadré
1. http://www.w3c.org/People/Raggett/tidy/ ; voir aussi XML francophone (http:// www.chez.com/xml). 2. On peut consulter dans les archives de la liste Biblio-fr les contributions opposées de Dominique Lahary et de Pascal Gaillard à propos du Web dynamique et du Web statique (messages des 13.11.00 et 12.03.01). L'établissement d'un lien profond (« deep linking ») , entendez par là un lien qui renvoie directement à la page secondaire d'un site, sans passer par sa page d'accueil commence à être jugée condamnable par les tribunaux. Mais nous parlons là de l'internet marchand I Voir sur ce sujet l'article du journal Libération du 22.11.01 : « Des liens plus profonds que d'autres : La justice discrimine ces clics qui contournent la page d'accueil d'un site » par Marie-Joëlle Gros (http://www.liberation.fr/quotidien/sernaine/20010222jeuzc.html). 3. Le choix d'un éditeur html est affaire de goût. Il existe de nombreuses applications non commerciales dont certaines en français. Faire une recherche à partir de la page du site LeGra-tuitcom(http^/www.legratuiLcom/TJ_chargement/Annuaires_de_Graticiels/index.php).
Conduire un projet de numérisation
par une balise tableau (<table align="center" width="80%">) qui restitue, à gauche et à droite, des marges confortables à l'œil ;
- l'enrichissement du texte par la pose des balises ad hoc : italiques (<i></i>), gras (<bx/b>),...
- la création de liens internes pour les appels de notes (<A HREF="#2"><B>2</B></A><A NAME="B"></A>) et mise en relation hypertextuelle avec d'autres textes déjà en ligne si nécessaire1.
Depuis mai 2000, des métadonnées de type Dublin Core sont intégrées dans le fichier. On peut bien sûr s'interroger sur l'utilité actuelle des métadonnées DC, qui ne sont utilisées que par des moteurs de recherche spécialisés.
Exemple de métadonnées : <META NAME="DC.Title" CONTENT="La veillée de
l'huissier : conte de Noël"> <META NAME="DC.Creator" CONTENT="Picard, EdmoncfV <META NAME="DC.Subject" CONTENT=,,,'> <META NAME="DC.Description" CONTENT="Les mal
heurs gastriques d'un huissier belge et ce qu'il s'ensuivit."> <META NAME="DC.Publisher" CONTENT="Bibliothèque
municipale de Lisieux"> <META NAME="DC.Contributor" CONTENT=",,> <META NAME="DC.Date" CONTENT=,,2000"> <META NAME="DC.Type" CONTENT="text,,> <META NAIVIE="DC.Format" CONTENT="text/html,,> <META NAME="DC.Identifier" CONTENT="httpy/www.bmli-
sieux.com/archives/veillee.htm"> <META NAME="DC.Source" CONTENT="La Veillée de
l'huissier : conte de Noël.- Bruxelles : Ferdinand Larcier, Libraire-Editeur, 10, rue des Minimes, 1885.">
<META NAME="DC.Language" CONTENT="fr,,> <META NAME="DC.relation.lsDerivedFrom" CONTENT=""> <META NAME="DC.Coverage" CONTENT="Belgique''> <META NAME="DC. Rights" CONTENT="Domaine public">
1. Rédigée par Russon Wooldridge (Université de Toronto) une très bonne analyse comparative de la lisibilité de textes littéraires mis en ligne est disponible sur Le Net des études françaises (httpy/www.etudes-francaises.net/acre/maupassant/commenthtm).
Numérisation interne ou externe 173
On procède ensuite à un test de rendu de la page par affichage des fichiers sur des écrans en différentes résolutions (de 640 x 480 à 1024 x 768) et dans différents navigateurs (Internet Explorer, Netscape, Amaya et Arachne).
Les nouveaux textes sont chargés sur le serveur en milieu de mois. Ils sont alors dupliqués dans une base textuelle (Lexotor) ouverte sur un serveur de l'université de Toronto1 qui offre la possibilité d'effectuer des recherches sur le corpus lexovien : on peut ainsi voir et examiner tous les contextes d'un mot, d'un nom de lieu ou de personne, dans l'ensemble des textes.
Enfin, les pages de liaisons (page d'accueil, table des auteurs, page index des rubriques) mises à jour plus tardivement sont chargées le dernier week-end du mois.
CONCLUSION On le voit les choix techniques très sommaires faits à Lisieux
résultent plus d'une insouciance et d'une méconnaissance initiale des problèmes liés à la numérisation que d'une réflexion préalable bien conduite. Tout le contraire d'un modèle donc, une alternative tout au plus. Un petit atelier de copistes plus soucieux d'humanité que de technicité.
1. Lexotor est une initiative de Russon Wooldridge, professeur de français à l'université de Toronto (http://www.chass.utoronto.ca/epc/langueXIX/lexotor/).
Constituer une base de données numérique
par Charlette Buresi et Laure Cédel le-Joubert
Différente du catalogue multimédia, la base de données permet de mettre à disposition d'un public un corpus numérisé. Cet ensemble de données peut être constitué de documents répondant à une même thématique ou bien représenter un même type de documents (des revues ou des manuscrits, par exemple). La recherche effectuée selon des critères plus ou moins sophistiqués permet alors de naviguer au sein de l'ensemble de la base mais également des documents eux-mêmes. Elle offre de nombreux avantages d'interrogation aussi bien pour le professionnel qui la gère et qui l'exploite que pour l'utilisateur final ; elle s'adapte dans la mesure du possible, et selon sa destination, aux différents usagers, chercheurs et grand public, grâce à ses formulaires de recherche modulables.
Au premier abord, la BDD offre la possibilité d'extraire du fonds de la bibliothèque une série de documents que l'on souhaite mettre en évidence, pour les valoriser, les faire découvrir ou faciliter leur consultation et leur exploitation. Sans viser à l'exhaustivité on peut citer entre autres documents : des collections de photographies,
178 Conduire un projet de numérisation
d'estampes consacrées à une région, de revues, de thèses ou d'ouvrages appartenant à un domaine spécifique. Cette individualisation d'une collection peut « exhumer » un fonds remarquable enfoui jusque là dans l'anonymat du catalogue général ou permettre, grâce à une masse critique représentative, l'étude ou le repérage rapide de textes d'un même auteur ou d'un même courant de pensée.
Une base d'images permet de proposer l'identification et la consultation de fonds iconographiques dont la description est souvent mal prise en compte dans le catalogue qui décrit des lots et non les documents pièce à pièce. Selon la structure et les champs descriptifs retenus, il est possible d'intégrer des documents plus ou moins bien décrits ou signalés - le recours à cette pratique doit cependant être exceptionnel et ne concerner que ce type de document. À ce stade, la BDD pallie l'absence d'une description riche et complète, dès lors qu'il existe un inventaire exhaustif du fonds accompagné d'un signalement cohérent qui respecte un vocabulaire normalisé.
1. CRÉER UNE BASE DE DONNÉES - L'EXEMPLE DES ENLUMINURES MÉDIÉVALES - LES BASES «< ENLUMINURES » ET « LIBERFLORIDUS »
1.1. Historique du projet g c 0 Q. O
En 1999 les ministères de la Culture et de la Communica- | • _c
tion et de l'Education nationale entreprennent, en partenariat J avec l'Institut de recherche et d'histoire des textes (IRHT- ^ CNRS), la réalisation de deux bases de données des enluminures J des manuscrits médiévaux conservés dans les bibliothèques sous Ï leur tutelle. L'élaboration de ces bases constitue la suite logique | d'une longue collaboration scientifique entre les bibliothèques, J
Constituer une base de données numérique 179
les ministères et le CNRS dont le but vise à étendre l'accessibilité de ces fonds exceptionnels à un large public.
Depuis 1979 pour le compte du ministère de la Culture et de la Communication, et depuis 1992 pour celui de l'Éducation nationale, l'IRHT mène un programme de recherche sur les manuscrits médiévaux dans les bibliothèques municipales et des bibliothèques de l'enseignement supérieur, pour certaines à vocation patrimoniale. Ce programme prévoit la reproduction photographique de l'ensemble des manuscrits médiévaux sous forme de microfilms ainsi que la photographie de toutes les enluminures et éléments de décoration de ces manuscrits. Depuis le début de ce programme, s'est constituée une vaste photothèque de plus de 100 000 images décrites dans une base de données créée par l'IRHT. L'IRHT a fait évoluer cette base en commençant la numérisation rétrospective d'une vingtaine de milliers de clichés, puis la numérisation directe des enluminures originales pour les intégrer dans la base documentaire. Mais l'IRHT ne propose qu'une consultation sur place en Intranet, les modalités de recherche, assez complexes, restant réservées à des spécialistes.
En collaboration avec l'IRHT, les deux ministères ont entrepris de mettre chacun en ligne, pour les chercheurs et le grand public, une base de données proposant la consultation sur l'Internet et l'Intranet des établissements, des enluminures des bibliothèques relevant de leur tutelle.
Pour mettre en œuvre ce programme, les partenaires ont établi une convention, élément indispensable pour mener à bien la réalisation des BDD en partenariat et en assurer la pérennité (cf. infra § 3.1).
1.2. Les futures bases
L'opération menée consiste donc à reprendre les notices des manuscrits et les images numérisées pour les associer au sein d'une base documentaire. Les deux nouvelles bases distinctes se
180 Conduire un projet de numérisation
sont inspirées, tout en la modifiant, de celle de l'IRHT. Cet exercice nous a permis de dégager un certain nombre de principes qui pourront éventuellement servir à l'élaboration d'autres BDD.
Comme pour tout projet les mêmes questions se sont posées :
Rédiger un cahier des charges qui recense l'existant et les objectifs : Quel corpus ? Pour quel public et quels besoins ? Quelles informations fournir et comment y accéder ? Quelle répartition des tâches et quelles responsabilités ? Quel matériel informatique ? Quelle interface ?
1.2.1. Le corpus
1.2.1.1. L'existant
Le corpus initial rassemble les clichés des campagnes photographiques réalisées depuis 1979 ainsi que les images numérisées au moment de la création des BDD.
1.2.1.2. Enrichissement
Les documents numérisés ultérieurement viendront enrichir f la base au fur et à mesure de leur traitement. |
Le corpus ainsi défini, nous nous sommes attachés à analy- | ser les besoins afin de mettre en œuvre un outil documentaire § « adapté. |
ÇD Q. O O
1.2.2. Le public et ses besoins f
Identifier le public potentiel : d'emblée les chercheurs se ^ sont imposés ; certains d'entre eux connaissent déjà la base de § l'IRHT, mais ils doivent se déplacer jusqu'à Orléans pour Tinter- t roger. Une mise en ligne sur l'Internet apportera une aide consi- 1 dérable à la recherche dans le domaine de l'iconographie |
Constituer une base de données numérique 181
médiévale, discipline fortement représentée à l'étranger. Nous sommes conscients de l'intérêt que cet outil rencontrera également auprès d'autres professionnels - bibliothécaires, documentalistes, enseignants - ou des éditeurs qui y trouveront une iconographie extrêmement riche sur le Moyen Âge et le plus souvent inédite. Parallèlement à ces besoins professionnels, il est important de ne pas négliger « le grand public », un public difficile à cerner dont les motivations principales lors de la consultation relèvent généralement de la simple curiosité ou du plaisir de feuilleter ces pages d'histoire illustrées.
Pour satisfaire ces publics différents il est essentiel d'identifier le type d'informations attendues et de proposer des modalités de recherche adaptées aux habitudes et à l'intérêt de chacun.
1.3. Informations et accessibilité
1.3.1. Déterminer les champs descriptifs
H Pour obtenir des réponses pertinentes et répondre aux atten-| tes des futurs utilisateurs, nous avons étudié les modes de recher-
H che appropriés. | Quels niveaux de recherche prendre en compte, quels i champs sélectionner respectivement pour une recherche simple | ou une recherche combinée, quels critères privilégier ? Recher-| ches multicritères et/ou multichamps ? | Cette réflexion nous a conduits à sélectionner un certain
a nombre de champs descriptifs qui vont constituer d'une part, le i formulaire de recherche (cf. infra §2.1.2), et d'autre part, les noti-g ces des résultats des requêtes.
LU
(5 (A o > CO
©
182 Conduire un projet de numérisation
1.3.2. Structuration des données
Dans la mesure où il s'appuie sur un programme commencé depuis plus de vingt ans, notre projet s'en trouve facilité.
L'indexation des images déjà mise en œuvre par la section iconographique de l'IRHT utilise une grille à plusieurs niveaux qui comporte des informations extrêmement précises. Mais, un grand nombre de notices étant incomplètes, certaines bibliothèques comme les BM d'Amiens et de Troyes et, dans un premier temps, les bibliothèques Mazarine et Sainte-Geneviève pour l'enseignement supérieur, se sont associées à ce programme et contribuent à enrichir et à compléter la base de l'IRHT pour permettre la mise en place de bases locales et nationales sur l'intranet des établissements et sur l'Internet. Ce travail a exigé une grande rigueur pour assurer la structuration des notices et leur homogénéité.
1.3.2.1. La structure
La hiérarchie générale de la base de l'IRHT nous semble répondre aux besoins et aux attentes des utilisateurs en matière de description et d'indexation. Elle se structure autour de trois s ensembles, le manuscrit, le texte contenu dans le manuscrit et | enfin l'iconographie. Nous avons décidé de conserver cette struc- gj turation cohérente. |
Chacune de ces parties appelle un certain nombre de | champs descriptifs qui autorisent une recherche en partant du | plus général au détail le plus précis. |
Les informations sélectionnées vont donc du catalogage | simplifié des manuscrits à l'indexation détaillée des images. f
Bien que les notices des deux bases ne soient pas totalement J, identiques - plus particulièrement la fiche Décor qui comporte J une rubrique supplémentaire « mots-clés » dans la base de ^ l'enseignement supérieur -, nous présentons ici la structure s suivante : ^
Constituer une base de données numérique 183
Fiche manuscrit (ou codex) : comprend la référence du manuscrit et décrit le volume matériel
en tant qu'entité physique Signalement Localité : nom de la ville où est conservé le manuscrit. Dépôt : nom de la bibliothèque. Cote : pour les manuscrits figurant dans le Catalogue général
des manuscrits des bibliothèques publiques de France, numéro de ce catalogue.
Appellation : titre factice sous lequel est habituellement désigné le manuscrit (« Bible d'Étienne Harding » par exemple).
Données matérielles Type codicologique, support, nombre de feuillet, dimensions en
millimètres. Décoration du manuscrit Iconographie, Ornement, Héraldique,...
Fiche texte (ou ouvrage) : signale la ou les œuvres à l'intérieur du manuscrit (ou codex).
Donne des informations sur l'histoire du manuscrit Signalement du manuscrit Folios : folios du manuscrit où apparaît le texte si le manuscrit
comporte plusieurs textes. Contenu textuel Auteur : nom de l'auteur du texte ou de l'auteur originel pour les
traductions et commentaires. Auteur secondaire .-nom du commentateur, du traducteur... Titre du texte. Type texte : texte commenté, glosé... Langue : langue du texte. domaine : indication du domaine très général auquel appartient
le texte (liturgie, histoire, droit canon...). Historique Datation : datation en siècle, partie de siècle ou dates précises,
à laquelle le texte a été copié sur le manuscrit. Date début* et Date fin * : années de début et de fin de la four
chette chronologique suggérée par la rubrique Datation. Ces rubriques servent à la recherche et surtout aux tris des documents.
184 Conduire un projet de numérisation
Origine géographique : nom du pays selon le découpage actuel suivi si possible du nom de la zone géographique où a été fabriqué le manuscrit.
Origine historique : nom de la région ou de la province selon le découpage médiéval où a été produit le manuscrit.
Origine précise : nom de la ville ou de l'abbaye où a été produit le manuscrit.
Imprimeur : noms de l'imprimeur et/ou du libraire pour les livres imprimés enluminés.
Possesseur : on se limite souvent dans un premier temps au nom du destinataire.
Décoration de l'ouvrage Typologie du décor : énumération des différents types d'enlumi
nures (initiale historiée, miniature, marge ornée...). Technique : « peinture » et « dessin ». Attribution : nom du ou des enlumineurs ayant participé à la
décoration du manuscrit ou école d'attribution.
Fiche décor : est consacrée aux différents éléments de la décoration du manuscrit, illustration et ornement,
traités par unité iconographique
Signalement du document Référence : signalement du manuscrit ou du document support
du décor. Folio ou page. Contenu du document Sujet : énoncé factice permettant l'identification de l'objet de la
fiche, basé quand cela est possible sur des appellations usuelles. Contexte : indication du type d'enluminure et de sa situation
précise dans le texte. Notes : éventuellement, précisions sur la représentation, justifi
cation du sujet, expression des doutes sur son identification, notation des remarques obligeamment faites par les utilisateurs de la base.
Mots-clés / énumération documentaire concernant l'enluminure (type, caractère alphabétique pour les lettres...), genre de l'objet traité (figure biblique, allégorie...), la source littéraire de l'image,... et la représentation elle-même (éléments constitutifs, relations...).
Constituer une base de données numérique 185
Les champs renseignés à l'IRHT sont plus développés, mais ceux présentés ci-dessus sont adaptés, dans la mesure du possible, à la destination de nos bases.
Dans tout autre projet on pourrait procéder à une analyse similaire des besoins et déterminer les champs de la future base en fonction des documents et des moyens disponibles (budget, temps, ressources humaines). Cette souplesse dans le choix des critères permet de donner accès à des documents très bien décrits ou à d'autres simplement inventoriés. Dans le cas du projet des bibliothèques de recherche, parallèlement aux documents indexés qui font l'objet de recherches simples ou élaborées, toutes les images numérisées même si elles ne sont pas indexées, sont cependant consultables, à partir des seuls champs de signalement (localisation, référence, folios).
1.3.2.2. Utiliser un vocabulaire normalisé
Compte tenu du très grand nombre de documents à décrire, ce travail d'indexation se fera, à l'évidence, sur le long terme et sera le fruit d'un travail collectif. La question de l'harmonisation
s du vocabulaire d'indexation et sa validation par une autorité uni-f que trouve alors toute son importance. Avant même de commen-I cer à indexer les documents, il convient de choisir des fichiers § d'autorité mis à jour régulièrement qui serviront de référence i pour alimenter des champs descriptifs, éviteront les doublons et g faciliteront les mises à jour. | Il est souhaitable de prévoir des réunions périodiques entre
s indexeurs. o
Dans le cadre de notre projet, l'indexation des premières j, notices a appliqué les règles suivies par l'IRHT, nous avons donc | été obligés de conserver ce cadre afin de préserver la cohérence
t. des notices entre elles quel que fût l'organisme producteur. A été | ainsi adopté le thésaurus iconographique de François Gamier,
^ outil de référence pour l'indexation des images. Quant aux autres
Conduire un projet de numérisation
champs nous avons conservé les lexiques élaborés par l'IRHT, (pour l'index auteurs, par exemple, les noms latins des auteurs les plus connus sont mis en synonymie avec leur nom francisé).
Lors de l'indexation, le lien entre le thésaurus ou chaque liste de référence (lexique ou index) avec le champ auquel il se rapporte permet de les consulter ; de même à l'interrogation l'utilisateur a la possibilité de s'y référer pour guider sa requête.
1.3.3. Les difficultés
1.3.3.1. Reprise de l'existant
Tout le travail de structuration et de description effectué au préalable par l'IRHT, a pu représenter un atout considérable mais a parfois montré ses limites puisque que nous avons dû nous adapter à un matériau préexistant et de ce fait limiter, dans certains cas, nos choix.
En effet la difficulté a résidé dans la récupération d'une structure (comprenant de nombreux champs, des index et un thésaurus) élaborée à l'origine pour des chercheurs spécialistes du domaine et destinée désormais à un public plus large, généralement béotien.
1.3.3.2. Harmonisation du vocabulaire
Un autre inconvénient concerne sur le long terme, la méthode et la maîtrise de l'indexation. Cet aspect est ici d'autant plus important qu'il s'agit d'images dont l'interprétation peut être particulièrement soumise à la subjectivité de l'indexeur.
1.3.3.3. Sur les choix informatiques
Cf. infra « Élaboration et consultation d'une base structurée » (par José Sanchez) dans cet ouvrage.
Constituer une base de données numérique
2. CONSULTATION
2.1. Interface utilisateur
Nous nous sommes efforcés d'apporter la plus grande transparence d'utilisation possible à notre outil en portant une attention particulière aux interfaces de consultation. La présentation de nos bases devait apporter des précisions sur le contenu et les modes d'utilisation.
2.1.1. La présentation de la base
Un court descriptif s'imposait afin d'avertir l'utilisateur sur le contenu mis à sa disposition. En effet, au moment de leur lancement ces bases ne proposeront pas l'intégralité du corpus des bibliothèques françaises. Dès lors, il est indispensable de signaler non seulement quelles sont les bibliothèques concernées, mais aussi d'annoncer les modalités des mises à jour. Pour les documents numérisés il paraît important de mentionner, par exemple, que toutes les enluminures reproduites ne reprennent pas toutes les lettres ornées pour lesquelles une sélection a été faite afin de ne constituer qu'un ensemble représentatif - c'est le cas notamment des initiales filigranées.
2.1.2. Le formulaire de recherche
Le travail le plus complexe concerne l'élaboration du formulaire de recherche. La richesse des notices permet d'effectuer de très nombreuses combinaisons ; la tentation était donc grande d'exploiter toutes les potentialités, au risque de complexifier les modalités de recherche.
188 Conduire un projet de numérisation
Répondant à des objectifs distincts, la DLL et la Sous-direc-tion des bibliothèques n'ont pas opéré la même sélection des critères de recherche. Cependant, l'élaboration du formulaire reposait sur les mêmes principes :
- se mettre à la place de l'utilisateur ; - connaître ou évaluer ses priorités lorsqu'il aborde une
recherche ; - apporter des solutions : que proposer et comment ? - éviter la confusion avec d'autres fonds ? Les questions ont donc porté - entre autres - sur la façon de : - déterminer les informations minimales qui permettent de
trouver ou retrouver un document ; - affiner la recherche, en croisant ces informations avec
d'autres critères de date, de lieu, du nom de l'artiste, pour obtenir la ou les réponses attendues (dans le cas de la recherche experte) ;
- définir de quelle façon ces informations seraient présentées selon l'objectif visé : informations recherchées sur l'enluminure seule ? sur le manuscrit ? en distinguant d'emblée les champs correspondants ;
- faciliter la recherche grâce aux index de façon simplifiée | (menus déroulants lorsque cela est possible) ; ^
-permettre la saisie des caractères en majuscules ou en | minuscules, avec ou sans accents ou l'usage de la troncature ; |
- éviter les va et vient vers le bas ou le haut de l'écran pour g lancer la recherche. $
L'affichage des résultats a également fait l'objet de débats. 8 Parmi les préoccupations citons celles qui ont porté notamment sur : "i1
_Q
- l'affichage du nombre de réponses ; | - la visualisation des notices et des images ; ^ - la possibilité d'afficher les termes utilisés lors de la |
requête ; f
Constituer une base de données numérique 189
- la possibilité de naviguer dans les deux sens d'une enluminure à la notice associée, ou de passer d'une enluminure à la suivante ou à la précédente ... ;
- le retour aux étapes antérieures de recherche grâce à un historique ;
- le repérage des réponses (en les numérotant), et de celles déjà visualisées (grâce à un surlignage) pour éviter toute confusion.
2.1.2.1. Le formulaire des bibliothèques publiques
Notre premier impératif était d'offrir à l'utilisateur un formulaire sobre et simple qui tiendrait sur une seule page d'écran, de manière à éviter de faire défiler la page pour saisir les critères. Ce choix initial nous a fait opter pour un nombre réduit de champs fixes auxquels nous avons associé des champs modulables grâce à un menu déroulant. Nous avons retenu parmi les champs fixes ceux qui nous paraissaient les plus consultables. Nous avons préféré limiter les possibilités de croisement de critères pour privilégier le confort de lecture de l'écran. Pour se gui-
s der l'usager peut consulter le lexique associé à chaque champ ou | encore faire appel à l'aide. 1 À l'affichage des résultats les mêmes règles de clarté devai-! ent primer afin de favoriser une navigation quasi instinctive gui-| dée essentiellement par des icônes. Chaque résultat est identifié
B par une référence rapide (localisation, cote, titre, folio, datation) | et deux icônes offrent à l'usager soit de consulter la notice soit de | faire apparaître l'image seule en tiers d'écran.
J Afin de ne pas handicaper des publics peu familiers des j, BDD, il était préférable d'éviter les superpositions d'écran, de I bien signaler les possibilités de navigation et d'offrir un accès au r formulaire ou aux notices et aux images sans perdre le fil de la 1 recherche. Dans cette optique, nous avons systématiquement ^ placé en haut de l'écran des icônes signalétiques et nous avons
190 Conduire un projet de numérisation
multiplié les liens hypertextes. Faciliter la navigation du public néophyte impliquait de lui procurer sur un seul écran le maximum d'informations en minimisant le nombre de « clics ». Le confort de consultation passait également par la rapidité de l'affichage. Bien des sites dissuadent l'internaute par des temps de chargement longs et fastidieux. La consultation d'une banque d'images comme celle-ci doit impérativement répondre à un besoin de rapidité. Cet impératif nous a fait limiter le poids des images à 150 voire 100 Ko, ce qui reste encore très acceptable en terme de qualité d'image.
2.1.2.2. Le formulaire des bibliothèques de l'enseignement supérieur
Il est essentiel de considérer pour acquise la vocation première de cette base destinée à la recherche et qui constitue un outil incomparable et unique. Élargir son accès au plus grand nombre ne devait pas pénaliser les spécialistes.
Quelles étaient les options possibles ? Soit proposer deux formulaires de recherche distincts, l'un
pour une recherche simple, l'autre pour une recherche de type « expert », soit proposer un formulaire unique pour les deux niveaux de recherche. Le choix s'est porté sur le formulaire unique, ce qui a rendu difficile son élaboration.
Nous avons pris le parti de privilégier le contenu et de présenter le plus d'informations possibles. Ce choix a vraisemblablement été pénalisant pour les aspects ergonomiques et peut-être chargé l'écran, mais il nous a paru indispensable de présenter un formulaire - dans la mesure du possible - explicite et donner toutes indications utiles à un public non averti.
De fait, cet aspect, perçu d'emblée comme un inconvénient s'est avéré un véritable atout. Grâce à une indexation riche et une description détaillée, que nous ne pouvions négliger, tous les termes retenus dans la plupart des champs établissent des liens hypertextes et renvoient à toutes les autres notices comportant les
Constituer une base de données numérique
mêmes termes, ce qui autorise des recherches très complètes. L'affichage et la consultation des résultats répondent aux impératifs cités plus haut (nombre de réponses, navigation d'une image à l'autre ou d'une notice à l'autre, affichage de la notice et/ ou de l'image en regard...)
Dans la mesure où cette base se compose de deux parties - d'une part l'ensemble des enluminures, c'est-à-dire essentiellement des images, d'autre part seules les enluminures indexées accompagnées de leurs notices -, elle offre l'opportunité exceptionnelle à l'heure actuelle de feuilleter des enluminures remarquables sans critère particulier de recherche. Ainsi, pour trouver un document dans la partie ou sous-base « images seules » le cheminement est guidé, un simple clic à partir de la ville et du nom de la bibliothèque puis d'un numéro quelconque de manuscrit permet l'affichage des résultats sous forme de menu déroulant : la visualisation des images peut alors s'effectuer.
Conduire un projet de numérisation
Recherche d'images seules
Vous devrez successivement sélectionner :
• une ville / bibliothèque • une cote • un folio / vue
IParis, Bibl. Mazarine • —
Valider Puis :
Résultats:
I Vous avez sélectionné : Paris, Bibl. Mazarine
Cette bibliothèque a mis en ligne 936 manuscrits
I ms. 0469 Veuillez en choisir un : I
Valider Puis :
Résultats:
I Vous avez sélectionné : Paris, Bibl. Mazarine ms. 0469
Il y a 98 images de ce manuscrits. Cliquez sur un des liens pour afficher l'image correspondante :
f. 003v f. 003v-004 f. 005 - vue 1 f. 005 - vue 2 f. 005 - vue 3 f. 005 - vue 4
3
Constituer une base de données numérique 193
Affichage de l'image après sélection
44114/98
Paris, Bibl. Mazarine, ms. 0469, f. 005 - vue 2 t»
mmmmwï&ifr '* **!&£* • *• • »
m * ' « ^ < $ . • * V" J -r- . .b- * V • • ^ ' C' O A 9 #
•5 ©CINES Avertissement Retour page d'accueil Album photos Commentaires et suggestions "Q. ro j, Chercheurs et grand public seront certainement heureux de I pouvoir étudier ou simplement admirer à loisir des reproduc-t: tions. Nous avons donc anticipé leurs desiderata en leur offrant la 1 possibilité de sélectionner des enluminures et de les commander | par le biais de « l'album ».
94 Conduire un projet de numérisation
3. DIFFUSER UNE BASE DE DONNÉES
3.1. La convention
Dans le cas d'un partenariat, il est nécessaire avant de lancer la base, voire même de la produire, de préparer une convention. Dans nos projets respectifs une convention a été élaborée entre les ministères et l'IRHT, dans le cas de la sous-direction des bibliothèques et de la documentation, la convention associe les bibliothèques qui assurent une grande partie de l'indexation.
La convention permet de formaliser l'objet du partenariat, d'identifier les rôles et obligations des partenaires, de déterminer les droits de propriété et d'utilisation.
La convention doit comporter certaines clauses : - un historique succinct sur l'accord ; -la description, en quelques lignes, de l'objet de la
convention ; -les obligations de chacune des parties en précisant
l'apport de chacun des partenaires ; -les autorisations relatives à l'utilisation des données et
concédées réciproquement ; -une clause relative à la propriété intellectuelle et aux
droits d'exploitation précisant les droits respectifs ; - une clause particulière relative à la diffusion qui précisera
les conditions de mise en ligne, la qualité des images, les conditions de commande de reproduction et éventuellement la rétribution correspondante ;
- éventuellement, une clause sur les conditions des mises à jour.
Dans notre cas précis, la convention indique l'existence de notices et d'images, elle mentionne les organismes producteurs (qui a créé la grille d'indexation, qui a indexé, qui a numérisé, ...).
Constituer une base de données numérique 195
La convention établit ainsi la contribution de chacun au projet. Cela peut s'avérer très utile pour organiser le travail entre partenaires et maintenir le programme de réalisation.
Pour bien comprendre l'objectif du programme mis en œuvre, il est utile d'aborder certains aspects techniques en se référant au cahier des charges. Il s'agit de mettre en évidence, non seulement le rôle de chacun, mais également les étapes scientifiques ou techniques assumées telles que l'alimentation de la base, sa diffusion ou sa maintenance.
Les aspects juridiques sont également évoqués. Ainsi sont mentionnés les droits de chacun des partenaires sur la base (structure et données en général), sur les données qu'ils auront apportées, les droits sur l'utilisation, la copie des données, et sur la nouvelle base créée. Cette clause mentionne les droits d'exploitation et de reproduction, sans négliger une éventuelle exploitation commerciale.
3.2. Conditions juridiques de diffusion
= La question des droits ne touche pas uniquement les parte-§ naires responsables du programme, elle concerne directement ® l'exploitation que les internautes feront de la base et de ses don-! nées. Il est utile de rappeler que les bases de données sont proté-| gées au titre de la loi n° 98-536 du 1" juillet 1998. Si la structure | même de la base et son contenu demeurent protégés par la loi, ! peut-on pour autant éviter des usages abusifs des images ?
% Les différentes techniques proposées actuellement, comme f- le marquage avec un filigrane, ne donnent pas totalement satis-^ faction et restent coûteuses. Une bonne manière de protéger les I images contre une exploitation commerciale consiste à n'en pro-t: poser qu'une version dégradée de faible résolution en format 1 JPEG. Par ailleurs, il est conseillé d'avertir l'internaute sur la ^ propriété des données par un message dissuasif qui précisera les
Conduire un projet de numérisation
usages autorisés. Outre ce message, on indiquera éventuellement en bas de chaque notice et /ou de chaque image le nom de l'organisme producteur et on insérera dans un coin de chaque image une mention de propriété, tout en sachant que ce n'est qu'une indication, ce marquage étant facilement effaçable.
3.3. L'aide en ligne
Dernière touche avant la mise en ligne, l'élaboration du menu d'aide qui servira de « boîte à outils » à l'utilisateur en panne devant son écran. En dépit des apparences, sa rédaction est difficile, elle exige de prendre du recul vis à vis de la base, de s'interroger sur la façon dont elle sera reçue : comment orienter l'utilisateur ou le réorienter ? Quels sont les aspects qui peuvent paraître inintelligibles ? Comment remédier à une erreur d'interrogation ? Comment préciser un résultat de recherche ? La compréhension du texte peut-elle être compromise par un excès d'explications ? (à vouloir trop bien faire...)...
La mise en forme de l'aide dépend de la configuration générale de l'interface de recherche :
- il est préférable qu'à tout moment de la consultation, l'utilisateur puisse y recourir en cliquant sur un bouton que l'on placera en évidence en haut de l'écran ;
- à l'affichage l'aide peut apparaître sur le même écran ou sur un nouvel écran, de dimensions inférieures à l'écran principal, de manière à pouvoir suivre les indications en lisant le formulaire ;
- si le texte de l'aide est très long, il est préférable d'en proposer un menu en haut de page pour que l'internaute puisse accéder directement aux renseignements attendus sans faire défiler des pages.
Constituer une base de données numérique 197
3.4. À la rencontre du public
La base « Enluminures » est interrogeable sur le site du ministère de la Culture et de la Communication, elle est intégrée dans sa partie « bases de données documentaires ». Ce préalable explique que nous nous sommes pliés à une présentation homogène avec celle des autres bases du ministère, implantées, elles aussi, sur Mistral.
La base « LiberFloridus » est hébergée par le Centre informatique national de l'enseignement supérieur (CINES). Cette base sera consultable sur le serveur du CINES mais également grâce au lien avec le SUDOC (le catalogue collectif des bibliothèques de l'enseignement supérieur) à partir d'une notice (zone 856) qui renverra à l'enluminure correspondante.
On peut juger de l'impact des bases grâce aux personnes qui ont accepté de participer aux tests, les deux bases ont en effet été testées et les utilisateurs nous ont fait part de leurs commentaires.
Il est intéressant de noter qu'à chaque catégorie de public correspondent des motivations, des commentaires, des appréciations - positives ou négatives - spécifiques.
I Trois types d'utilisateurs ont participé aux tests : des cher-| cheurs, des professionnels des bibliothèques, le grand public. 1 Certains sont plus attentifs au fond qu'à la forme. | Si les chercheurs exigent encore plus de finesse dans | 1 ' indexation, le contenu et les potentialités de la base semblent les
g satisfaire pleinement. f Les bibliothécaires se trouvent à mi-chemin entre l'expert et | le grand public. Ils sont très attentifs aux modes de navigation, f Habitués à effectuer des recherches précises, ils remarquent très ^ rapidement une ergonomie déficiente ou des doublons éventuels. 1 C'est peut-être le public le plus exigeant. t Le grand public peu familiarisé à la consultation de docu-1 ments iconographiques de qualité et mis si facilement à leur dis-^ position, est séduit, émerveillé, enthousiaste.
198 Conduire un projet de numérisation
D'ores et déjà, certaines appréciations d'experts sont encourageantes et très prometteuses. Tout est perfectible, et seul l'usage nous démontrera la nécessité de supprimer ou de développer certaines fonctionnalités.
3.5. Mise en ligne finale
Les bases sont prêtes après les tests et la prise en compte des commentaires, elles n'attendent plus qu'à paraître sur l'Internet. Comment rencontreront-elles leur public dans la jungle du Net ?
Il est important de les faire connaître, faire valoir leur aspect novateur et leur intérêt pour tous. Une communication efficace devra en faire la promotion, afin d'éviter que leur existence même ne passe inaperçue.
Lors de l'ouverture des sites, différentes annonces pourront être faites sur des listes de discussions professionnelles. On veillera à contacter par messagerie des universités étrangères susceptibles d'être intéressées par ces ressources en ligne. Dans notre cas précis le groupe américain du Digital Scriptorium constitue un utilisateur potentiel aux États-Unis. Les organes de presse peuvent relayer cet événement : revue de la bibliothèque ou de l'université, presse professionnelle sans exclure les pages consacrées au multimédia de la presse régionale ou nationale.
Élaboration et consultation d'une base structurée
José Sanchez
Le ministère de l'Éducation nationale (sous-direction des bibliothèques et de la documentation) a confié au CINES (Centre informatique national de l'enseignement supérieur) l'étude et la réalisation d'un serveur web permettant la consultation sur l'Internet de la base d'enluminures « LiberFloridus ».
Ce projet recouvre divers aspects techniques, en particulier : - les critères de choix d'un logiciel ; - l'utilisation d'une base de données et d'un thésaurus ; - le matériel informatique utilisé ; - le développement d'un site de type recherche documentaire.
1. CHOIX D'UN LOGICIEL Le développement d'un serveur web interfacé avec une base
de données tel que le serveur des manuscrits nécessite la mise en œuvre d'un certain nombre de composants logiciels, parmi lesquels :
- un serveur HTTP ; - un serveur de base de données ; - un langage de développement intégrant SQL. L'offre actuelle dans ce domaine peut se répartir en
4 catégories : - l'offre JAVA : basée sur un langage riche et portable, de
JDBC (java data base connectivity) et d'EJB (enterprise Java beans). Un serveur d'applications peut être envisagé dans le cas d'applications importantes ;
- l'offre Apache/MySQL/PHP : le trio des logiciels libres très répandus sur Internet. Cette solution est intéressante car facile à mettre en œuvre. Elle est bien adaptée aux petites applications ou à la réalisation de maquettes ;
- l'offre Microsoft : basée sur un serveur IIS (Internet information server) et d'ASP (active server page).
- les offres des éditeurs de bases de données ou de systèmes documentaires tels qu'Oracle, Sybase, Ever...
Le choix peut donc paraître vaste parmi toutes ces solutions, d'autant plus qu'il en existe d'autres. Néanmoins, dans la réalité, la mise en place d'un tel projet est souvent guidée par d'autres critères : prise en compte de l'existant, contraintes techniques, compétences des développeurs, etc.
Pour le serveur des manuscrits, nous avons choisi une solution construite autour :
- du logiciel Apache ;
Conduire un projet de numérisation
- du serveur de base de données Sybase ; - du langage C et d'Embedded/SQU Les avantages : cette solution est robuste, portable et indé
pendante de tout logiciel. En effet, nous utilisons Apache, mais tout moteur HTTP acceptant le protocole CGI (common gateway interface) pourrait convenir. Pour la base de données, nous utilisons Sybase, mais tout SGBDR disposant d'Embedded/SQL pourrait convenir (par exemple Oracle ou Informix).
Les inconvénients : cette solution nécessite de tout spécifier au niveau du développement. Cependant, cela peut représenter également un avantage dans la mesure où le programmeur peut tout contrôler dans son application.
2. BASE DE DONNÉES ET THÉSAURUS
La structure de la base modélise essentiellement 3 types d'objets : les notices, les images et le thésaurus.
2.1. Les notices Les notices sont organisées dans 3 tables : -latable CODEX ; -la table OUVRAGE; - la table DÉCOR. Ces tables sont liées entre-elles par une référence, cela per
met ainsi d'effectuer des recherches à partir de critères associés aux ouvrages ou aux décors.
2.2. Les images Les images sont répertoriées par un code dans la table IMAGE.
Ce même code est présent dans la table DÉCOR de manière à retrouver toutes les images correspondant à un décor donné.
Les images - c'est-à-dire les fichiers JPEG - ne sont pas stockées dans la base de données mais sous forme de fichiers « à plat » : le nom du fichier correspond au code figurant dans la table IMAGE. Le fait de ne pas stocker les images dans la base
1. Embedded/SQL est un précompilateur qui permet d'écrire des ordres SQL directement dans un programme C.
Constituer une base de données numérique 201
de données n'est pas dû à une limitation du SGBDR utilisé (ici Sybase) mais à un choix de simplification de la programmation.
2.3. Le thésaurus Les mots-clés utilisés pour l'indexation des enluminures sont
répertoriés dans le référentiel organisé de manière hiérarchique (thésaurus).
Or, pour notre développement nous ne disposions pas d'un « vrai » logiciel documentaire qui nous aurait permis de modéliser et d'utiliser directement un thésaurus, nous avons donc défini une table THÉSAURUS qui permet de créer une structure hiérarchique à plusieurs niveaux.
Grâce à cette table, nous avons pu : - d'une part, présenter à l'utilisateur la structure hiérarchique
du vocabulaire en situant un terme par rapport à ses ascendants et à ses descendants ;
- d'autre part, utiliser le thésaurus dans les recherches afin d'obtenir un maximum de résultats.
LES BASES (ou tables ou fichiers) et LEURS LIENS
'CODEX
[3 H [3
H
Référence
OUVRAGE
- Référence codex
- Référence
DÉCOR
- Référence V /
Ne sont indiquées ici que les rubriques de lien qui permettent la navigation d'une base à l'autre et la recherche relationnelle. Référence codex d'OUVRAGE est identique à Référence de CODEX. Référence de DECOR est identique à Référence d'OUVRAGE.
202 Conduire un projet de numérisation
3. LE MATÉRIEL INFORMATIQUE
Le CINES est un « centre national » et dispose à ce titre de ressources informatiques importantes aussi bien dans le domaine scientifique que dans celui des bases de données (le CINES héberge notamment le catalogue du SuDoc).
Le développement et la mise en service du serveur des manuscrits n'a donc pas nécessité l'acquisition de matériels supplémentaires ; ce serveur est venu prendre place au sein des serveurs web déjà présents au centre1, au total près de 20 services Internet sont aujourd'hui hébergés au CINES.
L'architecture informatique mise en place pour les services web comprend :
- une machine Sun 4500 : directement reliée à la plaque régionale RENATER, cette machine frontale web répond aux requêtes des internautes ;
- une machine IBM H50 : c'est la machine base de données (qui exécute les requêtes sur les bases de données). Elle communiqué avec la machine frontale web à travers un protocole client/serveur.
Cette architecture à 2 niveaux présente d'une part l'avantage d'équilibrer la charge entre les requêtes Web et les requêtes BD et d'autre part de sécuriser l'accès aux bases de données : les utilisateurs ne se connectent jamais directement au serveur de base de données mais ils communiquent avec ce dernier à travers des programmes s'exécutant sur la frontale web.
1. Serveur DeBuCi (base de données des relations internationales universitaires), le serveur CLORA (diffusion de documents sur la recherche européenne), le serveur du Pôle universitaire de Montpellier...
IBM H50 Machine | SUN 4500
Internet )•* • Frontale : r web
utilisateur
données
Constituer une base de données numérique 203
4. DÉVELOPPEMENT D'UN SITE WEB DE TYPE RECHERCHE DOCUMENTAIRE
4.1. Le problème de la persistance Durant la réalisation du serveur des manuscrits, nous avons
été confrontés à différents problèmes techniques et notamment à celui de la persistance d'informations.
En effet, le protocole HTTP (hypertext transfert protocol) qui est le langage utilisé entre le client (navigateur) et le serveur (démon httpd) est un protocole sans état (stateless) : lorsque le client a fini de récupérer le document qu'il a demandé (page HTML), le serveur coupe la connexion, perdant ainsi toute trace du client. Or, cela peut s'avérer très pénalisant lorsqu'il est nécessaire de conserver des informations (environnement utilisateur) entre différentes pages.
Par exemple, une requête vers la base de données sera construite après sélection dans différents formulaires : en d'autres termes, on souhaite simuler une session utilisateur avec un protocole qui ne le permet pas.
Pour cela, plusieurs techniques (ce ne sont en fait que des palliatifs) existent, on peut les classer en 2 catégories :
- celles qui mémorisent l'environnement utilisateur du côté du client ;
- celles qui mémorisent l'environnement utilisateur du côté du serveur.
- Du côté du client, on pourra utiliser : les champs cachés des formulaires (balise INPUT de type HIDDEN), les cookies1, le champ paramètre dans les URL.
- Du côté du serveur, on pourra utiliser la mémoire du démon httpd, un fichier, la base de données.
Le développeur aura le choix parmi ces différentes techniques et pourra les utiliser conjointement.
C'est le cas pour le serveur des manuscrits : nous avons utilisé les cookies (pour gérer l'album photo et la commande de
1. Les cookies sont des informations qui sont envoyées au client par le serveur et qui sont stockées dans la mémoire du navigateur ou éventuellement dans un fichier sur votre disque dur suivant la date d'expiration du cookie. Le cookie ne pourra être relu que par le serveur qui l'a envoyé.
204 Conduire un projet de numérisation
reproductions), les paramètres dans les URL et la base de données (pour conserver l'historique des requêtes).
4.2. La navigation et la présentation des résultats Un élément très important dans la conception d'un site web
concerne la navigation à l'intérieur du site et la présentation des résultats.
Actuellement pour accéder aux différentes rubriques, la navigation s'effectue grâce à une barre de navigation figurant au bas de chaque page : recherche par critères, feuilletage des manuscrits, album photo, etc...
Pour la recherche par critères, les résultats s'affichent sous forme de « liste des réponses ». Dans cette liste figurent les éléments de base des notices :
- référence du manuscrit, titre et datation - pour les ouvrages ;
- référence du manuscrit, folio, sujet, titre et datation - pour les décors.
Grâce à deux petites icônes figurant dans la liste des résultats, l'utilisateur peut également visualiser la notice correspondante et/ou la première image du manuscrit. La notice et l'image s'affichent dans des fenêtres pop-up indépendantes. À l'intérieur de ces fenêtres, des boutons de navigation permettent aussi de passer à la notice ou à l'image suivante (ou précédente).
Ce type de navigation peut paraître quelque peu déroutant au premier abord mais s'avère assez pratique à l'usage.
La solution Internet - L'exemple de Lyon1
par Pierre Guinard
Quelle est la mission d'une bibliothèque patrimoniale comme celle de Lyon ? Conserver et communiquer les documents qui lui sont confiés.
Quelle est l'incidence de la numérisation sur ces missions ? Elle favorise la conservation en permettant en principe de substituer au document original le document numérisé. Elle facilite la communication : le document numérisé est facilement copiable sur une disquette, un cédérom ou un disque dur. Il est intégrable à une base de données et ainsi aisément recherchable. Bien plus, il peut être largement diffusé sur Internet. Bien sûr, la loi et la protection du droit d'auteur apportent des freins à une diffusion sans limite, mais beaucoup des documents des bibliothèques ne sont pas touchés par ces problèmes de droit. Alors pourquoi ne pas diffuser systématiquement par ce moyen ? Quels sont les obstacles qui se dressent ? Techniques, financiers, juridiques, psychologiques ? La bibliothèque de Lyon n'a pas éludé ces questions, mais a très vite fait le choix de donner la priorité à sa mission de communication.
Après avoir rappelé sur quelles bases le choix de l'ouverture des collections par Internet s'est fait, l'exposé du tableau des documents proposés aujourd'hui sur Internet permettra d'évoquer diverses facettes de la politique menée par la bibliothèque dans ce domaine.
La bibliothèque était déjà largement engagée dans la numérisation de ses collections lorsqu'lnternet est apparu en 1995 comme une solution nouvelle. La bibliothèque s'est alors rapidement dotée d'un site web qui a d'abord présenté ses collections et son fonctionnement. L'idée d'aller plus loin et de permettre au public d'accéder au catalogue et, ce qui nous intéresse ici, au contenu des documents, a été alors adoptée. Ce qui a présidé à cette politique volontariste est bien le souci de proposer au public une offre documentaire plus large, dans tous les domaines, en accédant d'une part aux ressources extérieures via les cédéroms et Internet, d'autre part en favorisant la connaissance des collections mêmes de la bibliothèque. La numérisation n'a pas été vue comme un moyen de conservation, mais bien comme un excellent vecteur de diffusion. L'éventuel obstacle psychologique (comment va-t-on contrôler sur Internet l'utilisation de « nos » documents, certaines personnes ne risquent-elles pas de les détourner ou d'en tirer profit abusivement)
1. http://www.bm-lyon.fr/.
206 Conduire un projet de numérisation
a été dépassé rapidement. La priorité a été donnée à l'ouverture et à la confiance faite au public. Il ne s'agit pas de brader un patrimoine, mais de le faire vivre. La bibliothèque, qui s'intéresse légitimement au devenir de son patrimoine, doit simplement prendre le soin d'expliquer clairement au public la démarche à suivre en cas d'utilisation privée ou publique de ses documents.
Nous nous sommes au départ heurtés à un double écueil, technique et juridique. Les deux corpus en cours de numérisation, d'une part des articles de presse contemporains, d'autre part des enluminures médiévales, étaient traités avec un logiciel de gestion électronique de document (GED) qui à l'époque n'était pas compatible avec Internet et ne permettait qu'une consultation en local. Pour les articles de presse, s'ajoutait l'obstacle juridique car les droits de reproduction n'étaient pas négociés pour une consultation sur Internet. Les moyens somme toute limités d'abord mis en œuvre, un personnel qui a découvert en chemin des techniques nouvelles n'ont pas permis d'aller aussi vite que souhaité. Le système de GED choisi primitivement a été ensuite abandonné, du moins pour une partie des opérations. Les tâtonnements, les hésitations, les retours en arrière ne nous ont été pas épargnés. Tout cela n'a pas été inutile et a permis d'engranger de l'expérience et de déboucher en 1999 sur un système informatique dans lequel l'offre Internet s'est trouvée naturellement incluse, tant pour le catalogue que pour l'accès aux collections.
Aujourd'hui, la solution Internet se décline de façon variée, en gardant toujours le principe de gratuité et du respect de la législation sur le droit d'auteur :
Le site web Il présente les collections dans leur ensemble en mettant
succinctement en avant quelques pièces importantes. Il reprend sous forme numérique des expositions qui ont eu lieu à la bibliothèque. Pour les documents figurant dans l'exposition et non tombés dans le domaine public, deux cas se sont présentés. Dans le premier, l'artiste, non seulement n'a exigé aucune rémunération, mais a même participé à la réalisation de son exposition virtuelle, créant ainsi une œuvre nouvelle. Dans le second, le plus général, les œuvres protégées par le droit d'auteur ne sont pas montrées.
Constituer une base de données numérique
Le catalogue Si les notices sont depuis 1999 consultables, leur enrichisse
ment reste encore embryonnaire et concerne en premier lieu les documents anciens pour lesquels quelques pages significatives (page de titre, frontispice, illustration,...) sont numérisées. Le lien avec des ouvrages complets n'est pas opérant pour des raisons techniques.
Les bases de données Elles utilisent toutes le même logiciel de GED', avec une pré
sentation modulable et une bonne capacité de recherche.
Les articles de presse 100 000 articles de presse portant sur la région Rhône-Alpes
sont numérisés et sont consultables en local. En revanche, seules les notices sont accessibles sur Internet car l'autorisation de montrer le contenu des articles n'a pas été négocié avec les détenteurs des droits.
Bases d'Images • La base Enluminures propose en libre accès 12 000 images tirées de manuscrits médiévaux, d'incuna
bles et de quelques ouvrages du XVIe siècle. Le public peut les reproduire à son gré pour un usage privé. Chaque image a un poids qui dépasse rarement 100 ko, ce qui permet une consultation relativement rapide mais rend improbable une utilisation éditoriale.
• La base Estampes met au jour la riche et méconnue collection de la bibliothèque. La numérisation s'accompagne du catalogage des gravures qui a commencé de façon systématique par celle du XVIe siècle, mais met aussi l'accent sur des artistes lyonnais du XVIII" siècle (Jean-Jacques de Boissieu) ou du XIXe siècle (Balthazard-Jean Baron). Les images sont proposées avec plusieurs niveaux de résolution.
1. Dipmaker.
Conduire un projet de numérisation
• Sur le même modèle, la base Affiches s'intéresse aux affichistes de la fin du XIXe siècle et de la première moitié du XX8 siècle. Là encore, l'image n'apparaît que lorsque l'œuvre est tombée dans le domaine public.
• D'autres bases sont en projet : l'une sur les images régionales, en se cantonnant aux images libres de droits, l'autre sur les possesseurs avec le relevé des armoiries, ex-libris ou simples mentions manuscrites apposées sur les documents.
Si l'offre se diversifie, elle est loin d'être surabondante. Des raisons humaines, techniques, financières, juridiques peuvent être mises en avant pour expliquer l'avancée relativement lente des opérations.
Avant qu'un document soit visible sur Internet, il a été choisi pour son intérêt particulier ou parce qu'il fait partie d'un corpus, il a été numérisé et il a été indexé. Cela nécessite un ensemble de compétences diverses, qui requièrent un personnel diversifié, formé et suffisamment nombreux. Cela a un coût, mais numériser à tout va ne sert à rien si les documents reproduits ne sont pas décrits, organisés et donc repérables. L'utilisation d'autres formats comme XML et le recours éventuel pour le traitement des manuscrits et des fonds d'archives à la DTD (document type définition), EAD (encoded archivai description) nécessite une formation et une adaptation à de nouvelles pratiques de travail.
Techniquement, nous avons la capacité de gérer les images isolées grâce à un logiciel de GED performant. En revanche, le traitement des livres entiers est plus difficile. Dans ce domaine, la bibliothèque en est encore au stade de l'expérimentation. L'accès à un collection comportant plusieurs milliers d'ouvrages est complexe et Gallica a produit encore peu d'émules. Dans ce cas, l'aspect financier est évidemment capital car les solutions envisageables sont lourdes.
L'aspect juridique est par essence contraignant et la bibliothèque se contente de respecter les termes de la loi. Elle a privilégié le traitement des documents tombés dans le domaine public par économie et commodité. Lorsque il s'est agi de documents récents, elle a soit reçu l'accord des ayants droit de montrer gratuitement, soit, et c'est le cas le plus fréquent, a renoncé provisoirement à reproduire lorsque les négociations s'annonçaient longues et onéreuses.
Constituer une base de données numérique
Au final, les objectifs initiaux - élargir grâce à Internet le public de chercheurs et de curieux, lui rendre accessible non pas seulement la vitrine de la bibliothèque, mais aussi son magasin, voire son arrière-boutique - sont en train de se concrétiser progressivement.
Créer et diffuser un CD-ROM de documents numérisés -L'exemple du CD-ROM des manuscrits musicaux de Montpellier
par Mirei l le Vial
La première opération de numérisation du fonds de manuscrits musicaux médiévaux de la bibliothèque universitaire de médecine de Montpellier a donné lieu à la conception et à la réalisation d'un CD-ROM couplé à un site Internet.
L'idée principale était de recourir aux nouvelles technologies pour rendre accessible, valoriser, exploiter ce fonds, mais aussi de contribuer à sa conservation.
212 Conduire un projet de numérisation
1. L'ÉTAT DES LIEUX
1.1. Analyse de la situation
1.1.1. Les points positifs
Le fonds a été bien conservé à travers les âges. Il a été presque entièrement reproduit sur microfilm (dans notre atelier), et les manuscrits « vedettes » ont été bien étudiés.
1.1.2. Les points négatifs
Il est en grande partie méconnu, mal signalé, sa mise en valeur actuelle est limitée (édition de cartes postales et de plaquettes) ; il mérite d'être mis à la portée d'un public plus large que celui des seuls chercheurs.
Le fait que ce fonds se trouve dans une bibliothèque universitaire a, sans doute, été bénéfique sous plusieurs aspects : stabilité de la tutelle, personnel obligatoirement professionnel, conscience de son importance nationale. I
Mais il est évident que ce patrimoine, réservoir immense de § sujets de recherche ou de thèses universitaires, dont les manuscrits ® ne représentent qu'une partie, ne peut être considéré aujourd'hui f comme absolument prioritaire parmi les missions de la bibliothè- 1 que universitaire, ni parmi celles de la faculté. Malgré cela, le § fonds patrimonial a bénéficié de toute l'attention des directeurs | successifs : la bibliothèque interuniversitaire (BIU) est dotée d'un s atelier de restauration et d'un atelier photo qui assurent des condi- £ tions de conservation particulièrement favorables. D'autre part, les J, manuscrits sont accessibles et facilement consultables : une salle I
LU
est en effet réservée à cette fin ; elle est dotée d'outils de consulta- t; tion et de reproduction (lecteur-reproducteur de microfilm, scan- g ner) assez performants et en nombre suffisant. J
Créer et diffuser un CD-ROM de documents numérisés
Quant à leur exploitation et leur mise en valeur, beaucoup reste à faire :
- certains manuscrits particulièrement célèbres ont été étudiés, parfois intégralement et nous recevons régulièrement des chercheurs, non seulement de ITRHT (Institut de recherche et d'histoire des textes - Centre national de la recherche scientifique ), mais aussi du monde entier. Cependant, il n'existe aucune étude scientifique globale du fonds ou en tout cas de certains ensembles. Son signalement, dans le tome 1 du Catalogue général des manuscrits des bibliothèques publiques paru en 1849, reste très partiel ;
- une politique systématique de reproduction facilite la consultation et la diffusion dans les milieux scientifiques mais dans la limite des supports traditionnels (microfilm noir et blanc...) ;
- une politique d'édition de cartes postales et de plaquettes a été mise en place. Cependant, le public qu'elle touche reste limité au travers, par exemple, de manifestations locales comme la « Comédie du livre », ou d'expositions au musée Atger1. Faute de moyens, surtout en personnel, il est impossible actuellement d'organiser des expositions, conférences et autres animations qui intéresseraient un large public d'ailleurs toujours très présent dès l'ouverture de la bibliothèque.
1.2. Les facteurs « déclenchants »
Face à cette situation un peu figée, la conjonction de quelques facteurs a décidé du lancement de l'opération :
- l'initiative en revient au directeur en poste (1996-1997), qui avait la volonté de mener une opération d'envergure de valorisation du patrimoine, et tout particulièrement de ce fonds, au moyen des
1. Le musée Atger est géré par la bibliothèque de médecine II rassemble une collection de 1 000 dessins des écoles flamande, italienne et française du XV? et XVIIP siècle.
Conduire un projet de numérisation
nouvelles technologies. Ce projet, considéré comme un modèle de réalisation de la politique interuniversitaire de la bibliothèque, selon l'idée maîtresse qui le sous-tendait, se devait d'être également reconnu comme tel par les autorités universitaires ;
- un environnement favorable avec, à Montpellier, le CINES (Centre informatique national de l'enseignement supérieur), partenaire dès le départ, avec son personnel professionnel et son équipement, et le service informatique de la BIU dont l'aide a été précieuse ;
- la nomination d'un nouveau conservateur affecté au fonds ancien mais sensibilisé à l'informatique.
C'est ainsi que le projet est né, non pas suite à une demande précise du public, mais grâce à l'entière initiative du « producteur » dont le souci était « d'aller au devant du public ».
La première étape d'une telle opération, la définition des objectifs, a abouti tout naturellement au choix du support CD-ROM.
2. LES ENJEUX
2.1. Pour quoi faire ? Les objectifs
• Pour compléter l'étude et le signalement des manuscrits, et en développer la connaissance et la diffusion parmi les scientifiques, il fallait stimuler la recherche et provoquer ces études en proposant de :
- dépasser le stade d'un simple stockage de données, et réaliser non seulement une base d'images ou de données mais enrichir le document par une forte valeur ajoutée. Cet objectif exigeait un travail spécifique et inédit bénéficiant d'un support
Créer et diffuser un CD-ROM de documents numérisés 215
numérique attractif pour l'auteur susceptible de servir de tremplin aux futurs chercheurs ;
- envisager une diffusion internationale ; - considérer cette première action comme le début d'une
mise en valeur systématique du fonds par les nouvelles techniques.
• Pour élargir l'audience de ce patrimoine vers un public autre il fallait :
- concevoir un outil « grand public » et attractif ; - apporter un contenu pédagogique mettant à la portée de
tous, ou presque, des documents généralement inaccessibles et des notions qui ne leur sont pas familières.
Le pari de ce CD-ROM résidait incontestablement dans ce double choix ;
- enfin, contribuer à la conservation en proposant des documents de substitution de grande qualité tout en gardant à l'esprit que le chercheur, un jour ou l'autre aurait accès au manuscrit original. Le résultat de cette numérisation fut donc la première pierre d'un édifice d'archivage et d'exploitation du fonds.
s Cette première définition des objectifs a permis de déte-| rminer les choix techniques et et de définir le contenu.
CO CD CD «a> « | 2.2. Quoi ? Les réponses informatiques n c 0 c
1 Les avantages traditionnellement reconnus à l'informatique | paraissaient particulièrement adaptés et plus spécialement cer-
f tains aspects : J, - la grande capacité de stockage du CD-ROM qui, dans | notre cas, pouvait contenir 522 photos, soit 416 folios extraits de
^ 43 manuscrits, 20 mn de son, 4 mn de vidéo, une dizaine de trans-| criptions musicales, 700 pages de textes soit un échantillon de ^ documents significatif ;
216 Conduire un projet de numérisation
- la priorité accordée à la qualité et à la fiabilité de la reproduction. Les diapositives, reproduisant les manuscrits, ont toutes été numérisées en haute définition (300 dpi, réduits à 72 sur le CD-ROM), le zoom permettant un grossissement de 200 %. Ce choix peut expliquer une présence, en apparence, plus discrète des autres médias (illustration sonore en particulier ) ;
- la facilité d'accès au document soit par un index, soit par une recherche croisée par critères ou par mots-clés prédéfinis, ou encore directement à partir des vignettes signalant chaque manuscrit ;
- la possibilités de navigation : liens hypertextes, affichages simultanés de plusieurs documents... ;
- les outils de travail : déchargement, impression, tris, signets etc...
Nous supposions que ces aspects séduiraient de préférence, mais pas exclusivement, les chercheurs.
Le deuxième volet de notre projet concernait l'élaboration d'un produit culturel à l'intention d'un public plus diversifié. Cette nouvelle approche avait pour objectif de faciliter l'accès à un savoir difficilement accessible. s
-CD
Une fois de plus, les nouvelles technologies permettaient de | réunir un contenu inédit et attractif (images, textes à vocation sg pédagogique, glossaire etc), agrémenté des attraits du multimé- f dia (son, vidéo, interactivité), à un outil de connaissance perfor- | mant par la quantité de ses liens hypertextes : l'acquisition de ces | connaissances s'apparentait à une promenade ludique. L'ergono- | mie des outils de travail se devait d'être adaptée pour une grande | facilité d'utilisation. ^
Pour favoriser une large diffusion, les possibilités de l'auto- ^ matisation nous ont, de nouveau, offert les moyens appropriés : J mise en place d'une version anglaise intégrale, développement ^ d'une base de données accessible sur l'Internet par connexion | automatique à partir du CD-ROM. Malheureusement la version J
Créer et diffuser un CD-ROM de documents numérisés 217
pour ordinateur Macintosh n'a pu être réalisée pour des raisons à la fois financières et de complexité.
2.3. Quoi ? La matière
Nous avons la chance de posséder deux manuscrits, particulièrement précieux, et entièrement consacrés à la musique :
- le Tonaire dit de Saint-Bénigne de Dijon (recueil de pièces destinées à l'enseignement du chantre) du XIe siècle (coté H 159) : il comprend une double notation alphabétique et neuma-tique d'un très grand intérêt musicologique ;
- le Chansonnier dit de Montpellier (recueil de motets) : témoin unique des débuts de la polyphonie avec des enluminures particulièrement belles, de la fin du XIIIe siècle (coté H 196).
Mais notre fonds comprend également de nombreux fragments de musique dispersés dans quelque vingt-sept autres manuscrits dont certains tout aussi précieux et illustrés.
Nous disposions également d'un ensemble cohérent, exhaustif dans le domaine musical, précieux, intéressant à plu-
1 sieurs titres et d'une taille gérable. c \ ^ A ce corpus s'est ajouté en cours de réalisation, toute une | série d'enluminures datant principalement des XIII et XIVe siè-| des et représentant des instruments de musique qui complètent | les illustrations de façon attrayante.
c 2 Q. O O 0 t 2.4. Pour qui ?
CB _l 1 n s Compte tenu de ce choix et des objectifs prédéfinis, nous
avons pu cerner les différents publics visés : | - « côté scientifique » : chercheurs, musicologues, histo-^ riens, linguistes, paléographes, musiciens interprètes... ;
218 Conduire un projet de numérisation
- « côté amateur » : la mode du Moyen-Âge est toujours d'actualité, nous avons donc pensé à tous les amateurs de cette période, ainsi qu'à ceux de musique et d'art, aux élèves et aux étudiants de conservatoire ou d'histoire de l'art...
3. LA RÉALISATION
3.1. Les atouts
L'accueil très favorable et enthousiaste des différents partenaires aussi bien institutionnels que privés, mais aussi à la volonté du directeur en poste et de ses successeurs ont rendu possible la réalisation de notre entreprise.. L'opération a bénéficié des conditions favorables propres à l'environnement universitaire de Montpellier et du potentiel professionnel et administratif de la bibliothèque interuniversitaire.
3.2. Comment
3.2.1. L'équipe
Première étape d'importance : la constitution d'une équipe à la fois scientifique et technique.
- Après les inévitables tâtonnements de départ, le CINES, qui héberge gratuitement notre site, s'est chargé de la constitution de la base de données accessible sur l'Internet. Cette base sert également de modèle conceptuel au CD-ROM.
- le SUFCO (service de la formation continue de l'université Montpellier III) comprend un cursus de formation de concepteur multimédia. Son directeur fut notre conseiller et a permis le
Créer et diffuser un CD-ROM de documents numérisés 219
recrutement du concepteur multimédia, personnage absolument indispensable.
- l'atelier photographique de la BIU a assuré toutes les prises de vues.
- ITRHT a numérisé toutes les photos dans le cadre d'une convention.
- une équipe d'experts a été recrutée dans la mesure du possible à l'Université de Montpellier autour du directeur du département de musicologie, mais elle comprenait aussi un professeur de musicologie médiévale de l'École des hautes études, un musicologue-paléographe de ITRHT, et un professeur de l'université du Kentucky spécialiste du Chansonnier.
- c'est une société de la région, Kawenga, qui a été choisie pour réaliser le logiciel, le graphisme et tout le développement informatique.
3.2.2. Le budget
Le budget prévisionnel établi dès la première étude s'élevait à 580 000 F (88 400 €) pour la réalisation proprement dite. De
I nombreux autres postes de dépense tels que les déplacements et § le matériel de diffusion, étaient exclus de ce budget. Des supplé-| ments imprévus (par exemple la perte d'un cd d'images qu'il a
§ fallu refaire et financer de nouveau) ont un peu perturbé les pré-| visions.
I La seule recette assurée fut l'attribution pendant deux ans | de la subvention affectée au patrimoine (reçue par la BIU et nor-| malement partagée entre les différentes bibliothèques universi-
Ij- taires). j. Plusieurs choix de départ ont été abandonnés, c 'est ainsi que I la direction n'a pas sollicité les collectivités territoriales. La ^ faculté de médecine n'a pu, pour sa part, nous aider financière-| ment même si elle a participé différemment au projet. Nous ^ n'étions pas en mesure de préparer un dossier dans le cadre de la
Conduire un projet de numérisation
Communauté européenne, pourtant, la chasse aux subventions a été relativement fructueuse auprès d'institutions locales : la direction régionale des affaires culturelles Languedoc-Rous-sillon et le pôle universitaire européen de Montpellier ont chacun apporté une contribution.
La gratuité pour notre établissement des prestations du CINES, de l'IRHT et de l'ingénieur du son, supportées par le ministère, a eu évidemment une incidence très bénéfique sur notre budget. D'autre part, tous les partenaires et tous les auteurs ont accepté des rémunérations quelquefois très modestes, bien souvent inférieures à la valeur véritable de leur contribution.
La recherche de sponsors privés n'a pas abouti ; ce domaine est semble-t-il réservé aux professionnels et nous avons prospecté par nous-mêmes. Seul l'ensemble Gilles Binchois qui a enregistré la partie sonore, régulièrement sponsorisé par la Fondation France Télécom, nous a fait bénéficier à ce titre d'une aide modique.
De fait, malgré quelques difficultés, on peut considérer que la bibliothèque a financé en grande partie le projet et qu'en cela elle a rempli sa mission, même si l'on pouvait espérer susciter un plus grand intérêt d'autres investisseurs.
3.2.3. Les étapes techniques
3.2.3.1. Les études préalables
La configuration très générale du produit établie par nos soins a d'abord donné lieu à un synopsis : le contenu ( c'est-à-dire documents, notices bibliographiques et scientifiques, son...) et les fonctionnalités (c'est-à-dire les accès, la navigation, les outils, les options techniques). À partir de ce document, rédigé avec le concepteur, une liste des ressources nécessaires et de la taille approximative des fichiers a pu être dressée. Les manuscrits, en particulier les manuscrits musicaux, sont des
Créer et diffuser un CD-ROM de documents numérisés 221
documents complexes ; musique, image et texte sont inextricablement liés et le traitement en interactivité est difficile à élaborer. Une connaissance trop imparfaite des manuscrits choisis a généré des difficultés d'exploitation jusqu'à la réalisation finale. Parallèlement il a fallu définir les coûts, s'intéresser aux droits éventuels à acquérir, enfin prêter une attention particulière aux fonctionnalités. Tous ces éléments ont été rassemblés dans un dossier de pré-production assorti d'une étude de faisabilité très détaillée. Cette étude incluait un premier échéancier, un premier budget, et la préfiguration de l'équipe.
3.2.3.2. Cahier des charges
Avec la rédaction du cahier des charges et la réalisation de la maquette sur papier, le CD-ROM a pris forme. Chaque écran fut conçu et présenté intégralement. Nous avons eu la chance de travailler avec un concepteur particulièrement à l'écoute de nos attentes. L'entente entre le concepteur multimédia et le chef de projet est certainement primordiale pour mener à bien la réalisation. Les va-et-vient entre les contraintes inhérentes aux choix et aux documents et les contraintes techniques, ergonomiques ou également
1 esthétiques, sont incessants : la compréhension mutuelle de ces | deux aspects est indispensable. Le schéma conceptuel de la base de | données avait été défini par les concepteurs et les ingénieurs infor-! maticiens. Il a donc fallu acquérir une compétence et un vocabu-
™ laire beaucoup plus fins, sous peine de malentendus et | d'incompréhension avec les techniciens. Le choix d'une base uni-| que pour CD-ROM et site Internet a engendré quelques difficultés, 1 dans la mesure où de nombreuses modifications ont dû intervenir Q. 5 en cours de réalisation en raison des spécificités du CD-ROM. .g co co •S 3.2.3.3. Collecte des données ©
| Réunir tous les textes en temps voulu tenait de la gageure. ^ Les universitaires ayant accepté de travailler pour nous avaient
Conduire un projet de numérisation
évidemment de nombreux autres projets en cours. Ils n'avaient, en outre, aucune expérience en matière de CD-ROM et les textes produits représentaient une véritable étude scientifique. Mais la matière exploitable était très - trop - abondante. Le travail d'adaptation formelle des textes a été une étape très longue et totalement insoupçonnée au départ. Le transfert sur un support informatique unifié a été aussi un point non négligeable. Le développement a d'ailleurs été entrepris bien avant que toutes les données ne soient réunies ce qui a généré, a posteriori, certains problèmes.
3.2.3.4. Développement
Le choix du prestataire : une première consultation avait retenu trois sociétés locales. Les coûts estimés ne dépassaient pas le seuil du marché et cela a simplifié les démarches administratives comptables. La société choisie (Kawenga) a également proposé les services du directeur artistique qui a conçu, toujours en collaboration avec le concepteur et l'équipe de la bibliothèque, tout l'habillage esthétique des écrans. Le développement multimédia a abouti à une version dite « alpha » qui a été validée (comme d'ailleurs chaque étape) par toute l'équipe.
3.2.3.5. Validations - Corrections
C'est la phase la plus longue et la plus « gourmande » en temps. Tout d'abord tests et débogages se succèdent dans des allers-retours de fichiers qui mettent à l'épreuve les débits de communication. Nous avons mobilisé une équipe de testeurs volontaires au sein de la BIU. Une gestion très stricte des fichiers est alors indispensable : ne pas mélanger les différentes versions demande une grande rigueur et un poste informatique performant. L'idéal aurait été d'avoir un poste ou, au moins, un disque dur, entièrement dédié à la conception : ce ne fut pas le cas et certaines erreurs gravées dans la version définitive en sont la conséquence.
Créer et diffuser un CD-ROM de documents numérisés 223
En « fin de parcours » une certaine lassitude nous a fait abandonner certaines de nos exigences initiales.
Deuxième grande difficulté : le traitement de la version anglaise ; si la traduction a bien été faite par un « native speaker », faute de temps nous l'avons corrigée nous-mêmes. Cette relecture a reposé sur une seule personne anglophone particulièrement précieuse.
3.2.3.6. Tirage et mise sur le marché
La dernière étape technique concerne la gravure définitive et le tirage. Un grand nombre de détails sont alors à régler : conception de la jaquette, choix de la société de pressage, attribution d'un ISBN etc. Le tirage a été fixé à 1000 exemplaires et le prix de vente au public à 60,21 €, bien que peu élevé en regard de l'abondance du contenu et des nombreuses fonctionnalités d'aucuns pourtant l'estiment onéreux (au début de notre projet et pour des réalisations analogues le prix le moins élevé avoisinait 76 €).
3.2.3.7. Diffusion et publicité
Là encore, nous avions décidé de tout faire par nous-mêmes. Bien avant la sortie du produit, il a fallu concevoir un matériel de présentation publicitaire et faire circuler l'information. La même équipe de concepteurs a également fourni les maquettes afin de garder une parfaite cohérence avec l'esprit et la lettre du CD-ROM. Ce travail fut nécessaire pour répertorier les organismes et les établissements. Cette tâche est aujourd'hui, loin d'être terminée, nous n'avons pas pour l'instant exploité les possibilités d'Internet et la diffusion à l'étranger n'a toujours pas débuté. De très nombreuses présentations ont été faites en milieu professionnel ou devant un public plus large, à des stades divers de la réalisation.
224 Conduire un projet de numérisation
L'idée de lancer le produit de façon un plus spectaculaire (concerts, expositions...) a été rapidement abandonnée faute de moyens humains et financiers. La présentation officielle faite, pour des raisons internes, huit mois avant la sortie effective du disque, a sans doute eu un mauvais effet d'annonce.
La presse locale, professionnelle ou spécialisée a réagi positivement et a fait état de notre réalisation, à l'inverse la presse nationale ne s'est pas manifestée. Nous avons pu dégager un petit budget pour l'insertion de publicités payantes.
Cette question de la diffusion fait partie des points ardus que nous n'avons pas su gérer correctement, malgré tous nos efforts.
3.3. Les difficultés
La gestation de « Cantor et musicus » a pris trois ans. Le projet a véritablement démarré en décembre 1996 et le disque est arrivé à la bibliothèque en janvier 2000. Il n'a pas été possible de respecter les échéances.
La collecte de toutes les ressources fut la principale difficulté. La dispersion et les différences de rythme de travail ont souvent été préjudiciables à une avancée souple et linéaire des étapes.
L'équipe scientifique était, malgré un noyau montpelliérain, assez dispersée et l'équipement informatique peu harmonisé c'est ainsi qu'il a fallu parfois ressaisir des textes. La numérisation des photos s'est finalement avérée l'opération la plus performante en termes de délais malgré la perte malencontreuse d'un CD de six cents photos !
Du fait de la complexité de ce projet nous avons rencontré de nombreux obstacles au fur et à mesure de son avancement. La découverte de tâches absolument inédites, comme la saisie des hyperliens, et donc mal estimées a exigé une certaine adaptation et des délais très importants.
Créer et diffuser un CD-ROM de documents numérisés
La disponibilité du chef de projet, dans ce type de programme, doit être totale car la cohérence du projet, surtout dans sa phase finale, repose entièrement sur lui et il est très difficile de déléguer, certaines tâches demandent en effet une connaissance globale et détaillée des contenus.
Les rapports avec les professionnels de l'informatique n'ont pas présenté de difficultés majeures. En particulier le travail avec la conceptrice a été très agréable et enrichissant. Cependant les impératifs de la société de développement sont quelquefois difficiles à saisir ou entrent en contradiction avec les impératifs administratifs. Le dialogue avec les informaticiens « purs et durs » n'est pas toujours simple mais des efforts méritants des deux côtés ont eu raison des obstacles.
Enfin, la diffusion aurait exigé une sous-traitance professionnelle. Nous n'avions pas vraiment les moyens de l'assurer efficacement nous-mêmes.
4. LE CD-ROM
Le CD-ROM est composé de quatre modules :
La bibliothèque
La carte de visite incontournable avec les services de la BIU, une visite guidée des lieux avec un diaporama animé, l'historique de la faculté de médecine, de la bibliothèque et de son fonds, une galerie de portraits.
Le corpus des folios choisis
Musique et enluminures.
226 Conduire un projet de numérisation
Trois accès sont possibles : - selon le principe de l'encyclopédie : on explore selon son
bon plaisir en prenant les nombreux embranchements possibles ; - par l'index des folios ; - par une recherche documentaire classique par critères pré
définis (genre musical, type de notation, lettre ornée, scène historiée...) ou mots-clés.
Pour chacun des 43 manuscrits existent : - un en-tête qui le définit rapidement ; - une notice descriptive détaillée ; - une étude scientifique musicologique et/ou iconographique. Dix pièces musicales ont fait l'objet d'un enregistrement spé
cialement pour le CD-ROM et selon les directives des experts. Ces mêmes pièces ont été transcrites en notation musicale
moderne. Les folios sont tous présentés en pleine page et certaines
enluminures ont fait l'objet d'une prise de vue spéciale : l'affichage par défaut se fait sur 1/2 écran.
Les fonctionnalités informatiques sont accessibles à tout moment.
La musique au fil des siècles
Module pédagogique, c'est une véritable histoire de la musique occidentale, des origines au XVe siècle, avec illustrations sonores et images du corpus ou d'autres documents pour compléter l'information, des repères historiques, dans une double présentation chronologique et thématique.
Les instruments de musique
L'approche peut être la même que précédemment ou directe par le choix d'un instrument. Un extrait vidéo présente des instruments reconstitués et joués.
Créer et diffuser un CD-ROM de documents numérisés 227
Sur Internet
En sus des photos présentes sur le CD-ROM, l'intégralité des deux manuscrits vedettes (160 et 398 ff) sera accessible par les mêmes clés de recherche.
5. BILAN
Au-delà de qualités incontestées (reproductions, confort, esthétique...), le produit répond-il aux objectifs fixés? Sous réserve d'inventaire, bien sûr, nous avons déjà quelques réactions du public.
5.1. Un outil de signalement et de référence
Le CD-ROM malgré quelques erreurs scientifiques, du fait des auteurs ou du fait du développement, présente bien un état de la recherche principalement sur le contenu des manuscrits conce-
1 més. Certains chercheurs, venus nous rendre visite depuis, ont pu ® y repérer des manuscrits qui les intéressaient. 0 •8 Les photos numérisées archivées doivent être versées au | corpus de la base iconographique de l'IRHT.
co | Le développement du site Internet est stoppé mais les ima-
i. ges complémentaires sont prêtes. L'outil existe, il demande 1 encore de nombreuses améliorations. j2 „ Un critique spécialisé (cf. « Le Médiéviste et l'ordinateur » j, n° 39-2000) a pu écrire que « le champ couvert par ce CD-ROM 1 [était] impressionnant ». C'est sans doute sa grande faiblesse : à ^ trop vouloir embrasser, on court le risque de devenir fastidieux et 1 incomplet. Nous avons voulu conserver la totalité des textes pro-^ duits par les scientifiques et la configuration de l'écran CD-ROM
Conduire un projet de numérisation
ne permet pas une lecture confortable de textes aussi longs et aussi denses.
La complexité de l'architecture informatique a de même entraîné un certain nombre d'erreurs : l'en-tête d'un manuscrit est mis à la place d'un autre, des fonctions prévues ne fonctionnent pas, des folios sont mélangés etc. Le principal reproche des chercheurs est de ne pouvoir trouver que des extraits : les choix initiaux justifient ce parti pris et la multiplication des bases accessibles via Internet résoudra cette question.
5.2. Le pari pédagogique
Dans la mesure où les manuscrits deviennent effectivement accessibles avec certaines clés suffisantes sinon pour les lire et les maîtriser, du moins pour mieux les appréhender, on peut dire que l'approche est réussie. La partie « Instruments » est certainement celle qui retient le plus le public : le nombre d'enfants qui, lors de la « Comédie du livre » en 1999, sont restés fascinés devant les écrans peut témoigner de l'attrait de ce média.
Cependant, le défi envers le grand public n'est pas vraiment relevé dans la partie « La musique au fil des siècles » qui est encore trop savante et parfois mal adaptée.
Nous sommes conscients des insuffisances de la version anglaise qui n'a pu être revue par des spécialistes.
Pour finir l'absence de livret et la jaquette un peu triste (par manque de moyens) ne rendent pas complètement justice au contenu.
Créer et diffuser un CD-ROM de documents numérisés
CONCLUSION
D'ores et déjà nous formons un deuxième projet sur les manuscrits médicaux qui voudrait suivre les mêmes principes de base. Forts de notre expérience, nous allons essayer de cerner au plus près la sélection du fonds et simplifier la forme.
On peut s'interroger sur le rôle du bibliothécaire pour ce type particulier d'activité. À l'évidence, nous avons été très ambitieux et le projet a pris une ampleur au fur et à mesure de son évolution interne, qui nous a quelque peu dépassés. Cependant, le bibliothécaire est semble-t-il la personne la mieux placée pour avoir une vision globale à la fois de son patrimoine, de son public et des possibilités technologiques adaptées.
Dans ce projet, les bibliothécaires ont été les initiateurs, les concepteurs et les coordinateurs d'une équipe, autrement dit les maîtres d'œuvre. Ils se sont appuyés sur la communauté universitaire et sur la compétence professionnelle de spécialistes en matière de nouvelles technologies afin de mettre en valeur et de transmettre dans de bonnes conditions un savoir et un patrimoine très riches. Être l'interface entre le savoir et le public relève bien du rôle du bibliothécaire.
Intégrer les documents numérisés dans un catalogue
par Marie-Pierre Dion
Le catalogue est la principale clef d'accès aux collections et il est tentant d'y intégrer un accès aux documents numérisés par la bibliothèque pour simplifier le parcours du lecteur qui accédera ainsi directement de la notice catalographique au document.
Cette approche semble « la plus naturelle pour un bibliothécaire »' et elle correspond à des souhaits fréquemment formulés par les lecteurs. Le catalogue apparaît aussi comme une solution « raisonnable » dans la période d'évolution rapide que nous connaissons : à l'heure où les progrès techniques offrent aux bibliothèques des possibilités considérables de mise en valeur et d'exploitation de leurs collections mais où la connaissance que l'on a de celles-ci s'avère souvent insuffisante, il importe d'améliorer le signalement des documents et de les rendre plus accessibles. La normalisation du catalogue est une garantie pour la
1. Thierry Samain, « Du catalogue enrichi au métacatalogue », Bulletin des bibliothèques de France, t. 46, n0 2 (2001), p. 82.
232 Conduire un projet de numérisation
diffusion à distance des données ; elle favorise la standardisation des données numériques associées et leur utilisation future via des outils plus sophistiqués
Il importe, si l'on veut encourager non seulement l'usage du catalogue et des collections mais aussi l'utilisation rationnelle des fonds numériques, de bien cerner le rôle du catalogue, de mesurer ses potentialités et ses limites, d'être attentif à l'évolution générale des accès aux ressources électroniques.
1. LE CHOIX DU CATALOGUE
Divers facteurs contribuent à privilégier l'accès aux données numériques via le catalogue : la difficulté pour les bibliothèques d'acquérir ou de développer des applications spécifiques distinctes du catalogue - pour la gestion des images par exemple -, et de manière plus positive, l'élaboration de normes de description des documents iconographiques ou des ressources numériques, et la facilité qu'ont désormais les OPAC de basculer de la notice au document. Malgré les difficultés pratiques liées à ^ l'écran unique pour plusieurs types d'applications au sein de la f bibliothèque, la cohérence du système d'information plaide pour | l'intégration de l'offre documentaire. |
Apparemment « économique », l'utilisation du catalogue f comme voie d'accès aux données numérisées par la bibliothèque | est en réalité un choix assez coûteux. Il va sans dire que le travail I catalographique déjà effectué ne dispensera pas d'un deuxième | travail de description, celui des données numérisées et associées f aux notices. I1
.Q
Un « catalogue enrichi » suppose la mise en place de ser- I veurs spécifiques, la capacité du client catalogue à gérer les liens t. entre les notices et les différents types d'informations qu'on y | associe, sans oublier la conception d'interfaces rendant l'accès ^
Intégrer les documents numérisés dans un catalogue
immédiat, transparent et facile pour le public. Les bornes catalo-graphiques étant souvent dispersées au sein d'un établissement, l'utilisation du catalogue comme voie d'accès à des images fixes ou animées de qualité impose de disposer d'un réseau capable de véhiculer rapidement les données.
Un « catalogue enrichi » implique aussi une certaine pérennisation de la numérisation au sein de la bibliothèque, l'enrichissement des notices pouvant être envisagé comme une tâche non limitée dans le temps, à l'image de l'alimentation en continu du catalogue. Cela suppose soit un atelier de numérisation sur place et du personnel compétent, soit un budget de fonctionnement permettant d'enrichir régulièrement le catalogue par des « trains » de numérisation.
L'utilisation du catalogue comme voie d'accès aux documents numérisés entraîne aussi pour la bibliothèque des obligations de services, notamment en matière de fourniture d'impressions et de possibilités de déchargement. Elle nécessite enfin au sein même de la bibliothèque des postes plus nombreux, étudiés pour un temps de travail long et non plus seulement de consultation rapide.
Dans un environnement documentaire mouvant, le choix du catalogue comme voie d'accès aux données numériques apparaît comme un moyen de préserver un accès centralisé à des données hétérogènes. L'évolution des structures d'échange (norme Z39.50), celle des standards de description des données (XML, Dublin Core) introduisent cependant de nouvelles perspectives : la gestion décentralisée de données de types différents est désormais compatible avec un portail d'accès unique grâce à des moteurs de recherche capables de fédérer les catalogues et les bases de données1.
Il importe donc de choisir avec discernement l'option du « catalogue enrichi ». Les documents que l'on a numérisés se
1. Thierry Samain, « Du catalogue enrichi au métacatalogue », art. cité, p. 82-86.
234 Conduire un projet de numérisation
suffisent-ils à eux-mêmes ou ne gagnent-ils pas à s'insérer dans un ensemble plus large ? Un accès plus élaboré ou mieux guidé que celui du catalogue ne serait-t-il pas mieux adapté aux usages scientifiques ou pédagogiques que l'on espère ? Des partenariats avec d'autres institutions peuvent-ils permettre d'offrir un corpus plus important et cohérent, dépassant le cadre du catalogue ? La nature des documents, l'originalité d'un fonds, la cohérence du thème traité, sans oublier la taille d'une collection, peuvent inciter à privilégier des outils dédiés.
Catalogue enrichi et bases de données spécialisées ne sont, il est vrai, pas incompatibles dans le cas d'unités bibliographiques bien délimitées. Une même image numérisée peut être reliée à une notice catalographique, pour un accès généraliste rapide, et être intégrée à une base de données, dans le cadre d'une recherche plus spécifique. La logique d'identification et d'accès rapide dont procède le catalogue incite à attendre du « catalogue enrichi » certains avantages que l'on pourra étayer par divers moyens.
Le « catalogue enrichi » peut offrir : - une valorisation des collections et une aide à la recherche,
lorsqu'il est illustré d'éléments susceptibles de favoriser le choix du lecteur (résumés, tables des matières, extraits sonores ou audiovisuels représentatifs...). Des projets de numérisation en mode image peuvent inclure un traitement OCR brut ou corrigé pour enrichir la recherche grâce aux tables des matières. Dans le cas des documents anciens, le catalogue peut être enrichi d'images pour faciliter l'identification bibliographique (page de titre, début et fin du texte, marque d'imprimeur, échantillons de matériels typographiques, gravures, etc.) et l'appréhension des particularités de l'exemplaire (reliure, ex-libris, annotations, etc.). L'on reste ici dans la pure logique du catalogue et l'on favorise la réalisation de produits documentaires attractifs (bibliographies, listes de nouveautés, dossiers documentaires illustrés...).
Intégrer les documents numérisés dans un catalogue 235
- un mode d'accès centralisé et rapide au contenu de documents déjà identifiés par les lecteurs, surtout lorsque l'environnement documentaire de la bibliothèque est favorable (l'accès au document est proposé en même temps que les références des études, éditions, traductions le concernant). Cet accès sera d'autant plus large que le catalogue sera normalisé, accessible sur les réseaux, capable d'échanges et de participation à des grands catalogues collectifs ;
- un mode d'accès rapide à des documents numérisés de manière ponctuelle mais néanmoins offerts à la communauté des lecteurs (les acquisitions patrimoniales récentes, les documents restaurés, les ensembles d'images photographiées à l'occasion d'une exposition ou à la demande d'un lecteur...). L'on doit alors éviter de rédiger des notices de description bibliographique trop « courtes » et pouvoir générer des listes de « nouvelles acquisitions numériques » pour susciter la curiosité.
- une solution d'attente avant que la masse des éléments numérisés atteigne le seuil qui permette d'en organiser, si nécessaire, l'accès autrement. La numérisation doit en effet être l'occasion d'affiner la connaissance que l'on a des fonds et de chercher
m des partenariats avec le monde scientifique. Le catalogue sera | alors d'autant plus efficace que les recherches pourront être | menées sur des sous-ensembles précis (fonds, provenances, sup-| ports particuliers...). | Dans tous les cas, l'attention des lecteurs devra être attirée
g sur l'intérêt des gisements documentaires accessibles, grâce à des 5 actions de valorisation et grâce à des pages web de présentation | étoffée des collections et des programmes de numérisation. 0
.c Q. ca _[ 1 n V) w c LU
ÇD (/) O > to
©
236 Conduire un projet de numérisation
2. L'ENRICHISSEMENT DU CATALOGUE
2.1. Le choix des corpus
En fonction des objectifs de la politique documentaire, il importe de définir de grands axes de numérisation. Des documents seront systématiquement numérisés à leur entrée dans la bibliothèque, d'autres ne le seront que partiellement, d'autres enfin devront être traités rétrospectivement en priorité, selon le programme le plus précis possible. Une chaîne de traitement performante doit dès lors être mise en place pour que l'enrichissement du catalogue franchisse rapidement le seuil de l'illustration anecdotique et permette l'accès à un ensemble pertinent de ressources1.
Que la numérisation soit réalisée en local ou à l'extérieur, elle a l'inconvénient d'immobiliser les documents pendant un laps de temps non négligeable et d'être coûteuse.
L'on veillera donc à ne pas numériser ce qui l'a déjà été par des éditeurs ou d'autres bibliothèques et vers lequel des liens m
hypertexte pourront pointer avantageusement. Dans le cas des f documents anciens, les liens d'une notice avec des éléments a d'information externes (lien hypertexte vers un fac-similé, une | édition numérique) doivent, grâce à l'interface, pouvoir être bien | distingués des données internes qui sont propres à l'exemplaire g décrit et qui doivent en quelque sorte faire corps avec la notice $ (affichage simultané). §
o L'idéal serait, pour tout ce qui touche aux documents contem- f
porains, une intégration directe des données à la notice par récupé- T1
ration auprès des fournisseurs de données bibliographiques, comme | LU
çj) 1. Voir « La gestion d'un projet de numérisation » dans Alain Jacquesson et Alexis Rivier, Bibliothè- « ques et documents numériques . concepts, composantes, techniques et enjeux. Paris, Éditions du Cer- > cle de la Librairie, 1999, p. 191 et sv. ^
Intégrer les documents numérisés dans un catalogue 237
c'est déjà le cas pour les résumés. Cette possibilité fait l'objet de réflexions et travaux de la part des bibliothécaires, des fournisseurs de logiciels de bibliothèques et des fournisseurs de données, de manière à mettre en place dans un avenir que l'on espère proche des outils et concepts communs à toute la chaîne de l'information numérique1.
Pour ce qui est des documents anciens, en attendant la mise en place d'une véritable « numérisation partagée », il est prudent de commencer par ne reproduire intégralement que les documents uniques, rares ou spécifiques, qui sont d'ailleurs souvent les plus fragiles et les plus demandés à l'intérieur comme à l'extérieur de la bibliothèque.
En fonction du corpus privilégié et des objectifs visés, s'imposeront le choix des unités de description bibliographique (une image ou un lot d'images...), celui des formats et tailles des documents numériques et surtout celui de la numérisation intégrale ou partielle.
La numérisation complète des œuvres n'est le plus souvent pas possible pour des raisons touchant aux droits des auteurs et une extrême prudence s'impose quant à l'exercice du droit de citation
« des documents protégés. L'application de celui-ci peut être diffî-f cile lorsque les couvertures des livres ou les pochettes des disques | comportent des photographies ou des images. Un avertissement | systématique sur les écrans à l'intention du public peut rappeler les | limites et conditions d'utilisation des données : la finalité des
g extraits de documents contemporains étant d'aider les personnes $ consultant le catalogue à se reporter, leur choix fait, à l'intégralité § de l'œuvre mise à leur disposition sur un autre support, ils entrent t dans l'exception de citation licite, gratuite et non soumise à autori-^ sation des ayants droit. Les œuvres, leur date, leurs auteurs et prin-| cipaux interprètes, ainsi que le nom de l'éditeur ou du producteur,
m S w •> I. Voir l'état de la réflexion dans : http.//www.abf.asso.fr/enrichi/. Dominique Lahary présente le site
web Enrichi dans le Bulletin des bibliothèques de France, t. 46, n0 2 (2001 ), p. 85.
238 Conduire un projet de numérisation
doivent pouvoir être clairement identifiés sur l'écran où apparaît l'extrait. Les systèmes informatiques doivent pouvoir facilement produire la preuve de ce que la banque constituée ne dépasse pas, pour chaque œuvre, les limites d'une courte citation. La protection de la propriété intellectuelle et les missions du service public peuvent ainsi être assurées de manière conjointe et harmonieuse.
2.2. La description des données numérisées
Dans le cadre d'un « catalogue enrichi » comme dans les autres contextes, l'organisation rationnelle par dossiers, la dénomination normalisée des fichiers1, la description et l'indexation les plus précises possible des données numérisées constituent la meilleure garantie d'utilisation multiple et à long terme.
Parallèlement au catalogue de la bibliothèque, les informations relatives aux données numérisées forment aujourd'hui le plus souvent un système de métadonnées de catalogage (auteur, titre...), de gestion (date de numérisation, taille et résolution de l'image...) et d'utilisation (conditions d'accès...).
Dans le cas le plus simple, celui d'un lien unique et exclusif 1 entre une notice et un extrait numérisé - une table des matières par S e x e m p l e - , l a d é n o m i n a t i o n n o r m a l i s é e d u f i c h i e r n u m é r i q u e J (incluant la cote du document) et une légende succincte qui sera « § cliquable » seront suffisants. Une typologie précise devra être res- ™ pectée (« Table des matières », « Quatrième de couverture »...) = q.
Lorsque le lien d'une notice catalographique à un fichier § numérique n'est pas exclusif (une image peut être accessible en f dehors du catalogue), les données descriptives seront plus étof- ^ fées. Elles permettront l'affichage de légendes que l'on aura soin | de présenter selon la norme Afnor IF. 1992, pour une mise en S
œ w 1. Gaelle Becquet et Laure Cédelle, « Numérisation et patrimoine documentaire », Bulletin des > bibliothèques de France, t. 45, n0 4 (2000), p 69-70. ^
Intégrer les documents numérisés dans un catalogue
contexte permanente de l'image sur l'écran et une utilisation en dehors du catalogue.
Pour bien rendre compte de la singularité du document, il est parfois nécessaire de proposer des angles de vision différents (recto et verso d'une image portant des mentions imprimées ou des annotations manuscrites, page simple et double page...). On en arrive rapidement à relier plusieurs fichiers à une notice, avec les contraintes de légendes que cela implique.
Le logiciel qui gère les liens entre le catalogue et les éléments numérisés doit être capable d'ordonner ces éléments selon l'ordre du livre ou de la collection numérisée (succession de pages ou de cotes) ou selon un ordre de vision logique (recto / verso, plan général / détail...). À partir d'une liste de pages ou de numéros d'ordre, accompagnés d'une courte légende et d'ima-gettes, on accédera alors à la page ou à l'image, avec plusieurs niveaux de zoom. La notice catalographique offrira la description de l'ensemble et les légendes des éléments numérisés proposeront des éléments complémentaires. Il importe donc de pouvoir interroger non seulement le catalogue mais aussi les données sur les éléments numériques.
Les bibliothèques numérisent paradoxalement plutôt des documents anciens dont la singularité rend difficile la structuration et l'application de normes : documents uniques (manuscrits) ou séries n'ayant d'intérêt que par le rapprochement des documents qu'elles rassemblent (collection d'étiquettes, dossier constitué sur un personnage...). Dans certains cas le feuilletage rapide d'une liste, bien adapté aux images, pourra apparaître trop fastidieux. L'on pourra alors créer un instrument de recherche intermédiaire entre la notice catalographique et les différents fichiers numériques. Cet instrument peut être une base de données locales ou un document structuré en SGML, HTML ou XML qui donnera accès aux documents grâce à des liens hypermédias. Le catalogue jouera ici un rôle fédérateur des différents outils élaborés par la bibliothèque.
240 Conduire un projet de numérisation
2.3. L'évaluation des usages
Faciliter l'accès à certaines collections, diminuer la communication d'originaux fragiles, démultiplier les possibilités de consultation à l'intérieur et à l'extérieur de la bibliothèque, promouvoir l'utilisation de ressources inédites ou sous-exploitées... nombre d'objectifs du « catalogue enrichi » ne sont mesurables qu'à moyen ou long terme.
Il n'est cependant pas nécessaire d'attendre que le pourcentage des notices enrichies soit important pour s'interroger. Dans une période transitoire où l'offre anticipe sur la demande, où les techniques et les pratiques évoluent sans cesse, le « catalogue enrichi » doit faire l'objet d'une véritable « veille » afin de mieux prendre en compte les besoins exprimés ou latents des usagers.
Les enquêtes auprès des usagers peuvent permettre d'apporter les correctifs immédiats indispensables : la richesse du catalogue est-elle connue, l'accès jusqu'au document est-il facile, le temps d'affichage est-il rapide, la lisibilité et la netteté des reproductions sont-elles convenables comparées aux originaux, la présentation des pages écrans est-elle claire, le déchargement et l'impression sont-ils commodes... ? g
Il est aussi nécessaire de pouvoir obtenir des statistiques § fines de consultation. Le nombre de consultations de notices enri- 1 chies, le nombre de déchargements et d'impressions demandés, § l'utilisation des liens vers les ressources extérieures, l'origine des g usagers, les types d ' utilisation sont autant de précieux indicateurs. |
Désormais ouverte à des informations extérieures offrant | des mises en perspectives infinies, la bibliothèque doit plus que J jamais se distinguer au sein des nouveaux espaces information- ^ nels volatiles et incertains par ce souci de mise en ordre, de con- J, servation, d'accès rapide et d'évaluation qui caractérise le J catalogue. Les l iens lentement e t pat iemment t issés aujourd 'hui Ï entre les notices catalographiques et les documents numérisés g préparent ainsi les mutations fondamentales que représentent les ^
Intégrer les documents numérisés dans un catalogue 241
« catalogues enrichis à la source » en cours de gestation et les grands « portails documentaires » de demain.
L'accès aux données numérisées par la bibliothèque de Valenciennes
La bibliothèque de Valenciennes a été la première en 1994 à explorer les possibilités du catalogue enrichi, via l'association des logiciels Bookplus de GEAC (catalogage) et Bookline d'Archimed (catalogue enrichi) actuellement en cours de remplacement. Elle a, compte tenu de ses moyens techniques, financiers et humains, choisi d'axer sa politique documentaire sur :
• l'enrichissement des notices catalographiques des documents contemporains complexes ou peu valorisés (actes de colloque, numéros spéciaux de revues, films documentaires...) par des tables des matières ou des extraits numérisés. Cet enrichissement est systématique pour les ouvrages rattachés au fond local et régional.
• l'association systématique des images aux notices des documents iconographiques (photographies anciennes, cartes postales, dessins, estampes...) au fur et à mesure de leur catalogage, de manière à éviter de nombreuses manipulations.
Progressivement numérisées en interne depuis 1995 et aujourd'hui accessibles à travers le catalogue, les 3 000 images concernant Valenciennes et le Hainaut pourraient faire l'objet d'un accès guidé hors catalogue, mieux adapté à leur découverte par le grand public.
• l'association aux notices des incunables et postincunables, récemment catalogués, de « pages-clés » reflétant l'histoire bibliographique des ouvrages et leurs particularités d'exemplaire. Les documents rares ou locaux sont intégralement numérisés.
Ce projet, sélectionné et pris en charge pour une première tranche de 10 000 images par la Mission de la recherche et de la technologie du ministère de la culture en 1999, est en cours. Les images seront accessibles via le catalogue de la bibliothèque.
• l'inventaire des enluminures des manuscrits médiévaux valen-ciennois, travail préparatoire à la mission photographique prévue par la convention liant le CNRS (IRHT) et la Direction du livre et de la lecture.
Conduire un projet de numérisation
L'inventaire a été réalisé par la bibliothèque de 1997 à 1998 et les campagnes de microfilmage et photographie numérique ont été menées par l'IRHT de 1999 à 2001. Les enluminures seront accessibles dès que possible à travers une base préparatoire spécifique, proposée par l'IRHT, en attendant l'intégration à la base Initiales de l'IRHT.
• la numérisation des microfilms des manuscrits médiévaux réalisés par l'IRHT, de manière à démultiplier les possibilités de consultation. Cette opération a été entreprise en plusieurs étapes (manuscrits carolingiens, manuscrits romans...), avec des aides de la direction régionale des affaires culturelles du Nord-Pas-de-Calais. Début 2001, plus de cent manuscrits étaient accessibles - et très consultés - à travers des pages html du site web de la bibliothèque.
• la numérisation en mode texte du catalogue des manuscrits de Valenciennes édité en 1894, de manière à démultiplier les possibilités de consultation et accompagner la consultation des manuscrits. Le travail toujours en cours est accessible à travers des pages HTML du site web de la bibliothèque.
Réaliser une exposition virtuelle sur Internet Pourquoi, comment ?
par Jacques Gana
1. POURQUOI UNE EXPOSITION VIRTUELLE
1.1. Expositions réelles et expositions virtuelles
Les collections des grandes bibliothèques universitaires parisiennes (Sorbonne, Muséum, BIUM et d'autres) sont considérables. Au sein de ces collections, les fonds patrimoniaux (issus essentiellement des confiscations révolutionnaires et des fonds des anciennes facultés) occupent une place importante, mais dont la mise en valeur n'est pas sans poser problème.
La BIUM participe depuis longtemps à des expositions organisées par diverses institutions, en prêtant certains documents issus de ses collections anciennes, mais a renoncé à en organiser elle-même : manque de temps, manque de moyens humains, inflation du tarif des assurances en raison de la situation particulière des locaux...
Conduire un projet de numérisation
En outre la « rentabilité » pour l'établissement en regard des efforts déployés est généralement assez faible. Combien de visiteurs une exposition organisée dans le hall de l'université va-t-elle attirer en 15 jours ou 1 mois ? Combien de temps chacun va-t-il passer sur place ?
À l'inverse, l'exposition virtuelle est beaucoup plus efficace pour faire connaître les fonds d'un établissement à la communauté. La durée de l'exposition peut être illimitée, sa réalisation n'obéit à aucun impératif de calendrier, son coût - hors coûts humains, bien entendu - est voisin de zéro si on la réalise intégralement en interne comme c'est le cas à la BIUM.
Même sur un plan strictement muséographique, l'exposition virtuelle présente de nombreux avantages sur une exposition réelle. Un livre exposé réellement donne certes une vision particulière et irremplaçable du support original. En contrepartie, on ne peut en montrer qu'une page à la fois. Dans l'exposition virtuelle, on peut se livrer à diverses manipulations informatiques pour mettre en valeur tel ou tel élément d'un document. Avec beaucoup de temps et de patience, on peut arriver à construire de véritables petits films documentaires mêlant commentaires parlés, animations, textes, fac-similés...
1.2. Sites Web de bibliothèques
La grande révolution du XXF siècle dans les bibliothèques sera... la disparition des bibliothèques. Cette boutade qui n'en est pas tout à fait une est une représentation à peine caricaturale de l'évolution de la documentation telle que l'on commence déjà à la percevoir dans certains établissements au premier rang desquels figurent les bibliothèques médicales.
Certes, l'expression « disparition des bibliothèques » est volontairement excessive. Cependant, il est évident pour toutes les parties concernées qu'à moyen terme la documentation électronique
Réaliser une exposition virtuelle sur Internet 245
va totalement supplanter l'édition papier dans le domaine de la recherche, et que la mise en ligne de cette documentation, via Internet et ses successeurs à haut débit, va faire du voyage à la bibliothèque un passage de moins en moins obligé.
Déjà les premiers signes de cette mutation sont sensibles à la BIUM, où les demandes de prêt entre bibliothèques ont stagné en l'an 2000 pour la première fois après des années de croissance continue, où les lecteurs possèdent de plus en plus fréquemment leur propre accès à Internet et ne viennent plus à la bibliothèque pour établir leur bibliographie, ou même consulter le catalogue de la bibliothèque - toutes choses qu'ils ont déjà réalisées à distance - mais uniquement pour effectuer les photocopies des documents originaux. Lorsqu'on aura mis en place un système simple leur permettant la consultation et le paiement des éditions électroniques à distance, cette dernière étape ne sera même plus utile.
Dès lors, que restera-t-il aux bibliothèques ? Deux choses. Primo, un rôle de conseil, d'orientation, d'aide à la recherche, à la façon des actuels documentalistes, qu'elles pourront éventuellement tenir à distance. Secundo, des fonds documentaires
^ « historiques » qu'il faudra bien mettre en valeur avec les | moyens de l'époque si l'on veut qu'ils soient exploités.
M Être présent aujourd'hui sur Internet, au-delà des trois fonc-f tions de base (catalogues en ligne, guide du lecteur, liste de | liens), est un moyen pour l'établissement d'affirmer son exis-| tence, sa spécificité, la qualité de ses fonds et de ses personnels, f Au sein du site Internet de la bibliothèque, la présence | d'expositions virtuelles, outre les fonctions classiques des expo-
£ sitions dont nous avons parlé, permet de dynamiser le site et de j, pousser l'utilisateur occasionnel à y revenir. Si en effet on n'y I trouve que des catalogues, mêmes fréquemment mis à jour, ou ^ des informations pratiques, les visites ne seront qu'utilitaires, 1 ponctuelles et rapides. A la BIUM, les expositions sont en outre ^ une façon de « rentabiliser » doublement un travail de fonds sur
246 Conduire un projet de numérisation
les collections patrimoniales qui font l'objet de diverses banques de données (banque d'images, de manuscrits, de rééditions d'ouvrages anciens) en développant un côté professionnel à l'intention des chercheurs en histoire de la médecine et un côté plus grand public avec les expositions, l'un conduisant éventuellement vers l'autre.
2. PRÉPARER L'EXPOSITION
2.1. Choisir un sujet
Si l'on a déterminé que le but de l'exposition virtuelle est de mettre en valeur des collections méconnues de la bibliothèque, se pose cependant le problème de ce que l'on va exposer. Certaines bibliothèques (surtout celles qui possèdent d'importants fonds anciens) n'ont que l'embarras du choix. Pour d'autres, ce sera plus difficile. Il faut en tout cas garder toujours présents à l'esprit deux éléments essentiels : = -<D
• Une exposition - et cela est tout aussi vrai pour Internet, | où le « zapping » règne en maître, que pour une exposition I réelle - se doit de donner la priorité à l'image, voire au son, par f rapport au texte. Le document iconographique doit être le sujet et | l'objet de l'exposition, ce qui peut s'avérer complexe dans une § bibliothèque où par définition le document de base est souvent | textuel. |
• Puisque l'on va publier des documents sur le web, il faudra ^ être certain que ceux-ci sont libres de droits (non seulement les J, documents eux-mêmes, mais leur reproduction, si on envisage de J partir non des documents originaux mais de clichés qui en g auraient été faits). Ce problème se résout tout seul si l'on ne 1 publie (comme c'est le cas à la BIUM) que des documents ^
Réaliser une exposition virtuelle sur Internet 247
anciens numérisés à partir de l'original ou à partir de clichés réalisés par le service photographique de la bibliothèque. C'est malheureusement extrêmement rare.
Surtout si l'on débute dans le domaine, il sera prudent de se lancer dans les expositions virtuelles avec un sujet limité. On peut par exemple choisir de présenter un ouvrage du fonds ancien particulièrement intéressant, en l'élargissant par des annexes sur d'autres ouvrages du même auteur, ou sur le même thème, ou sur d'autres ouvrages techniquement comparables... C'est ce que fait par exemple la Bibliothèque nationale de France dans sa collection de CD-ROM « Sources » (L'Atlas Catalan, Le Livre de la chasse de Gaston Phébus...), ou ce que fera prochainement la BIUM avec les herbiers de Boccone. En tous cas, partir d'une centaine d'images-clés au maximum, qui seront réparties sur autant de pages avec des possibilités de navigation transversales qui rendront l'exposition plus vivante qu'une simple visite linéaire.
Il peut être intéressant d'associer des spécialistes à la conception des expositions, surtout s'il n'en existe pas au sein de la bibliothèque. C'est ainsi que la première exposition de la
s BIUM (sur les frontispices) a été conçue entièrement en f interne puisqu'il s'agissait en majorité d'histoire du livre, » alors que la seconde (sur les « gueules cassées » de la guerre | de 1914-1918) a été réalisée en collaboration avec la spécia-! liste du sujet, dont un ouvrage venait de paraître. Les biblio-
g thèques possèdent souvent des trésors inexploités, en | particulier les fonds d'histoire régionale des bibliothèques
§ municipales, et les érudits locaux ne manquent pas qui sau-€. raient mettre ces richesses en valeur. 03 .O '« to c m œ to o to _l ©
Conduire un projet de numérisation
2.2. Élaborer la structure
Il ne faut surtout pas imaginer que réaliser une exposition sur le Web dispense de la plupart des travaux préparatoires d'une exposition réelle.
Avant de débuter tout travail informatique, il faut donc collecter les documents, structurer l'exposition en parties et sous parties comme les chapitres d'un livre, élaborer les textes, etc.
Les spécificités de l'exposition informatique sont peu nombreuses et simples à assimiler :
Les textes doivent être courts, pas plus de 10 lignes sans une illustration, et découpés en unités logiques de façon à ce que l'ensemble texte plus image fasse un tout qui puisse être affiché sur un écran 800 X 600 sans qu'il soit nécessaire de recourir aux ascenseurs.
Les textes d'une exposition ne sont pas une thèse : les notes de bas de page et les termes complexes nécessitant un glossaire sont interdits ! (sauf exception et astuce technique, comme l'ouverture d'une fenêtre au survol d'un terme ou d'une image grâce à des commandes Javascript).
L'utilisateur doit pouvoir à tout moment accéder depuis une page au plan général de l'exposition et à d'autres pages en relation.
2.3. Traiter les documents iconographiques
Les documents iconographiques présentés dans l'exposition devront être numérisés. Diverses solutions sont envisageables selon les ressources de l'établissement, l'état et la valeur des documents à reproduire ou l'existence de documents photographiques.
Réaliser une exposition virtuelle sur Internet 249
Dans certains cas, on peut numériser à partir des documents photographiques, s'il en existe déjà, à condition que leur qualité soit suffisante. On peut ainsi numériser des négatifs, des diapositives ou des tirages papier à l'aide de scanners relativement modestes (un scanner à plat avec dos pour transparents ou un scanner à négatifs et diapositives spécialisé d'entrée de gamme coûtent 3 500 F maximum).
On peut également, avec ces appareils, numériser directement les originaux s'ils ne sont pas trop précieux et si leur reliure permet une ouverture suffisante. C'est cette solution qui donnera la qualité optimale.
Si les ouvrages sont trop précieux, on pourra les photographier avec un appareil photo numérique, qui donnera très rapidement des images de bonne qualité directement utilisables sur l'ordinateur (un appareil correct bi-mégapixels donnant des images de 1 600 X 1 200 pixels est disponible à partir de 610 €). Cette solution présente également l'avantage de pouvoir montrer l'ouvrage « en volume », voire de préparer des animations de type « rotation autour de l'objet » comme on en trouve souvent sur le web (le plus souvent au format Apple Quicktime, mais il
s en existe d'autres). | Si toutes ces solutions sont inenvisageables parce que la | manipulation des documents est difficile (ancienneté, fragilité, | taille de l'ouvrage), il faudra recourir à des solutions plus lour-| des, soit directement dans l'établissement, soit par sous-traitance
g avec des société spécialisées. Il existe ainsi des scanners profes-s sionnels dédiés à la numérisation d'ouvrages entiers par le haut, § mais les premiers prix pour des scanners de ce type en noir et 1 blanc sont supérieurs à 100 000 F notamment les scanners les
plus performants à lumière froide. .Q
« C
LU
ÇD 00 o >
©
Conduire un projet de numérisation
3. PASSAGE À LA RÉALISATION
La réalisation d'expositions sur Internet nécessite la mise en œuvre de compétences multiples et la maîtrise de logiciels divers : traitement de texte, éditeur HTML, numérisation et traitement d'images, voire acquisition vidéo et audio, traitement et techniques de compression de la vidéo et du son, animation Flash, programmation Javascript...
Il ne faut cependant pas s'en effrayer, l'essentiel est l'envie de faire quelque chose. Pour la réalisation, les compétences se révèlent et se forment « sur le tas » et il existe sur le Web des quantités de sites d'auto-formation, même en français, extrêmement bien faits.
3.1. Une préoccupation essentielle : le temps de chargement
Lorsque l'on décide de publier sur Internet autre chose que du texte pur, on commence à être confronté aux problèmes liés au temps de chargement. C'est une chose d'autant plus difficile à percevoir que, lors de la conception du site, cet aspect du problème est totalement invisible. A partir d'un disque dur local, n'importe quelle image ou élément multimédia est chargé sans délai.
En revanche, vous devez toujours garder à l'esprit qu'il n'en sera pas de même pour l'utilisateur qui va consulter votre site. Plusieurs éléments essentiels vont intervenir pour augmenter parfois très sévèrement le temps de chargement des éléments que vous allez publier.
3.1.1. Les performances du mode de connexion à Internet
Ces performances sont également nommées « débit » ou « bande passante ». Certes, tout le réseau universitaire, qui est
Réaliser une exposition virtuelle sur Internet 251
notre public principal, est en principe relié à Renater qui offre des débits très élevés (en pratique, on relève aux heures creuses des débits réels pouvant aller jusqu'à 200 ko/s... aux heures de pointe, il en va autrement).
Mais une exposition virtuelle s'adresse aussi à un public plus large et moins spécialisé, qui est susceptible de n'utiliser que des liaisons par des petits modems domestiques : les modèles courants sont à la norme V90, c'est à dire en théorie 56 kbits/s, soit 7 ko/s, en réalité et selon les FAI (fournisseurs d'accès à Internet) en général 4 à 5 ko/s.
Entre les deux, divers moyens d'accès personnels ou professionnels dont les plus performants à l'heure actuelle sont le câble (débit théorique 300 kbits/s, soit 37 ko/s) et l'ADSL (débit théorique mode 1 : 512 kbits/s, 64 ko/s ou mode 2 : 1024 kbits/s, 128 ko/s). Mais ces accès à haut débit ne concernent encore en 2001 qu'une très faible partie des utilisateurs d'Internet, on ne peut donc concevoir un site rien que pour eux...
Fort heureusement, les éditeurs de logiciels ont pensé à ce problème et ont mis en œuvre des trésors d'imagination pour tenter de compenser au moins partiellement ces aléas techniques.
s C'est l'objet du chapitre suivant : "D C 3 « | 3.1.2. Les formats de documents : les images
| Internet n'admet que deux formats d'images principaux : le g GIF et le JPG. Le format PNG est une variante améliorée du GIF | (couleurs 24 bits, transparence, affichage progressif). Développé 1 pourtant depuis quelques années, il est peu répandu car il offre J peu d'avantages par rapport au JPG (compacité moindre, même j, lorsque JPG est configuré en compression minimale). I Le JPG est le format universellement répandu sur Internet ^ pour l'affichage de documents photographiques en niveaux de | gris (256,8 bits) ou en couleurs réelles (16 millions, 24 bits). C'est | aussi le format natif de la plupart des appareils photo numériques
252 Conduire un projet de numérisation
du marché, taille limitée des cartes mémoires oblige. De vagues connaissances techniques et un snobisme certain conduisent de nombreux professionnels des arts graphiques à ne jurer que par le format TIF et à dénigrer le format JPG, sous prétexte qu'il est « destructif ». Certes, la compression se fait moyennant la perte d'informations. Mais cette compression est ajustable de façon très fine et, pour des taux jusqu'à 10 % de perte, reste la plupart du temps invisible à l'œil humain.
Le GIF est un format limité à 256 couleurs qui conviendra essentiellement pour des représentations graphiques simples : schémas, histogrammes, plans... mais en aucun cas à la photo où il sera plus lourd (en octets) et de moins bonne qualité. Deux autres avantages du GIF (ce pourquoi il est fréquemment utilisé sur le web) :
- il peut gérer la transparence, ce qui permet de superposer des images de forme non rectangulaire à un fond coloré ;
- il permet de construire de petites animations à partir d'une succession d'images. Mais dans ce domaine, il est infiniment moins puissant et efficace que Flash.
À titre de comparaison, on trouvera à la page suivante une image de 300 X 400 pixels qui a été enregistrée dans l'essentiel s des formats graphiques, à des taux de compression variables pour § le JPG. On pourra voir que le GIF n'est intéressant que par rap- I port au JPG brut, et qu'en outre sa résolution limitée à 256 cou- | leurs, peu gênante sur des documents en noir et blanc, peut f s'avérer inesthétique sur des documents couleur. §
Le format d'impression de cet ouvrage et la place limitée | qui nous est allouée empêche l'agrandissement des images, mais f un examen très agrandi à l'écran des différents taux de compres- f sion JPG permet de constater que les effets de la compression j, destructive commencent à être visibles à 20 % et un peu gênants | à 40 %. " œ
On constate d'ailleurs parallèlement qu'une compression | importante n'est pas forcément nécessaire car la progression ^
Réaliser une exposition virtuelle sur Internet 253
n'est pas arithmétique : au-delà d'un certain taux le gain en octets est minime, alors que la dégradation devient plus visible.
L'important pour l'image sur Internet est donc de songer toujours au résultat à obtenir et de se souvenir qu'un utilisateur ordinaire avec son modem 56 kbits chargera environ 4 à 5 ko/seconde (et donc notre image JPG 20 % en 6 à 7 secondes, ce qui est honnête).
DE I
BMP : 352 Ko
T tr l i i' jL * ^
vt"' GIF: 119 Ko
DE 1 - t.i it< \
JPG 20 % : 28 Ko
TIF : 346 Ko
y ? ^ iv 1 ^ ^
DE I
I • DE I
D E !
PNG : 274 Ko
D E I
JPG brut : 162 Ko JPG 10 % : 43 Ko
JPG 40 ^ : 18 Ko JPG 60'/r : 14 Ko
254 Conduire un projet de numérisation
3.1.3. Couleur ou noir et blanc
II vaut toujours mieux privilégier la couleur pour les reproductions, même s'il s'agit de livres anciens pas forcément en couleur, l'image sera plus vivante et plus dynamique. On pourrait imaginer qu'en utilisant des images en niveaux de gris on allégerait d'autant le poids de l'image (puisqu'on passe d'un codage sur 24 bits à un codage sur 8 bits, un calcul simple donne un rapport de 1 à 3). Or, l'expérience prouve qu'il n'en est rien, surtout lorsque la palette des teintes est peu variée. Les algorithmes de compression établissent la palette des couleurs utilisées dans l'image, et s'il n'y a pas plus de teintes colorées que de niveaux de gris différents, le poids de l'image en couleur sera sensiblement identique à sa version noir et blanc. En général, les tests montrent que l'image couleur fait un poids supérieur d'environ 1/ 3, ce qui reste raisonnable.
3.1.4. Les formats de documents : les animations
En dehors du GIF, utilisable pour de toutes petites animations (en taille et en durée), la seule solution viable d'animation à l'heure actuelle sur Internet est le format Flash de Macromédia (déjà éditeur I du fameux Director avec lequel ont été produits l'essentiel des CD- § ROM multimédia du marché). Flash permet d'animer toutes sortes l d'objets : textes, graphismes simples, éventuellement photogra- | phies, mais dans ce dernier cas il vaudra mieux s'en tenir à des ima- § ges de petite taille. Pour mémoire, on peut également réaliser des | animations sur le web avec le concurrent de Flash lancé récemment f par Adobe : LiveMotion, mais celui-ci est encore peu répandu et f n'apporte rien d'original, ou encore utiliser un des programmes % générant automatiquement du code DHTML, comme Mediator 6 1 (Matchware) ou WebCreator (LMSoft/Montpamasse), mais, à | 1 ' inverse de Flash, le fonctionnement du DHTML est très dépendant i du navigateur web utilisé et de la puissance de la machine. g
Réaliser une exposition virtuelle sur Internet 255
3.1.5. Les formats de documents : le son
Si les sons sont intégrés à des documents Flash, le format d'origine par défaut sera le MP3. Si en revanche vous envisagez de sonoriser directement vos pages HTML, vous aurez intérêt à utiliser de préférence le format WMA de Microsoft qui permet un taux de compression nettement plus élevé à qualité égale et une diffusion en « streaming » optimisée. On peut transférer du texte parlé de qualité honnête à 11 kbits/s, et de la musique acceptable à partir de 32 kbits/s, ce qui reste toujours correct pour n'importe quel type de liaison. Le format Real Audio est également envisageable, mais il est moins simple à diffuser, on peut donc l'éviter sauf si on possède déjà des documents sonores à ce format. Le son peut être déclenché à l'aide d'un bouton de démarrage ou directement à l'ouverture d'une page. La première solution est souvent préférable, car elle temporise le chargement et laisse l'utilisateur plus libre, car on peut également intégrer des boutons de pause ou de reprise, comme sur un magnétophone.
3.1.6. Les formats de documents : la vidéo
I Ne rêvons pas, la vidéo « live » sur Internet reste 1 aujourd'hui réservée aux liaisons à haut débit. Une vidéo en f vignette de 320 X 240 pixels (éventuellement affichable en taille i double 640 X 480 moyennant un certain flou) exige, pour être à § peu près lisible, un débit minimal de 256 kbits/seconde. La qua-§L lité supérieure, à 512 kbits/s, bien que théoriquement accessible 1 à des machines dotées de l'ADSL de base (Netissimo 1 ), court de | grands risques d'être perturbée par les encombrements du réseau,
i causant des arrêts du flux. .n | Une liaison 56 kbits/s donne une vidéo très pixellisée et sac-
^ cadée, en minivignettes (160 X 120 pixels par exemple) qui I demande beaucoup d'indulgence... La seule alternative possible | est à l'heure actuelle le téléchargement par l'utilisateur du film
Conduire un projet de numérisation
entier avant lecture, ce qui rend impossible la diffusion de documents longs et surtout rompt l'effet de dynamisme que l'on souhaite insuffler à notre exposition.
3.1.7. Les formats de documents : le texte
Le format classique des textes publiés sur Internet est le HTML. Mais vous pouvez envisager, si vous souhaitez publier des fac-similés de documents anciens, d'utiliser le format Adobe Acrobat, qui permet de constituer des livres virtuels feuilletables à l'écran, zoomables, voire cliquables (à l'aide du générateur Acrobat Distiller). Attention cependant : Acrobat permet de créer des fichiers d'un poids raisonnable si l'on part de documents informatiques (traitement de texte ou PAO). Dès qu'il s'agit de constituer des livres entiers en mode image à partir de documents numérisés, seul le mode CCIT/Groupe 4 (noir et blanc tramé) permet de conserver aux documents une taille décente, au prix d'une perte de qualité parfois inadmissible pour des documents anciens au papier jauni ou tâché... Des produits concurrents d'Acrobat, comme DejàVu, qui utilise une dérivation du JPEG 2000 compressé selon la technique des ondelettes (wavelets en anglais) ne me semblent pas vraiment convaincants pour des textes ou des graphismes fins.
3.2. Mise en forme
Nous ne donnerons pas ici de règles de mise en forme : d'abord parce qu'il n'y en a pas, tout est possible et permis dans les limites des impératifs techniques exposés ci-dessus ; ensuite, parce que l'établissement de règles trop strictes aboutirait rapidement à une normalisation et donc à une uniformité qui, si elle est nécessaire dans le catalogage, serait ici tout à fait nuisible à
Réaliser une exposition virtuelle sur Internet 257
l'intérêt du lecteur qui aurait l'impression de toujours voir la même exposition. Enfin, si règle il y a, il faut considérer que toute exposition doit être différente de la précédente, à l'intérieur d'un style propre à l'établissement, mais en rapport avec le thème choisi.
En revanche, on peut éviter un certain nombre de fautes de goût et de lisibilité avec quelques principes simples.
La difficulté sur Internet consiste à connaître la configuration qui sera utilisée par le visiteur. En particulier, selon les navigateurs (qui se répartissent actuellement en gros en 70 % d'Internet Explorer, 25 % de Netscape et 5 % de divers), selon leur version, selon le système d'exploitation (Windows, Mac, autre) l'interprétation du code HTML utilisé aura des résultats parfois très différents à l'affichage. Il faudra donc tester localement l'exposition sur le plus grand nombre de configurations possibles pour tenter de faire en sorte que tout le monde ait un résultat optimal. Cela peut s'avérer parfois un épouvantable casse-tête, surtout dans les fonctions sophistiquées.
Découlant du précédent, le problème le plus complexe réside dans la gestion de la taille de la fenêtre de navigation : la particula-
I ri té du langage HTML est de gérer à sa façon l'affichage en fonc-| tion de la configuration utilisée. Or, outre qu'un écran 800 X 600 1 est plus petit qu'un écran 1 024 X 768, l'affichage au choix de l'uti-! lisateur de diverses barres d'outils ou de fenêtres réduites sur | l'écran peut conduire à des effets non désirés. Grâce à Javascript,
§ on peut contourner en partie le problème, en forçant l'affichage à i. occuper la totalité de l'écran et en masquant toute l'interface du | navigateur. C'est le choix de la BIUM pour ses expositions, ce qui f permet d'afficher sans difficulté des images plus grandes que ^ d'autre sites qui s'en tiennent à la fenêtre classique. 1 II faut essayer de trouver pour l'ensemble de l'exposition t: une « tonalité », c'est-à-dire un style commun à toutes les pages, I et s'y tenir : palette des couleurs, images de fond, polices de ^ caractères, taille des images, présentation des textes...
258 Conduire un projet de numérisation
Il vaut mieux éviter de présenter des images qui ne tiennent pas entièrement sur un écran et exigent l'utilisation des ascenseurs. On peut optimiser le processus en choisissant (c'est courant sur le web) de ne présenter de prime abord que des vignettes de petite taille (150 X 200 pixels environ), l'image agrandie s'obtenant en cliquant sur la vignette. Dans l'exposition de la BIUM « Les Frontispices », ce procédé est étendu à l'affichage d'une page web spécifique pour chaque image, offrant l'accès à des commentaires, des agrandissements plus grands d'éléments particuliers de la page et l'accès à un mode « zoom », qui correspond à un double agrandissement. Outre l'optimisation des temps de chargement, ceci permet une lecture de l'exposition à deux niveaux : simple, en parcourant seulement les vignettes, approfondie en cliquant sur chaque vignette pour obtenir des détails supplémentaires. Assorti de divers index des vignettes (alphabétique, chronologique) ce procédé autorise l'utilisateur à circuler dans l'exposition à sa guise.
Enfin, et pour conclure, ne jamais oublier qu'une exposition, virtuelle ou pas, est un long jeu de patience, d'autant plus qu'il est rarement possible de dégager assez de temps d'affilée pour pouvoir s'y consacrer de façon véritablement efficace. Pour s pallier cet étalement dans la durée, et aussi éventuellement per- | mettre la collaboration de plusieurs personnes au travail, il faudra g dès le début organiser le site web très rationnellement : grouper i les documents dans des répertoires organisés logiquement, don- | ner aux fichiers des noms explicites, éventuellement si l'exposi- § tion est très volumineuse créer une « bible » des travaux I effectués et des règles de présentation adoptées... |
Il est certain qu'une exposition virtuelle est un investisse- f ment personnel important, et qu'un établissement ne peut pas ^ toujours se permettre de consacrer une part importante du temps I de son personnel à sa réalisation, et de surcroît, on ne peut envi- ^ sager de n'en faire qu'une : à partir du moment où on s'est lancé | dans ce processus, une périodicité d'au moins une exposition par |
Réaliser une exposition virtuelle sur Internet
an semble raisonnable si l'on veut éviter que l'effet d'entraînement ne s'estompe. Mais par ailleurs, une exposition virtuelle est sans doute l'un des meilleurs outils de valorisation d'une bibliothèque ; c'est pourquoi il peut être intéressant de mettre en œuvre un tel projet que l'on peut rentabiliser au mieux dans le cadre d'un plan plus général de numérisation, de toute façon indispensable à la sauvegarde des collections anciennes.
MÉMENTO
Les étapes d'un programme de numérisation
par Charlette Buresi et Laure Cédelle-Joubert
Un programme de numérisation des collections peut se décomposer en trois phases qui appellent des analyses et des tâches spécifiques : la conception du projet, la réalisation technique de la numérisation, l'exploitation des images numériques. Le memento ci-dessous énumère les principales étapes d'un programme ; il renvoie aux articles abordant ces aspects.
262 Conduire un projet de numérisation
1. CONCEPTION DU PROJET
1.1. Objectifs de la numérisation
Déterminer les motifs pour lesquels la bibliothèque aurait avantage à engager un programme numérique : numériser pour mieux diffuser un fonds, pour le valoriser tout en le préservant, et / ou pour aider et susciter la recherche ? Pour mieux se faire connaître au sein de l'université / à l'extérieur ? Mode d'emploi. Charlette Buresi, Laure Cédelle-Joubert.
1.2. Choix du corpus
Définir les documents retenus pour la numérisation et établir des critères de sélection répondant aux besoins de l'établissement, à sa politique documentaire, aux besoins exprimés par le public, au caractère patrimonial des fonds (état de conservation, rareté...). Chaque bibliothèque peut avoir des critères propres et la plupart des auteurs décrivant leurs programmes de numérisation rendent compte de cette diversité.
1.3. Vérification de la propriété des droits reposant sur les documents
Dispose-t-on des droits de reproduction et de diffusion sur les documents autorisant la bibliothèque à les reproduire numériquement puis à les diffuser ? Il est important de bien identifier tous les ayants droit : éditeurs, écrivains, artistes, photographes, voire musiciens, interprètes... dans le cas des documents sonores et audiovisuels. Seuls les documents tombés dans le domaine
Mémento 263
public peuvent être librement exploités, si ce n'est pas le cas les droits doivent être négociés. Aspects juridiques de la numérisation. Valérie Game. Contrats de cession ou d'acquisition de droits d'auteur. Valérie Game.
1.4. Identification du public visé
Identifier le public visé et les usages susceptibles de l'intéresser de manière à préciser le corpus documentaire et à déterminer les informations scientifiques et l'environnement éditorial les mieux adaptés. Cette étape peut permettre de délimiter le champ des collections à traiter, de réfléchir déjà à leur future exploitation. En fonction des usages attendus certains choix techniques pourront être retenus, tels que la résolution des images et le poids des fichiers numériques. Les publics. Thierry Delcourt. Numériser pour un public déficient visuel.Carine El-Bekri Dinoird.
1 1.5. Évalutation des ressources de la bibliothèque c 3 Vi 0) | Évaluer les potentialités de la bibliothèque en termes de per-1 sonnel, de matériel informatique, de financement, de manière à g ajuster l'ampleur du projet aux capacités réelles de la bibliothèque, g. Parallèlement, évaluer les besoins complémentaires ou annexes. § Cette estimation évitera de se lancer dans un projet sur-dimen-t sionné pour la bibliothèque et d'omettre les coûts induits de la T1 numérisation en restreignant 1 ' investissement aux seules opérations | de capture numérique (notamment le coût d'un système de GED).
^ Numérisation interne ou externe - Le choix de Lyon. Pierre Guinard. 1 Calculer les coûts induits de la numérisation. Jocelyne Deschaux. •3 Élaboration d'un cahier des charges § :1.3, 2, 4.Albert Sitruk. ©
264 Conduire un projet de numérisation
1.6. Identification du projet au sein des missions et de la politique de la bibliothèque
Qu'elle est la place du projet au sein des missions de la bibliothèque ? Constitue-t-il une priorité ou faut-il lui donner un rang de priorité par rapport à d'autres chantiers. Ces interrogations peuvent aider à l'élaboration d'un calendrier prévisionnel qui prendra en compte les autres activités en cours dans l'établissement.
2. LA NUMÉRISATION
2.1. Sélection des documents
2.1.1. Concertation entre les conservateurs :
Les documents sont évalués un par un. Leur nature et leur état permettent-ils la numérisation ? Des mesures de sécurité devront- s
elles être prises pour préserver les documents ? Ces débats permet- f tront de guider les choix techniques de numérisation : numérisa- | tion dans ou hors des locaux de la bibliothèque, numérisation | directe ou indirecte, quel type de scanner, quel conditionnement si | les documents quittent la bibiothèque... ? Dans certains cas on g décidera de restaurer des documents avant de les numériser. $ Q. O O 0 sz
CL
2.1.2. Collection choisie " 1 n La collection choisie vaut-elle la peine d'être numérisée ? Est- I
elle remarquable ou unique ? Un autre établissement mène-t-il un ^ projet analogue sur le même corpus ? Un partenariat avec un autre 1 établissement sur le même type de projet ou de documents est-il J
Mémento
possible ? Pour le savoir on peut se reporter au catalogue des fonds culturels numérisés du ministère de la Culture et de la Communication1, à l'enquête de la sous-direction des bibliothèques et de la documentation2, ou encore à des sites d'organisation internationale comme 1TFLA3 qui recense les projets nationaux. Les documents choisis ont-ils déjà été reproduits sous forme de phototype, et si c'est le cas ne vaut-il pas mieux numériser ces substituts, surtout si on en détient les droits ?
2.1.3. Traitement
Les documents pourront-ils être traités avec la technique existante, faudra-t-il sous-traiter ? La couleur est-elle indispensable ? Quels équipements et précautions faudra-t-il prendre (lumière, plateau compensateur, ...) ? Certaines de ces questions auront pu être formulées précédemment, mais à cette étape on les réunira toutes en vue de la rédaction du cahier des charges. Les choix techniques de la numérisation. Catherine Lupovici.
2.2. Développement
2.2.1. Rédaction du cahier des charges
Élaborer un cahier des charges indiquant toutes les conditions techniques à respecter que ce soit dans la capture numérique des documents ou dans leur maniement, leur conditionnement, leur description. Ce cahier des charges doit également mentionner les conditions générales de réalisation telles que le calendrier des travaux, la réception des lots et leur éventuel rejet,... Même
1. http://www.cuIture.fr/culture/mrt/numerisation/fr/f 02.htm 2. hup:///www.sup.adc.education.fr/bib/ (Activités et projets). 3. http://ifla.imst fdr/II/digilib.htm.
Conduire un projet de numérisation
si la numérisation s'effectue en interne, il ne faut pas faire l'économie de ce document essentiel pour dialoguer avec les équipes techniques. Il doit également permettre d'évaluer un prestataire. Élaboration d'un cahier des charges. Albert Sitruk. Cahier des charges et fiches de spécifications des travaux de numérisation. Albert Sitruk. Choisir son prestataire. Jocelyne Deschaux.
2.2.2. Combien de documents mettre en ligne ?
Il est temps d'évaluer les capacité de stockage, de chargement et de mise en ligne pour ne pas être pris de court et vérifier les capacités informatiques de la bibliothèque.
2.2.3. Inventaire
Rédiger un inventaire précis des documents à numériser remis à l'équipe de numérisation. Éventuellement restaurer certains documents ou les dépoussiérer avant la prise de vue ; cela concerne tout particulièrement les phototypes, dont les diapositives, qu'il faudra essuyer ou passer sous une soufflerie. Élaboration d'un cahier des charges. Albert Sitruk.
2.3. Production
2.3.1. Numérisation proprement dite
Avant de lancer la production réaliser plusieurs tests à partir de documents représentatifs de l'ensemble à traiter, mais aussi à partir de documents particulièrement délicats. Calibrer la chaîne de numérisation en fonction de ces résultats.
Mémento
2.3.2. Qualité technique : images acceptables selon quels critères ?
Définir une période de contrôle qualité des fichiers numériques et des critères qui motiveront le rejet éventuel de certains fichiers. Si la numérisation est réalisée en interne les délais peuvent être plus longs et les possibilités de numériser une seconde fois plus souples.
3. ACCÈS ET MISE EN LIGNE
3.1. Description des données
Décrire les nouveaux documents numériques produits. Réunir les descriptions bibliographiques. Les choix techniques à Lisieux : Des réserves à l'Internet, les étapes de la mise en ligne. Olivier Bogros. Les choix techniques de la numérisation. Catherine Lupovici.
3.2. Édition numérique des images
3.2.1. Scénario
Envisager plusieurs scénarios de réalisation. Développer le scénario choisi : préciser les contenus, le mode de navigation, le graphisme.
3.2.2. Maquette
Réaliser une maquette. En fonction du résultat, apporter les modifications encore possibles.
268 Conduire un projet de numérisation
3.2.3. Tests
Procéder à une phase de tests. Elle est réalisée par des personnes extérieures au service, pendant au moins deux semaines. Après la mise en ligne, on peut procéder à une évaluation continue des produits grâce à la messagerie et aux forums.
3.2.4. Lancement du produit numérique
Communiqués de presse, publicités et promotions diverses Sur tous ces aspects voir les articles suivants :
Constituer une base de données. Charlette Buresi, Laure Cédelle-Joubert. La solution internet : l'exemple de Lyon. Pierre Guinard. Créer et diffuser un cédérom de documents numérisés. Mireille Vial. Intégrer les documents numérisés dans un catalogue. Marie-Pierre Dion. Réaliser une exposition virtuelle sur Internet. Jacques Gana.
3.3. Maintenance
3.3.1. Révisions et mises à jour
Prévoir une personne qui assurera la mise à jour des données et en vérifier la complétude. S'il n'existe pas d'équipe dédiée à cette tâche, mieux vaut prévoir la périodicité des mises à jour.
3.3.2. Archivage
Sauvegarder, y compris les mises à jour, prévenir les pannes de système.
Mémento
3.3.3. Anticiper la demande du public
La mise en ligne de documents s'accompagne d'un accroissement de la demande de consultation des originaux, ou de la demande d'informations sur les originaux. Il est prudent de prévoir cette probable évolution et plus particulièrement de se demander si la bibliothèque fournira, et dans quelles conditions, des reproductions numériques de ses documents.
Annexe 1 : Modèle de cahier des charges
Cahier des charges de numérisation
par Albert Sitruk
1. OBJET DU MARCHÉ
Ce marché a pour objet une prestation de numérisation des supports suivants :
• documents imprimés - ouvrages reliés communs - ouvrages reliés anciens - périodiques, magazines - brochures - manuscrits • documents iconographiques - photographies - diapositives - illustrations - dessins - cartes - objets (pièces de monnaie...) • microformes - microfilms - microfiches - cartes à fenêtre
Conduire un projet de numérisation
Le présent CCTP décrit : - les spécifications techniques et opératoires de la presta
tion demandée ; - les conditions d'exécution de cette prestation ; - les procédures de réception de la fourniture ; - les dispositions administratives générales.
2. SPÉCIFICATIONS TECHNIQUES ET OPÉRATOIRES
2.1. Description du fonds
2.1.1. Objectifs de la numérisation
L'opération de numérisation du fonds vise les objectifs suivants : - conservation du patrimoine avec (ou sans) restauration ; - production de supports autonomes de diffusion (CD ou DVD) ; - diffusion en ligne sur réseau local ; - diffusion sur Internet. Le prestataire pourra éventuellement proposer la mise en
œuvre de solutions ou de techniques de traitement spécialement adaptées à ces objectifs. Si les options proposées diffèrent de celles retenues dans le présent cahier des charges, elles seront proposées en tant que variantes ou options. Elles seront alors amplement détaillées afin de permettre au responsable de juger de leur applicabilité dans l'environnement technique et organisa-tionnel particulier au projet et si elles s'inscrivent dans le contexte normatif du plan directeur informatique.
2.1.2. Caractéristiques du fonds de documents
Des fiches de spécifications détaillées sont fournies en annexe. Le tableau suivant résume les principales caractéristiques du fonds de documents objet de cette consultation.
Annexe 1
Liste des catégories de documents à numériser
Catégorie Titre de la collection Format Couleur Volume
Qualité Catégorie Titre de la collection Format Couleur Nombre usités
Nombre éléments
Qualité
Documents imprimés Ouvrages reliés communs
Ouvrages reliés anciens Pénodiques, magazines
Brochures Manuscrits
Documents iconographiques
Photographies Diapositives Illustrations
Dessins Cartes Objets
Microformes Microfilms
Microfiches Cartes à fenêtre
Remarques : On ne recensera que les catégories correspondant à la pres
tation demandée. Pour chaque catégorie apparaîtra une ligne pour chaque lot
présentant des caractéristiques différentes. Format : indiquer les dimensions. Couleur : indiquer N&B, niveaux de gris ou couleur Nombre d'unités : indiquer le nombre d'entités à scanner
(ex. nombre de livres, de bandes...) Nombre d'éléments : indiquer le nombre d'entités élémen
taires à numériser (ex : pages, séquences sonores...) Qualité : indiquer : Bon / Moyen / Mauvais
276 Conduire un projet de numérisation
2.1.3. Caractéristiques particulières
À compléter éventuellement.
2.2. Conditions de mise à disposition
Les documents à numériser seront rassemblés en lots de numérisation.
La préparation de ces lots incombe à la bibliothèque. Les tâches de préparation de ces lots peuvent s'avérer trop lourdes pour l'effectif disponible. Aussi afin d'assurer le déroulement de l'opération de numérisation selon le calendrier prévu, la bibliothèque peut envisager, moyennant l'application de procédures strictement définies ci-après, de faire exécuter ces tâches de préparation par le prestataire. Sont décrites aux paragraphes suivants les différentes modalités de mise à disposition des lots de numérisation.
2.2.1. Constitution des lots
Un lot rassemble un certain nombre de documents à scanner et constitue une livraison destinée au prestataire. C'est une entité indivisible dans l'organisation des échanges entre le prestataire et la bibliothèque. Elle permet d'assurer à la fois un suivi rigoureux de l'avancement des travaux, un contrôle exhaustif de la fourniture et sert de base à la facturation. Il est donc interdit au prestataire de modifier la constitution d'un lot. Toute dérogation à cette règle devra faire l'objet d'un accord explicite de la part du responsable de la bibliothèque.
La taille du lot sera déterminée d'un commun accord entre le prestataire et le responsable de la bibliothèque en fonction de différents critères :
- le rythme de production envisagé pour l'opération ; - la capacité de traitement du prestataire ;
Annexe 1
- la fréquence des échanges autorisée par la logistique mobilisable qui dépendra à la fois de la localisation géographique du prestataire relativement à la bibliothèque et les moyens de transport disponibles et les coûts associés.
Le prestataire fera des propositions d'organisation de cette logistique et indiquera les bases de coût des différents transports envisagés dans différents scénarios.
2.2.2. Conditionnement des lots
Les documents seront disposés dans un emballage adéquat pour supporter son expédition et maintenir la consistance du lot.
En cas de réceptacles spécifiques (malle capitonnée par exemple), le prestataire devra envisager une mise à disposition de ces emballages lesquels seront recyclés en cours d'opération et lui seront restitués à son terme.
2.2.3. Identification du lot et de ses constituants
Chaque lot est identifié par une étiquette comportant les informations suivantes :
- le nom de la bibliothèque expéditrice ; - un numéro unique identifiant le lot ; - la date d'expédition ; - le nombre de documents contenus dans le lot ; - la liste des documents et leurs caractéristiques telles que
spécifiées plus haut. Deux exemplaires de l'étiquette seront joints au colis, les
quels seront signés à la réception par chacune des parties et constitueront une preuve de livraison.
Concernant l'expédition des lots, le prestataire proposera une organisation adéquate et en déterminera le coût correspondant. Il veillera en particulier à garantir pour ce transport le
278 Conduire un projet de numérisation
niveau de sécurité approprié à la valeur des documents qui lui seront confiés.
2.2.4. Conditions de sous-traitance de la préparation des lots
Cette prestation est optionnelle. Son objet est de permettre à la bibliothèque de pallier l'absence de moyens en interne pour prendre en charge les tâches de préparation des lots et conduire l'opération de numérisation envisagée dans les meilleures conditions.
Les tâches à effectuer par le personnel du prestataire détaché à la bibliothèque sont les suivantes :
- préparation des listes de documents à numériser conformément aux instructions du conservateur ;
- extraction des documents de leur lieu de rangement ; - étiquetage des différents documents ; - préparation des étiquettes d'identification du lot ; - emballage du lot ; - remise du lot à un personnel désigné de la bibliothèque
pour contrôle et signature du bordereau d'expédition ; = - expédition du lot aux locaux du prestataire pour numéri- §
sation. 1 (D
Il nous semble important de signaler que par cette sous- f traitance, le conservateur délègue au prestataire le droit de sortir g de la bibliothèque des ouvrages, ce qui nécessite un engagement | contractuel précis de la part du sous-traitant, définissant claire- | ment ses responsabilités et les contraintes qui en résultent. Il | devra donc spécifier précisément les modalités qu'il entend J employer pour garantir la sécurisation de son personnel et des ^ procédures mises en œuvre. I
La bibliothèque quant à elle désignera un responsable qui ^ aura pour charge d'effectuer les contrôles nécessaires à la super- | vision des mouvements de documents entre le prestataire et la ^
Annexe 1
bibliothèque. Ce responsable visera les bordereaux d'expédition et enregistrera, sur la base de la liste fournie par le prestataire les ouvrages indisponibles dans l'application de gestion de la bibliothèque.
2.3. Conditions de retour des lots
Cette opération est identique à la précédente. Après numérisation et contrôle le prestataire expédiera à la bibliothèque :
- les documents qui lui ont été confiés ; - la liste de pointage des documents restitués accompagnée
de la liste originale ; - les supports informatiques comportant les images des
documents numérisés ; - la liste de pointage des fichiers informatiques correspon
dant aux supports fournis ; - le rapport de contrôle de production relatif au travail
effectué.
2.3.1. Retour des documents originaux
Les documents originaux doivent être rendus à la bibliothèque dans les mêmes conditions que celles prévalant lors de leur remise au prestataire :
• le prestataire devra assurer une constitution des lots « retour » à l'identique des lots « départ » ;
• l'emballage sera identifié de façon identique : - nom de la bibliothèque destinataire ; - numéro de lot ; - date d'expédition ; - nombre de documents contenus dans le lot ; - liste des documents et leurs caractéristiques.
Conduire un projet de numérisation
Les documents ayant subi une dégradation quelconque ou ayant nécessité un traitement particulier seront signalés dans cette liste.
• L'étiquette d'identification de chaque document sera conservée. • Les documents eux-mêmes seront éventuellement recondi
tionnés dans le cas où le prestataire aurait été conduit, avec l'accord explicite du conservateur, à transformer le conditionnement original - dégrafage, massicotage, débrochage, démontage...
• Expédition des lots « retour » par un moyen identique à celui employé pour les lots « départ ».
2.3.2. Livraison du support informatique
Les supports informatiques - dont la nature est définie au début du paragraphe 1 - seront expédiés dans les mêmes conditions que les documents originaux.
S'il le juge utile, le prestataire pourra regrouper dans une même livraison, voire sur un même support, les fichiers correspondant à différents lots. Il devra néanmoins identifier explicitement chaque lot dans chaque livraison.
Chaque support sera identifié par impression afin de permettre son identification dans le cadre d'une conservation long terme. Cette impression comportera les éléments suivants :
- nom de la bibliothèque destinataire ; - titre de la (ou des) collection(s) ; - numéro du ou des lots ainsi qu'un indice de suite au cas où
un même lot se répartirait sur différents supports ; - date de fabrication du support. Le support sera accompagné d'un listing spécifiant pour
chaque support la liste structurée des fichiers fournis conformément à la spécification décrite au début du paragraphe 1.
Annexe 1
2.3.3. Le rapport de contrôle de production
Les procédures de contrôle à mettre en place sont décrites au début du paragraphe 1.
Le prestataire produira un rapport de contrôle de production. Ce rapport se compose de deux parties :
• Une fiche de contrôle qui indiquera pour chaque lot : - l'identification du lot ; - la date du contrôle ; - le visa du contrôleur ; - le visa du chef d'atelier ; - la liste des images contrôlées ; - la liste des mires de contrôle insérées dans le lot ; - les contrôles effectués pour chaque image : affichage,
impression, consultation des propriétés de l'image, lecture de la taille du fichier, vérification de la conformité du nom de fichier avec les règles de nommage ;
- les anomalies éventuellement détectées ainsi que le traitement correctif apporté.
• L'ensemble des impressions de contrôle effectuées. Sur chaque impression apparaîtront les données d'identification du fichier correspondant ainsi que la date de l'impression.
2.3.4. Contrôle de réception
Un préposé sera désigné à la bibliothèque pour la conduite des opérations de contrôle de réception. Les contrôles effectués sont de deux ordres :
• Contrôle de la fourniture -pointage des documents originaux, contrôle de l'étique
tage et examen de l'état physique des documents restitués ; - pointage des supports informatiques et vérification de leur
identification ; - examen du rapport de contrôle de production.
Conduire un projet de numérisation
• Contrôle des images Le préposé disposera d'un poste de consultation équipé de
manière appropriée pour la mise en œuvre de ces contrôles. - pointage des fichiers images et vérification du respect des
règles de nommage ; - contrôle aléatoire (ou exhaustif selon le cas) des images. Au terme de ce contrôle, le préposé vise le bordereau de
livraison pour approuver la fourniture et déclencher le paiement correspondant. En cas d'anomalie il dispose d'un formulaire sur lequel il signale les anomalies constatées et renvoie le cas échéant la fourniture au prestataire.
2.3.5. Conditions de sous-traitance du reclassement des documents
Au même titre que pour la sous-traitance de préparation des lots, cette prestation est optionnelle. Son objet est de permettre à la bibliothèque de pallier l'absence de moyens en interne pour prendre en charge les tâches de reclassement des documents et assurer la remise en service des documents dans les meilleurs délais.
Les tâches à effectuer par le personnel du prestataire détaché à la bibliothèque sont les suivantes :
- pointage des documents de chaque lot ; - contrôle (exhaustif) de l'état du document et signalement
d'éventuelles détériorations constatées ; - détermination de la cote de classement de chaque
document ; -remise des documents dans leur lieu de classement
d'origine ; - enregistrement du retour dans le logiciel de gestion de la
bibliothèque ; - remise d'un rapport d'activité au responsable en fin de
prestation.
Annexe 1
2.4. Spécification des traitements demandés
À cette rubrique sont détaillées les modalités techniques des traitements à effectuer par le prestataire. On y présente l'ensemble des questions concernant les spécifications techniques exigées pour la fourniture ainsi que l'impact que ces exigences peuvent avoir sur les procédés employés par le prestataire pour les différentes catégories de documents envisagées. Les différentes variantes opératoires sont répertoriées dans les fiches de spécification annexées à ce document et déterminent les options retenues dans le cadre de la présente consultation.
2.4.1. Numérisation
Nous rappelons ici les spécifications générales relatives à la numérisation. Les caractéristiques spécifiques à chaque catégorie de support sont détaillées dans les fiches de spécification fournies en annexe et applicables à la prestation demandée.
2.4.1.1. La résolution
Le choix de la résolution de numérisation dépend de trois facteurs principaux :
- l'utilisation projetée pour les images numériques ; - les limites de la technologie actuelle pour chaque type de
média ; - la prise en compte des évolutions à moyen / long terme
des conditions qui déterminent les 2 facteurs précédents de manière à éviter un nouveau recours aux documents originaux.
Dans ce contexte seront envisagés différents niveaux de résolution :
- la haute résolution pour la conservation à long terme des documents numériques. Dans certains cas (notamment pour les photos avec un facteur de zoom important) la haute résolution
284 Conduire un projet de numérisation
envisagée pourra néanmoins s'avérer insuffisante et nécessiter un retour à l'original ;
- la résolution d'affichage à l'écran qui peut s'envisager à 2 ou 3 niveaux - plein écran, 1/3 ou 1/4 d'écran, vignette ;
- la résolution d'impression sur une imprimante laser courante (300 ou 600 dpi) pour une pleine page.
Le tableau suivant positionne les résolutions retenues pour chaque catégorie de média.
Media Haute résolution Résolution d'affichage
Résolution d'impression
Documents imprimés 600 dpi 300 dpi 300 dpi
Documents iconographiques
300 à 3 000 dpi 72 dpi 300 à 600 dpi
Microformes 400 dpi 300 dpi 30 dpi
2.4.1.2. Les différents fichiers produits
Un document numérisé est en général constitué de plusieurs entités, chacune produisant un fichier. Il sera donc nécessaire de relier entre eux les fichiers afin de reconstituer le document dans son intégralité. Afin d'assurer ce lien, il est demandé au prestataire de rassembler ces fichiers sous un même répertoire. Un mécanisme de nommage séquentiel pourra alors être employé pour désigner les différents éléments consécutifs.
• Exemples de nommage de fichiers images Livres
Répertoire AAA Pages p0001.TIF
p0002.TIF p0003.Tif etc.
Annexe 1
Ouvrage avec pages composées Répertoire BBB1 Pages pOOO 1 .TIF Illustrations i0001_01.TIF
[0001_02.TIF p0002.TIF i0002_01.TIF etc.
Chaque résolution choisie produit un fichier. Le prestataire disposera ces différentes catégories de fichiers dans des répertoires indépendants.
Nous aurons donc pour chaque document les fichiers suivants :
- le fichier « brut de scan » correspondant à la haute résolution. Ce fichier doit toujours être fourni par le prestataire. Il sera utile pour toute opération future de conversion des images soit dans un but d'augmenter la résolution des images utilisées soit pour la mise en œuvre de nouveaux formats de compression. Il pourra dans certaines circonstances être mis à la disposition des « lecteurs » qui souhaitent disposer d'une plus grande résolution d'affichage ;
-les fichiers de consultation correspondant aux images affichables ;
- les fichiers imprimables.
2.4.1.3. Les formats de données
Le tableau suivant indique les formats de données à employer pour les différentes catégories de fichier applicables à chaque type de média.
Conduire un projet de numérisation
Media Brut de scan Fichier de consultation
Fichier d'impression
Documents imprimés TIFF GR.4 PDF PDF Documents iconographiques
TIFF non compressé JPEG (80 %) JPEG (80 %)
Microformes TIFF GR.4 PDF PDF
2.4.2. Indexation
L'indexation permet de faire le lien entre la notice bibliographique répertoriant le document primaire et le document image. La mise en œuvre de ce lien pour une consultation nécessite de disposer d'une application informatique qui assurera les fonctions d'interrogation et de consultation des documents. Cette application est à la charge de la bibliothèque. Afin de simplifier le travail de saisie du prestataire, nous proposons la saisie par ce dernier d'un identifiant unique (un numéro d'ordre), affecté à chaque document. Ce numéro sera inscrit sur une étiquette apposée sur le document. Ce numéro servira de lien entre les images et les notices bibliographiques. Le lien entre les fichiers images et ce numéro sera consigné dans un fichier d'identification accompagnant la fourniture.
2.4.2.1. L'identification
Cette identification constituera un identifiant unique du document. On pourra envisager la nomenclature suivante :
Scénario Identification de la bibliothèque
Identification de la collection
Numéro séquentiel
Scénario I X
Scénario 2 X X
Scénario 3 X X X
Annexe 1 287
Le scénario 1 est le plus simple. À chaque document est attribué un numéro séquentiel unique lors de sa sortie pour la numérisation. Ce numéro est consigné dans le fichier matière, ce qui permettra d'établir le lien entre la notice bibliographique et le document.
Le scénario 2 permet de segmenter le fonds par collection. Dans ce cas, on pourra limiter l'unicité du numéro séquentiel à la collection. Ce scénario est adapté si l'on entreprend la numérisation de plusieurs collections simultanément et trouve sa justification si les fichiers matière des 2 collections sont distincts.
Le scénario numéro 3 permet de matriculer les documents par l'identification de la bibliothèque. Cette option doit être considérée comme une précaution supplémentaire.
Pour tous ces scénarios, la saisie reste minimale.
2.4.2.2. Le fichier d'identification
Le fichier d'identification permet d'établir le lien entre les identifiants des documents et les fichiers images résultant de la numérisation. Ce fichier permet de minimiser l'impact sur la
m chaîne de production tout en laissant à l'application destinataire | toute latitude pour structurer sa propre base documentaire. | Le fichier d'identification accompagne chaque fourniture. Il | est généré au format ASCII délimité conformément à la structure | suivante : co c
£ Identifiant lot
8 Identifiant document. Nom répertoire HR, Nom répertoire BR, Nom | répertoire MR
Q. 3 Idem --s Idem -(A C
ï HR Haute résolution (brut de scan) :| BR Basse résolution (fichier de consultation) 5 MR Moyenne résolution (fichier d'impression) ©
Conduire un projet de numérisation
Le fichier d'identification sera disposé sous la racine du répertoire principal et désigné par :
NUMERO_DE_LOT.IDX
2.4.3. Contrôle
À l'issue de la numérisation de chaque lot de documents, une vérification est effectuée par le prestataire. Cette vérification portera sur un échantillon de la production. Dans certains cas particuliers, il pourra être demandé un contrôle exhaustif.
2.4.3.1. Les échantillons de contrôle
Le prestataire procédera à un contrôle par sondage des documents numérisés. Cet échantillon sera constitué d'un nombre d'éléments déterminé selon les règles précisées au tableau suivant.
Catégorie Qualité
Catégorie Bonne Moyenne Mauvaise
Documents imprimés Ouvrages reliés communs 10% 20% 30%
Ouvrages reliés anciens 20% 30% 100%
Périodiques, magazines 10% 20% 30%
Brochures 10% 15 % 20%
Manuscrits 20% 30% 50%
Documents iconographiques Photographies 10% 20% 30%
Diapositives 10% 20% 30%
Illustrations 10% 20% 30%
Dessins 10% 20% 30%
Annexe 1
Catégorie Qualité
Catégorie Bonne Moyenne Mauvaise
Cartes 10% 20% 30%
Objets 10 % 20% 30%
Microformes Microfilms 10% 20% 30%
Microfiches 10 % 20 % 30%
Cartes à fenêtre 10 % 20% 30 %
L'échantillon de contrôle comportera pour chaque document les éléments suivants :
- la première page ; - la ou les pages du sommaire ; - des pages intérieures choisies de manière aléatoire, à
concurrence du pourcentage de nombre de pages précisé dans le tableau ci-dessus ;
- la dernière page.
2.4.3.2. Les procédures de contrôle
Outre la constitution de l'échantillon de contrôle, le prestataire devra mettre en place des contrôles internes nécessaires à la surveillance du procédé employé.
- insertion de mires de contrôle ; - étalonnage de la chaîne de numérisation ; - contrôle visuel « à la volée » en cours de numérisation. Le prestataire décrira de manière exhaustive son processus
de production et les moyens de contrôle qu'il entend employer. Lors du contrôle de l'échantillon demandé, il procédera à
une restitution sur une imprimante des éléments de cet échantillon. Les reproductions ainsi produites seront annexées au rapport de contrôle de production.
Conduire un projet de numérisation
Chaque page restituée portera les informations suivantes : - identifiant du lot ; - identifiant du fichier image ; - date d'impression. Un rapport de contrôle sera établi pour l'ensemble des lots
traités conformément aux spécifications fournies au § 2.3.3.
2.4.3.3. Le traitement des anomalies
En cas d'anomalie détectée lors du contrôle de l'échantillon, le prestataire devra la signaler dans le rapport de contrôle et reprendre la numérisation intégrale du lot concerné.
2.4.4. Définition des supports de livraison
Les fichiers images seront livrés sur CD-R conformément aux normes ISO/IEC 9660:1988 et ISO/IEC 10149:1989.
2.4.4.1. Conditionnement des CD-ROM
Le prestataire constituera dans la mesure du possible un CD-R ou un ensemble de CD-R par lot de numérisation. En cas de nécessité, il pourra juxtaposer sur certains CD-R les images de plusieurs lots, il veillera cependant à signaler cette situation dans la fourniture.
Les CD-R seront gravés avec le plus grand soin. Le taux de BLER toléré sera inférieur à 50 et ne devra jamais excéder 100.
Chaque CD-R sera identifié par une impression des informations suivantes :
- nom de la bibliothèque ; - titre de la collection ; - numéro de lot (avec un indice suite pour les lots
nécessitant plusieurs CD, ou plusieurs numéros de lots en cas de juxtaposition de plusieurs lots sur un même CD) ;
- date de fabrication du support.
Annexe 1
2.4.4.2. Organisation des fichiers
Le CD-R comportera autant de fichiers d'identification que de lots contenus dans le CD. Chaque fichier d'identification sera désigné par un nom structuré ainsi : « NUMERO_DE_LOT.IDX ».
Les fichiers images correspondant à chaque lot seront disposés dans un répertoire désigné par NUMERO_DE_LOT.
Les fichiers images positionnés dans ce répertoire porteront un numéro séquentiel.
2.5. Calendrier d'échelonnement des opérations
Le tableau suivant indique le calendrier prévisionnel des opérations. Son objectif est d'indiquer au prestataire la cadence de production envisagée afin qu'il puisse planifier les prestations.
Etape Prestation Délai Lot 1
Livraison Réception Traitement Retour Contrôle Accusé de réception de la livraison (acceptation ou refus)
Lot 2 Livraison
Réception Traitement Retour Contrôle Accusé de réception de la livraison (acceptation ou refus)
Lot 3 Livraison
292 Conduire un projet de numérisation
Etape Prestation Délai Réception
Traitement Retour
Contrôle Accusé de réception de la livraison (acceptation ou refus)
Lot 4 Livraison Réception
Traitement Retour Contrôle Accusé de réception de la livraison (acceptation ou refus)
Lot 5 Livraison Réception Traitement Retour Contrôle Accusé de réception de la livraison (acceptation ou refus)
Lot 6 Livraison Réception Traitement Retour
Contrôle Accusé de réception de la livraison (acceptation ou refus)
Annexe 1 293
3. CONDITIONS D'EXÉCUTION DE LA PRESTATION
Nous résumons dans ce paragraphe les conditions générales de déroulement des tâches en précisant les différentes étapes contractuelles et les documents échangés entre le prestataire et la bibliothèque.
Le schéma suivant représente le processus.
Etape 1 Préparation
de lots
Etape 2 Réception des lots
Etape 3 Numérisation
des lois
Etape 4 Contrôle des lots
Etape 5 ^ Conditionnement
des lots ,
Etape_6 Contrôle
de réception
o > to
©
Conduire un projet de numérisation
3.1. Préparation des lots
Cette tâche incombe à la bibliothèque. Elle pourra dans certaines circonstances être confiée à du personnel détaché par le prestataire, mais dans ce cas, le conservateur de la bibliothèque assume la supervision des travaux effectués.
Les documents suivants seront produits : - étiquette de lot ; - listing des constituants du lot ; - bon de commande.
3.2. Réception des lots
Le prestataire réceptionne le lot et en effectue le contrôle de conformité. Il signale éventuellement toute disparité entre la commande et le contenu effectif du colis. Il signale en outre toute détérioration des documents non explicitement signalée par la bibliothèque.
Les documents suivants sont transmis par le prestataire : - accusé de réception ; - signalement des anomalies.
3.3. Numérisation des lots
Tout au long des opérations, un document accompagne le lot : - la fiche de suivi des travaux. Cette fiche permet aux opérateurs de consigner tout dys
fonctionnement relatif au traitement du lot.
3.4. Contrôle des lots
Le contrôle des lots est effectué a posteriori selon le protocole défini dans le marché.
Annexe 1
Cette étape produit les documents suivants : - un rapport de contrôle de production ; - les reproductions des éléments contrôlés.
3.5. Conditionnement des lots
Le prestataire reconditionne le lot dans un état identique à celui prévalant lors de sa réception. Il joint au colis les documents suivants :
- le rapport de contrôle de production ; - l'étiquette de lot ; - le listing spécifiant le contenu du support informatique.
3.6. Contrôle de réception
A la réception du lot, la bibliothèque effectue un contrôle minutieux de la fourniture au terme duquel elle adresse au prestataire les documents suivants :
- accusé de réception ; - signalement des anomalies éventuelles ; - bon d'acceptation / de refus des travaux. En cas d'anomalie, un signalement est adressé au prestataire
avec un retour du lot concerné. Le prestataire assume alors une reprise de la numérisation sur l'ensemble du lot. Si dans une même fourniture, la bibliothèque est conduite à refuser plus de deux lots, la totalité de production est alors refusée et renvoyée au prestataire.
296 Conduire un projet de numérisation
4. DISPOSITIONS ADMINISTRATIVES GÉNÉRALES
Ce paragraphe décrit les conditions administratives d'exécution du marché.
4.1. Modalités de règlement
Le prestataire produira une facturation au rythme de l'avancement des travaux réceptionnés sur la base suivante :
- à la fin de la prestation ; - mensuellement ; - autre. La facture devra stipuler la nature des travaux réalisés et
préciser les identifiants de lots concernés. Elle sera accompagnée du « bon d'acceptation » des lots correspondants.
4.2. Respect des délais et pénalités de retard
Le prestataire s'engage sur un calendrier de production éta- = bli au démarrage de l'opération. Il devra en respecter les délais | afin de permettre un déroulement progressif de la prestation. En » cas de glissement des délais résultant de circonstances non mai- f trisables par le prestataire, ce dernier devra en informer officiel- | lement le responsable de la bibliothèque dans les meilleurs délais g et proposer un nouveau calendrier des prestations. Dès réception §. de cet avis, le responsable convoquera le prestataire pour statuer | du fondement des raisons invoquées et signifier l'acceptation ou ^ le refus du calendrier proposé. i1
En cas de négligence avérée de la part du prestataire, une § pénalité sera appliquée sur le montant des prestations sur la base ^ de la formule suivante : 1
P = (V x R) / 300 |
Annexe 1
dans laquelle P représente le montant des pénalités, V le montant hors taxes des prestations commandées, R le nombre de jours calendaires de retard.
En outre, si l'immobilisation des documents confiés est jugée inacceptable pour le bon fonctionnement de la bibliothèque, le prestataire devra alors, sur demande du conservateur, retourner à ses frais ces documents et en assurer ultérieurement la collecte pour la poursuite de la prestation.
4.3. Régime de propriété
Tous les documents confiés au prestataire sont soit la propriété de la bibliothèque, de l'université ou de la municipalité -ou de l'État -, soit celle des éditeurs signalés dans l'ouvrage et avec lesquels l'université aura signé une convention pour l'utilisation des documents sous une forme électronique.
Le prestataire devra retourner à la bibliothèque l'ensemble des originaux qui lui sont confiés. Il devra en outre s'engager à ne pas utiliser les images produites à d'autres fins et s'interdira toute communication de tout ou partie de ces images à des tiers.
Le prestataire devra, pour des raisons de sécurité conserver une copie de sauvegarde des supports fournis à la bibliothèque. Il devra cependant s'engager à détruire ces supports soit dès signification écrite du conservateur soit au terme d'un délai de 3 ans après la fin de la prestation.
4.4. Règlement des litiges
Tout litige concernant le déroulement de la prestation fera l'objet d'un courrier précis échangé entre les parties. Ce courrier sera suivi éventuellement d'une réunion de conciliation en présence des différents acteurs et de leurs responsables.
Conduire un projet de numérisation
En cas de non-conciliation, le règlement du litige sera porté devant le tribunal compétent.
Dans tous les cas, le prestataire s'engage à retourner sans conditions à la bibliothèque les documents qui lui ont été confiés. Ces documents devront alors être reconditionnés par le prestataire.
5. PRÉSENTATION DE L'OFFRE
Le dossier de réponse à la consultation comprendra les éléments suivants :
5.1. Dossier commercial
Ce dossier décrit le profil de la société. Le soumissionnaire produira une fiche d'identité de la
société comprenant notamment : - la structure sociale ; - la structure fonctionnelle et les effectifs en distinguant la
structure directement concernée par l'activité en relation avec la proposition ;
- les chiffres d'affaires des 3 dernières années en faisant ressortir la part correspondant à l'activité en relation avec la proposition ;
- les moyens logistiques disponibles pour assurer la prestation ;
- les références précises de prestations similaires à celles demandées.
Il décrira par ailleurs l'environnement technologique de développement et les standards techniques adoptés et mis en œuvre.
Annexe 1
5.2. Dossier technique
Ce dossier décrira de manière précise : -l'organisation que le prestataire entend mettre en œuvre
pour la prise en charge de la prestation : description du processus de production - collecte, réception, préparation, numérisation, contrôle, conditionnement et réexpédition ;
- les moyens matériels et humains dont il dispose où qu'il envisage éventuellement d'acquérir. Il précisera en outre s'il entend faire appel à de la sous-traitance pour tout ou partie des travaux demandés, et indiquera les références exactes de ses sous-traitants ;
- les préconisations techniques qu'il propose pour assurer la conformité de la fourniture avec les principes énoncés dans ce cahier des charges et les éventuelles dérogations qu'il juge utiles d'appliquer pour un meilleur résultat au vu des objectifs signalés et des évolutions de la technologie. Il devra, dans ce cas argumenter pleinement ses préconisations ;
- le calendrier de mise en œuvre qu'il envisage d'appliquer à la prestation en prenant compte en particulier l'échelonnement des mises à disposition des documents et de leurs retours à la bibliothèque.
5.3. Engagements du prestataire
La bibliothèque attend du prestataire qu'il s'engage en termes de résultats pour la prestation demandée. Cet engagement implique de sa part :
- la mise en place d'un processus de production adapté aux différentes natures de documents à numériser ;
- l'emploi des meilleures technologies disponibles ;
Conduire un projet de numérisation
- l'application d'un procédé de contrôle de production rigoureux ;
- la tenue impérative d'un registre de suivi des travaux ; - un contrat de garantie sur la fourniture pour une durée de
3 ans minimum, avec une reprise des documents défectueux.
5.4. Fiche de prix par type de prestation
Tableau des prix pour la numérisation de documents imprimés
Travaux Quantité PUTTC Total TTC Préparation
Numérisation
Haute résolution (600 dpi)
Moyenne résolution (300 ou 200 dpi)
Encodage
Traitement d'images
Redressement
Cadrage
Suppression du fond
Saisie de l'indexation
Saisie de l'identification
Autre saisie
Génération du fichier d'index
Contrôle
Contrôle par échantillonnage
Impression de l'échantillon
Production du rapport de contrôle
Reconditionnement
Autre traitement
Annexe 1 301
Travaux Quantité PUTTC Total TTC Autre traitement
Production et fourniture du CD-ROM brut de scan
Production et fourniture du CD-ROM de diffusion
Production de la bande magnétique (DLT) de sauvegarde
Pressage des CD-ROM
Coût du transport des lots
Frais d'emballage
Enlèvement des lots
Retour des lots
Option 1 - Prestation d'assistance à la préparation des lots
Option 2 - Prestation d'assistance au reclassement des documents
Tableau des prix pour la numérisation de documents iconographiques
Travaux Quantité PUTTC Total TTC Préparation
Reproduction de tirage papier
Contretypage vers phototype 24 x 36
Numérisation haute résolution
Traitement d'images - Recadrage technique
Génération des différents formats
Haute résolution (TIFF non compressé)
Plein écran (768 x 512)
Vignettes (128 x 192)
Conduire un projet de numérisation
Travaux Quantité PUTTC Total TTC Saisie de l'indexation
Saisie de l'identification
Autre saisie
Génération du fichier d'index
Contrôle
Contrôle par échantillonnage
Impression de l'échantillon
Production du rapport de contrôle
Reconditionnement
Autre traitement
Autre traitement
Production et fourniture du CD-ROM brut de scan
Production et fourniture du CD-ROM de diffusion
Production de la bande magnétique (DLT) de sauvegarde
Pressage des CD-ROM
Coût du transport des lots
Frais d'emballage
Enlèvement des lots
Retour des lots
Option 1 - Prestation d'assistance à la préparation des lots
Option 2 - Prestation d'assistance au reclassement des documents
Annexe 1 303
Tableau des prix pour la numérisation de microformes
Travaux Quantité PUTTC Total TTC Préparation
Numérisation
Haute résolution (400 dpi)
Moyenne résolution (300 ou 200 dpi)
Encodage
Traitement d'images
Redressement
Cadrage
Suppression du fond
Saisie de l'indexation
Saisie de l'identification
Identification automatique
Génération du fichier d'index
Contrôle
Contrôle par échantillonnage
Impression de l'échantillon
Production du rapport de contrôle
Reconditionnement
Autre traitement
Autre traitement
Production et fourniture du CD-ROM brut de scan
Production et fourniture du CD-ROM de diffusion
Production de la bande magnétique (DLT) de sauvegarde
Pressage des CD-ROM
Coût du transport des lots
Conduire un projet de numérisation
Travaux Quantité PUTTC Total TTC Frais d'emballage
Enlèvement des lots
Retour des lots
Option 1 - Prestation d'assistance à la préparation des lots
Option 2 - Prestation d'assistance au reclassement des documents
Conduire un projet de numérisation
1. NUMÉRISATION DE DOCUMENTS IMPRIMÉS - LOT N°
Objectif de la numérisation
Description du fonds
Support Format Couleur Volume Quantités Commentaires
N. unités
N. éléments
Ouvrages reliés communs
Ouvrages reliés anciens
Périodiques, magazines
Brochures
Manuscrits
Identification des documents
Prestations demandées Préparation Dégrafage •
Massicotage • Tris •
Numérisation
600 dpi • 300 dpi • 200 dpi •
Encodage TIFF Gr.4 • TIFF LZW n
PDF • TIFF non compressé •
JPEG • DjVu •
Traitements images Redressement •
Cadrage • Suppression fond •
Saisie de l'indexation
Identification • Autre •
Génération index • Contrôle
Echantillonnage • Impression •
Rapport de contrôle •
308 Conduire un projet de numérisation
Reconditionnement Agrafage • Brochage • Reliure •
CD ROM Brut de scan • CD ROM diffusion •
DLT sauvegarde • Pressage •
Description de la fourniture (hors médias initiaux)
Répartition des documents par média: Ilot par CD HR [] 1 lot par CD diffusion [] n lots par CD HR Q n lots par CD diffudion []
CD images haute
résolution
CD images diffusion
DLT de
auvegarde
CD pressé
Quantité
Identification des fournitures
Commentaires
Annexe 2 309
2. NUMÉRISATION DE DOCUMENTS ICONOGRAPHIQUES - LOT N°
Objectif de la numérisation
Description du fonds
Format Quantité par type et polarité
Commentaire Format N&B Couleur Commentaire Format
Positif Négatif Positif Négatif
Commentaire
Tirage papier 10 x 15
Tirage papier 13 x 18
Tirage papier 18 x 24
Tirage papier 21 x 29,7
Phototype 24 x 36
Phototype 4x4
Phototype 4x5
Phototype 6x6
Phototype 6x7
Phototype 6x9
Autre :
310 Conduire un projet de numérisation
Identification des documents
Prestations demandés Préparation des documents sources •
Reproduction de tirage papier • Contretypage vers phototype 24 x 36 •
Numérisation haute résolution ( Format TIFF non compressé) Tirage papier 10 x 15 à 600 dpi • Tirage papier 13 x 18 à 600 dpi • Tirage papier 18 x 24 à 400 dpi •
Tirage papier 21 x 29,7 à 300 dpi • Phototype 24 x 36 à 3 000 dpi • Phototype 4 x 4 à 2 000 dpi • Phototype 4 x 5 à 2 000 dpi • Phototype 6 x 6 à 1 500 dpi • Phototype 6 x 7 à 1 400 dpi • Phototype 6 x 9 à 1 200 dpi •
Recadrage technique (Suppression des marges)
• Génération de format de consultation (Format JFIF avec compression JPEG à 80 %) plein écran (dans 768 x 512 pixels) • Vignette (maxi 128 x 192 pixels) •
Contrôle • Echantillonnage •
Annexe 2 311
Impression • Rapport de contrôle • Reconditionnement •
CD-ROM brut de scan • CD-ROM diffusion • CD-ROM diffusion •
Pressage • Description de la fourniture
(hors médias initiaux)
Les images sont livrées sur des médias contenant : • les images (HR - haute résolution, PE - plein écran et VI - vignettes) sans contrainte de nommage, • un fichier ASCII délimité de récolement, « recolement.txt » donnant le chemin d'accès des fichiers avec leur type (HR, PE ou VI) et l'identifiant du document source. NB : Pour une fourniture nécessitant plusieurs médias, les formats de consultation ne doivent pas être situés sur un média différent de celui de l'image haute résolution.
• CD-ROM • DVD-ROM • autre :
Identification des fournitures
Commentaires
312 Conduire un projet de numérisation
3. NUMÉRISATION DE MICROFORMES - LOT N°
Objectif de la numérisation
Description du fonds
Support
C _o
o -T3 Cd
C/5 CL» 3 > <D
_o e O z
3 <U 3 O U
c 03 l-i
£ <u û-3 O
OH J CQ
c CD S <D G C _o -3 c o U
u E _3 O >
C
s c •n O
sli
3 O
Observations
Microfilms 16 mm
Microfilms 16 mm
Microfilms 16 mm
Microfilms 16 mm
Microfilms 16 mm
Microfilms 35 mm
Microfilms 35 mm
Microfilms 35 mm
Microfilms 35 mm
Microfilms 35 mm
Microfilms 35 mm
Microfiches 105 mm
Microfiches 105 mm
Microfiches 105 mm
Microfiches 105 mm
Cartes à fenêtre AAjA 4 3 ;
AA . 10
Annexe 2
Identification des documents
Prestations demandées Préparation
Sortie des jacquettes • Identification des sessions •
Numérisation
400 dpi • 300 dpi • 200 dpi •
Encodage TIFF Gr.4 •
PDF • TIFF LZW •
TIFF non compressé • JPEG • DjVu •
Traitements images Redressement •
Cadrage • Découpage des pages • Saisie de l'indexation
Identification • Lecture des BLIP •
Lecture des perforations • Génération index •
Contrôle Echantillonnage •
Impression • Rapport de contrôle •
314 Conduire un projet de numérisation
Reconditionnement Remise en jacquettes •
Rembobinage • CD ROM Brut de scan •
CD ROM diffusion • DLT sauvegarde •
Pressage •
Description de la fourniture (hors médias initiaux)
Répartition des documents par média: Ilot par CD HR • 1 lot par CD diffusion •
n lots par CD HR [] n lots par CD diffudion []
CD images haute
résolution
CD images diffusion
DLT de
auvegarde
CD pressé
Quantité
Identification des fournitures
Commentaires
Annexe 3
Repères techniques
Charlette Buresi et Laure Cédelle-Joubert
Mode de numérisation des différents documents
Type de document Mode de numérisation recommandé Définition
Texte Texte imprimé Bitonal 300/400 dpi
Texte illustré noir et blanc Niveau en gris 300 / 400 dpi
Texte illustré couleur Couleur 24 bits 300 dpi
Cartes en couleur Couleur 24 bits 300 dpi. Pour visualiser des légendes très petites on peut dépasser les 400 dpi
Texte dactylographié ou au stylo bille
Bitonal Au moins 300 dpi
Texte manuscrit à l'encre ou au feutre
Bitonal 300 dpi
Papyrus Couleur 24 bits 600 dpi
Gravure Gravure sur bois Bitonal 600 dpi
similigravure Niveau de gris 300 dpi
Eau forte Niveaux de gris 400 dpi
Aquateinte Niveaux de gris 300 dpi
Lithographie Niveaux de gris 300 dpi
Photographie Photographie noir et blanc Niveaux de gris Au moins 300 dpi
Photographie couleur Couleurs 24 bits Au moins 300 dpi
D'après les normes suivies à la BNF, la Bibliothèque du Congrès et l'université de Comell.
Conduire un projet de numérisation
Caractéristiques des supports optiques et magnétiques
Supports optiques (DON, CD, DVD)
Supports magnétiques (DAT, bande magnétique,...)
Temps d'accès
Plus rapides que le support optique
Transfert de gros fichiers
La possibilité de la défragmentation accélère la procédure
Stockage des fichiers volumineux
Très compétitifs
Stockage hors ligne
Coût : - CD-R et DVD-R : quelques centimes la Mo - Disques optiques de grande capacité : 0,04 à 0,07 € le Mo
Conservation fiable pour le DON. Vérification des disques tous les 5 ans pour les CD-R et les DVD-R. Support actuellement le plus fiable pour l'archivage
Coût : - Bandes magnétiques : quelques centimes le Mo - Disques magnétiques fixe : 0,04 à 0.07 € le Mo
Supports très sensibles aux conditions de conservation. Ne conviennent réellement que comme support de transfert.
Stockage en ligne
Coût le plus intéressant, mais sécurisation coûteuse quand la capacité en ligne augmente
Maintenance et usure
Grande sensibilité à la poussière, mais le dépoussiérage est possible et les fabricants recherchent des systèmes pour éviter la pénétration de la poussière.
Pas d'usure à la lecture, mais à l'écriture le laser peut endommager le support.
Nécessité de changer la tête optique d'un enregistreur / lecteur magnéto-optique tous les deux ans au moins selon la cadence d'utilisation.
Grande sensibilité aux chocs, vibrations et champs magnétiques.
Pas d'usure à la lecture
Annexe 3
Supports optiques (DON, CD, DVD)
Supports magnétiques (DAT, bande magnétique,...)
Sauvegarde Support non réinscriptible
Faible vitesse d'écriture
Excellents supports de sauvegarde pour une sauvegarde quotidienne sur bande magnétique. Cependant phase de restauration assez lente de récupération des données.
Annexe 4
Quelques textes utiles
Valérie Game
Directive n° 91/250 du Conseil du 14 mai 1991 concernant la protection juridique des programmes d'ordinateur.
Directive n° 92/100 du Conseil du 19 novembre 1992 relative au droit de location et de prêt et à certains droits voisins du droit d'auteur dans le domaine de la propriété intellectuelle.
Directive n° 93/98 du Conseil du 29 octobre 1993 relative à l'harmonisation de la durée de protection du droit d'auteur et de certains droits voisins.
Directive n° 95/46/CE du Parlement européen et du Conseil du 24 octobre 1995 relative à la protection des personnes physiques à l'égard du traitement des données à caractère personnel et à la libre circulation de ces données.
Directive n0 96/9/CE du Parlement européen et du Conseil du 11 mars 1996 concernant la protection juridique des bases de données.
Directive n° 97/36/CE du Parlement européen et du Conseil visant à la coordination de certaines dispositions législatives, réglementaires et administratives des États Membres relatives à l'exercice d'activités de radiodiffusion télévisuelle.
Directive n° 99/93/CE du 13 décembre 1999 sur un cadre communautaire pour les signatures électroniques.
Loi portant fixation du budget général de l'exercice 1922 (.Journal officiel du 1er janvier 1922) : article 119.
Loin° 78-17 du 6 janvier 1978 relative à l'informatique, aux fichiers et aux libertés.
Conduire un projet de numérisation
Loi n" 78-753 du 17 juillet 1978 portant diverses mesures d'amélioration des relations entre l'administration et le public et portant diverses dispositions d'ordre administratif, social et fiscal.
Loi n0 79-18 du 3 janvier 1979 sur les archives. Loi n° 79-587 du 11 juillet 1979 relative à la motivation des
actes administratifs et à l'amélioration des relations entre l'administration et le public.
Loi n0 81-766 du 10 août 1981 relative au prix du livre. Loi n0 86-1067 du 30 septembre 1986 relative à la liberté de
communication. Loi n° 92-597 du Fr juillet 1992 relative au Code de la pro
priété intellectuelle (plusieurs fois modifiée). Loi n° 94-665 du 4 août 1994 relative à l'emploi de la lan
gue française et textes d'application.
Circulaire du 14 février 1994 relative à la diffusion des données publiques (Journal officiel du 19 février 1994).
Circulaire du 20 mars 1998 relative à l'activité éditoriale des administrations et des établissements publics de l'État (Journal Officiel du 22 mars 1998).
Circulaire du 7 octobre 1999 relative aux sites internet des services et des établissements publics de l'État (.Journal officiel du 12 octobre 1999).
Circulaire du 9 décembre 1999 relative à l'institution d'un médiateur de l'édition publique (Journal officiel du 21 décembre 1999).
Circulaire du 31 décembre 1999 relative à l'aide aux démarches administratives sur l'intemet (Journal officiel du 7 janvier 2000).
Annexe 5
Contrats de cession ou d'acquisition de droits d'auteur
Valérie Game
La cession ou l'acquisition de droits d'auteur doit être écrite, signée des deux parties : cédant et cessionnaire.
Certaines mentions sont impératives sous peine de nullité : • chacun des droits cédés (droit de reproduction et/ou droit
de représentation) doit être énoncé ; • le domaine d'exploitation des droits cédés doit être déli
mité quant : - à son étendue : il s'agit de définir les modes d'exploita
tion en jeu ( par exemple l'enregistrement magnétique ou cinématographique, la reproduction par voie d'imprimerie...) ;
- à sa destination : il convient de préciser pourquoi et à quelle(s) fin(s) la cession est organisée (aux fins de diffusion sur le réseau Internet, aux fins de publication sur support papier...) ;
- au lieu : il faut indiquer le territoire de diffusion de l'œuvre (la France, l'Union européenne, le monde entier...) ;
-à sa durée : l'auteur peut céder ses droits pour la durée entière de la propriété intellectuelle ou une durée plus courte.
Par ailleurs, le prix de cession doit être indiqué au contrat. Il en est de même si la cession est gracieuse. La rémunération de l'auteur est proportionnelle. Elle ne peut être forfaitaire que dans des cas limités, définis expressément par la loi (article L 131 -4 du CPI).
BIBLIOGRAPHIE
par Charlette Buresi et Laure Cédelle-Joubert
BEQUET, Gaëlle. - La numérisation des documents patrimoniaux. In : Protection et mise en valeur du patrimoine des bibliothèques , Paris, DLL, 1998.
BEQUET, Gaëlle. - La numérisation et la consultation des documents. In : Bibliothèques et informatique, Paris, DLL, 1997.
BEQUET, Gaëlle, CEDELLE-JOUBERT, Laure. - Numérisation et patrimoine documentaire. In : Bulletin des bibliothèques de France, n0 4, 2000.
BURESI, Charlette. - À propos de la numérisation, Paris, Sous-Direction des bibliothèques et de la documentation, 1999. URL : http:Hwww.sup.adc.ediication.fr/bibl (visité le 6 décembre 2001).
JACQUESSON, Alain, RIVIER, Alexis. - Bibliothèques et documents numériques, Paris, Éditions du Cercle de la Librairie, 1999.
KENNEY, Anne R., CHAPMAN, Stephen. - Digital Ima-ging for Libraries and Archives, Ithaca (New-York), Comell University Library, 1996.
LEE, Stuart D. - Digital imaging : a practical handbook, Londres, Library Association Publishing, 2000.
Conduire un projet de numérisation
LUPOVICI, Catherine. - La rétroconversion de documents. In : Le document numérique, n° 2, 1997.
LUPOVICI, Catherine. - L'information bibliographique des documents électroniques. In : Bulletin des Bibliothèques de France, t. 43, n° 4, 1998.
LUPOVICI, Catherine. - Identification des ressources sur Internet et métadonnées. In : Documentaliste-Sciences de l'information, n" 6, 1999.
LUPOVICI, Catherine. - Les stratégies de gestion et de conservation préventive des documents électroniques. In : Bulletin des bibliothèques de France, t. 45, n0 4, 2000.
LUPOVICI, Catherine. - Les principes techniques et orga-nisationnels de la préservation des documents numériques. In : Journées d'études / 31' Congrès de l'ADBU, Marseille, 14 septembre 2001. URL: http : ! ! www-sv .cict fr! adbu (visité le 12 novembre 2001).
LUPOVICI, Catherine. - Les besoins et les données techniques de préservation. In : 67"' IFLA général conférence, August 16-25, 2001. 163-168F. URL : http://www.ifla.org/IV/ifla67/ papersl163-168f.pdf (visité le 12 novembre 2001).
NEOUZE, Valérie. - Quelle bibliothèque numérique pour une bibliothèque patrimoniale ? L'exemple de la bibliothèque centrale du Muséum d'Histoire naturelle de Paris. Mémoire d'étude, mémoire DCB 9, Enssib, 2000.
SETA-JOANNIC, Frédérique. — Le rôle de la numérisation dans la mise en valeur des fonds patrimoniaux : l'exemple de la bibliothèque inter-universitaire Cujas, mémoire DCB 7, Enssib, 1999.
Les Bibliothèques numériques, [coord.] Gérard Dupoirier, Xerox. - Paris : Hermès, 1999. - 256 p. - (Document numérique ; 2. 3/4).
Bibliographie 325
Les Documents anciens, [coord] Jacques André, Marie-Anne Chabin. - Paris : Hermès, 1999. - 180 p. - (Document numérique ; n° spécial).
Sites Web HOULE, Françoise. - Ateliers de micrographie et de numé
risation, norme technique et financière, avril 2001, Agence intergouvemementale de la Francophonie, Banque internationale d'information sur les États francophones. URL : http:!! www.acctbief.orglatelier.htm (visité le 6 décembre 2001).
KENNEY, Anne R., SHARPE, L. H. - Illustrated book study : digital conversion requirements printed illustrations. URL : http :!! Icweb .loc .gov!preserv! rt! illbk! ibs .htm#abstract (visité le 6 décembre 2001).
Building Digital Collections : Technical Information, In Background Papers. Site de la Bibliothèque du Congrès. URL : http://memorY.loc.gov/ammem/ftpfiles.html (visité le 6 décembre 2001).
Flash Réseau, revue éditée par le Bibliothèque nationale du | Canada.
B URL: http:llwww.nlc-bnc.cal9lllindex-f.html (visité le ® 6 décembre 2001). | Ministère de l'Éducation nationale. Bibliothèques de
§ l'enseignement supérieur. Site présentant les résultats des enquê-s tes sur les projets de numérisation et donnant accès au catalogue § des fonds culturels numérisés. URL : http://www.sup.adc.educa-| tionfr/bib! (visité le 6 décembre 2001 ).
fD ^ Mission de la Recherche et de la Technologie du ministère 1 de la Culture et de la Communication, site présentant les recom-" mandations de la Direction du livre et de la lecture en matière de 1 numérisation. URL : http://www.culturefr/culture/mrt/numeri-^ sation (visité le 6 décembre 2001).
Conduire un projet de numérisation
Premier Ministre : Mission interministérielle de soutien technique pour le développement des technologies de l'information et de la communication dans l'administration. (MTIC). URL : http://www.mtic.pm.gouv.fr (visité le 6 décembre 2001).
Préservation Ressources. Site de l'université de Berkeley recensant la documentation sur le Web relative à la numérisation. URL : http://sunsite.berkeley.edu/Preservation/ (visité le 6 décembre 2001).
Composition : Compo-Méca sari
64990 Mouguerre
Impression : Europe Media Duplication S.A.
F53110 Lassay-les-Châteaux
N0 dossier : 9532 - Dépôt légal : juin 2002
No 551 -rrso0
collection
La Boîte à outils
C o n d u i r e u n p r o j e t d e n u m é r i s a t i o n
Si les projets de numérisation foisonnent dans les bibliothèques aujourd'hui, l'improvisation et l'enthousiasme prennent trop souvent le pas sur la réflexion organisée. Conduire un projet de numérisation, c'est réfléchir aux publics concernés, prendre la mesure des contraintes technologiques et réglementaires, fixer l'ambition et les limites du projet intellectuel et technique, exploiter et valoriser le produit de la numérisation.
P o u r p r é s e n t e r l ' é t a t l e p l u s r é c e n t d e s o u t i l s e t d e s r é f l e x i o n s s u r l a q u e s t i o n . , L a u r e C é d e l l e - J o u b e r t , r e s p o n s a b l e d e s q u e s t i o n s d e n u m é r i s a t i o n à l a d i r e c t i o n d u l i v r e e t d e l a l e c t u r e d u m i n i s t è r e d e l a C u l t u r e e t d e l a C o m m u n i c a t i o n , e t C h a r l e t t e B u r e s i , d i r e c t r i c e d e l a b i b l i o t h è q u e d e l ' É c o l e d u L o u v r e e t p r é c é d e m m e n t c h a r g é e d e s m ê m e s r e s p o n s a b i l i t é s à l a s o u s - d i r e c t i o n d e s b i b l i o t h è q u e s e t d e l a d o c u m e n t a t i o n d u m i n i s t è r e d e l ' É d u c a t i o n n a t i o n a l e , d e l ' E n s e i g n e m e n t s u p é r i e u r e t d e l a R e c h e r c h e , o n t r é u n i l e s m e i l l e u r s c o n n a i s s e u r s e t p r a t i c i e n s f r a n ç a i s . I l s p r o p o s e n t i c i l e p r e m i e r m a n u e l p r a t i q u e e t c o m p l e t p o u r t o u t e s l e s b i b l i o t h è q u e s , p u b l i q u e s e t u n i v e r s i t a i r e s , q u i s o u h a i t e n t s e l a n c e r d a n s c e q u i e s t a s s u r é m e n t l e d é f i p r o f e s s i o n n e l d u X X I * s i è c l e .
2-910227-43-X
97829 0227432
2-7430-0551-3
9782743005511
Top Related