Condui re un projet sati - enssib.fr · Élaboration d'un cahier des charges de numérisation 65...

345
collection La Boîte à outils Condui re un projet de numéri sati onl sous la direction de Charlette Buresi et Laure Cédelle-Joubert école nationale supérieure des sciences de l'information et des bibliothèques

Transcript of Condui re un projet sati - enssib.fr · Élaboration d'un cahier des charges de numérisation 65...

collection

La Boîte à outi ls

C o n d u i r e u n p r o j e t

d e n u m é r i sa t i o n l

sous la direction de Charlette Buresi et Laure Cédelle-Joubert

école nationale supérieure des sciences de l'information et des bibliothèques

Conduire un projet de numérisation

Catalogage Électre-Bibliographie (avant publication) Conduire un projet de numérisation / dir. Charlette Buresi, Laure Cédelle-Joubert. - Paris : Tec et Doc ; Villeurbanne (Rhône) : Presses de l'Enssib, 2002. - (La boîte à outils ; 13) ISBN 2-7430-0551-3 ISBN 2-910227-43-X RAMEAU :

DEWEY : Public concerné

documentation de bibliothèque : numérisation gestion de projets numérisation : spécifications 025 : Opérations bibliothéconomiques et documentaires Professionnel, spécialiste

DANGER PHOTOCOPILLAGE

TUE LE LIVRE

© LAVOISIER, 2002 11, rue Lavoisier - 75008 Paris

ISBN: 2-7430-0551-3

© ENSSIB, 2002 17-21, bd du 11 Novembre 1918 - 69623 Villeurbanne cedex

ISBN: 2-910227-43-X ISSN : 1259-4857

Toute reproduction ou représentation intégrale ou partielle, par quelque procédé que ce soit, des pages publiées dans le présent ouvrage, faite sans l'autorisation de l'éditeur ou du Centre français d'exploitation du droit de copie (20. rue des Grands-Augustins, 75006 Paris), est illicite et constitue une contrefaçon. Seules sont auton-sées. d'une part, les reproductions stnctement réservées à l'usage privé du copiste et non destinées à une utili­sation collective, et. d'autre pan, les analyses et courtes citations justifiées par le caractère scientifique ou d'information de l'œuvre dans laquelle elles sont incorporées (loi du lerjuillet 1992 - art. L 122-4 et L 122-5 et Code pénal art. 425 ).

Conduire un projet de numérisation

sous la direct ion de Charlette Buresi et Laure Cédel le-Joubert

collection la Boîte à outils

école nationale supérieure des sciences de l'information et des bibliothèques DOC

Editions TEC

Chez le même éditeur

Construire des indicateurs et tableaux de bord collection « La Boîte à outils » n0 15 P. Carbone, coord., 2002

Intégrer des personnels non permanents dans la bibliothèque collection « La Boîte à outils » n0 14 F. Mondon, coord., 2002

Recherche et veille sur le web visible et invisible - Agents intel­ligents, annuaires sélectifs, inteifaces des grands serveurs, por­tails thématiques B. Fœnix-Riou, 2001

ONT CONTRIBUÉ À CE VOLUME :

Olivier BOGROS, directeur de la bibliothèque municipale de Lisieux

Charlette BURESI, conservateur, directrice de la bibliothèque de l'École du Louvre, Paris, précédemment chargée du dossier numérisation, sous-direction des bibliothèques et de la documentation, ministère de l'Éducation nationale.

Laure CÉDELLE-JOUBERT, conservateur au bureau des politiques documen­taires, Direction du livre et de la lecture, ministère de la Culture et de la Communication

Thierry DELCOURT, directeur de la bibliothèque municipale à vocation régionale de Troyes

Jocelyne DESCHAUX, conservateur responsable du fonds ancien de la biblio­thèque municipale à vocation régionale de Toulouse

Marie-Pierre DION, directrice de la bibliothèque municipale de Valenciennes

Carine EL-BEKRI DINOIRD, directrice du SCD de Reims

Valérie GAME, chef du service juridique de la Bibliothèque nationale de France

Jacques GANA, conservateur à la bibliothèque interuniversitaire de méde­cine (BIUM) à Paris

Pierre GUINARD, conservateur responsable du fonds ancien de la bibliothèque municipale de Lyon

Catherine LUPOVICI, directrice du département de la bibliothèque numérique de la Bibliothèque nationale de France

José SANCHEZ, ingénieur de recherche, CINES (Centre informatique natio­nal de l'enseignement supérieur)

Albert SITRUK, ingénieur consultant, Parker Williborg

Mireille VlAL, conservateur à la bibliothèque interuniversitaire de Montpellier (médecine)

| Sommaire

MODE D'EMPLOI par Laure Cédelle-Joubert et Charlette Buresi.. 1

1. Pourquoi numériser ? 4 1.1. Diffuser 4 1.2. Valoriser 5 1.3. Préserver 6 1.4. Aider et susciter la recherche 7

2. Conduire un projet 8 Les défis 8

3. La numérisation en bibliothèque 10

PREMIÈRE PARTIE : Cadrer le projet A Les publics

par Thierry Delcourt 15

1. La diffusion 16

2. Les projets éditoriaux 18

3. Les usages savants 19 3.1. Consultation sur place et à distance 19 3.2. Les conséquences pour les bibliothèques . . 2 1

4. Les usages culturels et de loisir 22 4.1. L'usage culturel individuel 23 4.2. L'usage culturel de groupe 24

5. Les usages pédagogiques 27 5.1. L'éventail des projets possibles 27

6. Les usages touristiques 29 6.1. Les bornes interactives 30 6.2. Les catalogues multimédia 31

7. Conclusion 31

Les utilisations multiples d'un document numérisé par Thierry Delcourt 33

VIII Conduire un projet de numérisation

Numériser pour un public déficient visuel par Carine El-Bekri Dinoird 35

B Aspects juridiques de la numérisation par Valérie Game 43

1. Les grands principes du droit d'auteur 45 1.1. Le droit moral 45 1.2. Les droits patrimoniaux 46

2. L'utilisation des œuvres 47 2.1. La création littéraire et musicale 47

2.1.1. Le manuscrit 47 2.1.2. La correspondance 49 2.1.3. L'imprimé 51 2.1.4. Le reprint 54 2.1.5. La presse 56

2.2. La mise à disposition d'images -Cartes postales et photographies 58

3. Conclusion 62

DEUXIÈME PARTIE : Conduire le projet C La mise en œuvre de la numérisation

par Albert Sitruk 65

1. Élaboration d'un cahier des charges de numérisation 65 1.1. Introduction 65 1.2. Les composantes fonctionnelles

d'un système de GED 66 1.2.1. Les différentes natures

de documents numériques 66 1.2.2. L'architecture technique 71

1.3. Définition d'un projet de GED 78

Sommaire

1.4. Préparation du cahier des charges 80 1.4.1. Documents imprimés 81 1.4.2. Documents iconographiques 87 1.4.3. Microformes 90

2. Calculer les coûts financiers et humains 92 2.1. Procédure de production 92

2.1.1. Organisation des livraisons vers le centre de numérisation (CN).. 94

2.1.2. Organisation de la numérisation.... 95 2.2. Chronogramme des opérations 101 2.3. Simplification en cas de numérisation

en interne 104 3. Évaluer un prestataire 105

3.1. Capacités opérationnelles 105 3.2. Capacités financières 106 3.3. Références de réalisations similaires 106 3.4. Analyse de l'offre 106

4. Peser le choix entre interne et externe 107 4.1. Le poids de l'investissement 107 4.2. La disponibilité des personnels 108 4.3. La taille de l'opération 108 4.4. La spécificité des techniques mises

en œuvre 109 4.5. L'aptitude du fonds documentaire

à être déplacé 109

Numérisation interne ou externe - Le choix de Lyon par Pierre Gumard 111

Choisir son prestataire par Jocelyne Deschaux 115

Conduire un projet de numérisation

D Calculer les coûts induits de la numérisation par Jocelyne Deschaux 121 1. Avant et pendant la numérisation 122

1.1. Les coûts induits à prévoir au moment de la sélection des documents 122

1.2. Les coûts induits liés au choix du prestataire.. 123 1.2.1. Un test 123 1.2.2. Le cahier des charges 124

1.3. Le transfert des documents 125 1.3.1. Le transport 125 1.3.2. L'assurance 125

2. Après la numérisation 125 2.1. Le contrôle qualité 125 2.2. L'indexation 126

2.2.1. L'acquisition des outils 126 2.2.2. Le temps passé et le personnel

concerné 126

3. Conclusion 128

E Les choix techniques de la numérisation des documents imprimés par Catherine Lupovici 131

1. Les différents modes de numérisation des contenus 132 1.1. La numérisation en mode image 133

1.1.1. Les différents modes image 134 1.1.2 La résolution des images 135 1.1.3. La compression des données . . . . 1 3 6

1.2. La numérisation en mode texte 138 1.2.1. Le codage des systèmes d'écriture. . 139 1.2.2. La structure physique 140 1.2.3. La structure logique 141 1.2.4. Quel mode texte choisir ? 143

1.3. Les formats de fichiers 144

Sommaire

2. Les métadonnées 146 2.1. Les métadonnées descriptives 146

2.1.1 Le catalogage du document numérisé 147

2.1.2. Métadonnées descriptives incluses dans le document numérisé 149

2.2. Les métadonnées administratives 159 2.2.1. L'identification du document

numérisé 160 2.2.2. La gestion des accès 161 2.2.3. La gestion de la conservation à long

terme des documents numérisés. . . 162 2.3. Les métadonnées de structure 163

Les choix techniques à Lisieux : Des réserves à l'Internet - Les étapes de la mise en ligne par Olivier Bogros 167

TROISIÈME PARTIE : Évaluer et valoriser

F Constituer une base de données numérique par Charlette Buresi et Laure Cédelle-Joubert 177

1. Créer une base de données -L'exemple des enluminures médiévales -Les bases « Enluminures » et « LiberFloridus » .. 178 1.1. Historique du projet 178 1.2. Les futures bases 179

1.2.1. Le corpus 180 1.2.2. Le public et ses besoins 180

1.3. Informations et accessibilité 181 1.3.1. Déterminer les champs descriptifs ..181 1.3.2. Structuration des données 182 1.3.3. Les difficultés 186

XII Conduire un projet de numérisation

2. Consultation 187 2.1. Interface utilisateur 187

2.1.1. La présentation de la base 187 2.1.2. Le formulaire de recherche 187

3. Diffuser une base de données 194 3.1. La convention 194 3.2. Conditions juridiques de diffusion 195 3.3. L'aide en ligne 196 3.4. À la rencontre du public 197 3.5. Mise en ligne finale 198

Élaboration et consultation d'une base structurée José Sanchez 199

La solution Internet - L'exemple de Lyon par Pierre Guinard 205

Créer et diffuser un CD-ROM de documents numérisés - L'exemple du CD-ROM des manuscrits musicaux de Montpellier par Mireille Vial 211

1. L'État des lieux 212 1.1. Analyse de la situation 212

1.1.1. Les points positifs 212 1.1.2. Les points négatifs 212

1.2. Les facteurs « déclenchants » 213

2. Les enjeux 214 2.1. Pour quoi faire ? Les objectifs 214 2.2. Quoi ? Les réponses informatiques 215 2.3. Quoi ? La matière 217 2.4. Pour qui? 217

3. La réalisation 218 3.1. Les atouts 218

Sommaire XIII

3.2. Comment 218 3.2.1. L'équipe 218 3.2.2. Le budget 219 3.2.3. Les étapes techniques 220

3.3. Les difficultés 224

4. Le CD-ROM 225 4.0.1. La bibliothèque 225 4.0.2. Le corpus des folios choisis 225 4.0.3. La musique au fil des siècles 226 4.0.4. Les instruments de musique 226 4.0.5. Sur Internet 227

5. Bilan 227 5.1. Un outil de signalement et de référence ... 227 5.2. Le pari pédagogique 228

6. Conclusion 229

H Intégrer les documents numérisés dans un catalogue par Marie-Pierre Dion 231

1 1. Le choix du catalogue 232

| 2. L'enrichissement du catalogue 236 | 2.1. Le choix des corpus 236 I 2.2. La description des données numérisées. .. 238 | 2.3. L'évaluation des usages 240

g Q.

1 I Réaliser une exposition virtuelle sur Internet | Pourquoi, comment ?

"ï par Jacques Gana 243 .o

| 1. Pourquoi une exposition virtuelle 243 i 1.1. Expositions réelles et expositions virtuelles... 243 | 1.2. Sites web de bibliothèques 244 _i ©

XIV Conduire un projet de numérisation

2. Préparer l'exposition 246 2.1. Choisir un sujet 246 2.2. Élaborer la structure 248 2.3. Traiter les documents iconographiques . .. 248

3. Passage à la réalisation 250 3.1. Une préoccupation essentielle :

le temps de chargement 250 3.1.1. Les performances du mode

de connexion à Internet 250 3.1.2. Les formats de documents :

les images 251 3.1.3. Couleur ou noir et blanc 254 3.1.4. Les formats de documents :

les animations 254 3.1.5. Les formats de documents :

le son 255 3.1.6. Les formats de documents :

la vidéo 255 3.1.7. Les formats de documents :

le texte 256 3.2. Mise en forme 256

MÉMENTO

Les étapes d'un programme de numérisation par Charlette Buresi et Laure Cédelle-Joubert 261

1. Conception du projet 262 1.1. Objectifs de la numérisation 262 1.2. Choix du corpus 262 1.3. Vérification de la propriété

des droits reposant sur les documents . . . . 2 6 2 1.4. Identification du public visé 263 1.5. Évalutation des ressources

de la bibliothèque 263

Sommaire

1.6. Identification du projet au sein des missions et de la politique de la bibliothèque 264

2. La numérisation 264 2.1. Sélection des documents 264

2.1.1. Concertation entre les conservateurs.. 264 2.1.2. Collection choisie 264 2.1.3. Traitement 265

2.2. Développement 265 2.2.1. Rédaction du cahier des charges... 265 2.2.2. Combien de documents

mettre en ligne ? 266 2.2.3. Inventaire 266

2.3. Production 266 2.3.1. Numérisation proprement dite ....266 2.3.2. Qualité technique : images

acceptables selon quels critères ? .. 267

3. Accès et mise en ligne 267 3.1. Description des données 267 3.2. Édition numérique des images 267

3.2.1. Scénario 267 3.2.2. Maquette 267 3.2.3. Tests 268 3.2.4. Lancement du produit numérique.. .268

3.3. Maintenance 268 3.3.1. Révisions et mises à jour 268 3.3.2. Archivage 268 3.3.3. Anticiper la demande du public .. .269

ANNEXES : ANNEXE 1 : Modèle de cahier des charges

Cahier des charges de numérisation par Albert Sitruk 273

1. Objet du marché 273

XVI Conduire un projet de numérisation

2. Spécifications techniques et opératoires 274 2.1. Description du fonds 274

2.1.1. Objectifs de la numérisation 274 2.1.2. Caractéristiques du fonds

de documents 274 2.1.3. Caractéristiques particulières 276

2.2. Conditions de mise à disposition 276 2.2.1. Constitution des lots 276 2.2.2. Conditionnement des lots 277 2.2.3. Identification du lot

et de ses constituants 277 2.2.4. Conditions de sous-traitance

de la préparation des lots 278 2.3. Conditions de retour des lots 279

2.3.1. Retour des documents originaux . . 279 2.3.2. Livraison du support informatique. . .280 2.3.3. Le rapport de contrôle

de production 281 2.3.4. Contrôle de réception 281 2.3.5. Conditions de sous-traitance

du reclassement des documents . .282 2.4. Spécification des traitements demandés.. . 283

2.4.1. Numérisation 283 2.4.2. Indexation 286 2.4.3. Contrôle 288 2.4.4. Définition des supports de livraison. . 290

2.5. Calendrier d'échelonnement des opérations ..291

3. Conditions d'exécution de la prestation 293 3.1. Préparation des lots 294 3.2. Réception des lots 294 3.3. Numérisation des lots 294 3.4. Contrôle des lots 294 3.5. Conditionnement des lots 295 3.6. Contrôle de réception 295

Sommaire XVII

4. Dispositions administratives générales 296 4.1. Modalités de règlement 296 4.2. Respect des délais et pénalités de retard.. 296 4.3. Régime de propriété 297 4.4. Règlement des litiges 297

5. Présentation de l'offre 298 5.1. Dossier commercial 298 5.2. Dossier technique 299 5.3. Engagements du prestataire 299 5.4. Fiche de prix par type de prestation 300

ANNEXE 2

Fiches de spécifications des travaux de numérisation Albert Sitruk 305

1. Numérisation de documents imprimés 306

2. Numérisation de documents iconographiques . . .309

3. Numérisation de microformes 312

ANNEXE 3

Repères techniques Charlette Buresi et Laure Cédelle-Joubert 315

ANNEXE 4

Quelques textes utiles Valérie Game 319

ANNEXE 5

Contrats de cession ou d'acquisition de droits d'auteur Valérie Game 321

BIBLIOGRAPHIE par Charlette Buresi et Laure Cédelle-Joubert 323

MODE D'EMPLOI

par Laure Cédel le-Joubert et Charlette Buresi

Sujet d'actualité et de surcroît « brûlant » en matière de bibliothéconomie, la numérisation ne laisse pas de susciter maints commentaires.

Selon ses détracteurs, c'est un procédé onéreux, complexe, dont la conservation à long terme des données s'avère incertaine, voire improbable.

Pourtant, la numérisation est un moyen fabuleux - cette appréciation n'étant pas exclusive aux seuls inconditionnels de cette technologie - de diffusion de tout type de document auprès du plus grand nombre. Trésors cachés ou réservés jusqu'alors à des cercles « d'initiés », méconnus, parfois inaccessibles, ils sont désormais à notre portée.

Richesse et diversité des informations fournies, découverte de documents rares ou difficiles d'accès, recherches multiples facilitées par une navigation experte, accès à distance (le déve­loppement de l'enseignement à distance et la multiplicité des expositions virtuelles le prouvent), rapidité dans le transfert des données (si le débit le permet !), récupération en temps réel des informations grâce à l'impression ou au téléchargement, tels sont les maîtres mots de la numérisation.

Conduire un projet de numérisation

Certains se demanderont ce qui justifie une nouvelle publi­cation sur le sujet. Les journées d'étude ne manquent pas en effet, elles présentent pourtant l'inconvénient de décrire essentielle­ment l'état d'avancement de grandes réalisations ou de traiter de travaux de recherche si complexes qu'ils sont souvent très éloi­gnés de la réalité des établissements plus modestes dans leur poli­tique numérique. En termes de publications, la littérature francophone n'est pas extrêmement riche. Le très bon livre d'Alain Jacquesson et d'Alexis Rivier, Bibliothèques et docu­ments numériquesoffre un panorama complet de l'état de l'art ; mais il garde une présentation de manuel et ne s'attache qu'aux enjeux des nouvelles technologies. Sur les sites web de la Direc­tion de l'enseignement supérieur et de la Direction du livre et de la lecture, le lecteur pourra consulter des fiches techniques ; mais là encore cette documentation se résume à une série de mémentos techniques. L'essentiel de la littérature est en fait dispersé à tra­vers une pléiade d'articles qu'il serait fastidieux de rassembler pour toute personne désireuse de se former rapidement.

Face à la pauvreté de la bibliographie française, la produc­tion anglo-saxonne, en revanche, est particulièrement florissante, tant sur le web que dans les librairies. Le lecteur trouvera en fin d'ouvrage une bibliographie de base où les auteurs américains et britanniques sont largement représentés. En simplifiant, on peut dire que leur approche est double. Ils proposent d'une part une vision extrêmement technique de la numérisation, analysant les différents modes de numérisation, les résolutions adéquates à chaque type de document, les avantages et inconvénients des dif­férents formats. Cette littérature s'accompagne d'autre part d'une réflexion plus « gestionnaire », définissant des parcours types pour mener à bien un projet numérique. Des organismes profes­sionnels élaborent également des questionnaires types, des feuilles de route, des tableaux permettant de formaliser les

1. Voir la bibliographie en Hn d'ouvrage.

Mode d'emploi

dépenses. L'apport anglo-saxon est riche d'enseignements ; il n'en existe malheureusement le plus souvent qu'une version anglaise.

À propos du présent manuel

Conduire un projet de numérisation à son terme, dans les meilleures conditions, est une tâche ardue qui peut s'avérer lon­gue si les différentes opérations ne sont pas appréciées ou éva­luées correctement.

L'ambition de ce volume est donc de se poster à mi-chemin entre l'ouvrage technique et le guide pratique. Il n'indique aucune solution toute faite, mais offre plutôt un essai d'illustra­tions des différentes étapes qui jalonnent la réalisation d'un pro­jet. Les questions ou difficultés susceptibles de surgir au fur et à mesure que progressent les opérations sont, dans la mesure du possible, identifiées.

Sans avoir la prétention de se substituer aux professionnels de la numérisation, ce manuel fait intervenir différents experts et acteurs qui ont eux-mêmes rencontré et surmonté des difficultés ; certains d'entre eux effectuent de la veille dans leur domaine d'excellence. Ils nous livrent ici généreusement leur expérience, leurs conseils, les « dernières nouveautés ».

Les questions théoriques posées seront donc toujours ancrées dans la réalité du terrain. Toutes les bibliothèques sont représentées et chaque professionnel pourra se reconnaître : bibliothèques municipales, bibliothèques universitaires, biblio­thèques spécialisées. En annexe, le lecteur trouvera des textes de référence, textes juridiques et structure d'un cahier des charges, des renseignements pratiques ainsi qu'une bibliographie.

Trois grandes parties structurent ce volume : la première aborde les questions préalables a tout projet c'est-à-dire la définition des objectifs. La question du droit d'auteur est

Conduire un projet de numérisation

délibérément traitée d'emblée dans ce chapitre. En effet, aucune numérisation ne peut s'effectuer sans connaître auparavant le sta­tut juridique des documents. La deuxième partie montre la façon de conduire les opérations et nous éclaire, entre autres, sur des questions de pointe en matière de gestion des fichiers et de struc­turation des données. La troisième partie présente les différents aspects de la valorisation et de l'exploitation d'un corpus.

1. POURQUOI NUMÉRISER ?

Numériser permet de mieux diffuser un fonds, pour le valo­riser tout en le préservant et/ou pour aider et susciter la recherche.

1.1. Diffuser

Le premier objectif qui justifie une telle entreprise est sans nul doute une meilleure diffusion dans des conditions optimales de communication et de consultation.

Fichier de données textuelles ou iconographiques, le fichier numérique, tout en permettant une restitution aussi proche que pos­sible de l'original, vient s'ajouter à la liste des substituts tradition­nels que sont le microfilm, la microfiche, la diapositive ou l'ektachrome. Aisément reproductible, à faible coût et dans des délais extrêmement rapides, le fichier numérique fournit une solu­tion intéressante pour pallier les déficiences de la communication des originaux (par exemple, les conditions de consultation de docu­ments fragiles ou rares conservés à la « réserve »). Par conséquent, la numérisation peut favoriser une certaine « démocratisation » de l'accès à la culture, nul besoin de produire un justificatif sur son programme de recherche ou son niveau d'études : tout utilisateur peut désormais accéder au patrimoine écrit. Tout document, dans la

Mode d'emploi

limite des droits de reproduction1 et de diffusion, est ainsi potentiel­lement consultable par tous les lecteurs.

Nombre de bibliothèques préfèrent actuellement la solution du numérique à la consultation des microfilms. Le fichier numé­rique présente effectivement certains avantages : il ne s'use pas à la lecture et peut être visionné sur des postes standard équipés d'imprimantes, d'un entretien moins coûteux que celui des lec­teurs reproducteurs de microfilms. Plusieurs bibliothèques et ser­vices d'archives ont adopté ce système pour la consultation de documents très demandés comme les usuels, le cadastre ou l'état civil. L'atout du numérique est d'offrir une grande souplesse de diffusion : le document devient consultable au sein de la biblio­thèque ou de l'université en intranet, ou en dehors de ses murs sur le web. Son accès est libre ou restreint à un groupe d'utilisateurs délimité, le document est accessible simultanément par plusieurs lecteurs. De ce fait, la bibliothèque numérique modifie profondé­ment les modes de diffusion et de consultation.

1.2. Valoriser

La numérisation trouve une nouvelle application dans la valorisation du patrimoine2.

La découverte de la richesse d'un fonds - textes anciens, reliures précieuses, manuscrits, enluminures, unica, collections rares - présentés sur un site d'accueil, sous forme de « vitrine » ou dans le cadre d'expositions virtuelles peut rendre une biblio­thèque plus attractive. Dans cette perspective, l'usage de l'image numérique trouve toute son efficacité pour des documents trop fragiles pour être sortis de la réserve ou ceux appartenant à des collections étrangères qui n'ont pu être empruntés.

1. Voir sur cette question l'article de V. Game. 2. Voir l'article de Th Delcourt sur les publics.

6 Conduire un projet de numérisation

L'image numérique peut pallier certaines insuffisances de la muséographie du livre. Notre frustration est souvent grande dans les expositions quand nous ne pouvons admirer que les deux pages ouvertes d'un livre exposé sous vitrine. Cette limitation peut être contournée, le recours aux nouvelles technologies per­mettant d'associer près de l'original exposé une borne interactive où le visiteur pourra feuilleter l'ensemble du document virtuel : ainsi connaissance et agrément seront étroitement liés. Cet emploi du numérique est sans doute un moyen de nous extraire d'une muséographie qui peut-être figée pour le public actuel. Par ailleurs, les périodes d'exposition des originaux habituellement limitées dans le temps lors de manifestations traditionnelles, ne connaissent aucune restriction dans le cas d'expositions virtuel­les. Le prolongement d'une exposition, après sa fermeture sur site, lui permet, sous une forme virtuelle définitive et accessible du monde entier1, de trouver une nouvelle vie et un nouveau public.

La multiplicité des supports (site web, CD-ROM, DVD) et l'attractivité de l'image sur écran, liée aux possibilités du multi­média, sont susceptibles de sensibiliser de nouveaux publics en leur présentant des ressources dont ils ne soupçonnaient pas l'existence.

1.3. Préserver

Numériser pour préserver et sauvegarder ? Numériser pour conserver ? Des spécialistes ont déjà longuement débattu la ques­tion de l'apport de la numérisation dans les politiques de conserva­tion. C'est un fait semble-t-il acquis aujourd'hui, la reproduction numérique constituerait un nouveau mode de préservation plutôt qu'un moyen de conservation. Les études consacrées à la durée de

1. C'est le parti adopte par la BNF pour certaines de ses expositions

Mode d'emploi

vie des fichiers numériques nous inclinent à penser que le micro­film demeure le substitut de conservation le plus fiable pour le moment, car nul ne peut assurer qu'un fichier numérique sera encore lisible dans 10 ans.

Le recours aux images numériques peut jouer en revanche un rôle réel dans les stratégies de préservation, en permettant la production de substituts « papier », de nombreuses copies de l'original sans l'altérer et dès lors que sa consultation est res­treinte.

1.4. Aider et susciter la recherche

Les chercheurs trouveront dans les corpus numérisés un outil précieux.

La facilité de l'accès à distance, une description des don­nées satisfaisante, la présentation d'une masse critique impor­tante seront autant d'atouts pour simplifier les investigations et la consultation, pour favoriser la confrontation des documents et leur identification. Ces études facilitées par l'hypertexte suscitent et stimulent de nouveaux rapprochements, de nouvelles hypothè­ses jusqu'à la création d'éditions critiques.

Deux exemples illustrent cet apport : la création du Digital scriptorium par des bibliothèques universitaires américaines a permis de découvrir que deux manuscrits conservés dans deux bibliothèques ne formaient qu'un seul et même manuscrit. Outre ce type de découverte, les chercheurs pourront travailler plus vite. La numérisation des revues de sociétés savantes à la BnF, en particulier leurs tables en mode texte, évitera à bien des cher­cheurs de fastidieuses heures de dépouillement.

Par ailleurs, sur le plan technique, le zoom permet d'accen­tuer des détails imperceptibles à l'oeil nu et de révéler les détails d'une enluminure, ou encore d'identifier un personnage sur une photographie.

Conduire un projet de numérisation

2. CONDUIRE UN PROJET

Il est possible de répondre relativement aisément aux incon­tournables interrogations - pourquoi numériser, pour quels usa­ges, quels documents -, pour quels publics, mais une fois ces objectifs définis, le « Comment procéder ? » est à cette étape du projet la question essentielle à résoudre.

Les défis

• Numériser un fonds est un enjeu aux défis multiples. Le premier d'entre eux qui demande le plus d'attention, de connaissances et de pugnacité et auquel nous allons nous attacher est le défi technologique.

Les choix à effectuer sont nombreux et ne souffrent aucune erreur sous peine d'échec ou de retard. Tout doit être judicieusement évalué qu'il s'agisse de prestations, de choix techniques1 relatifs à l'achat de matériel ou au mode de numérisation. Comment saisir les données et les rendre accessibles ? Quelle résolution adopter ? Les formats, le stockage des fichiers, la récupération des données, l'indexation, la pérennité des données, la structuration et le balisage des documents numérisés, sont autant de questions déterminantes qui seront présentées et commentées par des experts. Un cahier des charges2 correctement élaboré soit en interne (les modèles existent) soit par un prestataire, doit recenser dans le détail les différentes pha­ses de l'opération, en cela il représente le gage de la réussite.

• Le deuxième défi est économique. Il s'agit d'évaluer le coût de l'opération, d'identifier les moyens en personnel, en pres­tations3 et en matériel. Le résultat de cet examen orientera la prise de décision finale de la mise en œuvre.

1. Voir les articles de P. Gumard. C. Lupovici. 2. Voir l'article de A. Sitruk et l'annexe en fin d'ouvrage consacrés au cahier des charges 3. Voir les deux articles de J. Deschaux.

Mode d'emploi

L'utilisation des compétences, de la polyvalence du person­nel, relèvent de l'expertise du chef de projet, de même le mode de financement doit être défini pour décider de la viabilité ou de la faisabilité de l'opération. Quant à l'appréciation de la durée de l'ensemble du projet ce point devra figurer dans le CCTP sur la base du cahier des charges.

• Le troisième défi est juridique1 car « nul n'est censé igno­rer la loi » : être au fait de la législation en matière de propriété intellectuelle et artistique et de la jurisprudence. La question du droit d'auteur ne doit pas avoir de secret pour vous. Nous cons­tatons une méconnaissance partielle, voire complète des textes. De surcroît la constante évolution des pratiques dans le domaine des nouvelles technologies et plus particulièrement celui de la numérisation, complique de façon certaine les applications et les interprétations de la loi.

Il est indispensable de s'assurer d'emblée que le corpus choisi est libre de droits. A contrario, il faut identifier les ayants droit et connaître les bases de négociations avec les auteurs, édi­teurs, photographes...

• Sans l'étudier dans le détail il convient d'évoquer le défi professionnel que représente un tel projet et souligner la place et le rôle prépondérants du bibliothécaire. La numérisation ne vient pas troubler l'ordre établi. Elle apporte au contraire une ouver­ture vers l'extérieur et de nouvelles réponses aux missions tradi­tionnelles. Elle constitue de ce fait une autre approche dans la relation lecteur-professionnel des bibliothèques, elle enrichit les échanges dans les domaines de l'information et de la formation aux usagers et exprime l'engagement des professionnels dans l'application des nouvelles technologies qui permettent d'amé­liorer et d'enrichir de façon pratique, esthétique, voire élégante la communication des documents.

1. Voir rarticle consacré aux aspects jundiques par V. Game

Conduire un projet de numérisation

3. LA NUMÉRISATION EN BIBLIOTHÈQUE

Si elle n'est pas généralisée, la numérisation n'en devient pas moins une pratique de plus en plus usitée dans les bibliothè­ques. Les grandes réalisations nous permettent de juger de l'état de l'art : bases de données multimédia proposant images, video, sons et textes, sur l'exemple de VAmerican Memory, expositions virtuelles reprenant les grandes expositions présentées dans les bibliothèques, numérisation au service de la recherche, sur le modèle du De motu locali' des Discorsi de Galilée, etc.

Un regard rapide sur la situation française pourrait faire croire que, mis à part l'immense projet Gallica, seules quelques rares bibliothèques se sont lancées dans l'aventure. Deux enquêtes menées en 1999 et en 2000 par la Direction du livre et de la lecture et par la sous-direction des bibliothèques et de la documentation ont permis d'évaluer la pénétration de la numérisation dans les éta­blissements.

Depuis ces enquêtes de nouveaux projets ont déjà émergé, néanmoins leurs résultats donnent un aperçu des projets en cours. Ainsi, début 2000, une quinzaine de bibliothèques municipales avaient déjà réalisé au moins une campagne de numérisation. Cer­taines d'entre elles comme Lyon, Valenciennes ou Troyes étaient engagées dans plusieurs programmes dont les résultats sont déjà consultables sur leurs sites web. Une vingtaine d'autres établisse­ments s'apprêtaient à engager des programmes. Enfin le pro­gramme national de numérisation des enluminures des manuscrits médiévaux conservés dans les bibliothèques publiques concerne déjà 92 bibliothèques de tailles très variables. Si Lyon et Toulouse ont déjà traité leurs fonds, d'autres bibliothèques dans des villes comme Marseille, Douai, Châteauroux ou Épemay, bénéficieront de cette opération. Dans leurs projets les bibliothèques municipales sont soutenues par le plan de numérisation du ministère de la

1. http:llwww mpiwg-bei hn mpg delGalileo_PmtotypelINDEX HTM.

Mode d'emploi

Culture et de la Communication, ainsi que par les aides des DRAC. Les contrats de plan État-région, en particulier, intègrent de plus en plus la numérisation comme un enjeu important de la politique culturelle.

Les réalisations des bibliothèques publiques et leurs projets en cours sont recensés et décrits dans le catalogue des fonds numérisés du ministère de la Culture et de la Communication, consultable en ligne sur le site du ministère1.

Parfaitement conscientes du rôle qui leur incombe dans le nouvel environnement technologique, les bibliothèques de l'enseignement supérieur se sont lancées dans la numérisation de corpus de choix ; c'est ainsi que la campagne de numérisation de manuscrits médiévaux a permis la création d'une base d'enlumi­nures (cf. chapitre sur la structuration de la base). Certains fonds patrimoniaux, comme celui de la bibliothèque nationale et uni­versitaire de Strasbourg qui a entrepris la numérisation de fonds divers dont un corpus de manuscrits relatifs à la mystique rhé­nane, sont en passe de faire l'objet de bases précieuses et recher­chées pour la rareté ou l'intérêt des documents menacés de destruction. Dans le domaine patrimonial, signalons également à titre d'exemple, la bibliothèque Interuniversitaire de médecine (BIUM) à Paris, leader en matière d'histoire de la médecine, qui a adopté une politique de numérisation dynamique pour accom­pagner les initiatives des chercheurs et bâtir des partenariats scientifiques privilégiés. Son objectif vise à mettre à disposition du public des ensembles de textes rares comme par exemple ceux d'Hippocrate, de Galien ou de Pline.

Le Muséum national d'histoire naturelle fut l'un des pion­niers en mettant sur son site, principalement l'intranet, des ban­ques d'images, mal connues et peu accessibles.

/. hnp -H www culture fi U ultui eimrt'numei isatwn.

PREMIÈRE PARTIE

Cadrer le projet

| Les publics

par Thierry Delcourt

La démarche la plus habituelle pour monter un projet de numérisation consiste à identifier d'abord un corpus documen­taire (fonds constitué ou documents rassemblés spécifiquement selon des critères intellectuels ou physiques), puis à déterminer la faisabilité de la numérisation en vérifiant la disponibilité, la qua­lité du signalement et l'état de conservation des documents, leurs caractéristiques techniques externes (format, support, lisibilité), la question des droits d'auteur et enfin l'adéquation entre le coût de l'opération et le budget disponible.

Cette approche pragmatique ne doit cependant pas empê­cher les bibliothécaires de s'interroger, avant le démarrage d'un projet de numérisation, sur les publics visés. Cette réflexion est même un préalable indispensable, car elle peut induire certains choix techniques (notamment en ce qui concerne la résolution et le poids des images), ou entraîner des conséquences lourdes pour l'établissement, telles que l'achat de matériel et de logiciels de consultation, ou la mobilisation du personnel sur des tâches de traitement documentaire et d'indexation.

L'éventail des publics auxquels s'adressent les bibliothè­ques est aujourd'hui extrêmement large. La numérisation peut

Conduire un projet de numérisation

tous les concerner : chercheurs et étudiants, adultes (individuels ou en groupe), scolaires, touristes, nouveaux publics éloignés de la lecture... Grâce à Internet, elle permet également de toucher des utilisateurs lointains dont les attentes sont souvent particuliè­res et qui ne peuvent bénéficier de l'aide des bibliothécaires. On n'insistera donc jamais assez sur la variété des attentes des utili­sateurs de documents numérisés. Il faut en outre se rappeler que les contours des publics et de leurs besoins se modifient sans cesse, à mesure que les nouvelles technologies de l'information et de la communication se répandent et se banalisent.

C'est pourquoi la question des publics ne peut être dissociée de celles des usages - tant il est vrai qu'un individu utilisateur d'une bibliothèque peut rarement être réduit à une seule catégorie (chercheur spécialisé, curieux, touriste), et qu'il passera de l'une à l'autre suivant qu'il inscrira la consultation des documents numérisés dans une démarche professionnelle, de formation ou de loisir, et qu'il s'y adonnera seul ou dans un cadre collectif...

Nous avons distingué plusieurs usages possibles des documents numérisés en bibliothèque : un usage savant, un usage culturel, un usage pédagogique et un usage touristique. Ils s'exercent suivant des modalités variables : seul ou en groupe, sur place ou à distance. Sélection ou exhaustivité, mode texte ou mode image, indexation générale ou fine, résolution basse ou élevée... : c'est en fonction des usages et des modalités qu'elle souhaite encourager que la bibliothè­que est amenée à faire ces choix, à chacune des étapes du projet de numérisation.

1. LA DIFFUSION

Pour chaque projet de numérisation, il convient de déte­rminer le(s) mode(s) de diffusion qu'on souhaite privilégier : consultation sur place, diffusion à distance via un serveur web,

Les publics

ou utilisation dans un but éditorial (livre, CD-ROM ou DVD). Ces trois modes de diffusion peuvent coexister dans le cadre d'un même projet de numérisation. Leur déploiement peut également faire l'objet d'une programmation dans le temps : par exemple, d'abord la consultation en local, sur quelques postes en réseau, puis la diffusion sur Internet, enfin des projets éditoriaux à long terme. Cette programmation peut obéir à plusieurs logiques parallèles : logique budgétaire et administrative, logique politi­que - voire être simplement le fruit d'opportunités saisies, telle la création d'un site web par la Mairie ou une proposition d'un éditeur.

L'idéal est, chaque fois que c'est possible, de numériser en tenant compte de ces trois modes de diffusion. Par exemple, si l'on est amené à fournir fréquemment des reproductions de cer­tains documents précieux à des éditeurs d'art (c'est le cas pour les miniatures de manuscrits), on aura tout intérêt à conserver une version brute, non retouchée et non compressée, des fichiers correspondants ; si l'on dispose, pour la consultation sur place, d'écrans 19 pouces (voire au-delà), il faudra prévoir une résolu­tion haute, qui permette d'utiliser au mieux leurs possibilités, etc.

En tout cas, il n'est plus envisageable, aujourd'hui, de numériser des documents sans prendre en compte leur diffusion sur le web, à plus ou moins longue échéance - et cela, même si la bibliothèque n'a pas de projet immédiat en ce sens. Tout projet de numérisation devra être mené avec l'idée que les documents seront, un jour ou l'autre, mis en ligne sur Internet. Il sera donc indispensable de stocker les données numérisées dans des for­mats compatibles avec les capacités actuelles du réseau, et d'organiser leur conservation de telle sorte qu'elles puissent être facilement réutilisables. C'est pourquoi il faut définir - et respec­ter - des règles précises pour le nommage et la documentation des fichiers et des supports de conservation, et éviter que cette information soit maîtrisée par une seule personne.

Conduire un projet de numérisation

2. LES PROJETS ÉDITORIAUX

Les bibliothèques qui conçoivent des projets d'édition mul­timédia utilisant des documents numérisés sont de plus en plus nombreuses. Même s'il s'agit d'opérations lourdes et coûteuses, qui nécessitent un partenariat avec des structures spécialisées, CD-ROM et DVD constituent - à côté des publications impri­mées - l'un des moyens efficaces de mettre le patrimoine à la portée d'un public plus large.

La bibliothèque de Troyes a ainsi été associée à deux projets de publication de CD-ROM grand public. Trésors des premiers imprimeurs, produit en 1997 par l'association de coopération régionale Interbibly, a atteint son but : faire connaître les incuna­bles des bibliothèques de Champagne-Ardenne à travers l'his­toire de l'invention de l'imprimerie. Écrit par Dominique Brisson, auteur par ailleurs de nombreux CD-ROM culturels {Le Louvre, Orsay), édité et diffusé par Index +, il a reçu une Flèche d'or de la FNAC.

Le CD-ROM Louis-François, colporteur d'histoires répond à une approche différente. En 1999-2000, la conteuse Agnès Chavanon a conduit une résidence durant laquelle elle utilisait les bois gravés de la Bibliothèque bleue comme support pour faire inventer des histoires à des enfants et des adultes. De cette expé­rience est née l'idée d'un CD-ROM pédagogique et ludique, des­tiné prioritairement à un public de collégiens et qui associe trois établissements : le Musée national des arts et traditions populai­res, le Musée de l'imprimerie de Lyon, et la bibliothèque de Troyes. L'arrière-plan historique en est le colportage, la littéra­ture et l'imagerie populaires, et les bois gravés. A côté des jeux, qui constituent le cœur du projet, on y trouve également des élé­ments documentaires qui permettront un usage pédagogique en classe et en CDI, dans les espaces multimédia des bibliothèques ou à la maison.

Les publics

3. LES USAGES SAVANTS

L'utilisation des documents numériques à des fins d'étude ou de recherche est encore balbutiante dans les bibliothèques municipales, alors qu'elle est prise en compte depuis assez long­temps par les bibliothèques universitaires et la BnF. Il est vrai que les disciplines qui fournissent la très grande majorité des chercheurs en bibliothèque municipale - littérature, histoire, his­toire du livre - ne se sont ouvertes que récemment aux nouvelles technologies. Ajoutons que le public des lycéens et des étudiants est encore souvent vu avec une certaine suspicion par nombre de bibliothèques municipales, qui considèrent que c'est aux CDI et aux bibliothèques universitaires de répondre aux demandes liées à leurs études.

3.1. Consultation sur place et à distance

La consultation sur place permet de répondre aux attentes des chercheurs et érudits qui se rendent à la bibliothèque pour tra­vailler. Dans ce contexte, la numérisation permet à la fois de favoriser la conservation des originaux, qui seront moins consul­tés, et d'offrir de meilleurs services aux utilisateurs (possibilité d'obtenir facilement une copie des documents sur CD-ROM ou sur papier)... Elle vise alors un public spécialisé, qui souhaite avant tout disposer du document qu'il cherche le plus rapidement possible, avec une qualité de reproduction maximale et dans les meilleures conditions de confort.

Mais, de plus en plus, les chercheurs souhaitent aussi pou­voir consulter les ressources de la bibliothèque à distance, sans se déplacer. Les bibliothèques seront donc amenées à leur offrir, en particulier grâce à Internet, les mêmes services que sur place (sous réserve bien entendu que les droits correspondants aient été obtenus, s'il s'agit de documents couverts par le droit d'auteur).

Conduire un projet de numérisation

Chercheurs et étudiants peuvent être concernés par la numé­risation de documents intégraux (documents patrimoniaux, thè­ses, « littérature grise »...), par la mise à disposition d'outils de repérage des sources, ou par la constitution de dossiers documen­taires numériques. Le préalable indispensable de ces projets étant bien entendu que la bibliothèque ait le droit de numériser et de diffuser les documents concernés. C'est donc à leur intention qu'on constituera des catalogues enrichis (qui leur permettront d'affiner leur sélection de documents, à domicile ou sur place, avant qu'ils n'en demandent la communication ou la reproduc­tion à la bibliothèque), des banques de textes ou d'images, des recueils de sommaires ou de tables de matières de revues savan­tes locales, que l'on numérisera intégralement des répertoires, des inventaires de fonds, voire des catalogues qu'on n'aura pas jugé utile ou souhaitable d'inclure dans un programme de con­version rétrospective traditionnelle. Tous ces outils pourront être diffusés sur le web et, dans certains cas, sous forme de CD-ROM.

Les exemples d'établissements qui mènent des projets de ce type sont de plus en plus nombreux : après la Bibliothèque nationale de France, les bibliothèques municipales de Valenciennes et de Lyon ont fait figure de pionnières. Elles sont aujourd'hui suivies par beaucoup d'autres, qui inscrivent de plus en plus leur démarche dans un cadre coopératif : plans régionaux de numérisation dans le cadre des contrats de plan, projets pilotés par le ministère de la Culture (par exemple le plan de numérisation des microfilms de manuscrits médiévaux de l'Institut de recherche et d'histoire des textes).

On pourra également tenir à jour pour eux des dossiers docu­mentaires d'intérêt local, d'actualité, ou liés aux programmes sco­laires et universitaires. Ces dossiers permettent d'exploiter au mieux, en la regroupant de manière thématique, une information éparse et souvent difficilement accessible dans les périodiques. Mais ils supposent que la question des droits ait été réglée au préa­lable avec les éditeurs. Il faut également être conscient que cette activité représente une charge de travail énorme, dont on devra

Les publics

bien peser l'impact à long terme avant de s'y engager : identifica­tion des thèmes de dossiers, sélection des documents, indexation, élimination des documents obsolètes.

Enfin, même s'ils sont encore embryonnaires, les services de numérisation à la demande se développent rapidement. On peut également évoquer le succès des services de fourniture de livres à la demande qui utilisent la numérisation, tel celui qui a été développé à Lyon et à Troyes en partenariat avec Librissimo / Phénix Éditions.

3.2. Les conséquences pour les bibliothèques

Envisager un usage savant, ou de recherche, des documents numérisés entraîne donc plusieurs conséquences lourdes pour l'établissement.

Il faudra, chaque fois que c'est possible, viser l'exhaustivité plutôt que l'échantillonnage. Les chercheurs ont besoin de dispo­ser de la totalité des fonds qui les intéressent. Il est souvent utile de discuter de leurs besoins avec les habitués de la bibliothèque. On constatera alors qu'il faut avant tout éviter d'établir une sélec­tion a priori. A un projet de numérisation des « cent plus belles miniatures de la bibliothèque », les historiens de l'art préféreront un programme, étalé dans le temps, qui couvre progressivement l'ensemble de la collection, et dont le résultat gardera une cer­taine cohérence même s'il doit être interrompu prématurément : une programmation chronologique ou par fonds et/ou scripto­rium aura alors toute sa légitimité.

Les documents écrits seront de préférence numérisés en mode texte (et non en mode image) afin que les chercheurs puis­sent accéder à leur contenu. Même si cette opération présente des inconvénients (notamment la quasi obligation de relire les textes numérisés, en raison des lacunes des logiciels d'OCR, qui laissent un taux d'erreur élevé,tout particulièrement pour les

Conduire un projet de numérisation

documents anciens), elle permet de limiter l'indexation du con­tenu, puisque les utilisateurs peuvent utiliser la recherche en texte intégral sur les fichiers ainsi obtenus. Les documents inté­grés dans des dossiers documentaires (notamment les articles de journaux) pourront en revanche être numérisés en mode image, car on y trouve généralement à la fois du texte, des photogra­phies, des graphiques.

L'indexation est en effet l'une des principales contraintes induites par l'usage savant des documents numérisés. Ainsi, les images nécessitent le recours à des thésaurus spécifiques (tel celui de l'abbé Garnier pour l'iconographie religieuse) que peu de bibliothécaires maîtrisent. Plus généralement, le traitement des documents numérisés à des fins de recherche implique à la fois des compétences pointues dans le domaine concerné, une bonne maîtrise des nouveaux outils d'indexa­tion, et surtout une forte disponibilité sur une durée assez lon­gue.

La numérisation proprement dite ne représente donc que la partie émergée d'un projet de numérisation orienté vers l'usage savant. De la réponse à la question du personnel qui peut y être affecté - compétences de contenu, maîtrise technique, disponibi­lité - dépend son succès ou son échec.

4. LES USAGES CULTURELS ET DE LOISIR

On peut consulter des documents numérisés, à des fins d'enrichissement culturel et de loisir, de deux façons : seul (à la bibliothèque ou chez soi), ou en groupe. En fonction de l'un ou l'autre usage, les modalités de présentation et d'exploitation des documents sont assez différentes pour la bibliothèque.

Les publics

4.1. L'usage culturel individuel

La consultation individuelle, culturelle, de loisir ou d'infor­mation, est sans doute l'usage le moins aisé à cerner, car elle cor­respond à une attente particulière à chaque lecteur. Les difficultés que rencontrent les bibliothécaires pour définir une politique d'acquisition en direction du « grand public » se retrouvent à l'identique lors de la conception d'un projet de numérisation qui lui serait destiné. Son ambition peut sans doute être définie de la manière suivante : satisfaire la curiosité, l'envie de découverte culturelle, d'utilisateurs dont les besoins spécifiques ne sont pas définis au préalable, et qui - sauf exception - doivent être consi­dérés comme autonomes dans leur démarche.

Il va de soi que le grand public non érudit peut consulter, comme les chercheurs, les bibliothèques virtuelles et les catalo­gues enrichis. Mais ces outils ne donnent que des informations brutes, qui ne permettent guère de satisfaire la curiosité d'un lec­teur butinant à l'aventure. Il vaut donc mieux privilégier une pré­sentation qui associe des documents, des commentaires, des liens hypertexte, des renvois à des sites web, etc. Il peut s'agir d'expo­sitions virtuelles ou de dossiers documentaires organisés, dans lesquels le lecteur est guidé vers la découverte d'un savoir nou­veau.

Ces outils sont très utiles, mais ils présentent de sérieuses contraintes si l'on ne veut pas décourager les utilisateurs. Les embûches sont nombreuses : textes trop longs ou pas assez expli­cites pour des utilisateurs qui ne connaissent rien au sujet traité ; documents trop nombreux ; mise en page statique ; amateurisme de la présentation. Les expositions virtuelles doivent être réalisées comme des expositions réelles, avec un commissaire responsable et un graphiste / scénographe professionnel (appartenant ou non à l'équipe de la bibliothèque). Elles nécessitent donc du temps, des compétences, des moyens.

Conduire un projet de numérisation

Comme les expositions réelles, elles doivent être renouve­lées régulièrement. Il en va de même des dossiers documentaires, qui doivent être constamment tenus à jour et rafraîchis, par ajout de nouveaux documents et par suppression de données obsolètes. Il est donc quasiment indispensable que la bibliothèque dispose, en interne, des moyens (matériel, logiciels, compétences) pour réaliser elle-même ses expositions virtuelles, sans passer, par exemple, par le service de communication de la collectivité.

Enfin, il convient de cibler assez précisément les tranches d'âge visées : on ne conçoit pas de la même façon une exposition ou un dossier pour des adultes, de jeunes enfants ou des adolescents. L'exposition virtuelle de la bibliothèque de Troyes sur les Fêtes de la bonneterie, qui s'appuie sur une exposition réelle réalisée en 1997 dans le cadre du mois du patrimoine écrit, a ainsi été conçue prioritairement pour un public d'adultes, voire de personnes âgées, qui s'intéressent à l'histoire locale, et plus particulièrement aux tra­ditions liées à l'industrie. Elle sert aussi de support à des animations menées dans le cadre de maisons de retraite et de clubs du 3e âge, où l'on trouve beaucoup d'anciens ouvriers de la bonneterie.

Les CD-ROM ou DVD édités qui intègrent des documents numérisés de la bibliothèque sont conçus, le plus souvent, pour un usage prioritairement individuel. On pourra donc les mettre à la disposition du public sur le réseau informatique de la bibliothè­que, pour consultation sur place, et bien sûr dans les collections empruntables. Mais ils pourront aussi faire l'objet de présenta­tions en groupe dans le cadre d'ateliers.

4.2. L'usage culturel de groupe

Au contraire de la consultation individuelle, l'usage en groupe des documents numérisés, à des fins culturelles, suppose un encadrement spécifique par du personnel de la bibliothèque ou formé par elle. Le projet de numérisation doit alors s'inscrire

Les publics

dans une programmation conçue en partenariat étroit avec les personnels qui sont appelés à animer ces ateliers.

Deux types de projets de groupe utilisant des documents numérisés sont possibles : des ateliers limités à la présentation et à la découverte du patrimoine, ou des ateliers de création multi­média. Les premiers ne nécessitent qu'un matériel réduit, et peu­vent même être conduits à l'extérieur de la bibliothèque pour peu qu'on dispose d'un ordinateur portable. Ils peuvent s'appuyer sur des expositions virtuelles. Les seconds sont bien entendu beau­coup plus lourds et nécessitent un équipement important (postes en réseau, scanner, imprimante couleur, graveur).

Pour les séances de découverte comme pour les ateliers de création, il est indispensable de disposer d'un réservoir de docu­ments de la bibliothèque numérisés à l'avance - tout en ne s'interdisant pas d'utiliser d'autres sources que locales (CD-ROM édités, tel Le Trésor des humbles sur les manuscrits de Cîteaux, celui sur les manuscrits musicaux de la BIU de Mont­pellier et Trésors des premiers imprimeurs sur les incunables, ou sites web comme Gallica). Les participants aux ateliers de créa­tion pourront enrichir le corpus en y intégrant eux-mêmes d'autres documents.

Ce réservoir doit être à la fois riche, représentatif du thème présenté, facilement consultable dans un temps réduit (ce qui suppose une organisation simple des fichiers), bien documenté (la qualité du légendage des images est cruciale). On évitera donc toute sophistication dans les interfaces de consultation, et l'utili­sation de logiciels professionnels complexes qui risqueraient de dérouter les stagiaires et de rendre le produit final de l'atelier incompatible avec l'équipement domestique courant. C'est aussi pourquoi les images devront être stockées en JPEG.

Les fonds patrimoniaux sont une source inépuisable pour ce type d'activités. Outre les grands classiques que constituent les manuscrits et les incunables, la documentation locale permet d'imaginer une infinité de projets. Avec les groupes de seniors.

Conduire un projet de numérisation

on pourra ainsi travailler sur la mémoire de la ville (par exemple autour des conditions de travail en usine, des grands événements, des changements dans l'urbanisme...) ; pour les jeunes, on pourra imaginer des ateliers consacrés à l'histoire du club de football... L'actualité peut aussi fournir le prétexte à des animations : les élections, le passage du Tour de France, un anniversaire, une fête locale sont autant de prétextes à saisir. On peut même imaginer de « coller » à une actualité moins heureuse : à l'occasion de la récente épidémie de fièvre aphteuse, il eût été intéressant de créer un dossier multimédia sur l'histoire de cette maladie à travers les livres et la presse, nationale ou locale...

Ces ateliers de groupe ne sont pas réservés au public cultivé. À Troyes, une médiatrice du patrimoine travaille ainsi, pour une partie de son temps, avec les bibliothécaires, les médiateurs du livre et les animateurs de l'espace culture multimédia, sur des pro­jets de diffusion du patrimoine à destination des nouveaux publics, en partenariat avec des structures extérieures à la bibliothèque -maisons de retraite, centres de loisirs, associations d'insertion et de lutte contre l'illettrisme, mission locale, restaurants du cœur... Les projets, qui s'inscrivent en général dans une démarche globale de longue durée où l'on trouve également des actions de lecture à haute voix, des ateliers d'écriture ou de calligraphie, des interven­tions autour du graphisme etc., se déroulent en plusieurs étapes : après que les centres d'intérêt des participants ont été identifiés, la médiatrice s'appuie le plus souvent sur des produits multimédia élaborés (CD-ROM culturels ou ludiques en lien avec le patri­moine de la bibliothèque) pour une première sensibilisation dans les structures partenaires. Une visite du fonds ancien, avec présen­tation de documents originaux, permet ensuite de développer des actions plus élaborées qui peuvent aller des ateliers de reliure ou d'enluminure à la création de pages web et de CD-ROM. Nous avons ainsi pu vivre des moments très émouvants, par exemple lorsque des stagiaires des APP, après avoir consulté le CD-ROM Le Trésor des humbles et les miniatures de Clairvaux numérisées,

Les publics

sont venus avec plusieurs heures d'avance au rendez-vous de la bibliothèque pour être sûrs de ne pas manquer la visite du fonds ancien.

5. LES USAGES PÉDAGOGIQUES

Le contexte de l'accueil des élèves en bibliothèque a pro­fondément changé durant la dernière décennie. Certes, les biblio­thèques accueillent depuis longtemps des classes dans leurs sections jeunesse. Mais, désormais, l'action en direction du milieu scolaire se constitue de plus en plus en démarches de pro­jet, qui associent bibliothécaires et enseignants durant toute une année scolaire.

Depuis quelques années, certaines bibliothèques ont mis en place, autour de leurs fonds patrimoniaux, de véritables services éducatifs, en général assurés par des enseignants mis à leur dispo­sition, une ou deux demi-journées par semaine, par l'Éducation nationale. En outre, les bibliothèques sont souvent parties prenan­tes des Contrats Éducatifs Locaux, destinés à favoriser les prati­ques culturelles (mais aussi sportives) dans le temps péri- et extra­scolaire. Enfin, les espaces d'initiation au multimédia sont très largement ouverts à l'accueil de classes ou de centres de loisirs.

5.1. L'éventail des projets possibles

Les possibilités de projets pédagogiques autour du patri­moine, au sens large, sont aussi variées que les fonds eux-mêmes. Avec les classes de cinquième, on travaillera par exemple sur la civilisation médiévale à partir des manuscrits. La presse du XIXe siècle intéressera davantage les lycées. En primaire ou en collège, on mettra en place des ateliers de pratique artistique sur

Conduire un projet de numérisation

le conte, l'écriture, le dessin, la création multimédia... qui pour­ront s'appuyer en partie sur le patrimoine écrit.

Comment intégrer des documents numérisés dans ces projets ? Dans certains cas, le travail sur écran - qui peut se faire dans le cadre scolaire - sera un préalable à la découverte des documents originaux, qui se fera dans un second temps, à la bibliothèque. Il importe alors de proposer aux enseignants des sélections limitées, mais représentatives, des documents étudiés, sous la forme de bases en ligne ou de CD-ROM. Celles-ci devront être accompagnées de supports pédagogiques spécifi­ques, sur papier ou sur écran : présentation du contexte et des documents, questionnaires à remplir par les élèves...

Le service pédagogique de la bibliothèque de Troyes, qui associe un enseignant d'histoire-géographie, une bibliothécaire et une médiatrice du patrimoine, s'appuie ainsi sur divers pro­duits multimédias édités (ceux déjà cités sur les manuscrits ou l'invention de l'imprimerie, mais aussi VEncyclopédie de Dide­rot et d'Alembert sur CD-ROM), et sur des sélections de docu­ments numérisés : miniatures, incunables, livrets de colportage de la bibliothèque bleue, bientôt journaux du XIXe siècle. Les dossiers pédagogiques correspondants sont progressivement mis en ligne sur le site de la bibliothèque, pour permettre aux ensei­gnants de préparer la découverte, toujours indispensable, des documents originaux.

Les fonds numérisés sont également mis à contribution lors des classes-patrimoine. Ils peuvent également servir de support à des projets de création multimédia : constitution de dossiers thé­matiques par les élèves à partir de la bibliothèque virtuelle, ou réalisation de produits à part entière - CD-ROM ou site web, par exemple dans le cadre de classes-multimédia. Les fonds patrimo­niaux des bibliothèques permettent de couvrir la plupart des disciplines : histoire et lettres, bien sûr, mais aussi sciences de la vie et de la terre à partir des bestiaires, géographie avec les atlas, arts plastiques...

Les publics

Le projet de numérisation devra alors être conçu, en amont, en partenariat étroit avec les enseignants concernés et, si possi­ble, l'Inspection académique, qui permettront au bibliothécaire de réaliser une sélection large correspondant à leurs besoins. L'espace culture multimédia de la bibliothèque et le service édu­catif de la ville de Troyes ont ainsi monté, avec une classe de ZEP, un projet de création assistée par ordinateur d'un dessin animé, sur le scénario du Chevalier de la charrette (Lancelot) de Chrétien de Troyes, qui utilise comme répertoire de décors et de personnages les miniatures numérisées d'une Bible historiale du XIIF siècle.

L'utilisation pédagogique des documents numérisés impli­que une forte réactivité de la bibliothèque, en rapport avec les projets montés en début d'année avec les enseignants. Sauf s'il dispose d'un réservoir déjà très riche de ressources numériques, il est donc souhaitable que l'établissement se dote d'un équipe­ment de numérisation en interne (scanner, logiciel de traitement de l'image, graveur de CD-ROM) pour pouvoir réaliser des cor­pus à la demande, et enrichir ainsi progressivement sa bibliothè­que virtuelle.

6. LES USAGES TOURISTIQUES

La fonction touristique des bibliothèques est encore peu développée en France, même si certaines villes utilisent déjà leur patrimoine écrit comme un outil de promotion touristique, au même titre que les musées ou les monuments. L'exemple le plus frappant en est Avranches, dans la Manche, qui se définit comme la « cité des manuscrits du Mont Saint-Michel ». La future BMVR de Troyes intégrera également une dimension touristique particulièrement développée.

Conduire un projet de numérisation

Plus généralement, un projet de numérisation peut s'inté­grer dans une démarche de cet ordre, soit à l'occasion d'une exposition particulièrement importante, soit dans le cadre d'un partenariat avec d'autres établissements. Les musées, en particu­lier, peuvent être amenés à compléter leurs collections par des fonds conservés dans les bibliothèques : au-delà même des gra­vures, des estampes, des dessins ou des monnaies, qui sont sou­vent répartis entre ces deux types d'établissements, on peut imaginer des projets de numérisation qui rapprochent les manus­crits médiévaux des bibliothèques, les vitraux et la statuaire des églises, et les ivoires, émaux ou peintures conservés par les musées.

6.1. Les bornes interactives

Pour un usage associé à une visite, on peut envisager deux types de projets de numérisation. Des bornes peuvent venir ponc­tuer le parcours d'exposition, afin de compléter la présentation statique des objets par un élément plus dynamique et pédagogi­que. Dans ce cas, la consultation ne doit pas excéder quelques minutes (trois à cinq au grand maximum), l'interactivité de la borne doit être simple (l'écran tactile est l'idéal), et elle ne doit pas être redondante avec l'exposition elle-même. Les documents numérisés seront intégrés dans un produit complexe, scénarisé, où les éléments graphiques et dynamiques, le son et la vidéo tien­dront une grande place.

Plus qu'un simple projet de numérisation, la conception de ce type de borne représente donc un véritable projet multimédia qui nécessite des compétences très particulières, qu'on trouvera le plus souvent en dehors de la bibliothèque en faisant appel à des prestataires spécialisés. Son coût est généralement très élevé, au minimum de 10 000 €.

Les publics

6.2. Les catalogues multimédia

Par ailleurs, à l'issue du parcours, il est possible de présen­ter, sur des postes multimédia traditionnels, un produit multimé­dia qui reprenne, en les complétant, les éléments numérisés -objets, panneaux, cartels - que le visiteur vient de voir. Sur CD-ROM ou DVD, il constituera une sorte de catalogue multimédia de l'exposition, et pourra être commercialisé au même titre qu'un catalogue papier.

Le catalogue multimédia n'est guère pratiqué pour le moment que par les grands établissements, à l'occasion de mani­festations particulièrement prestigieuses. Pensons notamment aux très beaux CD-ROM édités par la Bibliothèque nationale de France lors de ses expositions. Mais il s'agit alors de produits culturels complexes, avec une interactivité forte et une présenta­tion luxueuse, absolument pas à la portée des bibliothèques municipales ou universitaires.

11 est cependant possible de produire des CD-ROM beau­coup plus simples, dont la conception et la réalisation ne revien­dra pas forcément beaucoup plus cher que la mise en page et la composition d'un catalogue imprimé en couleurs. En outre, la duplication d'un CD-ROM étant nettement moins onéreuse que l'impression d'un livre, on pourra finalement obtenir un prix de vente attractif.

Compte tenu de son coût relativement faible, ce type de produit multimédia simple peut en réalité constituer une réponse au problème récurrent de la mévente des catalogues d'exposition imprimés.

CONCLUSION

La numérisation peut être un excellent moyen de fédérer les gestionnaires de collections, les techniciens et les médiateurs

Conduire un projet de numérisation

autour d'un projet commun. Cependant, le recul manque pour juger de sa réception par le public des bibliothèques.

Les usages savants sont encore difficiles à évaluer, car les corpus numériques demeurent souvent fragmentaires. Toutes les études menées en bibliothèque universitaire, dans les grands éta­blissements et à l'étranger (en particulier aux États-Unis) mon­trent toutefois que les chercheurs utilisent très rapidement, et intensément, les documents mis à leur disposition dès lors qu'ils correspondent à leurs attentes. De même, les services de fourni­ture de documents à la demande ont sans doute un grand avenir dans les bibliothèques riches en fonds patrimoniaux. Compte tenu de la maîtrise des nouvelles technologies par les enfants et les adolescents, l'utilisation des documents numérisés à des fins pédagogiques semble également une évidence.

Les principales interrogations concernent les usages cultu­rels (et, plus marginalement car ils sont moins répandus en bibliothèque, touristiques). Au vu de certaines difficultés ren­contrées, notamment lorsque des projets où la technologie occupait une grande part ont été proposés à des publics peu habitués aux nouvelles technologies, la numérisation n'a alors de sens que si elle n'est ni mythifiée, ni utilisée comme un gad­get, mais considérée comme un moyen parmi d'autres de parve­nir au but que l'on s'est fixé. Expositions virtuelles, ateliers multimédia, publications électroniques sont légitimes et utiles chaque fois qu'ils s'inscrivent dans une démarche cohérente dont l'objet n'est pas le numérique lui-même, mais le dévelop­pement culturel des individus qui y participent.

Les utilisations multiples d'un document numérisé

par Thierry Delcourt

À l'issue du projet de numérisation des manuscrits de Clair-vaux, mené en partenariat avec les Archives départementales de l'Aube dans le cadre du programme national du ministère de la Culture en 1999-2000, la bibliothèque de Troyes disposait d'un réservoir d'environ 4 000 miniatures, enluminures et lettres ornées, qui font actuellement l'objet d'une exploitation poussée, sous les formes les plus variées et à destination de publics diffé­rents. Celle-ci a été rendue possible par le choix initial d'une numé­risation simultanée en plusieurs résolutions, compatibles avec les contraintes d'une diffusion sur le web, en local et sous forme éditoriale :

- mise en ligne progressive de l'ensemble du fonds, dans le cadre d'une bibliothèque virtuelle consultable sur le site web de la Bibliothèque, soit par déplacement dans une arborescence, soit par divers critères d'interrogation ;

- réalisation d'expositions virtuelles (la première a été con­sacrée à la Bible de saint Bernard) ;

-ateliers de découverte destinés aux scolaires, à partir d'une centaine de vues qui peuvent être fournies aux enseignants sous la forme d'un CD-ROM ;

- conception de dossiers pédagogiques, qui sont peu à peu mis en ligne sur le site ;

- actions de diffusion en direction de publics éloignés de la lecture, réalisées par une médiatrice du patrimoine en lien avec des structures partenaires de la Bibliothèque (mission locale, associations d'insertion, groupes de lutte contre l'illettrisme...) ;

- ateliers de création dans le cadre de l'Espace Culture Multi­média, dont le premier, qui a débuté en mars 2001, consiste en la réalisation d'un dessin animé, sur le scénario du Chevalier de la char­rette (Lanœlot) de Chrétien de Troyes, à partir des personnages et éléments de décor issus des miniatures d'une Bible historiale du XIII8 siècle ;

- participation à la publication d'un CD-ROM sur la fabrica­tion des manuscrits, en partenariat avec plusieurs autres bibliothè­ques municipales (notamment celles de Châlons-en-Champagne, Avranches et Reims) et le musée Condé de Chantilly.

Une exploitation comparable est en cours ou en projet autour du fonds de livrets de colportage de la Bibliothèque bleue.

Numériser pour un public déficient visuel

par Carine El-Bekri Dinoird

1. NUMÉRISER POUR QUEL PUBLIC ?

Le handicap visuel affecte essentiellement l'accès à l'infor­mation écrite ou iconographique. Cet accès peut être de nos jours facilité en partie grâce aux nouvelles technologies de l'information. La population concernée est aujourd'hui importante. Lors d'une journée thématique sur le livre numérique organisée par l'associa­tion BrailleNet à la Cité des sciences de la Villette le 1" février 2000, Monique Duchateau estimait le nombre d'aveugles en France à 77 000 adultes, 15 000 en âge de travailler et un millier d'étudiants ; 7 000 d'entre eux seulement pratiqueraient le braille. En matière d'insertion dans le système éducatif classique des efforts notables ont été réalisés par des associations, des instituts spécialisés pour permettre la mise en place d'un système adapté ; pourtant ces efforts sont encore jugés insuffisants. Ce type de han­dicap atteint un nombre croissant de personnes du fait notamment de l'allongement de l'espérance de vie, et des troubles visuels qui accompagnent le vieillissement.

Quand on parle numérisation, de manière générale un cor­pus est d'abord défini, numérisé, diffusé, puis les utilisateurs décident de le consulter - ou de ne pas le consulter. De fait, notre politique de numérisation n'a pas suivi ce processus. C'est un public spécifique - des handicapés visuels - qui nous a engagés dans la numérisation d'un corpus spécifique. Il ne s'agissait donc pas de déterminer à l'avance un corpus pour un public, mais c'est le public - ici les déficients visuels - qui a fait le choix des docu­ments à numériser.

Le support numérique retransformé - avec une lisibilité adaptée pour les besoins de ce type particulier d'usagers - a permis la mise en œuvre d'une numérisation « au coup par coup » - voire « au cas par cas », effectuée en fonction des demandes. Le fonds numérisé dont nous disposons correspond donc à l'ensemble de ces demandes toutes particulières.

2. LES SERVICES OFFERTS

2.1. Le service Déficients visuels au sein d'une bibliothèque La prise de conscience dans le monde universitaire de la

présence parmi le public étudiant d'handicapés visuels, a provo­qué en 1992 la création du service Déficients visuels du service

Conduire un projet de numérisation

commun de la documentation de l'université de Reims-Champa-gne-Ardenne.

À l'évidence, l'université se devait non seulement de mieux les accueillir, mais de les accueillir tout simplement. Cela nécessitait l'aménagement de locaux et de services particuliers. Grâce au développement de la micro-informatique il est désormais possible d'envisager d'autres moyens de communication et d'infor­mation, d'autres manières de travailler.

Les services de médecine préventive universitaire consta­tent les difficultés multiples auxquelles se trouvent confrontés un nombre croissant d'étudiants aveugles ou malvoyants qui désirent suivre normalement un cursus universitaire dans de bonnes conditions. Ces étudiants souhaitent avoir la possibilité d'accéder à la documentation au même titre que tous les autres étudiants. Concernée au premier chef, la bibliothèque universitaire en coor­dination avec le service de médecine préventive universitaire et l'AGEFIRH (Agence française pour l'insertion professionnelle des personnes handicapées) a donc décidé la création du service Défi­cients visuels destiné aux étudiants de l'université de Reims mais également à toute personne potentiellement concernée par ce ser­vice (aussi bien sur place qu'à distance).

Le succès rencontré dès l'ouverture est la preuve que le ser­vice répond à un véritable besoin. Un financement privé peu important (mutuelle étudiante, banque, assurance et association caritative) et une subvention de l'AGEFIRH ont permis à l'atelier informatique de s'équiper de trois postes informatiques spéciali­sés, de recruter une bibliothécaire adjointe responsable du service (mi-temps pris sur les effectifs de la bibliothèque) et une employée contractuelle à mi-temps pour les travaux de saisie et de correc­tion.

2.2. La fourniture de documents Le service avait une double mission : proposer aux étudiants

et aux usagers un service d'accueil sur place pour travailler sur les postes dédiés - cf. §3 « l'accès à l'information » - et un service d'impression braille ou de disquette à distance, par voie postale puis par le réseau. C'est ce service à distance qui s'est de plus en plus développé, principalement la fourniture de documents numérisés et

Les publics

corrigés, sur support disquette en format texte. Les usagers sont majoritairement éloignés géographiquement du service.

La capacité de fournir des documents corrigés, directement et immédiatement exploitables par les logiciels ad hoc est une spé­cificité du service rémois et l'une des raisons de son succès dans la prise en compte des besoins des usagers. Nous avons constaté un travail de correction important pour produire un document en format texte de qualité. Toutes les erreurs de transcription sont corrigées, car des textes simplement scannés en générant des problèmes de compréhension importants voire des contresens sont totalement inexploitables. Le nombre d'utilisateurs est relati­vement peu élevé (il oscille entre 30 et 50 usagers par an) mais leurs demandes sont lourdes à gérer : environ 10 000 pages scannées par an. Aujourd'hui, les sorties en braille - 2 000 en moyenne - intéressent de moins en moins de personnes et ont chuté cette année.

2.3. Des documents pour chaque type de public Les étudiants et professionnels, utilisateurs du service, ont

des besoins à la fois particuliers et spécifiques qui reflètent cepen­dant parfaitement l'ensemble de notre public universitaire.

Même si la demande de numérisation de cours polycopiés peut sembler importante, ce sont les collections de la bibliothèque qui servent de base à notre travail de numérisation. Nous n'avons pas enrichi spécialement des collections à l'intention des utilisa­teurs. Le développement des enregistrements sonores ne nous est pas apparu d'une grande nécessité compte tenu de la demande qui correspond souvent à un intérêt soit culturel soit lié aux loisirs. Le fonds numérisé est donc l'expression des deman­des spécifiques de nos usagers.

Pour une part importante, les ouvrages ou documents demandés relèvent du droit public (des traités), du droit administratif ; il s'agit également de mémoires de maîtrise ou de thèses de droit et d'économie. D'autre part, des manuels médicaux ont été numérisés pour répondre à la demande de professionnels, notamment kinésithérapeutes.

38 Conduire un projet de numérisation

3. L'ACCÈS À L'INFORMATION : LES OUTILS INFORMATIQUES OU DE LA MANIÈRE DE SE PROCURER DES TEXTES LORSQUE L'ON EST DÉFI­CIENT VISUEL

3.1. Les logiciels Grâce à l'évolution constante des nouvelles technologies de

l'information, les possibilités d'accès à l'information pour les per­sonnes déficientes visuelles se sont grandement améliorées et développées.

Il est possible d'accéder aux documents à partir d'un texte numérisé, soit sous forme de disquette comme nous le proposons à la demande, soit sous la forme des CD-ROM de type « encyclopédies » ou de corpus en texte intégral édités de façon commerciale.

Signalons d'emblée la complexité d'utilisation de ces outils d'aide à la lecture.

Trois moyens sont actuellement à la disposition des non-voyants et malvoyants :

- si sa vision est suffisante, l'usager dispose de logiciels de grossissement de caractères affichés à l'écran, ces logiciels vont lui permettre d'adapter la taille, le contraste, la couleur et le mode de défilement des caractères en fonction de ses besoins propres ;

- si la vision est complètement défaillante, l'usager dispose de logiciels de synthèse vocale destinés à toute personne qui ne peut lire son écran et ne maîtrise pas le braille. Ces logiciels lisent les textes soit phrase par phrase, soit mot par mot ou lettre par let­tre selon les besoins ou la difficulté de lecture ;

- enfin, la transcription en braille : les postes informatiques sont reliés à une « imprimante braille ». Le travail d'impression est dans ce cas beaucoup plus long et plus bruyant. La lecture peut s'effectuer également directement sur une plage tactile que le lecteur va découvrir au fur et à mesure du défilement du texte, il maîtrise dans ce cas la vitesse de défilement.

Le braille, seul système de lecture adapté aux aveugles nécessite un apprentissage assez long, c'est une technique complexe qui demande beaucoup de temps, à l'instar de la gym­nastique imposée (aux yeux ou aux oreilles) pour le déchiffrement lettre par lettre.

Les publics

La transcription en braille sur papier a l'Inconvénient d'être très « gourmande » en volume (1 page en écriture normale produit environ 4 pages en braille).

3.2. Les postes de consultation L'atelier du SCD de Reims est composé de trois postes infor­

matiques renouvelés au fil des évolutions technologiques ; ils cor­respondent aux trois usages possibles que nous venons de citer.

Pour les logiciels destinés au grossissement de caractères, un écran 20 pouces facilite la lecture. L'équipement a tendance à se standardiser et les coûts ont également baissé, un nombre croissant de personnes handicapées peuvent ainsi posséder leur propre équipement.

Notre vocation d'accueil au sein de la bibliothèque s'oriente vers une formation aux modes de consultation et de recherche de documents sur place ou de consultation et d'exploitation des tex­tes à partir d'une disquette que nous fournissons.

3.3. Internet ? Le réseau Internet représente aujourd'hui pour les déficients

visuels une source d'information considérable, mais il ne faut pas sous estimer les difficultés d'accès à ce nouveau média. Si, comme nous l'avons décrit précédemment, un texte numérisé leur est désormais accessible, l'informatique peut générer une exclu­sion certaine si l'on ne veille pas à leur faciliter l'accès aux sites.

En se connectant à des serveurs spécialisés les déficients visuels peuvent découvrir de nombreux fonds documentaires ; cela n'eut jamais été possible dans des conditions de lecture tradi­tionnelle. La presse quotidienne et scientifique, les bibliothèques du monde entier et les éditeurs proposent désormais quantité de fonds disponibles sous forme numérique. Cependant il importe, lors de l'élaboration des sites, de veiller au respect des normes d'accessibilité sous peine de rendre ces fonds numérisés inexploi­tables par les déficients visuels. Il est en effet indispensable, pour construire son site, de programmer les pages web de manière cohérente et structurée : les solutions adoptées (synthèse vocale ou terminal braille) pourront ainsi interpréter les données.

Conduire un projet de numérisation

> Les normes Des normes précises d'accessibilité permettent de tester les

sites et ont été rédigées dans le cadre du programme WAI (Web Acccessibility Initiative) financé en partie par des institutions nord-américaines (The US Department of Education's National Institute on Disability and Rehabilitation Research, Canada's Assistive Devices Industry Office), par des programmes de la Commission européenne et des fondations privées issues des grands groupes informatiques (comme Microsoft ou IBM par exemple). Le site www.w3.org/WAI décrit largement l'utilisation de ces règles. Ces normes sont basées sur le pragmatisme et la mise à jour perma­nente et adaptées aux évolutions technologiques. Elles listent notamment les règles à appliquer lors de la conception et de la réalisation de sites web et signalent les éléments qui risqueraient de faire définitivement obstacle à l'accessibilité et à la lisibilité des documents dans le cas de handicap visuel. Comment transcrire, par exemple, un schéma ou un dessin s'il n'est pas « traduit » en mode texte par une légende ? Comment naviguer dans des menus déroulants, des cases à cocher, des icônes. C'est le cas de la plu­part des catalogues informatisés de bibliothèques accessibles via le web.

Selon le programme WAI, une page HTLM doit s'adapter à tous les usages possibles : quel que soit le type d'ordinateur, quelle que soit la main qui l'utilise, tout le monde doit être en mesure de lire cette page (y compris les malvoyants ou non-voyants). Ces conditions extrêmes témoignent d'une perception militante d'un monde où l'usage des nouvelles technologies de l'information doivent être accessibles à tous.

4. QUEL AVENIR ?

Militer pour promouvoir l'idée d'une numérisation dédiée aux déficients visuels exige conviction et persévérance. Peu d'universitaires ou d'institutions sont prêts à favoriser ces projets en octroyant des moyens financiers ou en personnel. Néanmoins, les grandes sociétés informatiques s'investissent dans le développement des outils de lecture, IBM, Microsoft, Apple développent tous des produits pour déficients visuels.

Les publics

Le service du SCD de Reims s'attache aujourd'hui à faire un état des lieux complet :

- il évalue ou réévalue les services proposés aux déficients visuels ;

-il s'interroge sur les inévitables questions relatives aux droits d'auteur.

Ce problème est d'actualité car pour l'heure la loi ne prévoit aucune disposition particulière pour les transcriptions de ce type -quant aux éditeurs, ils ne produisent que très rarement une édition en braille ;

- il essaie de trouver de nouvelles solutions pour faire pro­gresser l'accessibilité et l'intégration des déficients visuels au sein de l'Université.

Quelle(s) incidence(s) sur notre savoir-faire avec l'apparition des e-books dont on peut penser qu'ils révolutionneront d'ici peu le monde de réd@ition scolaire et universitaire? Microsoft, en col­laboration avec Puise Data, a annoncé l'élaboration d'une inter­face spéciale pour les mal voyants. L'objectif est de fournir soit une interface vocale soit une transcription en braille éphémère par le biais de la plage tactile.

Qu'en sera-t-il alors de notre modeste travail de numérisation ?

Aspects juridiques de la numérisation

par Valér ie Game

Parmi les différents domaines du droit privé, la propriété intellectuelle englobe le droit de la propriété industrielle et celui de la propriété littéraire et artistique. Comme le droit des brevets et marques, le droit d'auteur a pour objet la protection de la créa­tion.

Il trouve ses fondements dans le domaine littéraire avec l'apparition de l'imprimerie. Les privilèges, dits « de libraires », étaient délivrés par l'autorité royale. Ce n'est qu'à partir de 1760 que les auteurs se virent progressivement accorder également un droit. Ainsi, les petites-filles de La Fontaine obtinrent un privi­lège pour les Fables en 1761.

L'abolition des privilèges lors de la révolution française ouvrit une courte période de vide juridique rapidement comblé par deux lois promulguées, la première pour assurer la protection des auteurs de spectacles, la seconde pour donner aux auteurs d'écrits en tous genres le droit de jouir leur vie entière du droit exclusif de vendre leurs ouvrages et d'en céder la propriété en tout ou partie.

Conduire un projet de numérisation

Depuis lors, sur cette base assez sommaire, s'est développé un droit jurisprudentiel que la loi du 11 mars 1957 est venue con­sacrer. Ce texte a été régulièrement modifié et complété, le droit d'auteur montrant qu'il pouvait s'adapter aux avancées techni­ques comme le phonographe, le cinématographe, la photogra­phie, la télédiffusion, le satellite...

Le développement des nouvelles technologies, la géné­ralisation de la technique de numérisation et la rapidité de la com­munication par les réseaux ont modifié de manière radicale les conditions de diffusion de la création. Les auteurs voyaient leurs droits menacés.

Très vite, les théoriciens du droit se sont interrogés sur les effets de cette évolution sur le droit d'auteur : « transformation de nature ou simple modification de degré »'. La question s'est posée de savoir si les règles traditionnelles pouvaient continuer à s'appliquer ou s'il devait être envisagé de les réviser.

L'intérêt de maintenir dans ce nouvel environnement une ferme protection des auteurs afin de favoriser le développement de la création fut réaffirmé. Pour ce faire, il ne fut pas nécessaire de remettre en cause les grands principes du droit d'auteur, les textes internationaux et nationaux ont fait et font encore l'objet de simples précisions.

Les bibliothèques comme les autres institutions culturelles dont le rôle est de porter les créations à la connaissance du plus grand nombre sont nécessairement confrontées à l'application du droit de la propriété littéraire. Le développement des nouvelles technologies a rendu cette question plus présente dans leur univers ; jusqu'alors, seules les institutions en charge de l'archi­vage et de la communication de documents sonores ou audiovi­suels s'y étaient trouvées réellement confrontées.

1. « Industries culturelles et nouvelles techniques ». rapport de la commission présidée par Pierre Sirinelh, juin 1994.

Aspects juridiques de ia numérisation

Il n'est plus envisageable aujourd'hui d'assurer une mission de lecture publique sans développer une politique de réseau, même s'il est encore tôt pour savoir si la priorité sera donnée aux réseaux inter bibliothèques ou au réseau Internet.

Quels sont ces droits attribués aux auteurs que doivent pren­dre en considération les utilisateurs des œuvres ? Quelles sont les questions qu'il convient de se poser afin d'agir en toute légalité ? Pour y répondre, il est indispensable de bien comprendre ce que recouvre le droit d'auteur et comment il s'applique aux différents types de documents susceptibles d'être numérisés dans les biblio­thèques.

1. LES GRANDS PRINCIPES DU DROIT D'AUTEUR

La loi française distingue droit moral et droit patrimonial.

1.1. Le droit moral

Le droit moral est perpétuel et imprescriptible. Il perdure donc après la mort de l'auteur au profit de ses ayants droit. Il est composé de trois prérogatives essentielles :

- le droit de divulgation, en vertu duquel seul l'auteur décide de porter ou non son œuvre à la connaissance du public ;

- le droit à la paternité ; à savoir le droit pour l'auteur d'exiger que son nom soit apposé sur l'œuvre ou au contraire de choisir de la publier de manière anonyme ou sous un pseudonyme ;

- le droit au respect de l'œuvre, qui permet de la protéger contre toutes les atteintes qui pourraient y être portées (modifica­tions, altérations, destruction...).

Il est également inaliénable.

Conduire un projet de numérisation

1.2. Les droits patrimoniaux

Les droits patrimoniaux sont temporaires. Au décès de l'auteur, le monopole d'exploitation d'une œuvre persiste au bénéfice de ses ayants droit pendant les soixante-dix années qui suivent. Le droit d'exploitation comprend le droit de représenta­tion et le droit de reproduction.

La représentation consiste dans la communication au public par un procédé quelconque : récitation publique, projection publique, télédiffusion... La représentation s'entend également de la présentation publique, donc de l'exposition.

La reproduction consiste en la fixation matérielle de l'œuvre par tout procédé permettant de la communiquer au public de manière indirecte. La fixation matérielle peut s'effectuer par tous procédés : imprimerie, dessin, gravure, photographie, mou­lage, enregistrement mécanique, cinématographique, magnéti­que et numérique.

Ces droits sont exclusivement cessibles par l'auteur ou ses ayants droit. La cession peut intervenir à titre gratuit ou onéreux. Nul ne peut donc les exercer sans l'autorisation de l'auteur. L'acte de cession n'est licite que si chacun des droits cédés fait l'objet d'une mention distincte, si leur étendue et destination sont précisées ainsi que la durée et le lieu d'exploitation.

Les rares exceptions à l'autorisation de l'auteur listées par la loi sont interprétées de manière très restrictive par la jurispru­dence. Lorsque l'œuvre a déjà été divulguée, seuls ne peuvent être interdits par l'auteur :

- les représentations privées et gratuites effectuées exclusi­vement dans un cercle de famille,

- les copies à usage privé ; - les impératifs par nécessité d'information (citations, ana­

lyses, revues de presse, catalogues d'enchères publiques...) ; - la parodie, le pastiche et la caricature.

Aspects juridiques de la numérisation

Sont ainsi protégées toutes les œuvres sans considération de leur genre (littéraire, musical, les arts plastiques...), sans consi­dération de leur mérite, et à la seule condition construite par la jurisprudence d'être originales c'est-à-dire, selon la formule des directives communautaires, d'être une création intellectuelle pro­pre à son auteur.

2. L'UTILISATION DES ŒUVRES

2.1. La création littéraire et musicale

2.1.1. Le manuscrit

De nombreuses bibliothèques sont chargées de la conserva­tion et de la gestion de manuscrits, patrimoine de l'État ou des collectivités locales.

Les brouillons d'écrivains suscitent un intérêt justifié, struc­turé autour de démarches scientifiques sur les secrets de la créa­tion. Les ventes d'autographes atteignent aujourd'hui des prix qui les placent sur un terrain comparable à celui du marché de l'art.

Un intérêt particulier se porte sur l'image des manuscrits ; leur commercialisation sous forme de fac-similés et leur numéri­sation pour communication en réseaux se développent. Or, pour numériser et mettre en réseau des manuscrits, il ne suffit pas d'en être propriétaire et détenteur mais, s'il s'agit d'une œuvre encore protégée au titre du droit d'auteur, il est indispensable d'avoir préalablement recueilli l'accord du ou des titulaires des droits de propriété intellectuelle afférents à cette œuvre.

L'image du manuscrit ne bénéficie pas d'une protection en tant que telle, l'objet de la protection est la « création

Conduire un projet de numérisation

intellectuelle », le contenu du texte. Ainsi, lorsque le texte est déjà publié, l'éditeur va être le plus souvent le titulaire des droits par cession de l'auteur ou de ses ayants droit.

Dans le cas des brouillons d'écrivains, il convient de veiller également au respect du droit moral de l'auteur. En effet, si le document qu'il est envisagé de numériser et de mettre en réseau n'est pas le manuscrit définitif du texte publié mais contient des états préparatoires, l'auteur n'en a pas toujours autorisé la divul­gation.

La propriété matérielle est distincte et indépendante de la propriété intellectuelle d'une œuvre.

Le plus souvent, les institutions publiques ne détiennent que la propriété matérielle de leurs collections.

Il est en effet très rare qu'une bibliothèque se trouve investie de droits de propriété intellectuelle sur une œuvre. Il peut arriver exceptionnellement qu'un auteur ou un ayant droit sans héritier dans le cadre d'un legs transmette à la fois de la propriété maté­rielle et des droits de propriété intellectuelle de ses œuvres.

En outre, l'article L. 123-4 du code de la propriété intellec­tuelle (CPI) prévoit la naissance de droits patrimoniaux d'une durée de vingt-cinq ans au profit de celui qui détient la propriété matérielle d'une œuvre et procède ou fait procéder à l'édition de cette œuvre, lorsque celle-ci n'a jamais été communiquée au public du vivant de son auteur ni dans les 70 années suivant son décès. Cette prérogative est une exception au principe du droit d'auteur selon lequel propriété matérielle et propriété intellec­tuelle ne se confondent pas.

Si une personne publique est ainsi investie de droits d'auteur sur une œuvre, elle peut alors céder des droits patrimoniaux par contrat. Le contrat de cession permet de prévoir une rémunération proportionnelle, mais il permet surtout de délimiter le champ de la cession et son étendue. Il peut être décidé par exemple de ne pas attribuer aux même opérateurs le droit de publier sous forme de livre et celui d'exploiter sous forme numérique.

Aspects juridiques de la numérisation

Il doit être veillé en cédant un droit de reproduire un texte en vue d'une publication sous forme de livre, à ne pas se dessaisir de la libre utilisation de l'image d'un manuscrit en fac-similé. En effet, il est nécessaire parallèlement à l'utilisation qu'en ferait un tiers que l'institution puisse continuer à communiquer voire met­tre en réseau en totalité ou en partie ce document.

C'est l'une des nombreuses raisons qui plaident pour que les institutions publiques ne concluent jamais de contrats de ces­sion exclusive. A cette occasion, il doit être rappelé que l'absence d'exclusivité doit être expressément prévue au contrat, car selon la loi « l'auteur doit garantir à l'éditeur l'exercice paisible et, sauf convention contraire, exclusif du droit cédé » ( article L. 132-8 du CPI.)

La Bibliothèque nationale de France est souvent sollicitée en vue de l'édition de manuscrits inédits dont elle détient la pro­priété et cela est d'autant plus vrai pour les compositions musica­les inédites.

Pour les compositions musicales, la Bibliothèque nationale de France a adhéré à la SACEM qui gère les droits de reproduc­tion mécanique ainsi que d'exécution et de représentation publi­que des œuvres éditées à titre posthume. Les contrats particuliers conclus avec les éditeurs de musique renvoient à cette gestion par la SACEM et à l'application de ses barèmes pour la rémunération à percevoir. Seule la publication sous forme de livret donne lieu à une rémunération directement perçue par la bibliothèque.

2.1.2. La correspondance

L'intérêt actuel pour les œuvres manuscrites se porte éga­lement sur la correspondance. Il est d'usage de considérer que la correspondance d'une personne quelle qu'elle soit constitue une œuvre.

Conformément au principe déjà rappelé selon lequel pro­priété matérielle et propriété intellectuelle sont distinctes, deux

Conduire un projet de numérisation

droits trouvent en l'espèce application ; celui de la personne qui détient la correspondance pour l'avoir reçue et celui de son auteur.

La communication et plus encore la diffusion de correspon­dance suppose en conséquence de veiller tant au respect du droit de propriété intellectuelle de l'auteur qu'au respect de la vie pri­vée de l'auteur, du destinataire ou de toute personne évoquée par la correspondance (article 9 du code civil).

Des réserves de communication peuvent être expressément formulées comme ce fut le cas pour les lettres de Victor Hugo à Juliette Drouet qui n'ont pu être communiquées qu'en 1964, ou les lettres de Romain Rolland à sa femme dont la communication est réservée jusqu'en 2004.

Les bibliothèques se doivent de respecter toute demande des auteurs de ne pas communiquer leurs écrits pendant une certaine durée conformément à l'exercice de leur droit de divulgation.

Elles doivent également respecter les conditions posées par les propriétaires des correspondances.

En effet, l'article 10 de la loi sur les archives du 3 janvier 1979 dispose que « lorsque l'État et les collectivités locales reçoivent des archives privées à titre de don, de legs, de cession, de dépôt révocable ou de dation au sens de la loi n0 68-1251 du 31 décembre 1968 tendant à favoriser la conservation du patri­moine artistique national, les administrations dépositaires sont tenues de respecter les conditions de conservation et de commu­nication qui peuvent être mises par les propriétaires. »

Le respect dû à la vie privée s'applique même en l'absence de réserves de communication expressément formulées.

La question peut donc se poser de savoir si le respect de la vie privée peut limiter l'accès des lecteurs chercheurs à certains documents dans l'enceinte d'une bibliothèque

Il a été jugé (Cour de cassation, civil P chambre, 15.01.1969, Gazette du Palais 1969, jurisprudence p. 168) que « le dépôt d'un chartrier privé aux Archives nationales et l'autorisation donnée à

Aspects juridiques de la numérisation

celles-ci de le microfilmer n'impliquaient pas nécessairement le droit de le communiquer au public. »

En tout état de cause la numérisation et mise en réseau de correspondances suppose la plus grande prudence. Chaque situa­tion ne pourra être appréciée qu'au cas par cas.

2.1.3. L'imprimé

L'expérience de la Bibliothèque nationale de France en matière de numérisation d'ouvrages imprimés est bien connue.

Il y a plus de dix années la Bibliothèque nationale de France engageait un programme de numérisation de cent mille ouvrages imprimés. Plus de quarante-cinq mille sont aujourd'hui consulta­bles sur Internet, sur le site Gallica de la Bibliothèque nationale de France.

Le choix d'une bibliothèque numérique du XIXe siècle a soulevé pour sa constitution et sa communication de nombreuses difficultés.

Comme il s'agissait d'une expérimentation, la plupart des éditeurs, agissant comme titulaires des droits de leurs auteurs, avaient autorisé dans les années 1990 la numérisation.

En 1997, les conditions d'une mise en communication sur postes de lecture sur le site de la Bibliothèque nationale de France ont été encadrées dans un protocole d'accord avec le Syndicat national de l'édition (SNE).

Sur cette base, des contrats d'autorisation ont été conclus avec dix-sept éditeurs pour environ cinq mille ouvrages proté­gés.

Cette démarche contractuelle a montré ses limites et dans un secteur où la gestion collective n'est pas de tradition, l'obtention des autorisations nécessaires pour de massives numérisations est irréaliste. Il faut rappeler à ce titre que pour ces œuvres protégées, la Bibliothèque nationale de France n'a pas obtenu d'autorisation de mise en réseau.

Conduire un projet de numérisation

Pour les ouvrages protégés, l'objectif est de disposer dans la mesure du possible avant numérisation de toutes les autorisations correspondant aux utilisations envisagées.

Il n'est pas toujours possible d'anticiper toutes les utilisations futures, l'exemple de la Bibliothèque nationale de France le montre : comment imaginer en 1989 la demande actuelle de consultations à distance des fonds institutionnels à travers le réseau Internet ?

En l'absence de sites à accès payant qui pourraient consti­tuer l'assiette d'une rémunération proportionnelle des ayant droits, la sélection en priorité d'ouvrages du domaine public en vue de leur numérisation est de facto devenue la voie privilégiée par les institutions.

Il convient néanmoins de déterminer avec précaution si une œuvre est ou non dans le domaine public.

[> Les éditions critiques L'édition critique d'une œuvre classique depuis longtemps

tombée dans le domaine public ne peut être numérisée et diffusée si l'appareil critique est encore protégé.

Les ouvrages critiques sont des œuvres dérivées, c'est à dire qu'elles reprennent des éléments d'une œuvre préexistante tout en y intégrant un travail nouveau et personnel.

Ainsi, une édition commentée de textes tombés dans le domaine public est absolument originale. Les droits sur cet ouvrage appartiennent à son auteur sa vie durant et soixante dix ans près sa mort à ses ayant droits.

Même en l'absence de commentaires et critiques, le CPI (article L.l 12-3) accorde protection aux auteurs d'anthologies ou de recueils d'œuvres ainsi que, depuis 1998, aux auteurs de bases de données qui par le choix ou la disposition des matières, cons­tituent des créations intellectuelles.

Or, il est souvent difficile de connaître la date de décès de ces auteurs bénéficiant d'une notoriété moindre, afin de calculer la durée de protection.

Aspects juridiques de la numérisation

La date d'édition est utile, mais n'est qu'un repère. Un ouvrage édité en 1920, dont l'auteur aurait eu alors vingt ans et serait décédé à l'âge de quatre-vingts ans, soit en 1980, est encore protégée jusqu'en 2050. En l'absence d'identification de la date de décès d'un auteur, aucune numérisation et diffusion d'une œuvre ne pourrait raisonnablement être faite en 2001 d'éditions postérieures à 1870.

Il importe également, pour mesurer si un ouvrage est ou non dans le domaine public, de déterminer s'il s'agit d'une œuvre de collaboration ou d'une œuvre collective.

!> Œuvre de collaboration et œuvre collective • L'œuvre de collaboration est celle à laquelle ont concouru

plusieurs personnes physiques ayant une communauté d'inspira­tion.

Les participations de chacun doivent avoir été concertées. Les auteurs se connaissent entre eux et travaillent ensemble dans un projet commun.

L'œuvre de collaboration est protégée durant soixante dix ans après la mort du dernier des auteurs survivant.

• L'article L.l 13-2 du CPI définit l'œuvre collective comme étant celle « créée sur l'initiative d'une personne physique ou morale qui l'édite, la publie et la divulgue sous sa direction et sous son nom et dans laquelle la contribution personnelle des divers auteurs participant à son élaboration, se fond dans l'ensemble en vue duquel elle est conçue, sans qu'il soit possible d'attribuer à chacun d'eux un droit distinct sur l'ensemble réalisé. »

La personne morale compose et structure l'ouvrage comme elle le souhaite et elle l'édite, la publie et la divulgue sous son nom.

Le second critère de l'œuvre collective, à savoir l'impossi­bilité d'attribuer des droits distincts sur l'ensemble n'exclut pas l'identification des contributions comme le montre l'exemple des dictionnaires ou des journaux.

Conduire un projet de numérisation

La durée de protection des œuvres collectives est de soixante dix années à compter du 1er janvier de l'année civile suivant celle où elle a été publiée.

La qualification d'œuvre collective est donc attrayante dans la mesure où elle permet plus rapidement et à une date certaine de disposer librement de l'œuvre.

Mais la prudence exige pourtant de retenir largement la qua­lification d'œuvre de collaboration, régime de droit commun de l'œuvre créée par les efforts conjugués de plusieurs auteurs, l'œuvre collective n'étant que l'exception.

Ceci est d'autant plus nécessaire que la jurisprudence actuelle est ambiguë oscillant entre une interprétation restrictive favorisant les auteurs et une interprétation extensive favorisant les investisseurs.

2.1.4. Le reprint

Le reprint ou la reproduction fidèle d'un texte d'une ancienne édition sans changement de composition ne nécessite, par nature, aucune autorisation préalable de l'auteur si l'œuvre originale est tombée dans le domaine public.

Le fait par un éditeur de reprint de reproduire servilement une première édition épuisée, de même que sa numérisation, en particulier en mode image, ne font pas renaître des droits d'auteur au profit de l'œuvre reproduite.

Une partie minoritaire de la doctrine a tenté, à une certaine époque de soutenir que le travail éditorial de présentation du texte par ailleurs libre de droits (notamment sur les caractères typographiques choisis, la disposition des marges, etc...) était susceptible en soi d'être protégé au titre du droit d'auteur.

Cette conception a été rejetée par la jurisprudence (tribunal correctionnel de Laval 8 janv. 1964, tribunal correctionnel de Lille 13 juin 1961, cour d'appel de Douai 17 mai 1962, cour d'appel d'Aix-en-Provence 1980).

Aspects juridiques de la numérisation

Le débat a été réveillé par la reproduction par voie de numé­risation et certains auteurs de doctrine voient dans le document numérisé en mode texte, une nouvelle œuvre en particulier en cas de création de modes de navigation dans le texte.

Si la numérisation d'une édition du domaine public ne fait pas renaître de protection au titre du droit d'auteur, le travail de l'éditeur bénéficie-t-il d'une protection sur un autre fondement juridique tel que par exemple l'action en concurrence déloyale ? (article 1382 du code civil)

Le champ traditionnel de cette action présuppose la mise en évidence d'un comportement fautif (s'attribuer la réputation d'un concurrent par exemple) mais une partie de la jurisprudence l'a étendu à l'ensemble des comportements pouvant être considérés comme des agissements parasitaires. Cette conception vise à sanctionner le simple fait de profiter du travail d'autrui.

Il existe en ce sens un arrêt isolé de la Cour de cassation déjà ancien (18 janvier 1982) lequel énonce que «la reproduction photographique en tant que procédé de copie servile dans le cas où il permet d'obtenir un prix de revient inférieur à ceux des pro­duits copiés, constitue un acte de concurrence déloyale. »

C'est ce qui a conduit le SNE à recommander aux éditeurs de reprint de demander l'autorisation de l'éditeur d'origine de l'œuvre reproduite par procédé photographique, même lorsque cette dernière est libre de droits.

L'extension de cette interprétation à la reproduction numé­rique en mode image va de soi.

On peut toutefois s'interroger sur le bien-fondé de cette démarche visant à reconstituer ainsi un droit privatif sur une créa­tion tombée dans le domaine public.

Certainement, ce droit n'a en revanche pas vocation à s'appliquer en cas de nouvelle saisie et présentation du texte pour communication sur écran.

Conduire un projet de numérisation

2.1.5. La presse

Les articles rédigés par les journalistes (articles de fond, interview...) sont soumis au droit d'auteur dès lors qu'est respec­tée la condition d'originalité en tant qu'empreinte de la person­nalité de l'auteur.

Les droits d'auteur appartiennent au journaliste même lorsqu'il agit sur instructions de son employeur.

Le contrat de travail qui lie le journaliste à l'organe de presse est sans incidence sur la titularité de ces droits (article L.l 11-1 du CPI).

Le cas des journalistes est cependant particulier : l'article L.121-8 alinéa 2 du CPI consacre indirectement le principe d'une cession automatique des droits patrimoniaux du journaliste à son employeur en ce qu'il dispose :

« pour toutes les œuvres publiées dans un journal ou dans un recueil périodique, l'auteur conserve, sauf stipulation contraire le droit de les faire reproduire et de les exploiter sous quelque forme que ce soit, pourvu que cette reproduction ou cette exploitation ne soit pas de nature à faire concurrence à ce journal ou à ce recueil périodique. »

Cela signifie à contrario que le journaliste ne peut s'opposer à une publication dans le journal auquel il est lié ce qui revient à reconnaître une cession de plein droit opérée par le contrat de tra­vail.

Sur ce point, un débat a opposé ces deux dernières années journalistes et organes de presse au sujet de la mise en place d'éditions en ligne sur le réseau Internet.

Les décisions de justice rendues ont été défavorables aux organes de presse (USJF et SNJ c/ SDV Plurimédia « Dernières Nouvelles d'Alsace », tribunal de grande instance de Strasbourg 03.02.1998 ; «Le Progrès de Lyon », cour d'appel de Lyon, 9 décembre 1999 ; SNJ et huit journalistes c/Sté de gestion du Figaro, cour d'appel de Paris, 10 mai 2000).

Aspects juridiques de la numérisation

Les deux cours d'appel ont affirmé que l'exploitation télé­matique des journaux sur minitel et Internet devait être soumise à l'autorisation des journalistes.

Elles se sont notamment fondées sur les articles L. 131 -3 et L. 131-6 du CPI selon lesquels chaque cession doit faire l'objet d'une mention distincte et l'article 761-9 du code du travail qui subordonne à une convention expresse le droit de faire paraître dans plus d'un journal ou périodique les articles dont le journa­liste est l'auteur.

Ainsi, en l'absence de convention expresse contraire, la rémunération versé au journaliste n'emporterait qu'un droit de reproduction épuisé dès la première publication.

Dans l'affaire du Progrès, la diffusion des éléments du jour­nal pris séparément a eu une incidence certaine sur la position de la Cour. Celle-ci aurait-elle été différente si le journal avait été diffusé sur Internet dans son ensemble ?

Depuis lors, des accords ont été conclus entre le syndicat national des journalistes et les organes de presse concernés.

Le GESTE (Groupement des éditeurs de services en ligne), association créée à l'instigation de groupes de presse français en vue du développement des éditions en ligne, a défendu l'idée que l'éditeur de presse disposait d'un droit non contestable d'exploi­ter l'œuvre collective dont il est propriétaire. Il estime que la voie de la négociation collective pour les entreprises qui souhaitent s'engager dans l'exploitation en ligne constitue une réponse sociale appropriée mais considère que la négociation doit porter d'abord sur le plan salarial et que le mode de rémunération n'a pas à être modifié.

Ce groupement a mis en place une charte de l'Internet, qu'il conseille d'annexer à tout contrat d'édition en ligne (http:// www.geste.fr).

En tout état de cause, l'interlocuteur des bibliothèques qui souhaitent numériser des fonds de la presse est l'éditeur. La bibliothèque doit toutefois, compte tenu du contexte précité,

Conduire un projet de numérisation

s'assurer que l'organe de presse délivre son autorisation en accord avec ses journalistes.

2.2. La mise à disposition d'images - Cartes postales et photographies

Avant de numériser et mettre en réseau des fonds de cartes postales ou de photographies, il faut bien évidemment vérifier auparavant leur situation au regard du droit d'auteur mais il est également indispensable de veiller au respect d'autres règles juri­diques telles que le droit à l'image.

La loi de 1957 avait limité le champ de la protection des photographies aux œuvres « artistiques et documentaires ». Les photographes durent attendre la loi de 1985 pour pouvoir bénéfi­cier de la même protection que les autres créateurs.

Cette restriction a eu plusieurs conséquences. En particu­lier, de nombreuses photographies du début du siècle ne sont pas signées ce qui rend l'identification de leurs auteurs fort difficile.

Elles peuvent alors être traitées comme des œuvres anony­mes.

L'article L. 123-3 du CPI prévoit que pour les œuvres ano­nymes la durée du droit exclusif est de soixante dix années à compter du 1er janvier de l'année civile suivant celle où l'œuvre a été publiée.

Toutefois, lorsque le ou les auteurs d'œuvres anonymes se sont fait connaître, la durée du droit exclusif redevient celle du régime général à savoir 70 années suivant le décès de l'auteur.

Il faut souligner que les photographes sont très attentifs au respect de l'exercice de leur droit de représentation y compris en cas de simple exposition. Ainsi, deux arrêts rendus par la cour d'appel de Paris le 20 septembre 2000 ont condamné sans indul­gence Paris Bibliothèques pour avoir utilisé dans le cadre d'une

Aspects juridiques de la numérisation

exposition, les clichés de deux photographes sans autorisation préalable.

Cartes postales et photographies peuvent superposer plu­sieurs droits : les droits d'auteur des photographes qui viennent d'être évoqués mais également des droits attachés au sujet ou à l'objet photographié.

• La reproduction de la photographie peut être soumise à l'autorisation de l'auteur de l'objet photographié.

Ainsi, il n'est pas rare qu'une œuvre d'art graphique ou plastique ou bien une œuvre architecturale soit un sujet de photo­graphie protégé en tant que tel.

Les autorisations pour reproduction et diffusion de ces œuvres peuvent être délivrées par des sociétés de gestion collec­tives. Dans le domaine de l'art graphique, l'ADAGP est repré­sentative. Cette société de gestion collective a mis en place des barèmes pour mise en réseau.

• La reproduction de la photographie peut être soumise à l'autorisation des personnes photographiées.

Toute personne a sur son image et sur l'utilisation qui en est faite un droit absolu qui lui permet de s'opposer à sa reproduction et à sa diffusion sans son autorisation expresse, quel que soit le support autorisé.

Le droit à l'image est une composante des droits de la per­sonnalité et sa protection repose sur l'article 9 du code civil : « chacun a droit au respect de sa vie privée. » Il s'agit d'un droit absolu et exclusif.

En outre, conformément au principe de spécialité du code de la propriété intellectuelle, l'autorisation donnée par une per­sonne à l'exploitation sur un support déterminé ne vaut que pour ce support et doit être renouvelée pour toute exploitation autre que celle initialement prévue.

La protection porte également sur l'image des personnes décédées. La jurisprudence est en revanche plus incertaine en ce

Conduire un projet de numérisation

domaine et il est généralement jugé que la fixation de l'image d'une personne décédée n'est prohibée qu'en cas d'atteinte à la dignité de la personne humaine.

La simple atteinte du droit à l'image ouvre droit à réparation, la victime n'ayant pas à démontrer l'existence d'un préjudice.

Certaines nuances sont à apporter car la protection n'est pas absolue dans tous les cas.

- Une protection absolue est conférée à l'image d'une per­sonne dans un lieu privé.

Le code pénal (art. 226-1) punit « d'un an d'emprisonne­ment et de 45 000 € d'amende le fait de porter atteinte à l'intimité de la vie privée d'autrui » en « fixant, enregistrant ou transmet­tant, sans le consentement de celle-ci, l'image d'une personne se trouvant dans un lieu privé. »

• Une protection plus relative est conférée à l'image d'une personne dans un lieu public.

Cette atténuation au principe découle du conflit entre le droit à l'image et la liberté d'information.

Au nom de la liberté d'information, la jurisprudence a ten­dance à tolérer la photographie et la diffusion d'un cliché. Cette tolérance s'accroît à mesure que la notoriété de la personne est grande. Si le principe demeure que toute personne, quelle que soit sa notoriété, possède un droit exclusif sur son image (cour d'appel de Paris, 12 septembre 1995), plus la personne est célè­bre, plus sa représentation peut être liée à l'exigence d'informa­tion. Néanmoins, la photographie ne doit pas être utilisée hors du contexte dans lequel elle a été prise et ne vaut bien sûr pas pour la sphère privée des personnes publiques.

D'une façon générale, la jurisprudence sanctionne les cas où la prise de vue donne lieu à une exploitation commerciale alors même qu'une autorisation avait été donnée pour la prise de vue mais que l'exploitation commerciale n'était pas prévue à l'origine.

Aspects juridiques de la numérisation

Le droit de communiquer un ensemble de photographies à des chercheurs ne donne pas pour autant le droit de les numériser et de les mettre en réseau.

• La reproduction de la photographie peut être soumise à l'autorisation du propriétaire de l'immeuble photographié.

Le respect de la vie privée de la personne a une incidence en matière de reproduction de l'image des biens. En effet, la jurispru­dence sanctionne la reproduction et la diffusion de l'image d'un bien réalisées sans l'autorisation du propriétaire du bien, lorsque cette publication porte atteinte à la vie privée ou à la respectabilité de ce dernier (par exemple, cour d'appel de Paris, 7 janvier 1991, diffu­sion de l'image d'un voilier sans l'autorisation de son propriétaire).

Plus récemment, la jurisprudence s'est orientée vers la reconnaissance d'une protection de l'image sur le fondement du droit de propriété (article 544 du code civil). Par un arrêt du 10 mars 1999, la Cour de cassation a considéré que la reproduc­tion et la diffusion de cartes postales représentant le café de Bénouville portait atteinte au droit de jouissance du propriétaire et que le propriétaire avait seul le droit d'exploiter son bien sous quelque forme que ce soit.

Cette protection est toutefois plus limitée qu'elle ne ('appa­raissait au premier abord. En effet, le 25 janvier 2000, la Cour de cassation refusait de casser un arrêt de la cour d'appel d'Angers en considérant que « les juges du fond ont caractérisé le trouble manifestement illicite causé » au propriétaire d'une péniche par la commercialisation de cartes postales de ladite péniche.

De même, la cour d'appel de Paris (31 mars 2000) a statué plus restrictivement sur la demande des propriétaires d'un château qui avait été représenté sous forme de dessin dans des livrets distribués gratuitement consacrés à la découverte du patrimoine. La cour d'appel les a déboutés au motif qu'il n'y avait ni trouble de jouissance, ni mise en péril du site, ni exploitation commerciale et que le souci pédagogique d'information relevait de la liberté d'expression.

Conduire un projet de numérisation

Enfin, la Cour de cassation, dans un arrêt du 2 mai 2001, a cassé un arrêt rendu le 24 novembre 1998 par la cour d'appel de Rennes au motif que la Cour avait interdit l'usage de la photogra­phie de l'îlot de Roch Arhon sans préciser en quoi l'exploitation de la photographie portait un trouble certain au droit d'usage et de jouissance du propriétaire.

L'utilisation des images en vue d'une opération de numéri­sation doit donc être faite dans le triple respect des droits de pro­priété intellectuelle (photographe, œuvre représentée par l'image), des droits de la personnalité (droit au respect de la vie privée, droit à l'image) et des droits du propriétaire du bien repré­senté (impérativement en cas d'exploitation commerciale).

En outre, l'utilisation des images doit correspondre stricte­ment au cadre de l'autorisation donnée.

CONCLUSION

La question du statut juridique des documents à reproduire et mettre en réseau est inévitable. Elle doit être posée avant l'acte de reproduction et doit être prise en compte au même titre que les cri­tères scientifiques pour la sélection des documents à numériser.

Les bibliothèques et institutions culturelles se doivent d'être exemplaires dans l'application d'un dispositif mis en place par le ministère de la Culture pour protéger la création. Mais de nom­breuses autres règles de droit trouvent application à l'occasion de la communication et diffusion du patrimoine culturel.

Les premiers réflexes juridiques nécessaires peuvent être complétés par chacun en se référant aux textes eux-mêmes, en consultant quelques revues spécialisées (y compris en ligne), ainsi qu'en s'adressant aux sociétés de gestion collective chargées de la perception et répartition des droits d'auteur. En complément à cette brève présentation, quelques textes de réfé­rence sont cités à titre indicatif en fin d'ouvrage.

DEUXIÈME PARTIE

Conduire le projet

La mise en œuvre de la numérisation

par Albert Sitruk

1. ÉLABORATION D'UN CAHIER DES CHARGES DE NUMÉRISATION

1.1. Introduction

Une opération de numérisation d'un fonds documentaire doit nécessairement s'inscrire dans un objectif global, lequel détermine les conditions de mise en œuvre et d'exploitation du fonds numérisé qui résulte de cette numérisation. Le simple fait de conduire une action de scanning ne peut se justifier en soi sans qu'auparavant on ait défini le contexte d'emploi des ima­ges numériques obtenues. Un tel projet implique notamment l'engagement de dépenses - en termes d'équipements et d'infrastructure informatiques - qui dépasseront largement le simple budget lié à l'opération de numérisation. Toute opéra­tion de numérisation doit donc s'inscrire dans un contexte de

Conduire un projet de numérisation

GED (gestion électronique de documents), quelle que soit la nature de cette GED - archivage, ou diffusion.

1.2. Les composantes fonctionnelles d'un système de GED

Afin de clarifier notre propos, nous rappelons succincte­ment les concepts fonctionnels ainsi que les technologies mis en jeu dans les systèmes de GED. Ce bref rappel permettra de pré­ciser les concepts impliqués par ces technologies, de positionner les différents composants techniques dans une architecture glo­bale et de rapporter ces composants à des fonctions bien déterminées de la chaîne de traitement du document.

1.2.1. Les différentes natures de documents numériques

Le schéma suivant positionne les différentes natures de documents intervenant dans une opération de numérisation et les traitements associés qui permettent de les convertir en données informatiques aptes à être exploitées par l'ordinateur.

Le principe général illustré décrit les transformations subies par des documents sous forme physique (papier ou autre) afin de les transformer en données informatiques de trois natures différentes :

1.2.1.1. Image « bitmap »

Chaque page est « photographiée » et transformée en une suite de points représentant des valeurs binaires (noir ou blanc, niveaux de gris ou composantes chromatiques).

Cette représentation s'obtient grâce aux techniques de numérisation lesquelles mettent notamment en jeu un scanner.

La mise en œuvre de la numérisation

On observera que cette représentation, sans autre traitement supplémentaire, ne permet pas d'autre exploitation du document que la simple consultation par affichage d'images. Il faut donc nécessairement accompagner chaque image d'une information d'identification permettant d'adjoindre à l'image numérique une information sémantique qui en permet l'exploitation (l'indexa­tion documentaire).

1.2.1.2. Données caractères

Le document est constitué d'une suite de codes représentant les caractères qui le composent.

Cette représentation s'obtient de deux manières différentes : - à partir d'un poste de création de documents (traitement

de textes) dans ce cas le document possède une forme numérique au départ et ne nécessite pas de numérisation. Ce type de docu­ment conservera alors sa forme de présentation en plus de son contenu, si l'on maintient le format « texte riche » initial. Cette option limite cependant son utilisation à un environnement d'exploitation similaire à l'environnement de création. Certains afficheurs de documents savent néanmoins reproduire une grande partie de la présentation initiale pour des documents pro­venant des traitements de textes les plus courants (Word ou XML par exemple) ;

- par numérisation du document et application d'un traite­ment de lecture optique (OCR) aux images obtenues. Dans ce cas, seul le contenu textuel est récupéré, la présentation est géné­ralement perdue. On peut obtenir une partie de la structure logi­que du document par reconnaissance des titres de paragraphes, par exemple. Dans ce cas, on obtiendra un format de données traitement de texte ou XML. Les techniques d'OCR sont développées plus loin.

Un document au format « caractères » permet une large exploitation tant au niveau de la recherche documentaire

Conduire un projet de numérisation

puisqu'il permet une indexation plein-texte du contenu, ce qui autorise une recherche par le contenu, qu'au niveau de sa réutilisation ou sa modification. On notera en outre que l'indexa­tion plein-texte permet d'alléger l'indexation documentaire sans cependant l'éliminer totalement dans la mesure où il faudra quand même saisir certaines informations d'identification du document.

1.2.1.3. Données vectorielles

Cette forme de représentation est applicable aux plans ou schémas, dans laquelle les éléments géométriques composant le document sont codifiés.

Cette représentation s'obtient de deux manières : - à partir d'un poste de création de dessins (DAO, CAO), le

document initial est déjà sous forme numérique. Ce type de docu­ment conservera sa structuration en objets composés (formes liées, couches de dessins) à distinguer des simples formes géométriques de base. Il sera exploitable au moyen de l'environ­nement de DAO ou CAO qui aura permis sa production. Il existe certains visualiseurs qui permettent l'affichage des formats CAO les plus courants (Autocad par exemple) ;

-par vectorisation d'un plan scanné, cette opération étant effectuée par un programme de reconnaissance de formes. Le document obtenu possède une structure beaucoup plus simple que dans le cas précédent, on y retrouve que des formes géomé­triques élémentaires. En général, le fichier obtenu comporte un grand nombre de vecteurs (certaines formes non reconnues sont décomposées en autant de vecteurs élémentaires), ce qui rend parfois difficile son exploitation (affichage lent, stockage volu­mineux).

Un plan en format vectoriel peut être utilisé pour consultation et modification, ces opérations pouvant s'avérer

La mise en œuvre de la numérisation

néanmoins impraticables si la qualité de la vectorisation n'est pas suffisante.

Une troisième méthode est employée pour transformer un plan papier en représentation vectorielle. Cette méthode est entièrement manuelle, elle consiste, à l'aide d'une tablette gra­phique à redessiner le plan et à identifier les différents éléments qui le composent. Cette méthode est désignée sous le terme de « digitalisation » pour la distinguer de la numérisation. Le résul­tat obtenu est d'une grande qualité et permet un usage plus effi­cace du plan vectoriel. Cette méthode est notamment mise en œuvre pour la récupération de schémas anciens ou de plans de ville.

Nous voyons à travers l'analyse qui précède, que la finalité de la numérisation peut varier en fonction du contexte et de l'objectif de cette opération. Les images numériques obtenues se suffiront à elles-mêmes le plus fréquemment pour constituer une base de documents accessibles en consultation. Elles peuvent dans certains cas donner lieu à traitement ultérieur pour l'obten­tion de données informatiques autorisant une exploitation plus étendue qu'une simple image.

70 Conduire un projet de numérisation

La mise en œuvre de la numérisation

1.2.2. L'architecture technique

Le schéma suivant identifie les composantes matérielles constituant un système de gestion de documents numérisés et leur interaction.

1.2.2.1. Le poste de numérisation

Le poste de numérisation comporte trois éléments : • Le PC de pilotage. C'est un composant standard qui se

distingue néanmoins par les caractéristiques suivantes : - un écran de grande dimension (19 ou 20 pouces) afin de

permettre le contrôle des documents scannés par affichage en mode pleine page ;

- une capacité disque suffisante pour stocker en local le volume correspondant à une production journalière (6 Go minimum). En fait, le transfert des images vers le serveur s'opère progressivement au fur et à mesure que les lots de numérisation s'écoulent. Il faut cependant prévoir les situa­tions où le serveur est arrêté par exemple pour des raisons de maintenance, dans ce cas la numérisation ne sera pas interrompue ;

- le prix moyen d'un tel équipement se situe aux environ de 2 700 €.

• le scanner. On dimensionnera le scanner en fonction des volumes à traiter et de la nature des documents.

72 Conduire un projet de numérisation

•c CU

Û-

La mise en œuvre de la numérisation

Le tableau suivant indique les principaux scanners existants et les classifie en fonction de leurs nature, capacités et prix (observés fin 2001).

Modèle Capacités Prix

moyen observé

Scanner de pages noir et blanc Canon DR40B0 A3 - 47 pages/min - 100/600 dpi - duplex - 5 000 pages/jour 70 KF Canon DR5020 A3 - 90 pages/min - 200/400 dpi - duplex - 4 000 pages/jour 100 KF Fujitsu M3093 A4+ - 27 pages/min -100/600 dpi - duplex - 2 000 pages/jour 30 KF Fujitsu M3096 A3 - 22 pages/min -100/600 dpi - simplex - 2 000 pages/jour 40 KF Fujitsu M4097 A3 - 50 pages/min - 100/600 dpi - duplex - 3 000 pages/jour 60 KF Fujitsu 4099 A3 - 90 pages/min - 100/400 dpi - duplex - 5 000 pages/jour 180 KF Kodak 1500 A3 - 50 pages/min - 100/600 dpi - duplex - 3 000 pages/jour 60 KF Kodak 2500 A3 - 60 pages/min - 100/600 dpi - duplex - 5 000 pages/jour 80 KF Kodak 3500-3510 A3+ - 75 pages/min - 200/300 dpi - simplex ou duplex -

10 000 pages/jour 150 KF

Kodak 3520 A3+ - 85 pages/min - 200/300 dpi - duplex -10000 pages/jour

200 KF

Kodak 7520 A3+ - 120 pages/min - 70/300 dpi - simplex ou duplex -25 000 pages/jour

300 KF

Kodak 9520 A3+ - 160 pages/min - 70/300 dpi - simplex ou duplex -40 000 pages/jour

800 KF

Panasonic KV-SS25D A4+ - 20 pages/min - 150/300 dpi - duplex - 2 000 pages/jour 40 KF Panasonic KV-S2055 A3 - 50 pages/min - 100/600 dpi - duplex - 5 000 pages/jour 70 KF Panasonic KV-SS855 A3 - 85 pages/min - 100/400 dpi - duplex - 6 000 pages/jour 200 KF Ricoh IS420 A3 - 46 pages/min - 200/400 dpi simplex - 1 000 pages/jour 40 KF Ricoh IS430 A3 - 62 pages/min - 100/600 dpi - simplex ou duplex -

4 000 pages/jour 80 KF

Ricoh IS450 A3 - 70 pages/min200/400 dpi - simplex ou duplex -5 000 pages/jour

100 KF

Scanner de pages couleur Canon DR5080C A3 - 90 pages/min - 200/300/400dpi - duplex -

5 000 pages/jour 100 KF

Fujitsu 4750C A3 - 20 pages/min 150 dpi - duplex - 5 000 pages / jour 100 KF

Conduire un projet de numérisation

Modèle Capacités Prix

moyen observé

Kodak 3590C A3+ - 85 pages/min - 100/150 dpi - 100/150 dpi - duplex -5 000 pages / jour - bi-chromodal (premier plan en couleur,

arrière plan en N&B)

280 KF

Kodak 4500 A3+ - 85 pages/min - 100/150 dpi - simplex ou duplex -6 000 pages / jour

300 KF

Umax Powerlook 1100 A4 - 1200 x 2400 dpi max - 42 bits couleur -adaptateur pour diapos

10 KF

Umax Powerlook III A4 - 1200 x 2400 dpi max - 42 bits couleur -adaptateur pour diapos

20 KF

Umax Powerlook 2100 XL A3 - 800 x 1600 dpi max - adaptateur pour diapos 15 KF Scanner de microformes

ACS4200 Cartes à fenêtre - 30 sec par vue - scanne et indexe -magasin 100 cartes

100 KF

CanoScanFS27I0 Film 35 mm couleur/N&B positive/négative -2570 x 3855 pixels - 10/50 sec. Par vue

20 KF

Kodak RFS3570 Film 35 mm couleur/N&B positive/négative -2570 x 3855 pixels - 10/50 sec. Par vue

MEKEL M525 Film 16/35 mm N&B et niveaux de gris positive/négative -200 dpi - 100 vues/mn

200 KF

Scanner de plans Contex Chameleon 257 36"

64/90 cm de lèse (A1/A0) - Couleur/N&B -600 dpi - 2" / sec

100 KF

SuperWide 8050 125 cm de lèse ( A0+) - Couleur - 800 dpi - 2" / sec 300 KF Scanners de livres I2S - DIGIBOOK Livres Al (60 x 84 cm) - couleur ou N&B -

épaisseur de 4 à 12 cm - Porte livre - 5 000 à 10 000 pixels -250 à 800 pages / heure

300 à 500 KF

Minolta - BookScribe Livres A3 (30 x 42 cm) - N&B - Porte livre (option) -400dpi - 120 pages / heure

100 KF

Minolta PS3000 Livres A3 (30 x 42 cm) - N&B - Porte livre - 400 dpi -800 pages / heure

100 KF

Minolta PS7000 Livres A3 (30 x 42 cm) - N&B - Porte livre - 600 dpi -800 pages / heure

150 KF

Note : les prix indiqués sont donnés à titre indicatif. La capacité simples / duplex correspond au scannrag recto seul ou recto/verso. Le débit journalier correspond à la résistance mécanique de l'appareil donnée par le constructeur.

La mise en œuvre de la numérisation

• Le logiciel de pilotage assure la commande du scanner mais aussi la gestion de l'activité de numérisation dans son ensemble : comptage des pages, contrôle, reprise en cas d'inci­dents, traitement d'images, conversion de format. Certains pro­duits incluent des fonctions d'OCR.

Il existe un grand nombre de produits correspondant à cette fonction chaque offre GED propose un environnement de numé­risation. Nous citerons les produits génériques suivants :

- ASCENT de Kofax ; - Capture de Kodak ; - Acrobat Capture d'Adobe ; - ScanOS d'IDEAL. Ces scanners fonctionnent sous les normes ISIS ou TWAIN.

1.2.2.2. Logiciels d'OCR

Les principaux logiciels d'OCR du marché sont listés au tableau suivant :

Fabricant Logiciel Langues CAERE OmniPage Pro 6 ou 7 ou 8 13+13 dictionnaires XEROX TextBridge Pro 3/95/98 11 + 11 dictionnaires Logitech PageScan Mimetics Easy Rider Elite 10 + 5 dictionnaires Mimetics Easy Rider Classic 10 + dictionnaires français

IRIS IrisPen 29 + 29 dictionnaires IRIS IrisPen Executive 29 + 29 dictionnaires IRIS Iris Translater 5 langues au choix

RECOGNITA Recognita Plus 3.0 63 + 63 dictionnaires RECOGNITA Recognita Card

ADOBE Capture

Conduire un projet de numérisation

Le choix d'un logiciel d'OCR est fortement déterminé par les capacités de contrôle qu'il propose et notamment de la dispo­nibilité de dictionnaires spécialisés correspondant aux ouvrages traités.

Le prix moyen d'un tel logiciel varie entre 750 et 1 500 €. Il est important de valider au moyen de tests appliqués aux

documents à traiter. Le rendement effectif d'un traitement d'OCR dépend :

- de la qualité des documents. Les documents présentant une qualité d'image insuffisante (manque de contraste des textes, présence d'un bruit de fond important...) ou une structure de page trop complexe (multicolonnes, placement irrégulier des illustrations, taille des caractères trop petite...) donneront des résultats insatisfaisants.

- du soin mis à réaliser le scanning. L'alignement de la page, le niveau de contraste et de luminance choisi, la résolution impactent de manière fondamentale le taux de reconnaissance.

Dans la plupart des cas, on tablera sur un taux de reconnais­sance inférieur à 50 %. Il en résulte une quantité de données importante à saisir en correction. Ce taux peut être amélioré d'une part en optimisant les conditions de scanning et d'autre part en mettant en œuvre les techniques d'ICR (intelligent cha-racter récognition) qui vont employer des moyens de contrôle sophistiqués permettant d'assister la reconnaissance par appel à des dictionnaires spécialisés et à des algorithmes spécifiques de reconnaissance des données lues. Cette technique d'ICR s'appli­que à une catégorie de documents particulière et permettrait de tendre vers un taux de reconnaissance qui avoisinerait 90 %.

1.2.2.3. L'indexation

L'indexation des documents procède en deux temps : -indexation primaire : saisie des données d'identification

de l'image. Cette saisie s'opère immédiatement après (parfois

La mise en œuvre de la numérisation

avant) le scanning. Elle peut être facilitée par la mise en œuvre de la technologie « codes à barres ».

-indexation secondaire: saisie des données de l'analyse documentaire (mots-clés, résumé...).

Un traitement OCR peut en outre être exploité afin d'indexer en plein-texte le contenu pour servir à la recherche documentaire.

1.2.2.4. Le serveur d'impressions

Il devra être dimensionné en fonction des volumes de reproduction de documents estimés. Dans certaines bibliothè­ques, un service de reproduction « lourd » pourrait être offert afin de permettre aux lecteurs d'emporter des extraits des ouvrages consultés.

On privilégiera le serveur d'impression centralisé à l'impression locale. Ce type d'architecture permet en effet de contrôler les volumes de documents imprimés et d'en faciliter la logistique (facturation du service et maintenance de l'impri­mante). On préférera les imprimantes à technologie laser qui garantissent une qualité optimale et des vitesses d'impression satisfaisantes.

1.2.2.5. Le serveur de documents

Il supportera l'application centrale de gestion de docu­ments. Elle comporte les fonctions suivantes :

-gestion du stockage des fichiers images et pilotage des périphériques de stockage de masse (disques durs et juke-box de disques optiques ou CD-ROM) ;

- gestion de l'indexation des documents ; - prise en charge de la recherche documentaire. L'application de GED procure aux postes de consultation

une interface adéquate. On tirera avantage du client léger de

78 Conduire un projet de numérisation

type navigateur web qui évite de devoir spécialiser les postes de consultations en y installant des logiciels clients spécifiques.

1.3. Définition d'un projet de GED

Sur la base de ces observations, il nous semble important de développer les éléments qui contribuent à définir le projet de GED et à en présenter les impacts sur l'opération de numérisa­tion.

La numérisation d'un fonds documentaire trouve sa justifi­cation selon tout un registre de motivations qui le plus souvent se complètent :

- volonté de préserver le fonds original d'une détérioration graduelle liée à des conditions de rangement inadaptées où à une fréquence de consultation importante ;

- besoin d'alléger la charge en personnel liée à la gestion du fonds physique et de palier ainsi le manque d'effectifs présents dans les centres de documentation ou les bibliothèques ;

- désir de promouvoir le fonds et de le mettre à disposition d'un plus grand nombre d'utilisateurs :

- projet d'intégrer le fonds documentaire dans une applica­tion serveur à vocation plus large qui exploite les moyens de dif­fusion basés sur les technologies web.

De ces différentes motivations se dégagent les spécifica­tions fonctionnelles et techniques de diverses applications de GED :

• une GED d'archivage dont la vocation majeure est de garantir la conservation du fonds. Les caractéristiques d'une telle application déterminent les éléments suivants :

- numérisation à haute résolution afin de conserver au mieux les informations du fonds documentaire. On envisagera 300 ou 600 dpi selon la qualité souhaitée et la nature des documents scannés ;

La mise en œuvre de la numérisation

- indexation minimale des documents suffisante pour un accès simple et immédiat aux documents ;

- conservation sur des supports à longue pérennité pour assurer une conservation à long terme ;

- on pourra envisager de conserver ces supports au sein d'un serveur de données ou de simplement les disposer dans un lieu de rangement adéquat en fonction des besoins de consulta­tions estimés ;

• une GED de consultation en réseau local (au sein de la bibliothèque) dont l'objectif est de permettre aux visiteurs d'accéder aux documents numérisés dans les meilleures condi­tions. Les caractéristiques d'une telle application déterminent les éléments suivants :

- numérisation à une résolution moyenne compatible avec une consultation de qualité associée à des délais d'affichage acceptables. Une résolution de 200 dpi permet une consultation sur un réseau local avec des temps d'accès à l'image de l'ordre de quelques secondes ;

- traitement en lecture optique (OCR) des documents ima­ges pour en assurer la diffusion sous forme textuelle et pour mieux en exploiter le contenu dans la recherche documentaire ;

- indexation riche et ciblée relativement au profil des utili­sateurs attendus ;

- stockage des fichiers numériques dans un serveur de con­sultation dimensionné pour répondre aux estimations de volumé-trie et de taux de consultation projetées ;

- mise en place d'une application « cliente » au niveau des postes de consultation.

• une GED de diffusion sur le web dont le but est de servir un grand nombre d'utilisateurs au travers d'un réseau à faible débit. Les caractéristiques d'une telle application déterminent les éléments suivants :

-numérisation à faible résolution permettant des temps de transmission acceptables sur le réseau téléphonique. Une résolution

Conduire un projet de numérisation

de 100 dpi sur un réseau commuté à 56 Kbds nécessite en moyenne 1 minute pour la transmission d'une page monochrome à un poste distant ;

- indexation à caractère moins spécialisé que précédem­ment dans la mesure où le public visé est probablement moins professionnel et où l'utilisateur ne disposera pas de l'assistance éventuelle d'un personnel qualifié ;

- stockage des fichiers numériques dans un serveur de dif­fusion orienté Internet avec nécessité d'opter pour un format de données compatible avec ce type de réseau.

Ces différents objectifs doivent fréquemment être combi­nés. On devra alors envisager les solutions adaptées pour y répondre - conversion de résolution pour transformer par pro­gramme une image haute résolution en basse résolution, double numérisation (à haute résolution pour la conservation de l'image dans la meilleure qualité et à basse résolution pour la consultation à distance), mise en œuvre de différents serveurs et applications spécialisées.

1.4. Préparation du cahier des charges

L'objectif du cahier des charges est de permettre à chaque bibliothèque de spécifier les conditions de numérisation de son fonds de documents.

La numérisation des documents pourra être effectuée : en interne ou par des prestataires.

Pour une reprise effectuée par des prestataires, les bibliothè­ques s'appuieront sur des fiches de consultation, procurées en annexe du « cahier des charges » qui leur permettront de fournir aux prestataires toutes les informations nécessaires à l'établisse­ment d'un devis et réaliser les travaux demandés.

Dans le cas d'un travail effectué en interne, ces mêmes fiches permettront au responsable de la bibliothèque de spécifier

La mise en œuvre de la numérisation

les travaux à l'atelier de numérisation et serviront de fiches inter­nes de circulation pour formaliser les échanges entre les diffé­rents acteurs.

Dans les paragraphes qui suivent on trouvera une sorte de « guide pédagogique » devant servir aux responsables des biblio­thèques universitaires à qualifier leur demande en travaux de numérisation dans un triple objectif :

- appréhender les besoins de numérisation en précisant les objectifs pour chaque catégorie de fonds disponible ;

- arrêter des choix techniques quant aux procédés à employer, aux supports de données à produire et aux formatage des documents numériques ;

- spécifier les travaux à effectuer par le prestataire (ou l'ate­lier de numérisation interne en termes techniques, opératoires et quantitatifs.

La démarche prend en compte les diversités de supports imprimés existant dans les bibliothèques. Chaque catégorie de média est déclinée selon les différentes modalités possibles de manière à prendre en considération les différentes situations qui peuvent se présenter.

1.4.1. Documents imprimés

La numérisation de documents imprimés nécessite des équi­pements adaptés au type de support :

- l'équipement le plus courant est le scanner de pages - ce type d'équipement convient pour traiter des pages séparées ou des brochures qu'il est possible de dégrafer ;

- pour traiter des ouvrages reliés, on emploie un scanner de livres, qui représente une solution plus coûteuse et moins cou­rante que la précédente ;

- pour traiter des documents comportant à la fois des textes et des photos en couleur, il faut employer un scanner couleur.

Conduire un projet de numérisation

La problématique de numérisation de documents imprimés consiste à déterminer les critères de numérisation en fonction du document considéré et de l'usage qu'on entend faire des docu­ments images. Ces critères sont rappelés ci-après:

• résolution : ce paramètre détermine la finesse de l'image obtenue. Cependant plus la résolution est élevée, plus le fichier obtenu sera volumineux, ce qui impactera lourdement la configu­ration du système de stockage et les temps de transmission et d'affichage de l'image. Pour la plupart des documents on optera pour une résolution de 300 dpi, qui correspond à la pratique la plus courante. Cependant on peut envisager d'aller au-delà pour des documents particulièrement difficiles - comportant un grand nombre de détails de petites dimensions. On pourra dans certains cas, scanner à 600 dpi pour constituer des « bruts de scan » à haute résolution et convertir ces images à 300 dpi pour l'exploi­tation.

• couleur : trois situations sont à considérer : - les documents textuels en noir et blanc, on choisira donc

de numériser en une seule couleur ( 1 bit par point image) ; - les documents comportant des images à niveaux de gris :

on choisira alors de numériser en niveaux de gris soit 8 bits par point image ;

- les documents comportant des images couleur : on optera alors pour une numérisation en couleur, chaque point image étant alors représenté par 3 fois 8 bits pour chacune des couleurs fon­damentales.

• format de stockage : C'est le format de codage des ima­ges à des fins de conservation long terme (c'est-à-dire applicable au fichier « brut de scan »). Pour ce format on optera pour un standard bien établi :

- le TIFF Gr. 4 pour les documents en noir et blanc ; - le TIFF LZW pour les documents à niveaux de gris ; - le TIFF non compressé pour les documents en couleur.

La mise en œuvre de la numérisation

• format de diffusion : C'est le format de codage réservé aux documents que l'on entend diffuser. On optera pour des for­mats compressés,

- le PDF pour les documents en noir et blanc ou le TIFF Gr. 4 ; - le JPEG avec facteur de qualité de 80 % pour les autres

types de documents. On privilégiera les formats pour lesquels le recours à un

logiciel d'affichage spécifique au poste de consultation n'est pas indispensable. Les formats cités sont tous traités par les outils standard disponibles sous Windows.

• support de conservation : C'est un support qui se carac­térise par sa durée de vie et sa pérennité opérationnelle. On optera pour le CD-ROM - qui est limité à une capacité de 640 Mo - ou pour la bande DLT qui offre une capacité allant jusqu'à 80 Go avec compression ;

• support d'échange ou de diffusion : le CD-R reste le support le plus approprié en attendant la stabilisation du DVD-R qui apportera une capacité de 4 Go ;

• indexation : C'est le moyen d'identifier le document image afin d'établir un lien entre la notice bibliographique de ce document et le ou les fichiers image correspondant. Nous propo­sons d'attribuer à chaque document un identifiant unique qui per­mettra d'établir ce lien. Cet identifiant unique sera étiqueté sur le document physique et sera porté sur la notice bibliographique.

Une reprise des fonds en interne est possible dans la mesure où la bibliothèque disposerait de l'équipement néces­saire. L'organisation des opérations de numérisation reste identi­que à celle qui est préconisée dans le cahier des clauses techniques particulières et permet de garantir un déroulement fia­ble des opérations.

La configuration nécessaire pour conduire une telle opéra­tion comprend les équipements suivants :

• un ou des postes de numérisation en fonction des volumes à traiter (cf. Calcul du dimensionnement plus loin) ;

Conduire un projet de numérisation

• un ou des scanners pour les différentes catégories de sup­ports et de formats à traiter soit :

- scanner A4 recto/verso noir et blanc ; - scanner A3 recto/verso noir et blanc ; - scanner A4 recto/verso couleur ; - scanner A3 recto/verso couleur ; - scanner de livres ; - scanner de plans pour les formats supérieurs à A3, noir et

blanc ou couleur. En cas de documents anciens, sensibles à la lumière, on

veillera à équiper le scanner d'une lampe à lumière froide. Certains travaux de « retouche » spécifiques peuvent être nécessaires pour ces documents afin de nettoyer les pages pour en faire disparaître les tâches, le moisi et en améliorer le contraste. Ces travaux pour­ront être réalisés par des logiciels de retouche photos. Certains logiciels de numérisation haut de gamme (tels que Ascent de Kofax ou BookRestorer de I2S ce dernier étant vendu avec les scanners du constructeur) effectuent un traitement automatique des images pour en améliorer la qualité.

Il faut prévoir au niveau des postes de numérisation ou au niveau d'un serveur auquel ces postes seraient rattachés :

- des capacités de stockage sur disque magnétique pour contenir un nombre de fichiers images correspondant à plusieurs jours de production ;

- de moyens de production de supports de sauvegarde de type CD-ROM ou DLT.

Utilisation des fiches de consultation (voir fiche p. 305) Numérisation de documents imprimés

Les paragraphes qui suivent fournissent des renseignements utiles pour remplir les fiches de spécifications employées pour la consultation.

On précisera l'objectif de la prestation afin de permettre au pres­tataire de mieux en appréhender le contexte et de proposer d'éven­tuels aménagements qui contribueraient à atteindre cet objectif.

Les publics

Les principaux objectifs identifiés sont : - la préservation du fonds documentaire- sous-entend que

le fonds est en péril et que le prestataire pourra proposer des trai­tements de restauration applicables aux images. Dans tous les cas, la numérisation doit être effectuée de telle manière à éviter tout recours futur aux originaux. On y appliquera donc le plus grand soin ce qui implique une haute résolution de scanning (600 dpi) et un contrôle exhaustif ;

- la production de CD-ROM- présume la constitution d'ima­ges à haute résolution pour permettre une consultation optimale en disposant d'un facteur de zoom confortable. On peut cependant faire coexister des images de différentes résolutions pour combi­ner différents modes de consultation ;

- pour la diffusion sur le web, on privilégiera les images à fai­ble résolution et les formats de données normalisés sur le web (JPEG, PDF, voire GIF).

Ces objectifs peuvent bien évidemment se combiner. On décrira le fonds en précisant sa nature, sa structuration

éventuelle et sa volumétrie totale. On renseignera pour chaque catégorie de support les carac­

téristiques du fonds correspondant : - format : on indiquera les dimensions - standard (A4, A3...)

- ou non standard en précisant les dimensions. On s'efforcera de séparer les fonds de formats différents ou si ce n'est pas possible on en spécifiera les principales catégories ;

- couleur : on précisera si le fond est en noir et blanc, en niveaux de gris ou en couleur ;

- volume : on précisera pour chaque catégorie le nombre d'unités (livres, liasses de plans...) et le nombre d'éléments par unités (pages, feuillets...) ;

- qualité : on indiquera le niveau de qualité du fonds -bonne, moyenne, mauvaise. L'appréciation de la qualité tiendra compte à la fois de l'état physique des documents que de la qualité des contenus (contraste, présence de fond, tâches...) ;

- commentaires : cette zone permet de donner des pré­cisions permettant de mieux estimer la nature des travaux à réa­liser.

Conduire un projet de numérisation

On indiquera l'identification des différents lots ainsi que des éléments composant ces lots. Ces données constitueront les iden­tifiants des supports informatiques retournés par le prestataire.

On précisera les différents traitements demandés au presta­taire.

- préparation - On indiquera s'il est nécessaire ou autorisé d'intervenir sur les documents pour les apprêter pour la numérisa­tion - dégrafage, massicotage, voire tri et ordonnancement des documents. Dans ce dernier cas on devra préciser la nature de cette tâche ;

- numérisation - On indiquera la ou les résolutions retenues ; - encodage - On précisera les formats de données retenus

-TIFF, JPEG, DjVU ; - traitements images - On pourra demander au prestataire

d'effectuer (par programme) des traitements légers sur les images. Pour des traitements qui ressortent de la restauration de docu­ments, il faudra l'envisager au cas par cas ;

- saisie de l'indexation - Nous conseillons de limiter cette opération à la saisie de l'identification du lot et du document (avec une numérotation séquentielle des pages) ainsi qu'à la génération du fichier d'identification. Si d'autres besoins s'avèrent nécessaires, on les précisera à la rubrique « Autres » ;

- contrôle - On rappellera au prestataire les exigences de contrôle spécifiées au CCTP ;

-reconditionnement - Dans le cas où les documents auraient été défaits pour la mise en oeuvre du scanning, on deman­dera au prestataire de restituer leur état initial ;

- génération des supports numériques - On envisagera les différents supports adaptés à l'archivage (DLT de sauvegarde et/ou CD-ROM « brut de scan ») ou à la diffusion (CD-R). Si on envisage une diffusion sur CD-ROM on pourra demander au prestataire de réaliser le pressage. Il faudra dans ce cas spécifier la structure de ce CD-ROM et fournir les logiciels de consultation associés.

On précisera la constitution des supports de la fourniture. On indiquera notamment si on autorise la juxtaposition de plusieurs lot sur un même CD-R. On estimera le nombre de CD-R à produire dans chaque catégorie.

On précisera enfin l'identification des supports attendus. Cette identification sera imprimée sur le CD-R.

La mise en œuvre de la numérisation

1.4.2. Documents iconographiques

La numérisation de documents iconographiques nécessite des équipements adaptés aux types de support :

- pour traiter des phototypes, on emploie un scanner de film couleur haute définition (3 000 dpi) ;

- pour traiter des tirages papier photos (couleur et noir et blanc), il faut employer un scanner couleur à 600 dpi.

La problématique de numérisation de documents iconogra­phiques est semblable à la numérisation de documents imprimés.

La difficulté est de déterminer les critères de numérisation en fonction du document considéré et de l'usage qu'on entend faire des documents images. Ces critères sont décrits dans le paragraphe sur l'utilisation des fiches de consultation.

Une reprise des fonds en interne est possible dans la mesure où la bibliothèque disposerait de l'équipement néces­saire. L'organisation des opérations de numérisation reste identi­que à celle qui est préconisée dans le cahier des clauses techniques particulières et permet de garantir un déroulement fia­ble des opérations.

La configuration nécessaire pour conduire une telle opéra­tion comprend les équipements suivants :

• un ou des postes de numérisation en fonction des volumes à traiter ;

• un ou des scanners pour les différentes catégories de sup­ports et de formats à traiter soit :

- scanner A4 recto/verso couleur à 600 dpi ; - scanner de film couleur jusqu'à 6 x 9 à 3 000 dpi. Il faut prévoir au niveau des postes de numérisation ou au

niveau d'un serveur auquel ces postes seraient rattachés ; -des capacités de stockage sur disque magnétique pour

contenir un nombre de fichiers images correspondant à plusieurs jours de production ;

88 Conduire un projet de numérisation

- de moyens de production de supports de sauvegardes de type CD-ROM ou DLT.

Utilisation des fiches de consultation (voir fiche p. 309) Numérisation de documents iconographiques

La diversité des formats importe peu d'un point de vue techni­que car les techniques de numérisation permettent de traiter quasi­ment tous les formats existants.

On indiquera le nombre de documents iconographiques conte­nus dans le lot à traiter, par type (N&B ou couleur) et par polarité (positif ou négatif).

On pourra ajouter des précisions sur une ou plusieurs des infor­mations données. Par exemple, pour des phototypes 24 x 36 couleur positifs (diapositive 24 x 36), on pourra indiquer que les documents initiaux sont sous cache et qu'il doivent être restitués dans le même état. Cela signifie que le prestataire devra éventuellement retirer le cache, numériser le phototype puis remettre le cache.

On identifiera clairement la totalité des documents par un iden­tifiant unique.

Selon leur état de conservation, les documents source peuvent nécessiter une préparation avant la numérisation (nettoyage de pho­totype ou de tirage papier,...)

La reproduction de tirage papier a plusieurs objectifs : - les chaînes de numérisation sont différentes selon que l'on

numérise un phototype ou un tirage. On pourra, pour homogénéiser la chaîne, procéder à la reproduction des tirages pour ne numériser que les reproductions ;

-les phototypes offrent, à l'heure actuelle, une meilleure définition de l'image. La reproduction permet alors d'obtenir un pho­totype du tirage papier à des fins de conservation.

Le contretypage vers phototype 24 x 36 permet, à partir de pho­totypes de tout autre format, d'obtenir des phototypes au format 24 x 36.

Il peut également être couplé à la reproduction, permettant ainsi d'obtenir, à partir d'un tirage papier de n'importe quel format, un pho­totype 24 x 36.

Une numérisation à haute résolution (TIFF) a pour objectif d'obtenir une image de qualité suffisante pour permettre :

- l'impression de bonne qualité ; - la consultation experte (analyse de détails de l'image par zoom) ;

La mise en œuvre de la numérisation

- une réutilisation informatique (production de fichiers de consultation, montages...).

Le format TIFF est le format le plus adapté à cet objectif. On adaptera la résolution au format à numériser pour éviter d'obtenir des fichiers trop volumineux :

Format Résolution minimum (dpi) Tirage papier 10 x 15 600 Tirage papier 13 x 18 600 Tirage papier 13 x 18 400 Tirage papier 21 x 29,7 300 Phototype 24 x 36 3 000 Phototype 4x4 2 000 Phototype 4x5 2 000 Phototype 6x6 1 500 Phototype 6x7 1 400 Phototype 6x9 1 200

Le recadrage technique permet de supprimer les marges dues au contretypage.

Les formats de consultation seront générés à partir du format TIFF par une compression JPEG. Le facteur de qualité JPEG utilisé sera de 80 %.

On obtiendra deux formats d'image à la résolution de 76 dpi : - plein écran : contenu dans un cadre de 768 pixels de largeur

par 512 pixels de hauteur. Le format plein écran permet de consulter le document iconographique en plein écran mais ne permet pas la consultation experte de ce document. Pour cela, on utilisera l'image TIFF.

- vignette : contenu dans un cadre de 192 pixels de largeur par 128 pixels de hauteur. Le format vignette permet généralement l'affichage de plusieurs vignettes sur l'écran pour en choisir une et la consulter au format plein écran.

On indiquera, selon les prestations demandées, le ou les sup­ports souhaités.

Conduire un projet de numérisation

1.4.3. Microformes

Les microformes disponibles peuvent être de différentes natures :

- microfilms COM (générées par ordinateur) ou documen­taires (générés par procédé photographique) ;

- microfiches COM ou documentaires ; - cartes à fenêtres.

Les deux premières catégories comportent un nombre important de formats que nous répertorions.

La numérisation de microformes doit être considérée comme une variante de la numérisation de documents imprimés, opération spécifiée plus haut, dans la mesure où les documents traités sont de même nature. Il faut donc envisager une numérisa­tion à des résolutions équivalentes pour des restitutions à l'échelle 1.

La numérisation de microformes met en œuvre des scan­ners spéciaux. Une mise en œuvre en interne peut être envisagée dans les mêmes conditions que pour les documents imprimés, à condition néanmoins de disposer du scanner adéquat. On obser­vera cependant, que si l'on dispose de microformes de différentes natures et de différents formats, le coût des équipements spéciaux nécessaires pourrait être dissuasif et favoriserait alors une presta­tion en externe.

Utilisation des fiches de consultation (voir fiche p. 312) Numérisation de microformes

La fiche correspondante reprend les éléments de la fiche des­tinée aux documents imprimés. Nous limiterons donc notre descrip­tion pour les seules rubriques spécifiques aux microformes.

Les microformes seront décrites par les paramètres suivants :

- taux de réduction : 24X ou 48 X parfois d'autres taux (20X, 42X, 72X ...)

La mise en œuvre de la numérisation

- nombre de vues : 2 400 ou 4 800 pour les microfilms (ou autre), 98 ou 207 pour les microfiches (ou autre).

Pour les cartes à fenêtre on indiquera le format des documents (A4 à A0).

- couleur : noir et blanc ou à niveau de gris (la couleur est pra­tiquement inexistante)

- BLIP ou perforations : Présence de BLIP d'indexation des vues lesquels seront interprétés par le scanner pour compléter l'indexation des images. De même pour les perforations des cartes à fenêtres lorsque ces dernières sont présentes.

- conditionnement : bobine ou cassette, jaquette, cartes perfo­rées ou non.

- volume : on indiquera le nombre d'éléments du lot. - orientation : on précisera l'orientation des vues dans le micro­

film. Les autres éléments de spécification sont identiques à ce

qui est précisé pour les documents imprimés. On observera cependant qu'il est important d'évaluer le plus justement possible la qualité des microformes - qualité du film, vieillissement du sup­port, apparition de tâches ou d'auréoles - ce facteur étant d'une importance majeure en ce qui concerne le résultat de la numéri­sation.

On précisera les traitements demandés et en particulier pour les microformes les données suivantes :

- préparation - dépose des jaquettes, positionnement des débuts de session lorsqu'un même film comporte des séquences multiformats, on précisera en commentaire s'il y a présence d'une amorce permettant de calibrer le scanner de façon automatique ;

- numérisation - Les résolutions indiquées sont celles souhai­tées pour le document à taille réelle. Le prestataire devra calculer la résolution de numérisation à appliquer aux images de la microforme pour atteindre la valeur demandée. En fonction du taux de réduction et de la résolution nominale du scanner on pourra obtenir des résolutions plus ou moins haute - de 200 à 400 dpi.

-Traitement d'images - En plus des traitements génériques aux images numérisées, les microformes peuvent nécessiter de pro­céder à la séparation des pages pour les orientations 2A ou 2B afin de constituer une image indépendante pour chaque partie de l'image originale.

Conduire un projet de numérisation

-Saisie de l'indexation - Le logiciel de numérisation pourra exploiter les BLIP insérés dans l'image pour indexer automatique­ment les images. De même, pour les cartes à fenêtre, l'information qui y est présente peut être lue et reportée dans les données d'indexation.

- Reconditionnement - on demandera au prestataire de recon­ditionner les microformes après traitement (remise dans les jaquet­tes, rembobinage).

2. CALCULER LES COÛTS FINANCIERS ET HUMAINS Le calcul des coûts d'une prestation de numérisation

nécessite au préalable la construction d'un chronogramme des opérations qui décrit le déroulement des tâches à effectuer ainsi que les temps affectés à chaque activité.

2.1. Procédure de production

La norme NF Z42-013 publiée par l'Afnor en juillet 1999 définit les conditions optimales de conduite d'une opération de numérisation. Nous nous appuierons sur ces préconisations pour l'organisation de la chaîne de production.

Le schéma suivant décrit la procédure de production. Y sont représentées l'ensemble des tâches qui incombent au cen­tre de numérisation. L'organisation de ces activités est détaillée ci-après.

La mise en œuvre de la numérisation

Procédure de production « Reprise stock »

(Tivraison vers CN

(Numérisation

/Production Vdes CD-ROM ^ I (Contrôle qualité

/Duplication Vdes CD-ROM

/Analyse ( des statistiques \de production

X

(Th X

3

3

Rejets "résolus

//Traitement Vdes rejets

Rejets non résolus

Une application informatique de gestion de la production assure l'enregistrement et la traçabilité de tous les événements se produisant tout au long de la procédure. Les fonctionnalités de cette application permettent :

- l'enregistrement d'une livraison de valises en provenance d'une bibliothèque ;

- l'enregistrement du contrôle de réception ; - le suivi de l'avancement des travaux de production-enregis­

trement des lots de scan, suivi des états de chaque lot, enregistre­ment des temps passés à chaque étape du processus de production ;

- l'édition des différents formulaires à destination du maître d'ouvrage ;

- la production de « situations » de production et des statis­tiques associées.

Conduire un projet de numérisation

2.1.1. Organisation des livraisons vers le centre de numérisation (CN)

Le respect de la norme NF Z 42-013 implique l'enregistre­ment de la livraison afin d'assurer la traçabilité des transferts.

Cet enregistrement pourra s'opérer au moyen de l'envoi d'un formulaire comportant les données suivantes :

• formulaire de livraison vers le centre de numérisation - bibliothèque d'origine ; - date d'enlèvement ; - responsable de l'emballage à la bibliothèque ; - responsable de l'enlèvement convoyeur ; - nombre de valises ; - liste des numéros de valises du colis. Le colis sera accompagné d'un deuxième formulaire spéci­

fiant le contenu des valises objet de la livraison ; • formulaire de composition du colis Bibliothèque - bibliothèque émettrice ; - date de préparation du colis ; - responsable de la préparation du colis ; - nombre de cartons d'emballage ; - liste des identifiants de cartons d'emballage ; - liste de répartition des cartons d'emballage par valise ; - nombre de documents contenus dans chaque carton. Nous préconisons d'adopter une codification pour la dési­

gnation des cartons d'emballage. Cette désignation regroupera l'identifiant de la bibliothèque d'origine et un numéro séquentiel.

Les formulaires employés peuvent être gérés sous forme électronique. Dans ce cas, les données seront transmises par réseau et viendront automatiquement enrichir la base de données d'exploitation.

La mise en œuvre de la numérisation

2.1.2. Organisation de la numérisation

Le schéma suivant décrit les différentes étapes de prise en charge de la numérisation.

Nous en spécifierons dans un premier temps les conditions de déroulement. Nous présenterons ensuite le chronogramme des opérations qui garantit le respect des délais de production impo­sés dans le cahier des charges.

En premier lieu on notera l'intérêt du découpage de la pro­cédure en postes de travail distincts. Cette organisation ration­nelle des activités assure à la fois la meilleure productivité et le contrôle optimal de chaque opération. Elle permet d'une part de séparer organiquement les tâches garantissant ainsi une meilleure visibilité de la procédure et d'autre part de spécialiser les person­nels par nature d'activité, ce qui permet d'obtenir le meilleur ren­dement mais aussi une maîtrise parfaite de chaque tâche.

Chaque étape donne lieu à enregistrement, dans la base de production des données, d'informations caractérisant la tâche en question. Ces enregistrements garantissent la traçabilité des opé­rations ainsi que le contrôle de l'avancement des travaux et le suivi des délais.

2.1.2.1. Réception

La réception des colis dans l'atelier de production implique un contrôle précis de la fourniture, seul moyen de garantir la par­faite conservation des documents fournis tout au long de la pro­duction. Les colis reçus seront donc comptabilisés dès la réception tant au niveau des valises et des cartons d'emballage reçus que du contenu de ces cartons. En effet le « nombre de piè­ces reçues » reste une information majeure pour le contrôle de l'intégrité des documents traités et par conséquent rendus au maî­tre d'ouvrage. Nous conseillons au maître d'ouvrage de procéder à un comptage des feuillets contenus dans chaque fourniture afin de s'assurer de l'intégrité des fournitures rendues.

Conduire un projet de numérisation

En fin de réception, le système de gestion de la production édite un formulaire spécifiant les caractéristiques du colis réceptionné lequel servira de référence contractuelle pour la fourniture tant pour le retour de documents que pour le nombre de documents électroniques produits.

2.1.2.2. Préparation

Le but de cette opération est la constitution de « lots de scan » qui seront disposés dans le magasin d'alimentation du scanner. Un lot de scan est un ensemble d'environ 100 feuillets de même format qui seront traités en une seule passe.

La constitution de ces lots peut nécessiter les actions suivantes :

- dégrafage des documents s'il y a lieu ; - remise en état de certains documents détériorés - il peut

s'agir soit de recoller des pages en mauvais état soit d'en effectuer une photocopie recto-verso. Cette deuxième alternative ne devant s'appliquer que dans les situations extrêmes, ceci afin d'éviter autant que possible la disparité des formats et des grammages de documents d'un même lot. Les lots présentant une qualité jugée insuffisante seront rendus au maître d'œuvre. Ceux qui, suite à une restauration, présenteraient des risques opératoires, seront signalés dans le système de production afin que les opérateurs de scanning et de contrôle qualité veillent à leur assurer le meilleur traitement ;

- séparation des documents annexes. Les documents accompagnés de pièces annexes seront regroupés dans un (ou plusieurs) même lot. Cette disposition nous permettra de traiter ces lots particuliers sans affecter la cadence de la chaîne de pro­duction. En retour, ces lots ne seront pas restitués dans l'ordre initial. L'information de numéro de lot, fournie avec les données d'indexation des images permettra au maître d'œuvre de locali­ser, le cas échéant, le lot dans lequel se trouve l'original du docu­ment recherché.

La mise en œuvre de la numérisation

Chaque lot est accompagné d'un séparateur de lot contenant un codes barres (CAB), qui spécifie les données caractéristiques de ce lot : numéro de lot, nombre de feuillets, signalement du lot. Le numéro de lot regroupe les notions suivantes : bibliothèque, numéro de valise, numéro de carton.

Un formulaire de préparation récapitulant les données de l'ensemble des lots issus d'une même livraison, est transmis au maître d'œuvre.

2.1.2.3. Numérisation

Les lots de scan, affectés de leur CAB (code barres) d'identification, sont dispatchés sur les scanners de produc­tion. L'alimentation automatique permet le traitement des lots à une vitesse optimale relativement au débit nominal du scan­ner. Le paramétrage du scanner est défini par défaut pour l'ensemble des lots. En cas de signalement de lot « difficile » par le système de production, on pourra éventuellement re­calibrer le scanner en conséquence.

Le logiciel de pilotage mémorise pour chaque lot le nombre de feuillets scannés (1 feuillet = 2 images/recto-verso) et affecte au lot un numéro séquentiel unique. Lors du traitement d'image qui suit, le CAB de chaque lot sera décodé et le lien « numéro de lot » et ID-lot est établi. Ces données sont transmises au système de gestion de production.

Les anomalies de scanning sont traitées au poste de traite­ment des rejets, pour celles détectées par le système (écart entre les compteurs) ou au poste de contrôle qualité lorsque la qualité de l'image est en cause.

Des mires de contrôles sont insérées tous les 10 lots. Ces mires sont envoyées au poste de contrôle qualité, accompagnée du numéro de lot courant. En cas de détection d'anomalie au poste de contrôle, la chaîne est interrompue pour correction de l'anomalie.

Conduire un projet de numérisation

2.1.2.4. Lecture optique du CAB

Cette étape effectue la lecture automatique du CAB.

2.1.2.5. Indexation

Au poste de saisie de l'indexation les images sont contrô­lées. Elles permettent en outre de saisir les données d'indexation du document.

A ce stade, l'indexation du document doit être minimale et exclure toute analyse documentaire. Il s'agit simplement d'identifier le document pour assurer le lien identifiant/image. On se contentera donc de saisir le minimum de champs : Titre, numéro ISBN, ou toute information discriminante. Des données de gestion annexe - date de numérisation, nombre de pages ... - pourront venir s'ajouter auto­matiquement dans le masque d'indexation.

Toute autre forme d'indexation donnant lieu à une qualifica­tion plus précise de l'ouvrage (mots-clés, résumé...) nécessitera une prestation complémentaire qui sera réalisée par la bibliothèque ou par un prestataire externe qualifié pour une opération de ce genre. Si la bibliothèque dispose déjà d'un fichier signalétique, le lien entre le document image et ce fichier sera assuré par l'identi­fiant du document saisi à cette étape.

En cas de difficultés pour l'opérateur de saisir les données d'indexation, le document est inséré dans un lot de rejets, qui donnera lieu à une analyse ultérieure au poste de traitement des rejets.

Les statistiques d'indexation - nombre de champs saisis, nombre de caractères total saisis, nombre de documents en rejet - sont transmises au système de production.

2.1.2.6. Reconditionnement

Après traitement, les lots sont re-déposés dans les cartons d'emballage. Auparavant, chaque lot donne lieu à un comptage

La mise en œuvre de la numérisation

des documents qu'il contient. Les données de re-conditionne-ment - nombre de cartons d'emballage, nombre de documents par cartons d'emballage, nombre de valises, sont enregistrées dans le système de production.

Toutes les données du colis en provenance de la bibliothè­que sont consolidées par le système de production afin de contrô­ler l'intégrité du colis et la bonne correspondance entre les données images et les données physiques.

Un formulaire de livraison est édité et transmis au maître d'œuvre.

100 Conduire un projet de numérisation

£ S s s

s o ••e S

a, s s s 0

••C « yi S 1 © « S

«s o 1>2

c « S <

5Ç E-J o -o

w, E

W-oU se

La mise en œuvre de la numérisation 101

2.2. Chronogramme des opérations

Le chronogramme des opérations est bâti sur des hypothèses de cadences de production attribuées à chaque nature d'activité. Le tableau suivant précise ces hypothèses, il sera complété afin d'esti­mer le nombre de postes de travail nécessaire à la conduite de cha­que activité.

Tableau d'évaluation du nombre de postes de travail

Hypothèse Njours

Poste de travail Cadence (unités/heure)

% à traiter

Nombre de postes

Réception NR 100%

Préparation NP 100%

Numérisation NN 100 %

Indexation NI 100 %

Reconditionnement NC 100 %

Contrôle qualité NQ 5 %

Traitement des rejets NJ 10 %

| Les cadences (Ni) seront estimées selon l'abaque donnée ci-§ après en fonction de la nature des documents à scanner et pour | chaque étape du traitement.

§ Le tableau suivant indique des ordres de grandeur, généra-f lement constatés, pour chaque nature de documents concernés.

On s'appuiera sur ces valeurs pour une première estimation des | charges et des coûts. On affinera ces valeurs dans un second

ï temps - par des essais réels si nécessaire - pour approcher plus 1 précisément les estimations de charges et de coûts. co _l ©

102 Conduire un projet de numérisation

s

s •§ •s

ê ik Q Cv,

Q

1

« crj Ô Ci, k « O. ;•§ s ••S *§ 2

'2 « 0

1

i 1

p CJ w S c U «

o o o o o lO

O O o S m o o o o o o

i 1

s s ig " s «=

o o lo /ca o S O ir*j

(—1 ̂O ̂r- g O o c<">

o o m o o o o

i 1

ô c*}

a ̂s «

o o o o o l/~) § 1 r- ̂O o m

o o o o o o o

1 •s =• Sa s s*

1 i 0 § .Si

p 3 <

o un /73 O

o «o /CO o

o LO r̂3 O o o CI

o ir% O

o o o o 1 •s =•

Sa s s*

1 i 0 § .Si

O a. c3 5

o o o o o tn O O in

o o m O o o o o m

o o C-4

1 •s =• Sa s s*

1 i 0 § .Si

c/î O O Ê

o o o o o W-J

o o o o o m o o o o o m

o o CN

1 t 42

i

èxi ̂2 — •— 0 > cj 'G .2 g ̂ i —

o o o m /C3 O

r̂ j 'G o o O-l o o o o O o

1 t 42

i 3 o< -S O

o o CN O O

O /C3 •/I

o o CM o o C-J

o o CN o o

1 t 42

i ^ x •—• <D ̂il S» l t é

o o o CJ o o l/~)

O O CM O o m o o o r--}

O o V) o o m

aj S g l i s 5 § «

PC Z S S U Z C

Z 2

1 S -S

I 0ù

c .2 H, o o V(D oc

c .2 cd c3 D.

OH

C _o cS

v<L> S 3 Z

c .2 c3 X <u -o c

c oj E o c c .2 '-5 c o o D CtS

V<D *c3 3 cr nj <o c o U

5/5 'ÔJ1

C/3 O T3 C (U s QJ

'cd H

La mise en œuvre de la numérisation 103

se ëM ss

ss s s ss s s ss s ë ss ss s ̂ ?3« mm ^55

s m âô ôs s ̂ fl ̂

Si 51 ss S2S sa» = =

s s

Si s s

s ËL îë

0 «

1 i ^ a

i o

o a_> Ce£

"3 O y

[2

104 Conduire un projet de numérisation

2.3. Simplification en cas de numérisation en interne

Le schéma de production détaillé plus haut, ainsi que le chronogramme associé peuvent être simplifiés dans le cas où la numérisation se déroule en interne à la bibliothèque, avec les moyens disponibles.

Nous conseillons de conserver à la procédure une grande partie de son caractère formel dans la mesure où cette formalisa­tion constitue à la fois une garantie de qualité et un guide d'orga­nisation de l'activité.

Les points sur lesquels il serait envisageable d'apporter des simplifications concernent :

• les tâches d'enregistrement et de suivi des travaux dont on adaptera les modalités pratiques en fonction de l'importance de l'activité de numérisation et des effectifs impliqués. On pourra notamment remplacer toute la gestion informatique préconisée par un simple registre manuel de relevé des travaux. On pourra de même renoncer à l'utilisation du code à barres pour le signa­lement des lots de scanning ;

• les tâches de contrôle pourront être allégées moyennant des précautions minimes : s

- comptage systématique des pages de chaque lot et con- § trôle par rapport aux compteurs indiqués par le logiciel de scan- 1 ning. Cette disposition est nécessaire pour éviter toute perte de f pages en cours de numérisation ; |

-vérification aléatoire des images et de l'indexation pour § assurer la qualité de la numérisation qui peut se dégrader graduel- | lement du fait de l'usure de l'équipement (vieillissement de la | lampe ou des galets d'entraînement en particulier) ou du manque f d'attention des opérateurs ; i

• les tâches de reconditionnement peuvent être suppri- | mées ou confiées à un service externe. ^

Pour le reste, nous estimons que toute opération de numéri- § sation d'une certaine ampleur (quelques centaines voire milliers ^

La mise en œuvre de la numérisation 105

d'ouvrages) nécessite la mise en place d'une organisation adé­quate qui se rapproche de celle que nous avons décrite.

3. ÉVALUER UN PRESTATAIRE

Le choix d'un prestataire de numérisation passe par le con­trôle d'un certain nombre de critères auxquels doit satisfaire le candidat à la prestation. Ces critères se répartissent selon les caté­gories suivantes.

3.1. Capacités opérationnelles

- nature des documents traités : imprimés, photos, micro­formes.

- nature des équipements disponibles : modèles et capacité des scanners utilisés.

- effectifs et capacité de production : nombre d'opérateurs de scanning, d'opérateurs d'indexation, d'opérateurs de prépara-

I tion, effectifs alloués au contrôle qualité, plages horaires tra-B vaillées. V)

g - capacités logistiques : moyens de colisage, moyens de | transports, distance relativement à la bibliothèque, fréquence

1 des tournées proposée, capacité éventuelle de se déplacer sur le I site. | - capacité contractuelle de production : nombre de docu-1 ments/jour, durée d'immobilisation des documents, périodicité

™ des enlèvements, durée totale de l'opération, date de fin de l'opé-^ ration.

</> c

LU

w o > ro ©

106 Conduire un projet de numérisation

3.2. Capacités financières

- date de création de la société et chiffre d'affaires dégagé les trois dernières années par l'activité de numérisation.

- effectifs total et effectif affecté à l'activité de numérisa­tion

- assurance civile disponible : compagnie, niveau de cou­verture, conditions d'application.

3.3. Références de réalisations similaires

3.4. Analyse de l'offre

Le tableau suivant permet de recenser et de rapprocher les coûts les plus significatifs.

Tâche Coût unitaire Quantité Coût

total Préparation Numérisation Indexation Re-conditionnement Production des médias (CD-ROM) Transport

L'analyse de l'ensemble de ces paramètres, lesquels pour­ront être pondérés en fonction des exigences particulières à cha­que opération, doit permettre le choix objectif d'un prestataire.

La mise en œuvre de la numérisation 107

4. PESER LE CHOIX ENTRE INTERNE ET EXTERNE

Le problématique de déterminer si l'opération de numéri­sation doit être effectuée en interne ou être confiée à un pres­tataire externe dépend de différents facteurs que nous recensons ci-après. Le poids relatif de chacun de ces facteurs sera décidé en fonction des contraintes particulières à chaque bibliothèque et des circonstances spécifiques à chaque opéra­tion. La plupart de ces facteurs sont interdépendants, il faudra rechercher :

4.1. Le poids de l'investissement

Il est déterminé par le prix d'achat des équipements nécessaires à la numérisation - scanners et postes de travail rat­tachés - ainsi que le serveur de stockage et le matériel pour la production des médias (graveur de CD-ROM par exemple). La fourchette de prix pour ce type de matériel est relativement large et dépend des supports que l'on envisage de traiter. Ainsi le coût

I moyen d'un poste de numérisation évoluera entre 6 100 € (scan-| ner A4 et PC) et 30 500 € (scanner de microfilms et PC), voire

ï plus pour des scanners spécialisés. Ce prix doit être multiplié par | le nombre de postes nécessaires pour conduire l'opération dans | les délais impartis. | L'amortissement de cet investissement doit être envisagé | en fonction des volumes à traiter et de la répétitivité éventuelle | de l'opération.

f- On comparera le coût unitaire obtenu (total investissement/ ^ nombre de pages scannées) à celui proposé par le prestataire 1 (lequel se situera selon les spécificités de l'opération entre 0,045 ^ et 0,45 € voire 0,75 € la page). « o ro ©

108 Conduire un projet de numérisation

4.2. La disponibilité des personnels

La charge nécessaire à la réalisation de la tâche de numéri­sation sera estimée en fonction des éléments fournis plus haut. On jugera alors si on dispose du personnel nécessaire. On étu­diera en outre les capacités humaines du personnel pressenti pour prendre en charge l'activité et à assumer la maîtrise d'une tech­nologie somme toute avancée. On tiendra compte enfin de la pré­sence effective du personnel au poste de travail et on prendra en considération en particulier les périodes de congé et les absences éventuelles pour dimensionner l'équipe de numérisation afin d'assurer un volume de production constant.

Il faudra en outre provisionner un poste de responsable pour cette équipe, cette personne devant avoir les compétences requises pour maîtriser la technologie, l'organisation de la pro­duction et assurer un encadrement efficace.

On se posera en outre la question de la durée de l'opération et donc de la mission qui sera dévolu à ces personnels au terme de l'opération.

4.3. La taille de l'opération

Elle se définit en termes de volume (nombre de documents à numériser) et de délai de mise en œuvre, donc de flux quotidien induit.

Dans le cas d'un service à la demande, on estimera un volume quotidien potentiel.

A partir d'un certain volume (estimé à quelques centaines ou quelques milliers d'exemplaires selon la nature de documents à traiter), l'opération nécessite la mise en place d'une infrastruc­ture industrielle, qui, de notre point de vue, outrepasse les mis­sions d'une bibliothèque. On envisagera donc de faire appel à des ressources externes pour de telles opérations.

La mise en œuvre de la numérisation

On peut distinguer deux phases distinctes dans une opéra­tion de numérisation :

- la reprise du fonds existant qui sera en principe confié à un prestataire externe ;

- la numérisation « au fil de l'eau » des nouvelles acquisi­tions ou de prestations à la demande qui pourront, moyennant la mise en place d'une petite unité de numérisation, être effectuées en interne. On étudiera cependant avec attention la proposition du prestataire pour ce deuxième type de traitement, une offre financièrement intéressante n'étant pas à exclure, dans la conti­nuité de l'opération initiale.

4.4. La spécificité des techniques mises en œuvre

Si la numérisation met en œuvre des techniques très particulières - telles que par exemple la numérisation de micro­formes ou la numérisation de documents couleur de grande qua­lité, on aura du mal à développer en interne les compétences requises. A contrario, il n'est pas impossible que l'on ne puisse également trouver de prestataire disposant de ce type de compé­tences. On jugera alors de l'intérêt de prendre en charge l'opéra­tion et des moyens d'y parvenir.

4.5. L'aptitude du fonds documentaire à être déplacé

Certains fonds ne sont pas facilement déplaçables, soit du fait de leur fragilité, soit de leur valeur intrinsèque, soit parce qu'ils doivent être disponibles à tout moment.

Dans ce cas, on envisagera une numérisation en interne. Certains prestataires sont disposés à déplacer sur site une unité de numérisation, cette alternative sera aussi étudiée.

Numérisation interne ou externe - Le choix de Lyon

par Pierre Guinard

Même les grandes entreprises démarrent petitement et les options techniques prises au départ résultent moins d'un choix théorique reposant sur un ensemble de critères parfaitement maî­trisés que de l'adaptation à une situation donnée : le pragmatisme fait souvent loi. C'est le cas des opérations de numérisation de la bibliothèque municipale de Lyon engagées avec les moyens modestes et expérimentaux, privilégiant dans un premier temps une solution interne sans repousser pour autant une solution externe.

La numérisation a débuté en 1993 selon deux axes : d'une part, les articles de presse concernant la région Rhône-Alpes, d'autre part les enluminures. La question de numériser en interne ou en externe n'a pas été la question première : il fallait d'abord numériser, à moindre coût et le plus efficacement possible. Les réponses apportées ont d'ailleurs différé, en tenant compte des caractères spécifiques des documents. De plus, l'acte de numéri­ser n'est pas à prendre en compte seui car d'autres critères l'accompagnent. En amont, c'est le choix des documents à numé­riser, en aval c'est leur description, leur catalogage ou leur indexa­tion.

Pour les articles de presse, une longue pratique de constitu­tion de dossiers existait : les bibliothécaires dépouillaient chaque jour la presse régionale, nationale ou internationale, prélevaient ou photocopiaient les articles et les répartissaient dans des dossiers selon 200 thèmes différents. Avec la numérisation, il ne s'agissait pas de reprendre le travail déjà fait, mais de le poursuivre au quo­tidien en substituant à la version papier une consultation finale sur écran. On passait ainsi de deux opérations successives (choix des articles et intégration dans un dossier) à trois (choix des articles, numérisation et indexation). Au final, la qualité d'accès au docu­ment était grandement améliorée pour le public, puisqu'au lieu de consulter un des 200 thèmes, il pouvait utiliser un thésaurus qui comporte aujourd'hui 20 000 termes, établir ses propres critères de recherche et constituer à loisir un recueil d'articles personna­lisé. Dans ces conditions, l'option interne s'est imposée d'elle-même, en considérant que le choix des articles et leur indexation faisaient partie du travail normal de politique documentaire des bibliothécaires du département de la documentation régionale et pouvaient difficilement être sous-traités. Du coup, l'opération inter­médiaire de numérisation n'avait plus de raison d'être déportée, d'autant qu'elle ne posait pas de problème technique : les articles

Conduire un projet de numérisation

photocopiés pouvaient facilement être numérisés sur un scanner à plat et aussitôt brièvement décrits (auteur et titre de l'article, date et nom du journal). Dans ce cas, la numérisation peut se faire avec un matériel ordinaire et relativement bon marché.

Pour les enluminures, le corpus à numériser représentait environ 12000 images, qui existaient sous forme de diapositives grâce à la campagne photographique menée avec l'Institut de recherche et d'histoire des textes (IRHT). L'existence de ce sup­port intermédiaire a permis dans un premier temps de faire numé­riser à l'extérieur, par la société Kodak, 2 500 images sous forme de CD-Photos. L'objectif était alors simplement de permettre au public de consulter en local sur un écran les enluminures, mais sans qu'une recherche approfondie soit possible. Il aurait été pos­sible de numériser l'ensemble des images à l'extérieur, puisque l'argument de ne pas faire sortir des documents précieux et parfois fragiles de la bibliothèque ne tenait pas dans le cas présent. La décision de se doter d'un équipement propre, (appareil photo numérique et scanner couplé à un chargeur de diapositives), résulte plutôt de la volonté d'expérimenter une nouvelle technolo­gie, de la faire adopter par les deux photographes de la bibliothè­que, d'ailleurs désireux de se former, et de maîtriser ainsi de façon souple les demandes émanant de l'établissement et du public. Finalement, l'apparition d'une nouvelle technique ne modifiait pas fondamentalement les raisons qui avaient pousser la bibliothèque à se doter depuis longtemps de son propre outil de reproduction en photographie et microfilmage.

Les appareils achetés ont effectivement permis d'abord d'achever la numérisation totale des enluminures, de constituer plusieurs expositions virtuelles à partir des documents montrés à la bibliothèque - dans un souci de diffusion plus large -, de commencer celle des estampes et photographies contemporai­nes - dans un souci d'archivage.

Le recours à la numérisation externe n'est pas systémati­quement rejeté et la bibliothèque a d'ailleursà plusieurs reprises, mais longtemps sans succès, déposé des dossiers de demande de subvention pour des opérations qui auraient entraîné le recours à un prestataire extérieur. Elle a en revanche obtenu des crédits de l'Agence Rhône-Alpes pour les sciences humaines et sociales pour acheter du matériel et acheter en 1998 un scanner

Numérisation interne ou externe 113

à plat couleur d'excellente qualité. La diversité des réponses aux demandes de subvention influence parfois aussi la politique de rétablissement.

Les documents d'abord numérisés ont été des pièces iso­lées, plates et non reliées. En revanche les livres ou périodiques reliés qui constituent cependant la plus grande partie des collec­tions n'avaient quasiment pas été touchés, faute de matériel adapté. À l'occasion d'un programme européen auquel la biblio­thèque a participé1, elle a testé une caméra numérique noir et blanc. Elle a ensuite fait l'acquisition fin 2000 d'un scanner couleur permettant la numérisation de documents reliés, y compris de grand format2.

Ainsi aujourd'hui la bibliothèque peut-elle répondre à la diversité des demandes qui lui sont faites.

1. QUELLES LEÇONS TIRER DE CES QUELQUES ANNÉES D'EXPÉRIMENTATION ?

Il n'y a pas de solution unique : les conditions propres à cha­que établissement avec ses moyens matériels et humains, la nature des collections à numériser, la possibilité de bénéficier de subventions sont à prendre en compte.

Dans le cas lyonnais, les conditions de départ prédispo­saient à une expérimentation en interne avec la présence ancienne sur place d'un laboratoire photographique et le souci de limiter au maximum la sortie des documents précieux dans un but de bonne conservation. Dans un second temps, la volonté de faire une offre de produits numériques au public a renforcé l'équipe­ment en interne. Celui-ci a l'avantage de permettre un grande réactivité et une souplesse de fonctionnement non négligeable.

Cependant, les deux solutions ne sont pas exclusives l'une de l'autre et présentent d'ailleurs des exigences communes. Chacune demande de déterminer au préalable la finalité du travail et de pren­dre en compte les caractéristiques des documents numérisés pour

1. Le programme DEBORA (Digital access to books of the Renaissance) court sur 1999-2001 et vise à permettre aux chercheurs l'accès à des livres du XVI" siècle. Il réunit les bibliothèques de Coïmbra et Casanentense de Rome et Lyon, l'ENSSIB et plusieurs équipes de recherches de Lyon, de Lisbonne et de Lancaster. 2. Scanner Titan couleur SMA 6650 A0

Conduire un projet de numérisation

fixer des paramètres de prises de vues très précis. Si la solution externe nécessite la rédaction d'un cahier des charges, la solution interne ne doit pas faire l'économie de ce même travail, même s'il est moins formalisé, pour que les indications techniques soient clai­res pour les photographes et pour les bibliothécaires. Dans ce domaine, la collaboration et l'échange de compétences entre les deux métiers sont fructueux.

On peut ainsi dégager une double perspective. La numérisa­tion externe intéresserait des corpus homogènes de documents auxquels des critères généraux peuvent être appliqués : diapositi­ves, microfilms ou documents originaux de même structure, en prenant soin que toutes les garanties de sécurité soient remplies par le prestataire de service. Dans ce cas, et pour des quantités importantes, la solution externe présente vraisemblablement une meilleure productivité.

En revanche la numérisation en interne conserve des avan­tages pour des opérations plus fragmentées ou pour lesquelles la réactivité doit être plus grande (commandes du public, besoin d'illustration pour des publications électroniques ou sur papier).

L'idéal est donc de posséder plusieurs fers au feu afin de répondre à un besoin et à une demande qui grandissent. Ainsi la bibliothèque municipale de Lyon, s'étant dotée d'un équipement propre, doit faire prochainement numériser l'ensemble des micro­films de ses manuscrits médiévaux dans le cadre des projets de numérisation aidés par la Mission à la recherche et à la technolo­gie.

Choisir son prestataire

par Jocelyne Deschaux

Le choix du prestataire est une phase essentielle dans le pro­jet de numérisation. Les risques d'un mauvais choix peuvent se mesurer, dans l'ordre croissant d'importance, en termes financiers (une mauvaise numérisation sera à refaire et coûtera à nouveau de l'argent), en terme de service non rendu, ici la mission de conser­vation (l'un des buts de la numérisation est de ne plus avoir à recou­rir aux originaux, la qualité doit donc en être excellente), enfin et surtout de perte de l'original (dégâts irrémédiables).

Une fois le cahier des charges rédigé, il faut donc choisir le prestataire le mieux placé. Il est bien sûr intéressant de demander des devis à plusieurs sociétés, de façon à ce que l'étude des pro­positions puisse n'en retenir que deux ou trois ; on testera ensuite, sur un échantillon représentatif des documents à numériser, la qualité réelle de ces offres pour en dégager celle qui correspond le mieux aux besoins de l'établissement.

1. LES CRITÈRES DE CHOIX POSSIBLES

1.1. La sécurité des originaux La sécurité des originaux constitue le tout premier niveau

d'exigence - tellement évident qu'il peut être parfois oublié. Que penserait-on d'une qualité numérique excellente qui se traduirait par une détérioration des documents eux-mêmes ? Cette spécifi­cation de sécurité accompagnera donc toutes les étapes du processus : le transport aller-retour, le stockage d'attente, et la manipulation pendant la numérisation.

1.2. Le degré de spécialisation du prestataire Ceci paraît être un élément important. N'est-il pas raisonnable

de penser qu'on ne numérise pas, par exemple, un livre relié comme des photographies anciennes sur plaques de verre ? Si le produit final est le même (des images numériques sur un CD), les moyens pour parvenir à un résultat de qualité requièrent des spécificités qui ne s'improvisent pas et qui s'améliorent généralement avec l'expé­rience. Cela peut valoir la peine, dans le cas de collections de type particulier (par exemple donc, des plaques de verre), de rechercher des prestataires spécialisés ; un moyen de les connaître est d'inter­roger les collègues qui ont pu les faire travailler.

Conduire un projet de numérisation

1.3. Le matériel utilisé Il faut aussi s'arrêter quelque peu sur le matériel utilisé par

les différentes sociétés postulantes. En effet, dans le cas, par exemple, de la numérisation de documents reliés, il est essentiel de savoir si le scanner prévu est un scanner à plat où les livres ou registres seront retournés et forcés au niveau de la couture, ou s'il s'agit d'un scanner à prise de vue zénithale ou « à potence », qui conviendra beaucoup mieux à ce type de documents. Par ailleurs, la qualité de résolution (le nombre de dpi), ne sera pas la même selon les différents matériels.

1.4. Les références Les références, c'est-à-dire les établissements publics pour

lesquels le prestataire potentiel a déjà travaillé, est une donnée également à mettre en exergue. Encore faut-il vérifier ces référen­ces (certaines sont fausses ou anciennes), donc contacter les per­sonnes qui ont directement été en relation avec le prestataire et les interroger afin de savoir, outre le type de collection concerné, d'une part, bien sûr, leur degré de satisfaction sur le travail (« à chaud » et avec le recul) et d'autre part, si leurs objectifs étaient comparables aux vôtres. Des questions concernant les délais, la sécurité pendant le transport, la finition de la présentation des sup­ports numériques, le respect des originaux, la sécurité des locaux pourront trouver ainsi des réponses assez fiables.

1.5. La distance Certains privilégieront la notion de distance entre l'atelier du

prestataire et les collections. La distance du transport n'est pas à mon avis, un critère essentiel. En effet, si l'on a décidé que l'opé­ration de numérisation se ferait dans des locaux extérieurs, à partir du moment où les documents quittent leur bibliothèque, ils vont faire l'objet d'un conditionnement spécial pour être transportés sans dommage ; que la distance à parcourir alors représente 20 ou 200 km ne change pas grand chose.

En revanche, il est vrai qu'il peut être intéressant de trouver un prestataire qui présente tous les autres critères de choix, et qui de surcroît, soit proche de l'établissement en question, de sorte que le chef de projet ait la possibilité plus facile de se rendre sur

Numérisation interne ou externe 117

les lieux pourvoir le matériel, les locaux, les conditions de sécurité, de manipulations, etc.

1.6. Les prix Bien sûr, le prix proposé dans le devis doit être un des critè­

res de choix mais on sera surtout vigilant au niveau de prestations offertes (cf. infra).

2. L'ÉTUDE DES DEVIS

L'étude des devis permettra donc de dégager 2 ou 3 presta­taires soumissionaires que l'on pourra ensuite départager par une analyse de qualité sur échantillon de test.

La vigilance initiale est de ne pas se laisser « impressionner » par des devis qui peuvent vite être envahis, aux yeux de non spé­cialistes, par des notions techniques et technologiques. Le presta­taire doit pouvoir identifier et décrire précisément et simplement les différentes phases du travail et leurs particularités.

Le bibliothécaire non spécialiste pourra, en dépouillant les différentes offres, se constituer la trame de référence idéale de ses exigences, et analyser ensuite la conformité et le degré de couver­ture de chaque prestataire à celle-ci. Cette trame permettra en outre de demander des compléments à l'offre retenue.

2.1. Un devis détaillé On privilégiera sans hésitation les devis détaillés, précisant

la nature et l'ordonnancement des opérations, et le prix correspon­dant à chacune et à chaque fourniture. C'est ainsi que l'on pourra véritablement comparer les devis les uns aux autres. Le détail donné n'empêchera pas le contact direct (téléphonique) avec cha­que prestataire, pour reprendre chaque ligne de la proposition et s'en faire préciser le contenu. Des malentendus sur des intitulés sont malheureusement fréquents, mais ils ne sont souvent découverts qu'à la fin...

2.2. Les prix unitaires Les tarifs unitaires sont intéressants à comparer, mais il faut

faire attention à ceux qui sont affichés parfois artificiellement bas :

118 Conduire un projet de numérisation

ils ne recouvrent souvent que le cœur de l'activité (la numérisation), et omettent les « à-côtés » qui font la qualité de la prestation finale.

2.3. Le prix total Malgré des tarifs unitaires parfois comparables, le prix total

peut différer de façon importante d'un devis à l'autre. Pourront alors entrer en ligne de compte les réponses proposées au diffé­rentes exigences du cahier des charges, comme les délais de réalisation, les garanties, les délais d'acceptation (c'est-à-dire le temps prévu entre la remise des images numérisées et la mise en paiement de la facture, pour permettre une visualisation exhaus­tive ou sur échantillonnage représentatif de chaque CD livré), le niveau de sécurité des collections, l'identification des données (chaque CD doit avoir son numéro, chaque vue sur son CD le sien, et un photo-index en jacquette facilitera les repérages, surtout dans le cas de documents iconographiques), ou la possibilité de reprise de certaines images en cas de non-satisfaction.

3. LE TEST SUR ÉCHANTILLON REPRÉSENTATIF

Le choix ultime du prestataire ne devrait pas se faire sans la mise en oeuvre d'un test sur échantillon représentatif des origi­naux à numériser : documents noir et blanc et couleurs, de formats différents, le cas échéant au tracé pictural différent : si les propo­sitions peuvent se valoir sur le papier, elles pourront varier du tout au tout dans le produit final. Les documents sélectionnés pour le test devront être représentatifs de l'ensemble, notamment en fai­sant ressortir les particularités, pour voir comment le prestataire « s'en sort » sur les difficultés pressenties : ainsi, on choisira des exemples du cas le plus général, et divers exemples de « cas spéciaux ».

La gratuité, fréquente, de ce type de test, peut être d'autant plus exigée qu'elle est d'emblée prévue dans le cahier des char­ges. Mais dans ce cas, on veillera quand même à ce que la charge de travail reste raisonnable (notamment pour le traitement de l'échantillon des cas particuliers), afin de ne pas décourager des candidats de petites structures qui peuvent, in fine, se révéler plus performants, mais qui peuvent craindre des tests trop onéreux pour eux en cas de non obtention de la commande.

Numérisation interne ou externe

Ces remarques ne prétendent pas faire la liste exhaustive des critères de sélection d'un prestataire, mais le suivi de ces quel­ques règles de bon sens devraient permettre cependant d'éliminer la plupart des pièges ou risques.

Calculer les coûts induits de la numérisation

par Jocelyne Deschaux

La numérisation comporte d'importants coûts induits, complémentaires à la facture payée au prestataire ou au fournis­seur de scanner, et qu'un projet se doit de considérer dès le départ. Ces coûts induits se posent à la fois en termes de temps passé à diverses opérations impliquées par la numérisation, et en termes financiers. Les exemples seront pris dans cet article dans le cadre de deux opérations de numérisation menées ces dernières années par le fonds patrimonial de la bibliothèque municipale de Toulouse (BMT). La première a consisté en la numérisation, en 1997, des 3 700 diapositives existantes d'enluminures de manus­crits médiévaux. L'indexation de ces enluminures numérisées n'a été achevée qu'en 2000. La seconde, actuellement en cours, consiste en la scannérisation de 5 000 photographies sur plaques de verre datant des années 1860-1920. La phase technique de ces deux projets a été réalisée par un prestataire extérieur ; en revan­che, les phases de préparation et d'indexation ont bien sûr été assurées par la bibliothèque.

22 Conduire un projet de numérisation

1. AVANT ET PENDANT LA NUMÉRISATION

1.1. Les coûts induits à prévoir au moment de la sélection des documents

Sans entrer dans le détail de la sélection des documents à numériser, il faut savoir que cette phase peut engendrer des coûts induits, d'abord en temps mais aussi en opérations onéreuses. L'un des buts principaux d'une sélection rigoureuse étant de constituer un ensemble cohérent et homogène, on peut être amené à compléter la base de départ : dans le cas de numérisation réalisée à partir de supports de substitution tels que des photogra­phies, des diapositives ou des microfilms, il peut être parfois nécessaire d'en refaire une série pour homogénéiser par exemple le cadrage, le rendu des couleurs, la qualité photographique, notamment si les photos de base ont été réalisées dans le cadre de campagnes successives antérieures, sans critères prédéfinis (au niveau notamment du cadrage).

Bien sûr, la sélection sera moins problématique s'il s'agit d'une numérisation systématique de tous les documents d'une série. Mais même dans ce cas (représenté par la BMT par l'opé­ration sur les plaques de verre), des problèmes de conservation peuvent venir interférer et poser question (par exemple : les pla­ques de verre cassées seront-elles numérisées ? jusqu'à quel niveau de casse ? acceptera-t-on des plaques en deux, trois mor­ceaux ou plus ? le rendu en sera-t-il acceptable ?)

Une fois les documents sélectionnés, il peut être nécessaire de procéder à quelques traitements de conservation : un dépoussié­rage, de petites réparations, voire des restaurations, une mise en boîtes ou en pochettes pour le transport des documents, peuvent induire des coûts préalables à la numérisation, et qui permettront de numériser des documents en bon état, offrant donc une qualité supérieure de lecture. Ainsi, à la BMT, la numérisation des

Calculer les coûts induits de la numérisation 123

5 000 plaques de verre a-t-elle été précédée d'une longue prépara­tion, réalisée, après formation spécifique, pendant 4 mois par deux agents, à 3/4 de temps : inventaire précis, mise en état de conserva­tion par dépoussiérage document par document, et mise en pochet­tes de conservation.

Une fois l'ensemble des documents sélectionnés, la constitu­tion d'un inventaire, à remettre au prestataire, est indispensable et doit être fait avec soin : il comprendra des éléments de repères tant bibliothéconomiques (par exemple : cote du manuscrit, numéro de feuillet, numéro de diapo, numéro de la boîte dans laquelle la diapositive parviendra au prestataire), que descriptifs (description brève, dans le cas des plaques de verre, permettant un repérage immédiat d'un document qui n'a pas de mention de cote sur le document lui-même, mais sur la pochette de conservation). Le contrôle de cet inventaire a une importance primordiale, car le prestataire le prendra pour base afin de numéroter les images numérisées. Pour cette raison, il est bon de constituer des lots de n vues qui correspondront au nombre d'images par disque obtenu (en général 100). Le prestataire n'a plus ensuite qu'à ajouter le numéro de CD et le numéro d'image correspondant dans le CD.

= Cette première phase de sélection et l'inventaire précis des ? documents à numériser doit pouvoir être faite dans la rigueur et » sans précipitation, en tout début de l'opération, de préférence 1 avant même que le choix du prestataire ne soit fait. Du nombre I total et précis de documents à numériser dépendra bien sûr le § budget à prévoir sur la ligne des prestations de services. $ Q_ O O o 0 a. 1.2. Les coûts induits liés au choix du prestataire co _J 1 .g co

•S 1.2.1. Un test ÇD § Le choix du prestataire est une phase délicate, dont | dépendra la qualité technique de la numérisation, mais aussi les

124 Conduire un projet de numérisation

bonnes conditions de sécurité et conservation des documents, pendant l'opération elle-même. Il n'est pas inutile de faire pro­céder à un test préalable, qui peut parfois être facturé : pour le choix du prestataire du projet de numérisation des diapositives d'enluminures, une présélection représentative de 30 diapositi­ves a été confiée aux deux sociétés pressenties pour une numé­risation test (gratuite) sur un même jeu de diapos, aux cadrages et couleurs variés (pleines pages, détails, lettres seules, couleurs éclatantes, écriture majoritaire, fond de parchemin vierge majo­ritaire...).

Pour pouvoir effectuer le contrôle de ce test, il faut évi­demment avoir à disposition une chaîne de visualisation d'ima­ges (écran et logiciel) assez puissante permettant la comparaison entre les différentes propositions de numérisation et entre celles-ci et l'original. A noter que les magazines infor­matiques proposent parfois des petits logiciels temporaires de ce type, qui peuvent éventuellement être utilisés ponctuelle­ment en dépannage. Mais il est bien évident qu'il faudra avoir acquis l'équipement définitif pour le contrôle qualité des dis­ques.

"O 1.2.2. Le cahier des charges |

CD

La rédaction du cahier des charges est une étape importante, | car tout oubli ou imprécision générera des frais supplémentaires. | Le prestataire s'engage par écrit à respecter ce document contrac- | tuel, qui concerne l'ensemble des opérations depuis le départ de | la collection jusqu'à son retour dans ses locaux habituels de stoc- | kage, (transport, stockage, numérisation, contrôle, aspect final f des CD avec par exemple, photos index pour chaque disque, gra- "i1

vage de sauvegarde...) | LU

g3 w o > co

Calculer les coûts induits de la numérisation 125

1.3. Le transfert des documents

1.3.1. Le transport

Le transport peut être assuré soit par le prestataire, soit par l'établissement. Dans les deux cas, on doit veiller à ce que soit prévue la fourniture (et donc éventuellement l'achat par la biblio­thèque) des caisses de transport appropriées qui permettront de stocker sans dommage les documents.

1.3.2. L'assurance

Quand un document quitte la bibliothèque, il doit être assuré. En général, les collectivités territoriales ont une assurance permanente ; il suffit pour la bibliothèque de déclarer la nature, le nombre et la valeur individuelle des constituants de la collec­tion, mais certains établissements doivent souscrire eux-mêmes une assurance et donc en acquitter le montant.

f 2. APRÈS LA NUMÉRISATION 3 to CD ® m) to | 2.1. Le contrôle qualité

CO c 0 c

| À la réception des disques d'images numériques, doit | s'effectuer le contrôle qualité. Cette vérification qui consiste

a d'une part à vérifier pièce à pièce que tous les documents ont bien j, été scannés, et d'autre part que la qualité de cette numérisation 1 ainsi que tous les autres points sont conformes à ce qui était t: demandé dans le cahier des charges. Là encore, la qualité de la 1 chaîne de visualisation doit permettre de faire ce contrôle sans | problème. Le temps passé au contrôle qualité ne doit pas être

126 Conduire un projet de numérisation

sous-estimé : un bon contrôle permettra de relever des erreurs cor-rigeables par le prestataire avant le paiement de la facture (avant le délai de 90 jours). Cette vérification peut également se faire par échantillon pendant cette période, l'exhaustivité du contrôle étant assurée par une période de garantie à convenir dans le cahier des charges.

2.2. L'indexation

2.2.1. L'acquisition des outils

La chaîne de visualisation d'images (écran, logiciel...) doit avoir été achetée au préalable (on a vu qu'il était utile de l'avoir pour le test et le contrôle qualité). A la BMT, le logiciel « Micromusée » a été acquis en 1997 pour 7 622 € (formation comprise), à quoi s'est ajoutée une formation supplémentaire pour le conservateur chargé de l'indexation (533 € pour deux jours).

A noter en outre, que l'indexation peut induire un certain nombre de frais induits en terme d'ouvrages de référence. Ainsi, l'indexation des enluminures à la BMT a-t-elle été faite à partir s

r -0 du thésaurus de François Garnier, que la bibliothèque d'étude ? conservait ; plusieurs autres ouvrages de références (guides ico- % nographiques et autres) ont été nécessaires ; il faut bien sûr en J prévoir l'acquisition s'ils ne se trouvent pas déjà dans les collec- | tions. g

c Q) CL O O o

2.2.2. Le temps passé et le personnel concerné f

Une fois l'opération de numérisation réceptionnée, il j, « reste » à indexer l'ensemble des données. Il est à noter en effet § que l'indexation a rarement été réalisée au préalable. Il est clair ^ que cette opération est extrêmement coûteuse en temps, en per- 1 sonnel, en matériel. -3

Calculer les coûts induits de la numérisation 127

Ainsi, la numérisation des enluminures à la BMT a-t-elle permis d'achever l'identification de chaque enluminure, et plus encore, l'inventaire de tous les sujets représentés. Pour cet exem­ple, le temps consacré à l'indexation des 3 700 images a été d'environ 8 mois équivalent temps plein (2 x 3,5 mois pour deux conservateurs-stagiaires successifs, 1 mois pour le contrôle et les corrections par le conservateur responsable). La moitié des enlu­minures avait été indexée avant le projet de numérisation ; une fois celle-ci réalisée, il a fallu saisir dans « Micromusée » l'indexation déjà effectuée, puis indexer la seconde partie des enluminures. Il y a eu ensuite l'importation des images dans le serveur, leur compression et enfin la vérification systématique et intégrale de l'ensemble de l'indexation selon le thésaurus choisi.

Il est important d'insister sur le temps pris par l'indexation proprement dite des données numérisées. C'est un travail qui doit être effectué de façon continue, à temps quasiment complet, pen­dant le temps nécessaire ; faute de quoi l'indexation manquera de rigueur, d'homogénéité et finalement d'efficacité pour les recherches. Il importe en effet que chaque sujet soit toujours indexé de la même manière, par le même mot, sinon la recherche

s ultérieure n'en sera pas facilitée. C'est pourquoi il peut être inté-f ressant, connaissant la somme de travail et la diversité des tâches | confiées aux responsables des fonds (patrimoniaux) et la diffi-

§ culté que ceux-ci peuvent avoir à se consacrer de façon continue, | ininterrompue et régulière à une tâche de fond, d'avoir recours à

§ des personnes extérieures et compétentes qui, stagiaires ou vaca-| taires chargées spécifiquement de cette tâche, pourront réaliser | un travail plus homogène, régulier et rigoureux. Dans le cas

f d'indexation d'images - qu'elles soient d'enluminures, plaques i de verre, gravures ou autres - les stagiaires de l'Enssib ou des | IUT compétents en histoire de l'art, peuvent rendre bien des ser-

ï vices à des bibliothèques qui ont du mal à décharger leur person-! nel du travail habituel pour qu'il puisse se consacrer uniquement 5 à la partie scientifique d'un projet de numérisation. 6

Conduire un projet de numérisation

CONCLUSION

Il n'est pas exagéré de considérer que les coûts induits d'un projet de numérisation en bibliothèque représentent les 2/3 des coûts (financiers et en temps) globaux.

On a souvent tendance à se focaliser sur le coût bien visible, et nécessaire, du prestataire (d'autant plus qu'on peut bénéficier de subventions pour cela), et à négliger l'effort que la bibliothè­que devra fournir en accompagnement, effort qui se traduira par des coûts induits en temps passé et en frais annexes. C'est pour­tant cet accompagnement qui permettra véritablement au projet d'atteindre sa finalité : être un nouveau service à l'utilisateur, c'est-à-dire un outil souple et performant de consultation et de préservation des documents originaux.

Calculer les coûts induits de la numérisation 129

a. -e ;

s. s: fc s o ^ .® ? "S "SK «

s S a . ^ q a

£ s ^ «S» .2 S •« a & « g IN S? 5< 4) o „ B g a ^ "S

13 E?® S"* •o â "§ a Ts •~ S e a •S" o <a -H « o « S y a -S

ï5 S ^ s S 5a S «»- a a « ?"s

1 1 -•G ^ c<s *5» «S ««a a rS ®

a p,. ^

? 0 s >â "= S A s -o. S

S 3 • S-s

S S ta h >2 ><! a s

5|-« •<

e2

1 06

-o g

Wi ^

11

•8 a 1 *— •*- CO «L> « G ^ QJ 3 'o P-3 3^ ^ Q. c3 « - s-H 3 c u S u ,1) P- £ t-t-. t-

rï -C y y

•n i« a e 53 <u e «

u •2 W O T3 > , s£> fe o-U

CJ3 TD

_o c3

-o c

• o

'<

H 55 ai? Ki

•a i -s

flS o « OÛ <

O 3 O § 2 CQ S o < a ci-O-, SI

e .2 g,.! ? S > | a 8 S: a "O <& Pm

a 5 IL

3 CQ Z

§ t U <u

_o 5 c (Q <U C -c g ^ c £ ._ -j I C

130 Conduire un projet de numérisation

s s-

!=

O

« • o 'o "ïJ çp 5î) 'o 2 O Tr. >

CJ) s -b 2 «5 fll

ri 0 J?- ^ U niD •< -O

« S a 'S A A o o £ ^ 1 1 es s. S o jr s "O

£ r®

s •B g a g h af H s ?• O "9 'C3

a «

is I .S [

= e

Les choix techniques de la numérisation des documents imprimés

par Catherine Lupovici

Les choix techniques d'une opération de numérisation consti­tuent la phase clef de la réalisation du projet. Elle traduit les objectifs définis dans la phase préparatoire en contenus qui seront utilisables directement par les outils informatiques d'exploitation prévus pour la diffusion des ressources numériques. Selon les choix techniques effectués le résultat sera utilisable non seulement dans le programme initial mais aussi dans des programmes supplémentaires de diffusion et de valorisation qui pourraient être construits ultérieurement sur le corpus ainsi créé. Ces choix conditionnent également, en fonction des standards retenus, les échanges de données entre les institutions, la possibilité d'interconnecter les corpus numérisés, de construire des corpus virtuels ou de contribuer à des portails. Enfin comme pour toute information numérique ces choix sont vitaux pour la préserva­tion du travail effectué au-delà du seul court terme si l'on souhaite réaliser un investissement numérique qui pourra être exploité dans toutes circonstances comme n'importe quelle collection documen­taire.

Conduire un projet de numérisation

Ces choix techniques sont donc aussi cruciaux pour la réalisation de contenus numériques que l'a été la mise en œuvre au début des années 1970 de la création des formats standard pour l'information secondaire et les catalogues de bibliothèques, dès lors que l'objectif du projet dépasse la réalisation d'un seul produit éditorial ponctuel.

Les choix techniques pour la numérisation des collections concernent :

- la saisie du contenu : préparation de la communication et de la pérennisation des contenus ;

- la saisie des métadonnées associées qui permettront la gestion des accès, la gestion des documents numérisés et l'orga­nisation de la navigation dans les collections.

La numérisation des documents imprimés conduit à s'inté­resser essentiellement aux textes imprimés et aux illustrations accompagnant ce texte. Ces illustrations peuvent aller de simples figures, schémas et graphiques dans le texte jusqu'à des illustra­tions hors texte en couleur. Les techniques retenues pour un volume imprimé devront donc tenir compte de cette diversité de nature d'information. Elle peut conduire à utiliser des modes de numérisation complémentaires ce qui aura un impact sur les outils de visualisation et d'impression. Au contraire, elle peut conduire à choisir le meilleur compromis du mode de numérisa­tion pour les pages qui contiennent de l'information mixte texte et image.

1. LES DIFFÉRENTS MODES DE NUMÉRISATION DES CONTENUS

Les contenus des imprimés peuvent être numérisés selon deux modes de codage différents : le mode image et le mode texte. Pour mémoire on peut également utiliser le mode vectoriel

Les choix techniques de la numérisation des documents imprimés 133

pour les illustrations graphiques, mais ce mode est principale­ment utilisé dans le cadre de dessins et de plans et ne sera pas traité ici. Un même document contenant des données de type dif­férent peut être numérisé en mode mixte combinant ces différents modes de base, selon la nature de l'information, l'état des origi­naux et le type d'usage prévu. Ces deux modes ne permettent pas le même type d'exploitation pour l'indexation et la recherche d'information, pour l'affichage à l'écran et pour l'impression. Un même document original numérisé selon chacune de ces métho­des n'aura pas le même volume ; il sera donc plus ou moins facile à stocker et à transmettre efficacement sur un réseau local ou sur Internet ; enfin il nécessitera l'utilisation de logiciels différents pour la visualisation.

1.1. La numérisation en mode image

Le document peut être numérisé en fac-similé de l'original. On encode ainsi le texte comme une image réalisant une repré­sentation photographique de chaque page du document original.

I Chaque page est décomposée en un certain nombre de points lors | de l'opération de numérisation. On appelle ce type d'images

S numériques des images bitmap ou images rasters ou images en | mode point. | A chaque point ou pixel (picture élément) est associé le | codage du noir et blanc ou de la couleur. Selon le mode de codage | qui comporte un nombre de nuances plus ou moins élevé, on uti-| lise un code plus ou moins complexe qui se fait à l'aide d'un bit, f de plusieurs bits, voire de plusieurs octets, généralement trois ^ octets ou 24 bits pour les images en couleur. Le nombre de bits | utilisé pour le codage de chaque pixel est souvent désigné par la

t! profondeur du pixel ou bit depth. Le mode image se décompose ! en mode bitonal, mode niveaux de gris et mode couleur.

_i ©

134 Conduire un projet de numérisation

1.1.1. Les différents modes image

1.1.1.1. Le mode bitonal

Le codage des pixels sur un bit permet le codage du noir ou du blanc. L'image résultante est donc faite de points noirs ou de points blancs. Ce mode de codage, qui est le plus économique de la numérisation du texte en mode image, est très performant pour les documents très contrastés et dont le fond est propre. Il est insuffisant pour les fonds colorés, les encres pâlies ou les pages tachées. Ce mode est donc principalement utilisé pour la numéri­sation de documents imprimés en bon état. Il pourra plus diffici­lement être utilisé pour les illustrations.

1.1.1.2. Le mode niveaux de gris

Le codage des pixels sur un ou plusieurs octets est utilisé pour le mode niveaux de gris. On utilise fréquemment un codage sur 8 bits qui permet de coder 256 nuances de gris allant du blanc au noir. Au contraire du mode bitonal, il permet de respecter l'aspect d'un original noir et blanc. Il est utilisé pour les illustra­tions photographiques noires et blanches des textes imprimés. Il peut également être préféré au mode bitonal pour le texte imprimé dont le fond est coloré voire taché. Ce mode codage est plus volumineux que le codage bitonal.

1.1.1.3. Le mode couleur

Le mode de codage est identique à celui du niveau de gris, mais on code des nuances de couleurs élémentaires au lieu de se contenter du codage des nuances du noir. Les trois couleurs dont les nuances sont enregistrées sont le rouge, le vert et le bleu (RVB). On utilise généralement 8 bits par couleur élémentaire soit 24 bits par pixel et on peut ainsi distinguer 16 777 216 cou­leurs différentes. Les fichiers résultant de ce mode de codage sont

Les choix techniques de la numérisation des documents imprimés 135

donc très volumineux. Il faut noter que la décomposition en cou­leurs élémentaires de l'image bitmap et de celle de l'écran de visualisation n'est pas identique à la décomposition en couleurs élémentaires de l'imprimerie pour laquelle les couleurs élémen­taires sont le rouge, le bleu, le jaune et le noir. On utilise princi­palement ce mode de numérisation pour les illustrations en couleur de documents textuels imprimés.

1.1.2. La résolution des images

La résolution d'une image est le nombre de pixels par unité de mesure de l'image numérisée. Elle correspond donc à la den­sité du grain de l'image. Une résolution élevée garantit une bonne qualité de l'image numérique, mais elle produit un fichier plus volumineux qu'une résolution plus basse.

La résolution s'exprime généralement en points par pouce ou dpi (dots per inch). Par exemple on parle d'une résolution de 300 dpi, ce qui pour une page A4 (21 x 29,7 cm) correspond à 8 494 000 pixels. Une résolution de 600 dpi pour une page A4 correspond à 33 976 000 pixels.

On utilise aussi la notion de définition de l'image qui est la résolution multipliée par la dimension. On obtient ainsi la définition horizontale qui donne le nombre de pixels de la largeur et la définition verticale qui donne le nombre de pixels de la hau­teur de l'image numérisée. Par exemple une définition de 2 000 x 3 000 pixels ou de 4 000 x 6 000 pixels peut être utilisée pour numériser une page d'illustration selon le format de la page d'original et selon la finesse du grain recherchée.

La résolution appliquée lors de la numérisation est fonda­mentale pour le projet. Elle peut ultérieurement être diminuée par un programme qui va fusionner des pixels et recalculer les valeurs moyennes des couleurs (noir, blanc, niveaux de gris, nuances de rouge, de vert et de bleu) des pixels que l'on fusionne. Si elle s'avère insuffisante, elle ne peut être augmentée automatiquement

136 Conduire un projet de numérisation

de manière fidèle à l'original et l'on doit alors recommencer la numérisation.

Les matériels informatiques utilisés lors de la numérisation, et lors de la restitution sur écran ou sur imprimante n'ont pas tous la même résolution. Ainsi un écran d'ordinateur ordinaire a une résolution de 72 dpi, une imprimante bureautique noir et blanc va avoir une résolution de 300 à 600 dpi (par comparaison une réso­lution d'imprimerie est de 1 200 dpi minimum). Les opérations de visualisation sur un écran ordinaire et d'impression s'accompa­gnent donc éventuellement d'un recalcul de la résolution qui peut produire une dégradation du rendu par rapport à la qualité de la numérisation.

Il faut donc déterminer la résolution optimale pour préser­ver une bonne lisibilité du texte imprimé et de tous les accents, voire des symboles dans le cas d'un texte de mathématiques par exemple. La lisibilité est une lisibilité par l'œil humain sur écran et sur sortie imprimée mais aussi éventuellement selon le type de projet une lisibilité par un programme de reconnaissance optique de caractère. Le texte illustré ou comportant des schémas, des graphiques ou des symboles nécessitera des tests pour définir la bonne résolution rendant correctement à la fois le texte et les £

illustrations. 1 La numérisation des imprimés dans les programmes nord- jg

américains est généralement faite en mode bitonal à 600 dpi pour | la version d'archivé et à 300 dpi pour la version de communica- 1 tion. La Bibliothèque nationale de France utilise le mode bitonal g à 300 ou 400 dpi selon la nature du texte pour la version d'archivé 1 et la version de communication. s

o Q. ro [

1.1.3. La compression des données |

La numérisation en mode image donne toujours un fichier ^ volumineux qu'il faut compresser pour gagner de la place de | stockage et dans tous les cas pour la transmission sur les réseaux ^

Les choix techniques de la numérisation des documents imprimés 137

dont nous disposons aujourd'hui, qu'il s'agisse de réseaux locaux ou de l'Internet. Les différentes méthodes de compression qui existent se répartissent en compression avec perte d'informa­tion et compression sans perte d'information.

La compression avec perte d'information élimine des infor­mations créées lors du processus de numérisation de manière non détectable par l'œil humain.

Dans la compression sans perte, l'utilisation de calculs mathématiques permet de factoriser des informations répétées et de minimiser ainsi la taille du document numérique. Pour un même document numérisé en mode image, la compression avec perte est plus efficace que la compression sans perte d'informa­tion et elle est d'autant plus utilisée que le document numérique est volumineux c'est à dire pour la numérisation en couleurs.

On préférera donc les compressions avec pertes pour les projets de communication et les compressions sans perte dans les projets de numérisation patrimoniale où les données numériques seront conservées sur le long terme et pourront être réutilisées dans d'autres projets de communication et de valorisation des documents.

I Dans le cas d'un projet qui allie la communication et la | numérisation patrimoniale on pourra créer deux fichiers, le

g fichier compressé sans perte étant archivé pour le long terme. 1 Les formats de fichiers d'images numérisées, en dehors du | fichier bitmap dont l'extension est .bmp, utilisent l'une ou l'autre | de ces méthodes de compression et le format de fichier choisi | comporte donc implicitement une compression plus ou moins

s efficace avec ou sans perte d'information. f Les standards de compression sont en développement per-"i1 manent. .g | Cependant les modes bien stabilisés les plus couramment ^ utilisés sont pour la compression sans perte : | - l'un length coding. Les pixels identiques consécutifs sont | codés une seule fois en associant au code le nombre d'occurrences.

138 Conduire un projet de numérisation

Ce mode de compression est généralement employé avec le mode bitonal ;

- le codage de Huffman. Les occurrences de valeurs les plus nombreuses sont affectées d'un code court ;

- la compression LZW (Lempel-Ziv-Welch). Les taux de compression entre 1,2 et 2,5 sont déterminés par les caractéristi­ques du document.

La compression CCITT groupe 4 très fréquemment utilisée en numérisation du texte combine le run length coding et le codage de Huffman.

Les modes de compression avec perte les plus fréquemment utilisés sont :

- la transformée cosinus (DTC) ; - la méthode fractale ; - la méthode des ondelettes. La compression JPEG qui est très utilisée en numérisation

pour les illustrations s'appuie sur la méthode DTC.

1.2. La numérisation en mode texte

La numérisation en mode texte consiste à coder le texte en tant que tel et offre ainsi la possibilité d'effectuer de la recherche plein texte à l'intérieur des documents, de prendre des notes en copiant et collant le texte.

Le texte est composé de tous les caractères servant à l'écri­ture et utilisés dans l'imprimerie : alphabet, ponctuation, chif­fres, symboles. Le texte est également structuré et mis en forme typographique dans les documents imprimés et l'on peut souhai­ter conserver cette information en codant non seulement les signes de l'écriture mais aussi la présentation. Enfin, il est possi­ble de coder la structuration logique lors de l'acquisition de l'information numérique en interprétant la présentation physique des documents, ce qui permettra d'appliquer des feuilles de style

Les choix techniques de la numérisation des documents imprimés 139

typographique différentes lors de la présentation dans différentes applications pour l'écran ou pour le papier. La structuration logi­que peut également être utilisée pour sélectionner des portions significatives du document pour la recherche textuelle.

1.2.1. Le codage des systèmes d'écriture

Les différents systèmes d'écritures peuvent être codés en machine et nécessitent un code plus ou moins long selon le nom­bre de signes distincts.

Ainsi l'écriture latine peut être codée sur 8 bits qui autori­sent le codage de 256 signes différents. Le standard le plus répandu qui permet ce codage est le code ASCII (American Stan­dard Code for Information Interchange) ou ISO 646. Cependant l'ASCII ne permet de représenter que l'écriture latine simple sans symboles sophistiqués et sans caractères spéciaux dont on peut avoir besoin dans des textes anciens ou des textes scientifiques.

Le codage sur 16 bits défini au niveau international en 1991 dans la norme Unicode permet désormais le codage de 65 536 signes différents ce qui couvre l'écriture latine et les dia-

g critiques utilisés dans les différents systèmes d'écriture fondés § sur l'écriture latine, le codage des autres langues 1 alphabétiques (arabe, arménien, cyrillique, grec, hébreux), les | symboles mathématiques et scientifiques et le codage des carac-! tères idéographiques (dont principalement les idéogrammes chi-| nois, japonais et coréens). § Seul le codage en Unicode permet donc de représenter cor-! rectement la diversité des imprimés qu'une bibliothèque peut £ souhaiter numériser en mode texte dès qu'il y a des textes anciens j, ou des textes scientifiques par exemple. En effet les imprimés ont | été la plupart du temps réalisés avec des caractères plus divers

^ que ceux présents dans l'ASCII. I La saisie en Unicode n'est cependant pas encore possible | actuellement avec n'importe quel logiciel. Les dernières versions

140 Conduire un projet de numérisation

des normes d'encodage des textes structurés logiquement que sont SGML, XML et HTML supportent Unicode et permettent, moyennant de disposer des polices de caractères adéquates, de l'afficher. L'affichage dans des applications web se fera éga­lement par l'ajout de polices de caractères sur les postes de con­sultation de la bibliothèque ou par l'installation par l'utilisateur distant de ces polices sur son ordinateur personnel s'il dispose d'une version récente de navigateur.

Enfin, il faut signaler que l'ASCII est inclus dans Unicode et qu'un texte saisi en ASCII pourra être converti, à son niveau mini­mum de sophistication, en Unicode qui sera à moyen terme la norme universelle pérenne de codage du texte pour l'ensemble des systèmes d'écriture et qui est la forme de stockage de préférence pour la conservation à long terme de l'information textuelle.

1.2.2. La structure physique

La structure physique d'un document correspond à la mise en forme de présentation faite pour faciliter la lecture et la compréhension. On peut distinguer la macrostructure qui corres­pond aux règles de mise en page de chaque type de page à l'inté­rieur du document comme par exemple la structure de page avec titre centré ou la structure de page en deux colonnes. La micros­tructure quant à elle est constituée des attributs typographiques qui permettent de typer chaque portion du texte et qui constituent le style du texte au sens des traitements de textes habituels tel que la mise en valeur par le gras, l'italique ou le souligné, les polices de caractère comme Times ou Garamont et les différentes tailles de caractères utilisées pour les différentes portions comme corps 10 ou corps 12.

On peut souhaiter vouloir conserver les éléments de structure physique au niveau de la macrostructure et/ou au niveau de la microstructure de manière à se rapprocher de la mise en page de la reproduction de type photographique obtenue par la numérisation

Les choix techniques de la numérisation des documents imprimés 141

en mode image, mais avec des fichiers beaucoup moins volumi­neux au moins pour les parties purement textuelles et avec la pos­sibilité d'effectuer de la recherche plein texte. On ajoutera alors au code du texte une codification selon un standard qui permettra d'effectuer la mise en forme lors de l'affichage des documents, en utilisant un logiciel approprié.

Le format PDF (portable document format) de la société Adobe et qui est associé au logiciel Acrobat permet de stocker des documents encodés en mode texte en conservant les éléments de présentation physique. De plus l'outil Acrobat Capture permet de convertir un fichier image de texte en texte, en respectant la présentation physique et en conservant en mode image les parties non reconnues du texte. Il permet enfin d'encapsuler des images et en particulier des conversions en format PDF de fichiers TIFF.

1.2.3. La structure logique

La structure logique quant à elle s'abstrait des règles de pré­sentation pour s'attacher aux types d'éléments logiques déconnectés de leur présentation physique tels que titre, auteur,

I chapitre, section, figure, notes, bibliographie etc... Elle permet, 1 tout comme les formats bibliographiques de type MARC o (machine readable catalogue) de construire des applications qui | savent filtrer les éléments de la structure pour l'indexer ou pour | 1 ' afficher. L ' affichage se fait alors par l'appl ication de feuilles de

g styles qui peuvent être différentes pour une version papier ou | pour une version écran par exemple. | La capture de la structure logique à partir d'un document

f imprimé existant se déduit généralement de la présentation phy-j, sique de chaque document. Il existe des structures génériques | normalisées par types de documents qui peuvent s'appliquer à la

t: conversion de documents anciens. | La codification de la structure logique s'ajoute au code du | texte proprement dit. Les fichiers sont peu volumineux au moins

142 Conduire un projet de numérisation

pour la partie textuelle, ils permettent une indexation sélective, une présentation élaborée par l'application d'une feuille de style qui sera interprétée par un logiciel approprié pour l'affichage ou pour l'impression.

La norme de codage de la structure logique est la norme SGML (standard generalized markup language), ISO 8879, 1996. SGML comporte une syntaxe, la DTD (définition de type de document), qui permet de définir la structure générique pour une classe documents comme les livres, les périodiques, les arti­cles dans les périodiques. Une DTD très particulière est la DTD HTML (hypertext markup language) qui définit la structure logi­que des pages du web1. Entre la structure très simple HTML et les possibilités très complexes qu'offre SGML, un format intermé­diaire a été défini qui permet de répondre à tous les besoins de distribution et d'indexation de documents textuels structurés : le XML (extended markup language)2. Ce nouveau format déve­loppé par le W3 Consortium est destiné à remplacer HTML sur le web. XML peut être couplé avec une DTD mais aussi avec une description de structure exprimée en schéma XML. Chacun des sites de format cités propose des outils dans le domaine public et des outils commerciaux pour saisir des documents et des défini- £

lions de structure logique. Une structure logique générique très f importante pour la conversion de documents en SGML et main- | tenant en XML est la DTD TEI ( text encoding initiative f qui per- | met de définir des structures de livres et de périodiques mais | aussi de manuscrits et autres types de documents textuels qui g soient cohérentes entre elles sur le plan du codage et sur celui de | l'exploitation. Beaucoup de projets de numérisation de docu- § ments en mode texte structuré utilisent une DTD TEI. C'est le cas t nj

_i I _g (/) co

1 http:liwwww3 org/TRIhtnil40I/si>ml/dtd.html (visité le 12 novembre 2001). Pour l'historique de iS cette DTD, consulter le site http//www.utoronto.ca/webdocs/HTMLdocs/HTML Spei/html.htnû ^ (visité le 12 novembre 2001). jô 2 XML en 10 points. http:flwww.w3.orgfXML/1999/XML-in-I0-potnts (visité le 12 novembre 2001). > 3 http-Hwwwtei-c org (visité le 12 novembre 2001 ).

Les choix techniques de la numérisation des documents imprimés 143

par exemple de la numérisation de la Revue de synthèse (1900-1999) effectuée par la BnF en partenariat avec la Fondation pour la science et les éditions Albin Michel.

1.2.4. Quel mode texte choisir ?

On voit donc que la saisie en mode texte peut se situer à dif­férents niveaux de complexité qui correspondent à des niveaux de prix et à des fonctionnalités différentes.

Le texte ASCII qui est l'opération la plus simple ne permet que la recherche en plein texte et le copier/coller pour la prise de notes. Dans certains projets de numérisation il est associé à l'image du document. L'association des deux modes permet alors de faire des recherches sur le texte intégral d'un document et d'afficher ou d'imprimer un fac-similé de l'original.

Le fichier PDF textuel permet de faire une recherche tex­tuelle, et d'afficher ou d'imprimer un quasi-fac-similé de l'origi­nal. PDF ne permet pas de véritable couper/coller car si le document est présenté en plusieurs colonnes il ne permet pas de copier des caractères contenus dans une seule colonne. Le format | ne gère que l'aspect présentation de la totalité de la page et ne

g gère pas l'organisation logique du contenu. On peut comparer la | manipulation du texte d'une page PDF à celle des caractères | mobiles d'un marbre d'imprimeur où l'on compose ligne à ligne 1 au travers de différentes colonnes. Enfin PDF ne signifie recher-! che textuelle que si le contenu est du mode texte. Mais PDF peut | aussi encapsuler du mode image pur pour lequel aucune recher-! che textuelle n'est possible. C'est le cas dans l'affichage PDF des

m ouvrages numérisés en mode image lors de la consultation de l Gallica (http://gallica.bnf.fr). PDF est cependant intéressant à | utiliser pour la diffusion car il possède un bon taux de compres-

g sion lorsque l'on a des images à envoyer sur le réseau. Le visua-§ liseur Acrobat est gratuit et compatible avec les versions ^ relativement récentes des navigateurs web.

144 Conduire un projet de numérisation

Le document HTML quant à lui est assez peu structuré. Il s'agit d'un vrai fichier texte qui permet la recherche plein texte et le copier/coller avec une présentation relativement simple. On peut introduire une navigation hypertexte entre les pages HTML. On peut encapsuler des fichiers de toute nature, y compris de la vidéo. Le document XML est plus intéressant car en plus des fonctionnalités du HTML on peut exploiter la structure plus sophistiquée pour une indexation par type de données. On peut isoler des types de portion de document avec des caractéristiques différentes en particulier en terme de droit d'accès. On peut créer des liens bidirection­nels à tous les niveaux de la structure à l'intérieur d'un docu­ment et non plus seulement renvoyant à une page entière comme avec HTML. On peut, à l'aide de feuilles de styles écrites dans un langage normalisé indépendant des plates-for­mes, faire des présentations aussi sophistiquées qu'avec l'imprimerie. C'est aujourd'hui LE standard du document structuré pour la saisie des contenus en mode texte. Cepen­dant il ne faut pas oublier que plus on souhaite saisir de fonc­tionnalités dans l'opération de numérisation plus le prix de l'opération sera élevé.

1.3. Les formats de fichiers § O 3 nj

Les contenus numériques compressés ou non selon les I cas sont empaquetés dans un fichier. Il existe des formats | ouverts (indépendants des plates formes de production) de J fichier qu'il est recommandé d'utiliser de préférence à des J formats propriétaires peu répandus au moins pour la version ^ d'archivé. Le format de communication doit tenir compte du | taux de compression pour la transmission sur les réseaux et ^ des outils de visualisation qui seront nécessaires sur le poste | de l'utilisateur. |

Les choix techniques de la numérisation des documents imprimés 145

Les formats de fichiers pour la numérisation en mode image les plus courants sont :

-TIFF (tagged image file format) est un format de fichier ouvert qui permet de véhiculer des images numérisées en mode point, non compressées ou compressées avec certains modes de compression, en noir et blanc, en niveaux de gris ou en couleur. Les compressions que l'on peut inclure dans un fichier TIFF comprennent les données non compressées, la compression LZW, la compression CCITT Groupe3 et 4, JPEG. Le format TIFF après avoir été développé et maintenu par Aldus et Micro­soft est actuellement la propriété d'Adobe, et on trouve les spéci­fications du format sur le site d'Adobe1. C'est un format de fichier très utilisé qui est un standard de fait. Le fichier TIFF comporte un en-tête structuré dans lequel on peut mettre un cer­tain nombre de métadonnées techniques relatives à chaque image. Le format TIFF est utilisé par les scanners comme format d'échange et dans les applications de numérisation de patrimoine culturel comme format de stockage à long terme ;

JFIF (JPEG file interchange format) est le format ouvert d'échange de fichiers spécifique pour véhiculer les images com-

s pressées selon la norme JPEG à raison d'une image par fichier. | La décompression est séquentielle lors de l'affichage ;

jjj GIF (graphie interchange format) est un format ouvert 1 développé par CompuServe. Il est très utilisé dans les techniques i Internet. Il permet d'intégrer des images compressées en LZW ; c 8 PNG (portable network graphies) est un format ouvert de | fichier développé par le W3 Consortium pour la transmission | efficace sur Internet d'images de bonne qualité. Il a été développé

jg pour remplacer GIF et il peut également remplacer le format à TIFF pour certains usages. Comparé à GIF il offre de vraies pos-| sibilités de codage de la couleur et il permet la décompression

I progressive de l'image, c'est-à-dire un affichage de toute l'image v> o co

1. TIFF 6.0 Spécification (visite le 12 novembre 2001 )

Conduire un projet de numérisation

dans une faible résolution qui s'affine ensuite progressivement. Il a été soumis à 1TSO comme norme internationale ;

-PDF (portable document format) est un format proprié­taire qui ne peut être manipulé que par les outils Acrobat de la société Adobe. La décompression est séquentielle lors de l'affi­chage.

2. LES MÉTADONNÉES

Les métadonnées associées aux documents numérisés sont créées dans le déroulement même de l'opération de numérisa­tion. Elles seront utilisées dans la restitution des documents numérisés et dans leur gestion. La numérisation de documents constitue des collections au même titre que les collections de reproductions sur microformes et elles doivent être gérées de manière similaire, quel que soit l'objectif initial du projet de numérisation, dès lors que l'on souhaite réutiliser cet investisse­ment initial.

On distingue trois types de métadonnées à créer et à associer aux reproductions numériques : les métadonnées descriptives, les métadonnées administratives et les métadonnées de structure.

2.1. Les métadonnées descriptives

Les métadonnées descriptives permettent d'effectuer la recherche des documents dans un catalogue ou plus généralement dans un instrument de recherche informatisé et/ou dans l'applica­tion de consultation qui va être développée qui peut également être un produit d'édition intégrant les documents numérisés.

La difficulté pour une bibliothèque qui commence un projet de numérisation est de définir la méthode la plus appropriée de

Les choix techniques de la numérisation des documents imprimés 147

création des métadonnées descriptives. Cette méthode doit cor­respondre à la fois au contexte de la bibliothèque et au contexte du projet qui peut être un projet coopératif associant d'autres types d'institutions qui n'ont ni les mêmes règles, ni les mêmes outils, ni les mêmes formats de description.

On peut donc vouloir concilier la philosophie de la recher­che d'information dans le catalogue informatisé de la bibliothè­que et dans le catalogue des autres institutions et la philosophie de découverte et de navigation que nous offre aujourd'hui le web. Ces deux approches sont souvent vécues dans les opérations de numérisation comme antagonistes et peuvent donner lieu à des querelles entre les puristes du catalogage et du catalogue et les puristes de l'Internet.

Il est donc important de comprendre la finalité, les avanta­ges et les limites de chacune des approches afin de pouvoir défi­nir sa méthode de description qui aboutira généralement à une combinaison des deux approches. Il sera alors nécessaire de pré­voir des mécanismes de passerelles entre le catalogue et les autres métadonnées descriptives afin de rationaliser la produc­tion de ces informations et d'éviter la duplication du travail de description, voire une certaine incohérence entre les contenus de métadonnées équivalentes dans le catalogue et dans le document par exemple.

2.1.1. Le catalogage du document numérisé

La bonne gestion des collections numérisées, conduit à con­server la numérisation et à décrire les reproductions numériques dans le catalogue de la bibliothèque comme toutes les ressources de la bibliothèque qui peuvent être utilisées par les lecteurs et quel que soit le projet de numérisation qui a conduit à leur pro­duction.

148 Conduire un projet de numérisation

L'opération de numérisation s'accompagne donc d'une opération de catalogage complémentaire voire complet dans cer­tains cas.

Traiter la reproduction numérique dans l'outil de catalogage de la bibliothèque présente l'avantage de s'appuyer sur un format documenté, souvent lié à des fichiers d'autorité pour le contrôle des points d'accès et sur un système existant maîtrisé par le per­sonnel de la bibliothèque donc directement utilisable.

Le catalogage des unités bibliographiques numérisées peut être effectué de deux manières :

- en traitant la reproduction numérique du document origi­nal conservé dans les collections de la bibliothèque comme n'importe quelle autre reproduction de substitution, par exemple un microfilm ou un jeu de microfiches. Les informations seront alors des données locales ajoutées à la notice décrivant l'original qui a été reproduit. Cette méthode convient à des opérations de numérisation qui ne comportent pas de travail scientifique sur le document original. La numérisation correspond par exemple à une reproduction en fac-similé ou à une transcription textuelle fidèle sans interprétation ou correction ;

- en traitant la reproduction numérique comme une édition s originale et en créant une nouvelle notice. Cette méthode est plus § appropriée si le travail de numérisation s'accompagne d'un vérita- $ ble travail de réédition avec non seulement transcription mais aussi | correction, annotation et mise en relation avec un appareil critique, f

La norme qui se dessine, au niveau international et pour des I projets de numérisation à caractère patrimonial visant à reproduire | des imprimés existants en fac-similé ou en réalisant une simple J transcription textuelle souvent associée à l'image de 1 'original, est £ d'utiliser la première méthode. C'est la recommandation pour le J, projet coopératif NDLP (National Digital Library Programme) J aux États-Unis. C'est aussi la norme pour l'extension du catalo- ^ gue collectif européen EROMM (European Register of Micro- § forme Masters) aux reproductions numériques. C'est ce |

Les choix techniques de la numérisation des documents imprimés 149

traitement qui permet d'échanger des informations descriptives entre bibliothèques et de contribuer à des catalogues collectifs donnant accès à des collections de reproductions numériques réparties entre différentes bibliothèques.

Les informations saisies dans les données locales doivent alors inclure les données de localisation sous forme de notation d'URL (uniform resource locator) avec une structure identique à celle décrite pour le contenu du champ 856 dans les formats MARC 21 et UNIMARC. Le format UNIMARC est d'ailleurs en cours d'évolution pour permettre comme le fait déjà MARC21 d'avoir des champs de données locales incluant des liens vers la reproduction numérisée.

Dans le cas où la bibliothèque considère que sa numérisa­tion constitue une édition originale elle créera une notice indé­pendante en s'appuyant sur les règles de catalogage en vigueur pour les documents électroniques. Elle pourra alors créer un champ 856 comportant les informations de localisation permet­tant de construire un lien cliquable pour accéder à la ressource numérique.

| 2.1.2. Métadonnées descriptives incluses ~ dans le document numérisé 0 0 § Les documents numérisés peuvent être intégrés dans un pro-| duit éditorial qui va nécessiter une description de portions de conte-| nus plus fine que le niveau accepté dans le catalogue. Ils peuvent | également être attachés à un corpus numérique comme une collec-! tion qui ne sera pas non plus décrite dans le catalogue. Dans certains f cas des métadonnées de description complémentaires à la simple ^ notice bibliographique peuvent devoir être créées. 1 Des formats de documents textuels dont le codage s'appuie s sur la famille SGML/XML/HTML comportent la possibilité, et | dans certains cas l'obligation, d'inclure dans des étiquettes norma-

^ lisées des métadonnées descriptives dans le document lui-même.

Conduire un projet de numérisation

Ces métadonnées descriptives seront exploitées directement par tout moteur d'indexation et de recherche approprié. En particulier les métadonnées incluses dans des documents offerts sur le Web en tant que pages statiques seront directement utilisables par les moteurs de recherche sur Internet.

La norme de fait à utiliser pour la création de métadonnées descriptives dans les documents est le Dublin Core (DC). C'est un ensemble de 15 types de métadonnées destinées à faciliter la découverte des ressources sur Internet. Depuis sa création en 1995 l'ensemble des 15 éléments de base s'est enrichi de qualifi­catifs développés par des groupes d'utilisateurs pour leurs besoins particuliers. Le Dulin Core qui au départ a été développé pour intégrer des étiquettes « méta » normalisées dans des pages HTML est aujourd'hui utilisable dans une syntaxe XML ou RDF (resource description framework). Des outils de saisie ont été développés qui permettent de saisir et de transformer des élé­ments descriptifs Dublin Core (DC) dans une syntaxe appropriée ou de dériver les éléments DC à partir de notices MARC plus complexes. Certains de ces outils sont des logiciels libres. On peut citer l'exemple de l'outil développé par Ukoln en Grande Bretagne : dcdot'. Il permet de saisir des métadonnées descripti­ves en DC et de générer les métadonnées en syntaxe HTML, XML ou RDF. On trouve sur le site web du Dublin Core2 une liste des outils qui permettent de saisir des données Dublin Core et de les préparer au format requis pour leur intégration dans un docu­ment textuel numérique. Ce document textuel peut être une enve­loppe qui contiendra une numérisation en mode image ou en mode vectoriel selon le modèle de la page HTML du Web.

Ces éléments de description sont très utilisés dans les projets de numérisation qui associent les institutions culturelles telles que les bibliothèques, les musées et les archives qui trouvent ainsi un

1. http //www ukoln ac uk/metudata/dcdot (visité le 12 novembre 2001 ). 2. hîtp //dublincore.org/tools (visité le 12 novembre 2001 )

Les choix techniques de la numérisation des documents imprimés 151

dénominateur commun permettant la traduction des données sai­sies dans les divers formats traditionnels de ces institutions pour les mettre en commun dans un projet de mise à disposition de documents numérisés. Le résultat après traduction d'une descrip­tion réalisée dans le système propre de chaque type d'institution est directement utilisable dans un environnement Web.

Les 15 éléments du Dublin Core peuvent être répartis en trois catégories :

- les éléments liés au contenu du document qui est décrit ; - les éléments liés à la gestion de la propriété intellectuelle

du document qui est décrit ; -les éléments liés à l'instance particulière du document

numérisé qui est décrit. Le nom des éléments est normalisé en anglais et utilisé sous

cette forme par les différents programmes du web capables d'interpréter directement les différentes syntaxes possibles.

Les éléments Dublin Core de contenu

- Title : titre du document. Il peut être répété pour diverses formes de titres qui seront précisées par l'utilisation d'un qualifi­catif pour le titre alternatif, le titre traduit, etc. ;

- Subject : sujet ou mot clé. Peut être un mot clé libre ou une vedette matière. Un qualificatif précisera alors le référentiel utilisé comme par exemple Rameau ;

- Description : une description textuelle du contenu du document comme par exemple un résumé ou une table des matières ;

- Type : catégorie du document, par exemple page d'accueil, poésie, document de travail ;

- Source : autre document à partir duquel le document est dérivé. Cet élément peut être utilisé pour indiquer l'original à partir duquel la numérisation a été effectuée ;

152 Conduire un projet de numérisation

- Relation : relation avec d'autres documents. Par exemple description d'une partie d'une publication en série ou autres édi­tions du document décrit ;

- Coverage : caractéristiques spatiales et temporelles du contenu intellectuel de la ressource.

Les éléments Dublin Core de propriété intellectuelle - Creator : créateur ou auteur, responsabilité principale du

contenu intellectuel ; - Publisher : éditeur, entité responsable de la mise à dispo­

sition de la ressource dans sa forme actuelle ; - Contributeur : personne ou organisme qui a fourni une

contribution intellectuelle importante à la réalisation du document ;

- Rights : gestion des droits, lien vers une mention de ges­tion des droits ou un service donnant ce type d'information.

Les éléments Dublin Core d'instanciation - Date : on peut se référer à une norme de forme de date ; - Format : format des données (logiciel et matériel

nécessaires pour utiliser le document) ; I - Identifier : identifiant du document, chaîne de caractères |

ou numéro utilisé pour identifier de manière unique la ressource ï (URL, URI, ISBN...) ; J

- Language : langue du document. On peut se référer à un f code normalisé de langue. g

Les métadonnées exprimées en éléments Dublin Core peu- | vent être introduites dans différents formats de documents. Dans § des pages HTML elles seront encodées selon le format HTML ^ dans des étiquettes <meta>. Ces étiquettes ne s'affichent pas dans ^ les pages HTML mais elles sont repérables spécifiquement par | des moteurs d'indexation. Elles peuvent également être expri- ^ mées en XML ou en RDF/XML de manière à être introduites | dans la section de l'étiquette <head>...<lhead> d'une page ^

Les choix techniques de la numérisation des documents imprimés

XML. Enfin si le document est encodé en XML selon une DTD de type TEI, elles peuvent être introduites en XML par exemple dans la zone de l'étiquette <fileDesc>... </fileDesc> de l'en-tête du fichier TEI.

Voici à titre d'exemple les métadonnées créées en Dublin Core pour le document de la bibliothèque électronique de Lisieux qui est en ligne à l'adresse suivante : http:llwww.bmlisieux.com/ archives!lebrazOl .htm (visité le 13 février 2002).

Métadonnées en HTML telles qu'elles figurent dans le document en ligne (afficher le fichier HTML source du document pour les consulter à partir de votre navigateur)

<META NAME-"DCJitle" CONTENT = "La bague du capitaine"> <META i\'AME="DC.Creator" CONTENT="Le Braz, Anatole"> <META NAME="DC.Subject" CONTENT =""> <META N AME-" DC.Description" CONTENT=""> <META NAME="DC.Publisher" CONTENT="bibIiothèqiie

municipale de Lisieux"> <META NAME="DC.Contribiitor" CONTENT=""> <META NAME="DC.Date" CONTENT="2001 "> <META NAME= "DC.Type" CONTENT="text"> <META NAME="DC.Format" CONTENT="text/html"> <META NAM E=" DC .Identifier" C ONTENT-"http:!Iwww.bmli-

sieux.comlarchivesIlebrazOl .htm"> <META NAME="DC.Source" CONTENT=""> <META NAME="DC.Language" CONTENT="fr"> <META NAME="DC.relation.IsDerivedFrom" CONTENT=""> <META NAME="DC.Coverage" CONTENT="France"> <META NAME="DC.Rights" CONTENT="Public domain"> On voit que 10 éléments sur les 15 éléments DC sont utilisés

dans ce cas, sans qualificatif. Voici les mêmes métadonnées reformatées en XML (refor­

matage automatique effectué avec l'outil « dcdot ») <?xml version-"!.0"?> <DublinCore>

154 Conduire un projet de numérisation

<Title> La bague du capitaine <ITitle> <Creator> Le Braz, Anatole </Creator> <Publisher> bibliothèque municipale de Lisieux </Publisher> <Date> 2001 <IDate> <Type> text </Type> <Format> text/html </Format> <ldentifier> http://www.bmlisieux.com/archives/lebraz01 .htm </Identifier> <Language> /'• </Language> <Coverage> France <ICoverage> <Rights> Public domain </Rights> Les mêmes métadonnées reformatées en RDF selon un

schéma Dublin Core en XML (reformatage automatique effectué avec l'outil « dcdot »)

<?xml version="1.0"?>

Les choix techniques de la numérisation des documents imprimés 155

<!DOCTYPE rdf.RDF SYSTEM "http://purl.org/dc/sche-mas/dcmes-xml-20000714.dtd">

< rdf.RDF xmlns :rdf=" http ://www.w3.org!1999102122-rdf-syntax-ns#" xmlns:dc-"http://purI.0rg/dc/elements/l .!/"> <rdf.'Description aboiit=" http : U www .bmlisieux.com/archi­

ve si lehrazOl .htm"> <dc:title> La bague du capitaine </dc:title> <dc:creator> Le Braz, Anatole <ldc:creator> <dc:publisher> bibliothèque municipale de Lisieux </dc:publisher> <dc:date> 2001 <ldc:date> <dc:type> text <ldc:type> <dc:format> text/html <ldc:format> <dc:language>

</dc:language> <dc:coverage> France </dc:coverage> < d c : ri gh ts > Public domain <Idc:rights>

156 Conduire un projet de numérisation

<lrdf.'Description Voici enfin les mêmes métadonnées présentées en XML

mais en suivant une philosophie de type ISBD comme il est usuel dans les projets anglo-saxons et intégrées dans un en-tête TEI (reformatage automatique effectué avec l'outil « dcdot »)

<teiHeader> <fileDesc> <titleStmt> <title> La bague du capitaine </title> <author> Le Braz, Anatole </author> </titleStmt> <extent> 9384 </extent> <publicationStmt> <publisher> bibliothèque municipale de Lisieux </publisher> <date> 2001 </date> <idno> http://www.bmlisieux.com/archives/lebraz01 .htm </idno> <lpubl ica tio nS tm t > <notesStmt> <note> format: text/html </note> <note>

Les choix techniques de la numérisation des documents imprimés 157

coverage: France </note> <note> rights: Public domain <lnote> </notesStmt> </fi!eDes(>

Le Dublin Core est également utilisé pour l'insertion de métadonnées descriptives dans les thèses déposées sous forme électroniques selon la circulaire ministérielle parue au Bulletin officiel de l'Éducation nationale n0 34 du 28 septembre 2000 ou numérisées à partir de la version papier. Un avant-projet de norme française est en cours de discussion. Il propose les méta­données Dublin Core suivantes :

DC Élément Qualificatif Schéma d'encodage Langue Commentaire

DC.Contributor namePersonal

Rôle

Nom, prénom du directeur de thèse « Directeur »

DC.Contributor namePersonal

Rôle

Nom, prénom des membres du jury et rapporteurs selon leur rôle zone à répéter autant de fois que de membres de jury

DC.Contributor nameCorporate

Rôle

Nom de l'établissement, compo­sante, sous-composante « Université de soutenance »

DC.Contributor nameCorporate

Rote

Nom de l'établissement, compo­sante, sous-composante « co-tutelle »

DC.Coverage Spatial Temporal

DC.Creator namePersonal Nom, prénom de l'auteur

DC.Date valid W3C-DTF Date de soutenance

158 Conduire un projet de numérisation

DC Élément Qualificatif Schéma d'encodage Langue Commentaire

DC.Date available W3C-DTF Date d'autorisation de diffu­sion de la thèse

DC.Description abstract fre Résumé français

DC.Description abstract eng Résumé anglais

DC.Description abstract selon la langue

Résumé en une autre langue

DC.Format médium IMT

DC.Format extent ex. « 3419 bytes »

DC.Identifier URI URN de la thèse en texte intégral

DC.Identifier NoThèses n0 de la thèse attribué par l'université

DC.Language ISO 639-2 langue de la thèse, par défaut « fre »

DC.Publisher nameCorporate université responsable de l'édition électronique de la thèse

DC.Relation Is Version Of Has Version Is Replaced By Replaces Is Required By Requires Is Part Of Has Part Is Referenced By References Is Format Of Has Format

URI

DC.Rights indique les modalités de dif­fusion de la thèse

DC.Rights Mention de copyright

DC.Source Mention d'origine du docu­ment

Les choix techniques de la numérisation des documents imprimés 159

DC Élément Qualificatif Schéma d'encodage Langue Commentaire

DC.Subject fre Mots clés français de l'auteur zone à répéter autant de fois que de mots-clés

DC.Subject eng Mots clés anglais de l'auteur zone à répéter autant de fois que de mots-clés

DC.Subject selon la langue

Mots clés de l'auteur dans une autre langue zone à répéter autant de fois que de mots-clés

Dans ce dernier cas la description est plus détaillée. Elle montre que différentes occurrences du même élément sont utili­sées pour fournir des informations répétitives ou de nature complémentaire. Des qualificatifs sont également proposés.

La correspondance ou mapping entre le Dublin Core et le for­mat UNIMARC qui peut permettre de définir un outil de conver­sion de l'un à l'autre a été établie dans le cadre du projet européen BIBLINK. La documentation fait partie du document D4.1 produit par le projet et est disponible à l'adresse http:llhosted.ukoln.ac.ukl

•g bihlink/wp4/d4.HdocOOô-l .html (visité le 12 novembre 2001 ). Ce | document peut servir de base à l'établissement d'un programme de

J conversion pour un projet de numérisation. ta

o "5 co c o

s 2.2. Les métadonnées administratives Q. O O O o

f Les métadonnées administratives sont utilisées pour la ges-tion des documents numérisés qui doivent être stockés, commu-

§ niqués librement ou de manière contrôlée et conservés pendant ^ une certaine durée ou indéfiniment selon les cas. Les méta-5 données de gestion permettent d'appliquer aux documents nume-* risés les traitements administratifs traditionnels effectués pour © r

Conduire un projet de numérisation

les documents analogiques. Le document numérique doit avoir un identifiant univoque équivalent au numéro inventaire qui per­met de gérer l'entité pour toute opération de stockage, de com­munication, de reproduction ou de conservation. Les modalités d'acquisition seront enregistrées selon des types d'acquisition propres à la numérisation. Le document numérique a un statut juridique lié à la législation sur la propriété littéraire et artistique et sa communication peut faire l'objet d'un contrat avec le ou les ayants droit dont les paramètres devront être enregistrés dans le système de gestion automatisé de communication des documents numérisés.

2.2.1. L'identification du document numérisé

L'identification du document numérisé doit être faite de manière univoque dans l'ensemble des documents numérisés par la bibliothèque mais également par rapport aux identifiants attri­bués par d'autres institutions.

Il doit donc comporter en préfixe un identifiant de l'institu­tion, suivi de l'identifiant du document numérisé. On peut choisir de numéroter de manière séquentielle tous les documents numé­risés ou d'avoir un numéro composé du numéro de la collection suivi par le numéro à l'intérieur de la collection. Comme pour un numéro inventaire classique on peut choisir un numéro plus ou moins signifiant, le plus simple étant un numéro séquentiel attri­bué par un système de code à barres pour les unités physiques à numériser.

Si la reproduction numérique est offerte sur Internet l'iden­tifiant du répertoire contenant l'ensemble des fichiers constituant la reproduction numérique d'une unité bibliographique sera inté­gré dans l'adresse Internet. Cette adresse permettra de construire un lien actif vers le document. Elle pourra être utilisée dans des portails ou des catalogues collectifs signalant et donnant directe­ment accès à des documents numérisés.

Les choix techniques de la numérisation des documents imprimés 161

2.2.2. La gestion des accès

Les bibliothèques gèrent déjà des documents qui ont des droits d'accès différents liés à un statut du document comme par exemple « Exclu du prêt » et à des catégories de lecteur ou d'usa­ger. Lorsque des documents comme des manuscrits issus d'une donation qui comporte des conditions restrictives de communica­tion sont demandés par un lecteur, la notice dans le catalogue aura déjà eu une mention indicative et bien souvent le document lui-même comportera une information que le magasinier connaît et qui permettra d'alerter sur les conditions de communication. Le personnel en service public jouera le jeu de filtre pour vérifier que les conditions sont remplies. Avec le document numérique la communication est automatique et le système lui-même doit savoir effectuer les filtrages liés au statut du document qui doit être encodé et pouvoir être restitué à l'utilisateur dans l'affichage d'un message d'information en clair.

La numérisation du document constitue de plus une repro­duction et sa communication une représentation qui peut être pro­tégée par le droit d'auteur, le droit à l'image ou le droit patrimonial. Elle peut avoir fait l'objet d'une négociation avec

= les ayants droits qui peut comporter le versement de droits I d'accès et la collecte de statistiques d'utilisation à cet effet. Cet » accord peut être limité à une période de temps. 1 Le système qui gère la communication des documents 1 numérisés doit donc savoir gérer un certain nombre d'informa-| tions sur l'accès et savoir afficher un certain nombre de messages | en clair pour les utilisateurs dès lors que la communication des | documents numérisés est liée à un contrat avec des ayants droits, f Ces informations seront gérées concrètement soit dans le catalo-^ gue, soit dans le système de communication des documents 1 numérisés. Cependant si des portions de documents ont des droits ^ d'accès différents, les informations de restriction d'accès ne peu-1 vent qu'être associées au document lui-même. La structure XML s M

©

Conduire un projet de numérisation

peut permettre d'encoder les droits associés à une portion de con­tenu. Les éléments à prendre en compte sont :

• le type d'accès : - pas de restriction d'accès ; - affichage seul par accord avec l'ayant droit ; - affichage et impression par accord avec l'ayant droit ; - affichage, impression et déchargement par accord avec

l'ayant droit ; - accessible seulement dans l'enceinte de la bibliothèque.

Cet espace peut être l'espace physique des locaux, un espace géographique tel qu'un campus ou une ville ou un espace de réseau local à accès contrôlé ;

- conditions spécifiques qui peuvent être liées au posses­seur de l'original qui a été numérisé ou au donateur de l'original ;

• information sur l'institution ou le collectionneur qui pos­sède l'original numérisé :

- nom de l'institution ou du collectionneur ; - coordonnées à utiliser pour demander des autorisations

d'accès particulières ou de réutilisation.

2.2.3. La gestion de la conservation à long terme des documents numérisés

Les documents numériques se dégradent de deux manières : par le vieillissement du support sur lequel les données sont enre­gistrées et par l'obsolescence technologique de la plate-forme technique associée au contenu pour l'accès et la communication. Il est donc nécessaire d'enregistrer des informations de gestion de ces vieillissements de manière à prendre toutes les mesures préventives qui sont des questions de bon sens. Des métadonnées de gestion de la conservation seront utilisées par le système de stockage pour préparer toutes les actions préventives nécessaires avant la disparition des données ou d'un élément technique de la plate-forme de consultation.

Les choix techniques de la numérisation des documents imprimés

Les métadonnées importantes sont : • les informations liées à l'acquisition, au stockage et à sa

pérennisation telles que : - responsable de la prestation de numérisation ; - date de création de la copie et date à laquelle il faut prévoir

le prochain rafraîchissement du support ; - historique des actions de préservation : date et nature des

migrations de fichiers ; • les informations techniques liées à la numérisation et aux

documents numérisés : -mode de numérisation, résolutions, formats de fichiers,

compression ; - outils de capture et réglage des outils de capture ; -liste et organisation des fichiers composant un objet

numérique ; - informations sur ou pointeurs vers la documentation des

techniques utilisées afin de pouvoir s'y reporter dans le futur pour savoir à nouveau interpréter le codage des contenus.

Les métadonnées de préservation des documents numéri­ques font l'objet d'une intense discussion internationale depuis 1996. Les éléments principaux donnés ci-dessus sont extraits des règles définies dans différents projets.

Certaines de ces métadonnées sont incluses dans les en-têtes des formats normalisés de fichiers. Le système de gestion de la conservation des documents numériques doit donc gérer ces don­nées figurant dans les fichiers et celles qui sont en dehors des fichiers pour piloter toutes les actions de conservation préventi­ves quelle que soit leur nature.

2.3. Les métadonnées de structure

Les métadonnées de structure des collections numérisées per­mettent de gérer le stockage et la navigation dans les collections

Conduire un projet de numérisation

numérisées et jusque dans les documents eux-mêmes. Elles per­mettent également la présentation des documents à l'écran.

Chaque document numérisé stocké est composé, selon le mode de numérisation et le type de document numérisé, de sous ensembles physiques de fichiers informatiques qui peuvent être de nature différente. Mais la consultation va se faire au travers du filtre des parties composantes logiques du document tels que par­ties liminaires, chapitres, sections pour un livre. Dans le cas d'un périodique il s'agira d'années, fascicules, articles et à l'intérieur même d'un article du résumé, de sections et de bibliographie. De plus les documents peuvent être présentés individuellement ou collectivement au travers de fonds identiques aux fonds origi­naux reproduits ou de collections définies spécialement pour regrouper des documents numérisés et organiser la navigation dans un ensemble trop vaste pour que l'utilisateur puisse le mani­puler facilement.

L'unité documentaire que l'on décrit dans le catalogue va donc avoir une structure logique interne qui permettra à l'utilisa­teur de se déplacer dans chaque document. Elle sera également une partie composante d'un ensemble logique externe qui n'aura pas non plus de description bibliographique classique.

Si le document est numérisé dans un mode qui ne permet pas l'encodage d'une structure logique interne, la création de métadonnées de structure sera nécessaire pour assurer la corres­pondance entre la structure logique et les fichiers physiques. C'est typiquement la table des matières qui fournit cette structure interne. Dans le cas du document numérisé en mode image ou en mode texte non structuré, la table des matières devra être saisie en plus du document. Dans le cas d'une numérisation en mode texte structuré au niveau logique, les outils de visualisation per­mettent d'avoir une vue des seules informations qui constituent la table des matières, sans avoir à la créer ou à la gérer spécifi­quement.

Les choix techniques de la numérisation des documents imprimés

La saisie de métadonnées au niveau de la collection sera également nécessaire pour présenter la navigation dans un ensemble de documents.

Ces métadonnées permettent d'offrir à l'utilisateur des modes de découverte qui ne sont plus ceux du seul catalogue mais qui s'apparentent à une classification en libre accès au niveau de la collection et au feuilletage par la table des matières à l'intérieur d'un document en plus du parcours séquentiel du document. Enfin dans les documents textuels numérisés il doit être possible d'aller directement à une page ou un groupe de pages qui aura été cité dans une référence bibliographique. Il faut donc également conserver des métadonnées de la structure phy­sique d'origine qui est la page pour assurer l'exacte correspon­dance entre la pagination (y compris dans le cas de paginations multiples de l'original) et les fichiers informatiques.

Ces métadonnées seront encodées et utilisées de manière différente selon le système qui sera choisi pour stocker et gérer la communication des documents. Cependant les éléments de méta­données sont en voie de normalisation entre les projets de numé­risation texte, image et vidéo dans les grands projets coopératifs au niveau international et européen. La normalisation qui a com­mencé vers 1999 concerne non seulement les éléments de don­nées mais aussi le format d'échange qui est d'ores et déjà fixé dans un cadre unique XML1. Il est donc important, comme pour les données catalographiques d'utiliser un système qui peut rece­voir ces données et les exporter dans le format d'échange qui se prépare. Ce format d'échange est aussi important pour la pérennité des collections numériques des bibliothèques que l'a été le format MARC pour l'information bibliographique.

1. Pour les métadonnées des bibliothèques numériques voir le site de la Library of Congress à l'URL http:llkweb.loc.govlstandardslmetadala (visité le 12 novembre 2001) et pour le format d'échange voir : Metadata Encoding and Transmission Standard http://lcweb.loc.go/standards/mets (visité le 12 novembre 2001)

Conduire un projet de numérisation

Les systèmes requis pour le stockage et la communication numérique patrimoniale ne sont donc pas identiques à des systè­mes de GED courants. Un certain nombre de systèmes commer­ciaux clés en main de gestion des collections numérisées qui répondent aux besoins des bibliothèques commencent à être dis­ponibles au moins dans le continent nord-américain1.

1. Pour une analyse comparative des systèmes qui existent sur le marché voir : Digital object library produets / William Lund. Harold B. Lee Library. In . RLG DigiNews. 2001. Vol. 5, n" 5. http // wwwrlg.org/preserYldiginews/diginms5-5 htm (visité le 12 novembre 2001).

Les choix techniques à Lisieux : Des réserves à l'Internet

Les étapes de la mise en ligne

par Olivier Bogros

« C'est en pratiquant le détour qu'on parvient à l'accès » (Vieux proverbe chinois)

LIMINAIRE

Les choix techniques de la bibliothèque municipale de Lisieux en matière de numérisation de documents imprimés se caractérisent par une faiblesse d'ambition, de moyens et de financement : des outils de base, quelques compétences locales et le désir de mettre la main à la pâte pour se lancer dans une expérience d'animation littéraire du web qui n'avait aucune raison de se prolonger. Le choix du mode texte, en l'absence de tout autre possible, s'est donc imposé tout naturellement pour une « numérisation à la suite » (pas de corpus défini ou définitif), réa­lisée en interne et sur fonds propres1.

Les moyens techniques (1996-2000) : Un ordinateur bureautique de type PC 1386, pour la saisie Un ordinateur portable avec connexion au réseau pour

l'encodage, la mise en ligne et la maintenance du site Un espace disque gratuit (5 Mo), puis un espace disque loué

(30 Mo + nom de domaine) sur un serveur privé.

Les moyens humains (1996-2000) : 1 conservateur pour le choix des textes, l'encodage et ia

maintenance des pages du site 1 agent administratif pour la saisie 1 contractuel (CES) pour la relecture

Les moyens financiers (1996-2000) : 2 500 F annuels (380 €) pour la location de l'espace disque,

45 h de travail par mois (2,4 % du volume horaire mensuel de l'éta­blissement).

Une rapide description des différentes étapes de la mise un ligne des textes sur le site de la bibliothèque électronique de

1. Pour l'historique de la numérisation à Lisieux, voir le BBF n* 3,1997.

168 Conduire un projet de numérisation

Lisieux (http://www.bmlisieux.com/) rendra bien compte de nos pratiques artisanales.

1. SÉLECTION DES TEXTES ET PRÉPARATION DE LA COPIE

il est procédé deux jours par an à une sélection d'œuvres lit­téraires et documentaires susceptibles d'être intégrées dans la bibliothèque électronique, soient 50 à 60 textes. Cette sélection s'effectue non à partir du catalogue mais par immersion dans les collections en magasins. Quelques documents proviennent aussi de collections privées. Ne sont retenus que des textes courts mais intégraux d'auteurs français réputés être du domaine public.

Pour chaque oeuvre sont d'abord rassemblés des éléments d'identification pour l'établissement de l'étiquette bibliographique qui sera placée en tête du texte.

Exemple d'étiquette : PICARD, Edmond (1836-1924)) : La Veillée de l'huissier,

conte de Noël - Bruxelles : Ferdinand Larcier, Libraire-Éditeur, 10 rue des Minimes, 1885 - 66 p. ; 19,5 cm.

Saisie du texte : S. Pestel pour la collection électronique de la bibliothèque municipale de Lisieux (08.ll.2000)

Texte relu par : A. Guézou Adresse: Bibliothèque municipale, B.P. 27216, 14107

LjSjeux cedex Tél. : 02 31 48 66 50 - Minitel : 02 31 48 66 55 - Fax :

02 31 48 66 56. Mél : [email protected], [Olivier Bogros] bibJisieux@com-

puserve.com http://www.bmlisieux.com/ Diffusion libre et gratuite (freeware) Orthographe et graphie conservées Texte établi sur un exemplaire (coll. part.) de l'édition ori­

ginale. Ex n° U paraphé par l'éditeur sur Hollande VanGelder à toutes marges (255 x 155).

On sait que contrairement à une numérisation en mode image qui permet une reproduction fidèle d'un document, le mode texte (numérisation + OCR ou saisie au clavier) conduit à une

Numérisation interne ou externe 169

représentation ou reconstruction du document original, aussi une lecture préalable du texte est-elle nécessaire pour fixer quelques consignes pour la saisie :

- la pagination de l'édition suivie n'est pas maintenue ; - les illustrations ne sont pas reproduites ; - l'orthographe et la graphie de l'édition sont conservées. On

maintient par exemple « enfans » (enfants), tems (temps). De même, les cédilles et les accents manquants ne sont pas rajoutés. Les fautes typographiques et les coquilles sont rarement modifiées ;

- pour les textes plus anciens on restitue les i/j, u/v, les « s » longs et on résout les abréviations pour permettre un traite­ment informatique du texte. Ainsi la phrase suivante : « lors que la Pefte à diuerfes reprifes y faifoit des rauages eftranges dans les Villes, les Bourgades & la Campagne, où je n'ay refusé mes aBiftâces à perfonne... » devient « lors que la Peste à diverses reprises y faisoit des ravages estranges dans les Villes, les Bour­gades & la Campagne, où je n'ay refusé mes assistances à per­sonne...1

Il ne s'agit pas d'établir une édition scientifique, simplement de trouver un compromis entre le respect du texte et les exigences informatiques2.

2. SAISIE DU TEXTE, RELECTURE, CORRECTIONS

La saisie des textes au clavier à partir de l'exemplaire ou d'une photocopie est effectuée par ia secrétaire de la bibliothèque, véritable cheville ouvrière de cette expérience, pour environ 20 heures mensuelles. Cet horaire peut varier dans l'année en fonction des charges de travail principales (secrétariat, comptabi­lité) mais l'objectif fixé est toutefois d'arriver à produire 4 à 5 textes nouveaux par mois.

1. Discovrs sommaire et méthodique de la cure & preferuation de la Pefte... ! Marin Hamel. - À Rouen, MDCLVIII (Bm Lx norm 899). Saisie programmée pour la fin de l'année. 2. Voir l'exposé de Danielle Trudeau : « Uapport des nouvelles technologies au domaine de l'édition critique » (http://www.sjsu.edu/depts/foreign_lang/Constant/ apport.html).

170 Conduire un projet de numérisation

Les textes sont saisis dans un simple éditeur de texte, Write en l'occurrence, sans mise en page particulière1 :

- enregistrement au format texte (ASCII) ; - nommage des fichiers sur onze caractères au maximum

dont trois pour l'extension (par exemple princita.txt pour Princesse d'Italie de Jean Lorrain) ;

- saut de ligne entre chaque paragraphe, même pour les dialogues ;

- les enrichissements du texte sont signalés par un code (par exemple les mots ou expressions en italiques sont encadrés par deux*) ;

- les notes de bas de pages sont regroupées en fin de texte. Après la saisie, un premier balayage du fichier avec un cor­

recteur orthographique révèle les principales fautes de frappe qui sont immédiatement corrigées2.

La relecture ligne à ligne, tâche assurée par l'agent vacataire chargé du portage de livre à domicile, s'effectue avec l'exemplaire ou sa copie et la sortie imprimée de la saisie. Cette opération lon­gue (4 heures pour un texte simple) est essentielle puisqu'elle per­met de signaler encore quelques fautes de frappe, mais surtout de vérifier l'intégralité de la saisie par rapport au texte original (mots ou morceaux de phrases oubliés). Elle permet aussi de corriger les modifications spontanées du copiste visant à moderniser le texte.

Les textes présents sur le site ne sont pas parfaits et des fau­tes résiduelles sont régulièrement signalées par des « e-lecteurs ».

3. ENCODAGE ET MISE EN LIGNE

Après les dernières corrections le fichier d'origine est sauve­gardé. Une copie va être encodée en html selon la DTD HTML v.4.0. Il est prévu à terme un passage vers le XML par conversion/

1. On pourrait bien sûr utiliser les traitements de texte Word, Wordperfect,... qui savent enregistrer les fichiers directement en .html, mais le code généré (notamment pas MsWord) semble lourd, redondant et sans finesse. Il en est de même des convertis­seurs .rtf / .html. 2. Write étant dénué de correcteur orthographique on utilise une application indépen­dante développée par la société Brian Quinion (http://www.quinion.com/) : le logiciel Spell Check for Edit Boxes v.3.02 et son dictionnaire français qu'il faut enrichir au fil des saisies.

Numérisation interne ou externe 171

épurement de tous les fichiers à l'aide d'un logiciel comme HTML Tidy de Dave Raggett'.

La mise en page est basique sans « frames » ni « javaniaiseries ». Les pages sont statiques, permettant ainsi leur indexation par les moteurs de recherches généraux (Google, Voila, Alltheweb,...) ou spécialisés (Alpeh,...) et les portails littérai­res2. L'application choisie pour générer les fichiers .html est le logi­ciel HomeSite v4.03. Là encore quelques règles sont établies :

- le texte est présenté sur une seule page ; - le nommage des fichiers est identique à celui de la saisie

initiale : huit caractères minuscules au plus et trois pour l'extension (princita.htm) ;

- les caractères accentués ne sont pas systématiquement rendus sous forme d'entités html (« &agrave; » pour « à », « Seacute; » pour « é »,...), les navigateurs sont maintenant assez permissifs sur ce point et n'obligent pas à l'encodage, qui d'ailleurs ne sera plus nécessaire en XML ;

- aucune police n'est imposée, le texte se présente dans le navigateur de l'usager avec la police par défaut (généralement Time New Roman, ce qui convient parfaitement aux textes littéraires) ;

- le texte s'affiche en noir sur un fonds jaune pâle (<body bgcolor="FFFFE8">) ;

- les paragraphes sont justifiés (<p align="justify">) ; -afin de réduire la longueur de la ligne affichée qui croit à

mesure de l'augmentation des résolutions d'écran, le texte est encadré

1. http://www.w3c.org/People/Raggett/tidy/ ; voir aussi XML francophone (http:// www.chez.com/xml). 2. On peut consulter dans les archives de la liste Biblio-fr les contributions opposées de Dominique Lahary et de Pascal Gaillard à propos du Web dynamique et du Web statique (messages des 13.11.00 et 12.03.01). L'établissement d'un lien profond (« deep linking ») , entendez par là un lien qui renvoie directement à la page secon­daire d'un site, sans passer par sa page d'accueil commence à être jugée condamna­ble par les tribunaux. Mais nous parlons là de l'internet marchand I Voir sur ce sujet l'article du journal Libération du 22.11.01 : « Des liens plus profonds que d'autres : La justice discrimine ces clics qui contournent la page d'accueil d'un site » par Marie-Joëlle Gros (http://www.liberation.fr/quotidien/sernaine/20010222jeuzc.html). 3. Le choix d'un éditeur html est affaire de goût. Il existe de nombreuses applications non com­merciales dont certaines en français. Faire une recherche à partir de la page du site LeGra-tuitcom(http^/www.legratuiLcom/TJ_chargement/Annuaires_de_Graticiels/index.php).

Conduire un projet de numérisation

par une balise tableau (<table align="center" width="80%">) qui resti­tue, à gauche et à droite, des marges confortables à l'œil ;

- l'enrichissement du texte par la pose des balises ad hoc : italiques (<i></i>), gras (<bx/b>),...

- la création de liens internes pour les appels de notes (<A HREF="#2"><B>2</B></A><A NAME="B"></A>) et mise en rela­tion hypertextuelle avec d'autres textes déjà en ligne si nécessaire1.

Depuis mai 2000, des métadonnées de type Dublin Core sont intégrées dans le fichier. On peut bien sûr s'interroger sur l'uti­lité actuelle des métadonnées DC, qui ne sont utilisées que par des moteurs de recherche spécialisés.

Exemple de métadonnées : <META NAME="DC.Title" CONTENT="La veillée de

l'huissier : conte de Noël"> <META NAME="DC.Creator" CONTENT="Picard, EdmoncfV <META NAME="DC.Subject" CONTENT=,,,'> <META NAME="DC.Description" CONTENT="Les mal­

heurs gastriques d'un huissier belge et ce qu'il s'ensuivit."> <META NAME="DC.Publisher" CONTENT="Bibliothèque

municipale de Lisieux"> <META NAME="DC.Contributor" CONTENT=",,> <META NAME="DC.Date" CONTENT=,,2000"> <META NAME="DC.Type" CONTENT="text,,> <META NAIVIE="DC.Format" CONTENT="text/html,,> <META NAME="DC.Identifier" CONTENT="httpy/www.bmli-

sieux.com/archives/veillee.htm"> <META NAME="DC.Source" CONTENT="La Veillée de

l'huissier : conte de Noël.- Bruxelles : Ferdinand Larcier, Libraire-Editeur, 10, rue des Minimes, 1885.">

<META NAME="DC.Language" CONTENT="fr,,> <META NAME="DC.relation.lsDerivedFrom" CONTENT=""> <META NAME="DC.Coverage" CONTENT="Belgique''> <META NAME="DC. Rights" CONTENT="Domaine public">

1. Rédigée par Russon Wooldridge (Université de Toronto) une très bonne analyse comparative de la lisibilité de textes littéraires mis en ligne est disponible sur Le Net des études françaises (httpy/www.etudes-francaises.net/acre/maupassant/commenthtm).

Numérisation interne ou externe 173

On procède ensuite à un test de rendu de la page par affi­chage des fichiers sur des écrans en différentes résolutions (de 640 x 480 à 1024 x 768) et dans différents navigateurs (Internet Explorer, Netscape, Amaya et Arachne).

Les nouveaux textes sont chargés sur le serveur en milieu de mois. Ils sont alors dupliqués dans une base textuelle (Lexotor) ouverte sur un serveur de l'université de Toronto1 qui offre la pos­sibilité d'effectuer des recherches sur le corpus lexovien : on peut ainsi voir et examiner tous les contextes d'un mot, d'un nom de lieu ou de personne, dans l'ensemble des textes.

Enfin, les pages de liaisons (page d'accueil, table des auteurs, page index des rubriques) mises à jour plus tardivement sont chargées le dernier week-end du mois.

CONCLUSION On le voit les choix techniques très sommaires faits à Lisieux

résultent plus d'une insouciance et d'une méconnaissance initiale des problèmes liés à la numérisation que d'une réflexion préalable bien conduite. Tout le contraire d'un modèle donc, une alternative tout au plus. Un petit atelier de copistes plus soucieux d'humanité que de technicité.

1. Lexotor est une initiative de Russon Wooldridge, professeur de français à l'univer­sité de Toronto (http://www.chass.utoronto.ca/epc/langueXIX/lexotor/).

TROISIÈME PARTIE

Évaluer et valoriser

Constituer une base de données numérique

par Charlette Buresi et Laure Cédel le-Joubert

Différente du catalogue multimédia, la base de données per­met de mettre à disposition d'un public un corpus numérisé. Cet ensemble de données peut être constitué de documents répondant à une même thématique ou bien représenter un même type de documents (des revues ou des manuscrits, par exemple). La recherche effectuée selon des critères plus ou moins sophistiqués permet alors de naviguer au sein de l'ensemble de la base mais également des documents eux-mêmes. Elle offre de nombreux avantages d'interrogation aussi bien pour le professionnel qui la gère et qui l'exploite que pour l'utilisateur final ; elle s'adapte dans la mesure du possible, et selon sa destination, aux différents usagers, chercheurs et grand public, grâce à ses formulaires de recherche modulables.

Au premier abord, la BDD offre la possibilité d'extraire du fonds de la bibliothèque une série de documents que l'on souhaite mettre en évidence, pour les valoriser, les faire découvrir ou faciliter leur consultation et leur exploitation. Sans viser à l'exhaustivité on peut citer entre autres documents : des collections de photographies,

178 Conduire un projet de numérisation

d'estampes consacrées à une région, de revues, de thèses ou d'ouvra­ges appartenant à un domaine spécifique. Cette individualisation d'une collection peut « exhumer » un fonds remarquable enfoui jus­que là dans l'anonymat du catalogue général ou permettre, grâce à une masse critique représentative, l'étude ou le repérage rapide de textes d'un même auteur ou d'un même courant de pensée.

Une base d'images permet de proposer l'identification et la consultation de fonds iconographiques dont la description est souvent mal prise en compte dans le catalogue qui décrit des lots et non les documents pièce à pièce. Selon la structure et les champs descriptifs retenus, il est possible d'intégrer des docu­ments plus ou moins bien décrits ou signalés - le recours à cette pratique doit cependant être exceptionnel et ne concerner que ce type de document. À ce stade, la BDD pallie l'absence d'une des­cription riche et complète, dès lors qu'il existe un inventaire exhaustif du fonds accompagné d'un signalement cohérent qui respecte un vocabulaire normalisé.

1. CRÉER UNE BASE DE DONNÉES - L'EXEMPLE DES ENLUMINURES MÉDIÉVALES - LES BASES «< ENLUMINURES » ET « LIBERFLORIDUS »

1.1. Historique du projet g c 0 Q. O

En 1999 les ministères de la Culture et de la Communica- | • _c

tion et de l'Education nationale entreprennent, en partenariat J avec l'Institut de recherche et d'histoire des textes (IRHT- ^ CNRS), la réalisation de deux bases de données des enluminures J des manuscrits médiévaux conservés dans les bibliothèques sous Ï leur tutelle. L'élaboration de ces bases constitue la suite logique | d'une longue collaboration scientifique entre les bibliothèques, J

Constituer une base de données numérique 179

les ministères et le CNRS dont le but vise à étendre l'accessibilité de ces fonds exceptionnels à un large public.

Depuis 1979 pour le compte du ministère de la Culture et de la Communication, et depuis 1992 pour celui de l'Éducation nationale, l'IRHT mène un programme de recherche sur les manuscrits médié­vaux dans les bibliothèques municipales et des bibliothèques de l'enseignement supérieur, pour certaines à vocation patrimoniale. Ce programme prévoit la reproduction photographique de l'ensem­ble des manuscrits médiévaux sous forme de microfilms ainsi que la photographie de toutes les enluminures et éléments de décoration de ces manuscrits. Depuis le début de ce programme, s'est constituée une vaste photothèque de plus de 100 000 images décrites dans une base de données créée par l'IRHT. L'IRHT a fait évoluer cette base en commençant la numérisation rétrospective d'une vingtaine de milliers de clichés, puis la numérisation directe des enluminures ori­ginales pour les intégrer dans la base documentaire. Mais l'IRHT ne propose qu'une consultation sur place en Intranet, les modalités de recherche, assez complexes, restant réservées à des spécialistes.

En collaboration avec l'IRHT, les deux ministères ont entrepris de mettre chacun en ligne, pour les chercheurs et le grand public, une base de données proposant la consultation sur l'Internet et l'Intranet des établissements, des enluminures des bibliothèques relevant de leur tutelle.

Pour mettre en œuvre ce programme, les partenaires ont éta­bli une convention, élément indispensable pour mener à bien la réalisation des BDD en partenariat et en assurer la pérennité (cf. infra § 3.1).

1.2. Les futures bases

L'opération menée consiste donc à reprendre les notices des manuscrits et les images numérisées pour les associer au sein d'une base documentaire. Les deux nouvelles bases distinctes se

180 Conduire un projet de numérisation

sont inspirées, tout en la modifiant, de celle de l'IRHT. Cet exer­cice nous a permis de dégager un certain nombre de principes qui pourront éventuellement servir à l'élaboration d'autres BDD.

Comme pour tout projet les mêmes questions se sont posées :

Rédiger un cahier des charges qui recense l'existant et les objectifs : Quel corpus ? Pour quel public et quels besoins ? Quelles informations fournir et comment y accéder ? Quelle répartition des tâches et quelles responsabilités ? Quel matériel informatique ? Quelle interface ?

1.2.1. Le corpus

1.2.1.1. L'existant

Le corpus initial rassemble les clichés des campagnes pho­tographiques réalisées depuis 1979 ainsi que les images numéri­sées au moment de la création des BDD.

1.2.1.2. Enrichissement

Les documents numérisés ultérieurement viendront enrichir f la base au fur et à mesure de leur traitement. |

Le corpus ainsi défini, nous nous sommes attachés à analy- | ser les besoins afin de mettre en œuvre un outil documentaire § « adapté. |

ÇD Q. O O

1.2.2. Le public et ses besoins f

Identifier le public potentiel : d'emblée les chercheurs se ^ sont imposés ; certains d'entre eux connaissent déjà la base de § l'IRHT, mais ils doivent se déplacer jusqu'à Orléans pour Tinter- t roger. Une mise en ligne sur l'Internet apportera une aide consi- 1 dérable à la recherche dans le domaine de l'iconographie |

Constituer une base de données numérique 181

médiévale, discipline fortement représentée à l'étranger. Nous sommes conscients de l'intérêt que cet outil rencontrera éga­lement auprès d'autres professionnels - bibliothécaires, docu­mentalistes, enseignants - ou des éditeurs qui y trouveront une iconographie extrêmement riche sur le Moyen Âge et le plus sou­vent inédite. Parallèlement à ces besoins professionnels, il est important de ne pas négliger « le grand public », un public diffi­cile à cerner dont les motivations principales lors de la consulta­tion relèvent généralement de la simple curiosité ou du plaisir de feuilleter ces pages d'histoire illustrées.

Pour satisfaire ces publics différents il est essentiel d'iden­tifier le type d'informations attendues et de proposer des moda­lités de recherche adaptées aux habitudes et à l'intérêt de chacun.

1.3. Informations et accessibilité

1.3.1. Déterminer les champs descriptifs

H Pour obtenir des réponses pertinentes et répondre aux atten-| tes des futurs utilisateurs, nous avons étudié les modes de recher-

H che appropriés. | Quels niveaux de recherche prendre en compte, quels i champs sélectionner respectivement pour une recherche simple | ou une recherche combinée, quels critères privilégier ? Recher-| ches multicritères et/ou multichamps ? | Cette réflexion nous a conduits à sélectionner un certain

a nombre de champs descriptifs qui vont constituer d'une part, le i formulaire de recherche (cf. infra §2.1.2), et d'autre part, les noti-g ces des résultats des requêtes.

LU

(5 (A o > CO

©

182 Conduire un projet de numérisation

1.3.2. Structuration des données

Dans la mesure où il s'appuie sur un programme commencé depuis plus de vingt ans, notre projet s'en trouve facilité.

L'indexation des images déjà mise en œuvre par la section iconographique de l'IRHT utilise une grille à plusieurs niveaux qui comporte des informations extrêmement précises. Mais, un grand nombre de notices étant incomplètes, certaines bibliothè­ques comme les BM d'Amiens et de Troyes et, dans un premier temps, les bibliothèques Mazarine et Sainte-Geneviève pour l'enseignement supérieur, se sont associées à ce programme et contribuent à enrichir et à compléter la base de l'IRHT pour per­mettre la mise en place de bases locales et nationales sur l'intra­net des établissements et sur l'Internet. Ce travail a exigé une grande rigueur pour assurer la structuration des notices et leur homogénéité.

1.3.2.1. La structure

La hiérarchie générale de la base de l'IRHT nous semble répondre aux besoins et aux attentes des utilisateurs en matière de description et d'indexation. Elle se structure autour de trois s ensembles, le manuscrit, le texte contenu dans le manuscrit et | enfin l'iconographie. Nous avons décidé de conserver cette struc- gj turation cohérente. |

Chacune de ces parties appelle un certain nombre de | champs descriptifs qui autorisent une recherche en partant du | plus général au détail le plus précis. |

Les informations sélectionnées vont donc du catalogage | simplifié des manuscrits à l'indexation détaillée des images. f

Bien que les notices des deux bases ne soient pas totalement J, identiques - plus particulièrement la fiche Décor qui comporte J une rubrique supplémentaire « mots-clés » dans la base de ^ l'enseignement supérieur -, nous présentons ici la structure s suivante : ^

Constituer une base de données numérique 183

Fiche manuscrit (ou codex) : comprend la référence du manuscrit et décrit le volume matériel

en tant qu'entité physique Signalement Localité : nom de la ville où est conservé le manuscrit. Dépôt : nom de la bibliothèque. Cote : pour les manuscrits figurant dans le Catalogue général

des manuscrits des bibliothèques publiques de France, numéro de ce catalogue.

Appellation : titre factice sous lequel est habituellement désigné le manuscrit (« Bible d'Étienne Harding » par exemple).

Données matérielles Type codicologique, support, nombre de feuillet, dimensions en

millimètres. Décoration du manuscrit Iconographie, Ornement, Héraldique,...

Fiche texte (ou ouvrage) : signale la ou les œuvres à l'intérieur du manuscrit (ou codex).

Donne des informations sur l'histoire du manuscrit Signalement du manuscrit Folios : folios du manuscrit où apparaît le texte si le manuscrit

comporte plusieurs textes. Contenu textuel Auteur : nom de l'auteur du texte ou de l'auteur originel pour les

traductions et commentaires. Auteur secondaire .-nom du commentateur, du traducteur... Titre du texte. Type texte : texte commenté, glosé... Langue : langue du texte. domaine : indication du domaine très général auquel appartient

le texte (liturgie, histoire, droit canon...). Historique Datation : datation en siècle, partie de siècle ou dates précises,

à laquelle le texte a été copié sur le manuscrit. Date début* et Date fin * : années de début et de fin de la four­

chette chronologique suggérée par la rubrique Datation. Ces rubri­ques servent à la recherche et surtout aux tris des documents.

184 Conduire un projet de numérisation

Origine géographique : nom du pays selon le découpage actuel suivi si possible du nom de la zone géographique où a été fabriqué le manuscrit.

Origine historique : nom de la région ou de la province selon le découpage médiéval où a été produit le manuscrit.

Origine précise : nom de la ville ou de l'abbaye où a été produit le manuscrit.

Imprimeur : noms de l'imprimeur et/ou du libraire pour les livres imprimés enluminés.

Possesseur : on se limite souvent dans un premier temps au nom du destinataire.

Décoration de l'ouvrage Typologie du décor : énumération des différents types d'enlumi­

nures (initiale historiée, miniature, marge ornée...). Technique : « peinture » et « dessin ». Attribution : nom du ou des enlumineurs ayant participé à la

décoration du manuscrit ou école d'attribution.

Fiche décor : est consacrée aux différents éléments de la décoration du manuscrit, illustration et ornement,

traités par unité iconographique

Signalement du document Référence : signalement du manuscrit ou du document support

du décor. Folio ou page. Contenu du document Sujet : énoncé factice permettant l'identification de l'objet de la

fiche, basé quand cela est possible sur des appellations usuelles. Contexte : indication du type d'enluminure et de sa situation

précise dans le texte. Notes : éventuellement, précisions sur la représentation, justifi­

cation du sujet, expression des doutes sur son identification, notation des remarques obligeamment faites par les utilisateurs de la base.

Mots-clés / énumération documentaire concernant l'enluminure (type, caractère alphabétique pour les lettres...), genre de l'objet traité (figure biblique, allégorie...), la source littéraire de l'image,... et la représentation elle-même (éléments constitutifs, relations...).

Constituer une base de données numérique 185

Les champs renseignés à l'IRHT sont plus développés, mais ceux présentés ci-dessus sont adaptés, dans la mesure du possi­ble, à la destination de nos bases.

Dans tout autre projet on pourrait procéder à une analyse similaire des besoins et déterminer les champs de la future base en fonction des documents et des moyens disponibles (budget, temps, ressources humaines). Cette souplesse dans le choix des critères permet de donner accès à des documents très bien décrits ou à d'autres simplement inventoriés. Dans le cas du projet des bibliothèques de recherche, parallèlement aux documents indexés qui font l'objet de recherches simples ou élaborées, tou­tes les images numérisées même si elles ne sont pas indexées, sont cependant consultables, à partir des seuls champs de signa­lement (localisation, référence, folios).

1.3.2.2. Utiliser un vocabulaire normalisé

Compte tenu du très grand nombre de documents à décrire, ce travail d'indexation se fera, à l'évidence, sur le long terme et sera le fruit d'un travail collectif. La question de l'harmonisation

s du vocabulaire d'indexation et sa validation par une autorité uni-f que trouve alors toute son importance. Avant même de commen-I cer à indexer les documents, il convient de choisir des fichiers § d'autorité mis à jour régulièrement qui serviront de référence i pour alimenter des champs descriptifs, éviteront les doublons et g faciliteront les mises à jour. | Il est souhaitable de prévoir des réunions périodiques entre

s indexeurs. o

Dans le cadre de notre projet, l'indexation des premières j, notices a appliqué les règles suivies par l'IRHT, nous avons donc | été obligés de conserver ce cadre afin de préserver la cohérence

t. des notices entre elles quel que fût l'organisme producteur. A été | ainsi adopté le thésaurus iconographique de François Gamier,

^ outil de référence pour l'indexation des images. Quant aux autres

Conduire un projet de numérisation

champs nous avons conservé les lexiques élaborés par l'IRHT, (pour l'index auteurs, par exemple, les noms latins des auteurs les plus connus sont mis en synonymie avec leur nom francisé).

Lors de l'indexation, le lien entre le thésaurus ou chaque liste de référence (lexique ou index) avec le champ auquel il se rapporte permet de les consulter ; de même à l'interrogation l'uti­lisateur a la possibilité de s'y référer pour guider sa requête.

1.3.3. Les difficultés

1.3.3.1. Reprise de l'existant

Tout le travail de structuration et de description effectué au préalable par l'IRHT, a pu représenter un atout considérable mais a parfois montré ses limites puisque que nous avons dû nous adapter à un matériau préexistant et de ce fait limiter, dans cer­tains cas, nos choix.

En effet la difficulté a résidé dans la récupération d'une structure (comprenant de nombreux champs, des index et un thé­saurus) élaborée à l'origine pour des chercheurs spécialistes du domaine et destinée désormais à un public plus large, générale­ment béotien.

1.3.3.2. Harmonisation du vocabulaire

Un autre inconvénient concerne sur le long terme, la méthode et la maîtrise de l'indexation. Cet aspect est ici d'autant plus important qu'il s'agit d'images dont l'interprétation peut être particulièrement soumise à la subjectivité de l'indexeur.

1.3.3.3. Sur les choix informatiques

Cf. infra « Élaboration et consultation d'une base structurée » (par José Sanchez) dans cet ouvrage.

Constituer une base de données numérique

2. CONSULTATION

2.1. Interface utilisateur

Nous nous sommes efforcés d'apporter la plus grande trans­parence d'utilisation possible à notre outil en portant une atten­tion particulière aux interfaces de consultation. La présentation de nos bases devait apporter des précisions sur le contenu et les modes d'utilisation.

2.1.1. La présentation de la base

Un court descriptif s'imposait afin d'avertir l'utilisateur sur le contenu mis à sa disposition. En effet, au moment de leur lan­cement ces bases ne proposeront pas l'intégralité du corpus des bibliothèques françaises. Dès lors, il est indispensable de signaler non seulement quelles sont les bibliothèques concernées, mais aussi d'annoncer les modalités des mises à jour. Pour les docu­ments numérisés il paraît important de mentionner, par exemple, que toutes les enluminures reproduites ne reprennent pas toutes les lettres ornées pour lesquelles une sélection a été faite afin de ne constituer qu'un ensemble représentatif - c'est le cas notam­ment des initiales filigranées.

2.1.2. Le formulaire de recherche

Le travail le plus complexe concerne l'élaboration du for­mulaire de recherche. La richesse des notices permet d'effectuer de très nombreuses combinaisons ; la tentation était donc grande d'exploiter toutes les potentialités, au risque de complexifier les modalités de recherche.

188 Conduire un projet de numérisation

Répondant à des objectifs distincts, la DLL et la Sous-direc-tion des bibliothèques n'ont pas opéré la même sélection des cri­tères de recherche. Cependant, l'élaboration du formulaire reposait sur les mêmes principes :

- se mettre à la place de l'utilisateur ; - connaître ou évaluer ses priorités lorsqu'il aborde une

recherche ; - apporter des solutions : que proposer et comment ? - éviter la confusion avec d'autres fonds ? Les questions ont donc porté - entre autres - sur la façon de : - déterminer les informations minimales qui permettent de

trouver ou retrouver un document ; - affiner la recherche, en croisant ces informations avec

d'autres critères de date, de lieu, du nom de l'artiste, pour obte­nir la ou les réponses attendues (dans le cas de la recherche experte) ;

- définir de quelle façon ces informations seraient présen­tées selon l'objectif visé : informations recherchées sur l'enlumi­nure seule ? sur le manuscrit ? en distinguant d'emblée les champs correspondants ;

- faciliter la recherche grâce aux index de façon simplifiée | (menus déroulants lorsque cela est possible) ; ^

-permettre la saisie des caractères en majuscules ou en | minuscules, avec ou sans accents ou l'usage de la troncature ; |

- éviter les va et vient vers le bas ou le haut de l'écran pour g lancer la recherche. $

L'affichage des résultats a également fait l'objet de débats. 8 Parmi les préoccupations citons celles qui ont porté notamment sur : "i1

_Q

- l'affichage du nombre de réponses ; | - la visualisation des notices et des images ; ^ - la possibilité d'afficher les termes utilisés lors de la |

requête ; f

Constituer une base de données numérique 189

- la possibilité de naviguer dans les deux sens d'une enlu­minure à la notice associée, ou de passer d'une enluminure à la suivante ou à la précédente ... ;

- le retour aux étapes antérieures de recherche grâce à un historique ;

- le repérage des réponses (en les numérotant), et de celles déjà visualisées (grâce à un surlignage) pour éviter toute confu­sion.

2.1.2.1. Le formulaire des bibliothèques publiques

Notre premier impératif était d'offrir à l'utilisateur un for­mulaire sobre et simple qui tiendrait sur une seule page d'écran, de manière à éviter de faire défiler la page pour saisir les critères. Ce choix initial nous a fait opter pour un nombre réduit de champs fixes auxquels nous avons associé des champs modula­bles grâce à un menu déroulant. Nous avons retenu parmi les champs fixes ceux qui nous paraissaient les plus consultables. Nous avons préféré limiter les possibilités de croisement de cri­tères pour privilégier le confort de lecture de l'écran. Pour se gui-

s der l'usager peut consulter le lexique associé à chaque champ ou | encore faire appel à l'aide. 1 À l'affichage des résultats les mêmes règles de clarté devai-! ent primer afin de favoriser une navigation quasi instinctive gui-| dée essentiellement par des icônes. Chaque résultat est identifié

B par une référence rapide (localisation, cote, titre, folio, datation) | et deux icônes offrent à l'usager soit de consulter la notice soit de | faire apparaître l'image seule en tiers d'écran.

J Afin de ne pas handicaper des publics peu familiers des j, BDD, il était préférable d'éviter les superpositions d'écran, de I bien signaler les possibilités de navigation et d'offrir un accès au r formulaire ou aux notices et aux images sans perdre le fil de la 1 recherche. Dans cette optique, nous avons systématiquement ^ placé en haut de l'écran des icônes signalétiques et nous avons

190 Conduire un projet de numérisation

multiplié les liens hypertextes. Faciliter la navigation du public néophyte impliquait de lui procurer sur un seul écran le maxi­mum d'informations en minimisant le nombre de « clics ». Le confort de consultation passait également par la rapidité de l'affi­chage. Bien des sites dissuadent l'internaute par des temps de chargement longs et fastidieux. La consultation d'une banque d'images comme celle-ci doit impérativement répondre à un besoin de rapidité. Cet impératif nous a fait limiter le poids des images à 150 voire 100 Ko, ce qui reste encore très acceptable en terme de qualité d'image.

2.1.2.2. Le formulaire des bibliothèques de l'enseignement supérieur

Il est essentiel de considérer pour acquise la vocation pre­mière de cette base destinée à la recherche et qui constitue un outil incomparable et unique. Élargir son accès au plus grand nombre ne devait pas pénaliser les spécialistes.

Quelles étaient les options possibles ? Soit proposer deux formulaires de recherche distincts, l'un

pour une recherche simple, l'autre pour une recherche de type « expert », soit proposer un formulaire unique pour les deux niveaux de recherche. Le choix s'est porté sur le formulaire uni­que, ce qui a rendu difficile son élaboration.

Nous avons pris le parti de privilégier le contenu et de pré­senter le plus d'informations possibles. Ce choix a vraisembla­blement été pénalisant pour les aspects ergonomiques et peut-être chargé l'écran, mais il nous a paru indispensable de présenter un formulaire - dans la mesure du possible - explicite et donner tou­tes indications utiles à un public non averti.

De fait, cet aspect, perçu d'emblée comme un inconvénient s'est avéré un véritable atout. Grâce à une indexation riche et une description détaillée, que nous ne pouvions négliger, tous les ter­mes retenus dans la plupart des champs établissent des liens hypertextes et renvoient à toutes les autres notices comportant les

Constituer une base de données numérique

mêmes termes, ce qui autorise des recherches très complètes. L'affichage et la consultation des résultats répondent aux impé­ratifs cités plus haut (nombre de réponses, navigation d'une image à l'autre ou d'une notice à l'autre, affichage de la notice et/ ou de l'image en regard...)

Dans la mesure où cette base se compose de deux parties - d'une part l'ensemble des enluminures, c'est-à-dire essen­tiellement des images, d'autre part seules les enluminures indexées accompagnées de leurs notices -, elle offre l'oppor­tunité exceptionnelle à l'heure actuelle de feuilleter des enlu­minures remarquables sans critère particulier de recherche. Ainsi, pour trouver un document dans la partie ou sous-base « images seules » le cheminement est guidé, un simple clic à partir de la ville et du nom de la bibliothèque puis d'un numéro quelconque de manuscrit permet l'affichage des résultats sous forme de menu déroulant : la visualisation des images peut alors s'effectuer.

Conduire un projet de numérisation

Recherche d'images seules

Vous devrez successivement sélectionner :

• une ville / bibliothèque • une cote • un folio / vue

IParis, Bibl. Mazarine • —

Valider Puis :

Résultats:

I Vous avez sélectionné : Paris, Bibl. Mazarine

Cette bibliothèque a mis en ligne 936 manuscrits

I ms. 0469 Veuillez en choisir un : I

Valider Puis :

Résultats:

I Vous avez sélectionné : Paris, Bibl. Mazarine ms. 0469

Il y a 98 images de ce manuscrits. Cliquez sur un des liens pour afficher l'image correspondante :

f. 003v f. 003v-004 f. 005 - vue 1 f. 005 - vue 2 f. 005 - vue 3 f. 005 - vue 4

3

Constituer une base de données numérique 193

Affichage de l'image après sélection

44114/98

Paris, Bibl. Mazarine, ms. 0469, f. 005 - vue 2 t»

mmmmwï&ifr '* **!&£* • *• • »

m * ' « ^ < $ . • * V" J -r- . .b- * V • • ^ ' C' O A 9 #

•5 ©CINES Avertissement Retour page d'accueil Album photos Commentaires et suggestions "Q. ro j, Chercheurs et grand public seront certainement heureux de I pouvoir étudier ou simplement admirer à loisir des reproduc-t: tions. Nous avons donc anticipé leurs desiderata en leur offrant la 1 possibilité de sélectionner des enluminures et de les commander | par le biais de « l'album ».

94 Conduire un projet de numérisation

3. DIFFUSER UNE BASE DE DONNÉES

3.1. La convention

Dans le cas d'un partenariat, il est nécessaire avant de lancer la base, voire même de la produire, de préparer une convention. Dans nos projets respectifs une convention a été élaborée entre les ministères et l'IRHT, dans le cas de la sous-direction des bibliothèques et de la documentation, la convention associe les bibliothèques qui assurent une grande partie de l'indexation.

La convention permet de formaliser l'objet du partenariat, d'identifier les rôles et obligations des partenaires, de déterminer les droits de propriété et d'utilisation.

La convention doit comporter certaines clauses : - un historique succinct sur l'accord ; -la description, en quelques lignes, de l'objet de la

convention ; -les obligations de chacune des parties en précisant

l'apport de chacun des partenaires ; -les autorisations relatives à l'utilisation des données et

concédées réciproquement ; -une clause relative à la propriété intellectuelle et aux

droits d'exploitation précisant les droits respectifs ; - une clause particulière relative à la diffusion qui précisera

les conditions de mise en ligne, la qualité des images, les condi­tions de commande de reproduction et éventuellement la rétribu­tion correspondante ;

- éventuellement, une clause sur les conditions des mises à jour.

Dans notre cas précis, la convention indique l'existence de notices et d'images, elle mentionne les organismes producteurs (qui a créé la grille d'indexation, qui a indexé, qui a numérisé, ...).

Constituer une base de données numérique 195

La convention établit ainsi la contribution de chacun au pro­jet. Cela peut s'avérer très utile pour organiser le travail entre partenaires et maintenir le programme de réalisation.

Pour bien comprendre l'objectif du programme mis en œuvre, il est utile d'aborder certains aspects techniques en se référant au cahier des charges. Il s'agit de mettre en évidence, non seulement le rôle de chacun, mais également les étapes scientifiques ou techniques assumées telles que l'alimentation de la base, sa diffusion ou sa maintenance.

Les aspects juridiques sont également évoqués. Ainsi sont mentionnés les droits de chacun des partenaires sur la base (struc­ture et données en général), sur les données qu'ils auront appor­tées, les droits sur l'utilisation, la copie des données, et sur la nouvelle base créée. Cette clause mentionne les droits d'exploi­tation et de reproduction, sans négliger une éventuelle exploita­tion commerciale.

3.2. Conditions juridiques de diffusion

= La question des droits ne touche pas uniquement les parte-§ naires responsables du programme, elle concerne directement ® l'exploitation que les internautes feront de la base et de ses don-! nées. Il est utile de rappeler que les bases de données sont proté-| gées au titre de la loi n° 98-536 du 1" juillet 1998. Si la structure | même de la base et son contenu demeurent protégés par la loi, ! peut-on pour autant éviter des usages abusifs des images ?

% Les différentes techniques proposées actuellement, comme f- le marquage avec un filigrane, ne donnent pas totalement satis-^ faction et restent coûteuses. Une bonne manière de protéger les I images contre une exploitation commerciale consiste à n'en pro-t: poser qu'une version dégradée de faible résolution en format 1 JPEG. Par ailleurs, il est conseillé d'avertir l'internaute sur la ^ propriété des données par un message dissuasif qui précisera les

Conduire un projet de numérisation

usages autorisés. Outre ce message, on indiquera éventuellement en bas de chaque notice et /ou de chaque image le nom de l'orga­nisme producteur et on insérera dans un coin de chaque image une mention de propriété, tout en sachant que ce n'est qu'une indication, ce marquage étant facilement effaçable.

3.3. L'aide en ligne

Dernière touche avant la mise en ligne, l'élaboration du menu d'aide qui servira de « boîte à outils » à l'utilisateur en panne devant son écran. En dépit des apparences, sa rédaction est difficile, elle exige de prendre du recul vis à vis de la base, de s'interroger sur la façon dont elle sera reçue : comment orienter l'utilisateur ou le réorienter ? Quels sont les aspects qui peuvent paraître inintelligibles ? Comment remédier à une erreur d'interrogation ? Comment préciser un résultat de recherche ? La compréhension du texte peut-elle être compromise par un excès d'explications ? (à vouloir trop bien faire...)...

La mise en forme de l'aide dépend de la configuration géné­rale de l'interface de recherche :

- il est préférable qu'à tout moment de la consultation, l'uti­lisateur puisse y recourir en cliquant sur un bouton que l'on pla­cera en évidence en haut de l'écran ;

- à l'affichage l'aide peut apparaître sur le même écran ou sur un nouvel écran, de dimensions inférieures à l'écran princi­pal, de manière à pouvoir suivre les indications en lisant le formulaire ;

- si le texte de l'aide est très long, il est préférable d'en pro­poser un menu en haut de page pour que l'internaute puisse accé­der directement aux renseignements attendus sans faire défiler des pages.

Constituer une base de données numérique 197

3.4. À la rencontre du public

La base « Enluminures » est interrogeable sur le site du ministère de la Culture et de la Communication, elle est intégrée dans sa partie « bases de données documentaires ». Ce préalable explique que nous nous sommes pliés à une présentation homogène avec celle des autres bases du ministère, implantées, elles aussi, sur Mistral.

La base « LiberFloridus » est hébergée par le Centre infor­matique national de l'enseignement supérieur (CINES). Cette base sera consultable sur le serveur du CINES mais également grâce au lien avec le SUDOC (le catalogue collectif des biblio­thèques de l'enseignement supérieur) à partir d'une notice (zone 856) qui renverra à l'enluminure correspondante.

On peut juger de l'impact des bases grâce aux personnes qui ont accepté de participer aux tests, les deux bases ont en effet été testées et les utilisateurs nous ont fait part de leurs commentaires.

Il est intéressant de noter qu'à chaque catégorie de public correspondent des motivations, des commentaires, des apprécia­tions - positives ou négatives - spécifiques.

I Trois types d'utilisateurs ont participé aux tests : des cher-| cheurs, des professionnels des bibliothèques, le grand public. 1 Certains sont plus attentifs au fond qu'à la forme. | Si les chercheurs exigent encore plus de finesse dans | 1 ' indexation, le contenu et les potentialités de la base semblent les

g satisfaire pleinement. f Les bibliothécaires se trouvent à mi-chemin entre l'expert et | le grand public. Ils sont très attentifs aux modes de navigation, f Habitués à effectuer des recherches précises, ils remarquent très ^ rapidement une ergonomie déficiente ou des doublons éventuels. 1 C'est peut-être le public le plus exigeant. t Le grand public peu familiarisé à la consultation de docu-1 ments iconographiques de qualité et mis si facilement à leur dis-^ position, est séduit, émerveillé, enthousiaste.

198 Conduire un projet de numérisation

D'ores et déjà, certaines appréciations d'experts sont encou­rageantes et très prometteuses. Tout est perfectible, et seul l'usage nous démontrera la nécessité de supprimer ou de déve­lopper certaines fonctionnalités.

3.5. Mise en ligne finale

Les bases sont prêtes après les tests et la prise en compte des commentaires, elles n'attendent plus qu'à paraître sur l'Internet. Comment rencontreront-elles leur public dans la jungle du Net ?

Il est important de les faire connaître, faire valoir leur aspect novateur et leur intérêt pour tous. Une communication efficace devra en faire la promotion, afin d'éviter que leur existence même ne passe inaperçue.

Lors de l'ouverture des sites, différentes annonces pourront être faites sur des listes de discussions professionnelles. On veillera à contacter par messagerie des universités étrangères sus­ceptibles d'être intéressées par ces ressources en ligne. Dans notre cas précis le groupe américain du Digital Scriptorium constitue un utilisateur potentiel aux États-Unis. Les organes de presse peuvent relayer cet événement : revue de la bibliothèque ou de l'université, presse professionnelle sans exclure les pages consacrées au multi­média de la presse régionale ou nationale.

Élaboration et consultation d'une base structurée

José Sanchez

Le ministère de l'Éducation nationale (sous-direction des bibliothèques et de la documentation) a confié au CINES (Centre informatique national de l'enseignement supérieur) l'étude et la réalisation d'un serveur web permettant la consultation sur l'Inter­net de la base d'enluminures « LiberFloridus ».

Ce projet recouvre divers aspects techniques, en particulier : - les critères de choix d'un logiciel ; - l'utilisation d'une base de données et d'un thésaurus ; - le matériel informatique utilisé ; - le développement d'un site de type recherche documentaire.

1. CHOIX D'UN LOGICIEL Le développement d'un serveur web interfacé avec une base

de données tel que le serveur des manuscrits nécessite la mise en œuvre d'un certain nombre de composants logiciels, parmi lesquels :

- un serveur HTTP ; - un serveur de base de données ; - un langage de développement intégrant SQL. L'offre actuelle dans ce domaine peut se répartir en

4 catégories : - l'offre JAVA : basée sur un langage riche et portable, de

JDBC (java data base connectivity) et d'EJB (enterprise Java beans). Un serveur d'applications peut être envisagé dans le cas d'applications importantes ;

- l'offre Apache/MySQL/PHP : le trio des logiciels libres très répandus sur Internet. Cette solution est intéressante car facile à mettre en œuvre. Elle est bien adaptée aux petites applications ou à la réalisation de maquettes ;

- l'offre Microsoft : basée sur un serveur IIS (Internet infor­mation server) et d'ASP (active server page).

- les offres des éditeurs de bases de données ou de systè­mes documentaires tels qu'Oracle, Sybase, Ever...

Le choix peut donc paraître vaste parmi toutes ces solutions, d'autant plus qu'il en existe d'autres. Néanmoins, dans la réalité, la mise en place d'un tel projet est souvent guidée par d'autres critères : prise en compte de l'existant, contraintes techniques, compétences des développeurs, etc.

Pour le serveur des manuscrits, nous avons choisi une solu­tion construite autour :

- du logiciel Apache ;

Conduire un projet de numérisation

- du serveur de base de données Sybase ; - du langage C et d'Embedded/SQU Les avantages : cette solution est robuste, portable et indé­

pendante de tout logiciel. En effet, nous utilisons Apache, mais tout moteur HTTP acceptant le protocole CGI (common gateway interface) pourrait convenir. Pour la base de données, nous utili­sons Sybase, mais tout SGBDR disposant d'Embedded/SQL pour­rait convenir (par exemple Oracle ou Informix).

Les inconvénients : cette solution nécessite de tout spécifier au niveau du développement. Cependant, cela peut représenter également un avantage dans la mesure où le programmeur peut tout contrôler dans son application.

2. BASE DE DONNÉES ET THÉSAURUS

La structure de la base modélise essentiellement 3 types d'objets : les notices, les images et le thésaurus.

2.1. Les notices Les notices sont organisées dans 3 tables : -latable CODEX ; -la table OUVRAGE; - la table DÉCOR. Ces tables sont liées entre-elles par une référence, cela per­

met ainsi d'effectuer des recherches à partir de critères associés aux ouvrages ou aux décors.

2.2. Les images Les images sont répertoriées par un code dans la table IMAGE.

Ce même code est présent dans la table DÉCOR de manière à retrouver toutes les images correspondant à un décor donné.

Les images - c'est-à-dire les fichiers JPEG - ne sont pas stockées dans la base de données mais sous forme de fichiers « à plat » : le nom du fichier correspond au code figurant dans la table IMAGE. Le fait de ne pas stocker les images dans la base

1. Embedded/SQL est un précompilateur qui permet d'écrire des ordres SQL directe­ment dans un programme C.

Constituer une base de données numérique 201

de données n'est pas dû à une limitation du SGBDR utilisé (ici Sybase) mais à un choix de simplification de la programmation.

2.3. Le thésaurus Les mots-clés utilisés pour l'indexation des enluminures sont

répertoriés dans le référentiel organisé de manière hiérarchique (thésaurus).

Or, pour notre développement nous ne disposions pas d'un « vrai » logiciel documentaire qui nous aurait permis de modéliser et d'utiliser directement un thésaurus, nous avons donc défini une table THÉSAURUS qui permet de créer une structure hiérarchique à plusieurs niveaux.

Grâce à cette table, nous avons pu : - d'une part, présenter à l'utilisateur la structure hiérarchique

du vocabulaire en situant un terme par rapport à ses ascendants et à ses descendants ;

- d'autre part, utiliser le thésaurus dans les recherches afin d'obtenir un maximum de résultats.

LES BASES (ou tables ou fichiers) et LEURS LIENS

'CODEX

[3 H [3

H

Référence

OUVRAGE

- Référence codex

- Référence

DÉCOR

- Référence V /

Ne sont indiquées ici que les rubriques de lien qui permettent la navigation d'une base à l'autre et la recherche relationnelle. Référence codex d'OUVRAGE est identique à Référence de CODEX. Référence de DECOR est identique à Référence d'OUVRAGE.

202 Conduire un projet de numérisation

3. LE MATÉRIEL INFORMATIQUE

Le CINES est un « centre national » et dispose à ce titre de res­sources informatiques importantes aussi bien dans le domaine scien­tifique que dans celui des bases de données (le CINES héberge notamment le catalogue du SuDoc).

Le développement et la mise en service du serveur des manuscrits n'a donc pas nécessité l'acquisition de matériels supplémentaires ; ce serveur est venu prendre place au sein des serveurs web déjà présents au centre1, au total près de 20 services Internet sont aujourd'hui hébergés au CINES.

L'architecture informatique mise en place pour les services web comprend :

- une machine Sun 4500 : directement reliée à la plaque régionale RENATER, cette machine frontale web répond aux requêtes des internautes ;

- une machine IBM H50 : c'est la machine base de données (qui exécute les requêtes sur les bases de données). Elle communiqué avec la machine frontale web à travers un protocole client/serveur.

Cette architecture à 2 niveaux présente d'une part l'avantage d'équilibrer la charge entre les requêtes Web et les requêtes BD et d'autre part de sécuriser l'accès aux bases de données : les utili­sateurs ne se connectent jamais directement au serveur de base de données mais ils communiquent avec ce dernier à travers des programmes s'exécutant sur la frontale web.

1. Serveur DeBuCi (base de données des relations internationales universitaires), le serveur CLORA (diffusion de documents sur la recherche européenne), le serveur du Pôle universitaire de Montpellier...

IBM H50 Machine | SUN 4500

Internet )•* • Frontale : r web

utilisateur

données

Constituer une base de données numérique 203

4. DÉVELOPPEMENT D'UN SITE WEB DE TYPE RECHERCHE DOCUMENTAIRE

4.1. Le problème de la persistance Durant la réalisation du serveur des manuscrits, nous avons

été confrontés à différents problèmes techniques et notamment à celui de la persistance d'informations.

En effet, le protocole HTTP (hypertext transfert protocol) qui est le langage utilisé entre le client (navigateur) et le serveur (démon httpd) est un protocole sans état (stateless) : lorsque le client a fini de récupérer le document qu'il a demandé (page HTML), le serveur coupe la connexion, perdant ainsi toute trace du client. Or, cela peut s'avérer très pénalisant lorsqu'il est nécessaire de conserver des informations (environnement utilisateur) entre différentes pages.

Par exemple, une requête vers la base de données sera construite après sélection dans différents formulaires : en d'autres termes, on souhaite simuler une session utilisateur avec un proto­cole qui ne le permet pas.

Pour cela, plusieurs techniques (ce ne sont en fait que des palliatifs) existent, on peut les classer en 2 catégories :

- celles qui mémorisent l'environnement utilisateur du côté du client ;

- celles qui mémorisent l'environnement utilisateur du côté du serveur.

- Du côté du client, on pourra utiliser : les champs cachés des formulaires (balise INPUT de type HIDDEN), les cookies1, le champ paramètre dans les URL.

- Du côté du serveur, on pourra utiliser la mémoire du démon httpd, un fichier, la base de données.

Le développeur aura le choix parmi ces différentes techni­ques et pourra les utiliser conjointement.

C'est le cas pour le serveur des manuscrits : nous avons uti­lisé les cookies (pour gérer l'album photo et la commande de

1. Les cookies sont des informations qui sont envoyées au client par le serveur et qui sont stockées dans la mémoire du navigateur ou éventuellement dans un fichier sur votre disque dur suivant la date d'expiration du cookie. Le cookie ne pourra être relu que par le serveur qui l'a envoyé.

204 Conduire un projet de numérisation

reproductions), les paramètres dans les URL et la base de don­nées (pour conserver l'historique des requêtes).

4.2. La navigation et la présentation des résultats Un élément très important dans la conception d'un site web

concerne la navigation à l'intérieur du site et la présentation des résultats.

Actuellement pour accéder aux différentes rubriques, la navi­gation s'effectue grâce à une barre de navigation figurant au bas de chaque page : recherche par critères, feuilletage des manus­crits, album photo, etc...

Pour la recherche par critères, les résultats s'affichent sous forme de « liste des réponses ». Dans cette liste figurent les élé­ments de base des notices :

- référence du manuscrit, titre et datation - pour les ouvrages ;

- référence du manuscrit, folio, sujet, titre et datation - pour les décors.

Grâce à deux petites icônes figurant dans la liste des résul­tats, l'utilisateur peut également visualiser la notice correspon­dante et/ou la première image du manuscrit. La notice et l'image s'affichent dans des fenêtres pop-up indépendantes. À l'intérieur de ces fenêtres, des boutons de navigation permettent aussi de passer à la notice ou à l'image suivante (ou précédente).

Ce type de navigation peut paraître quelque peu déroutant au premier abord mais s'avère assez pratique à l'usage.

La solution Internet - L'exemple de Lyon1

par Pierre Guinard

Quelle est la mission d'une bibliothèque patrimoniale comme celle de Lyon ? Conserver et communiquer les documents qui lui sont confiés.

Quelle est l'incidence de la numérisation sur ces missions ? Elle favorise la conservation en permettant en principe de substituer au document original le document numérisé. Elle facilite la communication : le document numérisé est facilement copiable sur une disquette, un cédérom ou un disque dur. Il est intégrable à une base de données et ainsi aisément recherchable. Bien plus, il peut être largement diffusé sur Internet. Bien sûr, la loi et la protection du droit d'auteur apportent des freins à une diffusion sans limite, mais beaucoup des documents des bibliothèques ne sont pas touchés par ces problèmes de droit. Alors pourquoi ne pas diffuser systéma­tiquement par ce moyen ? Quels sont les obstacles qui se dressent ? Techniques, financiers, juridiques, psychologiques ? La bibliothèque de Lyon n'a pas éludé ces questions, mais a très vite fait le choix de donner la priorité à sa mission de communication.

Après avoir rappelé sur quelles bases le choix de l'ouverture des collections par Internet s'est fait, l'exposé du tableau des documents proposés aujourd'hui sur Internet permettra d'évoquer diverses facettes de la politique menée par la bibliothèque dans ce domaine.

La bibliothèque était déjà largement engagée dans la numéri­sation de ses collections lorsqu'lnternet est apparu en 1995 comme une solution nouvelle. La bibliothèque s'est alors rapidement dotée d'un site web qui a d'abord présenté ses collections et son fonction­nement. L'idée d'aller plus loin et de permettre au public d'accéder au catalogue et, ce qui nous intéresse ici, au contenu des docu­ments, a été alors adoptée. Ce qui a présidé à cette politique volon­tariste est bien le souci de proposer au public une offre documentaire plus large, dans tous les domaines, en accédant d'une part aux ressources extérieures via les cédéroms et Internet, d'autre part en favorisant la connaissance des collections mêmes de la bibliothèque. La numérisation n'a pas été vue comme un moyen de conservation, mais bien comme un excellent vecteur de diffusion. L'éventuel obstacle psychologique (comment va-t-on contrôler sur Internet l'utilisation de « nos » documents, certaines personnes ne risquent-elles pas de les détourner ou d'en tirer profit abusivement)

1. http://www.bm-lyon.fr/.

206 Conduire un projet de numérisation

a été dépassé rapidement. La priorité a été donnée à l'ouverture et à la confiance faite au public. Il ne s'agit pas de brader un patri­moine, mais de le faire vivre. La bibliothèque, qui s'intéresse légitimement au devenir de son patrimoine, doit simplement prendre le soin d'expliquer clairement au public la démarche à suivre en cas d'utilisation privée ou publique de ses documents.

Nous nous sommes au départ heurtés à un double écueil, technique et juridique. Les deux corpus en cours de numérisation, d'une part des articles de presse contemporains, d'autre part des enluminures médiévales, étaient traités avec un logiciel de gestion électronique de document (GED) qui à l'époque n'était pas compa­tible avec Internet et ne permettait qu'une consultation en local. Pour les articles de presse, s'ajoutait l'obstacle juridique car les droits de reproduction n'étaient pas négociés pour une consulta­tion sur Internet. Les moyens somme toute limités d'abord mis en œuvre, un personnel qui a découvert en chemin des techniques nouvelles n'ont pas permis d'aller aussi vite que souhaité. Le sys­tème de GED choisi primitivement a été ensuite abandonné, du moins pour une partie des opérations. Les tâtonnements, les hési­tations, les retours en arrière ne nous ont été pas épargnés. Tout cela n'a pas été inutile et a permis d'engranger de l'expérience et de déboucher en 1999 sur un système informatique dans lequel l'offre Internet s'est trouvée naturellement incluse, tant pour le catalogue que pour l'accès aux collections.

Aujourd'hui, la solution Internet se décline de façon variée, en gardant toujours le principe de gratuité et du respect de la législation sur le droit d'auteur :

Le site web Il présente les collections dans leur ensemble en mettant

succinctement en avant quelques pièces importantes. Il reprend sous forme numérique des expositions qui ont eu lieu à la biblio­thèque. Pour les documents figurant dans l'exposition et non tom­bés dans le domaine public, deux cas se sont présentés. Dans le premier, l'artiste, non seulement n'a exigé aucune rémunération, mais a même participé à la réalisation de son exposition virtuelle, créant ainsi une œuvre nouvelle. Dans le second, le plus général, les œuvres protégées par le droit d'auteur ne sont pas montrées.

Constituer une base de données numérique

Le catalogue Si les notices sont depuis 1999 consultables, leur enrichisse­

ment reste encore embryonnaire et concerne en premier lieu les documents anciens pour lesquels quelques pages significatives (page de titre, frontispice, illustration,...) sont numérisées. Le lien avec des ouvrages complets n'est pas opérant pour des raisons techniques.

Les bases de données Elles utilisent toutes le même logiciel de GED', avec une pré­

sentation modulable et une bonne capacité de recherche.

Les articles de presse 100 000 articles de presse portant sur la région Rhône-Alpes

sont numérisés et sont consultables en local. En revanche, seules les notices sont accessibles sur Internet car l'autorisation de mon­trer le contenu des articles n'a pas été négocié avec les détenteurs des droits.

Bases d'Images • La base Enluminures propose en libre accès 12 000 images tirées de manuscrits médiévaux, d'incuna­

bles et de quelques ouvrages du XVIe siècle. Le public peut les reproduire à son gré pour un usage privé. Chaque image a un poids qui dépasse rarement 100 ko, ce qui permet une consulta­tion relativement rapide mais rend improbable une utilisation édi­toriale.

• La base Estampes met au jour la riche et méconnue collec­tion de la bibliothèque. La numérisation s'accompagne du catalo­gage des gravures qui a commencé de façon systématique par celle du XVIe siècle, mais met aussi l'accent sur des artistes lyon­nais du XVIII" siècle (Jean-Jacques de Boissieu) ou du XIXe siècle (Balthazard-Jean Baron). Les images sont proposées avec plu­sieurs niveaux de résolution.

1. Dipmaker.

Conduire un projet de numérisation

• Sur le même modèle, la base Affiches s'intéresse aux affi­chistes de la fin du XIXe siècle et de la première moitié du XX8 siè­cle. Là encore, l'image n'apparaît que lorsque l'œuvre est tombée dans le domaine public.

• D'autres bases sont en projet : l'une sur les images régionales, en se cantonnant aux images libres de droits, l'autre sur les possesseurs avec le relevé des armoiries, ex-libris ou sim­ples mentions manuscrites apposées sur les documents.

Si l'offre se diversifie, elle est loin d'être surabondante. Des raisons humaines, techniques, financières, juridiques peuvent être mises en avant pour expliquer l'avancée relativement lente des opérations.

Avant qu'un document soit visible sur Internet, il a été choisi pour son intérêt particulier ou parce qu'il fait partie d'un corpus, il a été numérisé et il a été indexé. Cela nécessite un ensemble de compétences diverses, qui requièrent un personnel diversifié, formé et suffisamment nombreux. Cela a un coût, mais numériser à tout va ne sert à rien si les documents reproduits ne sont pas décrits, organisés et donc repérables. L'utilisation d'autres formats comme XML et le recours éventuel pour le traitement des manus­crits et des fonds d'archives à la DTD (document type définition), EAD (encoded archivai description) nécessite une formation et une adaptation à de nouvelles pratiques de travail.

Techniquement, nous avons la capacité de gérer les images isolées grâce à un logiciel de GED performant. En revanche, le trai­tement des livres entiers est plus difficile. Dans ce domaine, la bibliothèque en est encore au stade de l'expérimentation. L'accès à un collection comportant plusieurs milliers d'ouvrages est complexe et Gallica a produit encore peu d'émules. Dans ce cas, l'aspect financier est évidemment capital car les solutions envisageables sont lourdes.

L'aspect juridique est par essence contraignant et la biblio­thèque se contente de respecter les termes de la loi. Elle a privilé­gié le traitement des documents tombés dans le domaine public par économie et commodité. Lorsque il s'est agi de documents récents, elle a soit reçu l'accord des ayants droit de montrer gra­tuitement, soit, et c'est le cas le plus fréquent, a renoncé provisoi­rement à reproduire lorsque les négociations s'annonçaient longues et onéreuses.

Constituer une base de données numérique

Au final, les objectifs initiaux - élargir grâce à Internet le public de chercheurs et de curieux, lui rendre accessible non pas seulement la vitrine de la bibliothèque, mais aussi son magasin, voire son arrière-boutique - sont en train de se concrétiser pro­gressivement.

Créer et diffuser un CD-ROM de documents numérisés -L'exemple du CD-ROM des manuscrits musicaux de Montpellier

par Mirei l le Vial

La première opération de numérisation du fonds de manus­crits musicaux médiévaux de la bibliothèque universitaire de médecine de Montpellier a donné lieu à la conception et à la réalisation d'un CD-ROM couplé à un site Internet.

L'idée principale était de recourir aux nouvelles technolo­gies pour rendre accessible, valoriser, exploiter ce fonds, mais aussi de contribuer à sa conservation.

212 Conduire un projet de numérisation

1. L'ÉTAT DES LIEUX

1.1. Analyse de la situation

1.1.1. Les points positifs

Le fonds a été bien conservé à travers les âges. Il a été pres­que entièrement reproduit sur microfilm (dans notre atelier), et les manuscrits « vedettes » ont été bien étudiés.

1.1.2. Les points négatifs

Il est en grande partie méconnu, mal signalé, sa mise en valeur actuelle est limitée (édition de cartes postales et de pla­quettes) ; il mérite d'être mis à la portée d'un public plus large que celui des seuls chercheurs.

Le fait que ce fonds se trouve dans une bibliothèque univer­sitaire a, sans doute, été bénéfique sous plusieurs aspects : stabi­lité de la tutelle, personnel obligatoirement professionnel, conscience de son importance nationale. I

Mais il est évident que ce patrimoine, réservoir immense de § sujets de recherche ou de thèses universitaires, dont les manuscrits ® ne représentent qu'une partie, ne peut être considéré aujourd'hui f comme absolument prioritaire parmi les missions de la bibliothè- 1 que universitaire, ni parmi celles de la faculté. Malgré cela, le § fonds patrimonial a bénéficié de toute l'attention des directeurs | successifs : la bibliothèque interuniversitaire (BIU) est dotée d'un s atelier de restauration et d'un atelier photo qui assurent des condi- £ tions de conservation particulièrement favorables. D'autre part, les J, manuscrits sont accessibles et facilement consultables : une salle I

LU

est en effet réservée à cette fin ; elle est dotée d'outils de consulta- t; tion et de reproduction (lecteur-reproducteur de microfilm, scan- g ner) assez performants et en nombre suffisant. J

Créer et diffuser un CD-ROM de documents numérisés

Quant à leur exploitation et leur mise en valeur, beaucoup reste à faire :

- certains manuscrits particulièrement célèbres ont été étu­diés, parfois intégralement et nous recevons régulièrement des chercheurs, non seulement de ITRHT (Institut de recherche et d'histoire des textes - Centre national de la recherche scientifi­que ), mais aussi du monde entier. Cependant, il n'existe aucune étude scientifique globale du fonds ou en tout cas de certains ensembles. Son signalement, dans le tome 1 du Catalogue géné­ral des manuscrits des bibliothèques publiques paru en 1849, reste très partiel ;

- une politique systématique de reproduction facilite la consul­tation et la diffusion dans les milieux scientifiques mais dans la limite des supports traditionnels (microfilm noir et blanc...) ;

- une politique d'édition de cartes postales et de plaquettes a été mise en place. Cependant, le public qu'elle touche reste limité au travers, par exemple, de manifestations locales comme la « Comédie du livre », ou d'expositions au musée Atger1. Faute de moyens, surtout en personnel, il est impossible actuellement d'organiser des expositions, conférences et autres animations qui intéresseraient un large public d'ailleurs toujours très présent dès l'ouverture de la bibliothèque.

1.2. Les facteurs « déclenchants »

Face à cette situation un peu figée, la conjonction de quel­ques facteurs a décidé du lancement de l'opération :

- l'initiative en revient au directeur en poste (1996-1997), qui avait la volonté de mener une opération d'envergure de valorisation du patrimoine, et tout particulièrement de ce fonds, au moyen des

1. Le musée Atger est géré par la bibliothèque de médecine II rassemble une collection de 1 000 des­sins des écoles flamande, italienne et française du XV? et XVIIP siècle.

Conduire un projet de numérisation

nouvelles technologies. Ce projet, considéré comme un modèle de réalisation de la politique interuniversitaire de la bibliothèque, selon l'idée maîtresse qui le sous-tendait, se devait d'être également reconnu comme tel par les autorités universitaires ;

- un environnement favorable avec, à Montpellier, le CINES (Centre informatique national de l'enseignement supé­rieur), partenaire dès le départ, avec son personnel professionnel et son équipement, et le service informatique de la BIU dont l'aide a été précieuse ;

- la nomination d'un nouveau conservateur affecté au fonds ancien mais sensibilisé à l'informatique.

C'est ainsi que le projet est né, non pas suite à une demande précise du public, mais grâce à l'entière initiative du « producteur » dont le souci était « d'aller au devant du public ».

La première étape d'une telle opération, la définition des objectifs, a abouti tout naturellement au choix du support CD-ROM.

2. LES ENJEUX

2.1. Pour quoi faire ? Les objectifs

• Pour compléter l'étude et le signalement des manuscrits, et en développer la connaissance et la diffusion parmi les scien­tifiques, il fallait stimuler la recherche et provoquer ces études en proposant de :

- dépasser le stade d'un simple stockage de données, et réa­liser non seulement une base d'images ou de données mais enri­chir le document par une forte valeur ajoutée. Cet objectif exigeait un travail spécifique et inédit bénéficiant d'un support

Créer et diffuser un CD-ROM de documents numérisés 215

numérique attractif pour l'auteur susceptible de servir de trem­plin aux futurs chercheurs ;

- envisager une diffusion internationale ; - considérer cette première action comme le début d'une

mise en valeur systématique du fonds par les nouvelles techni­ques.

• Pour élargir l'audience de ce patrimoine vers un public autre il fallait :

- concevoir un outil « grand public » et attractif ; - apporter un contenu pédagogique mettant à la portée de

tous, ou presque, des documents généralement inaccessibles et des notions qui ne leur sont pas familières.

Le pari de ce CD-ROM résidait incontestablement dans ce double choix ;

- enfin, contribuer à la conservation en proposant des docu­ments de substitution de grande qualité tout en gardant à l'esprit que le chercheur, un jour ou l'autre aurait accès au manuscrit ori­ginal. Le résultat de cette numérisation fut donc la première pierre d'un édifice d'archivage et d'exploitation du fonds.

s Cette première définition des objectifs a permis de déte-| rminer les choix techniques et et de définir le contenu.

CO CD CD «a> « | 2.2. Quoi ? Les réponses informatiques n c 0 c

1 Les avantages traditionnellement reconnus à l'informatique | paraissaient particulièrement adaptés et plus spécialement cer-

f tains aspects : J, - la grande capacité de stockage du CD-ROM qui, dans | notre cas, pouvait contenir 522 photos, soit 416 folios extraits de

^ 43 manuscrits, 20 mn de son, 4 mn de vidéo, une dizaine de trans-| criptions musicales, 700 pages de textes soit un échantillon de ^ documents significatif ;

216 Conduire un projet de numérisation

- la priorité accordée à la qualité et à la fiabilité de la repro­duction. Les diapositives, reproduisant les manuscrits, ont toutes été numérisées en haute définition (300 dpi, réduits à 72 sur le CD-ROM), le zoom permettant un grossissement de 200 %. Ce choix peut expliquer une présence, en apparence, plus discrète des autres médias (illustration sonore en particulier ) ;

- la facilité d'accès au document soit par un index, soit par une recherche croisée par critères ou par mots-clés prédéfinis, ou encore directement à partir des vignettes signalant chaque manuscrit ;

- la possibilités de navigation : liens hypertextes, affichages simultanés de plusieurs documents... ;

- les outils de travail : déchargement, impression, tris, signets etc...

Nous supposions que ces aspects séduiraient de préférence, mais pas exclusivement, les chercheurs.

Le deuxième volet de notre projet concernait l'élaboration d'un produit culturel à l'intention d'un public plus diversifié. Cette nouvelle approche avait pour objectif de faciliter l'accès à un savoir difficilement accessible. s

-CD

Une fois de plus, les nouvelles technologies permettaient de | réunir un contenu inédit et attractif (images, textes à vocation sg pédagogique, glossaire etc), agrémenté des attraits du multimé- f dia (son, vidéo, interactivité), à un outil de connaissance perfor- | mant par la quantité de ses liens hypertextes : l'acquisition de ces | connaissances s'apparentait à une promenade ludique. L'ergono- | mie des outils de travail se devait d'être adaptée pour une grande | facilité d'utilisation. ^

Pour favoriser une large diffusion, les possibilités de l'auto- ^ matisation nous ont, de nouveau, offert les moyens appropriés : J mise en place d'une version anglaise intégrale, développement ^ d'une base de données accessible sur l'Internet par connexion | automatique à partir du CD-ROM. Malheureusement la version J

Créer et diffuser un CD-ROM de documents numérisés 217

pour ordinateur Macintosh n'a pu être réalisée pour des raisons à la fois financières et de complexité.

2.3. Quoi ? La matière

Nous avons la chance de posséder deux manuscrits, particulièrement précieux, et entièrement consacrés à la musique :

- le Tonaire dit de Saint-Bénigne de Dijon (recueil de pièces destinées à l'enseignement du chantre) du XIe siècle (coté H 159) : il comprend une double notation alphabétique et neuma-tique d'un très grand intérêt musicologique ;

- le Chansonnier dit de Montpellier (recueil de motets) : témoin unique des débuts de la polyphonie avec des enluminures particulièrement belles, de la fin du XIIIe siècle (coté H 196).

Mais notre fonds comprend également de nombreux frag­ments de musique dispersés dans quelque vingt-sept autres manuscrits dont certains tout aussi précieux et illustrés.

Nous disposions également d'un ensemble cohérent, exhaustif dans le domaine musical, précieux, intéressant à plu-

1 sieurs titres et d'une taille gérable. c \ ^ A ce corpus s'est ajouté en cours de réalisation, toute une | série d'enluminures datant principalement des XIII et XIVe siè-| des et représentant des instruments de musique qui complètent | les illustrations de façon attrayante.

c 2 Q. O O 0 t 2.4. Pour qui ?

CB _l 1 n s Compte tenu de ce choix et des objectifs prédéfinis, nous

avons pu cerner les différents publics visés : | - « côté scientifique » : chercheurs, musicologues, histo-^ riens, linguistes, paléographes, musiciens interprètes... ;

218 Conduire un projet de numérisation

- « côté amateur » : la mode du Moyen-Âge est toujours d'actualité, nous avons donc pensé à tous les amateurs de cette période, ainsi qu'à ceux de musique et d'art, aux élèves et aux étudiants de conservatoire ou d'histoire de l'art...

3. LA RÉALISATION

3.1. Les atouts

L'accueil très favorable et enthousiaste des différents parte­naires aussi bien institutionnels que privés, mais aussi à la volonté du directeur en poste et de ses successeurs ont rendu pos­sible la réalisation de notre entreprise.. L'opération a bénéficié des conditions favorables propres à l'environnement universi­taire de Montpellier et du potentiel professionnel et administratif de la bibliothèque interuniversitaire.

3.2. Comment

3.2.1. L'équipe

Première étape d'importance : la constitution d'une équipe à la fois scientifique et technique.

- Après les inévitables tâtonnements de départ, le CINES, qui héberge gratuitement notre site, s'est chargé de la constitu­tion de la base de données accessible sur l'Internet. Cette base sert également de modèle conceptuel au CD-ROM.

- le SUFCO (service de la formation continue de l'univer­sité Montpellier III) comprend un cursus de formation de concep­teur multimédia. Son directeur fut notre conseiller et a permis le

Créer et diffuser un CD-ROM de documents numérisés 219

recrutement du concepteur multimédia, personnage absolument indispensable.

- l'atelier photographique de la BIU a assuré toutes les pri­ses de vues.

- ITRHT a numérisé toutes les photos dans le cadre d'une convention.

- une équipe d'experts a été recrutée dans la mesure du pos­sible à l'Université de Montpellier autour du directeur du dépar­tement de musicologie, mais elle comprenait aussi un professeur de musicologie médiévale de l'École des hautes études, un musi­cologue-paléographe de ITRHT, et un professeur de l'université du Kentucky spécialiste du Chansonnier.

- c'est une société de la région, Kawenga, qui a été choisie pour réaliser le logiciel, le graphisme et tout le développement informatique.

3.2.2. Le budget

Le budget prévisionnel établi dès la première étude s'élevait à 580 000 F (88 400 €) pour la réalisation proprement dite. De

I nombreux autres postes de dépense tels que les déplacements et § le matériel de diffusion, étaient exclus de ce budget. Des supplé-| ments imprévus (par exemple la perte d'un cd d'images qu'il a

§ fallu refaire et financer de nouveau) ont un peu perturbé les pré-| visions.

I La seule recette assurée fut l'attribution pendant deux ans | de la subvention affectée au patrimoine (reçue par la BIU et nor-| malement partagée entre les différentes bibliothèques universi-

Ij- taires). j. Plusieurs choix de départ ont été abandonnés, c 'est ainsi que I la direction n'a pas sollicité les collectivités territoriales. La ^ faculté de médecine n'a pu, pour sa part, nous aider financière-| ment même si elle a participé différemment au projet. Nous ^ n'étions pas en mesure de préparer un dossier dans le cadre de la

Conduire un projet de numérisation

Communauté européenne, pourtant, la chasse aux subventions a été relativement fructueuse auprès d'institutions locales : la direction régionale des affaires culturelles Languedoc-Rous-sillon et le pôle universitaire européen de Montpellier ont chacun apporté une contribution.

La gratuité pour notre établissement des prestations du CINES, de l'IRHT et de l'ingénieur du son, supportées par le ministère, a eu évidemment une incidence très bénéfique sur notre budget. D'autre part, tous les partenaires et tous les auteurs ont accepté des rémunérations quelquefois très modestes, bien souvent inférieures à la valeur véritable de leur contribution.

La recherche de sponsors privés n'a pas abouti ; ce domaine est semble-t-il réservé aux professionnels et nous avons pros­pecté par nous-mêmes. Seul l'ensemble Gilles Binchois qui a enregistré la partie sonore, régulièrement sponsorisé par la Fon­dation France Télécom, nous a fait bénéficier à ce titre d'une aide modique.

De fait, malgré quelques difficultés, on peut considérer que la bibliothèque a financé en grande partie le projet et qu'en cela elle a rempli sa mission, même si l'on pouvait espérer susciter un plus grand intérêt d'autres investisseurs.

3.2.3. Les étapes techniques

3.2.3.1. Les études préalables

La configuration très générale du produit établie par nos soins a d'abord donné lieu à un synopsis : le contenu ( c'est-à-dire documents, notices bibliographiques et scientifiques, son...) et les fonctionnalités (c'est-à-dire les accès, la naviga­tion, les outils, les options techniques). À partir de ce document, rédigé avec le concepteur, une liste des ressources nécessaires et de la taille approximative des fichiers a pu être dressée. Les manuscrits, en particulier les manuscrits musicaux, sont des

Créer et diffuser un CD-ROM de documents numérisés 221

documents complexes ; musique, image et texte sont inextrica­blement liés et le traitement en interactivité est difficile à élabo­rer. Une connaissance trop imparfaite des manuscrits choisis a généré des difficultés d'exploitation jusqu'à la réalisation finale. Parallèlement il a fallu définir les coûts, s'intéresser aux droits éventuels à acquérir, enfin prêter une attention particulière aux fonctionnalités. Tous ces éléments ont été rassemblés dans un dossier de pré-production assorti d'une étude de faisabilité très détaillée. Cette étude incluait un premier échéancier, un premier budget, et la préfiguration de l'équipe.

3.2.3.2. Cahier des charges

Avec la rédaction du cahier des charges et la réalisation de la maquette sur papier, le CD-ROM a pris forme. Chaque écran fut conçu et présenté intégralement. Nous avons eu la chance de tra­vailler avec un concepteur particulièrement à l'écoute de nos atten­tes. L'entente entre le concepteur multimédia et le chef de projet est certainement primordiale pour mener à bien la réalisation. Les va-et-vient entre les contraintes inhérentes aux choix et aux docu­ments et les contraintes techniques, ergonomiques ou également

1 esthétiques, sont incessants : la compréhension mutuelle de ces | deux aspects est indispensable. Le schéma conceptuel de la base de | données avait été défini par les concepteurs et les ingénieurs infor-! maticiens. Il a donc fallu acquérir une compétence et un vocabu-

™ laire beaucoup plus fins, sous peine de malentendus et | d'incompréhension avec les techniciens. Le choix d'une base uni-| que pour CD-ROM et site Internet a engendré quelques difficultés, 1 dans la mesure où de nombreuses modifications ont dû intervenir Q. 5 en cours de réalisation en raison des spécificités du CD-ROM. .g co co •S 3.2.3.3. Collecte des données ©

| Réunir tous les textes en temps voulu tenait de la gageure. ^ Les universitaires ayant accepté de travailler pour nous avaient

Conduire un projet de numérisation

évidemment de nombreux autres projets en cours. Ils n'avaient, en outre, aucune expérience en matière de CD-ROM et les textes produits représentaient une véritable étude scientifique. Mais la matière exploitable était très - trop - abondante. Le travail d'adaptation formelle des textes a été une étape très longue et totalement insoupçonnée au départ. Le transfert sur un support informatique unifié a été aussi un point non négligeable. Le déve­loppement a d'ailleurs été entrepris bien avant que toutes les don­nées ne soient réunies ce qui a généré, a posteriori, certains problèmes.

3.2.3.4. Développement

Le choix du prestataire : une première consultation avait retenu trois sociétés locales. Les coûts estimés ne dépassaient pas le seuil du marché et cela a simplifié les démarches administrati­ves comptables. La société choisie (Kawenga) a également pro­posé les services du directeur artistique qui a conçu, toujours en collaboration avec le concepteur et l'équipe de la bibliothèque, tout l'habillage esthétique des écrans. Le développement multi­média a abouti à une version dite « alpha » qui a été validée (comme d'ailleurs chaque étape) par toute l'équipe.

3.2.3.5. Validations - Corrections

C'est la phase la plus longue et la plus « gourmande » en temps. Tout d'abord tests et débogages se succèdent dans des allers-retours de fichiers qui mettent à l'épreuve les débits de communication. Nous avons mobilisé une équipe de testeurs volontaires au sein de la BIU. Une gestion très stricte des fichiers est alors indispensable : ne pas mélanger les différentes versions demande une grande rigueur et un poste informatique performant. L'idéal aurait été d'avoir un poste ou, au moins, un disque dur, entièrement dédié à la conception : ce ne fut pas le cas et certaines erreurs gravées dans la version définitive en sont la conséquence.

Créer et diffuser un CD-ROM de documents numérisés 223

En « fin de parcours » une certaine lassitude nous a fait abandonner certaines de nos exigences initiales.

Deuxième grande difficulté : le traitement de la version anglaise ; si la traduction a bien été faite par un « native speaker », faute de temps nous l'avons corrigée nous-mêmes. Cette relecture a reposé sur une seule personne anglophone particulièrement précieuse.

3.2.3.6. Tirage et mise sur le marché

La dernière étape technique concerne la gravure définitive et le tirage. Un grand nombre de détails sont alors à régler : con­ception de la jaquette, choix de la société de pressage, attribution d'un ISBN etc. Le tirage a été fixé à 1000 exemplaires et le prix de vente au public à 60,21 €, bien que peu élevé en regard de l'abondance du contenu et des nombreuses fonctionnalités d'aucuns pourtant l'estiment onéreux (au début de notre projet et pour des réalisations analogues le prix le moins élevé avoisinait 76 €).

3.2.3.7. Diffusion et publicité

Là encore, nous avions décidé de tout faire par nous-mêmes. Bien avant la sortie du produit, il a fallu concevoir un matériel de présentation publicitaire et faire circuler l'informa­tion. La même équipe de concepteurs a également fourni les maquettes afin de garder une parfaite cohérence avec l'esprit et la lettre du CD-ROM. Ce travail fut nécessaire pour répertorier les organismes et les établissements. Cette tâche est aujourd'hui, loin d'être terminée, nous n'avons pas pour l'instant exploité les possibilités d'Internet et la diffusion à l'étranger n'a toujours pas débuté. De très nombreuses présentations ont été faites en milieu professionnel ou devant un public plus large, à des stades divers de la réalisation.

224 Conduire un projet de numérisation

L'idée de lancer le produit de façon un plus spectaculaire (concerts, expositions...) a été rapidement abandonnée faute de moyens humains et financiers. La présentation officielle faite, pour des raisons internes, huit mois avant la sortie effective du disque, a sans doute eu un mauvais effet d'annonce.

La presse locale, professionnelle ou spécialisée a réagi posi­tivement et a fait état de notre réalisation, à l'inverse la presse nationale ne s'est pas manifestée. Nous avons pu dégager un petit budget pour l'insertion de publicités payantes.

Cette question de la diffusion fait partie des points ardus que nous n'avons pas su gérer correctement, malgré tous nos efforts.

3.3. Les difficultés

La gestation de « Cantor et musicus » a pris trois ans. Le projet a véritablement démarré en décembre 1996 et le disque est arrivé à la bibliothèque en janvier 2000. Il n'a pas été possible de respecter les échéances.

La collecte de toutes les ressources fut la principale diffi­culté. La dispersion et les différences de rythme de travail ont souvent été préjudiciables à une avancée souple et linéaire des étapes.

L'équipe scientifique était, malgré un noyau montpelliérain, assez dispersée et l'équipement informatique peu harmonisé c'est ainsi qu'il a fallu parfois ressaisir des textes. La numérisa­tion des photos s'est finalement avérée l'opération la plus perfor­mante en termes de délais malgré la perte malencontreuse d'un CD de six cents photos !

Du fait de la complexité de ce projet nous avons rencontré de nombreux obstacles au fur et à mesure de son avancement. La découverte de tâches absolument inédites, comme la saisie des hyperliens, et donc mal estimées a exigé une certaine adaptation et des délais très importants.

Créer et diffuser un CD-ROM de documents numérisés

La disponibilité du chef de projet, dans ce type de pro­gramme, doit être totale car la cohérence du projet, surtout dans sa phase finale, repose entièrement sur lui et il est très difficile de déléguer, certaines tâches demandent en effet une connaissance globale et détaillée des contenus.

Les rapports avec les professionnels de l'informatique n'ont pas présenté de difficultés majeures. En particulier le travail avec la conceptrice a été très agréable et enrichissant. Cependant les impératifs de la société de développement sont quelquefois diffi­ciles à saisir ou entrent en contradiction avec les impératifs admi­nistratifs. Le dialogue avec les informaticiens « purs et durs » n'est pas toujours simple mais des efforts méritants des deux côtés ont eu raison des obstacles.

Enfin, la diffusion aurait exigé une sous-traitance profes­sionnelle. Nous n'avions pas vraiment les moyens de l'assurer efficacement nous-mêmes.

4. LE CD-ROM

Le CD-ROM est composé de quatre modules :

La bibliothèque

La carte de visite incontournable avec les services de la BIU, une visite guidée des lieux avec un diaporama animé, l'his­torique de la faculté de médecine, de la bibliothèque et de son fonds, une galerie de portraits.

Le corpus des folios choisis

Musique et enluminures.

226 Conduire un projet de numérisation

Trois accès sont possibles : - selon le principe de l'encyclopédie : on explore selon son

bon plaisir en prenant les nombreux embranchements possibles ; - par l'index des folios ; - par une recherche documentaire classique par critères pré­

définis (genre musical, type de notation, lettre ornée, scène histo­riée...) ou mots-clés.

Pour chacun des 43 manuscrits existent : - un en-tête qui le définit rapidement ; - une notice descriptive détaillée ; - une étude scientifique musicologique et/ou iconographique. Dix pièces musicales ont fait l'objet d'un enregistrement spé­

cialement pour le CD-ROM et selon les directives des experts. Ces mêmes pièces ont été transcrites en notation musicale

moderne. Les folios sont tous présentés en pleine page et certaines

enluminures ont fait l'objet d'une prise de vue spéciale : l'affi­chage par défaut se fait sur 1/2 écran.

Les fonctionnalités informatiques sont accessibles à tout moment.

La musique au fil des siècles

Module pédagogique, c'est une véritable histoire de la musique occidentale, des origines au XVe siècle, avec illustra­tions sonores et images du corpus ou d'autres documents pour compléter l'information, des repères historiques, dans une dou­ble présentation chronologique et thématique.

Les instruments de musique

L'approche peut être la même que précédemment ou directe par le choix d'un instrument. Un extrait vidéo présente des ins­truments reconstitués et joués.

Créer et diffuser un CD-ROM de documents numérisés 227

Sur Internet

En sus des photos présentes sur le CD-ROM, l'intégralité des deux manuscrits vedettes (160 et 398 ff) sera accessible par les mêmes clés de recherche.

5. BILAN

Au-delà de qualités incontestées (reproductions, confort, esthétique...), le produit répond-il aux objectifs fixés? Sous réserve d'inventaire, bien sûr, nous avons déjà quelques réactions du public.

5.1. Un outil de signalement et de référence

Le CD-ROM malgré quelques erreurs scientifiques, du fait des auteurs ou du fait du développement, présente bien un état de la recherche principalement sur le contenu des manuscrits conce-

1 més. Certains chercheurs, venus nous rendre visite depuis, ont pu ® y repérer des manuscrits qui les intéressaient. 0 •8 Les photos numérisées archivées doivent être versées au | corpus de la base iconographique de l'IRHT.

co | Le développement du site Internet est stoppé mais les ima-

i. ges complémentaires sont prêtes. L'outil existe, il demande 1 encore de nombreuses améliorations. j2 „ Un critique spécialisé (cf. « Le Médiéviste et l'ordinateur » j, n° 39-2000) a pu écrire que « le champ couvert par ce CD-ROM 1 [était] impressionnant ». C'est sans doute sa grande faiblesse : à ^ trop vouloir embrasser, on court le risque de devenir fastidieux et 1 incomplet. Nous avons voulu conserver la totalité des textes pro-^ duits par les scientifiques et la configuration de l'écran CD-ROM

Conduire un projet de numérisation

ne permet pas une lecture confortable de textes aussi longs et aussi denses.

La complexité de l'architecture informatique a de même entraîné un certain nombre d'erreurs : l'en-tête d'un manuscrit est mis à la place d'un autre, des fonctions prévues ne fonction­nent pas, des folios sont mélangés etc. Le principal reproche des chercheurs est de ne pouvoir trouver que des extraits : les choix initiaux justifient ce parti pris et la multiplication des bases accessibles via Internet résoudra cette question.

5.2. Le pari pédagogique

Dans la mesure où les manuscrits deviennent effectivement accessibles avec certaines clés suffisantes sinon pour les lire et les maîtriser, du moins pour mieux les appréhender, on peut dire que l'approche est réussie. La partie « Instruments » est certaine­ment celle qui retient le plus le public : le nombre d'enfants qui, lors de la « Comédie du livre » en 1999, sont restés fascinés devant les écrans peut témoigner de l'attrait de ce média.

Cependant, le défi envers le grand public n'est pas vraiment relevé dans la partie « La musique au fil des siècles » qui est encore trop savante et parfois mal adaptée.

Nous sommes conscients des insuffisances de la version anglaise qui n'a pu être revue par des spécialistes.

Pour finir l'absence de livret et la jaquette un peu triste (par manque de moyens) ne rendent pas complètement justice au contenu.

Créer et diffuser un CD-ROM de documents numérisés

CONCLUSION

D'ores et déjà nous formons un deuxième projet sur les manuscrits médicaux qui voudrait suivre les mêmes principes de base. Forts de notre expérience, nous allons essayer de cerner au plus près la sélection du fonds et simplifier la forme.

On peut s'interroger sur le rôle du bibliothécaire pour ce type particulier d'activité. À l'évidence, nous avons été très ambitieux et le projet a pris une ampleur au fur et à mesure de son évolution interne, qui nous a quelque peu dépassés. Cepen­dant, le bibliothécaire est semble-t-il la personne la mieux placée pour avoir une vision globale à la fois de son patrimoine, de son public et des possibilités technologiques adaptées.

Dans ce projet, les bibliothécaires ont été les initiateurs, les concepteurs et les coordinateurs d'une équipe, autrement dit les maîtres d'œuvre. Ils se sont appuyés sur la communauté univer­sitaire et sur la compétence professionnelle de spécialistes en matière de nouvelles technologies afin de mettre en valeur et de transmettre dans de bonnes conditions un savoir et un patrimoine très riches. Être l'interface entre le savoir et le public relève bien du rôle du bibliothécaire.

Intégrer les documents numérisés dans un catalogue

par Marie-Pierre Dion

Le catalogue est la principale clef d'accès aux collections et il est tentant d'y intégrer un accès aux documents numérisés par la bibliothèque pour simplifier le parcours du lecteur qui accé­dera ainsi directement de la notice catalographique au document.

Cette approche semble « la plus naturelle pour un bibliothé­caire »' et elle correspond à des souhaits fréquemment formulés par les lecteurs. Le catalogue apparaît aussi comme une solution « raisonnable » dans la période d'évolution rapide que nous connaissons : à l'heure où les progrès techniques offrent aux bibliothèques des possibilités considérables de mise en valeur et d'exploitation de leurs collections mais où la connaissance que l'on a de celles-ci s'avère souvent insuffisante, il importe d'amé­liorer le signalement des documents et de les rendre plus accessi­bles. La normalisation du catalogue est une garantie pour la

1. Thierry Samain, « Du catalogue enrichi au métacatalogue », Bulletin des bibliothèques de France, t. 46, n0 2 (2001), p. 82.

232 Conduire un projet de numérisation

diffusion à distance des données ; elle favorise la standardisation des données numériques associées et leur utilisation future via des outils plus sophistiqués

Il importe, si l'on veut encourager non seulement l'usage du catalogue et des collections mais aussi l'utilisation rationnelle des fonds numériques, de bien cerner le rôle du catalogue, de mesurer ses potentialités et ses limites, d'être attentif à l'évolu­tion générale des accès aux ressources électroniques.

1. LE CHOIX DU CATALOGUE

Divers facteurs contribuent à privilégier l'accès aux don­nées numériques via le catalogue : la difficulté pour les bibliothè­ques d'acquérir ou de développer des applications spécifiques distinctes du catalogue - pour la gestion des images par exemple -, et de manière plus positive, l'élaboration de normes de description des documents iconographiques ou des ressources numériques, et la facilité qu'ont désormais les OPAC de basculer de la notice au document. Malgré les difficultés pratiques liées à ^ l'écran unique pour plusieurs types d'applications au sein de la f bibliothèque, la cohérence du système d'information plaide pour | l'intégration de l'offre documentaire. |

Apparemment « économique », l'utilisation du catalogue f comme voie d'accès aux données numérisées par la bibliothèque | est en réalité un choix assez coûteux. Il va sans dire que le travail I catalographique déjà effectué ne dispensera pas d'un deuxième | travail de description, celui des données numérisées et associées f aux notices. I1

.Q

Un « catalogue enrichi » suppose la mise en place de ser- I veurs spécifiques, la capacité du client catalogue à gérer les liens t. entre les notices et les différents types d'informations qu'on y | associe, sans oublier la conception d'interfaces rendant l'accès ^

Intégrer les documents numérisés dans un catalogue

immédiat, transparent et facile pour le public. Les bornes catalo-graphiques étant souvent dispersées au sein d'un établissement, l'utilisation du catalogue comme voie d'accès à des images fixes ou animées de qualité impose de disposer d'un réseau capable de véhiculer rapidement les données.

Un « catalogue enrichi » implique aussi une certaine pérennisation de la numérisation au sein de la bibliothèque, l'enrichissement des notices pouvant être envisagé comme une tâche non limitée dans le temps, à l'image de l'alimentation en continu du catalogue. Cela suppose soit un atelier de numérisa­tion sur place et du personnel compétent, soit un budget de fonc­tionnement permettant d'enrichir régulièrement le catalogue par des « trains » de numérisation.

L'utilisation du catalogue comme voie d'accès aux docu­ments numérisés entraîne aussi pour la bibliothèque des obliga­tions de services, notamment en matière de fourniture d'impressions et de possibilités de déchargement. Elle nécessite enfin au sein même de la bibliothèque des postes plus nombreux, étudiés pour un temps de travail long et non plus seulement de consultation rapide.

Dans un environnement documentaire mouvant, le choix du catalogue comme voie d'accès aux données numériques apparaît comme un moyen de préserver un accès centralisé à des données hétérogènes. L'évolution des structures d'échange (norme Z39.50), celle des standards de description des données (XML, Dublin Core) introduisent cependant de nouvelles perspectives : la gestion décentralisée de données de types différents est désor­mais compatible avec un portail d'accès unique grâce à des moteurs de recherche capables de fédérer les catalogues et les bases de données1.

Il importe donc de choisir avec discernement l'option du « catalogue enrichi ». Les documents que l'on a numérisés se

1. Thierry Samain, « Du catalogue enrichi au métacatalogue », art. cité, p. 82-86.

234 Conduire un projet de numérisation

suffisent-ils à eux-mêmes ou ne gagnent-ils pas à s'insérer dans un ensemble plus large ? Un accès plus élaboré ou mieux guidé que celui du catalogue ne serait-t-il pas mieux adapté aux usages scientifiques ou pédagogiques que l'on espère ? Des partenariats avec d'autres institutions peuvent-ils permettre d'offrir un corpus plus important et cohérent, dépassant le cadre du catalogue ? La nature des documents, l'originalité d'un fonds, la cohérence du thème traité, sans oublier la taille d'une collection, peuvent inci­ter à privilégier des outils dédiés.

Catalogue enrichi et bases de données spécialisées ne sont, il est vrai, pas incompatibles dans le cas d'unités bibliographi­ques bien délimitées. Une même image numérisée peut être reliée à une notice catalographique, pour un accès généraliste rapide, et être intégrée à une base de données, dans le cadre d'une recher­che plus spécifique. La logique d'identification et d'accès rapide dont procède le catalogue incite à attendre du « catalogue enrichi » certains avantages que l'on pourra étayer par divers moyens.

Le « catalogue enrichi » peut offrir : - une valorisation des collections et une aide à la recherche,

lorsqu'il est illustré d'éléments susceptibles de favoriser le choix du lecteur (résumés, tables des matières, extraits sonores ou audiovisuels représentatifs...). Des projets de numérisation en mode image peuvent inclure un traitement OCR brut ou corrigé pour enrichir la recherche grâce aux tables des matières. Dans le cas des documents anciens, le catalogue peut être enrichi d'ima­ges pour faciliter l'identification bibliographique (page de titre, début et fin du texte, marque d'imprimeur, échantillons de maté­riels typographiques, gravures, etc.) et l'appréhension des parti­cularités de l'exemplaire (reliure, ex-libris, annotations, etc.). L'on reste ici dans la pure logique du catalogue et l'on favorise la réalisation de produits documentaires attractifs (bibliogra­phies, listes de nouveautés, dossiers documentaires illustrés...).

Intégrer les documents numérisés dans un catalogue 235

- un mode d'accès centralisé et rapide au contenu de docu­ments déjà identifiés par les lecteurs, surtout lorsque l'environne­ment documentaire de la bibliothèque est favorable (l'accès au document est proposé en même temps que les références des étu­des, éditions, traductions le concernant). Cet accès sera d'autant plus large que le catalogue sera normalisé, accessible sur les réseaux, capable d'échanges et de participation à des grands cata­logues collectifs ;

- un mode d'accès rapide à des documents numérisés de manière ponctuelle mais néanmoins offerts à la communauté des lecteurs (les acquisitions patrimoniales récentes, les documents restaurés, les ensembles d'images photographiées à l'occasion d'une exposition ou à la demande d'un lecteur...). L'on doit alors éviter de rédiger des notices de description bibliographique trop « courtes » et pouvoir générer des listes de « nouvelles acquisi­tions numériques » pour susciter la curiosité.

- une solution d'attente avant que la masse des éléments numérisés atteigne le seuil qui permette d'en organiser, si néces­saire, l'accès autrement. La numérisation doit en effet être l'occa­sion d'affiner la connaissance que l'on a des fonds et de chercher

m des partenariats avec le monde scientifique. Le catalogue sera | alors d'autant plus efficace que les recherches pourront être | menées sur des sous-ensembles précis (fonds, provenances, sup-| ports particuliers...). | Dans tous les cas, l'attention des lecteurs devra être attirée

g sur l'intérêt des gisements documentaires accessibles, grâce à des 5 actions de valorisation et grâce à des pages web de présentation | étoffée des collections et des programmes de numérisation. 0

.c Q. ca _[ 1 n V) w c LU

ÇD (/) O > to

©

236 Conduire un projet de numérisation

2. L'ENRICHISSEMENT DU CATALOGUE

2.1. Le choix des corpus

En fonction des objectifs de la politique documentaire, il importe de définir de grands axes de numérisation. Des docu­ments seront systématiquement numérisés à leur entrée dans la bibliothèque, d'autres ne le seront que partiellement, d'autres enfin devront être traités rétrospectivement en priorité, selon le programme le plus précis possible. Une chaîne de traitement per­formante doit dès lors être mise en place pour que l'enrichisse­ment du catalogue franchisse rapidement le seuil de l'illustration anecdotique et permette l'accès à un ensemble pertinent de res­sources1.

Que la numérisation soit réalisée en local ou à l'extérieur, elle a l'inconvénient d'immobiliser les documents pendant un laps de temps non négligeable et d'être coûteuse.

L'on veillera donc à ne pas numériser ce qui l'a déjà été par des éditeurs ou d'autres bibliothèques et vers lequel des liens m

hypertexte pourront pointer avantageusement. Dans le cas des f documents anciens, les liens d'une notice avec des éléments a d'information externes (lien hypertexte vers un fac-similé, une | édition numérique) doivent, grâce à l'interface, pouvoir être bien | distingués des données internes qui sont propres à l'exemplaire g décrit et qui doivent en quelque sorte faire corps avec la notice $ (affichage simultané). §

o L'idéal serait, pour tout ce qui touche aux documents contem- f

porains, une intégration directe des données à la notice par récupé- T1

ration auprès des fournisseurs de données bibliographiques, comme | LU

çj) 1. Voir « La gestion d'un projet de numérisation » dans Alain Jacquesson et Alexis Rivier, Bibliothè- « ques et documents numériques . concepts, composantes, techniques et enjeux. Paris, Éditions du Cer- > cle de la Librairie, 1999, p. 191 et sv. ^

Intégrer les documents numérisés dans un catalogue 237

c'est déjà le cas pour les résumés. Cette possibilité fait l'objet de réflexions et travaux de la part des bibliothécaires, des fournisseurs de logiciels de bibliothèques et des fournisseurs de données, de manière à mettre en place dans un avenir que l'on espère proche des outils et concepts communs à toute la chaîne de l'information numérique1.

Pour ce qui est des documents anciens, en attendant la mise en place d'une véritable « numérisation partagée », il est prudent de commencer par ne reproduire intégralement que les docu­ments uniques, rares ou spécifiques, qui sont d'ailleurs souvent les plus fragiles et les plus demandés à l'intérieur comme à l'extérieur de la bibliothèque.

En fonction du corpus privilégié et des objectifs visés, s'imposeront le choix des unités de description bibliographique (une image ou un lot d'images...), celui des formats et tailles des documents numériques et surtout celui de la numérisation inté­grale ou partielle.

La numérisation complète des œuvres n'est le plus souvent pas possible pour des raisons touchant aux droits des auteurs et une extrême prudence s'impose quant à l'exercice du droit de citation

« des documents protégés. L'application de celui-ci peut être diffî-f cile lorsque les couvertures des livres ou les pochettes des disques | comportent des photographies ou des images. Un avertissement | systématique sur les écrans à l'intention du public peut rappeler les | limites et conditions d'utilisation des données : la finalité des

g extraits de documents contemporains étant d'aider les personnes $ consultant le catalogue à se reporter, leur choix fait, à l'intégralité § de l'œuvre mise à leur disposition sur un autre support, ils entrent t dans l'exception de citation licite, gratuite et non soumise à autori-^ sation des ayants droit. Les œuvres, leur date, leurs auteurs et prin-| cipaux interprètes, ainsi que le nom de l'éditeur ou du producteur,

m S w •> I. Voir l'état de la réflexion dans : http.//www.abf.asso.fr/enrichi/. Dominique Lahary présente le site

web Enrichi dans le Bulletin des bibliothèques de France, t. 46, n0 2 (2001 ), p. 85.

238 Conduire un projet de numérisation

doivent pouvoir être clairement identifiés sur l'écran où apparaît l'extrait. Les systèmes informatiques doivent pouvoir facilement produire la preuve de ce que la banque constituée ne dépasse pas, pour chaque œuvre, les limites d'une courte citation. La protection de la propriété intellectuelle et les missions du service public peu­vent ainsi être assurées de manière conjointe et harmonieuse.

2.2. La description des données numérisées

Dans le cadre d'un « catalogue enrichi » comme dans les autres contextes, l'organisation rationnelle par dossiers, la dénomination normalisée des fichiers1, la description et l'indexa­tion les plus précises possible des données numérisées consti­tuent la meilleure garantie d'utilisation multiple et à long terme.

Parallèlement au catalogue de la bibliothèque, les informa­tions relatives aux données numérisées forment aujourd'hui le plus souvent un système de métadonnées de catalogage (auteur, titre...), de gestion (date de numérisation, taille et résolution de l'image...) et d'utilisation (conditions d'accès...).

Dans le cas le plus simple, celui d'un lien unique et exclusif 1 entre une notice et un extrait numérisé - une table des matières par S e x e m p l e - , l a d é n o m i n a t i o n n o r m a l i s é e d u f i c h i e r n u m é r i q u e J (incluant la cote du document) et une légende succincte qui sera « § cliquable » seront suffisants. Une typologie précise devra être res- ™ pectée (« Table des matières », « Quatrième de couverture »...) = q.

Lorsque le lien d'une notice catalographique à un fichier § numérique n'est pas exclusif (une image peut être accessible en f dehors du catalogue), les données descriptives seront plus étof- ^ fées. Elles permettront l'affichage de légendes que l'on aura soin | de présenter selon la norme Afnor IF. 1992, pour une mise en S

œ w 1. Gaelle Becquet et Laure Cédelle, « Numérisation et patrimoine documentaire », Bulletin des > bibliothèques de France, t. 45, n0 4 (2000), p 69-70. ^

Intégrer les documents numérisés dans un catalogue

contexte permanente de l'image sur l'écran et une utilisation en dehors du catalogue.

Pour bien rendre compte de la singularité du document, il est parfois nécessaire de proposer des angles de vision différents (recto et verso d'une image portant des mentions imprimées ou des annotations manuscrites, page simple et double page...). On en arrive rapidement à relier plusieurs fichiers à une notice, avec les contraintes de légendes que cela implique.

Le logiciel qui gère les liens entre le catalogue et les élé­ments numérisés doit être capable d'ordonner ces éléments selon l'ordre du livre ou de la collection numérisée (succession de pages ou de cotes) ou selon un ordre de vision logique (recto / verso, plan général / détail...). À partir d'une liste de pages ou de numéros d'ordre, accompagnés d'une courte légende et d'ima-gettes, on accédera alors à la page ou à l'image, avec plusieurs niveaux de zoom. La notice catalographique offrira la description de l'ensemble et les légendes des éléments numérisés propose­ront des éléments complémentaires. Il importe donc de pouvoir interroger non seulement le catalogue mais aussi les données sur les éléments numériques.

Les bibliothèques numérisent paradoxalement plutôt des documents anciens dont la singularité rend difficile la structura­tion et l'application de normes : documents uniques (manuscrits) ou séries n'ayant d'intérêt que par le rapprochement des docu­ments qu'elles rassemblent (collection d'étiquettes, dossier cons­titué sur un personnage...). Dans certains cas le feuilletage rapide d'une liste, bien adapté aux images, pourra apparaître trop fasti­dieux. L'on pourra alors créer un instrument de recherche inter­médiaire entre la notice catalographique et les différents fichiers numériques. Cet instrument peut être une base de données locales ou un document structuré en SGML, HTML ou XML qui don­nera accès aux documents grâce à des liens hypermédias. Le cata­logue jouera ici un rôle fédérateur des différents outils élaborés par la bibliothèque.

240 Conduire un projet de numérisation

2.3. L'évaluation des usages

Faciliter l'accès à certaines collections, diminuer la communi­cation d'originaux fragiles, démultiplier les possibilités de consul­tation à l'intérieur et à l'extérieur de la bibliothèque, promouvoir l'utilisation de ressources inédites ou sous-exploitées... nombre d'objectifs du « catalogue enrichi » ne sont mesurables qu'à moyen ou long terme.

Il n'est cependant pas nécessaire d'attendre que le pourcen­tage des notices enrichies soit important pour s'interroger. Dans une période transitoire où l'offre anticipe sur la demande, où les techniques et les pratiques évoluent sans cesse, le « catalogue enrichi » doit faire l'objet d'une véritable « veille » afin de mieux prendre en compte les besoins exprimés ou latents des usagers.

Les enquêtes auprès des usagers peuvent permettre d'appor­ter les correctifs immédiats indispensables : la richesse du cata­logue est-elle connue, l'accès jusqu'au document est-il facile, le temps d'affichage est-il rapide, la lisibilité et la netteté des repro­ductions sont-elles convenables comparées aux originaux, la pré­sentation des pages écrans est-elle claire, le déchargement et l'impression sont-ils commodes... ? g

Il est aussi nécessaire de pouvoir obtenir des statistiques § fines de consultation. Le nombre de consultations de notices enri- 1 chies, le nombre de déchargements et d'impressions demandés, § l'utilisation des liens vers les ressources extérieures, l'origine des g usagers, les types d ' utilisation sont autant de précieux indicateurs. |

Désormais ouverte à des informations extérieures offrant | des mises en perspectives infinies, la bibliothèque doit plus que J jamais se distinguer au sein des nouveaux espaces information- ^ nels volatiles et incertains par ce souci de mise en ordre, de con- J, servation, d'accès rapide et d'évaluation qui caractérise le J catalogue. Les l iens lentement e t pat iemment t issés aujourd 'hui Ï entre les notices catalographiques et les documents numérisés g préparent ainsi les mutations fondamentales que représentent les ^

Intégrer les documents numérisés dans un catalogue 241

« catalogues enrichis à la source » en cours de gestation et les grands « portails documentaires » de demain.

L'accès aux données numérisées par la bibliothèque de Valenciennes

La bibliothèque de Valenciennes a été la première en 1994 à explorer les possibilités du catalogue enrichi, via l'association des logiciels Bookplus de GEAC (catalogage) et Bookline d'Archimed (catalogue enrichi) actuellement en cours de remplacement. Elle a, compte tenu de ses moyens techniques, financiers et humains, choisi d'axer sa politique documentaire sur :

• l'enrichissement des notices catalographiques des documents contemporains complexes ou peu valorisés (actes de colloque, numéros spéciaux de revues, films documentaires...) par des tables des matières ou des extraits numérisés. Cet enrichissement est sys­tématique pour les ouvrages rattachés au fond local et régional.

• l'association systématique des images aux notices des docu­ments iconographiques (photographies anciennes, cartes postales, dessins, estampes...) au fur et à mesure de leur catalogage, de manière à éviter de nombreuses manipulations.

Progressivement numérisées en interne depuis 1995 et aujourd'hui accessibles à travers le catalogue, les 3 000 images con­cernant Valenciennes et le Hainaut pourraient faire l'objet d'un accès guidé hors catalogue, mieux adapté à leur découverte par le grand public.

• l'association aux notices des incunables et postincunables, récemment catalogués, de « pages-clés » reflétant l'histoire biblio­graphique des ouvrages et leurs particularités d'exemplaire. Les documents rares ou locaux sont intégralement numérisés.

Ce projet, sélectionné et pris en charge pour une première tran­che de 10 000 images par la Mission de la recherche et de la techno­logie du ministère de la culture en 1999, est en cours. Les images seront accessibles via le catalogue de la bibliothèque.

• l'inventaire des enluminures des manuscrits médiévaux valen-ciennois, travail préparatoire à la mission photographique prévue par la convention liant le CNRS (IRHT) et la Direction du livre et de la lec­ture.

Conduire un projet de numérisation

L'inventaire a été réalisé par la bibliothèque de 1997 à 1998 et les campagnes de microfilmage et photographie numérique ont été menées par l'IRHT de 1999 à 2001. Les enluminures seront accessi­bles dès que possible à travers une base préparatoire spécifique, proposée par l'IRHT, en attendant l'intégration à la base Initiales de l'IRHT.

• la numérisation des microfilms des manuscrits médiévaux réa­lisés par l'IRHT, de manière à démultiplier les possibilités de consul­tation. Cette opération a été entreprise en plusieurs étapes (manuscrits carolingiens, manuscrits romans...), avec des aides de la direction régionale des affaires culturelles du Nord-Pas-de-Calais. Début 2001, plus de cent manuscrits étaient accessibles - et très consultés - à travers des pages html du site web de la bibliothèque.

• la numérisation en mode texte du catalogue des manuscrits de Valenciennes édité en 1894, de manière à démultiplier les possi­bilités de consultation et accompagner la consultation des manus­crits. Le travail toujours en cours est accessible à travers des pages HTML du site web de la bibliothèque.

Réaliser une exposition virtuelle sur Internet Pourquoi, comment ?

par Jacques Gana

1. POURQUOI UNE EXPOSITION VIRTUELLE

1.1. Expositions réelles et expositions virtuelles

Les collections des grandes bibliothèques universitaires parisiennes (Sorbonne, Muséum, BIUM et d'autres) sont consi­dérables. Au sein de ces collections, les fonds patrimoniaux (issus essentiellement des confiscations révolutionnaires et des fonds des anciennes facultés) occupent une place importante, mais dont la mise en valeur n'est pas sans poser problème.

La BIUM participe depuis longtemps à des expositions organisées par diverses institutions, en prêtant certains docu­ments issus de ses collections anciennes, mais a renoncé à en organiser elle-même : manque de temps, manque de moyens humains, inflation du tarif des assurances en raison de la situation particulière des locaux...

Conduire un projet de numérisation

En outre la « rentabilité » pour l'établissement en regard des efforts déployés est généralement assez faible. Combien de visiteurs une exposition organisée dans le hall de l'université va-t-elle attirer en 15 jours ou 1 mois ? Combien de temps cha­cun va-t-il passer sur place ?

À l'inverse, l'exposition virtuelle est beaucoup plus efficace pour faire connaître les fonds d'un établissement à la commu­nauté. La durée de l'exposition peut être illimitée, sa réalisation n'obéit à aucun impératif de calendrier, son coût - hors coûts humains, bien entendu - est voisin de zéro si on la réalise intégra­lement en interne comme c'est le cas à la BIUM.

Même sur un plan strictement muséographique, l'exposi­tion virtuelle présente de nombreux avantages sur une exposition réelle. Un livre exposé réellement donne certes une vision particulière et irremplaçable du support original. En contrepartie, on ne peut en montrer qu'une page à la fois. Dans l'exposition virtuelle, on peut se livrer à diverses manipulations informati­ques pour mettre en valeur tel ou tel élément d'un document. Avec beaucoup de temps et de patience, on peut arriver à cons­truire de véritables petits films documentaires mêlant commen­taires parlés, animations, textes, fac-similés...

1.2. Sites Web de bibliothèques

La grande révolution du XXF siècle dans les bibliothèques sera... la disparition des bibliothèques. Cette boutade qui n'en est pas tout à fait une est une représentation à peine caricaturale de l'évolution de la documentation telle que l'on commence déjà à la percevoir dans certains établissements au premier rang des­quels figurent les bibliothèques médicales.

Certes, l'expression « disparition des bibliothèques » est volontairement excessive. Cependant, il est évident pour toutes les parties concernées qu'à moyen terme la documentation électronique

Réaliser une exposition virtuelle sur Internet 245

va totalement supplanter l'édition papier dans le domaine de la recherche, et que la mise en ligne de cette documentation, via Inter­net et ses successeurs à haut débit, va faire du voyage à la bibliothè­que un passage de moins en moins obligé.

Déjà les premiers signes de cette mutation sont sensibles à la BIUM, où les demandes de prêt entre bibliothèques ont stagné en l'an 2000 pour la première fois après des années de croissance continue, où les lecteurs possèdent de plus en plus fréquemment leur propre accès à Internet et ne viennent plus à la bibliothèque pour établir leur bibliographie, ou même consulter le catalogue de la bibliothèque - toutes choses qu'ils ont déjà réalisées à dis­tance - mais uniquement pour effectuer les photocopies des documents originaux. Lorsqu'on aura mis en place un système simple leur permettant la consultation et le paiement des éditions électroniques à distance, cette dernière étape ne sera même plus utile.

Dès lors, que restera-t-il aux bibliothèques ? Deux choses. Primo, un rôle de conseil, d'orientation, d'aide à la recherche, à la façon des actuels documentalistes, qu'elles pourront éventuel­lement tenir à distance. Secundo, des fonds documentaires

^ « historiques » qu'il faudra bien mettre en valeur avec les | moyens de l'époque si l'on veut qu'ils soient exploités.

M Être présent aujourd'hui sur Internet, au-delà des trois fonc-f tions de base (catalogues en ligne, guide du lecteur, liste de | liens), est un moyen pour l'établissement d'affirmer son exis-| tence, sa spécificité, la qualité de ses fonds et de ses personnels, f Au sein du site Internet de la bibliothèque, la présence | d'expositions virtuelles, outre les fonctions classiques des expo-

£ sitions dont nous avons parlé, permet de dynamiser le site et de j, pousser l'utilisateur occasionnel à y revenir. Si en effet on n'y I trouve que des catalogues, mêmes fréquemment mis à jour, ou ^ des informations pratiques, les visites ne seront qu'utilitaires, 1 ponctuelles et rapides. A la BIUM, les expositions sont en outre ^ une façon de « rentabiliser » doublement un travail de fonds sur

246 Conduire un projet de numérisation

les collections patrimoniales qui font l'objet de diverses banques de données (banque d'images, de manuscrits, de rééditions d'ouvrages anciens) en développant un côté professionnel à l'intention des chercheurs en histoire de la médecine et un côté plus grand public avec les expositions, l'un conduisant éventuel­lement vers l'autre.

2. PRÉPARER L'EXPOSITION

2.1. Choisir un sujet

Si l'on a déterminé que le but de l'exposition virtuelle est de mettre en valeur des collections méconnues de la bibliothèque, se pose cependant le problème de ce que l'on va exposer. Certaines bibliothèques (surtout celles qui possèdent d'importants fonds anciens) n'ont que l'embarras du choix. Pour d'autres, ce sera plus difficile. Il faut en tout cas garder toujours présents à l'esprit deux éléments essentiels : = -<D

• Une exposition - et cela est tout aussi vrai pour Internet, | où le « zapping » règne en maître, que pour une exposition I réelle - se doit de donner la priorité à l'image, voire au son, par f rapport au texte. Le document iconographique doit être le sujet et | l'objet de l'exposition, ce qui peut s'avérer complexe dans une § bibliothèque où par définition le document de base est souvent | textuel. |

• Puisque l'on va publier des documents sur le web, il faudra ^ être certain que ceux-ci sont libres de droits (non seulement les J, documents eux-mêmes, mais leur reproduction, si on envisage de J partir non des documents originaux mais de clichés qui en g auraient été faits). Ce problème se résout tout seul si l'on ne 1 publie (comme c'est le cas à la BIUM) que des documents ^

Réaliser une exposition virtuelle sur Internet 247

anciens numérisés à partir de l'original ou à partir de clichés réa­lisés par le service photographique de la bibliothèque. C'est mal­heureusement extrêmement rare.

Surtout si l'on débute dans le domaine, il sera prudent de se lancer dans les expositions virtuelles avec un sujet limité. On peut par exemple choisir de présenter un ouvrage du fonds ancien particulièrement intéressant, en l'élargissant par des annexes sur d'autres ouvrages du même auteur, ou sur le même thème, ou sur d'autres ouvrages techniquement comparables... C'est ce que fait par exemple la Bibliothèque nationale de France dans sa collec­tion de CD-ROM « Sources » (L'Atlas Catalan, Le Livre de la chasse de Gaston Phébus...), ou ce que fera prochainement la BIUM avec les herbiers de Boccone. En tous cas, partir d'une centaine d'images-clés au maximum, qui seront réparties sur autant de pages avec des possibilités de navigation transversales qui rendront l'exposition plus vivante qu'une simple visite linéaire.

Il peut être intéressant d'associer des spécialistes à la conception des expositions, surtout s'il n'en existe pas au sein de la bibliothèque. C'est ainsi que la première exposition de la

s BIUM (sur les frontispices) a été conçue entièrement en f interne puisqu'il s'agissait en majorité d'histoire du livre, » alors que la seconde (sur les « gueules cassées » de la guerre | de 1914-1918) a été réalisée en collaboration avec la spécia-! liste du sujet, dont un ouvrage venait de paraître. Les biblio-

g thèques possèdent souvent des trésors inexploités, en | particulier les fonds d'histoire régionale des bibliothèques

§ municipales, et les érudits locaux ne manquent pas qui sau-€. raient mettre ces richesses en valeur. 03 .O '« to c m œ to o to _l ©

Conduire un projet de numérisation

2.2. Élaborer la structure

Il ne faut surtout pas imaginer que réaliser une exposition sur le Web dispense de la plupart des travaux préparatoires d'une exposition réelle.

Avant de débuter tout travail informatique, il faut donc col­lecter les documents, structurer l'exposition en parties et sous parties comme les chapitres d'un livre, élaborer les textes, etc.

Les spécificités de l'exposition informatique sont peu nom­breuses et simples à assimiler :

Les textes doivent être courts, pas plus de 10 lignes sans une illustration, et découpés en unités logiques de façon à ce que l'ensemble texte plus image fasse un tout qui puisse être affiché sur un écran 800 X 600 sans qu'il soit nécessaire de recourir aux ascenseurs.

Les textes d'une exposition ne sont pas une thèse : les notes de bas de page et les termes complexes nécessitant un glossaire sont interdits ! (sauf exception et astuce technique, comme l'ouverture d'une fenêtre au survol d'un terme ou d'une image grâce à des commandes Javascript).

L'utilisateur doit pouvoir à tout moment accéder depuis une page au plan général de l'exposition et à d'autres pages en rela­tion.

2.3. Traiter les documents iconographiques

Les documents iconographiques présentés dans l'exposition devront être numérisés. Diverses solutions sont envisageables selon les ressources de l'établissement, l'état et la valeur des documents à reproduire ou l'existence de documents photogra­phiques.

Réaliser une exposition virtuelle sur Internet 249

Dans certains cas, on peut numériser à partir des documents photographiques, s'il en existe déjà, à condition que leur qualité soit suffisante. On peut ainsi numériser des négatifs, des diaposi­tives ou des tirages papier à l'aide de scanners relativement modestes (un scanner à plat avec dos pour transparents ou un scanner à négatifs et diapositives spécialisé d'entrée de gamme coûtent 3 500 F maximum).

On peut également, avec ces appareils, numériser directe­ment les originaux s'ils ne sont pas trop précieux et si leur reliure permet une ouverture suffisante. C'est cette solution qui donnera la qualité optimale.

Si les ouvrages sont trop précieux, on pourra les photogra­phier avec un appareil photo numérique, qui donnera très rapide­ment des images de bonne qualité directement utilisables sur l'ordinateur (un appareil correct bi-mégapixels donnant des ima­ges de 1 600 X 1 200 pixels est disponible à partir de 610 €). Cette solution présente également l'avantage de pouvoir montrer l'ouvrage « en volume », voire de préparer des animations de type « rotation autour de l'objet » comme on en trouve souvent sur le web (le plus souvent au format Apple Quicktime, mais il

s en existe d'autres). | Si toutes ces solutions sont inenvisageables parce que la | manipulation des documents est difficile (ancienneté, fragilité, | taille de l'ouvrage), il faudra recourir à des solutions plus lour-| des, soit directement dans l'établissement, soit par sous-traitance

g avec des société spécialisées. Il existe ainsi des scanners profes-s sionnels dédiés à la numérisation d'ouvrages entiers par le haut, § mais les premiers prix pour des scanners de ce type en noir et 1 blanc sont supérieurs à 100 000 F notamment les scanners les

plus performants à lumière froide. .Q

« C

LU

ÇD 00 o >

©

Conduire un projet de numérisation

3. PASSAGE À LA RÉALISATION

La réalisation d'expositions sur Internet nécessite la mise en œuvre de compétences multiples et la maîtrise de logiciels divers : traitement de texte, éditeur HTML, numérisation et trai­tement d'images, voire acquisition vidéo et audio, traitement et techniques de compression de la vidéo et du son, animation Flash, programmation Javascript...

Il ne faut cependant pas s'en effrayer, l'essentiel est l'envie de faire quelque chose. Pour la réalisation, les compétences se révèlent et se forment « sur le tas » et il existe sur le Web des quantités de sites d'auto-formation, même en français, extrêmement bien faits.

3.1. Une préoccupation essentielle : le temps de chargement

Lorsque l'on décide de publier sur Internet autre chose que du texte pur, on commence à être confronté aux problèmes liés au temps de chargement. C'est une chose d'autant plus difficile à per­cevoir que, lors de la conception du site, cet aspect du problème est totalement invisible. A partir d'un disque dur local, n'importe quelle image ou élément multimédia est chargé sans délai.

En revanche, vous devez toujours garder à l'esprit qu'il n'en sera pas de même pour l'utilisateur qui va consulter votre site. Plusieurs éléments essentiels vont intervenir pour augmenter par­fois très sévèrement le temps de chargement des éléments que vous allez publier.

3.1.1. Les performances du mode de connexion à Internet

Ces performances sont également nommées « débit » ou « bande passante ». Certes, tout le réseau universitaire, qui est

Réaliser une exposition virtuelle sur Internet 251

notre public principal, est en principe relié à Renater qui offre des débits très élevés (en pratique, on relève aux heures creuses des débits réels pouvant aller jusqu'à 200 ko/s... aux heures de pointe, il en va autrement).

Mais une exposition virtuelle s'adresse aussi à un public plus large et moins spécialisé, qui est susceptible de n'utiliser que des liaisons par des petits modems domestiques : les modèles courants sont à la norme V90, c'est à dire en théorie 56 kbits/s, soit 7 ko/s, en réalité et selon les FAI (fournisseurs d'accès à Internet) en général 4 à 5 ko/s.

Entre les deux, divers moyens d'accès personnels ou profes­sionnels dont les plus performants à l'heure actuelle sont le câble (débit théorique 300 kbits/s, soit 37 ko/s) et l'ADSL (débit théo­rique mode 1 : 512 kbits/s, 64 ko/s ou mode 2 : 1024 kbits/s, 128 ko/s). Mais ces accès à haut débit ne concernent encore en 2001 qu'une très faible partie des utilisateurs d'Internet, on ne peut donc concevoir un site rien que pour eux...

Fort heureusement, les éditeurs de logiciels ont pensé à ce problème et ont mis en œuvre des trésors d'imagination pour ten­ter de compenser au moins partiellement ces aléas techniques.

s C'est l'objet du chapitre suivant : "D C 3 « | 3.1.2. Les formats de documents : les images

| Internet n'admet que deux formats d'images principaux : le g GIF et le JPG. Le format PNG est une variante améliorée du GIF | (couleurs 24 bits, transparence, affichage progressif). Développé 1 pourtant depuis quelques années, il est peu répandu car il offre J peu d'avantages par rapport au JPG (compacité moindre, même j, lorsque JPG est configuré en compression minimale). I Le JPG est le format universellement répandu sur Internet ^ pour l'affichage de documents photographiques en niveaux de | gris (256,8 bits) ou en couleurs réelles (16 millions, 24 bits). C'est | aussi le format natif de la plupart des appareils photo numériques

252 Conduire un projet de numérisation

du marché, taille limitée des cartes mémoires oblige. De vagues connaissances techniques et un snobisme certain conduisent de nombreux professionnels des arts graphiques à ne jurer que par le format TIF et à dénigrer le format JPG, sous prétexte qu'il est « destructif ». Certes, la compression se fait moyennant la perte d'informations. Mais cette compression est ajustable de façon très fine et, pour des taux jusqu'à 10 % de perte, reste la plupart du temps invisible à l'œil humain.

Le GIF est un format limité à 256 couleurs qui conviendra essentiellement pour des représentations graphiques simples : schémas, histogrammes, plans... mais en aucun cas à la photo où il sera plus lourd (en octets) et de moins bonne qualité. Deux autres avantages du GIF (ce pourquoi il est fréquemment utilisé sur le web) :

- il peut gérer la transparence, ce qui permet de superposer des images de forme non rectangulaire à un fond coloré ;

- il permet de construire de petites animations à partir d'une succession d'images. Mais dans ce domaine, il est infiniment moins puissant et efficace que Flash.

À titre de comparaison, on trouvera à la page suivante une image de 300 X 400 pixels qui a été enregistrée dans l'essentiel s des formats graphiques, à des taux de compression variables pour § le JPG. On pourra voir que le GIF n'est intéressant que par rap- I port au JPG brut, et qu'en outre sa résolution limitée à 256 cou- | leurs, peu gênante sur des documents en noir et blanc, peut f s'avérer inesthétique sur des documents couleur. §

Le format d'impression de cet ouvrage et la place limitée | qui nous est allouée empêche l'agrandissement des images, mais f un examen très agrandi à l'écran des différents taux de compres- f sion JPG permet de constater que les effets de la compression j, destructive commencent à être visibles à 20 % et un peu gênants | à 40 %. " œ

On constate d'ailleurs parallèlement qu'une compression | importante n'est pas forcément nécessaire car la progression ^

Réaliser une exposition virtuelle sur Internet 253

n'est pas arithmétique : au-delà d'un certain taux le gain en octets est minime, alors que la dégradation devient plus visible.

L'important pour l'image sur Internet est donc de songer tou­jours au résultat à obtenir et de se souvenir qu'un utilisateur ordinaire avec son modem 56 kbits chargera environ 4 à 5 ko/seconde (et donc notre image JPG 20 % en 6 à 7 secondes, ce qui est honnête).

DE I

BMP : 352 Ko

T tr l i i' jL * ^

vt"' GIF: 119 Ko

DE 1 - t.i it< \

JPG 20 % : 28 Ko

TIF : 346 Ko

y ? ^ iv 1 ^ ^

DE I

I • DE I

D E !

PNG : 274 Ko

D E I

JPG brut : 162 Ko JPG 10 % : 43 Ko

JPG 40 ^ : 18 Ko JPG 60'/r : 14 Ko

254 Conduire un projet de numérisation

3.1.3. Couleur ou noir et blanc

II vaut toujours mieux privilégier la couleur pour les repro­ductions, même s'il s'agit de livres anciens pas forcément en cou­leur, l'image sera plus vivante et plus dynamique. On pourrait imaginer qu'en utilisant des images en niveaux de gris on allége­rait d'autant le poids de l'image (puisqu'on passe d'un codage sur 24 bits à un codage sur 8 bits, un calcul simple donne un rap­port de 1 à 3). Or, l'expérience prouve qu'il n'en est rien, surtout lorsque la palette des teintes est peu variée. Les algorithmes de compression établissent la palette des couleurs utilisées dans l'image, et s'il n'y a pas plus de teintes colorées que de niveaux de gris différents, le poids de l'image en couleur sera sensible­ment identique à sa version noir et blanc. En général, les tests montrent que l'image couleur fait un poids supérieur d'environ 1/ 3, ce qui reste raisonnable.

3.1.4. Les formats de documents : les animations

En dehors du GIF, utilisable pour de toutes petites animations (en taille et en durée), la seule solution viable d'animation à l'heure actuelle sur Internet est le format Flash de Macromédia (déjà éditeur I du fameux Director avec lequel ont été produits l'essentiel des CD- § ROM multimédia du marché). Flash permet d'animer toutes sortes l d'objets : textes, graphismes simples, éventuellement photogra- | phies, mais dans ce dernier cas il vaudra mieux s'en tenir à des ima- § ges de petite taille. Pour mémoire, on peut également réaliser des | animations sur le web avec le concurrent de Flash lancé récemment f par Adobe : LiveMotion, mais celui-ci est encore peu répandu et f n'apporte rien d'original, ou encore utiliser un des programmes % générant automatiquement du code DHTML, comme Mediator 6 1 (Matchware) ou WebCreator (LMSoft/Montpamasse), mais, à | 1 ' inverse de Flash, le fonctionnement du DHTML est très dépendant i du navigateur web utilisé et de la puissance de la machine. g

Réaliser une exposition virtuelle sur Internet 255

3.1.5. Les formats de documents : le son

Si les sons sont intégrés à des documents Flash, le format d'origine par défaut sera le MP3. Si en revanche vous envisagez de sonoriser directement vos pages HTML, vous aurez intérêt à utiliser de préférence le format WMA de Microsoft qui permet un taux de compression nettement plus élevé à qualité égale et une diffusion en « streaming » optimisée. On peut transférer du texte parlé de qualité honnête à 11 kbits/s, et de la musique acceptable à partir de 32 kbits/s, ce qui reste toujours correct pour n'importe quel type de liaison. Le format Real Audio est également envisa­geable, mais il est moins simple à diffuser, on peut donc l'éviter sauf si on possède déjà des documents sonores à ce format. Le son peut être déclenché à l'aide d'un bouton de démarrage ou directement à l'ouverture d'une page. La première solution est souvent préférable, car elle temporise le chargement et laisse l'utilisateur plus libre, car on peut également intégrer des boutons de pause ou de reprise, comme sur un magnétophone.

3.1.6. Les formats de documents : la vidéo

I Ne rêvons pas, la vidéo « live » sur Internet reste 1 aujourd'hui réservée aux liaisons à haut débit. Une vidéo en f vignette de 320 X 240 pixels (éventuellement affichable en taille i double 640 X 480 moyennant un certain flou) exige, pour être à § peu près lisible, un débit minimal de 256 kbits/seconde. La qua-§L lité supérieure, à 512 kbits/s, bien que théoriquement accessible 1 à des machines dotées de l'ADSL de base (Netissimo 1 ), court de | grands risques d'être perturbée par les encombrements du réseau,

i causant des arrêts du flux. .n | Une liaison 56 kbits/s donne une vidéo très pixellisée et sac-

^ cadée, en minivignettes (160 X 120 pixels par exemple) qui I demande beaucoup d'indulgence... La seule alternative possible | est à l'heure actuelle le téléchargement par l'utilisateur du film

Conduire un projet de numérisation

entier avant lecture, ce qui rend impossible la diffusion de docu­ments longs et surtout rompt l'effet de dynamisme que l'on sou­haite insuffler à notre exposition.

3.1.7. Les formats de documents : le texte

Le format classique des textes publiés sur Internet est le HTML. Mais vous pouvez envisager, si vous souhaitez publier des fac-similés de documents anciens, d'utiliser le format Adobe Acrobat, qui permet de constituer des livres virtuels feuilletables à l'écran, zoomables, voire cliquables (à l'aide du générateur Acrobat Distiller). Attention cependant : Acrobat permet de créer des fichiers d'un poids raisonnable si l'on part de documents informatiques (traitement de texte ou PAO). Dès qu'il s'agit de constituer des livres entiers en mode image à partir de documents numérisés, seul le mode CCIT/Groupe 4 (noir et blanc tramé) permet de conserver aux documents une taille décente, au prix d'une perte de qualité parfois inadmissible pour des documents anciens au papier jauni ou tâché... Des produits concurrents d'Acrobat, comme DejàVu, qui utilise une dérivation du JPEG 2000 compressé selon la technique des ondelettes (wavelets en anglais) ne me semblent pas vraiment convaincants pour des tex­tes ou des graphismes fins.

3.2. Mise en forme

Nous ne donnerons pas ici de règles de mise en forme : d'abord parce qu'il n'y en a pas, tout est possible et permis dans les limites des impératifs techniques exposés ci-dessus ; ensuite, parce que l'établissement de règles trop strictes aboutirait rapide­ment à une normalisation et donc à une uniformité qui, si elle est nécessaire dans le catalogage, serait ici tout à fait nuisible à

Réaliser une exposition virtuelle sur Internet 257

l'intérêt du lecteur qui aurait l'impression de toujours voir la même exposition. Enfin, si règle il y a, il faut considérer que toute exposition doit être différente de la précédente, à l'intérieur d'un style propre à l'établissement, mais en rapport avec le thème choisi.

En revanche, on peut éviter un certain nombre de fautes de goût et de lisibilité avec quelques principes simples.

La difficulté sur Internet consiste à connaître la configura­tion qui sera utilisée par le visiteur. En particulier, selon les navi­gateurs (qui se répartissent actuellement en gros en 70 % d'Internet Explorer, 25 % de Netscape et 5 % de divers), selon leur version, selon le système d'exploitation (Windows, Mac, autre) l'interprétation du code HTML utilisé aura des résultats parfois très différents à l'affichage. Il faudra donc tester locale­ment l'exposition sur le plus grand nombre de configurations possibles pour tenter de faire en sorte que tout le monde ait un résultat optimal. Cela peut s'avérer parfois un épouvantable casse-tête, surtout dans les fonctions sophistiquées.

Découlant du précédent, le problème le plus complexe réside dans la gestion de la taille de la fenêtre de navigation : la particula-

I ri té du langage HTML est de gérer à sa façon l'affichage en fonc-| tion de la configuration utilisée. Or, outre qu'un écran 800 X 600 1 est plus petit qu'un écran 1 024 X 768, l'affichage au choix de l'uti-! lisateur de diverses barres d'outils ou de fenêtres réduites sur | l'écran peut conduire à des effets non désirés. Grâce à Javascript,

§ on peut contourner en partie le problème, en forçant l'affichage à i. occuper la totalité de l'écran et en masquant toute l'interface du | navigateur. C'est le choix de la BIUM pour ses expositions, ce qui f permet d'afficher sans difficulté des images plus grandes que ^ d'autre sites qui s'en tiennent à la fenêtre classique. 1 II faut essayer de trouver pour l'ensemble de l'exposition t: une « tonalité », c'est-à-dire un style commun à toutes les pages, I et s'y tenir : palette des couleurs, images de fond, polices de ^ caractères, taille des images, présentation des textes...

258 Conduire un projet de numérisation

Il vaut mieux éviter de présenter des images qui ne tiennent pas entièrement sur un écran et exigent l'utilisation des ascen­seurs. On peut optimiser le processus en choisissant (c'est cou­rant sur le web) de ne présenter de prime abord que des vignettes de petite taille (150 X 200 pixels environ), l'image agrandie s'obtenant en cliquant sur la vignette. Dans l'exposition de la BIUM « Les Frontispices », ce procédé est étendu à l'affichage d'une page web spécifique pour chaque image, offrant l'accès à des commentaires, des agrandissements plus grands d'éléments particuliers de la page et l'accès à un mode « zoom », qui corres­pond à un double agrandissement. Outre l'optimisation des temps de chargement, ceci permet une lecture de l'exposition à deux niveaux : simple, en parcourant seulement les vignettes, approfondie en cliquant sur chaque vignette pour obtenir des détails supplémentaires. Assorti de divers index des vignettes (alphabétique, chronologique) ce procédé autorise l'utilisateur à circuler dans l'exposition à sa guise.

Enfin, et pour conclure, ne jamais oublier qu'une exposi­tion, virtuelle ou pas, est un long jeu de patience, d'autant plus qu'il est rarement possible de dégager assez de temps d'affilée pour pouvoir s'y consacrer de façon véritablement efficace. Pour s pallier cet étalement dans la durée, et aussi éventuellement per- | mettre la collaboration de plusieurs personnes au travail, il faudra g dès le début organiser le site web très rationnellement : grouper i les documents dans des répertoires organisés logiquement, don- | ner aux fichiers des noms explicites, éventuellement si l'exposi- § tion est très volumineuse créer une « bible » des travaux I effectués et des règles de présentation adoptées... |

Il est certain qu'une exposition virtuelle est un investisse- f ment personnel important, et qu'un établissement ne peut pas ^ toujours se permettre de consacrer une part importante du temps I de son personnel à sa réalisation, et de surcroît, on ne peut envi- ^ sager de n'en faire qu'une : à partir du moment où on s'est lancé | dans ce processus, une périodicité d'au moins une exposition par |

Réaliser une exposition virtuelle sur Internet

an semble raisonnable si l'on veut éviter que l'effet d'entraî­nement ne s'estompe. Mais par ailleurs, une exposition virtuelle est sans doute l'un des meilleurs outils de valorisation d'une bibliothèque ; c'est pourquoi il peut être intéressant de mettre en œuvre un tel projet que l'on peut rentabiliser au mieux dans le cadre d'un plan plus général de numérisation, de toute façon indispensable à la sauvegarde des collections anciennes.

MÉMENTO

Les étapes d'un programme de numérisation

par Charlette Buresi et Laure Cédelle-Joubert

Un programme de numérisation des collections peut se décomposer en trois phases qui appellent des analyses et des tâches spécifiques : la conception du projet, la réalisation techni­que de la numérisation, l'exploitation des images numériques. Le memento ci-dessous énumère les principales étapes d'un pro­gramme ; il renvoie aux articles abordant ces aspects.

262 Conduire un projet de numérisation

1. CONCEPTION DU PROJET

1.1. Objectifs de la numérisation

Déterminer les motifs pour lesquels la bibliothèque aurait avantage à engager un programme numérique : numériser pour mieux diffuser un fonds, pour le valoriser tout en le préservant, et / ou pour aider et susciter la recherche ? Pour mieux se faire connaître au sein de l'université / à l'extérieur ? Mode d'emploi. Charlette Buresi, Laure Cédelle-Joubert.

1.2. Choix du corpus

Définir les documents retenus pour la numérisation et éta­blir des critères de sélection répondant aux besoins de l'établis­sement, à sa politique documentaire, aux besoins exprimés par le public, au caractère patrimonial des fonds (état de conservation, rareté...). Chaque bibliothèque peut avoir des critères propres et la plupart des auteurs décrivant leurs programmes de numérisa­tion rendent compte de cette diversité.

1.3. Vérification de la propriété des droits reposant sur les documents

Dispose-t-on des droits de reproduction et de diffusion sur les documents autorisant la bibliothèque à les reproduire numéri­quement puis à les diffuser ? Il est important de bien identifier tous les ayants droit : éditeurs, écrivains, artistes, photographes, voire musiciens, interprètes... dans le cas des documents sonores et audiovisuels. Seuls les documents tombés dans le domaine

Mémento 263

public peuvent être librement exploités, si ce n'est pas le cas les droits doivent être négociés. Aspects juridiques de la numérisation. Valérie Game. Contrats de cession ou d'acquisition de droits d'auteur. Valérie Game.

1.4. Identification du public visé

Identifier le public visé et les usages susceptibles de l'inté­resser de manière à préciser le corpus documentaire et à déterminer les informations scientifiques et l'environnement édi­torial les mieux adaptés. Cette étape peut permettre de délimiter le champ des collections à traiter, de réfléchir déjà à leur future exploitation. En fonction des usages attendus certains choix tech­niques pourront être retenus, tels que la résolution des images et le poids des fichiers numériques. Les publics. Thierry Delcourt. Numériser pour un public déficient visuel.Carine El-Bekri Dinoird.

1 1.5. Évalutation des ressources de la bibliothèque c 3 Vi 0) | Évaluer les potentialités de la bibliothèque en termes de per-1 sonnel, de matériel informatique, de financement, de manière à g ajuster l'ampleur du projet aux capacités réelles de la bibliothèque, g. Parallèlement, évaluer les besoins complémentaires ou annexes. § Cette estimation évitera de se lancer dans un projet sur-dimen-t sionné pour la bibliothèque et d'omettre les coûts induits de la T1 numérisation en restreignant 1 ' investissement aux seules opérations | de capture numérique (notamment le coût d'un système de GED).

^ Numérisation interne ou externe - Le choix de Lyon. Pierre Guinard. 1 Calculer les coûts induits de la numérisation. Jocelyne Deschaux. •3 Élaboration d'un cahier des charges § :1.3, 2, 4.Albert Sitruk. ©

264 Conduire un projet de numérisation

1.6. Identification du projet au sein des missions et de la politique de la bibliothèque

Qu'elle est la place du projet au sein des missions de la bibliothèque ? Constitue-t-il une priorité ou faut-il lui donner un rang de priorité par rapport à d'autres chantiers. Ces interroga­tions peuvent aider à l'élaboration d'un calendrier prévisionnel qui prendra en compte les autres activités en cours dans l'établis­sement.

2. LA NUMÉRISATION

2.1. Sélection des documents

2.1.1. Concertation entre les conservateurs :

Les documents sont évalués un par un. Leur nature et leur état permettent-ils la numérisation ? Des mesures de sécurité devront- s

elles être prises pour préserver les documents ? Ces débats permet- f tront de guider les choix techniques de numérisation : numérisa- | tion dans ou hors des locaux de la bibliothèque, numérisation | directe ou indirecte, quel type de scanner, quel conditionnement si | les documents quittent la bibiothèque... ? Dans certains cas on g décidera de restaurer des documents avant de les numériser. $ Q. O O 0 sz

CL

2.1.2. Collection choisie " 1 n La collection choisie vaut-elle la peine d'être numérisée ? Est- I

elle remarquable ou unique ? Un autre établissement mène-t-il un ^ projet analogue sur le même corpus ? Un partenariat avec un autre 1 établissement sur le même type de projet ou de documents est-il J

Mémento

possible ? Pour le savoir on peut se reporter au catalogue des fonds culturels numérisés du ministère de la Culture et de la Communica­tion1, à l'enquête de la sous-direction des bibliothèques et de la documentation2, ou encore à des sites d'organisation internationale comme 1TFLA3 qui recense les projets nationaux. Les documents choisis ont-ils déjà été reproduits sous forme de phototype, et si c'est le cas ne vaut-il pas mieux numériser ces substituts, surtout si on en détient les droits ?

2.1.3. Traitement

Les documents pourront-ils être traités avec la technique existante, faudra-t-il sous-traiter ? La couleur est-elle indispensable ? Quels équipements et précautions faudra-t-il pren­dre (lumière, plateau compensateur, ...) ? Certaines de ces ques­tions auront pu être formulées précédemment, mais à cette étape on les réunira toutes en vue de la rédaction du cahier des charges. Les choix techniques de la numérisation. Catherine Lupovici.

2.2. Développement

2.2.1. Rédaction du cahier des charges

Élaborer un cahier des charges indiquant toutes les condi­tions techniques à respecter que ce soit dans la capture numérique des documents ou dans leur maniement, leur conditionnement, leur description. Ce cahier des charges doit également mention­ner les conditions générales de réalisation telles que le calendrier des travaux, la réception des lots et leur éventuel rejet,... Même

1. http://www.cuIture.fr/culture/mrt/numerisation/fr/f 02.htm 2. hup:///www.sup.adc.education.fr/bib/ (Activités et projets). 3. http://ifla.imst fdr/II/digilib.htm.

Conduire un projet de numérisation

si la numérisation s'effectue en interne, il ne faut pas faire l'éco­nomie de ce document essentiel pour dialoguer avec les équipes techniques. Il doit également permettre d'évaluer un prestataire. Élaboration d'un cahier des charges. Albert Sitruk. Cahier des charges et fiches de spécifications des travaux de numéri­sation. Albert Sitruk. Choisir son prestataire. Jocelyne Deschaux.

2.2.2. Combien de documents mettre en ligne ?

Il est temps d'évaluer les capacité de stockage, de charge­ment et de mise en ligne pour ne pas être pris de court et vérifier les capacités informatiques de la bibliothèque.

2.2.3. Inventaire

Rédiger un inventaire précis des documents à numériser remis à l'équipe de numérisation. Éventuellement restaurer cer­tains documents ou les dépoussiérer avant la prise de vue ; cela concerne tout particulièrement les phototypes, dont les diapositi­ves, qu'il faudra essuyer ou passer sous une soufflerie. Élaboration d'un cahier des charges. Albert Sitruk.

2.3. Production

2.3.1. Numérisation proprement dite

Avant de lancer la production réaliser plusieurs tests à partir de documents représentatifs de l'ensemble à traiter, mais aussi à partir de documents particulièrement délicats. Calibrer la chaîne de numérisation en fonction de ces résultats.

Mémento

2.3.2. Qualité technique : images acceptables selon quels critères ?

Définir une période de contrôle qualité des fichiers numéri­ques et des critères qui motiveront le rejet éventuel de certains fichiers. Si la numérisation est réalisée en interne les délais peu­vent être plus longs et les possibilités de numériser une seconde fois plus souples.

3. ACCÈS ET MISE EN LIGNE

3.1. Description des données

Décrire les nouveaux documents numériques produits. Réu­nir les descriptions bibliographiques. Les choix techniques à Lisieux : Des réserves à l'Internet, les éta­pes de la mise en ligne. Olivier Bogros. Les choix techniques de la numérisation. Catherine Lupovici.

3.2. Édition numérique des images

3.2.1. Scénario

Envisager plusieurs scénarios de réalisation. Développer le scénario choisi : préciser les contenus, le mode de navigation, le graphisme.

3.2.2. Maquette

Réaliser une maquette. En fonction du résultat, apporter les modifications encore possibles.

268 Conduire un projet de numérisation

3.2.3. Tests

Procéder à une phase de tests. Elle est réalisée par des per­sonnes extérieures au service, pendant au moins deux semaines. Après la mise en ligne, on peut procéder à une évaluation conti­nue des produits grâce à la messagerie et aux forums.

3.2.4. Lancement du produit numérique

Communiqués de presse, publicités et promotions diverses Sur tous ces aspects voir les articles suivants :

Constituer une base de données. Charlette Buresi, Laure Cédelle-Joubert. La solution internet : l'exemple de Lyon. Pierre Guinard. Créer et diffuser un cédérom de documents numérisés. Mireille Vial. Intégrer les documents numérisés dans un catalogue. Marie-Pierre Dion. Réaliser une exposition virtuelle sur Internet. Jacques Gana.

3.3. Maintenance

3.3.1. Révisions et mises à jour

Prévoir une personne qui assurera la mise à jour des don­nées et en vérifier la complétude. S'il n'existe pas d'équipe dédiée à cette tâche, mieux vaut prévoir la périodicité des mises à jour.

3.3.2. Archivage

Sauvegarder, y compris les mises à jour, prévenir les pannes de système.

Mémento

3.3.3. Anticiper la demande du public

La mise en ligne de documents s'accompagne d'un accrois­sement de la demande de consultation des originaux, ou de la demande d'informations sur les originaux. Il est prudent de pré­voir cette probable évolution et plus particulièrement de se demander si la bibliothèque fournira, et dans quelles conditions, des reproductions numériques de ses documents.

A N N E X E S

Annexe 1 : Modèle de cahier des charges

Cahier des charges de numérisation

par Albert Sitruk

1. OBJET DU MARCHÉ

Ce marché a pour objet une prestation de numérisation des supports suivants :

• documents imprimés - ouvrages reliés communs - ouvrages reliés anciens - périodiques, magazines - brochures - manuscrits • documents iconographiques - photographies - diapositives - illustrations - dessins - cartes - objets (pièces de monnaie...) • microformes - microfilms - microfiches - cartes à fenêtre

Conduire un projet de numérisation

Le présent CCTP décrit : - les spécifications techniques et opératoires de la presta­

tion demandée ; - les conditions d'exécution de cette prestation ; - les procédures de réception de la fourniture ; - les dispositions administratives générales.

2. SPÉCIFICATIONS TECHNIQUES ET OPÉRATOIRES

2.1. Description du fonds

2.1.1. Objectifs de la numérisation

L'opération de numérisation du fonds vise les objectifs suivants : - conservation du patrimoine avec (ou sans) restauration ; - production de supports autonomes de diffusion (CD ou DVD) ; - diffusion en ligne sur réseau local ; - diffusion sur Internet. Le prestataire pourra éventuellement proposer la mise en

œuvre de solutions ou de techniques de traitement spécialement adaptées à ces objectifs. Si les options proposées diffèrent de cel­les retenues dans le présent cahier des charges, elles seront pro­posées en tant que variantes ou options. Elles seront alors amplement détaillées afin de permettre au responsable de juger de leur applicabilité dans l'environnement technique et organisa-tionnel particulier au projet et si elles s'inscrivent dans le con­texte normatif du plan directeur informatique.

2.1.2. Caractéristiques du fonds de documents

Des fiches de spécifications détaillées sont fournies en annexe. Le tableau suivant résume les principales caractéristi­ques du fonds de documents objet de cette consultation.

Annexe 1

Liste des catégories de documents à numériser

Catégorie Titre de la collection Format Couleur Volume

Qualité Catégorie Titre de la collection Format Couleur Nombre usités

Nombre éléments

Qualité

Documents imprimés Ouvrages reliés communs

Ouvrages reliés anciens Pénodiques, magazines

Brochures Manuscrits

Documents iconographiques

Photographies Diapositives Illustrations

Dessins Cartes Objets

Microformes Microfilms

Microfiches Cartes à fenêtre

Remarques : On ne recensera que les catégories correspondant à la pres­

tation demandée. Pour chaque catégorie apparaîtra une ligne pour chaque lot

présentant des caractéristiques différentes. Format : indiquer les dimensions. Couleur : indiquer N&B, niveaux de gris ou couleur Nombre d'unités : indiquer le nombre d'entités à scanner

(ex. nombre de livres, de bandes...) Nombre d'éléments : indiquer le nombre d'entités élémen­

taires à numériser (ex : pages, séquences sonores...) Qualité : indiquer : Bon / Moyen / Mauvais

276 Conduire un projet de numérisation

2.1.3. Caractéristiques particulières

À compléter éventuellement.

2.2. Conditions de mise à disposition

Les documents à numériser seront rassemblés en lots de numérisation.

La préparation de ces lots incombe à la bibliothèque. Les tâches de préparation de ces lots peuvent s'avérer trop lourdes pour l'effectif disponible. Aussi afin d'assurer le déroulement de l'opé­ration de numérisation selon le calendrier prévu, la bibliothèque peut envisager, moyennant l'application de procédures strictement définies ci-après, de faire exécuter ces tâches de préparation par le prestataire. Sont décrites aux paragraphes suivants les différentes modalités de mise à disposition des lots de numérisation.

2.2.1. Constitution des lots

Un lot rassemble un certain nombre de documents à scanner et constitue une livraison destinée au prestataire. C'est une entité indivisible dans l'organisation des échanges entre le prestataire et la bibliothèque. Elle permet d'assurer à la fois un suivi rigoureux de l'avancement des travaux, un contrôle exhaustif de la fourni­ture et sert de base à la facturation. Il est donc interdit au presta­taire de modifier la constitution d'un lot. Toute dérogation à cette règle devra faire l'objet d'un accord explicite de la part du res­ponsable de la bibliothèque.

La taille du lot sera déterminée d'un commun accord entre le prestataire et le responsable de la bibliothèque en fonction de différents critères :

- le rythme de production envisagé pour l'opération ; - la capacité de traitement du prestataire ;

Annexe 1

- la fréquence des échanges autorisée par la logistique mobilisable qui dépendra à la fois de la localisation géographique du prestataire relativement à la bibliothèque et les moyens de transport disponibles et les coûts associés.

Le prestataire fera des propositions d'organisation de cette logistique et indiquera les bases de coût des différents transports envisagés dans différents scénarios.

2.2.2. Conditionnement des lots

Les documents seront disposés dans un emballage adéquat pour supporter son expédition et maintenir la consistance du lot.

En cas de réceptacles spécifiques (malle capitonnée par exemple), le prestataire devra envisager une mise à disposition de ces emballages lesquels seront recyclés en cours d'opération et lui seront restitués à son terme.

2.2.3. Identification du lot et de ses constituants

Chaque lot est identifié par une étiquette comportant les informations suivantes :

- le nom de la bibliothèque expéditrice ; - un numéro unique identifiant le lot ; - la date d'expédition ; - le nombre de documents contenus dans le lot ; - la liste des documents et leurs caractéristiques telles que

spécifiées plus haut. Deux exemplaires de l'étiquette seront joints au colis, les­

quels seront signés à la réception par chacune des parties et cons­titueront une preuve de livraison.

Concernant l'expédition des lots, le prestataire proposera une organisation adéquate et en déterminera le coût correspon­dant. Il veillera en particulier à garantir pour ce transport le

278 Conduire un projet de numérisation

niveau de sécurité approprié à la valeur des documents qui lui seront confiés.

2.2.4. Conditions de sous-traitance de la préparation des lots

Cette prestation est optionnelle. Son objet est de permettre à la bibliothèque de pallier l'absence de moyens en interne pour prendre en charge les tâches de préparation des lots et conduire l'opération de numérisation envisagée dans les meilleures condi­tions.

Les tâches à effectuer par le personnel du prestataire déta­ché à la bibliothèque sont les suivantes :

- préparation des listes de documents à numériser confor­mément aux instructions du conservateur ;

- extraction des documents de leur lieu de rangement ; - étiquetage des différents documents ; - préparation des étiquettes d'identification du lot ; - emballage du lot ; - remise du lot à un personnel désigné de la bibliothèque

pour contrôle et signature du bordereau d'expédition ; = - expédition du lot aux locaux du prestataire pour numéri- §

sation. 1 (D

Il nous semble important de signaler que par cette sous- f traitance, le conservateur délègue au prestataire le droit de sortir g de la bibliothèque des ouvrages, ce qui nécessite un engagement | contractuel précis de la part du sous-traitant, définissant claire- | ment ses responsabilités et les contraintes qui en résultent. Il | devra donc spécifier précisément les modalités qu'il entend J employer pour garantir la sécurisation de son personnel et des ^ procédures mises en œuvre. I

La bibliothèque quant à elle désignera un responsable qui ^ aura pour charge d'effectuer les contrôles nécessaires à la super- | vision des mouvements de documents entre le prestataire et la ^

Annexe 1

bibliothèque. Ce responsable visera les bordereaux d'expédition et enregistrera, sur la base de la liste fournie par le prestataire les ouvrages indisponibles dans l'application de gestion de la biblio­thèque.

2.3. Conditions de retour des lots

Cette opération est identique à la précédente. Après numé­risation et contrôle le prestataire expédiera à la bibliothèque :

- les documents qui lui ont été confiés ; - la liste de pointage des documents restitués accompagnée

de la liste originale ; - les supports informatiques comportant les images des

documents numérisés ; - la liste de pointage des fichiers informatiques correspon­

dant aux supports fournis ; - le rapport de contrôle de production relatif au travail

effectué.

2.3.1. Retour des documents originaux

Les documents originaux doivent être rendus à la bibliothè­que dans les mêmes conditions que celles prévalant lors de leur remise au prestataire :

• le prestataire devra assurer une constitution des lots « retour » à l'identique des lots « départ » ;

• l'emballage sera identifié de façon identique : - nom de la bibliothèque destinataire ; - numéro de lot ; - date d'expédition ; - nombre de documents contenus dans le lot ; - liste des documents et leurs caractéristiques.

Conduire un projet de numérisation

Les documents ayant subi une dégradation quelconque ou ayant nécessité un traitement particulier seront signalés dans cette liste.

• L'étiquette d'identification de chaque document sera conservée. • Les documents eux-mêmes seront éventuellement recondi­

tionnés dans le cas où le prestataire aurait été conduit, avec l'accord explicite du conservateur, à transformer le conditionne­ment original - dégrafage, massicotage, débrochage, démontage...

• Expédition des lots « retour » par un moyen identique à celui employé pour les lots « départ ».

2.3.2. Livraison du support informatique

Les supports informatiques - dont la nature est définie au début du paragraphe 1 - seront expédiés dans les mêmes condi­tions que les documents originaux.

S'il le juge utile, le prestataire pourra regrouper dans une même livraison, voire sur un même support, les fichiers corres­pondant à différents lots. Il devra néanmoins identifier explicite­ment chaque lot dans chaque livraison.

Chaque support sera identifié par impression afin de per­mettre son identification dans le cadre d'une conservation long terme. Cette impression comportera les éléments suivants :

- nom de la bibliothèque destinataire ; - titre de la (ou des) collection(s) ; - numéro du ou des lots ainsi qu'un indice de suite au cas où

un même lot se répartirait sur différents supports ; - date de fabrication du support. Le support sera accompagné d'un listing spécifiant pour

chaque support la liste structurée des fichiers fournis conformé­ment à la spécification décrite au début du paragraphe 1.

Annexe 1

2.3.3. Le rapport de contrôle de production

Les procédures de contrôle à mettre en place sont décrites au début du paragraphe 1.

Le prestataire produira un rapport de contrôle de produc­tion. Ce rapport se compose de deux parties :

• Une fiche de contrôle qui indiquera pour chaque lot : - l'identification du lot ; - la date du contrôle ; - le visa du contrôleur ; - le visa du chef d'atelier ; - la liste des images contrôlées ; - la liste des mires de contrôle insérées dans le lot ; - les contrôles effectués pour chaque image : affichage,

impression, consultation des propriétés de l'image, lecture de la taille du fichier, vérification de la conformité du nom de fichier avec les règles de nommage ;

- les anomalies éventuellement détectées ainsi que le traite­ment correctif apporté.

• L'ensemble des impressions de contrôle effectuées. Sur chaque impression apparaîtront les données d'identification du fichier correspondant ainsi que la date de l'impression.

2.3.4. Contrôle de réception

Un préposé sera désigné à la bibliothèque pour la conduite des opérations de contrôle de réception. Les contrôles effectués sont de deux ordres :

• Contrôle de la fourniture -pointage des documents originaux, contrôle de l'étique­

tage et examen de l'état physique des documents restitués ; - pointage des supports informatiques et vérification de leur

identification ; - examen du rapport de contrôle de production.

Conduire un projet de numérisation

• Contrôle des images Le préposé disposera d'un poste de consultation équipé de

manière appropriée pour la mise en œuvre de ces contrôles. - pointage des fichiers images et vérification du respect des

règles de nommage ; - contrôle aléatoire (ou exhaustif selon le cas) des images. Au terme de ce contrôle, le préposé vise le bordereau de

livraison pour approuver la fourniture et déclencher le paiement correspondant. En cas d'anomalie il dispose d'un formulaire sur lequel il signale les anomalies constatées et renvoie le cas échéant la fourniture au prestataire.

2.3.5. Conditions de sous-traitance du reclassement des documents

Au même titre que pour la sous-traitance de préparation des lots, cette prestation est optionnelle. Son objet est de permettre à la bibliothèque de pallier l'absence de moyens en interne pour prendre en charge les tâches de reclassement des documents et assurer la remise en service des documents dans les meilleurs délais.

Les tâches à effectuer par le personnel du prestataire déta­ché à la bibliothèque sont les suivantes :

- pointage des documents de chaque lot ; - contrôle (exhaustif) de l'état du document et signalement

d'éventuelles détériorations constatées ; - détermination de la cote de classement de chaque

document ; -remise des documents dans leur lieu de classement

d'origine ; - enregistrement du retour dans le logiciel de gestion de la

bibliothèque ; - remise d'un rapport d'activité au responsable en fin de

prestation.

Annexe 1

2.4. Spécification des traitements demandés

À cette rubrique sont détaillées les modalités techniques des traitements à effectuer par le prestataire. On y présente l'ensem­ble des questions concernant les spécifications techniques exi­gées pour la fourniture ainsi que l'impact que ces exigences peuvent avoir sur les procédés employés par le prestataire pour les différentes catégories de documents envisagées. Les différen­tes variantes opératoires sont répertoriées dans les fiches de spé­cification annexées à ce document et déterminent les options retenues dans le cadre de la présente consultation.

2.4.1. Numérisation

Nous rappelons ici les spécifications générales relatives à la numérisation. Les caractéristiques spécifiques à chaque catégorie de support sont détaillées dans les fiches de spécification fournies en annexe et applicables à la prestation demandée.

2.4.1.1. La résolution

Le choix de la résolution de numérisation dépend de trois facteurs principaux :

- l'utilisation projetée pour les images numériques ; - les limites de la technologie actuelle pour chaque type de

média ; - la prise en compte des évolutions à moyen / long terme

des conditions qui déterminent les 2 facteurs précédents de manière à éviter un nouveau recours aux documents originaux.

Dans ce contexte seront envisagés différents niveaux de résolution :

- la haute résolution pour la conservation à long terme des documents numériques. Dans certains cas (notamment pour les photos avec un facteur de zoom important) la haute résolution

284 Conduire un projet de numérisation

envisagée pourra néanmoins s'avérer insuffisante et nécessiter un retour à l'original ;

- la résolution d'affichage à l'écran qui peut s'envisager à 2 ou 3 niveaux - plein écran, 1/3 ou 1/4 d'écran, vignette ;

- la résolution d'impression sur une imprimante laser cou­rante (300 ou 600 dpi) pour une pleine page.

Le tableau suivant positionne les résolutions retenues pour chaque catégorie de média.

Media Haute résolution Résolution d'affichage

Résolution d'impression

Documents imprimés 600 dpi 300 dpi 300 dpi

Documents iconographiques

300 à 3 000 dpi 72 dpi 300 à 600 dpi

Microformes 400 dpi 300 dpi 30 dpi

2.4.1.2. Les différents fichiers produits

Un document numérisé est en général constitué de plusieurs entités, chacune produisant un fichier. Il sera donc nécessaire de relier entre eux les fichiers afin de reconstituer le document dans son intégralité. Afin d'assurer ce lien, il est demandé au presta­taire de rassembler ces fichiers sous un même répertoire. Un mécanisme de nommage séquentiel pourra alors être employé pour désigner les différents éléments consécutifs.

• Exemples de nommage de fichiers images Livres

Répertoire AAA Pages p0001.TIF

p0002.TIF p0003.Tif etc.

Annexe 1

Ouvrage avec pages composées Répertoire BBB1 Pages pOOO 1 .TIF Illustrations i0001_01.TIF

[0001_02.TIF p0002.TIF i0002_01.TIF etc.

Chaque résolution choisie produit un fichier. Le prestataire disposera ces différentes catégories de fichiers dans des répertoi­res indépendants.

Nous aurons donc pour chaque document les fichiers suivants :

- le fichier « brut de scan » correspondant à la haute résolu­tion. Ce fichier doit toujours être fourni par le prestataire. Il sera utile pour toute opération future de conversion des images soit dans un but d'augmenter la résolution des images utilisées soit pour la mise en œuvre de nouveaux formats de compression. Il pourra dans certaines circonstances être mis à la disposition des « lecteurs » qui souhaitent disposer d'une plus grande résolution d'affichage ;

-les fichiers de consultation correspondant aux images affichables ;

- les fichiers imprimables.

2.4.1.3. Les formats de données

Le tableau suivant indique les formats de données à employer pour les différentes catégories de fichier applicables à chaque type de média.

Conduire un projet de numérisation

Media Brut de scan Fichier de consultation

Fichier d'impression

Documents imprimés TIFF GR.4 PDF PDF Documents iconographiques

TIFF non compressé JPEG (80 %) JPEG (80 %)

Microformes TIFF GR.4 PDF PDF

2.4.2. Indexation

L'indexation permet de faire le lien entre la notice biblio­graphique répertoriant le document primaire et le document image. La mise en œuvre de ce lien pour une consultation nécessite de disposer d'une application informatique qui assurera les fonctions d'interrogation et de consultation des documents. Cette application est à la charge de la bibliothèque. Afin de sim­plifier le travail de saisie du prestataire, nous proposons la saisie par ce dernier d'un identifiant unique (un numéro d'ordre), affecté à chaque document. Ce numéro sera inscrit sur une éti­quette apposée sur le document. Ce numéro servira de lien entre les images et les notices bibliographiques. Le lien entre les fichiers images et ce numéro sera consigné dans un fichier d'identification accompagnant la fourniture.

2.4.2.1. L'identification

Cette identification constituera un identifiant unique du document. On pourra envisager la nomenclature suivante :

Scénario Identification de la bibliothèque

Identification de la collection

Numéro séquentiel

Scénario I X

Scénario 2 X X

Scénario 3 X X X

Annexe 1 287

Le scénario 1 est le plus simple. À chaque document est attribué un numéro séquentiel unique lors de sa sortie pour la numérisation. Ce numéro est consigné dans le fichier matière, ce qui permettra d'établir le lien entre la notice bibliographique et le document.

Le scénario 2 permet de segmenter le fonds par collection. Dans ce cas, on pourra limiter l'unicité du numéro séquentiel à la collection. Ce scénario est adapté si l'on entreprend la numérisa­tion de plusieurs collections simultanément et trouve sa justifica­tion si les fichiers matière des 2 collections sont distincts.

Le scénario numéro 3 permet de matriculer les documents par l'identification de la bibliothèque. Cette option doit être considérée comme une précaution supplémentaire.

Pour tous ces scénarios, la saisie reste minimale.

2.4.2.2. Le fichier d'identification

Le fichier d'identification permet d'établir le lien entre les identifiants des documents et les fichiers images résultant de la numérisation. Ce fichier permet de minimiser l'impact sur la

m chaîne de production tout en laissant à l'application destinataire | toute latitude pour structurer sa propre base documentaire. | Le fichier d'identification accompagne chaque fourniture. Il | est généré au format ASCII délimité conformément à la structure | suivante : co c

£ Identifiant lot

8 Identifiant document. Nom répertoire HR, Nom répertoire BR, Nom | répertoire MR

Q. 3 Idem --s Idem -(A C

ï HR Haute résolution (brut de scan) :| BR Basse résolution (fichier de consultation) 5 MR Moyenne résolution (fichier d'impression) ©

Conduire un projet de numérisation

Le fichier d'identification sera disposé sous la racine du répertoire principal et désigné par :

NUMERO_DE_LOT.IDX

2.4.3. Contrôle

À l'issue de la numérisation de chaque lot de documents, une vérification est effectuée par le prestataire. Cette vérification portera sur un échantillon de la production. Dans certains cas par­ticuliers, il pourra être demandé un contrôle exhaustif.

2.4.3.1. Les échantillons de contrôle

Le prestataire procédera à un contrôle par sondage des documents numérisés. Cet échantillon sera constitué d'un nom­bre d'éléments déterminé selon les règles précisées au tableau suivant.

Catégorie Qualité

Catégorie Bonne Moyenne Mauvaise

Documents imprimés Ouvrages reliés communs 10% 20% 30%

Ouvrages reliés anciens 20% 30% 100%

Périodiques, magazines 10% 20% 30%

Brochures 10% 15 % 20%

Manuscrits 20% 30% 50%

Documents iconographiques Photographies 10% 20% 30%

Diapositives 10% 20% 30%

Illustrations 10% 20% 30%

Dessins 10% 20% 30%

Annexe 1

Catégorie Qualité

Catégorie Bonne Moyenne Mauvaise

Cartes 10% 20% 30%

Objets 10 % 20% 30%

Microformes Microfilms 10% 20% 30%

Microfiches 10 % 20 % 30%

Cartes à fenêtre 10 % 20% 30 %

L'échantillon de contrôle comportera pour chaque document les éléments suivants :

- la première page ; - la ou les pages du sommaire ; - des pages intérieures choisies de manière aléatoire, à

concurrence du pourcentage de nombre de pages précisé dans le tableau ci-dessus ;

- la dernière page.

2.4.3.2. Les procédures de contrôle

Outre la constitution de l'échantillon de contrôle, le presta­taire devra mettre en place des contrôles internes nécessaires à la surveillance du procédé employé.

- insertion de mires de contrôle ; - étalonnage de la chaîne de numérisation ; - contrôle visuel « à la volée » en cours de numérisation. Le prestataire décrira de manière exhaustive son processus

de production et les moyens de contrôle qu'il entend employer. Lors du contrôle de l'échantillon demandé, il procédera à

une restitution sur une imprimante des éléments de cet échan­tillon. Les reproductions ainsi produites seront annexées au rap­port de contrôle de production.

Conduire un projet de numérisation

Chaque page restituée portera les informations suivantes : - identifiant du lot ; - identifiant du fichier image ; - date d'impression. Un rapport de contrôle sera établi pour l'ensemble des lots

traités conformément aux spécifications fournies au § 2.3.3.

2.4.3.3. Le traitement des anomalies

En cas d'anomalie détectée lors du contrôle de l'échan­tillon, le prestataire devra la signaler dans le rapport de contrôle et reprendre la numérisation intégrale du lot concerné.

2.4.4. Définition des supports de livraison

Les fichiers images seront livrés sur CD-R conformément aux normes ISO/IEC 9660:1988 et ISO/IEC 10149:1989.

2.4.4.1. Conditionnement des CD-ROM

Le prestataire constituera dans la mesure du possible un CD-R ou un ensemble de CD-R par lot de numérisation. En cas de nécessité, il pourra juxtaposer sur certains CD-R les images de plusieurs lots, il veillera cependant à signaler cette situation dans la fourniture.

Les CD-R seront gravés avec le plus grand soin. Le taux de BLER toléré sera inférieur à 50 et ne devra jamais excéder 100.

Chaque CD-R sera identifié par une impression des infor­mations suivantes :

- nom de la bibliothèque ; - titre de la collection ; - numéro de lot (avec un indice suite pour les lots

nécessitant plusieurs CD, ou plusieurs numéros de lots en cas de juxtaposition de plusieurs lots sur un même CD) ;

- date de fabrication du support.

Annexe 1

2.4.4.2. Organisation des fichiers

Le CD-R comportera autant de fichiers d'identification que de lots contenus dans le CD. Chaque fichier d'identification sera dési­gné par un nom structuré ainsi : « NUMERO_DE_LOT.IDX ».

Les fichiers images correspondant à chaque lot seront dis­posés dans un répertoire désigné par NUMERO_DE_LOT.

Les fichiers images positionnés dans ce répertoire porteront un numéro séquentiel.

2.5. Calendrier d'échelonnement des opérations

Le tableau suivant indique le calendrier prévisionnel des opé­rations. Son objectif est d'indiquer au prestataire la cadence de pro­duction envisagée afin qu'il puisse planifier les prestations.

Etape Prestation Délai Lot 1

Livraison Réception Traitement Retour Contrôle Accusé de réception de la livraison (acceptation ou refus)

Lot 2 Livraison

Réception Traitement Retour Contrôle Accusé de réception de la livraison (acceptation ou refus)

Lot 3 Livraison

292 Conduire un projet de numérisation

Etape Prestation Délai Réception

Traitement Retour

Contrôle Accusé de réception de la livraison (acceptation ou refus)

Lot 4 Livraison Réception

Traitement Retour Contrôle Accusé de réception de la livraison (acceptation ou refus)

Lot 5 Livraison Réception Traitement Retour Contrôle Accusé de réception de la livraison (acceptation ou refus)

Lot 6 Livraison Réception Traitement Retour

Contrôle Accusé de réception de la livraison (acceptation ou refus)

Annexe 1 293

3. CONDITIONS D'EXÉCUTION DE LA PRESTATION

Nous résumons dans ce paragraphe les conditions géné­rales de déroulement des tâches en précisant les différentes éta­pes contractuelles et les documents échangés entre le prestataire et la bibliothèque.

Le schéma suivant représente le processus.

Etape 1 Préparation

de lots

Etape 2 Réception des lots

Etape 3 Numérisation

des lois

Etape 4 Contrôle des lots

Etape 5 ^ Conditionnement

des lots ,

Etape_6 Contrôle

de réception

o > to

©

Conduire un projet de numérisation

3.1. Préparation des lots

Cette tâche incombe à la bibliothèque. Elle pourra dans cer­taines circonstances être confiée à du personnel détaché par le prestataire, mais dans ce cas, le conservateur de la bibliothèque assume la supervision des travaux effectués.

Les documents suivants seront produits : - étiquette de lot ; - listing des constituants du lot ; - bon de commande.

3.2. Réception des lots

Le prestataire réceptionne le lot et en effectue le contrôle de conformité. Il signale éventuellement toute disparité entre la commande et le contenu effectif du colis. Il signale en outre toute détérioration des documents non explicitement signalée par la bibliothèque.

Les documents suivants sont transmis par le prestataire : - accusé de réception ; - signalement des anomalies.

3.3. Numérisation des lots

Tout au long des opérations, un document accompagne le lot : - la fiche de suivi des travaux. Cette fiche permet aux opérateurs de consigner tout dys­

fonctionnement relatif au traitement du lot.

3.4. Contrôle des lots

Le contrôle des lots est effectué a posteriori selon le proto­cole défini dans le marché.

Annexe 1

Cette étape produit les documents suivants : - un rapport de contrôle de production ; - les reproductions des éléments contrôlés.

3.5. Conditionnement des lots

Le prestataire reconditionne le lot dans un état identique à celui prévalant lors de sa réception. Il joint au colis les documents suivants :

- le rapport de contrôle de production ; - l'étiquette de lot ; - le listing spécifiant le contenu du support informatique.

3.6. Contrôle de réception

A la réception du lot, la bibliothèque effectue un contrôle minutieux de la fourniture au terme duquel elle adresse au pres­tataire les documents suivants :

- accusé de réception ; - signalement des anomalies éventuelles ; - bon d'acceptation / de refus des travaux. En cas d'anomalie, un signalement est adressé au prestataire

avec un retour du lot concerné. Le prestataire assume alors une reprise de la numérisation sur l'ensemble du lot. Si dans une même fourniture, la bibliothèque est conduite à refuser plus de deux lots, la totalité de production est alors refusée et renvoyée au prestataire.

296 Conduire un projet de numérisation

4. DISPOSITIONS ADMINISTRATIVES GÉNÉRALES

Ce paragraphe décrit les conditions administratives d'exé­cution du marché.

4.1. Modalités de règlement

Le prestataire produira une facturation au rythme de l'avan­cement des travaux réceptionnés sur la base suivante :

- à la fin de la prestation ; - mensuellement ; - autre. La facture devra stipuler la nature des travaux réalisés et

préciser les identifiants de lots concernés. Elle sera accompagnée du « bon d'acceptation » des lots correspondants.

4.2. Respect des délais et pénalités de retard

Le prestataire s'engage sur un calendrier de production éta- = bli au démarrage de l'opération. Il devra en respecter les délais | afin de permettre un déroulement progressif de la prestation. En » cas de glissement des délais résultant de circonstances non mai- f trisables par le prestataire, ce dernier devra en informer officiel- | lement le responsable de la bibliothèque dans les meilleurs délais g et proposer un nouveau calendrier des prestations. Dès réception §. de cet avis, le responsable convoquera le prestataire pour statuer | du fondement des raisons invoquées et signifier l'acceptation ou ^ le refus du calendrier proposé. i1

En cas de négligence avérée de la part du prestataire, une § pénalité sera appliquée sur le montant des prestations sur la base ^ de la formule suivante : 1

P = (V x R) / 300 |

Annexe 1

dans laquelle P représente le montant des pénalités, V le montant hors taxes des prestations commandées, R le nombre de jours calendaires de retard.

En outre, si l'immobilisation des documents confiés est jugée inacceptable pour le bon fonctionnement de la bibliothè­que, le prestataire devra alors, sur demande du conservateur, retourner à ses frais ces documents et en assurer ultérieurement la collecte pour la poursuite de la prestation.

4.3. Régime de propriété

Tous les documents confiés au prestataire sont soit la pro­priété de la bibliothèque, de l'université ou de la municipalité -ou de l'État -, soit celle des éditeurs signalés dans l'ouvrage et avec lesquels l'université aura signé une convention pour l'utili­sation des documents sous une forme électronique.

Le prestataire devra retourner à la bibliothèque l'ensemble des originaux qui lui sont confiés. Il devra en outre s'engager à ne pas utiliser les images produites à d'autres fins et s'interdira toute communication de tout ou partie de ces images à des tiers.

Le prestataire devra, pour des raisons de sécurité conserver une copie de sauvegarde des supports fournis à la bibliothèque. Il devra cependant s'engager à détruire ces supports soit dès signi­fication écrite du conservateur soit au terme d'un délai de 3 ans après la fin de la prestation.

4.4. Règlement des litiges

Tout litige concernant le déroulement de la prestation fera l'objet d'un courrier précis échangé entre les parties. Ce courrier sera suivi éventuellement d'une réunion de conciliation en pré­sence des différents acteurs et de leurs responsables.

Conduire un projet de numérisation

En cas de non-conciliation, le règlement du litige sera porté devant le tribunal compétent.

Dans tous les cas, le prestataire s'engage à retourner sans conditions à la bibliothèque les documents qui lui ont été confiés. Ces documents devront alors être reconditionnés par le presta­taire.

5. PRÉSENTATION DE L'OFFRE

Le dossier de réponse à la consultation comprendra les élé­ments suivants :

5.1. Dossier commercial

Ce dossier décrit le profil de la société. Le soumissionnaire produira une fiche d'identité de la

société comprenant notamment : - la structure sociale ; - la structure fonctionnelle et les effectifs en distinguant la

structure directement concernée par l'activité en relation avec la proposition ;

- les chiffres d'affaires des 3 dernières années en faisant ressortir la part correspondant à l'activité en relation avec la proposition ;

- les moyens logistiques disponibles pour assurer la prestation ;

- les références précises de prestations similaires à celles demandées.

Il décrira par ailleurs l'environnement technologique de développement et les standards techniques adoptés et mis en œuvre.

Annexe 1

5.2. Dossier technique

Ce dossier décrira de manière précise : -l'organisation que le prestataire entend mettre en œuvre

pour la prise en charge de la prestation : description du processus de production - collecte, réception, préparation, numérisation, contrôle, conditionnement et réexpédition ;

- les moyens matériels et humains dont il dispose où qu'il envisage éventuellement d'acquérir. Il précisera en outre s'il entend faire appel à de la sous-traitance pour tout ou partie des travaux demandés, et indiquera les références exactes de ses sous-traitants ;

- les préconisations techniques qu'il propose pour assurer la conformité de la fourniture avec les principes énoncés dans ce cahier des charges et les éventuelles dérogations qu'il juge utiles d'appliquer pour un meilleur résultat au vu des objectifs signalés et des évolutions de la technologie. Il devra, dans ce cas argu­menter pleinement ses préconisations ;

- le calendrier de mise en œuvre qu'il envisage d'appliquer à la prestation en prenant compte en particulier l'échelonnement des mises à disposition des documents et de leurs retours à la bibliothèque.

5.3. Engagements du prestataire

La bibliothèque attend du prestataire qu'il s'engage en ter­mes de résultats pour la prestation demandée. Cet engagement implique de sa part :

- la mise en place d'un processus de production adapté aux différentes natures de documents à numériser ;

- l'emploi des meilleures technologies disponibles ;

Conduire un projet de numérisation

- l'application d'un procédé de contrôle de production rigoureux ;

- la tenue impérative d'un registre de suivi des travaux ; - un contrat de garantie sur la fourniture pour une durée de

3 ans minimum, avec une reprise des documents défectueux.

5.4. Fiche de prix par type de prestation

Tableau des prix pour la numérisation de documents imprimés

Travaux Quantité PUTTC Total TTC Préparation

Numérisation

Haute résolution (600 dpi)

Moyenne résolution (300 ou 200 dpi)

Encodage

Traitement d'images

Redressement

Cadrage

Suppression du fond

Saisie de l'indexation

Saisie de l'identification

Autre saisie

Génération du fichier d'index

Contrôle

Contrôle par échantillonnage

Impression de l'échantillon

Production du rapport de contrôle

Reconditionnement

Autre traitement

Annexe 1 301

Travaux Quantité PUTTC Total TTC Autre traitement

Production et fourniture du CD-ROM brut de scan

Production et fourniture du CD-ROM de diffusion

Production de la bande magnétique (DLT) de sauvegarde

Pressage des CD-ROM

Coût du transport des lots

Frais d'emballage

Enlèvement des lots

Retour des lots

Option 1 - Prestation d'assistance à la préparation des lots

Option 2 - Prestation d'assistance au reclassement des documents

Tableau des prix pour la numérisation de documents iconographiques

Travaux Quantité PUTTC Total TTC Préparation

Reproduction de tirage papier

Contretypage vers phototype 24 x 36

Numérisation haute résolution

Traitement d'images - Recadrage technique

Génération des différents formats

Haute résolution (TIFF non compressé)

Plein écran (768 x 512)

Vignettes (128 x 192)

Conduire un projet de numérisation

Travaux Quantité PUTTC Total TTC Saisie de l'indexation

Saisie de l'identification

Autre saisie

Génération du fichier d'index

Contrôle

Contrôle par échantillonnage

Impression de l'échantillon

Production du rapport de contrôle

Reconditionnement

Autre traitement

Autre traitement

Production et fourniture du CD-ROM brut de scan

Production et fourniture du CD-ROM de diffusion

Production de la bande magnétique (DLT) de sauvegarde

Pressage des CD-ROM

Coût du transport des lots

Frais d'emballage

Enlèvement des lots

Retour des lots

Option 1 - Prestation d'assistance à la préparation des lots

Option 2 - Prestation d'assistance au reclassement des documents

Annexe 1 303

Tableau des prix pour la numérisation de microformes

Travaux Quantité PUTTC Total TTC Préparation

Numérisation

Haute résolution (400 dpi)

Moyenne résolution (300 ou 200 dpi)

Encodage

Traitement d'images

Redressement

Cadrage

Suppression du fond

Saisie de l'indexation

Saisie de l'identification

Identification automatique

Génération du fichier d'index

Contrôle

Contrôle par échantillonnage

Impression de l'échantillon

Production du rapport de contrôle

Reconditionnement

Autre traitement

Autre traitement

Production et fourniture du CD-ROM brut de scan

Production et fourniture du CD-ROM de diffusion

Production de la bande magnétique (DLT) de sauvegarde

Pressage des CD-ROM

Coût du transport des lots

Conduire un projet de numérisation

Travaux Quantité PUTTC Total TTC Frais d'emballage

Enlèvement des lots

Retour des lots

Option 1 - Prestation d'assistance à la préparation des lots

Option 2 - Prestation d'assistance au reclassement des documents

ANNEXE 2

Fiches de spécifications des travaux de numérisation

Albert Sitruk

Conduire un projet de numérisation

1. NUMÉRISATION DE DOCUMENTS IMPRIMÉS - LOT N°

Objectif de la numérisation

Description du fonds

Support Format Couleur Volume Quantités Commentaires

N. unités

N. éléments

Ouvrages reliés communs

Ouvrages reliés anciens

Périodiques, magazines

Brochures

Manuscrits

Identification des documents

Prestations demandées Préparation Dégrafage •

Massicotage • Tris •

Numérisation

600 dpi • 300 dpi • 200 dpi •

Encodage TIFF Gr.4 • TIFF LZW n

PDF • TIFF non compressé •

JPEG • DjVu •

Traitements images Redressement •

Cadrage • Suppression fond •

Saisie de l'indexation

Identification • Autre •

Génération index • Contrôle

Echantillonnage • Impression •

Rapport de contrôle •

308 Conduire un projet de numérisation

Reconditionnement Agrafage • Brochage • Reliure •

CD ROM Brut de scan • CD ROM diffusion •

DLT sauvegarde • Pressage •

Description de la fourniture (hors médias initiaux)

Répartition des documents par média: Ilot par CD HR [] 1 lot par CD diffusion [] n lots par CD HR Q n lots par CD diffudion []

CD images haute

résolution

CD images diffusion

DLT de

auvegarde

CD pressé

Quantité

Identification des fournitures

Commentaires

Annexe 2 309

2. NUMÉRISATION DE DOCUMENTS ICONOGRAPHIQUES - LOT N°

Objectif de la numérisation

Description du fonds

Format Quantité par type et polarité

Commentaire Format N&B Couleur Commentaire Format

Positif Négatif Positif Négatif

Commentaire

Tirage papier 10 x 15

Tirage papier 13 x 18

Tirage papier 18 x 24

Tirage papier 21 x 29,7

Phototype 24 x 36

Phototype 4x4

Phototype 4x5

Phototype 6x6

Phototype 6x7

Phototype 6x9

Autre :

310 Conduire un projet de numérisation

Identification des documents

Prestations demandés Préparation des documents sources •

Reproduction de tirage papier • Contretypage vers phototype 24 x 36 •

Numérisation haute résolution ( Format TIFF non compressé) Tirage papier 10 x 15 à 600 dpi • Tirage papier 13 x 18 à 600 dpi • Tirage papier 18 x 24 à 400 dpi •

Tirage papier 21 x 29,7 à 300 dpi • Phototype 24 x 36 à 3 000 dpi • Phototype 4 x 4 à 2 000 dpi • Phototype 4 x 5 à 2 000 dpi • Phototype 6 x 6 à 1 500 dpi • Phototype 6 x 7 à 1 400 dpi • Phototype 6 x 9 à 1 200 dpi •

Recadrage technique (Suppression des marges)

• Génération de format de consultation (Format JFIF avec compression JPEG à 80 %) plein écran (dans 768 x 512 pixels) • Vignette (maxi 128 x 192 pixels) •

Contrôle • Echantillonnage •

Annexe 2 311

Impression • Rapport de contrôle • Reconditionnement •

CD-ROM brut de scan • CD-ROM diffusion • CD-ROM diffusion •

Pressage • Description de la fourniture

(hors médias initiaux)

Les images sont livrées sur des médias contenant : • les images (HR - haute résolution, PE - plein écran et VI - vignettes) sans contrainte de nommage, • un fichier ASCII délimité de récolement, « recolement.txt » donnant le chemin d'accès des fichiers avec leur type (HR, PE ou VI) et l'identifiant du document source. NB : Pour une fourniture nécessitant plusieurs médias, les formats de consultation ne doivent pas être situés sur un média différent de celui de l'image haute résolution.

• CD-ROM • DVD-ROM • autre :

Identification des fournitures

Commentaires

312 Conduire un projet de numérisation

3. NUMÉRISATION DE MICROFORMES - LOT N°

Objectif de la numérisation

Description du fonds

Support

C _o

o -T3 Cd

C/5 CL» 3 > <D

_o e O z

3 <U 3 O U

c 03 l-i

£ <u û-3 O

OH J CQ

c CD S <D G C _o -3 c o U

u E _3 O >

C

s c •n O

sli

3 O

Observations

Microfilms 16 mm

Microfilms 16 mm

Microfilms 16 mm

Microfilms 16 mm

Microfilms 16 mm

Microfilms 35 mm

Microfilms 35 mm

Microfilms 35 mm

Microfilms 35 mm

Microfilms 35 mm

Microfilms 35 mm

Microfiches 105 mm

Microfiches 105 mm

Microfiches 105 mm

Microfiches 105 mm

Cartes à fenêtre AAjA 4 3 ;

AA . 10

Annexe 2

Identification des documents

Prestations demandées Préparation

Sortie des jacquettes • Identification des sessions •

Numérisation

400 dpi • 300 dpi • 200 dpi •

Encodage TIFF Gr.4 •

PDF • TIFF LZW •

TIFF non compressé • JPEG • DjVu •

Traitements images Redressement •

Cadrage • Découpage des pages • Saisie de l'indexation

Identification • Lecture des BLIP •

Lecture des perforations • Génération index •

Contrôle Echantillonnage •

Impression • Rapport de contrôle •

314 Conduire un projet de numérisation

Reconditionnement Remise en jacquettes •

Rembobinage • CD ROM Brut de scan •

CD ROM diffusion • DLT sauvegarde •

Pressage •

Description de la fourniture (hors médias initiaux)

Répartition des documents par média: Ilot par CD HR • 1 lot par CD diffusion •

n lots par CD HR [] n lots par CD diffudion []

CD images haute

résolution

CD images diffusion

DLT de

auvegarde

CD pressé

Quantité

Identification des fournitures

Commentaires

Annexe 3

Repères techniques

Charlette Buresi et Laure Cédelle-Joubert

Mode de numérisation des différents documents

Type de document Mode de numérisation recommandé Définition

Texte Texte imprimé Bitonal 300/400 dpi

Texte illustré noir et blanc Niveau en gris 300 / 400 dpi

Texte illustré couleur Couleur 24 bits 300 dpi

Cartes en couleur Couleur 24 bits 300 dpi. Pour visualiser des légendes très petites on peut dépasser les 400 dpi

Texte dactylographié ou au stylo bille

Bitonal Au moins 300 dpi

Texte manuscrit à l'encre ou au feutre

Bitonal 300 dpi

Papyrus Couleur 24 bits 600 dpi

Gravure Gravure sur bois Bitonal 600 dpi

similigravure Niveau de gris 300 dpi

Eau forte Niveaux de gris 400 dpi

Aquateinte Niveaux de gris 300 dpi

Lithographie Niveaux de gris 300 dpi

Photographie Photographie noir et blanc Niveaux de gris Au moins 300 dpi

Photographie couleur Couleurs 24 bits Au moins 300 dpi

D'après les normes suivies à la BNF, la Bibliothèque du Congrès et l'université de Comell.

Conduire un projet de numérisation

Caractéristiques des supports optiques et magnétiques

Supports optiques (DON, CD, DVD)

Supports magnétiques (DAT, bande magnétique,...)

Temps d'accès

Plus rapides que le support optique

Transfert de gros fichiers

La possibilité de la défragmentation accélère la procédure

Stockage des fichiers volumineux

Très compétitifs

Stockage hors ligne

Coût : - CD-R et DVD-R : quelques centi­mes la Mo - Disques optiques de grande capacité : 0,04 à 0,07 € le Mo

Conservation fiable pour le DON. Vérification des disques tous les 5 ans pour les CD-R et les DVD-R. Support actuellement le plus fiable pour l'archivage

Coût : - Bandes magnétiques : quelques centimes le Mo - Disques magnétiques fixe : 0,04 à 0.07 € le Mo

Supports très sensibles aux conditions de conservation. Ne conviennent réel­lement que comme support de trans­fert.

Stockage en ligne

Coût le plus intéressant, mais sécurisation coûteuse quand la capa­cité en ligne augmente

Maintenance et usure

Grande sensibilité à la poussière, mais le dépoussiérage est possible et les fabricants recherchent des systè­mes pour éviter la pénétration de la poussière.

Pas d'usure à la lecture, mais à l'écri­ture le laser peut endommager le support.

Nécessité de changer la tête optique d'un enregistreur / lecteur magnéto-optique tous les deux ans au moins selon la cadence d'utilisation.

Grande sensibilité aux chocs, vibra­tions et champs magnétiques.

Pas d'usure à la lecture

Annexe 3

Supports optiques (DON, CD, DVD)

Supports magnétiques (DAT, bande magnétique,...)

Sauvegarde Support non réinscriptible

Faible vitesse d'écriture

Excellents supports de sauvegarde pour une sauvegarde quotidienne sur bande magnétique. Cependant phase de restauration assez lente de récupé­ration des données.

Annexe 4

Quelques textes utiles

Valérie Game

Directive n° 91/250 du Conseil du 14 mai 1991 concernant la protection juridique des programmes d'ordinateur.

Directive n° 92/100 du Conseil du 19 novembre 1992 rela­tive au droit de location et de prêt et à certains droits voisins du droit d'auteur dans le domaine de la propriété intellectuelle.

Directive n° 93/98 du Conseil du 29 octobre 1993 relative à l'harmonisation de la durée de protection du droit d'auteur et de certains droits voisins.

Directive n° 95/46/CE du Parlement européen et du Conseil du 24 octobre 1995 relative à la protection des personnes physi­ques à l'égard du traitement des données à caractère personnel et à la libre circulation de ces données.

Directive n0 96/9/CE du Parlement européen et du Conseil du 11 mars 1996 concernant la protection juridique des bases de données.

Directive n° 97/36/CE du Parlement européen et du Conseil visant à la coordination de certaines dispositions législatives, réglementaires et administratives des États Membres relatives à l'exercice d'activités de radiodiffusion télévisuelle.

Directive n° 99/93/CE du 13 décembre 1999 sur un cadre communautaire pour les signatures électroniques.

Loi portant fixation du budget général de l'exercice 1922 (.Journal officiel du 1er janvier 1922) : article 119.

Loin° 78-17 du 6 janvier 1978 relative à l'informatique, aux fichiers et aux libertés.

Conduire un projet de numérisation

Loi n" 78-753 du 17 juillet 1978 portant diverses mesures d'amélioration des relations entre l'administration et le public et portant diverses dispositions d'ordre administratif, social et fis­cal.

Loi n0 79-18 du 3 janvier 1979 sur les archives. Loi n° 79-587 du 11 juillet 1979 relative à la motivation des

actes administratifs et à l'amélioration des relations entre l'admi­nistration et le public.

Loi n0 81-766 du 10 août 1981 relative au prix du livre. Loi n0 86-1067 du 30 septembre 1986 relative à la liberté de

communication. Loi n° 92-597 du Fr juillet 1992 relative au Code de la pro­

priété intellectuelle (plusieurs fois modifiée). Loi n° 94-665 du 4 août 1994 relative à l'emploi de la lan­

gue française et textes d'application.

Circulaire du 14 février 1994 relative à la diffusion des don­nées publiques (Journal officiel du 19 février 1994).

Circulaire du 20 mars 1998 relative à l'activité éditoriale des administrations et des établissements publics de l'État (Jour­nal Officiel du 22 mars 1998).

Circulaire du 7 octobre 1999 relative aux sites internet des services et des établissements publics de l'État (.Journal officiel du 12 octobre 1999).

Circulaire du 9 décembre 1999 relative à l'institution d'un médiateur de l'édition publique (Journal officiel du 21 décembre 1999).

Circulaire du 31 décembre 1999 relative à l'aide aux démarches administratives sur l'intemet (Journal officiel du 7 janvier 2000).

Annexe 5

Contrats de cession ou d'acquisition de droits d'auteur

Valérie Game

La cession ou l'acquisition de droits d'auteur doit être écrite, signée des deux parties : cédant et cessionnaire.

Certaines mentions sont impératives sous peine de nullité : • chacun des droits cédés (droit de reproduction et/ou droit

de représentation) doit être énoncé ; • le domaine d'exploitation des droits cédés doit être déli­

mité quant : - à son étendue : il s'agit de définir les modes d'exploita­

tion en jeu ( par exemple l'enregistrement magnétique ou ciné­matographique, la reproduction par voie d'imprimerie...) ;

- à sa destination : il convient de préciser pourquoi et à quelle(s) fin(s) la cession est organisée (aux fins de diffusion sur le réseau Internet, aux fins de publication sur support papier...) ;

- au lieu : il faut indiquer le territoire de diffusion de l'œuvre (la France, l'Union européenne, le monde entier...) ;

-à sa durée : l'auteur peut céder ses droits pour la durée entière de la propriété intellectuelle ou une durée plus courte.

Par ailleurs, le prix de cession doit être indiqué au contrat. Il en est de même si la cession est gracieuse. La rémunération de l'auteur est proportionnelle. Elle ne peut être forfaitaire que dans des cas limités, définis expressément par la loi (article L 131 -4 du CPI).

BIBLIOGRAPHIE

par Charlette Buresi et Laure Cédelle-Joubert

BEQUET, Gaëlle. - La numérisation des documents patri­moniaux. In : Protection et mise en valeur du patrimoine des bibliothèques , Paris, DLL, 1998.

BEQUET, Gaëlle. - La numérisation et la consultation des documents. In : Bibliothèques et informatique, Paris, DLL, 1997.

BEQUET, Gaëlle, CEDELLE-JOUBERT, Laure. - Numé­risation et patrimoine documentaire. In : Bulletin des bibliothè­ques de France, n0 4, 2000.

BURESI, Charlette. - À propos de la numérisation, Paris, Sous-Direction des bibliothèques et de la documentation, 1999. URL : http:Hwww.sup.adc.ediication.fr/bibl (visité le 6 décem­bre 2001).

JACQUESSON, Alain, RIVIER, Alexis. - Bibliothèques et documents numériques, Paris, Éditions du Cercle de la Librairie, 1999.

KENNEY, Anne R., CHAPMAN, Stephen. - Digital Ima-ging for Libraries and Archives, Ithaca (New-York), Comell University Library, 1996.

LEE, Stuart D. - Digital imaging : a practical handbook, Londres, Library Association Publishing, 2000.

Conduire un projet de numérisation

LUPOVICI, Catherine. - La rétroconversion de documents. In : Le document numérique, n° 2, 1997.

LUPOVICI, Catherine. - L'information bibliographique des documents électroniques. In : Bulletin des Bibliothèques de France, t. 43, n° 4, 1998.

LUPOVICI, Catherine. - Identification des ressources sur Internet et métadonnées. In : Documentaliste-Sciences de l'infor­mation, n" 6, 1999.

LUPOVICI, Catherine. - Les stratégies de gestion et de conservation préventive des documents électroniques. In : Bulle­tin des bibliothèques de France, t. 45, n0 4, 2000.

LUPOVICI, Catherine. - Les principes techniques et orga-nisationnels de la préservation des documents numériques. In : Journées d'études / 31' Congrès de l'ADBU, Marseille, 14 sep­tembre 2001. URL: http : ! ! www-sv .cict fr! adbu (visité le 12 novembre 2001).

LUPOVICI, Catherine. - Les besoins et les données techni­ques de préservation. In : 67"' IFLA général conférence, August 16-25, 2001. 163-168F. URL : http://www.ifla.org/IV/ifla67/ papersl163-168f.pdf (visité le 12 novembre 2001).

NEOUZE, Valérie. - Quelle bibliothèque numérique pour une bibliothèque patrimoniale ? L'exemple de la bibliothèque centrale du Muséum d'Histoire naturelle de Paris. Mémoire d'étude, mémoire DCB 9, Enssib, 2000.

SETA-JOANNIC, Frédérique. — Le rôle de la numérisation dans la mise en valeur des fonds patrimoniaux : l'exemple de la bibliothèque inter-universitaire Cujas, mémoire DCB 7, Enssib, 1999.

Les Bibliothèques numériques, [coord.] Gérard Dupoirier, Xerox. - Paris : Hermès, 1999. - 256 p. - (Document numérique ; 2. 3/4).

Bibliographie 325

Les Documents anciens, [coord] Jacques André, Marie-Anne Chabin. - Paris : Hermès, 1999. - 180 p. - (Document numérique ; n° spécial).

Sites Web HOULE, Françoise. - Ateliers de micrographie et de numé­

risation, norme technique et financière, avril 2001, Agence inter­gouvemementale de la Francophonie, Banque internationale d'information sur les États francophones. URL : http:!! www.acctbief.orglatelier.htm (visité le 6 décembre 2001).

KENNEY, Anne R., SHARPE, L. H. - Illustrated book study : digital conversion requirements printed illustrations. URL : http :!! Icweb .loc .gov!preserv! rt! illbk! ibs .htm#abstract (visité le 6 décembre 2001).

Building Digital Collections : Technical Information, In Background Papers. Site de la Bibliothèque du Congrès. URL : http://memorY.loc.gov/ammem/ftpfiles.html (visité le 6 décembre 2001).

Flash Réseau, revue éditée par le Bibliothèque nationale du | Canada.

B URL: http:llwww.nlc-bnc.cal9lllindex-f.html (visité le ® 6 décembre 2001). | Ministère de l'Éducation nationale. Bibliothèques de

§ l'enseignement supérieur. Site présentant les résultats des enquê-s tes sur les projets de numérisation et donnant accès au catalogue § des fonds culturels numérisés. URL : http://www.sup.adc.educa-| tionfr/bib! (visité le 6 décembre 2001 ).

fD ^ Mission de la Recherche et de la Technologie du ministère 1 de la Culture et de la Communication, site présentant les recom-" mandations de la Direction du livre et de la lecture en matière de 1 numérisation. URL : http://www.culturefr/culture/mrt/numeri-^ sation (visité le 6 décembre 2001).

Conduire un projet de numérisation

Premier Ministre : Mission interministérielle de soutien technique pour le développement des technologies de l'informa­tion et de la communication dans l'administration. (MTIC). URL : http://www.mtic.pm.gouv.fr (visité le 6 décembre 2001).

Préservation Ressources. Site de l'université de Berkeley recen­sant la documentation sur le Web relative à la numérisation. URL : http://sunsite.berkeley.edu/Preservation/ (visité le 6 décembre 2001).

Composition : Compo-Méca sari

64990 Mouguerre

Impression : Europe Media Duplication S.A.

F53110 Lassay-les-Châteaux

N0 dossier : 9532 - Dépôt légal : juin 2002

No 551 -rrso0

collection

La Boîte à outils

C o n d u i r e u n p r o j e t d e n u m é r i s a t i o n

Si les projets de numérisation foisonnent dans les bibliothèques aujourd'hui, l'improvisation et l'en­thousiasme prennent trop souvent le pas sur la réflexion organisée. Conduire un projet de numé­risation, c'est réfléchir aux publics concernés, prendre la mesure des contraintes technologiques et réglementaires, fixer l'ambition et les limites du projet intellectuel et technique, exploiter et valoriser le produit de la numérisation.

P o u r p r é s e n t e r l ' é t a t l e p l u s r é c e n t d e s o u t i l s e t d e s r é f l e x i o n s s u r l a q u e s t i o n . , L a u r e C é d e l l e - J o u b e r t , r e s ­p o n s a b l e d e s q u e s t i o n s d e n u m é r i s a t i o n à l a d i r e c t i o n d u l i v r e e t d e l a l e c t u r e d u m i n i s t è r e d e l a C u l t u r e e t d e l a C o m m u n i c a t i o n , e t C h a r l e t t e B u r e s i , d i r e c t r i c e d e l a b i b l i o t h è q u e d e l ' É c o l e d u L o u v r e e t p r é c é d e m m e n t c h a r ­g é e d e s m ê m e s r e s p o n s a b i l i t é s à l a s o u s - d i r e c t i o n d e s b i b l i o t h è q u e s e t d e l a d o c u m e n t a t i o n d u m i n i s t è r e d e l ' É d u c a t i o n n a t i o n a l e , d e l ' E n s e i g n e m e n t s u p é r i e u r e t d e l a R e c h e r c h e , o n t r é u n i l e s m e i l l e u r s c o n n a i s s e u r s e t p r a t i c i e n s f r a n ç a i s . I l s p r o p o s e n t i c i l e p r e m i e r m a n u e l p r a t i q u e e t c o m p l e t p o u r t o u t e s l e s b i b l i o t h è q u e s , p u b l i q u e s e t u n i v e r s i t a i r e s , q u i s o u h a i t e n t s e l a n c e r d a n s c e q u i e s t a s s u r é m e n t l e d é f i p r o f e s s i o n n e l d u X X I * s i è c l e .

2-910227-43-X

97829 0227432

2-7430-0551-3

9782743005511