Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée,...

71
1 / 71 Université Paul Cézanne Année universitaire 2010-2011 Du programme de numérisation de la Bibliothèque Sainte-Geneviève au projet de plate-forme de bibliothèque numérique mutualisée pour le Pôle de Recherche de l’Enseignement Supérieur Sorbonne Paris-Cité : La veille au service d’un projet de numérisation Mathieu Andro Mémoire de stage pour l’obtention du Master 2 à distance Veille Technologique et Innovation

Transcript of Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée,...

Page 1: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

1 / 71

Université Paul Cézanne

Année universitaire 2010-2011

Du programme de numérisation de la Bibliothèque Sainte-Geneviève au projet de plate-forme de bibliothèque numérique mutualisée

pour le Pôle de Recherche de l’Enseignement Supérieur Sorbonne Paris-Cité :

La veille au service d’un projet de numérisation

Mathieu Andro

Mémoire de stage pour l’obtention du Master 2 à distance Veille Technologique et Innovation

Page 2: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

2 / 71

SommaireLe projet en résumé......................................................................................................................... 4 Introduction .................................................................................................................................... 6 1- Nous et les autres : audit interne et benchmarking....................................................................... 6

1.1- Nous : audit interne .........................................................................................................6 1.1.1- Nos forces........................................................................................................... 8 1.1.2- Et nos faiblesses.................................................................................................. 8

1.2- Les autres : Benchmarking ............................................................................................14 1.2.1- Benchmarking des autres projets de numérisation ............................................. 14 1.2.2- Comparatif des solutions de diffusion................................................................ 16

2- Le dispositif de veille................................................................................................................ 22 2.1- Information formelle .....................................................................................................22

2.1.1- Les outils .......................................................................................................... 22 2.1.2- Sources et équations de recherche ..................................................................... 23 2.1.3- Analyse et bibliométrie ..................................................................................... 26

2.2- Information informelle ..................................................................................................29 2.3- Détection des opportunités et des menaces.....................................................................31

2.3.1- Opportunités ..................................................................................................... 31 2.3.1.1- Amazon Booksurge................................................................................31 2.3.1.2- Le Pôle de Recherche de l’Enseignement Supérieur (PRES) Sorbonne Paris-Cité31 2.3.1.3- Correction participative de l’OCR..........................................................32 2.3.1.4- Print on Demand....................................................................................33 2.3.1.5- Numérisation à la demande....................................................................35 2.3.1.6- Numérisation 3D du bâtiment ................................................................37 2.3.1.7- Encodage TEI (Text Encoding Initiative) ...............................................38 2.3.1.8- Appels à projets .....................................................................................38 2.3.1.9- Autres possibilités de diffusion ..............................................................39 2.3.1.10- Mécénat de compétences .....................................................................43 2.3.1.11- Brevets ................................................................................................44

2.3.2- Menaces............................................................................................................ 44 2.3.2.1- Solutions de diffusion concurrentes .......................................................44 2.3.2.2- Perte des données de la numérisation et archivage pérenne ....................46 2.3.2.3- Critiques du projet et e-reputation..........................................................47 2.3.2.4- Evolution du statut de la Bibliothèque....................................................49 2.3.2.5- Qui nous surveille ? ...............................................................................49

2.4- Evaluation du dispositif de veille et préconisations ........................................................51 3- Mise en œuvre et premiers résultats .......................................................................................... 53

3.1- Esquisse de tableau de comparaison stratégique des solutions de diffusion ...................53 3.2- Naissance du projet .......................................................................................................54

3.2.1- La « brigade volante »....................................................................................... 54 3.2.2- le Pôle de Recherche de l’Enseignement Supérieur (PRES) Sorbonne Paris-Cité54

3.3- Premiers résultats ..........................................................................................................55 3.4- Conduite du changement ...............................................................................................57 3.5- Référencement, communication et actions d’influence...................................................58

Conclusion.................................................................................................................................... 60 Bibliographie ................................................................................................................................ 63 Résumé ......................................................................................................................................... 68

Page 3: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

3 / 71

Avertissement: Les opinions soutenues dans le cadre de ce mémoire n’engagent que son auteur. L’Université Paul Cézanne, la Bibliothèque Inter-Universitaire Sainte-Geneviève ou le Pôle de Recherches de l’Enseignement Supérieur Sorbonne Paris-Cité ne sauraient être tenus pour responsables des libres propos exprimés ici. Confidentialité Ce mémoire ne doit pas être diffusé sur Internet sous cette version. Une autre version, comportant les corrections issues de la soutenance orale, et non susceptible de porter préjudice à l’image des institutions évoquées pourra faire l’objet d’une telle diffusion. Remerciements Je remercie la SNCF pour ses retards et le temps supplémentaire qu’elle m’a permis de consacrer à mon Master 2 et à la rédaction de ce mémoire en particulier (1 h 45 par jour). Je m’excuse auprès de mon épouse et de mes 3 enfants d’être parfois rentré à la maison à l’heure du dessert. Je remercie enfin mes chaleureux collègues de la Bibliothèque Sainte-Geneviève pour leur gentillesse et leur attention durant les 4 années passées à leur coté.

Page 4: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

4 / 71

Le projet en résumé La majeure partie des documents numérisés par les bibliothèques en France n'est pas diffusée en ligne et repose sur des DVD et disques durs, dont la durée de vie est d'ailleurs limitée (la durée de vie d’un CD-R est estimée à 1 an tandis que celle d’un disque dur n’est que de 5 ans en moyenne). En effet, les bibliothèques renoncent souvent à développer des plates-formes de diffusion trop complexes et trop coûteuses en ressources financières et humaines (Plus de 100 000 € et du personnel qualifié pour maintenir les serveurs et administrer les systèmes d’information), d'autant que le résultat n'est pas toujours à la hauteur des attentes. Par ailleurs, Gallica, la plate-forme de la Bibliothèque nationale de France, ne peut, à ce jour, offrir un débouché à ces bibliothèques et héberger les documents qu'elles ont numérisés, à cause d'un workflow adossé au seul catalogue de la Bibliothèque nationale de France. Gallica pourra, par contre, importer automatiquement (« moissonner ») les références des documents numérisés par les bibliothèques et accroître leur visibilité, mais il est néanmoins nécessaire que ces documents aient été préalablement mis en ligne. Or, c’est précisément là que se situe la difficulté pour les bibliothèques. Dans ces conditions, la mutualisation d'une plate-forme de diffusion des documents numérisés semble pertinente, elle permettrait, en effet, d’offrir enfin un débouché aux projets de numérisation, mais aussi d'accroître la visibilité des projets de numérisation grâce à un volume cumulé de documents numériques (car les algorithmes de référencement des moteurs de recherche tiennent largement compte du nombre de liens qui pointent vers les sites web) et de limiter leur balkanisation. Par ailleurs, le caractère collectif de la plate-forme serait susceptible d'en améliorer la qualité et d'en garantir la pérennité et ce, sans nuire à l'identité de chaque institution qui pourrait bénéficier de sa propre vitrine, de son nom de domaine, de son graphisme et de ses statistiques de consultation. Enfin, les coûts de développement et de maintenance pourraient ainsi être partagés. Un tel projet de mutualisation a tout d'abord été envisagé, sur mon initiative, dans le cadre d'un groupe de travail informel de bibliothèques universitaires réunies pour conduire un benchmarking, organiser des présentations de solutions logicielles et partager des synthèses en intranet. Ce groupe rassemblait la Bibliothèque de la Sorbonne, la Bibliothèque Mazarine, la Bibliothèque Inter-Universitaire de Pharmacie et le Service Commun de la Documentation de l’Université Paris 8. Un premier cahier des charges a ainsi été produit. Il a été repris par des consultants de la société Six et Dix. Par la suite, le Pôle de Recherche de l’Enseignement Supérieur (PRES) Sorbonne Paris-Cité a manifesté son intérêt pour le projet. Ce PRES rassemble les universités Sorbonne Nouvelle Paris 3, Paris Descartes Paris 5, Paris Diderot Paris 7, Paris 13, Sciences Po, l’Ecole des Hautes Etudes en Santé Publique (EHESP), l’Institut National des Langues et Civilisations Orientales (INALCO) et l’Institut de Physique du globe de Paris (IPGP). C’est dans ce nouveau cadre que le cahier des charges a été revu et corrigé, en collaboration avec un ingénieur informatique de la Bibliothèque de Sciences Po. La plate-forme devrait voir le jour à l'été 2012. Elle pourra d'ailleurs être progressivement ouverte au delà des bibliothèques du PRES. Les fonctionnalités suivantes, en particulier, sont envisagées : encodage TEI (Text Encoding Initiative), correction participative du texte océrisé, numérisation à la demande, vente d'impressions à la demande... En attendant de conduire le développement de cette plate-forme (2012), la Bibliothèque Sainte-Geneviève a décidé d'archiver ses fichiers de conservation sur les serveurs du CINES et de diffuser les documents qu'elle numérise sur archive.org. Plus de 2000 documents dont 280 incunables, 285 livres de voyages nordiques, 600 livres rares et difficilement accessibles du XIXe siècle, 900 factums des XVIIe et XVIIIe siècles sont en cours de numérisation à la Bibliothèque Sainte-Geneviève par la société Diadéis qui a installé un atelier de numérisation in situ. Les documents progressivement mis en ligne sont accessibles à partir de http://www.archive.org/details/bibliothequesaintegenevieve. Cette solution de diffusion présente, en effet, les avantages suivants : bon référencement par les moteurs de recherche, forte visibilité, envergure internationale, site public, gratuité, EPUB à la volée (pour les liseuses de ebooks), liens pérennes ARK, compatibilité RSS, Zotero, et pour finir, moissonnage par Gallica, la bibliothèque numérique de la Bibliothèque nationale de France.

Page 5: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

5 / 71

Arbre à objectifs du projet sous forme de carte conceptuelle

Page 6: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

6 / 71

Introduction La Bibliothèque Sainte-Geneviève est l’une des plus anciennes, des plus grandes et des plus prestigieuses bibliothèques universitaires et publiques de France. C’est une Bibliothèque Inter-Universitaire placée sous la tutelle de plusieurs universités parisiennes et rattachée administrativement à l’Université Sorbonne Nouvelle Paris 3. J’y ai été affecté pour une durée indéterminée, suite à un concours externe d’ingénieur d’études en systèmes d’information, en décembre 2008 afin de mettre en place son programme de numérisation. J’ai rapidement été amené à proposer le développement d’une plate-forme mutualisée. Ce projet est, pour une bonne part, le résultat d’une veille stratégique engendrant une connaissance accrue de l’environnement du projet de numérisation. Le dispositif de veille mis en place a pour objet de surveiller l'environnement du projet de plate-forme et d’être rapidement informé d'opportunités stratégiques indispensables à sa réussite, mais aussi de menaces susceptibles de la contrarier. Cette veille est d’ailleurs à l’origine de la plupart des aspects innovants du projet (numérisation à la demande, print on demand, correction participative de l’OCR...). Elle a également permis à la Bibliothèque Sainte-Geneviève de devenir un partenaire privilégié, car bien souvent premier en France à prendre contact, des projets de plateformes Polinum, e-corpus, Amazon BookSurge et archive.org. Enfin, la veille a permis d'avoir connaissance d'appels à projets et de sources de financements. Afin de surveiller l'environnement du projet, des discussions ont été entretenues avec des institutions (Bibliothèque nationale de France, Europeana, Agence Bibliographique de l'Enseignement Supérieur, Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU, Calameo, Evadoc, Scribd, Polinum, e-corpus) afin de collecter de l’information informelle à caractère stratégique. Ce renseignement humain est, en grande partie aussi, le résultat de la communication des informations collectées car cette communication a permis de constituer un réseau bénéficiant d’informations et susceptible d’en fournir de précieuses en retour. Dans le cadre de ce mémoire, une première partie sera consacrée à un audit sur les initiatives antérieures de numérisation au sein de la Bibliothèque Sainte-Geneviève et un benchmarking des autres projets et des solutions logicielles de bibliothèques numériques. Une deuxième partie décrira le dispositif de veille et de collecte d’informations formelles et de renseignements informels. Enfin, une troisième et dernière partie sera consacrée la mise en œuvre du projet et à un premier bilan.

1- Nous et les autres : audit interne et benchmarking

1.1- Nous : audit interne Bien que conservant des collections anciennes (bibliothèque d’une abbaye fondée sous Clovis), épargnées par la Révolution, prestigieuses, rares et nombreuses (2 millions de volumes, 2ème bibliothèque universitaire de France), la Bibliothèque Sainte-Geneviève a commencé sa numérisation tardivement en comparaison avec les initiatives prises par d’autres bibliothèques. A la fin des années 1990, elle avait toutefois participé à un programme de numérisation conduit par l’Institut de Recherche sur l’Histoire des Textes (IRHT, CNRS) en mettant à disposition ses manuscrits médiévaux afin que les enluminures en soient numérisées. La Bibliothèque Mazarine qui ne dépend pas de la même tutelle en fit de même. Les documents numérisés ont ensuite été diffusés sur 2 sites différents, Liber Floridus pour le Ministère de l’Enseignement Supérieur et Enluminures pour celui du Ministère de la Culture. En France, les bibliothèques peuvent dépendre de l’un ou l’autre de ces ministères et les projets inter ministériels demeurent assez rares (2 catalogues nationaux : SUDOC et CCFR, 2 sites de signalement des projets de numérisation : NUMES et patrimoine numérique, etc.).

Page 7: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

7 / 71

Malgré l’existence des sites Enluminures (ministère de la culture) et Liber Floridus (hébergé au Centre Informatique National de l’Enseignement Supérieur, Cines), la Bibliothèque Sainte-Geneviève a décidé de mettre en place un 3ème site pour la diffusion de ses enluminures numérisées. Cette décision était justifiée par la volonté de pouvoir mettre à jour les descriptions bibliographiques et enrichir leurs indexations, opérations qui étaient jugées plus difficiles dans le cadre de Liber Floridus. Le logiciel CADIC a été choisi, sans appel d’offres, pour ses fonctionnalités, mais il s’est rapidement révélé inadapté et n’a jamais pu être rendu accessible au public, malgré la formation de 2 personnes successives au service informatique qui ont d’ailleurs été confortées dans l’idée que le logiciel n’était pas adapté par les multiples plaintes adressées par le club des utilisateurs de CADIC à leur prestataire. A la Bibliothèque Sainte-Geneviève, le logiciel a, en particulier, nécessité des développements spécifiques, qui ont eux-mêmes généré un certain nombre de bugs expliquant les difficultés rencontrées. En effet, CADIC proposait une photothèque d’excellente qualité, mais ne permettait aucune hiérarchie relationnelle permettant de faire correspondre plusieurs enluminures à un même texte et plusieurs textes à un même corpus. Afin d’adapter le logiciel à ce type de besoin, un développeur de la société CADIC est venu travailler in situ. En plus des 3 tables (enluminures, textes et corpus), il en a créé une quatrième afin de mettre les 3 premières en relation. Le contenu de cette quatrième table devait être dynamiquement modifié à chaque modification de contenu de l’une des 3 premières tables (ajout, suppression ou modification de données). Or, c’est précisément ce développement spécifique qui a généré des erreurs, des bugs et des pages d’erreurs de script, qui ont rendu difficilement exploitable le logiciel, même en tant que simple outil de production. En attendant, et bien que le service informatique ne soit pas parvenu à permettre la diffusion en ligne, une conservatrice a été chargée d’utiliser CADIC afin d’améliorer l’indexation des notices produites par l’Institut de Recherche et d’Histoire des Textes. A mon arrivée et après une étude sur les solutions de diffusion de nos documents numérisés (logiciels et/ou plates-formes), j’ai rapidement constaté que cet outil n’était pas adapté, d’autant que le serveur sur lequel il était hébergé ne tarda pas à rendre l’âme. Malheureusement, la responsable du service informatique, à l’origine du choix de CADIC et également ma supérieure hiérarchique, a eu beaucoup de difficultés à accepter que la direction, sur ma suggestion, s’oriente vers une autre solution de diffusion. De son point de vue, des sommes importantes en licences, contrats de maintenance, développements spécifiques, formations, et personnels avaient effectivement été investies depuis de nombreuses années et il était regrettable de ne pas faire aboutir le projet. Il est vrai que je n’ai pas pu tester CADIC autant que je l’aurais souhaité, n’ayant pas bénéficié de la formation qu’avaient suivie les personnes qui m’avaient précédé sur le projet CADIC. Mais il est vrai aussi que, chargé d’un projet de numérisation de 2000 livres et non plus exclusivement d’images, je constatais qu’il n’existait aucun exemple d’utilisation de CADIC pour la diffusion de livres numérisés, ce que confirmeront les ingénieurs de CADIC eux-mêmes. Enfin, il me semblait qu’il était trop tard pour constituer une énième petite bibliothèque sans grande visibilité seuls dans notre coin, sur nos propres serveurs. Il me semblait qu’il était préférable de mutualiser les moyens, de partager les coûts pour participer à une bibliothèque numérique collective de meilleure qualité et avec une plus forte visibilité. La Direction de la Bibliothèque en était également convaincue et le projet CADIC fut donc abandonné, non sans peine. En dehors des enluminures, la Bibliothèque Sainte-Geneviève avait également entrepris la numérisation de quelques documents. Ainsi, une centaine d’estampes avaient été numérisées, stockées sur un serveur web et cataloguées, mais avec un lien URL non pérenne. Des reliures estampées à froid avaient également été numérisées et diffusées sur un site web développé en PHP autour d’une base MySQL. Malheureusement, la structure de la base ne correspond à aucun format standardisé et interopérable et sa maintenance n’était pas garantie suite au départ de l’informaticien qui l’avait développée. Pour finir, une vingtaine de documents ont été numérisés, par un photographe, à la demande de certains lecteurs et conservés sur CD Rom. Bien que ne permettant pas une diffusion optimale (prises de vues 2 pages par 2 pages, nommage des fichiers inadapté, absence de fichier PDF), les fichiers ont permis, en particulier, de tester différentes solutions de diffusion. A ce propos, il est à noter qu’il n’existe malheureusement pas de service de reproduction numérique de documents pour toute la Bibliothèque alors que les lecteurs nous sollicitent très régulièrement et vainement afin d’obtenir ce type de

Page 8: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

8 / 71

prestation. En conclusion de cet audit, il apparaît donc clairement que des solutions doivent être recherchées pour :

Diffuser les documents qui seront numérisés de manière standardisée, interopérable et mutualisée et avec une meilleure visibilité sur le web, sans avoir à développer une plate-forme dépassant nos moyens humains.

Importer des documents déjà numérisés et conservés sur des supports et dans des formats de métadonnées divers sur cette plate-forme

Mettre en place un service de reprographie numérique (numérisation à la demande) Garantir l’archivage pérenne du patrimoine numérique de la Bibliothèque

1.1.1- Nos forces La Bibliothèque Sainte-Geneviève est l’une des plus importante bibliothèque universitaire et publique de France. C’est aussi l’une des plus prestigieuses. La beauté du bâtiment édifié par l’architecte Henri Labrouste classe l’édifice parmi les plus belles bibliothèques du monde. Enfin, sa situation géographique (place du Panthéon) et sa proximité avec des écoles d’excellence (Henri IV, Louis le Grand, Montaigne, Cujas, Polytechnique, Ecole Normal Supérieure…) font que la BSG a été fréquentée par les élites du pays. Toutes ces conditions facilitent grandement les contacts et « ouvrent des portes ». Par ailleurs, la Bibliothèque Sainte-Geneviève a la chance d’être dirigée par Yves Peyré, qui au-delà du métier de bibliothécaire, est également, un homme de lettres qui dispose d’un réseau important de relations parmi les hommes politiques et les hauts fonctionnaires. La diversité de son parcours et de ses fréquentations ont d’ailleurs également probablement favorisé son ouverture d’esprit et son goût pour la réforme, l’innovation, l’esprit d’entreprise et d’une certaine manière, pour l’intelligence économique. Enfin, Yves Peyré dispose de rares facultés pour l’expression écrite et la communication orale qui lui permettent de convaincre très facilement ses pairs. Yves Peyré est également assisté d’une adjointe très dynamique, Florence Leleu. Elle dispose d’un parcours très riche et s’investit beaucoup dans les projets de la bibliothèque et elle partage, avec son Directeur, la volonté de moderniser la bibliothèque.

1.1.2- Et nos faiblesses Ressources humaines insuffisantes A la Bibliothèque Sainte-Geneviève, la mission de valorisation et la mission de formation ont été placées, dans l’organigramme, directement sous l’autorité de la Direction. Il n’en a pas été de même pour la numérisation qui a été placée au sein de la direction informatique. Dans ces conditions, il a été difficile de conduire le projet de numérisation tout en ayant à m’interrompre très régulièrement pour des urgences et à m’occuper du support, de maintenance et surtout du standard d’un service souvent sollicité (la bibliothèque est composée de plus de 100 salariés dont les compétences élémentaires en informatique font souvent défaut et elle accueille plus de 1400 visiteurs par jour). Par ailleurs, le projet de numérisation de la Bibliothèque Sainte-Geneviève est plus ambitieux que celui de beaucoup d’autres bibliothèques au regard des quantités à numériser sur une durée relativement courte et la Bibliothèque est désormais également porteuse d’un projet de mutualisation d’une plate-forme de diffusion dans le cadre du PRES Sorbonne Paris-Cité (projet qui mobilise aussi du temps). Malgré cela, le projet a malheureusement été doté de moyens humains plus faibles que toutes les bibliothèques qui ont été visitées dans le cadre de notre benchmarking, comme l’indiquent les extraits de nos comptes-rendus de visites suivants :

Page 9: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

9 / 71

Bibliothèque Effectifs projet Institut National d’Histoire de l’Art (30 mars 2009)

3 temps plein "deux titulaires plein temps et de monitrices étudiantes (équivalent 1 temps plein)" + prestataires privés pour la numérisation

Bibliothèque Inter-Universitaire de Médecine (22 janvier 2009)

6, 5 temps plein (sans compter le photographe) "1 chef de projet conservateur 1 plein temps catégorie A pour l'archivage 1 informaticien 1 photographe (160000 pages par an) 4 bibliothécaires (équivalent 1 plein temps 1/2) 4 magasiniers pour la saisie des tables de matières (équivalent 2 temps plein)" + prestataires privés pour la numérisation (en complément de l’atelier interne)

Conservatoire National des Arts et Métiers (9 avril 2009)

3 temps plein "L'équipe est constituée de 5 personnes (équivalent 2 temps plein). Un poste supplémentaire d'Ingénieur d'Etudes va être créé prochainement." + prestataires privés pour la numérisation

Bibliothèque Cujas (12 mars 2009)

6 temps plein (sans compter le vacataire numérisation) "7 personnes (2 ingénieurs, 2 techniciens, 1 PRCF, 1 vacataire numérisation, 1 chargée du traitement documentaire)" + prestataires privés pour la numérisation (en complément de l’atelier interne)

Paris 5 (11 mai 2009)

2 temps plein Au niveau de Paris 5, l'équipe est constituée d'un informaticien et d'une documentaliste à plein temps sur Persée.

Rennes 2 (non visité, mais informations tirées du web)

6 temps plein : 1 pour la conception et réalisation 1 pour le plan de numérisation et production 4 au sein de l’atelier de numérisation

Bibliothèque Sainte-Geneviève

2 temps plein : 1 chef de projet (moi-même) placé dans un service informatique très sollicité Des bibliothécaires en plus de leurs activités (équivalent 1 temps plein) : sélection, description matérielle, constats d’états, contrôles qualité, mise en ligne, catalogage. + prestataires privés pour la numérisation (Diadéis : 2 opérateurs, 1 chef de projets qui pilote également d’autres projets)

Conception de la numérisation comme une activité éphémère Cette faiblesse au niveau des ressources humaines s’explique par une conception assez conservatrice du métier de bibliothécaire. La plupart des collègues de la bibliothèque considèrent la numérisation comme une mission à durée déterminée, par rapport aux activités traditionnelles de la Bibliothèque. Ils considèrent qu’il s’agirait d’une opération à court terme à laquelle il faudrait se livrer par mode, et non d’une nouvelle activité pérenne au sein de la bibliothèque, reflétant l’évolution du métier. Or, c’est précisément le contraire qui devrait être vrai. Les activités traditionnelles (acquisitions et catalogage de livres papier…) devraient finir par décliner un jour tandis que l’activité numérisation devrait se poursuivre et se développer jusqu’à ce que tout ce qui mérite d’être numérisé l’ait été. Cette activité devrait ainsi croître d’autant qu’elle implique :

Politique d’acquisition de la bibliothèque numérique : identification et sélection des documents à numériser (rares, pas déjà numérisé, dignes d’intérêt)

Description matérielle des documents à numériser afin d’en organiser des trains de numérisation (formats, nombre de pages, angles d’ouvertures, constats d’états)

Numérisation Contrôle qualité des livraisons

Page 10: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

10 / 71

Diffusion en ligne (sur archive.org, par exemple) Catalogage dans le SUDOC et référencement Archivage pérenne Indexation et encodage du contenu (textes et images) des documents numérisés.

Cloisonnements et conduite du changement insuffisamment efficace de ma part La plupart des collègues qui interviennent dans le projet en conservent une vision parcellaire et pensent que la sphère dans laquelle ils ont à intervenir (description matérielle, contrôle qualité, sélection des documents à numériser) en constitue la totalité ou l’essentiel. Afin de leur permettre d’avoir une vision plus globale du projet et de mieux replacer leur contribution dans son ensemble, de multiples présentations leurs ont été proposées ainsi qu’à l’ensemble du personnel de la bibliothèque. Hélas, la plupart des personnes qui interviennent dans le projet n’y ont pas assisté, persuadées de déjà tout connaître. Des comptes-rendus d’activités ont donc systématiquement été communiqués et déposés sur l’Intranet de la Bibliothèque. Ne disposant pas de ressources humaines suffisantes et pérennes, en dehors du travail efficace mais éphémère de stagiaires, 3 solutions ont été envisagées : 1- Externaliser un certain nombre d’activités J’ai proposé à la Direction de la Bibliothèque d’externaliser la mise en ligne sur archive.org et le catalogage dans le SUDOC en faisant appel à un prestataire extérieur. Mais cette solution a été refusée pour le moment. 2- Développer un nouveau service autour de la numérisation A l’issue du benchmarking, il semblait que les projets les plus performants avaient été conduits par des équipes consacrées entièrement à la numérisation. Il aurait donc pu être judicieux de développer un service numérisation et de le doter d’effectifs. Néanmoins, l’équipe est restée réduite à une seule personne placée, de surcroit, au sein d’un service informatique très sollicité (et n’ayant donc pas la possibilité de se consacrer exclusivement au projet). 3- Faire prendre en charge les nouvelles activités, liées à la numérisation, par les structures déjà existantes. Ne disposant pas de ressources humaines suffisantes, c’est l’ensemble des collègues qui ont été sollicités afin de participer au projet au-delà de leurs activités courantes. Ces activités nouvelles sont susceptibles de diversifier des fiches de postes qui ne le sont probablement qu’insuffisamment et d’offrir des opportunités en terme de poursuite de carrière. Néanmoins, quelques résistances ont été rencontrées :

Réticence des directeurs de départements supportant mal de voir s’échapper une partie de leurs effectifs.

Conservatisme de personnels ne cherchant pas à développer de nouvelles compétences et à se mettre en danger en se lançant dans des activités nouvelles

Refus d’augmenter la charge de travail, les activités nouvelles ne se substituant pas aux activités déjà prises en charge.

Difficulté à travailler de manière transversale entre des départements dont les relations sont souvent inexistantes ou parfois difficiles. Cette difficulté se manifeste, par exemple, par un refus du personnel de travailler sur des documents conservés par un autre département que le sien.

Mais assez rapidement, les collègues ont fini par s’intéresser à ces activités nouvelles et ont même parfois été retenus dans leur enthousiasme par des chefs de services qui craignaient qu’ils délaissent leurs activités principales.

Page 11: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

11 / 71

La Bibliothèque Sainte-Geneviève est constituée de 3 fonds documentaires structurés en 3 départements :

Le fonds général La réserve La bibliothèque nordique

La Direction de la Bibliothèque projetait de faire disparaître ce dernier département et pensais qu’une transversalité du travail, autour du programme de numérisation, permettrait que le personnel du fonds général et de la nordique viennent en renfort à ceux de la réserve, qui commencerait sa numérisation la première, et qu’ainsi, après la disparition de la nordique, que le personnel de la réserve pourrait les aider en retour. J’ignorais l’existence de ces plans. Dans l'esprit de la Direction de la Bibliothèque, l'objectif du projet de numérisation était aussi, de permettre de décloisonner des structures qui ne travaillaient jamais ensemble et de préparer une possible remise en question d'une division du travail très forte qui faisait que chacun était cantonné à son petit pré carré autour d'activités très peu diversifiées. Je dois avouer avoir également mis trop de temps à comprendre que c'était vers la prise en charge les nouvelles activités, liées à la numérisation, par les structures déjà existantes) qu'il fallait s'acheminer et non vers la constitution d’un nouveau service. Par conséquent, j’ai également mis du temps à essayer de développer cette structuration. Peut être, ai-je, moi aussi, mal mesuré le besoin en ressources humaines que le projet allait demander, ou que mon ambition personnelle et que la nostalgie de mon poste précédent m’ont conduit à désirer être à la tête d’une équipe… Or, c’est bien cette 3ème voie qui avait la faveur de la Direction de la Bibliothèque. De son point de vue, il s’agissait de ne pas créer une énième structure cloisonnée et de remplacer des activités caduques ou en perte de vitesse au sein des départements par des activités nouvelles. Avec le recul, c’était effectivement la meilleure solution. Lenteurs Les autres faiblesses d’une institution comme la Bibliothèque Sainte-Geneviève, sont partagées avec la plupart des institutions publiques de taille importante, en particulier dans les domaines culturels et universitaires. Bien que la Direction de la Bibliothèque ait conscience de ces faiblesses et tente de les dépasser, certaines habitudes de fonctionnement, héritées du passé, demeurent. La prise de décision et la mise en œuvre des projets y est très lente, on réfléchit beaucoup avant d’agir par peur de l’inconnu, par perfectionnisme, car certains cadres supportent mal qu’une idée puisse ne pas venir d’eux, par manque de confiance, par difficulté à déléguer ou par excès de démocratie interne. Voici un schéma fonctionnel assez représentatif du mode de fonctionnement interne du projet : 1- Détection d''une opportunité stratégiques grâce au dispositif de veille. 2- Proposition, le plus rapidement possible, d'un cahier des charges et/ou d'un plan d’action. 3- Confrontation du cahier des charges avec le marché réel et les prestataires identifiés afin d'en améliorer le contenu et de l’adapter aux réalités et aux possibilités du marché. 4- Convocation d'une réunion pour valider le cahier des charges ou le plan d'action. Un nombre trop important de conservateurs est invité. La plupart n’ont pas lu le cahier des charges et ne disposent pas des compétences techniques pour le faire. Au cours de la réunion, ils le découvrent et se font néanmoins un devoir d'intervenir et finissent, plutôt que de demander un temps supplémentaire pour lire le document et y réfléchir, par chercher et trouver des points de détails qui renvoient le cahier des charges à l'étude puis à la convocation d'une nouvelle réunion et ainsi de suite... Tantôt, le refus de voir arriver de nouvelles activités et de nouvelles charges de travail amènent les collègues à rechercher des raisons de ne pas les mettre en œuvre ou à les retarder, tantôt, lorsqu'un retour sur investissement est envisagé ou une collaboration public / privé proposée, l'hostilité qui s'exprime est suffisante pour retarder durablement les propositions. Il serait probablement préférable de faire d’avantage confiance et de lancer les projets y compris sur la base de cahiers des charges perfectibles mais qui pourront néanmoins être améliorés de manière

Page 12: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

12 / 71

itérative et agile par confrontation avec la réalité. La perfection n'est pas de ce monde, tout n'est pas prévisible et dans un environnement en changement permanent, il est impératif de saisir rapidement les opportunités. A trop réfléchir avant d'agir on risque de regarder passivement passer le train. 5- Les dernières corrections parviennent finalement, sous forme d'annotations manuscrites d'une multitude de personnes, la veille de la date du lancement de l'appel d'offres. Seule une nuit blanche permet de ne pas le retarder. S'il finit néanmoins par être ainsi validé, le cahier des charges devient si volumineux, si surchargé de détails inutiles et si peu synthétique que sa compréhension en devient plus difficile pour le commanditaire comme pour le prestataire. Et, lorsqu'il est enfin mis en œuvre, d'autres ont déjà saisi les opportunités stratégiques bien avant :

Correction participative de l'OCR via Wikisource : mise en œuvre le avril 2010 par le BnF alors qu'une collaboration avec Wikimedia avait été mise en œuvre dans le cadre de mon poste antérieur dès 2008 et proposée début 2009 à la Bibliothèque Sainte-Geneviève.

Print on Demand : mis en œuvre en février 2011 par la BnF alors que proposé à la Bibliothèque Sainte-Geneviève depuis mars 2009

Numérisation à la demande : mise en œuvre en mars 2011 par la BnF alors que proposé à la Bibliothèque Sainte-Geneviève depuis janvier 2009

Numérisation 3D du bâtiment : mise en œuvre prochaine au quadrilatère Richelieu sur inspiration déclarée de notre propre projet et en faisant appel aux mêmes équipes, alors que proposé depuis décembre 2008.

Pour finir ce paragraphe consacré aux lenteurs, un exemple en dehors du projet de numérisation illustre assez bien les difficultés que peuvent rencontrer les chefs de projets. Pendant une année, une personne a travaillé à revoir le site web de la bibliothèque, assez brillamment d’ailleurs. Malgré la tenue régulière de réunions de présentations, 2 ans après son départ de la Bibliothèque, son site n’a toujours pas été mis en ligne à cause de quelques points de détails d’ordre esthétique, d’une prudence et d’un perfectionnisme paralysants. A la différence des publications sur support papier, les publications de sites web ont pourtant un caractère non définitif et il aurait donc été possible de publier une première version perfectible du site et de l’améliorer progressivement de manière itérative et agile. Au lieu de cela, une année de travail a probablement été perdue et l’ancien site web moins ergonomique, dynamique et moderne est encore utilisé. Et concernant les procédures de travail autour de la numérisation, elles ont été rédigées sous forme de Google Docs afin d’en permettre la rédaction collaborative et l’amélioration au fil de l’évolution de notre expérience. Malheureusement, nombreux sont les collègues qui ont été déconcertés par le caractère non définitif et potentiellement changeant des méthodes et des manières de travailler. Mais le monde lui-même semble être en révolution permanente. Il est devenu instable et angoissant. Difficultés culturelles et idéologiques La Bibliothèque Sainte-Geneviève, comme la plupart des institutions culturelles, rencontre des difficultés à passer d'une culture de l'information individualiste, fermée, corporatiste, centralisée, procédurière, complexe, hiérarchique et verticale à une culture plus collective, ouverte, partagée et transversale. Plus généralement, contrairement au monde anglo-saxon, où la culture de partage de l'information en communauté d'intérêt est naturelle, les institutions françaises devront passer par une évolution culturelle majeure afin de survivre à la mondialisation et, pourquoi pas, retrouver la place qui leur revient dans le monde. En attendant, nos conservateurs de bibliothèques restent bien souvent prisonniers d'une théorie de la valeur de l'information et d'un culte pour le secret qui enferme l'information dans leurs seuls réseaux d’initiés. Le contexte d'économie de subsistance a largement favorisé une approche exclusivement défensive de l'usage de l'information, une tendance à la rétention d'information et un manque d'intérêt pour les sources ouvertes. Les collègues ont souvent « la tête dans le guidon », ils consacrent toute leur énergie au fonctionnement tel qu’il est de la bibliothèque sans chercher à l’améliorer, et pour eux, les projets innovants sont perçus comme des concepts fumeux, flous, abstraits Ils en oublient ainsi leur avenir à long terme et consacrent l'essentiel de leur énergie à des activités parfois coupées des besoins des lecteurs ou même parfois appelées à disparaître.

Page 13: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

13 / 71

Internet n'est pas suffisamment rentré dans la culture des professionnels de l'information que sont sensés être les conservateurs, dont les cadres vieillissants font parfois preuve d'un réel « illectronisme » et dont les nouvelles recrues le sont sur leur seule capacité à disserter sur des sujets de culture générale. Même si la connaissance de la princesse de Clève peut amener à avoir une hauteur de vue susceptible de rendre innovant, cette connaissance est insuffisante pour travailler dans des domaines technologiques comme le sont devenues les bibliothèques et il serait, sans doute, sage de prendre également en compte le CV lors du recrutement par concours. Par ailleurs, force est de constater qu'il existe une relative homogénéité idéologique dans le personnel des bibliothèques et que l'hostilité au libéralisme, aux partenariats public / privé, aux financements privés, à l'esprit d'initiative et d'entreprise, à toute prise de risque, entrave considérablement le développement de projets innovants. La Bibliothèque nationale de France s'est ainsi illustrée en étant l'une des seules dans le monde à refuser toute collaboration avec Google sous des prétextes irrationnels, fallacieux (hégémonie de la culture anglo-saxonne alors qu'il s'agissait précisément de numériser des livres en langue française) ou mensongers (monopole alors qu'il reste possible de diffuser ailleurs que sur Google books les contenus numérisés par Google). L'intérêt public est souvent présenté comme plus noble et plus éthique que la recherche de profits privés. Ce point de vue antilibéral selon lequel l'État ne veut pas s'intéresser aux entreprises et le point de vue libéral lui-même selon lequel les entreprises n'ont pas besoin de l'État ont abouti à une étanchéité forte entre le secteur public et le secteur privé. Cette étanchéité doit être dépassée car l’innovation ne pourra être le résultat que d’une curiosité de chacun sur le monde qui lui est extérieur, et d’un esprit d’ouverture, en particulier vis-à-vis de ceux qui ne lui ressemblent pas. Enfin, il faut bien constater que la profession vit mal la fin d’un monopole, elle souffre de ne plus être le média incontournable entre l’information et le public qui préfère, de plus en plus, les qualités d’accueil de Google Books. Ce sentiment n’est jamais clairement explicité. Néanmoins, il s’exprime en particulier en ce qui concerne la numérisation, par exemple lorsque les bibliothèques insèrent un « copyright » sur les images qu’elles ont numérisées ou qu’elles en interdisent tout usage ou modification. Les bibliothèques pourraient, au contraire, se féliciter que les numérisations financées avec l’argent du contribuable puissent être démocratiquement utilisées par les citoyens et puissent même, pourquoi pas, soutenir l’économie du pays. Elles devraient même mesurer le succès de leurs programmes de dématérialisation au nombre d’utilisations des documents numérisés. Mais c’est d’avantage la crainte que des intérêts privés « pillent » leurs efforts qui domine. Ainsi, des œuvres pourtant tombées dans le domaine public depuis des siècles et reproduites sous forme de photographies se retrouvent ainsi abusivement « copyrightées ». Il serait pourtant difficile, au regard de la loi, de faire admettre que l’empreinte de la personnalité de l’auteur des photographies y est attachée et de faire reconnaître une quelconque originalité artistique ou un quelconque apport en terme de création dans le fait d’actionner mécaniquement un scanner. Néanmoins, la mention « copyright », mention qui n’a, d’ailleurs, aucune signification en droit français, demeure très souvent inscrite sur les documents numérisés par les bibliothèques. Le fait de posséder une œuvre ne donne pourtant heureusement pas le droit de revendiquer une quelconque paternité et un quelconque droit moral ou droit de propriété intellectuelle sur l’œuvre qu’on possède, le fait de la numériser ou de la reproduire par un autre procédé, sans rien y ajouter d’original, non plus. Mais ce problème politico-juridique se rencontre à tous les niveaux de l’Etat français qui manifeste souvent sa réticence à libérer les données publiques pour des raisons à la fois financières et culturelles. Ainsi, pour disposer de photographies d’hommes politiques français sur Wikipedia, l’encyclopédie collaborative libre et gratuite, est contrainte d’utiliser des photographies provenant des déplacements de nos hommes politique au pays de la liberté, les USA car l’Etat français les conserve jalousement et en interdit tout usage citoyen. Nous pourrions ainsi multiplier les exemples qui reflètent la difficile maîtrise de la nouvelle économie et de ses modèles par nos décideurs publics, Hadopi en étant, peut être, la plus parfaite des illustrations. Je suis convaincu, au contraire, que les intérêts du public et du privé peuvent converger et se compléter, comme nous le verrons, plus loin, avec les propositions, dans le cadre du projet, de délégations de service public : print on demand, numérisation à la demande, mécénats et

Page 14: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

14 / 71

correction participative de l’OCR. Le statut des Bibliothèques Inter-Universitaires Le statut inter-universitaire de la Bibliothèque Sainte-Geneviève est souvent mis en avant par sa Direction pour expliquer les difficultés à faire avancer les projets. En effet, pour le moment, la Bibliothèque Sainte-Geneviève est rattachée administrativement à l’Université Sorbonne Nouvelle – Paris 3 et pourrait devenir autonome prochainement. Cette incertitude quant au statut génère un certain immobilisme. Par ailleurs, les relations avec l’Université Paris 3 et, en particulier avec son service commun de la documentation (SCD), sont mauvaises pour des raisons humaines, mais aussi structurelles. D’un coté, l’existence des SCD pourrait être menacée par celle de grandes bibliothèques universitaires remplissant leurs missions et mutualisant les moyens. De l’autre, ces grandes bibliothèques pourraient être menacées par des SCD proposant des services de proximité, une spécialisation sur les disciplines, une proximité avec l’activité scientifique et universitaire et des services à la recherche (recherches documentaires, formations, archives ouvertes, bibliométrie, veille). La répartition des missions entre SCD et BIU n’est pas encore tranchée à ce jour. Dans tous les cas, toute évolution du statut des bibliothèques inter-universitaires est surveillée par mon système de veille projet. Pour illustrer les mauvaises relations entre SCD et BIU, le cas du logiciel utilisé par la Bibliothèque Sainte-Geneviève pour la gestion de ses collections et de ses usagers est particulièrement édifiant. L’Université Paris 3, suite à un appel d’offres, avait retenu le Système Intégré de Gestion de Bibliothèque (SIGB) Aleph (Ex Libris). Ce logiciel est l’un des plus répandu et des plus satisfaisants sur le marché. La Bibliothèque Sainte-Geneviève aurait donc pu le déployer (sans avoir à passer par toute une procédure d’appel d’offres) et mutualiser ainsi son administration avec le SCD et ce, sans perdre la possibilité technique de devenir un jour autonome de l’Université Paris 3. Néanmoins, elle a préféré créer des groupes de travail, faire rédiger un cahier des charges par un consultant et lancer un nouvel appel d’offres pour retenir un autre SIGB. Interrogations sur ma propre stratégie de communication Par nature, j’ai tendance à toujours partir du principe que, plus je communique les informations dont je dispose, plus je pourrai être reconnu et recueillir de l’information en retour. Tout au long du projet, j’ai donc eu tendance à communiquer généreusement les informations stratégiques dont je disposais ou les idées que j’avais eues, par soucis de l’intérêt du service public et de la mutualisation de l’information, mais aussi, je dois bien l’avouer, afin de me mettre en avant. J’ai malheureusement constaté que ces idées étaient parfois mises en œuvres par d’autres et que, finalement, rares étaient les collègues qui me communiquaient des informations réellement stratégiques. Au contraire, j’ai bien souvent été confronté à de la rétention d’information de la part de collègues qui considèrent qu’une information a d’autant plus de valeur que peu de personnes n’en disposent en dehors de leurs seuls réseaux d’initiés. Mais, dans ces conditions, il n’est pas impossible que ma stratégie de communication ne soit pas adaptée à la culture des institutions publiques et nécessiterait, par conséquent, d’être corrigée, au prix d’efforts personnels importants.

Page 15: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

15 / 71

1.2- Les autres : Benchmarking

1.2.1- Benchmarking des autres projets de numérisation La Bibliothèque ne disposant quasiment pas d’expérience en numérisation, je propose de benchmarker et de rendre visite aux principales bibliothèques ayant eu à conduire des programmes de numérisation. Des visites ont ainsi été rendues aux bibliothèques suivantes :

Bibliothèque nationale de France Bibliothèque Cujas Bibliothèque Inter-Universitaire de Médecine Conservatoire National des Arts et Métiers Institut National d'Histoire de l'Art Cité des sciences Centre d'Etudes Supérieures de la Renaissance (CESR) Ecole des Chartes Traitement Electronique des Manuscrits et des Archives (TELMA, CNRS) Service Commun de Documentation de Paris 5 Institut de Recherche pour le Développement (IRD)

Pour des raisons géographiques, nous nous sommes parfois contentés d’entretiens téléphoniques ou de vidéoconférences avec Skype :

Bibliothèque Municipale de Lyon Bibliothèque Municipale de Toulouse Service Inter Etablissements de Coopération Documentaire de Toulouse Service Commun de Documentation de Paris 7 Bibliothèque Municipale de Bourg en Bresse.

Enfin, des échanges réguliers ont lieu avec les tutelles :

Sous-Direction des Bibliothèques du Ministère de l'Enseignement Supérieur (devenue Mission de l'information scientifique et technique et du réseau documentaire , MISTRD)

Agence Bibliographique de l'Enseignement Supérieur (ABES) Direction du Livre et de la Lecture du Ministère de la Culture

Néanmoins, pour des raisons géographiques et des raisons de langue, les bibliothèques américaines ou anglaises ont insuffisamment été étudiées, ce qui est très probablement une erreur, car mise à part Gallica (Bibliothèque nationale de France), les benchmarks, au vrai sens du terme, sont plutôt à rechercher en dehors de la France. Ces visites et entretiens, conduits à partir de questionnaires, ont donné lieu à des comptes-rendus de visites dont voici une synthèse sous forme de tableau :

Page 16: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

16 / 71

Bibliothèque Numérisation Diffusion Effectifs projet Institut National d’Histoire de l’Art (30 mars 2009)

Les documents ont été numérisés avec une résolution comprise entre 300 et 400 dpi, au format JPEG pour les iconographies et PDF pour les livres

Solution logicielle de diffusion développée par la société de numérisation Arkhênum puis Polinum

3 temps plein "deux titulaires plein temps et de monitrices étudiantes (équivalent 1 temps plein)"

Bibliothèque Inter-Universitaire de Médecine (22 janvier 2009)

JPEG Filemaker 6, 5 temps plein (sans compter le photographe) "1 chef de projet conservateur 1 plein temps catégorie A pour l'archivage 1 informaticien 1 photographe (160000 pages par an) 4 bibliothécaires (équivalent 1 plein temps 1/2) 4 magasiniers pour la saisie des tables de matières (équivalent 2 temps plein)"

Conservatoire National des Arts et Métiers (9 avril 2009)

PNG 400 dpi (fichiers de conservation) et en GIF 120 dpi (diffusion), en 256 niveaux de gris

Développement d’un site statique et « robuste » mais bien indexé.

3 temps plein "L'équipe est constituée de 5 personnes (équivalent 2 temps plein). Un poste supplémentaire d'Ingénieur d'Etudes va être créé prochainement."

Bibliothèque Cujas (12 mars 2009)

TIFF 300 dpi couleur SDX 6 temps plein (sans compter le vacataire numérisation) "7 personnes (2 ingénieurs, 2 techniciens, 1 PRCF, 1 vacataire numérisation, 1 chargée du traitement documentaire)"

Cité des Sciences (30 avril 2009)

TIFF 300 dpi couleur Adobe Content Server en local

Non communiqué mais 2 plein temps minimum

Bourg en Bresse Non communiqué Greenstone Non communiqué Bibliothèque Municipale de Toulouse

Non communiqué Greenstone Non communiqué

Ecole des Chartes (13 février 2009)

Non communiqué Greenstone Non communiqué

Paris 3 (10 février 2009) Non communiqué DigiTool Non communiqué Paris 5 (11 mai 2009) Non communiqué Persée Au niveau de Paris 5, l'équipe est constituée d'un

informaticien et d'une documentaliste à plein temps sur Persée.

Paris 6 (5 février 2009) Fichiers de conservation en TIFF 300 dpi et fichiers de diffusion en JPEG 150 dpi

Pleade Non communiqué

Bibliothèque Sainte-Geneviève

Conservation : PNG 300 à 600 dpi. Diffusion : JPEG et PDF multicouches 150 dpi

Archive.org puis plate-forme du PRES

2 temps plein : 1 chef de projet (moi-même) Des bibliothécaires en plus de leurs activités (équivalent 1 temps plein) : sélection, description matérielle, constats d’états, contrôles qualité, mise en ligne, catalogage.

A l’issue de ce benchmarking, nous constatons que, sur le plan de la numérisation, la plupart des bibliothèques numérisent en TIFF 300 dpi (fichiers de conservation) et mettent en ligne en PDF et en JPEG 150 dpi. Par contre, concernant la diffusion en ligne des documents numérisés, nous constatons, une grande hétérogénéité et une insatisfaction générale pour des investissements très importants. Le développement d’une plate-forme est coûteux en budget (plus de 100 000 €), mais surtout en personnel pour maintenir les serveurs et administrer les systèmes d’information. Et, par comparaison avec les moyens dont dispose le projet à la Bibliothèque Sainte-Geneviève, il me semble évident qu’ils sont insuffisants pour pouvoir imiter nos collègues et qu’une mutualisation ou la participation à une plate-forme existante comme archive.org est la meilleure solution. Cette option semblait d’autant plus pertinente que notre bibliothèque est généraliste et non spécialisée dans un domaine universitaire particulier et que ses collections ont donc vocation à être diffusées sur une plate-forme générale et collective. Par ailleurs, force était de constater que la qualité des bibliothèques numériques benchmarkées n’était pas à la hauteur de ce qu’on pouvait être en droit d’attendre (web invisible, pas d’indexation par Google, statistiques de consultation inavouables, pas de reconnaissance de caractères (OCR), navigation et visualisation inexploitables…). Dans ces conditions, le fait que la majeure partie des bibliothèques renonce à diffuser ce qu’elles numérisent s’expliquait mieux… Elle s’expliquait aussi par le peu d’informations professionnelles disponibles au sujet des solutions de diffusion des documents numérisés.

Page 17: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

17 / 71

1.2.2- Comparatif des solutions de diffusion La littérature et les formations professionnelles évoquent largement les questions de la numérisation dans les bibliothèques. En revanche, lorsqu’il s’agit des solutions de diffusion des documents numérisés, cette question n’est que rarement ou insuffisamment abordée. C’est d’ailleurs peut être, en partie, pour cette raison que les bibliothèques renoncent parfois à diffuser sur le web ce qu’elles ont numérisé, faute d’information suffisante.

Afin de choisir la meilleure solution de diffusion, j’ai été amené à réaliser une étude sur les solutions de diffusion des documents numérisés par les bibliothèques. Cette étude, issue d’une recherche documentaire préalable et actualisée régulièrement par une veille technologique, a été publiée sous forme de Wiki sur Bibliopedia afin de permettre aux autres bibliothèques d’en bénéficier, d’éviter que chacun soit contraint de mener sa propre étude dans son coin, et de limiter ainsi les dépenses publiques. Il s’agissait aussi et, peut être avant tout, de pouvoir bénéficier des informations éventuelles d’autres collègues en permettant la rédaction collaborative de l’étude. Malheureusement, je dois bien avouer que si l’étude est bien référencée, assez connue, souvent citée, elle n’a malheureusement pas bénéficié de participations extérieures.

Néanmoins, elle servira de point de départ pour la publication d’un livre, en collaboration avec Marc Maisonneuve (Tosca Consulting) aux éditions de l’ADBS, ce qui est un résultat valorisant et encourageant. Marc Maisonneuve est, en effet, très connu dans le monde des bibliothèques pour la publication de son étude sur les logiciels SIGB pour les bibliothèques aux éditions de l’ADBS. Un questionnaire très détaillé a été élaboré. Des entretiens avec les fournisseurs et les développeurs de logiciels confrontés avec le point de vue des utilisateurs nous permettront d'offrir des descriptions techniques complètes et comparatives.

Voici un résumé de l'étude publiée sous forme de wiki sur Bibliopedia (http://www.bibliopedia.fr/index.php/Solutions_logicielles_pour_biblioth%C3%A8ques_num%C3%A9riques)

Les différents logiciels

Dans le cadre de l'étude, les logiciels suivants ont été évoqués, décrits dans leurs fonctionnalités (en gras) ou testés (en gras et souligné)

Adobe Content Server

aDORe

Albulle

Archimed

Bases MySQL

BiblioTech

CADIC

Castore

CDS Invenio anciennement CDSware

Content dm

Content Manager

Produits de la société Decalog

Demomate II

DigiTool Dipmaker

Divvalib dLibra

DLXS

Documentum

Dspace

eDip Bibliothèque

Encompass

eprints

eZone

Fedora Commons

FileMaker Pro

Flora

Générateur de collections numériques

Greenstone

Infodoc

Kepler

Luna Insight

Mediaview

Mnesys portail Nuxeo

Omeka Produits de la société Opsys

Page 18: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

18 / 71

ORI-OAI Orphée

Phrasea

Pleade

POSTGRESQL

Visual Library

Wordpress XTF

Les différentes plateformes

Il n'existe malheureusement pas, en France, de mutualisation d'une plateforme de diffusion à l'image de ce qui existe pour les archives ouvertes par exemple (une plateforme générale : http://hal.archives-ouvertes.fr et des vitrines pour chaque institution : http://hal-pasteur.archives-ouvertes.fr, http://hal-mnhn.archives-ouvertes.fr, http://hal.ird.fr...) ou de ce qui existe pour les signalement des imprimés avec le catalogue national des bibliothèques de l'Enseignement Supérieur (SUDOC).

Les rares collaborations dans le domaine de la diffusion de contenus numérisés se limitent, pour le moment, au moissonnage de métadonnées (Gallica et Europeana) ou au simple signalement de corpus et projets de numérisation (Michael pour le ministère de la culture et NUMES pour celui de l'Enseignement Supérieur). Mais concernant les plateformes de diffusion des documents numérisés, chaque bibliothèque est donc contrainte, pour le moment, de développer sa propre plateforme "dans son coin", ce qui peut coûter cher (de 100 000 à 200 000 €) et pour un résultat pas toujours pérenne et optimal. C'est ce qui explique aussi que la majeure partie de ce qui est numérisé par les Bibliothèques de France (hors BnF) n'est pas diffusé en ligne, ces dernières ne disposant pas toujours des moyens humains et financiers nécessaires au développement de plateformes de diffusion.

e-corpus

Développé par le Centre de Conservation du Livre, association liée au Centre Interrégional de Conservation du Livre (société prestataire de numérisation, restauration et conservation), e-corpus est une bibliothèque numérique collective et patrimoniale qui répertorie et diffuse de multiples documents : manuscrits, archives, livres, journaux, estampes, enregistrements sonores, vidéos... Dans un premier temps orientée vers les pays méditerranéen, cette bibliothèque, sponsorisée par l'Union Européenne, la Région PACA et la ville d'Arles, élargit son périmètre thématique. Les tests réalisés sur cette plateforme en décembre 2009 font état d'une bibliothèque numérique satisfaisante :

prise en main facile métadonnées adaptées à des projets de bibliothèques visualisation assez satisfaisante possibilité de bénéficier d'une interface personnalisée respectant l'identité de chaque institution :

bsg.e-corpus.org

avec quelques inconvénients :

difficulté de chargement et de visualisation de certaines images quelques bugs qu'il est toutefois possible de contourner et qui sont en cours de correction difficulté à créer une hiérarchie entre collections, corpus, pièces... imports de métadonnées possible mais après plusieurs essais

Liens : e corpus CCL CICL

Page 19: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

19 / 71

Polinum

POLINUM est un projet de recherche et développement collaboratif, regroupant un consortium de partenaires privés (Arkhenum : prestataire de numérisation, I2S : Scanners, Isako : OCR et workflow, Exalead : moteur de recherche à facettes) et publics (CEA list : sémantique et LaBri : traitement d'images, laboratoires de recherche en informatique sur Bordeaux) et qui a lancé une campagne de communication importante. Ce projet est soutenu par 2 partenaires publics. Il est financé par l'Union européenne (Feder axe I) et le Conseil régional d'Aquitaine. Localisé à l'Université Bordeaux I, Polinum dispose d'un budget de 4 millions d'euros pour 36 mois. La plateforme devrait être opérationnelle en mai-juin 2010.

Le développement de solutions performantes de valorisation des documents numérisés est un des axes de recherche et développement de Polinum. Dans ce cadre la les technologies de bases sont développées dans le projet et industrialisées dans un produit appelé Divvalib.

Lien : Site de Polinum

Demat Factory

Initié par la société de numérisation Safig associée à la société informatique Jouve, à la société spécialisée en OCR A2iAn à un laboratoire informatique de Paris VI (LIP6) et à un laboratoire informatique du CNAM (Cédric), le projet Demat factory, à l'instar du projet Polinum vise à harmoniser numérisation et diffusion. Ce projet est doté de 5,7 millions d'euros sur 3 ans.

Caractéristiques : Jouve peut proposer également Numérisation, Impression à la demande et Assistance à maîtrise

d'ouvrage OAI PMH Serveur SRU Gestion de thesaurus et de listes d'autorités Ajout des synonymes du mot saisi par l'usager à l'interrogation Authentification Shibboleth

Liens : Site de Safig Résumé du projet

Persée Programme national soutenu par le Ministère de l'Enseignement Supérieur et de la Recherche.

Chaîne de production et portail de diffusion.

Chaîne de production développée au sein de l'Université Lyon 2, utilisation à Paris 5.

Portail de diffusion développé par la société informatique Linagora et par l'Université Lyon 2.

La direction de Lyon 2 a toutefois décidé le 7 février 2011 de mettre fin à la convention-cadre soutenant l'existence du programme, comme nous l’avons appris grâce à la veille.

Caractéristiques : Adapté aux documents imprimés Numérisation destructive ou non Métadonnées : METS, Dublin Core, MODS, Marc XML, MADS (pour autorités). Importation

Page 20: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

20 / 71

possible de métadonnées depuis un SIGB. Texte intégral : TEI, Erudit schema (développé à Montréal pour les articles) Interopérabilité : OAI-PMH (avec Cairn et revues.org), Z39.50, OKI/OSID (permet d'avoir

une interface unique lorsqu'on recherche les articles d'une revue quelque soient les successions d'éditeurs et d'interface d'éditeurs qui l'ont publiée).

Identifiant articles : DOI (est facturé en fonction du chiffre d'affaires, donc peu onéreux) Navigation : Persée s'appuie sur une présentation arborescente des revues à laquelle les

chercheurs sont habitués, et propose également des navigations transversales par rebonds (citations, auteurs, nuage de tags).

Statistiques : via Google Analytics (villes et institutions d'origine, mots clés saisis dans les moteurs de recherche etc.). Certification COUNTER en cours.

Conservation : L'ensemble des revues présentes sur le portail Persée est en cours d'archivage. C'est le CINES (Centre Informatique National de l'Enseignement Supérieur), en collaboration avec l'équipe Persée, qui assure cette mission.

Développements : Lyon 2 travaille actuellement à sa segmentation afin de pouvoir l'adapter à des projets locaux car

de nombreuses universités avaient manifesté leur intérêt pour une réplication. Des développements informatiques sont possibles : adaptation à d'autres types de documents

que les revues, importation possible de métadonnées depuis un SIGB, possibilité de contributions extérieures.

Références de sites : Persée

Liens : Société informatique Linagora

Calames

Catalogue Collectif des manuscrits, Calames propose désormais la conservation des manuscrits numérisés et leur visualisation, mais de manière encore assez rudimentaire.

Liens : Calames

Bibliothèque nationale de France : Gallica

Développé par la Bibliothèque Nationale de France, Gallica ne permet pas, pour le moment, une participation à des bibliothèques extérieures à cause de son architecture technique actuelle (workflow adossé sur le seul catalogue de la Bibliothèque nationale). Mais il semblerait que cela puisse changer prochainement avec la mise en place de « Gallica tiers archivage » et de « Gallica marque blanche ». Les bibliothèques pourraient ainsi disposer d'une plate-forme Gallica sur leurs propres serveurs avec leur graphisme... La version actuelle de Gallica est un bon exemple de bibliothèque numérique réussie.

Gallica propose 1 million de documents en 2010.

Lien : Gallica

Europe : Europeana

Europeana moissonne les métadonnées d'autres portails via leurs réservoirs OAI-PMH. C'est un

Page 21: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

21 / 71

agrégateur. Il n'est pas question, pour le moment, d'héberger les documents numériques eux-mêmes.

Lien :

Europeana

UNESCO World Digital Library

Projet développé par l'UNESCO et la Bibliothèque du Congrès. Objectifs qualitatifs et non quantitatifs (vitrine).

Lien : World Digital Library

Sites de partage de documents

Jouant le rôle de YouTube ou DailyMotion mais pour les PDF et les livres, ces sites de partage de documents n'offrent pas, pour le moment, de garanties d'archivage pérenne, ni de critères d'interrogation très avancés, mais des visionneuses satisfaisantes.

issuu divvaroom scribd : utilisé pour Bibnum Evadoc Calameo ebookpulp

Seul ISSUU a pu être testé de façon convaincante (les autres sites ne permettent pas de décharger des documents suffisamment volumineux). La visualisation sur ISSUU est optimale, même si les métadonnées sont très limitées et peu adaptées au patrimoine. La fonction "embed" permet d'incorporer le visualiseur, en code HTML, dans ses propres pages web (cf exemple). Il ne reste plus ensuite qu'à créer des liens depuis ses notices bibliographiques vers ce type de page web.

Microsoft Digitization Project Projet développé par Microsoft pour concurrencer Google Books. Projet abandonné. Les 300 000 documents numérisés ont été cédés à archive.org.

Google Books

Bibliothèque numérique la plus importante sur le web. Pour le moment, Google ne cherche malheureusement pas à augmenter le nombre de ses partenariats en France. La Bibliothèque Municipale de Lyon est partenaire. La Bibliothèque nationale de France est en discussion. Google demande une exclusivité de 25 ans pour l'utilisation commerciale des documents numérisés (afin de vendre des fac simile à la demande et assurer une position dominante à son moteur de recherche). Néanmoins, les bibliothèques restent libres de diffuser les documents sur d'autres portails (archive.org est ainsi constituée pour une majeure partie de documents numérisés par Google).

Lien : Google Books

Page 22: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

22 / 71

Wikipedia

Projets porté par Wikipedia :

Liens :

Wikibooks : manuels d'enseignement Commons wikimedia : mediathèque de Wikipedia

Hathi Trust

Annonce plus de 6 millions de livres numérisés (dont 1 million en libre accès).

Participants : Utah State University, Cornell University Library, Dartmouth College, Triangle Research Libraries Network, Princeton University Library, Yale University Library, New York Public Library, Columbia University. Automne 2010 : adhésion de l'Université de Madrid

Payant.

Fonctionnalités :

Possibilité d'interroger en plein texte dans toute la plate-forme (contrairement à archive.org) Gestion des droits d'accès aux œuvres protégées (restrictions à la bibliothèque qui les a

numérisées) Bien adapté aux documents présentant des subdivisions (périodiques, archives) Propose des cartes géographiques dynamiques, des nuages de mots... Archivage pérenne

Liens :

Hathi Trust

Internet Archive : archive.org

Développé par une organisation américaine à but non lucratif (membre de l'Open Content Alliance), utilisant des logiciels libres, archive.org est, à l'heure actuelle, l'un des seuls concurrents crédibles de Google Books. Elle propose près de 2 millions de documents numérisés en 2010 et a bénéficié à ses débuts de 300 000 ouvrages numérisés par Microsoft suite à l'abandon de son projet Microsoft Live Book Search.

Chaque bibliothèque partenaire peut y déposer les documents qu'elle a numérisés et disposer de sa propre interface, avec son logo, son url, son graphisme et ses statistiques sur le modèle de l'essai que nous avons réalisé : archive.org/details/bibliothequesaintegenevieve

Les fichiers images se chargent par HTTP ou FTP et sont convertis automatiquement en formats EPUB et Kindle, (lecteurs ebooks), Daisy (malvoyants), DjVu (libre) et disposent d'un identifiant ark.

L'OCR des documents est bien indexé par Google mais il n'est pas encore possible d'interroger le contenu des tous les documents via archive.org pour le moment.

Page 23: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

23 / 71

Les collections d’Internet Archive (archive.org) peuvent être moissonnées en OAI-PMH par la plate-forme Gallica de la Bibliothèque nationale de France. Voici, par exemple la liste des ouvrages diffusés sur archive.org par la Bibliothèque Sainte-Geneviève et moissonnés par Gallica.

Lien :

archive.org

A l’issue de cette étude, il ressort que Internet Archive peut être une bonne solution en attendant le développement d’une plate-forme mutualisée en France ou l’ouverture de Gallica à l’hébergement de documents numérisés à l’extérieur de la Bibliothèque nationale de France.

2- Le dispositif de veille

2.1- Information formelle

2.1.1- Les outils Google Reader N’ayant pas encore commencé le Master 2 Veille Technologique et Innovation lorsque j’ai été affecté à la Bibliothèque Sainte-Geneviève, j’ai commencé à utiliser l’outil Google Reader car il était simple, gratuit et présentait les fonctionnalités suivantes :

surveiller des sites ou des bases de données par leurs flux RSS créer des RSS sur des sites non compatibles avec cette technologie n’afficher que les articles qui n’ont pas été lus publier les articles sélectionnés (« liste de partage ») Ajouter des notes et des commentaires synchroniser les articles publiés avec Twitter être mis en rapport avec des personnes surveillant le même type de sources (réseaux sociaux) avoir accès au compte à partir de n'importe quel poste

Page d’accueil du compte Google Reader

Page 24: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

24 / 71

Twitter Tout ce qui a été sélectionné, par mes soins, sur la liste de partage du compte Google Reader est automatiquement publié sur un compte Twitter. Au 1er juillet 2011, ce compte, sur lequel 426 tweets ont été publiés, est suivi par 65 personnes. Il me permet de suivre les tweets de 27 personnes susceptibles de publier des informations intéressantes et parfois assez informelles au sujet de la numérisation du patrimoine. Twitter est un bon moyen de faire de la veille à condition de ne surveiller que des sources pertinentes, c'est-à-dire d’éviter de suivre les personnalités bavardes, non professionnelles ou narcissiques susceptibles de générer un bruit documentaire important dans le dispositif de veille.

Zotero Les idées les plus innovantes sont très probablement à rechercher au sein des articles scientifiques. Au-delà du dispositif de veille. Une recherche documentaire complète a été réalisée, des articles téléchargés. Malheureusement, il n’a pas été possible, à ce jour de consacrer un effort suffisant à leur lecture et à leur analyse, d’autant que la majeure partie d’entre eux est rédigée dans un anglais très technique. En attendant, une bibliographie Zotero à été constituées à partir de bases bibliographiques (ScienceDirect, Web of Science, Google Scholar) et de catalogues (WordlCat, SUDOC).

2.1.2- Sources et équations de recherche Dossier Google Reader Source surveillée Equation de recherché Presse Google News (digitization AND libraries) OR

«hathi trust» OR «google books» OR «archive.org»

Presse Google Actualités (numerisation AND bibliotheques) OR polinum OR «demat factory» OR «hathi trust» OR «e-corpus» OR europeana OR gallica OR «google books» OR «archive.org»"

Publications scientifiques Archimag Flux RSS Publications scientifiques Computers and the humanities Flux RSS Publications scientifiques Documentaliste, Sciences de

l'information Flux RSS

Publications scientifiques EContentMag.com Flux RSS Publications scientifiques The electronic library Flux RSS Publications scientifiques Information processing &

management Flux RSS

Publications scientifiques Information technology and libraries

Flux RSS

Publications scientifiques International information & library review

Flux RSS

Publications scientifiques International journal on document analysis and recognition

Flux RSS

Publications scientifiques ITALica Flux RSS Publications scientifiques The Journal of Academic

Librarianship Flux RSS

Publications scientifiques Library collections, acquisitions, and technical services

Flux RSS

Page 25: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

25 / 71

Publications scientifiques Library Hi Tech Flux RSS Publications scientifiques Library trends Flux RSS Publications scientifiques Pattern recognition Flux RSS Publications scientifiques Serials review Flux RSS Publications scientifiques SUDOC RSS sur : (Titre = biblioth* AND

Titre = numeris*) OR (Sujet=biblioth* AND Sujet= numeris*)

Publications scientifiques Google Scholar Alerte mail (RSS impossible) sur : (digitization AND library) OR (numérisation AND bibliotheque)

Publications scientifiques ScienceDirect RSS sur mots sujet résumé titre = digitiz* OR mots sujet résumé titre = library*

e-reputation Google Actualités “bibliotheque sainte Genevieve” e-reputation Google Alert convertie en RSS “Bibliotheque sainte Genevieve”

AND numerisation e-reputation Google blog “bibliothèques interuniversitaires” e-reputation Google Alert convertie en RSS “solutions logicielles pour

bibliotheques numeriques” (il s’agit du titre d’un article que j’ai publié

e-reputation Google Alert convertie en RSS http://www.archive.org/details/bibliothequesaintegenevieve

e-reputation Google Blogs “bibliotheque sainte Genevieve” e-reputation Google Blogs Diadeis Blogs Bibnum.over-blog.com Flux RSS Blogs Bibliothèques numériques

(ENSSIB) Flux RSS

Blogs Des Bibliothèques 2.0 Flux RSS Blogs EchosDoc Flux RSS Blogs La Feuille Flux RSS Blogs Bibliothèques numériques en

réseau Flux RSS

Blogs Les petites cases Flux RSS Blogs BiblioFrance Flux RSS Blogs Tourner la page Flux RSS Blogs Google Blogs (numerisation AND

bibliotheques) OR polinum OR «demat factory» OR «e-corpus» OR europeana OR gallica OR «hathi trust» OR «google books» OR «archive.org»

Blogs Twitter Flux RSS des tweets des personnes que je suis

Wikis Bibliopedia Je surveille la modification des pages solutions logicielles pour bibliothèques numériques et Bibliothèques numériques

Wikis Wikipedia Je surveille la modification des

Page 26: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

26 / 71

pages bibliothèque numérique et numérisation

Brevets Google Patents Numerisation OR digitization Brevets Wipo.int Numerisation OR digitization Institutions ADDNB Flux RSS Institutions Bibliothèque numérique de

l’ENSSIB Flux RSS

Institutions BnF – Actualités professionnelles

Flux RSS

Institutions Centre National pour la Numérisation de Sources Visuelles du CNRS

Flux RSS

Institutions Couperin | Consortium Universitaire des Publications Numériques

Flux RSS

Institutions E-Corpus Flux RSS Institutions Fil ABES Flux RSS Institutions Gallica Flux RSS Institutions GFII Flux RSS Institutions Google alert convertie en RSS « Gallica marque blanche » Institutions Google alert convertie en RSS Gallica « tiers archivage » Institutions Google alert convertie en RSS « Bibliothèque scientifique

numérique » Institutions Google alert convertie en RSS « Sorbonne ACCESS » Institutions Greenstone Flux RSS Institutions IRHT Flux RSS Institutions Les news de La Cantine Flux RSS Institutions Les événements à La Cantine Flux RSS Institutions LIBER – The Ligue des

Bibliothèques Européennes de Recherche

Flux RSS

Institutions Patrimoine numérique : nouveautés

Flux RSS

Institutions PRES Sorbonne Paris-Cité Flux RSS Institutions TEI News Flux RSS Institutions TGE-Adonis Flux RSS Entre janvier 2009 et juillet 2011, 53 abonnements à des flux RSS, ont permis de sélectionner 651 articles qui ont été diffusés en ligne sur : http://www.tinyurl.com/m3od8e

2.1.3- Analyse et bibliométrie Le dispositif de veille a été mis en place le 23 mars 2009. Voici une chronologie des principales informations stratégiques qui ont été collectées et analysées :

23 mars 2009 : Amazon BookSurge imprime à la demande les livres numérisés par la bibliothèque de l'université Cornell (USA)

9 avril 2009 : Le Centre Informatique National d’Enseignement Supérieur (CINES) lance une solution d’archivage pérenne

14 avril 2009 : découverte personnelle de l’encodage TEI (Text Encoding Initiative) qui permet de créer des index à partir de termes repérés dans les textes océrisés via un article collecté par

Page 27: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

27 / 71

l’intermédiaire de la veille. 4 mai 2009 : La Bibliothèque Nationale de France lance le projet d’archivage pérenne SPAR

(Système de Préservation et d’Archivage Réparti) 25 mai 2009 : décollage foudroyant de l’impression à la demande en 2008 (+132 %, pour

285.394 ouvrages) 29 juillet 2009 : Amazon BookSurge imprime à la demande les livres de la bibliothèque

universitaire du Michigan. 24 août 2009 : Lancement de l’Open Book Alliance (Yahoo, Microsoft, Amazon) autour

d’archive.org contre Google Books 27 août 2009 : La Bibliothèque Nationale de France, après avoir dénoncé le projet Google

Books, annonce être en train de négocier un partenariat éventuel. 17 septembre 2009 : Google achète ReCAPTCHA afin de faire corriger le texte océrisé pour

Google Books par la multitude d’internautes qui créent des comptes sur le web. 18 septembre 2009 : Google signe un partenariat avec l’Espresso Book Machine. Cette machine

pourra imprimer à la demande l’ensemble des livres numérisés dans le cadre du projet Google Books.

30 septembre 2009 : découverte de la plate-forme Ebooks On Demand mutualisée entre plusieurs bibliothèques européennes afin de permettre la commande de numérisation de livres.

5 octobre 2009 : lancement d’Evadoc par des étudiants de l’ESSEC. 21 octobre 2009 : Internet Archive lance BookServer, vrai libraire anti-Amazon 30 octobre 2009 : lancement de e-Corpus une bibliothèque numérique et collective et gratuite 3 décembre 2009 : lancement de Polinum, un consortium d’entreprises en numérisation et en

web pour offrir une solution payante pour les bibliothèques. 3 décembre 2009 : le Hathi Trust lance sa bibliothèque numérique avec des fonctionnalités

d’archivage pérenne de ce que Google a numérisé. 14 janvier 2009 : le rapport Tessier préconise la mise en place d'une plate-forme mutualisée

pour la diffusion des documents numérisés par les bibliothèques françaises. 19 mars 2010 : Google annonce que la librairie Google Editions sera lancée en France cet été 7 avril 2010 : La BnF signe un partenariat avec Wikisource : le texte océrisé de 1400 livres

pourra être corrigé par des bénévoles. 7 mai 2010 : Internet Archive : un million de livres pour aveugles et dyslexiques 21 juillet 2010 : Internet Archive lance le prêt électronique de livres 22 septembre 2010 : Forum de l’impression numérique du livre à Paris 11 octobre 2010 : Europeana accepte de moissonner les références de livres numérisés et

diffusés sur Google Books. 30 novembre 2010 : dépôt d’un brevet pour numériser des livres en 3 dimensions par ondes

terahertz (sans avoir à ouvrir les livres). 2 décembre 2010 : Google ouvre enfin sa librairie en ligne. 3 janvier 2011 : Google lance Google Ngram viewer pour l’exploitation scientifique et l’analyse

bibliométrique des livres numérisés dans le cadre du projet Google Books. 10 février 2011 : la Bibliothèque nationale de France se lance dans l’impression à la demande

sur 100 000 livres. 8 mars 2011 : Le programme Persée semble être en difficultés, d’après de nombreux articles

publiés sur le web. 23 mars 2011 : la Bibliothèque nationale de France propose aux particuliers de financer la

numérisation de certains de ses livres. La totalité des articles sélectionnés peut être consultée à l’URL suivante : http://www.google.com/reader/shared/04395327137782770931

Page 28: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

28 / 71

Nous avons réalisé une analyse bibliométrique sur la numérisation en bibliothèque, mais aussi sur quelques opportunités et innovations que nous avons identifiées (print on demand, correction participative de l’OCR, Text Encoding Initiative). L’analyse à porté sur les bases bibliographiques Web of Science, ScienceDirect et Google Scholar : Numérisation en

bibliothèque Print on Demand en bibliothèque

Correction participative de l’OCR

TEI

Web of Science

Title=(digitiz* librar*) OR Topic=(digitiz* librar*)

Title=(pod print*) OR Topic=(pod print*) OR Title=(“print on demand”) OR Topic=(=(“print on demand”)

Title=(ocr correct*) OR Topic=(ocr correct*)

Title=(tei xml) OR Topic=(tei xml) OR Title=(“text encoding initiative”) OR Topic=(”text encoding initiative”)

ScienceDirect digitiz* AND librar* “Print on Demand” OR (POD and print*)

(“optical character recognition” OR OCR) AND (correct*)

(“Text encoding initiative”) OR (tei AND xml)

Google Scholar (import dans Zotero puis export au format RIS)

allintitle: digitization library allintitle: numerisation bibliotheques

allintitle: "print on demand"

allintitle: ocr correction

allintitle: "Text encoding initiative”

Cette analyse réalisée avec l’aide du logiciel Matheo Analyzer a nécessité les étapes suivantes :

Export depuis les bases bibliographiques Web of Science, ScienceDirect et Google Scholar Import dans Matheo Analyzer des champs à analyser avec paramétrages (séparateur de notices,

séparateurs libellé et contenu des champs, séparateurs des champs multi information, séparateurs des formes multi-informations, dédoublonnage de notices et choix de formes d’autorités…)

Extraction d’informations statistiques à partir des corpus. Cette analyse bibliométrique nous a permis d’identifier des revues, mais aussi des institutions et des auteurs dont les publications méritent d’être surveillées :

Page 29: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

29 / 71

Numérisation en bibliothèque (corpus de 799 notices)

Print on Demand en bibliothèque (corpus de 564 notices)

Correction participative de l’OCR (corpus de 163 notices)

TEI (corpus de 271 notices)

Revues leaders electronic library 19 articles research and advanced technology for digital libraries 17 articles library trends 16 articles library collections, acquisitions, and technical services 14 articles information technology and libraries 13 articles the international information & library review 11 articles library hi tech 10 articles library resources & technical services 10 articles the journal of academic librarianship 9 articles zeitschrift fur bibliothekswesen und bibliographie 9 articles journal of academic librarianship 9 articles

serials review 15 articles library collections, acquisitions, and technical services 13 articles the journal of academic librarianship 10 articles publishers weekly 9 articles library acquisitions: practice & theory 6 articles interlending & document supply 6 articles

document recognition and retrieval 8 articles international conference on document analysis and recognition 8 articles pattern recognition 8 articles international journal on document analysis and recognition 5 articles

computers and the humanities 14 articles literary and linguistic computing 14 articles serials review 12 articles the journal of academic librarianship 11 articles information processing & management 10 articles computer networks and isdn systems 6 articles computer standards & interfaces 6 articles library collections, acquisitions, and technical services 6 articles

Auteurs principaux

Long, L Rodney 22 articles Antani, Sameer 17 articles Thoma, GR 15 articles Lauria, A 10 articles Palmiero, R 10 articles Jeronimo, Jose 9 articles Chapman,S. 8 articles Chen, H 8 articles Fantacci, ME 8 articles Rauber, A 8 articles Lim, EP 7 articles

Silverbrook,K. 13 articles Gonzalez,M. 7 articles Schulz,M. 6 articles Chiarabini,L. 5 articles Spencer,H. 5 articles

Werner, B 5 articles Smith, EHB 5 articles Kantor, PB 5 articles Schulz, KU 4 articles Kanungo, T 4 articles Hu, JY 4 articles Zhou, J 3 articles Taghva, K 3 articles Lopresti, DP 3 articles Hauser, SE 3 articles Belaid, A 3 articles

Burnard,L. 32 articles Sperberg-McQueen,C. M. 29 articles Ide,N. 20 articles Hockey, Susan 9 articles Brown, Keith 8 articles Witten Lan H. 6 articles Johansson,S. 6 articles Bainbridge, David 6 articles Schreibman,S. 5 articles

A partir de cette analyse bibliométrique, les sources suivantes ont été ajoutées dans la veille sur Google Reader, lorsque c’était techniquement possible (compatibilité RSS) :

Publications scientifiques Computers and the humanities Flux RSS Publications scientifiques EContentMag.com Flux RSS Publications scientifiques The electronic library Flux RSS Publications scientifiques Information processing &

management Flux RSS

Publications scientifiques Information technology and libraries

Flux RSS

Publications scientifiques International information & library review

Flux RSS

Publications scientifiques International journal on document analysis and recognition

Flux RSS

Publications scientifiques ITALica Flux RSS Publications scientifiques The Journal of Academic

Librarianship Flux RSS

Publications scientifiques Library collections, acquisitions, and technical services

Flux RSS

Publications scientifiques Library Hi Tech Flux RSS Publications scientifiques Library trends Flux RSS Publications scientifiques Pattern recognition Flux RSS Publications scientifiques Serials review Flux RSS

Page 30: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

30 / 71

2.2- Information informelle Réseaux de bibliothèques Les bibliothèques sont généralement administrées par des conservateurs qui forment des réseaux humains auxquels je n’ai pas le privilège d’appartenir, n’ayant pas bénéficié de l'enseignement de l’Ecole des Chartes, ne faisant partie d'aucune promotion de l’Ecole Nationale Supérieure des Sciences de l’Information et des Bibliothèques (ENSSIB) et ayant été recruté sur CV et non sur dissertation. Néanmoins, j’ai eu l’occasion de travailler dans un nombre important d’institutions, lorsque j'étais affecté au Muséum national d’Histoire naturelle (réseau de bibliothèques en sciences, IRD, Cemagref, Ifremer, INRA) puis à l'Ecole Nationale Vétérinaire de Toulouse (autres écoles vétérinaires, Institut National Polytechniques de Toulouse, Service Inter-établissements de Coopération Documentaire, Agence Bibliographique de l’Enseignement Supérieur, Conférence des Grandes Ecoles). Par ailleurs, à la Bibliothèque Sainte-Geneviève, la conduite du Benchmarking, l’animation de la « brigade volante », la conduite du projet pour le Pôle de Recherche de l’Enseignement Supérieur et la participation à des journées d’études et des formations m’ont permis de faire connaître largement mon projet et de bénéficier d’un véritable réseau de renseignement humain. Je suis, en effet, parti du principe que plus je communiquerai les informations dont je dispose, plus je pourrai en recueillir en retour. De nombreuses informations stratégiques ou même des rumeurs relatives aux différents prestataires de numérisation nous sont parvenues dans le cadre de ce réseau et par le biais du benchmarking. Par exemple, en ce qui concerne les formats des images numérisées, à l’issue des visites que nous avons rendues à nos collègues d'autres bibliothèques, nous avions constaté que la quasi-totalité des bibliothèques numérisait en TIFF. Or, des spécialistes du Centre Informatique National de l'Enseignement Supérieur (CINES) nous ont recommandé de faire plutôt usage du PNG car donnant lieu à des fichiers moins lourds donc moins coûteux à conserver, mais préservant autant d’informations sur le document papier d’origine. Nous avons également appris que le projet de revues Persée avait justement converti ses fichiers numérisés initialement en TIFF en PNG afin de diminuer ses coûts. Enfin, des informations outre Atlantique nous ont laissé penser que le JPEG 2000 pourrait finir par s’imposer comme format de conservation selon Robert Miller, Directeur des livres du projet Internet Archive (archive.org). Comme nous le verrons ultérieurement, dans bien d'autres domaines, les informations ont pu être confrontées aux informations informelles et au réseau humain. Institutions Concernant les institutions et les tutelles des discussions régulières ont pu être maintenues avec le Ministère de l'Enseignement Supérieur (nous fréquentons la même cantine) et des échanges périodiques ont été développés avec l'Agence Bibliographique de l'Enseignement Supérieur. J'avais eu l'occasion de rencontrer son Directeur, Raymond Bérard, lorsque la Bibliothèque de l'Ecole Nationale Vétérinaire de Toulouse que je dirigeais s'est déployée dans le catalogue SUDOC et j'ai pu discuter avec lui de nouveau à l'occasion des journées pôles associés de la BnF et des journées ABES auxquelles je participais en tant qu'intervenant. Des relations au Ministère de la Culture ont également été nouées (j'ai fortement sympathisé avec Thierry Claerr, en charge de la numérisation au Ministère et qui m'a d'ailleurs régulièrement invité à intervenir à l'Ecole Nationale Supérieure des Sciences de l’Information et des Bibliothèques, ENSSIB), et avec la Bibliothèque nationale de France (j'ai échangé des mails avec de nombreux cadres et pu m'entretenir brièvement avec l'Adjoint du Directeur, Arnaud Beaufort, à l'occasion des journées Wikimedia à l'Assemblée Nationale). Par ailleurs, Yves Peyré, le Directeur de la Bibliothèque Sainte-Geneviève connaît très bien de nombreux hommes politiques et des hauts fonctionnaires du pays. Des informations stratégiques concernant le projet sont donc susceptibles de lui parvenir, même si j'ai bien conscience que les sujets de conversations qu'il peut avoir avec eux se situent à un tout autre niveau.

Page 31: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

31 / 71

Collègues à l’étranger et projets internationaux Des discussions pour d'éventuels partenariats ont été tenues avec Pierre Beaudoin, ancien président de la fondation Wikimedia France (Wikipedia), des représentants de Google Books, Robert Miller, Directeur du projet livres pour archive.org, Daniel Teeter, un Directeur stratégique d'Amazon, Silvia Gstrein, responsable du réseau européen Ebooks on Demand, un des directeurs de l'Espresso Book Machine et John Schäffer, Director of Business Developement chez ISSUU. Entreprises A l’occasion de l’appel d’offres de numérisation qui a occasionné 8 candidatures, de nombreux prestataires de numérisation ont été rencontrés. Il en fût de même pour la préparation de l’appel d’offres relatif au développement de la plate-forme mutualisée qui a suscité un nombre important de rencontres et de visites de SSII, en particulier des sociétés spécialisées en méthodes agiles. Les salons liés aux nouvelles technologies furent également l’occasion de collecter de l’information informelle. Des discussions assez régulières sont maintenues avec les dirigeants de Polinum, Stéphane Ipert, le Directeur du Centre de Conservation du Livre (plate-forme e-corpus) et, plus ponctuellement, avec le Directeur Général de Calameo, un développeur de ISSUU, les fondateurs de la société Evadoc (sociétés de partage de documents en ligne). Des discussions ont été menées, en particulier, avec des sociétés d'impression de fac-simile à la demande comme Amazon BookSurge, UniBook, Jouve et avec Juan Pirlot de Corbion, le fondateur de Chapitre.com qui a pris connaissance de notre projet suite à mon intervention au Forum de l'impression numérique 2010.

2.3- Détection des opportunités et des menaces

2.3.1- Opportunités

2.3.1.1- Amazon Booksurge Le 23 mars 2009, moins de 4 mois après ma prise de fonctions, j’apprends, grâce au dispositif de veille qu’un partenariat a été conclu entre Amazon BookSurge et la bibliothèque de l’Université de Cornell (USA). Ce partenariat porte sur la possibilité offerte par Amazon de produire des imprimés brochés à la demande à partir des livres numérisés par la bibliothèque. Ce type de partenariat me semble très opportun. Il permettrait à la bibliothèque d’offrir un service supplémentaire à ses lecteurs qui pourraient ainsi obtenir des livres brochés au-delà de la simple consultation des livres électroniques sur le web. Et ce nouveau service, non seulement ne coûterait rien à la bibliothèque, mais lui permettrait, au contraire, de bénéficier d’un retour sur investissements. C’est donc à propos de Print on Demand que je prends contact avec Amazon France dans un premier temps. Mais je suis rapidement mis en relation avec un contact aux Etats-Unis, Daniel Teeter, directeur stratégique pour Amazon BookSurge. Au fil des entretiens téléphoniques, j’explique à Daniel Teeter la situation des bibliothèques en France qui renoncent à diffuser ce qu’elles numérisent faute de plate-forme de diffusion. Il comprend très rapidement l’opportunité stratégique qui s’offre à sa société. Le 19 mars 2009, il accepte ma proposition de développer une plate-forme de diffusion ouverte aux bibliothèques de France, dans le cadre d’un partenariat et sur la base d’une traduction en anglais du cahier des charges que j’avais rédigé. Le développement devait commencer en avril 2010 et durer moins d’un an. En travaillant avec une grande société comme Amazon dont les réalisations sont appréciables, nous avions l’assurance de développer une plate-forme de bonne qualité. En effet, je constate souvent que les prestataires privés n’exécutent pas toujours un travail de très grande qualité lorsqu’ils le font pour un acteur public. C’est la raison pour laquelle, il me semblait que de travailler selon un modèle de partenariat pouvait avoir des conséquences bénéfiques sur la qualité du projet, le partenaire privé étant intéressé directement par sa réussite. Ce partenariat nous aurait également permis d’économiser

Page 32: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

32 / 71

plusieurs centaines de milliers d’euros. Enfin, ce partenariat, nous aurait permis de bénéficier d’une bonne couverture médiatique pour notre projet de numérisation. Néanmoins, ma Direction a préféré ne pas donner suite à cette opportunité, pour des raisons politiques. Si la bibliothèque avait été une bibliothèque territoriale, nous aurions pu en faire la proposition au Maire ou au Président du conseil Général. Dans notre cas, la bibliothèque relève du ministère de l’enseignement supérieur. Ce partenariat aurait donc nécessité un accord à un tout autre niveau. Une autre piste devait donc être explorée pour notre plate-forme de diffusion. J’ai néanmoins communiqué les coordonnées de Daniel Teeter (Amazon) à Arnaud Beaufort, adjoint au Directeur de la Bibliothèque nationale de France le 20 juillet 2009, puis une discussion, à propos d’impression à la demande a eu lieu au siège d’Amazon à Paris avec Elodie Meisler, chargée des projets impression à la demande et chercher au cœur pour la France le 31 août 2010.

2.3.1.2- Le Pôle de Recherche de l’Enseignement Supérieur (PRES) Sorbonne Paris-Cité

L'opportunité stratégique d'utiliser notre Pôle de Recherche de l'Enseignement Supérieur (PRES) Sorbonne Paris-Cité ne provient pas du dispositif de veille. Bien que j'aie pu constater l'intérêt de ce type de structure sur un poste antérieur, quand je dirigeais la Bibliothèque de l'Ecole Nationale Vétérinaire de Toulouse, en ce qui concerne la mutualisation d'archives ouvertes ou la mutualisation de catalogues, je n'avais pas eu l'idée de m'adresser au PRES parisien pour obtenir un soutien pour mon projet. C'est Yves Peyré, le Directeur de la Bibliothèque Sainte-Geneviève qui me convia à une réunion des Directeurs des bibliothèques du PRES. Cette réunion portait sur la numérisation. Un tour de table permit à chacun de dire ce qu'il avait fait en matière de numérisation et quels étaient ses projets. Lorsque l'occasion me fut donnée de prendre la parole, j'exposai la situation des bibliothèques en France qui numérisent sans mettre en ligne faute de moyens de diffusion et tout l'intérêt qu'il y aurait à mutualiser une plate-forme sur le plan de la qualité, de la pérennité et du partage des coûts. Mon Directeur appuya fortement mon intervention et sût rapidement convaincre ses pairs. Il était décidé que la prochaine réunion se tiendrait à la Bibliothèque Sainte-Geneviève, en présence des Directeurs de Bibliothèques et de dirigeants du PRES. Ce fût l'occasion pour moi de présenter un diaporama sur le projet et de convaincre définitivement l'ensemble de l'opportunité de nous engager dans cette voie, d’autant que nous étions déjà assez avancés (les cahiers des charges pour la plate-forme, la numérisation à la demande et l’impression à la demande étaient déjà rédigés). Par contre, j’étais un peu mal à l’aise vis-à-vis des bibliothèques (Sorbonne, Mazarine, Pharmacie, Paris 8) avec lesquelles nous avions envisagé ce projet dans un premier temps et que nous devions donc abandonner. C’est la raison pour laquelle, j’ai posé la question aux dirigeants du PRES de la possibilité pour ces bibliothèques de participer à la bibliothèque numérique mutualisée que nous allions développer. La réponse a toujours été clairement positive. La Bibliothèque du PRES Sorbonne Paris-Cité sera ouverte au-delà du PRES. D'ailleurs, dans la mesure où les financements proviendront en grande partie de la ville de Paris et de la région Ile de France, la possible participation des bibliothèques de ces territoires sera même assez naturelle. Ce financement pourrait notamment être favorisé par le fait que les PRES Paris Est et Paris Tech pourraient également manifester leur intérêt pour le projet, comme me l’a signalé Gaëtan Tröger, adjoint au directeur de la bibliothèque de l’Ecole des Pont et Chaussées qui est membre fondateur de ces 2 PRES. La mise en place d’un comité de pilotage inter PRES me semblerait d’ailleurs très appropriée. Cette plate-forme, outre l’effet bénéfique de la mutualisation, pourra également bénéficier du nom de domaine bibliotheque-numerique.fr que je suis personnellement parvenu à acquérir et des innovations technologiques identifiées dans le cadre de ma veille :

Correction participative de l’OCR Impression à la demande

Page 33: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

33 / 71

Numérisation à la demande Encodage TEI

2.3.1.3- Correction participative de l’OCR La numérisation de la page d’un livre va générer la photographie de cette page. A partir de cette simple image numérique, il est impossible de rechercher (« en texte intégral ») un mot en son sein. Il est également impossible d’en copier-coller un paragraphe. Pour rendre possible ce type d'opération, il va être nécessaire d'océriser l'image du texte, c'est à dire de la soumettre à un traitement de reconnaissance de caractères avec l’aide d’un logiciel d'OCR. Ce logiciel va chercher à identifier à quel caractère correspond l'image de tel caractère. A la fin du traitement, le logiciel aura produit un fichier texte à partir du fichier image, en identifiant chacun de ses caractères, comme si on s’était chargé de le saisir sur clavier. Malheureusement, ce type de traitement génère de nombreuses erreurs. Ainsi, une disparité dans le papier va déformer l'aspect d'un caractère et tromper le logiciel qui identifiera un autre caractère que celui réellement présent. Par ailleurs, l’océrisation sera rendue également plus difficile en présence d’annotations, de polices anciennes ou originales, de caractères irréguliers, et encore d’avantage si des textes manuscrits sont rencontrés. Les multiples erreurs générées par le logiciel OCR pourront bien être partiellement corrigées avec l’aide de dictionnaires de mots, mais un contrôle humain demeurera nécessaire. A l’issue du processus, entre 5 et 10 % d’erreurs demeureront et seule une correction non automatique sera susceptible de réduire ce pourcentage. Certaines sociétés proposent d’exporter cette correction humaine dans des pays où la main d'œuvre est à coûts réduits (Madagascar, Viêt-Nam…), une autre possibilité serait d’utiliser les possibilités du web 2.0 et de permettre aux internautes intéressés par tel ou tel texte de corriger le texte océrisé de manière participative, à l’image de l’encyclopédie participative Wikipedia. Au cours de mon expérience professionnelle, j'avais eu l'occasion de rencontrer des membres de l'association Wikimedia, association porteuse de Wikipedia. Ainsi, lorsque je travaillais au Muséum national d'Histoire naturelle, j'avais proposé une collaboration des chercheurs en ichtyologie (poissons) avec Wikipedia et la réalisation de vidéos d’entretiens. Puis, lorsque j'étais responsable de la Bibliothèque de l'Ecole Nationale Vétérinaire de Toulouse, j'avais obtenu un mécénat de la fondation Wikimedia qui avait financé la numérisation de plus de 100 thèses anciennes. Les documents numérisés s'étaient ainsi retrouvés sur Commons Wikimedia puis sur Wikisource et le texte océrisé avait ainsi pu être, en grande partie, corrigé par des internautes de manière participative. Fort de cette expérience, je propose le 9 avril 2009, une rencontre avec l'association Wikimedia. Elle aura lieu le 27 octobre 2009 à la Bibliothèque Sainte-Geneviève en présence de Rémi Mathis, conservateur de bibliothèque et membre de l'association et de Pierre Beaudoin, ancien président de l'association. L’entretien abouti sur la proposition de déposer nos textes océrisés sur Wikisource afin qu’ils soient corrigés. Mais avant, il faut attendre les premières livraisons de notre prestataire de numérisation. Or, j'apprends le 7 avril 2010, grâce à mon dispositif de veille et via un communiqué de presse, que la Bibliothèque nationale de France a livré 1400 livres sur Wikisource afin que leurs OCR soient corrigés de manière participative. Mais j'apprends ensuite, à l'occasion des journées Wikimedia qui se tenaient à l’Assemblée Nationale les 3 et 4 décembre 2010, que cette collaboration a finalement posé quelques problèmes. En effet, lorsque le logiciel d’OCR effectue une reconnaissance des caractères d’un texte numérisés, un fichier XML (ALTO) va être constitué sous forme d’un index de tous les mots du texte et des coordonnées de ces mots dans l’image du texte. Cette fonctionnalité permet ainsi les recherches en texte intégral et le surlignage des mots recherchés. Dans le cas du partenariat BnF / Wikisource, ce fichier n’a pas pu être corrigé en même temps que le texte océrisé était corrigé. Les mots de l’index ont donc conservé leurs erreurs, ils ne peuvent donc pas être interrogés convenablement et leurs coordonnées dans l’image ont changé. La correction du texte océrisé n’aura certes pas coûté cher. Par contre, le lien entre le texte et son image n’a pas été conservé. Et la création d’un nouvel index sera bien plus difficile à mettre en place. C’est la raison pour laquelle, je pense qu’il est plus opportun de proposer la correction participative de

Page 34: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

34 / 71

l’OCR directement sur la plate-forme de diffusion avec une correction dynamique du fichier dans lequel est contenu les mots du texte et leurs coordonnées image. C’est cette solution que j’envisage dans le cahier des charges du projet de plate-forme mutualisée du PRES, sur le modèle de ce qui est développé en Australie pour la correction participative des textes océrisés de journaux (L'Australian Newspapers Digitisation Program). Une autre solution technique très innovante a été développée par Google Books et bien qu’elle ne puisse pas être adaptée à notre projet, elle mérite de retenir toute notre attention et d’être saluée comme particulièrement astucieuse. Google Books a, en effet, racheté la société qui a développé Captcha, une solution logicielle destinée aux sites qui souhaitent se prémunir des attaques de robots. Lors de la création de comptes, l’internaute doit recopier un mot déformé afin de prouver qu’il n’est pas un robot. Ce faisant, il participe à la correction du texte océrisé dans le cadre du programme Google Books.

2.3.1.4- Print on Demand Ces dernières années, les éditeurs et les imprimeurs on constaté une tendance à la baisse du nombre de tirages. Dans le même temps, et en particulier depuis 2002, est apparu un nouveau modèle économique : le Print on Demand (POD). Ce modèle économique consiste à imprimer en flux tendu en fonction de la demande. Il permet de ne plus avoir à prévoir à l’avance de nombre d’exemplaires qui devraient être vendus, de limiter ainsi les risques de surproduction, de ne plus connaître d’invendus, et surtout de ne plus avoir à gérer des stocks coûteux en personnel, en conservation et en loyers. Durant l'année 2008, d’après Bowker, la production de livres imprimés aux USA avec le modèle traditionnel a connu une croissance de 3% tandis que la production sous forme de Print on Demand a augmenté de +132 %. Et, pour la première fois, aux USA, d’avantage de livres imprimés ont ainsi été produits avec ce modèle, en particulier, il est vrai, grâce à l’autoédition. Ce modèle économique devait nécessairement rencontrer le monde de la numérisation des bibliothèques. Les œuvres libres de droit ou orphelines de tout ayant droit vont pouvoir ainsi, après avoir été numérisées, c'est-à-dire après être passées du support papier au support électronique, « ressusciter » sur support papier et être à nouveau vendues comme des fac similés brochés. Pour avoir eu, entre les mains des livres produits par print on demand, c'est-à-dire avec des imprimantes jet d’encre au lieu des traditionnelles offsets, le résultat est tout à fait similaire et il est évident qu’il y a là une formidable opportunité pour la numérisation en bibliothèque. Amazon et Google l’ont d’ailleurs bien compris. Cette opportunité a été détectée via le système de veille le 23 mars 2009, moins de 3 mois après la mise en place du dispositif, grâce à un article mentionnant le partenariat entre Amazon Booksurge et l’Université de Cornell (USA). La bibliothèque de cette université a numérisé des livres. Amazon peut commercialiser des impressions à la demande de ces livres et reverser à l’université une partie des bénéfices réalisés. Cette solution pourrait tout à fait être adaptée à notre projet de numérisation. Elle permettrait d’offrir un nouveau service à nos lecteurs (pouvoir acheter des imprimés à la demande) et ce, sans générer aucun coût pour la bibliothèque. Au contraire, un retour sur investissements serait même possible (pour numériser d’avantage de livres, par exemple). Les seules difficultés rencontrées dans la mise en place de ce nouveau service sont d’ordre culturel (accepter de devenir partenaire d’entreprises commerciales, et dépasser la logique de financement public exclusif du service public). Un certain nombre de sociétés susceptibles de devenir nos partenaires dans le cadre d’une délégation de service public ont été rencontrées : UniBook, Amazon Booksurge, Jouve, Espresso Book Machine, Librissimo-Phoenix editions, Juan Pirlot de Corbion (fondateur de Chapitre.com). Un cahier des charges a été rédigé et soumis à diverses sociétés pour en lever toute ambiguité et mieux l’adapter aux réalités et aux possibilités du marché. Le partenariat est envisagé dans le cadre d’une délégation de service public, à l’image des photocopieurs ou des distributeurs de boissons qui n’appartiennent pas à la bibliothèque mais sont exploités par des sociétés privées. En ce qui concerne l’impression à la demande, les livres imprimés commandés par les lecteurs seront directement facturés par le prestataire pour le client. Le 30 novembre 2010, le cahier des charges est proposé au comité de pilotage du projet. Le 26 janvier 2011, il est discuté avec les services de la Bibliothèque qui accueillent très tièdement le projet et

Page 35: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

35 / 71

doutent qu’un tel service rencontre une demande du public. Seule la Direction de la Bibliothèque appuie le projet. Mais, dans la mesure où il est également inscrit dans celui proposé au PRES Sorbonne Paris-Cité (dont la mise en service de la plate-forme est prévue pour l’été 2012), nous pourrions envisager d’attendre cette date pour le mettre en œuvre collectivement avec les autres bibliothèques du PRES. Malgré cela, comme les projets du PRES sont retardés et incertains, je propose à la Direction de la Bibliothèque de ne pas attendre et d’expérimenter, quitte à élargir ultérieurement notre délégation de service public à d’autres bibliothèques. Elle accepte. Un appel d’offres devrait être publié en septembre 2011 pour une mise en œuvre début 2012. Cette opportunité stratégique est également partagée avec la Bibliothèque nationale de France (BnF). Je communique les coordonnées de Daniel Teeter (Amazon Booksurge) à Arnaud Beaufort, adjoint au Directeur de la BnF le 15 juillet 2009 et mon cahier des charges à Frédéric Martin, adjoint à la responsable des pôles associés, le 30 août 2010. Le 2 septembre 2010, il m’est répondu : « J'ai transmis votre cahier des charges aux experts concernés, qui vont l'examiner. Je vous tiendrai au courant dès que cela sera fait, sans doute pourrons-nous convenir à ce moment-là d'une réunion d'échange sur nos projets. ». A ce jour, je n’ai jamais eu de réponse. Par contre, le 21 mars 2011, j’ai découvert, dans la presse, grâce à la veille, que la BnF se lançait dans le Print on Demand. Mais, le 18 septembre 2009, le dispositif de veille me permet d’identifier une possibilité complémentaire : l’installation d’une Espresso Book Machine dans la Bibliothèque. Cette machine pourrait être installée dans le bâtiment et permettre à nos lecteurs d’acheter sous forme d’imprimés brochés l’intégralité des livres numérisés disponibles sur Google Books, archive.org et donc de pouvoir commander les livres numérisés par la bibliothèque (diffusés sur archive.org) mais aussi bien d’autres. Par contre, l’achat d’une de ces machine est assez coûteux et nécessite une maintenance technique (bourrages éventuels, papier, encre, colle, cartons de couvertures…). Son achat n’a donc, finalement, pas été envisagé dans le cadre du projet du PRES Sorbonne Paris-Cité mais a été proposé à l’Université Numérique Paris-Ile de France le 6 décembre 2010 puis à la société délégataire de service public pour les photocopieurs de la bibliothèque. Mais ni l’une ni l’autre n’ont donné suite… Reste à espérer que, dans le cadre de notre appel à délégation de service public, une société accepte de prendre le risque d’en installer une (sous forme d’achat ou de location), sachant que nous accueillons plus de 1400 visiteurs par jour et qu’une couverture médiatique pourrait accompagner cette première en France. Mes interlocuteurs auprès de la société ondemandbooks m’ont proposé de disposer gratuitement d’une machine pendant 2 ans et que la bibliothèque bénéficie d’une part des recettes. Néanmoins, la Direction de la Bibliothèque n’a pas donné suite à cette avantageuse proposition, probablement afin de ne pas donner l’impression à nos partenaires du PRES de faire cavalier seul.

2.3.1.5- Numérisation à la demande L'idée de proposer la possibilité, à des particuliers ou à des mécènes, de financer la numérisation de tel ou tel document n’est pas totalement de résultat de la veille mais plutôt celui de plusieurs expériences antérieures : 1- Expériences de mécénats de numérisation : Dans le cadre de postes précédents, j'avais eu l'occasion de pratiquer des mécénats afin de numériser des ouvrages conservés dans les bibliothèques dont j'avais la responsabilité :

Bibliothèque d'ichtyologie du Muséum national d'Histoire naturelle : numérisation des 27 volumes de l'Histoire naturelle des poissons de Cuvier et Valenciennes (le plus gros effort de description d'espèces de poissons à ce jour) par la fondation Total

Bibliothèque de l'École Nationale Vétérinaire de Toulouse : numérisation des 100 thèses les plus anciennes par la fondation Wikimedia.

2- Réseau Ebooks on Demand (EOD) : La Bibliothèque Inter-Universitaire de Médecine (BIUM) nous avait fait part, à l'occasion de notre visite

Page 36: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

36 / 71

benchmarking, de sa participation au réseau européen Ebooks on Demand (EOD). Ce réseau leur permet de disposer d'une plate-forme de paiement. La bibliothèque ajoute dynamiquement des boutons EOD dans son catalogue en ligne sur certains titres. Les usagers peuvent ainsi payer le service de numérisation de la bibliothèque. L'inconvénient de ce système réside dans la nécessité, pour la bibliothèque de s'équiper en scanners et de développer son propre atelier de numérisation. Or, numériser par ses propres moyens est un métier et nécessiterait de moyens dont nous ne disposons pas et dont nous ne souhaitons pas forcément disposer dans la mesure où la numérisation est plus compétitive lorsqu'elle est prise en charge par un prestataire privé disposant d'une productivité, d'une intensité et d'une durée du travail souvent supérieure afin d’amortir de lourds investissements en machines sur des durées plus courtes. Néanmoins, nous apprenons qu’une bibliothèque autrichienne, avec laquelle nous prenons contact, fait appel à un prestataire privé qui utilise la plate-forme de paiement EOD. Nous pourrions donc proposer à un délégataire d’en faire de même. 3- La possibilité de financer un banc du jardin des plantes L'initiative du Muséum national d'Histoire naturelle consistant à permettre à des particuliers de financer l'installation de bancs au jardin des plantes nous a semblé pouvoir être appliquée à la numérisation de tel ou tel livre. 4- La possibilité d'adopter un livre Plus proche du monde des bibliothèques, la possibilité offerte au public de financer l'acquisition d'un livre par certaines bibliothèques anglaises (« adopter un livre »), nous a semblé pouvoir servir de modèle pour mettre en place un service de numérisation à la demande. 5- L’inexistence d’un service de reprographie numérique pour toute la bibliothèque permettant de répondre aux nombreuses demandes de reproduction que nous font les lecteurs et que nous ne sommes pas en mesure d’honorer. L’idée de proposer à des internautes, à des particuliers, à des mécènes ou à des institutions de financer la numérisation de tel ou tel livre découle de ces 5 expériences. Le projet est rapidement proposé à la Direction de la Bibliothèque Sainte-Geneviève peu après mon affectation (22 février 2010). Il s'agirait d'incorporer des boutons dans notre catalogue en ligne afin de proposer à nos lecteurs ou à des mécènes de financer la numérisation de tel ou tel livre. Après avoir cliqué, l'internaute est renvoyé vers une plate-forme de paiement en ligne, celle du réseau européen Ebooks on Demand, ou une autre choisie par un prestataire de numérisation. Les usagers seraient également sollicités via la plate-forme de bibliothèque numérique. En effet, cette plate-forme proposerait la lecture des textes numérisés, mais afficherait également ceux que nous n'avons pas encore eu les moyens financiers de numériser mais que nous proposons à la numérisation, à l’image de Google Books qui référence aussi des livres non numérisés dont on ne dispose que de métadonnées pour le moment. Au-delà de solliciter des mécénats de particuliers ou de fondations, cela nous permettrait de signaler nos programmes de numérisation à nos collègues des autres bibliothèques. Pour le moment les échanges de ce type d’informations se font via la communication de fichiers Excel ou via des sites gouvernementaux (patrimoine numérique pour le ministère de la culture et NUMES pour l’enseignement supérieur) sur lesquels on signale les grands corpus que nous avons ou que nous allons numériser. L’envoi de fichiers Excel est trop laborieux. Le signalement des projets est relativement inutile car on ne précise pas quels titres vont être numérisés. S'inspirant du mode de fonctionnement utilisé pour nos photocopieurs en libre accès à la Bibliothèque ou pour les distributeurs automatiques de boissons, la forme d'une délégation de service public est proposée. Dans le cas de la numérisation à la demande, ce sera donc directement le particulier ou le mécène qui commandera et paiera le prestataire délégataire, l'argent n'ayant pas besoin d'être géré par la Bibliothèque. Le prestataire viendra chercher les documents à numériser et livrera les fichiers numérisés

Page 37: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

37 / 71

au commanditaire et à la Bibliothèque. Ce dispositif nous permettrait de créer, avec des coûts publics quasiment nuls, un service de reprographie numérique de qualité professionnelle pour toute la bibliothèque. Or, jusqu’à présent, un tel service est inexistant et nous ne pouvons répondre à de nombreuses demandes que nous adressent les lecteurs afin d’obtenir la reproduction de documents. Ainsi, le service s’adresserait :

aux particuliers souhaitant utiliser une reproduction d’un livre car n’ayant pas la possibilité de se déplacer facilement afin de le consulter in situ et ne disposant pas encore d’une service de reprographie.

aux mécènes souhaitant financer nos programmes de numérisation à des investisseurs souhaitant faire apparaître le nom de leur société sur des livres numérisés

susceptibles d’obtenir des statistiques de consultation importantes. Sur le modèle du service Google Adwords, on peut estimer, par exemple, qu’un livre générant 6000 visites offrira un trafic pour une valeur de 50 € correspondant au coût de sa numérisation. Au-delà de 6000 visites, il peut donc être rentable pour un investisseur de financer la numérisation d’un livre.

Mais, là encore, cette proposition a rencontré des réticences internes :

Peur d'avoir une charge de travail trop importante pour communiquer les documents au prestataire et effectuer les constats d'états avant et après numérisation.

Hostilité idéologique et culturelle vis à vis des délégations de service publique (refus de sous-traiter des services publics par des entreprises privées) et du mécénat (très peu pratiqué en bibliothèque).

Incrédulité : personne n’acceptera de participer au financement de la numérisation des livres, d’autant que la numérisation d’un livre est encore très coûteuse.

Ces réticences rejoignent celles qui m’ont été relatées par Juan Pirlot de Corbion, fondateur de Chapitre.com. En effet, après avoir présenté le projet de print on demand à l’occasion du forum 2010 de l’impression numérique, je reçois la visite du fondateur de Chapitre.com. Il est très intéressé par le projet et me relate une expérience avec la Bibliothèque nationale de France qui avait exporté une grande partie de son catalogue sur un portail commercial pour en permettre la numérisation à la demande par sa société. Or, le projet a été abandonné, victime de son succès. Les demandes de numérisations étaient trop importantes pour les ressources humaines de la BnF qui devaient mettre à disposition les livres, effectuer des constats d’états et décrire matériellement les livres et qui ont vite manifesté leur hostilité pour un travail si ingrat. Par ailleurs, le délai entre la commande et sa satisfaction était très long, puisque la fourniture du devis était suspendue à une description matérielle comportant constat d’état, angle d’ouverture, format et surtout, nombre de pages… Afin d’éviter que nous ayons à compter systématiquement le nombre de pages à numériser, je propose dans notre cahier des charges que le prix soit fixé sur la base de la notice déjà existante comportant des dimensions imprécises et un nombre de pages toujours un peu en deçà du nombre de feuillets réellement à numériser (les normes de description bibliographique nous imposent de renseigner le dernier numéro de page écrit, non le nombre réel de feuillets). Le prestataire délégataire devra tenir compte du caractère imprécis de cette information lorsqu’il fixera ses tarifs. Un cahier des charges détaillé est proposé dès le 30 novembre 2010, il est relu par la Direction et discuté en réunion élargie le 26 janvier 2011. Par ailleurs, ce projet est également inscrit dans celui proposé au PRES Sorbonne Paris-Cité dont la mise en service de la plate-forme est prévue pour l’été 2012. Mais nous devrions néanmoins le mettre en œuvre à titre expérimental avant la fin de l’année 2011. J’ai aussi eu l’occasion de communiquer cette idée dans le cadre de conférences ou de formations dans lesquelles je suis intervenu mais aussi en la suggérant à la Bibliothèque nationale de France dans un courriel du 15 avril 2009. Mon cahier des charges a même été communiqué le 30 août 2010 et a donné lieu le 2 septembre 2010, à la réponse, déjà rapportée précédemment, de mon interlocuteur à la Bibliothèque nationale de France : « J'ai transmis votre cahier des charges aux experts concernés, qui

Page 38: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

38 / 71

vont l'examiner. Je vous tiendrai au courant dès que cela sera fait, sans doute pourrons-nous convenir à ce moment-là d'une réunion d'échange sur nos projets. ». A ce jour, je n’ai toujours pas eu de réponse. Par contre, le 23 mars 2011, j’ai découvert, par le système de veille, que la Bibliothèque nationale de France avait mis en place un service de numérisation à la demande sous le nom de « adopter un livre »...

2.3.1.6- Numérisation 3D du bâtiment Dans le cadre d’une recherche d’appartements à titre personnel, j’avais remarqué, avec intérêt, que le site se.loger.com proposait aux internautes de visiter virtuellement les appartements par le biais d’une numérisation 3D. Il m’a rapidement semblé que la Bibliothèque Sainte-Geneviève, œuvre remarquable de l’architecte Henri Labrouste, pouvait donner lieu à une numérisation 3D. Aussi, à la recherche de possibles applications de la numérisation 3D pour l’architecture, j’ai rapidement identifié l’existence de l’Unité Mixte de Recherche CNRS 694 Modèles et simulations pour l'Architecture et le Paysage et admiré ses réalisations (Versailles, Avignon, Carcassonne). Moins d’un mois après ma prise de fonction, le 23 décembre 2008, je prenais contact avec Livio de Luca, Ingénieur de Recherche dans cette UMR. Il a immédiatement manifesté son intérêt pour le projet. Son équipe de recherche est intéressée par la mise en relation entre nos sources (les plans et les manuscrits de l’architecte Labrouste que nous avons numérisés) et la réalisation d’une maquette 3D du bâtiment. La confrontation entre le dessin de l’architecte et sa réalisation peut être source de découvertes scientifiques, tout comme la comparaison de pièces d’architectures à première vue similaires. La maquette 3D du bâtiment servirait ainsi de point d’accès aux documents numérisés en rapport avec la construction du bâtiment. Par ailleurs, le journal des travaux de Labrouste permettrait de reconstituer la chronologie de la construction et de la reproduire virtuellement en ajoutant une dimension temps à la maquette. Enfin, la numérisation 3D de notre cabinet de curiosités (17e siècle) dont une partie a été transférée au Muséum national d’Histoire naturelle et une autre à la Bibliothèque nationale nous permettrait de reconstituer virtuellement cette collection. Nous n’oublions pas, non plus, l’aspect moins scientifique de l’opération qui nous permettrait d’offrir une possibilité de visite virtuelle de la bibliothèque afin de mieux la valoriser. La maquette 3D pourra aussi être utilisée, dans le cadre du programme de travaux de modernisation du bâtiment, comme outil pour les architectes contemporains. Enfin, un retour sur investissement pourrait être envisagé avec la vente d’impressions 3D à la demande du masque mortuaire de Henri IV ou de celui de Pascal, de quelques curiosités ethnologiques, ou encore la maquette 3D de la bibliothèque elle-même) La Direction de la Bibliothèque a validé le projet et proposé de se charger de lui trouver un financement sur la base du dossier que j’avais rédigé en collaboration avec l’adjointe du Directeur, Florence Leleu. Malheureusement, à ce jour, aucun financement n’a été trouvé et je n’ai pas été autorisé à rechercher un mécène car l’obtention de mécénats pourrait faire craindre une diminution du budget tout en augmentant les contraintes en ce qui concerne la manière de le dépenser. Mais, cette prise de contact a, là encore, directement inspiré la Bibliothèque nationale de France qui a décidé de faire numériser en 3D le quadrilatère Richelieu, autre œuvre de Labrouste avec la même équipe de recherche. Nos collègues ont promis de mentionner le fait que c’était la Bibliothèque Sainte-Geneviève qui avait eu cette idée. Il faudra nous en contenter, en attendant qu’un financement soit trouvé.

2.3.1.7- Encodage TEI (Text Encoding Initiative) L’un des développements les plus prometteurs dans le domaine de la numérisation semble être lié à l’exploitation scientifique qui peut être faite des textes issus de l’océrisation des livres numérisés. Les nuages de mots, le text mining ou encore Google Ngram Viewer sont souvent évoqués à ce sujet Ainsi, Google Ngram Viewer est un nouveau service mis en place par Google. Il a été identifié, via le dispositif de veille le 3 janvier 2011. Google Ngram Viewer permet d’exploiter le contenu des livres numérisés par Google en affichant le nombre d’occurrence de tel ou tel mot ou expression au sein de la littérature mondiale, année par année. Il est facile de réaliser ainsi des diagrammes et d’en exporter les données. De cette manière, il est déjà possible de constater, au fil des siècles, l’apparition ou la

Page 39: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

39 / 71

disparition de mots ou d’expressions, mais aussi leur croissance ou décroissance, les taux de citations de personnes ou d’évènements... Mais de nouveaux développements devraient également voir le jour et permettre d’aller beaucoup plus loin dans l’exploitation des contenus numérisés par Google qui va, d’ailleurs, installer un institut de recherche en France, comme nous l’avons appris par veille, le 9 septembre 2010. Plus adapté aux modestes volumes de livres numérisés que nous pouvons proposer dans le cadre des universités parisiennes, la TEI (Text Encoding Initiative) devrait pouvoir être adaptée à nos projets. A partir d’un texte numérisé puis océrisé, ce format XML permet d’ajouter des balises sur certains mots ou parties du texte afin de structurer le texte et d’en permettre la valorisation éditoriale. Ainsi, on pourra faire ressortir, par exemple, les noms de personnes, les noms de lieux, les noms de métiers… au sein d’un texte et en générer des index. Ce travail non automatisé pourrait même présenter une évolution du métier de bibliothécaire. Hier la description bibliographique des documents (catalogage) sans rentrer dans leur contenu. Demain, l’encodage TEI au sein du corps des textes numérisés pour les structurer, identifier des mots et expressions afin d’en permettre une exploitation scientifique (mathématique, statistique, bibliométrique...). Certaines expérimentations d’historiens méritent ici d’être relatées. Par exemple, Nicole Dufournaud, a pu ainsi réaliser des réseaux sociaux ou des cartes géographiques d’échanges sociaux à partir de testaments numérisés puis encodées en TEI. L’exploitation des sources sous un angle nouveau permettra ainsi probablement de faire des découvertes scientifiques dans les années à venir. Parmi les personnes et institutions en pointe en ce qui concerne la TEI, nous avons identifié le Centre d’Etudes de la Renaissance (CESR) à Tours, qui est d’ailleurs devenu partenaire de Google en décembre 2010 comme nous l’avons appris par veille. Je suis donc allé suivre une formation à l’encodage TEI, les 13 et 20 janvier 2009. J’ai également eu un entretien avec Florence Clavaud, spécialiste TEI à l’Ecole des Chartes le 18 mars 2009. A l’issue de ces prises de renseignements, j’ai ajouté des fonctionnalités TEI dans le cahier des charges pour le développement de la plate-forme du PRES. Ces éléments vont être relus par des collègues du Centre d’Etudes Supérieures de la Renaissance (CESR).

2.3.1.8- Appels à projets La veille a aussi permit d’être rapidement alerté des opportunités de financements ou d’appels à projets. Ainsi, la Bibliothèque Sainte-Geneviève a remporté un appel à projet organisé par la Bibliothèque nationale de France et l’Université Cujas pour la numérisation de corpus juridiques en proposant la numérisation de 900 factums (recueil de pièces pour un procès) des 17ème et 18ème siècles. Cet appel à projets a été identifié, via la veille le 23 juin 2010. Un appel à projets pour le développement de la numérisation et de la valorisation des contenus culturels, scientifiques et éducatifs proposé par la caisse des dépôts et consignations a également été détecté le 17 janvier 2011. J’ai proposé au Comité de pilotage du projet du PRES d’envoyer un dossier, mais la Direction du PRES a préféré que nous nous contentions des demandes déjà adressées à la ville de Paris et à la région Ile de France.

2.3.1.9- Autres possibilités de diffusion e-corpus Une brève description de cette plate-forme de diffusion a déjà été proposée dans le chapitre relatif à la comparaison des solutions de diffusion. L’existence de la bibliothèque numérique e-corpus a été identifiée le 30 octobre 2009 grâce au dispositif de veille. Les premiers contacts ont eu lieu immédiatement et les premiers tests ont pu être effectués avant la fin de l’année 2009. Une démonstration a ensuite été proposée par Stéphane Ipert, Directeur du Centre de Conservation du Livre à la Bibliothèque Sainte-Geneviève le 9 février 2010. A la suite de cette présentation, Carole Letrouit, Directrice du Service Commun de la Documentation Paris 8, a

Page 40: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

40 / 71

décidé d’utiliser e-corpus afin de diffuser les documents numérisés par son université. Du coté de la Bibliothèque Sainte-Geneviève, l'abandon du logiciel CADIC ayant été décidé par la Direction au cours d’une réunion le 6 mai 2011 et le serveur qui le supportait ayant rencontré un problème majeur le 16 novembre 2010, une solution gratuite pour la reprise, la conversion et la diffusion de nos enluminures sur la plate-forme e-corpus a été proposée par Stéphane Ipert, responsable de e-corpus et Directeur du Centre de Conservation du Livre. Je me suis donc chargé de convertir les métadonnées provenant de CADIC dans le standard utilisé par e-corpus. Mais il a longtemps été décidé d'attendre le devenir du projet de photothèque de l'Institut de Recherche et d’’Histoire des Textes (IRHT) avant de prendre l'éventuelle décision de nous déployer dans e-corpus pour ce qui concerne nos enluminures. Ainsi, le feu vert ne m’a été donné que le 6 mai 2011. Il s’agira de diffuser sur e-corpus les documents suivants :

Enluminures (export depuis CADIC, transformation en EAD, importation dans e-corpus). Il m’a été demandé d’attendre novembre 2011 que le conservateur chargé de l’indexation des enluminures dans CADIC ait achevé son activité avant d’en effectuer l’export.

Estampes (export depuis le catalogue de la bibliothèque, conversion des métadonnées du format UNIMARC vers l’EAD, importation dans e-corpus)

Reliures (export depuis MySQL, transformation en EAD, importation dans e-corpus)

Lecture d’un manuscrit de la Bibliothèque Sainte-Geneviève sur e-corpus

Page 41: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

41 / 71

ISSUU Une brève description de cette plate-forme de diffusion a déjà été proposée dans le chapitre relatif à la comparaison des solutions de diffusion. L’existence de ISSUU a été détectée en juin 2009. Des tests assez concluants ont été réalisés puis des discussions téléphoniques ont eu lieu avec John Schäffer, Director Business Development à partir du 24 juin 2009. Nous avons proposé la prise en compte de certaines de nos spécifications en particulier en ce qui concerne certains formats de métadonnées en échange d’une participation de notre part et d’une augmentation du contenu culturel et patrimonial disponible sur ISSUU. Notre interlocuteur a d’abord manifesté son intérêt avant de renoncer à un tel investissement et à de tels développements.

Internet Archive : archive.org Une brève description de cette plate-forme de diffusion a, là aussi, déjà été proposée dans le chapitre relatif à la comparaison des solutions de diffusion. L’existence de la bibliothèque numérique archive.org est identifiée dès le 19 janvier 2009. A partir de septembre 2009, des discussions vont commencer avec Robert Miller, Directeur du projet livres au sein de Internet Archive. A cette occasion, Robert Miller manifeste également son intérêt pour notre appel d'offres relatif à la numérisation elle-même. Le cahier des charges est donc traduit en anglais, mais, Internet Archive ne répondra finalement pas à l'appel d'offres, s'étant rendu compte trop tardivement

Page 42: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

42 / 71

que la date de clôture approchait. La possibilité qu'Internet Archive puisse répondre à un appel d'offres en France a été une surprise y compris pour les sociétés de numérisation « traditionnelles » auxquelles nous avons communiqué cette information stratégique. A l'issue de plusieurs réunions Skype, rendue nécessaires par un important décalage horaire avec San Francisco et à l'issue des tests réalisés sur ISSUU, e-corpus, et archive.org, il a été décidé de mettre en ligne nos documents numérisés sur archive.org, en attendant de pouvoir disposer de la plate-forme du PRES (fin 2012). Cette solution de diffusion présente, en effet, les avantages suivants : forte visibilité, gratuité, envergure internationale, site public et à but non lucratif, pérennité, bon référencement par les moteurs de recherche, EPUB à la volée (pour la lecture sur des tablettes liseuses de ebooks), liens pérennes ARK, compatibilité RSS et Zotero, lecture orale pour malvoyants... Par ailleurs, les documents déjà diffusés sur archive.org ont été moissonnés en OAI-PMH par Gallica si bien qu'ils apparaissent aussi sur le site de la Bibliothèque nationale de France (BnF), ce qui est très positif pour la politique de la Bibliothèque, ce qui accroît considérablement la visibilité des documents mis en ligne et nous permettra aussi de remporter plus facilement les appels à projets de la BnF, le moissonnage OAI-PMH étant une condition requise pour les appels à projets de la BnF. Page d’accueil de la collection bibliothequesaintegenevieve sur archive.org :

Notice d’un ouvrage de la Bibliothèque diffusé sur archive.org :

Page 43: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

43 / 71

Lecture d’un ouvrage de la Bibliothèque diffusé sur archive.org :

Google Books Google Books a naturellement été contacté, et ce, à de multiples reprises. Un partenariat aurait présenté

Page 44: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

44 / 71

bien des avantages (numérisation de masse, gratuité, visibilité maximale). Par ailleurs, il faut insister sur une vérité bien souvent méconnue du grand public : Google offre la possibilité de diffuser ailleurs que sur Google Books les documents numérisés par ses soins. Ainsi, la Bibliothèque Municipale de Lyon diffusera les documents numérisés sur ses propres serveurs (en plus de ceux de Google) et la majeure partie du contenu de archive.org provient de livres numérisés par Google. En effet, Google ne demande, à ses partenaires, une exclusivité que pour ce qui concerne l'utilisation commerciale des documents numérisés par ses soins, ce qui ne me semble ni anormal ni choquant (même si une durée de 25 peut sembler excessive à l'échelle du web). La Bibliothèque Municipale de Lyon est devenue officiellement partenaire de Google en juillet 2008 et je n'ai été recruté que 1er décembre 2008. A l'occasion de mon entretien de recrutement, le Directeur de la Bibliothèque, Yves Peyré m'avait, d'ailleurs, demandé ce que je pensais du projet Google Books. Après une brève hésitation liée à l'impopularité, dans mon métier, de l'opinion que j'allais exposer, j'affirmai tout le bien que je pensais de cette initiative privée. Malheureusement, après son aventure avec Lyon et sa mésaventure avec la Bibliothèque nationale de France, Google ne cherche pas de nouveaux partenaires en France, d'après les derniers contacts que j'ai pu avoir. Il faut bien avouer que la majeure partie de ma profession a très mal accueilli le projet Google Books et que la presse française s'en est largement fait l'écho. Evadoc Le 5 octobre 2009, je prends connaissance, grâce au dispositif de veille, qu’une nouvelle plate-forme de diffusion de textes est lancée sous le nom de EvaDoc. Je prends rapidement contact avec ses créateurs pour leur exposer la situation des bibliothèques qui ne diffusent pas ce qu’elles numérisent (en l’absence d’une plate-forme de diffusion ouverte et mutualisée) et leur proposer un partenariat assez similaire à celui proposé à ISSUU (développement de spécifications nécessaires aux bibliothèques en échange de la livraison de contenus originaux permettant à Evadoc de se distinguer de ses nombreux concurrents). Différentes rencontres et discussions nous laissent envisager de fournir une réponse commune à un appel à projets pour le développement de « services numériques culturels innovants » (identifié par veille le 30 octobre 2009. Malheureusement, les jeunes créateurs d’Evadoc, sortant tout juste d'une école de commerce (ESSEC), ils ne disposent pas de financements suffisants pour envisager ces développements et renonceront finalement à cette possibilité. Persée Le Ministère de l’Enseignement Supérieur nous oriente dès les premières discussions avec ses représentants vers Persée (une brève description de cette plate-forme de diffusion a déjà été proposée dans le chapitre relatif à la comparaison des solutions de diffusion). Mais notre Benchmarking auprès de la Bibliothèque Cujas qui a envisagé Persée dans un premier temps avant d’y renoncer, la difficulté d'adapter Persée à d'autres types de documents que les périodiques, l'impossibilité de l'utiliser comme plate-forme sans intégrer une chaîne de numérisation interne, et, pour finir, la recommandation, elle-même de Viviane Bouletreau, Ingénieure de Recherche dans l'équipe de Persée, nous a incité à explorer une autre possibilité, d'autant que le 8 mars 2011, je découvre, grâce au dispositif de veille que l’Université Lyon 2 décide d'abandonner ce programme. Néanmoins, le Service Commun de la Documentation de Paris 5 et la Bibliothèque de la Sorbonne, interrogés après cette annonce, demeurent satisfaits de cette solution logicielle et devraient donc poursuivre leur expérience avec Persée.

2.3.1.10- Mécénat de compétences Le 2 juin 2009, à la suite d’une interview donnée dans la lettre de l’IFRAP, je suis contacté par un jeune entrepreneur qui propose du mécénat de compétences (société Wecena.com). Certaines grosses sociétés peuvent ainsi « occuper » leurs ingénieurs lors des périodes d’inter contrats et éviter qu’ils consacrent leur temps libre à rechercher un autre poste, en leur proposant des activités au service de projets

Page 45: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

45 / 71

culturels ou sociaux. Manquant d’effectifs, nous pourrions ainsi proposer les activités suivantes :

Politique d’acquisition de la bibliothèque numérique (identifier les livres susceptibles d’être numérisés parmi les 2 millions de documents conservés à la Bibliothèque Sainte-Geneviève : livres rares et difficilement accessibles qui ne sont pas déjà numérisés)

Description matérielle des documents à numériser (formats, nombre de pages, angles d’ouvertures, constat d’état) afin de pouvoir organiser des trains de numérisation par types de documents homogènes.

Contrôle qualité des livraisons de la société Diadéis (vérifier que les documents livrés sont complets de toutes les spécifications demandées)

Mise en ligne des fichiers de diffusion sur Internet Archive (archive.org) Indexation des images extraites de nos livres numérisés dans e-corpus. Catalogage dans le catalogue national des bibliothèques de l’enseignement supérieur (SUDOC)

des documents numérisés. Malheureusement, ne disposant pas de fondation et étant soumis aux marchés publics, il ne nous a pas été possible de mettre en œuvre cette possibilité.

2.3.1.11- Brevets La Bibliothèque Sainte-Geneviève a fait le choix de ne pas pratiquer de numérisation en interne mais d’externaliser cette prestation auprès de sociétés extérieures car ce n’est pas notre métier, nous ne disposons pas des ressources humaines nécessaires et car le coût serait bien supérieur dans la mesure où il faudrait acheter des scanners (> 50 000 €) qui fonctionneraient insuffisamment en raison d’une durée, d’une productivité et d’une intensité du travail inférieure à celles que peuvent proposer les prestataires privés. Dans ces conditions, une veille technologique sur les brevets liés à la numérisation ne s’est pas avérée très utile. Néanmoins, dans le cadre du master 2, une telle veille a été mise en place à titre d’exercice. Elle nous a d’ailleurs permis d’identifier le 30 novembre 2010, l’existence d’un brevet déposé par la société I2S sous le nom de « procédé de numérisation de livres en trois dimensions par ondes TeraHertz » (WO 2010/052427) qui permettrait de numériser des livres fermés sans avoir à les ouvrir. Cette information technologique a été communiquée à Diadéis, notre prestataire de numérisation.

2.3.2- Menaces

2.3.2.1- Solutions de diffusion concurrentes Notre projet de plate-forme mutualisée dans la cadre du PRES Sorbonne Paris-Cité a été rendu pertinent et nécessaire par plusieurs conditions déjà évoquées :

Il n’existe pas de projet de mutualisation porté par le Ministère de l’Enseignement Supérieur ou par l’Agence Bibliographique de l’Enseignement Supérieur ou par le Ministère de la Culture.

Gallica, la plate-forme de la Bibliothèque nationale de France ne peut héberger de documents numérisés à l’extérieur de la Bibliothèque nationale et n'offre donc pas de réel débouché aux autres bibliothèques.

Le développement d’une plate-forme de bibliothèque numérique est couteux en budget et en ressources humaines pour un résultat rarement satisfaisant.

Si l'une de ces conditions venait à disparaître, la pertinence du projet pourrait être remise en question. Et, une fois le projet lancé et financé, la disparition de l'une de ces conditions pourrait être considérée, à juste titre, comme une menace pour le projet. Le dispositif de veille aura donc pour objet de détecter rapidement le développement des menaces

Page 46: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

46 / 71

suivantes : Menaces Action de veille Lancement éventuel d'un projet de mutualisation porté par le Ministère de l’Enseignement Supérieur, par l’Agence Bibliographique de l’Enseignement Supérieur, par le Ministère de la Culture ou par un autre Pôle de Recherche de l'Enseignement Supérieur.

On surveillera ces acteurs publics et on entretiendra des relations avec des personnalités de ces tutelles afin d'être rapidement prévenu de toute évolution de positionnement. Le projet intitulé « Bibliothèque scientifique numérique » est ainsi surveillé sur le web via le dispositif de veille.

Ouverture sur l’extérieur de Gallica, la plate-forme de la Bibliothèque nationale de France.

Notre travail de renseignement nous a permis de savoir que la Bibliothèque nationale de France préparait un tel projet sous le nom de « Gallica tiers archivage » et de « Gallica marque blanche ». C'est en particulier en interrogeant le numéro 2 de la Bibliothèque Nationale, Arnaud Beaufort, à l'occasion des journées Wikimedia qui se tenaient à l'Assemblée Nationale, que cette information nous a été confirmée. Néanmoins, nous ne pouvons qu'encourager un tel développement et avons d'ailleurs fourni un argumentaire en sa faveur à nos collègues de la Bibliothèque Nationale. Néanmoins, ce projet constitue une menace pour notre projet (car il remettrait en question sa pertinence) et, à ce titre, il est surveillé de près, dans le cadre du dispositif de veille.

L'ouverture de plateformes de bibliothèques numériques de qualité, gratuites ou peu coûteuses en budget et en ressources humaines

Notre étude et notre veille technologique nous a permis d'identifier et de tester les solutions de diffusions suivantes : archive.org, hathi trust, ISSUU, e-corpus, Content DM. Malgré leur existence, la Direction du PRES a choisi de maintenir le projet. Dans ces conditions, la pertinence du projet résidera dans notre différenciation avec ces plateformes. Il faudra proposer des fonctionnalités nouvelles comme la correction participative de l'OCR, la numérisation à la demande, l’impression à la demande, l’encodage TEI. Malheureusement, ces plateformes elles-mêmes évoluent et ont aussi ce type d'idées, parfois y compris car nous échangeons avec leurs responsables. Reste donc à espérer que le dispositif de veille nous permette de conserver une longueur d'avance et d'être plus innovants grâce à de nouvelles idées. Dans tous les cas, ces plateformes « concurrentes » font l'objet d'une veille.

Parmi toutes ces menaces, il est probable que le projet Gallica marque blanche aboutisse prochainement. Dans ces conditions, la pertinence de notre projet en sera affectée puisque l’une des

Page 47: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

47 / 71

premières conditions ayant présidé à son développement disparaîtra : offrir une solution de diffusion et un débouché aux bibliothèques qui n’en ont pas et qui ne souhaitent pas participer à des projets privés comme e-corpus, ou étrangers comme Internet Archive. Gallica marque blanche leur offrira ce débouché avec une qualité très satisfaisante. Aussi, après avoir obtenu, auprès du numéro 2 de la Bibliothèque nationale de France, l’information selon laquelle les projets Gallica tiers archivage et marque blanche devaient aboutir prochainement, j’ai proposé au comité de pilotage du projet d’envisager la nouvelle situation et éventuellement de renoncer à notre projet de plate-forme mutualisée (et ce, bien que je sois à l’origine de notre projet). Mais il a été décidé que celui-ci devait toutefois être maintenu, une mutualisation, même à plus petite échelle que celle envisagée dans un premier temps, restant pertinente. En dehors de ces menaces externes, existe également une menace interne que je n’étais pas parvenu à anticiper. Alors que le projet avait été officiellement publié sur le site du PRES Sorbonne Paris-Cité avec un appel d’offres pour le développement de la plate-forme qui devait être publié en juin 2011, je reste sans nouvelles et sans réponses du PRES. Puis, le comité de pilotage du projet (le Directeur de la Bibliothèque de Sciences Po et un ingénieur informatique, le Directeur de la Bibliothèque Sainte-Geneviève et moi) est convié à une réunion du PRES. Au cours de celle-ci, nous apprenons qu’un projet innovant R&D pour la diffusion de contenus pédagogiques (« Sorbonne Access ») est proposé et qu’il pourrait absorber le notre. Les initiateurs de cette « OPA » et porteurs de ce projet sont en relation avec Exalead, ils espèrent un financement OSEO, ils n’ont pas encore rédigé de cahier des charges et n’ont pas vraiment lu le notre, ils n’ont pas non plus jugé utile de nous présenter leur projet avant la réunion. Au cours de celle-ci, nous n’écartons pas la possibilité de nous ouvrir encore d’avantage et de fusionner les projets à la condition que ce soit techniquement possible. Mais, nous rappelons aussi que la raison d’être de notre projet était l’inexistence de solutions de diffusion pour les livres numérisés par les bibliothèques et que, concernant les vidéos de conférences, il existe Canal U, que, concernant les archives ouvertes, il existe HAL, et que, s’agissant de la formation à distance, il existe Moodle et bien d’autres solutions logicielles. A l’issue de cette réunion, une Google Alert sous forme de flux RSS sur « Sorbonne Access » a donc évidemment immédiatement été ajoutée au dispositif de veille.

2.3.2.2- Perte des données de la numérisation et archivage pérenne Comme nous l'avons évoqué précédemment, la majeure partie de ce qui est numérisé par les bibliothèques en France n'est pas diffusée et « dort » sur des disques durs externes ou sur des CD Rom. La durée de vie de ces disques durs externes n'excède pas 5 ans et celle des CD Rom est encore plus restreinte. Dans ces conditions, le risque est très important de perdre le travail de numérisation pourtant conduit avec d'importants budgets (170 000 € pour 1100 livres en ce qui nous concerne).. La conservation des données numérisées mériterait donc que les institutions publiques y consacrent d’avantage d’efforts. En effet, combien de fichiers ont déjà été perdus car les formats ne sont plus lisibles avec des logiciels contemporains ? Combien ont disparu car les supports ont vieilli ? ou tout simplement car plus rien ne venait renseigner sur leur origine ou car plus personne ne savait où ils se trouvaient ? Dans le cadre d'un projet de numérisation durable, la perte des données numérisées est donc la première menace. Des solutions d'archivage pérenne existent. Pour notre part, nous nous sommes adressés à notre interlocuteur naturel, le Centre Informatique National de l’Enseignement supérieur (Cines). Mais nous aurions pu travailler également avec le projet SPAR de la Bibliothèque nationale de France (bien que moins avancé que celui du Cines d'après nos renseignements) ou avec le Hathi Trust aux Etats-Unis. A la suite de la Bibliothèque de Cujas, de la Bibliothèque Inter-Universitaire de Médecine et des archives ouvertes HAL, la Bibliothèque Sainte-Geneviève a donc décidé de confier ses fichiers de conservation au Cines selon le mode de fonctionnement suivant. Au cours de la numérisation, le prestataire que nous avons retenu dans le cadre de notre appel d'offres, nous livre des fichiers de diffusion pour le web (PDF et JPEG 150 dpi). Mais il nous livre également des fichiers de conservation pour un archivage pérenne (TIFF ou PNG, 300 à 600 dpi selon les formats et les types de livres). Dans notre appel d’offres, nous avions d'ailleurs spécifié que le prestataire devrait

Page 48: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

48 / 71

transférer directement les fichiers de conservation sur les serveurs du Cines, par FTP, accompagnés de fichiers de métadonnées de conservation en XML sur le modèle demandé par le Cines. Nous sommes, semble-t-il, la première bibliothèque à avoir inclus directement cette prestation dans son marché. Malgré cette externalisation, la mise en place de cet archivage pérenne nous a fortement mobilisés. Des fichiers complexes et des conventions détaillées ont été produits, négociés et validés au cours de vidéoconférences (le Cines se trouve à Montpellier). Des tables de correspondances entre nos métadonnées au format UNIMARC et les métadonnées demandées par le CINES ont été produites en collaboration avec les services du catalogage de la bibliothèque. Toutes ces étapes ont été d’autant plus longues que nos interlocuteurs se sont montrés très procéduriers et perfectionnistes, relevant sans cesse leur niveau d’exigence. Mais c’est probablement à ce prix que notre numérisation pourra être encore utilisée dans l’avenir. Enfin, le service d'archivage pérenne du Cines est loin d'être gratuit puisqu'il nous est demandé 5 000 € par an et par Téraoctet pour la conservation de nos images, pour un coût réel estimé toutefois à 8 000 € par an et par Téraoctet. Nous devrions donc rapidement devoir payer 20 000 € par an pour l’archivage pérenne et ce coût augmentera au fur et à mesure de la croissance de notre archive (sauf si les tarifs du Cines diminuent). Ces coûts sont d’ailleurs, pour partie, liés au fait que le Cines assure également une veille technologique et qu'il s’engage à convertir l’ensemble de nos fichiers si le format dans lequel ils ont été produits venait à disparaître. A ce propos, des informations technologiques d'importance nous ont été communiquées par des spécialistes du Cines. En effet, à l’issue de notre Benchmarking auprès des bibliothèques ayant mené des projets de numérisation, nous avions constaté que la quasi totalité des bibliothèques auditées numérisait en TIFF pour les fichiers de conservation. Or, le Cines nous a recommandé de numériser plutôt en PNG. Ce format donne lieu à des fichiers moins lourds et donc moins coûteux à archiver et il permet de conserver autant d'informations sur le document d'origine que le format TIFF. Cette information a ensuite été confirmée par les collègues du projet de revues numérisées Persée. Pour les mêmes raisons, Persée a d'ailleurs converti ses fichiers numérisés initialement en TIFF en PNG. Mais, d'autres informations provenant de Robert Miller, Directeur des livres du projet archive.org, nous ont toutefois laissé penser que le JPEG 2000 pourrait finir par s’imposer comme format de conservation dans les années à venir.

2.3.2.3- Critiques du projet et e-reputation La Bibliothèque Sainte-Geneviève a été amenée se mettre en avant en proposant une mutualisation aux autres bibliothèques qui ont manifesté un enthousiasme assez tiède pour le projet. En effet, la plupart des bibliothèques universitaires attendaient que l’initiative vienne du ministère de l’enseignement supérieur mais celui-ci répondait, lorsqu’on l’interrogeait à ce sujet, que les universités étaient désormais autonomes et qu’il ne fallait donc pas attendre de lui le développement de ce type de projet. De leur coté, les bibliothèques territoriales attendaient que l’initiative vienne de la Bibliothèque nationale de France qui évoque, de temps en temps mais depuis plusieurs années, la possibilité d’héberger les documents numérisés à l’extérieur (projets « tiers archivage » et « Gallica marque blanche »). Dans la mesure où la majeure partie des documents numérisés par les bibliothèques, à partir de budgets conséquents, attend ainsi d’être mise en ligne et repose sur des CD, des DVD ou des disques durs externes dont la durée de vie n’excède pas 5 ans, il est urgent de proposer une solution de diffusion. La Bibliothèque Sainte-Geneviève était crédible pour porter ce type de projet en raison de sa taille, et de son caractère multidisciplinaire. Néanmoins, les rivalités entre les institutions sont fortes et nous savons que nous sommes « attendus au tournant » et qu’aucun cadeau ne nous sera fait de la part des partisans de l’immobilisme. C’est la raison pour laquelle une veille image sur l’apparition du nom de la bibliothèque dans la presse, sur les blogs et les forums a été mise en place. Elle permet d’être rapidement alerté d’une menace sur l’image de la Bibliothèque en ce qui concerne le projet de numérisation. Nous aurions pu, par exemple, être publiquement attaqués sur le fait que la société Diadéis avait remporté notre appel d’offres. Or, cette société fait appel à de la main d’œuvre de Madagascar, en particulier en ce qui concerne la correction de l’OCR et la saisie des tables des matières. Néanmoins, dans le cadre de notre projet,

Page 49: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

49 / 71

toutes les opérations ont été réalisées in situ. Concernant notre prestataire, une menace potentielle a néanmoins été détectée le 2 juillet 2011. Un article publié sur lorrainenumerique.net sous le titre « Diadeis abandonne la numérisation » nous a inquiétés. Mais, fort heureusement, nous avons été rapidement rassurés par notre prestataire en ce qui concerne le devenir de notre marché. Nous aurions également pu être publiquement attaqués pour avoir choisi de participer au programme américain Internet Archive qui est lui-même soutenu par de grosses sociétés privées (Microsoft, Amazon, Yahoo). Enfin, le caractère commercial du projet que nous avons proposé au PRES Sorbonne Paris-Cité aurait aussi pu faire l’objet de critiques, dans la mesure où une externalisation était proposée sous la forme d’une délégation de service public et dans la mesure où un retour sur investissements était envisagé (numérisation et impression à la demande) et des mécénats encouragés. Pour l’heure, aucune critique négative du projet n’apparaît sur le web. Néanmoins, dans les commentaires à un article à propos de notre projet de numérisation, la veille image nous a permis d’être rapidement alertés d’une petite critique et de pouvoir y répondre. En effet, apprenant par un article que nos incunables étaient en cours de numérisation, une internaute s’est interrogé pour savoir s’il faudrait faire la queue pendant des heures place du Panthéon pour pouvoir les consulter. En effet, notre bibliothèque, malgré ses près de 700 places assises, ne parvient pas à accueillir tous les usagers qui le souhaitent, ce qui a pour conséquence de générer des queues dans la rue. Alertés grâce à la veille, nous avons pu immédiatement compléter l’article en ajoutant un commentaire de réponse à cette critique en expliquant que les documents numérisés étaient diffusés sur archive.org.

Mais, en dehors de cet exemple isolé, aucune critique sur le web n’a été détectée. Néanmoins, le renseignement humain nous a permis de confirmer nos intuitions selon lesquelles bon nombre de collègues bibliothécaires, y compris au sein de la Bibliothèque Sainte-Geneviève n’apprécient pas certaines initiatives trop « libérales » et ne comprennent pas que nous participions à Internet Archive au lieu de conserver les documents sur nos propres serveurs. A ce jour, nous sommes d’ailleurs malheureusement la seule bibliothèque française à y participer, malgré mes nombreuses interventions lors de journées ou formations de bibliothécaires.

Page 50: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

50 / 71

2.3.2.4- Evolution du statut de la Bibliothèque La Direction de la Bibliothèque est très vigilante en ce qui concerne l’évolution du statut des bibliothèques inter-universitaires. La conjoncture et les mauvais rapports avec notre université de rattachement (Sorbonne Nouvelle – Paris 3) sont souvent mis en avant pour expliquer les difficultés à faire avancer les projets de la Bibliothèque. Bien que je ne mesure pas toutes les implications que pourrait avoir une évolution de notre statut ou l’acquisition d’une autonomie, j’ai mis en place une veille sur ce sujet particulier afin de pouvoir rapidement être alerté d’un tel changement d’ordre administratif et juridique.

2.3.2.5- Qui nous surveille ? Nous surveillons l’environnement de notre projet, mais il peut être également intéressant de savoir quelles sont les institutions qui nous surveillent ou, au moins, si elles n’ont pas mis en place de veille formalisée, celles qui s’intéressent à notre projet. J’ai acheté, à titre personnel, le nom de domaine bibliotheque-numerique.fr et je le céderais gracieusement au PRES lorsque le projet aura abouti. Mais, en attendant, j’ai utilisé l’espace serveur sur ce site afin de mettre en ligne quelques documents en rapport avec le projet (expérimentations, études wiki sur les solutions logicielles, tableau de bord sous forme de carte conceptuelle, cahiers des charges). L’existence de ce nom de domaine a été largement communiquée (formations, colloques, articles), mais n’a pas été rendu indexable par Google (balise « noindex ») si bien qu’on ne peut tomber sur ce site par hasard. C’est en particulier à l’occasion des journées ABES 2010 (17-18 mai), au cours desquelles j’ai été invité à présenter le projet du PRES Sorbonne Paris-Cité, qu’on peut observer un pic des statistiques de consultation de ce site bibliotheque-numerique.fr, comme le montre ce diagramme issu de Google Analytics :

Dans le tableau suivant figurent d’autres statistiques qui nous permettent d’identifier les institutions qui s’intéressent au projet ou qui le surveillent dans le cadre d’un dispositif plus ou moins formalisé de veille :

Les statistiques, tirées de Google Analytics, et qui montrent quelles sont les institutions qui se sont connectées à bibliotheque-numerique.fr

Les statistiques Google Analytics des institutions qui, après avoir saisi mon nom dans Google ont été consulter le CV que j’ai mis en ligne sur mon site personnel (http://www.identifier-les-champignons.com)

Les institutions (ou les personnes appartenant à des institutions lorsqu’il est possible de les identifier) abonnées à ma liste de partage de la veille Google Reader

Les institutions (ou les personnes appartenant à des institutions lorsqu’il est possible de les identifier) abonnées à ma veille Twitter

Principales institutions qui s’intéressent à notre projet (données statistiques extraites le 01/09/2011)

Page 51: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

51 / 71

Institution 319 connexions à bibliotheque-numerique.fr

449 connexions par "googlage" à mon CV (depuis mon affectation le 01/12/2008)

65 abonnés à mon compte Twitter

13 abonnés à ma liste de partage sur Google Reader

Agence bibliographique enseignement sup

22 4 1 1

universite de strasbourg

5 3 1 2

reseau optique du campus de la doua

8 5 0 0

universite paris iii sorbonne nouvelle

1 11 0 0

university of neuchatel 9 0 0 0 bibliotheque nationale de France

3 1 2 0

rennes metropole 2 6 0 0 universite paris 1 pantheon - sorbonne

1 2 1 1

conservatoire national des arts et metiers – cnam

3 4 0 0

Enpc 5 2 0 0 i2s 1 0 1 1 cri universite rennes 2 - haute bretagne

1 0 2 0

universite rene descartes

1 2 1 0

universite lumiere lyon2

3 2 0 0

cri - universite d orleans

5 0 0 0

institut de l information scientifique et technique

5

0 0 0

imprimerie-systeme d info

0 4 0 0

Centre interuniversitaire de traitement de l information

2 2 0 0

mairie [Paris] 4 0 0 0 ministere de l enseignement superieur et de la recherche

2 1 0 0

2.4- Evaluation du dispositif de veille et préconisations

Page 52: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

52 / 71

Détection d’opportunité Proposition formalisée Mise en œuvre Le 19 mars 2009 : développement d’une plate-forme mutualisée en collaboration avec Amazon

Immédiate Aurait pu être mis en œuvre en à l’été 2010, mais refusé par la Direction de la Bibliothèque pour des raisons politiques.

Avril 2009 : Correction participative de l’OCR

8 juin 2009 (2 mois plus tard) A l’été 2012 (3 ans plus tard), par la Bibliothèque Sainte-Geneviève et le PRES Sorbonne Paris-Cité, mais aurait pu l’être dès 2010 si nous avions accepté de travailler avec Amazon. Le 7 avril 2010, par le Bibliothèque nationale de France (partenariat BnF / Wikisource), mais de manière limitée.

Le 23 mars 2009, Impression à la demande

Octobre 2009 (6 mois plus tard) Janvier 2012 (3 ans et 4 mois plus tard), par la Bibliothèque Sainte-Geneviève, mais aurait pu l’être dès 2010 si nous avions accepté de travailler avec Amazon. Le 10 février 2011, par la Bibliothèque nationale de France

Début 2009 : Numérisation à la demande

Le 22 février 2010 (2 mois plus tard)

Janvier 2012 (1 an et 11 mois plus tard), par la Bibliothèque Sainte-Geneviève et le PRES Sorbonne Paris-Cité, mais aurait pu l’être dès 2010 si nous avions accepté de travailler avec Amazon. Le 23 mars 2011, par la Bibliothèque nationale de France

Le 23 décembre 2008, numérisation 3D du bâtiment

Janvier 2009 (1 mois plus tard) Date indéterminée pour le moment, la Direction de la Bibliothèque se charge d’obtenir un financement. S’inspirant de la Bibliothèque Sainte-Geneviève, la Bibliothèque nationale de France va numériser le quadrilatère Richelieu, œuvre du même architecte Labrouste.

En mars 2009 : Encodage des textes en TEI (Text Encoding Initiative)

8 juin 2009 (3 mois plus tard) A l’été 2012 (3 ans plus tard), par la Bibliothèque Sainte-Geneviève et le PRES Sorbonne Paris-Cité, mais aurait pu l’être dès 2010 si nous avions accepté de travailler avec Amazon.

Le 23 juin 2010, appel d’offres BnF pour la numérisation en Droit

17 septembre 2010 dossier (3 mois plus tard)

Le 3 février 2011, réussite publiée (5 mois plus tard)

Le début 2009, identification de la plate-forme de diffusion archive.org

19 janvier 2009 (moins d’1 mois plus tard)

Février 2010 premiers dépôts (1 an et 1 mois plus tard)

Page 53: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

53 / 71

Le 30 octobre 2009, identification de la plate-forme de diffusion e-corpus

1 mois plus tard, à l’issue des tests

6 mai 2011, feu vert de la Direction (1 an et 6 mois plus tard) Le 25 mars 2011, par Paris 8, suite à une démonstration à la Bibliothèque Sainte-Geneviève

La majeure partie des opportunités stratégiques ou technologiques détectées via le dispositif de veille ont été suivies mais leur mise en place a demandé des efforts et des délais très importants. Ces retards sont liés à une grande prudence mais aussi à un mode de fonctionnement déjà décrit dans la partie faiblesse de la Swot analysis. En effet, lorsqu’une proposition formalisée dans un cahier des charges est proposée, un grand nombre de conservateurs sont invités à s’exprimer à sur un sujet qu’ils ne maitrisent pas et à propos d’un document qu’ils n’ont pas pris la peine de lire et qu’ils découvrent au cours de la réunion. Ils se font néanmoins un devoir d’intervenir, de disserter et de trouver des éléments (la plupart du temps non essentiels) mais qui ont pour résultat de renvoyer le cahier des charges à son étude. Parfois, les cahiers des charges proposés souffraient de réelles imperfections générées par une hâte excessive de ma part à les mettre en œuvre, mais en aucun cas, ces imperfections auraient porté préjudice au projet, les prestataires comprenant tout à fait que des éléments marginaux aient pu être oubliés ou mal exprimés. Dans tous les cas, la tenue d’un nombre important de ce type de réunions, outre son caractère décourageant, est surtout susceptible de retarder considérablement l’avancée des projets. De mon point de vue, il serait préférable de mettre en œuvre les opportunités détectées rapidement sans couper en 2 parties séparées et étanches la théorie (rédaction du cahier des charges) et la pratique (mise en œuvre). Un exemple de fonctionnement qui me semble plus adapté à l’époque nous est donné par les méthodes agiles utilisées par les développeurs informatiques. Avec ces méthodes, le développement des projets s’effectue de manière pragmatique, itérative et incrémentale dans un esprit collaboratif. Le commanditaire et son client travaillent en équipe, parfois dans les mêmes locaux. Une présentation du produit est faite de manière régulière, les priorités peuvent ainsi être revues au fur et à mesure du développement du produit. De nouvelles idées provenant d’une veille technologique ou suscitées par les premières réalisations peuvent être ajoutées. On évite ainsi l’effet « tunnel » qui fige le cahier des charges et contraint les développeurs à travailler sur la seule base de leur interprétation des spécifications écrites sans confrontation régulière des réalisations avec ceux qui ont rédigé et imaginé le cahier des charges. Si les développeurs des sites web à succès avaient passé 2 ans à animer des groupes de travail démocratiques pour rédiger des cahiers de charges avant de lancer leurs mises en œuvre, il est très probable que leurs réalisations n’auraient jamais vu le jour ou auraient été dépassés dès leur mise en service. Il est encore plus probable que leurs idées auraient été mise en œuvre bien avant par d’autres développeurs acceptant de travailler de manière agile, c'est-à-dire par allers retours réguliers entre la théorie et la pratique. Le web permet une évolution culturelle majeure par rapport à la culture de l’imprimé. Plus rien n’est définitif et figé, une première version d’un produit va engendrer des critiques mais aussi de nouvelles idées qui permettront de générer une seconde version et ainsi de suite. L’action stimule la réflexion qui génère de nouvelles réflexions et idées d’actions de manière itérative. Les barrières entre la réflexion et l’action s’estompent. Il faut donc désormais ainsi agir en hommes de pensée et penser en hommes d’action. Mais en France, comme l’avait dit le général de Gaulle et avant lui Clémenceau, « quand on veut enterrer un problème, on crée une commission ». Depuis cette époque, il semble qu’on en ait tellement pris l’habitude, qu’on le fasse aussi sans avoir nécessairement cette intention. Mais le résultat est malheureusement identique. Et concernant la numérisation des bibliothèques, de nombreuses commissions se sont ainsi réunies. Et pendant que nos « sages » dissertaient sur des sujets mal maitrisés, des anglo-saxons, moins sages, moins prudents et moins cultivés, mais plus jeunes, plus dynamiques et plus créatifs faisaient simplement et modestement avancer le monde du web.

Page 54: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

54 / 71

3- Mise en œuvre et premiers résultats

3.1- Esquisse de tableau de comparaison stratégique des solutions de diffusion

A l'issue de l'étude sur les solutions de diffusion, le tableau stratégique suivant peut être esquissé :

Choix 1 Développer une nouvelle plateforme

Choix 1.1 Développer une plateforme seuls

Choix 1.2 Développer une plateforme avec d'autres bibliothèques

Choix 1.3 Développer une plateforme grâce à un mécénat avec une société privée

Choix 2 Participer à une plateforme déjà existante

Choix 2.1 Participer à e-corpus

Choix 2.2 Participer à archive.org

Coûts financiers

jusqu'à 200 000 €

Entre 100 000 et 150 000 €

Entre 150 000 et 200 000 €

Gratuit (mécénat) Gratuit Gratuit Gratuit

Ressources humaines pour l'administration

Faibles Faibles Faibles Adaptées Un peu justes à adaptées

Un peu justes (association CICL, 2 administrateurs)

Adaptées

Qualité Faible à moyenne Faible Optimale Optimale Moyenne à

bonne Moyenne Bonne

Visibilité Faible à moyenne Faible Moyenne

Bonne, mais inconvénients liés au partenariat avec une très grosse entreprise privée

Moyenne à optimale

Moyenne, inconvénients liés au partenariat avec une association privée

Optimale (seul concurrent crédible de Google)

Pérennité Faible à moyenne Faible Moyenne Moyenne Moyenne à

forte Moyenne Forte

Le choix le plus judicieux eut été, à mon sens, d'accepter la proposition qu'Amazon m'avait faite de développer notre bibliothèque numérique mutualisée pour des raisons de coûts, de visibilité et de qualité. Malheureusement, en tant qu'institution d'Etat, cette décision aurait eu des implications beaucoup plus importantes que celles qu'auraient eu à supporter des institutions territoriales dépendant d'un maire et non d'un ministre. Cette possibilité fut donc écartée par la direction de la Bibliothèque au profit de la participation à la bibliothèque numérique internationale Internet Archive en attendant de développer une plate-forme mutualisée dans le cadre du PRES Sorbonne Paris-Cité. Mais, c’est déjà un résultat satisfaisant qui témoigne d’une évolution culturelle majeure (la plupart des

Page 55: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

55 / 71

autres bibliothèques préfèrent conserver dans leurs murs les documents numérisés sur des CD Rom ou sur leurs propres petits serveurs).

3.2- Naissance du projet

3.2.1- La « brigade volante » La mise en place des visites des bibliothèques benchmark ayant mené des projets de numérisation, l’envoi d’un questionnaire relatif aux solutions logicielles utilisées par les bibliothèques sur des listes de diffusion (ADBS et Biblio) et la rédaction d’un wiki (Bibliopedia) sur les solutions logicielles m’avait amené à rentrer rapidement en relation avec d’autres bibliothèques dans la même situation que la Bibliothèque Sainte-Geneviève, c'est à dire, souhaitant commencer un programme de numérisation et s'interrogeant également sur la question de la diffusion des documents numérisés :

Bibliothèque Inter-Universitaire de Pharmacie

Bibliothèque Mazarine

Service Commun de la Documentation de l’Université Paris 8

Bibliothèque de la Sorbonne.

La raison d'être de ce regroupement informel était, dans un premier temps, l’organisation de visites communes de bibliothèques benchmark, des présentations et des démonstrations de logiciels de diffusion, et la mise en place d’un site privé contenant des synthèses (numérisation, financements, archivage pérenne...), une veille, un agenda, une bibliographie partagée sur Zotero, des favoris sur Delicious. et des comptes-rendus de visites et de réunions.

Mais, progressivement le groupe de travail informel s'est interrogé sur l'opportunité de la mutualisation d'une plate-forme de diffusion et a travaillé à la rédaction d’un cahier des charges à partir du 8 juin 2009. Ce document a été retravaillé fin 2009 début 2010 avec l'aide de consultants de la société Six et Dix financés par la Bibliothèque Sainte-Geneviève.

Dans le cadre de ce projet de mutualisation, j'ai proposé une convention aux autres bibliothèques afin de formaliser notre partenariat. Malheureusement, il semblait difficile d'aller plus loin et de concrétiser ce projet de plate-forme commune car les bibliothèques ainsi regroupées appartenaient à des Pôles de Recherche de l'Enseignement Supérieur (PRES) ou dépendaient de tutelles différentes.

3.2.2- le Pôle de Recherche de l’Enseignement Supérieur (PRES) Sorbonne Paris-Cité

La Bibliothèque Inter-Universitaire Sainte-Geneviève fait partie du Pôle de Recherche de l’Enseignement Supérieur (PRES) Sorbonne Paris-Cité qui regroupe les universités suivantes :

Université Sorbonne Nouvelle Paris 3

Université Descartes Paris 5

Université Diderot Paris 7

Université Paris 13

Sciences Po

Bibliothèque Universitaire des Langues et Civilisations (BULAC)

Institut Physique du Globe de Paris (IPGP)

Page 56: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

56 / 71

École des Hautes Etudes en Santé Publique (EHESP)

A l’occasion d’une réunion des Directeurs des bibliothèques du PRES à laquelle mon Directeur m’avait demandé de participer, je pris la parole afin d’exposer la situation de la numérisation des bibliothèques en France qui ne diffusent pas ce qu’elles numérisent faute de débouché et l’opportunité qu’il y avait à en proposer un. Le projet que nous avions porté dans le cadre de notre regroupement informel allait ainsi être soutenu et repris dans le cadre du PRES, avec des financements de la ville de Paris mais aussi probablement de la région Ile de France. Dans ces conditions, les bibliothèques avec lesquelles nous avions envisagé la mutualisation d’une plate-forme dans un premier temps (Sorbonne, Mazarine, Paris 8, Pharmacie, Ecole des Chartes) pourraient y participer même si elles ne font pas partie du PRES, étant entendu que cette plate-forme aurait vocation à servir au-delà du PRES Sorbonne Paris-Cité.

La rédaction du cahier des charges de la plate-forme allait donc être reprise, dans le cadre de réunion de travail avec un informaticien de Sciences Po. Le Comité de Pilotage du projet étant constitué de la Bibliothèque Sainte-Geneviève et de Sciences Po. A présent, un appel d’offres va être lancé pour un développement qui devrait s’achever avant la fin 2012.

Dans le cadre de ce projet de plate-forme, il était important de mettre en place un dispositif de veille, afin d’identifier rapidement opportunités technologiques ou stratégiques et menaces éventuelles pour le projet.

Page 57: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

57 / 71

3.3- Premiers résultats Ayant réalisé des tests de diffusion sur Internet Archive et sur e-corpus, il peut être intéressant d’en comparer les résultats : Requête Google contenant le titre du livre mis en ligne

Résultats e corpus au 1er août 2011

Résultats Internet Archive (archive.org) au 1er août 2011

"Breve trattato delle virtu" 2ème sur 14 réponses dans Google 365 visites Document mis en ligne le 08/12/2009 0,61 visites par jour

1er sur 14 réponses dans Google 42 downloads Document mis en ligne le 10/02/2010 0,08 visites par jour

"Catechismus, hoc est summa doctrinae catholicae ex gallico in latinum atque graecum sermonem translatus"

1 / 32 dans Google 150 visites Document mis en ligne le 15/12/2009 0,25 visites par jour

2 / 32 dans Google 435 visites Document mis en ligne le 04/03/2010 0,84 visites par jour

"L'Usage et praticque du compas à huict poinctes sur les 48 problèmes des six premiers livres d'Euclide"

2 / 12 dans Google 112 visites Document mis en ligne le 16/12/2009 0,19 visites par jour

1 / 12 dans Google 380 visites Document mis en ligne le 05/03/2010 0,74 visites par jour

"Alphabeth [sic] des lettres et poincts de la langue hébraïque, avec lequel alphabeth on pourra lire seul et sans maistre par tout dans la langue hébraïque"

2 / 7 dans Google 78 visites Document mis en ligne le 15/12/2009 0,13 visites par jour

1 / 7 dans Google 240 visites Document mis en ligne le 04/03/2010 0,47 visites par jour

"Journal des campagnes des armées françaises en Allemagne, Pays-Bas et Italie, sous les ordres du cardinal de la Valette"

2 / 8 dans Google 133 visites Document mis en ligne le 15/12/2009 0,22 visites par jour

1 / 8 dans Google 116 visites Document mis en ligne le 25/03/2010 0,23 de visites par jour

Sur toute la collection de la Bibliothèque

Nb de docs : 22 (mis en ligne en janvier 2010) 5779 visites 263 visites par document (mais mis en ligne depuis plus longtemps) 6 visiteurs par jour (mais moins de documents) 0,28 visiteur par document et par jour depuis mai 2011 Pagerank : 6/10

Nb de docs : 186 (mis en ligne en mai 2011) 16525 visites 89 visites par document (mais mis en ligne depuis moins longtemps) 180 visiteurs par jour (mais plus de documents) 0,97 visiteur par document et par jour depuis mai 2011 Pagrank : 8 / 10

Pour nuancer ce résultat, il faut signaler que les métadonnées contenues sur la plate-forme e-corpus n’ont pas encore pu être moissonnées par Gallica. Or, il est certain que lorsque ce sera fait, la visibilité et la fréquentation de cette plate-forme augmenteront.

Page 58: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

58 / 71

Voici également un premier bilan comparatif au 1er juillet 2011 avec les bibliothèques qui avaient été benchmarkées en début de projet : Bibliothèque Date de

mise en œuvre de la plate-forme

Nombre de livres numérisés diffusés au 1er juillet 2011

Nombre de vues numérisées diffusés au 1er juillet 2011

Nombre de visiteurs uniques du 1er janvier 2011 au 1er juillet 2011

Nombre de visiteurs uniques en 2010

PageRank au 1er juillet 2011 (d’après pagerank.fr)

Bibliothèque Sainte-Geneviève

Mars 2011 169 livres 100 000 vues 15 937 visiteurs uniques, soit une moyenne de 3984 par mois

La Bibliothèque numérique n’existait pas encore

8 / 10

Bibliothèque Cujas

Non communiqué.

254 documents

Non communiqué

Non communiqué

Non communiqué

6 / 10

Bibliothèque Inter-Universitaire de Médecine

2001 8592 documents

environ 2,4 millions

Non communiqué

1 446 873 visiteurs uniques, mais sur l’ensemble du site web de la BIUM 77391 PDF téléchargés

6 / 10

Conservatoire National des Arts et métier

2000 1424 au 1er janvier 2011

625 773 pages au 1er janvier 2011

Non communiqué.

Non communiqué mais 9631531 pages consultées et 33782 pdf téléchargés en 2010

6 / 10

Institut National d’Histoire de l’Art

2006 1197 livres 413 666 vues 27062 sessions du 1er mars eu 1er juillet 2011

301 450 sessions et 5751 documents téléchargés en 2010

5 / 10

Cité des Sciences

2009 264 livres (294 volumes)

110 000 9 783 visites 10 250 6 / 10

Page 59: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

59 / 71

3.4- Conduite du changement Le développement du projet de numérisation, en tant que projet transversal a été l’occasion de faire travailler ensemble des personnes qui n’avaient pas l’habitude de collaborer. L’un des objectifs du projet, tel qu’il était pensé par la Direction, était d’ailleurs implicitement d’apporter un tel type de changement dans l’institution et de diversifier les activités de personnes souvent spécialisées dans une seule activité. Le programme de numérisation aura en particulier permis de faire travailler les collègues de manière collaborative par l’utilisation de Google Docs, une technologie qui était inconnue et inutilisée avant mon arrivée et que de nombreux collègues ont fini par adopter y compris pour d’autres activités que celles liées à la numérisation. Ces technologies qui permettent de travailler simultanément sur le même document ont, par exemple été utilisées dans les cas suivants :

Workflow de toutes les étapes de la chaîne de numérisation (description bibliographique, description matérielle, numérisation, constats d’états, contrôles qualité, mise en ligne, catalogage SUDOC, archivage Cines, facturation…)

Listes de documents identifiés comme intéressants à numériser Dossiers de réponses à des appels à projets ou d’articles rédigés de manière collaborative Diaporamas pour des présentations collectives. Questionnaire d’enquête sur les solutions logicielles, sur le recensement des fonds numérisés au

sein du PRES. Détermination de dates de réunions avec des sondages Doodle Procédures de travail écrites de manière collaborative et évolutive.

Une sensibilisation à la veille et une formation à l’utilisation de Google Reader auront également, je l’espère, participer à ouvrir l’attention de mes collègues sur leur environnement extérieur pour leur permettre d’être plus innovants. Une veille image a même été mise en place, pour la mission valorisation de la Bibliothèque, à partir de Google Reader et un compte Twitter officiel a été ouvert.

3.5- Référencement, communication et actions d’influence Référencement

Concernant le référencement des documents numérisés que nous diffusons en ligne, nous avons choisi la plate-forme Internet Archive (archive.org) qui est très bien indexée par Google. Nos documents y sont également moissonnés par Gallica, la bibliothèque numérique de la Bibliothèque nationale de France et par Isidore, un portail CNRS dédié à l’Information Scientifique et Technique. Les métadonnées que nous avons produites dans Internet Archive sont ainsi périodiquement et automatiquement importées sur ces sites avec des liens vers les documents en ligne. Pour finir, nous cataloguons aussi ces documents électroniques dans le catalogue national SUDOC des bibliothèques de l’Enseignement Supérieur. Ainsi, nos livres numérisés sont accessibles à partir de 7 points d’accès :

archive.org (la plate-forme de diffusion que nous avons choisie) Moteurs de recherche (archive.org est très bien indexé) Gallica (moissonnage OAI-PMH) Europeana (moissonnage de Gallica) Isidore (moissonnage OAI-PMH) SUDOC (catalogage par les collègues su service du catalogue) Catalogue OPAC de la Bibliothèque Sainte-Geneviève (synchronisé avec le SUDOC)

Cette multitude de points d’accès optimise notre visibilité sur le web et améliore aussi le pagerank des documents mis en ligne. L’indice pagerank de Google prend largement en compte le nombre de liens qui pointent vers un site afin d’en mesurer la popularité ou l’impact. En multipliant le nombre

Page 60: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

60 / 71

de points d’accès vers nos documents, nous multiplions le nombre de liens qui pointent vers notre bibliothèque numérique, nous en améliorons l’indice pagerank et nous augmentons ainsi les chances d’apparaître en tête dans la liste des résultats aux requêtes dans Google, par exemple.

Communication Après avoir conduit un benchmarking auprès des bibliothèques ayant conduits des projets de numérisation, j’ai fini, par être benchmarké à mon tour. On a ainsi fait appel à moi pour des interventions orales ou pour des formations :

Présentation du projet de plate-forme mutualisée du PRES Sorbonne Paris-Cité aux journées de l’Agence Bibliographique de l’Enseignement Supérieur (ABES) 2011

Interventions à l'Ecole Nationale Supérieure des Sciences de l'Information et des Bibliothèques (ENSSIB)

participation aux journées "Quoi de neuf en bibliothèque ?" (pour les Directeurs de Bibliothèques) Formation des élèves conservateurs (8 heures) Module "numérisation et constitution de bibliothèques numériques" (formation continue des professionnels 1 h) Table ronde sur la bibliothèque numérique (formation des Bibliothécaires, 1 h).

Participation à la journée d'étude Mediadix De Gallica à Google : la dématérialisation des collections et des accès à la croisée des chemins(150 personnes)

Intervention au Forum 2010 de l'impression numérique de livres (200 cadres et directeurs de l'édition et de l'imprimerie)

Présentation d'1 h 30 à l'Université Numérique Vivaldi Paris Ile de France 2011 : "Les programmes de numérisation des bibliothèques d'Ile-de-France".

Ces interventions et formations ont bénéficié directement de la veille car celle-ci a permis d’en actualiser le contenu très régulièrement et d’exposer les dernières innovations en ce qui concerne la numérisation des bibliothèques. Par ailleurs, le projet a également fait l’objet de visites et d’entretiens avec des journalistes et de publications d’articles :

Compte-rendu d'un entretien à propos du projet numérisation de la BSG publié dans un article de 01 Informatique (La bibliothèque Sainte-Geneviève construit son patrimoine numérique. 01 Informatique. 2087 2 juin 2011:21-24)

Interview "la numerisation des bibliotheques universitaires" (IFRAP 1er juin 2009) Compte-rendu de mon intervention aux journées ABES dans la revue Arabesque (en cours de

publication) Compte-rendu d'un entretien à propos du projet numérisation de la BSG publié dans un article

de Archimag 241 (2011), p.20-21 : "les beaux livres de Sainte-Geneviève" Le compte-rendu de mon intervention à la journée « Quoi de neuf en bibliothèques ? » sera

également publié prochainement dans un supplément du Bulletin des Bibliothèques de France Ces articles ont également été repris dans la presse, sur des blogs (Actualitté, mag-bibliophile.fr, patrmoine.blog.pelerin.info, lireetrelire.unblog.fr, internetactu.fr, 1tourdhorizon.com, livrearbitre.wordpress.com, sobookonline.fr, ifrap.org, blog.bnf.fr, digitalmedievalist, bibnum.hypotheses.org, nonfiction.fr, mag-bibliophile.fr, livreblog, patrimoinenblog, , filiere livres etc.) Au 1er août 2011, si on saisit dans le moteur de recherche Google « bibliothèque sainte-geneviève » AND (diadéis OR numérisation), on obtient 299 résultats (8600 sans le filtre Google pour les contenus similaires), 35 sur Google Blog et 7 sur Google Actualités. Pour finir ce chapitre relatif à la communication, un livre reprenant l’étude que j’avais publiée sous

Page 61: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

61 / 71

forme de wiki sur les solutions logicielles pour développer des bibliothèques numériques, est également en cours de rédaction en collaboration avec Marc Maisonneuve (Tosca consulting) qui est bien connu dans le milieu des bibliothèques pour son étude sur les SIGB. Ce livre devrait être publié aux éditions de l’ADBS avant début 2012. Actions d’influence

La majeure partie des documents numérisés par les bibliothèques de France n’est pas mise en ligne et risque de disparaître à cause de la longévité limitée des supports sur lesquels les documents numérisés sont conservés. En effet, le développement d’une plate-forme est coûteux en budget et en personnel et les rares bibliothèques qui parviennent à supporter ces investissements développent des bibliothèques numériques dont la qualité n’est pas à la hauteur des exigences contemporaines. Les autres renoncent tout simplement à diffuser ce qu’elles ont numérisés, faute de moyens. Par ailleurs, Gallica, la plate-forme de la Bibliothèque nationale de France ne peut offrir de débouché et héberger de documents numérisés à l’extérieur de la Bibliothèque Nationale à cause d’un workflow trop rigide (car adossé sur le seul catalogue de la BnF). Gallica peut moissonner les références de documents de bibliothèques numériques extérieures à la condition qu’elles soient parvenues à diffuser leur numérisation sur une plate-forme disposant d’un entrepôt de métadonnées OAI. Or, c’est précisément là que réside leurs difficultés. En effet, diffuser 100 documents ou en diffuser 100 000 sur le web nécessite des moyens logiciels de diffusion similaires et aucune bibliothèque ne peut espérer bénéficier de ceux dont dispose la BnF. Gallica n’offre donc pas, pour le moment, de réel débouché pour ces bibliothèques. En tant que citoyen, le fait que les documents numérisés avec des budgets conséquents ne soient pas diffusés en ligne et dorment sur des CD Rom dont la durée de vie est limitée m’apparaît comme choquant et il me semble nécessaire d’alerter les décisionnaires sur la nécessité d’ouvrir Gallica ou de développer une plate-forme mutualisée offrant un débouché aux bibliothèques. A titre personnel, j’estime que la première solution serait la meilleure, mais en l’absence de sa mise en œuvre par la BnF, j’ai été amené à proposer la deuxième au PRES Sorbonne Paris-Cité qui a accepté de soutenir le projet. Mais, avant d’obtenir ce résultat et afin de convaincre les décisionnaires d’adopter l’une ou l’autre de ces solutions dans l’intérêt du pays, j’ai essayé de communiquer auprès des décisionnaires, via une interview publiée dans la lettre de l’IFRAP (Institut Français de Recherche sur les Administrations Publiques), un think tank ayant une certaine influence sur les politiques. J’ai également profité d’un entretien avec Cyril Bouyeure, chargé d’Intelligence Economique au Ministère de l’Economie. Je lui ai fait passer une courte synthèse à destination de Valérie Pécresse, ministre de l’Enseignement Supérieur. Enfin, à l’occasion des journées Wikimedia 2010, j’ai pris l’initiative de venir voir Arnaud Beaufort, adjoint au Directeur de la Bibliothèque nationale de France, à l’issue de son intervention pour lui faire part de l’urgence qu’il y avait à ouvrir Gallica sur l’extérieur au-delà du moissonnage OAI-PMH et obtenir des renseignements sur sa future mise en œuvre. Pour finir, une action de communication a également été menée vis-à-vis du ministère de l’Enseignement Supérieur, de Raymond Bérard, Directeur de l’Agence Bibliographique de l’Enseignement Supérieur que j’ai eu l’occasion de croiser de multiples reprises, de Amazon (qui avait tout à fait compris la situation en France et avait même accepté de financer le développement de notre plate-forme), de ISSUU et de Evadoc qui ont hésité à le faire.

Page 62: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

62 / 71

Conclusion Bien que je sois satisfait d’avoir rempli la mission qui m’avait été confiée (numériser et mettre en ligne) et même d’avoir pu aller un peu au-delà (lancer le projet de développement d’une plate-forme de diffusion dans le cadre du PRES Sorbonne Paris-Cité), j’ai la désagréable impression d’avoir consacré une partie trop importante de mon énergie et de mon temps en actions inutiles destinées à faire gagner du temps à des conservateurs trop prudents et perfectionnistes ou parfois réticents à voir se développer les projets et à prendre en charge des activités nouvelles. Je suis, en particulier, assez déçu d’avoir détecté des opportunités stratégiques intéressantes (partenariat Amazon, correction participative de l’OCR, numérisation à la demande, impression la demande, numérisation 3D du bâtiment…) qui auraient permis à la Bibliothèque Sainte-Geneviève de s’illustrer et de voir, finalement, d’autres institutions s’en inspirer ou s’en emparer et les mettre en œuvre bien avant nous. A trop réfléchir, on se contente bien souvent de regarder passivement passer le train. J’ai fait toute ma carrière dans les bibliothèques (Muséum national d’Histoire naturelle, IUT de Figeac, Ecole Nationale Vétérinaire de Toulouse, Bibliothèque Sainte-Geneviève) et je pense que la profession de bibliothécaire va disparaître sous sa forme actuelle. En effet, l’utilisation des services des bibliothèques est déjà en forte décroissance et rien ne viendra inverser cette tendance. Les activités traditionnelles (acquisitions, catalogage, équipement, magasinage) devraient progressivement décliner au profit de nouvelles (recherches documentaires expertes, formations à la recherche documentaire, archives ouvertes, knowledge management, bibliométrie, numérisation, veille) qui restent encore paradoxalement totalement méconnues dans la profession ou assez marginales par rapport aux activités traditionnelles. Il n’est pas impossible que ces nouveaux services soient mis en œuvre par d’autres acteurs, en dehors des bibliothèques dont les cadres n’auront que trop rarement perçu leur émergence. Concernant la numérisation elle-même, force est de constater que la majeure partie du travail a déjà été réalisée par Google et que nous nous livrons à un combat d’arrière garde à la recherche des miettes oubliées par Google et Gallica d’ailleurs souvent à juste titre On peut ainsi observer une diminution du nombre de publications scientifiques relative à ce sujet depuis 2008 comme l’illustre le diagramme suivant.

Page 63: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

63 / 71

Nombre de publications, année après année, correspondant à la requête digitiz* AND librar* dans le Web of Science, ScienceDirect et Google Scholar

(diagramme réalisé avec Matheo Analyzer)

J’ai aussi pu constater que sur un échantillon de 100 livres antérieurs à 1900 et successivement communiqués à nos lecteurs, 67 étaient intégralement et gratuitement accessibles en ligne. Ils ont néanmoins été communiqués, ce qui représente un coût et, de surcroit, un coût au détriment de la bonne conservation des documents. Et, concernant les livres contemporains, le pourcentage de ceux qui seront consultés au moins une fois sur les multitudes achetées puis cataloguées, équipées et conservées est décroissant. Ainsi, seuls 17 % des livres acquis au fonds général de la Bibliothèque Sainte-Geneviève sur la période 2006-2010 ont été communiqués au moins une fois au cours de l’année 2010, d’après le chiffre qui m’a été communiqué par un collègue chargé de statistiques d’activités et le nombre de documents communiqués en salle de lecture a été divisé par 2 au cours des 3 dernières années. En conséquence de cette forte diminution, il devrait être possible de diminuer le nombre de magasiniers au profit de la création de nouvelles activités. De la même manière, en diminuant le nombre de livres achetés et de moins en moins consultés, il serait probablement possible de consacrer les effectifs libérés du travail d’acquisition, de catalogage et d’équipement au développement de nouveaux services (archives ouvertes, formation à la recherche documentaire, veille, bibliométrie). La disparition de certaines activités doit être vécue comme naturelle et positive. Au temps où les paysans se révoltaient contre les moulins, ils n’imaginaient pas la révolution industrielle qui se préparait. Par la suite, les mouvements collectivistes et socialistes de la fin du 19è siècle et du début du 20è n’avaient pas, non plus, dans leur critique du fordisme, prévus l’émergence des services et du secteur tertiaire pourtant aujourd’hui prépondérant. Une vision statique et malthusienne de l’économie nous

Page 64: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

64 / 71

fait craindre la disparition de certaines activités et adopter une attitude conservatrice alors que de nouvelles activités généralement plus intéressantes sont susceptibles de les remplacer. Dans le cas du présent projet par exemple, en remplacement d’activités sur le déclin (magasinage, acquisitions, catalogage, équipement), de nouveaux services peuvent être proposés, autour de la numérisation et de l’impression à la demande. Ces activités bénéficieront, de manière harmonieuse, à la fois :

aux usagers qui auront accès à des services qui n’étaient pas rendus par les bibliothèques aux bibliothèques qui bénéficieront d’un retour sur investissement aux contribuables qui verront une partie des coûts de numérisation pris en charge par le privé aux prestataires qui auront davantage d’activité aux investisseurs qui pourront bénéficier de retour sur l’investissement dans la numérisation de

livres à forte consultation aux fondations et aux mécènes

Plus généralement et pour ce qui concerne les bibliothèques sous leur forme traditionnelle, leur perte de vitesse est visible, en analysant l'évolution du nombre de requêtes contenant le mot bibliothèque dans Google, comme l'illustrent les diagrammes suivants obtenus à partir de Google Trends :

Nombre de recherche dans le moteur de recherche Google avec le mot bibliotheque

(diagramme issu de Google Trends)

Page 65: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

65 / 71

Nombre de requetes bibliotheque dans Google(d'après Google Trends)

58,35 60,3257,07

52,3248,3

50,9647,3

0

10

20

30

40

50

60

70

Annees (de 2004 à 2010)

Nb

de r

eque

tes

bibl

ioth

eque

da

ns G

oogl

e

Le métier de bibliothécaire étant appelé à décliner et la numérisation elle-même étant déjà, en partie, de l’histoire ancienne, j’ai décidé de me reconvertir dans les métiers de la veille. C’est la raison pour laquelle je me suis inscrit en Master 2 veille technologique et innovation. Je serai d’ailleurs affecté en septembre 2012, par détachement, à l’Institut National de la Recherche Agronomique (INRA) afin d'y mettre en place un dispositif de veille.

Page 66: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

66 / 71

Bibliographie CADIS, Maria-Livia. Améliorer la visibilité des bibliothèques numériques sur Internet : état des lieux et perspectives de la coopération numérique en France. Mémoire d’étude. Villeurbanne : ENSSIB, 2011.

GUEGUEN G, HANLON A. A Collaborative Workflow for the Digitization of Unique Materials. Journal of Academic Librarianship. 2009 sept;35(5):468-474.

BURESI C, France. A propos de la numérisation. [Paris]: France. Sous-direction des bibliothèques et de la documentation; 1998.

BURESI C, France. A propos de la numérisation : mise à jour. [Paris]: France. Sous-direction des bibliothèques et de la documentation; 1999.

ZHOU Y. Are Your Digital Documents Web Friendly?: Making Scanned Documents Web Accessible. Information Technology and Libraries. 2010 sept;29(3):151-160.

OHTA M, YAKUSHI T, TAKASU A. Bibliographic Element Extraction from Scanned Documents Using Conditional Random Fields. 2008 Third International Conference on Digital Information Management,. 2008;:101-106.

MOATTI A. BibNum, bibliothèque numérique d’histoire des sciences. 2010;

BLANC A. Chaîne de numérisation et bibliothèque virtuelle : de l’acquisition des images à la consultation sur le web [Internet]. 2004;Available from: http://enssibal.enssib.fr/bibliotheque/documents/dessride/rsblanc.pdf

DALMAU M, SCHLOSSER M. Challenges of serials text encoding in the spirit of scholarly communication. Library Hi Tech. 2010;28(3):345-359.

TAYLOR N, Choices for Building Digital Libraries. 2009

DUFOURNAUD N, FEKETE JD. Comparaison d’outils pour la visualisation de sources historiques codées en XML/TEI. Document numérique. 2006;9(2):37–56.

BURESI C, CEDELLE-JOUBERT L. Conduire un projet de numérisation. Villeurbanne: ENSSIB; 2002.

REMIZE M. Cujas: Numérisation au Quartier latin. Archimag. 2002;(157):39–40.

DALBELLO M. Cultural dimensions of digital library development, Part I: Theory and methodological framework for a comparative study of the cultures of innovation in five European national libraries. Library qurterly. 2008 oct;78(4):355-395.

HSIEH Y, CHENG H, CHEN C. Cultural, educational, and commercial applications of digital archives. Archiving 2008, Final program and proceedings. 2008;:264-271.

Page 67: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

67 / 71

YAO L, ZHAO P. Digital libraries in China: progress and prospects. Electronic Library. 2009;27(2):308-318.

LIEW C. Digital library research 1997-2007 Organisational and people issues. Journal of documentation. 2009;65(2):245-266.

LUND W. Digital object library products. RLG DigiNews. 5.

BARTOSEK M, KOVAR P, SARFY M. DML-CZ Metadata Editor Content Creation System for Digital Libraries. DML 2008 – Towards digital mathematics library. 2008;:139-151.

CHAUMIER J. Document et numérisation: enjeux techniques, économiques, culturels et sociaux. Paris: ADBS éditions; 2006.

IZOARD M, SELBACH V. Etablir une politique de numérisation : proposition pour la numérisation des livres anciens illustrés à la BM de Besançon. [S.l.]: [s.n.]; 2005.

DEME A. Etat des lieux et perspectives de numérisation partagée : la politique documentaire de deux bibliothèques numériques, Gallica de la Bibliothèque nationale de France et Library Information Technology de l’Université du Michigan. 2004;

MARILL JL, LUCZAK EC. Evaluation of Digital Repository Software at the National Library of Medicine. D-Lib Magazine 15(5/6), 2009

DHERNY A. Gallica: construction and strategy. Pensée. 2010 mars;(361):51-+.

VANDOOREN F, Gass C. Giving new life to out-of-print books: when publishers’ and libraries’ interests meet. Learned publishing. 2008 juill;21(3):187-192.

WIBLE J. Google Books, Umi and other intriguing trends in digital publishing. IAMSLIC: Every Continent, Every Ocean. 2007;32:13-21.

LE CROSNIER H. Google Livres et le futur des bibliothèques numériques. 2010;

GORMAN G. Google Print and the principle of functionality. Online Information Review. 2007;31(2):113-115.

La bibliothèque Sainte-Geneviève construit son patrimoine numérique. 01 Informatique. 2087 2 juin 2011:21-24

RACT P. La coopération entre établissements culturels dans le cadre d’un projet de numérisation [Internet]. [S.l.]: [s.n.]; 2003. Available from: http://enssibal.enssib.fr/bibliotheque/documents/dcb/ract.pdf

DUTREMEE R. La mise en ligne des documents numérisés. 2007;

CHEVRY E, QUERUEL D. La numérisation dans les bibliothèques municipales françaises : stratégies numériques, transmission et exploitation du patrimoine écrit et iconographique. 2008;

SERVIERE S.F. - La numérisation des bibliothèques universitaires. IFRAP, 2009;

Page 68: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

68 / 71

CZERNIELEWSKI C. La numérisation des collections patrimoniales imprimées et iconographiques du SCD de Montpellier 2 [Internet]. 2004;Available from: http://enssibal.enssib.fr/bibliotheque/documents/ppp/pppczernielewski.pdf

WESTEEL I, AUBRY M(1950-, Université Charles de Gaulle (Lille). La numérisation des textes et des images : techniques et réalisations : 16 et 17 janvier 2003 : recueil de communications. Villeneuve d’Ascq: Ed. du Conseil scientifique de l’Université Charles de Gaulle-Lille 3; 2003.

LEBRE C. La numérisation du fonds ancien de la Bibliothèque universitaire de Grenade : comment valoriser un fonds ancien en bibliothèque universitaire ? [Internet]. 2004;Available from: http://enssibal.enssib.fr/bibliotheque/documents/dcb/lebre.pdf

JEANNENEY JN. La stratégie de la Bibliothèque nationale de France. La Pensée. 2010;(361).

MAIMONE I. Le catalogage au service de la diffusion du patrimoine numérisé. Le cas du MS 158 de la bibliothèque municipale de Lille. 2010;

MARTIN C. Le guide des bibliothèques numériques: le guide essentiel des s@ voirs numérisés du monde. FYP editions; 2010.

Les beaux livres de Sainte-Geneviève. Archimag 241 (2011), p.20-21

REBMEISTER-KLEIN K. Les bibliothèques et la numérisation des manuscrits médiévaux : pour quoi, comment, pour quel résultat ? [Internet]. [S.l.]: [s.n.]; 2002. Available from: http://enssibal.enssib.fr/bibliotheque/documents/dcb/rebmeister.pdf

CACCOMO J-L. Les défis économiques de l’information : la numérisation. Paris: l’Harmattan; 1996.

TOSCA CONSULTANTS. Les logiciels métier pour bibliothèque, leur couverture fonctionnelle et leur cadre technique. Paris: ADBS, 2009

PICARD D-G, Blin F. Les politiques de numérisation des documents scientifiques et techniques des bibliothèques en Allemagne. [S.l.]: [s.n.]; 2008.

GILLESSE R, ROG J, VERHEUSEN A. Life beyond uncompressed TIFF: Alternative file formats for the storage of master image files. Archiving 2008, Final program and proceedings. 2008;:41-46.

CLAERR T, WESTEEL I. Manuel de la numérisation (Coll. Bibliothèques). 2011;

CLAERR (Thierry) et WESTEEL (Isabelle), Numériser et mettre en ligne, Villeurbanne, Presse de l’enssib, 2010.

PATTUELLI M. Modeling a Domain Ontology for Cultural Heritage Resources: A User-Centered Approach. Journal of the American Society for Information Science and Technology. 2011 févr;62(2):314-342.

Page 69: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

69 / 71

POLL R. NUMERIC: Statistics for the digitisation of European cultural heritage. Program-Electronic Library and information systems. 2010;44(2):122-131.

BRISAC AL. Numérisation du patrimoine des bibliothèques et moteurs de recherche. 2010;

COUASNON B, DALBERA J-P, EMPTOZ H. Numérisation et patrimoine. Paris: Hermès science publications; 2003.

BEQUET G, CEDELLE L. Numérisation et patrimoine documentaire. 2000;

VANDEWALLE J-J, GIRARD A. Numérisation globale, valorisation locale : la valorisation des collections patrimoniales numérisées par les professionnels des bibliothèques et de la documentation. [S.l.]: [s.n.]; 2011.

BYGSTAD B, GHINEA G, KLAEBOE G. Organisational challenges of the semantic web in digital libraries: a Norwegian case study. Online Information review. 2009;33(5):973-985.

BOOCK M. Organizing for digitization at Oregon State University: A case study and comparison with ARL libraries. Journal of academic librarianship. 2008 sept;34(5):445-451.

MIMNO D, MCCALLUM A. Organizing the OCA: Learning Faceted Subjects from a Library of Digital Books. Proceedings of the 7th ACM/IEE joint conference on digital libraries. 2007;:376-385.

DARAN H, DUCHEMIN P-Y. Projet de numérisation de documents patrimoniaux en bibliothèque universitaire : cas du Service inter-établissements de coopération documentaire de Bordeaux (SICOD). [S.l.]: [s.n.]; 2005.

NEOUZE V(1975-). Quelle bibliothèque numérique pour une bibliothèque patrimoniale ? : l’exemple de la bibliothèque centrale du Museum d’Histoire naturelle de Paris. Villeurbanne: ENSSIB; 2001.

ESTERMANN Y, JACQUESSON A. Quelle formation pour les bibliothèques numériques? 2000;

TOURNERIE S, DUCHEMIN P-Y. Quelle politique de numérisation des documents pour quelle valorisation ? : l’exemple de la Bibliothèque nationale d’Espagne. [S.l.]: [s.n.]; 2007.

Recensement critique des projets de numérisation en Europe : état des lieux de l’innovation et perspective d’évolutions. 2003;

KATTNIG C. Recherche/archives: numériser les images et après? 2010;

VANDEWALLE JJ. Signalement, numérisation et valorisation. 2011;

ANDRO M. Solutions logicielles pour bibliothèques numériques. Bibliopedia. http://www.bibliopedia.fr/index.php/Solutions_logicielles_pour_biblioth%C3%A8ques_num%C3%A9riques

Page 70: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

70 / 71

RINALDO C, NORTON C.The biodiversity heritage library : an expanding international collaboration. Confluence of ideas: evolving to meet the challenges of global change. 2010;:115-122.

BERMES E, FREON MÉ, MARTIN F. Tous les chemins mènent au numérique. 2008;

HUNTER N, LEGG K, OEHLERTS B. Two librarians, an archivist, and 13,000 images: collaborating to build a digital collection. Library Quarterly. 2010 janv;80(1):81-103.

NOUVEL B. Vous avez dit TEI? 2011;

BELAID A, FALK I, RANGONI Y. XML data representation in document image analysis. ICDAR 2007: Ninth International Conference on Document Analysis. 2007;:78-82.

Page 71: Mathieu Andro - Identifier les champignons · Ministère de l'Enseignement Supérieur, Persée, archive.org, Wikipedia), mais aussi avec des entreprises (Google Books, Amazon, ISSUU,

71 / 71

Résumé La majeure partie des documents numérisés par les bibliothèques en France n'est pas diffusée en ligne et « dort » sur des supports dont la durée de vie est limitée. Les bibliothèques renoncent, en effet, souvent à développer des plates-formes de diffusion trop complexes et trop coûteuses en ressources financières et humaines. Les rares bibliothèques qui parviennent à le faire aboutissent à un résultat souvent décevant. La bibliothèque numérique Gallica ne peut héberger de documents numérisés en dehors de la Bibliothèque nationale de France et ne peut que référencer (« moissonner ») les documents des rares bibliothèques qui parviennent à diffuser sur le web ce qu’elles numérisent. Dans ces conditions, la mutualisation d'une plate-forme de diffusion est proposée afin d’offrir un débouché à la numérisation, en augmenter la visibilité, la qualité de diffusion, la pérennité et partager les coûts. Ce projet a été proposé dans le cadre du Pôle de Recherche de l’Enseignement Supérieur Sorbonne Paris-Cité. Un dispositif de veille a été mis en place afin de détecter des opportunités et des innovations (encodage TEI, correction participative du texte océrisé, numérisation à la demande, vente d'impressions à la demande...) ou des menaces (évolution de l’environnement du projet qui rendrait moins pertinent son développement). Numérisation - Bibliothèques – Bibliothèques numériques - Veille - Gallica - Internet Archive - e-corpus - Benchmarking - Google Reader - Pôle de Recherche de l’Enseignement Supérieur –PRES - Mutualisation - Print on Demand – POD – Délégation de service public - Correction participative de l’OCR

Nuage de mots réalisé à partir du contenu du mémoire avec l’aide de tagxedo.com