Livre numérique accessible et numérisation de...

Post on 14-Aug-2020

3 views 0 download

Transcript of Livre numérique accessible et numérisation de...

9e Forum européen de l’accessibilité numérique

8 juin 2015, Paris

Livre numérique accessible et

numérisation de masse à la BnF :

retour d’expérience

Jean-Philippe Moreux, Bibliothèque nationale de France

département de la Conservation, service Numérisation

Pourquoi produire des

livres numériques (à la BnF) ?

Accessibilité aux

contenus numériques

EPUB 3 et DTBook

Numérisation de masse et

production

de contenus numériques

accessibles

2

Plan

Livre numérique accessible et

numérisation de masse à la BnF :

retour d’expérience

Accessible Ebooks and Mass

Digitization at the BnF :

feedback

How come BnF produces ebooks?

Making digital contents accessible

EPUB 3 and DTBook

Mass digitization and accessible digital

content production

Bibliothèques patrimoniales : pourquoi produire

des livres numériques ?

3 8 juin 2015

• Améliorer la dissémination des contenus numériques :

– OCR indexation pour la bibliothèque numérique

– ebook lecture nomade, hors bibliothèque

• Tirer avantage du livre numérique en comparaison

des formats classiques de diffusion (HTML, PDF) :

– Meilleure utilisabilité, sur des appareils dédiés, d’un format

conçu pour la lecture numérique

– Meilleure accessibilité aux contenus numériques pour

les personnes empêchées de lire du fait d’un handicap

Ebook et bibliothèques : prêt, téléchargement

4 4

Baromètre SOFIA/SNE/SGDL sur les usages du livre numérique, février 2013

La numérisation à la BnF

5 8 juin 2015

Jusqu’à 1998, consultation

dans les murs

Depuis 1998, consultation

sur le Web (Gallica)

Depuis 2011, consultation sur

tablettes, et au format EPUB

1992 1998 2004 2005 2006-2009 2011-2014 2010 2014-2017

Num. de

conservation SPAR

Num. de

diffusion

Num.

de masse

Couleur,

test EPUB EPUB 2 EPUB 3

Pourquoi EPUB ?

6 8 juin 2015

• Format ouvert pour le livre numérique (2006, 2011)

• Interopérable

• Basé sur des formats techniques standard :

• XHTML, CSS, SVG, ZIP, Unicode, Dublin Core

• Adapté aux contenus patrimoniaux ciblés par la BnF

(littérature, histoire, SHS, etc.)

• Meilleur confort de lecture que PDF :

• flot de texte

• personnalisation de la lecture (police et taille

de caractères)

Flot de texte : adaptation au lecteur

7

corps de police variable police au choix

7

Flot de texte : adaptation au dispositif

8 8

9

Un EPUB non accessible est toujours meilleur qu’un PDF !

“In other words, everyone

will benefit from accessible

data at some point in their

lives, as there are a lot of

ways accessible data

improves access that aren’t

always immediately obvious.

Accessibility is critical for

some and universally

beneficial for all.” Matt Garrish

Accessibilité aux contenus numériques à la BnF

10 8 juin 2015

• Développer l’accès à la lecture pour les personnes

empêchées de lire dans le cadre de la loi

du 11 février 2005

• À la BnF :

• Les documents convertis en livre numérique

sont rendus accessibles avec EPUB 3 et DAISY

(2014-).

• L’accès aux contenus accessibles est amélioré dans

la bibliothèque numérique (Gallica, sept. 2015).

Pourquoi EPUB 3 ?

11 8 juin 2015

• Mécanismes dédiés favorisant l’accessibilité :

• Table de navigation enrichie : tables des pages et des repères

• Structuration des contenus :

• structuration sémantique HTML 5

• annotation sémantique EPUB 3 (epub:type) : vocabulaire

dédié (part, chapter, footnote…)

• Caractérisation de la langue du contenu (document, bloc, mot)

• Description de l’accessibilité avec des métadonnées ONIX

• Synchronisation texte/son

• Accès aux contenus scientifiques : MathML

• Mise en page adaptative

Utiliser EPUB 3 aujourd’hui : les risques

12 8 juin 2015

• Enjeux de préservation :

• format maîtrisé (XHTML, Unicode, etc.)

• gabarit « EPUB patrimonial » : pas de scripting,

pas de contenu multimédia

• et il s’agit d’un format de diffusion (conservation = images)

• Enjeux d’usage :

• 2014-2015 : transition générale des dispositifs de lecture de

EPUB 2 vers EPUB 3

• Le gabarit « EPUB 3 patrimonial » n’utilise pas de

contenus/mécanismes « à risque »

lecture possible sur liseuses et logiciels EPUB 2

Pourquoi DAISY ?

13 8 juin 2015

• DAISY a fusionné avec EPUB 3. En termes d’accessibilité,

EPUB 3 et DAISY sont équivalents.

• Mais un format pivot XML adaptable est préférable

pour la production d’autres formats accessibles :

• livres à gros caractères

• livres audio DAISY

• Braille

• … et pour anticiper les besoins à venir (rétroconversion

EPUB 3 vers EPUB x)

• La DTD XML DTBook 2005-3 a été choisie. Ce choix pourra

évoluer (ZedAI par exemple).

• Un mapping EPUB 3 vers DTBook a été créé.

Production de contenus accessibles : processus

14 8 juin 2015

Sélection

documentaire

rétroconversion

numérisation

Montée en

qualité du

texte

Prestataire de numérisation

Structure OCR

XML

pivot

Packaging

des livrables

Feu

ille

s d

e

sty

le C

SS

,

po

lic

es

,

tad

on

née

s,

tex

tes

fix

es

Des contenus variés Un format, des dispositifs

de lecture hétérogènes

Un

processus

industriel

Dictionnaires Théâtre

Essai

Livres pour enfants

Production d’EPUB : les enjeux

8 juin 2015

Sciences

Périodiques

Littérature

Production d’EPUB patrimoniaux : contexte

16 8 juin 2015

• Critères de sélection :

• intellectuels : genres, thèmes, périodes

• techniques, liés à la qualité de l’OCR : typographie, langues,

état physique, format d’origine (papier, microfilm)

• techniques, liés au format EPUB « reflowable » : texte

majoritaire, maquette simple

• Processus industriel :

• pas de traitement personnalisé des documents

• Enjeux de coût :

• pas de documents multilingues

• pas de contenus scientifiques

• pas d’index actifs

Production de contenus num. accessibles : contexte

17 8 juin 2015

• Processus industriel :

• peu de maîtrise de DAISY de la part des prestataires ebook

et/ou numérisation…

• la description des illustrations n’est pas possible

• Enjeux de coût :

• pas de structuration sémantique fine

• langue d’un mot isolé

• Limite technique :

• structuration sémantique : les vocabulaires DAISY/EPUB sont

limités (théâtre, poésie, etc.)

Contenus numériques accessibles : est-ce plus cher ?

18 8 juin 2015

• Numérisation OCR/EPUB : 3 à 4

• ingénierie

• qualité du texte (99,96 %)

• Coût de production EPUB 2 / EPUB 3 accessible : +5 %

• Prix à la page (OCR, correction, EPUB 3 + DAISY) :

0,4 à 0,8 €

• XML DTBook : export par mapping à partir du format pivot

XML du prestataire (pas de coût variable)

Contenus num. accessibles : est-ce plus compliqué ?

19 8 juin 2015

Mécanisme d’accessibilité Compl. ? Remarque

Structure sémantique micro : De base : parag., notes de bdp, titres…

0 Nécessaire même pour des EPUB

non accessibles

Avancée : épigraphe, poème…

2 Plus de natures de contenu

à identifier

Structure sémantique macro

(organisation logique de l’œuvre)

1 Parfois complexe (variété des

collections, subjectivité)

Table des pages physiques 0 Générée automatiquement d’après

la structure physique (produite lors

de la numérisation)

Table des repères 0 Générée automatiquement d’après

la structure logique

Export XML DTBook 1 Mapping à créer

Conclusion

20 8 juin 2015

• Numérisation BnF : 1 000 EPUB/an depuis 2011

• Savoir faire et outils mutualisés avec

le Dépôt légal du livre numérique (2015)

• Référentiels et spécifications BnF utilisés par

les partenariats de numérisation public-privé

les EPUB produits seront accessibles :

• projet « Relire/Indisponibles » (2014-2024) : 500 000

ouvrages, majoritairement au format EPUB

• Futurs genres en EPUB 3 : sciences, dictionnaires ?

gallica.bnf.fr

21 21

L’offre sur Gallica : 3 000 EPUB

Statistiques de diffusion

22 22 août 2014

iApp Gallica

Gallica Web

Le téléchargement

EPUB commence

à apparaître

23

marqueurs insérés

dans le contenu

<div class="p-indent">Nous allons avoir sous les yeux les

êtres les plus dignes de l’attention du physicien. Que

l’imagination, éclairée par le flambeau de la science,

rassemble en effet tous les produits organisés de

<span id="page002" epub:type="pagebreak"

title="002"></span>la puissance créatrice…

Numéros de page : lectures papier/numérique

Structuration sémantique : exemple des notes de bas de page

24

EPUB 3 avec structuration sémantique Texte sans structure logique

La structuration sémantique alimente les dispositifs d’assistance :

• le lecteur peut choisir de sauter une note

• le lecteur peut choisir de sauter systématiquement les notes 24

Structuration sémantique : critique pour certains, bénéfique à tous

25

Lecture audio synchronisée

La structuration sémantique profite à tous :

• les liseuses EPUB restituent automatiquement les notes de bas de page

• les dispositifs d’assistance gèrent les fonctionnalités propres

au handicap visuel

25

Le contrôle qualité EPUB+DTBook à la BnF

26 22 août 2014

Prestataires

rejets

Contrôles de

structure* :

•epubcheck

•pipeline

•contrôles BnF

Contrôle qualité

Archivage

SPAR

Contrôles visuels :

•mise en forme

•qualité du texte** Diffusion

* Pas d’outil de contrôle de l’accessibilité d’un fichier EPUB 3

** QA de la transcription du texte : difficile