Bp irht-2009-12-15-7

72
Les dossiers de Bouvard et Pécuchet de Flaubert : Fragments visuels et fragments logiques au sein du projet d’édition électronique Stéphanie Dord-Crouslé (CNRS / LIRE UMR 5611) Emmanuelle Morlock-Gerstenkorn (CNRS / ISH UMS 1798) Séminaire de publication électronique, 15 décembre 2009, IRHT, Orléans

Transcript of Bp irht-2009-12-15-7

Les dossiers de Bouvard et Pécuchet de Flaubert :

Fragments visuels et fragments logiquesau sein du projet d’édition électronique

Stéphanie Dord-Crouslé (CNRS / LIRE UMR 5611)Emmanuelle Morlock-Gerstenkorn (CNRS / ISH UMS 1798)

Séminaire de publication électronique, 15 décembre 2009, IRHT, Orléans

Plan

1. Présentation du projet2. La notion de "fragment" en question3. De la segmentation à la pérennisation, les rôles assignés

au balisage XML/TEI

L’origine du projet : Bouvard et Pécuchet, un roman inachevé

1- Un peu d’histoire littéraire…

● Le projet de Flaubert : un roman en 2 volumes commencé en 1872

● L’interruption brutale : la mort de Flaubert le 8 mai 1880

L’origine du projet : Bouvard et Pécuchet, roman inachevé

1- Un peu d’histoire littéraire…

2- Un peu d’histoire éditoriale…

Le roman publié sous le titre de Bouvard et Pécuchet (1881 - aujourd’hui) = le « 1er volume »

1881 2008

L’origine du projet : Bouvard et Pécuchet, roman inachevé

1- Un peu d’histoire littéraire…2- Un peu d’histoire éditoriale…● Le roman publié sous le titre de Bouvard et Pécuchet (1880-

aujourd’hui) = le « 1er volume »● Le chantier documentaire du « 2nd volume » conservé à la

bibliothèque municipale de Rouen

Le chantier documentaire du « 2nd volume »● Des « choix de documents » en annexe des éditions modernes

Le chantier documentaire du « 2nd volume »● Des « choix de documents » en annexe des éditions modernes ● Quelques tentatives plus récentes de reconstitution conjecturale

du « 2nd volume »

Les dossiers documentaires de Bouvard et Pécuchet : les caractéristiques du corpus

1- sa taille imposante (2300 feuillets)2- sa double hétérogénéité

- la nature physique des documents

page manuscrite page imprimée page mixte

Les dossiers documentaires de Bouvard et Pécuchet : les caractéristiques du corpus

1- sa taille importante (2300 feuillets)2- sa double hétérogénéité

- la nature physique des documents- leur appartenance typologique

- documentation brute ou peu traitée

- listes de références bibliographiques

- notes de lecture

- « notes de notes » ou fiches de synthèse disciplinaires

- pages préparées pour le second volume

Les dossiers documentaires de Bouvard et Pécuchet : les caractéristiques du corpus

1- sa taille importante (2300 feuillets)2- sa double hétérogénéité3- la mobilité de ses fragments

rococo

Style médical

dangers du chocolat.

Le projet BOUVARD

1- L'équipe scientifique

● en France, autour du LIRE:● des spécialistes de Flaubert ● et, plus largement, du XIXe siècle

● en Italie, au Japon et aux États-Unis : ● des spécialistes de Flaubert

1- L'équipe technique ● Le projet ANR, coordination technique assurée par le SID

● Responsable technique : Raphaël Tournoy ● Conception et suivi de l'encodage TEI : E Morlock-Gerstenkorn● Développements : Contractuels

● L'ADR – Cluster 13 (2007)● "Environnement collaboratif pour l’enrichissement, la valorisation et la

documentation d’un corpus multi supports en sciences humaines : l’édition électronique des dossiers de Bouvard et Pécuchet de Flaubert"

● Doctorant : Vincent Malleron, directeurs : Philippe Régnier (LIRE) – Hubert Emptoz (LIRIS)

2- Les moyens mis en œuvre

● une numérisation souhaitable mais problématique...

g226 (7) f°012

2 images :

1 surexposée

1 sous-exposée

2- Les moyens mis en œuvre

● une numérisation souhaitable mais problématique...● un site Web

2- Les moyens mis en œuvre

● une numérisation souhaitable mais problématique...● un site Web ● une base de données

Renvois vers les sources : « Références bibliographiques du scripteur ou titre de l'imprimé »

Références bibliographiques normalisées : « Références bibliographiques exactes »

Colloque "Le patrimoine à l'ère du numérique : structuration et balisage" – Caen – 10-11 décembre 2009

2 - La notion de "fragment"

Régions d'intérêt multiples

Délimitation de zones sur l'image

facsimile

Non correspondance des découpes et des fragments-citationsVol. 3 f° 126

● Découpe bleue : 3 citation● Découpe verte du haut : 2

citations● Découpe verte du bas : 1 citation● Deuxième citation : sur deux

découpes

Autres chevauchementsde structures entre :

● citations● commentaires● découpes de papier

Le parcours d'un fragment

Exemple du fragment 6 de l'édition Caminiti :

1.Source2.Édition3.Note de lecture4.Récapitulation5.Page préparée

Le fragment n°6 de l'édition Caminiti

Vedette : "Nomenclatures et bizarreries"

La source accessible en ligne

Dictionnaire des sciences médicales, par une société de médecins et de chirurgiens...

(1812-1822, 60 vol.)

http://web2.bium.univ-paris5.fr/livanc/?cote=47661&do=livre

La note de lecture (g226-vol7-f116-v)

Colloque "Le patrimoine à l'ère du numérique : structuration et balisage" – Caen – 10-11 décembre 2009

hommes qui sont morts de joie. à copier

Diagoras de Rhodes, Chilon, Sophocle, Denys tyran de Sicile, Philémon,Polycratela nièce de Leibnitz en voyant une cassette pleine d'or dont elle héritait par la mortde son oncle, le pape Léon X en apprenant la prise de Milan

(398).

La récapitulation (g226-vol7-f154)

hommes qui sont morts de joie : Diagoras de Spartes Rhodes, Chilon, Sophocle, Denys tyran de SicilePhilémon, Polycrate, la nièce de Leibnitz en voyant une cassette

id. pleine d'or dont elle héritait par la mort de son oncle —le pape Léon X en apprenant la prise de Milan.l'Arétin, en apprenant une ruse de sa sœur

La page préparée pour BP2 (g226-vol1-f287)

Raisonner au niveau logique

● Prendre en compte des structures implicites

http://dossiers-flaubert.ish-lyon.cnrs.fr/display.php?view=ms&id_image=6401

Raisonner au niveau logique

● Prendre en compte les structures implicites● Identifier des unités comparables

"Modèle abstrait" du fragment-citation

F

Vedettes Commentaires Citation

V1 V2 Vn C1 C2 Cn Enoncé Renvoi

Bizarreries Enumérations X À copier DM p. 287Hommes qui (...)

Raisonner au niveau logique

● Prendre en compte les structures implicites● Identifier des unités comparables● Définir une unité pour chaque niveau : logique (textuel),

physique 3D (document), visuel 2D (image)

Définition : le fragment-citationC'est une unité textuelle logique, correspondant à un passage d'une source externe au corpus, imprimée ou manuscrite, que l'on a pu identifier ou non.

Elle peut connaître plusieurs matérialisations dans le manuscrit patrimonial.

Elle correspond à une entité de la base de données, est en relation avec un élément de la transcription TEI et une ou plusieurs zones de l'image.

Définition : la zone d'imageC'est une région d'intérêt de forme polygonale isolée sur l'image facsimile du manuscrit.

Elle peut être générée automatiquement par un logiciel d'analyse d'image ou dessinée directement par un transcripteur.

Après validation par un transcripteur, elle est encodée dans le fichier TEI dans l'élément <facsimile>. Elle peut être mise en relation les composants de l'éléments <text> par l'intermédiaires d'attributs.

Définition : le morceau colléC'est une unité physique, correspondant au morceau de page manuscrite ou imprimée collé sur une page du manuscrit à une étape de sa composition.

Si nécessaire, il peut être encodé dans la transcription TEI par l'intermédiaire de balises vides de type "milestones".

Si la proposition de module dédié aux études génétiques est validée par le consortium, cette unité pourra être encodée par l'élément <ge:patch> au sein de l'élément <ge:document>.

Exemple d'encodage

<facsimile> <surface xml:id="page-G2226-1-287-r"> <graphic url="image-G226-1-287-r.jpg"/> <zone xml:id="zone-G266-1-287-r-vedette1"></zone> <zone xml:id="zone-G266-1-287-r-fragment3"></zone> <zone xml:id="zone-G266-1-287-r-vedette2"></zone> </surface> </facsimile> <text type="scenarique" subtype="BP2"> <body> <pb xml:id="G226-1-287-r" type="recto" n="1"/> <head rend="align(left) underline"> <index indexName="vedettes"> <term type="vedettePotentielle" facs="zone-G266-1-287-r-vedette1" n="1"> <interp ana="V-Bizarrerie">Bizarreries</interp> </term> </index> </head> <div type="fragment" n="1" facs="#G226-1-287-r-citation1" ana="#V-Bizarrerie"/> <div type="fragment" n="2" facs="#G226-1-287-r-citation2" ana="#V-Bizarrerie"/> <div type="fragment" n="3" facs="#G226-1-287-r-citation3" ana="#V-Bizarrerie"> <note type="classement" place="margin" resp="#NS" facs="#zone-G266-1-287-r-vedette2"> <subst hand="#GF-crayon" > <del rend="strikethrough">Nomencl</del> <add place="below-indent">énumération</add> </subst> </note> <cit> <quote> <lb/>Hommes qui sont morts de joie = <lb/><persName>Diagoras de Rhodes</persName> - <persName>Chilon</persName> - <persName>Sophocle</persName> <lb/><persName>Philémon</persName> - <persName>Polycrate</persName> - La <persName>nièce de <persName>Leibnitz</persName></persName> <lb/>en voyant une cassette pleine d'or dont elle héritait <lb/>par la mort de son oncle - Le <persName>pape Léon X </persName>en <lb/>apprenant la prise de <placeName>Milan</placeName> - <persName>L'Arétin</persName> en <lb/>apprenant une <space quantity="1" unit="word"/>de sa soeur - </quote> <bibl xml:id="B3-2072"> <title> <abbr>Dict.</abbr> <abbr>Sc.</abbr> <abbr>Médic.</abbr> </title> <biblScope><abbr>Art</abbr> = Joie</biblScope> </bibl> </cit> </div> </body> </text>

<facsimile> <surface xml:id="page-1"> <graphic url="image-page-1.jpg"/> <zone xml:id="zone-1" starts="#frag-1"></zone> <zone xml:id="zone-2a" starts="#frag-2"></zone> </surface> <surface xml:id="page-2"> <graphic url="image-page-2.jpg"/> <zone xml:id="zone-2b" starts="#page-2"></zone> </surface> </facsimile> <text type="scenarique" subtype="BP2"> <body> <pb xml:id="page-1" type="recto" n="1"/>

<div xml:id="frag-1" type="fragment" n="1"> <cit> <quote> <lb/>Hommes qui sont morts de joie = <lb/><persName>Diagoras de Rhodes</persName> - <persName>Chilon</persName> - <persName>Sophocle</persName> <lb/><persName>Philémon</persName> - <persName>Polycrate</persName> - La <persName>nièce de <persName>Leibnitz</persName></persName> <lb/>en voyant une cassette pleine d'or dont elle héritait <lb/>par la mort de son oncle - Le <persName>pape Léon X </persName>en <lb/>apprenant la prise de <placeName>Milan</placeName> - <persName>L'Arétin</persName> en <lb/>apprenant une <space quantity="1" unit="word"/>de sa soeur - </quote> </cit> </div>

<div xml:id="frag-2" type="fragment" n="2"> <p> <lb/>bla bbla bal<lb/> <pb xml:id="page-2" type="verso" n="2"/> <lb/>bla bbla bal<lb/> </p> </div> </body> </text>

Valider au niveau fonctionnel

● La "maquette papier" du module de reconstitution

L'outil de reconstitution : maquette

Valider au niveau fonctionnel

● La « maquette papier » du module de reconstitution– Apport 1: distinction « fragment-agençable » vs

« composant de fragment »– Apport 2: typologie des « vedettes » :

● Catégorie prévue● Catégorie potentielle● Catégorie présomptive● Etiquette

Valider au niveau fonctionnel de l'interface utilisateur

● La "maquette papier" du module de reconstitution● Reconstituer les pages intermédiaires découpées par

Flaubert ?

3 - De la segmentation à la pérennisation, les rôles assignés au balisage XML/TEI

3 - De la segmentation à la pérennisation, les rôles assignés au balisage XML/TEI1. Reprise des transcriptions existantes => fichier TEI minimal

2. Intégration des zones d'images + délimitation des fragments dans le texte + résolution des abréviations + métadonnées de la BDD (ref. bibliographiques) => fichier TEI délimité

3. Validation dans Oxygen par le chercheur => CSS Oxygen auteur sur-mesure

4. Script : création d'enregistrements pour chaque fragment et chaque texte dans la BDD

5. Archivage du fichier TEI validé dans la base de données au niveau texte

<text type="scenarique" subtype="BP2"> <body> <pb xml:id="G226-1-287-r" type="recto" n="1"/> <head rend="align(left) underline"> <index indexName="vedettes"> <term type="vedettePotentielle" facs="zone-G266-1-287-r-vedette1" n="1"> <interp ana="V-Bizarrerie">Bizarreries</interp> </term> </index> </head> <div type="fragment" n="1" facs="#G226-1-287-r-citation1" ana="#V-Bizarrerie"/> <div type="fragment" n="2" facs="#G226-1-287-r-citation2" ana="#V-Bizarrerie"/> <div type="fragment" n="3" facs="#G226-1-287-r-citation3" ana="#V-Bizarrerie"> <note type="classement" place="margin" resp="#NS" facs="#zone-G266-1-287-r-vedette2"> <subst hand="#GF-crayon" > <del rend="strikethrough">Nomencl</del> <add place="below-indent">énumération</add> </subst> </note> <cit> <quote> <lb/>Hommes qui sont morts de joie = <lb/><persName>Diagoras de Rhodes</persName> - <persName>Chilon</persName> - <persName>Sophocle</persName> <lb/><persName>Philémon</persName> - <persName>Polycrate</persName> - La <persName>nièce de <persName>Leibnitz</persName></persName> <lb/>en voyant une cassette pleine d'or dont elle héritait <lb/>par la mort de son oncle - Le <persName>pape Léon X </persName>en <lb/>apprenant la prise de <placeName>Milan</placeName> - <persName>L'Arétin</persName> en <lb/>apprenant une <space quantity="1" unit="word"/>de sa soeur - </quote> <bibl xml:id="B3-2072"> <title> <abbr>Dict.</abbr> <abbr>Sc.</abbr> <abbr>Médic.</abbr> </title> <biblScope><abbr>Art</abbr> = Joie</biblScope> </bibl> </cit> </div> </body> </text>

Le double rôle du balisage XML/TEI1. Segmentation des fragments et intégration à la base de données

2. Pérennisation des textes et du commentaire critique● Réintégration des données de la BDD dans le fichier TEI● Relations génétiques et TEI ?

Le double rôle du balisage XML/TEI1. Segmentation des fragments et intégration à la base de données

2. Pérennisation des textes et du commentaire critique● Mapping BDD vers TEI et « TEI on demand »● Export TEI patrimonial : génération à partir des <pb>● A expérimenter : encodage TEI des relations génétiques entre fragments

Le double rôle du balisage XML/TEI1. Segmentation des fragments et intégration à la base de données

2. Pérennisation des textes et du commentaire critique● Réintégration des données de la BDD dans le fichier TEI● Relations génétiques et TEI ?

Relations génétiques de fragments

Evolution A fol 7-116v Frag. n°4

Fragment issu d’une Note de lecture

Fragment issu d’une page récapitulative

pour BP2

B fol 7-154 Frag. n°8

C fol 1-287 Frag. n°3

Fragment issu d’une page préparée

pour BP2

Evolution

TEI : éléments <graph>, <node> et <arc>

<graph type="genetic"> <node xml:id="A" value="#7-116v"/> <node xml:id="C" value="#7-154"/> <node xml:id="B" value="#1-287"/> <arc from="#A" to="#B" type="evolution"/> <label>campagne de recopie X</label> </arc> <arc from="#B" to="#C" type="evolution"/>> <label>campagne de recopie Y</label> </arc> </graph>

Un exemple de relations plus complexes...

Evolution

Fusion

Evolution

Evolution

A fol 7-152r –f5

B fol 7-152r –f6

Fragments issus de Notes de lecture

Fragments issus de pages récapitulatives

pour BP2

C fol 7-156–f1

A’ fol 3-119r –f2

B’ fol 3-119r –f3

C’ fol 3-

130r –f3

Fragments issus de pages préparées pour

BP2

ConclusionApports de ce travail :

● Meilleure compréhension du corpus et du projet

● Amélioration du processus de transcription (stratégie d'encodage, ciblage, cohérence et harmonisation)

Limites :

● L'encodage du niveau physique et visuel reste un objectif secondaire

● La temporalité des deux projets (ANR / Thèse) limite leur articulation

Recommandations :

● Nécessité de bien distinguer entre projet d'exploration scientifique et projet d'édition

● L'enjeu stratégique du dialogue chercheur / ingénieur : utiliser des représentations visuelles, rédiger des scénarios d'usage, éviter les pièges des questions/réponses binaires (possible/pas possible)

OutilsSur le marché...● Roma : schéma de la « personnalisation » TEI

● Oxygen : éditeur XML + CSS sur mesure de l'affichage « auteur »

● Inkscape : dessin et/ou validation des zones de l'image

● Milefeuille : indexation sémantique des fichiers TEI

En développement...● GraphicalFolioEditor : plugin Eclipse développé dans le cadre d'un stage

● Zonage automatique des images : algorithmes et interface développés dans le cadre d'une thèse

● Scripts divers maison à développer :

● création des enregistrements dans la BDD

● Script(s) BDD vers TEI

● Etc.

Lectures conseillées :● Biblio du projet : http://dossiers-flaubert.ish-lyon.cnrs.fr/

● Attaching a facsimile : http://tei.oucs.ox.ac.uk/GettingStarted/html/os.html#osreffac

● Facsimile markup (Dot Porter) http://tei.oucs.ox.ac.uk/Oxford/2007-11-01-membersmeeting/launch.xml#launch.xml-body.1_div.6

● Draft genetic TEI : http://users.ox.ac.uk/~lou/wip/geneticTEI.doc.html#index.xml-front.1_div.1

● Cayless, Hugh A. “Linking Page Images to Transcriptions with SVG.” Presented at Balisage: The Markup Conference 2008, Montréal, Canada, August 12 - 15, 2008. http://www.balisage.net/Proceedings/vol1/html/Cayless01/BalisageVol1-Cayless01.html

● Projet TILE (Text-Image Linking Environment) : http://mith.info/tile/

● Description du projet TILE http://www.neh.gov/grants/guidelines/researchdevsamples/UnivMd_R&D.pdf

Merci pour votre attention.