Mise en pratique avec AGORA-RETROrfai.li.univ-tours.fr/PagesPerso/jyramel/fr/TP_PEEN.pdf2 3....

45
Mise en pratique avec AGORA-RETRO

Transcript of Mise en pratique avec AGORA-RETROrfai.li.univ-tours.fr/PagesPerso/jyramel/fr/TP_PEEN.pdf2 3....

Page 1: Mise en pratique avec AGORA-RETROrfai.li.univ-tours.fr/PagesPerso/jyramel/fr/TP_PEEN.pdf2 3. DEMARRAGE (2) Choix du sous ... 11 DOC BLOCK LINE WORD CHAR CC CHAR CC CHAR CC WORD CHAR

Mise en pratique avec

AGORA-RETRO

Page 2: Mise en pratique avec AGORA-RETROrfai.li.univ-tours.fr/PagesPerso/jyramel/fr/TP_PEEN.pdf2 3. DEMARRAGE (2) Choix du sous ... 11 DOC BLOCK LINE WORD CHAR CC CHAR CC CHAR CC WORD CHAR

AGORA

Regardez la vidéo de démonstration en même temps que vous avancez peut vous aider…

Page 3: Mise en pratique avec AGORA-RETROrfai.li.univ-tours.fr/PagesPerso/jyramel/fr/TP_PEEN.pdf2 3. DEMARRAGE (2) Choix du sous ... 11 DOC BLOCK LINE WORD CHAR CC CHAR CC CHAR CC WORD CHAR

En route …

Écriture d’un scénario d’extraction d’EdC (textuels) sur un ouvrage entier

Blocs

Lignes

Mots

Caractères (avec accents, points)

Ouvrage = Quelques images d’un livre de Montaigne

Page 4: Mise en pratique avec AGORA-RETROrfai.li.univ-tours.fr/PagesPerso/jyramel/fr/TP_PEEN.pdf2 3. DEMARRAGE (2) Choix du sous ... 11 DOC BLOCK LINE WORD CHAR CC CHAR CC CHAR CC WORD CHAR

AGORA : interface du logiciel

4

Image courante

Arbre d’EOC

Scénario

Infos techniques

Labels existants

Page 5: Mise en pratique avec AGORA-RETROrfai.li.univ-tours.fr/PagesPerso/jyramel/fr/TP_PEEN.pdf2 3. DEMARRAGE (2) Choix du sous ... 11 DOC BLOCK LINE WORD CHAR CC CHAR CC CHAR CC WORD CHAR

DEMARRAGE : choix du dossier de projet

Un projet AGORA un dossier

+ 1 sous-dossier des images à segmenter

+ 1 image « type »

Projet.xml, Scenario.xml

Sous-dossiers des résultats

Alto

Etc.

Data_Agora/Test_Montaigne

A nettoyer : Supprimer tous les

répertoires sauf originalimages

03/02/2018 5

12

3

Page 6: Mise en pratique avec AGORA-RETROrfai.li.univ-tours.fr/PagesPerso/jyramel/fr/TP_PEEN.pdf2 3. DEMARRAGE (2) Choix du sous ... 11 DOC BLOCK LINE WORD CHAR CC CHAR CC CHAR CC WORD CHAR

DEMARRAGE (2)

Choix du sous-dossier

des imagesOriginalImages

Choix de l’image couranteBRom_Montaigne1_0471

6

Page 7: Mise en pratique avec AGORA-RETROrfai.li.univ-tours.fr/PagesPerso/jyramel/fr/TP_PEEN.pdf2 3. DEMARRAGE (2) Choix du sous ... 11 DOC BLOCK LINE WORD CHAR CC CHAR CC CHAR CC WORD CHAR

DEMARRAGE (3)

Suite aux choix précédents, on obtient l’état initial

Page 8: Mise en pratique avec AGORA-RETROrfai.li.univ-tours.fr/PagesPerso/jyramel/fr/TP_PEEN.pdf2 3. DEMARRAGE (2) Choix du sous ... 11 DOC BLOCK LINE WORD CHAR CC CHAR CC CHAR CC WORD CHAR

Prise en main IHM et autre

IHM

UNDO !!! Scenario>> Undo Last Operation

Page 9: Mise en pratique avec AGORA-RETROrfai.li.univ-tours.fr/PagesPerso/jyramel/fr/TP_PEEN.pdf2 3. DEMARRAGE (2) Choix du sous ... 11 DOC BLOCK LINE WORD CHAR CC CHAR CC CHAR CC WORD CHAR

Sauvegarde

Sauver le scénario

Sauver le projet

9

Page 10: Mise en pratique avec AGORA-RETROrfai.li.univ-tours.fr/PagesPerso/jyramel/fr/TP_PEEN.pdf2 3. DEMARRAGE (2) Choix du sous ... 11 DOC BLOCK LINE WORD CHAR CC CHAR CC CHAR CC WORD CHAR

Analyse interactive d’images

AGORA n’est pas automatique ! Interaction forte avec l’utilisateur Construction d’un scénario à partir d’une image Application de ce scénario à toutes les autres images

Scénario Ensemble d’étapes permettant de construire l’arbre d’EOC

Etape de scénario Une étape = une opération sur l’arbre d’EOC

Création d’EOC Expansion

Insertion

Suppression d’EOC

Modification d’EOC

Chaque étape est paramétrable

10

Page 11: Mise en pratique avec AGORA-RETROrfai.li.univ-tours.fr/PagesPerso/jyramel/fr/TP_PEEN.pdf2 3. DEMARRAGE (2) Choix du sous ... 11 DOC BLOCK LINE WORD CHAR CC CHAR CC CHAR CC WORD CHAR

Analyse interactive d’images

Arbre d’EOC : exemple Père

Fils

Arbre d’EOC initial :

11

DOC

BLOCK

LINE

WORD

CHAR CC

CHAR CC

CHAR CC

WORD

CHARCC

CC

CHAR CC

LINE

WORD CHAR CC

WORDCHAR CC

CHAR CC

BLOCK LINE

WORD CHAR CC

WORD

CHAR CC

CHARCC

CCDOC

Page 12: Mise en pratique avec AGORA-RETROrfai.li.univ-tours.fr/PagesPerso/jyramel/fr/TP_PEEN.pdf2 3. DEMARRAGE (2) Choix du sous ... 11 DOC BLOCK LINE WORD CHAR CC CHAR CC CHAR CC WORD CHAR

Analyse interactive d’images

EOC

Possède un label (« type »)

NOISE, CHAR, WORD, LINE, etc.

Possède une liste de caractéristiques (« features »)

Actuellement dans AGORA : 5 features

X, Y Dimensions ou Position horizontale et verticale

RangeMapX, RangeMapY Dimensions dans la carte des plages

ChildNumber Nombre de fils

Chaque feature est un segment

2 nombres « a » et « b » par feature

12

a b

X

Page 13: Mise en pratique avec AGORA-RETROrfai.li.univ-tours.fr/PagesPerso/jyramel/fr/TP_PEEN.pdf2 3. DEMARRAGE (2) Choix du sous ... 11 DOC BLOCK LINE WORD CHAR CC CHAR CC CHAR CC WORD CHAR

Creation de labels pour les EoC

Création d’un nouveau type d’EOC (CC, NOISE, CHAR,…)

Ajout d’EOC de type « CC »

Misc Operations>>Label Creation>> CC

Label Creation >> Noise

Misc Operations>>Label Creation>> Noise

Etc…

03/02/2018 13Introduction à AGORA

Page 14: Mise en pratique avec AGORA-RETROrfai.li.univ-tours.fr/PagesPerso/jyramel/fr/TP_PEEN.pdf2 3. DEMARRAGE (2) Choix du sous ... 11 DOC BLOCK LINE WORD CHAR CC CHAR CC CHAR CC WORD CHAR

Extraction des EOC

Extraction des composantes connexes

L1 operations>>Find CC

Choix de la binarisation

Binarisation simple

Seuil = 150

Binarisation de Sauvola

Possible mais lente pour des grandes pages (> 2 Mpixels)

Démarche par « Essai–Erreur »

Scenario>>Undo Last

50

100

150

200

Page 15: Mise en pratique avec AGORA-RETROrfai.li.univ-tours.fr/PagesPerso/jyramel/fr/TP_PEEN.pdf2 3. DEMARRAGE (2) Choix du sous ... 11 DOC BLOCK LINE WORD CHAR CC CHAR CC CHAR CC WORD CHAR

CONTRÔLE VISUEL de la binarisation : Essais-erreurs + voir repertoire « _CACHE »

Sauvola Seuil

Page 16: Mise en pratique avec AGORA-RETROrfai.li.univ-tours.fr/PagesPerso/jyramel/fr/TP_PEEN.pdf2 3. DEMARRAGE (2) Choix du sous ... 11 DOC BLOCK LINE WORD CHAR CC CHAR CC CHAR CC WORD CHAR

Extraction EOC : résultat

Page 17: Mise en pratique avec AGORA-RETROrfai.li.univ-tours.fr/PagesPerso/jyramel/fr/TP_PEEN.pdf2 3. DEMARRAGE (2) Choix du sous ... 11 DOC BLOCK LINE WORD CHAR CC CHAR CC CHAR CC WORD CHAR

Résultat + IHM

17

CLIC sur un LABEL Visualisation sur l’image

Page 18: Mise en pratique avec AGORA-RETROrfai.li.univ-tours.fr/PagesPerso/jyramel/fr/TP_PEEN.pdf2 3. DEMARRAGE (2) Choix du sous ... 11 DOC BLOCK LINE WORD CHAR CC CHAR CC CHAR CC WORD CHAR

Analyse et Etiquetage des EoC

Elimination du bruit

Bruit = composantes connexes très petites

Création d’un label « NOISE »

Classification des EOC « CC » en EOC « NOISE »

Classification selon les dimensions horizontales et verticales

Suppression des EOC « NOISE »

18

DOC

CC

CC

CC

CC

CC

DOC

CC

NOISE CC

CC

NOISE CC

CC

Page 19: Mise en pratique avec AGORA-RETROrfai.li.univ-tours.fr/PagesPerso/jyramel/fr/TP_PEEN.pdf2 3. DEMARRAGE (2) Choix du sous ... 11 DOC BLOCK LINE WORD CHAR CC CHAR CC CHAR CC WORD CHAR

Classification par taille : « pattern »

DOC CC

C’est ici que vous

specifies les limites

de taille (en X et Y)

désirées pour le

bruit

DOC

CC

NOISE CC

CC

NOISE CC

CC

Bien mettre des 0 sur

les critères inutilisés

Cliquez ici

L2 >> Classify by Features

Page 20: Mise en pratique avec AGORA-RETROrfai.li.univ-tours.fr/PagesPerso/jyramel/fr/TP_PEEN.pdf2 3. DEMARRAGE (2) Choix du sous ... 11 DOC BLOCK LINE WORD CHAR CC CHAR CC CHAR CC WORD CHAR

EOC (a1,b1) < Pattern (a0,b0)

20

a0 < a1b1 < b0

Interface difficile à assimiler surtout sans explication orale….Il est possible de juste recopier les valeurs ci dessous sans chercher a comprendre…

Remplacer

+Infini par

-Infini

Cochez

Page 21: Mise en pratique avec AGORA-RETROrfai.li.univ-tours.fr/PagesPerso/jyramel/fr/TP_PEEN.pdf2 3. DEMARRAGE (2) Choix du sous ... 11 DOC BLOCK LINE WORD CHAR CC CHAR CC CHAR CC WORD CHAR

Classification : résultat

21

Page 22: Mise en pratique avec AGORA-RETROrfai.li.univ-tours.fr/PagesPerso/jyramel/fr/TP_PEEN.pdf2 3. DEMARRAGE (2) Choix du sous ... 11 DOC BLOCK LINE WORD CHAR CC CHAR CC CHAR CC WORD CHAR

Suppression des EOC « NOISE »

22

DOC

CC

NOISE CC

CC

NOISE CC

CC

DOC

CC

CC

CC

Page 23: Mise en pratique avec AGORA-RETROrfai.li.univ-tours.fr/PagesPerso/jyramel/fr/TP_PEEN.pdf2 3. DEMARRAGE (2) Choix du sous ... 11 DOC BLOCK LINE WORD CHAR CC CHAR CC CHAR CC WORD CHAR

Detection / Etiquetage d’autres types

d’EoC

Classification par la taille (idem NOISE)

Caractères : taille spécifiée

Taille X < 80

Taille Y < 80

Accents : caractères de taille « petite »

Taille X < 25

Taille Y < 20

Images : tout le reste

23

Page 24: Mise en pratique avec AGORA-RETROrfai.li.univ-tours.fr/PagesPerso/jyramel/fr/TP_PEEN.pdf2 3. DEMARRAGE (2) Choix du sous ... 11 DOC BLOCK LINE WORD CHAR CC CHAR CC CHAR CC WORD CHAR

Caractères : résultat

24

Page 25: Mise en pratique avec AGORA-RETROrfai.li.univ-tours.fr/PagesPerso/jyramel/fr/TP_PEEN.pdf2 3. DEMARRAGE (2) Choix du sous ... 11 DOC BLOCK LINE WORD CHAR CC CHAR CC CHAR CC WORD CHAR

ACCENTS : résultat

25

Page 26: Mise en pratique avec AGORA-RETROrfai.li.univ-tours.fr/PagesPerso/jyramel/fr/TP_PEEN.pdf2 3. DEMARRAGE (2) Choix du sous ... 11 DOC BLOCK LINE WORD CHAR CC CHAR CC CHAR CC WORD CHAR

IMAGES : « tout le reste »

26

Toutes les CC

ayant encore Doc

comme père dans

l’arbre deviennent

Image

Aucun critère

selectionné

DOC

CC

CC

CC

Page 27: Mise en pratique avec AGORA-RETROrfai.li.univ-tours.fr/PagesPerso/jyramel/fr/TP_PEEN.pdf2 3. DEMARRAGE (2) Choix du sous ... 11 DOC BLOCK LINE WORD CHAR CC CHAR CC CHAR CC WORD CHAR

IMAGES : résultat

03/02/2018 Introduction à AGORA27

Page 28: Mise en pratique avec AGORA-RETROrfai.li.univ-tours.fr/PagesPerso/jyramel/fr/TP_PEEN.pdf2 3. DEMARRAGE (2) Choix du sous ... 11 DOC BLOCK LINE WORD CHAR CC CHAR CC CHAR CC WORD CHAR

Classification par la position

Page 29: Mise en pratique avec AGORA-RETROrfai.li.univ-tours.fr/PagesPerso/jyramel/fr/TP_PEEN.pdf2 3. DEMARRAGE (2) Choix du sous ... 11 DOC BLOCK LINE WORD CHAR CC CHAR CC CHAR CC WORD CHAR

Rassemblement / Fusion d’EoC

Création de lignes de texte

Création d’un label « LINE »

CHAR LINE

Un EOC LINE aura comme Y = moyenne des Y fils

Set Feature mode

Fusion Line/CHAR Line

Contexte = Doc

LINE = LINE + LINE si alignement Y satisfaisant

Simplification finale (delete line dans line)

29

Page 30: Mise en pratique avec AGORA-RETROrfai.li.univ-tours.fr/PagesPerso/jyramel/fr/TP_PEEN.pdf2 3. DEMARRAGE (2) Choix du sous ... 11 DOC BLOCK LINE WORD CHAR CC CHAR CC CHAR CC WORD CHAR

Lignes : résultat

30

Page 31: Mise en pratique avec AGORA-RETROrfai.li.univ-tours.fr/PagesPerso/jyramel/fr/TP_PEEN.pdf2 3. DEMARRAGE (2) Choix du sous ... 11 DOC BLOCK LINE WORD CHAR CC CHAR CC CHAR CC WORD CHAR

Construction des MOTS

Similaire LINE mais :

Contexte = LINE

On fusionne les CHAR qui sont proches en X (7 pixels)

Les Etapes :

CHAR WORD

Fusion WORD = WORD+WORD

si X satisfaisant

Intersection entre WORD

inters. en X 1 seul WORD

Simplification finale

31

Rassemblement / Fusion d’EoC

Page 32: Mise en pratique avec AGORA-RETROrfai.li.univ-tours.fr/PagesPerso/jyramel/fr/TP_PEEN.pdf2 3. DEMARRAGE (2) Choix du sous ... 11 DOC BLOCK LINE WORD CHAR CC CHAR CC CHAR CC WORD CHAR

MOTS : intersection + simplification

32

Page 33: Mise en pratique avec AGORA-RETROrfai.li.univ-tours.fr/PagesPerso/jyramel/fr/TP_PEEN.pdf2 3. DEMARRAGE (2) Choix du sous ... 11 DOC BLOCK LINE WORD CHAR CC CHAR CC CHAR CC WORD CHAR

Intersection + simplification : résultat

33

Page 34: Mise en pratique avec AGORA-RETROrfai.li.univ-tours.fr/PagesPerso/jyramel/fr/TP_PEEN.pdf2 3. DEMARRAGE (2) Choix du sous ... 11 DOC BLOCK LINE WORD CHAR CC CHAR CC CHAR CC WORD CHAR

Idem pour les blocs de texte

Rassemblement de toutes les lignes

Fusion LINE BLOCK

Pas de critère

34

Page 35: Mise en pratique avec AGORA-RETROrfai.li.univ-tours.fr/PagesPerso/jyramel/fr/TP_PEEN.pdf2 3. DEMARRAGE (2) Choix du sous ... 11 DOC BLOCK LINE WORD CHAR CC CHAR CC CHAR CC WORD CHAR

Blocs de texte : résultat

35

Page 36: Mise en pratique avec AGORA-RETROrfai.li.univ-tours.fr/PagesPerso/jyramel/fr/TP_PEEN.pdf2 3. DEMARRAGE (2) Choix du sous ... 11 DOC BLOCK LINE WORD CHAR CC CHAR CC CHAR CC WORD CHAR

Un peu compliqué tous ca ?

• Sauvegarde du projet

• Sauvegarde du scenario

• Application du scenario sur un ouvrage complet…

• File Open Project1.xml

• Analyse des résultats générés

• Mise en place d’Assistants (work in progress…)

Assistant « Text Segmentation »

Page 37: Mise en pratique avec AGORA-RETROrfai.li.univ-tours.fr/PagesPerso/jyramel/fr/TP_PEEN.pdf2 3. DEMARRAGE (2) Choix du sous ... 11 DOC BLOCK LINE WORD CHAR CC CHAR CC CHAR CC WORD CHAR

Assistant « text segmentation »

37Introduction à AGORA

Page 38: Mise en pratique avec AGORA-RETROrfai.li.univ-tours.fr/PagesPerso/jyramel/fr/TP_PEEN.pdf2 3. DEMARRAGE (2) Choix du sous ... 11 DOC BLOCK LINE WORD CHAR CC CHAR CC CHAR CC WORD CHAR

Exportation des résultats

• Sauvegarde du projet

• Sauvegarde du scenario

• Application du scenario sur un ouvrage complet…

Page 39: Mise en pratique avec AGORA-RETROrfai.li.univ-tours.fr/PagesPerso/jyramel/fr/TP_PEEN.pdf2 3. DEMARRAGE (2) Choix du sous ... 11 DOC BLOCK LINE WORD CHAR CC CHAR CC CHAR CC WORD CHAR

03/02/2018 Introduction à AGORA39

Sortie Alto

Page 40: Mise en pratique avec AGORA-RETROrfai.li.univ-tours.fr/PagesPerso/jyramel/fr/TP_PEEN.pdf2 3. DEMARRAGE (2) Choix du sous ... 11 DOC BLOCK LINE WORD CHAR CC CHAR CC CHAR CC WORD CHAR

40

Page 41: Mise en pratique avec AGORA-RETROrfai.li.univ-tours.fr/PagesPerso/jyramel/fr/TP_PEEN.pdf2 3. DEMARRAGE (2) Choix du sous ... 11 DOC BLOCK LINE WORD CHAR CC CHAR CC CHAR CC WORD CHAR

RETRO

Regardez la vidéo de démonstration en même temps que vous avancez est indispensable…

Page 42: Mise en pratique avec AGORA-RETROrfai.li.univ-tours.fr/PagesPerso/jyramel/fr/TP_PEEN.pdf2 3. DEMARRAGE (2) Choix du sous ... 11 DOC BLOCK LINE WORD CHAR CC CHAR CC CHAR CC WORD CHAR

Interfaces de gestion du clustering & de vérification des clusters

Lancer Retro New Project RetroData\test04\projet01.xml

RETRO : Comparaison de formes sans reconnaissance

Analyse de la redondance

Page 43: Mise en pratique avec AGORA-RETROrfai.li.univ-tours.fr/PagesPerso/jyramel/fr/TP_PEEN.pdf2 3. DEMARRAGE (2) Choix du sous ... 11 DOC BLOCK LINE WORD CHAR CC CHAR CC CHAR CC WORD CHAR

Interfaces de gestion du clustering & de vérification des clusters

ClusteringProcess Clustering Load Clusters View Clusters

RETRO : Comparaison de formes sans reconnaissance

Analyse de la redondance

Page 44: Mise en pratique avec AGORA-RETROrfai.li.univ-tours.fr/PagesPerso/jyramel/fr/TP_PEEN.pdf2 3. DEMARRAGE (2) Choix du sous ... 11 DOC BLOCK LINE WORD CHAR CC CHAR CC CHAR CC WORD CHAR

Interfaces de visualisation des clusters + contexte + création de modèles typographiques

Interfaces de transcription manuelle (et automatique)

Interfaces de visualisation des fichiers Alto et EoC (Pages)

Voir la vidéo de démonstration de RETRO

RETRO : Comparaison de formes sans reconnaissance

Analyse de la redondance

Page 45: Mise en pratique avec AGORA-RETROrfai.li.univ-tours.fr/PagesPerso/jyramel/fr/TP_PEEN.pdf2 3. DEMARRAGE (2) Choix du sous ... 11 DOC BLOCK LINE WORD CHAR CC CHAR CC CHAR CC WORD CHAR

Interfaces d’analyse typographique Création de modèles à partir d’images

Visualisation de base de modèles

Mesure et identification de Fontes1. Select a page

2. Selection of the frontier (top/bottom for [20], [x], [:] height), and display of measured values (in pixels and mm)

3. Estimated Body height designation

4. Possibility to export computed information in xml

RETRO : Comparaison de formes sans reconnaissance

Analyse typographique