Modélisation de HMM en contexte avec des arbres de ... Modélisation de HMM en contexte avec des...

Modélisation de HMM en contexte avec desarbres de décision pour la reconnaissance demots manuscrits

Anne-Laure Bianne-Bernard*, ** — Christopher Kermorvant * —Laurence Likforman-Sulem** — Chafic Mokbel***

* A2iA SA— 40 bis rue Fabert, 75007 Paris, France alb, ck @a2ia.com

** Télécom ParisTech/TSI et CNRS LTCI— 46 rue Barrault, 75013 Paris, France

bianne, likforman @telecom-paristech.fr

*** Université de Balamand, Liban [email protected]

RÉSUMÉ.Cet article présente un système à base de HMM pour la reconnaissance hors ligne demots manuscrits. Afin de prendre en compte les liaisons entre les caractères d’un même mot(monographes), leurs modèles sont considérés dépendants de leurcontexte (trigraphes). Unetelle modélisation augmente de manière considérable le nombre de paramètres à calculer, ce quinous amène à considérer un partage des paramètres. Nous effectuons un clustering sur chaqueposition d’état, basé sur des arbres de décision qui ont l’avantage, enphase de test, de pouvoirassocier un modèle connu à un trigraphe non appris. Nous avons testé notre système sur la basepublique Rimes, et ses performances dépassent celles d’un système àbase de monographes etatteignent plus de 80 % de mots correctement reconnus.

ABSTRACT.This paper presents an HMM-based recognizer for the off-line recognition of hand-written words. Word models are the concatenation of context-dependentcharacter models: thetrigraphs. Due to the large number of possible context-dependent models to compute, a cluster-ing is applied on each state position, based on decision trees. Our system is shown to performbetter than a baseline context independent system, and reaches an accuracy higher than 80 %on the publicly available Rimes database.

MOTS-CLÉS :reconnaissance d’écriture manuscrite, clustering d’états, arbres dedécision.

KEYWORDS:off-line handwriting recognition, state position clustering, decision trees.

RSTI - DN – 14/2011. Indexation et recherche d’information, pages 29 à 52

30 RSTI - DN – 14/2011. Indexation et recherche d’information

1. Introduction

Nous présentons dans cet article un système à base de modèlesde Markov ca-chés (en anglaisHidden Markov Models, soit HMM) pour la reconnaissance de motsisolés manuscrits. Une application directe de ce système est la lecture de documentsmanuscrits numérisés : archives, courriers envoyés aux entreprises ou aux adminis-trations publiques, chèques, etc. Des systèmes permettantla lecture de certains typesde documents ont déjà été développés avec succès, comme la lecture des montantssur les chèques (Gorskiet al., 2001; Palacioset al., 2004; Dinget al., 2008; Suenet al., 1996; Paquetet al., 1993), ou bien la lecture d’adresses postales (Brakensieket al., 2002; Brakensieket al., 2004). Nous nous concentrons ici sur la lecture d’untexte manuscrit écrit sans contrainte. Cela inclut un vocabulaire très large comparéaux tâches mentionnées ci-dessus, ainsi qu’une disposition plus variée et aléatoire deszones de texte. Cette tâche malgré sa difficulté est pourtantd’un intérêt croissant. Deplus, étant donné la variabilité des documents traités, le système utilisé doit être omni-scripteur (robuste à tout type de scripteurs), sans contrainte sur la forme des mots, nisur le lexique.

Les systèmes de reconnaissance d’écriture à base de HMM utilisent une stratégieholistique ou analytique. La première construit un modèle pour un mot, mais ne s’ap-plique pas aux lexiques trop grands. La deuxième permet la modélisation de mots parla concaténation des modèles HMM des caractères les composant. En outre, la straté-gie analytique peut utiliser une segmentation explicite del’image du mot en caractèresou graphèmes (Gorskiet al., 2001; Kavallieratouet al., 2002), mais il est aussi fré-quent de rencontrer des systèmes dits à fenêtre glissante, dans lesquels la découpe dumot en caractères s’effectue implicitement en même temps que l’algorithme d’appren-tissage ou de décodage (Vinciarelliet al., 2001; Toselli, 2004; El-Hajjet al., 2009; Ro-driguezet al., 2008). De plus, les systèmes HMM avec stratégie analytiquesont parti-culièrement intéressants pour la lecture d’un texte écrit sans contrainte, car n’importequel modèle de mot peut être (re-)construit par la concaténation des modèles de ses ca-ractères, sans avoir besoin d’exemples supplémentaires pour l’apprendre. D’ailleurs,la reconnaissance de mots par HMM peut se transformer aisément en reconnaissancede lignes ou de paragraphes à l’aide de modèles de langage (Vinciarelli et al., 2004).Enfin, les systèmes à base de HMM ont l’avantage d’être facilement applicables grâceà plusieurs librairies publiques existantes et bien documentées (par exemple : HTK(Young et al., 2006), Sphinx (Huertaet al., 1999)), et d’avoir des performances àl’état de l’art (Ploetzet al., 2009).

Nous avons choisi l’approche analytique, et utilisons des fenêtres glissantes pourl’extraction des caractéristiques. Des systèmes similaires utilisant cette même ap-proche existent dans la littérature. Ils diffèrent dans le choix des caractéristiques àextraire et la forme de la fenêtre glissante. Ainsi, (Rodriguezet al., 2008) utilisentdes caractéristiques statistiques (histogrammes de gradient) et une fenêtre de hauteurvariable, s’adaptant à la hauteur des caractères, alors que(Vinciarelli et al., 2001)utilisent une fenêtre de hauteur fixe. (El-Hajjet al., 2009) font de même, mais avecdes caractéristiques géométriques. De plus, nous prenons en compte l’influence du

Trigraphes et arbres de décision 31

contexte des lettres au niveau des caractéristiques, en modélisant l’influence des fe-nêtres glissantes voisines sur la fenêtre courante. C’est le concept de caractéristiquesdynamiques. Ceci est la base de notre système générique, quimodélise les caractèrespar des HMM.

Nous avons cherché à affiner notre système en construisant des modèles de carac-tères plus précis. Pour cela, nous avons choisi de modéliserchaque caractère en fonc-tion de son contexte dans le mot. Cette approche est utiliséeen parole pour illustrerl’effet de co-articulation, et certains travaux l’abordent dans le domaine de la recon-naissance d’écriture manuscrite (Schussleret al., 1998; Natarajanet al., 2006; Finket al., 2007; El-Hajjet al., 2008). Les variations de forme d’un caractère peuvent êtrecausées par le mouvement de la main (ductus) par exemple (Sirat, 1994). On peutchoisir d’introduire la notion de contexte en agrandissantla largeur de la fenêtre glis-sante utilisée afin d’englober un caractère avec son contexte dans une seule fenêtre etd’en extraire des caractéristiques. Mais cela conduit à desdensités de probabilité avecdes Gaussiennes à large variance (et donc à des modèles peu stables). On peut aussimodéliser les variations de forme des lettres en considérant l’influence des caractèresvoisins sur la géométrie du caractère considéré. C’est cette solution que nous avonschoisie.

Ainsi, nous augmentons le degré de précision des modèles de lettres par la priseen compte des déformations possibles dues à l’écriture d’unmême caractère dans desmots différents. Cependant, une telle modélisation implique une augmentation consi-dérable du nombre de paramètres à calculer pour le système, qui nécessite donc untrès grand nombre de données d’apprentissage afin d’estimercorrectement tous lescontextes de tous les caractères. C’est pourquoi nous choisissons de regrouper lesparamètres des modèles. Dans la littérature, les systèmes utilisant des modèles encontexte prévoient aussi une réduction du nombre de paramètres. Une première ap-proche utilise le partage de tous les paramètres liés aux distributions Gaussiennes : cesont les modèles semi-continus, ou bien les systèmes partageant les états centraux desmodèles avec la même lettre centrale (Nedelet al., 2000). Une deuxième approcheconsiste à ne conserver que les modèles en contexte avec suffisamment d’exemples,et laisser les autres modèles à l’état de monographe (Schussler et al., 1998). Enfin,une dernière approche possible est le clustering de paramètres. On peut effectuer unclustering au niveau des modèles, c’est-à-dire que deux modèles dans un même clustersont identiques. (El-Hajjet al., 2008) utilisent cette méthode en regroupant les carac-tères avec des voisins ayant les mêmes formes (caractère ascendant ou descendant).Le clustering peut aussi se faire au niveau des états, avec laconstruction de clusterspour chaque position d’état, étant donné une lettre centrale fixe. (Finket al., 2007; Na-tarajanet al., 2006) utilisent cette dernière approche en regroupant lescontextes parcatégories, et calculent leurs clusters à partir des données.

Notre approche partage quelques propriétés avec les systèmes décrits dans (Finketal., 2007; Natarajanet al., 2006) étant donné que nous modélisons aussi les caractèresen fonction de leur contexte gauche et droit (modèles nomméstrigraphes), et que nousfaisons un partage de paramètres au niveau des états. Cependant, notre système diffère


de ces approches car nous utilisons un clustering à base de nos connaissances sur lamorphologie des contextes (knowledge-driven clustering) et non à base des donnéesdisponibles (data-driven clustering). A la suite d’une observation exhaustive des posi-tions que peuvent prendre les ligatures entre deux caractères et des formes des partieslatérales (partie extrême gauche et partie extrême droite)de chaque caractère, nousavons créé un ensemble original de questions binaires. Celles-ci permettent de bâtirnos clustersvia des arbres de décision. Cette approche, basée sur la morphologie descontextes, permet en outre de traiter des caractères avec des contextes non appris. Ceciest très utile dans notre tâche de reconnaissance de mots étant donné que de nombreuxcontextes du lexique de test ne sont pas présents dans la based’apprentissage.

Figure 1. Exemple de lettre manuscrite de la base Rimes et des mots extraits de cettelettre, traités par notre système

Afin de prouver l’efficacité de notre méthode, nous comparonsdeux systèmes : unpremier système où les modèles de caractères sont indépendants du contexte (les mo-nographes), et un second système basé sur des modèles en contexte, les trigraphes. Lessystèmes HMM pour l’alphabet Latin sont en général évalués sur deux grandes basesde données publiques, la base IAM (Martiet al., 1999) et la base Rimes (Augustinet al., 2006). Nous avons choisi de montrer nos résultats sur la base Rimes car elleest très récente, et est actuellement utilisée pour des compétitions internationales. Unexemple de lettre et de mots manuscrits de la base Rimes est donné dans la figure 1.

L’article s’organise ainsi : les sections 2.1 et 2.2 présentent les étapes de prétrai-tement des données : nettoyage des images puis extraction decaractéristiques parapproche à base de fenêtre glissante. La section 2.4 présente le système génériqueavec des modèles indépendants de leur contexte et la section3 introduit le systèmeamélioré avec des modèles de trigraphes, dont les états sontgroupés en clusters grâceà des arbres de décision. Nous comparons ces deux systèmes à base de fenêtres glis-santes entre eux, ainsi qu’à des travaux existant dans le domaine dans la section 4. Les


expériences ont été réalisées sur la base Rimes 2009 (Grosicki et al., 2009), qui est ladernière version à ce jour depuis son lancement (Augustinet al., 2006).

2. Système de reconnaissance d’écriture à base de HMM de monographes

2.1. Prétraitement et normalisation des images

Les premières étapes d’un système de reconnaissance d’écriture manuscriteconsistent à préparer les données : normaliser les images enentrée, et en extraireles caractéristiques qui permettront de calculer les modèles. Nous limitons l’étape dela normalisation à la correction de l’inclinaison des caractères au niveau du mot. Lesimages ne sont pas normalisées en taille car les caractéristiques extraites par la suitesont indépendantes de la hauteur de l’image, et la modélisation HMM est robuste à unnombre variable de vecteurs de caractéristiques correspondant à un même modèle.

Afin de calculer des caractéristiques propres aux ascendants et descendants, leslignes de base des mots sont calculées. Nous nous sommes inspirés du travail de(Vinciarelli et al., 2001) pour notre correction d’inclinaison et notre calculde lignesde base. Nous avons adapté leur algorithme pour images binaires à des images en ni-veau de gris. Les lignes calculées sont fixes, comme illustrésur la figure 2 (les lignesde base haute et basse sont les deux lignes horizontales). Lecalcul de l’angle d’incli-naison se fait par maximisation de l’entropie du profil de la projection horizontale despixels de l’image.

Figure 2. Illustration de l’extraction de caractéristiques géométriques par fenêtreglissante

2.2. Extraction de caractéristiques

L’extraction de caractéristiques s’inspire des travaux de(El-Hajj et al., 2005; El-Hajj et al., 2009) et utilise des fenêtres glissantes parcourant l’image de gauche


à droite, comme illustré sur la figure 2. Les fenêtres sont divisées verticalementen un nombre fixe de cellulesncells et sont de largeurw pixels. Dans chaque fe-nêtre sont extraitesw + 20 caractéristiques : 2 sont reliées au nombre de transitionscaractère/arrière-plan, 12 aux configurations de pixels (calcul de concavités), 2 à laposition du centre de gravité, dont une dérivative (différence des positions verticales),et les autres sont reliées aux densités de pixels. Certainesde ces caractéristiques dé-pendent de la position des lignes de base. Les images en niveau de gris sont binariséesavec la méthode de (Otsu, 1979) afin de calculer les caractéristiques de transitioncaractère/arrière-plan ainsi que celles de configuration de pixels.

Nous avons optimisé la largeurw des fenêtres glissantes, le décalageδ entre deuxfenêtres consécutives et le nombre de cellulesncells dans chaque fenêtre (comme illus-tré sur la figure 2) sur une base de validation indépendante. Le choix des paramètresest discuté dans la section 4.

2.3. Caractéristiques dynamiques

Afin d’ajouter de l’information sur l’environnement d’un caractère, nous avonschoisi dans un premier temps d’agir au niveau des caractéristiques. Avec une dériva-tion, la dynamique des fenêtres glissantes entourant la fenêtre courante est prise encompte. Sip est l’abscisse en pixels de la fenêtre courante, alors la dérivation prendraen compte les fenêtres situées aux positionsp − δ ∗ i etp + δ ∗ i, pour1 ≤ i ≤ K. δest le décalage entre deux fenêtres consécutives etK le nombre de fenêtres participantau calcul des caractéristiques dérivées. La dérivation estcalculée par une régression,doncK représente aussi la profondeur de la régression. En reconnaissance de la pa-role, les régressions du premier et second ordre sont connues respectivement commeles coefficients delta et delta-delta des caractéristiquescepstrales.

Soit ok le vecteur de caractéristiques de la fenêtre courante (à la position p), etok+i (resp.ok−i) celui de la fenêtre décalée dei ∗ δ (resp.−i ∗ δ) pixels, située àl’abscissep + i ∗ δ (resp.p − i ∗ δ). La régression du premier ordre du vecteur decaractéristiquesok s’écrit :

∆ok =

∑K

i=1i(ok+i − ok−i)

2∑K

i=1i2

[1]

2 ∗ K vecteursoj sont donc pris en compte pour le calcul des caractéristiquesdyna-miques.

Le vecteur de caractéristiques final, en entrée du système, est alors la concaténationdu vecteur initialok et de sa régression au premier ordre∆ok. Nous montrons dansla section 4 que cet ajout permet d’améliorer les performances de notre système dereconnaissance d’écriture manuscrite.


2.4. Modélisation de caractères indépendamment de leur contexte

Le premier système présenté dans cet article est le système générique qui ne prendpas en compte les contextes des caractères. Il utilise une stratégie analytique et pro-cède sans segmentation. Un mot est modélisé par la concaténation des caractères lecomposant, comme illustré sur la figure 3. Tous les modèles decaractères suiventla topologie de Bakis avecS états émetteurs (transitions gauche-droite et saut d’étatautorisé). La densité de probabilité des observations est un mélange deNG distribu-tions Gaussiennes. Le mélange est obtenu par incrémentations successives du nombrede Gaussiennes suivies à chaque étape de ré-apprentissage avec l’algorithme Baum-Welch. Le passage dem àm+1 Gaussiennes se fait en clonant la Gaussienne de poidsle plus fort dans une nouvelle Gaussienne. Chacune reçoit comme nouveau poids lamoitié du poids de la Gaussienne initiale, et est décalée parl’addition (soustraction)d’une distribution normale de faible variance (σsplit par défaut vaut0.2). Le nombreoptimalNG de gaussiennes dans les mélanges est obtenu par des tests surune base devalidation.

Etant donné que les modèles de notre système de base sont indépendants descontextes, chaque caractère a un unique modèle lui correspondant. Nous appelonsces modèles des ’monographes’. Notre système étant testé sur du français (cf. figure1), nous prenons en compte les accents, car l’accentuation d’une lettre peut changerla signification d’un mot (’du’/’dû’ par exemple). Ainsi nous définissons un total de78 monographes différents, comprenant des chiffres, des caractères accentués ou non,en majuscule ou minuscule, et des symboles (apostrophe, pourcentage, trait d’union).Dans notre système,a est donc différent deA eté est différent dee.

Figure 3. Modélisation d’un mot par la concaténation des caractères le composant

Le décodage se fait avec l’algorithme Viterbi. Il n’y a aucune connaissancea prioride la vraisemblance des mots du vocabulaire, donc les mots dutest ont tous la mêmeprobabilité. Nous utilisons le Hidden Markov Model Toolkit(HTK) (Young et al.,2006) pour l’apprentissage et le décodage.


3. Système de reconnaissance d’écriture à base de HMM de trigraphes

3.1. Introduction

Nous avons vu dans la section 2.3 comment introduire une notion de contexte auniveau des caractéristiques avec une régression. Nous souhaitons maintenant exploiterl’observation présentée sur la figure 4 : un caractère a une forme variable suivant saposition dans un mot et les lettres qui l’entourent. Le système présenté ici prend encompte cette idée en modélisant un caractère en fonction de son contexte gauche etdroit : un trigraphe.

(a) "i" et "n" dans lemot "Monsieur"

(b) "i" et "n" dans le mot"distinguée"

Figure 4. Illustration des différentes formes que peut prendre un caractère selon soncontexte : "i" et "n" ont une forme différente pour chaque apparition dans les motsci-dessus

Une telle modélisation est utilisée en parole pour simuler l’effet de co-articulation,et les modèles sont nommés triphones (Lee, 1990). Mais, comme nous l’avons men-tionné dans l’introduction (section 1), très peu de travauxde reconnaissance de l’écri-ture abordent les modèles en contexte et explorent leurs avantages. Il est vrai quel’inconvénient majeur de la modélisation des caractères enfonction de leur contexteest que le nombre de paramètres des HMM de tous les trigraphespossibles à modéliserest très élevé, et que pour un vocabulaire de taille moyenne (4 000 mots), le manque dedonnées pour l’apprentissage devient un problème récurrent. Il existe pourtant des mé-thodes pour réduire ce nombre, basées sur le partage des paramètres entre modèles, ouentre états par exemple. Nous avons choisi d’utiliser une méthode de clustering sur lespositions d’états afin de pallier ce problème et d’inclure efficacement des trigraphesdans notre système.

Le prétraitement des images en entrée et l’extraction des caractéristiques (géomé-triques et dynamiques) sont identiques à ce qui est fait dansle système générique etdécrit dans les sections 2.1, 2.2 et 2.3. L’apport majeur de notre système, outre la mo-délisation de caractères en fonction de leur contexte, est l’usage d’un processus departage de paramètres utilisant un clustering d’états basésur des arbres de décisionbinaires (voir section 3.3). Ces derniers sont construits àpartir de questions originalesque nous avons définies après observation de la morphologie des caractères présentsdans le lexique (voir section 3.3.2).


3.2. Modélisation de caractères en contexte

Le principe de modélisation de caractères en fonction de leur contexte est asseznaturel, car il nous paraît logique que la forme d’un caractère varie en fonction deslettres qui l’entourent. Ceci est illustré pour les caractèresn et i dans la figure 4. Deplus, étant donné que les deux mots de cette figure on été écrits par le même scripteur,on peut imaginer la variabilité des contextes qui peut exister dans une base de donnéesmultiscripteur de grande taille, telle que la base Rimes.

Cette modélisation consiste à définir un mot non pas comme unesuccession decaractères, mais comme une succession de caractères avec leur contexte. Les mono-graphes de la section 2.4 sont remplacés par des trigraphes,où le caractère central estinfluencé par le caractère à sa gauche (contexte gauche) et celui à sa droite (contextedroit). D’un point de vue syntaxique, nous définissons un contexte gauche avec unsigne moins ’-’, et un contexte droit avec un signe plus ’+’. Ainsi, le monographei dela figure 4.a, entouré d’uns et d’une, devient, en contexte, le trigraphes − i + e. Demême sur la figure 4.b, la lettred entourée par un espace et uni se définit comme letrigraphe∅ − d + i.

Une fois que l’ensemble des trigraphes à apprendre est déterminé, l’étape suivanteest le processus d’apprentissage. Celui-ci pourrait être effectué directement à partir destrigraphes précédemment définis, mais certains d’entre euxont trop peu d’exemplesdans la base d’apprentissage. De plus, le nombre de paramètres à calculer croit lorsquele nombre de Gaussiennes dans les mélanges des densités de probabilités augmente.Ainsi, pour les 4 500 différents trigraphes présents dans labase d’apprentissage et unetopologie de modèles avecS états émetteurs etNG Gaussiennes dans chaque mélange,si S etNG sont de l’ordre de10, le nombre de paramètres à calculer monte à presqueun demi-million, ce qui est tout à fait prohibitif étant donné la quantité de donnéesdisponibles. C’est pourquoi nous considérons à présent le partage de paramètres par unclustering d’états, afin de pallier le problème du manque de données d’apprentissageainsi que celui du trop grand nombre de modèles à calculer.

3.3. Apprentissage des trigraphes et partage des paramètres HMM

3.3.1. Présentation générale

Dans cette section, nous présentons en détail notre systèmeparamétrant les HMMde caractères en fonction de leur contexte, schématisé sur la figure 5. Nous détaillonsles étapes de mise en place du partage des paramètres entre trigraphes précédant leprocessus final d’apprentissage.

Le premier apprentissage est celui des monographes du lexique d’apprentissage.Les monographes sont initialisés avec une seule distribution Gaussienne associée àchaque état, puis plusieurs ré-estimations sont effectuées avec l’algorithme Baum-Welch. Les trigraphes sont alors eux-mêmes initialisés en copiant les modèles apprisdes monographes : pour un monographe donné, tous les trigraphes de la base d’appren-


duplication :modèles detrigraphes

ré-estimationdes paramètres(Baum-Welch)

clusteringsur les

positions d’état

augmentationdu nombre deGaussiennes

monographes appris(1 distribution Gaussiennepar état)

trigraphes finaux avecétats partagés (N distributions gaussiennespar état)

nb mixtures < N

nb mixtures = N



Figure 5. Présentation générale du système à base de HMM de caractèresen contexte

tissage centrés sur ce caractère sont listés, et le HMM du monographe est copié pourcorrespondre au modèle initial de chacun des trigraphes. Ensuite, une première ré-estimation (avec 2 itérations) Baum-Welch detousles trigraphes est effectuée. Durantcette étape, nous avons choisi de partager les matrices de transition entre trigraphesavec le même caractère central. Nous avons en effet observé qu’une fois la topologied’un modèle choisi, des modifications sur les coefficients dela matrice de transitionont une très faible influence sur la phase de reconnaissance.Considérant cette infor-mation, nous avons alors imposé que les trigraphes ayant la même racine (tous les∗ − a + ∗, puis tous les∗ − b + ∗, etc.) partagent leur matrice de transition. Ainsi, lenombre de matrices à calculer se réduit au nombre initial de monographes.

La seconde étape de notre système est le clustering d’états appliqué aux trigraphes.Le principe du clustering état par état est que, pour les trigraphes associés à une lettrecentrale donnée, tous les états correspondant à une même position dans le modèleHMM sont soumis à un clustering. Cette étape est illustrée plus en détails sur la figure6. Soitc le caractère central considéré.Nc différents trigraphes existent dans la based’apprentissage, centrés surc. Donc pour chaque position d’étati des trigraphes∗ −c + ∗, 1 ≤ i ≤ S, Nc différents états devraient être calculés. L’utilisation de clustersd’états permet la réduction du nombre de modèles à calculer.Ainsi pour la positiond’état numéroi, ni ≤ Nc clusters sont sélectionnés pour représenter tous les étatsdela positioni, définissantni différents modèles d’étatssi,j , 1 ≤ j ≤ ni. Un état enpositioni prend alors sa valeur dans l’un dessi,j modèles. Nous rappelons que pourdes raisons de complexité, un modèle d’état est représenté par une seule distributionGaussienne durant la phase d’initialisation des trigraphes et des clusters d’états.

(Fink et al., 2007; Natarajanet al., 2006) ont montré l’efficacité de ce type degroupement. Nous différons de ce qu’ils proposent dans l’utilisation d’arbres de dé-cision pour calculer nos clusters. Nous expliquons en détail notre méthode de calcul


en section 3.3.2. Cette étape nous a permis de réduire le nombre de paramètres d’unfacteur 10.

clusteringd’étatspar arbres

Ø-b+i

e-b+a

...

Ø-b+r

s1_3 s2_3

e-b+a

s1_2 s2_2 s7_2 s8_2

...

e-b+i

s1_1 s2_1 s7_1 s8_1

...

s2_4

s8_3

Ø-b+i

sT-b+a

a-b+de-b+a

...

Figure 6. Illustration du clustering d’états pour les trigraphes centrés sur la lettreb

Finalement, étant donné que le clustering d’états entraîneune réduction importantedu nombre d’états différents, certains trigraphes se retrouvent partager exactement lesmêmes états, et donc être identiques. Nous groupons donc dans une dernière étapeles trigraphes identiques, ce qui permet de réduire encore le nombre de modèles, ledivisant par trois.

Une fois le calcul et la mise en place des clusters d’états terminés, le systèmeest prêt à finir d’apprendre les modèles des caractères en contexte. En utilisant l’al-gorithme Baum-Welch pour les étapes de ré-estimation des paramètres des HMM,nous augmentons de manière incrémentale le nombre de Gaussiennes dans chaquemélange, en utilisant la même procédure que celle décrite dans la section 2.4 pourles monographes. Ainsi, chaque trigraphe atteint une topologie identique à celle desmonographes du système générique, c’est-à-direS états émetteurs etNG distributionsGaussiennes par état. Cela nous permet de comparer directement les deux approches,contextuelle et non contextuelle.

3.3.2. Arbres de décision pour clustering d’états de trigraphes

Le clustering par arbres de décision est une alternative au clustering guidé par lesdonnées. Il se base sur une mesure de distance entre modèles utilisant la maximisa-tion de la vraisemblance, et permet une découpe de clusters contrôlée. Ce type declustering a d’abord été proposé pour la parole (Younget al., 1994) où il donne desrésultats au niveau de l’état de l’art avec un système moins complexe que d’autres sys-tèmes avec modèles en contexte. Le regroupement et la séparation de clusters d’étatssont conduits par un arbre binaire dont chaque nœud correspond à une question rhé-torique sur les contextes des modèles. Dans notre cas, les questions sont définies surles caractéristiques morphologiques des contextes gaucheet droit des caractères. Unarbre est construit pour chaque position d’état de tous les trigraphes correspondantà une même lettre centrale. Nous définissons ainsi 78lettres centrales* S états parcaractèrearbres différents.


Pour construire un arbre, tous les états correspondant à unemême position pourune lettre centrale donnée sont d’abord regroupés au nœud racine. Ensuite, la questionbinaire qui sépare le groupe en deux sous-groupes de vraisemblance maximale estchoisie, et la séparation est effectuée, créant deux nouveaux nœuds. Il en va ainsi de lascission de chaque nœud jusqu’à ce que l’augmentation de la vraisemblance descendesous un seuil, ou bien jusqu’à ce que plus aucune question ne soit disponible qui puissecréer deux sous-groupes avec un taux d’occupation d’états suffisant.

On peut formuler mathématiquement le clustering par arbresde décision. SoitPl’ensemble d’états présents dans le nœud courant.P est associé au sous-ensembleF

d’observations (vecteurs de caractéristiques){of}f∈F . Par définition, tous les étatsprésents dansP sont les membres d’un même cluster, ils partagent donc les mêmesmoyenneµ(P ) et varianceΣ(P ). Par suite, la vraisemblance deP générant l’en-semble des{of}f∈F s’écrit :

L({of}f∈F ;P ) =∑

f∈F

∑

s∈P

log(Pr(of ;µ(P ),Σ(P )))γs(of ) [2]

Pour plus de clarté, nous simplifierons désormaisL({of}f∈F ;P ) enL(P ). Dansl’équation [2],γs(of ) est la probabilitéa posteriorique le vecteur de caractéristiquesof soit généré par l’états ∈ P . En supposant que la densité de probabilité représentéepar (µ(P ), Σ(P )) est une Gaussienne et de matrice de covariance diagonale, on peutl’estimer à partir des échantillons{of}f∈F , etL(P ) peut être reformulé par (Younget al., 1994) :

L(P ) = −1

2(log[(2π)n|Σ(P )|] + n)Γ(P ) [3]

n est la dimension des vecteursof etΓ(P ) est le taux d’occupation d’états cumulé dunœud courant :

Γ(P ) =∑

f∈F

∑

s∈P

γs(of ). [4]

La séparation deP en deux sous-groupesPq+ et Pq−est alors faite par la ques-

tion q∗ qui maximise∆Lq, défini par :

∆Lq = L(P q+) + L(P q−) − L(P ) [5]

La scission se fait à condition queΓ(P q+) et Γ(P q−) soient au-dessus du tauxminimal d’occupationNP , et que∆Lq soit plus grand que le seuil minimal de crois-sance de variance∆LR. Le choix des paramètresNP et ∆LR est effectué sur unebase de validation (voir section 4.2.3).


La minimisation de l’équation [5] peut être reformulée (Zenet al., 2003) :

q∗ = argminq

{1

2[Γ(P q+)log(|Σ(P q+)|) + Γ(P q−)log(|Σ(P q−)|)

−Γ(P )log(|Σ(P )|)] } [6]

Les questionsq définissant les arbres de décision pour la reconnaissance dela pa-role on été réalisées par des experts (Odell, 1992). A notre connaissance, personnen’utilise de tels arbres pour l’écrit. Nous avons donc proposé des questions en rassem-blant des caractères semblables dans différents contextes. L’ensemble des questionsque nous avons créées contient des questions générales, pour permettre des clustersde grande taille, mais aussi des questions précises, au cas où des clusters plus pe-tits doivent être créés, et des questions intermédiaires. Les questions sont uniquementfonctions des contextes (gauche et droit). Par exemple :

– (question générale) le contexte droit est-il une lettre majuscule ? minuscule ?Contient-il un ascendant ?

– (question intermédiaire) le contexte gauche contient-ilune boucle ("o", "b", "d",etc.) ? Une barre verticale ("t", "p", etc.) ?

– (question précise) est-ce que le lien avec la lettre suivante (précédente) se situesur la ligne de base basse ("a", "c", etc.) ? Sur la ligne de base haute ("v", "w", etc.) ?

Un exemple d’arbre de décision est donné en figure 7. Il représente l’arbre calculépour la position d’état numéro deux des trigraphes centrés sur la lettreb.

3.3.3. Reconnaissance de mots avec modèles de caractères en contexte

Au-delà de l’apport original des arbres binaires pour le calcul des clusters, l’utili-sation d’arbres de décision apporte une fonctionnalité supplémentaire très utile lors dudécodage : elle permet de sélectionner les clusters qui serviront à modéliser les étatsdes trigraphes non vus lors de l’apprentissage. En effet, nous utilisons pour nos testsdes lexiques prédéterminés. Par exemple, pour la base Rimes2009, deux lexiques ontété donnés pour le test, chacun contenant des mots non existants dans le lexique d’ap-prentissage. Ainsi, plusieurs nouveaux mots, et donc plusieurs nouveaux trigraphesapparaissent, qui n’ont pas été appris. Le clustering par arbres permet de les modéli-ser car il peut adapter les modèles appris à n’importe quel vocabulaire (basé sur lesmêmes monographes de départ). Si nous avions calculé nos clusters par une distanceentre les données (Kullback-Liebler) par exemple (data-driven clustering), cela n’au-rait pas été possible. En effet, ne disposant pas de données étiquetées pour apprendreles nouveaux trigraphes, un calcul de distance aux clustersles plus proches n’est pasenvisageable.

La modélisation d’un trigraphe inconnu se fait de la manièresuivante : chaqueétat du trigraphe est positionné à la racine de l’arbre correspondant au même numérod’état et à la même lettre centrale. Ensuite, chaque état parcourt son arbre, répondantaux questions sur les contextes du nouveau trigraphe, jusqu’à atteindre un nœud où


Q0 : le contexte gauche est-il en minuscule ?

Q1 : le lien avec le contexte gauche est-il sur la ligne de base basse?

Q2 : le contexte gauche contient-il un point?

Q4 : le contextedroit contient-il un point?

Q3 : le contexte droitest-il en forme de "u"?

oui

oui

oui

oui

ouinon

non

non

non

non

Ø-b+isT-b+asB-b+l

o-b+oe-b+ae-b+im-b+l

i-b+ai-b+li-b+i

o-b+ao-b+bo-b+i

Ø-b+rA-b+n

*-b+*état n° 2

s2_4s2_1

s2_3s2_2

s2_6s2_5

Figure 7. Exemple d’arbre de décision pour le clustering d’états : l’ordre des ques-tions et les clusters sont associés à un état donné (ici l’état numéro 2) de tous lestrigraphes− ∗ b + ∗

est positionné un cluster. Le modèle d’état représentant lecluster est alors le modèleassigné au numéro d’état considéré. Cette procédure est illustrée sur la figure 8 pourl’assignation d’un modèle à l’état numéro2 du trigraphe inconnum − b + e. L’arbrede décision pour cette position d’état a été calculé lors de la phase d’apprentissageet est représenté sur la figure 7. Plaçons l’état numéro2 dem − b + e, non attribué,au nœud racine de l’arbre. La première question posée est :Le contexte gauche est-ilen minuscule ?Etant donné quem est une minuscule, la réponse est oui, donc l’étatdescend vers le nœud correspondant à la réponseoui, où une nouvelle question estposée :Le lien avec le contexte gauche est-il sur la ligne de base basse ?Après avoirrépondu à cette question, le processus est recommencé jusqu’à ce que l’état atteigneun cluster. Dans notre cas, les réponses successives mènentau clusters2_1, qui estdonc le modèle choisi pour l’état numéro2 de notre trigraphe inconnu.

La capacité des arbres de traiter des trigraphes non vus a ététrès utile pour nosexpériences sur la base Rimes. Les lexiques d’apprentissage et de test étant différents,plusieurs centaines de nouveaux trigraphes devaient être modélisés.


Q0 : le contexte gauche est-il en minuscule ?

Q1 : le lien avec le contexte gauche est-il sur la ligne de base basse?

Q2 : le contexte gauche contient-il un point?

Q4

Q3

oui

oui

non

m-b+e

m-b+eétat n° 2

s2_4s2_1

s2_3s2_2

s2_6s2_5

Figure 8. Sélection de cluster pour l’état 2 du trigraphe de testm− b + e non appris(absent du lexique d’apprentissage mais présent dans celuidu test)

4. Expériences

4.1. La base de données Rimes

La base de données Rimes a été rendue disponible en 2006 (Augustinet al., 2006).Des exemples sont donnés sur la figure 1. Elle rassemble plus de 12 500 documentsmanuscrits écrits par environ 1 300 volontaires. Elle a été créée pour répondre aubesoin récurrent de bases complètes d’images propres et de taille suffisante. Peu decontraintes ont été imposées aux scripteurs (papier blanc et thème principal) : les do-cuments sont donc très variables, ce qui rend la base réaliste. A partir des documentscollectés, il est possible d’évaluer des systèmes de reconnaissance de logo, d’analysede structure de texte, et de reconnaissance de mot, caractère, ligne, ou paragraphe.Notre travail se concentre pour l’instant sur la reconnaissance de mots isolés.

Des campagnes d’évaluation ont eu lieu depuis 2007, ce qui nous permet de nouscomparer à l’état de l’art. Nous utilisons dans cet article les données et la procédure dela campagne Rimes-ICDAR 2009 (Grosickiet al., 2009). L’ensemble d’apprentissageest composé de 44 196 images de mots isolés pour un lexique de 4500 mots différents.Un ensemble de validation de 7 542 mots issus d’un lexique de taille 1 636 est donné.L’ensemble de test est quant à lui composé de 7 464 images de mots isolés pour un


lexique de 1 612 mots. Plus de 300 mots du lexique de validation n’existent pas dansle lexique d’apprentissage, et plus de 300 autres sont ajoutés par le lexique de test parrapport à la concaténation des deux lexiques précédents. Des nouveaux mots signifientsouvent des nouveaux trigraphes, ce qui nous ramène aux raisons mentionnées dans lasection 3.3.3 sur le choix de l’utilisation d’arbres de décision pour la construction desclusters.

4.2. Mise en place du protocole expérimental

4.2.1. Extraction des caractéristiques

Nous avons fait varier la largeurw des fenêtres glissantes, l’espaceδ entre deuxfenêtres consécutives, et le nombre de cellulesncells utilisées pour l’extraction descaractéristiques afin de trouver les meilleurs paramètres pour nos expériences. Pourcela, nous avons utilisé un système générique où les caractères sont non seulement in-dépendants du contexte mais aussi modélisés sans prendre encompte leur casse ou leuraccentuation. Ainsi, "a", "A" et "à" ont le même modèle. Cecinous permet de fairedes apprentissages et décodages rapides. Les modèles sont appris sur la base d’ap-prentissage de Rimes et évalués sur la base de validation et son lexique. Pour chaqueensemble de caractéristiques, nous avons fait varier le nombre d’états par HMM decaractère entre 5 et 15 afin d’évaluer les paramètres optimaux d’apprentissage. Le ta-bleau 1 donne les taux de reconnaissance (calculés sans prendre en compte la casseou les accents) des 4 meilleurs ensembles de caractéristiques testés, chacun avec sonnombre optimal d’états par caractère, pour un nombre de gaussiennes variant de 10 à40.

nb. de Gaussiennes par état 10 15 20 30 40paramètres d’extractionw=8 δ=4 ncells=20nbetats=8 61, 61 65, 86 68, 42 69, 53 71, 82

w=10δ=5 ncells=20nbetats=8 59,20 63,67 65,38 66,0 67,89w=10δ=6 ncells=20nbetats=6 53,92 58,51 61,08 61,58 64,76w=14δ=7 ncells=20nbetats=6 50,53 57,11 59,15 60,08 62,70

Tableau 1.Comparaison de différents paramètres pour l’extraction des caractéris-tiques, sur un système générique appris sur la base d’apprentissage de Rimes et testésur la base de validation

D’après les résultats obtenus, nous choisissons les paramètres w = 8 pixels,δ = w/2 = 4 pixels etncells = 20 cellules, donnant 28 caractéristiques différentes.Nous nommons par la suite cet ensemble de caractéristiquesw8d4c20, pour lequelle nombre optimal d’états par caractère estS = 8. Enfin, nous choisissons pour lasuite d’établir le nombreNG de distributions Gaussiennes par état àNG = 20, carcela correspond au meilleur compromis entre performance dureconnaisseur et tempsde calcul : un décodage avec 40 gaussiennes nécessite 50 % de temps en plus qu’undécodage avec 20 gaussiennes (600 ms au lieu de 400 ms par mot)et un décodage


avec 30 gaussiennes dans chaque mélange apporte peu d’améliorations par rapport à20 gaussiennes.

4.2.2. Caractéristiques dynamiques

En utilisant le même système générique et indépendant de la casse, ainsi que lesparamètres d’extraction de caractéristiques et la topologie des modèles précédemmentchoisis, nous avons évalué l’influence d’une régression surles caractéristiques surles performances du reconnaisseur. Pour un même nombre d’états et de distributionsGaussiennes par état (respectivement 8 et 20), le taux de reconnaissance passe de 68,42à 72,33 % sur la base de validation de Rimes, ce qui représenteun gain relatif de 5,7%. Afin d’avoir des résultats plus complets, nous avons aussiévalué notre systèmeavec l’ajout d’une régression du second ordre sur les caractéristiques en plus de larégression du 1er ordre déjà effectuée. La régression du second ordre se calcule dela même manière que la première, en remplaçantof par ∆of dans l’équation [1].Une amélioration de 3 % en absolu est observée, mais celle-ciétant moindre que celleapportée par une régression du premier ordre, elle n’est pasutilisée.

A la suite de ces expériences, nous choisissons donc de conserver une régressiondu premier ordre sur notre ensemble de caractéristiques, cequi amène les vecteurs decaractéristiques à être de dimension2 ∗ 28 = 56.

4.2.3. Paramètres des arbres de décision

Nous avons présenté en section 3.3.2 la méthode de scission d’un nœud d’un arbrepar la questionq∗ maximisant∆L(q). Pour le calcul des clusters, deux paramètresrestent à établir,∆LR etNP :

– ∆LR est la valeur minimale que peut prendre∆L(q∗). Si, quelle que soit laquestionq, ∆L(q) est inférieur à∆LR, alors le nœud n’est pas scindé et devient uncluster.

– NP est le taux d’occupation d’états minimal du nœud contenant l’ensembled’étatsP partageant leurs paramètres. Ce seuil permet d’avoir des clusters de taillesuffisante et donc des états correctement estimés. Mathématiquement, pour un étatj ∈ P , Nj est la somme sur toutes les observations de la probabilité d’être dans l’étatj, etNP est la somme de tous lesNj pourj ∈ P .

Nous avons fixé ces paramètres sur la base de validation, et répété la procédureinitialisation - duplication - clustering par position d’état - apprentissage et augmenta-tion du nombre de distributions Gaussiennes (jusqu’àNG = 10 pour plus de rapiditédans les calculs) comme décrit dans la section 3.3 pour plusieurs couples (∆LR, NP ).On vérifie que plus∆LR ouNP est élevé, moins le nombre total de clusters est grand,c’est-à-dire moins il y a d’états différents, et donc de calculs. La figure 9 montre l’in-fluence du nombre d’états (fixé par le couple (∆LR, NP )) sur le taux de reconnais-sance du système avec modèles en contexte sur la base de validation. Chaque pointreprésente un couple (∆LR, NP ) donné. On constate que plus le nombre de clustersd’états est faible, meilleur est le système.


62

64

66

68

70

72

74

76

78

0 2000 4000 6000 8000 10000 12000 14000 16000

taux

de

reco

nnai

ssan

ce

nombre de clusters finaux

clustering faible

parametres choisis

Figure 9. Influence du nombre final d’états (clusters) différents sur le taux de recon-naissance (base de validation ; 8 états/trigraphe ; 10 distributions Gaussiennes/état)

Comme indiqué sur la figure 9, nous avons choisi la paire (∆LR = 450,NP = 450) pour notre système final. Ces paramètres représentent le meilleur équi-libre entre le taux de reconnaissance (76, 13 % pour10 Gaussiennes sur la base devalidation), le temps de calcul des clusters, et celui pour le décodage. Graphiquement,il est le point le plus en haut à gauche de la figure 9. Le systèmechoisi définit un totalde 1 924 états différents. Au vu du faible nombre d’états différents par rapport aux tri-graphes présents dans la base d’apprentissage, certains trigraphes se trouvent partagerexactement les mêmes états. Le nombre de trigraphes différents diminue donc aussi.Pour notre système, ce nombre passe de 4 784 à 2 130 sur la base d’apprentissage.

4.3. Résultats

Une fois le protocole expérimental posé, nous pouvons évaluer les deux systèmesprésentés dans cet article sur la base de test de Rimes-ICDAR2009 (Grosickietal., 2009). Deux expériences sont menées pour des dictionnaires de test de différentetaille. Une première expérience utilise un dictionnaire contenant 5 334 mots différents.Une autre utilise le dictionnaire restreint contenant uniquement les mots du test, soit1 612 mots. Les modèles sont appris en distinguant la casse et les accents. Le tauxde reconnaissance est évalué sans prendre en compte la casse, mais en respectant lesaccents, conformément au protocole de la compétition Rimes-ICDAR 2009.


Pour rappel, le premier système (CI) modélise les caractères indépendamment deleur contexte. Décrit dans la section 2.4, il présente une topologie de 8 états par ca-ractère et 20 distributions Gaussiennes par état. Le secondsystème (CD) est celuidécrit dans la section 3, modélisant les caractères en fonction de leur contexte : lestrigraphes. Nous avons compté297 nouveaux trigraphes présents dans la base de testet non dans les bases d’apprentissage ou de validation. Les arbres de décision nous ontdonc permis de leur allouer des modèles. Les paramètres du système CD sont fixés surla base d’apprentissage (calcul et répartition des clusters). Pour l’apprentissage finaldes Gaussiennes (après l’étape de partage des paramètres etavant l’incrémentation dunombre de Gaussiennes dans chaque mélange), nous avons testé deux méthodes, l’uneutilisant simplement les données de l’ensemble d’apprentissage, l’autre utilisant cesdonnées plus celles de l’ensemble de validation.

Les résultats sont donnés sur le tableau 2. Pour chaque système, nous montrons letaux de reconnaissance obtenu sur chacun des lexiques proposés pour le test avec unintervalle de confiance binomial.

Ensemble d’apprentissage Lexique de test Lexique completSystème (1612 mots) (5334 mots)CI train (44197 images) 73, 04 %±0, 01 66, 0 %±0, 01CI train+valid (51739 images) 75, 52 %±0, 009 68, 57 %±0, 01CD train (44197 images) 79, 34 %±0, 009 74, 33 %±0, 01CD train+valid (51739 images) 80, 35 %±0, 009 75, 53 %±0, 009

Tableau 2.Comparaison des systèmes présentés, modélisant les caractères en fonc-tion de leur contexte (CD) ou non (CI). Résultats sur la base de test de Rimes 2009contenant 7 464 images

Deux observations majeures peuvent être lues sur le tableau2 :

– d’une part, l’augmentation du nombre de données pour l’apprentissage permetune amélioration des performance (plus de 2 % pour le systèmeCI, et de 1 % pour lesystème CD). Cela nous motive à poursuivre des expériences sur l’ajout de donnéespour obtenir une meilleure modélisation.

– d’autre part, on remarque que la modélisation des caractères en fonction de leurcontexte améliore considérablement les performances, quel que soit le lexique uti-lisé lors du décodage. Ainsi, pour un système appris sur le plus de données possible,l’amélioration est de 4,8 % pour le petit dictionnaire, et deprès de 7 % pour le plusgrand. Ainsi, même si les systèmes dits ’CD’ ont plus de paramètres à calculer (1 924états, au lieu de 8 (états pas caractère) * 78 (monographes) =624 états), ils obtiennentde meilleurs résultats. Ceci est dû à la plus grande précision dans la modélisation descaractères, mais aussi à la gestion de la taille des clustersd’états, correctement para-métrée grâce à une étape de validation (cf. figure 9).


4.4. Comparaison avec l’état de l’art

Le tableau 3 montre la performance de notre système par rapport aux systèmes àbase de HMM uniquement, présents dans la compétition ICDAR.

taux de reconnaissancesystème Lexique de test Lexique complet

système présenté 80, 35 % 75, 53 %IRISA 79,6 % 74,7 %LITIS 74,1 % 66,7 %

Tableau 3.Comparaison avec l’état de l’art des systèmes à base de HMM uniquementsur la base de test Rimes 2009

Le système proposé par l’Irisa (Guichardet al., 2010) est basé sur des HMM àdensités continues. Le pré-traitement des images est standard, et les caractéristiques,décrites dans (Bazziet al., 1999), sont extraites par des fenêtres glissantes et dépendentdes lignes de base. Le nombre d’états par modèle de caractèrevarie.

Le Litis quant à lui propose un système à base de HMM multiflux (Kessentinietal., 2008). Deux ensembles de caractéristiques sont extraits (l’un basé sur les contours,l’autre sur les densités de pixels) de deux fenêtres glissantes distinctes. Chaque en-semble permet la modélisation d’un système HMM, correspondant à un flux.

Nous pouvons voir sur le tableau 3 que le résultat obtenu par notre système dépasseles performances des autres systèmes de la compétition basés uniquement sur desHMM. Ce résultat très positif nous permet de démontrer la capacité de la modélisationde caractères en contextes à être utilisée pour la reconnaissante d’écriture manuscritehors-ligne. Avec un temps de décodage rapide, les performances obtenues dépassentcelles de l’état de l’art des systèmes HMM.

Il nous faut cependant compléter cette comparaison avec d’autres systèmes, pré-sents lors de la compétition ICDAR 2009. Le système gagnant,à base de réseauxde neurones récurrents (RNN) (Graveset al., 2007; Graveset al., 2009), et présentépar TUM (Technische Universität München), donne un taux de reconnaissance remar-quable, de 93,2 %. La principale différence entre les RNNs etles HMM est que l’unutilise un apprentissage discriminatif et l’autre génératif. Cependant, si les résultatsdes RNNs sont à leur avantage pour la reconnaissance de mots isolés, on peut se poserla question de la généralisation à la lecture de lignes ou de textes complets. Aussi,l’avantage des HMM est leur adaptation à n’importe quel vocabulaire de test, ce quin’est pas valable pour les RNNs.

Deux autres systèmes présentent aussi de bons résultats : lesystème présenté parl’UPV (Toselli, 2004), et celui présenté par Siemens (Caesar et al., 1993; Kaltenmeieret al., 1993; Schambach, 2003), donnant respectivement 86,1 % et 81,3 % de taux dereconnaissance. Ces deux systèmes, bien qu’utilisant en partie des HMM, ne sont pascités ici car ils sont issus de combinaisons de plusieurs systèmes, et les performances


des systèmes seuls n’étant pas fournies, leurs résultats nesont pas comparables à ceuxde notre reconnaisseur à base de modèles en contextes, présenté seul. La combinaisonde systèmes est pourtant une solution intelligente à l’amélioration d’un système glo-bal, c’est pourquoi nous l’avons aussi envisagé (Kermorvant et al., 2010), mais celane rentre pas dans le cadre de cet article.

5. Conclusion

Nous avons présenté un système basé sur des modèles HMM dépendant de leurcontexte ainsi qu’un clustering d’états pour la reconnaissance hors-ligne de mots ma-nuscrits. Les HMM ne modélisent plus des caractères isolés mais des trigraphes, cequi augmente considérablement le nombre de modèles à calculer. Ce nombre est réduitpar un clustering d’états à l’aide d’arbres de décision. Ce type de clustering permet enoutre de gérer des lexiques de test contenant des mots et des trigraphes non vus àl’entraînement, et de les associer à un modèle connu.

Comparé à un système HMM générique, la performance est améliorée de 7 % enabsolu sur un lexique large de décodage, ce qui correspond à réduction relative deplus de 20 % du taux d’erreur. De plus, notre système en contexte donne de meilleursrésultats que l’état de l’art des systèmes à base de HMM publié sur la base Rimes2009.

Il reste encore des pistes à explorer dans le clustering par arbres de décision pour lareconnaissance d’écriture manuscrite hors-ligne. Par exemple, nous considérons l’au-tomatisation de la sélection des seuils∆LR etNP , et la présélection des monographesà contextualiser grâce à une analyse de la variance de vraisemblance de chaque mo-dèle. Aussi, d’autres questions peuvent être ajoutées à l’ensemble proposé pour affinerles critères de scission des nœuds des arbres. Ces méthodes pourront être ensuite ap-pliquées à d’autres bases de données de manière automatique.

Nous pourrons aussi considérer un travail supplémentaire en amont, sur l’extrac-tion de caractéristiques et l’affinage de la topologie des modèles. L’ajout de caractéris-tiques de corrélation inter-fenêtres est considéré pour affiner l’aspect dynamique desvecteurs d’observations.

Enfin, la tâche de reconnaissance de mots peut être élargie à la reconnaissance delignes, phrases, ou paragraphes. Pour cela, des outils telsque les modèles de langagespeuvent être utilisés, qui améliorent encore les performances du système proposé. Ceciconstitue la prochaine étape de notre recherche.

6. Bibliographie

Augustin E., Carre M., Grosicki E., Brodin J.-M., Geoffrois E., Preteux F., « RIMES evaluationcampaign for handwritten mail processing »,Proceedings of the Tenth International Work-shop on Frontiers in Handwriting Recognition - IWFHR06, p. 231-235, October, 2006.


Bazzi I., Schwartz R., Makhoul J., « An Omnifont Open-Vocabulary OCR System for Englishand Arabic »,IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 21,n˚ 6, p. 495-504, 1999.

Brakensiek A., Rigoll G., « Handwritten Address Recognition Using Hidden Markov Models »,in A. Dengel, M. Junker, A. Weisbecker (eds),Reading and Learning, vol. 2956 ofLectureNotes in Computer Science, Springer Berlin Heidelberg, p. 103-122, 2004.

Brakensiek A., Rottland J., Rigoll G., « Handwritten Address Recognitionwith Open Voca-bulary Using Character N-Grams »,Proceedings of the Eighth International Workshop onFrontiers in Handwriting Recognition - IWFHR02, p. 357, 2002.

Caesar T., Gloger J., Mandler E., « Preprocessing and feature extraction for a handwritingrecognition system »,Proceedings of the Second International Conference on DocumentAnalysis and Recognition - ICDAR93, p. 408-411, 1993.

Ding W., Suen C., Krzyzak A., « A new courtesy amount recognition module of a Check Rea-ding System »,Proceedings of the 19th International Conference on Pattern Recognition-ICPR08, p. 1-4, 2008.

El-Hajj R., Likforman-Sulem L., Mokbel C., « Arabic Handwriting Recognition Using BaselineDependant Features and Hidden Markov Modeling »,Proceedings of the Eighth Internatio-nal Conference on Document Analysis and Recognition - ICDAR05, p. 893-897, 2005.

El-Hajj R. M., Likforman-Sulem L., Mokbel C., « Combining Slanted-Frame Classifiers forImproved HMM-Based Arabic Handwriting Recognition »,IEEE Transactions on PatternAnalysis and Machine Intelligence, 2009.

El-Hajj R., Mokbel C., Likforman-Sulem L., « Recognition of Arabic handwritten words usingcontextual character models »,Document Recognition and Retrieval XV - SPIE, January,2008.

Fink G., Plotz T., « On the Use of Context-Dependent Modeling Units for HMM-Based OfflineHandwriting Recognition »,Proceedings of the Ninth International Conference on Docu-ment Analysis and Recognition - ICDAR07, vol. 2, p. 729-733, 2007.

Gorski N., Anisimov V., Augustin E., Baret O., Maximov S., « Industrial Bank Check Proces-sing : the A2iA CheckReader »,International Journal on Document Analysis and Recogni-tion - IJDAR, vol. 3, n˚ 4, p. 196-206, 2001.

Graves A., Fernàndez S., Schmidhuber J., « Multidimensional recurrent neural networks »,Proceedings of the International Conference on Artificial Neural Networks, 2007.

Graves A., Schmidhuber J., « Offline handwriting recognition with multidimensional recurrentneural networks »,Advances in Neural Information Processing Systems, 2009.

Grosicki E., Abed H. E., « ICDAR 2009 Handwriting Recognition Competition »,Proceedingsof the Eight International Conference on Document Analysis and Recognition - ICDAR09,p. 1398-1402, 2009.

Guichard L., Toselli A., Coasnon B., « Un nouveau système indépendant de rejet multi-seuilspour la reconnaissance de mots manuscrits »,Actes du 17ème Congrès Francophone deReconnaissance des Formes et d’Intelligence Artificielle (RFIA2010), 2010.

Huerta J. M., Chen S. J., Stern R. M., « The 1998 Carnegie Mellon University Sphinx-3 Spa-nish Broadcast News Transcription System »,Proceedings of the DARPA Broadcast NewsTranscription and Understanding Workshop, March, 1999.


Kaltenmeier A., Caesar T., Gloger J., Mandler E., « Sophisticated topology of hidden Markovmodels for cursive script recognition »,Proceedings of the Second International Conferenceon Document Analysis and Recognition - ICDAR93, p. 139-142, 1993.

Kavallieratou E., Fakotakis N., Kokkinakis G. K., « An unconstrained handwriting recognitionsystem »,International Journal on Document Analysis and Recognition - IJDAR02, vol. 4,n˚ 4, p. 226-242, 2002.

Kermorvant C., Menasri F., Bianne A.-L., Al-Hajj R., Mokbel C.,Likforman-Sulem L., « TheA2iA-Telecom ParisTech-UOB System for the ICDAR 2009 Handwriting RecognitionCompetition »,Proceedings of the 12th International Workshop on Frontiers in Handwri-ting Recognition - IWFHR10, p. to appear, 2010.

Kessentini Y., Paquet T., Benhamadou A., « A Multi-Stream HMM-based Approach for Off-line Multi-Script Handwritten Word Recognition »,Proceedings of the Eleventh Internatio-nal Conference on Frontiers in Handwriting Recognition - ICFHR08, 2008.

Lee K.-F., « Context-dependent phonetic hidden Markov models for speaker-independent conti-nuous speech recognition »,Readings in speech recognition, vol. 1, p. 347-366, 1990.

Marti U., Bunke. H., « A full English sentence database for off-line handwriting recognition »,Proceedings of the 5th International Conference on Document Analysisand Recognition -ICDAR99, p. 705-708, 1999.

Natarajan P., Saleem S., Prasad R., MacRostie E., Subramanian K., «Multi-lingual Of-fline Handwriting Recognition Using Hidden Markov Models : A Script-Independent Ap-proach »,Summit on Arabic and Chinese Hanwriting - SACH06, 2006.

Nedel J. P., Singh R., Stern R. M., « Automatic subword unit refinement for spontaneous speechrecognition via phone splitting »,Sixth International Conference on Spoken Language Pro-cessing - ICSLP2000, vol. 4, p. 588-591, 2000.

Odell J. J., The Use of Decision Trees with Context Sensitive Phoneme Modelling, PhD thesis,Cambridge University Engineering Department, 1992.

Otsu N., « A Threshold Selection Method from Grey-Level Histograms »,IEEE Transactionson Systems, Man and Cybernetics, vol. 9, n˚ 1, p. 62-66, January, 1979.

Palacios R., Gupta A., Wang P., « Handwritten Bank Check Recognition OfCourtesyAmounts »,International Journal of Image and Graphics - IJIG, vol. 4, n˚ 2, p. 203-222,April, 2004.

Paquet T., Lecourtier Y., « Automatic reading of the literal amount of bank checks »,MachineVision and Applications - MVA, vol. 6, n˚ 2-3, p. 151-162, 1993.

Ploetz T., Fink G., « Markov models for offline handwriting recognition : asurvey »,Interna-tional Journal on Document Analysis and Recognition, vol. 12, p. 269-298, 2009.

Rodriguez J. A., Perronnin F., « Local gradient histogram featuresfor word spotting in uncons-trained handwritten documents »,Proceedings of the Eleventh International Conference onFrontiers in Handwriting Recognition - ICFHR08, August, 2008.

Schambach M.-P., « Model length adaptation of an HMM based cursiveword recognition sys-tem », Proceedings of the Seventh International Conference on Document Analysis andRecognition - ICDAR03, vol. 1, p. 109-113, 2003.

Schussler M., Niemann H., « A HMM-based System for Recognition of Handwritten AddressWords »,Proceedings of the Sixth International Workshop on Frontiers in Handwriting Re-cognition - IWFHR98, p. 505-514, 1998.


Sirat C., « Handwriting and the writing hand »,Writing Systems and Cognition, vol. 6, p. 375-461, 1994.

Suen C., Lam L., Guillevic D., Strathy N., Cheriet M., Said J., Fan R., «Bank Check ProcessingSystem »,International Journal of Imaging Systems and Technology - IJIST, vol. 7, n˚ 4,p. 392-403, 1996.

Toselli A. H., Reconocimiento de Texto Manuscrito Continuo, PhD thesis, Departamento deSistemas Informaticos y Computacion, Universidad Politecnica de Valencia, 2004.

Vinciarelli A., Bengio S., « offline recognition of unconstrained handwritten texts using HMMsand statistical language models »,IEEE Transactions on Pattern Analysis and Machine In-telligence, vol. 26, n˚ 6, p. 709-720, June, 2004.

Vinciarelli A., Luettin J., « A new normalization technique for cursive handwritten words »,Pattern Recognition Letters, vol. 22, n˚ 9, p. 1043-1050, 2001.

Young S., al.,The HTK Book V3.4, Cambridge University Press, Cambridge, UK, 2006.

Young S. J., Odell J. J., Woodland P. C., « Tree-based state tying forhigh accuracy acous-tic modelling »,Proceedings of the workshop on Human Language Technology - HLT94,p. 307-312, 1994.

Zen H., Tokuda K., Kitamura T., « Decision tree based simultaneous clustering of phoneticcontexts, dimensions, and state positions for acoustic modeling »,Proceedings Eurospeech,p. 3189-3192, 2003.

Modélisation de HMM en contexte avec des arbres de ... Modélisation de HMM en contexte avec des...

Documents

Transcript of Modélisation de HMM en contexte avec des arbres de ... Modélisation de HMM en contexte avec des...