Combinaison de classifieurs flous pour la reconnaissance...

REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE

MINISTERE DE L’ENSEIGNEMENT SUPERIEUR ET DE LA RECH ERCHE SCIENTIFIQUE

UNIVERSITE 20 AOUT 1955 − SKIKDA

Faculté des Sciences de l’Ingénieur

Département d’Informatique

Ecole Doctorale de l’Est – Pôle ANNABA

MEMOIRE

Présenté et soutenu publiquement le 09 décembre 2010

pour l’obtention du diplôme de MAGISTER en INFORMAT IQUE

Ecole Doctorale en Informatique de l’Est – EDI Est

Option : INTELLIGENCE ARTIFICIELLE

Combinaison de classifieurs flous pour la reconnaissance de l’écriture arabe

manuscrite

Par

Hanene BOUKERMA

Composition du jury

Président Dr D. MESLATI MC A, Université Badji Mokhtar − Annaba

Rapporteur Dr N. FARAH MC A, Université Badji Mokhtar − Annaba

Examinateurs Dr L. SOUICI-MESLATI MC A, Université Badji Mokhtar − Annaba

Dr S. MAAZOUZI MC A, Université 20 Août 1955 − Skikda

Je dédie ce travail

À mes très chers parents pour leur amour, leur confiance, leur aide et pour cette heureuse vie qui ont su parfaitement nous assurer. Qu’ils trouvent ici mon profond amour et ma profonde estime.

Remerciements

J’adresse mes profonds remerciements à tous ceux qui ont contribué de près ou de loin à l’aboutissement de cette thèse.

Je tiens tout d’abord à remercier Dr Nadir Farah, qui m’a offert un encadrement idéal et qui a parfaitement su m’initier au monde de la recherche. Qu’il soit assurer de ma profonde reconnaissance et mon profond respect pour son aide, sa confiance, d’avoir été toujours à mon écoute dans les moments de doute et aussi pour ses qualités scientifiques et humaines.

Je remercie Dr Djamel Meslati, Dr Labiba Souici-Meslati et Dr Smain Maazouzi d’avoir bien voulu accepter d’être membres du Jury de cette thèse et de l’intérêt qu’ils portent pour ce travail. J’aimerais remercier tout particulièrement Dr Labiba Souici-Meslati pour son aide, sa gentillesse et ses qualités scientifiques et humaines.

Ma reconnaissance s’adresse aussi à Mme Zineb Welha et Mme Beghidja Chahinez pour avoir corriger mes textes en langue anglaise. Je voudrais remercier également Mlle Boukerma Dalila, Mme Saker Saliha et Saadi Yacine pour leur aide précieuse et soutient.

J’aimerais remercier tout spécialement tout ceux qui me sont chers, particulièrement mes chers parents et mes chers frères et sœurs, ainsi que toute ma famille pour leur amour, soutient et précieuse aide. Merci également à toutes mes amies pour leur amour, soutient et encouragement.

I

Table des matières

Résumé XI

1 Introduction 1

2 Processus de reconnaissance de l’écriture manuscrite 4

2.1 Prétraitements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2.1.1 Binarisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2.1.2 Suppression du bruit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.1.3 Lissage du contour. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.1.4 Squelettisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2.1.5 Estimation de la ligne de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.1.6 Normalisations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.1.6.1 Correction de l’inclinaison des lignes . . . . . . . . . . . . . . . . . . . . . . 10 2.1.6.2 Correction de l’inclinaison des lettres . . . . . . . . . . . . . . . . . . . . . . 10 2.1.6.3 Normalisation des caractères. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.2 Segmentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.2.1 Segmentation explicite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.2.2 Segmentation implicite. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.3 Extraction de primitives. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.3.1 Technique de Zoning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 2.3.2 Moments invariants. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.3.3 Descripteurs de Fourier. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.3.4 Transformée de Hough. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.3.5 Profils et contours. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 2.3.6 Primitives structurelles. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.3.7 Méthodes de transformation linéaire de l’espace de primitives. . . . . . . . . . 22 2.4 Reconnaissance. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.4.1 K Plus Proches Voisins. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.4.2 Réseaux de neurones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 2.4.2.1 Perceptrons Multi-Couches. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.4.2.2 Réseau à base de fonction radicale. . . . . . . . . . . . . . . . . . . . . . . . . 26 2.4.3 Machines à Vecteurs de Support . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.4.4 Modèles de Markov Cachés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 2.4.4.1 HMM 1D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 2.4.4.2 HMM Planaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 2.4.5 Reconnaissance floue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 2.4.5.1 Perceptron Multi-Couches flou . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 2.4.5.1 K Plus Proches Voisins flou . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.4.6 Combinaison de classifieurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

Table des matières

II

2.5 Post-Traitement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 2.5.1 Méthodes basées sur des modèles de langages de N-grammes . . . . . . . . . . 40 2.5.2 Méthodes basée sur des lexiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 2.6 Mesures de performances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

3 Reconnaissance de l’écriture arabe manuscrite 43

3.1 Présentation et problématique de l’écriture arabe . . . . . . . . . . . . . . . . . . . . . . . . . . 43 3.2 Principales bases de données existantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 3.2.1 Al-Isra database, N. Kharma et al, 1999 . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 3.2.2 CENPARMI ‘1’ database, Y. Al-Ohali et al, 2000 . . . . . . . . . . . . . . . . . . . 47 3.2.3 AHDB database, S. Al-Ma’adeed et al, 2002 . . . . . . . . . . . . . . . . . . . . . . . 49 3.2.4 IFN/ENIT database, M. Pechwitz et al, 2002 . . . . . . . . . . . . . . . . . . . . . . . 49 3.2.5 CEDARABIC database, S. N. Srihari et al, 2005 . . . . . . . . . . . . . . . . . . . . 50 3.2.6 IFN/Farsi database, S. Mozaffari et al, 2008 . . . . . . . . . . . . . . . . . . . . . . . . 51 3.2.7 CENPARMI ‘2’ database, H. Alamri et al, 2008 . . . . . . . . . . . . . . . . . . . . 52 3.3 Surveys existants . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 3.3.1 B. Al-Badr et S. A. Mahmoud, 1995 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 3.3.2 A. Amin, 1998 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 3.3.3 M. S. Khorsheed, 2002 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 3.3.4 N. Essoukri ben Amara et F. Bouslama, 2003 . . . . . . . . . . . . . . . . . . . . . . . 53 3.3.5 L. M. Lorigo et V. Govindaraju, 2006 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 3.3.6 A. Belaïd et Ch. Choisy, 2006 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 3.4 Différentes approches et systèmes existants . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 3.4.1 Prétraitements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 3.4.1.1 Squelettisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 3.4.1.2 Normalisation des caractères . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 3.4.1.3 Correction de l’inclinaison des lignes . . . . . . . . . . . . . . . . . . . . . . 59 3.4.1.4 Estimation de la ligne de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 3.4.1.4.1 Méthodes basées sur la projection horizontale . . . . . . . 60 3.4.1.4.2 Méthode basée sur le squelette . . . . . . . . . . . . . . . . . . . 62 3.4.1.4.3 Méthode basée sur le contour . . . . . . . . . . . . . . . . . . . . 64 3.4.1.4.4 Méthode basée sur l’ACP . . . . . . . . . . . . . . . . . . . .. . . . 64 3.4.1.4.5 Méthode basée sur la technique de Template Matching 64 3.4.1.4.6 Méthode hybride . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 3.4.1.5 Estimation de la bande de base . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 3.4.2 Segmentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 3.4.2.1 Segmentation en caractères . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 3.4.2.2 Segmentation en graphèmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 3.4.2.3 Segmentation en bandes verticales . . . . . . . . . . . . . . . . . . . . . . . . 72 3.4.2.4 Segmentation en pseudo-mots . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 3.4.2.5 Segmentation en mots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 3.4.2.6 Segmentation en lignes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 3.4.3 Extraction de primitives et reconnaissance . . . . . . . . . . . . . . . . . . . . . . . . . 76 3.4.3.1 Caractères . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 3.4.3.2 Mots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 3.4.3.2.1 Modèles de Markov Cachés . . . . . . . . . . . . . . . . . . . . . . 78 3.4.3.2.2 Réseaux de neurones . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

Table des matières III

3.4.3.2.3 Divers . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 3.4.3.2.4 Combinaison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 3.4.3.3 Pseudo-mots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 3.4.4 Post-traitement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 3.5 Compétition ICDAR sur la reconnaissance de l’écriture arabe manuscrite . . . . . . 92 3.5.1 Compétition ICDAR 2005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 3.5.2 Compétition ICDAR 2007 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 3.5.3 Compétition ICDAR 2009 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 3.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

4 Contribution à la reconnaissance de l’écriture arabe manuscrite 97

4.1 Description générale du système proposé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 4.2 Prétraitements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 4.2.1 Elimination du bruit et lissage du contour . . . . . . . . . . . . . . . . . . . . . . . . . . 100 4.2.2 Détection des signes diacritiques (1er filtre) . . . . . . . . . . . . . . . . . . . . . . . . 101 4.2.3 Squelettisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 4.2.4 Traçage et correction des contours . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 4.2.4.1 Détection morphologique des contours . . . . . . . . . . . . . . . . . . . . . 104 4.2.4.2 Correction des contours . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 4.2.4.3 Contour inférieur et contours supérieur . . . . . . . . . . . . . . . . . . . . . 106 4.2.4.4 Minimums locaux du contour inférieur . . . . . . . . . . . . . . . . . . . . . 106 4.2.5 Détection de la ligne de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 4.2.5.1 Localisation des pseudo-mots . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 4.2.5.2 Estimation des bandes de base des pseudo-mots . . . . . . . . . . . . . . 108 4.2.5.3 Extraction de la ligne de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 4.2.5.4 Evaluation et discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 4.2.6 Correction de l’inclinaison des lignes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 4.3 Construction de la base d’images de pseudo-mots avec signes diacritiques . . . . . 113 4.3.1 Vocabulaire de pseudo-mots avec signes diacritiques . . . . . . . . . . . . . . . . . 113 4.3.2 Segmentation en pseudo-mots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 4.3.3 Construction de la base de pseudo-mots avec signes diacritiques : PAW-

IFN/ENIT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

4.4 Reconnaissance pseudo analytique floue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 4.4.1 Extraction des primitives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 4.4.2 Algorithme de clustering pour la création d’un système multi-classifieurs 127 4.4.3 Les k plus proches Perceptrons Multi-Couches flous . . . . . . . . . . . . . . . . . 128

5 Conclusions et Perspectives 130

Bibliographie 132

IV

Liste des figures

FIG. 2.1 – Exemples de masques de filtrage qui permettent de lisser des images. ‘P’ est le pixel courant. Les pixels notés ‘x’ ne sont pas pris en compte. Les pixels notés ‘=‘ sont tous égaux entre eux (méthode proposée dans [CHE 07a]).

6

FIG. 2.2 – (a) le voisinage du pixel P1 dans une fenêtre 3*3 ; (b) le calcul du nombre de transition 01 dans la séquence P2 :P9.

7

FIG. 2.3 – Résultat de la squelettisation de la lettre H par l’application de l’algorithme de ZHANG ET SUEN (figure extraite de [ZHA 84]). (a) et (b) application de la 1ere et la 2ème étape respectivement ; (c) squelette final.

8

FIG. 2.4 – Estimation de la ligne de base par la projection horizontale (ligne bleu). 9

FIG. 2.5 – Correction de l’inclinaison des lettres et des lignes. θ : l’angle d’inclinaison de la ligne, α : l’angle d’inclinaison de la lettre.

10

FIG. 2.6 – Correction de l’inclinaison des lettres par la méthode proposée dans [BOZ 89] (figure extraite de [BOZ 89]). (a) image originale ; (b) écartement des bandes horizontales suffisamment longues ; (c) les bandes horizontales restantes de petite largeur sont également enlevées ; (d) les bandes de l’image conservées pour l’évaluation de l’angle de l’inclinaison des lettres ; (e) image du mot corrigé.

12

FIG. 2.7 – Inclinaison moyenne de l’écriture évaluée sur le contour de l’image (figure extraite de [DIN 00]). (a) les trois directions privilégiées n1, n2 et n3 ; (b) l’angle d’inclinaison se déduit en parcourant le contour.

12

FIG. 2.8 – Illustration des différentes méthodes de division de la zone d’intérêt proposées dans [GRA 04].

17

FIG. 2.9 – Différentes stratégies de segmentation de la zone d’intérêt exposées par [TRI 98]. (a) segmentation horizontale, verticale, diagonale 45°, et diagonale 135° ; (b) zoning flou, P1 a une probabilité d’appartenance égale 0.25 aux quatre zones A, B, C et D. P2 appartient aux deux zones E et F avec une probabilité égale à 0.75 et 0.25 respectivement.

17

FIG. 2.10 – Segmentation de l’image en sous-régions pour l’amélioration du taux de reconnaissance avec un nombre limité de primitives, approche proposée par [PAR 98].

18

FIG. 2.11 − Primitives topologique (figure extraite de [KOE 06]). (a) histogrammes des projections horizontales et verticales ; (b) les 4 profils : haut, bas, droite et gauche.

21

FIG. 2.12 − Notion de voisinage de la méthode KPPV, exemple avec k=10 (figure extraite de [RUS 02].

23

FIG. 2.13 Neurone artificiel (figure extraite de [CHE 07a]). 24

FIG. 2.14 − Différentes topologies de réseau de neurones (figure extraite de [CHA]). (a) réseaux multicouches ; (b) à connexions locales ; (c) à connexions récurrentes ; (d) à connexions complètes.

25

Liste des figures

V

FIG. 2.15 − Perceptron Multi-Couches avec une seule couche cachée (figure extraite de [CHE 07a]).

26

FIG. 2.16 − Principe de base des SVM (figure extraite de [RUS 02]). (a) problème non

linéairement séparable, l’équation du plan séparateur est 122

21 ≤+ xx ; (b) projection des données

dans un espace tridimensionnel( )2122

21 2,, xxxxx .

27

FIG. 2.17 − Notion de marge maximale. (a) pour un ensemble de points linéairement séparables, il existe une infinité d’hyperplans séparateurs ; (b) l’hyperplan optimal (en rouge) avec la marge maximale, les échantillons entourés représentent les vecteurs supports.

28

FIG. 2.18 − Définition des paramètres d’un Modèle de Markov Caché (figure extraite de [AUG 01].

30

FIG. 2.19 − Exemple d’architecture d’un PHMM (figure extraite de [BEL 97]). 32

FIG. 2.20 − Le degrés d’appartenance et les ensembles flous. 33

FIG.2.21 − Les 3schémas de combinaison de classifieurs : architecture parallèle, architecture séquentielle et architecture hybride.

38

FIG. 2.22 − Exemple de mots similaires présentes dans la base de mots de noms de villes françaises (figure extraite de [KOE 03]).

41

FIG. 3.1 − Un mot arabe peut être composé de plusieurs composantes connexes (pseudo-mots ou PAWs). De droite à gauche, 1 seul PAW, 2 PAWs, 4 PAWs, et 3 PAWs par mot.

43

FIG. 3.2 − Exemple de lettres et mots arabes qui se différencient que par la présence, la position, ou le nombre de signes diacritiques.

45

FIG. 3.3 − Difficultés liées aux points diacritiques. (a) différents styles d’écriture des points diacritiques ; (b) problème d’association des diacritiques à leur lettre originale.

45

FIG. 3.4 − Les problèmes liés à d’extraction des pseudo-mots. (a) un mot arabe correctement écrit (2PAW) ; (b) liaison indésirable entre caractères et sous segmentation en PAWs (1 seul PAW) ; (c) coupure indésirable et sur-segmentation en PAWs (3 PAWs).

46

FIG. 3.5 − Exemple de chèque saoudien de la base CENPARMI ‘1’ (figure extraite de [ALO 03]).

48

FIG. 3.6 − Deux images et leurs annotation respectives dans la base IFN/ENIT (dans l’annotation de la séquence des caractères du mot : B : Begin (début), M : Middle (milieu), A : Alone (isolé), E :End (finale) et L : Ligature).

50

FIG. 3.7 − Image d’un nom de ville iranien et son annotation sur la base IFN/Farsi (image extraite de [MOZ 08]).

51

FIG. 3.8 – Modèle de McClelland et Rumelhart (figure extraite de [BEL 06]). 55

FIG. 3.9 – Les étapes de l’algorithme de squelettisation ‘CBSA’ développé pour les caractères arabes (figure extraite de [MAH 91].

57

FIG. 3.10 – Comparaison entre les algorithmes de squelettisation. (a) image bruitée de caractères arabes ; (b, c, d) les squelettes des caractères générés par les algorithmes de CBSA, SPTA, et

58

Liste des figures

VI

Pavlidis, respectivement (figure extraite de [MAH 91]).

FIG. 3.11 – Squelette normalisé en hauteur et en largeur, l’épaisseur est également normalisée par l’application d’un filtre gaussien (figure extraite de [PEC 03]).

59

FIG. 3.12 − Correction de l’inclinaison des lignes d’un document construit automatiquement par collection des images de mots de la base IFN/ENIT (figure extraite de [FAR 05b]).

60

FIG. 3.13 – Estimation de la ligne de base par la projection horizontale (figure extraite de [LOR 06]).

61

FIG. 3.14 – Extraction de la ligne de base par la combinaison de la méthode de projection et la transformée de Hough (figure extraite de [PEC 03]).

61

FIG. 3.15 – Problèmes liés à la méthode de projection horizontale : pics parasites dû à la succession des descendants avec des portions horizontales suffisamment longues. Dans [MEN 08a], la solution consiste à restreindre la zone de recherche du pic max par la localisation des boucles (figure extraite de [MEN 08b]).

61

FIG. 3.16 – Etapes de détection de la ligne de base (figure extraite de [PEC 02b]). (a) détection des boucles et extraction des points de boucles les plus bas ; (b) détection de chadda ; (c) détection d’un tracé courbe qui correspond à un descendant.

63

FIG. 3.17 – Méthode à base du squelette pour l’estimation de la ligne de base (figure extraite de [PEC 02b]).

63

FIG. 3.18 –Cas d’échec de la méthode à base du squelette proposée par Pechwitz et al (figure extraite de [PEC 02b]).

63

FIG. 3.19 – (a) Les cinq templates qui apparaissent souvent à proximité de la ligne de base. 4380 images de pseudo-mots farsis/arabes manuscrits ont été analysées pour l’extraction de ces templates; (b) les quatre autres templates extraits pour la correction de la ligne de base (figure extraite de [ZIA 08]).

65

FIG. 3.20 – Estimation de la ligne de base proposée par [ZIA 08]; (a) ligne de texte farsi; (b) les points supports de la ligne de base ; (c) la courbe de la ligne de base ; (d) la ligne de base estimée ; (e) correction de la ligne de base.

65

FIG. 3.21 – La ligne de base extraite par la méthode de Menasri et al (figure extraite de [MEN 08b]).

66

FIG. 3.22 − Segmentation en caractères sur du texte arabe imprimé. (a) image initiale ; (b) segmentation en caractères par la méthode de [BUS 97].

68

FIG. 3.23 − Problème de liaison indésirable entre caractères (figure extraite de [SAR 02]). (a) inter-pseudo-mots ; (b) inter-mot.

69

FIG. 3.24 − Segmentation en caractères proposée par Lorigo et al [LOR 05] (les lignes droites présentent les coupures).

69

FIG. 3.25 − Segmentation en graphèmes sur du texte imprimé (figure extraite de [KAM 04]). 70

FIG 3.26 − Segmentation en graphèmes et problème de ligature verticale (figure extraite de [OLI 96]). (a) sous segmentation ; (b) détection de zone de ligature verticale ; (c) correction.

71

FIG. 3.27 − Segmentation en graphèmes basée sur le principe des Régularités/Singularités (figure extraite de [MOT 97]) ; (a) image nettoyée (b) les singularités obtenues en effectuant une

72

Liste des figures

VII

ouverture sur l’image initiale ; (c) les régularités obtenues en soustrayant les singularités de l’image nettoyée.

FIG. 3.28 − Segmentation en bandes verticales uniforme et non-uniforme (figure extraite de [BEN 06a]).

72

FIG. 3.29 − Exemples de sous-segmentation en pseudo-mots. (a) succession de caractères à extension basse ; (b) causes accidentelles de sous-segmentation.

73

FIG. 3.30 − Exemples de sur-segmentation en pseudo-mots. (a) phénomène de la levée de plume ; (b) artefacts de l’acquisition.

73

FIG. 3.31 − Cas d’échec de la méthode de segmentation en pseudo-mots proposée dans [ALK 08].

74

FIG. 3.32 − Segmentation en pseudo-mots (figure extraite de [CHE 01]). (a) sur du texte imprimé ; (b) sur du texte manuscrit.

74

FIG. 3.33 − Segmentation en mots proposée dans [BAL 06]. (a) l’espace entre clusters ne correspond pas à un point de segmentation en mots valide. (b) segmentation en mots valide.

75

FIG. 3.34 − Résultat de segmentation en ligne, cas d’un texte présentant des oscillations de l’écriture avec présence de chevauchements (figure extraite de [BEN 99]).

76

FIG. 3.35 − Découpage en zone et extraction de primitives d’un nom de ville iranienne (figure extraite de [DEH 01]).

79

FIG. 3.36 − Reconnaissance de pseudo-mots imprimés à base de PHMM (figure extraite de [MIL 01]). (a) découpage en bande ; (b) un HMM-1D par bande horizontale et un HMM de super-états.

80

FIG. 3.37 − Reconnaissance de mots manuscrits à base de PHMM (figure extraite de [MIL 01]). Les 5 HMM-1D horizontaux associés aux zones des : (a) signes diacritiques supérieurs; (b) ascendants ; (c) zone médianes ; (d) descendants ; (e) signes diacritiques inférieurs.

80

FIG. 3.38 − Les deux expérimentations présentées dans [PEC 06] et [ELA 07] montrent l’influence des prétraitements et d’extraction de primitives sur le taux de reconnaissance (figure extraite de [ELA 07]). (a) système à base de fenêtre glissante ; (b) système à base de squelette.

81

FIG. 3.39 − Croisement des fenêtres inclinées sur la ligne de base de l’écriture. Cette technique permet la prise en compte de l’inclinaison des caractères et le décalage dans la position des signes diacritiques (figure extraite de [ELH 06]).

83

FIG. 3.40 − Taux de reconnaissance des classifieurs HMM individuels avec des angles d’orientation différentes (figure extraite de [ELH 08]).

84

FIG. 3.41 − Exemple d’une séquence d’indices visuels qui représente le mot ‘ل ��ز��’ : As : ascendant ; Ds : descendant ; Ud : point au dessus ; L : boucle ; V : vallée ; Ta : poche; # : espace inter-mots ou inter-pseudo-mots (figure extraite de [CHE 07b]).

87

FIG. 3.42 − Combinaison de classifieurs pour la reconnaissance de mots manuscrits de montants littéraux (figure extraite de [FAR 06]).

88

FIG. 3.43 − Reconnaissance pseudo analytique proposée par A. AbdulKader. Malgré que le 2ème pseudo-mot est mal reconnu, le mot est correctement identifié (figure extraite de [ABD 06]).

91

Liste des figures

VIII

FIG. 3.44 − Vérification affixale de l’ensemble de tous les candidats possible du mot ن� �� générés par injection des points diacritiques (figure extraite de [KAM 04]).

92

FIG. 4.1 – Le système de reconnaissance pseudo analytique multi-classifieurs flous proposé. 98

FIG. 4.2 – Exemple de noms de villes de la base IFN/ENIT qui présentent une redondance importante au niveau des pseudo-mots qui les constituent.

99

FIG. 4.3 – Formes complexes de bruit introduit par le scripteur. 101

FIG. 4.4 – Lissage du contour et problème de bouchage de petites boucles des lettres arabes. (a) image originale de la lettre ‘Mim’ ; (b) le lissage du contour par la méthode de masque proposée dans [CHE 07a] conduit à boucher la boucle du caractère ; (c) application de l’opération d’ouverture.

101

FIG. 4.5 – Algorithme de détection des signes diacritiques 102

FIG. 4.6. – (a) Trois mots arabes manuscrits avec leurs signes diacritiques entourés par des cercles ; (b) élimination des signes diacritiques par notre algorithme ; (c) résultats de l’application de l’algorithme de [MEN 08a] montrent ses faiblesses: perte d’information à cause de la fausse suppression de petites lettres marquées ici par des rectangles.

102

FIG. 4.7. – Extraction du squelette pour déterminer les points singuliers. (a) images initiales ; (b) élimination des signes diacritiques ; (c) squelette extrait par l’algorithme de ZHANG ET SUEN ; (d) squelette extrait par l’algorithme de HIDITCH. En rouge : les points d’embranchement et de croisement, et en vert : les points finaux.

103

FIG. 4.8 – Procédure de détection des points singuliers du squelette proposée dans [AMI 96], x désigne la transition 1 0.

104

FIG. 4.9 – Code de Freeman. 105

FIG. 4.10 – Extraction et correction des contours. (a) image de la lettre Ta isolée ; (b) point de ramification et problème de suivie du contour ; (c) correction du contour par la méthode de masques proposée : résultat de l’application du 4ème masque de la figure 4.11.

105

FIG. 4.11 – Exemple de couples de masques développés pour la résolution du problème de suivi du contour. Les pixels notés ‘x’ ne sont pas pris en compte.

106

FIG. 4.12 – Extraction du contour inférieur (en bleu) et supérieur (en noir) d’un mot arabe manuscrit (les points Pd et Pg sont marqués en rouge et en vert respectivement).

106

FIG. 4.13 – Extraction des minimums locaux du contour inférieur du mot اآ�� (en bleu le contour inférieur et en rouge les minimums locaux).

107

FIG. 4.14 – Selon un critère visuel de qualité, la ligne de base idéale est illustrée par les lignes rouges. Pour les mots manuscrits présentés ici, une ligne de base droite (inclinée ou non) ne donnera jamais le résultat souhaité.

107

FIG. 4.15 – Points d’embranchement situés au-dessus et en dessous de la bande de base. 108

FIG. 4.16 − Processus d’extraction de la ligne de base. (a) image initiale ; (b) première approximation de la bande de base pour la détection des points primitifs ; (c) estimation de la bande de base finale de chaque pseudo-mot et extraction des points supports de la ligne de base ; (d) estimation la ligne de base.

109

Liste des figures

IX

FIG. 4.17 − Comparaison qualitative entre les méthodes d’extraction de la ligne de base. Sur l’image (a) extraite de [PEC 02b] et notre image (b), on constate l’efficacité de notre méthode, particulièrement pour les mots courts composés de lettres isolées. Sur l’image (c) extraite de [FAR 05b], l’image (d) extraite de [PEC 02b] et notre image (e), on remarque que la méthode proposée donne des résultas plus robustes, notamment en présence de différents angles d’inclinaison de l’écriture.

111

FIG. 4.18 – Correction de l’inclinaison des lignes à l’aide de la ligne de base de chaque pseudo-mot. (a) estimation de l’inclinaison du pseudo-mot ‘ .image finale du mot corrigé (b) ;’د

112

FIG. 4.19 – Exemple de correction de l’inclinaison des lignes (les mots corrigés sont illustrés par leur contour en bleu et les lignes de base ré-extraites sur les mots corrigés sont illustrés par des lignes noires).

113

FIG. 4.20 – Gains de la reconnaissance à base de pseudo-mots par rapport à celle à base de mots du vocabulaire de l’IFN/ENIT.

115

FIG. 4.21 – Segmentation en pseudo-mots correcte, les signes diacritiques sont réaffectés aux composantes primaires selon des critères de recouvrement vertical et de proximité.

117

FIG. 4.22 – Sur-segmentation en pseudo-mots à cause du phénomène de la levée de plume. (a) Image initiale ; (b) Extraction des composantes primaires des pseudo-mots ; (c) Extraction correcte des signes diacritiques.

118

FIG. 4.23 – Sous-segmentation en pseudo-mots : pseudo-mots connectés. (a) image initiale ; (b) extraction des composantes primaires des pseudo-mots ; (c) détection correcte des signes diacritiques.

118

FIG. 4.24 – L’apparition de la sur-segmentation et de la sous-segmentation en pseudo-mots conjointement et avec la même fréquence conduit à une affectation incorrecte des pseudo-mots aux classes.

☺ : Affectation correcte + bonne image de pseudo-mot. � : Affectation correcte + pseudo-mots connectés (sous-segmentation). � : Affectation incorrecte + bonne ou mauvaise image de pseudo-mot.

119

FIG. 4.25 – Correction de la sous-segmentation en pseudo-mots : cas de descendants connectés. (a) extraction du squelette et de la bande de base du mot pour rechercher les points d’embranchement qui se situent en dessus de la bande de base; (b) segmentation des descendants connectés.

120

FIG. 4.26 – Procédure de construction de la base de pseudo-mots (ou PAW) avec signes diacritiques.

122

FIG. 4.27 – Fréquence d’apparition des classes de pseudo-mots dans la nouvelle base PAW-IFN/ENIT.

123

FIG. 4.28 – Représentation des primitives extraites. 125

FIG. 4.29 – Importance de la ligne de base (ligne rouge) pour la distinction entre les pseudo-mots.

126

X

Liste des tables

TAB. 2.1 − Quelques fonctions de transfert usuelles. x est le vecteur d’entrée. 25

TAB. 3.1 – Les 28 lettres de l’alphabet arabe avec leurs différentes formes. 44

TAB. 3.2 − Les différents pseudo-mots du lexique des montants littéraux de chèques saoudiens (figure extraite de [ALO 03]).

48

TAB. 3.3 − Les 20 mots les plus utilisés dans les textes arabes sélectionnés par [ALM 02]. 49

TAB. 3.4 − Alphabet de graphèmes définie par [KAM 04]. 70

TAB. 3.5 − Liste de symboles de l’alphabet proposé dans [MEN 07], Tail 1 présente la partie à rajouter aux formes début/milieu de quelques lettres pour construire leurs formes fin/isolée. Par exemple ـ� + Tail1 � ب.

90

TAB. 3.6 − Résultats de reconnaissance des systèmes participants à la compétition ICDAR 2005. 93



TAB. 4.1 – Résultat de l’évaluation de la méthode d’extraction de la ligne de base en fonction de décalage en pixels.

112

TAB. 4.2 – L’annotation des ligatures verticales et de chadda produit différentes annotations d’un même mot, ce qui complique le processus de définition automatique du vocabulaire de pseudo-mots (Pr. lig et Pr. ch: pour présence de ligature et de chadda respectivement, Nb let: le nombre de caractères dans le mot selon l’annotation (une ligature est considérée comme une seule lettre)).

114

TAB. 4.3 – Table du nouveau vocabulaire de pseudo-mots. 116

XI

Résumé

Le travail présenté dans ce mémoire a pour objectif principal de proposer un système de reconnaissance hors-ligne de l’écriture manuscrite arabe dans le cadre de l’utilisation d’un lexique de grande dimension.

Une étude approfondie de ce domaine nous indique que la difficulté de la reconnaissance vient principalement de l’ambiguïté existante souvent à cause de la présence de bruit, de la grande variation des styles d’écriture et de la similarité qui existe entre les entités à reconnaître. Cette similarité devient de plus en plus présente lorsque la taille du vocabulaire augmente, car des mots ou parties de mots ressemblants ont plus de chance d’être présents dans le vocabulaire.

Dans le cadre de ce travail, la contribution que nous avons proposé pour pallier cette difficulté se répartit selon quatre niveaux :

1er niveau : les prétraitements

Le but des prétraitements est la réduction du bruit, de la distorsion et de la variation des styles d’écriture, ils jouent de ce fait un rôle primordial dans la qualité du reconnaisseur. D’autre part, la mise en œuvre d’un système de reconnaissance de l’écriture arabe nécessite un traitement explicite des particularités de cette écriture. Ce traitement se focalise le plus souvent au niveau des prétraitements, car l’extraction de primitives et le moteur de reconnaissance sont généralement les mêmes que ceux utilisés pour la reconnaissance de l’écriture latine.

Pour ces raisons, nous nous somme intéressés, en premier lieu, au développement des méthodes de prétraitements robustes et adéquates à la morphologie de l’écriture arabe afin de faciliter les traitements ultérieurs et de fiabiliser les résultats de la reconnaissance. Dans ce contexte, la contribution principale a été la proposition d’une nouvelle méthode d’estimation de la ligne de base basée sur l’élimination des signes diacritiques et la localisation des pseudo-mots. L’originalité de notre approche consiste à la prise en compte des pseudo-mots, plutôt que les mots complets, comme étant l’entité élémentaire du traitement. La ligne de base extraite est ainsi utilisée avec profit pour la correction de l’inclinaison des lignes, la résolution d’un cas particulier de la sur-segmentation en pseudo-mots (descendants connectés) et l’extraction de primitives.

Les expérimentations menées sur la base de données IFN/ENIT (noms de villes tunisiennes) ont montré les performances encourageantes des techniques de prétraitements proposées.

Résumé

XII

2ème niveau : l’élimination de la redondance et l’approche pseudo analytique

Il nous est apparu dans l’étude du vocabulaire de l’IFN/ENIT que les mots de cette base disposent d’une redondance (similarité) importante au niveau des pseudo-mots qui les constituent. Là encore la prise en compte de la notion de pseudo-mot, inhérent à l’écriture arabe, est avantageuse, car l’interprétation des pseudo-mots plutôt que les mots conduit, notamment pour ce vocabulaire à une réduction de la taille et de la complexité du problème. Par conséquent, il semble très utile de traiter la reconnaissance du vocabulaire choisi en s’appuyant sur une modélisation pseudo analytique qui offre également l’avantage d’éviter le problème délicat de la segmentation en caractères lié à l’approche analytique.

Ainsi le vocabulaire de 946 villes de la base IFN/ENIT a donné lieu à un vocabulaire de 759 pseudo-mots, soit une réduction de 187 entités à reconnaître. En s’appuyant sur ce nouveau vocabulaire, nous avons construit une nouvelle base d’image de pseudo-mots qui contient un total de 74104 images.

3ème niveau : construction automatique d’un ensemble de classifieurs spécialisés

Malgré que l’approche pseudo analytique adoptée nous ait offert une réduction considérable de la taille du vocabulaire, le nombre de classes à reconnaître reste important. Ainsi la démarche adoptée, pour réussir la reconnaissance, consiste à mettre en place une approche de construction automatique d’un système multi-classifieurs. Cette approche a été proposée par Minku et al [MIN 08], elle permet de diminuer significativement la complexité de la reconnaissance par la distribution du problème sur un ensemble de classifieurs spécialisés dans différentes régions du problème considéré et qui travaillent selon le principe de « diviser pour régner ». À cet effet, un algorithme de clustering est utilisé pour diviser la base de pseudo-mots en plusieurs sous ensembles ou clusters de classes différentes dont la forme est proche. Chacun de ces sous ensembles est ensuite utilisé pour l’apprentissage et le test d’un des classifieurs.

À la différence de l’approche de Minku et al, qui consiste à utiliser tout l’ensemble de classifieurs pour évaluer la classe d’une forme inconnue, nous avons fait le choix d’utiliser les k plus proches classifieurs qui correspondent aux k plus proches clusters au pseudo-mot à reconnaître. Ce calcul est effectué également grâce à l’algorithme de clustering. L’idée d’utiliser les k plus proches classifieurs dans un système multi-classifieurs est inspirée du travail de [PRU 04], elle permet d’accélérer significativement le temps de traitement et d’aboutir à de bonnes performances par la sélection des classifieurs les plus adéquats pour la forme du pseudo-mot considéré.

Résumé

XIII

4ème niveau : l’ambiguïté et la reconnaissance flou

La reconnaissance de l’écriture manuscrite pose souvent la question de la modélisation de l’incertitude et de l’imprécision. La présence de bruit, de distorsions et la grande variabilité morphologique de l’écriture manuscrite introduisent une forte ambiguïté dans tous les niveaux du processus de reconnaissance.

Dans ce travail, la puissance de la logique floue est exploitée au niveau de la reconnaissance. Le classifieur ainsi adopté pour notre système multi-classifieurs est un Perceptron Multi-Couches flou, ce classifieur combine parfaitement les performances du calcul des PMC avec la richesse de la modalisation floue. De plus, le PMC flou apporte une solution efficace au problème de données mal étiquetées issues du processus de segmentation en pseudo-mots proposé.

La reconnaissance pseudo analytique s’appuie alors sur une combinaison des k PMC flous appliquée sur les pseudo-mots segmentés.

Finalement, un autre niveau de combinaison est effectué pour retrouver le mot à partir des candidats de pseudo-mots. À cet effet, un autre vocabulaire de mots exprimés dans un alphabet de pseudo-mots est utilisé.

Mots clés : Reconnaissance de l’écriture, hors ligne, manuscrit arabe, pseudo-mot, prétraitements, ligne de base, approche pseudo analytique, clustering, logique floue, Perceptron Multi-Couches, combinaison.

1

Chapitre 1

Introduction

Depuis la fin des années soixante, des travaux intensifs ont été accomplis dans le domaine de la reconnaissance de l’écriture manuscrite. Ainsi, il est intéressant de constater que la recherche initiale dans ce domaine était consacrée principalement à la reconnaissance de l’écriture latine. En effet, des systèmes commerciaux sont aujourd’hui disponibles, particulièrement dans la poste (lecture des adresses, tri postale) et dans les banques (traitement des chèques, des factures). À l’heure actuelle, les recherches s’orientent vers l’interprétation de l’écriture libre sans contrainte avec des lexiques de très grande dimension (voire ouverts) comme les courriers manuscrits.

Pour l’écriture arabe, la situation est totalement différente. Ce domaine de recherche a connu un retard considérable par rapport à son équivalant latin, cela est dû principalement au manque d’intérêt et à l’absence de soutient en terme de moyens financiers et de bases de données de référence.

Au cours de ces dernières années, précisément après la publication de la base de données gratuite IFN/ENIT en 2002, des progrès considérables ont été accomplis dans le domaine de la reconnaissance de l’écriture arabe manuscrite. Des conférences spécialisées sont ainsi organisées pour évaluer de manière unifiée les performances des systèmes de reconnaissance, telle que la conférence ICDAR (International Conference on Document Analysis and Recognition), qui s’est déroulée en 2005, 2007 et 2009.

Une étude des systèmes participants à ces compétitions (section 3.5) nous indique que les systèmes ayant présentés les meilleures performances sont ceux basés sur des Modèles de Markov Cachés et des Réseaux de neurones. Cependant, d’autres systèmes basés sur ces deux mêmes types de reconnaisseurs ont contrairement fourni de très mauvaises performances. Cette remarque montre que le choix d’une famille de reconnaisseurs n’est pas suffisant pour aboutir à de bonnes performances, les prétraitements et le choix des primitives utilisées jouent également un rôle primordial dans la qualité du reconnaisseur. Cette constatation a été également confirmée par les travaux de recherche effectués par R. El-Hajj et al [ELH 05a] et M. Pechwitz et al [PEC 06] dans lesquels les auteurs analysent en particulier l’influence de la qualité de la ligne de base sur les performances de leurs systèmes.

De ce fait, nous nous somme intéressés, dans un premier temps, au développem-ent des méthodes de prétraitements robustes et adéquates à la morphologie de

Introduction

2

l’écriture arabe afin de faciliter les traitements ultérieurs et de fiabiliser les résultats de la reconnaissance. Dans ce sens, la contribution principale est la proposition d’une nouvelle méthode d’estimation de la ligne de base basée sur l’élimination des signes diacritiques et la localisation des pseudo-mots (section 4.2.5). Par opposition à la majorité des méthodes décrites dans l’état de l’art qui extraient des lignes de base droites, notre approche s’adapte bien aux légères variations de l’inclinaison de l’écriture au sein d’un même mot. La ligne de base extraite est ainsi utilisée avec profit pour la correction de l’inclinaison des lignes, la résolution d’un cas particulier de la sur-segmentation en pseudo-mots (descendants connectés) et l’extraction de primitives. L’algorithme proposé a fait l’objet de deux publications scientifiques, la première à la douzième International Conference on Frontiers in Handwriting Recognition « ICFHR’2010 » et la seconde au dixième Colloque Africain sur la Recherche en Informatique et en Mathématiques Appliquées « CARI’2010 ».

Dans un second temps, nous nous somme inspirés de la théorie de la compression de données qui se base sur le concept de la redondance liée aux données non aléatoires : « toute collection de données non aléatoire a une structure. Cette structure peut être exploitée pour atteindre une représentation plus réduite pour les données où aucune structuration n’est discernable » D. Salamon.

Cet aspect est généralement tenu, dans le domaine de la reconnaissance, par l’étape de l’extraction de primitives qui sert à représenter les entités à reconnaître par des caractéristiques pertinentes, discriminantes et non redondantes tout en réduisant, autrement dit, compressant la quantité de l’information présente dans l’image.

Dans notre travail, l’idée de l’élimination de la redondance pour compresser l’information à traiter est appliquée sur les entités du vocabulaire à reconnaître. Ainsi, si le vocabulaire dispose de cette redondance, l’élimination de cette dernière offre de nombreux avantages : d’une part, la réduction du nombre de classes permet la diminution de la complexité de la reconnaissance, d’autre part, l’élimination de la redondance, autrement dit, la similarité diminue grandement l’ambiguïté de la reconnaissance.

Dans cette thèse, nous avons choisi comme objectif principal la proposition d’un système de reconnaissance hors ligne de l’écriture arabe manuscrite capable de traiter un lexique de grande dimension (environ 1000 mots). Dans ce contexte, la base IFN/ENIT1 a été utilisée pour le développement et l’évaluation de nos travaux menés sur l’écriture arabe.

Le vocabulaire de cette base dispose d’une forte redondance au niveau des pseudo-mots qui constituent les mots. De ce fait, il semble très utile de traiter la reconnaissance de ce vocabulaire en s’appuyant sur une modélisation pseudo analy-tique qui offre également l’avantage d’éviter le problème délicat de la segmentation en caractères lié à l’approche analytique. Ainsi le vocabulaire de 946 villes de la base

1 Le lexique de la base IFN/ENIT se compose de 946 classes. En effet, selon la logique floue ce lexique appartient plus à la catégorie des vocabulaires de grande taille qu’à ceux de taille moyenne.

Introduction

3

IFN/ENIT a donné lieu à un vocabulaire de 759 pseudo-mots, soit une réduction de 187 entités à reconnaître.

Pour implémenter la reconnaissance pseudo analytique adoptée, nous nous somme particulièrement attirés par les performances prometteuses des deux paradigmes : la reconnaissance floue et la combinaison de classifieurs. Dans ce sens, nous nous somme inspirés du travail de F. L. Minku et al [MIN 08] pour construire automati-quement un ensemble de classifieurs spécialisés de type Perceptron Multi-Couches flou.

Dans le reste de cette thèse, nous présenterons dans le chapitre 2 les différentes étapes qui composent le processus de reconnaissance de l’écriture manuscrite. Nous exposerons ainsi les techniques les plus souvent citées et utilisées au niveau des prétraitements, d’extraction de primitives, de segmentation, de reconnaissance et de post-traitements.

Dans le chapitre 3, nous nous concentrons plus particulièrement sur l’écriture arabe. Ainsi, cette partie décrit d’une manière détaillée l’état de l’art du domaine de la reconnaissance automatique de l’écriture arabe manuscrite.

Dans le chapitre 4, nous présenterons le système de reconnaissance pseudo analytique flou que nous avons proposé pour la reconnaissance de mots du vocabulaire de la base IFN/ENIT. Les étapes de prétraitements, de segmentation en pseudo-mots, de construction de la base de pseudo-mots et d’extraction de primitives sont complètement achevées, leurs résultats sont présentés et discutés. Cependant, pour des raisons de temps, la phase de reconnaissance n’a pas pu être entièrement accomplie. Toutefois, nous avons tenté dans la mesure de nos possibilités de proposer un système de reconnaissance qui peut aboutir à de bonnes performances.

Enfin, dans le dernier chapitre de ce mémoire, nous présenterons nos conclusions ainsi qu’un ensemble de perspectives de poursuite de notre recherche.

4

Chapitre 2

Processus de reconnaissance de l’écriture

manuscrite

Avant de présenter l’état de l’art de la reconnaissance automatique de l’écriture arabe qui exploite le plus souvent les techniques conventionnelles de la reconnai-ssance de l’écriture latine et chinoise, nous proposons dans ce chapitre une descrip-tion des algorithmes les plus souvent cités et utilisés dans les diverses étapes du processus de reconnaissance de l’écriture. Nous présenterons ainsi les techniques utilisées dans les prétraitements, la segmentation, l’extraction de primitives, la reconnaissance et les post-traitements. L’étape d’acquisition des zones d’intérêt dans le document (telle que la localisation de l’adresse postale à partir des enveloppes) est considérée acquise, les champs à reconnaître sont imposés déjà extraits et prêts à être reconnus.

2.1 Prétraitements

Le but des prétraitements est la réduction du bruit, de la distorsion, et de la variation des styles pour faciliter les traitements ultérieurs tels que la segmentation et l’extraction de primitives. Ils comprennent principalement : la binarisation, la suppression du bruit, le lissage du contour, la squelettisation, l’estimation de la ligne de base, et les normalisations (de la taille, de l’inclinaison des lignes, et de l’inclinaison des caractères). Dans un OCR (Optical Character Recognition), l’utilisation de chacune de ces procédures et les techniques employées dedans dépendent de la nature des données traitées (scripte et qualité), et du type des primit-ives à extraire (invariante ou non à la distorsion et à la variation des styles).Comme l’indique S. Madhvanath et al [MAD 99], les prétraitements ont une influence major sur les performances des systèmes de reconnaissance de l’écriture manuscrite.

Dans cette section nous aborderons les prétraitements couramment utilisés dans les systèmes de reconnaissance de l’écriture, en présentant pour chacun les techniques les plus populaires.

2.1.1 Binarisation

La numérisation de l’image du document est la première étape à accomplir dans un système de reconnaissance d’écriture hors ligne. Le résultat de cette étape est une

Prétraitements 5

image numérisée qui peut être binarisée ou à niveaux de gris. Pour les images à niveaux de gris, le passage en une représentation binaire est recommandé pour faciliter les traitements ultérieurs. Ce passage est appelé binarisation, il permet de séparer l’information utile (l’écriture) du fond par l’utilisation d’un seuil de binarisation approprié, ce seuil doit traduire la limite des contrastes forts et faibles dans l’image. Selon la méthode de calcul du seuil de binarisation, on distingue deux types de binarisation : le seuillage globale et le seuillage adaptatif.

Le premier type consiste à prendre un seuil ajustable mais identique pour toute l’image, cette méthode convient pour les documents de contraste fort et de bonne qualité. Dans le cas contraire, le seuillage adaptatif est plus approprié, dans ce cas le calcul du seuil se fait localement en fonction du voisinage du pixel traité.

2.1.2 Suppression du bruit

La localisation du bruit consiste à identifier les pixels du fond qui n’appartiennent pas à la forme. Cette identification est facile pour des formes simples de bruit telles que «salt and pepper», où la localisation est basée sur une analyse de la taille des composantes connexes. Les composantes connexes de taille inférieure à un seuil déterminé heuristiquement seront supprimées [MAD 99].

Pour des bruits de forme compliquée et qui peuvent être intersectés avec l’écriture, des techniques de suppression plus complexes sont employées. Dans [VER], Verma et al suppriment les soulignages qui se figurent sous quelques mots de la base CEDAR2. La localisation de ce type de bruit se fait par une recherche des lignes horizontales de longueur supérieure à un seuil fixe. Pour des soulignements erratiques et inclinés, une suppression manuelle est appliquée. Dans [GRA 99], F. Grandiduer et al indiquent que la négligence de ce type de bruit conduit à une dégradation des performances du système de reconnaissance.

Un autre traitement est proposé par Suen et al. [LAM 95] pour éliminer les lignes de guide qui se figurent sur leurs images de montants littéraux. Leur méthode peut engendrer une suppression des pixels qui appartiennent au mot. Pour résoudre ce problème, les auteurs utilisent des opérations morphologiques et topologiques afin de restaurer l’information perdue.

Un traitement pareil proposé par M. S. Khorsheed [KHO 02] consiste à utiliser la transformée de Fourier pour chercher les pics de haute fréquence qui correspondent au bruit (lignes, grilles). Cette méthode présente l’avantage qu’elle soit applicable sur des images à niveau de gris.

2.1.3 Lissage du contour

Les artefacts de l’acquisition et l’opération de la binarisation produisent, généralement, des déformations dans la forme du mot, ces déformations peuvent être 2 Base de données des images de noms de villes de l’USA

Processus de reconnaissance de l’écriture manuscrite 6

manifestées soit comme des absences de points (trou indésirable), soit comme des excroissances et des surcharges de points le long du contour du mot. L’étape de lissage permet de résoudre ces problèmes, une technique simple consiste à examiner le voisinage d’un pixel et de lui attribuer la valeur 1(noir) si le nombre de pixel noir dans cette zone est supérieur à un seuil fixe.

Dans [CHE 07a], Cheriet et al proposent quatre masques simples (voir figure 2.1), ils les appliquent sur l’image du mot, commençant du pixel le plus à droite de la dernière ligne et en parcourant l’image ligne par ligne vers le haut. Cette procédure peut être appliquée plusieurs fois jusqu à aucun changement ne soit achevé.

Une autre technique de lissage consiste à appliquer les opérations de la morphologie mathématique [KAN 90], les deux opérations principalement utilisées sont : l’ouverture (une érosion suivie d’une dilatation) et la fermeture (une dilatation suivie d’une érosion). L’ouverture permet d’ouvrir les petits trous et les espaces entre les objets qui se rapprochent suffisamment l’un de l’autre. Tandis que la fermeture permet de remplir les petits trous dans la forme.

2.1.4 Squelettisation

Cette étape consiste à transformer l’image du mot en sa représentation en ‘fil de fer’ appelée squelette. Cette représentation doit avoir les propriétés suivantes : aussi fin que possible (idéalement, 1 pixel d’épaisseur), préservation de la connexité, et approximation de l’axe médiane de la forme [CHE 07a]. Le squelette permet de réduire la quantité de l’information traitée, il facilite également l’extraction de quelques primitives structurelles telles que les points d’embranchement, de croisement, et de fin.

Il existe, principalement, deux classes d’algorithme de squelettisation : les algorithmes parallèles et les algorithmes séquentiels. Les algorithmes parallèles opèrent sur tous les pixels de l’image simultanément. En revanche, les algorithmes séquentiels examinent les pixels et les transforment selon les résultats obtenus précédemment. Dans ce qui suit, nous détaillerons deux algorithmes de ces deux familles : l’algorithme de HILDITCH (séquentiel) [CHE 07a] et l’algorithme de ZHANG ET SUEN (parallèle) [ZHA 84].

= = = = P = x x x

x = = x P = x = =

x x x = P = = = =

= = x = P x = = x

FIG. 2.1 – Exemples de masques de filtrage qui permettent de lisser des images. ‘P’ est le pixel courant. Les pixels notés ‘x’ ne sont pas pris en compte. Les pixels notés ‘=‘ sont tous égaux entre eux (méthode proposée dans [CHE 07a]).

Prétraitements 7

2.1.4.1 Algorithme de HILDITCH

On définit :

1 − Le voisinage du pixel P1 comme il est montré dans la figure 2.2.a

2 − A(P1) le nombre de transitions 0 vers 1 dans la séquence P2, P3, P4, P5, P6, P7, P8, P9. (figure 2.2.b)

3 − B(P1) le nombre de pixels noirs dans le voisinage de P1.

Selon l’algorithme de HILDITCH, un pixel noir P1 est marqué comme effaçable s’il vérifie les quatre conditions suivantes :

2 ≤ B(P1) ≤ 6

A(P1) = 1

P2.P4.P8 = 0 ou A(P2) ≠ 1

P2.P4.P6 = 0 ou A(P4) ≠ 1

– La condition B(P1) ≤ 6, assure que P1 est un pixel du contour.

– La condition 2 ≤ B(P1), assure la préservation des pixels isolés (B(P1) = 0) et d’ex-trémité (end-point B(P1) = 1).

– La condition A(P1) = 1, maintient le critère de la connectivité.

– La condition (3) (respectivement (4)) assure que les lignes verticales (respective-ment horizontales) de deux pixels de largeur ne soient pas totalement érodées.

Tous les pixels marqués comme effaçables sont ensuite effacés, et l’algorithme est reexécuté sur la nouvelle image, jusqu’à ce que plus aucun pixel ne soit effaçable.

2.1.4.2 Algorithme de ZHANG ET SUEN

Cet algorithme est divisé en deux étapes, la première supprime les pixels du contour situés au sud-est de la forme et les pixels du coin au nord-ouest (figure 2.3.a), tandis que la deuxième supprime les pixels du contour situés au nord-ouest de la forme et les pixels du coin au sud-est (figure 2.3.b).

P9 P2 P3

P8 P1 P4

P7 P6 P5

0 0 1

1 P1 0

1 0 0

2

1

(a) (b)

FIG. 2.2 – (a) le voisinage du pixel P1 dans une fenêtre 3*3 ; (b) le calcul du nombre de transition 01 dans la séquence P2 :P9.


Lors de la première étape, un pixel noir P1 est marqué comme effaçable s’il respecte les quatre conditions suivantes :

2 ≤ B(P1) ≤ 6

A(P1) = 1

P2.P4.P6 = 0

P4.P6.P8 = 0

Les deux dernières conditions assurent que le pixel P1 est un pixel du contour situé, soit au sud-est de la forme, soit au coin nord-ouest.

Les pixels marqués comme effaçables dans cette étape sont effacés, et sur la nouvelle image, on vérifie les quatre conditions de la deuxième étape :

2 ≤ B(P1) ≤ 6 (la même que la 1er étape)

A(P1) = 1 (la même que la 1er étape)

P2.P4.P8 = 0

P2.P6.P8 = 0

Les deux dernières conditions assurent que le pixel P1 est un pixel du contour situé, soit au nord-ouest de la forme, soit au coin sud-est.

De même que la première étape, on supprime les pixels marqués comme effaçables, et sur la nouvelle image on applique les conditions de la première étape et ainsi de suite, jusqu’à ce que plus aucun pixel ne soit effaçable.

La figure 2.3 illustre le résultat de l’exécution de la première et de la deuxième étape de l’algorithme de ZHANG ET SUEN, ainsi que le squelette final de la lettre ‘H’.

FIG. 2.3 – Résultat de la squelettisation de la lettre H par l’application de l’algorithme de ZHANG ET SUEN (figure extraite de [ZHA 84]). (a) et (b) application de la 1ere et la 2ème étape respectivement ; (c) squelette final.

(a) (b) (c)

Prétraitements 9

Pour une évaluation de dix algorithmes de squelettisation y compris les deux algorithmes de ZHANG ET SUEN et de HILDITCH, on pourra consulter le travail de D. Arrivault [ARR 02].

2.1.5 Estimation de la ligne de base

La ligne d’appui de l’écriture ou ligne de base porte des informations importantes pour les différentes étapes de la chaîne de reconnaissance. Pour la segmentation, elle guide le processus de détection de points de liaison entre caractères ; outre, elle permet de préciser les positions des diacritiques et de localiser les ascendants et les descendants et donc d’aider le processus de normalisation et d’extraction de primitives. Elle permet également le redressement de l’écriture.

Il existe de nombreuses méthodes d’extraction de la ligne de base, la plus utilisée est celle basée sur l’histogramme de projection horizontale. Cette méthode part de l’hypothèse que la majorité des pixels se disposent sur la ligne de base, la ligne extraite est donc une ligne droite qui correspond au pic maximal de l’histogramme (voir figure 2.4). Cette méthode donne de bon résultat pour l’imprimé et le manuscrit de bonne qualité [LOR 06], quand les mots sont aussi longs et l’écriture est bien droite. Pour les mots inclinés, une combinaison de la méthode de l’histogramme de projections horizontale avec la transformée de Hough donne des résultats satisfaisants [PEC 03].

D’autres méthodes d’extraction de la ligne de base développées pour l’écriture manuscrite arabe sont présentées dans la section 3.4.1.4.

2.1.6 Normalisations

La variation des styles d’écriture rend complexe la majorité des étapes de la chaîne de reconnaissance, telles que l’estimation de la ligne de base, la segmentation, l’extraction de primitives et la reconnaissance. Elle peut diminuer la similarité intra-classe ce qui implique la réduction du pouvoir discriminant du classifieur.

Pour éviter cette situation, des techniques de normalisation tendent à réduire cette variation de styles, tailles et orientations d’écriture pour arriver à une forme plus ou moins standard de données.

FIG. 2.4 – Estimation de la ligne de base par la projection horizontale (ligne bleu).


Nous présentons ici trois types de normalisation :

– Correction de l’inclinaison des lignes,

– Correction de l’inclinaison des lettres,

– Normalisation des caractères.

2.1.6.1 Correction de l’inclinaison des lignes

Un défaut d’orientation du document pendant l’acquisition, ou une écriture imprécise peut conduire à une inclinaison de la ligne de base. Des traitements sont appliqués pour la rendre horizontale, ces traitements incluent généralement deux étapes. La première permet l’estimation de l’angle d’inclinaison globale de la ligne (l’angle θ, figure 2.5). À cet effet, la transformée de Hough et les histogrammes de projection sont les deux méthodes les plus populaires [CHE 07a] [HUL 98]. La deuxième étape sert à corriger l’inclinaison par l’application d’une rotation de l’image d’angle θ, cela peut être réalisé par l’application de l’équation suivante [CHE 07a]:

−=

y

x

y

x

)cos()sin(

)sin()cos(

'

'

θθθθ

Pour un Survey des différentes méthodes de correction de l’inclinaison des lignes d’écriture, on pourra se référer au travail de synthèse du J. J. Hull [HUL 98].

2.1.6.2 Correction de l’inclinaison des lettres

L’inclinaison des caractères est définie comme étant l’angle entre l’axe correspondant à la direction moyenne des caractères et l’axe vertical (l’angle α, figure 2.5). L’objectif de ce prétraitement est de transformer le mot de façon à ce que cet axe de direction principale devient vertical. Ceci permet une réduction considérablement de la variabilité de l’écriture et une amélioration de la qualité de la segmentation des mots en caractères [BOZ 89] [GRA 03].

θ

α

FIG. 2.5 – Correction de l’inclinaison des lettres et des lignes. θ : l’angle d’inclinaison de la ligne, α : l’angle d’inclinaison de la lettre.

Prétraitements 11

Plusieurs méthodes sont disponibles, dans [CHE 07a], par exemple, une méthode simple de calcul de l’angle d’inclinaison des chiffres et des lettres isolées est proposée.

Pour l’estimation de l’inclinaison globale des mots cursifs d’autres méthodes sont appropriées. Dans [BOZ 89], R. M. Bozinovic et al utilisent des portions d’écriture proches de la direction verticale pour évaluer l’inclinaison globale du mot (voir figure 2.6). La correction de l’inclinaison est obtenue par l’application de la transformation suivante :

yy

defyxx

=−×−=

'

)tan(' β

β est l’angle d’inclinaison globale du mot, et def un paramètre qui spécifie l’inclinaison normale du mot.

D’autres méthodes plus simples utilisent les contours [BRI 00] [DIN 00]. En parcourant le contour de l’image et en comptant le nombre de fois qu’on se déplace dans les trois directions privilégiées : n1, n2 et n3 qui correspondent aux angles 45°, 90° et 135° respectivement (voir figure 2.7). L’angle total de l’inclinaison est donné par l’équation suivante :

++−= −

321

311tannnn

nnα

La correction de l’inclinaison se fait par une translation des lignes (Shear Transform) [CHE 07a] :

( ).'

.tan.'

yy

yxx

=−= α

Toutes ces méthodes présentent l’inconvénient qu’elles s’appliquent sur le mot dans sa globalité (les lettres inclinés ou non d’un même mot).

1.2.6.3 Normalisation des caractères

Une autre manière de diminuer la variabilité est de normaliser la taille des caractères, en les ramenant tous à une même taille standard prédéfinie.

Dans [CHE 07a], deux approches de normalisation des caractères sont évaluées, l’approche linéaire et l’approche non linéaire.


Dans [GRA 04], F. Grandidier et al remplacent l’étape de la normalisation en taille par une division de l’image de mot en trois zones : zone supérieure, zone inférieure, et zone médiane. Selon les auteurs, cette division permet l’extraction d’un nombre identique de primitives quelque soit la taille de l’image traitée. Les auteurs évaluent d’autres méthodes de division de l’image en fonction du taux de reconnaissance et concluent sur l’importance de cette méthode pour l’amélioration du pouvoir discriminant des primitives.

(a) (b)

FIG. 2.7 – Inclinaison moyenne de l’écriture évaluée sur le contour de l’image (figure extraite de [DIN 00]). (a) les trois directions privilégiées n1, n2 et n3 ; (b) l’angle d’inclinaison se déduit en parcourant le contour.

FIG. 2.6 – Correction de l’inclinaison des lettres par la méthode proposée dans [BOZ 89] (figure extraite de [BOZ 89]). (a) image originale ; (b) écartement des bandes horizontales suffisamment longues ; (c) les bandes horizontales restantes de petite largeur sont également enlevées ; (d) les bandes de l’image conservées pour l’évaluation de l’angle de l’inclinaison des lettres ; (e) image du mot corrigé.

Segmentation

13

2.2. Segmentation

Cette partie discute la segmentation de mots en caractères, les autres modes de segmentation tels que la segmentation de documents en lignes et la segmentation de lignes en mots seront discutés dans la section 3.4.2.

La segmentation des mots cursifs en lettres ou morceaux de lettres (graphèmes) est une étape indispensable pour les systèmes de reconnaissance analytique. Elle désigne le découpage du mot en ses éléments constitutifs afin de les identifier isolément. Dans le cas idéal, ces éléments présentent des lettres ou des graphèmes, dans le cas contraire, deux problèmes sont envisagés : la sur-segmentation lorsque l’élément constitutif est lui-même fragmenté, et la sous-segmentation lorsque plusieurs éléments constitutifs n’ont pu être isolés.

L’emploi ou non de la phase de segmentation en caractères ou en graphèmes permet la distinction entre deux approches de reconnaissance : l’approche globale et l’approche analytique :

− L’approche globale considère le mot comme une entité indivisible et repose sur une description globale du mot indépendante des lettres qui le constitue, ce qui permet une modélisation efficace du mot, en particulier lorsque les lettres sont déformées et ambiguës. Cependant, cette modélisation est peu discriminante pour les mots différents dont la forme est proche, ce qui limite cette approche à des applications à vocabulaire distinct et réduit telles que celle de la reconnaissance de montants littéraux de chèques.

− Contrairement à l’approche globale, l’approche analytique nécessite la segmenta-tion du mot en ces éléments constitutifs, la reconnaissance du mot consiste alors à reconnaître ses entités segmentées. Cette approche est la seule envisageable pour une reconnaissance à vocabulaire ouvert. La difficulté de cette approche est directement liée à la complexité de la segmentation.

Il est à noter ici qu’un autre mode de segmentation de mot qui est la segmentation en pseudo mots, inhérents à l’écriture arabe, fait apparaître une nouvelle approche de reconnaissance appelée approche pseudo analytique.

D’une manière générale, il existe deux approches de segmentation : l’approche implicite et l’approche explicite.

2.2.1 Segmentation explicite

Dans l’approche explicite (appelée aussi dissection), une étape de sélection des points de segmentation les plus probables est effectuée (à partir du contour, du squelette, etc.). Une fois les points de segmentation potentiels sont identifiés, il existe deux méthodes permettant de choisir la segmentation finale du tracé : les méthodes dites de segmentation puis reconnaissance (segmentation-based) et les méthodes de


segmentation-reconnaissance (segmentation-free ou recognition-based) [CHA 06]. La différence entre ces deux méthodes réside dans la dépendance ou non entre l’étape de segmentation et celle de reconnaissance [CAS 96].

La méthode de segmentation puis reconnaissance vise à choisir les meilleurs points de segmentation sans l’aide de la reconnaissance, la segmentation est donc antérieure à la reconnaissance et n’est pas remise en cause par son résultat. Cette méthode nécessite la disponibilité d’un algorithme de segmentation fiable car la moindre erreur remet en cause la totalité des traitements ultérieurs.

La méthode de segmentation-reconnaissance consiste à alterner les phases de segmentation et de reconnaissance de manière à valider les hypothèses de segmentation par la reconnaissance. Dans ce cas, la segmentation est le résultat de la reconnaissance, c’est-à-dire la décision finale du module de segmentation doit exprimer le meilleur score de segmentation-reconnaissance. Bien que cette méthode offre une segmentation beaucoup plus fiable que la précédente, elle souffre d’un inconvénient principal en temps de calcul lors de la comparaison de l’ensemble des hypothèses [OLI 00].

2.2.2 Segmentation implicite

Dans cette approche, la segmentation et la reconnaissance sont réalisées conjointement. En réalité, il n’y a pas de pré-segmentation ou dissection du mot, bien qu’un découpage a priori de l’image en intervalle de grandeur régulière est effectué classiquement, il peut le faire de deux manières, soit par fenêtrage, soit par recherche de primitives [SOU 06].

Plusieurs techniques de segmentation sont présentées dans la littérature, un tour d’horizon est exposé dans [MEN 08b], l’auteur expose les techniques de segmentation suivantes :

− Segmentation à partir du contour,

− Segmentation à partir du squelette,

− Segmentation à partir des histogrammes,

− Segmentation basée sur des réservoirs,

− Fenêtres glissantes.

Pour une description détaillée de ces techniques, le lecteur peut se référer avec profit au [OLI 00] [MEN 08b] et le survey de [CAS 96].

Une approche hybride de segmentation de mots latins manuscrits en caractères est proposée par M. Blumenstein et B. Verma [BLU 99a] [BLU 99b] [VER 03]. Les auteurs utilisent le contour haut et bas, l’histogramme de projection verticale et un ensemble de règles heuristiques pour l’extraction des points potentiels de

Segmentation 15

segmentation, un réseau de neurones est utilisé pour la validation ou non de ces derniers.

Malgré la littérature très fournie des algorithmes de segmentation, les performances obtenues restent loin d’être acceptées. Dans [CAS 96], [BEL 06] et [AUG 01], les auteurs soulignent qu’une segmentation exacte en lettres est impossible sans reconnaissance. En effet, il n’est pas possible de segmenter exactement en lettres sans reconnaître ces mêmes lettres, de même qu’il faut avoir segmenté pour pouvoir procéder à leur reconnaissance, c’est le dilemme de segmentation-reconnaissance. Pour sortir de ce dilemme, il est possible de découper le mot en graphèmes, de faire coopérer l’étape de segmentation avec l’étape de reconnaissance (segmentation-reconnaissance) ou d’éviter la segmentation et tenter la reconnaissance globale du mot. Le recoure vers une des solutions précédentes dépend de l’application traitée, l’approche globale de reconnaissance n’est applicable que sur de petits vocabulaires, car la capacité discriminante des primitives extraites globalement diminue avec l’augmentation de la taille du vocabulaire, de même la gestion des hypothèses issues du processus segmentation-reconnaissance devient problématique.

2.3 Extraction de primitives

L’étape d’extraction de primitives consiste à extraire l’information la plus discriminante pour la tache de reconnaissance, cette étape est critique et influe fortement la performance du système de reconnaissance. En effet, l’utilisation d’un classifieur performant ne peut compenser une représentation mal adaptée ou peu discriminante. La difficulté de cette étape provient du fait que la qualité d’une représentation ne peut se juger que sur un problème particulier, et qu’il n’existe pas de méthodologie pour la sélection d’un ensemble de primitives le plus discriminant pour un problème donné.

De ce fait, il est nécessaire d’effectuer pour chaque problème de reconnaissance une évaluation expérimentale de quelques méthodes d’extraction de primitives les plus prometteuses. Ces expérimentations permettent de faire un choix judicieux des primitives à extraire, car souvent, l’utilisation d’une seule méthode d’extraction de caractéristiques n’est pas suffisante pour obtenir de bonne discrimination du problème de classification. La solution évidente est de combiner plusieurs méthodes d’extraction afin de donner une meilleure description de la forme à classer [KOE 02] [HEU 98] [OLI 02] [GRA 99] [KOE 06].

D’autre part, la sélection des primitives les plus prometteuses pour un problème donné n’est pas aléatoire. Selon Trier et al [TRI 96], ce choix dépend de la nature de l’écriture traitée (imprimée/manuscrite, latin, arabe…), ainsi que sa qualité (variation des styles, distorsion…), il dépend aussi du classifieur utilisé. Outre, les primitives extraites doivent plus au moins vérifier les propriétés suivantes :

– La discrimination : minimisation de la variabilité intra-classe aux prés d’une maximisation de la variabilité inter-classe.


– Crose of dimensionality : le phénomène de malédiction de la dimensionnalité doit être évité afin de maintenir un nombre de dimension limité. Une heuristique décrite dans [TRI 96] consiste à utiliser 5 à 10 fois le nombre d’échantillons de chaque classe que la dimension du vecteur de caractéristiques.

– L’invariante : les primitives doivent être invariantes par translation, rotation, et changement d’échelle, elles doivent être également indépendantes de la distorsion et du bruit.

– Reconstructabilité : les primitives géométriques extraites à partir des moments de Zernike et des descripteurs de Fourier elliptique (voir section 2.3.3) permettent la reconstruction de la forme initiale, cette propriété assure la disposition complète de l’information.

Pratiquement, la dernière propriété est ignorée dans le choix des méthodes d’extraction de primitives si elle mène au problème de malédiction de la dimensionnalité. Représenter la forme approximativement mais avec un ensemble d’informations discriminantes est l’objectif le plus important.

Dans la suite de cette section, nous présenterons une sélection des méthodes d’extraction de primitives couramment utilisées. Pour une étude plus détaillée de différentes méthodes d’extraction de primitives, le lecteur pourra se référer avec profit au survey de [TRI 96], chapitre 3 de [CHE 07a] et chapitre 7 de [THE 03].

2.3.1 Technique de Zoning

Elle consiste à diviser l’image du mot, le contour ou le squelette en plusieurs zones et à effectuer une extraction de caractéristiques pour chacune d’elles. L’utilisation de cette technique permet la localisation de l’extraction de caractéristiques et parfois l’augmentation du pouvoir discriminant des primitives [GRA 04].

Le choix de la stratégie de la segmentation de la zone d’intérêt influe fortement sur l’efficacité de cette technique. Dans [GRA 04] [GRA 03], F. Grandidier et al proposent plusieurs méthodes de segmentation de la zone d’intérêt (figure 2.8) pour l’amélioration du pouvoir discriminant d’un ensemble de primitives discrètes. Ils concluent sur l’importance du choix de la stratégie de division qui doit être effectué en fonction de l’espace de représentation utilisé et en limitant sa dimension (augmenter la discrimination tout en évitant la malédiction de la dimensionnalité). Les auteurs proposent également une stratégie de pondération des différentes zones obtenues.

Dans [TRI 96], Trier et al exposent d’autres stratégies de segmentation de la zone d’intérêt : horizontale, verticale, diagonale 45°, et diagonale 135° (figure 2.9.a). Ils exposent également une méthode intéressante de zoning basée sur une définition floue des bords de différentes zones (figure 2.9.b).

Extraction de primitives

17

Dans [PAR 98], J. Park et V. Govindaraju proposent une nouvelle approche de segmentation de l’image en zones basée sur la notion de «multiresolution feature space», l’avantage de cette méthode est qu’elle assure une amélioration du taux de reconnaissance avec une dimension raisonnable du vecteur caractéristiques (figure 2.10).

FIG. 2.8 – Illustration des différentes méthodes de division de la zone d’intérêt proposées dans [GRA 04].

(a)

(b)

FIG. 2.9 – Différentes stratégies de segmentation de la zone d’intérêt exposées par [TRI 98]. (a) segmentation horizontale, verticale, diagonale 45°, et diagonale 135° ; (b) zoning flou, P1 a une probabilité d’appartenance égale 0.25 aux quatre zones A, B, C et D. P2 appartient aux deux zones E et F avec une probabilité égale à 0.75 et 0.25 respectivement.


2.3.2 Moments invariants

Les moments invariants proposés par Hu représentent une famille de primitives statistiques largement utilisée dans la reconnaissance de l’écriture. Ces primitives sont invariantes par translation, rotation et changement d’échelle. Les moments invariants donnent une information globale de la distribution des pixels du caractère au tour de son centre de gravité [HEU 98]. Les sept moments introduisent par Hu sont présentés dans [THE 03] :

),()1( 0220 µµφ +=

,4)()2( 211

20220 µµµφ +−=

,)3()3()3( 20321

21230 µµµµφ −+−=

,)()()4( 20321

21230 µµµµφ −+−=

],)()(3)[)(33(

])(3))[()(3()5(2

03212

123003210321

20321

2123012301230

µµµµµµµµµµµµµµµµφ

+−++−+

+−++−=

),()(4])())[(()6( 03211230112

03212

12300220 µµµµµµµµµµµφ +×+++−+−=

],)()(3)[)(3(

])(3))[()(3()7(2

03212

123003211230

20321

2123012300321

µµµµµµµµµµµµµµµµφ+−++−−

+−++−=

FIG. 2.10 – Segmentation de l’image en sous-régions pour l’amélioration du taux de reconnaissance avec un nombre limité de primitives, approche proposée par [PAR 98].

Extraction de primitives 19

Avec :

qi

pN

ii

qpN

ii

N

ii

pq

yyxxyyxx )()(.)()(

1

1

12)(

1

22

1

−−

−+−

=

∑∑∑=

++

==

µ

∑ ∑= =

==N

i

N

iii y

Nyx

Nx

1 1

,1

,1

Dans [CHE 93], C. C. Chen introduit d’autres moments invariants appelés improved moment invariants. Contrairement aux moments invariants proposés par Hu, qui sont calculés sur tous les pixels de la forme, la méthode présentée dans [CHE 93] n’exploite que le contour dans le calcul des moments invariants, ce qui donne un gain important en temps de calcul.

2.3.3 Descripteurs de Fourier

Etant donner (xk, yk), k = 0, 1, …, N-1 les cordonnées des pixels du contour de la forme. Pour chaque couple (xk, yk) on définie une variable complexe uk :

kkk yjxu +=

Pour les N uk pixels du contour en calcul les descripteurs de Fourier fl comme suit :

Les descripteurs de Fourier sont invariants par translation, rotation et changement d’échelle, une démonstration de ces 3 propriétés est présentée dans [THE 03].

Un type de descripteurs de Fourier est introduit par F. P. Kuhl et C. R. Giardina, l’approche est dite descripteur de Fourier elliptique, les formes des contours fermés sont approximées par:

∑=

++=N

nnn T

tnb

T

tnaAtx

10

2sin

2cos)(ˆ

ππ

∑=

++=N

nnn T

tnd

T

tncCty

10

2sin

2cos)(ˆ

ππ

∑−

=

−=

−=1

0

1....,,1,0,2

expN

kkl Nllk

Njuf

π


Avec : T la longueur du contour, )()(ˆ txtx ≡ et )()(ˆ tyty ≡ pour ∞→N

Les coefficients de )(ˆ tx et )(ˆ ty sont donnés par :

∫=T

dttxT

A0

0 )(1

∫=T

dttyT

C0

0 )(1

∫=T

n dtT

ntx

Ta

0

2cos)(

2 π

∫=T

n dtT

ntx

Tb

0

2sin)(

2 π

∫=T

n dtT

nty

Tc

0

2cos)(

2 π

∫=T

n dtT

nty

Td

0

2sin)(

2 π

Les coefficients an, bn, cn et dn peuvent être utilisés comme primitives [MEN 08b].

2.3.4 Transformée de Hough

La transformée de Hough est une méthode d’extraction de primitive largement utilisée dans le domaine de la reconnaissance de forme. Elle est capable d’extraire des lignes droites, des courbes, et n’importe quelle autre forme exprimée sous forme d’une équation de paramètres [CHE 07a]. Les deux essentielles étapes de cette méthode sont : – un mapping des pixels de la forme de l’espace de l’image vers un espace de paramètres (dépend du caractéristique à extraire). – et une extraction de primitives sur cet espace.

Il existe plusieurs variantes de la transformée de Hough Standard, citons par exemple : Randomized Hough Transform [XU 90] et Segment Hough Transform [LI 07].

Dans [FAK 00], les auteurs utilisent la transformée de Hough pour l’extraction des lignes droites sur des images de caractères arabes. Ensuite, la position, la direction et la taille de ces lignes sont utilisées comme caractéristiques. Ces mêmes caractéristiques sont exprimées par des mesures floues pour la reconnaissance des caractères indiens [SUR 01].

Extraction de primitives 21

La transformée de Hough est également employée pour la correction de l’inclinaison des lignes et pour l’estimation de la ligne de base [FAK 00], [AMI 00] [PEC 03].

2.3.5 Profils et contours

Le contour et le squelette contiennent toute l’information pertinente du caractère, il semble donc naturel de coder ces deux représentations et de les utiliser comme primitives. Le contour peut être codé par le codage de Freeman, les courbes de Bezier ou les courbes de B-Splines [CHE 07a].

Les primitives topologiques basées sur des densités de pixels sont également largement utilisées [OLI 02] [KOE 06] [AUG 01].On peut par exemple projeter des images de tailles différentes dans une matrice de taille fixe. Les caractéristiques extraites sont les valeurs des cellules de cette matrice. On peut aussi diviser l’image en zones (voir section 2.3.1) et calculer la densité totale des pixels noirs dans ces zones.

Dans ce type de primitives, on compte également les profils et les histogrammes des projections de l’image [HEU 98] [KOE 06]. Les histogrammes sont obtenus par projections horizontale et verticale des pixels noirs de l’image (voir figure 2.11.a), leurs valeurs peuvent être utilisées comme caractéristiques.

Les quatre profils (haut, bas, droite, gauche) sont obtenus par l’intermédiaire de sondes appliquées sur le caractère [CHA]. Pour le profil gauche, par exemple, on lance des sondes depuis le bord gauche de l’image qui s’arrêtent lorsqu’elles rencontrent le premier pixel noir. Les abscisses des sondes constituent le profil gauche du caractère (voir figure 2.11.b).

FIG. 2.11 − Primitives topologique (figure extraite de [KOE 06]). (a) histogrammes des projections horizontales et verticales ; (b) les 4 profils : haut, bas, droite et gauche.

(a)

(b)


2.3.6 Primitives structurelles

Les primitives structurelles permettent la description des propriétés géométriques et topologiques de la forme à analyser. La faible sensibilité au bruit et aux variations des styles d’écriture rend cette famille de primitives largement utilisée pour la représentation locale ou globale des formes [OLI 02] [KHO 02] [ALB 95].

Cependant, l’extraction des primitives structurelles n’est pas toujours facile. Elle peut être faite sur l’image de la forme, le contour ou le squelette, les opérations de la morphologie mathématique peuvent également être utilisées [KAN 90] [ERL 96].

Il existe plusieurs primitives structurelles, leur sélection dépend du problème traité (par exemple, l’écriture considérée : arabe, chinoise…), on peut citer : le nombre de point finaux, d’embranchement ou d’intersection, la hauteur et la largeurs des mots, nombre et type des concavités (∪ ,∩ ,⊃ ,⊂), la taille et la position des boucles, le nombre et la position des points diacritiques, taille, position et type des lignes (–, |, /, \), le nombre des ascendants et descendants, etc.

2.3.7 Méthodes de transformation linéaire de l’espace de primitives

Pour augmenter la performance de la classification, un changement de l’espace de représentation des primitives est souvent appliqué. Les méthodes de transformation linéaire offrent une réduction de la dimension des primitives, et dans de bonnes conditions, ils offrent également une augmentation du taux de reconnaissance [CHE 07a]. Parmi ces méthodes on cite : l’Analyse en Composantes Principales (ACP) et l’Analyse Discriminante Linéaire (ADL).

Le lecteur peut se référer au [CHE 07a] pour une description détaillée de ces techniques.

2.4 Reconnaissance

Nous étudierons dans ce qui suit les principaux reconnaisseurs couramment utilisés en reconnaissance de forme et plus précisément de l’écriture. Nous passerons ainsi en revue la méthode des k plus proches voisins, les réseaux de neurones, les machines à noyau (ou Support Vector Machines), et les Modèles de Markov Cachés. Nous présenterons également le principe de la reconnaissance floue et nous détaillerons quelques classifieurs flous.

Pour plus de détails, le lecteur peut se reporter aux différents livres (citons par exemple, le chapitre 4 de [CHE 07a] et le chapitre 20 de [RUS 02]), aux thèses ([MEN 08b], [SOU 06], et [AUG 01]) et à l’article de synthèse de [CHA] présentant une revue de ces différents classifieurs.

Reconnaissance

23

2.4.1 K Plus Proches Voisins

La méthode des K Plus Proches Voisins : KPPV (ou k-NN: k-Nearest-Neighbor en anglais) est une méthode d’apprentissage non paramétrique, c’est-à-dire elle ne demande pas une phase d’apprentissage de paramètres. Ce type de classifieur non paramétrique est mis en œuvre, particulièrement, dans le cas où l’on ne dispose pas de connaissances a priori sur la distribution de probabilité des classes [CHA]. Dans [RUS 02], les auteurs suggèrent l’utilisation d’un KPPV comme une première tentative dans un nouveau problème de classification.

Un KPPV est basé sur l’hypothèse que les points proches dans l’espace de primitives sont susceptibles d’appartenir à la même classe [RUS 02]. Son principe de décision consiste tout simplement à calculer la distance d’une forme inconnue x à tous les échantillons fournis. Puis on sélectionne les k plus proches échantillons et on affecte x à la classe majoritaire parmi ces k échantillons (figure 2.12). Le choix de l’entier k et de la métrique de distance jouent un rôle primordial dans la méthode KPPV. En pratique, choisir k entre 5 et 10 donne de bons résultats pour la plupart des ensembles de données de faible dimension [RUS 02]. La distance euclidienne, la distance de Mahalanobis et celle de Hamming sont des exemples de métriques largement utilisées.

La robustesse et la simplicité de la mise en œuvre sont les principaux avantages du KPPV. Cependant, Son efficacité dépend directement de la pertinence de la base d’apprentissage et notamment de sa densité dans les différentes régions de l’espace de données. Outre, le KPPV est réputé comme classifieur lourd. La recherche des plus proches voisins est coûteuse, cela d’autant plus que la métrique utilisée est complexe, et que la base et la valeur de k sont grandes. Cependant, pour des problèmes particuliers (tels que la reconnaissance de chiffres), on peut réduire le

FIG. 2.12 − Notion de voisinage de la méthode KPPV, exemple avec k=10 (figure extraite de [RUS 02].


nombre de données d’apprentissage et les organiser (prendre les échantillons les plus significatifs).

2.4.2 Réseaux de neurones

Un neurone formel peut être considéré comme une modélisation élémentaire d’un neurone biologique (figure 2.13). Le neurone reçoit en entrée un vecteur d’attributs numérique présentant la description d’une observation x, les éléments de ce vecteur xi sont pondérés par des poids synaptiques wi., un biais w0 est également ajouté. La sortie y du neurone est obtenue par l’application d’une fonction de transfert appelée aussi fonction d’activation :

∑=

+=d

iii wxwz

10 , )(zfy =

Le réseau de neurones artificiel (RNA) est un réseau fortement connecté de processeurs élémentaire (neurones) fonctionnant en parallèle et disposant en couches. Tous les neurones d’une même couche ont la même fonction d’activation (voir tableau 2.1). L’apprentissage d’un RNA se fait le plus souvent de façon itérative, par rétropropagation du gradient d’erreur, cet algorithme d’apprentissage très efficace donne un essor important à ce classifieur.

Les types de RNA sont aussi nombreux que leur définition est générale, ils se distinguent globalement par la fonction d’activation des neurones (tableau 2.1), l’architecture du réseau (organisé ou non en couches, avec ou sans cycles) et le mode de connectivité (complètement ou localement connecté) (voir figure 2.14). Dans la partie suivante, nous présenterons rapidement les deux types de RNA les plus

FIG. 2.13 Neurone artificiel (figure extraite de [CHE 07a]).

Reconnaissance 25

populaires : le Perceptron Multi-Couches (PMC) et le réseau RBF (Radial Basis Function).

D’autre types tels que : les réseaux à convolution, carte de Kohonen et les réseaux polynomials sont bien décrits dans [TOU 92] et [CHE 07a]. Un tour d’horizon des utilisations des RNA dans le traitement d’image est exposé dans [EGM 02].

TAB. 2.1 − Quelques fonctions de transfert usuelles. x est le vecteur d’entrée.

Fonction linéaire ∑ +i

ii wxw 0.

Fonction sigmoïde xe λ−+1

1

Fonction tanh 1

12

2

+−

x

x

e

e

Fonction softmax ∑i

x

x

ie

e

Fonction à base radiale de centre xc

−−

2

2

2exp

σcxx

FIG. 2.14 − Différentes topologies de réseau de neurones (figure extraite de [CHA]). (a) réseaux multicouches ; (b) à connexions locales ; (c) à connexions récurrentes ; (d) à connexions complètes.

(a) (b)

(c) (d)


2.4.2.1 Perceptrons Multi-Couches

Les prceptrons multicouches sont les réseaux de neurones les plus populaires et les plus simples. Ce sont des réseaux à propagation directe sans cycle, avec au mois une couche cachés (figure 2.15), les neurones sont généralement complètement connectés et la fonction de transfert est de type sigmoïd (valeur dans [0,1]), tanh (valeur dans [-1,1]) ou softmax.

Ce classifieur a trouvé application dans beaucoup de domaines tels que la reconnaissance de caractères, la reconnaissance de visages, la prédiction, etc. notamment grâce à sa performance très intéressante, à son pouvoir de généralisation et à sa rapidité en phase de décision. Toutefois, son utilisation est liée à un certain nombre de problèmes (sur apprentissage, minima local, etc.). Une description détaillée de ces problèmes est donnée dans [CHA 06].

2.4.2.2. Réseau à base de fonction radiale

Les réseaux de neurones de type RBF ont généralement une seule couche cachèe. Les neurones de cette couche sont de type gausssiens et les neurones de la couche de sortie sont de type linéaire ou toute autre fonction comme pour les PMC. L’apprentissage des réseaux de neurones RBF est direct [AUG 01], il consiste à apprendre les paramètres de la couche de sortie par la méthode de descente de gradient. Les caractéristiques des neurones gaussiens sont généralement estimées au début de l’apprentissage (le plus souvent, par la méthode de clustering) et ils seront par la ensuite figées.

Dans [AUG 01], Augustin présente une comparaison entre les réseaux PMC et RBF, il indique que les réseaux RBF n’ont pas toujours de bons comportements dans des espaces de hautes dimensions avec des dimensions redondantes et bruitées, problème qu’un PMC est supposé mieux résoudre. Outre, l’algorithme

FIG. 2.15 − Perceptron Multi-Couches avec une seule couche cachée (figure extraite de [CHE 07a]).

Reconnaissance 27

d’apprentissage d’un RBF demande pour un même niveau de performances, plus de paramètres que pour un PMC, et par conséquent plus de données. Le nombre de neurones cachés peut croître exponentiellement avec le nombre de dimensions. Cependant, un réseau RBF modélise les distributions de probabilité des formes conditionnellement aux classes, ce qui représente plus d’informations que de modéliser le seul voisinage des frontières de décisions comme le fait un PMC.

2.4.3 Machines à Vecteurs de Support

Parmi les méthodes à noyaux, inspirées de la théorie statistique de l’apprentissage de Vladimir Vapnik, les machines à vecteurs de support (SVM) constituent la famille la plus connue [COR 95]. Les SVM sont des classifieurs binaires par apprentissage supervisé destinés à résoudre des problèmes de discrimination ou de régression (prédiction).

Cette méthode repose sur l’utilisation d’une transformation non linéaire pour redécrir les données d’apprentissage dans un espace de plus grande dimension. Les données non linéairement séparables dans l’espace initial seront donc plus simples à séparer dans l’espace de grande dimension (voir figure 2.16). L’objectif est alors de déterminer dans le nouvel espace, que l’on nomme espace de redescription, un hyperplan qui permet de séparer les données d’apprentissage de manière optimale, c’est la notion de marge maximale.

Pour simplifier, prenant le cas des données linéairement séparables. Le choix de l’hyperplan séparateur n’est pas évident. Il existe en effet une infinité d’hyperplans séparateurs (voir figure 2.17.a), dont les performances en apprentissage sont identiques, mais les performances en généralisation peuvent être très différentes.

FIG. 2.16 − Principe de base des SVM (figure extraite de [RUS 02]). (a) problème non

linéairement séparable, l’équation du plan séparateur est 122

21 ≤+ xx ; (b) projection des

données dans un espace tridimensionnel( )2122

21 2,, xxxxx .

Limite de décision Circulaire Limite de décision Linéaire


Pour résoudre ce problème, il a été montré qu’il existe un unique hyperplan optimal défini comme l’hyperplan qui maximise la marge entre les échantillons et l’hyperplan séparateur [COR 95] (figure 2.17.b). À cet effet, seuls les points situés sur les hyperplans de marges maximales appelés vecteurs supports participent à la définition de l’hyperplan optimal.

En d’autres termes seul un sous ensemble restreint de données est nécessaire pour le calcul de la solution, les autres échantillons ne participent pas à sa définition. Ceci est donc efficace au niveau de la complexité. D’autre part, le changement ou l’agrandissement de l’ensemble d’apprentissage à moins d’influence que dans un classifieur PMC par exemple, où toutes les données participent à la solution. En effet, le fait d’ajouter des échantillons à l’ensemble d’apprentissage qui ne sont pas des vecteurs supports n’a aucune influence sur la solution finale.

Pour les données non linéairement séparables, l’idée des SVM est de reconsidérer le problème dans un espace de dimension supérieure, éventuellement, de dimension infinie. Dans ce nouvel espace, il est alors probable qu’il existe un hyperplan de séparation linéaire (figure 2.16.b). Cependant, le problème qui se pose est la détermination de cet hyperplan dans un espace de très grande dimension.

La solution consiste à utiliser «l’astuce du Kernel trick » (l’astuce du noyau) pour déterminer l’hyperplan qui sépare de manière optimale les données dans un espace de très grande dimension sans avoir besoin de redécrire les données dans celui-ci [MIL 07]. Cette solution est beaucoup moins coûteuse qu’un produit scalaire dans l’espace de redescription.

Les fonctions noyau couramment utilisées sont :

– le noyau linéaire : ii xxxxk .),( =

FIG. 2.17 − Notion de marge maximale. (a) pour un ensemble de points linéairement séparables, il existe une infinité d’hyperplans séparateurs ; (b) l’hyperplan optimal (en rouge) avec la marge maximale, les échantillons entourés représentent les vecteurs supports.

(a) (b)

Reconnaissance 29

– le noyau sigmoïde: ))..(tanh(),( θ+= ii xxKxxk

– le noyau polynomial : pii xxKxxk )1)..((),( +=

– le noyau RBF :

−=

2

2

2exp),(

σi

i

xxxxk

K, θ , p, σ sont des paramètres des noyaux, dont leur détermination ainsi que le choix de la fonction noyau incombent à l’utilisateur car il n’existe pas de guide prouvé pour toute utilisation. Toutefois, le noyau polynomial et le noyau RBR sont indiqués dans [CHE 07a] comme étant les types de noyau les plus performants pour les applications de la reconnaissance de formes.

Comme nous l’avons précisé précédemment, les SVM ne permettent de séparer que deux classes, il est nécessaire alors d’en combiner plusieurs pour résoudre les problèmes multi-classes. Dans [MIL 07], J. Milgram compare deux stratégies de combinaison : «un contre un» et «un contre tous». Le problème traité est la reconnaissance de lettres et de chiffres manuscrits sur lequel deux autres classifieurs ont été développés: un KPPV et un PMC. L’auteur conclut sur les points suivants :

− Les SVM permettent bien d’obtenir des taux d’erreur en généralisation, légèrement plus faibles que ceux obtenus avec un PMC, ce dernier a obtenu des performances significativement meilleures que celles obtenues par un KPPV.

− La stratégie «un contre tous» semble plus précise que la stratégie «un contre un», mais elle apparaît aussi plus complexe à la fois au niveau de l’apprentissage et de la prise de décision.

2.4.4 Modèles de Markov Cachés

Une étude des Modèles de Markov Cachés (Hidden Markov Model : HMM) a été réalisée et détaillée dans [BEL 97] et [MEN 08b]. La description présentée ici en est une version récapitulée :

Les HMM ont été utilisés avec succès en reconnaissance de la parole, ce qui incite leur utilisation en reconnaissance de l’écriture, les motivations sont nombreuses :

– Les HMM sont des modèles stochastiques qui permettent de prendre en compte la variabilité des formes et du bruit qui perturbent la reconnaissance de l’écriture.

– Ce sont des modèles qui permettent de prendre en compte des séquences de longueurs variables. Ce point est particulièrement important en reconnaissance de l’écriture manuscrite où la longueur des mots peut varier considérablement en fonction des styles d’écriture.

– Ce sont des modèles performants de modélisation de séquence. Pour l’écriture, ils permettent d’éviter le problème de la segmentation explicite en caractères. L’utilisa-


tion d’une segmentation implicite par fenêtre glissante et un reconnaisseur à base de HMM a obtenu des taux de reconnaissance bien élevés [ELH 05a], [PEC 06], [BEN 06a]. Les HMM permettent d’appliquer le paradigme de segmentation-reconnaissance simultané.

– C’est une approche qui s’appuie sur un ensemble d’algorithmes standard et éprouvés. L’implémentation de ces algorithmes s’appuie sur des techniques bien maîtrisées de programmation dynamique. Un certain nombre de librairies et de modules sont également publiquement accessibles pour l’apprentissage et le décodage des HMM.

2.4.4.1 HMM 1D

Les HMM 1D sont des modèles statistiques bien adaptés à la modélisation des données séquentielles. Ils sont des automates probabilistes doublement stochastiques constitués : d’un ensemble de N états, un ensemble de M symboles d’observations émis par ces états, et de trois matrices de probabilités (voir figure 2.18).

La séquence des états successifs n’est pas directement observable, d’où le nom de caché. Les HMM peuvent être discrets si les observations appartiennent à un alphabet fini de symboles, ou continus si les observations sont continues. Un model de Markov caché se définit donc par les éléments suivants:

{ }NsssS ,....,, 21= , l’ensemble des N états du modèle. On désigne un état au temps t

par qt ∈ S

FIG. 2.18 − Définition des paramètres d’un Modèle de Markov Caché (figure extraite de [AUG 01].

Reconnaissance 31

{ }MvvvV ,....,, 21= , l’ensemble discret des M symboles. On désigne un symbole au

temps t par ot ∈ V

{ } ( )itjtijNjiij sqsqPaoùaA ==== +≤≤ 1,1, , pour le model d’ordre 1, A est la

matrice des probabilités de transitions entre états.

( ){ } ( ) ( )jtktjMkNjj sqvoPkboùkbB ====≤≤≤≤

,1,1

. B est la matrice des probabilités

d’observations dans les états.

{ } ( ) ππππ ., 11 iiNii sqPoù === ≤≤ est le vecteur des probabilités initiales des états.

Par simplification, on désigne un HMM par le triplet { }.,, πλ BA=

Pour les modèles de Markov continus, les probabilités d’émission des symboles

( )kbj sont modélisées soit par des mélanges de gaussiennes dont les paramètres sont

estimés lors de l’apprentissage du modèle, soit obtenues à partir des probabilités a posteriori ( )ti oqP fournies par un classifieur, c’est le cas des approches neuro-

markoviennes [CHA].

L’apprentissage d’un HMM consiste à déterminer les paramètres (A, B, π) qui

maximise le produit )(1

λkn

kOP

=∏ , où les Ok sont les séquences d’observations des n

échantillons de la base d’apprentissage. À cet effet, l’algorithme de Baum-Welch est la technique la plus utilisée, le détail de cet algorithme est présenté dans [BEN 08a].

Selon le mode de modélisation adopté pour la représentation des classes à reconnaître, la phase de décision de HMM peur être effectuée de deux façons différentes :

Cas d’un model par classe, la reconnaissance peut se faire par une recherche du modèle discriminant. En calculant les probabilités d’émission de la forme par tous les modèles, la forme à reconnaître sera affectée à la classe dont le modèle fournit la probabilité la plus importante.

Cas d’un seul modèle pour toutes les classes, dans ce cas, la reconnaissance consiste à déterminer le chemin optimal qui fournit la classe, c’est-à-dire à trouver le modèle ou la meilleure suite d’états qui maximise la quantité P(Q|O,λ). Ceci revient à trouver le meilleur chemin dans un graphe, le plus souvent par l’application de l’algorithme de Viterbi.

2.4.4.2 HMM Planaires

Les HMM classiques, qui considèrent la forme comme un signal unidimensionnel, ont été utilisés avec succès en reconnaissance de l’écriture. Mais la nature 2D de


l’écriture permet de penser que des améliorations plus importantes peuvent être apportées en étendant les HMM à deux dimensions. Ce qui a donné une extension des HMM appelée HMM pseudo-2D ou planaires (PHMM). En pratique, Les PHMMs sont des HMM où la probabilité d’observation dans chaque état est donnée par un HMM secondaire. L’architecture générale d’un PHMM inclut un modèle principal composé de super-états auxquels sont associés des modèles secondaires (voir figure 2.19). Pour l’écriture, généralement le HMM principal décrit l’image verticalement ligne par ligne, tandis que les HMM secondaires décrivent une ligne site par site. Ces sites sont un voisinage de pixels qui doivent être à la fois suffisamment grands pour permettre des mesures, et suffisamment petits pour s’attacher à extraire une caractéristique locale.

2.4.5 Reconnaissance floue

Contrairement à la logique classique, la logique floue permet de manipuler d’autres valeurs de vérité que le vrai et le faux absolus. Cette logique, qui a été introduite par Lotfi A. Zadeh en 1965 [ZAD 65], permet la représentation des connaissances incertaines et imprécises afin de modéliser au mieux le raisonnement humain. Cette représentation est faite à travers la notion des ensembles flous qui permet de définir une appartenance graduelle d’un élément à une classe ou un ensemble, c’est-à-dire appartenir plus ou moins à cet ensemble, ce dernier est alors qualifié de « flou ». L’appartenance d’un objet x à un sous ensemble flou A est définie par un degré d’appartenance µA(x) entre 0 et 1.

Pour mettre en évidence cette notion, un exemple couramment utilisé est celui de la taille d’un individu (voir figure 2.20) pour laquelle on définit trois classes «petit », « moyen » et « grand » dans les intervalles « petit = [40, 160[ », « moyen = [160, 180[» et « grand = [180, 250] ». Selon la logique classique, une personne x de 159,9cm est qualifié de petite taille et non pas moyen, bien qu’il y ait une petite

FIG. 2.19 − Exemple d’architecture d’un PHMM (figure extraite de [BEL 97]).

Reconnaissance 33

différence. En logique floue, x sera considéré de petite taille avec un degré d’appartenance égal à 0.4 et de taille moyenne avec un degré d’appartenance égal à 0.8. Les ensembles flous sont donc plus riches en information que les ensembles classiques. En effet, un ensemble classique est un sous ensemble flou particulier pour lequel le degré d’appartenance vaut soit 0 soit 1 et non pas toute valeur comprise entre 0 et 1.

L’utilisation de la logique floue dans le domaine de l’intelligence artificielle se justifie, d’une part, par le fait que l’homme, dans sa vie quotidienne, prend de bonnes décisions à partir des informations floues. D’autre part, les systèmes informatiques s’appuient très souvent sur des connaissances tachées d’incertitude et d’imprécision. La reconnaissance de l’écriture, et particulièrement l’écriture manuscrite s’inscrit pleinement dans le cadre de ces systèmes. La présence de bruit et la grande variabi-lité morphologique de l’écriture manuscrite introduisent une forte ambiguïté dans tous les niveaux du processus de reconnaissance. L’incertitude et l’imprécision peuvent s’exprimer, dés le début des traitements, en terme d’ambiguïté d’apparte-nance d’un pixel à la forme du caractère, au bruit ou au fond (s’il est noir ou blanc, s’il est bruit ou point diacritique par exemple), au niveau de la définition des primitives (à partir du quel seuil de distance est il possible de décider si une montée correspond à un caractère ascendant ou non ?), ou encore dans la reconnaissance au niveau des classes vagues aux frontières mal définies (ce mot ressemble à peu prés à celui de la class B, ou si en rajoutant deux points au dessous, qui sont probablement

40 160 180 250

µ(x)

Taille en cm

1 petit moyen grand

(a) Représentation ordinaire

FIG. 2.20 − Le degrés d’appartenance et les ensembles flous.

petit moyen grand

Taille en cm

µ(x) 1

159,9

0.4

0.8

(b) Représentation floue


mal éliminés, il ressemble plus à la classe A). Par conséquent, la reconnaissance de l’écriture manuscrite pose la question de la modélisation de l’incertitude et de l’imprécision. Dés lors, l’utilisation de la logique floue s’est naturellement imposée dans ce domaine.

Dans la suite de cette section, nous nous intéresserons plus particulièrement à l’intégration de la logique floue au niveau de la reconnaissance.

2.4.5.1 Perceptron Multi-Couches flou

Dans [PAL 92], Sankar K. Pal et Sushmita Mitra introduisent une version floue d’un Perceptron Multi-Couches qui intègre la logique floue à différents niveaux. L’originalité de ce travail consiste à fuzzifier les sorties du réseau lors de son apprentissage, avant de procéder à leur défuzzification en phase de test.

Les auteurs proposent alors de fuzzifier les entrées et les sorties du PMC flou, ils développent également un mécanisme adéquat pour améliorer l’apprentissage dans le sens où ils changent les valeurs affectées au moment d’inertie (the damping coefficient ou momentum) et au pas d’apprentissage (learning rate) afin d’éviter les minimums locaux et d’accélérer la convergence.

Fuzzification des entrées du PMC flou

Pour les données d’entrée (primitives), les auteurs définissent une fonction π qui permet d’attribuer à chaque valeur de primitive r un degré d’appartenance à chacun des trois ensembles flous {‘petit’, ‘moyen’, ‘grand’} :

≤−≤

−−

≤−≤

−−

=

nonsi

crforcr

crforcr

cr

0

2021

212

);;(

2

2

λλ

λλλ

λπ

Avec : - λ le noyau de la fonction d’appartenance qui caractérise la classe floue. Le noyau constitue l’ensemble des éléments vraiment dans cette classe c’est-à-dire avec un degré d’appartenance égal à 1.

- c le point central de la fonction d’appartenance

Le calcul des paramètres λ et c dépend de la primitive considérée (Fj), il se fait à partir de Fj max et Fj min qui correspondent à la plus grande et la plus petite valeur possible de Fj, respectivement :

Reconnaissance 35

( ) ( )( ) ( )jj

j

FmoyenjFmoyen

jjFmoyen

Fc

FF

λ

λ

+=

−=

min

minmax2

1

( ) ( )( )( ) ( ) ( )jjj

jj

FpetitFmoyenFpetit

jFmoyenFpetit

cc

Fcfdenom

λ

λ

×−=

−=

5.0

1min

( ) ( )( )( ) ( ) ( )jjj

jj

FgrandFmoyenFgrand

FmoynejFgrand

cc

cFfdenom

λ

λ

×+=

−=

5.0

1max

Avec : fdenom un paramètre qui contrôle l’étendu de chevauchement entre les fonctions d’appartenance.

La fuzzification des entées transforme ainsi un vecteur de caractéristiques de n-

dimension [ ]iniii FFFF ...,,, 21= en un vecteur de 3n-dimension

)](...,),(),(),([ )()()()( 111iFgrandiFgrandiFmoyeniFpetiti FFFFF

iniiiµµµµ=

Fuzzification des sorties du PMC flou

Pour les PMC classiques, utilisés pour résoudre un problème de classification, la couche de sortie comporte le même nombre de neurones que celui de classes. Lors de l’apprentissage, le neurone qui correspond à la classe désirée est fixé à 1 et les autres à 0, les sorties sont alors binaires. En phase de test, la réponse du réseau est la classe qui correspond au neurone d’activation maximale.

Dans la vie réelle, les données sont souvent mal définies avec des frontières de classes vagues et chevauchées. Par conséquent, les données d’apprentissage doivent avoir des degrés d’appartenance non nuls à plus qu’une seule classe. Pour modéliser ce type de données, les valeurs attribuées aux neurones de sortie du PMC flou sont toutes comprises entre 0 et 1. La méthode proposée dans [PAL 92], pour calculer ces valeurs de sortie graduelles, s’appuie sur un calcul de distance entre la forme à reconnaître et les différentes classes du problème considéré.

Considérant un problème de classification de l classes, nous avons alors l neurones dans la couche de sortie. La distance entre la forme à reconnaître

représentée par son vecteur de primitive iF et la classe k est définit par :

∑=

−=

n

j kj

kjijik V

OFz

1

2

pour k = 1,…,l


Avec : - Fij la valeur de la primitive j extraite sur la forme i.

- Ok et Vk présentent la moyenne et l’écart type, respectivement, associés à l’ensemble de données d’apprentissage qui appartiennent à la class k.

La division sur Vk , dans la formule précédente, permet la prise en compte de la variance de la classe k, de telle sorte qu’une primitive avec une grande variance a de moins d’effet sur la caractérisation de la classe. En revanche, pour une primitive qui reçoit une valeur identique pour toutes les extractions effectuées sur un ensemble d’échantillon d’une classe donnée, l’écart type est nul. Dans ce cas Vk est mis à 1 pour rendre la valeur de

kjV

1 égale à 1. Cette primitive est alors certainement

importante pour identifier la classe considérée, de ce fait, sa contribution dans le calcul du degré d’appartenance à cette classe ne doit pas être réduite.

Le degré d’appartenance de la forme i à la classe Ck est ainsi définit par :

'

1

1)(

ef

d

ik

i

f

ZF

+

=µ

Le degré d’appartenance à une classe se diminue alors avec l’augmentation de la distance entre cette classe et la forme à reconnaître.

Pour augmenter le contraste entre les frontières des fonctions d’appartenance aux différentes classes, les auteurs définissent un degré d’appartenance µINT comme suit:

[ ][ ]

−

≤≤=

onF

FpourFF

ik

ikikikINT

sin)(21

5.0)(0)(2)(

2

2

)(

µ

µµµ

Cette étape est nécessaire pour diminuer l’ambiguïté de la prise de décision.

Le Perceptron Multi-Couches flou de Pal et Mitra a prouvé son efficacité par rapport à d’autres classifieurs tels que les PMC classiques et les classifieurs bayésiens. Il a fait également l’objet de plusieurs travaux de recherches, citons par exemple le travail présenté dans [MIT 95], dans lequel les auteurs utilisent le PMC flou pour la construction automatique d’une base de connaissance d’un système expert; citons aussi [BAN 98] où une base de connaissance est utilisée pour initialiser les poids et déterminer l’architecture du PMC flou.

Plus récemment, dans [GHO 09], A. Ghosh et al proposent un autre modèle d’un réseau de neurones flou dont lequel chaque primitive d’entrée est exprimée par l degrés d’appartenance au l classes du problème considéré. La fuzzification des entrées consiste alors à transformer un vecteur de caractéristiques de n-dimension en

où fd et fe deux paramètres qui contrôle le processus de fuzzification.

sinon

Reconnaissance 37

un vecteur de l × n-dimension. Malgré les performances encourageantes obtenues par ce classifieur, la méthode utilisée pour fuzzifier les entrées limite ses applications aux problèmes de reconnaissance de vocabulaire limité.

2.4.5.2 K plus Proches Voisins flou

Ce type de classifieur tire profit de la logique floue dans le calcul de la distance utilisée pour la sélection des k plus proches voisins. Dans [SIN 99], les auteurs définissent cette mesure floue comme suit :

0.1

),(1)(

−

+=eF

dF

Rxdxµ

Avec : d(x,R) la distance entre la forme inconnue x et l’échantillon R. Fd et Fe deux constantes positives utilisées pour contrôler le floue dans le

calcul précédant.

2.4.6 Combinaison de classifieurs

Afin d’améliorer les performances des systèmes de reconnaissance, une idée intéressante apparue dans les années 90 [CHE 07a] consiste à combiner les classifieurs pour bénéficier de leur éventuelle complémentarité tout en évitant leurs faiblesses. Les expériences décrites dans l’état de l’art montrent que la combinaison de classifieurs conduit à une amélioration du taux de reconnaissance d’un ordre important par rapport à l’exploitation d’un seul classifieur [FAR 06] [ELH 09].

Il existe trois schémas de combinaison de classifieurs (figure 2.21) :

− Combinaison parallèle (ou horizontale) dans laquelle la forme à reconnaître est présentée à plusieurs classifieurs indépendants dont les sorties sont combinées pour donner la décision finale.

− Combinaison séquentielle de classifieur (verticale, ou en cascade) où les classifieurs sont disposés en niveaux successifs de décision permettant de réduire progressivement le nombre de classes possibles.

− Combinaison hybride consiste à combiner les architectures séquentielles et parallèles. Ce type d’approches est généralement dédié à un problème précis, ce qui le rend difficilement généralisable [CHA 06].

Le mode de combinaison parallèle est adopté le plus souvent pour améliorer la performance de reconnaissance. Cependant, la combinaison séquentielle est principalement employée afin d’accélérer la classification de grand ensemble de données [CHE 07a].


Il existe plusieurs méthodes de combinaison de classifieurs dont le choix dépend de la nature de l’information à combiner :

Combinaison de classifieurs de type classe, les classifieurs donnent en sortie la classe de la forme x ou une réponse de rejet. Pour les combiner on peut utiliser :

− Méthode de vote : la réponse choisie est la classe la plus fréquente dans les sorties des classifieurs.

− Vote pondéré : dans cette méthode, les classifieurs n’ont pas tous la même importance ; la réponse de chaque classifieur est pondérée par un coefficient qui indique sa crédibilité.

− Majorité avec seuil : une classe est choisie si la majorité des classifieurs donnent cette réponse et si cette majorité dépasse un certain seuil prédéfini.

Combinaison de classifieurs de type rang, la sortie des classifieurs est une liste ordonnée de propositions. La combinaison peut être faite par l’intersection, l’union, ou en prenant la classe de meilleur rang attribué par les classifieurs.

Combinaison de classifieurs de type mesure, les classifieurs donnent en sortie des valeurs de confiance associées à chaque proposition de la liste des hypothèses. Une phase de normalisation des sorties précède généralement la combinaison. Cette dernière peut être achevée en appliquant différentes règles de combinaison telles que le maximum, le minimum, le produit, la somme, etc.

Dans [FAR 05a], Farah et al présentent une expérimentation intéressante qui regroupe huit règles de combinaison: Borda count, Dempster Shafer, produit, somme, moyenne, max, min et la règle de naïve Bayes. Le travail montre le franc succès apporté par la combinaison de classifieurs indépendamment de la règle de combinaison utilisée.

combinaison

classifieur 1 classifieur 2

forme à reconnaître

décision finale

classifieur 1

classifieur 2


décision finale

classifieur 1

classifieur 3

combinaison


classifieur 2

décision finale

FIG.2.21 − Les 3schémas de combinaison de classifieurs : architecture parallèle, architecture séquentielle et architecture hybride.

Post-Traitements

39

Une autre tendance intéressante consiste à automatiser la construction d’un ensemble de classifieurs. L’approche permet de distribuer le problème de classification sur un ensemble de classifieurs spécialisés. Pour ce faire, la base d’apprentissage est décomposée en plusieurs sous-ensembles, puis chacun de ces derniers est utilisé pour entraîner un ou plusieurs classifieurs.

Pour avoir cette décomposition de la base d’apprentissage, Y. Prudent et A. Ennaji utilisent, dans [PRU 04], une extension des réseaux de Kohonen appelée réseau Growing Neural Gas (GNG) pour créer une structure qui reflète la topologie des données dans l’espace de représentation.

Dans le même sens, F. L. Minku et T. B. Ludermin [MIN 08] introduisent récemment une nouvelle approche de construction automatique d’un ensemble de RNA basée sur un algorithme de clustering et un algorithme évolutionnaire coopératif. Ce travail comporte quelques d’idées utiles dans le système de reconnai-ssance de l’écriture arabe manuscrite que nous proposons dans cette thèse (voir section 4.4.2).

2.5 Post-Traitements

Dans plusieurs applications de reconnaissance de l’écriture, les connaissances linguistiques ne sont pas facilement accessibles au niveau du classifieur. Elles seront de ce fait intégrées dans des procédures de post-traitements de manière à corriger les erreurs de l’étape de reconnaissance. Le post-traitement permet de remonter la bonne réponse dans la liste des hypothèses ou vérifier si la réponse est correcte ou non en cas de classifieur avec réponse unique.

[CAR 05] est une étude intéressante concernant un post-traitement lexical. L’auteur distingue quatre niveaux de connaissances linguistiques :

Le niveau pragmatique correspond à l’analyse du langage associé à son utilisation et à l’action. Il a une valeur concrète et pratique.

Le niveau sémantique concerne l’analyse de phrases ou d’énoncés du point de vue du sens comme par exemple les relations action/acteur, objet/processus, mais aussi la synonymie, la polysémie, etc.

Le niveau syntaxique concerne l’analyse de phrases du point de vue grammatical, des règles régissant les relations entre les mots dans une phrase.

Le niveau lexical est l’analyse de mots, cette analyse est liée à la notion de lexique qui désigne l’ensemble des mots d’une langue, ou l’ensemble des mots appartenant à un certain vocabulaire. Dans les applications informatiques, une analyse lexicale est souvent une vérification d’appartenance à un lexique.

Pratiquement les connaissances linguistiques les plus utilisées dans les procédures de post-traitement sont syntaxiques et lexicales.


Dans un post-traitement syntaxique, un ensemble de règles grammaticales traduisant le contexte syntaxique du document est appliqué afin de confirmer ou non la séquence de mots proposés. Ce type de post-traitement est largement utilisé dans le cadre de la lecture des montants littéraux des chèques [LAM 95] [FAR 06], où les règles syntaxiques ne sont pas trop nombreuses.

Le rôle du post-traitement lexical est d’ordonner les mots du lexique par rapport à leur ressemblance aux propositions issues d’une approche de reconnaissance analytique (ou pseudo analytique). Les connaissances lexicales peuvent être modélisées par des modèles de langage de N-grammes ou par des dictionnaires (lexiques).

2.5.1 Méthodes basée sur des modèles de langages de N-grammes

Les N-grammes sont une modélisation statistique du langage. L’idée est d’observer la fréquence des suites de lettres à l’intérieur des mots, ou la fréquence des enchaînements des mots à l’intérieur des phrases. Les N-grammes peuvent être représentés sous forme de graphes [MEN 08b], leur utilisation permet de déterminer et de corriger certaines erreurs, mais ne garantit pas l’appartenance à un lexique. Les systèmes à vocabulaire ouvert utilisant des N-grammes permettent la reconnaissance de mots nouveaux. L’inconvénient de ces systèmes est que leurs taux de reconnaissance sont généralement plus faibles que ceux obtenus avec des systèmes à vocabulaire limité basés sur des lexiques [CAR 05].

2.5.2 Méthodes basées sur des lexiques

Les représentations souvent choisies pour les lexiques sont des tries (arbres lexicaux), tables de hachage ou graphes [CAR 05]. La recherche d’un mot à reconnaître dans un lexique nécessite l’emploi des méthodes de parcours spécifiques, les plus utilisées sont :

− Recherche du mot le plus proche par appariement basé sur la programmation dynamique,

− Algorithme de Viterbi,

− Recherche A*.

− Beam search

Pour une description détaillée de ces techniques, on pourra consulter les travaux [KOE 03] et [CAR 05].

Mesures de performances

41

2.6 Mesures de performances

Les performances des systèmes de reconnaissance de l’écriture dépendent très étroitement de la taille du vocabulaire et de la qualité de l’écriture. Selon la taille du vocabulaire on distingue [MEN 08b]:

− petits vocabulaires : quelques dizaines de mots.

− vocabulaires de tailles moyennes : quelques centaines de mots.

− vocabulaires de grandes tailles : quelques milliers de mots.

− vocabulaires de très grandes tailles : quelques dizaines de milliers de mots.

− vocabulaire ouvert : pas de lexique pour guider la reconnaissance.

Lorsque la taille du vocabulaire augmente, la tâche de reconnaissance devient de plus en plus complexe. La taille du vocabulaire et la qualité de l’écriture ne sont d’ailleurs pas les seuls paramètres; dans [GRA 99], les auteurs indiquent qu’une longueur des mots en moyenne plus importante améliore la reconnaissance puisque la discrimination entre les mots peut se faire sur plus de lettres. En outre, l’existence des mots similaires dans le vocabulaire augmente l’ambiguïté et la confusion dans la reconnaissance, la figure 2.22 montre un exemple de mots de noms de villes françaises qui se différencient seulement par un ou deux lettres.

Ces facteurs exigent l’utilisation des mêmes données d’apprentissage et de test afin d’évaluer judicieusement les différents systèmes de reconnaissance, cette évalu-ation repose sur :

FIG. 2.22 − Exemple de mots similaires présentes dans la base de mots de noms de villes françaises (figure extraite de [KOE 03]).

Processus de reconnaissance de l’écriture manuscrite

42

Taux de reconnaissance : il correspond au rapport :

tot

corrreco N

NT =

Treco : taux de reconnaissance

Tcorr : nombre de mots correctement reconnus

Ttot : nombre total de mots

Lorsque le système de reconnaissance renvoie une mesure de confiance, il est possible d’établir un seuil de rejet, et donc d’évaluer le taux de reconnaissance en fonction de ce seuil :

( )( )

tot

seuilcorrseuilreco N

NT =

Treco(seuil) : taux de reconnaissance pour un seuil donné

Tcorr(seuil) : nombre de mots correctement reconnus dont le score de confiance est supérieur à un seuil donné.


De manière analogue, on peut également définir le taux de substitution [MEN 08b] de la manière suivante :

( )( )

tot

seuilerrseuilsub N

NT =

Tsub(seuil) : taux de substitution pour un seuil donné

Terr(seuil) : nombre de mots mal reconnus dont le score de confiance est supérieur à un seuil donné.


Mesure de complexité : une mesure de la complexité (difficulté) de la tache de reconnaissance est proposée dans [GRA 99]. La mesure est appelée Perplexité PR , elle est relative à la notion d’entropie HR :

RHRP 2= avec : ( )∑

=−=

m

i

icorrR m

H1

Prlog1

m : le nombre total de mots icorrPr : la probabilité a posteriori de la reconnaissance correcte du mot i par le

classifieur.

43

Chapitre 3

Reconnaissance de l’écriture arabe manuscrite

Ce chapitre présente l’état de l’art du domaine de la reconnaissance de l’écriture arabe manuscrite. Dans la première partie, nous présenterons les spécificités de cette écriture, nous passerons en revue la plupart des problèmes spécifiques à la reconnai-ssance de l’écriture manuscrite, et nous exposerons également les principales base de données existantes et quelques surveys généraux sur le domaine.

La plus grosse partie de ce chapitre est réservée à la présentation des travaux effectués dans les différentes étapes de la chaîne de reconnaissance. Nous termine-rons ce chapitre par une discussion sur les systèmes participants aux compétitions IDCAR 2005, 2007 et 2009.

3.1 Présentation et problématique de l’écriture arabe

L’écriture arabe est semi cursive dans ses deux formes: imprimée et manuscrite, elle s’écrit de droite à gauche. Le nombre de lettres de l’alphabet est de 28 lettres dont la forme change selon la position dans le mot (voir tableau 3.1).

On distingue 22 lettres de l’alphabet qui peuvent s’écrire différemment selon qu’elles soient isolées, au début, au milieu ou à la fin du mot, telles que le caractère Ha : ( �� ه � ) et le caractère Ain : ( " ! � ع ).

Les six lettres restantes : ا،د،ذ،ر،ز،و ne peuvent être rattachées à leurs successeurs et donc elles n’ont que deux formes: isolées ou à la fin. Ces lettres introduisent une coupure dans le mot. En effet, un mot arabe est une séquence d’entités connexes entièrement séparées appelées pseudo-mot (ou PAWs : Pieces of Arabic Words). Un mot peut être composé d’un ou de plusieurs pseudo-mots, chaque pseudo-mot est une séquence de lettres liées, ce qui donne l’aspect de cursivité à cette écriture, notons qu’un caractère isolé peut constituer un pseudo-mot à lui seul (voir figure 3.1).

��ا ن��ا �ا �� FIG. 3.1 − Un mot arabe peut être composé de plusieurs composantes connexes (pseudo-mots ou PAWs). De droite à gauche, 1 seul PAW, 2 PAWs, 4 PAWs, et 3 PAWs par mot.

Reconnaissance de l’écriture arabe manuscrite 44

L’écriture arabe est riche en diacritiques, un signe diacritique est une composante secondaire d’une lettre, qui vient la compléter ou en modifier le sens. Les signes diacritiques peuvent être des points ou d’autres signes tels que hamza, chadda, madda, etc. Nous comptons 15 lettres, parmi les 28 de l’alphabet, qui comportent des points (un, deux ou trois). Ces points apparaissent au dessus ou en dessous du caractère uniquement. Le nombre maximal de points que peut avoir une lettre est de trois points au-dessus du caractère ou deux points en dessous. Ces points permettent la distinction entre certains groupes de lettres (figure 3.2.a), ils sont parfois indispensables pour la différenciation entre les mots (figure 3.2.b).

Caractère Début Milieu Fin isolé Alif ا ـ� Ba ب ــ) ــ'ــ �ـ Ta ــ( ــ�ــــ �ــ ou ت ـ� ou ة Tha ث ـــ. ـــ-ــــ ,ـــ Nun ـــ 0ــ ن ــ� ـــYa ي ــ2 ــ�ـــ 1ــ Jim ج ــ6 ــ5ــ 4ـ Ha ح ـــ: ــ9ــ 8ـ Kha خ ــ< ــ=ــ >ـ Dal @د ــ Thé ذ ــ� Ra ر ــ� Za ز ــ

Waw و ــ� Sin ــA ــBـــ Cس ـــ

Chin ــE ـــFـــ Gش ـــ Sad ـI ــJــ Kص ـــ

Dhad ـM ــNـــ Oض ـــ Tad ــ طRــ Sط ـــ Dha ــ ظUــ ــVـ ظ Ayn ع ــ" ـ!ــ �ـ

Ghayn ـW ـــXــ Yغ ـــ Fa ف ــ\ ــ�ـــ ]ــ Qaf ق ــ_ ـــ�ـــ ^ــ Kaf ــ آـaــ bك ـــ Lam ــ �ــ ل ـــd ــMim ــ�ــ eــ fم ـــ He ــ هـ�� ـ� ــ

TAB. 3.1 – Les 28 lettres de l’alphabet arabe avec leurs différentes formes.

Présentation et problématique de l’écriture arabe 45

La reconnaissance de manuscrit arabe est plus difficile que la reconnaissance des manuscrits des autres scripts tels que le latin [BEL 06]. En effet, les spécificités de l’écriture arabe introduisent un certain nombre de difficultés supplémentaires :

– Les signes diacritiques jouent un rôle primordial dans la différenciation entre certains groupes de lettres. En plus, leur manipulation n’est pas tout à fait facile : les prétraitements, notamment la squelettisation et la suppression du bruit, risquent d’altérer la forme des signes diacritiques ou même les supprimer, la variation des styles d’écriture des diacritiques rend complexe leur reconnaissance, en outre, la superposition verticale de ces diacritiques par rapport à la lettre originale n’est pas toujours préservée (voir figure 3.3).

– Comme pour l’écriture latine, l’écriture arabe contient des descendants. Ces derniers peuvent se prolonger horizontalement sous la bande de base, ce qui introduit une superposition verticale entre le descendant et la lettre suivante et complique la

�ـ �ـ �ـ �ـ

ح خ ج(a) (b)

FIG. 3.2 − Exemple de lettres et mots arabes qui se différencient que par la présence, la position, ou le nombre de signes diacritiques.

FIG. 3.3 − Difficultés liées aux points diacritiques. (a) différents styles d’écriture des points diacritiques ; (b) problème d’association des diacritiques à leur lettre originale.

(a)

(b)


tache de la segmentation ainsi que l’analyse de l’histogramme de projection horizon-tale.

– La notion de pseudo-mot introduit une segmentation naturelle de l’écriture. En manuscrit, l’espace intra-mot n’est pas forcément inférieur à l’espace entre-mots, ce qui complique la segmentation en pseudo-mots et en mots. En outre, cette décomposition en pseudo-mots peut créer différents angles d’inclinaisons au sein d’un même mot, ce qui pose des problèmes lors de l’extraction de la ligne de base (voir paragraphe 4.2.5).

– Ligature verticale : les liaisons entre les lettres arabes d’un pseudo-mot se situe au niveau de la ligne de base, toutefois certaines lettres peuvent être liées verticalement constituant ainsi des ligatures verticales (exp. : حملحملحملحمل ), généralement très complexes à

segmenter.

– Levée de plume : deux catégories de lettres peuvent provoquer le phénomène de levée de plume, la première constitue les lettres qui s’écrivent de gauche à droite telles que : ح، ط et ض. La deuxième constitue les lettres qui s’écrivent de haut en bas telles que آـ. L’apparition d’une des lettres de ces deux catégories au milieu ou à la fin des pseudo-mots exige le scripteur à lever son plume provocant par fois des coupures indésirables à l’intérieur des pseudo-mots. Ce phénomène crée donc des composantes connexes supplémentaires et produit le problème de la sur-segmentation en pseudo-mots (voir figure 3.4.c).

– En revanche, les connexions indésirables entre les pseudo-mots sont un problème fréquent dans le manuscrit arabe. Ce problème figure souvent entre les successions des descendants qui peuvent se toucher et au niveau des ligatures verticales. Il perturbe l’extraction des pseudo-mots, en d’autres termes, il peut conduire à des sous-segmentations en pseudo-mots et en mots (voir figure 3.4.b).

Note. Les images utilisées dans les illustrations précédentes sont toutes extraites de la base de noms de villes tunisiennes IFN/ENIT [PEC 02a] (voir section 3.2.4). Aucune contrainte n’a été imposée aux scripteurs de cette base. De ce fait, elle présente pratiquement tous les problèmes et les difficultés liés à la reconnaissance de l’écriture arabe manuscrite. Dans cette thèse, nous utiliserons la base IFN/ENIT pour la validation de nos travaux effectués sur la reconnaissance hors-ligne de l’écriture arabe manuscrite.

(a) (b) (c)

FIG. 3.4 − Les problèmes liés à d’extraction des pseudo-mots. (a) un mot arabe correctement écrit (2PAW) ; (b) liaison indésirable entre caractères et sous segmentation en PAWs (1 seul PAW) ; (c) coupure indésirable et sur-segmentation en PAWs (3 PAWs).

Principales bases de données existantes

47

3.2. Principales bases de données existantes

La disponibilité d’une base de données de référence est un besoin crucial pour une évaluation objective des performances des différents systèmes de reconnaissance de l’écriture. Depuis le début des années 90 [ELA 08], la recherche dans le domaine de la reconnaissance de l’écriture latine a bénéficié de nombreuses bases de données telles que la base CEDAR développée en 1994.

Pour l’écriture arabe, la situation est totalement différente et explique, en grande partie, le retard de la recherche dans le domaine de la reconnaissance de ce script [LOR 06] ; en effet la seule base de données gratuite à l’heure actuelle est la base IFN/ENIT publiée en 2002 [PEC 02a]. À l’exception de cette base, la plupart des bases de données ne sont plus accessible, elles étaient développées pour un travail de recherche bien définit [ELA 08].

Dans [ELA 08], Haikal El Abed et Volker Märgner discutent l’importance et la diversité de bases de données pour les systèmes de reconnaissance de l’écriture arabe, ils présentent également une brève description de quelques base de données de manuscrit arabe qui sont plus détaillées dans cette section.

3.2.1. Al-Isra database, N. Kharma et al, 1999

En 1999, N. Kharma et al [KHA 99] introduisent une base de données collectée à l’aide de 500 étudiants de l’université de Al-Isra à Amman. Il s’agit d’une base d’images en format bitmap représentant :

− 37000 mots arabes,

− 10000 chiffres arabes et indiens,

− 2500 signatures en arabe,

− 500 phrases simples (ligne de la poésie) avec les voyelles.

Selon les auteurs, cette base de données est la première base publiée dans le domaine de la reconnaissance de l’écriture arabe.

3.2.2 CENPARMI ‘1’ database, Y. Al-Ohali et al, 2000

En 2000, Y. Al-Ohali et al ont achevé la réalisation d’une base d’image de chèques saoudiens issus de la pratique bancaire [ALO 00] [ALO 03]. Cette base comporte 7000 images de chèques en format TIFF scannées avec une résolution de 300 dpi (voir figure 3.5). Une sélection de 3000 images de chèques a permis de mettre au point quatre bases de données :

− une base de 2499 montants littéraux,


− une base de 2499 montants numériques écrits avec les chiffres indiens,

− une base de 29498 pseudo-mots (dans un lexique de 87 pseudo-mots, voir tableau 3.2),

− une base de 15175 chiffres indiens isolés.

TAB. 3.2 − Les différents pseudo-mots du lexique des montants littéraux de chèques saoudiens (figure extraite de [ALO 03]).

FIG. 3.5 − Exemple de chèque saoudien de la base CENPARMI ‘1’ (figure extraite de [ALO 03]).


49

Chacune de ces 4 bases a été divisée en deux ensembles, un pour l’apprentissage (66-75%) et l’autre pour le test. Sur cette division, la première et la deuxième base ont été encore divisées en deux ensembles : des images avec chevauchement de caractères/chiffres respectivement et des images sans chevauchement de caractères /chiffres respectivement.

3.2.3 AHDB database, S. Al-Ma’adeed et al, 2002

En 2002, S. Al-Ma’adeed et al [ALM 02] proposent une base de données de textes et de mots arabes manuscrits écrits par cent différents scripteurs. Les documents de cette base ont été scannés en 600 dpi. Chacun des scripteurs était invité à écrire 6 pages :

− Les 3 premiers pages ont été remplis par 96 mots, parmi eux 67 mots du vocabu-laire de montants littéraux, et 20 mots présentant les mots les plus utilisés dans les textes arabes (voir tableau 3.3),

− La quatrième page est conçue pour contenir trois montants numériques écrits en toutes lettres,

− La cinquième page contient quelques lignes de texte libre choisis par le scripteur.

Mot Mot ه�ا 11 ]2 1 أو 12 �� 2 آ�ن 13 ان 34 i � 14 f� 5 iه� 15 ا� j 16 ا��2 6 ه2 17 ا��ي 78 �� 18 kا 9 "� 19 @'� 10 �� 20 d'^

3.2.4 IFN/ENIT database, M. Pechwitz et al, 2002

En 2002, l’IFN (Institute of Communication Technology) de l’université de Braunschweig en Allemagne et l’ENIT (Ecole Nationnale d’Ingénieur de Tunisie) en Tunisie ont achevé la réalisation de la base IFN/ENIT [PEC 02a]. Il s’agit d’une base d’images de noms de villes tunisiennes collectée à l’aide d’une contribution de 411 scripteurs. Chacun d’entre eux a écrit 60 noms de villes avec leurs codes postaux correspondants.

TAB. 3.3 − Les 20 mots les plus utilisés dans les textes arabes sélectionnés par [ALM 02].


La base contient en totale 26459 noms de villes dans un lexique de 946 villes, 115585 pseudo-mots, et 212211 caractères. Une annotation complète des images de noms de villes est faite automatiquement, précédée par une vérification manuelle. Les 9 différents champs constituants l’annotation sont donnés figure 3.6.

Plus de 82 groupes de recherches dans environ 31 pays travaillent actuellement sur cette base [MAR 09]. L’IFN/ENIT sert de support à l’organisation d’une compétition internationale dans le domaine de la reconnaissance de l’écriture arabe manuscrite : ICDAR (International Conference on Document Analysis and Recogni-tion), 2005 [MAR 05], 2007 [MAR 07], 2009 [MAR 09] et prochainement 2011.

3.2.5 CEDARABIC database, S. N. Srihari et al, 2005

Dans [SRI 05] et [SRI 06], Srihari et al introduisent la base de données CEDARABIC utilisée pour l’évaluation de leurs travaux sur le traitement de documents et la recherche de mots clés dans les pages d’écriture manuscrite. 10 scripteurs ont été mis à contribution pour la réalisation de cette base, chacun d’entre eux a écrit 10 pages de textes, chaque page comprend entre 150 et 200 mots, soit un total d’environ 20000 mots.

Les images de documents sont scannées en 300 dpi. L’annotation des mots est faite manuellement, elle comprend : la séquence des lettres composant le mot, la traduction en anglais et la prononciation.

FIG. 3.6 − Deux images et leurs annotation respectives dans la base IFN/ENIT (dans l’annotation de la séquence des caractères du mot : B : Begin (début), M : Middle (milieu), A : Alone (isolé), E :End (finale) et L : Ligature).


51

3.2.6 IFN/Farsi database, S. Mozaffari et al, 2008

Cette base de données est publiée par Mozaffari et al en 2008 [MOZ 08]. Elle représente des images de 1080 différents noms de villes et de provinces iraniennes ; elle est obtenue à partir des contributions d’environ 600 scripteurs, chacun d’entre eux a été invité à remplir deux formulaires comportant 24 noms présélectionnés de villes et les codes postaux correspondants.

La base IFN/Farsi contient en total 7271 mots, 23545 pseudo-mots, et 43501 caractères. Elle est annotée automatiquement au niveau caractère. L’annotation comporte : la séquence/nombre de caractères, le nombre de pseudo-mots, et le nombre/position des diacritiques (figure 3.7).

Cette annotation se diffère par rapport à celle de la base IFN/ENIT par l’absence de la position de la ligne de base ; cependant, elle bénéfice d’une information utile pour les systèmes de reconnaissance qui est la positon (U : up et D : down) et le nombre de signes diacritiques. Cette information peut faire l’objet d’une réduction lexicale [MOZ 07].

En 2006, S. Mozaffari et al ont développé une base de données de caractères et de chiffres farsis (arabes) [MOZ 06]. La base IFHCDB (Isolated Farsi Handwritten Character Database) peut être utilisée pour l’apprentissage et le test des systèmes de reconnaissance de l’écriture arabe et farsi, elle contient :

− 25380 images de 32 caractères farsis (l’alphabet farsi comporte les mêmes 28

caractères de l’alphabet arabe plus quatre autres lettres : پ ,چ ,ژ ,گ),

− 17740 images de 12 chiffres farsis (les 10 chiffres indiens plus les deux formes supplémentaires ۴ et ۶ d’écriture des chiffres 4 et 6 respectivement).

FIG. 3.7 − Image d’un nom de ville iranien et son annotation sur la base IFN/Farsi (image extraite de [MOZ 08]).


3.2.7 CENPARMI ‘2’ database, H. Alamri et al, 2008

En 2008, H. Alamri et al [ALA 08] du centre CENPARMI introduisent une autre base de données de mots arabes et de chiffres indiens. Cette base est obtenue à partir d’une contribution de 328 scripteurs (canadiens et saoudiens), chacun d’entre eux était invité à remplir deux pages. Ces pages sont scannées avec une résolution de 300 dpi, elles ont permis de mettre au point plusieurs bases de données :

− une base de 284 dates écrites en chiffres indiens (avec des exemples écrits selon le calendrier d’Arabic/Islamic (Hijri) marqués avec la lettre ‘He’ “ ـ ,(” ه

− une base de 46800 chiffres indiens isolés,

− une base de 13439 séquences de chiffres indiens (de 2 à 7 chiffres par séquence),

− une base de 21426 lettres arabes isolées,

− une base de 11375 mots dans un lexique de 70 mots qui expriment des poids, des mesures, et des devises,

− une base de 1640 symboles les plus utilisés dans les documents arabes (‘,’, ‘:’, ‘@’, ‘/’,’#’).

3.3 Surveys existants

3.3.1 B. Al-Badr et S. A. Mahmoud, 1995

Ce travail [ALB 95] présente un aperçu de la recherche dans le domaine de la reconnaissance de texte arabe depuis la première publication en 1975 jusqu’au 1994. Dans ce travail, les auteurs analysent et catégorisent les travaux de recherche selon les cinq étapes du processus de reconnaissance: prétraitements, segmentation, extraction de primitives, classification et post-traitements.

Selon les auteurs, la différence principale entre la reconnaissance de l’écriture latine et arabe se situe au niveau de la segmentation, ils invitent ainsi les chercheurs à développer des algorithmes de segmentation plus performants.

Ils tirent profil de l’avantage de la combinaison de différent types de primitives et de différents classifieurs afin d’augmenter le taux de reconnaissance, ils déplorent l’absence de l’étape de post-traitement dans les systèmes existants et ils insistent sur l’importance de base de test commune pour l’évaluation. Ils invitent les chercheurs à utiliser des documents dégradés en phase d’apprentissage et de tenter la reconnai-ssance de texte plus complexe tel que le Coran.

3.3.2 A. Amin, 1998

Dans [AMI 98], Adnan Amine passe en revu les différentes approches de reconnaissance de l’écriture arabe, les approches en-ligne/hors-ligne et les approches

Surveys existants

53

globale/analytique. Il expose le problème de la segmentation (implicite et explicite) de mots en caractères, et il discute les différentes méthodes proposées et les problèmes envisagés. Ce travail inclus une catégorisation des systèmes de reconnaissance selon le type de primitives employé (globales ou locales), et selon le classifieur utilisé (RNA ou HMM).

On note ici que tous les systèmes exposés, dans ce survey, traitent le problème de la reconnaissance de l’écriture arabe imprimée (mots et caractères).

3.3.3 M. S. Khorsheed, 2002

M. S. Khorsheed présente, dans [KHO 02], un survey des techniques de prétraite-ments, de segmentation, d’extraction de caractéristiques et de classification. L’auteur implémente plusieurs méthodes de prétraitements et de segmentation et expose les résultats de leurs applications sur des mots imprimés et des textes arabes manuscrits.

Il présente également une brève description de quatre OCR de textes imprimés arabes : TextPert, ICRA, OmniPage, et Al-Qari’ al-Ali.

3.3.4 N. Essoukri Ben Amara et F. Bouslama, 2003

Dans [BEN 03], les auteurs montrent l’avantage de la combinaison de plusieurs sources d’informations dans un système de reconnaissance d’écriture arabe. Ils présentent ainsi trois niveaux de combinaison :

− La combinaison de différentes familles de caractéristiques motivée, d’une part, par l’insuffisance d’une seule méthode à englober la variation intra-classes, et d’autre part, par la sensibilité de quelques méthodes au bruit et aux distorsions.

− La combinaison de classifieurs justifiée par l’absence d’un classifieur performant en terme d’apprentissage/génération et en terme de temps de calcul.

− La combinaison de différentes familles de caractéristiques et de classifieurs.

Les auteurs exposent un nombre important de systèmes qui exploitent ces différentes configurations de combinaison. Ils concluent sur le fait que la combinai-son porte solution aux problèmes de la variation des styles d’écriture et de la présence de bruit et de distorsion.

Ils suggèrent l’exploitation de la logique floue et l’incorporation des post-traitements dans les OCRs arabes.

3.3.5 L. M. Lorigo et V. Govindaraju, 2006

Liana M. Lorigo et Venu Govindaraju présentent, dans [LOR 06], un survey complet sur les différentes étapes de la chaîne de reconnaissance de l’écriture arabe.


La première partie de ce travail présente les spécificités et les difficultés de l’écriture arabe. Elle inclue également un tour d’horizon de certaines bases de données: AHDB, CENPARMI et IFN/ENIT.

La deuxième partie discute la chaîne de reconnaissance de l’écriture arabe manuscrite selon les étapes suivantes:

− Représentation (squelette, contour, ou pixels)

− Segmentation.

− Extraction de primitives (structurelles et statistiques)

− Classifieurs (système à base de règles, Réseaux de Neurones, Modèles de Markov Cachés, et approches hybrides).

Les auteurs présentent les six systèmes qui ont participé à la compétition ICDAR 2005 [MAR 05], sans toutefois entrer dans le détail de leur fonctionnement.

En conclusion, les auteurs évoquent le fait que les systèmes étudiés achèvent des résultats satisfaisants mais sur des données contraintes. Les travaux futurs doivent être capables de traiter de l’écriture libre avec des vocabulaires ouverts. De telles applications nécessitent le développement des modèles de langage, qui sont, selon les auteurs, des voies largement inexplorées en langue arabe. Les auteurs insistent également sur l’utilisation des techniques de réduction lexicale et d’analyse morphologique. Cependant, le manque de bases de données de textes arabes manuscrits avec différents styles d’écriture reste un des défis de ce domaine.

3.3.6 A. Belaïd et Ch. Choisy, 2006

A. Belaïd et Ch. Choisy introduisent, dans [BEL 06], un très bon survey des systèmes de reconnaissance de l’écriture arabe regroupés selon les quatre approches : globale, pseudo analytique, analytique, et hybride. Les travaux exposés sont synthétisés selon le modèle de McClelland et Rumelhart (voir figure 3.8).

Ce modèle suit le principe de « Word Superiority Effect » issu des expériences de la psycho-cognitive, qui montrent que le système visuel humain se base sur la forme globale des mots dans la tache de la lecture. Les auteurs insistent sur le fait que ce modèle est bien applicable à la reconnaissance de l’écriture arabe manuscrite à condition de lui rajouter un niveau intermédiaire : le niveau pseudo-mot, ou de remplacer le niveau mot par le niveau pseudo-mot. Cette proposition d’adaptation est justifiée par le fait que l’entité élémentaire en arabe n’est pas le mot comme le latin mais le pseudo-mot.

Les approches globales devraient donc s’appuyer sur les pseudo-mots plutôt que sur les mots complets. Les auteurs analysent plusieurs systèmes de reconnaissance globale qui exploitent généralement des idées proposées initialement pour le latin, ils mettent en évidence les remarques suivantes :

Surveys existants

55

− L’interprétation des pseudo-mots plutôt que les mots conduit à une réduction de la taille et de la complexité du vocabulaire et ouvre la voie à l’exploration des vocabulaires plus étendus. Les auteurs déplorent le faible nombre de travaux qui exploitent cette particularité de la langue arabe dans leur chaîne de reconnai-ssance (seulement deux propositions de reconnaissance pseudo analytique ont été discutées dans ce survey).

− Au niveau de l’étape d’extraction des primitives, les caractéristiques de bas niveau sont indépendantes du script. En revanche, les caractéristiques de plus haut niveau dépendent du script considéré et nécessitent le développement de procédures spécifiques au script.

− La notion du pseudo-mot introduit une segmentation naturelle de l’écriture arabe, cette particularité rend la tache de la segmentation en mots dans un texte cursif arabe plus complexe que la segmentation en mot dans un texte cursif latin.

− Selon les auteurs, malgré les résultats encourageants des systèmes de reconnai-ssance globale de l’écriture arabe, la difficulté de la segmentation en mot, généralement non incluse dans les systèmes proposés, présente l’une des raisons qui expliquent l’absence de systèmes commercial de reconnaissance de l’écriture arabe manuscrite.

Les auteurs discutent également des systèmes analytiques de reconnaissance d’écriture arabe. Ils déplorent le fait que la plupart de ces systèmes travaillent avec des caractères isolés ou extraits à partir d’une segmentation manuelle, compte tenu qu’il semble illusoire qu’une segmentation automatique puisse fournir une segmen-tation en caractères idéale en entrée d’un reconnaisseur de caractères isolés [MEN 08b]. La segmentation d’un mot cursif en lettres est un problème déclaré insoluble depuis longtemps dans la communauté de la reconnaissance de l’écriture cursive latine. Cependant, contrairement à l’écriture cursive latine, en arabe la présence des

FIG. 3.8 – Modèle de McClelland et Rumelhart (figure extraite de [BEL 06]).


ligatures verticales et les autres spécificités de ce script rend cette tache de segmentation en lettres plus difficile et nécessite le développement des algorithmes spécifiques à cette écriture.

Finalement, A. Belaïd et Ch. Choisy montrent un vif intérêt pour les systèmes hybrides qui, selon eux, semblent très prometteurs. Ils combinent efficacement différents niveaux perceptifs, permettant ainsi de discriminer des mots sans avoir accès à une description complète. L’ajout d’informations locales à un système global permet d’étendre le vocabulaire en limitant les confusions. Les approches hybrides ne nécessitent pas une segmentation complète, et sont moins sujettes aux perturbations induites par les problèmes de perte d’information [MEN 08b].

3.4 Différentes approches et systèmes existants

En reprenant l’idée du découpage du survey de L. M. Lorigo et V. Govindaraju [LOR 06], nous exposerons les travaux effectués dans ce domaine selon un regroupage par fonctionnalité. Nous aborderons ainsi les prétraitements, la segmenta-tion, l’extraction de primitives, la reconnaissance et les post-traitements.

3.4.1 Prétraitements

Les techniques conventionnelles de prétraitements développées auparavant pour l’écriture latine et chinoise ne prouvent pas toute l’efficacité pour le manuscrit arabe. Citons l’exemple des techniques de l’estimation de la ligne de base, qui, contrairement à l’usage dans l’écriture latine, peuvent confronter au problème des descendants étendus horizontalement sous la bande de base ; et au problème de la distribution irrégulière des pseudo-mots d’un même mot qui peut créer différents angles d’inclinaison au sein de ce mot. Citons également l’exemple des étapes de suppression du bruit et de squelettisation qui risquent d’altérer la forme des points diacritiques.

Par conséquent, la prise en compte des particularités de l’écriture arabe nécessite le développement des prétraitements plus spécifiques à ce script ou au moins des adaptations appropriées des techniques existantes.

Dans cette section, nous présentons les techniques de prétraitement développées spécialement pour l’écriture arabe. Nous citons aussi les différentes adaptations proposées pour quelques techniques standard.

3.4.1.1 Squelettisation

La squelettisation est une étape primordiale pour plusieurs systèmes de reconnaissance d’écriture arabe. Le squelette permet d’extraire des caractéristiques importantes pour l’estimation de la ligne de base [PEC 02b] [MEN 08a], la

Différentes approches et systèmes existants

57

normalisation [PEC 03], la segmentation en graphèmes [GOR 92], et la reconnaiss-ance [ABU 94] [KHO 99] [PEC 06].

Dans [MAH 91], Mahmoud et al introduisent un algorithme à base de clusters pour la squelettisation des caractères arabes, appelé CBSA (Clustering Based Skeletonization Algorithm). Cet algorithme robuste aux bruits comporte les étapes suivantes:

− Fixant d’abord, le nombre de clusters à n.

− Par l’utilisation de la technique de clustering flou «ISODATA », on calcule, pour chaque pixel de l’image, n degrés d’appartenance au différents n clusters. Le cluster final du pixel est celui de degrés d’appartenance maximal. La figure 3.9.a illustre les 8 différents clusters du caractère Lam, les points marqués ‘x’ représentes les centres de ces clusters.

− Ensuite, on définit la matrice d’adjacence H de taille n*n, cette matrice est construite en parcourant l’image des clusters du caractère avec une fenêtre de 2 *2, si deux pixels de cette fenêtre appartient aux deux clusters différents i et j, alors Hij=1, 0 sinon (voir figure 3.9.b).

− Le squelette du caractère est obtenu en reliant les centres des clusters adjacents (les ‘x’), ces centres représentent les sommets du squelette (voir figure 3.9.c).

− Un raffinage de la matrice H est appliqué pour éliminer les sommets inutiles (figure 3.9.d). Le squelette final est régénéré à partir de la nouvelle matrice d’adjacence (figure 3.9.e).

(a)

(b) (c)

(d) (e)

FIG. 3.9 – Les étapes de l’algorithme de squelettisation ‘CBSA’ développé pour les caractères arabes (figure extraite de [MAH 91].


58

Pour une même classe de caractères, l’algorithme CBSA permet l’extraction des squelettes ayant le même nombre de segments (sommets), ce qui normalise les données et augmente la similarité inter-classes. Mahmoud et al comparent leur algorithme avec deux autres : Pavlidis et Naccache&Shinghal (SPTA). Cette comparaison montre la robustesse de CBSA en terme de résistance au bruit et en terme de bonne représentation de la structure du caractère (voir figure 3.10).

Autres travaux appliquent certains changements sur des algorithmes de squelettisation développés initialement pour le latin afin de les rendre plus adéquats à l’écriture arabe (tel que la forme spéciale des lettres Ha 8ـ, Lam-Alif j et He هـ). Les adaptations peuvent être un ajout d’une étape de pré-squelettisation [AMI 96] ou une modification des conditions de suppression des pixels du contour [BUS 97].

3.4.1.2 Normalisation des caractères

Dans [PEC 03], M. Pechwitz et al utilisent la ligne de base pour uniformiser les mots arabes en taille. Pour normaliser les mots en largeur, les auteurs estiment le nombre de caractères en calculant le nombre de transition noir/blanc le long de trois lignes parallèles à la ligne de base. La position exacte de ces trois lignes n’est pas indiquée. Une normalisation horizontale est appliquée sur le squelette du mot produisant une taille moyenne, par caractère, constante.

Une normalisation verticale est également effectuée pour uniformiser la hauteur des ascendants et des descendants. Finalement, une normalisation de l’épaisseur du tracé est obtenue en appliquant un filtre gaussien sur le squelette normalisé (en

(a) Image originale (b) CBSA

(c) SPTA (d) Pavlidis

FIG. 3.10 – Comparaison entre les algorithmes de squelettisation. (a) image bruitée de caractères arabes ; (b, c, d) les squelettes des caractères générés par les algorithmes de CBSA, SPTA, et Pavlidis, respectivement (figure extraite de [MAH 91]).

Différentes approches et systèmes existants 59

largeur et hauteur). Le squelette normalisé du mot est donc en niveaux de gris (voir figure 3.11).

3.4.1.3 Correction de l’inclinaison des lignes

Les angles de l’inclinaison des lignes dans un document arabes sont relativement uniformes si le document est incliné dans sa globalité. Cette hypothèse est vérifiée pour les documents de texte imprimé ; dans ce cas, une correction de l’inclinaison globale du document donne des résultats satisfaisants. Ici, les méthodes les plus utilisées sont la transformée de Hough [KHO 02], et les histogrammes de projection.

Pour les documents contenant des textes manuscrits libres, différents angles d’inclinaison peuvent apparaître sur une même ligne. Dans cette optique, F. Farooq et al introduisent, dans [FAR 05b], une méthode de correction de l’inclinaison des lignes basée sur l’estimation de la ligne de base de chaque mot dans le texte pris séparément. Les documents traités sont générés automatiquement à partir d’une sélection aléatoire des mots de la base IFN/ENIT (voir figure 3.12.a). L’inclinaison du mot est corrigée par l’application d’une rotation de limage jusqu’à ce que la ligne de base soit horizontale (figure 3.12.b). Finalement, un regroupement des mots de texte dans des lignes plus au mois horizontales est réalisé (figure 3.12.c).

Les résultats de cette méthode sont tout à fait satisfaisants; cependant, la segmentation du texte en lignes et des lignes en mots présente deux étapes primordiales pour l’application de cette méthode. Les auteurs construisent leurs documents à partir des mots déjà segmentés, ils ne traitent pas les problèmes de la segmentation en lignes et de la segmentation en mots qui sont des défis d’actualité surtout pour le cas du manuscrit.

FIG. 3.11 – Squelette normalisé en hauteur et en largeur, l’épaisseur est également normalisée par l’application d’un filtre gaussien (figure extraite de [PEC 03]).


60

3.4.1.4 Estimation de la ligne de base

La détection de la ligne de base est une étape largement utilisée dans les systèmes de reconnaissance de l’écriture arabe. La ligne de base contient des informations importantes sur l’orientation du texte et la localisation des points de connexion entre les lettres. Par conséquent, sa détection est employée avec profit pour la normalisation (de la taille et de l’inclinaison de l’écriture) [PEC 03], la segmentation des mots en caractères/graphèmes [BUS 97] [OLI 96] [MIL 97a] [KAM 04] et l’extraction de primitives [FAR 06] [ELH 05a].

Dans [ALH 05a] et [PEC 06], les auteurs montrent l’influence de la qualité de la ligne de base sur les performances de leurs systèmes.

Il existe de nombreuses méthodes d’extraction de la ligne de base. En reprenant l’idée du découpage du survey de A. M. Al-Shatnawi et Kh. Omar [ALS 08], nous catégorisons ces méthodes comme suit :

3.4.1.4.1 Méthodes basées sur la projection horizontale

C’est la méthode la plus utilisée pour l’extraction de la ligne de base de l’écriture arabe [ALB 95] [ELH 05a] [ALS 08] [LOR 06]. Cette méthode, facile à implémenter, donne de bon résultat pour l’imprimé [PEC 02b] et le manuscrit de

FIG. 3.12 − Correction de l’inclinaison des lignes d’un document construit automatiquem-ent par collection des images de mots de la base IFN/ENIT (figure extraite de [FAR 05b]).

(a) (b)

(c)


bonne qualité, quand les mots sont aussi long et l’écriture est bien droite [FAR 05b][MAR 06] (voir figure 3.13).

Pour les mots inclinés, Pechwitz et al [PEC 03] proposent la combinaison de cette méthode avec la transformée de Hough (voir figure 3.14).

En arabe, un des défis de la méthode de la projection horizontale est l’existence d’un grand nombre de signes diacritiques et des descendants avec des portions horizontales suffisamment longues qui peuvent créer des pics parasites et perturber l’histogramme (voir figure 3.15).

Dans [MEN 08a], Menasri et al contournent ce problème, d’abord, ils éliminent les signes diacritiques, ensuite ils considèrent la position des boucles comme une référence pour rechercher le pic maximal. L’utilisation de la position des boucles est justifiée par le fait qu’en arabe les boucles se trouvent à proximité de la ligne de base. Ainsi, la zone de recherche du maximum de l’histogramme est restreinte à une bande horizontale de trois fois la hauteur maximale des boucles, centrées sur les boucles (figure 3.15).

FIG. 3.13 – Estimation de la ligne de base par la projection horizontale (figure extraite de [LOR 06]).

FIG. 3.15 – Problèmes liés à la méthode de projection horizontale : pics parasites dû à la succession des descendants avec des portions horizontales suffisamment longues. Dans [MEN 08a], la solution consiste à restreindre la zone de recherche du pic max par la localisation des boucles (figure extraite de [MEN 08b]).

FIG. 3.14 – Extraction de la ligne de base par la combinaison de la méthode de projection et la transformée de Hough (figure extraite de [PEC 03]).


62

Cette solution est conditionnée par l’existence des boucles dans la forme du mot. Les auteurs ne traitent pas les cas des mots sans boucle ou les mots avec des boucles bouchées ou même les mots avec une large boucle en haut du mot (telle que la boucle haute du 8 dans les mots �e8ا� et �9رزةe18ا� qui appartiennent au vocabulaire de la base IFN/ENIT) où l’hypothèse du départ est invérifiable.

3.4.1.4.2 Méthode basée sur le squelette

Dans [PEC 02b], Pechwitz et al introduisent une méthode basée sur le squelette pour l’extraction de la ligne de base, cette méthode comporte les étapes suivantes :

− L’extraction du squelette du mot par une approximation polygonale ;

− Sur le squelette les caractéristiques suivantes sont extraites : les points, les chadda (pour ne pas les prendre en compte lors des calculs ultérieurs), et les courbes qui correspondent aux descendants (voir figure 3.16);

− Ces caractéristiques sont utilisées pour une première estimation de la ligne de base. Les lignes du squelette qui sont plus ou moins horizontales sont marqués, la position y de leur point central est pondérée par certaines mesures. La somme de ces points pondérés présente la première estimation de la position y de la ligne de base ; cette dernière permet de définir une bande de base horizontale dont la hauteur correspond à 1/3 de la hauteur du mot (voir figure 3.17.a);

− L’extraction des points supports de la ligne de base finale qui sont : les points centraux des lignes horizontales (ou presque) qui se situent dans ou à proximité de la bande de base, les minimums des boucles qui sont dans cette bande et les points supérieurs des longs tracés courbes qui correspondent aux descendants ;

− La ligne de base finale est obtenue par régression linéaire de tous ces points supports (figure 3.17.b).

Les auteurs évaluent leur algorithme par rapport à l’annotation de la ligne de base des mots de la base IFN/ENIT. Ils estiment qu’un décalage de 7 pixels par rapport à l’annotation donne un résultat tout à fait satisfaisant, jusqu’à 15 pixels de décalage, la ligne de base reste acceptable. L’algorithme de Pechwitz et al extrait une ligne de base dont l’erreur est inférieure à 15 pixels dans 95% des cas.

À notre connaissance, ce résultat est, à l’heure actuelle, la plus performant dans le domaine de l’extraction de la ligne de base.

Une autre évaluation plus pertinente est présentée dans [PEC 03], les mêmes auteurs évaluent leur méthode en terme du taux de reconnaissance du système qui incorpore cette méthode (à base de squelette), le résultat était 83.56% contre 81.84% pour un système qui utilise la méthode de projection et la transformée de Hough et 89.74% pour un troisième système qui utilise l’annotation de la ligne de base.


Bien que cette méthode d’extraction de la ligne de base soit performante, son principe défaut est la sensibilité des résultats au traitement des mots avec différents angles d’inclinaison et des mots courts composés de lettres isolés (voir figure 3.18). En plus, l’estimation de la ligne de base par une ligne droite (inclinée ou non) n’est pas toujours appropriée, notamment dans le cas du manuscrit.

FIG. 3.17 – Méthode à base du squelette pour l’estimation de la ligne de base (figure extraite de [PEC 02b]).

FIG. 3.16 – Etapes de détection de la ligne de base (figure extraite de [PEC 02b]). (a) détection des boucles et extraction des points de boucles les plus bas ; (b) détection de chadda ; (c) détection d’un tracé courbe qui correspond à un descendant.

FIG. 3.18 –Cas d’échec de la méthode à base du squelette proposée par Pechwitz et al (figure extraite de [PEC 02b]).


64

Dans la section 4.2.5.4, nous exposerons les résultats de l’évaluation de notre méthode d’extraction de la ligne de base sur les cas d’échec de l’algorithme de Pechwitz et al (figure 3.18).

3.4.1.4.3 Méthode basée sur le contour

Une autre approche d’extraction de la ligne de base est présentée dans [FAR 05b]. Cette méthode est basée sur le contour du mot. Une première approximation de la ligne de base est retenue par l’application d’une régression linéaire sur l’ensemble des minimums locaux du contour. Cette ligne permet la détermination des minimums locaux pertinents qui se situent près de la ligne de base approximative. La ligne de base finale est donnée par une deuxième régression linéaire des minimums locaux pertinents.

F. Farooq et al soulignent la nécessité d’un nombre suffisant des minimums locaux. En effet, leur méthode peut échouer pour les mots courts et les mots avec un grand nombre de signes diacritiques qui peuvent perturber la localisation des minimums locaux.

La méthode basée sur le contour a été testée sur 6537 images de l’ensemble ‘a’ de la base IFN/ENIT, elle a pu extraire une ligne de base acceptable (avec un écart inférieur à 15 pixels) dans 78.5% des cas.

3.4.1.4.4 Méthode basée sur l’ACP

Dans [BUR 04], P. Burrow utilise l’ACP et l’histogramme de projection horizontale pour l’extraction de la ligne de base. L’application de l’ACP sur l’image de mot permet de déterminer l’axe principal de la distribution des pixels. Cette méthode peut être appliquée sur les pixels de la forme ou sur les pixels du fond. Dans les deux cas, elle donne l’angle de la direction de la ligne de base et non pas sa position. La position verticale de la ligne de base est déterminée en effectuant une rotation de l’image par l’angle correspondant et en calculant le pic de l’histogramme de projection horizontale de la nouvelle image.

Testé sur les 1000 premières images de mots de la base IFN/ENIT, l’algorithme proposé extrait une ligne dont l’erreur est inférieur à 7 pixels dans 82% des cas en utilisant les pixels de forme et 81% des cas en utilisant les pixels du fond.

Néanmoins, cette méthode est sensible aux mots courts qui possèdent beaucoup de diacritiques et des caractères ascendants/descendants.

3.4.1.4.5 Méthode basée sur la technique de Template Matching

Récemment, dans [ZIA 08], la technique de Template Matching est utilisée pour la détection des points supports de la ligne de base. Ces points sont les centres de


gravité des blocs résultant de l’appariement de l’image de pseudo-mot avec un des 5 templates illustrés par la figure 3.19.a.

La ligne de base est une courbe dessinée par un polynôme cubique appliqué sur les points supports. Une phase de correction de l’inclinaison de la ligne de base avec une élimination des signes diacritiques permet l’extraction de 4 autres templates (figure 3.19.b), ces derniers sont utilisés pour ajuster la ligne de base par rapport à chaque pseudo-mot.

(a) (b)

FIG. 3.19 – (a) Les cinq templates qui apparaissent souvent à proximité de la ligne de base. 4380 images de pseudo-mots farsis/arabes manuscrits ont été analysées pour l’extraction de ces templates; (b) les quatre autres templates extraits pour la correction de la ligne de base (figure extraite de [ZIA 08]).

(a)

(b)

(c)

(d)

(e)

FIG. 3.20 – Estimation de la ligne de base proposée par [ZIA 08]; (a) ligne de texte farsi; (b) les points supports de la ligne de base ; (c) la courbe de la ligne de base ; (d) la ligne de base estimée ; (e) correction de la ligne de base.


66

Selon une procédure d’évaluation similaire de celui de [PEC 02b] (15 pixels de décalage), la méthode proposée est testée sur une base de données de 600 lignes de texte farsi et sur un ensemble de 2700 images de la base IFN/ENIT, elle rapporte un taux de 95.12% et 91.82% respectivement (voir figure 3.20).

3.4.1.4.6 Méthode hybride

Dans [MEN 08a], Farès Menasri et al combinent l’histogramme de projection horizontale, le squelette, et le contour pour l’extraction de la ligne de base. Cette ligne est le résultat de l’interpolation linéaire des points supports extraits à partir du squelette et à partir du contour du mot. Des contraintes issues de la morphologie de l’écriture arabe sont appliquées pour contrôler la sélection des points supports, cette sélection s’opère dans une bande horizontale préalablement définie.

Pour estimer cette bande, les auteurs calculent le pic maximale de l’histogramme de projection horizontale. Comme nous l’avons évoqué précédemment (section 3.4.1.4.1), ils considèrent la position des boucles pour éviter les pics parasites produits par la succession des descendants avec des portions horizontales suffisamment longues. Ensuite, à partir du maximum de l’histogramme, ils appliqu-ent un seuil haut et un seuil bas qui permettent de déterminer une approximation de la bande de base. Empiriquement, ces seuils sont fixés à :

Seuil haut = 20% de la valeur du pic principal

Seuil bas = 45% de la valeur du pic principal.

Contrairement aux méthodes proposées par Pechwitz et al [PEC 02b] et Farroq et al [FAR 05b], qui extraient des lignes de base droites généralement inadaptées pour l’écriture manuscrite libre où le mot peut avoir des inclinaisons différentes, le travail de Menasri et al est, à notre connaissance, le seul qui extrait une ligne de base plus adéquate aux variations de l’inclinaison de l’écriture au sein d’un même mot (voir figure 3.21). La ligne de base n’est alors plus considérée comme une droite, mais comme une succession de segments, chacun reliant deux points supports consécutifs. La méthode a rapporté un taux de 88.4% selon une procédure d’évaluation similaire de celui de Pechwitz et al [PEC 02b].

Cependant, la détermination de la bande de base a une influence importante sur les performances de l’approche proposée. L’existence des boucles dans les mots est une condition d’application de cette méthode ; de plus, l’utilisation de l’histogramme de projection pour la détermination empirique des seuils n’est pas toujours convenable à cause de la distorsion et de la variation des styles d’écriture.

FIG. 3.21 – La ligne de base extraite par la méthode de Menasri et al (figure extraite de [MEN 08b]).


Dans [ALS 08], A. M. Al-Shatnawi et Kh. Omar ont publié le premier survey des différentes techniques d’extraction de la ligne de base appliquées sur l’écriture arabe. Les travaux récents de [ZIA 08] et de [MEN 08a] ne sont pas inclus dans ce survey. Les auteurs déplorent le fait que l’extraction de la ligne de base comme une ligne droite reste un choix non adéquat au cas du manuscrit. Ils insistent sur l’avantage de la combinaison de plusieurs techniques pour l’amélioration de la qualité de la ligne de base extraite. Selon les auteurs cette tache reste ouverte et de nombreuses voies d’amélioration sont possibles.

Ainsi, dans la section 4.2.5, nous détaillerons notre proposition d’une nouvelle méthode d’extraction de la ligne de base.

3.4.1.5 Estimation de la bande de base

Selon M. Pechwitz et al [PEC 03], l’extraction de la partie supérieure de la bande de base est une tache plus difficile que l’estimation de la ligne de base elle-même. Dans leur travail, ils développent deux méthodes ; la première est basée sur l’hypothèse que la ligne de base supérieure est parallèle à la ligne de base, et qu’elle se situe à 40% de la hauteur entre la ligne de base et le sommet du mot. Cette méthode donne un résultat de 74.3% pour un décalage de 7 pixels. La deuxième est basée sur l’histogramme de projection et la transformée de Hough, elle achève un résultat de 59.3% pour un décalage de 7 pixels.

Les résultats de ces deux expériences sont tout à fait insatisfaisants, les auteurs recommandent ainsi de ne pas intégrer l’extraction de la bonde de base supérieure dans les systèmes de reconnaissance de l’écriture arabe [PEC 06]. Pour eux, la partie supérieure de la bande de base est utilisée pour la normalisation verticale des mots. Ils montrent ainsi qu’une méthode de normalisation verticale basée sur la partie supérieure de la bande de base donne de moins bons résultats (en terme de taux de reconnaissance du système qui utilise cette méthode) qu’une autre méthode de normalisation verticale indépendante de cette ligne.

3.4.2 Segmentation

3.4.2.1 Segmentation en caractères

Comme l’indiquent A. Belïd et Ch. Choisy dans [BEL 06], il est admis depuis longtemps dans la communauté de la reconnaissance automatique de l’écriture manuscrite latine qu’une segmentation idéale en lettre d’un texte cursif est un problème insoluble (le dilemme de segmentation-reconnaissance). Pour le manuscrit arabe le problème est plus complexe à cause de la diversité des formes de caractères, de la variabilité des liaisons entre caractères et de la présence des ligatures verticales. Dans la littérature, la majorité des travaux traitent le problème de la segmentation en


68

caractères sur des mots imprimés [BUS 97], [ZHE 04], [OMI 05], [SYI 06]. Généralement, ces techniques sont inadéquates aux mots manuscrits.

Dans [BUS 97], B. M. F. Bushofa et al introduisent une méthode de segmentation de mots imprimés en caractères. Les points de segmentation potentiels sont cherchés au niveau de la ligne de base prés des angles formés par les points de liaison entre les caractères, un ensemble de règles est appliqué sur une fenêtre de 7*7 pour valider ou non les points de segmentation. Testé sur deux fontes de texte imprimé, la méthode a donné la segmentation en caractères voulue (voir figure 3.22).

Sur texte arabe imprimé de différentes fontes et tailles, une autre méthode de segmentation en caractères est introduite par Zheng et al [ZHE 04]. Les auteurs développent un certain nombre de règles basées sur des primitives simples extraites à partir des pseudo-mots. Leur algorithme est divisé en deux étapes : dans la première, les pseudo-mots formés par une seule lettre sont détectés pour ne pas les segmenter, ainsi les pseudo-mots restants sont segmentés en caractères par l’utilisation de l’histogramme de projection verticale et un ensemble de règles heuristiques. Le travail inclut aussi des méthodes de segmentation en lignes et en mots basées sur l’utilisation de l’histogramme de projection horizontale et verticale respectivement.

Dans [SYI 06], Syiam et al proposent un algorithme de segmentation en caractères sur des mots arabes manuscrits. La méthode combine l’histogramme de projection verticale avec une technique de clustering (K-Means).

Une autre approche de segmentation en caractères appliquée sur des mots manuscrits est proposée par T. Sari et al [SAR 02]. La méthode est basée sur une étude des caractéristiques topologiques de l’écriture arabe pour la mise en œuvre d’un ensemble de règles morphologiques. Ces règles sont utilisées pour valider ou non la sélection des points de segmentations potentiels qui se situent au niveau des minimums locaux des contours extérieurs bas. Les cas de ligatures verticales, de liaisons indésirables entre les lettres d’un même mot ou de pseudo-mots adjacents restent des problèmes non résolus (voir figure 3.23).

Dans [LOR 05], L. Lorigo et V. Govindaraju présentent une méthode de segmentation de pseudo-mots manuscrits en caractère. L’algorithme commence par

FIG. 3.22 − Segmentation en caractères sur du texte arabe imprimé. (a) image initiale ; (b) segmentation en caractères par la méthode de [BUS 97].

(a)

(b)


une sur-segmentation en graphèmes en utilisant la méthode de gradient et de douwn-up. En suite, un ensemble de règles est appliqué pour rejeter les faux points de segmentation (le point se trouve à l’intérieur d’une boucle; il se trouve dans la dernière lettre du pseudo-mot; ou il se trouve au bord gauche ou droit de l’image du pseudo-mot). La méthode a obtenu 92.3% de taux de bonne segmentation dans un test sur 200 images de la base IFN/ENIT (figure 3.24).

Dans [SAR 07], les auteurs présentent une synthèse des différentes approches de segmentation des mots manuscrits en caractères et en graphèmes, dont certaines d’entre eux sont également décrites ici (les méthodes de [OLI 96] [MIL 97a], [SAR 02], et [MOT 97]).

Ils déplorent la performance inacceptable des méthodes proposées et le fait que les tests effectués n’utilisent pas les mêmes données. Ils mettent en évidence certain nombre de problème non encore résolus :

– Les ligatures verticales,

– Les caractères qui se touchent alors qu’ils ne devraient pas (voir figure 3.23) :

– Fin de mot (ou de pseudo-mot) relié avec le mot (pseudo-mot) suivant,

– Doubles ligatures : lorsque deux caractères successifs ont plusieurs points de contact (normalement deux caractères successifs ne sont en contact qu’au niveau de la ligne de base).

(a) (b)

FIG. 3.23 − Problème de liaison indésirable entre caractères (figure extraite de [SAR 02]). (a) inter-pseudo-mots ; (b) inter-mot.

FIG. 3.24 − Segmentation en caractères proposée par Lorigo et al [LOR 05] (les lignes droites présentent les coupures).


70

3.4.2.2 Segmentation en graphèmes

Dans [KAM 04], W. Kammoun et A. Ennaji proposent un algorithme de segmentation en graphèmes. L’entité de base de l’algorithme est une ligne de texte imprimé. Pour arriver à une suite de graphèmes élémentaires, les auteurs segmentent d’abord le texte en mots en appliquant des projections verticales et en s’appuyant sur le fait qu’en imprimé l’espace séparant les mots est plus important que celui séparant les pseudo-mots d’un même mot ; les seuils utilisés ont été choisis empiriquement. Ensuite, les signes diacritiques sont éliminés mais leurs positions sont mémorisées. Cette information de la présence ou non des signes diacritiques sera utilisée pour la reconnaissance des graphèmes.

Enfin, les auteurs appliquent une segmentation verticale en graphèmes et une élimination de la ligne de base ; une segmentation horizontale est également appliquée en cas de présence de descendants (figure 3.25), cette segmentation est faite en dessous de la ligne de base. La méthode de segmentation ainsi définie génère un ensemble de 17 graphèmes (voir tableau 3.4).

H. Goraine et al [GOR 92] décrivent un algorithme simple de segmentation des mots (imprimés et manuscrits) en graphèmes. Cet algorithme est appliqué sur le squelette du mot, il est basé sur l’extraction des points de fin, d’embranchement et de croisement.

Une autre approche de segmentation en graphèmes appliquée sur du texte arabe imprimé est présentée dans [ELG 01], la méthode est basée sur l’analyse de la relation topologique entre l’image de texte, présentée sous forme de graphe, et la ligne de base.

FIG. 3.25 − Segmentation en graphèmes sur du texte imprimé (figure extraite de [KAM 04]).

TAB. 3.4 − Alphabet de graphèmes définie par [KAM 04].


Dans [OLI 96] [MIL 97a], C. Olivier et al proposent un algorithme pour segmenter les mots manuscrits en graphèmes. La méthode proposée est basée sur l’analyse des minimums locaux des contours supérieurs des mots pour la détermina-tion des zones d’intérêt de segmentation. Les points candidats de segmentation sont cherchés dans ces zones en fonction des trois règles suivantes :

− Les points candidats situés au-dessus d’une boucle sont éliminés,

− L’épaisseur du tracé à l’endroit du point candidat doit être inférieur à un seuil,

− Si plusieurs points candidats d’une même zone sont voisins, le point choisi est le plus proche de la ligne de base.

Le problème de la sous segmentation dû au ligature verticale entre les lettres est résolut dans une deuxième étape de cet algorithme : le contour supérieur des graphè-mes segmentés lors de la première étape est analysé afin de détecter la zone de ligature verticale, la création d’un minimum local artificiel conduit à segmenter les lettres avec ligature verticale. Bien qu’apparemment prometteur (voir figure 3.26), le travail manque de détail sur la méthode de détection des zones de ligature verticale.

Dans [MOT 97], Motawa et al s’appuient sur le principe des régularités/singul-arités pour segmenter des mots manuscrits en graphèmes. Les opérations de la morphologie mathématique sont utilisées à cet effet. Les singularités (figure 3.27.b) représentent la partie informative du mot (lettres ou partie de lettres), alors que les régularités (figure 3.27.b) correspondent aux parties reliant les singularités et par conséquent ils contiennent de bons candidats de zones de ligature entre lettres.

Les auteurs extraient, d’abord, les singularités du mot en effectuant une ouverture sur l’image, l’élément structurant utilisé n’est pas motionné. La partie régularité du tracé est obtenue en soustrayant les singularités à l’image. Les régularités situées prés de la ligne de base correspondent aux zones qui contiennent les points candidats de la segmentation en graphèmes, un ensemble de règles est appliquées pour la détermination de ces derniers.

(a)

(b)

(c)

FIG 3.26 − Segmentation en graphèmes et problème de ligature verticale (figure extraite de [OLI 96]). (a) sous segmentation ; (b) détection de zone de ligature verticale ; (c) correction.


72

3.4.2.3 Segmentation en bandes verticales

Dans [MEN 08b], l’auteur souligne que les systèmes de reconnaissance qui obtiennent les meilleurs taux de reconnaissance sur le manuscrit arabe sont ceux basés sur la technique de fenêtre glissante et qui s’appuient sur un reconnaisseur à base de HMM. Citant les travaux de El-Hajj et al [ELH 05a] [ELH 05b] qui utilisent une fenêtre glissante pour diviser l’image de mot en bandes verticales (frame), ces bandes sont découpés en cellules de 4 pixels d’hauteur; citant aussi les travaux de Pechwitz et al [PEC 03] [PEC 06] [MAR 06] qui utilisent une fenêtre glissante de 3 pixels de large.

Dans [BEN 06a], A. Benouareth et al utilisent deux stratégie de segmentation en bandes verticale : segmentation uniforme et non uniforme (figure 3.28). La stratégie de segmentation uniforme consiste à utiliser la même largeur pour toutes les bandes (fixée empiriquement à 20 colonnes). Alors que dans une segmentation non unifor-me, les bandes verticales n’ont pas forcément la même largeur, les limites de chaque bande sont déterminées par une analyse des minima et maxima de l’histogramme de projection verticale du mot.

Les auteurs signalent qu’une segmentation non uniforme en bandes verticales semble plus adéquate pour leur modélisation à base de HMM.

(a) (c) (b)

FIG. 3.27 − Segmentation en graphèmes basée sur le principe des Régularités/Singularités (figure extraite de [MOT 97]) ; (a) image nettoyée (b) les singularités obtenues en effectuant une ouverture sur l’image initiale ; (c) les régularités obtenues en soustrayant les singularités de l’image nettoyée.

FIG. 3.28 − Segmentation en bandes verticales uniforme et non-uniforme (figure extraite de [BEN 06a]).


3.4.2.4 Segmentation en pseudo-mots

Dans [MEN 08b], Menasri résume un certain nombre de problèmes, indiqués par Miled et al, liés à la segmentation en pseudo-mots :

– Causes de sous segmentations en pseudo-mots (voir figure 3.29) :

– succession de caractères avec jambes (prolongements sous la bande de base) qui peuvent se toucher. Cette situation fait apparaître un minimum local du contour supérieur en dessous de la bande de base. Dans la section 4.3.2, nous proposerons une solution à ce problème, en se basant sur une recherche des points d’embranchement qui se situent en dessous de la bande de base.

– surcharge de pixels noirs dans la zone médiane : lorsque l’un des 6 caractères qui ne devraient pas être reliés avec son successeur touche le caractère suivant (lettres trop rapprochées).

– Sur segmentations en pseudo-mots (voir figure 3.30) :

– problèmes de numérisation, une composante connexe est découpée en deux.

– levée de plume : le début de certaines lettres s’écrit de gauche à droite ou de haut en bas (telles que� , M , n ـ , .ce qui oblige le scripteur à lever son stylo ,(..,آLorsque la lettre qui suit un levé de plume est trop courte, elle n’est pas liée à la lettre précédente et fait apparaître dans le tracé une coupure indésirable. Ce phénomène crée donc une composante connexe supplémentaire.

Dans [ALK 08], Alkhateeb et al exposent une méthode simple de segmentation en pseudo-mots basée sur le regroupement de composantes connexes. Les composantes connexes chevauchées sont regroupées, une analyse de la distance entre les pseudo-

(a) (b)

FIG. 3.29 − Exemples de sous-segmentation en pseudo-mots. (a) succession de caractères à extension basse ; (b) causes accidentelles de sous-segmentation.

(a) (b)

FIG. 3.30 − Exemples de sur-segmentation en pseudo-mots. (a) phénomène de la levée de plume ; (b) artefacts de l’acquisition.


74

mots retenus permet la détermination d’un seuil de segmentation en mots. Ainsi les mots sont formés par rassemblement des pseudo-mots adjacent dont la distance est inférieure à un seuil fixe. Cette méthode repose sur l’hypothèse que l’espace inter-mot est plus petit que l’espace entre-mots. Une méthode intéressante de calcul de distance entre composantes connexes est proposée par I. Ch. Kim et al [KIM 04].

Bien que la méthode de J. H. Alkhateeb soit simple à mettre en oeuvre, les cas suivants présentent un échec de son application :

− Les cas de chevauchement valides entre les composantes connexes, citons par exemple, la superposition verticale entre un descendant prolongé horizontalement et une petite lettre telle que del (voir figure 3.31).

– Les caractères qui se touchent alors qu’ils ne devraient pas (figure 3.29), ce qui produit une sous-segmentation en pseudo-mots.

– La sur-segmentation créée par les coupures indésirables à l’intérieur des pseudo-mots (figure 3.30).

Le problème de chevauchement entre les caractères est résolut par A. Cheung et al [CHE 01]. Les auteurs partent du constat suivant : l’écriture arabe s’écrit de droite à gauche, par conséquent le chevauchement entres caractères peut seulement apparaître entre la zone du contour la plus à gauche du dernier caractère du pseudo-mot et la zone du contour le plus à droite du premier caractère du pseudo-mot suivant. Ceci restreint le traitement à une zone précise du contour du mot. L’algorithme proposé emploie aussi la méthode d’histogramme de projection verticale, elle donne de bon résultat sur du texte imprimé et sur le manuscrit de bonne qualité (voir figure 3.32).

(a)

(b)

FIG. 3.32 − Segmentation en pseudo-mots (figure extraite de [CHE 01]). (a) sur du texte imprimé ; (b) sur du texte manuscrit.

FIG. 3.31 − Cas d’échec de la méthode de segmentation en pseudo-mots proposée dans [ALK 08].


3.4.2.5 Segmentation en mots

Dans [BEL 06], A. Belaïd et al insistent sur la difficulté de la segmentation en mots dans les textes arabes ; segmenter en mots sur du texte arabe est plus difficile que sur du texte latin, la principale cause vient du niveau pseudo-mots qui introduit une segmentation naturelle à l’intérieur d’un mot. Les auteurs déplorent la trop faible quantité de travaux de recherche qui vont dans cette direction.

Une segmentation en mots dans une page de texte manuscrit est présentée par G. R. Ball et al [BAL 06]. Les auteurs extraient et regroupent les composantes connexes en clusters, ces derniers correspondent aux composantes principales des pseudo-mots avec leurs diacritiques (figure 3.33). Ils considèrent que tous les espaces entre deux clusters successifs sont des candidats de séparation inter-mots et que la présence du caractère alif isolé donne une information importante pour guider une segmentation en mots. Ils utilisent un réseau de neurones pour classer les espaces entre clusters en deux classes : séparateur de mots ou non. Le réseau de neurones est entraîné sur des vecteurs de 9 primitives extraient sur chaque deux clusters successifs (largeur du 1er et du 2éme cluster, la présence ou non d’un alif dans le 1er et le 2éme cluster, le nombre de composantes connexes du 1er et du 2éme cluster, la distance entre les boites englobantes des deux clusters, etc.). La méthode segmente correctement 60% des mots, les auteurs concluent sur la nécessiter d’utiliser d’autres primitives pour augmenter les performances de la méthode proposée.

3.4.2.6 Segmentation en lignes

A. Zahour et A. Bennasri [BEN 99] [ZAH 01] introduisent une approche de segmentation en lignes qui combine une projection partielle (pour la détection des points de départ de toutes les lignes) avec un suivi du contour partiel (pour résoudre le problème de chevauchement entre les lignes). La combinaison a donné de bonne séparation même dans les cas des lignes chevauchées et des lignes avec longueurs et angles d’inclinaison différents (figure 3.34). Elle a obtenu 97% de bonne

FIG. 3.33 − Segmentation en mots proposée dans [BAL 06]. (a) l’espace entre clusters ne correspond pas à un point de segmentation en mots valide. (b) segmentation en mots valide.


76

segmentation sur 100 pages de texte. Cependant, la méthode ne résout pas le problème des lignes collées.

Un tour d’horizon de différentes approches de segmentation en lignes est présenté par Z. Razak et al [RAZ 07], les auteurs exposent également leur approche de segmentation en lignes sur du texte ancien Jawi (l’alphabet Jawi comporte les 28 lettres de l’alphabet arabe plus 6 autres lettres).

3.4.3 Extraction de primitives et reconnaissance

Dans cette section, nous passerons en revue quelques systèmes de reconnaissance de caractères. La plus grosse partie présente les systèmes de reconnaissance de mots et de pseudo-mots, la catégorisation adoptée se base sur le type de classifieur utilisé.

3.4.3.1 Caractères

Dans [FAK 00], Fakir et al présentent un system de reconnaissance de caractères imprimés basé sur la transformée de Hough. Cette dernière est utilisée pour la détection des lignes droites dans l’image du caractère ; la position, la direction et la taille de ces lignes présentent l’entrée du système. La classification se fait par la méthode de la programmation dynamique.

Dans [AMI 96], Adnan Amin et al présentent un système de reconnaissance de caractères à base de réseau de neurones. Ils utilisent un ensemble de primitives structurelles simples (points diacritiques, hamza, lignes, courbes, boucles), ces primitives donnent lieu à un vecteur de 150 booléens.

FIG. 3.34 − Résultat de segmentation en ligne, cas d’un texte présentant des oscillations de l’écriture avec présence de chevauchements (figure extraite de [BEN 99]).


Une autre expérience menée par A. Amine [AMI 03] consiste à utiliser les mêmes primitives décrites précédemment pour la reconnaissance de caractères par un système à base de règles.

Dans [ATI 97], les auteurs proposent un système de reconnaissance de caractères arabes imprimés. Ils commencent par segmenter le mot en lettres, puis divisent les lettres en deux catégories : les caractères avec boucle et les caractères sans boucle. Selon la catégorie de la lettre à reconnaître, les auteurs extraient les primitives géométriques et topologiques suivantes :

– Caractères avec boucle : [position (début, milieu, fin, ou isolé), nombre de boucle (1 ou 2), nombre de points diacritiques (0, 1, ou 2)]

– Caractères sans boucle : [position (début, milieu, fin, ou isolé), code de Freeman, nombre de points diacritiques (0, 1, 2, ou 3), position du point diacritique (au-dessus, en dessous, ou pas de diacritique)].

Le classifieur utilisé est un HMM gauche-droite avec 5 états.

Dans [ABU 94], Abuhaiba et al présentent un système de reconnaissance basé sur une approche de graphe flou. La variation des styles d’écriture complique la tache de la reconnaissance, les auteurs arrivent à bien modéliser cette variation par un ensemble de modèles de graphes flous appelés Fuzzy Constrained Character Graph Model (FCCGM) dont les arcs sont étiquetés par des concepts flous.

Pour reconnaître un caractère, les auteurs commencent par extraire son squelette (l’algorithme de squelettisation est décrit dans le paragraphe 3.4.1.1), puis transfor-ment le squelette en une structure d’arbre. La classification se fait par appariement entre l’arbre du caractère à reconnaître et l’ensemble des FCCGM préalablement définis.

L’approche a donnée 73.6% de reconnaissance dans un test sur 330 images de caractères manuscrits.

Dans [KHA 06], les auteurs traitent le problème de la reconnaissance de carac-tères manuscrits par un réseau de neurones, les primitives utilisées sont les sept moments invariants.

Dans [SYI 06], Syiam et al proposent un système hybride à base de réseaux de neurones et d’arbre de décision pour la reconnaissance de caractères manuscrits. L’arbre de décision (algorithme ID3) est utilisé pour classer le caractère à reconnaître en quatre différents groupes :

– isolé ou fin avec boucle, – isolé ou fin sans boucle,


78

– début ou milieu avec boucle, – début ou milieu sans boucle.

Les primitives utilisés sont : le nombre et la position des points diacritiques, la position du caractère dans le mots ainsi que sa position relative par rapport à la ligne de base. La sortie de l’arbre de décision et combinée avec un ensemble de caractéris-tiques extraites par la méthode ACP pour l’apprentissage de quatre réseaux de neurones de type Perceptron Multi-Couches qui correspondent aux quatre catégories de lettres.

Plus récemment M. I. Razzak et al [RAZ 10] proposent un système hybride basé sur la logique floue et les Modèles de Markov Cachés pour la reconnaissance en ligne des caractères Urdus manuscrits (les 58 lettres de l’alphabet urdu comprennent les 28 lettres arabes et les 32 lettres farsis).

En premier lieu, les auteurs utilisent la logique floue pour modéliser un ensemble de primitives structurelles et directionnelles extraites sur les composantes primaires des lettres (lettres sans signes diacritiques). Puis, appliquent un algorithme de clustering flou pour pré-classer les lettres en sous classes de formes similaires. Un HMM gauche-droite est ensuite utilisé pour reconnaître la classe finale du caractère.

En cas d’ambiguïté de reconnaissance présentée, selon les auteurs, lorsque la différence entre les trois hautes probabilités fournies par le HMM est inférieure à un seuil fixe, les auteurs appliquent un deuxième niveau de reconnaissance à base de règles floues.

3.4.3.2 Mots

3.4.3.2.1 Modèles de Markov Cachés

Dans [KHO 99], M. S. Khorsheed et al proposent un système à base de Modèles de Markov Cachés pour la reconnaissance des mots arabes imprimés ; le vocabulaire traité est de 294 mots. Les primitives utilisées se basent sur des caractéristiques structurelles extraites à partir des segments constituant le squelette du mot. Un segment est le tracé connectant deux points finaux, un point final et un point d’embranchement, ou deux points d’embranchement.

Dans [DEH 01], M. Dehghan et al présentent un système de reconnaissance globale à base de HMM. Les auteurs commencent par diviser l’image de mots en bandes verticales dont la largeur égale deux fois l’épaisseur du tracé et avec 50% de chevauchement entre deux bandes consécutives. Ces bandes verticales sont ensuite divisées en 5 zones de hauteurs identiques (voir figure 3.35). Des vecteurs de primitives sont extraits sur chaque zone, ces primitives s’appuient sur les quatre codes de Freeman (0, 45, 90, 135°).


Des HMM discrets de mots sont entraînés pour la reconnaissance de 198 noms de villes iraniennes. Le système obtient des taux de reconnaissance de l’ordre de 65.05% en top 1 et 90.83% en top 10.

Dans [MIL 01], Miled et Ben Amara développent deux HMM planaires (PHMM) pour reconnaître des pseudo-mots imprimés et des mots manuscrits.

Pour le cas de l’imprimé, l’image de pseudo-mot est divisée manuellement en bandes verticales, le nombre de ces bandes dépend de la topologie du pseudo-mot considéré (présence ou non des ascendants, des descendants, des diacritiques supérieurs et des diacritiques inférieurs). Un HMM-1D horizontal gauche-droite est associé à chacune des bandes. Un autre HMM-1D vertical de super-états gère les transitions verticales (figure 3.36).

Pour les mots manuscrits, la modélisation par les PHMM est plus compliquée que dans le cas de l’imprimé. Les auteurs commencent par détecter les minimums locaux du contour pour l’extraction de la zone médiane du mot (bande de base), puis défini-ssent les zones des ascendants, des descendants et des diacritiques supérieurs et inférieurs. L’image est donc divisée en 5 bandes verticales, la zone médiane est ensuite segmentée en graphèmes [OLI 96] (l’algorithme de segmentation utilisé est présenté dans le paragraphe 3.4.2.2). Le HMM-1D utilisé pour la modélisation de la zone médiane est différent par rapport à ceux utilisés pour les autres zones. La topologie de PHMM retenue est illustrée par la figure 3.37.

Dans [PEC 03] [PEC 06], M. Pechwitz et al utilisent une fenêtre glissante de trois pixels de largeur pour l’extraction des primitives sur l’image de mot normalisée (voir figure 3.38.a). La procédure de normalisation est décrite dans le paragraphe 3.4.1.2.

Sur les caractéristiques extraites, qui correspondent aux valeurs des niveaux de gris des pixels, les auteurs appliquent une transformation de Karhunen-Loève afin de réduire la dimension des primitives.

FIG. 3.35 − Découpage en zone et extraction de primitives d’un nom de ville iranienne (figure extraite de [DEH 01]).


80

Des HMM gauche-droite sont utilisés pour modéliser les lettres, chaque modèle de caractère contient 7 états. Les modèles de mots sont obtenus par concaténation de modèles de lettres.

Pour diminuer le temps de reconnaissance, les auteurs organisent leur lexique (mots de villes tunisiennes de la base IFN/ENIT) sous forme d’arbre lexicale et utilisent l’algorithme de Beam pour réduire l’espace de recherche.

Ce système (ARAB-IFN) donne de bonnes performances : 74.67% de reconnaiss-ance en top1 et 89.77% en top10.

FIG. 3.37 − Reconnaissance de mots manuscrits à base de PHMM (figure extraite de [MIL 01]). Les 5 HMM-1D horizontaux associés aux zones des : (a) signes diacritiques supérieurs; (b) ascendants ; (c) zone médianes ; (d) descendants ; (e) signes diacritiques inférieurs.

FIG. 3.36 − Reconnaissance de pseudo-mots imprimés à base de PHMM (figure extraite de [MIL 01]). (a) découpage en bande ; (b) un HMM-1D par bande horizontale et un HMM de super-états.

(a) (b)


Dans [PEC 06] et [ELA 07], les mêmes auteurs mènent plusieurs expérimentations sur la base IFN/ENIT. Leurs travaux montrent l’influence des prétraitements (extraction de la ligne de base et normalisation) et de l’extraction de primitives sur le taux de reconnaissance. Le système à base de fenêtre glissante décrit ci-dessus est comparé avec un autre système à base de squelette. Pour ce dernier, la normalisation verticale du mot est remplacée par un élargissement de l’image en ajoutant des lignes de pixels blancs de telle sorte que la ligne de base soit au milieu de l’image (figure 3.38.b), l’extraction de la partie supérieure de la bande de base n’est pas donc utilisée.

Pour l’extraction de primitives, les auteurs commencent par diviser le squelette du mot en bandes verticales chevauchées et divisent les bandes en cinq zones, puis ils comptent la longueur des lignes du squelette dans chaque zone selon les quatre directions : nord, est, sud et ouest. Ce système obtient un taux de reconnaissance meilleur de 2% que le système à base de fenêtre glissante. Les auteurs expliquent cette différence par la mauvaise influence de la partie supérieure de la bande de base sur la normalisation de l’image est donc sur l’extraction de primitives (voir paragra-phe 3.4.1.5)

FIG. 3.38 − Les deux expérimentations présentées dans [PEC 06] et [ELA 07] montrent l’influence des prétraitements et d’extraction de primitives sur le taux de reconnaissance (figure extraite de [ELA 07]). (a) système à base de fenêtre glissante ; (b) système à base de squelette.

(a)

(b)


82

Dans [ELH 05a], R. El-Hajj et al développent deux systèmes à base de HMM par les quels ils mettent en évidence le rôle crucial que joue la ligne de base dans les systèmes de reconnaissance.

La méthode d’histogramme de projection horizontale est utilisée pour l’extraction de la ligne de base. Les auteurs extraient un ensemble de 24 primitives. Ces dernières sont calculées dans une bande verticale de 8 pixels de large, cette bande est également découpée en cellules de 4 pixels d’hauteur. Certaines primitives utilisées dépendent de la bande de base telles que la densité des pixels au-dessus et en dessous de la ligne de base, distance normalisée du centre de gravité par rapport à la ligne de base, zone à laquelle appartient le centre de gravité (au-dessus, en dessous ou dans la bande de base), etc., soit un ensemble de 9 primitives.

Deux HMM sont entraînés pour reconnaître un ensemble de 450 noms de villes tunisiennes de la base IFN/ENIT. Le premier utilise les 24 primitives, alors que le deuxième n’utilise que les 15 primitives indépendantes de la ligne de base. Les performances obtenues sont de 86.51% de reconnaissance pour le premier système et 74.90% pour le deuxième. Ainsi l’utilisation des primitives dépendantes de la ligne de base a permis une augmentation de la discrimination et par conséquent une amélioration du taux de reconnaissance d’un ordre de 11.61%.

Dans [ELH 06], les mêmes auteurs proposent une amélioration intéressante de leur ancien système décrit ci dessus. La nouvelle approche proposée permet la prise en considération de l’inclinaison des caractères ainsi que les positions erronées des signes diacritiques (voir paragraphe 3.1), qui sont, selon des auteurs, des sources majeurs d’erreurs pour la reconnaissance des mots.

Dans ce système, l’étape de la reconnaissance est basée sur trois classifieurs de types HMM qui utilisent des fenêtres glissantes de différentes orientations :

– une fenêtre verticale

– une fenêtre inclinée d’un angle +α

– une fenêtre inclinée d’un angle -α

La valeur de α est un paramètre du système. Les fenêtres avec le même angle d’inclinaison se chevauchent, la longueur de chevauchement est aussi un paramètre du système. En plus, les fenêtres ayant le même indice et avec des inclinaisons différentes se croisent sur la ligne de base du mot (figure 3.39).

Sur les trois types de fenêtres, les auteurs calculent les 24 primitives décrites dans [ELH 05a] et 4 autres primitives représentant les configurations horizontales et verticales du mot, soit un ensemble de 28 caractéristiques. Chaque ensemble de ces primitives est utilisé pour l’entraînement d’un des trois classifieurs HMM (qui correspondent aux trois types de fenêtre), chacun de ces derniers produit une liste de


4 meilleurs candidats. Un post-traitement permet de fusionner les listes de candidats proposées par les classifieurs.

Sur un sous-ensemble de la base de données IFN/ENIT (16128 images pour l’apprentissage et 5352 pour le test) et avec un dictionnaire de 459 noms de villes, les résultats obtenus présentent une amélioration significative (91.29% pour la combinaison), ce qui montrent que l’introduction d’information sur l’inclinaison des caractères ne peut qu’améliorer la reconnaissance. La combinaison des trois classifieurs permet également d’obtenir des performances meilleures que chacun des trois pris séparément.

Plus récemment dans [ELH 09], R. El-Hajj et al mènent plusieurs expérimenta-tions à la base du système décrit précédemment [ELH 06]. Ces expérimentations incluent :

– L’évaluation des paramètres du système tels que le nombre d’états du modèle de caractère, la largeur des bandes verticales, le nombre de cellules dans chaque bande, ainsi que la valeur de l’angle d’inclinaison α (voir figure 3.40).

– L’évaluation de l’influence des primitives dépendantes et indépendantes de la ligne de base sur le taux de reconnaissance.

– L’évaluation de trois méthodes de combinaison : la somme, vote majoritaire et la combinaison par un PMC (la description détaillée de l’architecture et l’apprenti-ssage de ce MPC est donnée dans [ELH 09]).

– L’évaluation de l’importance de l’étape de correction de l’inclinaison de caractè-res dans la chaîne de reconnaissance.

À titre d’exemple, la figure 3.40 donne les performances individuelles des trois classifieurs HMM pour des orientations de fenêtres entre -45° et +45°. Les fenêtres de faible inclinaison (0°, 5°, 10°, 15°) à gauche ou à droite donnent les meilleurs résultats pour les systèmes individuels. Cela signifie que l’observation des images de

FIG. 3.39 − Croisement des fenêtres inclinées sur la ligne de base de l’écriture. Cette technique permet la prise en compte de l’inclinaison des caractères et le décalage dans la position des signes diacritiques (figure extraite de [ELH 06]).


84

mots avec des fenêtres proches de la verticale est meilleure qu’avec des fenêtres fortement orientées.

En revanche, une autre expérimentation, concernant la combinaison des trois classifieurs pour différents angles d’inclinaison des fenêtres, a montré que la combinaison du classifieur de référence (à base de fenêtre verticale) avec les classifieurs orientés est efficace pour des angles entre 10° et 25° [ELH 08].

Dans [BEN 08] [BEN 06a] [BEN 06b], Benouareth et al proposent l’utilisation des HMM de durée explicite à variation continue et discrète pour la reconnaissance des mots arabes manuscrits. Ils commencent par effectuer une segmentation du mot en bandes verticales (segmentation uniforme ou non, voir paragraphe 3.4.2.3), puis calculent un vecteur de 41 paramètres à partir de chacune de ces bandes. Parmi les 41 primitives, 32 caractéristiques statistiques ont été extraites à partir des histogrammes de projection et de transitions de l’image, les primitives restantes représentent des caractéristiques structurelles (les boucles, les points extrêmes, de jonctions, d’infle-xion, les signes diacritiques, etc.) calculées à partir du squelette du mot.

Plusieurs tests ont été réalisés sur la base IFN/ENIT en fonction de :

– la distribution utilisée pour la modélisation explicite de la durée d’état (la loi gamma, gaussienne; et celle de poisson).

– la procédure de segmentation de l’image du mot en bandes (segmentation unifor-me ou non).

Ces tests ont montré que les HMM de durée d’état explicite sont plus efficaces que les HMM classiques pour la modélisation de l’écriture arabe manuscrite. Aussi, la segmentation non uniforme semble plus appropriée que la segmentation uniforme. Le meilleur taux de reconnaissance est de 89.57% avec une distribution de type Gamma pour la durée d’état et une segmentation en bandes non uniforme.

FIG. 3.40 − Taux de reconnaissance des classifieurs HMM individuels avec des angles d’orientation différentes (figure extraite de [ELH 08]).


3.4.3.2.2 Réseaux de neurones

Dans [SOU 06], L. Souici-Meslati propose une adaptation du modèle de la lecture humaine de McClelland et Rumelhart [BEL 06] pour la reconnaissance de mots arabes manuscrits dans un vocabulaire limité. Cette adaptation consiste à remplacer le niveau lettre par le niveau pseudo-mot inhérent à l’écriture Arabe.

Suite à une analyse des spécificités de l’écriture arabe (notion de pseudo-mots) et celle du vocabulaire des montants de chèques arabes, l’auteur commence par décomposer les mots du vocabulaire selon le nombre de sous mots, puis extrait des caractéristiques structurelles perceptuelles (ascendants, descendants, boucles et diacritiques) sur chaque pseudo-mot.

Le classifieur proposé est un réseau de neurones à représentation locale des connaissances (réseau transparent) dont l’architecture est déterminée d’une manière précise (dépendamment du vocabulaire considéré) et qui ne nécessite pas une phase d’apprentissage. L’architecture, les connexions et les poids du réseau perceptuel sont fixés selon des connaissances a priori sur le domaine envisagé. Le détail de l’architecture de ce classifieur ainsi que son mode de fonctionnement sont donnés dans [SOU 06].

Ce système a donné de bonnes performances : 91.81% de reconnaissance sur un lexique de 48 mots de montants littéraux de chèques.

Les réseaux de neurones transparents ont également été utilisés par S. Snoussi-Maddouri et al [SNO 02] pour la reconnaissance de 70 mots du vocabulaire de mon-tants littéraux. Le classifieur proposé comporte quatre niveaux de modélisation : primitives, lettres, pseudo-mots et mots. Les primitives utilisées sont de type globales structurelles (position (début, milieu, fin et isolé) des ascendants, des descendants et des boucles) et de type locales statistiques (descripteurs de Fourier).

Dans [ALK 09], J. H. AlKhateeb et al appliquent trois méthodes d’extraction de primitives pour la reconnaissance de 937 noms de villes tunisiennes de la base IFN/ENIT. Les méthodes utilisées sont les moments invariants, discrete cosine transform (DCT) et les valeurs de densité des pixels. L’image du mot a été divisée antérieurement en plusieurs zones chevauchées. Le classifieur utilisé est un réseau de neurones de type Perceptron Multicouches avec une seule couche cachée de 15 neurones seulement. La couche de sortie comprend 10 neurones représentant le code binaire de l’identifiant de la classe (ex. (937)10 = (1110101001)2 .

Codé les 937 classes en binaire semble inapproprié pour un réseau de neurones ou la sortie est réelle et comprise entre 0 et 1. Mais le système obtient un taux de reconnaissance de l’ordre de 80.74% en utilisant la méthode DCT uniquement. Les auteurs ne présentent pas le taux de reconnaissance obtenu par la combinaison des trois méthodes d’extraction de primitives.


86

3.4.3.2.3 Divers

Dans [AMI 00], A. Amin propose un système de reconnaissance globale de mots arabes imprimés multi-fontes avec un vocabulaire de 1000 mots. Le classifieur utilisé est un arbre de décision de types C4.5. Les primitives sont extraites sur les pseudo-mots, ils s’appuient sur le nombre de pseudo-mots, le nombre de pics dans les projections verticales de chaque pseudo-mot, la hauteur et la largeur de chaque pic, le nombre de boucles et la position des signes diacritiques (points et hamza). Les résultas obtenus sont de 92.1% de reconnaissance.

Dans [ERL 96], les auteurs utilisent les opérations de la morphologie mathéma-tique pour l’extraction d’un ensemble de primitives structurelles. Ces primitives présentent : le nombre et la position des signes diacritiques (points et hamza), les cordonnés des points singuliers (les points finaux, d’embranchement et de croisement), les cordonnées du centre de gravité : des lignes, des courbes, des boucles, des descendants et des espaces intra-mots,

L’application traite un vocabulaire de 48200 mots imprimés multi-fontes. La classification se fait par appariement entre le vecteur de primitives du mot à reconnaître et ceux des modèles des différentes classes de mots. La classe de meilleur appariement représente la réponse du système. Les performances ainsi obtenues sont de l’ordre de 65%.

Même si les résultats obtenus par [AMI 00] et [ERL 96] semblent intéressants puisqu’ils traitent un vocabulaire étendu, le recours à l’une des telles techniques ne pourrait pas donner de bonnes performances sur du manuscrit avec un vocabulaire aussi étendu.

3.4.3.2.4 Combinaison

Dans [MIL 97b], H. Miled et al commencent par effectuer une segmentation en graphèmes sur des mots manuscrits (la procédure de segmentation est décrite dans le paragraphe 3.4.2.2), puis utilisent un KPPV pour classer les différents graphèmes en un des 34 classes de graphèmes précédemment définis. Le vecteur d’entrée du KPPV est composé de 19 primitives présentant des caractéristiques topologiques (boucle, ouverture, taille relative, etc.) et les 10 premiers descripteurs de Fourier. La sortie du KPPV (code entre 1 et 34), appelé aussi observation, représente le code de graphème. Le KPPV permet donc de transformer la séquence de vecteurs de primitives en une séquence d’observation. 84.90% de reconnaissance est obtenu avec une valeur de k égale 5.

Des modèles de HMM de lettres sont entraînés pour décoder les séquences d’observations. Un autre niveau de modélisation (pseudo-mot) permet de présenter


les transitions inter-caractères en ajoutant un modèle HMM qui émet un caractère transparent. La fusion de ces deux niveaux donne le modèle du mot complet.

Les performances obtenues sont de 82.52% de reconnaissance sur un lexique de 232 mots de villes tunisiennes.

En se basant sur le système analytique décrit ci-dessus [MIL 97b], Mohamed Cheriet présente, dans [CHE 07b], un système de reconnaissance qui s’appuie sur une combinaison de trois niveaux perceptifs :

– Le 1er niveau perceptuel: « le niveau global », ce niveau joue le rôle d’un module de pré-classification, où le mot est décrit dans sa globalité par un ensemble d’indices visuels extraits sur le contour et les signes diacritiques (boucles, alifs, ascendants, descendant, poches…). Chaque mot est représenté par une séquence d’indices visuels (figure 3.41) traitée par un classifieur HMM. Ce classifieur est utilisé comme un filtre pour réduire la liste des mots candidats. Il obtient 58.9% de reconnaissance sur un lexique de 232 noms de villes tunisiennes.

– Le 2ème niveau perceptuel : « le niveau analytique », La reconnaissance analytique effectuée à ce niveau ignore les signes diacritiques ce qui permet de réduire le nombre de modèles à estimer (de 30 à 18). Elle se base également sur les HMM et obtenue de bons résultats par rapport au HMM global (81.6% de reconnaissance).

– Le 3ème niveau perceptuel : « le niveau pseudo analytique », Là encore les HMM sont utilisés pour modéliser les probabilités de transition inter-pseudo-mots. Le taux de reconnaissance obtenu est de l’ordre de 72.5%.

Enfin, M. Cheriet effectue une combinaison deux à deux de ces trois systèmes : analytique avec pseudo analytique et analytique avec global. Les résultats obtenus sont meilleurs que chacun des trois pris séparément.

FIG. 3.41 − Exemple d’une séquence d’indices visuels qui représente le mot ‘ل ��ز��’ : As : ascendant ; Ds : descendant ; Ud : point au dessus ; L : boucle ; V : vallée ; Ta : poche; # : espace inter-mots ou inter-pseudo-mots (figure extraite de [CHE 07b]).


88

Dans [FAR 04] [FAR 06], N. Farah et al combinent trois classifieurs : un KPPV, un Perceptron Multi-Couches et un KPPV flou, l’approche de combinaison est parallèle (voir figure 3.42). Des primitives structurelles sont fournies à l’entrée de chaque classifieur, ces primitives s’appuient sur le nombre d’occurrence : des ascendants, de descendants, de boucles, d’un point au-dessus, de deux points au-dessus, de trois points au-dessus, d’un point en dessous, de deux points en dessous, et de pseudo-mots.

Les auteurs réalisent leurs expérimentations sur une base de mots manuscrits de montants littéraux avec un vocabulaire de 48 mots. Ils évaluent cinq règles de combinaison : le min, le max, la moyenne, le produit et la somme. Leurs expérimentations montrent :

– La puissance de la reconnaissance floue : le KPPV flou obtient un taux de reconnaissance de 92.16% contre 91% pour le PMC et 89.08% pour le KPPV. L’ambiguïté de la reconnaissance créée par la variation des styles d’écriture ainsi que la présence de distorsion et de bruit motivent l’utilisation de la logique floue.

– L’avantage de la combinaison : la combinaison des trois classifieurs par la règle de la somme permet d’améliorer le taux de reconnaissance à 94%.

Dans [SOU 04a], L. Souici et al s’appuient sur l’approche KBANN (Knowledge Based Artificial Neural Network) pour concevoir un classifieur hybride neuro-symbolique. Le système traite la reconnaissance de mots arabes manuscrits dans un vocabulaire limité.

En premier lieu, les auteurs extraient un ensemble de primitives structurelles (nombre de pseudo-mots, d’ascendants, de descendants, de boucles, etc.), puis utilisent ces primitives pour construire une base de règles symboliques sous forme hiérarchique reflétant une classification des mots à partir de leurs caractéristiques.

FIG. 3.42 − Combinaison de classifieurs pour la reconnaissance de mots manuscrits de montants littéraux (figure extraite de [FAR 06]).


En second lieu, les auteurs appliquent un algorithme de compilation "règles-réseau" pour créer un réseau de neurones en se basant sur l’ensemble des règles construites (se référer au [SOU 06] pour une description détaillée de cet algorithme).

Cette étape de transformation de connaissances théoriques (règles symboliques) vers le réseau de neurones permet de simplifier significativement le processus de spécification et d’apprentissage ; l’architecture initiale du réseau est obtenue de façon automatique en évitant ainsi les problèmes de choix heuristiques des poids, du nombre de couches cachées, et du nombre de neurones.

Finalement, une phase d’apprentissage est appliquée sur le réseau de neurones obtenu après compilation. L’algorithme d’apprentissage utilisé se base sur la méthode de rétropropagation du gradient. Cette méthode, qui contrairement à l’usage dans les réseaux de neurones classiques, s’appuie sur la fonction d’entropie-croisée pour le calcul de l’erreur d’apprentissage afin d’éviter le problème du blocage du processus d’apprentissage (le phénomène de « flat spot » de la rétropropagation). Ce problème est dû aux réponses sûres (proche de 1 ou de 0) données par le réseau doté de connaissance à priori sur le domaine.

Les auteurs utilisent leur classifieur neuro-symbolique pour la reconnaissance de 55 mots du vocabulaire de noms des wilayas algériennes [SOU 04a] et la reconnaissance de 48 mots du vocabulaire de montants littéraux arabes [SOU 04b]. Ces deux expérimentations montrent que le classifieur neuro-symbolique est plus performant qu’un PMC conçu pour la même application en terme de taux de reconnaissance (92% de reconnaissance pour le classifieur neuro-symbolique contre 80% pour le PMC sur le vocabulaire des noms de wilayas), de temps nécessaire pour effectuer l’apprentissage et de taille de la base d’apprentissage.

Récemment dans [MEN 07] [MEN 08a], F. Menasri et al proposent un système hybride à base de Modèles de Markov Cachés et réseaux de neurones de types Perceptron Multi-Couches pour la reconnaissance de mots manuscrits. En éliminant les signes diacritiques, les auteurs définissent un nouvel alphabet de corps de lettre constitué par 34 symboles (tableau 3.5). Ce nouvel alphabet permet de mieux exploiter les redondances des formes de lettres ; les ligatures verticales sont modélisées explicitement afin d’éviter leur segmentation.

La segmentation en graphèmes utilisée dans ce système ainsi que l’extraction de primitives sont les mêmes que celles utilisées dans la reconnaissance de l’écriture cursive latine [AUG 01], les adaptations apportées par les auteurs concernent principalement l’estimation de la ligne de base (la méthode est décrite dans le paragraphe 3.4.1.4.6) et la détection des signes diacritiques.

Au niveau de la reconnaissance, l’originalité de ce travail consiste à séparer le traitement des corps de lettres et le traitement des signes diacritiques, avant de proposer une stratégie de combinaison des deux. Initialement, les auteurs montrent que les signes diacritiques ne sont pas indispensables pour effectuer une tâche de


90

reconnaissance de noms de villes de la base IFN/ENIT, les performances obtenues du système de reconnaissance sans signes diacritiques est de 89.98% en 1ère position. Puis ils proposent un mécanisme qui permet de déterminer une liste de candidats de mots à partir de la reconnaissance de signes diacritiques seulement. Finalement, ils effectuent une combinaison entre la reconnaissance sans diacritiques et la reconnaissance à partir des diacritiques, cette combinaison permet d’améliorer significativement les performances du système : 92.47% de reconnaissance en 1ère position.

3.4.3.3 Pseudo-mots

Dans [ABD 06], A. AbdulKader développe un système à base de réseaux de neurones pour la reconnaissance des pseudo-mots manuscrits. Ici, le problème de la reconnaissance de mots est divisé en deux sous problèmes : la reconnaissance de pseudo-mot à partir des lettres qui le constituent et la reconnaissance de mot à partir des pseudo-mots qui le constituent.

De ce fait, la reconnaissance de 946 mots du vocabulaire de la base IFN/ENIT convient à la reconnaissance de 762 pseudo-mots. La segmentation en pseudo-mots est basée sur l’analyse des composantes connexes.

En phase d’apprentissage, l’auteur n’exploite que les cas de segmentation exacte qui constituent 65% de la base d’apprentissage. Les primitives utilisées sont extraites sur l’image de pseudo-mot normalisée en taille de telle sorte qu’une image de pseudo-mot corresponde à une taille maximum constante, tout en conservant son aspect ; le nombre maximal de lettres par pseudo-mot est de 8 lettres. Le système comprend deux réseau de neurones ; le premier est de type Réseau à Convolution, il prend en entrée les densités des pixels de l’image normalisée. Le deuxième classifieur s’appuie sur des primitives extraites à partir du contour des composantes connexes. L’auteur ne détaille pas la méthode de combinaison utilisée.

Dans ce travail, les sous-segmentations en pseudo-mots, qui constituent 5% de données, ne sont pas traités ; les images correspondantes sont éliminées de la base d’apprentissage. Cependant, le problème de sur-segmentation (30% des cas) est résolu par un mécanisme d’apprentissage/re-segmentation.

TAB. 3.5 − Liste de symboles de l’alphabet proposé dans [MEN 07], Tail 1 présente la partie à rajouter aux formes début/milieu de quelques lettres pour construire leurs formes fin/isolée. Par exemple ـ� + Tail1 � ب.


Pour retrouver les mots à partir de candidats de pseudo-mots, l’auteur utilise un Beam search qui permet de prendre en compte toutes les hypothèses de reconnaiss-ance de pseudo-mots à partir de différentes options de segmentation. La combinai-son des pseudo-mots reconnus contrainte par le vocabulaire de mots permet de sélectionner le mot exact même en cas de mauvaise reconnaissance de pseudo-mots (figure 3.43).

Le taux d’erreur de reconnaissance de pseudo-mots obtenu par la combinaison est 25.34% d’erreur en première position. Malgré que ce taux est relativement élevé, la combinaison des pseudo-mots, pour la reconnaissance du mot complet, permet de réduire le taux d’erreur global à 11.06% d’erreur.

3.4.4 Post-traitements

Dans [KAM 04], W. Kammoun et al intègrent un module de vérification affixale pour un filtrage lexicale et sémantique de l’ensemble de mots générés par leur système de reconnaissance de mots imprimés à vocabulaire ouvert.

Après la segmentation en graphèmes (voir le paragraphe 3.4.2.2), les auteurs effectuent leur reconnaissance, puis génèrent tous les mots possibles par injection des points diacritiques (voit figure 3.44).

FIG. 3.43 − Reconnaissance pseudo analytique proposée par A. AbdulKader. Malgré que le 2ème pseudo-mot soit mal reconnu, le mot est correctement identifié (figure extraite de [ABD 06]).


92

Les mots ainsi générés sont ensuite analysés avec le noyau de vérification affixale. Ce dernier se base sur les aspects morpho-phonologiques du vocabulaire pour décomposer un mot en morphèmes de base (préfixe, infixe, suffixe et racine) et contrôler la cohérence de ces morphèmes avec la racine du mot. Cette approche ne permet de traiter que la catégorie des mots décomposables. Par conséquent, les mots non décomposables (noms propres, pronoms, nombres, etc.) sont traités d’une manière analytique uniquement.

Dans [FAR 06], Farah et al développent un post-traitement syntaxique, dans lequel ils définissent un ensemble de règles grammaticales permettant de contraindre l’interprétation des montants littéraux.

3.5 Compétition ICDAR sur la reconnaissance de l’écriture arabe manuscrite

3.5.1 Compétition ICDAR 2005 [MAR 05]

En 2005, la première compétition sur les systèmes de reconnaissance de l’écriture arabe manuscrite est organisée. Les résultats de cette compétition ont été présentés à la conférence ICDAR 2005.

Les cinq systèmes soumis ont été entraînés sur les quatre sous ensembles {a, b, c, d} de la base IFN/ENIT, et ils sont évalués, par les organisateurs de la compétition, sur un sous ensemble {e} inconnu pour tous les participants (par la suite, ce sous ensemble a été intégré dans la version v2.0p2e de la base IFN/ENIT).

Les cinq participants sont : ICRA [ABD 06] (à base de réseaux de neurones, voir section 3.4.3.3), UOB [ELH 05a] (à base de HMM, voir paragraphe 3.4.3.2.1), REAM (à base de PHMM), SHOCRAN et TH-OCR3. Le système ARAB-IFN [PEC 03], développé par Pechwitz et al (les organisateurs de la compétition), est également présenté à des fins de comparaison.

3 Pour des raisons de confidentialité, les classifieurs utilisés dans les systèmes SHOCRAN et TH-OCR n’on pas été mentionnés.

FIG. 3.44 − Vérification affixale de l’ensemble de tous les candidats possible du mot ن� �� générés par une injection des points diacritiques (figure extraite de [KAM 04]).

Compétition ICDAR sur la reconnaissance de l’écriture arabe manuscrite

93

Le tableau 3.6 décrit le taux de reconnaissance obtenu par les différents systèmes. Le système UOB de Ramy El-Hajj et al [ELH 05a] est le système qui a remporté la compétition 2005.

En conclusion de l’article récapitulatif de la compétition ICDAR 2005 [MAR 05], les auteurs soulignent le fait que les meilleurs résultats de reconnaissance sont achevés par les systèmes basés sur des Modèles de Markov Cachés et des Réseaux de Neurones. Cependant, d’autres systèmes à base de ces deux même reconnaisseurs ont fourni de très mauvaises performances. Ce résultat montre que le choix des prétraite-ments et de primitives jouent un rôle primordial dans la qualité du reconnaisseur.


La deuxième compétition ICDAR 2007 s’est également déroulée sur la base IFN/ENIT. Deux changements ont été faits, le premier concerne les ensembles d’apprentissage et de test utilisés et le deuxième concerne les méthodes d’évaluation (l’ajout de l’évaluation du temps de calcul).

Les systèmes soumis à la compétition 2007 ont été entraînés sur les sous ensem-bles {a, b, c, d, e}. L’évaluation est effectuée sur deux nouveaux sous ensembles :

− Le sous ensemble {f} collecté à partir d’une contribution des scripteurs tunisiens qui n’ont pas participés à la collection des sous ensembles {a, b, c, d, e}. Le sous ensemble {f} est divisé en trois sous ensembles {fa, ff, fg} afin de rapprocher leur distribution en mots à celle de l’ensemble d’apprentissage. Deux autres sous ensembles {t, t1} sont générés à partir de l’ensemble {f}, ils sont utilisés pour l’évaluation du temps de calcul des différents systèmes.

− Le sous ensemble {s} collecté au niveau de l’université de Sharjah à l’UAE, il est utilisé pour étudier l’aptitude des systèmes à reconnaître l’écriture issue des autres régions (leur pouvoir de généralisation).

Système Top 1 Top 5 Top 10

ICRA 65.74 83.95 87.75 SHOCRAN 35.70 51.62 51.62 TH-OCR 29.62 43.96 50.14

UOB 75.93 87.99 90.88 REAM 15.36 18.52 19.86

ARAB-IFN 74.69 87.07 89.77

TAB. 3.6 − Résultats de reconnaissance des systèmes participants à la compétition ICDAR 2005.


94

Dans cette compétition, huit groupes différents ont soumis un total de 14 systèmes de reconnaissance (quelques groupes ont participé avec plus qu’un système), dont deux participants ont figuré déjà lors de la compétition 2005 : ICRA de A. Abdulkadr [ABU 06] et UOB-ENST de Ramy El-Hajj et al [ELH 05a] [ELH 06]. Tous les autres systèmes s’appuient sur les HMM.

Par rapport à la compétition 2005, le taux de reconnaissance est considérablement amélioré. La table 3.7 montre les résultats des différentes évaluations menées sur les 14 systèmes, cette évaluation inclut également une mesure du temps de calcul.

SIEMENS (ID 08) est le système qui a présenté le meilleur taux de reconnaiss-ance. Il combine trois méthodes d’extraction de primitives (qui ne sont pas indiquées dans le manuscrit) et s’appuie sur un reconnaisseur de lettres à base de HMM. Ce système est le résultat d’une série des adaptations appliquées sur un système de reconnaissance de l’écriture manuscrite latine.

En terme de temps de calcul, le système CEDAR (ID 05), basé sur une approche analytique, a obtenu les meilleurs résultats.


La troisième compétition a été organisée avec le même principe que celui de la deuxième. Cette compétition a comparé 17 systèmes de reconnaissance soumis par 7 participants. Là encore, UOB-ENST est présent, Ramy El-Hajj et al ont soumis quatre systèmes (des variations du système à base de fenêtre glissantes inclinées [ELH 09] présenté dans la section 3.4.3.2.1).

Parmi les 17 systèmes de reconnaissance, on trouve : − quatre systèmes à base de réseau de neurones : trois systèmes soumis par MDLSTM [GRA 09] (réseaux récurrents) et le système LSTS (réseaux transparents) ; − un système hybride PMC/HMM développé par Menasri et al [MEN 08a] (ce système ‘A2iA’ figurait déjà lors de la compétition 2005) ; − et les autres systèmes à base de HMM.

Le tableau 3.8 présente la comparaison des résultats de ces différents systèmes. Le système 11 (MDLSTM) a remporté la compétition 2009 par l’obtention du meilleur taux de reconnaissance. Le système 10, soumis par le même groupe MDLSTM, a obtenu les meilleurs résultas en terme de temps de calcul.

Set d Set e Set fa Set ff Set fg Set f Set s Temps (ms) Système ID Top 1 Top 1 Top 1 Top 1 Top 1 Top 1 Top 5 Top 10 Top 1 Top 5 Top 10 Set t Set t1

MITRE 01 66.34 64.89 62.61 63.79 63.90 61.70 81.61 85.69 49.91 70.50 76.48 10886.4 15815.0 02 40.45 37.73 12.21 12.71 13.26 11.95 26.44 34.51 8.01 17.17 23.78 852.140 1171.25 03 70.62 68.62 15.95 17.62 17.92 15.79 21.34 22.33 14.24 19.39 20.53 882.625 1040.46 CACI 04 48.68 44.04 14.64 15.42 16.09 14.28 29.88 37.91 10.68 21.74 30.20 888.171 1099.53

CEDAR 05 68.07 57.37 59.84 60.67 60.86 59.01 78.76 83.70 41.32 61.98 69.87 34.171 41.71 MIE 06 93.63 86.67 84.38 85.21 85.56 83.34 91.67 93.48 68.40 80.93 83.73 188.439 210.55

07 91.23 84.27 83.90 84.84 84.97 82.77 92.37 93.92 68.09 81.70 85.19 39.218 61.87 SIEMENS

08 94.58 87.77 88.41 89.26 89.72 87.22 94.05 95.42 73.94 85.44 88.18 109.406 125.31 09 90.02 81.80 80.58 82.43 82.67 79.10 87.69 90.21 64.97 78.39 82.20 680.781 754.06 10 92.12 83.52 83.08 84.51 84.56 81.65 90.81 92.35 69.61 83.79 85.89 2174.97 2447.5 11 92.38 83.92 83.39 84.93 85.18 81.93 91.20 92.76 69.93 84.11 87.03 2172.55 2425.47

UOB-ENST

12 93.32 85.13 83.23 84.79 85.29 81.81 88.71 90.40 70.57 79.85 83.34 2191.23 2430.78 ICRA 13 88.33 83.87 82.74 83.68 84.14 81.47 90.07 92.15 72.22 82.84 86.27 359.687 402.34

PARIS V 14 89.80 80.24 81.36 83.45 83.82 80.18 91.09 92.98 64.38 78.12 82.13 383.078 472.18


Set d Set e Set fa Set ff Set fg Set f Set s Temps (ms) Système ID

Top 1 Top 1 Top 1 Top 1 Top 1 Top 1 Top 5 Top 10 Top 1 Top 5 Top 10 Set t Set t1

01 92.52 85.38 83.57 84.77 85.09 82.07 89.74 91.22 69.99 81.44 84.68 812.69 841.25 02 89.06 81.85 79.49 80.90 81.11 78.16 89.06 91.88 65.61 81.44 85.95 2365.48 2755.01 03 89.84 83.52 80.89 82.15 82.17 79.55 90.60 92.16 67.83 83.47 86.65 2236.58 2754.08

UOB-ENST

04 92.59 86.28 85.42 86.96 87.21 83.98 91.85 93.00 72.28 85.19 87.92 2154.48 2651.57 REGIM 05 79.52 63.53 58.81 59.27 60.42 57.93 73.43 78.10 49.33 65.10 71.14 1564.75 1712.15

06 93.90 87.25 86.73 88.54 89.36 85.58 92.57 94.12 70.44 82.01 84.87 1056,98 956,82 07 94.92 82.21 83.53 84.86 84.67 82.21 91.24 92.47 66.45 80.52 83.13 519,61 1616,82 Ai2A 08 97.02 91.68 90.66 91.92 92.31 89.42 95.33 95.94 76.66 88.01 90.28 2583,64 1585,49 09 99.72 98.64 92.59 93.79 94.22 91.43 96.11 96.61 78.83 87.98 90.40 115.24 122.97 10 99.60 97.60 92.58 94.03 94.40 91.37 96.24 96.61 78.89 88.49 90.27 114.61 122.05 MDLSTM 11 99.94 99.44 94.68 95.65 96.02 93.37 96.46 96.77 81.06 88.94 90.72 371.85 467.07 12 99.91 98.71 86.97 88.08 87.98 85.51 93.32 94.61 71.33 83.66 86.52 17845.12 18641.93 13 99.79 98.29 87.17 88.63 88.68 85.69 93.36 94.72 72.54 83.47 86.78 17845.12 18641.93 14 99.79 98.29 87.17 88.63 88.68 85.69 93.36 94.72 72.54 83.47 86.78 17845.12 18641.93

RWTH-OCR

15 96.72 91.25 86.97 88.08 87.98 83.90 - - 65.99 - - 542.12 560.44 LITIS-MIRACL 16 93.04 85.46 83.29 84.51 84.35 82.09 90.27 92.37 74.51 86.14 88.87 143269.81 145157.23

LSTS 17 18.58 14.75 15.34 16.00 15.65 15.05 29.58 35.76 11.76 23.33 29.62 612.56 685.42


Co

mp

étitio

n IC

DA

R su

r la re

con

na

issan

ce d

e l’é

criture

ara

be m

an

uscrite

95


96

3.6 Conclusion

À la base de l’étude effectuée dans ce chapitre nous concluons par les points suivants:

− Les prétraitements (notamment la détection de la ligne de base) et l’extraction de primitives jouent un rôle primordial dans la qualité du reconnaisseur. L’étape de prétraitements dépend de l’écriture considérée et nécessite le développement de procédures spécifiques au script.

− Le principal défi du domaine de la reconnaissance de l’écriture manuscrite arabe se situe au niveau de la segmentation ; les performances des méthodes proposées sont encore loin d’être acceptables.

− L’utilisation des Réseaux de Neurones et des Modèles de Markov Cachés est très répondue en reconnaissance de l’écriture arabe, notamment grâce à leur performance prometteuse.

− Les travaux effectués dans le domaine montrent un vif intérêt pour la combinaison de différents types de primitives, de classifieurs et d’approches de reconnaissance.

− Les spécificités de l’écriture arabe (telles que la notion de pseudo-mot et les ligatures verticales) présentent un certain nombre de difficultés supplémentaires. Les rares travaux qui exploitent ces spécificités dans leur chaîne de reconnaissance montrent que la prise en compte des particularités de l’écriture arabe ne peut qu’améliorer la reconnaissance.

− Cependant, la littérature de ce domaine est fortement influencée par les travaux effectués dans le latin. Ainsi, on trouve un nombre important de systèmes de reconnaissance de l’écriture arabe qui se basent sur des adaptations des systèmes de reconnaissance de l’écriture latine ou asiatique.

− Les recherches dans la reconnaissance de l’écriture arabe sont de nos jours très actives, notamment grâce à l’organisation des compétitions spécialisées telles que la compétition ICDAR. Cependant l’absence des systèmes commerciaux de reconnaissance de documents arabes manuscrits montre que les efforts effectués jusqu’à présent doivent se multiplier.

− La majorité des systèmes proposés traitent des applications contraintes, la reconnaissance de l’écriture manuscrite libre avec un vocabulaire étendu (voire ouvert) reste encore au stade du rêve. Ce sujet est alors ouvert et de nombreuses voies d’amélioration sont également possibles afin d’atteindre des performances de reconnaissance proches de celles d’un expert humain.

− Finalement, on insiste sur l’intérêt du formalisme de la logique floue pour la modélisation de la morphologie de l’écriture manuscrite arabe. On insiste également sur l’utilité des post-traitements afin d’améliorer les résultats de la reconnaissance.

97

Chapitre 4

Contributions à la reconnaissance de

l’écriture arabe manuscrite

Ce chapitre présente notre système de reconnaissance de l’écriture arabe manusc-rite

Dans la section 4.1, nous présenterons l’architecture générale du système proposé. Dans la section 4.2, nous détaillerons les techniques de prétraitements développées, les résultats de leur application sont présentés et discutés. Dans la section 4.3, nous proposerons un nouveau vocabulaire de pseudo-mots que nous utilisons pour effectuer la segmentation et la construction de la base des images de pseudo-mots. Finalement, nous présenterons, dans la section 4.4, le système de reconnaissance pseudo analytique proposé qui se base sur une combinaison d’un ensemble de Perceptrons Multi-Couches flous spécialisés.

4.1 Description générale du système proposé

La figure 4.1 présente le système de reconnaissance de mots arabes manuscrits. Le système proposé se situe dans le cadre des systèmes de reconnaissance pseudo analytique. Il traite la reconnaissance du vocabulaire de la base IFN/ENIT.

En premier lieu, l’image du nom de ville est nettoyée, les signes diacritiques sont détectés et éliminés. La ligne de base du mot est ensuite extraite, cette ligne est utilisée avec profit pour la correction de l’inclinaison des lignes, la résolution d’un cas particulier de la sur-segmentation en pseudo mots (descendants connectés) et l’extraction de primitives.

Il nous est apparu dans l’étude du vocabulaire de l’IFN/ENIT, que les mots disposent d’une redondance importante au niveau des pseudo-mots (ou PAW) qui les constituent (voir figure 4.2). De ce fait, il semble très utile de traiter la reconnaiss-ance de ce vocabulaire en s’appuyant sur une modélisation pseudo analytique. En effet, l’interprétation des pseudo-mots plutôt que les mots conduit, notamment pour ce vocabulaire, à une réduction de la taille et de la complexité du problème. Pour implémenter cette approche de reconnaissance pseudo analytique, nous proposons un nouveau vocabulaire et une nouvelle base d’images de pseudo-mots (PAW-IFN/ENIT).

Contribution à la reconnaissance de l’écriture arabe manuscrite

98

Image : Nom de ville

- Suppression du bruit et lissage/correction des contours - Elimination des signes diacritiques - Extraction de la ligne de base

Image nettoyée et ligne de base

Opérations de prétraitements

- Définition du vocabulaire de pseudo-mots - Segmentation en pseudo-mots - Affectation des PAW aux différentes classes

Construction de la base de PAW

paw001 paw002 paw759 Fichiers_ligne de base

….

Extraction de primitives

▐ ▐ ▐...▐

paw001 ▐ ▐ ....▐

paw002 ▐ ▐ ▐...▐

paw759 ….

Algorithme de clustering

▐ ▐ ▐

Cluster 1

▐ ▐ ▐

Cluster 2

▐ ▐

Cluster N

….

▐ ▐

▐

▐ ▐

▐

▐

▐

Sous-ensemble d’apprentissage

Sous-ensemble de test





Développement de N classifieurs PMC flous

PMC flou 1

▪ ▪ ▪

▪ ▪ ▪

▪

▪

▪

▪

▪ ▪ ▪

▪ ▪

▪

▪

▪

▪ ▪

▪

PMC flou 2 PMC flou N

▪ ▪ ▪ ▪

▪ ▪

▪ ▪

▪ ….

Reconnaissance de PAW : Combinaison des k plus proches PMC flous

Reconnaissance de mot : Combinaison des candidats de PAW pour la reconnaissance de mot

Taux de reconnaissance PAW

Liste de candidats de pseudo-mots

Liste de candidats de mots

Taux de reconnaissance Mots

Vocabulaire de PAW exprimés dans un alphabet de lettres

Vocabulaire de mots exprimés dans un alphabet de PAW

Base des images de pseudo-mots

Base des vecteurs caractéristiques

FIG. 4.1 – Le système de reconnaissance pseudo analytique multi-classifieurs flous proposé.

…

Description générale du système proposé

99

En plus des images de pseudo mots, la nouvelle base contient également des fichiers présentant la position de la ligne de base de chaque pseudo-mot. Cette information est exploitée dans l’étape d’extraction de primitives afin de consolider la robustesse globale des vecteurs caractéristiques.

Au niveau de la reconnaissance, la démarche adoptée consiste à mettre en place une approche de construction automatique d’un système multi-classifieurs. Cette approche a été proposée par Minku et al [MIN 08], elle permet la distribution du problème sur un ensemble de classifieurs spécialisés. À cet effet, un algorithme de clustering est utilisé pour diviser la base de pseudo-mots en plusieurs sous ensembles ou clusters. Chacun de ces sous ensembles est ensuite utilisé pour l’apprentissage et le test d’un des classifieurs. Le type de classifieur adopté ici est un Perceptron Multi-Couches flou [PAL 92]. La nécessité de modéliser l’incertitude et l’imprécision existantes dans tous les niveaux du processus de reconnaissance de l’écriture manuscrite, ainsi que les performances prometteuses de la reconnaissance floue sont les principales motivations (voir section 2.4.5). De plus, le classifieur choisi apporte une solution efficace au problème de données mal étiquetées issues du processus de segmentation en pseudo-mots proposé (section 4.3.2).

En phase de test, on commence par calculer les k plus proches clusters du pseudo-mot à reconnaître, ce calcul est effectué également grâce à l’algorithme de clustering. Puis, on sélectionne les k Perceptrons Multi-Couches flous qui correspondent aux clusters déterminés. La réponse finale des k PMC flous est obtenue en combinant les réponses des classifieurs par une des méthodes de combinaison.

� او�د �� ي ��

�ي داود � �ي �� او�د ��ه ل�

�ي �� ه ل� � �ي ��"��

% دراه� & % ��$�ة& ��

�)� ا�"ي �)� $�وة ��ج ا��$�ي

رّواد ��(�� ا��$�ة

FIG. 4.2 – Exemple de noms de villes de la base IFN/ENIT qui présentent une redondance importante au niveau des pseudo-mots qui les constituent.


100

Finalement, un autre niveau de combinaison est effectué pour retrouver le mot à partir des candidats de pseudo-mots. À cet effet, un autre vocabulaire de mots exprimés dans un alphabet de pseudo-mots est utilisé.

4.2 Prétraitements

Afin de faciliter la tache de reconnaissance de l’écriture arabe, l’image de mot doit subir un certain nombre de prétraitements. Ces derniers doivent tenir compte des particularités de cette écriture. En effet, les techniques conventionnelles développées auparavant pour l’écriture latine et chinoise ne prouvent pas toute l’efficacité pour le manuscrit arabe, ce qui motive l’investissement dans le développement de d’autre techniques plus adéquates à la morphologie de ce script.

Dans cette section, nous présenterons un ensemble de techniques de prétraitem-ents. À ce niveau, notre principale contribution consiste à la proposition d’une nouvelle approche d’estimation de la ligne de base basée sur l’extraction de pseudo-mots.

4.2.1 Elimination du bruit et lissage du contour

Les images de la base IFN/ENIT peuvent contenir du bruit dû aux conditions d’acquisition et aux scripteurs.

Dans la plupart des cas, ce bruit se manifeste par des formes simples de type «salt and pepper». Dans ce cas la suppression se fait par une analyse de la surface des composantes connexes : toutes composantes connexes d’aire inférieure à 9 pixels sont considérées comme bruit et seront alors supprimées. Le choix de 9 pixels est déterminé empiriquement à la base d’une analyse de l’aire des composantes connexes qui représentent des signes diacritiques et de bruit.

Dans certains cas, il a arrive que le bruit, introduit généralement par le scripteur, se manifeste par des formes de taille importante difficiles à détecter. Un exemple est illustré par la figure 4.3. Ces cas nécessitent la mise en oeuvre de mécanisme plus complexe et ne seront pas traités lors des procédures de prétraitements. Une solution pratique consiste à intégrer une option de rejet de reconnaissance.

La fermeture des trous qui existent à l’intérieur des caractères bruités se fait par une analyse de 8-voisinages des pixels de fond (pixel blanc ‘0’). Si la somme des 8-voisinages d’un pixel Pi est inférieure à 6 pixels, alors Pi est rendu noir (‘1’). Cette opération peut lisser le contour sans toutefois boucher les petites boucles des lettres (figure 4.4.c).

Cependant, le lissage proprement dit est réalisé par l’application de l’opération de l’ouverture de la morphologie mathématique. Cette méthode a prouvé son efficacité

Prétraitements 101

par rapport à la méthode de masque proposée par Cheriet et al [CHE 07a] (voir le paragraphe 2.1.3), notamment pour les petites boucles (voir figure 4.4).

4.2.2 Détection des signes diacritiques (1er filtre)

Les signes diacritiques doivent être éliminés avant l’estimation de la ligne de base pour éviter la perturbation de l’extraction des pseudo-mots et la sélection erronée des minimums locaux du contour inférieur (voir section 4.2.5).

L’algorithme utilisé pour l’extraction des signes diacritiques est une version légèrement modifiée à celui proposé dans [MEN 08a]. Cet algorithme se base sur l’aire, la hauteur et la superposition verticale des composantes connexes ; la figure 4.5 le décrit, les seuils utilisés sont fixés empiriquement par Menasri et al et ajustés par nos tests.

Le premier test permet de filtrer les grosses composantes connexes qui ne correspondent pas aux signes diacritiques. Le deuxième et le troisième test permettent de conserver les petites lettres telles que del et ya qui contiennent peu de pixels et ressemblent aux signes diacritiques (tels que chada). Le quatrième test repose sur la position relative de la composante connexe et de ses voisines : si une composante connexe C1 d’aire réduite est située au dessus d’une autre composante

(a) (b) (c)

FIG. 4.4 – Lissage du contour et problème de bouchage de petites boucles des lettres arabes. (a) image originale de la lettre ‘Mim’ ; (b) le lissage du contour par la méthode de masque proposée dans [CHE 07a] conduit à boucher la boucle du caractère ; (c) application de l’opération d’ouverture.

FIG. 4.3 – Formes complexes de bruit introduit par le scripteur.


102

connexe C2 , et que C2 recouvre verticalement C1 à plus de 75%, alors C1 est un signe diacritique.

Nos modifications apportées à l’algorithme de Menasri ont permis de corriger les cas de fausse suppression de petites lettres, la figure 4.6 illustre quelques exemples. Cependant, l’algorithme peut échouer quand le signe diacritique traité est de taille importante par rapport à la taille du mot. La solution proposée est l’application d’un second filtre des signes diacritiques après la détection de la ligne de base (voir section 4.3.2).

FIG. 4.6. – (a) Trois mots arabes manuscrits avec leurs signes diacritiques entourés par des cercles ; (b) élimination des signes diacritiques par notre algorithme ; (c) résultats de l’application de l’algorithme de [MEN 08a] montrent ses faiblesses: perte d’information à cause de la fausse suppression de petites lettres marquées ci-dessus par des rectangles.

(a)

(b)

(c)

Composante connexe

N’est pas un signe diacritique

N

Est un signe diacritique

N

Y Y


Y

N


N

Est un diacritique

Y

FIG. 4.5 – Algorithme de détection des signes diacritiques

Aire ≤ 15*épaisseur 2

Hauteur ≤ 3 * épaisseur

Hauteur ≤ 5 * épaisseur

Présence d’une C.C en dessous avec recouvrement

latéral au moins 75 %

Prétraitements 103

4.2.3 Squelettisation

Il existe une littérature très fournie des algorithmes de squelettisation. L’évaluation de ces derniers n’étant pas un des objectifs de notre travail, les seuls algorithmes étudiés ici sont ceux de HILDITCH (séquentiel) et de ZHANG ET SUEN (parallèle) (voir paragraphe 2.1.4). Ces deux algorithmes sont les plus souvent cités et utilisés [CHE 07a], les résultas de leur application sur des mots arabes filtrés sont donnés figure 4.7.

La comparaison entre ses deux algorithmes repose, d’une part, sur la robustesse en terme de préservation des points singuliers nécessaire pour nos traitements ultérieurs, et d’autre part, sur la performance en temps de calcul.

Selon le premier facteur,le choix n’est pas tout à fait facile, car pour certains mots ZHANG ET SUEN donne des résultats plus robustes, cependant, pour d’autres mots l’avantage est du côté de celui de HILDITCH. Par conséquent, notre choix s’est porté sur l’algorithme de ZHANG ET SUEN qui présente l’avantage en terme de temps de calcul.

Points singuliers du squelette

On définit le voisinage du pixel P comme : P3 P2 P1 P4 P P0 P5 P6 P7

(a)

(b)

(c)

(d)

FIG. 4.7. – Extraction du squelette pour déterminer les points singuliers. (a) images initiales ; (b) élimination des signes diacritiques ; (c) squelette extrait par l’algorithme de ZHANG ET SUEN ; (d) squelette extrait par l’algorithme de HIDITCH. En rouge : les points d’embranchement et de croisement, et en vert : les points finaux.


104

On note A(P) le nombre de transitions 1 vers 0 dans la séquence P0 , P7 , P6 , P5 , P4 , P3, P2 , P1.

Selon Adnan Amin [AMI 96], les points singuliers du squelette sont définis comme suit (voir figure 4.8):

Point de fin (End Point) : A(P) = 1

Point d’embranchement (Branch Point) : A(P) = 3

Point de croisement ou boucle (Cross Point) : A(P) = 4

Les points d’embranchement et de croisement sont marqués en rouge dans la figure 4.7. Certains d’entre eux seront utilisés pour estimer les bandes de base (zone médiane) des pseudo-mots (voir section 4.2.5).

4.2.4 Traçage et correction des contours

4.2.4.1 Détection morphologique des contours

La mise en oeuvre des opérations morphologiques permet l’extraction des contours des mots. Pour cela, on définit le masque horizontal/vertical B = [0 1 0 ; 1 0 1 ; 0 1 0]. En suite, le contour interne à la forme du mot X est détecté en effectuant les deux opérations suivantes :

E=érode(X,B)

Contour(X)=(X∩Ec)∪(Xc∩E)

Xc et Ec représentent les complémentaires de X et E respectivement.

Le suivi du contour permet la détermination de la chaîne de code de Freeman en commençant du pixel le plus à droite en haut du mot, et en respectant le sens des aiguilles d’une montre (figure 4.9).

FIG. 4.8 – Procédure de détection des points singuliers du squelette proposée dans [AMI 96], x désigne la transition 1 0.

0 1 0

1 1 1

0 1 0

0 1 0

0 1 1

0 1 0

0 0 0

0 1 0

0 0 1

x x

x x

x x

x

Point de fin Point d’embran -chement

Point de boucle

Prétraitements 105

4.2.4.2 Correction des contours

Comme nous l’avons évoqué précédemment, le suivi du contour est indispensable pour la détermination de la chaîne de code de Freeman. Cependant, dans certains cas, le parcours du contour peut être interrompu lorsque les contours se touchent alors qu’ils ne voudraient pas (normalement les contours sont fermés) ce qui génère des points de contact ou de ramification comme l’illustre la figure 4.10, la flèche rouge montre la région de ramification.

Pour remédier à ce problème, nous avons développé plus que 15 couples de masques (3*3 ou 4*4) pour la détection du pixel qui provoque le problème de suivi du contour (voir figure 4.11). Ces masques sont appliqués sur toute l’image du contour pour supprimer le pixel source du problème ou changer sa position sans toutefois altérer la connexité du contour. La procédure est répétée sur la nouvelle image, jusqu’à aucun changement ne soit achevé.

Il est important de noter que l’application de l’opération de lissage ne permet pas la résolution du problème traité, mais au contraire elle peut elle-même le provoquer.

F2

F4

F0

F1

F3

F6

F7

F5

FIG. 4.9 – Code de Freeman.

(a) (c) (b)

FIG. 4.10 – Extraction et correction des contours. (a) image de la lettre Ta isolée ; (b) point de ramification et problème de suivie du contour ; (c) correction du contour par la méthode de masques proposée : résultat de l’application du 4ème masque de la figure 4.11.


106

4.2.4.3 Contour inférieur et contour supérieur

On note :

Pd : le pixel du contour situé à l’extrémité la plus à droite en haut du mot (points rouges dans la figure 4.12).

Pg : le pixel du contour situé à l’extrémité la plus à gauche en bas du mot (points verts dans la figure 4.12).

Le contour inférieur du mot est déterminé en parcourant le contour selon le sens des aiguilles d’une montre partant du pixel Pd jusqu’à atteindre le pixel Pg. En revanche, le contour supérieur est tracé en faisant le parcours commençant par le pixel Pg jusqu’à atteindre le pixel Pd (voir figure 4.12).

4.2.4.4 Minimums locaux du contour inférieur

En parcourant le contour inférieur du mot, les minimums locaux se localisent quand le contour change de direction de bas en haut. Telles que les séquences : 6..67 (dddd), 6..60 ( dd) et 6..61( dd ).

FIG. 4.11 – Exemple de couples de masques développés pour la résolution du problème de suivi du contour. Les pixels notés ‘x’ ne sont pas pris en compte.

0 0 0 0 0 1 0 1 0

0 0 0 0 1 1 0 1 0

(1)

0 1 0 1 1 0 0 0 x

0 1 0 1 0 0 0 0 x

0 0 1 x 1 1 0 0 0 0 1 1 x 1 0 0

0 1 1 x 1 0 0 0 0 0 1 1 x 1 0 0

x 1 0 0 0 0 1 1 1 1 0 0 0 0 1 x

x 1 0 0 0 0 1 1 1 0 0 0 0 1 1 x

(2) (3) (4)

FIG. 4.12 – Extraction du contour inférieur (en bleu) et supérieur (en noir) d’un mot arabe manuscrit (les points Pd et Pg sont marqués en rouge et en vert respectivement).

Prétraitements 107

Par exemple, les minimums locaux du contour inférieur du mot اآ�� sont marqués en rouge dans la figure 4.13. Certains de ces points seront utilisés pour extraire la ligne de base.

4.2.5 Détection de la ligne de base

La détection de la ligne de base est une étape essentielle pour la majorité des systèmes de reconnaissance de l’écriture, elle influe fortement sur l’efficacité des traitements ultérieurs tels que la segmentation en caractères et l’extraction de primi-tives, et par conséquent sur les performances du système global.

Les techniques conventionnelles de l’extraction des lignes de base droites (horizontales ou inclinées) [PEC 03] [PEC 02b] [FAR 05b] [BUR 04] [ZIA 08] (voir section 3.4.1.4) ne prouvent pas toute l’efficacité pour le manuscrit arabe dû au fait que les mots arabes peuvent se composer de plusieurs pseudo-mots et que la distribution de ces pseudo-mots peut créer différents angles d’inclinaison au sein du même mot [ALS 08], un exemple illustratif est donné figure 4.14.

Dans cette section, une nouvelle méthode de détection de la ligne de base basée sur l’extraction des pseudo-mots est présentée. L’originalité de notre algorithme consiste à la prise en compte des pseudo-mots, plutôt que les mots complets, comme étant l’entité élémentaire du traitement.

FIG. 4.14 – Selon un critère visuel de qualité, la ligne de base idéale est illustrée par les lignes rouges. Pour les mots manuscrits présentés ici, une ligne de base droite (inclinée ou non) ne donnera jamais le résultat souhaité.

FIG. 4.13 – Extraction des minimums locaux du contour inférieur du mot �� .en bleu le contour inférieur et en rouge les minimums locaux: ��اآ�


108

Cet algorithme a fait l’objet de deux publications scientifiques [BOU 10b] et [BOU 10a], la première à la douzième International Conference on Frontiers in Handwriting Recognition « ICFHR’2010 » et la seconde au dixième Colloque Africain sur la Recherche en Informatique et en Mathématiques Appliquées « CARI’2010 ».

4.2.5.1 Localisation des pseudo-mots

Après l’élimination des points diacritiques (section 4.2.2), les composantes connexes restantes correspondent aux composantes principales des pseudo-mots. Bien que cette simple méthode soit déclarée par Mozaffari et al [MOZ 07] comme la méthode de segmentation en pseudo-mots la plus efficace, son principe défaut est qu’elle ne résout pas les problèmes de la sur-segmentation et de la sous-segmentation (voir section 3.4.2.4). Ces deux problèmes nécessitent la mise en oeuvre des approches de segmentation plus complexes. Dans notre démarche de détection de la ligne de base, les deux problèmes envisagés ne sont pas problématiques (voir plus loin les figure 4.22 et 4.23). De ce fait, ils ne seront pas traités avant la détection de la ligne de base. Toutefois, cette ligne peut servir à leur résolution ; nous proposons ainsi, dans la section 4.3.2, une solution d’un cas particulier de la sur-segmentation qui s’appuie sur la ligne de base.

4.2.5.2 Estimation des bandes de base des pseudo-mots

(a) En arabe, les points d’embranchement, de croisement et les points les plus bas des boucles (appelés ‘points primitifs de la bande de base’) se situent généralement dans la bande de base ; excepté les configurations suivantes :

– Présence des points d’embranchement au dessus de la zone médiane, tels que le point d’embranchement de la lettre Alif-hamza (figure 4.15.a).

– Les points d’embranchement localisés en dessous de la zone médiane qui se figurent, par exemple, au niveau des connexions indésirables entre les descendants (figure 4.15.b).

– Les faux points d’embranchement et de croisement générés par l’algorithme de squelettisation qui peuvent se situer en dehors de la zone médiane.

(a) (b)

FIG. 4.15 – Points d’embranchement situés au-dessus et en dessous de la bande de base.

Prétraitements 109

Pour éviter que l’estimation de la bande de base ne soit perturbée par les configurations précédentes, on divise l’image de mot dans sa taille initiale (avant l’élimination des signes diacritiques) en trois bandes horizontales d’hauteur identique, et on utilise la deuxième bande comme une première approximation de la bande de base. C’est dans cette bande qu’on recherche les points d’embranchement, de croisement et les points les plus bas des boucles (voir figure 4.16.b).

(b) En s’appuyant sur la localisation de ces points primitifs dans chaque pseudo-mot, on définit une zone élargie centrée sur ces points dont la hauteur est égale cinq fois l’épaisseur du mot. Cette étape est appliquée sur chacun des pseudo-mots pris individuellement pour déterminer la bande de base finale de chacun d’entre eux (figure 4.16.c). Il est à noter que l’utilisation de l’épaisseur, dans le calcul précédant, a permis l’extraction des bandes de base plus adéquates à la variation de la hauteur des mots.

(c) Pour les pseudo-mots qui ne disposent pas de points primitifs décrits dans (a), on les affecte la bande de base de leur pseudo-mot voisin le plus proche. Un exemple est illustré par la figure 4.16.c : la lettre Alif ‘ qui ne possède pas de ,’اpoints primitifs, hérite systématiquement la bande de base du pseudo-mot le plus proche ‘آ�’.

(d)

(a)

(c)

(b)

FIG. 4.16 − Processus d’extraction de la ligne de base. (a) image initiale ; (b) première approximation de la bande de base pour la détection des points primitifs ; (c) estimation de la bande de base finale de chaque pseudo-mot et extraction des points supports de la ligne de base ; (d) estimation la ligne de base.


110

(d) Dans certains cas, il arrivent que tous les pseudo-mots qui composent le mot ne disposent plus de points primitifs décrits dans (a), par exemple à cause d’une mauvaise extraction de la bande de base des mots qui ne possèdent pas des extensions basses. Dans ces cas, la ligne de base corresponde au pic maximal de l’histogramme de projection horizontale. Ce choix est justifié expérimentalement.

4.2.5.3 Extraction de la ligne de base

(a) En s’appuyant sur la bande de base de chaque pseudo-mot, on sélectionne les points supports les plus précis de la ligne de base (voir figure 4.16.c). Ces points correspondent aux:

– Les minimums locaux du contour inférieur (voit section 4.2.4.4) qui ne correspondent pas au contour interne des boucles et qui se situent dans la bande de base

– Les points des boucles les plus bas localisés dans cette bande.

(b) La ligne de base finale du mot est construite comme une interpolation linéaire à partir des points supports de tous les pseudo-mots qui constituent le mot. Ainsi, la ligne de référence extraite n’est alors plus considérée comme une ligne droite, mais comme une succession de segments chacun d’entre eux relie deux points supports consécutifs. Par conséquent, la ligne de base extraite est plus adéquate aux légères variations de l’inclinaison de l’écriture au sein d’un même mot (voir les figures 4.16.d, 4.17.b et 4.17.e).

4.2.5.4 Evaluation et discussion

Une évaluation quantitative de la ligne de base extraite par rapport à la ligne de base de l’annotation de l’IFN/ENIT [PEC 02a] est faite selon la procédure décrite par Pechwitz et al [PEC 02b], dans laquelle les auteurs estiment qu’un décalage de 15 pixels par rapport à l’annotation est tout à fait acceptable.

Selon cette procédure d’évaluation et sur les premières 2240 images de l’ensemble ‘a’ de l’IFN/ENIT, la méthode proposée obtient un taux de bonne détection de 87.19%. Ce résultat présente une amélioration d’un ordre de 9% par rapport au taux obtenu par la méthode de Farooq et al [FAR 05b] (voir paragraphe 3.4.1.4.3). Le tableau 4.1 dresse le taux de la bonne détection de la ligne de base en fonction de décalage en pixels.

Toutefois, cette manière d’évaluer la qualité de la ligne de base n’est pas toujours adaptée dû au fait que la ligne de base de l’annotation est une ligne droite (horizontale ou inclinée) alors que la ligne de base proposée est une ligne brisée (succession de segments présentant la ligne totale). Cette remarque justifie le taux médiocre de l’estimation exacte de la ligne de base par rapport à l’annotation (décalage = 0 pixel, taux = 0.97%).

Prétraitements 111

Sur cette question d’évaluation, on attire également l’attention sur le fait d’utiliser la même base de données mais non pas le même ensemble d’image pour évaluer une proposition quelconque ne permet pas également d’assurer des comparaisons objectives.

De ce fait, une autre évaluation qualitative ou visuelle de la ligne de base est proposée (figure 4.17). Les figures 4.17.b et 4.17.e montrent, que contrairement aux méthodes de Pechwitz [PEC 02b] (figure 4.17.a et 4.17.d) et de Farooq [FAR 05b] (figure 4.17.c), la méthode proposée donne des résultats efficaces, notamment dans les cas de mots avec différents angles d’inclinaison et de mots cours composés de lettres isolées.

Il est à noter que les figures 4.17.a et 4.17.d ont été déclarées par Pechwitz et al comme étant des cas d’échec de leur méthode (voir section 3.4.1.4.2). La figure 4.17.c illustre l’amélioration apportée par Farooq et al.

(a)

(b)

(c)

(d)

(e)

FIG. 4.17 − Comparaison qualitative entre les méthodes d’extraction de la ligne de base. Sur l’image (a) extraite de [PEC 02b] et notre image (b), on constate l’efficacité de notre méthode, particulièrement pour les mots courts composés de lettres isolées. Sur l’image (c) extraite de [FAR 05b], l’image (d) extraite de [PEC 02b] et notre image (e), on remarque que la méthode proposée donne des résultas plus robustes, notamment en présence de différents angles d’inclinaison de l’écriture.


112

4.2.6 Correction de l’inclinaison des lignes

Comme nous l’avons évoqués précédemment, la notion de pseudo-mots, ou plus précisément leur distribution, peut créer différents angles d’inclinaison au sein d’un même mot manuscrit. De ce fait, la méthode de correction de l’inclinaison des lignes proposée commence par estimer l’inclinaison locale de chaque pseudo-mot. Cette inclinaison peut être exprimée comme étant la différence en pixel (Dth) entre y-moyen de la ligne de base du pseudo-mot (y2 dans la figure 4.18.a) et y-moyen de la ligne de base du mot complet1(y1 dans la figure 4.18.a). Si Dth dépasse un certain seuil, on applique un décalage vertical de Dth pixels sur tous les pixels de pseudo-mot considéré, jusqu’à ce que la ligne de base globale du mot complet soit plus ou moins horizontale.

Cette méthode présente l’avantage d’être simple, les résultats préliminaires de son évaluation sur les images de la base IFN/ENIT sont tout à fait satisfaisants. Des exemples sont donnés figure 4.18.b et 4.19. Dans ces exemples, nous montrons les mots avant la correction de l’inclinaison par des images en filigrane et les mots corrigés par leur contour (en bleu), nous illustrons également le résultat de la réextraction de la ligne de base sur les mots corrigés (ligne noire).

1 Par conséquent, la méthode proposée ne traite pas le cas des mots composés d’un seul pseudo-mot.

TAB. 4.1 – Résultat de l’évaluation de la méthode d’extraction de la ligne de base en fonction de décalage en pixels.

Décalage en pixels 0 5 10 15 20 25

Taux de bonne détection 0.97 30.89 69.11 87.19 94.06 97.68

y1

y2 Dth

(a)

(b)

FIG. 4.18 – Correction de l’inclinaison des lignes à l’aide de la ligne de base de chaque pseudo-mot. (a) estimation de l’inclinaison du pseudo-mot ‘د’; (b) image finale du mot corrigé.

Construction de la base d’images de pseudo-mots avec signes diacritiques

113

Le défaut de la méthode proposée est que son utilité n’apparue que globalement (sur les mots complets). De ce fait, nous ne l’utilisons pas dans notre système pseudo analytique. Cette limite reste toutefois tolérable, la proposition semble être avantageuse pour les autres approches de reconnaissance.

4.3 Construction de la base d’images de pseudo-mots avec signes diacritiques

4.3.1 Vocabulaire de pseudo-mots avec signes diacritiques

L’annotation des mots de la base IFN/ENIT est faite au niveau des lettres qui leur constituent, cette annotation est réalisée de telle sorte qu’une séquence de lettres contienne également l’information de la forme qui prend chacune des lettres au sein du mot (B pour Begin (début), M pour Middle (milieu), A pour Alone (isolé) et E pour End (finale)).

Cette information nous a facilité la définition automatique du vocabulaire de pseudo-mots, puisque, en arabe, un pseudo-mot peut être constitué soit par une séquence de lettres qui commence par une lettre écrite selon sa forme ‘début de mot’ (B) et termine par une lettre écrite selon sa forme ‘fin de mot’ (E), soit par une seule lettre ‘isolée’ (A).

L’annotation des mots de la base de référence fournit également des informations concernant la présence des ligatures verticales (par exemple la ligature :’ حل’ est

annotée :’haMlaB’ de telle sorte que la deuxième lettre de la ligature précède la première) et du signe diacritique chadda (llL), ce qui crée, dans notre vocabulaire de pseudo-mots, des classes supplémentaires qui ne sont pas en réalité des classes de pseudo-mots distinguées. À titre d’exemple, le tableau 4.2 illustre différentes images

FIG. 4.19 – Exemple de correction de l’inclinaison des lignes (les mots corrigés sont illustrés par leur contour en bleu et les lignes de base ré-extraites sur les mots corrigés sont illustrés par des lignes noires).


114

d’un même mot dont l’annotation correspondante se distingue à cause de la présence des ligatures et/ou de chadda. Cette dernière peut être éliminée avant la reconnaiss-ance, sa prise en compte dans la définition des classes est ainsi non recommandée.

Pour éviter l’extraction de ces classes de pseudo-mots supplémentaires, des modifications sont appliquées sur l’annotation de la base IFN/ENIT avant la définition du vocabulaire de pseudo-mots. Ces modifications consistent à supprimer, dans l’annotation, la chaîne de caractères ‘llL’ qui marque la présence de chadda, elles consistent également à corriger l’annotation des ligatures pour que la première lettre de la ligature (B) précède la deuxième (M). Par exemple, l’annotation de ‘ حل’ :

‘haMlaB’ devient ‘laBhaM’.

Il est également important de noter que, le plus souvent, l’annotation de la base décrit les mots d’une manière exacte y compris les fautes d’écriture introduites par les scripteurs. Citons l’exemple du mot � "ــــ ـــ� ا�,�+-+ )zip-code :8069( avec l’annotation : kaB|laM|yaM|baM|yaM|teE|aaA|laB|shM|raE|kaB|yaM|teE, qui a été mal écrit comme : ��,�ا +- ـ"ــ + (image : am15_040.bmp) avec l’annotation : kaB|laM|yaM|baM|teE|aaA|laB|shM|raE|kaB|yaM|teE. Ceci produit l’apparition des classes de pseudo-mots parasites (‘�'� ^’ dans l’exemple précèdent) qui seront incluses dans notre vocabulaire de pseudo-mots même si leur fréquence d’apparition dans toute la base est parfois égale à 1 (voir section 4.3.3). Par conséquent, un même mot peut être composé de différentes séquences de pseudo-mots. Cette remarque doit être prise en compte lors de la définition du vocabulaire de mots exprimés dans un alphabet de pseudo-mots.

Nom de l’image Image du nom de ville Pr.

lig Pr.ch Annotation du mot Nb

let

aj18_027

0 0 haB|yaE|aaA|laB|haM|jaM|aaE|maA

8

af01_042

1 1 haB|yaE|aaA|haMlaB|jaMllL|aaE|maA

7

ai09_033

1 0 haB|yaE|aaA|haMlaB|jaM|aaE|maA

7

ai14_002

0 1 haB|yaE|aaA|laB|haM|jaMllL|aaE|maA

8

TAB. 4.2 – L’annotation des ligatures verticales et de chadda produit différentes annotations d’un même mot, ce qui complique le processus de définition automatique du vocabulaire de pseudo-mots (Pr. lig et Pr. ch: pour présence de ligature et de chadda respectivement, Nb let: le nombre de caractères dans le mot selon l’annotation (une ligature est considérée comme une seule lettre)).

Construction de la base d’images de pseudo-mots avec signes diacritiques 115

Comme nous l’avons évoqués précédemment, le vocabulaire de la base IFN/ENIT dispose d’une redondance importante au niveau des pseudo-mots qui constituent les mots (par exemple, le pseudo-mot Alif1 apparaît 722 fois dans les mots de ce vocabulaire, voir tableau 4.3). Ainsi, ce vocabulaire composé, de 946 noms de villes, a donné lieu à un vocabulaire de 759 pseudo-mots, soit une réduction de 187 entités à reconnaître.

Une démonstration du gain (en terme de réduction de la taille du vocabulaire à reconnaître) de la reconnaissance à base de pseudo-mots par rapport à celle à base de mots est donnée par la figure 4.20.

L’organisation de notre vocabulaire de pseudo-mots avec signes diacritiques est illustrée par le tableau 4.3, ce tableau donne les 10 premières classes.

4.3.2 Segmentation en pseudo-mots

En arabe, un pseudo-mot se compose à la fois de sa composante primaire et de ses composantes secondaires ou signes diacritiques. Après l’élimination des signes diacritiques d’un mot, les composantes connexes restantes présentent les composantes primaires des pseudo-mots.

1 On note ici que les lettres : ا ، q ، أ ، إ sont regroupées dans la même classe de pseudo-mot alif :paw001:aaA.

759

20

80100

200

6040

10

300

400

500

600

700

0

50

100

150

200

250

300

350

400

450

500

550

600

650

700

750

800

0 50 100 150 200 250 300 350 400 450 500 550 600 650 700 750 800 850 900 950 1000

Nb classes-mots

Nb

clas

ses-

PA

W

FIG. 4.20 – Gain de la reconnaissance à base de pseudo-mots par rapport à celle à base de mots du vocabulaire de l’IFN/ENIT.

Nombre d’échantillons ID-PAW PAW classe

Fréq. dans Voc. mots

Code zip des villes dans lesquelles le PAW apparaît Set B

Set C

Set D

paw001 aaA: ‘ 722 ’أ

1251|3077|7041|4021|6122|1160|2133|9131|2140|2042|8061|6130|9116|4022|1285|9112|5043|7141|4095|5017|8054|1000|2056|2031|5117|4030|5154|3192|7100|2241|9122|5028|5111|9141|1003|1273|1263|9127|2169|9174|1116|3194|2014|3173|3023|3129|3171|3064|6061|2214|6141|7064|2060|8075|8122|6142|9150|3021|3183|2239|2112|3063|3145|1111|6120|3161|7111|1293|3084|2050|6046|…

3433 3694 3411 3637

paw002 laBshMraE:

‘�F�’ 7 1251|3183|3116|8051|4215|5091|8069. 32 49 32 36

paw003 yaBayE:

‘"1’ 2 1251|3097. 54 84 84 75

paw004 daA: 117 ’د‘

3077|2140|4022|5017|8054|2056|5117|9042|3023|2060|8075|6142|3191|3145|7111|2046|2233|3020|3242|9180|5120|2086|9183|8066|3134|8033|2262|4194|3217|6001|8055|8011|7194|3069|9032|5010|2122|3095|2120|5189|7042|3032|…

419 441 415 425

paw005 waA: ’و‘

107 3077|9116|2056|5117|5028|3263|1263|3023|9150|2239|2112|3145|2223|7111|7063|2046|4061|9180|5120|2086|1163|7060|7194|6134|5045|8161|6052|6150|3181|7150|7042|3032|9125|8065|8031|2143|4145|3232|1132|8115|7021|9144|…

442 519 532 561

paw006 raA: ’ر‘

174 3077|1160|6080|2099|5017|2056|3097|5154|2241|9141|1273|1263|6172|1116|3194|3171|1007|7064|8075|7131|8024|2112|3191|1293|7072|4141|7160|6131|3223|5076|2086|1279|5180|5153|2261|7033|8033|5063|4020|6040|8136|8083|…

946] 997 897 998

paw007 laBlaMwaE:

‘� �’ 3 3077|7041|3016. 18 25 22 24

paw008 taBteE: ‘��’ 4 3077|7041|9012|3154. 20 28 25 25

paw009 laBkaMlaMayMt

eE : ‘ �! ��’ 4 4021|4060|7113|4234. 33 32 21 29

paw010 laBsaMghMraE:

’�XJ�’ 1 4021. 16 10 10 14

TAB. 4.3 – Table du nouveau vocabulaire de pseudo-mots.

116 C

on

tribu

tion

à la

reco

nn

aissa

nce

de l’é

criture

ara

be

ma

nu

scrite

Set A

Construction de la base d’images de pseudo-mots avec signes diacritiques

117

La segmentation en pseudo-mots peut être alors réalisée en commençant par extraire les composantes primaires des pseudo-mots après une élimination totale des signes diacritiques du mot, puis on réaffecte les signes diacritiques à leurs composantes primaires correspondantes. Ce processus de réaffectation prend en compte le fait que les signes diacritiques se situent soit en dessous, soit au dessus de leurs composantes primaires. Les diacritiques qui ne vérifient pas cette condition de recouvrement vertical seront affectés aux composantes primaires des pseudo-mots selon un critère de proximité (voir figure 4.21).

Dans la section 4.2.2, les signes diacritiques sont éliminés mais leurs images ainsi que leurs positions sont mémorisées pour exécuter le processus de réaffectation. Dans certains cas, il arrive que les signes diacritiques, généralement de taille importante par rapport à la taille du mot, ne soient pas supprimés (sous-extraction des diacritiques). Ces cas nécessitent l’application d’un second filtre des signes diacritiques qui s’appuie sur la position de la ligne de base extraite. Ainsi, les petites composantes connexes qui se situent au dessus ou en dessous de la ligne de base et qui vérifient le test de la superposition verticale (voir le dernier test de l’algorithme figure 4.5) sont ajoutées à la liste des signes diacritiques avant de commencer la segmentation en pseudo-mots.

Comme nous l’avons dit dans la section 4.2.5.1, cette méthode de segmentation en pseudo-mots ne permet pas la résolution des problèmes de la sur-segmentation et de la sous-segmentation. Toutefois, la détection de la présence de ces deux problèmes est possible par une comparaison entre le nombre de pseudo-mots extraits par cette méthode et le nombre de pseudo-mots de l’annotation de l’image. Les images qui présentent ces types de problème seront exclues de la base d’apprentissage. Elles présentent 31.5%, 15.82%, 33.45% et 31.26% des sous ensembles ‘a’, ‘ b’, ‘ c’ et ‘d’ respectivement. Ces résultats sont proches de ceux obtenus par A. AbdulKader [ABD 06]. Une analyse approfondie de ces images nous indique que :

− La sur-segmentation en pseudo-mots (figure 4.22) est dû principalement au phénomène de la levée de plume et aux artefacts de l’acquisition (voir paragraphe 3.4.2.4). La sous-extraction des signes diacritiques qui permet aussi la production de la sur-segmentation (un signe diacritique est considéré comme étant un pseudo-mot) est résolue par l’application du second filtre des signes diacritiques.

FIG. 4.21 – Segmentation en pseudo-mots correcte, les signes diacritiques sont réaffectés aux composantes primaires selon des critères de recouvrement vertical et de proximité.


118

− Le plus souvent, la sous-segmentation en pseudo-mots (figure 4.23) est dû aux pseudo-mots qui se touchent alors qu’ils ne le devraient pas (fin de pseudo-mot relié avec le pseudo-mot suivant). Ce phénomène de connexion indésirable entre pseudo-mots est plus ou moins facilement détectable lorsque les pseudo-mots connectés présentent des jambes (des descendants) et se touchent en dessous de la ligne de base. Ainsi, à la fin de cette section, nous présenterons une piste de réflexion pour apporter une solution au problème envisagé.

Les autres images pour lesquelles le nombre de pseudo-mots extraits égal à celui de l’annotation sont considérées comme des cas de segmentation valide. L’hypothèse que nous faisons ici est celle de considérer que la sur-segmentation et la sous-segmentation sont deux problèmes qui figurent conjointement rarement dans une même image avec la même fréquence. En parcourant alors l’image du mot de droite à gauche, les pseudo-mots extraits sont attribués à une des 759 classes du vocabulaire de pseudo-mots selon l’annotation de l’image.

FIG. 4.23 – Sous-segmentation en pseudo-mots : pseudo-mots connectés. (a) image initiale ; (b) extraction des composantes primaires des pseudo-mots ; (c) détection correcte des signes diacritiques.

(a)

(b) (c)

(a)

(b) (c)

FIG. 4.22 – Sur-segmentation en pseudo-mots à cause du phénomène de la levée de plume. (a) Image initiale ; (b) Extraction des composantes primaires des pseudo-mots ; (c) Extraction correcte des signes diacritiques.


Nous attirons l’attention du lecteur sur le fait que pour les cas où l’hypothèse précédente est invérifiable le Perceptron Multi-Couches flou de Pal et Mitra [PAL 92] apporte une solution prometteuse. Il s’agit ici des données d’apprentissage mal étiquetées (attribution erronée des pseudo-mots d’apprentissage aux classes, un exemple est donné figure 4.24) pour lesquelles le PMC flou calcule des degrés d’appartenance au différentes classes de pseudo-mots. Comme nous l’avons vu dans le paragraphe 2.4.5.1, ce calcul se base sur la distribution réelle des données d’apprentissage dans l’espace de représentation, il y a alors de grandes chances pour que ces données soient affectées à la bonne classe lors de l’apprentissage. Par exemple, dans la figure 4.24, le pseudo-mot ‘�'�^’ qui a été mal attribué à la classe : paw006 : ‘raA :ر’, a de grande chance pour qu’il soit correctement affecté à son classes : paw205 : ‘kaByaMbaMteE :�'�^’.

FIG. 4.24 – L’apparition de la sur-segmentation et de la sous-segmentation en pseudo-mots conjointement et avec la même fréquence conduit à une affectation incorrecte des pseudo-mots aux classes.

☺ : Affectation correcte + bonne image de pseudo-mot. � : Affectation correcte + pseudo-mots connectés (sous-segmentation). � : Affectation incorrecte + bonne ou mauvaise image de pseudo-mot.

paw050 ‘maBnaMzaE’

paw036 ‘baBwaE’

paw205 ‘kaByaMbaMteE’

paw206 ‘laBnaMjaMaaE’

paw041 ‘haA’

paw001 ‘aaA’

paw006 ‘raA’

paw051 ‘laA’

☺☺☺☺

☺☺☺☺ ☺☺☺☺ ��

��

��

Annotation : maB|naM|zaE|laA|baB|waE|raA|kaB|yaM|baM|teE|aaA|laB|naM|jaM|aaE|haA

Segmentation en pseudo-mots et affectation des pseudo-mots aux différentes classes du nouveau vocabulaire de pseudo-mots avec signes diacritiques

Annotation : maB|naM|zaE|laA|baB|waE|raA|kaB|yaM|baM|teE|aaA|laB|naM|jaM|aaE|haA


120

Les résultats préliminaires du processus de fuzzification des sorties du classifieur PMC flous développé (voir section 4.4.3) sont encourageants, pour certains cas ce processus a permis la correction de l’affectation erronée des pseudo-mots.

Amélioration de la segmentation en pseudo-mots : résolution d’un cas particulier de la sous-segmentation

Cette partie présente une piste de réflexion pour apporter une solution à un cas particulier du problème de la sous-segmentation en pseudo-mots. Pour des raisons de temps, cette solution n’a pas pu être suffisamment expérimentée ; nous ne l’intégrerons donc pas dans le système de reconnaissance proposé.

L’algorithme présenté ici traite le cas de succession des caractères avec jambes (des descendants) qui se touchent. Cette situation fait apparaître un point d’embran-chement en dessous de la bande de base (voir figure 4.25.a). La solution proposée se base sur la détection de la ligne de base (section 4.2.5) et l’extraction du squelette du mot (algorithme de ZHANG ET SUEN, section 4.2.3), elle se fait en trois étapes :

− Chercher les points d’embranchement qui se situent en dessous de la bande de base et qui ne correspondent pas à un point d’embranchement d’une boucle1.

− Détection du point de coupure pour dissocier les descendants connectés : partant du point d’embranchement détecté, un parcours du squelette est fait selon les cinq directions de Freeman F4, F3, F2, F1 et F0 dans cet ordre (figure 4.9), ce parcours est répété n fois où n est suffisamment grand pour s’éloigner du point d’embranchement. L’ordre du parcours choisi assure l’aboutissement à un point de coupure qui se situe dans la lettre le plus à droite de la zone de sous segmentation. Puis, à partir de la direction la plus fréquente parmi F2, F3 ou F4 on applique, au niveau du point de coupure déterminé, une coupe verticale ‘|’, diagonale ‘/’ ou horizontale ‘−‘ respectivement, dont la hauteur égale à l’épai-sseur du tracé.

1 Dans la plupart des cas, l’algorithme de squelettisation génère, au niveau des boucles, deux points d’embranchement au lieu d’un seul point de croisement.

(a)

(b)

FIG. 4.25 – Correction de la sous-segmentation en pseudo-mots : cas de descendants connectés. (a) extraction du squelette et de la bande de base du mot pour rechercher les points d’embranchement qui se situent en dessus de la bande de base; (b) résultat de la segmentation des descendants connectés.


− Enfin, on applique un lissage du contour de l’image obtenue.

Les résultats préliminaires obtenus par cet algorithme sont tout à fait satisfaisants, un exemple est illustré par la figure 4.25.

4.3.3 Construction de la base de pseudo-mots avec signes diacritiques : PAW-IFN/ENIT

La figure 4.26 décrit la procédure de segmentation et de construction de la base de pseudo-mots.

Chaque image binaire préalablement nettoyée de pseudo-mot est enregistrée sous un nom qui indique sa classe d’appartenance et son numéro dans cette classe. Par exemple le 30éme exemplaire de la 2ème classe est sauvegardé comme paw002_30.bmp (la 2ème classe correspond à la 2ème entée de la table du vocabulaire de pseudo-mots, voir tableau 4.3).

On sauvegarde également, dans la base de pseudo-mots, des fichiers qui contiennent la position de la ligne de base de chaque pseudo-mot. Cette information est nécessaire pour l’extraction de primitives dépendantes de la ligne de base (voir section 4.4.1).

Analyse

La base de pseudo-mots (‘PAW-IFN/ENIT’) est organisée en quatre sous ensembles de telle sorte que la source du contenu de chacun d’entre eux correspond à un des quatre sous ensembles ‘a, ‘b’, ‘ c’ ou ‘d’ de la base IFN/ENIT. Nos quatre sous ensembles contiennent respectivement : 18070, 19064, 17782 et 19188 images de pseudo-mots. La fréquence d’apparition des classes dans tous les quatre sous ensembles est illustrée par la figure 4.27 ; l’axe des abscisses indique le nombre de classes dont le nombre d’échantillon (fréquence) est le même. Il peut être constaté sur ce graphe la non uniformité de la distribution de fréquence d’apparition des classes de pseudo-mots dans la base totale. À titre d’exemple, le pseudo-mot alif apparaît 14175 fois, cependant, trois classes de pseudo-mots ont une fréquence nulle, ces classes sont :

− Le pseudo-mot parasite [�J : ‘faBsaMaaE’ qui correspond normalement au pseudo-mot ^�J : ‘kaBsaMaaE’ issu du nom de ville ص+ّ.��آ ‘ ’ (zip-code: ‘3013’). Dans toute la base IFN/ENIT, ce pseudo-mot a figuré une seule fois sur l’image : ae07_033.bmp. Cette dernière soufre d’un problème de sur segmentation (levée de plume au niveau du caractère ص). De ce fait, ses pseudo-mots n’ont pas été inclus dans notre base de pseudo-mots.

− Le pseudo-mot parasite : e�� : ‘laBmaMtaMraE’ qui correspond normalement au pseudo-mot e� : ‘laBmaMnaMzaE’ issu du nom de ville ‘ 0/ا� �6 ’, (zip-code:


122

FIG. 4.26 – Procédure de construction de la base de pseudo-mots (PAW) avec signes diacritiques.

1er filtre des signes diacritiques

Extraction de la ligne de base et des composantes

primaires

2ème filtre des signes diacritiques

Nb PAW = Nb PAW’

Ground truth

IFN/ENIT

modifié

Vocabulaire des

PAW avec

diacritiques

Construction du Vocabulaire des PAW

Annotation des mots

Fichier S_diacritiques

Affectation des PAW aux différentes classes du nouveau vocabulaire et Enregistrement de la ligne de base de chaque PAW

… Fichier des lignes de

base

paw001 paw002

paw018

paw073

paw005

paw084

Oui

Nb PAW Nb PAW’

Réaffectation des diacritiques et définition

de la ligne de base de chaque PAW

paw265


‘2091’). Le pseudo-mot ��e� a figuré une seule fois sur l’image : ce03_024.bmp, qui présente également un problème de sur-segmentation en pseudo-mots (levée de plume au niveau du caractère م).

− Le pseudo-mot valide 2e5 � : ‘laBlaMjaMmaMyaE’ issu du nom de ville ‘ آ��21ا-ّ� ’, (zip-code: ‘3067’). Dans toute la base IFN/ENIT, ce non de ville a figuré

6 fois sur les images : bi17_007, ce00_008, ce98_012, ci00_009, cm25_023, et df57_037. Malheureusement, toutes ces images présentent des problèmes de sur-segmentation dû au phénomène de la levée de plume au niveau de la lettre ج, elles sont de ce fait exclues de la base de pseudo-mots.

Pour résoudre ce problème (pseudo-mot parasite : mal écrit, bien annoté), l’annotation de l’IFN/ENIT doit inclure une information indiquant la présence de ce genre de problème. Dés lors, ces pseudo-mots seront, soit exclus du vocabulaire, soit réaffectés à leurs pseudo-mots originaux. Pour effectuer la réaffectation, une méthode à base de calcul de distance d’édition peut être utilisée afin d’établir une mesure de similarité entre la chaîne correspondant à la classe de pseudo-mot parasite et les chaînes qui correspondent aux autres classes de pseudo-mots (par exemple, entre la chaîne ‘faBsaMaaE : [ �J ’ et la chaîne ‘kaBsaMaaE : ^ �J ’).

FIG. 4.27 – Fréquence d’apparition des classes de pseudo-mots dans la nouvelle base PAW-IFN/ENIT.

0500

100015002000250030003500400045005000550060006500700075008000850090009500

10000105001100011500120001250013000135001400014500

3 34 11 6 12 3 1 5 1 2 2 3 1 1 2 1 1 1 1 1 1 1 1 1 1 2 1 1 1

Nombre de classes de PAW

Fré

quen

ce

Nombre de clases de PAW pour chaque fréquence


124

4.4 Reconnaissance pseudo analytique floue

Dans cette partie, nous présenterons un système multi-classifieurs flou basé sur une approche de reconnaissance pseudo analytique. La phase d’extraction de primitives est complètement achevée, une base de vecteurs caractéristiques est ainsi construite. Cependant, pour des raisons de temps, la phase de reconnaissance n’a pas pu être entièrement accomplie. Nous ne donnerons donc aucun résultat appuyé sur des chiffres. Toutefois, nous tentons dans la mesure de nos possibilités de présenter efficacement notre système de reconnaissance qui peut aboutir à de bonnes performances.

4.4.1 Extraction de primitives

Les primitives choisies dans notre système ont été reprises des systèmes de reconnaissance décrits dans la littérature [AUG 01] [MEN 08b], elles sont relative-ment courantes et efficaces :

− Ratio (rapport) hauteur sur largeur de la boite englobante du pseudo-mot avec signes diacritiques.

− Densité totale de pixels noirs calculée sur le squelette du pseudo-mot avec signes diacritiques.

− Densité de pixels noirs dans les 3*3 zones obtenues par une division horizontale en trois bandes (zone médiane, zone des ascendants et de diacritiques supérieurs, zone des descendants et de diacritiques inférieurs) et une division verticale en 3 bandes (le choix de 3 est intuitif et dépend de la largeur minimum de la boite englobante du squelette). Les 9 valeurs de densité sont normalisées par la surface de la zone correspondante (voir figure 4.28.b).

− Densité de pixels noirs calculée dans 5 zones parallèles obtenues par une division selon le diagonale 45°et normalisée par la surface de la zone considérée (figure 2.28.c).

− Densité de pixels noirs calculée dans 5 zones parallèles obtenues par une divisi-on selon le diagonale 135° et normalisée par la surface de la zone (figure 4.28.d).

− Profils haut, bas, gauche et droit calculés sur la boite englobante du pseudo-mot sans diacritiques et normalisés par sa largeur.

− Profils gauche et droit du pseudo-mot sans diacritiques calculés dans trois zones issues d’une division horizontale relative à la ligne de base et normalisés par la surface de la zone considérée (figure 4.28.e).

Reconnaissance pseudo analytique floue

125

− Profils haut et bas du pseudo-mot sans diacritiques calculés dans 3 bandes verticales de large identique et normalisés par la surface de la bande considérée (figure 4.28.e).

− Fréquence d’apparition de chacune des huit directions de la chaîne du code de Freeman extraite à partir du contour de pseudo-mot.

− Nombre de boucles et de points de fin du squelette du pseudo-mot sans diacritiques.

− Nombre de points de croisement entre : 1- le pseudo-mot et la ligne horizontale qui passe par le centre de gravité du pseudo-mot. 2- le pseudo-mot et la ligne verticale qui passe également par le centre de gravité.

− Position du x du centre de gravité du pseudo-mot par rapport à la ligne de base (1 : au-dessus, 2 : en dessous).

(a) (b)

(d) (c)

(e)

FIG. 4.28 – Représentation des primitives extraites.


126

− Distance entre y de la ligne de base et y du point le plus en haut du pseudo-mot sans signes diacritiques. Cela permet de caractériser les ascendants.

− Distance entre y de la ligne de base et y du point le plus en bas du pseudo-mot sans diacritiques ce qui permet de caractériser les descendants.

− Distance entre y de la ligne de base et y du point de début (start point) extrait à partir du squelette du pseudo-mot sans diacritiques, ce qui permet de caractériser le premier caractère du pseudo-mot (s’il s’agit d’un ascendant ou non).

− Distance entre y de la ligne de base et y du point de fin (end point) extrait à partir du squelette du pseudo-mot sans diacritiques, ce qui permet de caractériser le dernier caractère du pseudo-mot (si c’est un descendant ou non).

Le nombre total de primitives extraites est de 54 primitives. La figure 4.28 donne quelques exemples. Le choix de ces primitives ainsi que le nombre de zones horizontales, verticales et diagonales sont liés à plusieurs contraintes : pouvoir discriminant, vitesse d’exécution, taille du vecteur caractéristiques après la fuzzification (54×3), etc. ce qui limite le nombre de dimensions du vecteur de primitives. Cependant, l’extraction de certaines primitives est relative à la ligne de base, ceci permet de consolider la robustesse globale des vecteurs caractéristiques. À titre d’exemple, la figure 4.29 illustre quelques cas où la ligne de base est indispensable pour la distinction entre les pseudo-mots.

Pour évaluer la discrimination des primitives choisies, nous avons effectué des expérimentations en utilisant un classifieur KPPV. Les résultats obtenus sont tout à fait satisfaisants : 85.54% de reconnaissance en première position sur un lexique de 200 pseudo-mots.

Ra ‘ر ‘ Lam ‘ل’ Dal ‘د ‘

Alif ‘ ’ر‘ Numéro ‘9’ Ra ‘ و‘ Waw ‘ ا

FIG. 4.29 – Importance de la ligne de base (ligne rouge) pour la distinction entre les pseudo-mots.


127

4.4.2 Algorithme de clustering pour la création d’un système multi-classifieurs

La création de notre système multi-classifieurs se base sur une méthode de clustering proposée dans [MIN 08]. Cette méthode permet de diminuer significa-tivement la complexité de la reconnaissance par la distribution du problème sur un ensemble de classifieurs spécialisés dans différentes régions du problème considéré et qui travaillent selon le principe de « diviser pour régner, divide-and-conquer way, en anglais ».

À cet effet, un algorithme de clustering (décrit ci-dessous) est utilisé pour diviser la base de pseudo-mots en plusieurs sous ensembles ou clusters de classes différentes dont la forme est proche. Chacun de ces sous ensembles est ensuite utilisé pour l’apprentissage et le test d’un des classifieurs. Si un sous ensemble ne contient pas un nombre de données suffisant pour l’apprentissage et le test, on utilise les mêmes données d’apprentissage pour tester le classifieur [MIN 08].

Il est à noter qu’une même classe de pseudo-mot peut faire partie à plus qu’un seul cluster selon la variabilité inter-classe qui la possède.

Méthode de clustering évolutif

Soit NumEx le nombre total de données d’apprentissage et Dthr un seuil de distance.

(1) Créer le premier cluster C0 : en prenant la position de la première donnée comme étant le centre de ce premier cluster Cc0 et en affectant la valeur 0 à son rayon (radius) Ru0.

(2) Pour chaque donnée d’entrée xi, tel que i = 1 jusqu’à NumEx, on applique les étapes suivantes :

(a) Déterminer la distance entre xi et tout les N clusters Ccj : ,jiij CcxD −=

j = 0, 1,…, N − 1.

(b) Si une distance Dij vérifie : jij RuD ≤ , alors xi appartient au cluster j.

(c) Sinon

(i) Chercher le cluster αC de distance minimum αα CcxD ii −=

( ) .1...,,1,0,min −=−= NjCcx ji

(ii) Si DthrDi >α , créer un nouveau cluster en suivant les instructions de

l’étape (1).


128

(iii) Sinon, Mettre à jour αC : − incrémenter le nombre de données affectées

au cluster ( );1+= ααα NExsNExsC − modifier le centre de cluster

( )( )ααααα NExsCcxCcCcCc i /−+= , − et attribuer à αR la valeur maxim-

ale entre : 1. la distance entre la valeur précédente de αCc et sa valeur

actuelle plus la valeur précédente de αRu et 2. la distance entre xi et la

valeur actuelle de αCc .

Dans cet algorithme, la distance entre deux vecteurs x et y de n dimension est calculée par la distance euclidienne définie par :

n

yxyx

n

ii∑−

−=−

1

0

2)(

Le nombre de clusters obtenus dépend du choix du paramètre Dthr (seuil de distance). L’ajustement de ce paramètre nécessite la réalisation de plusieurs expérimentations. Le problème de ces dernières est quelles s’appliquent sur un grand volume de données (toute la base = des milliers de vecteurs primitives) et par conséquent elles prennent un temps de calcul énorme.

4.4.3 Les k plus proches Perceptrons Multi-Couches flous

Le type de classifieurs adopté pour notre système multi-classifieurs est un Perceptron Multi-Couches flou développé par Pal et Mitra [PAL 92] (la description de ce classifieur est détaillée dans la section 2.4.5.1). Les motivations de ce choix sont présentées dans les sections 4.1 et 2.4.5.

Comme nous l’avons dit précédemment, le nombre n de classifieurs du système est le même que celui du nombre de clusters obtenus.

À la différence de l’approche de Minku et al, qui consiste à utiliser tout l’ensemble de classifieurs pour évaluer la classe d’une forme inconnue, nous avons fait le choix d’utiliser les k plus proches classifieurs qui correspondent aux k plus proches clusters au pseudo-mot à reconnaître. Ce calcul est effectué également grâce à l’algorithme de clustering. L’idée d’utiliser les k plus proches classifieurs dans un système multi-classifieurs est inspirée du travail de [PRU 04], elles permet d’accélérer significativement le temps de traitement et d’aboutir à de bonnes performances par la sélection des classifieurs les plus adéquats pour la forme du pseudo-mot considéré.

En phase d’apprentissage, chaque réseau n’a à considérer que les données (vecteurs caractéristiques) du cluster au quel il est associé. Un sous ensemble de ces données est préservé pour évaluer les performances du réseau considéré.


129

Ainsi, les n PMC flous du système n’ont pas la même topologie, le nombre de neurones de la couche de sortie de chaque PMC flou est égal au nombre de classes du cluster sur lequel le réseau a été entraîné. Cependant, les n réseaux possèdent le même nombre de neurones de la couche d’entrée (162 neurones qui correspondent à la taille du vecteur caractéristique après la fuzzification ‘54×3’).

En phase de test, le système commence par calculer les k plus proches clusters du pseudo-mot à reconnaître, où k est fixé a posteriori (à la base de plusieurs expérimentations). Ce calcul est effectué grâce à l’algorithme de clustering présenté précédemment. Puis, il sélectionne les k PMC flous qui correspondent aux clusters déterminés. La réponse finale des k PMC flous est obtenue en combinant les réponses des classifieurs par une des méthodes de combinaison.

Finalement, un autre niveau de combinaison est effectué pour retrouver le mot à partir des candidats de pseudo-mots. Le mécanisme proposé ici utilise un autre vocabulaire de mots exprimés dans un alphabet de pseudo-mots, et il se base sur une approche de segmentation–reconnaissance où le résultat de la phase de segmentation en pseudo-mots est validé ou non par le taux de reconnaissance des k PMC flous.

130

Chapitre 5

Conclusions et perspectives

Dans ce travail de magister, nous nous sommes principalement intéressés à l’automatisation de la reconnaissance hors-ligne de l’écriture arabe manuscrite. Nous avons ainsi proposé un nouveau système de reconnaissance pseudo analytique qui se base sur une combinaison de classifieurs flous spécialisés dans différentes régions du problème considéré.

Bien que les idées implémentées dans ce travail résultent d’une étude approfondie de l’état de l’art, le système proposé ne présente ni continuité ni adaptation de n’importe quel autre système; ce qui explique en grande partie notre incapacité de compléter l’étape de la reconnaissance en raison du temps limité. Toutefois, nous avons tenté dans la mesure de nos possibilités de proposer un nouveau système de reconnaissance qui peut aboutir à de bonnes performances.

Durant notre étude, un temps et un effort considérables ont été consacrés au développement d’un certain nombre de techniques de prétraitements. Cela a résulté en deux publications scientifiques internationales qui concernent principalement l’extraction de la ligne de base [BOU 10a] [BOU 10b]. Par opposition à la majorité des méthodes décrites dans l’état de l’art qui extraient des lignes de base droites, l’algorithme proposé s’adapte bien aux légères variations de l’inclinaison de l’écriture au sein d’un même mot. Les expérimentations menées sur la base de données IFN/ENIT ont montré les performances encourageantes de l’ensemble des techniques de prétraitements proposées.

Cependant, l’une des pistes de perspectives importantes serait d’évaluer les méthodes proposées en fonction d’une mesure plus pertinente qui s’appuie sur le taux de reconnaissance obtenu par le système de reconnaissance dans lequel sont intégrées ces propositions de prétraitements.

Concernant la deuxième partie de recherche, l’idée est de développer une architecture qui permet de traiter de grands vocabulaires tels que celui de la base IFN/ENIT. Nous avons donc travaillé à différents niveaux afin de réussir la reconnaissance du vocabulaire traité.

Premièrement, l’approche pseudo analytique adoptée a permis une réduction considérable de la taille et de la complexité du problème. Cette approche nous a amené au développement d’un nouveau vocabulaire et d’une nouvelle base de pseudo-mots. Cette base est loin d’être parfaite car bien que le type de reconnaisseur

Conclusions et perspectives

131

choisi semble être capable de surmonter le problème des données mal étiquetées, il sera intéressant de corriger l’affectation de ces données afin de permettre une utilisation plus générale de la base développée. Pour cela, nous proposons comme perspective une correction automatique de l’affectation de ces données qui exploite le système neuro-flou proposé évidemment après sa validation expérimentale.

Deuxièmement, il nous est apparu intéressant de tester le pouvoir discriminent des primitives extraites afin de mieux maîtriser les différentes étapes du système proposée. À cet effet, un KPPV est utilisé. Ce KPPV a donné des résultats tout à fait satisfaisants.

Au niveau de la reconnaissance, l’architecture adoptée semble être performante puisqu’elle permet théoriquement un traitement efficace des vocabulaires étendus.

Finalement, nous dirons qu’il nous reste encore du travail à faire pour achever le développement du système proposé afin de montrer expérimentalement ses performances attendues et de pouvoir le comparer aux autres systèmes existants.

132

Bibliographie

[ABD 06] A. AdbulKader. Two-tier approach for Arabic offline handwriting recognition. In The Tenth International Workshop on Frontiers in Handwriting Recognition (IWFHR 10), October 2006.

[ABU 94] I. S. I. Abuhaiba, S. A. Mahmoud, and R. J. Green. Recognition of Handwritten Cursive Arabic Characters. IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 16, No. 6, 1994.

[ALA 08] H. Alamri, J. Sadri, Ch. Y. Suen, N. Nobile. A Novel Comprehensive Database for Arabic Off-Line Handwriting Recognition. In 11th International Conference on Frontiers in Handwriting Recognition (ICFHR), 2008.

[ALB 95] B. Al-Badr, S. A. Mahmoud. Survey and bibliography of Arabic optical text recognition. Signal Processing 41, pp. 49-77, 1995.

[ALK 08] J. H. Alkhateeb, J. Jiang, J. Ren, And S. S. Ipson. Component-Based Segmentation Of Words From Handwritten Arabic Text. Proceedings Of World Academy Of Science, Engineering And Technology, Vol. 31, pp. 345 – 349. July 2008.

[ALK 09] J. H. Alkhateeb, J. Ren, J. JJiang, S. Ipson. A machine learning approach for offline handwritten Arabic words. International Conference on CyberWorlds, IEEE Computer Society, pp. 219 – 223, 2009.

[ALM 02] S. Al-Ma’adeed, D. Elliman, and C. A. Higgins. A data base for Arabic handwritten text recognition research. IWFHR, 2002.

[ALO 00] Y. Al-Ohali, M. Cheriet, and Ch. Y. Suen. Databases for recognition of handwritten arabic cheques. Proc. of the Seventh International Workshop on Frontiers in Handwriting Recognition,WFHR’00, pp 601 – 606, September 11-13 2000.

[ALO 03] Y. Al-Ohali, M. Cheriet, and Ch. Y. Suen. Databases for recognition of handwritten arabic cheques. Pattern Recognition, 36(1) :111 – 121, 2003.

[ALS 08] A. M. Al-Shatnawi, Kh. Omar. Methods of Arabic Language Baseline Detection- The State of Art. IJCSNS International Journal of Computer Science and Network Security, vol.8, no.10, 2008.

[AMI 00] A. Amin. Recognition of printed arabic text based on global features and decision tree learning techniques. Pattern Recognition, 33(8):1309 – 1323, 2000.

[AMI 03] A. Amin. Recognition of hand-printed characters based on structural description and inductive logic programming. Pattern Recognition Letters 24, pp. 3187 – 3196, 2003.

[AMI 96] A. Amine, H. Al-Sadoun and S. Fischer .Hand-printed Arabic character recognition system using an artificial network. Pattern Recognition, Vol. 29, No. 4, pp. 663-675, 1996.

[AMI 98] A. Amin. Off-Line Arabic Character Recognition: The State Of The Art. Pattern Recognition, Vol. 31, No. 5, pp. 517-530, 1998.

[ARR 02] D. Arrivault, Apport des graphes dans la reconnaissance non-contrainte de caractères manuscrits anciens. PhD thesis, Univ de Poitiers, 2002.

Bibliographie

133

[ATI 97] A. A. Atici, F. T. Yaman-Vural. A heuristic algorithm for optical character recognition of Arabic script. Signal Processing 62, pp. 87 – 99, 1997.

[AUG 01] E. Augustin. Reconnaissance de mots manuscrits par systèmes hybrides Réseaux de Neurones et Modèles de Markov Cachés. PhD thesis, Université Rene Descartes - Paris V, 2001.

[BAL 06] G. R. Ball, S. N. Srihari, and H. Srinivasan. Segmentation-based and segmentation-free methods for spotting handwritten arabic words. In Guy Lorette and Suvisoft, editors, Tenth International Workshop on Frontiers in Handwriting Recognition, October 2006.

[BAN 98] M. Banerjee, S. Mitra, and S. K. Pal. Rough Fuzzy MLP: Knowledge Encoding and Classification. IEEE Transactions On Neural Networks. Vol. 9, No. 6, pp. 1203 – 1215, November 1998.

[BEL 06] A. Belaïd and Ch. Choisy. Human reading based strategies for off-line arabic word recognition. Summit on Arabic and Chinese Handwriting Recognition, SACH’06, 2006.

[BEL 97] A Belaïd , G. Saon. Utilisation des processus markoviens en reconnaissance de l’écriture. Traitement du signal, Vol. 14, N°. 2, pp. 161 – 177, 1997.

[BEN 03] N. E. Ben Amara, F. Bouslama. Classification of Arabic script using multiple sources of information: State of the art and perspectives. IJDAR’2003, 5: 195 – 212, 2003.

[BEN 06a] A. Benouareth, A. Ennaji, M. Sellami. Utilisation des HMMs de durée d’état explicite pour la reconnaissance des mots arabes manuscrits. 15emè congrès francophone AFRIF-AFIA Reconnaissance des Formes et Intelligence Artificielle, Actes sur CD-ROM, Tours, Janvier 2006.

[BEN 06b] A. Benouareth, A. Ennaji, M. Sellami. Semi-continuous HMMs with explicit state duration applied to Arabic handwritten word recognition. Proceedings of the IWFHR’06, 10th International Workshop on Frontiers in Handwriting Recognition, pp. 97 – 102, La Baule, France, October 2006.

[BEN 08a] A. Benouareth. Reconnaissance De Mots Arabes Manuscrits Par Modèles De Markov Cachés A Durée D’état Explicite. Thèse de Doctorat d’Etat, Univ d’Annaba, Algérie, Février 2008.

[BEN 08b] A Benouareth, A. Ennaji, M. Sellami. Arabic handwritten word recognition using HMMs with explicit state duration. EURASIP Journal on Advances in Signal Processing, Vol. 2008, Article ID 247354, 13 pages, 2008. doi:10.1155/2008/24735411.

[BEN 99] A. Bennasri, A. Zahour, B. Taconet. Extraction Des Lignes D’un Texte Manuscrit Arabe. Vision Interface ‘99, Trois-Rivières, Canada, 19-21 May, Pp. 41 – 48, 1999.

[BLU 99a] M. Blumenstein and B. Verma. A New Segmentation Algorithm for Handwritten Word Recognition. IJCNN’99, Washington, U.S.A., 1999.

[BLU 99b] M. Blumenstein and B. Verma. Neural–based solutions for the segmentation and recognition of difficult handwritten words from a benchmark database. In Proc. 5th International Conference on Document Analysis and Recognition CDAR’99, pages 281 – 284, Bangalore, India, 1999.

[BOU 10a] H. Boukerma and N. Farah. A novel Arabic baseline estimation algorithm based on sub-words localization. In proceedings of 10ème Colloque Africain sur la Recherche en Informatique et en Mathématiques Appliquées, CARI’2010. pp. 165 – 172, Yamoussoukro, Côte d’Ivoire, 18 – 21 Octobre 2010.

Bibliographie

134

[BOU 10b] H. Boukerma and N. Farah. A Novel Arabic Baseline Estimation Algorithm Based on Sub-Words Treatment. In proceedings of 12th International Conference on Frontiers in Handwriting Recognition, ICFHR’2010, Kolkata, India, November 16-18, 2010 (to appear).

[BOZ 89] R. M. Bozinovic, S. N. Srihari. Off-line Cursive Script Word Recognition. IEEE trans. on Pattern Analysis and Machine Intelligence, vol. 11, no. 1; 1989.

[BRI 00] A. De S. Britto JR, R. Sabourin, E. Lethelier, F. Bortolozzi, Ch. Y. Suen. Improvement in handwritten numeral string recognition by slant normalization and contextual information. Proceedings of the seventh International Workshop On Frontiers In Handwriting Recognition, Amsterdam, pp 323-332, September 11-13 2000.

[BUR 04] P. Burrow. Arabic Handwriting Recognition. PhD thesis, Master of Science, School of Informatics University of Edinburgh, 2004.

[BUS 97] B. M. F. Bushofa, M. Spann. Segmentation and recognition of Arabic characters by structural classification. Image and Vision Computing 15, pp. 167 – 179, 1997.

[CAR 05] S. Carbonnel. Intégration et modélisation de connaissances linguistiques pour la reconnaissance d’écriture manuscrite en-ligne. PhD thesis, INSA de Rennes, 2005.

[CAS 96] R. G. Casey and E. Lecolinet. A Survey of Methods and Strategies in Character Segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 18, pp.: 690 – 706, 1996.

[CHA 06] C. Chatelain. Extraction de séquences numériques dans des documents manuscrits quelconques. PhD thesis, Univ Rouen, 2006.

[CHA] C. Chatelain. Systèmes de reconnaissance de l’écriture manuscrite.

[CHE 01] A. Cheung, M. Bennamoun, N. W. Bergmann. An Arabic character recognition system using recognition-based segmentation. Pattern recognition 34, pp. 215-233, 2001.

[CHE 07a] M. Cheriet, N. Kharma , L.C. Liu and C. Y. Suen. Character recognition systems, A guide for students and practioners. Published by John Wiley & Sons, Inc., Hoboken, New Jersey.2007.

[CHE 07b] M. Cheriet. Strategies for visual Arabic handwriting recognition: issues and case study. In ISSPA 2007, International Symposium on Signal Processing and its Applications, 12 – 15 February 2007, Sharjah, United Arab Emirates, 2007.

[CHE 93] Ch. Ch. Chen. Improved moment invariants for shape discrimination. Pattern Recognition, vol. 26, no. 5, pp. 683 – 686, 1993.

[COR 95] C. Cortes, V. Vapnik. Support-Vector Networks. Machine Leaning, 20, pp. 273 – 297, 1995.

[DEH 01] M. Dehghan, K. Faez, M. Ahmadi, and M. Shridhar. Handwritten Farsi (Arabic) word recognition: a holistic approach using discrete HMM. Pattern Recognition, 34(5):1057–1065, 2001.

[DIN 00] Y. Ding, F. Kimura, Y. Miyake and M. Shridhar. Accuracy Improvement of Slant Estimation for Handwritten Words, In ICPR’00 :Proceeding of the International Conference on Pattern Recognition, IEEE Computer Society, 2000.

[EGM 02] M. Egmont-Petersen, D. de Ridder, H. Handels, Image processing with neural networks−a review. Pattern Recognition 35, pp. 2279 – 2301, 2002.

[ELA 07] H. El Abed and V. Märgner. Comparison of different preprocessing and feature

Bibliographie

135

extraction methods for offline recognition of handwritten Arabic words. Proc ICDAR, Vol. 2, pp. 974-978, 2007.

[ELA 08] H. El Abed and V. Märgner. Base de Données et Compétitions - Outils de Développement et d’Évaluation de Systèmes de Reconnaissance de Mots Manuscrits Arabes. Colloque International Francophone sur l’Ecrit et le Document, CIFED’08, 2008.

[ELG 01] A. M. Elgammal, M. A. Ismail. A Graph-Based Segmentation and Feature Extraction Framework for Arabic Text Recognition. Sixth International Conference on Document Analysis and Recognition , ICDAR’01, 2001.

[ELH 05a] R. El-Hajj, L. Likforman-Sulem, Ch. Mokbel. Arabic Handwriting Recognition Using Baseline Dependant Features and Hidden Markov Modeling. In 8th International Conference on Document Analysis and Recognition, ICDAR’05, pp.893 – 897, 2005.

[ELH 05b] R. El-Hajj and Ch. Mokbel. HMM-based arabic handwritten cursive recognition system. in Research Trends in Science and technology RTST 05, Beyrout, March 2005.

[ELH 06] R. El-Hajj, Ch. Mokbel, and L. Likforman-Sulem. Reconnaissance de l’écriture arabe cursive : combinaison de classifieurs MMCs à fenêtres orientées. In CIFED, 2006.

[ELH 08] R. El-Hajj, Ch. Mokbel, L. Likforman-Sulem. Combinaison de classifieurs HMMs à fenêtres symétriques et asymétriques pour la reconnaissance de mots manuscrits arabes. Colloque International Francophone sur l’Ecrit et le Document CIFED’08, pp. 115-120, 2008.

[ELH 09] R. Al-Hajj, L. Likforman-Sulem and Ch. Mokbel. Combining Slanted-Frame Classifiers for Improved HMM-Based Arabic Handwriting Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, NO. 7, pp. 1165 –1177, July 2009.

[ERL 96] E. J. Erlandson, J. M. Trenkle and R. C. Vogt. Word-level recognition of multifont Arabic text using a feature-vector matching approach. In Proc. SPIE, Document Recognition III, Luc M. Vincent; Jonathan J. Hull; Eds., volume 2660, pages 63 – 70, March 1996.

[FAK 00] M. Fakir, M. M. Hassani, Ch. Sodeyama. On the recognition of Arabic characters using Hough transform technique. Malaysian Journal of Computer Science, Vol. 13 No. 2, pp. 39 – 47, December 2000.

[FAR 04] N. Farah, L. Souici, L. Farah, M. Sellami. Arabic words recognition with classifiers combination: An application to literal amounts. Proc of the 11th International conference Artificial Intelligence: Methodology, Systems, Architectures, AIMSA 2004, Varna, Bulgarie, published in Lecture Notes in Artificial Intelligence, LNAI 3192, pp. 420-429, Springer, September 2004.

[FAR 05a] N. Farah, M. T. Khadir, M. Sallami. Artificial neural network fusion: Application to Arabic words recognition. Proc. European Symposium on Artificial Neural Networks, ESANN’05, pp. 151-156, April 2005.

[FAR 05b] F. Farooq, V. Govindaraju, M. Perrone. Pre-processing methods for handwritten Arabic documents. In 8th International Conference on Document Analysis and Recognition, ICDAR’05, 2005

[FAR 06] N. Farah, L. Souici, M. Sellami. Classifiers combination and syntax analysis for Arabic literal amount recognition. Engineering Applications of Artificial Intelligence 19, pp.29-39, 2006.

Bibliographie

136

[GHO 09] A. Ghosh, B. Uma Shankar, S. K. Meher. A novel approach to neuro-fuzzy classification. Neural Networks, Vol. 22, issue 1, pp. 100 – 109, 2009.

[GOR 92] H. Goraine, M. Usher and S. Al-Emami. Off-line Arabic character recognition. IEEE Computer, vol.25, pp.71-74, 1992.

[GRA 03] F. Grandidier. Un nouvel algorithme de sélection de caractéristiques – application à la lecture automatique de l’écriture manuscrite. PhD thesis, Univ du Québec,2003

[GRA 04] F. Grandidier, R. Sabourin, Ch. Y. Suen. Quelques techniques pour l’amélioration du pouvoir discriminant de primitives discrètes. Conférence Internationale Francophone sur l’Ecrit et le Document , CIFED 04, juin 2004.

[GRA 09] A. Graves and J. Schmidhuber. Offline handwriting recognition with multidimensional recurrent neural networks. In Advances in Neural Information Processing Systems 21, 2009.

[GRA 99] F. Grandidier, R. Sabourin, A. El-Yacoubi, C.Y. Suen, and M. Gilloux. Influence of word length on handwriting recognition. In Proc. of the 5rd International Conference on Document Analysis and Recognition, pp. 777 – 780, Bangalore, India, September 20-22, 1999.

[HEU 98] L. Heutte, T. Paquet, J.V. Moreau, Y. Lecourtier, C. Olivier. A structural/statistical feature based vector for handwritten character recognition. Pattern Recognition Letters 19, pp. 629 – 641, 1998.

[HUL 98] J. Hull; Document image skew detection: survey and annotated bibliography. Document Analysis Systems II, World Scientific, pp. 40 – 64, 1998.

[JUM 02] K. Jumari and M. A. Ali. A Survey And Comparative Evaluation Of Selected Off-Line Arabic Handwritten Character Recognition Systems. Journal Technology 36, pp. 1 – 18, Jun 2002.

[KAM 04] W. Kammoun and A. Ennaji. Reconnaissance de textes arabes à vocabulaire ouvert. In 8ème colloque international francophone sur l’écrit et le document, CIFED’04, June 2004.

[KAN 90] T. Kanungo and R. M. Haralick. Character recognition using mathematical morphology, Proc. of USPS Fourth Advanced Technology Conference, Washington, D.C., pp. 973 – 986, 1990.

[KHA 06] K. Khatatneh, I. M. M. El Emary and B. Al-Rifai. Probabilistic artificial neural network for recognition the Arabic hand written characters. Journal of Computer Science 3 (12), pp. 881 – 886, 2006.

[KHA 99] N. Kharma, M. Ahmed, and R. Ward. A new comprehensive database of handwritten arabic words, numbers, and signatures used for OCR testing. Electrical and Computer Engineering, 1999 IEEE Canadian Conference on, 2 :766 – 768 vol.2, 1999.

[KHO 02] M. S. Khorsheed. Off-Line Arabic Character Recognition – A Review. Pattern Analysis & Applications 5, pp.31 – 45, 2002.

[KHO 99] M. S. Khorsheed and W. F. Clocksin. Structural features of cursive Arabic script. BMVC99, pp. 422-431.,1999.

[KIM 04] I. Ch. Kim, K. M. Kim, and Ch. Y. Suen. Word Separation in Handwritten Legal Amounts on Bank Cheques Based on Spatial Gap Distances. Springer-Verlag. pp. 453-462. 2004.

[KOE 02] A. L. Koerich. Large vocabulary off–line handwritten word recognition. PhD thesis,

Bibliographie

137

Univ. du Québec, 2002.

[KOE 03] A. L. Koerich, R. Sabourin, and Ch. Y. Suen. Large vocabulary off-line handwriting recognition: A survey. Pattern Anal. Appl., 6(2) :97 – 121, 2003.

[KOE 06] A. L. Koerich, A. S. Britto JR., Luiz E. S. de Oliveira and R. Sabourin. Fusing high- and Low-Level Features for Handwritten Word Recognition. In: 10th International Workshop on Frontiers in Handwriting Recognition, La Baule. Proceedings of the IWFHR2006. Tampere : Suvisoft Ltd, p. 151 – 156, 2006.

[LAM 95] L. Lam, C. Y. Suen, D. Guillevic, N. W. Strathy, M. Cheriet, K. Liu and J. N. Said. Automatic processing of information on cheques. Proc. 1995 IEEE Int. Conf. on Systems, Man, and Cybernetics, Vancouver, Canada, Oct. 1995, 2353 – 2358, 1995.

[LI 07] H. Li, H. Zheng, Y. Wang. Segment Hough Transform – a Novel Hough-based Algorithm for Curve Detection. Fourth International Conference on Image and Graphics, pp. 471 – 477, IEEE, 2007.

[LOR 05] L. Lorigo, V. Govindaraju. Segmentation and Pre-Recognition of Arabic Handwriting. Proceedings of the 2005 Eight International Conference on Document Analysis and Recognition, ICDAR’05. IEEE Computer Society, 2005.

[LOR 06] L. M. Lorigo and V. Govindaraju. Offline Arabic Handwriting Recognition : A survey. IEEE Trans. on Pattern Analysis and Machine Intelligence, 28(5), pp. 712 – 724, 2006.

[MAD 99] S. Madhvanath, G. Kim, and V. Govindaraju. Chaincode Contour Processing for handwritten word recognition. IEEE trans. on pattern analysis and machine intelligence, vol. 21, No 9, pp. 928 – 932, 1999.

[MAH 91] S. A. Mahmoud, I. Abuhaiba and R. J. Green. Skeletonization of Arabic characters using clustering based skeletonization algorithm (CBSA). Pattern Recognition, vol. 24, no. 5, pp. 453-464, 1991.

[MAR 05] V. Märgner, M. Pechwitz, H. El Abed. ICDAR 2005 Arabic Handwriting Recognition Competition. In 8th International Conference on Document Analysis and Recognition, ICDAR’05, pp.70 – 74, 2005.

[MAR 06] V. Märgner, H. El Abed, and M. Pechwitz. Offline handwritten arabic word recognition using hmm - a character based approach without explicit segmentation. In CIFED, 2006.

[MAR 07] V. Märgner, H. El Abed. ICDAR 2007: Arabic Handwriting Recognition Competition. In 9th International Conference on Document Analysis and Recognition, ICDAR’07, 2007.

[MAR 09] V. Märgner, H. El Abed. ICDAR 2009: Arabic Handwriting Recognition Competition. pp. 1383-1387, in 10th International Conference on Document Analysis and Recognition, ICDAR’09, 2009.

[MEN 07] F. Menasri, N. Vincent, M. Cheriet, E. Augustin. Shape-Based Alphabet for Off-line Arabic Handwriting Recognition. ICDAR ‘07 : Proceedings of the Ninth International Conference on Document Analysis and Recognition, Vol 2, 2007, pp. 969 – 973, 2007.

[MEN 08a] F. Menasri, N. Vincent, E. Augustin, M. Cheriet. Un système de Reconnaissance de Mots Arabes Manuscrits Hors-ligne Sans Signes Diacritiques. Actes du dixième Colloque International Francophone sur l’Écrit et le Document, CIFED’08, 2008.

[MEN 08b] F. Menasri. Contributions à la reconnaissance de l’écriture Arabe manuscrite. PhD thesis, Univ Paris Descartes, 2008.

Bibliographie

138

[MIL 01] H. Miled and N. E. B. Amara. Planar Markov Modeling for arabic writing recognition: Advancement state. In ICDAR ‘01: Proceedings of the Sixth International Conference on Document Analysis and Recognition, pp. 69 – 73, 2001.

[MIL 07] J. Milgram. Contribution à l’intégration des Machines à Vecteurs de Support au sein des systèmes de reconnaissance de formes: Application à la lecture automatique de l’écriture manuscrite. PhD thesis, Univ Québec, 2007.

[MIL 97a] H. Miled, C. Olivier, M. Cheriet, K. Romeo-Pakker. Une Méthode Rapide de Reconnaissance de l’Écriture Arabe Manuscrite. In seizième Colloque Gretsi, pp. 857-860, 1997.

[MIL 97b] H. Miled, C. Olivier, M. Cheriet, and Y. Lecoutie. Coupling observation/letter for a Markovian Modelisation applied to the recognition of arabic handwriting. In ICDAR ‘97 : Proceedings of the 4th International Conference on Document Analysis and Recognition, pages 580 – 583. IEEE Computer Society, 1997.

[MIN 08] F. L. Minku and T. B. Ludermir, Clustering and co-evolution to construct neural network ensembles: An experimental study. Pp.: 1363 – 1379, Neural Networks 21, 2008.

[MIT 95] S. Mitra and S. K. Pal. Fuzzy Multi-Layer Perceptron, Inferencing and Rule Generation. IEEE Transactions on Neural Networks. Vol. 6. No. 1, pp. 51 – 63, January 1995.

[MOT 97] D. Motawa, A. Amin, and R. Sabourin. Segmentation of arabic cursive script. In ICDAR ‘97 : Proceedings of the 4th International Conference on Document Analysis and Recognition, pages 625 – 628. IEEE Computer Society, 1997.

[MOZ 06] S. Mozaffari, K. Faez, F. Faradji, M. Ziaratban and S. M. Golzan. A Comprehensive Isolated Farsi/Arabic Character Database for Handwritten OCR Research. Proceedings of IWFHR 2006, Paris, France, Oct. 23 – 26, 2006.

[MOZ 07] S. Mozaffari, K. Faez, V. Märgner and H. El-Aded. Strategies for Large Handwitten Farsi/Arabic Lexicon Reduction. Ninth International Conference on Document Analysis and Recognition , ICDAR’07. IEEE Computer Society, 2007.

[MOZ 08] S. Mozaffari, H. El Abed, V. Märgner, K. Faez and A. Amirshahi. IfN/Farsi-Database: A Database of Farsi Handwritten City Names. 11th International Conference on Frontiers in Handwriting Recognition, ICFHR, 2008.

[OLI 00] L. S. Oliveira, E. Lethelier, F. Bortolozzi, R. Sabourin. Segmentation de caractères manuscrits basée sur une approche structurelle. Colloque International Francophone sur l’Écrit et le Document, CIFED’2000, Lyon (France), pp. 231 – 240. 3-5 July 2000.

[OLI 02] J. J. Oliveira, J. de Carvalho, C. Freitas, and R. Sabourin. Feature sets evaluation for handwritten word recognition. 8th International Workshop on Frontiers of Handwriting Recognition, IWFHR’8, pp. 446 – 451, Niagara-on-the-Lake, CA, August 6-8, 2002.

[OLI 96] C. Olivier, H. Miled, K. Romeo, and Y. Lecourtier. Segmentation and coding of arabic handwritten words. In ICPR96, p.p : 264–268, 1996.

[OMI 05] M. Omidyeganeh, K. Nayebi, R. Azmi and A. Javadtalab. A new segmentation technique for multi font Farsi/Arabic texts. ICASSP’05, IEEE, pp. 757 – 760, 2005.

[PAL 92] S. K. Pal and S. Mitra. Multilayer Perceptron, fuzzy sets end classification. IEEE transaction on neural networks. Vol. 3, No. 5, pp. 683 – 696, September, 1992.

[PAR 98] J. Park, V. Govindaraju, and S. Srihari. OCR in a hierarchical feature space. IEEE,

Bibliographie

139

pp. 4324 – 4329, 1998.

[PEC 02a] M. Pechwitz, S. Snoussi Maddouri, V. Märgner, N. Ellouze, H. Amiri. IFN/ENIT Database of Handwritten Arabic Words. In CIFED’02, 2002.

[PEC 02b] M. Pechwitz, V. Märgner. Baseline Estimation for Arabic Handwritten Words. In Proc. of the Eighth International Workshop on Frontiers in Handwriting Recognition, IWFHR’02, page 479, IEEE Computer Society, 2002.

[PEC 03] M. Pechwitz and V. Maergner. HMM based approach for handwritten Arabic word recognition using the IFN/ENIT- database. In ICDAR ‘03: Proceedings of the Seventh International Conference on Document Analysis and Recognition, page 890. IEEE Computer Society, 2003.

[PEC 06] M. Pechwitz, V. Maergner, H El-Abed. Comparison of Two Different Feature Sets for Offline Recognition of Handwritten Arabic Words. In IWFHR’06, 2006.

[PRU 04] Y. Prudent and A. Ennaji. Les K Plus Proches Classifieurs. Colloque International Francophone sur l’Ecrit et le Document, CIFED’04, 2004.

[RAZ 07] Z. Razak, Kh. Zulkiflee, R. Salleh, M. Yaacob, E. M. Tamil. A Real-Time Line Segmentation Algorithm For An Offline Overlapped Handwritten Jawi Character Recognition Chip. Malaysian Journal Of Computer Science, Vol. 20(2), pp. 171 – 182, 2007.

[RAZ 10] M. I. Razzak; F. Anwar, S. A. Husain, A. Belaid, M. Sher .HMM and fuzzy logic: A hybrid approach for online Urdu script-based languages’character recognition. Article in Press, Knowledge-Based Systems, 2010.

[RUS 02] S. J. Russell and P. Norvig, “Artificial Intelligence, A Modern Approach, Second Edition”. Pearson Education, Inc., Upper Saddle River, New Jersey, 2002.

[SAR 02] T. Sari, L. Souici, and M. Sellami. Off-line handwritten Arabic character segmentation algorithm : ACSA. In IWFHR’02: Proceedings of the Eighth International Workshop on Frontiers in Handwriting Recognition, page 452. IEEE Computer Society, 2002.

[SAR 07] T. Sari and M. Sellami. Overview of some algorithms of aff-line Arabic handwriting segmentation. The International Arabic Journal of Information Technology. Vol. 4, No. 4, pp. 289 – 300, 2007.

[SIN 99] S. Singh, A. Amin. Fuzzy recognition of Chinese characters. Proc. Irish Machine Vision and Image Processing Conference, IMVIP’99, September, 1999.

[SNO 02] S. Snoussi-Maddouri, H. Amiri, A. Belaid and C. Choisy. Combination of Local and Global Vision Modeling for Arabic Handwritten Word Recognition. International Workshop Frontier in Handwriting Recognition IWFHR’02, 2002.

[SOU 04a] L. Souici, N. Farah, T. Sari, M. Sellami. Rule based neural networks construction for handwritten arabic city-names recognition. Proc of the 11th International conference Artificial Intelligence: Methodology, Systems, Architectures, AIMSA 2004, Varna, Bulgaria, published in Lecture Notes in Artificial Intelligence, LNAI 3192, pp. 331-340, Springer, September 2004.

[SOU 04b] L. Souici-Meslati, M. Sellami. A hybrid approach for Arabic literal amounts recognition. AJSE, the Arabian Journal for Science and Engineering, Section B: Engineering, Vol. 29, No. 2B, pp. 177-194, October 2004.

[SOU 06] L. Souici-Meslati L. Reconnaissance des mots arabes manuscrits par intégration neuro-symbolique. Thèse de Doctorat d’Etat, Univ d’Annaba, Algérie, Février 2006.

Bibliographie

140

[SRI 05] S. N. Srihari, H. Srinivasan, P. Babu, and C. Bhole. Handwritten Arabic word spotting using the CEDARABIC document analysis system. In Proc. Symposium on Document Image Understanding Technology, SDIUT’05, pages 123–132, College Park, MD, Nov. 2005.

[SRI 06] S. N. Srihari, G. R. Ball and H. Srinivasan. Versatile search of canned arabic handwriting. Summit on Arabic and Chinese Handwriting Recognition, SACH’06, pp. 151-160, 2006.

[SUR 01] S. Sural, P. K. Das. Recognition of an Indian script using Multilayer Perceptrons and Fuzzy features. Sixth International Conference on Document Analysis and Recognition, ICDAR’01, pp. 1120 – 1124, 2001.

[SYI 06] M. Syiam, T. M. Nazmy, A. E. Fahmy, H. Fathi, K. Ali. Histogram clustering and hybrid classifier for handwritten Arabic characters recognition. Proc. Of the 24th IASTED International Multi-Conference Signal Processing, Pattern Recognition and Applications, pp. 44 – 49, 2006.

[THE 03] S. Theodoridis and K. Koutroumbas. Pattern Recognition, Second Edition. Copyright 2003, Elsevier (USA). Academic Press. 2003.

[TOU 92] C. Touzet. Les réseaux de neurones artificiels: introduction au connexionnisme. 1992.

[TRI 96] O. D. Trier, A. K. Jain, T. Taxt. Feature extraction methods for character recognition: a survey. Pattern Recognition, Vol. 29, N°. 4, pp. 641 – 662, April 1996.

[VER 03] B. Verma, A Contour Code Feature Based Segmentation for Handwriting Recognition. In Proc. of the Seventh International Conference on Document Analysis and Recognition, ICDAR’03, 2003.

[XU 90] L. Xu, E. Oja, P. Kultanen. A new curve detection method: Randomized Hough Transform (RHT). Pattern Recognition Letters 11, pp: 331 – 338, 1990.

[ZAD 65] L. A. Zadeh. Fuzzy sets. Information and Control, vol. 8, pp. 338 –353, 1965.

[ZAH 01] A. Zahour, B. Taconet, P. Mercy, and S. Ramdane. Arabic Hand-written Text-line Extraction. In Proc. of the Sixth International. Conference on Document Analysis and Recognition, ICDAR 2001, Seattle, USA, pp. 281 – 285, September 10-13 2001.

[ZHA 84] T. Y. Zhang, C. Y. Suen. A Fast Parallel Algorithm for Thinning Digital Patterns. Image Processing and Computer Vision, vol. 27, no. 3, 1984.

[ZHE 04] L. Zheng, A. H. Hassin, X. Tang. A new algorithm for machine printed Arabic character segmentation. Pattern Recognition Letters 25, pp. 1723–1729, 2004.

[ZIA 08] M. Ziaratban, K. Faez. A Novel Two-Stage Algorithm for Baseline Estimation and Correction in Farsi and Arabic Handwritten Text Line. IEEE, 2008.

Combinaison de classifieurs flous pour la reconnaissance...

Documents

Transcript of Combinaison de classifieurs flous pour la reconnaissance...