Segmentation d’image - IMT Atlantique · segmentation. La section suivante traitera...

MÉMOIRE DE MASTER DE RECHERCHE« ARCHITECTURES LOGICIELLES DISTRIBUÉES »

Segmentation d’imageApplication aux documents anciens

Thibault LELORE

mai 2007encadré par José MARTINEZ

—

Frédéric BOUCHARA,Elisabeth MURISASCO,Emmanuel BRUNO

—

LABORATOIRE DES SCIENCES DE L’INFORMATION ET DES

SYSTÈMES

Segmentation d’imageApplication aux documents anciens

Thibault LELORE

Résumé

Dans ce document, nous présentons différentes méthodes de segmentation. Dans le cas de docu-ments anciens, les techniques ont montré leurs limites. L’étude porte sur toute la chaîne de traite-ment d’image permettant de segmenter un document. En effet, ces documents sont généralementfortement dégradés, ce qui rend difficile l’identification des différents éléments. Cette difficultérend l’utilisation de pré-traitements nécessaire afin d’améliorer la qualité des documents. Unepremière partie est ainsi consacrée aux techniques de restauration d’images. La seconde partieconcerne l’état de l’art des méthodes de segmentation.

Catégories et descripteurs de sujets : I.4.6 [Segmentation]: Edge and feature detection, Pixelclassification; I.5.3 [Clustering]: Algorithms, Similarity measures; I.4.10 [Image Representa-tion]: Statistical, Multidimensional

Termes généraux : Segmentation, feature aggregation, Bayesian approach, bottom-up, top-down,texture, binarisation.

Mots-clés additionnels et phrases : Champs de Markov, heuristiques, seuillage adaptatif.

2

RemerciementsLorsque je suis parti de Nantes pour mon stage, je ne connaissais que très peu de choses

du monde de la recherche. Étant de formation ingénieur, j’ai abordé mon stage sans arrière-pensées, bien décidé à trouver du travail dans une entreprise si l’expérience ne me plaisaitpas. Or, après quelques mois de travail au sein de l’équipe toulonnaise, j’ai pris goût à la re-cherche. Je tiens donc à remercier particulièrement Frédéric BOUCHARA, Elisabeth MURISASCO

et Emmanuel BRUNO pour l’ambiance chaleureuse qu’ils ont su partager avec le reste de l’équipe.Leurs précieux conseils et leur esprit critique m’ont aussi été d’un grand secours, aussi bien pourl’orientation de mes recherches que pour l’orientation de mon projet professionnel.

Je tiens à remercier Nicolas FAESSEL qui doit supporter ma présence dans son bureau à Mar-seille, ainsi que mes questions sur la vie étudiante dans le Sud. Par ailleurs, ses explications surle fonctionnement administratif du laboratoire m’ont permis de gagner beaucoup de temps etd’énergie.

Je tiens aussi à remercier José MARTINEZ, sans qui ce stage n’aurait pas pu avoir lieu. Eneffet, son écoute et sa disponibilité m’ont permis de partir faire un stage dans le Sud, malgré lesdifficultés que cela a posé.

Merci à Gilles MULLER, qui m’a permis de suivre cette formation, malgré quelques petitsproblèmes lors de l’inscription. Grâce à votre compréhension, j’ai pu, avec grand plaisir, décou-vrir le monde de la recherche.

Merci à Florian MOUSSOUS, qui travaille en aval de mes recherches. Il n’hésite pas à parta-ger avec moi ses travaux et anticiper sur ses besoins afin de me simplifier le travail.

Enfin, un grand merci à tous ceux que je n’ai pas cité, ma famille, mes amis, mes collègues,mais qui ont, chacun à leur manière, rendu possible ce stage.

Table des matières

1 Introduction 51.1 Présentation de la problématique . . . . . . . . . . . . . . . . . . . . . . . . . . 51.2 Objectifs poursuivis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.3 Travail à réaliser . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71.4 Contribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81.5 Plan de l’étude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2 État de l’art 92.1 Prétraitements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.1.1 Bruit et autres dégradations . . . . . . . . . . . . . . . . . . . . . . . . 92.1.2 Restauration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102.1.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.2 Segmentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152.2.1 Binarisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152.2.2 Segmentation ascendante . . . . . . . . . . . . . . . . . . . . . . . . . . 242.2.3 Segmentation descendante . . . . . . . . . . . . . . . . . . . . . . . . . 302.2.4 Segmentation par texture . . . . . . . . . . . . . . . . . . . . . . . . . . 332.2.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

3 Proposition 37

4 Expérimentations et résultats 38

5 Conclusion et perspectives 395.1 Résumé du travail effectué . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 395.2 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 395.3 Perspectives de recherche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

4

Chapitre 1

Introduction

1.1 Présentation de la problématiqueLe problème que rencontrent les bibliothèques numériques est proche du problème auquel

sont confrontés les moteurs de recherche. En effet, le problème n’est plus de récupérer l’infor-mation, car les moyens de communication permettent un accès rapide et fiable, mais bien de latrouver parmi des millions de candidats potentiels. Généralement, ce qui est proposé est un accèsau catalogue des images numérisées ; accès rendu possible grâce à la mise en place d’outils derecherche fonctionnant par mots-clefs. La mise en place et l’accès à ces bibliothèques numé-riques permettent d’introduire deux notions importantes que sont l’indexation des images et lanotion d’aide à la navigation. Ces deux concepts sont complémentaires. L’indexation consiste àtrouver un moyen d’associer aux images une information pertinente (métadonnées sur l’ouvrage,index de mots, index d’illustrations . . .). La notion d’aide à la navigation, touche au problème del’accessibilité d’une information recherchée dans une masse de données de taille conséquente.La phase d’indexation doit permettre d’extraire une grande quantité d’information, qu’il fautanalyser et structurer, pour permettre finalement l’accès à ce que recherche un utilisateur.

Il existe deux manières d’appréhender l’indexation. La question est avant tout de savoir com-ment extraire de l’information des images de textes numérisées ? Certaines bibliothèques numé-riques ont fait le choix d’indexer manuellement leurs images alors que d’autres ont fait le paride se lancer dans des solutions incluant de l’indexation automatique. Dans le premier cas, denombreux défauts comme la lourdeur de la tâche ou encore la subjectivité des mots-clefs choisispour indexer les documents rendent difficile sa mise en œuvre. Mais la deuxième approche, bienque résolvant les deux précédents problèmes, n’est pas plus simple à mettre en place. En effet,les documents numérisés sont parfois en mauvais état, mal numérisé et/ou dans un alphabet nepermettant pas de retrouver facilement le texte dans les images.

Parallèlement à cette indexation de documents des bibliothèques, un autre problème se rap-prochant de cette problématique a été soulevé par les bases de données multimédias. Les sitescomme YouTube1 où tout le monde peut déposer une vidéo, ou encore les bases de donnéesd’images, sont des sources intarissables de documents multimédias qu’il est parfois difficile

1Site internet de partage de vidéos : http ://www.youtube.com/

5

d’indexer. Une bonne manière d’ajouter de l’information sémantique (par opposition à l’infor-mation bas niveau, comme une couleur, une texture. . .) est d’utiliser le texte présent dans l’image[Wol03]. Il est alors possible d’obtenir le nom du présentateur, la ville, le sujet. . .

1.2 Objectifs poursuivis

C’est au cours d’un travail en partenariat avec une équipe de chercheurs italiens que le projetest né. En effet, ces chercheurs italiens travaillaient sur des manuscrits médiévaux en occitande la région de Montpellier traitant de recettes médico pharmaceutiques, et avaient beaucoupde mal à indexer et structurer les documents, notamment pour les rendre plus accessible à leursétudiants.

En associant les compétences des équipes I & M (Image & Mo-

FIG. 1.1 – Déroulementdu processus

dèles) et INCOD (Information et Connaissance Distribuées), ils eurentl’idée de travailler sur un projet permettant de structurer et d’interrogerdans un environnement XML les documents manuscrits. L’équipe I &M étant compétente en matière de segmentation et l’équipe INCOD enmatière d’interrogation de documents XML, la collaboration des deuxéquipes était prometteuse. L’objectif de l’étude est de répertorier cequi se fait dans le monde de la segmentation pour ensuite, en accordavec les deux équipes, proposer une solution. Ce stage s’inscrit doncdans le cadre de la construction d’une maquette permettant d’illustrerla représentation et l’interrogation de documents numérisés compo-sés de zones de textes manuscrits, de zones de textes typographiques,d’images et de schémas dans un environnement XML.

Ce projet peut être séparé en deux parties, comme le présente la fi-gure 1.1. Mon travail concerne la première partie. Suite à la numérisa-tion, en Italie, des documents anciens traitant de recettes médicophar-maceutiques, le but de cette partie est de repérer le texte, les images etles annotations pour extraire une organisation physique du document.

Un deuxième stagiaire se focalise sur la deuxième partie qui s’or-ganise en deux blocs : la modélisation des informations extraites du document et l’interrogationde ces informations via un langage de requête étendant le langage XQuery2.

Ce travail doit permettre, à terme, de pouvoir interroger au sein d’une même requête l’infor-mation spatiale extraite de l’image, l’information extraite du texte (obtenu par une traduction oupar un logiciel de reconnaissance de caractères) et l’information sémantique (obtenu manuelle-ment ou par relations spatiales). Une requête type pourrait donc être : « Quelle est la prescriptionqui se trouve sur plusieurs pages, qui contient le plus de phrases et qui est illustrée par unefigure ».

2XQuery est le langage de requêtes, recommandé par le W3C, pour les données XML

6

1.3 Travail à réaliser

Après une première phase de bibliographie, il est apparu que la segmentation de documentsbénéficiait déjà d’une littérature abondante. Cependant, peu de documents traitent des aspects debinarisation de documents anciens, qui présentent de fortes dégradations.

Le travail à réaliser se focalisera donc sur la binarisation de documents dégradés pour extrairele texte du fond (voir figure 1.2). Grâce à une méthode déjà existante, le document sera ensuitesegmenté pour produire une description interprétable par le second module d’interrogation. Lesdocuments utilisés présenteront un aspect fortement dégradé, avec un fond non uniforme, despages déchirées, froissés et/ou des tâches d’encre effaçant partiellement l’encre. L’objectif estalors de retrouver les pixels de texte, et de séparer en deux classes le document : texte et fond.

FIG. 1.2 – Exemples de documents manuscrits.

7

1.4 ContributionLes champs de Markov sont très utilisés en traitement d’image [Li95] et quelques approches

ont été proposées dans le cadre de la segmentation [WD02, ZLD03, NPH06]. Cependant, lespropositions ne sont pas satisfaisantes, dans le sens où elles intègrent des approximations ou dessimplifications dans le calcul des différentes probabilités. Par ailleurs, le taux de réussite n’estpas compétitif par rapport aux méthodes récentes utilisant des heuristiques.

Afin de proposer une solution efficace et fiable, l’utilisation d’opérateurs statistiques éprou-vés (comme les estimateurs robustes) doit permettre de partir sur des bases solides. Plutôt qued’utiliser des règles définies empiriquement, qui permettent d’obtenir de bons résultats, maispour un domaine particulier, l’utilisation de ces opérateurs offre une plus grande généricité.

Par ailleurs, il n’existe pas à notre connaissance de documents traitant de la binarisation dedocuments utilisant les champs de Markov avec les estimateurs robustes. Cette direction noussemblant intéressante et prometteuse, nous avons donc décidé d’explorer cette voie.

1.5 Plan de l’étudeLa segmentation fait partie d’une chaîne de traitement du signal : différentes transformations

sont appliquées à l’image avant de pouvoir être séparée en régions. Faire abstraction de ces étapessuccessives rendrait plus difficile la compréhension et la justification des traitements, et ne per-mettrait pas d’avoir une vision globale du problème. C’est pourquoi le chapitre concernant l’étatde l’art débute sur une description des dégradations qui peuvent altérer une image, pour ensuitedécrire des méthodes de restauration. Ces méthodes sont souvent utilisées en prétraitement de lasegmentation. La section suivante traitera particulièrement de la segmentation et sera composéde quatre paragraphes. Le premier concernera la binarisation, étape souvent préliminaire à lasegmentation, tandis que les paragraphes suivants se focaliseront sur les différentes techniquesde segmentation, classées suivant leurs approches.

La solution proposée sera décrite en détail dans la partie « Proposition » et les différents testset résultats seront présentés dans le chapitre suivant. Enfin, une conclusion résumera le travaileffectué et ouvrira sur d’autres perspectives de recherche.

8

Chapitre 2

État de l’art

2.1 Prétraitements

En raison de la multitude de sources de bruits, et surtout de la multitude d’effets de ces bruitssur une image, il n’existe pas de technique de restauration générale, adaptée à toutes les situa-tions. Il existe de nombreuses recherches permettant d’approcher ce traitement automatisé dubruit [BC96] mais, en général, ces techniques cherchent à adapter les paramètres de traitementsspécialisés, en fonction d’estimations calculées à partir de l’image. Afin de bien comprendreles enjeux de la restauration, le chapitre suivant s’intéresse aux bruits et aux perturbations quipeuvent dégrader une image. Ensuite, les chapitres suivants présenteront plusieurs techniquespermettant de réduire les dégradations.

2.1.1 Bruit et autres dégradations

Avant de s’intéresser aux améliorations à apporter aux documents numérisés pour faciliterleur interprétation, il est important de comprendre quels types de dégradations peuvent inter-venir sur les images. Il existe deux types de dégradations : les perturbations aléatoires (bruit)et les perturbations déterministes (comme le flou). Ces perturbations sont souvent identifiées etformalisées afin de pouvoir prédire et donc réduire leur effet sur le signal capturé. L’origine desperturbations est aussi diverse qu’il existe d’outils et d’environnements d’acquisition différents.Il n’existe donc pas qu’un seul type de distorsion.

Les premiers bruits identifiés sont dus au matériel d’acquisition. Un capteur a une sensibilitéminimum, et si la luminosité ambiante se situe en dessous de ce seuil, des détails sont perdus.Afin de résoudre ce problème, la solution la plus valable est d’augmenter la luminosité de lascène, en prolongeant la durée d’exposition ou encore en ouvrant un peu plus l’objectif, le capteurreçoit plus de lumière et passe le seuil minimal de rendement.

À l’inverse, pour les signaux ayant une amplitude trop élevée, on observe un phénomèned’éblouissement. Les condensateurs emmagasinent une charge excessive qui a alors tendanceà s’écouler dans les cellules voisines, créant ainsi des effets de halo ou de traînée. Ces effetsétant difficiles à réduire après acquisition, la solution la plus souvent envisagée est de chercher à

9

réduire l’effet visuel en amont de la prise de vue, aussi bien pour les capteurs argentiques (coucheantihalo) que pour les capteurs numériques (isolation des cellules).

En plus de ces bruits inhérents aux technologies utilisées pour les capteurs, il y a une multi-tude d’autres sources de perturbations [Bui98]. Certaines sont négligeables, comme le bruit pho-tonique (bruit grenaille) qui est dû à l’arrivée aléatoire des photons, tandis que d’autres gommentfortement les détails d’une image. C’est le cas du flou. Cette distorsion est souvent dû à unemauvaise mise au point, mais aussi, parfois, à une surface qui diffuse la lumière (la buée parexemple). Il peut être aussi causé par le mouvement d’un objet ou de toute la scène. On parlealors de flou de mouvement. Ces deux flous ne sont pas modélisés de la même manière. Dans lepremier cas, le flou est dit bidirectionnel et est approximé par un filtre moyenneur bidimensionnel(souvent gaussien) tandis que dans le second cas, le filtre doit tenir compte d’une estimation dumouvement pour adapter la répartition des coefficients en fonction de la direction et de l’intensitédu mouvement.

Enfin, il existe une autre sorte de perturbation, dû au support lui-même. Le temps ou desévénements indirects (une tache de café, le papier froissé) provoquent des perturbations dont lamodélisation par une loi de probabilité est plus complexe et nécessite l’utilisation d’outils adap-tatif, c’est-à-dire fonction de paramètres locaux à l’image. La modélisation n’est plus fonctiond’une loi générale simple et nécessite l’utilisation d’outils comme les champs de Markov pourprendre en compte d’autres paramètres spatiaux.

2.1.2 Restauration

Après avoir défini le bruit, nous allons nous intéresser à différentes méthodes permettant dele réduire au maximum. Mais avant d’aller plus loin, il est important de rappeler que « le rôle dutraitement d’image n’est pas d’inventer les détails qui se sont évanouis à l’acquisition, il est detransformer l’image pour qu’on puisse mieux distinguer les détails » [Leg96].

Filtre passe-haut

Le filtre passe-haut est un filtre linéaire principalement utilisé pour traiter les images dont lespetits détails ne sont pas assez présents. En effet, tout comme pour le son où les hautes fréquencescorrespondent à de rapides variations, les petits détails d’une image correspondent à des hautesfréquences. C’est le changement brutal de caractéristiques qui entoure le petit détail qui fait qu’ilse trouve dans les hautes fréquences. Par exemple, pour une musique dont on souhaite retrouverle son d’un triangle (son particulièrement aigu, donc dans les hautes fréquences) au milieu d’unorchestre symphonique, on appliquera un filtre passe-haut pour réduire le volume des autresinstruments qui se trouvent dans des fréquences plus faibles que le triangle. L’idée est la mêmepour une image, où le triangle est le petit détail noyé dans le reste de l’image (l’orchestre), oncherche alors à augmenter les transitions brutales de l’image.

En pratique, la réalisation d’un filtre passe-haut se fait en convoluant l’image avec un masquedérivateur. Dans le principe, un filtre passe-haut peut se résumer à un filtre qui estompe le centrede l’image fréquentielle (là où se trouvent les basses fréquences). Or, d’après l’équation 2.1, ce

10

(a) (b) (c)

FIG. 2.1 – Exemple de filtres passe-haut et passe-bas. (a) Image Lena d’origine. (b) Image aprèsfiltrage passe-haut. (c) Image après filtrage passe-bas.

filtrage est strictement identique à une convolution dans le domaine spatial.

IF (µ, σ) = I(µ, σ)×H(µ, σ) ⇔ iF (x, y) = i(x, y)⊗ h(x, y), avecI(µ, σ) = TF (i(x, y))

(2.1)

avec IF l’image filtrée dans le domaine fréquentiel, iF l’image filtrée dans le domaine spatial,TF la transformé de Fourier, H un filtre, × la multiplication classique et ⊗ la convolution. Cefiltre est donc particulièrement adapté pour traiter le flou car il fait ressortir les petits détails quele flou a estompés. Cependant, une adaptation de l’algorithme est nécessaire pour prendre encompte la direction du flou dans le cas du flou de mouvement. Comme le filtrage n’est pas unoutil magique, il a des effets négatifs, dont le principal est d’amplifier le bruit de l’image. Eneffet, le bruit est particulièrement présent dans les hautes fréquences et traiter une image par unfiltre passe-haut augmentera indifféremment petits détails et bruit.

Filtre passe-bas.

Contrairement au filtre passe-haut, le filtre passe-bas privilégie les grandes zones uniformesde l’image. Comme nous l’avons vu précédemment, la fréquence se calcule en fonction de lavitesse de changement de caractéristique dans l’image, donc une zone uniforme aura peu dechangements et donc aura une fréquence faible. Dans le même principe que pour un filtre passe-haut, une implémentation possible est de convoluer l’image avec un noyau pour gommer leshautes fréquences. Il est souvent intéressant, en traitement d’image, d’utiliser un filtre passe-bas.En effet, un filtre passe-bas permet de réduire le bruit grâce à la localisation du bruit dans leshautes fréquences. La simplicité du filtre lui permet d’être rapide et facile à mettre en place,mais les hypothèses sur lesquelles il se base sont beaucoup trop réductrices (bruit uniforme,gaussien. . .). Le principal inconvénient du filtre est de « flouter » l’image, faisant perdre les petitsdétails ainsi que les contours. Afin de mieux réduire le bruit, les recherches se sont alors tournéesvers des applications non-linéaires pour essayer de lisser les régions homogènes sans toucheraux zones de discontinuités [KB04]. Il existe différentes approches pour essayer de résoudre ceproblème, dont le filtre de Wiener.

11

(a) (b)

FIG. 2.2 – Exemple de filtres. (a) Image d’origine. (b) Image après filtrage de Wiener adaptatif.

Adaptation du filtre de Wiener [GPP06]

Une adaptation du filtre de Wiener a été conçue pour se comporter comme un filtre passe-bassur les zones uniformes tout en conservant les discontinuités. La modification du filtre permet dele rendre adaptatif à l’image. Ce filtre est donc tout particulièrement adapté à la restauration dedocuments car il permet d’augmenter le contraste entre le texte et le fond tout en lissant le fond.De plus, il se comporte aussi bien sur des documents manuscrits que sur des documents impri-més, car aucune hypothèse n’est faite sur la forme des discontinuités. Le filtre peut s’exprimerainsi :

I(x, y) = µ + ((σ2 − υ2)× (Is(x, y)− µ))/σ2, (2.2)

Avec- I : image filtrée ;- µ : moyenne des valeurs des pixels dans une fenêtre de taille N ×N centrée en (x, y) ;- σ : variance des valeurs des pixels dans une fenêtre de taille N ×N centrée en (x, y) ;- υ : moyenne de la variance des pixels dans une fenêtre de taille N ×N centrée en (x, y) ;- Is : image source.Bien que ce filtre améliore la qualité des documents, il ne se comporte pas bien lorsque l’imageest fortement bruitée. Les chercheurs se sont alors tournés vers d’autres opérateurs mathéma-tiques : les statistiques. En effet, en statistique, le problème de déduire une loi qui gouverne ladistribution des observations revient souvent, en image, à estimer l’influence du bruit sur lesobservations. Cette estimation peut se faire de différentes manières, mais la méthode des estima-teurs robustes est celle qui donne les meilleurs résultats.

Estimateurs robustes

Dans le cadre de la restauration d’image, l’estimation porte sur la valeur d’un pixel et chercheà approcher sa « vraie »valeur, c’est-à-dire la valeur du pixel sans le bruit. Le problème principalde la méthode des moindres carrés est qu’elle fournit des résultats erronés au voisinage descontours. En effet, aux contours, deux modèles de caractéristiques s’opposent de part et d’autrede la frontière et l’approximation par les moindres carrés ne résout pas correctement ce cas defigure. Un estimateur robuste est un estimateur statistique dont on cherche à minimiser l’influencede données atypiques sur l’estimation. Il existe plusieurs catégories d’estimateurs robustes.

12

(a) (b) (c)

FIG. 2.3 – Exemple de filtres. (a) Image Lena bruitée. (b) Image après filtrage par la médiane.(c) Image après filtrage SNN.

Filtres EPNSQ Le premier algorithme que nous allons étudier est le filtre EPNSQ. Il a lesmêmes objectifs que les filtres robustes, mais il n’est utilisable que dans le contexte du traitementd’image. Cet algorithme part du principe que la méthode d’estimation des moindres carrés estproche de la réalité si l’image est homogène. En effet, dans ce cas l’image ne variant qu’à caused’un bruit supposé gaussien, l’estimation de la valeur réelle ne sera pas perturbée par des valeursexceptionnelles. L’algorithme utilise donc une fenêtre pour analyser le voisinage du point à es-timer. Ensuite, l’algorithme calcule la variance de quatre zones autour du pixel et choisit cellequi a la plus petite variance (et donc le caractère le plus homogène). Enfin, cette fenêtre est alorsutilisée pour calculer la valeur finale filtrée associée au pixel étudié.

Filtres d’ordre Les filtres d’ordre sont une autre famille d’estimateurs très utilisée. L’idéeest toujours d’utiliser une fenêtre autour du pixel pour étudier le voisinage du pixel. En supposantque l’image est stationnaire dans la fenêtre et que le bruit est additif (et soustractif), la valeur despixels bruités sera loin des valeurs du centre. Le filtre s’écrit alors c = at.x′ avec c la valeurfiltrée, at le vecteur de pondération choisi généralement pour atténuer les valeurs éloignées de lamédiane et x′ le vecteur des valeurs des pixels de la fenêtre classé par ordre croissant d’intensitéde niveau de gris.

Un cas particulier de ce filtre est le filtre de la médiane, en choisissant le vecteur a ainsi :

a[i] =

{1 si i = n/20 sinon

Ce filtre élimine efficacement le bruit. Il permet donc d’enlever les valeurs aberrantes, dû le plussouvent au bruit. Mais on se rend bien compte que si l’on prend une grande fenêtre, l’hypothèsede stationnarité n’est plus respectée, et l’on peut voir apparaître un phénomène d’étalement,comme une peinture à la gouache.

M-estimateurs Le second estimateur est appelé le M-estimateur. C’est une généralisationde l’estimation aux moindres carrés. Le vecteur M-estimé c est déterminé en minimisant une

13

fonction de coût E définie par :

E(c) =n∑

i=1

ρ(xi − si(c)), (2.3)

avec :- ρ(x) une fonction de pondération (si ρ(x) = x2, on est ramené à l’estimateur des moindrescarrés) ;- xi : valeur mesurée ;- si(c) : valeur estimée sans bruit.Afin d’améliorer l’estimateur des moindres carrés, la fonction ρ(x) est choisie afin de ne pasprendre en compte de manière trop importante les valeurs éloignées de l’estimation. Ainsi, ilexiste plusieurs définitions de ρ(x) dont la courbe de Tukey (Eq. 2.4) ou celle de Cauchy (Eq. 2.5)[Bou06].

ρ(x) =

16

[1−

(1−

(xC

)2)3]

16

ρ′(x)x

=

{ (1−

(xC

)2)2

0

Si |x| ≤ C

Si |x| > C(2.4)

ρ(x) = C2

2log(1 +

(xC

)2) ρ′(x)x

= 1

1+( xC )

2 (2.5)

La principale difficulté pour calculer cette estimation vient du fait qu’il est nécessaire de connaîtrel’approximation pour calculer l’approximation. . . Dans sa mise en œuvre, une première estima-tion est réalisée en utilisant la méthode des moindres carrés. Puis le calcul de ρ(x) est effectuégrâce à cette première estimation, et une nouvelle estimation est effectué, en fonction de la nou-velle fonction ρ(x) (en réalité, en fonction de ρ′(x)/x). L’algorithme alterne ainsi le calcul despondérations et de l’estimation jusqu’à la stabilisation des résultats. L’idée est donc de petit àpetit réduire l’importance des pixels éloignés de l’estimation initiale. Mais encore une fois, l’es-timation n’est pas toujours réussie, car si la première estimation est mal calculée, la suite del’algorithme peut donner plus d’importance aux pixels ne suivant pas la norme qu’aux pixelsétant normalement important.

L’intérêt d’un estimateur robuste est de pouvoir supprimer le bruit dit de « poivre et sel »,c’est-à-dire un bruit ponctuel mais fort. Ce bruit en image est causé généralement par les dé-charges électriques des capteurs, ou plus souvent dans les images obtenues à partir d’une sourcecohérente, comme un sonar ou un radar. Le bruit s’appelle alors le « Speckle ».

Filtre SNN

Afin de retrouver les avantages des estimateurs robustes dans le cadre de la restaurationd’image, plusieurs solutions ont été envisagées. Certaines très coûteuses en temps de calcul

14

(comme le filtrage anisotropique) ne peuvent être misent en place lors de la segmentation d’ou-vrages. En effet, la segmentation étant déjà lourde en temps de calcul (ajouter un prétraitementlong rendrait impossible le traitement de grandes bases d’images). Le filtre SNN (pour Sym-metric Nearest Neighbor : Voisins proches symétriques) résout le problème précédent, de ma-nière moins fine certes, mais de manière plus rapide. Le principe est de déplacer une fenêtre surl’image, et de supposer que la fenêtre contient non plus une région constante mais une frontièreentre deux régions constantes. En regroupant les pixels de la fenêtre deux à deux, symétrique-ment par rapport au pixel étudié, puis en choisissant dans chaque paire le pixel le plus proche dupixel étudié, et enfin en calculant une moyenne entre les valeurs. En raison de sa simplicité deprincipe et de mise en place, cet opérateur a été souvent utilisé.

2.1.3 ConclusionIl existe d’autres solutions de restauration, comme la prise en compte de plusieurs images

dans une vidéo, mais leur nombre et leur intérêt pour notre sujet rendent leur présentation peuutile. On trouvera ailleurs [BK97] un état de l’art conséquent sur les techniques de restaurationd’images ainsi que plus de détail sur différentes techniques, comme la restauration d’imagesfortement compressées par JPEG.

2.2 SegmentationLa segmentation est nécessaire pour pouvoir traiter correctement la masse de données mul-

timédias véhiculées toute la journée à travers le monde. De nombreuses techniques ont été trou-vées, certaines plus performantes que d’autres, mais comme nous allons le voir, le plus souventdestinées à un domaine particulier. La multitude de techniques rend leur présentation difficile,et réaliser une simple énumération est un piège qu’il faut éviter. La présentation des différentestechniques est séparée en fonction de l’approche, afin de rendre plus clair les différences quiexistent entre les techniques, mais parfois ce découpage n’est pas correct car certaines tech-niques combinent les approches. Différentes méthodes de classements existent [KJJ03], maisaucune ne permet de mettre parfaitement en avant les différences. La binarisation étant une étapepréliminaire à la segmentation, le chapitre suivant présente en détail les différentes méthodes debinarisation. Ensuite, les chapitres suivants présenteront les différentes techniques de segmenta-tion.

2.2.1 BinarisationSegmenter une image en couleurs peut être extrêmement coûteux. Traiter une image en cou-

leurs de taille moyenne revient à caractériser quelques 500 000 points (800× 600), et trouver laclasse (ou le type) d’un point nécessite bien souvent la prise en compte de nombreux facteurs(l’histogramme, la couleur. . .). Afin de simplifier les traitements, de nombreuses recherches sesont orientées vers la binarisation de l’image. Binariser une image revient à segmenter l’imageen deux classes : le fond et l’objet. D’où le paradoxe suivant : accélérer la segmentation d’une

15

FIG. 2.4 – Seuil minimal de recouvrement.

image nécessite une segmentation ! Cependant, segmenter une image en deux classes est beau-coup plus simple que de la segmenter en un nombre inconnu (et minimal) de classes. De plus,puisqu’il n’existe que deux classes, il est plus simple de caractériser les classes. Enfin, binariserune image permet aussi de compresser les documents de manière plus importante. Nous allonsvoir dans ce chapitre différentes techniques permettant de binariser une image.

Seuillage global

Le principe du seuillage global est d’utiliser une valeur seuil à partir de laquelle on peutchoisir à quelle classe le pixel appartient. La transformée peut s’écrire ainsi :

∀i, j ∈ N×M I(i, j) =

{1 si f(i, j) > S0 sinon , (2.6)

Avec- N×M : nombre de colonnes et de lignes de l’image ;- I : image binarisée ;- f : valeur fonction de l’image d’origine ;- S : seuil de binarisation.Cependant, cette technique pose beaucoup de problème. Le premier est de définir le seuil. Lagrande majorité des techniques utilisent l’histogramme des niveaux de gris pour choisir le seuilà appliquer. Dans le cadre bayésien, un histogramme peut être vu comme étant la somme deslois de probabilités des différentes classes de l’image. Le bruit étant souvent supposé gaussien, ilaffecte la probabilité d’observer une classe en étalant sa loi de probabilité initiale, plus ou moinsfortement suivant le bruit. En faisant l’hypothèse qu’il existe seulement deux classes générantdes lois de probabilités, il faut choisir un seuil où le recouvrement des deux lois est minimal (Cf.figure 2.4). Cependant, à cause du bruit, il n’est pas toujours facile de détecter les deux lois deprobabilités. Wu et al. proposent alors de filtrer l’image avec un filtre passe-bas. Ils expliquentque le bruit sur le fond produit plus de hautes fréquences que le texte [WM98]. Cela permet biensouvent de séparer les deux modes de l’histogramme, et donc facilite le choix du seuil. Mais cettesolution ne permet pas de trouver un seuil global (puisqu’il n’existe pas, cf. figure 2.5), dans lecas d’une mauvaise illumination du document, ou dans le cas où le texte passerait de noir sur

16

fond blanc à blanc sur fond noir. Pour pallier à ces problèmes, il fallut trouver des techniquespermettant d’adapter localement le niveau du seuil.

FIG. 2.5 – Problème de seuillage global.

Seuillage local

Le principe du seuillage local est d’utiliser une étude localisée autour du pixel pour détermi-ner quel seuil utiliser. Pour réaliser cette étude locale, les techniques utilisent une fenêtre d’étudecentrée sur le pixel à étudier. Cette fenêtre peut avoir différentes tailles, souvent en fonction de lataille moyenne du texte dans le document. Le premier à proposer une technique donnant de bonsrésultats fut Bernsen en 1986 [Ber86]. Mathématiquement, le calcul du seuil peut s’écrire ainsi :

S(i, j) = (max(i, j) + min(i, j))/2, (2.7)

Avec :- S(i, j) : seuil à appliquer pour le point i, j ;- Max(i, j) : valeur du niveau de gris maximal dans une fenêtre centré - en (i, j) de taille N×M ;- Min(i, j) : valeur du niveau de gris minimal dans une fenêtre centré en (i, j) de taille N ×M ;- N et M appartenant à N.Cependant, ce filtre est très sensible au bruit du fond. À cause de la prise en compte du maximumet du minimum uniquement, dans le cas où la fenêtre est uniquement sur du fond, le bruit serainterprété comme objet, car le seuil sera bas. La même année, Niblack proposa une méthodesimilaire sur le principe, mais prenant en compte d’autres paramètres [Nib86]. Dans sa méthode,le seuil est calculé ainsi :

S(i, j) = µ(i, j) + k × σ(i, j), (2.8)

Avec :- S(i, j) : seuil à appliquer pour le point i, j ;- σ(i, j) : valeur de l’écart type dans une fenêtre centré en i, j de taille N ×M ;- µ(i, j) : valeur moyenne des niveaux de gris dans la même fenêtre ;- k : constante fixée le plus généralement à 0, 2 ;- N et M appartenant à N.Bien que victime du même problème que précédemment, la méthode est plus efficace. Une autre

17

FIG. 2.6 – Courbe des niveaux de gris sur une ligne et seuillage adaptatif.

méthode à souligner car souvent citée (et donnant de bons résultats) est la méthode de Trier enTaxt [TT95]. Cette méthode passe par une étape où l’image est ternaire pour ensuite affiner lasegmentation.

Sauvola, en 2000, proposa une amélioration de la méthode de Niblack afin de réduire sasensibilité au bruit sur le fond [SP00]. Le seuil est alors calculé ainsi :

S(i, j) = (µ(i, j) + k.((σ(i, j)/R)− 1))

avec les mêmes notations que pour Niblack et R étant une constante permettant d’ajuster ladynamique de l’écart type (fixé en général à 128). Le gain apporté par cette pondération permetà la méthode d’être très satisfaisante dans le cas de documents mal éclairés et fait passer de 89 %à 95 % le taux moyen de reconnaissance par un logiciel de reconnaissance de caractères (sur unebase de 15 documents éclairés non uniformément).

La moyenne et la variance ne sont pas les seuls critères permettant de fixer le seuil. Certainestechniques prennent en compte des paramètres comme le « run length »(nombre maximum depixels à suivre ayant les mêmes caractéristiques) ou le nombre des pixels inférieur au seuil pouradapter des paramètres internes [YY00], tandis que d’autres se basent sur une représentationprobabiliste du bruit pour savoir comment fixer le seuil [Don95]. Certaines techniques récentess’intéressent à la binarisation d’images couleurs [GPH05] en utilisant un algorithme modifié desComposantes Connexes pour identifier le fond et les objets. Le comparatif réalisé par Trier en1995 [TJ95] compare dix méthodes de seuillage local, dont la majorité des méthodes citées, et lemeilleur résultat est obtenu par Niblack, qui fut amélioré cinq ans plus tard par Sauvola. Mais labinarisation des images en niveaux de gris n’étant toujours pas parfaite, en 2002 Wolf proposaune approche différente utilisant les champs de Markov.

Champs de Markov [WD02]

Du fait de la forte variabilité inhérente aux documents, une modélisation formelle de la struc-ture est difficilement envisageable, car trop rigide. Les modèles stochastiques s’accommodentmieux des incertitudes. Les champs de Markov permettant de représenter une relation de voisi-nage, ils sont particulièrement adaptés à la segmentation puisqu’il existe beaucoup de relationsspatiales dans une image. La théorie des champs Markoviens a donc été largement développéeces dernières décennies et appliquée dans différents domaines du traitement d’image [Li95]. Lasegmentation (et donc la binarisation) se ramenant à la définition de la classe X d’un pixel enfonction de sa valeur Y , le problème est donc de calculer la configuration optimale du champd’étiquettes X qui maximise la probabilité a posteriori P (X/Y ). Grâce au théorème de Bayes,

18

on a P (X/Y ) = P (Y/X)∗P (X)P (Y )

, ce qui est plus facile à caractériser. En appliquant les hypothèsesMarkoviennes et d’indépendance entre les observations, on obtient :

x = arg max(∏

P (ys/xs)∏

P (xs/xh, h ∈ NG(s)))

, (2.9)

avec- NG(s) désigne le voisinage du site s ;-∏

P (ys/xs) représente la vraisemblance de la classe par rapport à l’observation ;-∏

P (xs/xh,h ∈ NG(s)) représente la connaissance contextuelle introduite par le modèle.Il s’agit de la probabilité a priori de la configuration x du champ X . Afin de rendre calculablecette estimation, ce terme peut être réécrit ainsi :

P (X) =1

Z∗ exp

(−∑

Vc(X))

, (2.10)

avec :- C un ensemble de cliques associés au voisinage NG (Une clique étant un sous-ensemble desites mutuellement voisins) ;- Vc est la fonction de potentiel de la clique c ;- Z est un terme de normalisation.On peut ainsi introduire la notion d’énergie en calculant le logarithme négatif de la probabilitéjointe P (X, Y ), soit :

U(X, Y ) = − log(∏

P (ys/xs))− log

(1

Zexp(−

∑Vc(X))

)(2.11)

U(X, Y ) =∑

− log (P (ys/xs))− log

(1

Z

)+∑

Vc(X) (2.12)

Finalement le problème de la segmentation revient à un problème de minimisation de la fonctiond’énergie : x = argmin

∑(− log P (ys/xs)) +

∑(Vc(X)). Cette fonction d’énergie peut être

minimisée en utilisant un algorithme d’optimisation, comme le recuit simulé.Pour simplifier les calculs de binarisation, on suppose que le bruit qui vient perturber les

observations suit une loi de Gauss. Ainsi, P (Y/X) est approximé de cette manière :

P (Y/X) = (2πθ2n)−

N2 exp

(‖X − Y ‖2

2πθ2n

), (2.13)

en prenant X={0,255} et θ2n la variance. Cependant, cette estimation est trop réductrice car les

valeurs de X ne sont pas toujours aussi extrêmes : le texte n’est pas toujours à 0 mais peut être à10 par exemple, à cause du bruit. L’idée de Wolf est alors d’ajouter une fonction C pour modifierles valeurs de X lors du calcul du bruit résiduel (‖C(X)−Y ‖). Hélas, la fonction C, qui revientà trouver l’incidence du bruit sur chaque pixel, n’est pas calculable simplement. Il décide alorsd’utiliser le calcul de Sauvola [SP00] pour adapter localement le calcul du bruit résiduel. Lafonction d’énergie devient alors ‖X − Y + T − 127.5‖, avec T le seuil calculé avec la méthodede Sauvola. Donc le problème du maximum a posteriori peut se calculer ainsi :

arg max(P (X)× P (X/Y )) (2.14)

19

, soit

arg max

(P (X)× (2πθ2

n)−N2 exp

(‖X − Y + T − 127.5‖2

2πθ2n

))(2.15)

La variance θ2n est approximé en regardant dans une fenêtre centrée autour du pixel et séparant

l’histogramme en deux classes en utilisant le critère d’Otsu (qui revient à maximiser la varianceintra classe) [N.O79]. θ est alors calculé en multipliant par une constante (fixé à 0, 5) la variationintra classe.

Enfin, le calcul de P (X), ou plutôt d’après l’équation 2.10, le calcul de Vc(X) se fait d’aprèsla fréquence d’occurrence dans une clique de chaque classe, par apprentissage. Le calcul deVc(X) est celui ci :

Vc(xi) = − 1

Bln

(1

Z

P ′(xi)

Pi(xi)

), avec (2.16)

P ′(xi) =∑xi

P (xi)kd(i,j)(1− k)u(i,j) (2.17)

où Pi(xi) est la probabilité de trouver la classe xi dans la clique i.d(i, j) est le nombre de bits différents entre deux cliques de classes xi et xj .u(i, j) est le nombre de bits identiques entre deux cliques de classes xi et xj .k est un coefficient de lissage.

Cependant, les auteurs soulignent que leur méthode ne permet pas d’améliorer de manièresignificative les méthodes déjà existantes. Mais la définition de la fonction d’énergie ainsi quede la variance peuvent être améliorés et ainsi augmenter les performances. La même année, unautre chercheur proposa une approche tout aussi différente : l’utilisation d’un modèle de montéedes eaux (Water Flow Model).

Montée des eaux [KJP02]

L’idée que Kim proposa fut d’imaginer qu’une image est en réalité une surface tridimension-nelle, avec les niveaux de gris représentant l’altitude. Ainsi, un pixel noir représente une vallée etun pixel blanc une montagne. En utilisant cette représentation, il simule une pluie, uniformémentrépartie sur toute la surface de l’image, pour ensuite calculer l’écoulement de l’eau. En répétantplusieurs fois l’algorithme, et en étudiant les zones « sèches » et les zones « humides », il estpossible alors de séparer en deux classes l’image. Le modèle utilisé pour le mouvement de l’eause base sur la recherche locale du plus bas niveau de gris. L’algorithme réitère plusieurs fois ledéplacement d’une fenêtre centrée autour du pixel représentant le minimum local pour simu-ler l’écoulement de l’eau. Enfin, une méthode de seuillage global binarise l’image en fonctiondu niveau de l’eau. Mais cette méthode a l’inconvénient majeur d’avoir un paramètre manuel àajuster : le nombre d’itérations pour l’algorithme d’écoulement de l’eau. Ce paramètre, global,n’est pas adapté à toutes les images, et donc à toutes les propriétés. Il y a donc des images pourlesquelles la méthode ne marche pas bien du tout.

20

Méthode de Gatos et al. [GPP06]

Bien qu’il existe de nombreuses méthodes de binarisation, aucune ne résout le problèmede façon générique. Certaines nécessitent un ajustement manuel des paramètres, d’autres neprennent pas en compte les différences d’éclairage, et d’autres sont très sensibles au bruit. L’idéequ’ils eurent alors est de combiner différentes méthodes ayant des propriétés complémentairesafin de réaliser une binarisation automatique capable de traiter des documents dégradés. Ils dé-crivent leur méthode comme une succession de cinq phases. La première cherche à améliorerla qualité du document. Le choix du filtre s’est porté sur Wiener (cf. page 12) pour sa capacitéà lisser le fond et à augmenter le contraste. Ils cherchent ensuite à estimer la valeur du fond del’image. Ils réalisent cette opération en deux phases. En utilisant l’algorithme de Sauvola [SP00],il fait une première estimation de l’avant plan. Une fois les régions détectées, les pixels détectéscomme objet sont remplacés par une interpolation avec les pixels voisins.

B(x, y) =

I(x, y) si S(x, y) = 0Px+dxix=x−dx

Py+dyiy=y−dy(I(ix,iy)(1−S(ix,iy)))Px+dx

ix=x−dx

Py+dyiy=y−dy((1−S(ix,iy)))

si S(x, y) = 1, (2.18)

avec :- B(x, y) : image du fond estimée ;- I(x, y) : image d’origine après le filtrage de Wiener ;- S(ix, iy) : Image binaire obtenue à partir de la segmentation de Sauvola.Le seuillage final est réalisé en comparant l’image filtrée avec l’image du fond. Les zones detexte sont détectées si la distance entre l’image filtrée et l’image de fond est supérieure à un seuild. Ce seuil d doit varier en fonction de l’image du fond, pour que dans le cas d’un fond sombre,le seuil soit fixé plus bas pour pouvoir séparer le texte du fond. Cette opération est donnée par laformule :

T (x, y) =

{1 si B(x, y)− I(x, y) > d(B(x, y))0 sinon , (2.19)

avec :- T (x, y) : image binaire binale ;- d : fonction de seuillage.Le seuil d est donc fonction de la distance moyenne δ entre l’image du fond et l’image filtrée.Une première évaluation leur avait permis de fixer d = K × δ. Cependant, dans le cas d’uneimage sombre, le seuil K (qui est fixé à 0,8) n’est plus bon. Donc pour que la méthode soit cor-recte dans le cas où l’illumination du document ne serait pas constante, ils cherchèrent à adapterla constante en fonction de l’intensité moyenne du fond. Ils utilisent pour cela une fonction sig-moïde permettant d’adapter « en douceur » la constante. Finalement, d est calculé ainsi :

d(B(x, y)) = q ∗ δ ∗

(1− p2)

1 + exp(−4B(x,y)b∗(1−p1)

+ 2(1+p1)1−p1

) + p2

(2.20)

- d(B(x, y)) : seuillage final en fonction de l’image binaire ;- q, p1etp2 : constantes permettant d’ajuster le niveau de seuil ;

21

- b(x) : moyenne de la couleur du fond dans une fenêtre entourant x, y.Enfin, la dernière phase permet d’enlever les bruits détectés comme étant du texte. Cette phasede posttraitement permet aussi de préserver la connexité des pixels. Elle est effectué en deuxparties : la première permet d’éliminer les pixels isolés en comparant leur voisinage, la secondepermet d’ajouter des pixels là où il y a un « trou » en comparant le nombre de pixels de texteavec un seuil. La méthode est testée face à quatre algorithmes (voir figure 2.7), dont celui deSauvola, et les résultats sont très intéressants. La distance entre le texte réel et les caractèresreconnus est bien plus faible que pour les autres méthodes. Hélas, bien que la méthode ait detrès bon résultat, elle ne permet pas de binariser un texte blanc sur un fond noir. En effet, àplusieurs reprises, l’hypothèse que le texte se trouve dans les valeurs faibles des niveaux degris empêche cette généralisation. Il n’y a pas, à ma connaissance, de méthode permettant des’affranchir efficacement de cette contrainte.

(a) (b)

(c) (d)

(e) (f)

FIG. 2.7 – Différents filtrages : (a) image originale ; (b) méthode d’Otsu [N.O79] ; (c) méthodede Niblack [Nib86] ; (d) méthode de Sauvolaet al. [SP00] ; (e) méthode de Kim et al. [KJP02] ;(f) méthode de Gatos et al. [GPP06]

22

Conclusion

La binarisation est encore un sujet de recherche très actif, malgré le nombre de publicationsdans ce domaine. En effet, il est bien souvent nécessaire d’adapter une technique en fonction dela problématique, et puisqu’il existe différentes problématiques, il existe différentes solutions. Letableau 2.1 résume les différentes méthodes de binarisation rencontrées au cours de l’état de l’arten mettant en avant les avantages et les inconvénients de chacune des méthodes. Par ailleurs, ilest important de bien séparer les difficultés de binarisation liées à un éclairage non uniforme (cedont la majorité des techniques traitent correctement) des difficultés liées à un fond non uniforme(comme du texte sur une illustration).

Nom Année Type Principe Inconvénients

Otsu[N.O79]

1979 Seuillageglobal

D’après l’histogramme,cherche à maximiser lavariance intra-classe du« texte » et du « fond ».

Problèmes pour les docu-ments mal éclairés.

Bernsen[Ber86]

1986 Seuillagelocal

Estime la valeur du seuil enfaisant la moyenne de la plushaute et la plus basse valeurde la fenêtre.

Le seuil est trop bas lorsquela fenêtre est centrée sur dufond.

Niblack[Nib86]

1986 Seuillagelocal

Amélioration de [Ber86] :prise en compte de la varianceet de la moyenne.

Même problème que[Ber86] : apparition debruit sur les zones uniformes.

Trier[TT95]

1995 Seuillagelocal

« Ternarise » l’image en fonc-tion du gradient puis utiliseune heuristique pour réduire àdeux classes.

L’utilisation de seuils définisempiriquement rend la mé-thode peu robuste.

Wu[WM98]

1998 Seuillageglobal

« Floute » l’image pour mieuxséparer l’histogramme et uti-lise une méthode de seuillageglobal [N.O79].

Problèmes lorsqu’il n’y apas deux modes distincts surl’histogramme.

Sauvola[SP00]

2000 Seuillagelocal

Insère des constantes dansla méthode de [Nib86] afind’améliorer la méthode surles zones uniformes.

Les constantes à ajuster em-pêchent la méthode de traiterparfaitement des documentsnon uniformes.

Kim[KJP02]

2002 Seuillagelocal

Utilise la valeur des pixelscomme courbes de niveauxpour simuler une montée deseaux.

Difficultés à adapter le débitde l’eau ou le nombre d’itéra-tions au document.

Suite page suivante . . .

23

Suite de la page précédente . . .Nom Année Type Principe Inconvénients

Wolf[WD02]

2002 Seuillagelocal

Utilise les champs de Markovpour savoir où se trouvent lescaractères.

L’utilisation de [SP00] rend latechnique victime des mêmeslimitations que pour Sauvola.

Garain[GPH05]

2005 Seuillagelocal

Utilise les composantesconnexes pour créer ungraphe d’adjacence qui estensuite réduit.

Marche mal si l’image à trai-ter contient des illustrations.

Gatos[GPP06]

2006 Seuillagelocal

Cherche à estimer le fondpour ensuite faire un seuillagesur la différence entre le fondet l’image d’origine.

Très bonnes performances.

TAB. 2.1 – Différentes techniques de binarisation

2.2.2 Segmentation ascendante

La catégorie des algorithmes de segmentation ascendante est caractérisée par le fait quel’analyse part de composants de bas niveau (comme les pixels) pour essayer de les fusionneren utilisant des heuristiques. Il existe de nombreuses variantes, certaines se focalisant sur la ca-ractérisation des composants de bas niveaux, tandis que d’autres cherchent à bien modéliser lesrègles de fusion des régions. La grande majorité des techniques utilisent la notion de compo-santes connexes. Ce sont des composants de bas niveau ayant les mêmes propriétés (comme unmême niveau de gris) et qui sont liés spatialement. Il existe plusieurs définitions de cette notionde « relation spatiale » comme la 4-connexité ou la 8-connexité. La première méthode étudiée estencore très utilisée car relativement simple à mettre en œuvre. Il s’agit de la méthode dite RLSA(Run Length Smoothing Algorithm) [WCW82].

Algorithme RLSA [WCW82]

Il s’agit d’une méthode itérative basée sur des opérations morphologiques de traitementd’image. Le principe de cette méthode est de noircir toute séquence de pixels blancs compriseentre deux pixels noirs, de longueur inférieure à un seuil donné. En pratique l’algorithme est ap-pliqué horizontalement et verticalement sur l’image binaire originale avec des seuils éventuelle-ment différents pour l’horizontale et la verticale, puis une opération « ET logique » est appliquéeentre les deux images lissées obtenues. L’extraction des composantes connexes de l’image résul-tante permet d’obtenir les entités de la structure physique sur un niveau hiérarchique donné. Onpeut ainsi, en répétant la procédure avec des seuils de lissage horizontal et vertical différents, ex-traire itérativement les blocs de l’image, puis les lignes de texte et les mots. Ces seuils de lissagesont les seuls paramètres de l’algorithme RLSA. Ils contrôlent la manière dont les composantessont fusionnées sur un niveau de segmentation prédéterminé. Par exemple pour segmenter deslignes de texte horizontales, droites et bien espacées, on pourra utiliser un seuil de lissage vertical

24

a : Image originale b : Lissage horizontal c : lissage vertical d : RLSA

FIG. 2.8 – Segmentation RLSA.

nul et un seuil de lissage horizontal suffisamment grand pour combler les espaces interlettres etinter-mots.

Cet algorithme a l’avantage, en plus d’être très simple à mettre en œuvre, de ne requérir qu’unnombre limite d’itérations pour atteindre la segmentation complète du document. La principaledifficulté dans l’utilisation de cet algorithme est le réglage des seuils de lissage qui est délicat.Il est nécessaire de déterminer les seuils adéquats pour chaque niveau de segmentation. De telsseuils ne peuvent être déterminés qu’empiriquement. De plus, pour une itération donnée, cesseuils sont constants. Il faut donc que pour le niveau de segmentation considéré, les espacesentre les composantes de l’image à fusionner soient aussi constants. Antonacopoulos proposaune autre méthode basée, elle aussi, sur une approche en composantes, dont la grande différenceest le regroupement en composants des espaces plutôt que des caractères [Ant98]. En effet, cesont généralement les espaces qui séparent les différents objets d’une image. En détectant lesespaces, l’approche permet d’isoler les régions, sans avoir besoin de les caractériser. Cependant,la méthode reste sensible au bruit du fond et marche mal si les caractères ou les lignes se touchent.

Utilisation d’heuristiques

L’inconvénient des méthodes précédentes est du même type que la binarisation à seuil glo-bal : elle est trop générale pour s’adapter à des documents ayant des caractéristiques variées. Demême que pour la binarisation, les recherches se sont alors tournées vers des méthodes adapta-tives. Ainsi, la méthode de Messelodi prend en compte différents paramètres pour fusionner lescomposants connexes [MM99]. Afin d’obtenir les composantes connexes, l’image est d’abordbinarisée pour ensuite regrouper les pixels en groupes connexes. La méthode de binarisation uti-lisée est un seuillage global, réalisé deux fois pour extraire le texte noir sur fond clair et le texteclair sur fond sombre. Les deux images sont ensuite traitées séparément. Ensuite, en partant del’hypothèse que les composants connexes contiennent tout le texte mixé avec du bruit, des heuris-tiques permettent de trier les bonnes composantes des mauvaises. La première heuristique sert àdétecter le bruit et se base sur le nombre de pixels de la composante. En effet, le bruit produisantde petites tâches, il suffit de fixer un seuil au-dessous duquel la composante est classée commebruit (en faisant attention aux ponctuations). Ensuite, la taille de la composante comparée avec

25

la taille de l’image permet de pondérer la probabilité d’être en présence du texte. D’autres cri-tères sont utilisés, comme la densité ou le contraste, pour essayer de supprimer au maximum lescomposantes n’étant pas du texte. Ensuite, les composantes sont regroupées en ligne en utilisantd’autres heuristiques, comme la distance, l’alignement ou la taille comparée.

Bien que cette méthode soit efficace pour trouver le texte dans une image sans a priori surl’orientation du texte, la binarisation utilisée empêche la détection de texte dans le cas de docu-ments mal éclairés. En 2006, Wang proposa une nouvelle méthode permettant de mieux traiterla segmentation, tout en conservant cette approche basée sur des heuristiques [WPH06]. La mé-thode se place en amont de la détection de zones de texte et suppose connu les boîtes englobantesdes zones d’intérêt. Cette approche est intéressante pour la segmentation car elle propose de nom-breuses heuristiques pour caractériser les boîtes, heuristiques qui pourront être réutilisées pouraméliorer les performances d’une technique de segmentation. Le but du projet est de classercorrectement le type des blocs dans neuf classes, dont le texte « petit »(moins de 18 points), letexte « grand »(plus de 19 points), les formules mathématiques, les logos, etc. Afin de réaliser laclassification, un ensemble de 69 caractéristiques est calculée, parmi lesquelles le « run length »,l’auto-corrélation ou encore le ratio entre la longueur et la largeur, sur lesquels un arbre binairede classification étiquette le bloc. Le but n’est pas de segmenter l’image, cependant, la méthodeest facilement adaptable à une approche acsendante, et permettrait d’ajouter des caractéristiquespour traiter plus efficacement les fusions de régions.

Accroissement de régions [LE00]

La méthode de segmentation par accroissement de régions, bien que très vieille (à l’échellede l’informatique)[Zuc82], est encore utilisée dans de nombreuses applications. En effet, cettetechnique permet de tenir compte des positions précédemment trouvées pour accélérer la seg-mentation. C’est donc une technique parfaitement adaptée dans la segmentation de vidéos, où letexte n’est généralement pas très éloigné d’une image à l’autre. L’idée est d’entourer une zonegrossièrement puis de faire bouger les frontières de la zone, en fonction des caractéristiquesfrontalières. Le plus souvent la différence de niveau de gris est utilisée et la frontière s’étenden fonction de cette intensité, mais d’autres critères peuvent entrer en compte, comme la priseen compte de différentes échelles ou encore des paramètres de textures. La méthode commencepar semer des « graines » sur l’image, elles donneront naissance à des régions. Ensuite, les ré-gions grossissent, fusionnent pour obtenir finalement des régions stables. La méthode proposéepar Lienhart est de segmenter une première fois l’image grossièrement pour ensuite regrouperles régions en fonction de leur couleur. L’image est segmentée en utilisant l’accroissement derégion, en sur-segmentant volontairement pour ne pas laisser de petits caractères, et c’est un al-gorithme de fusion particulier qui se charge de regrouper les régions jugées de même couleurs,et spatialement proches. Quelques heuristiques sont ensuite utilisées pour étiqueter correctementles régions, comme l’utilisation de la taille, de paramètres de texture, etc. Cependant, bien que latechnique présente de bonnes performances de reconnaissance sur les images fixes, la méthodeest surtout développée pour les vidéos. En effet, de nombreuses heuristiques sont utilisées afind’affiner le résultat en prenant en compte différentes images et sans ces améliorations, le nombred’erreurs paraît être trop important.

26

FIG. 2.9 – Type de réseau de neurones flou utilisé par [CCG07].

Champs de Markov [NPH06]

L’approche proposée par Nicolas est une autre application des champs Markoviens au trai-tement d’images. Le principe de la méthode est d’essayer de retrouver les classes d’origine desrégions X en fonction de la valeur des pixels Y . Le principe est donc très proche de la binarisa-tion de textes en utilisant les champs de Markov (cf. en page 18).

Nicolas propose d’utiliser un apprentissage pour déterminer la loi de probabilité de P (Y/X).Un vecteur de 18 caractéristiques est utilisé pour caractériser chaque site (ou pixel) en utilisant ladensité dans une fenêtre entourant le pixel. Ensuite, l’algorithme EM (Espérance - Maximisation)permet de définir les paramètres des gaussiennes permettant de caractériser la loi P (X/Y ), grâceà des échantillons étiquetés à la main. De même, les potentiels d’interactions Vc sont appris enestimant les fréquences d’apparition de chaque couple d’étiquettes selon les différentes cliques.

Cette méthode est parfaitement adaptée aux documents présentant une forte variabilité aussibien dans la mise en forme que dans la qualité, ce qui lui permet d’avoir de bon résultat dansle cadre de documents manuscrits. De plus, la méthode peut encore être améliorée en affinantl’estimation des différentes lois de probabilités. Cependant, l’apprentissage rend la méthode peurobuste dans le cas où une même étude porterait sur différents documents n’ayant pas les mêmescaractéristiques.

Réseaux de neurones [CCG07]

Une autre méthode de segmentation supervisée utilise les réseaux de neurones [CCG07].Ces algorithmes essayent de reproduire le fonctionnement des neurones du cerveau. En effet,un neurone a la bonne propriété d’apprendre, et ce par induction, c’est-à-dire par l’exemple. Ilexiste de nombreuses applications dans le domaine de l’image, dont La Poste qui utilise cesréseaux pour reconnaître les adresses des lettres. Le principe est donc de simuler un neurone,ses synapses et sa sortie. Les auteurs ont choisis d’utiliser les réseaux de type RBF (RadialBasis Function), car ils permettent d’introduire une notion d’approximation. En effet, les entréessont comparées avec une fonction gaussienne pour calculer une distance, distance qui permet depondérer l’importance de l’entrée par rapport au neurone. Le réseau de neurones proposé ici estcomposé de trois couches, la première étant celle qui intègre une notion d’approximation. Eneffet, chaque neurone de cette couche a une fonction gaussienne qui conditionne sa sensibilité

27

aux valeurs. Ainsi, un neurone produira une sortie en fonction de la distance entre sa valeur et safonction, suivant la formule :

µgk(xg) = exp

(−(xg − cgk)

2

σ2gk

)(2.21)

où cgk, σgk sont les paramètres (centre et largeur) d’une gaussienne et xg est la variable d’entrée.La deuxième couche (qui comporte K neurones) permet de mesurer comment le neurone a

réagi à l’entrée. Pour cela, les sorties des neurones de la couche précédente sont multipliées entreelles (le multiplié peut être vu comme le « ET logique » suivant la t-norme) :

µk(xg) =n∏

g=1

µgk(xg), k = 1, . . . , K (2.22)

Enfin, la troisième couche fait une moyenne pondérée de toutes ses entrées et produit la sortie.L’apprentissage est réalisé en deux étapes, la première étant une méthode de classification gé-nérique pour permettre de définir les paramètres des gaussiennes de la première couche, et ladeuxième étape étant la méthode plus usuelle de la descente de gradient.

La segmentation se déroule en deux étapes distinctes. La première étape utilise un premierréseau de neurones sur les pixels, avec en entrée le niveau de gris et la norme du gradient, à diffé-rentes échelles. Le réseau de neurone a trois sorties : texte, fond et image. Cela donne naissanceà une image binaire associée à chaque sortie. Sur chacune des images, des opérateurs de mor-phologie mathématique (érosion, dilatation. . .) sont appliqués afin de bien segmenter les régions.Enfin, un autre réseau de neurone, basé sur le même schéma, est appliqué sur les régions, avec enentrée une transformée de Hough permettant de détecter les orientations principales des régionset en sortie deux valeurs : normal et anormal.

Cette méthode présente de nombreux avantage, comme sa rapidité d’exécution ou encorele fait qu’elle soit insensible aux orientations du texte, mais la phase d’apprentissage rend laméthode longue à mettre en place, et spécialisé pour un type de document à la fois.

Conclusion

Il existe de nombreuses techniques de segmentation utilisant l’approche ascendante. Toutesn’ont pas les mêmes performances, et le tableau 2.2 résume les différentes techniques rencontréesau cours de cet état de l’art, en mettant en avant les spécificités et les inconvénients de chacunedes méthodes.

28

Nom Année Principe InconvénientsWong[WCW82]

1982 Noirci les espaces blancs entre deuxpixels noirs verticalement et hori-zontalement puis fait un « ET lo-gique » entre les deux images noir-cies.

Nécessite uneorientation ho-rizontale dutexte.

Antonacopoulos[Ant98]

1998 Utilise des tuiles sur le fond pourestimer les interlignes.

Très sensible aubruit de fond.

Messelodi[MM99]

1999 Utilisation d’heuristiques pour clas-ser les composants connexes.

La binarisationutilisée n’est pastrès efficace.

Lienhart[LE00]

2000 Accroissement de régions où lesfrontières se déplacent en fonctiondu gradient.

plus adapté à lasegmentation devidéos.

Wang[WPH06]

2006 Utilisation d’un vecteur de 69 ca-ractéristiques, réduction à 23 parun algorithme de classification pourensuite identifier le type de la boîte.

L’intérêt de laméthode n’estpas de segmentermais de classifier.

Nicolas[NPH06]

2006 Utilisation des champs de Markovpour caractériser le texte.

L’apprentissagene rend la mé-thode valable quepour un type dedocument à lafois.

Caponetti[CCG07]

2007 Utilise deux réseaux de neuronesflou pour segmenter une image.

La phase d’ap-prentissage esttrès lourde àmettre en placeen raison du typede réseau.

TAB. 2.2 – Tableau récapitulatif des approches ascendantes

29

2.2.3 Segmentation descendantela famille de techniques de segmentation descendante essaie d’avoir une approche globale

pour affiner les régions. Apparu légèrement après les méthodes ascendantes, elles ne connurentpas un grand développement malgré les très bonnes performances obtenues. La plus connued’entre elles est certainement la méthode X-Y Cut, présenté par Nagy et Seth en 1984. Maisavant cette technique, une approche qui a donné de bons résultats mais surtout influencé lesapproches qui suivirent fut proposé.

« Split and merge » [HP72]

Afin de découper l’image en régions homogènes, la technique du « split and merge » se dé-roule en deux étapes : une étape de découpage suivie d’ une méthode d’agrégation. L’étape dedécoupage consiste à séparer en quatre régions l’image (construction d’un « quadtree »), et cerécursivement. L’étape de découpage s’arrête lorsque le bloc considéré est suffisamment homo-gène, le but étant de découper l’image en blocs de plus en plus petits, en fonction de l’homogé-néité de l’image. Cette étape produit alors une image sur-segmentée : chaque feuille correspondà une sous-région homogène, une région homogène pouvant être éclatée entre plusieurs feuilles.L’étape d’agrégation permet alors de fusionner les régions homogènes qui auraient été sépa-rées lors de l’étape précédente. Pour réaliser cette fusion, il faut d’abord tenir à jour une liste descontacts entre régions. On obtient ainsi un graphe d’adjacence de régions ou « Region AdjacencyGraph ». Ensuite, l’algorithme va marquer toutes les régions comme « non-traitées » et choisir lapremière région R non traitée disponible. Les régions en contact avec R sont empilées et sontexaminées les unes après les autres pour savoir si elles doivent fusionner avec R. Si c’est le cas,la couleur moyenne de R est mise à jour et les régions en contact avec la région fusionnée sontajoutées à la pile des régions à comparer avec R. La région fusionnée est marquée « traitée ». Unefois la pile vide, l’algorithme choisi la prochaine région marquée « non traitée » et recommence,jusqu’à ce que toutes les régions soient traitées.

De nombreuses applications furent trouvées, dont certaines concernant la segmentation de lavidéo pour retrouver le texte dans l’image [LS96]. Cependant, l’utilisation du « quadtree » contraintla méthode à travailler sur des images présentant de nombreuses caractéristiques horizontales etverticales.

XY-Cut [NS84]

Le principe de la méthode du XY-Cut est d’utiliser une projection horizontale et verticaleafin de trouver les espaces interligne. Une projection verticale (resp. horizontale) est la sommedes valeurs des niveaux de gris des pixels sur une ligne (resp. colonne). Ces projections repré-sentent donc, pour une ligne donnée, l’intensité totale des pixels. Si la valeur de la projection estfaible, c’est qu’il y a beaucoup de pixels foncés sur la ligne. La méthode X-Y Cut utilise cettepropriété afin de segmenter un document [NS84]. L’image est dans un premier temps projetéehorizontalement et découpée en bandes, là où la projection a les plus faibles valeurs. Sur chacunedes bandes, une projection verticale est faite, et la bande est découpée en colonnes, en suivantle même principe que précédemment. L’algorithme réitère ce processus jusqu’à ce qu’il n’y ait

30

FIG. 2.10 – XY-Cut : exemple de document à problème.

plus de creux dans les projections ou jusqu’à ce que les blocs aient atteint une taille inférieureà un seuil t. Parallèlement à ces segmentations, un arbre est créé, dont les fils représentent lessous-catégories (bande ou colonne), ce qui permet de garder l’information de « qui contient qui ».

Cependant, cette technique a le gros inconvénient de poser des problèmes avec des documentsdont la mise en page est particulière (cf. figure 2.10). De même, dans le cas où les lignes neseraient pas bien alignées, ou que le document serait légèrement tourné, la méthode ne peutplus trouver de creux dans les projections. Ces limitations on conduit quelques recherches pouraméliorer la technique, dont une correction de l’inclinaison des lignes, mais les résultats ne sontpas très convaincants [AB93].

Regroupement par couleur

De nombreux supports sont en couleur. Que ce soit des vidéos, des journaux, des photos, oumême les documents manuscrits, ils intègrent souvent de la couleur. Diverses méthodes furentproposées pour tenir compte des informations apportées par la couleur [Kim96, JY98, LE00].L’idée générale des méthodes est qu’un texte est soit d’une couleur unie sur fond variable, soitde couleur variable sur fond uni [JY98]. Ainsi, en séparant l’image en différents calques, il estpossible d’isoler l’un ou l’autre. Les deux méthodes utilisent une notion de distance entre deuxcouleurs calculées ainsi :

D(Ii, Ij) = (Ri −Rj)2 + (Gi −Gj)

2 + (Bi −Bj)2

On remarque que cette distance ne tient pas compte de la perception humaine qui est plussensible au rouge qu’au vert par exemple. Cependant, cette formule a été choisie car la majoritédes images utilisent la représentation RGB, et c’est un gain de temps que de rester dans le formatd’origine.

Une première méthode [Kim96] propose de découper l’image autour des pics d’histogrammes,de largeur Tc, Tc étant la distance maximale entre une couleur à prendre et la couleur correspon-dant au pic de l’histogramme. Une autre méthode [JY98] propose de réduire le nombre de cou-leurs en agrégeant, à chaque itération, les deux couleurs les plus proches. Les auteurs proposentd’arrêter l’algorithme lorsqu’il ne reste plus que quatre couleurs.

Les deux méthodes travaillent ensuite sur les différentes images de couleurs en parallèle. Ilsutilisent pour cela les composantes connexes et cherchent à éliminer les blocs ne contenant pas de

31

texte. Pour cela, l’un utilise des heuristiques (longueur trop importante, contact avec les bords del’image), l’autre utilise un graphe d’adjacence pour connecter les composants proches. Enfin, lesdeux méthodes améliorent la segmentation en ajoutant une étape de calcul basé sur la projectionverticale et horizontale des zones et regroupent les images des couleurs.

Bien que ces méthodes cherchent à utiliser les couleurs pour segmenter les images plus effi-cacement, aucune des deux n’intègre une analyse locale de la couleur pour traiter par exemple undégradé de couleur. Cette approche reste donc trop globale pour traiter correctement des imagesn’ayant pas un fond uniforme ou un texte ayant beaucoup de couleurs. Elle est en revanche trèsefficace en termes de temps de calcul et est bien adaptée aux documents textes, manuscrit ounon, car ils ont un fond généralement uniforme.

Conclusion.

Il existe de nombreuses techniques de segmentation utilisant l’approche descendante. Toutesn’ont pas les mêmes performances, et le tableau 2.3 résume les différentes techniques rencontréesau cours de cet état de l’art, en mettant en avant les spécificités et les inconvénients de chacunedes méthodes.

Nom Année Principe InconvénientsHorowitz[HP72]

1972 Commence par découper l’imageen quatre, récursivement puis fu-sionne les zones de caractéristiquesproches.

Nécessite une organi-sation horizontale del’image.

Nagy [NS84] 1984 Découpe l’image horizontalementpuis verticalement, récursivement.Le découpage se fait dans le creuxdes projections.

Il existe des documentsimpossibles à segmen-ter.

Kim [Kim96] 1996 Utilise les pics de l’histogrammepour sélectionner les pixels de cou-leurs proches. Regroupe ensuite lescomposants proches et utilise desheuristiques pour classer les com-posantes.

L’utilisation de l’histo-gramme est trop gé-nérale pour donner debons résultats.

Kim [Kim96] 1996 Réduit le nombre de couleurs enfonction des couleurs les plusproches. Regroupe ensuite les com-posantes de couleurs proches et uti-lise des heuristiques pour classer lescomposantes.

Pas de prise en comptespatiale des couleurs.

TAB. 2.3 – Tableau récapitulatif des différentes approches descendante

32

2.2.4 Segmentation par textureLe plus souvent utilisé pour ajouter de l’information aux techniques ascendantes [ZKJ95],

l’approche par segmentation sur la texture regroupe beaucoup de techniques différentes. Le butde ces approches est de trouver les caractéristiques de texture qui sont propres au texte. De nom-breux filtres sont alors utilisés pour transformer l’image en une représentation mettant en avantces caractéristiques. Les filtres les plus utilisés seront présentés, ainsi que quelques exemplesd’application.

Transformé de Fourier

La transformée de Fourier est une fonction qui transforme une fonction (dans notre casl’image) en une autre fonction décrivant son spectre de fréquence. Dans le cas d’une image, latransformée sera donc la représentation fréquentielle de l’image. Au centre est concentré l’éner-gie de basse fréquence (qui correspond à des transitions douces dans l’image, typiquement unciel brumeux), autour les fréquences moyennes et aux bords les hautes fréquences. Grâce à cettetransformation, il est également possible d’avoir l’orientation des contours principaux de l’image,ce qui peut être directement interprétable pour caractériser le texte. Le calcul de cette transforméedans le domaine discret (donc adapté aux images) est le plus souvent réalisé avec l’algorithmeFFT (« Fast Fourier Transform »). L’intérêt de la FFT pour la segmentation est qu’une variante decette transformée, la DCT (« Discrete Cosine Transform »), est au centre de la compression JPEGet peut être utilisé pour retrouver des zones de texte [ZZJ00]. En effet, la compression JPEG dé-coupe l’image en blocs de 8 × 8 pixels, ce qui rend locale la transformée DCT. En partant de laconstatation qu’un texte comporte une forte variation horizontale, les blocs dont les coefficientsde la transformée DCT présentent une forte intensité verticale (rotation de 90°) sont jugés commeétant potentiellement du texte. Cependant, si cette technique apporte d’un côté une rapidité decalcul, d’un autre côté, elle souffre d’une trop forte sensibilité à la taille des caractères. En effet,un caractère qui s’étale sur plusieurs blocs ne contient pas de contrastes élevés horizontaux etdonc n’est pas détecté comme du texte. Ce problème est récurrent dans les approches texturelles,car un texte grand n’a pas les mêmes caractéristiques qu’un texte petit.

Filtres dérivateurs

Un peu à la manière de la transformée de Fourier, les filtres dérivateurs permettent d’avoirune meilleure représentation fréquentielle de l’image. L’avantage est que la transformée contientde plus des informations spatiales. En effet, ces filtres, dans le principe, réalisent une étude fré-quentielle par pixel. Dans la pratique, c’est en convoluant l’image avec un noyau dérivateur quel’on obtient la dérivée d’une image. Il existe de nombreux noyaux dérivateurs, et de leur défini-tion dépendent les caractéristiques du filtre. En revanche, tous ont la propriété d’avoir la sommedes coefficients nulle. Ainsi, il est possible de définir des filtres ayant une plus grande sensibilitéaux contours horizontaux, verticaux et diagonaux [SKHS98]. Il est alors possible de repérer letexte en convoluant l’image avec ces noyaux pour extraire de l’image les formes attendues et re-pérer ainsi plus facilement le texte. Ces filtres sont sensibles, de la même manière que pour touteanalyse par texture, à l’échelle du texte. Pour éviter cet inconvénient, de nombreuses techniques

33

utilisent une approche multi résolution. C’est le cas de la méthode proposé par Wu qui utilisetrois filtres dérivateurs à différentes échelles [WMR99]. Tous les filtres sont basés sur la dérivéeseconde d’une gaussienne, avec un écart type qui varie, ce qui a pour effet de réaliser une analysemulti-résolution. En effet, un filtrage par une gaussienne revient à réduire l’échelle de l’image,en fonction de l’écart type. Suite à ces filtrages, chaque pixel est associé à un vecteur de neufdimensions. En utilisant un algorithme de classification classique (les K -moyennes, avec K= 3),il regroupe les pixels entre eux afin d’obtenir trois classes (texte, arrière plan et intermédiaire),pour ensuite réaliser une transformation de morphologie mathématique (dilatation). Cependant,la segmentation n’est pas suffisamment précise pour permettre de s’arrêter là. Les régions dé-tectées vont servir pour identifier les zones d’intérêt et une étude plus approfondie sera réaliséepour ajuster les frontières. Une étude ascendante est alors réalisée, en partant d’une détection decontours, car les caractères forment généralement des contours bien marqués avec le fond. Enprenant en compte toutes ces informations, la méthode traite très bien les images et un très bontaux de reconnaissance est obtenu.

Une autre sorte de filtres dérivateurs utilisés sont les filtres de Gabor. Les filtres de Gaborproposés par Daugman ont la particularité d’avoir trois paramètres permettant de rendre plussensible le filtre à certains types de variations :

Gλ,θ,ϕ(x, y) = exp(−x′2+ν2y′2

2σ2

)cos(2π x′

λ+ ϕ

)x′ = x cos θ + y sin θy′ = −x sin θ + y cos θ

(2.23)

Datong propose en 2001 de paramétrer ces filtres en réalisant une première étude sur l’imagepour détecter les contours, et ensuite d’estimer l’orientation et la taille du texte [DSB01] ; λ et θsont déduits de ces estimations. Ainsi, en utilisant deux filtres complémentaires de Gabor, grâceà une bonne définition de ϕ et de x′ et y′, l’image est traitée afin d’augmenter le contraste, là oùle filtre a répondu fortement.

Auto-corrélation

Nous avons vu que les filtres dérivateurs permettaient de mettre en évidence les contours destextures et ainsi de repérer plus facilement les zones de texte. Il existe une autre transformation,plus coûteuse en calculs, mais donnant une meilleure information sur les orientations généraleset les périodicités de la texture. L’auto-corrélation, en combinant l’image avec elle-même aprèsune translation, permet de mettre en avant ces informations. Dans le domaine spatial (en pratique,le calcul est réalisé dans le domaine fréquentiel avec la FFT), le calcul de l’autocorrélation se faitsuivant cette formule :

Cxx(k, l) =+∞∑

k′=−∞

+∞∑l′=−∞

x(k′, l′).x(k′ + k, l′ + l) (2.24)

Cette transformation permet alors de créer une rose des directions qui représente les orienta-tions principales de l’image (figure 2.11). En découpant l’image d’origine en petits blocs, puis

34

FIG. 2.11 – Trois transformées d’images sur trois images : FFT, Auto-corrélation et Rose desdirections.

en calculant cette rose sur chacun des blocs, il est possible de déterminer comment est organiséel’image [Jou06]. La rose est en fait un diagramme polaire. Soit (u, v) le point central de l’auto-corrélation et θi l’orientation étudiée, on calcule alors la droite Di tel l’ensemble de ses points(a, b) forme un angle θi avec l’abscisse. Pour chaque orientation θi on calcule ainsi la somme desdifférentes valeurs de la fonction d’autocorrélation.

R(θi) =∑Di

Cxx(a, b) (2.25)

Cependant, cette rose est très sensible à la taille du texte, et une analyse sur des blocs trop petitsdonne des directions variables, en raison des lettres qui ont des contours dans toutes les direc-tions. Après expérimentation, l’auteur propose d’utiliser une fenêtre qui contient entre quatreet sept lignes de texte. Malgré des résultats problématiques aux abords des images, la méthodea l’avantage de ne pas avoir d’a priori sur la position du texte, ni sur sa forme. Cependant, lagrande sensibilité de la rose des directions fait que cette méthode nécessite un pavage initial del’image qui ne contienne ni trop de lignes ni pas assez.

Conclusion.

Les différentes techniques de segmentation utilisant l’approche à base de texture diffèrentprincipalement sur les outils employés, et non sur les processus. C’est pour cette raison quele tableau 2.4 répertorie les différents outils textuels utilisés, en mettant en avant avantages etinconvénients.

35

Nom Principe Avantages Inconvénients

Fourier[ZZJ00]

Passe l’image dans ledomaine fréquentiel.

Rapide, utilisé dans lesimages JPEG.

Perte de la localisation.Nécessite une fenêtred’analyse.

Dérivée[WMR99,SKHS98]

Met en avant les va-riations dans l’image.

Rapide, permet de locali-ser les contours.

Nécessite une taille adap-tée de la fenêtre d’analyse.

Gabor[DSB01]


Sensibles à un certain typede fréquence avec une cer-taine orientation.

Assez coûteux en calculs.Nécessite un paramétrageadapté pour la fréquence etl’orientation.

Les on-dellettes[WMR02]


Analyse non sensible àl’échelle et à l’orientation.

Très coûteux en calculs.

Auto-corrélation[Jou06]

Met en avant l’orien-tation générale et laperiodicité de la tex-ture.

Permet de créer une rosedes directions.

Très coûteux en calculs.La taille de la fenêtred’analyse est un paramètrecritique.

TAB. 2.4 – Différents outils pour l’approche texturelle

2.2.5 ConclusionBien que le nombre de techniques différentes puisse faire croire à un sujet fermé, la segmen-

tation d’image est loin d’être résolue. En effet, le nombre de documents ayant des caractéristiquesdifférentes rend difficile l’élaboration d’une technique non-supervisée capable de travailler surl’ensemble des documents. Il est ainsi fréquent de trouver une solution très efficace pour, parexemple, la détection de texte dans une vidéo et incapable de segmenter un document manuscrit.

La segmentation reste un sujet actif, malgré la multitude des documents, parce qu’il n’y apas de solutions encore générales, mais aussi parce qu’il y a beaucoup d’applications possibles.La première est bien entendu de pouvoir augmenter les performances de l’indexation de conte-nus multimédias, afin de faciliter l’accès à l’information. Une autre application est de permettrede compresser un document manuscrit ou typographié de manière très importante, en extrayantle texte et en compressant différemment le fond du texte. Cette compression travaillant sansreconnaissance de caractère mais en se basant sur des graphèmes (entités inférieures au carac-tère), elle permet de travailler sur des documents de langues différentes. La segmentation peutpermettre aussi aux mal-voyants de pouvoir lire n’importe quel livre. Quelques travaux existentdéjà, comme le DELTA (Dispositif Électronique de Lecture de Texte pour Aveugles) où unecaméra permet de transformer un document textuel en braille. Ces dispositifs manquent encorede précision et les techniques de segmentation moderne permettraient d’augmenter le taux de re-connaissance. Enfin, la segmentation d’image entre bien entendu dans le processus de la « visionintelligente », comme retrouver les plaques d’immatriculation des voitures, le nom des rues, desmarques de produits, etc.

36

Chapitre 3

Proposition

37

Chapitre 4

Expérimentations et résultats

38

Chapitre 5

Conclusion et perspectives

5.1 Résumé du travail effectué

5.2 Conclusion

Notre but a été, dans une première partie, d’identifier les problèmes auxquels sont confron-tées les méthodes de segmentations : les dégradations. Bien que d’origines très diverses, il estpossible de distinguer deux types de dégradations : les perturbations aléatoires (ou bruit) et lesperturbations déterministes (comme le flou). À ces perturbations sont généralement associés destraitements particuliers et exclusifs. C’est le cas, par exemple, du traitement du flou qui augmentel’incidence du bruit sur l’image.

Bien qu’il existe une multitude de traitements, seule une petite partie est généralement uti-lisée dans le cadre de la restauration de documents manuscrits. L’accent est donc mis sur lapréservation des discontinuités, car le texte n’est reconnaissable que si ses frontières avec le fondsont stables pendant le traitement.

Les techniques de segmentations sont présentées en les séparant suivant leurs approches. Unedistinction est faite entre les techniques de binarisation (qui est une segmentation à deux classes)et les techniques de segmentation à plus de deux classes. En effet, de nombreuses techniques desegmentation se basent sur une image binaire [Ant98, TY00, LZD06, WPH06], ce qui positionnela binarisation comme un pré-traitement à la segmentation. Cette étape est d’ailleurs critiquepuisqu’un texte mal binarisé ne permet pas une segmentation efficace, surtout dans le cadre de lasegmentation de documents manuscrits anciens où les dégradations sont très présentes.

Au cours de l’état de l’art, il est apparu que les champs de Markov, malgré leurs aptitudesà traiter les relations spatiales, n’étaient pas beaucoup représentés dans la binarisation de docu-ments manuscrits. Les recherches ont donc été tournées vers cette approche. De plus, l’utilisationd’outils probabilistes éprouvés afin d’estimer les caractéristiques de l’arrière plan nous ont per-mis de soumettre une solution efficace et robuste.

39

5.3 Perspectives de recherche

40

Bibliographie

[AB93] O.T. Akindele and A. Belaid. Page segmentation by segment tracing. Internatio-nal Conference on Document Analysis and Recognition, 2 :341–344, 1993. (Citépage 31.)

[Ant98] A. Antonacopoulos. Page segmentation using the description of the background.Computer Vision and Image Understanding, 70(3) :350–369, 1998. (Cité pages 25,29 et 39.)

[BC96] L. Beaurepaire and K. Chehdi. Contribution à la Mise en Oeuvre d’une ChaîneAutomatique de Filtrage d’Images Numériques. PhD thesis, Université de Rennes 1,1996. (Cité page 9.)

[Ber86] J. Bernsen. Dynamic thresholding of grey-level images. In Proc. Eighth Int ’l Conf.on Pattern Recognition, pages 1251–1255, 1986. (Cité pages 17 et 23.)

[BK97] M.R. Banham and A.K. Katsaggelos. Digital image restoration. Signal ProcessingMagazine, IEEE, 14(2) :24–41, 1997. (Cité page 15.)

[Bou06] F. Bouchara. Traitement d’image pour la vision, support de cours, 2006. (Citépage 14.)

[Bui98] C. Buil. Le bruit dans une caméra ccd, 1998. (Cité page 10.)

[CCG07] L. Caponetti, C. Castiello, and P. Gorecki. Document page segmentation using neuro-fuzzy approach. Applied Soft Computing, In Press, Corrected Proof :–, 2007. (Citépages 27, 29 et 45.)

[Don95] H.-S. Don. A noise attribute thresholding method for document image binarization.ICDAR ’95 : Proceedings of the Third International Conference on Document Ana-lysis and Recognition, 1 :231, 1995. (Cité page 18.)

[DSB01] C. Datong, K. Shearer, and H. Bourlard. Text enhancement with asymmetric filter forvideo ocr. In ICIAP ’01 : Proceedings of the 11th International Conference on ImageAnalysis and Processing, page 192, Washington, DC, USA, 2001. IEEE ComputerSociety. (Cité pages 34 et 36.)

[GPH05] U. Garain, T. Paquet, and L. Heutte. On foreground-background separation in lowquality color document images. In ICDAR ’05 : Proceedings of the Eighth Inter-national Conference on Document Analysis and Recognition, pages 585–589, 2005.(Cité pages 18 et 24.)

41

[GPP06] B. Gatos, I. Pratikakis, and S. J. Perantonis. Adaptive degraded document imagebinarization. Pattern Recogn., 39(3) :317–327, 2006. (Cité pages 12, 21, 22 et 24.)

[HP72] S. L. Horowitz and T. Pavlidis. Picture segmentation by a traversal algorithm. Com-put. Graphics Image Process., 1 :360–372, 1972. (Cité pages 30 et 32.)

[Jou06] N. Journet. Analyse d’images de documents anciens : Catégorisation de contenuspar approche texture. PhD thesis, Université de La Rochelle, 2006. (Cité pages 35et 36.)

[JY98] A. K. Jain and B. Yu. Automatic text location in images and video frames. PatternRecognition, 31(12) :2055–2076, 1998. (Cité page 31.)

[KB04] C. Kervrann and S. Ba. Approche non-paramétrique en restauration d’image avecpréservation des discontinuités. In 14ème Congrès Francophone AFRIF-AFIA deReconnaissance des Formes et Intelligence Artificielle, 2004. (Cité page 11.)

[Kim96] H.K. Kim. Efficient automatic text location method and content-based indexing andstructuring of video database. Journal of Visual Communication and Image Repre-sentation, 7(4) :336–344, 1996. (Cité pages 31 et 32.)

[KJJ03] K. I. Kim, K. Jung, and A. K. Jain. Text information extraction in images and video :a survey. Pattern Recognition, 37(5) :977–997, 2003. (Cité page 15.)

[KJP02] I.-K. Kim, D.-W. Jung, and R.-H. Park. Document image binarization based ontopographic analysis using a water flow model. Pattern Recognition, 35 :265–277,2002. (Cité pages 20, 22 et 23.)

[LE00] R. Lienhart and W. Effelsberg. Automatic text segmentation and text recognition forvideo indexing. Multimedia Systems, 8 :69–81, 2000. (Cité pages 26, 29 et 31.)

[Leg96] T. Legault. Quel est le role du traitement d’image ?, 1996. (Cité page 10.)

[Li95] S. Z. Li. Markov random field modeling in computer vision. Springer-Verlag, Lon-don, UK, 1995. (Cité pages 8 et 18.)

[LS96] R. Lienhart and F. Stuber. Automatic text recognition in digital videos. Technical re-port, Department for Mathematics and Computer Science, University of Mannheim,1996. (Cité page 30.)

[LZD06] Y. Li, Y. Zheng, and D. Doermann. Detecting text lines in handwritten documents.Proceedings of the 18th International Conference on Pattern Recognition (ICPR’06),2 :1030 – 1033, 2006. (Cité page 39.)

[MM99] S. Messelodi and C.M. Modena. Automatic identification and skew estimation oftext lines in real scene images. Pattern Recognition, 32(5) :791–810, 1999. (Citépages 25 et 29.)

[Nib86] W. Niblack. An introduction to digital image processing. Prentice Hall (July 1986),1986. (Cité pages 17, 22 et 23.)

[N.O79] N.Otsu. A threshold selection method from gray-level histograms. IEEE Transac-tions on Systems, Man and Cybernetics, 9(1) :62–66, 1979. (Cité pages 20, 22 et 23.)

42

[NPH06] S. Nicolas, T. Paquet, and L. Heutte. Extraction de la structure de documents manus-crits complexes à l’aide de champs markoviens. In Actes du 9ème Colloque Interna-tional Francophone sur l’Ecrit et le Document, pages 13–18, 2006. (Cité pages 8, 27et 29.)

[NS84] G. Nagy and S. Seth. Hierarchical representation of optically scanned documents.International conference on Pattern Recognition, 7 :347–349, 1984. (Cité pages 30et 32.)

[SKHS98] T. Sato, T. Kanade, E. K. Hughes, and M. A. Smith. Video ocr for digital newsarchive. In International Workshop on Content-Based Access of Image and VideoDatabases (CAIVD ’98), pages 52–60, 1998. (Cité pages 33 et 36.)

[SP00] J. Sauvola and M. Pietikäinen. Adaptive document image binarization. Pattern Re-cognition, 33(2) :225 – 236, 2000. (Cité pages 18, 19, 21, 22, 23 et 24.)

[TJ95] O. D. Trier and A. K. Jain. Goal-directed evaluation of binarization methods. IEEETransactions on Pattern Analysis and Machine Intelligence, 17(12) :1191–1201,1995. (Cité page 18.)

[TT95] O.D. Trier and T. Taxt. Improvement of integrated function algorithm for binariza-tion of document images. Pattern Recognition Letters, 16(3) :277–283, 1995. (Citépages 18 et 23.)

[TY00] C. L. Tan and B. Yuan. Document text segmentation using multi-band disc model.Document Recognition and Retrieval VIII, 4307 :212–222, 2000. (Cité page 39.)

[WCW82] K.Y. Wong, R.G. Casey, and F.M. Wahl. Document analysis system. IBM Journal ofResearch and Development, 26(6) :647–656, 1982. (Cité pages 24 et 29.)

[WD02] C. Wolf and D. Doermann. Binarization of low quality text using a markov randomfield model. Proceedings of the 16 th International Conference on Pattern Recogni-tion (ICPR’02), 3 :30160, 2002. (Cité pages 8, 18 et 24.)

[WM98] V. Wu and R. Manmatha. Document image clean-up and binarization. Proceedings ofIS&T/SPIE Symposium on Electronic Imaging, 3305 :263–273, 1998. (Cité pages 16et 23.)

[WMR99] V. Wu, R. Manmatha, and E. M. Riseman. Textfinder : An automatic system to detectand recognize text in images. IEEE Transactions on Pattern Analysis and MachineIntelligence, 21(11) :1224–1229, 1999. (Cité pages 34 et 36.)

[WMR02] V. Wu, R. Manmatha, and E. M. Riseman. Hybrid chinese/english text detectionin images and video frames. Proceedings of the 16th International Conference onPattern Recognition, 2 :31015, 2002. (Cité page 36.)

[Wol03] C. Wolf. Détection de textes dans des images issues d’un flux vidéo pour l’indexationsémantique. PhD thesis, INSA de Lyon, 2003. (Cité page 6.)

[WPH06] Y. Wang, I. T. Phillips, and R. M. Haralick. Document zone content classification andits performance evaluation. Pattern Recognition, 39(1) :57–73, 2006. (Cité pages 26,29 et 39.)

43

[YY00] Y. Yang and H. Yan. An adaptive logical method for binarization of degraded docu-ment images. Pattern Recognition, 33(5) :787–807, 2000. (Cité page 18.)

[ZKJ95] Y. Zhong, K. Karu, and A. K. Jain. Locating text in complex color images. PatternRecognition, 28(10) :1523–1535, 1995. (Cité page 33.)

[ZLD03] Y. Zheng, H. Li, and D. Doermann. Text identification in noisy document imagesusing markov random field. Document Analysis and Recognition, 34 :599–605, 2003.(Cité page 8.)

[Zuc82] S. W. Zucker. Document analysis system. Computer. Graphics and Image Proces-sing, 5(6) :382–399, 1982. (Cité page 26.)

[ZZJ00] Y. Zhong, H. Zhang, and A. K. Jain. Automatic caption localisation in compres-sed video. IEEE Trans. Pattern Anal. Mach. Intell., 22(4) :385 – 392, 2000. (Citépages 33 et 36.)

44

Table des figures

1.1 Déroulement du processus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.2 Exemples de documents manuscrits. . . . . . . . . . . . . . . . . . . . . . . . . 7

2.1 Exemple de filtres passe-haut et passe-bas. . . . . . . . . . . . . . . . . . . . . . 112.2 Exemple du filtrage Wiener. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.3 Exemple de filtres robustes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132.4 Seuil minimal de recouvrement. . . . . . . . . . . . . . . . . . . . . . . . . . . 162.5 Problème de seuillage global. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.6 Courbe des niveaux de gris sur une ligne et seuillage adaptatif. . . . . . . . . . . 182.7 Comparatif de méthodes de binarisation. . . . . . . . . . . . . . . . . . . . . . . 222.8 Segmentation RLSA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252.9 Type de réseau de neurones flou utilisé par [CCG07]. . . . . . . . . . . . . . . . 272.10 XY-Cut : exemple de document à problème. . . . . . . . . . . . . . . . . . . . . 312.11 Trois transformées d’images sur trois images : FFT, Auto-corrélation et Rose des

directions. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

45

Liste des tableaux

2.1 Différentes techniques de binarisation . . . . . . . . . . . . . . . . . . . . . . . 242.2 Tableau récapitulatif des approches ascendantes . . . . . . . . . . . . . . . . . . 292.3 Tableau récapitulatif des différentes approches descendante . . . . . . . . . . . . 322.4 Différents outils pour l’approche texturelle . . . . . . . . . . . . . . . . . . . . . 36

46

Segmentation d’image - IMT Atlantique · segmentation. La section suivante traitera...

Documents

Transcript of Segmentation d’image - IMT Atlantique · segmentation. La section suivante traitera...