Meilleur Segmentation

36
Institut de la francophonie pour l'informatique (IFI) Bât. D, ruelle 42, rue Ta Quang Buu, Hanoï, Viêtnam http://www.ifi.auf.org Travail d'Intérêt Personnel Encadré Évaluation de la segmentation d'images Rapport final Étudiant DO Minh Chau Promotion 11, IFI Superviseur Alain BOUCHER Hanoï, janvier 2007

Transcript of Meilleur Segmentation

Page 1: Meilleur Segmentation

Institut de la francophonie pour l'informatique (IFI)Bât. D, ruelle 42, rue Ta Quang Buu, Hanoï, Viêtnam

http://www.ifi.auf.org

Travail d'Intérêt Personnel Encadré

Évaluation de la segmentation d'imagesRapport final

Étudiant DO Minh Chau

Promotion 11, IFI

Superviseur Alain BOUCHER

Hanoï, janvier 2007

Page 2: Meilleur Segmentation
Page 3: Meilleur Segmentation

TIPE – Évaluation de la segmentation d'images DO Minh Chau

REMERCIEMENTS

Je tiens à remercier sincèrement monsieur Alain BOUCHER, mon superviseur, qui m'a aidé de finir mon travail d'intérêt personnel encadré.

J’adresse mes sincères remerciements à mademoiselle LE Thi Lan qui m'a donné des conseils sur la bibliothèque LTI-Lib.

Je tiens à remercier chaleureusement tous les professeurs ainsi que tous mes camarades à l'IFI qui m'ont donné une bonne environnement scientifique.

Enfin je remercie mes parents, mon frère, pour leur soutien et leur confiance tout au long de cette épreuve.

Hanoi, le 29 janvier 2007

DO Minh Chau

-- 1 --

Page 4: Meilleur Segmentation

TIPE – Évaluation de la segmentation d'images DO Minh Chau

Table des matières

1. Introduction.........................................................................................................................................3

2. Segmentation d'images........................................................................................................................4

3. Évaluation de la segmentation...........................................................................................................5

3.1. Évaluation supervisée....................................................................................................................5

3.1.1. Évaluation avec vérité terrain experte...................................................................................6

3.1.2. Évaluation avec vérité terrain synthétique............................................................................6

3.1.3. Évaluation psychovisuelle...................................................................................................11

3.2. Évaluation non supervisée...........................................................................................................11

3.2.1. Évaluation de la segmentation en frontières.......................................................................12

3.2.2. Évaluation de la segmentation en régions/classes...............................................................12

4. Analyse................................................................................................................................................17

5. Conclusion et perspectives................................................................................................................30

Bibliographie..........................................................................................................................................31

-- 2 --

Page 5: Meilleur Segmentation

TIPE – Évaluation de la segmentation d'images DO Minh Chau

1. Introduction

La segmentation d'images est une étape fondamentale et importante dans beaucoup d'applications de vision par ordinateur. C'est une étape primordiale pour l'interprétation d'images. Beaucoup de méthodes de segmentation ont été développées, mais il n'y a pas encore de mesures de performance satisfaisante. Concevoir une bonne mesure pour la qualité de segmentation est un problème dur. Quelques chercheurs pensent que c'est impossible. La segmentation, comme la cuisine, est un art. Chaque personne, comme un cuisinier, a une recette différente.

Malgré que ce soit impossible d'évaluer automatiquement la segmentation, nous pouvons définir des critères sur le résultat d'un algorithme de segmentation pour avoir une idée d'évaluation.

Dans ce rapport, j'aborderai d'abord la définition de la segmentation d'images qui est le problème préalable pour toutes les méthodes d'évaluation de la segmentation d'images. Ensuite, certains critères d'évaluation seront présentés et comparés. Enfin, je citerai les perspectives concernant le sujet de ce TIPE

Mots clés : évaluation d'un résultat de segmentation d'images, qualité de la segmentation d'images, vision par ordinateur, critères quantitatifs, critères supervisés, critères non supervisés, vérité terrain, carte de référence.

-- 3 --

Page 6: Meilleur Segmentation

TIPE – Évaluation de la segmentation d'images DO Minh Chau

2. Segmentation d'imagesUn bon résultat de segmentation ne permet pas forcément une bonne interprétation, mais nous

ne pouvons pas obtenir une bonne interprétation à partir d'un mauvais résultat de segmentation. C'est pourquoi une définition de la segmentation est vraiment indispensable. Cependant, la segmentation d'images n'a pas de définition officielle. Elle peut être définie ainsi : « La segmentation est un traitement de bas niveau qui consiste à créer une partition de l'image A en sous-ensembles Ri, appelés régions tels qu'aucune région ne soit vide, l'intersection entre deux région soit vide et l'ensemble des régions recouvre toute l'image. Une région est un ensemble de pixels connexes ayant des propriétés communes qui les différencient des pixels des régions voisines ». Il y a certaines autres définitions similaires que nous pouvons trouver dans divers autres articles. Le but de la segmentation est d'extraire les entités d'une image pour y appliquer un traitement spécifique et interpréter le contenu de l'image. La segmentation est normalement basée sur les discontinuités (les arêtes, les changements abruptes, etc.), les similitudes (intensités, couleurs, textures, etc.). La segmentation est donc le découpage d'une image en différentes régions et/ou frontières. Il existe une dualité entre régions et frontières : une région est délimitée par un contour, un contour sépare deux régions. À partir d'un résultat de segmentation en régions, nous pouvons obtenir un résultat de détection de frontières.

Nous voyons que la segmentation seule ne peut pas trouver tous les composants de l'image tel que nous les interprétons. Gestalt a proposé une approche humaine de la segmentation qui s'inspire de la psychologie et de l'observation de l'humain et de son environnement. Selon cette approche, nous regroupons les objets ou les courbes de l'image à partir de ses informations : la proximité, la similarité, la tendance commune, la région commune, la parallélisme, la fermeture, la symétrie, la continuité et la configuration familière. Malgré certains essais, cette approche reste surtout théorique.

Concernant la segmentation d'images, il y a toujours des difficultés à cause de la complexité des images naturelles et de la définition du niveau de précision du résultat.

À ce jour, il existe de nombreuses méthodes de segmentation d'images que l'on peut regrouper en quatre principales classes d'algorithmes 1:

Segmentation basée sur les régions (region-based segmentation). On y trouve par exemple la croissance de région (region-growing), décomposition/fusion (split and merge).

Segmentation basée sur les contours (edge-based segmentation).

Segmentation basée sur une approche globale de l'image, par exemple : seuillage (thresholding), histogramme, approches basées sur le nuage couleur.

Segmentation basée sur la coopération entre les trois premières segmentations.

J'utilise trois algorithmes de segmentation d'images pour mon TIPE : MeanShift, KMeans, Watershed. L'objectif final est d'assigner un numéro (aussi appelé label ou étiquette) à chaque région; chacun de ces numéros est associé à une couleur ou à un niveau de gris, ce qui permet de construire une carte des régions représentant visuellement le découpage en régions de l'image. Un objet peut ensuite être défini comme un ensemble de régions. Comme la sortie est une image en niveau de gris et chaque région possède un numéro unique, le nombre de régions est limité. Plus précisément, le nombre de régions maximal pour une carte des régions est de 256 car les étiquettes sont entre 0 et 255.

1 http://fr.wikipedia.org/wiki/Segmentation_d%27image

-- 4 --

Page 7: Meilleur Segmentation

TIPE – Évaluation de la segmentation d'images DO Minh Chau

3. Évaluation de la segmentationDe nombreux critères d'évaluation d'un résultat de segmentation d'images ont été proposés. Ces

critères d'évaluation peuvent être divisés en deux catégories principales : critères d'évaluation supervisée et critères d'évaluation non supervisée. L'objectif principal d'un critère d'évaluation est d'être capable de comparer de différents résultats de segmentation afin de trouver la meilleure segmentation.

Quelle est la meilleure

segmentation ?

3.1. Évaluation superviséeIl y a plusieurs critères d'évaluation supervisée pour la segmentation d'images. Il s'agit d'obtenir

le meilleur résultat de segmentation choisi par des juges, ou de calculer la distance entre un résultat de segmentation et une référence connue que l'on nomme vérité terrain (ground truth). Une vérité terrain correspondant à une image est le résultat de segmentation idéal de cette image. Nous pouvons obtenir une vérité terrain à partir d'une image synthétique ou d'une image naturelle.

Évaluation supervisée d'un résultat de segmentation à l'aide d'un tracé expert 2

2 Source : Thèse de doctorat de Sebastien Chabrier

-- 5 --

MeanShift

KMeans

Watershed

Page 8: Meilleur Segmentation

TIPE – Évaluation de la segmentation d'images DO Minh Chau

3.1.1. Évaluation avec vérité terrain experte

Une vérité terrain experte est un résultat de segmentation d'une image naturelle tracé manuellement par des experts. Ce type de vérité terrain est souvent utilisé dans des cas spécifiques où nous voulons évaluer la qualité de segmentation de certains objets d'une image réelle. C'est souvent difficile d'obtenir une bonne vérité terrain experte à cause de la complexité des images naturelles. Il y a toujours une incertitude sur la précision des donnés acquises. Nous pouvons trouver une base d'images naturelles avec des vérités terrains expertes sur Internet 3.

Une méthode simple abordée est d'utiliser des matrices de confusion pour l'évaluation quantitative le résultat de segmentation d'une image contenant des cellules. En compter le nombre de pixels corrects et faux dans l'image résultat par rapport à la vérité terrain, nous pouvons calculer le pourcentage de pixels corrects et celui de pixels bien détectés. Un critère similaire proposé par Shufelt permet de mesurer la qualité de détection de bâtiments. Sans utiliser la matrice de confusion, on classe les pixels de l'image segmentée en certaines catégories : les vrais positifs, les vrais négatifs, les faux positifs, les faux négatifs. À partir de ces catégories, quelques mesures sont alors définies pour évaluer le résultat de segmentation. Il y a certains autres critères, mais leurs idées sont similaires.

L'avantage principal de ces critères est de permettre d'évaluer des algorithmes de segmentation avec des vérités terrains qui sont obtenues à partir des images naturelles. L'inconvénient majeur de ces méthodes est que c'est difficile de définir une bonne vérité terrain lorsque chaque expert a sa propre opinion.

3.1.2. Évaluation avec vérité terrain synthétique

Soit une image synthétique créée par un programme. Cette image est souvent beaucoup plus simple qu'une image naturelle. Nous avons toute information de cette image, donc nous sommes capable de créer une bonne vérité terrain correspondante. Nous pouvons également trouver une base d'images synthétiques avec des vérités terrains synthétiques sur l'internet 4.

Il y a plusieurs critères que nous pouvons utiliser pour mesurer la différence entre un résultat et la vérité terrain synthétique correspondante, et ces critères sont partitionnés en deux groupes : les critères évaluant un résultat de détection de frontières et ceux évaluant un résultat de segmentation en régions.

Évaluation de détection de frontières

Concernant la détection de frontières, trois mesures d'erreur qui donnent des indices globaux sur la qualité d'un résultat ont été abordées : l'erreur de sur-détection, l'erreur de sous-détection et l'erreur de localisation. Nous considérons qu'un résultat de détection est bon si ces trois erreurs sont petites.

L'erreur de sur détection est définie comme suit :

ERRSUR I F , I Ref =card I F −card I F∩I Ref

card I −card I Ref

3 Base d'images de Berkeley

4 Laboratoire Vision & Robotique (LVR) : « Evaluation of Image Processing »

-- 6 --

Page 9: Meilleur Segmentation

TIPE – Évaluation de la segmentation d'images DO Minh Chau

L'erreur de sous-détection est calculée comme la suivante :

ERRSOUS I f , I ref =card I Ref /F

Cont

card I RefCont

L'erreur de localisation est modélisée comme suit :

ERRLOC I F , I Ref =card I Ref /F∪I F /Ref

card I

Nous pouvons évidemment calculer la divergence selon l'erreur quadratique moyenne de l'image segmentée par rapport à la vérité terrain. Les distances L(q), qui sont des versions étendues de cette mesure, nous donnent plusieurs critères en choisissant différentes valeurs q.

DLq I 1 , I 2= 1card X ∑i , j ∈X

∣g I1i , j −g I 2

i , j ∣q1q

Ces distances L(q) et quelques autres distances suivantes (les distances de Küllback, de Bhattacharyya et de Jensen) ne sont pas précises parce qu'elles mesurent la divergence entre deux images en basant seulement sur des intensités sans aucune information spatiale.

La distance de Küllback est la suivante :

DKUL=1

card X ∑ i , j ∈X

g I 1i , j −g I2

i , j log g I1i , j

g I2i , j

La distance de Bhattacharyya est définie comme suit :

DBHA I 1, I 2=−log 1card X ∑ i , j∈X

g I 1i , j x g I2

i , j La distance de Jensen est calculée comme suit :

DGEN I 1, I 2=J I 1 I 2

2, I 1

où J I 1, I 2=H I 1 x I 2−H I 1H I 2

2

avec H I 1=1

1−log 2 ∑i , j ∈ I1

g I1i , j , 3 ∈ ℕ

-- 7 --

Page 10: Meilleur Segmentation

TIPE – Évaluation de la segmentation d'images DO Minh Chau

Quelques autres critères tels que le critère de Hausdorff, le critère de Baddeley mesurent la distance spatiale entre deux cartes de frontières. Cette distance signifie que tous les pixels d'une carte sont à une distance inférieure à cette distance de quelques pixels de l'autre carte.

La distance de Hausdorff est définie comme suit :

DHAU I F , I Ref =maxh I F , I Ref , h I Ref , I F

où h I 1 , I 2=maxa∈I F

Cont

minb∈ I Ref

Cont

∥ a−b∥

Les deux distances de Baddeley sont les suivante :

DBAD1 I F1 , I F2= max

i , j ∈ I F1∪ I F2d i , j , I F1 , d i , j , I F2

où d x , I =miny∈I

d x , y

DBAD2 I F1 , I F2= 1

card X ∑i , j ∈ I F1∪ IF2

∣d i , j , I F1 −d i , j , I F2 ∣p

1p

Les critères de Pratt, de Straster et Gerbrands, et de Peli et Malah nous donnent des mesures de divergence à partir de la somme des erreurs (la distance entre deux cartes de frontières) et le nombre de pixels des frontières.

Le critère de Pratt est défini comme suit :

PRA I F , I Ref =1

MP∑k=1

card I FCont

1

1d 2 I FCont k , I Ref

Cont

où MP=max {card I RefCont , card I F

Cont} , 0 ≤ PRA(IF, Iref) ≤ 1.

Le critère de Straster et Gerbrands est en fait une modification du critère de Pratt :

STR(IF, Iref)= 1

C I F /Ref

∑k=1

C IF /Ref 1

1d 2 I FContk , I Ref

Cont, si C I F / Ref

0

1 , si C I F / Ref=0

où C I F /Ref=card I F

Cont –card I FCont∩ I Ref

Cont

-- 8 --

Page 11: Meilleur Segmentation

TIPE – Évaluation de la segmentation d'images DO Minh Chau

Les deux critères (l'un signifie la moyenne de l'erreur, l'autre signifie la variance de l'erreur de détection) de Peli et Malah sont les suivants :

PEL1 I F , I Ref =1

card I F ∑k=1

card I F

d I FCont k , I Ref

Cont

PEL2 I F , I Ref =1

card I F∑k=1

card I F

d 2 I FCont k , I Ref

Cont

Quatre mesures de divergence (ODIn, ODPn, UDIn, UDPn) sont proposées par C. Odet pour évaluer différents niveaux d'erreur de résultats de segmentation binaires :

ODI n=1No∗∑

k=1

No d ok d TH

n

ODPn=1

No∗∑

k=1

No d ok d TH

n

∗signd ok

UDI n=1

Nu∗∑

k=1

No d uk d TH

n

UDPn=1

Nu∗∑

k=1

No d u k d TH

n

∗sign d uk

No = card I FCont − card I F

Cont∩I RefCont

Nu = card I Refont − card I FCont∩I Ref

Cont

do(k) correspond à la distance entre le pixel I FCont k et le plus proche de I Ref

Cont n'appartenant pas à I F

Cont

du(k) correspond à la distance entre le pixel I RefCont k n'appartenant pas à I F

Cont et le pixel le plus proche de I F

Cont

dTH correspond à la distance de seuil de détection d'un pixel de la frontière

n correspond à un facteur d'échelle

sign(x) correspond à la fonction retournant le signe de x, ce qui permet de savoir si l'on se trouve à gauche ou à droite du contour

Correia et Pereira propose une évaluation spatiale qui coordonne les quatre caractéristiques : la fidélité de forme, la similarité géométrique, la similarité du contenu des frontières et la similarité statistique des données. Chaque caractéristique est donnée un poids :

COR =∗ forme ∗géom ∗ frontière ∗statistic

-- 9 --

Page 12: Meilleur Segmentation

TIPE – Évaluation de la segmentation d'images DO Minh Chau

Il y a d'autres critères d'évaluation de la détection de frontières tels que le critère de Nguyen et Ziou, le critère de Barranco Lopez.

Évaluation de segmentation en régions

Il y a moins de critères d'évaluation d'un résultat de segmentation en régions/classes que ceux de détection de frontières.

Soit Mij la matrice de confusion (avec i = 1, 2, ..., n et j = 1..n, où n est le nombre de classes dans la segmentation idéale). Mii signifie le nombre de pixels bien classés, alors que Mij (i ≠ j) signifie des pixels mal classés.

Yasnoff a proposé, à partir des classes obtenues et des classes dans la segmentation de référence, deux mesures d'erreur en utilisant une matrice de confusion :

ERRYAS1 k =100 x

∑i=1

n

M ik−M kk

∑i=1

n

M ik

ERRYAS2 k =100 x

∑i=1

n

M ki−M kk

∑j=1

n

∑i=1

n

M ij−∑i=1

n

M ik

Ces deux critères rendent compte classe par classe des erreurs de classification, mais les informations spatiales sur les pixels mal classés ne sont pas abordées. Sa troisième version donne un taux d'erreur pour des pixels mal classés qui est proportionnel à la distance entre chaque pixel et le plus proche pixel de la classe à laquelle il aurait dû être affecté. Ce critère ne donne pas une mesure très fiable parce qu'une distance d'erreur peut être donnée par plusieurs configurations :

ERRYAS3 I R , I Ref =

100card I R

x ∑a∈ I R ,a∉Ra

minb∈R a

d a , b

Le critère proposé par Vinet est facile à appliquer mais il ne prend pas en compte toute l'information. D'abord, on doit créer une table de superposition dont chaque cellule représente la correspondance entre une classe du résultat et une classe de la vérité terrain. Puis, on recherche les classes appariées de manière récursive pour trouver un ensemble de cellules sélectionnées. Enfin, le résultat du critère est la soustraction entre le nombre de pixels de l'image originale et ceux qui sont représentés par les cellules sélectionnées. Plus clairement, la table de superposition est définie comme suit :

T I L , I LRef=[ card Li∩L j

Ref ,i=1. . NL , j=1. . NLRef ]où card L i∩L j

Ref est le nombre de pixels étiquetés i dans L en correspondance avec les pixels j dans Lref.

-- 10 --

Page 13: Meilleur Segmentation

TIPE – Évaluation de la segmentation d'images DO Minh Chau

Le critère de Vinet est le suivant :

VIN I L , I LRef=card I −∑

C '

card Li∩L jRef

où C' correspond à l'ensemble des cellules sélectionnées.

Martin a défini deux mesures d'erreur à partir de l'erreur de raffinement local. Il y a d'autres critères dont l'idée principale est similaire.

En ce qui concerne l'évaluation supervisée avec vérité terrain synthétique, le critère de Pratt donne la meilleure performance dans le cas de l'évaluation de résultat de détection de frontières, tandis que le critère de Vinet est le meilleur dans le cas de l'évaluation de résultat de segmentation en classes. L'avantage principal de ces critères est de permettre de comparer plus précisément un résultat de segmentation à une vérité terrain, puisque nous connaissons toute l'information des images synthétiques. L'inconvénient majeur de ces critères est le besoin de beaucoup d'images pour tester afin d'obtenir une évaluation fiable.

3.1.3. Évaluation psychovisuelle

Nous avons trois raisons pour nécessiter l'évaluation psychovisuelle. Premièrement, les images synthétiques ne peuvent pas refléter toute la complexité de la nature. Dans la plupart des cas, les images naturelles sont très complexes. Deuxièmement, même si les algorithmes de segmentation peuvent être testés sur des images synthétiques, l'objectif final est de segmenter des images réelles. Troisièmement, nous ne voulons pas seulement segmenter une image de façon mathématique, mais aussi de façon sémantique. De plus, la machine ne peuvent pas interpréter une image comme ce que nous l'interpréter.

Certaines méthodes d'évaluation psychovisuelle ont été proposées. Une méthode très simple et usuelle est d'évaluer des résultats de segmentation avec un grand nombre de juges. Pour chaque paires d'images, les juges doivent choisir le résultat qu'ils considèrent être meilleur. C'est difficile d'avoir plusieurs juges en même temps à une même place. Cependant, nous pouvons faire un sondage sur l'internet pour avoir un grand nombre de juges.

L'avantage principal des méthodes d'évaluation psychovisuelle est de permettre d'évaluer et de classifier des algorithmes de segmentation lorsque aucune donnée sur des objets à segmenter n'est disponible. Le défaut principal de ces méthodes est l'impossibilité de les automatiser.

3.2. Évaluation non superviséeNous pouvons évaluer la qualité du résultat de segmentation d'une image sans aucune

information. Ce sont les critères d'évaluation non supervisée qui nous permettent de créer un système d'évaluation automatique.

-- 11 --

Page 14: Meilleur Segmentation

TIPE – Évaluation de la segmentation d'images DO Minh Chau

3.2.1. Évaluation de la segmentation en frontières

Il y a peu de critères d'évaluation non supervisée de résultat de détection de frontières. Les critères les plus usuels sont ceux de Levine et Nazif.

LEV5 li=∣C g li−Cd l i∣C g liCd l i

avec Cg l i= ∑Rk∈W g li

card l i∩Rk a Rk

D'abord, il faut classer les frontières d'un résultat de segmentation en frontières en deux types : les frontières séparant deux objets de la scène et les lignes traversant un objet. Puis, nous devons définir une caractéristique ou un attribut (par exemple : le niveau de gris, un calcul d'attribut de texture) dont on calcule la moyenne sur une région. Enfin, nous calculons le contraste de part et d'autre de chaque frontière et le gradient moyen le long de chaque ligne. De plus, Levine et Nazif définissent un indice de connexité des frontières pour mesurer les frontières manquantes selon le nombre de pixels et d'extrémités de chaque ligne.

Trois autres critères de Levine et Nazif :

LEV6 l i=G

maxx∈{ Rk∈W li}

ax − minx∈{ Rk∈W li }

ax

LEV7 I F =∑li∈ I F

wi x hl i

∑li∈ IF

wi

LEV8 I F=∑li∈I F

card l ix t li

2 x∑l i∈ IF

card l i

où h(li) = LEV6 l i si LEV6 li3 x LEV5l i et LEV5l iLEV5li sinon

Tan, Gelfand et Delp a proposé une fonction de coût qui est une somme des coûts locaux de tous les pixels de la carte de frontières. Chaque pixel possède cinq facteurs coût locaux (dissimilarité, courbure, nombre de pixels frontière, fragmentation, minceur). Chaque facteur est donné arbitrairement un poids fixé.

3.2.2. Évaluation de la segmentation en régions/classes

Normalement, nous considérons qu'un bon résultat de segmentation en régions/classes satisfait au moins une des trois conditions : les régions sont uniformes et homogènes, l'intérieur des régions est simple et sans trop de petits trous, les régions adjacentes présentent des valeurs significativement différentes pour les caractéristiques d'uniformité. Le critère proposé par Liu et Yang utilise toutes ces

-- 12 --

Page 15: Meilleur Segmentation

TIPE – Évaluation de la segmentation d'images DO Minh Chau

trois conditions en basant sur le nombre de pixels de l'image originale, le nombre de régions de l'image résultat, le nombre de pixels de chaque région, les sommes des distances euclidiennes entre les vecteurs couleurs des pixels de chaque région et le vecteur couleur attribué correspondant dans l'image segmentée.

Soit ek2 correspond à la somme des distances euclidiennes entre les vecteurs couleur des pixels

de la région Rk et le vecteur attribué à la région Rk dans l'image segmentée :

ek2= ∑

i , j∈Rk

g I i , j − g I Rk 2

g I Rk =∑

i , j∈R k

g I i , j

card R k

La fonction d'évaluation quantitative proposée par Liu et Yang est la suivante :

LIU I R = NR∑k=1

NR ek2

card Rk

Plus la valeur du critère est petite, meilleur est supposé être le résultat de segmentation. Observez que pour n'importe quelle segmentation I dont l'erreur de couleur est zéro pour toutes les régions (c'est à dire qu'il n'y a aucun variance en couleurs dans chaque région), la valeur de LIU(IR) est égale à 0 et par conséquent une segmentation qui considère chaque pixel comme une région réduira au minimum la valeur de LIU. Supposez que nous avons une image complexe dans laquelle tout ne peut pas être zéro, excepté la segmentation dont chaque pixel est une région. LIU a toujours deux forts aspects : les segmentations contenant un grand nombre de régions sont fortement pénalisées par NR , et les segmentations qui ont de grandes régions sont fortement pénalisées à moins que les grandes régions soient très uniformes en couleurs.

Borsotti, Campadelli et Schettini, et puis Hui Zhang, Jason E. Fritts et Sally A. Goldman ont modifié ce critère pour obtenir deux meilleurs critères.

Soit χ card Rk correspond au nombre de région ayant une aire égale à card(Rk).

La valeur d'évaluation de Borsotti pour une région R de l'image originale I est la suivante :

BOR I R=NR

104x card I

∑k=1

NR [ ek2

1log card Rk χ card Rk

card Rk 2]

L'idée principale de Borsotti est de combiner deux composants : le premier pénalise les régions non homogènes (les régions deviennent moins homogènes quand le nombre de régions diminue), alors que le second pénalise les régions dont l'aire est égale à beaucoup d'autres régions (quand le nombre de régions est grand, normalement il y a beaucoup de régions dont l'aire est égale à celles de beaucoup d'autres régions).

-- 13 --

Page 16: Meilleur Segmentation

TIPE – Évaluation de la segmentation d'images DO Minh Chau

Huizhang, Jason E. Fritts et Sally A. Goldman souhaite améliorer le critère de Borsotti. Ils ont proposé de nouvelles entropies pour l'évaluation de résultat de segmentation d'images. Selon eux, une bonne évaluation de segmentation doit maximiser l'uniformité des pixels dans chaque région segmentée et minimiser l'uniformité entre des régions adjacentes. Une entropie, qui est une mesure de désordre d'une région, est donc une caractéristique naturelle pour incorporer dans une méthode d'évaluation.

L'entropie pour une région Rk est définie comme suit :

H R k=−∑m∈V k

Lk mS k

logLk m

S k

où Vk correspond à l'ensemble des valeurs possibles des intensités dans la région Rk, alors que Lk(m) correspond au nombre de pixels dans la région Rk dont l'intensité est égale à m.

L'entropie de région désirée (expected region entropy) de l'image segmentée IR est la suivante :

H r I R=∑k=1

NR card R kcard I R

H Rk

Cette entropie est utilisée comme une mesure pour l'uniformité dans les région de l'image segmentée IR. Si luminance de chaque région est très uniforme, la valeur de Hr(IR) sera petite. Quand tous les pixels dans une région ont la même valeur, l'entropie pour la région est égale à 0. Comme une image sur-segmentée a une très petite entropie de région désirée, il faut combiner cette entropie avec un autre facteur qui pénalise des segmentations ayant un grand nombre de régions. Huizhang a proposé l'entropie de disposition (layout entropy) qui est définie comme suit :

H l I R=−∑k=1

NR card Rk card I R

logcard Rk card I R

Le critère de Huizhang est donc la somme de deux entropies Hr(IR) et Hl(IR) :

HUI I R=H l I RH r I R

Selon Huizhang, cette mesure est meilleur que celle de Borsotti. Elle n'est pas minimisée quand l'image est segmentée comme un pixel pour chaque région car dans ce cas, l'entropie de disposition devient très grande. De plus, cette mesure n'appuie pas des segmentations ayant peu de régions car dans ce cas, l'entropie de région désirée sera très grande. Le critère peut donc balancer ces deux coûts. Cependant, en réalité, ce critère n'est pas encore bien appliqué car il manque deux poids pour deux composants Hl(IR) et Hr(IR).

Certains critères d'uniformité intra-région tels que le critère de Levine et Nazif (la première version), le critère de Sahoo, le critère de Cocquerez et Devars considèrent la variation de niveau de gris de chaque région comme la mesure de qualité. Sur une image faiblement ou non texturé, les régions segmentées doivent être les plus homogènes possibles.

-- 14 --

Page 17: Meilleur Segmentation

TIPE – Évaluation de la segmentation d'images DO Minh Chau

LEV1 I R=1−∑k=1

NR ∑i , j ∈Rk

[ g I i , j − ∑m , n∈Rk

g I m ,n]2

card I x max i , j∈R k

g I i , j − mini , j ∈Rk

g I i , j 2

SAH I R=1 –LEV2 I R

C

où LEV2 I R=∑k=1

NR

∑ i , j∈R k

[ g I i , j− 1card Rk

∑m ,n ∈Rk

g I m , n]2

COC I R=max

k=1

NR

I2Rk

∑k=1

NR

I2Rk

Par contre, un critère de contraste inter-régions tel que le critère de Levine et Nazif (la troisième version) considère le contraste de chaque région et de ses région adjacentes comme la mesure à évaluer.

LEV3 I R=∑k=1

NR

wRkC 2R k

∑k=1

NR

wRk

où C 1 Ra , Rb=∣g I Ra−g I Rb∣gI Rag I Rb

, C 2Ra= ∑Rk∈W Ra

pRa RkC 1 Ra , R k ,

et wR j

= 1

2 ecard R j−

2

2

Il y a des critères qui combinent ces deux catégories de critères tels que le critère de Zéboudj, le critère de Rosenberger. Selon ces critères, un bon résultat de segmentation en régions doit avoir de grandes valeurs de contraste inter-région et d'homogénéité intra-région.

Le contraste entre deux pixels x et y de l'image I est défini comme suit :

c I x , y=∣g I x−g I y∣max

z∈ Ig I z −1

Si l'intensité de x est très différent de celle de y, cI(x, y) est très grand et vise versa.

Le contraste intérieur d'une région Rk de l'image I est défini comme suit :

C Int R k=1

card Rk ∑x∈R k

max { cI x , y , y∈W x∩R k }

-- 15 --

Page 18: Meilleur Segmentation

TIPE – Évaluation de la segmentation d'images DO Minh Chau

où W(x) correspond à l'ensemble des pixels adjacents à x. Le contraste intra-région de la région Rk est petit si CInt(Rk) est petit et vise versa.

Le contraste extérieur d'une région Rk de l'image I est défini comme suit :

C ExtRk=1

card F Rk ∑x∈F Rk

max {C I x , y , y∈W x , y∉R k }

où FRk correspond à la frontière de la région Rk. Normalement, FRk

est grand quand le contraste inter-région de la région Rk est grand.

Le contraste global de la région Rk de l'image originale I est calculé comme suit :

C(Rk)= 1−

C Int R kC ExtR k

si 0C Int R k CExt Rk

C ExtRk si C Int R k =00 sinon

Le contraste global de l'image I est exprimé comme le suivant :

ZEB I R=1

card I ∑k=1

NR

card Rk x C Rk

Selon Zéboudj une région bien segmentée doit avoir un grand contraste inter-région et un petit contraste intra-région. On a une remarque que la valeur du critère de Zéboudj est entre 0 et 1. Plus cette valeur est grande (c'est à dire qu'elle est plus proche de 1), meilleur est supposé être le résultat de segmentation.

En ce qui concerne l'évaluation non supervisée, Sébastien Chabrier a montré le choix de critère pour trois cas. Dans le cas d'une image totalement uniforme, il est préférable d'utiliser le critère de Zéboudj. Dans le cas d'une image mixte ou totalement texturée avec une moyenne des niveaux de gris des classes quelconques, le critère recommandé est le critère de Levine et Nazif (la troisième version). Dans le cas d'une image totalement texturée avec une moyenne de niveaux de gris identique pour chaque classe, il est recommandé d'utiliser le critère de Rosenberger.

Afin d'obtenir un nouveau critère d'évaluation non supervisée, nous pouvons fusionner les résultats d'évaluation de certains critères. Le nouveau critère est donc une combinaison linéaire.

L'avantage principal des critères d'évaluation non supervisée est qu'ils requièrent seulement une métrique de mesure de qualité. Alors, ils sont automatisable et ne nécessitent aucun expert. L'inconvénient majeur de ces critères est l'incertitude sur la fonction de calcul de caractéristiques.

-- 16 --

Page 19: Meilleur Segmentation

TIPE – Évaluation de la segmentation d'images DO Minh Chau

4. AnalyseAfin de tester certains algorithmes d'évaluation et analyser leurs résultats, j'ai utilisé une base

d'images de Wang 5. Cette base contient 1000 images couleurs réparties en 10 classes (africains 000-099, plages 100-199, monuments 200-299, autobus 300-399, dinosaures 400-499, éléphants 500-599, fleurs 600-699, chevaux 700-799, montagnes 800-899, nourriture 900-999) où les numéros indiqués correspondent aux noms des fichiers images correspondants.

Une base d'images de Wang qui contenant 1000 images de 10 classes

5 Bases d'images de Wang

-- 17 --

Page 20: Meilleur Segmentation

TIPE – Évaluation de la segmentation d'images DO Minh Chau

J'ai choisi 3 algorithmes d'évaluation pour mettre en pratique : Zéboudj, Borsotti et Huizhang. En utilisant la bibliothèque TLI-Lib 6, j'ai développé 3 algorithmes de segmentation d'images pour l'analyse : MeanShift, Kmeans et Watershed.

Le modèle de mes tests est comme suit :

Image originale (couleur, JPEG)

Image en niveaux de gris (JPEG)

Résultat de segmentation

(PNG)

Masquage (PNG)

L'image originale est une image couleur de format JPEG. Cette format est compressé et compact. Il y a trois raisons pour sa conversion en niveaux de gris :

Les algorithmes d'évaluation ne marche qu'avec une seule classe de couleur;

Certains algorithmes de segmentation d'images n'accepte que des entrées en niveaux de gris;

Une bonne méthode de segmentation doit donner de bon résultats pour les images en niveaux de gris;

Normalement, il faut faire quelques pré-traitements et post-traitements pour une segmentation. Cela est très important pour notre objectif. Dans mon cas, le pré-traitement est l'application d'un filtre médian pour diminuer le nombre de petites régions ainsi que des bruits, alors que le post-traitement est une application de « merge » qui permet d'assurer que le nombre de régions maximal dans le résultat final n'est pas supérieur à la limite. Le format du résultat de segmentation choisi est PNG qui est compressé sans perte, ce qui permet d'obtenir une évaluation précise. Chaque résultat de segmentation est une image en niveaux de gris qui contient au plus 256 régions. Chaque région possède une étiquette unique entre 0 et 255. Il faut deux images d'entrée pour une évaluation : une image en niveaux de gris et sa segmentation correspondante. Afin de tester et vérifier nous-mêmes le résultat d'évaluation, il faut faire un masquage entre l'image originale et le résultat de segmentation.

6 LTI-Lib (Object oriented library in C++ for image processing and computer vision)

-- 18 --

Évaluation

Pré-traitementSegmentation

Post-traitement

Page 21: Meilleur Segmentation

TIPE – Évaluation de la segmentation d'images DO Minh Chau

L'objectif de mon analyse est d'essayer de :

trouver de bons paramètres, pour un algorithme de segmentation d'images et une image, afin d'obtenir la meilleure possible segmentation

évaluer des critères d'évaluation pour vérifier si ces critères sont plausibles

L'idée est que quand on combine une bonne méthode de segmentation et une ou plusieurs bonnes méthodes d'évaluation, on obtient un nouvel algorithme de segmentation qui est automatique.

Soit on a n paramètres p1, p2, ... pn. Les valeurs par défaut sont p1=p1default, p2=p2default, pn=pndefault.

• Étape 1: La valeur de p1 change, alor que les valeurs de p2, p3, ..., pn sont mises par défaut. Trouver le meilleur p1.

• Étape 2: La valeur de p2 change, p1=p1best, alors que les valeurs de p3, ...pn sont mises par défaut. Trouver le meilleur p2.

• .............

• Étape n: La valeur de pn change,, p1=p1best, p2=p2best, ..., pn-1=p(n-1)best. Trouver le meilleur pn.

On voit facilement que le paramètre d'une étape est meilleur que celui de l'étape précédente. On peut appliquer cette méthode avec plusieurs boucles.

Normalement, la qualité du résultat d'un algorithme de segmentation d'images dépend de ses paramètres. Pour chaque algorithme, j'ai ajouté deux paramètres :

Un paramètre de pré-traitement M pour la fenêtre MxM du filtre médian. L'objectif est de diminuer des bruits ainsi que le nombre de petites régions.

Un paramètre de post-segmentation N qui signifie le nombre de régions maximal dans le résultat de segmentation. Ce paramètre est très important car le résultat de segmentation doit contenir au plus 256 régions. Si le nombre de régions est supérieur à 256, les plus petites régions seront « mergées » aux régions adjacentes.

L'algorithme de « merge » est comme suit :

while (nombre de région > 256){

Trouver la plus petite région Rmin;

Trouver la région adjacente Rbest dont la valeur moyenne est la plus proche de celle de Rmin;

« Merger » Rmin à Rbest;

}

La valeur moyenne d'une région est la valeur moyenne des intensités de tous les pixels dans cette région.

Il y a évidemment beaucoup d'autres façons de « merge ».

-- 19 --

Page 22: Meilleur Segmentation

TIPE – Évaluation de la segmentation d'images DO Minh Chau

Les paramètres de l'algorithme MeanShift sont exprimés dans la table suivante :

MeanShift

Paramètres Descriptions

-M Kernel size for median filter (default: 0)

-R sigmaR: the range radius of the mean shift spheer (default: 5), higher values result in less regions

-S sigmaS: the spatial radius of the mean shift spheer (default: 5), higher values causes longer computational time and smoother region boundary

-d Regions having a color difference less than this parameter are joined together (default: 3). It should be smaller than sigmaR

-N Maximal number of regions - between 1 and 256 (default: 256)

Paramètres de l'algorithme de segmentation MeanShift

Les paramètres de l'algorithme KMeans sont les suivants :

KMeans

Paramètres Descriptions

-k Kernel size (default: 5)

-M Kernel size for median filter (default: 0)

-c Number of colors for the image quantization (default: 16)

-i Maximal number of iterations (default: 50)

-t Threshold delta palette (default: 1.0)

-N Maximal number of regions - between 1 and 256 (default: 256)

Paramètres de l'algorithme de segmentation KMeans

Selon mes tests, les paramètres pouvant fortement influencer le résultat est M, c, N.

-- 20 --

Page 23: Meilleur Segmentation

TIPE – Évaluation de la segmentation d'images DO Minh Chau

Les paramètres de l'algorithme Watershed sont exprimés dans la table suivante :

Watershed

Paramètres Descriptions

-M Kernel size for median filter (default: 0)

-n Neighborhood of a pixel - 0/1 (default: 0)

-t Threshold to eliminate noise in the source image (default: 4)

-b Basin value - between 0 and 255 (default: 0)

-w Watershed value - between 0 and 255 (default: 255)

-N Maximal number of regions - between 1 and 256 (default: 256)

Paramètres de l'algorithme de segmentation Watershed

Les paramètres importants sont M, t, N selon mes tests.

On va maintenant tester l'influence de certains paramètres importants sur le résultat de segmentation en appliquant les critères d'évaluation différents. Pour le faire, je chois 1 image quelconque à partir de chaque classe dans la base d'image de Wang. J'ai enfin 10 images différentes.

● Test 1 : MeanShift avec M = 5; N = 256; S = 10; d = 5; R = 4, 5, 6, 7, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30;

La correspondance entre R et le nombre de régions

-- 21 --

Page 24: Meilleur Segmentation

TIPE – Évaluation de la segmentation d'images DO Minh Chau

On peut voir facilement que le nombre de régions diminue quand R augmente. R est donc un très fort paramètre de MeanShift pour diminuer le nombre de régions dans le résultat de segmentation.

Image originale760.jpg

R=4169 régions

R=891 régions

R=1652 régions

R=2247 régions

R=2832 régions

Évaluation de Borsotti pour différentes valeurs de R de MeanShift

Dans le graphique ci-dessus, on peut trouver la plus petite valeur pour chaque courbe.

Image 052.jpg 192.jpg 252.jpg 381.jpg 466.jpg 510.jpg 673.jpg 760.jpg 834.jpg 961.jpg

R(meilleur)

4 20 26 16 18 24 12 22 8 8

Borsotti 2.39979 0.772784 1.55173 2.4508 0.643682 1.46966 0.397301 0.717349 1.39733 0.934296

Les plus belles courbes sont celles des images 381.jpg, 673.jpg, 961.jpg. Ce sont des courbes dont la plus petite valeur est très différente des autres. Pour ces images, le critère de Borsotti donne de bonnes évaluations. On voit maintenant le cas de l'image 381.jpg. Il nous semble que l'image

-- 22 --

Page 25: Meilleur Segmentation

TIPE – Évaluation de la segmentation d'images DO Minh Chau

segmentée correspondante à R=16 est la meilleure, car les objets principaux sont bien segmentés et le nombre de régions est petit. Plus précisément, le résultat avec R=16 est meilleure que celles avec R=18, R=24 selon nos yeux et meilleure également que celles de R=8, R=12 car son nombre de régions est plus petit et il n'y a pas de grande différence entre elles.

Image originale381.jpg

R=8 R=12 R=16 R=18 R=24

Dans les cas des courbes dont la plus petite valeur n'est pas très différente des autres, il y a une incertitude dans le résultat d'évaluation de Borsotti. On voit maintenant le cas de l'image 252.jpg.

Image originale252.jpg

R=8 R=14 R=20 R=26 R=30

Selon Borsotti, la meilleure valeur de R est R=26. Cependant, en regardant les différents résultats, cette évaluation n'est pas vraiment bonne. Dans l'image segmentée avec R=26, le palais disparaît. Le résultat avec R=8 est peut-être meilleur que celui avec R=26. En plus, le résultat avec R=30 peut-être considéré meilleur que celui avec R=26 car il contient moins de régions.

Les résultats du critère de Huizhang sont bizarres :

Évaluation de Huizhang pour différentes valeurs de R de MeanShift

-- 23 --

Page 26: Meilleur Segmentation

TIPE – Évaluation de la segmentation d'images DO Minh Chau

À partir du graphique ci-dessus, on voit que plus la valeur de R est grande, meilleur est le résultat de segmentation. Cependant, ce n'est pas vrai.

L'objectif de Huizhang est d'améliorer le critère de Borsotti. Son critère contient deux parties importantes :

• L'entropie de région désirée qui est une mesure pour l'uniformité dans les région de l'image segmentée

• L'entropie de disposition qui pénalise des segmentations ayant un grand nombre de régions

Le critère de Huizhang est en fait la somme de ces deux entropies.

Pour mieux comprendre l'influence de chaque partie, je les sépare et obtenir les deux graphiques suivants :

L'entropie de région désirée Hr L'entropie de disposition Hl

On voit que plus la valeur du R est grande, plus grande est la valeur de Hr et plus petite est la valeur de Hl. Cependant, la vitesse de diminution de Hl est plus grande que la vitesse d'augmentation de Hr. C'est pourquoi l'influence de Hr est moins que celle de Hl. Dans son article de Huizhang concernant ces entropies, il a déjà abordé des paramètres pour les deux parties Hr et Hl mais aucune idée a été citée pour trouver de bons paramètres. J'essaie de trouver deux nombre a et b pour modifier le critère de Huizhang. J'ai donc avoir un nouveau critère :

Nouveau Huizhang = a∗H r b∗H l

Avec a = 3, b = 1 et a = 11, b = 4 on a de meilleures courbes. C'est à dire qu'on peut trouver des valeurs minimales pour certaines courbes.

-- 24 --

Page 27: Meilleur Segmentation

TIPE – Évaluation de la segmentation d'images DO Minh Chau

Nouveau Huizhang avec a = 3, b = 1 Nouveau Huizhang avec a = 11, b = 4

Cependant, on ne peut pas dire beaucoup à partir de ces courbes. C'est seulement une de mes idées et il faut du temps pour l'étudier. Il faut trouver de bonnes valeurs pour a et b pour bien modifier le critère de Huizhang car selon mon test, ce critère n'est pas encore fiable.

On teste maintenant le critère de Zéboudj.

Évaluation de Zéboudj pour différentes valeurs de R de MeanShift

Pour le critère de Zéboudj, plus la valeur du critère est proche de 1, meilleur est supposé être le résultat de segmentation.

-- 25 --

Page 28: Meilleur Segmentation

TIPE – Évaluation de la segmentation d'images DO Minh Chau

Image 052.jpg 192.jpg 252.jpg 381.jpg 466.jpg 510.jpg 673.jpg 760.jpg 834.jpg 961.jpg

Rmeilleur

18 12 24 8 14 14 24 14 30 28

Zéboudj 0.25869 0.73367 0.602032 0.49106 0.861515 0.521255 0.655863 0.404121 0.795789 0.682279

Selon le graphique ci-dessus, on voit que la plus part des courbes ne peuvent pas bien expliquer la meilleure valeur R pour chaque image. La courbe de l'image 760.jpg est peut-être la plus belle, c'est à dire qu'on peut voir facilement la meilleure valeur.

Image originale760.jpg

R=6 R=10 R=14 R=18 R=24

Pour l'image 760.jpg, le critère de Zéboudj a raison. En comparant les images ci-dessus, on peut voir facilement que le résultat de segmentation avec R=14 est meilleur que ceux avec R=10, R=18, R=24. On peut considérer qu'il est également meilleur que celui avec R=6 car les objets principaux de l'image originale sont bien segmentés et son nombre de région est plus petit que celui de R=6.

On peut maintenant regarder les courbes de Borsotti et il est très intéressant que le critère de Borsotti donne une bonne valeur pour R=14. Le critère de Borsotti considère R=22 est le meilleur paramètre, mais pour Zéboudj c'est un mauvais paramètre.

Est-ce que le critère de Zéboudj est meilleur que celui de Borsotti ? La réponse est non car cela dépend de chaque cas. Par exemple, pour l'image 673.jpg, le critère de Zéboudj considère R=24 est le meilleur paramètre, mais pour Borsotti c'est R=12 qui est le meilleur. Si on regarde la valeur d'évaluation de Zéboudj pour R=12, on voit que c'est aussi une bonne valeur.

J'ai une idée qu'une segmentation est bonne si les critères d'évaluation (Borsotti et Zéboudj) donnent de bonnes valeurs à la fois.

-- 26 --

Page 29: Meilleur Segmentation

TIPE – Évaluation de la segmentation d'images DO Minh Chau

● Test 2 : KMeans avec M = 5; N = 256; c = 4, 5, 6, 7, 8, 9, 10, 11, 12, 14, 16, 18, 20, 22, 24;

La correspondance entre c et le nombre de régions

On voit que quand c augmente, le nombre de régions augmente. Comme le nombre de régions maximal est 256, si c est assez grand, le nombre de région dans le résultat de segmentation est de 256.

Pour ce cas, tous les trois critères d'évaluation donnent les résultats presque pareils.

Évaluation de Borsotti pour différentes valeurs de c de KMeans

Borsotti considère que c=4 est le meilleur paramètre dans presque tous les cas de 10 images de test.

-- 27 --

Page 30: Meilleur Segmentation

TIPE – Évaluation de la segmentation d'images DO Minh Chau

Évaluation de Huizhang pour différentes valeurs de c de KMeans

Huizhang considère aussi que c=4 est le meilleur paramètre dans presque tous les cas de 10 images.

Zéboudj considère c=4 est le meilleur paramètre dans presque tous les cas de 10 images.

Évaluation de Zéboudj pour différentes valeurs de c de KMeans

-- 28 --

Page 31: Meilleur Segmentation

TIPE – Évaluation de la segmentation d'images DO Minh Chau

Regardez les images ci-dessous :

Image originale673.jpg

c=4 c=6 c=12 c=16 c=24

Selon nos yeux, c=4 est peut-être le meilleur paramètre car les objets principaux sont bien segmentés et le nombre de région est petit.

Un autre problème se pose : Peut-on utiliser un même paramètre pour toutes les images d'une classe et obtenir de bons résultats ? Pour le répondre, je teste 30 images de la classe 1, de 110.jpg à 139.jpg. L'algorithme de segmentation est MeanShift et R est le paramètre qui est varié. En obtenant les meilleurs R, j'ai une courbe Gaussienne suivante

Courbe Gaussienne pour 30 images de la classe 1Distribution de R avec μ = 12.6, σ² = 9.64

À partir de cette courbe, on voit que la variance des bons paramètres est grande. Afin d'obtenir de bons résultats de segmentation, on ne peut pas utiliser un même paramètre R pour toutes les images d'une classe.

-- 29 --

Page 32: Meilleur Segmentation

TIPE – Évaluation de la segmentation d'images DO Minh Chau

5. Conclusion et perspectivesDans ce rapport, un aperçu des critères d'évaluation de résultat de segmentation est présenté.

Nous pouvons évaluer un résultat de segmentation de façon supervisée, non supervisée ou psychovisuelle. Les avantages et les inconvénients principaux des critères sont également présentés. Même si aucun critère proposé n'est parfait, nous avons certaines approches d'évaluation pour choisir. De plus, nous pouvons obtenir de nouveaux critères à partir des critères de base.

Les critères d'évaluation supervisée sont vraiment intéressants mais ils ont certains problèmes pour mettre en pratique car nous devons les tester sur un très grand nombre d'images. De plus, plusieurs personnes les ont utilisés et développé depuis longtemps.

Les critères d'évaluation différents ne peuvent pas donner un même résultat pour une image car les idées de différents critères sont différentes. C'est pourquoi il est très difficile de trouver un vraiment bon algorithme d'évaluation automatique. Mon idée est d'appliquer plusieurs méthodes d'évaluation à la fois. Normalement, une segmentation est bonne si plusieurs critères le considèrent être bonne. Une autre remarque est que pour une classe d'images (images de même type), les bons paramètres de segmentation sont peut-être très variés.

Le programme de mon TIPE a été écrit en C++ en utilisant la bibliothèque LTI-Lib.

Ce travail est encore ouvert car sa complexité est grande.

-- 30 --

Page 33: Meilleur Segmentation

TIPE – Évaluation de la segmentation d'images DO Minh Chau

Bibliographie

[1] Sébastien Chabrier. Contribution à l'évaluation de performances en segmentation d'images. Thèse présentée à l'université d'Orléans pour obtenir le grade de docteur de l'université d'Orléans, 2005. PDF

[2] Alain Boucher. Une approche décentralisée et adaptative de la gestion d'informations en vision - Application à l'interprétation d'images de cellules en mouvement. Thèse pour obtenir le grade de docteur de l'université Joseph Fourier : pages 158-165, 1999.

PDF

[3] Muñoz Pujol, Xavier. Image segmentation integrating colour, texture and boundary information. Chapter 5: Experimental Results, pages 131-166, 2003.

PDF

[4] Yu-Jin ZHANG. The Evolution of Evaluation for Image Segmentation. SCATI - Journée évaluation des traitements dans un système de vision, 2005.

PDF

[5] Hui Zhang, Jason E. Fritts and Sally A. Goldman. An Entropy-based Objective Evaluation Method for Image Segmentation. SPIE Electronic Imaging - Storage and Retrieval Methods and Applications for Multimedia 2004, pp. 38-49, Jan. 2004.

PDF

[6] Yitzhak Yitzhaky, Member, IEEE, and Eli Peli. A Method for Objective Edge Detection Evaluation and Detector Parameter Selection. IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL. 25, NO. 8, pages 1027-1033, August 2003.

PDF

[7] Hui Zhang, Sharath Cholleti, Sally A. Goldman, Jason E. Fritts. Meta-Evaluation of Image Segmentation Using Machine Learning, 2005.

PDF

[8] David Royal Martin – Doctor of Philosophy in Computer Science, University of California, Berkeley. An Empirical Approach to Grouping and Segmentation. Chapter 3: Segmentation Consistency Measures, pages 37-60, 2002.

PDF

-- 31 --

Page 34: Meilleur Segmentation

TIPE – Évaluation de la segmentation d'images DO Minh Chau

[9] Xiaoyi Jiang, CyrilMarti, Christophe Irniger, and Horst Bunke. Distance Measures for Image Segmentation Evaluation. Hindawi Publishing Corporation, EURASIP Journal on Applied Signal Processing, Pages 1–10, Article ID 35909, Volume 2006.

PDF

[10] Alain Boucher. Traitement d'images – Segmentation en régions, Approche Gestalt.

[11] Wikipedia – The free Encyclopedia. Gestalt psychology.

[12] Mark Everingham, Henk Muller, and Barry Thomas. Algorithm Evaluation by Probabilistic Fitness/Cost Analysis, and Application to Image Segmentation.

PDF

[13] J. Da Rugna, H. Konik (Université Jean Monnet - Laboratoire LIGIV EA 3070). Étude comparative de méthodes de segmentation dans une approche orientée indexation (Comparison of different segmentation algorithms for indexation oriented approach), 2002.

PDF

[14] Hugues Benoit-Cattin, Tarik Zouagui, Christophe Odet. Une vision fonctionnelle de la segmentation d'images.

PDF

[15] Henryk Palus and Tomasz Kotyczka. Evaluation of Colour Image Segmentation Results

PDF

[16] Michael Wirth, Matteo Fraschini, Martin Masek, Michel Bruynooghe. Performance Evaluation in Image Processing. Hindawi Publishing Corporation, EURASIP Journal on Appled Signal Processing, Pages 1–3, Article ID 45742, Volume 2006.

PDF

[17] Laboratoire Vision & Robotique (LVR), Université d'Orléans. Base d'images & programmes pour l'évaluation de traitements d'image.

Site web

-- 32 --

Page 35: Meilleur Segmentation

TIPE – Évaluation de la segmentation d'images DO Minh Chau

[18] Berkeley Segmentation Dataset: Images

Site web

[19] LTI-Lib: Object oriented library in C++ for image processing and computer vision

Site web

-- 33 --

Page 36: Meilleur Segmentation

This document was created with OpenOffice.org 2.1