La Classification Markovienne

République Algérienne démocratique et populaire

Ministère De L’enseignement Supérieur Et De La Recherche Scientifique

Université De Laghouat École Doctorale STIC

Option : IRM

MODULE : DATA MINING

INTITULÉINTITULÉINTITULÉINTITULÉ ::::

LLLLa Classification Markoviennea Classification Markoviennea Classification Markoviennea Classification Markovienne

Réalisé Par :

CHAIRA Mahmoud

Année Universitaire 2010 Année Universitaire 2010 Année Universitaire 2010 Année Universitaire 2010 –––– 2011201120112011

Proposé Par :

Dr MOUSSAOUI Abdel

Table des matières

I. INTRODUCTION .................................................................................................................................................... 1

I. La classification non-supervisée ........................................................................................................................... 1

II. La classification supervisée ................................................................................................................................. 1

III. La classification semi-supervisée ....................................................................................................................... 2

IV. THEORIE DES CHAINES DE MARKOV .................................................................................................................. 2

IV.1. Chaîne Observable ...................................................................................................................................... 2

IV.2. Chaîne Cachée............................................................................................................................................. 3

IV.3. Modèle de Markov Caché ........................................................................................................................... 4

IV.3.1. Définition : ........................................................................................................................................... 4

IV.3.2. Les 3 problèmes fondamentaux des HMM : ........................................................................................ 5

IV.3.3. CHAMP D’APPLICATION : ..................................................................................................................... 5

V. Conclusions ....................................................................................................................................................... 20

Référence .............................................................................................................................................................. 21

Autre Référence .................................................................................................................................................... 21

Table des figures

Figure 1: Graphe d'un Modèle de Markov Observable ........................................................................................... 2

Figure 2: Graphe d'un Modèle de Markov Caché ................................................................................................... 3

Figure 3: Modélisation HMM de l'exemple ............................................................................................................ 5

Figure 4: Organigramme de la méthode de classification de séquence par HMMs ................................................ 6

Figure 5: l’intégration entre la classification de texte et le modèle de Markov caché ............................................ 7

Figure 6: Reconnaissance du thème d’un document ............................................................................................... 9

Figure 7: Les cliques associées à deux systèmes de voisinage en dimension 2 .................................................... 10

Figure 8 : Le modèle d’Ising ................................................................................................................................. 14

Figure 9 : Le modèle de Potts 2D et 4-connexes pour différentes valeurs de b (m = 4). ...................................... 16

Figure 10: Exemple de classification markovienne sur une image satellitaire optique. ....................................... 19

La classification markovienne

1

I. INTRODUCTION

La modélisation stochastique permet l’utilisation des modèles probabilistes pour traiter les problèmes à

information incertaine ou incomplète. Ainsi, les modèles de Markov connaissent un regain d’intérêt

tant dans leurs aspects théoriques qu’appliqués. La théorie des chaînes de Markov est née en 1913, une

première application a été développée par Markov pour analyser le langage. Ces travaux ont été

utilisés régulièrement mais les premières applications exploitables furent réalisées dans le années 60,

telles que les modèles probabilistes d’urnes par Neuwirtch, le calcul direct du maximum de

vraisemblance ou l’observation de la suite d’états dans une chaîne de Markov.

Ceci a permis à la communauté scientifique d’exploiter pleinement le potentiel de ces modèles. C’est

dans les années 70 que des chercheurs ont apporté des algorithmes puissants permettant de résoudre les

problèmes de reconnaissance, d’analyse et d’apprentissage.

Depuis 1975, les HMM sont utilisés dans de nombreuses applications, principalement dans le domaine

de la parole. Ces applications ne se contentent pas de s’appuyer sur la théorie des Modèles de Markov

Cachés, mais développent plusieurs extensions théoriques dans le but d’améliorer les modèles. C’est

ce qui en a fait leur succès.

I. La classification non-supervisée

La classification non-supervisée a pour but de trouver une structure intéressante dans les données à

partir d’un échantillon X = (x1, . . ., xn). Cette méthode, comme de nombreuses autres, repose en

grande partie sur les choix de l’expérimentateur ; variables prises en compte, choix de la métrique, . . .

Le développement récent de l’informatique a rendu possible la mise en œuvre d’algorithmes de

classification sur de grands échantillons très multi-variés. Le résultat de la classification est soit une

partition soit une hiérarchie [Gordon, 1981]. Il existe deux grands types d’approche :

– Les méthodes géométriques à base de distances : Classification hiérarchique, méthode des centres

mobiles

– Les méthodes probabilistes : Modèles de mélange

II. La classification supervisée

Dans le cas de la classification supervisée, on connaît les individus et leur groupe d’appartenance.

L’objectif est d’établir une règle de classification à partir de ces données afin de pouvoir classer de

nouvelles données de groupe inconnu.


2

III. La classification semi-supervisée

Avant l’apparition de la classification semi-supervisée, les classifications non-supervisée et supervisée

faisaient figure de deux méthodes disjointes. L’une cherche à établir une structure de groupe à partir de

l’observation d’un ensemble de points non-étiquetés, l’autre vise à établir la meilleure séparation

possible entre les différents groupes observés. La classification semi-supervisée utilise les données

étiquetées et non-étiquetées pour établir la règle de classification. Elle permet ainsi de faire le lien

entre les classifications supervisée et non-supervisée.

IV. THEORIE DES CHAINES DE MARKOV

Un processus stochastique est un phénomène où intervient le hasard, nous définissons X (t) une

variable aléatoire évoluant en fonction du temps.

Exemple : une suite de lancers de dés 1, 6, 2, 5 d’où X0 = 1, X1 = 6, X2 =2, X3 = 5

Ce processus est dit markovien si son évolution ne dépend pas de son passé, mais uniquement de son

état présent. (Ceci est appelé la propriété de Markov.).

Un processus markovien peut être modélisé par un modèle théorique dit « Modèle de Markov ».

Il existe 2 types de Modèle : Observable et Caché.

Cette première partie s’appuie sur le tutorial de Rabiner [RAB89], complété par les travaux de Foata

[FOA 02] et de Benaïm et Karoui [BKN 04].

IV.1. Chaîne Observable

L’évolution du processus de Markov peut être représentée par un graphe de transitions d’états (Figure

1) qui fait apparaître la structure du processus selon les règles suivantes:

Figure 1: Graphe d'un Modèle de Markov Observable


3

• Les états sont représentés par des sommets. (Etat n)

On parle d’alphabet des états : S= s1, s2,…, sn, les états de la chaîne de Markov

• Les transitions (possibilité de passer d’un état à un autre) sont représentées par des arêtes, elles

sont pondérées par leur probabilité. (Flèche)

Les probabilités sont regroupées dans une matrice de transition: A = aij = P(Sj|Si);

∑ aij = 1Nj=1

• Les probabilités de départ : ce sont les probabilités de débuter dans un état ou un autre (point 0)

Elles sont regroupées dans un vecteur d’initialisation :

Π = πi = P(si)

On notera ∑ πi = 1

Un modèle λ est dit observable car les états sont directement observables, il est caractérisé par une

matrice de transition A et un vecteur d’initialisation π, on note :

λ = Π, A

IV.2. Chaîne Cachée

Dans un Modèle de Markov Caché les états S = s1, s2,..., sm sont non observables cependant ils

émettent des signaux observables O = (o1, o2, ..., ok) qui sont pondérés par leur probabilité. Le modèle

λ peut être représenté graphiquement (Figure 2), avec :

Figure 2: Graphe d'un Modèle de Markov Caché

• Les états S = s1, s2,…, sn

• La matrice de transitions A = aij = P (Sj|Si) ; ∑ aij = 1Nj=1

• Le vecteur d’initialisation Π = πi = P(si) ; ∑ πi = 1Ni=1

• Les probabilités que l’état si émettent le signal d’observation ok (Flèche brisée)


4

Elles sont regroupées dans une matrice d’émission B= bi (ok) = P(ok|si) ∑ biTj=1 oj=1;

Les représentations mathématiques seront utilisées tout au long de ce document. Nous utiliserons

ainsi :

• N : le nombre d’états = ∑ ;

• T : le nombre d’observations possibles = ∑ , si T est défini et dénombrable on parle aussi

d’alphabet ;

• qt : l’état du système au temps t ;

• M : taille de la séquence observée ;

Un Modèle de Markov Caché λ est caractérisé par une matrice de transition A, une matrice

d’observation B et un vecteur d’initialisati1on, on note : λ = Π, A, B

IV.3. Modèle de Markov Caché

Un modèle de Markov Caché ou HMM (pour Hidden Model Markov) est un processus doublement

stochastique dont une composante est une chaîne de Markov non observable. Ce processus peut être

observé à travers un autre ensemble de processus qui produit une suite d’observations.

Plus simplement, c’est un modèle qui décrit les états d’un processus markovien à l’aide des

probabilités de transition et des probabilités d’observation par états.

Les HMM sont utilisés dans de nombreux domaines tels que la reconnaissance et la synthèse de la

parole, la biologie, l'ordonnancement, l'indexation de documents, la reconnaissance d'images, la

prédiction de séries temporelles, ...

IV.3.1. Définition :

Lors de la création d’un HMM il existe 3 problèmes à résoudre : la reconnaissance, l’analyse et

l’apprentissage. Afin de bien les appréhender, voici un exemple, il permettra de voir l’application des

solutions préconisées.

L’exemple a pour objectif de définir à quelle saison nous sommes. Posons :

• Les 4 saisons (Printemps, Eté, Automne, Hiver), comme étant les états de notre modèle.

L’état ‘saison’ n’est pas directement observable mais il émet des observations le temps de la journée. Il

est défini par Nuage, Pluie, Soleil.

1 Remarque : Un Modèle de Markov Observable peut être modélisé sous la forme d’un Modèle de Markov Caché où les

états correspondent aux événements observés. C'est-à-dire que chaque état si a une probabilité ‘1‘ d’émettre l’observation bi.


5

• Une chaîne d’observations le temps de la semaine. Dans les exemples cette chaîne est réduite à

3 jours pour limiter le nombre de calcul (Soleil, Soleil, Nuage) ou (S, S, N).

Le Modèle de Markov nous permettra de définir quelle est la chaîne de Markov qui a le plus de

probabilité d’avoir généré la séquence observée, par exemple Eté, Eté, Printemps (E, E, P)

La représentation graphique de ce modèle : (voir Figure 3).

Figure 3: Modélisation HMM de l'exemple

IV.3.2. Les 3 problèmes fondamentaux des HMM :

Voici la liste de ces problèmes, il est nécessaire de les résoudre afin de pouvoir utiliser les HMM lors

de la modélisation d’un processus réel.

• Problème 1 : Reconnaissance Etant donnés un HMM λ = Π, A, B et une séquence observée

O = o1, o2,…, onquelle est la vraisemblance P(Ο |λ ) que le modèle λ génère O ?

• Problème 2 : Analyse Etant donnés un HMM λ et une séquence observée O, quelle est la

séquence des états qui a la probabilité maximale d’avoir généré O ?

• Problème 3 : Apprentissage A partir d’une chaîne d’observations O = o1, o2, ..., on; comment

ajuster les paramètres du HMM λ = π, A, B pour maximiser la vraisemblance de l’ensemble

d’apprentissage P(O|λ ) ?

IV.3.3. CHAMP D’APPLICATION :

Les Modèles de Markov Cachés ont prouvé dans de nombreux domaines qu’ils étaient de puissants

outils. Cette liste n’est pas exhaustive :


6

• Reconnaissance automatique de la parole

• Reconnaissance de l’écriture

• Modélisation des langages

• Traitement d’images statiques et dynamiques

• Reconnaissance de forme

• Théorie de codage

• Traitement du signal

• Modélisation des finances

• Contrôle biologique

• Bio statique

• Télécommunication

• Analyse de séquences biologiques

• Modélisation de signaux acoustiques

• Robotique

IV.3.3.1. Utilisation pour la classification de séquences

Les bases des modèles de Markov cachés étant posées, nous allons maintenant pouvoir les utiliser pour la

reconnaissance de séquences, ou plus exactement la classification de séquences. Le principe est le suivant :

On veut classifier des séquences en un nombre nc de catégories. Pour cela, on crée nc HMMs et on entraîne

chacun d’entre eux avec un ensemble de séquences d’apprentissage représentatif d’une classe donnée (voir

Figure 4). On obtient donc nc HMMs spécialisés qu’on appellera (Hi)i=1..nc. Soit

la séquence inconnue

que l’on souhaite classifier. Elle sera placée dans la catégorie k telle que P (|Hk) est maximale, c’est à dire

que c’est Hk qui a la plus grande probabilité d’émettre

et qui est donc le modèle le plus proche au sens du

maximum de vraisemblance. Le calcul de la probabilité d’émission de la séquence O par les différents modèles

est effectué à l’aide de l’algorithme Forward-Backward.

Observed

data

Symbole

sequences O

HMM λ1

HMM λi

HMM λI

P(O| λ1)

P(O| λi)

P(O| λI)

Compare,

recognize

Figure 4: Organigramme de la méthode de classification de séquence par HMMs


7

Dans le cas où l’on ne souhaite pas créer la structure du modèle par apprentissage, il faut soit décider

du nombre d’états d’après des connaissances a priori, soit essayer la méthode de reconnaissance avec

plusieurs structure puis choisir celle qui convient le mieux.

IV.3.3.2. Classification de texte et modèle de Markov caché

IV.3.3.2.1. Définition

Selon [Rakesh Dugad], un modèle de Markov caché est défini formellement suivant : λ = (A, B, π)

Pour : S = (S1,…,SN) un ensemble de l’état possible

V = (V1, …, VM) un ensemble de symboles d’observation

A = aij aij = P(Sj| Si) la probabilité de la transition Si Sj

B = bj(k) b j(k) = P(Vk|Sj) la probabilité d’observer le symbole Vk en étant dans l’état Sj

π = (πi) la probabilité d’être dans l’état Si au début.

IV.3.3.2.2. la classification de texte par le modèle de Markov caché

Selon Kushmerick [Kshmrk] on peut considérer le processus d’extraction d’information sur la carte de

visite comme la classification de texte. Le texte reconnu par l’OCR2 se divisé en plusieurs lignes qui

contient les données valables. Dans ce cas là, on va classer ces linges en certaines catégories telles

que : le nom, le titre, l’adresse, le courriel, le numéro de téléphone etc. Mais il faut mettre en compte la

contraint structurale de la carte de visite. Par exemple, le titre souvent se trouve juste après le nom.

Pour réaliser cela, Kushmerick [Kshmrk] a proposé une approche qui applique la classification de texte

et le modèle de Markov caché à la fois.

Figure 5: l’intégration entre la classification de texte et le modèle de Markov caché

On peut exprimer formellement cette approche comme suit: Soit l1, l2 …lN sont les lignes de texte

reconnu par l’OCR. N est le nombre de ligne. Soit f1, f2 ….fN sont les catégories (le nom, le titre,

l’adresse, le courriel, le numéro de téléphone etc). Pour appliquer le modèle de Markov caché, on va 2 OCR: La reconnaissance optique de caractères


8

considérer fi comme l’état et li comme le symbole d’observation (voir figure 5). En conséquence, le

problème de déterminer quelle ligne li appartient à quelle catégorie fi devient le problème de trouver

une chaine de fi qui maximise la probabilité :

π (f1) Πi P (fi| li) P (fi+1|fi) (1)

Pour : π (f1) la probabilité que f1 est dans la première situation qui peut être calculé par un ensemble

d’exemple. P (fi| li) la probabilité que li appartient à fi qui peut être estimé par l’algorithme de

classification de texte : Naïve Bayes P (fi+1|fi) la probabilité de la transition d’état ou la probabilité

que fi+1 est après fi. Cela peut être calculé par un ensemble d’exemple. Le problème de trouver une

chaine de fi qui maximise (1) se résout à l'aide de l'algorithme de Viterbi [Vitebri]. C’est un algorithme

standard à résoudre les problèmes de modèle de Markov caché. Par exemple, soit tous les paramètres

du modèle, soit la chaine de symboles d’observation, trouver la chaine d’état qui a la probabilité

maximale.

IV.3.3.3. HMM appliqué à la recherche d’information

Différents travaux concernant la Recherche d’Information (RI) ont déjà été développés. Il est

nécessaire de différencier les travaux concernant la tâche de recherche documentaire de ceux

concernant la tâche de classification. En effet, ils reposent sur deux notions très différentes.

Afin de clarifier ce problème et d’éliminer toute ambiguïté, voici en quoi consistent ces deux tâches :

• La classification est utilisée dans plusieurs tâches de RI. Elle consiste à attribuer à chaque

document une classe, parmi un ensemble de classes connues à l’avance (e.g. économie, science

ou littérature). Il s’agit d’une tâche de discrimination entre plusieurs classes.

• La recherche documentaire (ad-hoc retrieval) a pour but de trouver, parmi un ensemble de

documents, celui ou ceux qui répondent le mieux à une requête exprimée en langage naturel.

Classification de document

D’après les travaux de L.Serradura, M.Slimane, N.Vincent, C.Proust [SSV 02]. Prenons l’exemple

d’une encyclopédie classée par thèmes, on définit :

• Les différents thèmes (astronomie, histoire, économie,…) ;

• un corpus de documents associés à chacun des thèmes ;

• un dictionnaire contenant les mots significatifs des différents thèmes. Celui-ci pourrait être

déduit du corpus de document.


9

Dans le cadre des HMM, la classification de document se fait en 3 étapes :

Etape1 : Construction des modèles (HMM) individuels pour chaque thème ;

Cette étape est réalisée en utilisant la solution du problème 3 (Apprentissage : Baum-Welch) pour

estimer d’une façon optimale, les paramètres du modèle de chaque thème.

Etape 2 : Elle permet de développer une connaissance du sens physique des états du modèle. La

solution du problème 2 (Analyse : Viterbi) est utilisée pour segmenter chacun des documents

d’apprentissage en état. Pour des questions de performances, seuls les mots significatifs du domaine

sont traités.

Etape 3 : Une fois les n modèles HMM construits et optimisés, la reconnaissance d’un document

inconnu est effectuée en utilisant la solution du problème 1 (Reconnaissance : Forward) pour évaluer

le modèle de chaque thème et sélectionner ainsi celui qui a généré le meilleur score.

Figure 6: Reconnaissance du thème d’un document

En pratique les HMM sont de type ergodique, l’ordonnancement des mots n’est pas pris en compte.

Les différents états correspondent aux mots significatifs du thème modélisé.

IV.3.3.4. Le contexte spatial dans la classification : utilisation des champs de Markov

Dans cette partie, nous introduisons tout d'abord de façon intuitive la notion d'énergie locale avant de

définir plus formellement un champ de Markov et d'énoncer le théorème d'équivalence entre champs

de Markov et champs de Gibbs. L'utilisation des champs markoviens dans la classification est ensuite

décrite.


10

IV.3.3.4.1. Un Modèle markovien général d’images

IV.3.3.4.1.1. Description de l'image

L’image est représentée comme une grille rectangulaire finie bidimensionnelle de taille m x n = N

contenant un ensemble de sites S = si avec 1 < i < N appelés pixels. Á chaque site est associé un

descripteur, représentant l’état du site et pouvant être un scalaire (niveau de gris, label (ou étiquette))

ou encore un vecteur (spectre), et prenant ses valeurs dans l’espace des états E.

La notion d'interactions locales nécessite de structurer les relations spatiales entre les différents sites du

réseau. Pour ce faire, on munit S d'un système de voisinage ϑ est défini de la façon suivante:

(1)

A un système de voisinage donné correspond un ensemble de cliques, une clique étant un ensemble de

points du treillis mutuellement voisins, l’ordre d’une clique étant le nombre de sites qui la compose

(on s’intéresse en général aux cliques d’ordre 2). En fonction du système de voisinage utilisé, le

système de cliques sera différent et fera intervenir plus ou moins de sites comme illustré sur la Figure 7

On notera C l'ensemble des cliques relatif à ϑ, et Ck l'ensemble des cliques de cardinal k.

Figure 7: Les cliques associées à deux systèmes de voisinage en dimension 2

Les interactions locales entre niveaux de gris (ou descripteurs) de sites voisins peuvent alors s'exprimer

comme un potentiel de clique. Soit c une clique, on lui associe le potentiel Uc dont la valeur dépend


11

des niveaux de gris des pixels constituant la clique. En poursuivant ce raisonnement, on peut définir

l'énergie globale de l'image comme la somme des potentiels de toutes les cliques:

U = ∑ ∈ (2)

Et l'énergie locale en un site comme la somme des potentiels de toutes les cliques auxquelles il

appartient:

Us = ∑ .∈/∈ (3)

IV.3.3.4.1.2. Modélisation Markovienne de l'image

Dans la modélisation Markovienne, l'image est considérée comme une réalisation x d'un champ

aléatoire. Soit s un site de l'image, on peut en effet lui associer une variable aléatoire (v.a) Xs prenant

ses valeurs dans E. Le niveau de gris xs en s est donc une réalisation de la v.a Xs. On définit alors le

champ aléatoire X= (Xs, Xt,…) prenant ses valeurs dans Ω = E|S|.

La probabilité globale de x, P(X=x), permet d'accéder en quelque sorte à la vraisemblance de l'image et

les probabilités conditionnelles locales d'une valeur en un site permettent de mesurer le lien statistique

entre un niveau de gris et le reste de l'image.

IV.3.3.4.1.3 Champs de Markov - Champs de Gibbs

IV.3.3.4.1.3.1 Définition d'un champ de Markov

Considérons Xs la valeur prise au site s et xs = (xt )t#s la configuration de l'image excepté le site s.

Un champ de Markov X est un champ aléatoire si et seulement si il vérifie la propriété suivante :

(4)

Cela signifie que la probabilité en un site s conditionnellement au reste du champ est égale à la

probabilité en ce site connaissant uniquement ses voisins. Ainsi, tout l’intérêt d’une modélisation

Markovienne réside donc dans la possibilité de spécifier localement un modèle qui est en fait global.

Cette hypothèse markovienne se justifie bien dans le cas des images satellitaires et plus généralement

dans le cas de la plupart des images naturelles constituées de zones homogènes ou texturées.

IV.3.3.4.1.3.2. Equivalence entre champs de Markov et champs de Gibbs

La modélisation markovienne prend toute sa puissance grâce au théorème Hammersley- Clifford

[Besag, 1974]. En effet, Il permet d'établir une correspondance entre un champ de Markov et un champ


12

de Gibbs lorsqu’aucune réalisation de X n'est de probabilité nulle. Il nous faut au préalable définir un

certain nombre de notions relatives aux mesures et champs de Gibbs.

IV.3.3.4.1.3.2.1. Définition (mesure de Gibbs).

La mesure de Gibbs de fonction d'énergie U : Ω→ℜ est la probabilité P définie sur Ω par:

(5)

Avec

(6)

Où C est le système de cliques associé au système de voisinage ϑ de U. Z est une constante de

normalisation sur l’ensemble des réalisations de Ω de cette fonction d’énergie, elle est appelée

fonction de partition et peut être exprimée par :

(7)

Nous pouvons maintenant définir le champ de Gibbs de potentiel associé au système de voisinage ϑ : c'est le champ aléatoire X dont la probabilité est une mesure de Gibbs associée au système de voisinage ϑ, ce qui implique:

(8)

La probabilité d’une configuration dépend donc d’un ensemble d’interactions locales (au niveau des

cliques). Plus l’énergie totale U(x) est grande, moins la configuration est probable.

Un résultat fondamental est l’équivalence des champs de Markov et des champs de Gibbs grâce au

théorème suivant :

IV.3.3.4.1.3.2.2. Le théorème de Hammersley-Clifford [Besag, 1974]

Sous les hypothèses :


13

- S fini ou dénombrable;

- le système de voisinage J est borné;

- l'espace des états E est discret.

X est un champ de Markov relativement à J si et seulement si X est un champ de Gibbs de potentiel

associé à J.

En fonction du système de voisinage, U(x) peut prendre diverses formes ; par exemple, si nous

considérons un champ de Markov de voisinage 4-connexe, nous pouvons écrire l'énergie de la

configuration x sous la forme :

(9)

Où C1 et C2 sont respectivement les cliques d’ordre 1 et 2.

Si nous cherchons à écrire la probabilité conditionnelle locale P (xs /Xs =xs), nous avons grâce au

résultat précédent :

(10)

Définissons l'énergie locale Us par:

(11)

Notons désormais Vs = ( xt, t∈ϑ). On peut alors écrire l'énergie globale U(x) sous la forme :

(12)

En simplifiant on obtient :


14

(13)

Cette expression ne fait intervenir que les potentiels des cliques contenant le site s. Le calcul de la

probabilité conditionnelle locale est donc rendu possible.

IV.3.3.4.1.4 Quelques MRF fondamentaux

Nous présentons ici quelques uns des champs de Markov les plus utilisés. Comme indiqué

précédemment, ces champs sont définis par leur voisinage et leurs fonctions de potentiel. Ils sont

illustrés par le tirage de réalisations selon l'échantillonneur de Gibbs.

IV.3.3.4.1.4.1 Modèle d'lsing

Ce modèle est le plus ancien [Ising, 1925] et a été développé lors de l'étude du ferromagnétisme en

physique statistique. L'espace des descripteurs est celui des états des spins, c'est-à-dire E = −1,1

(espace binaire), et le voisinage est constitué par les 4 ou 8 plus proches voisins dans un espace

bidimensionnel.

Les potentiels sont des potentiels en tout ou rien:

(14)

Figure 8 : Le modèle d’Ising


15

ce qui s'écrit également Uc= s,t (xt , xt) = −βxsxt.

Les potentiels des cliques d'ordre 1 (clique constituée par un seul spin) sont de la forme −Bxs.

L'énergie totale s'écrit :

(15)

Avec

(16)

β est la constante de couplage entre sites voisins et h représente un champ magnétique externe.

Lorsque β est positif, les configurations les plus probables (c'est-à-dire d'énergies plus faibles) sont

celles pour lesquelles les spins sont de même signe (ferromagnétisme), alors que dans le cas de

β négatif, au contraire, on favorisera l'alternance de spins de signes opposés (anti-ferromagnétisme).

La valeur de β conditionne donc la régularité du modèle d'Ising. Quant au champ magnétique externe

relatif au potentiel d'ordre 1, il favorise a priori par son signe un spin ou un autre.

IV.3.3.4.1.4.2. Modèle de Potts

Il s’agit d’une généralisation du modèle précèdent [WU, 1982] pour un espace m-aire, c'est-à dire

E = 0, m −1. Il peut s'agir de plusieurs niveaux de gris mais, plus souvent pour ce modèle,

d'étiquettes (labels) pouvant représenter une classification de l'image (par exemple les classes eau,

forêt, champ, ville). Le voisinage considéré est 4- ou 8-connexes et les potentiels sont comme

précédemment en tout ou rien mais définis seulement pour les cliques d'ordre 2 :

(17)

Lorsque b est positif, les configurations les plus probables correspondent à des sites voisins de même

niveau de gris, ce qui donne des réalisations constituées par des larges zones homogènes. La taille de

ces régions est gouvernée par la valeur de b. Des exemples de réalisations pour différentes valeurs de b

sont montrés dans la figure 9.


16

Figure 9 : Le modèle de Potts 2D et 4-connexes pour différentes valeurs de b (m = 4).

Il est possible de définir des modèles utilisant des pondérations β différentes en fonction

des directions des cliques et de privilégier ainsi certaines directions.

Ce modèle permet également de prendre en compte différentes relations entre les régions (c'est-à-dire

entre différentes valeurs des niveaux de gris). On peut par exemple définir des pondérations β (es, et) pour es, et ϵ E. Dans notre exemple de classification en 4 étiquettes eau, forêt, champ, ville, une

configuration de sites avec les étiquettes champ / forêt peut être supposée plus probable qu'une

configuration ville / forêt, d'où des valeurs β (champ, forêt) et β (ville, forêt) différentes [Sigelle,

1993].

IV.3.3.4.1.4.3. Modèle markovien gaussien

Ce modèle est réservé aux images en niveaux de gris E = 0, …, 255 et ne convient pas bien aux

images d'étiquettes. Le voisinage est 4 ou 8-connexes et l'énergie est de la forme:

(18)


17

Le premier terme correspondant aux cliques d'ordre 2 est un terme de régularisation, qui favorise les

faibles différences de niveaux de gris entre sites voisins pour β > 0. Le second terme peut correspondre

à un terme d'attache aux données dans le cas où on possède une image de données extérieures. Le

rapport α/β pondère les influences respectives de l'attache aux données et de la régularisation, et les

valeurs absolues des paramètres caractérisent le caractère plus ou moins piqué ou au contraire

équiréparti de la distribution.

IV.3.3.4.2. Application dans la classification

IV.3.3.4.2.1. Règle de Bayes

Pour cette application, on peut modéliser le problème dans un cadre bayésien de la façon suivante.

Nous disposons d'une image que nous noterons y et que nous pouvons considérer comme une

réalisation d'un champ aléatoire Y. Nous cherchons une réalisation x de l'image classée, que nous

pouvons modéliser comme un champ de Markov, où X est le champ des étiquettes (labels). Les espaces

de configurations ne sont donc pas nécessairement les mêmes pour X et Y. La classification a pour

objectif de remonter à une réalisation de X à partir de l'observation des données y. On parle dans ce

contexte de champ de Markov caché pour X, ou de données incomplètes puisque y n'est pas une

réalisation de X.

On peut par exemple utiliser le critère du maximum a posteriori et rechercher la configuration !

maximisant la probabilité de X conditionnellement à la donnée y c'est-à dire P(X = x /Y = y). Or la règle

de Bayes permet d'écrire:

(19)

expression dans laquelle il s'agit alors d'analyser chacun des termes P(Y = y / X = x) et P(X = x),

sachant que P(Y ) est une constante (indépendante de la réalisation x). Le premier terme P(Y = y/X = x)

décrit justement le processus d'observation et d'acquisition des données. L'hypothèse la plus courante

consiste à supposer l'indépendance conditionnelle des pixels :

(20)

On fait sur le champ X recherché une hypothèse markovienne selon un voisinage ϑ et un modèle

donné dépendant de l'application. On peut alors écrire:


18

(21)

Si on revient maintenant à la distribution a posteriori, celle-ci s'exprime par:

(22)

Avec

(23)

Par conséquent, sous les hypothèses précédentes, on constate que la distribution a posteriori est une

distribution de Gibbs et que donc le champ X conditionnellement à Y est également un champ de

Markov (théorème de Hammersley-Clifford). Ainsi, il est possible de simuler des réalisations de ce

champ à l'aide de l'échantillonneur de Gibbs ou de l'algorithme de Metropolis. Mais la configuration x

qui nous intéresse est celle qui maximise la probabilité a posteriori, donc la réalisation la plus probable

du champ de Gibbs, ou encore celle qui minimise l'énergie W(x / y).

IV.3.3.4.2.2. La classification

Le champ markovien X est défini sur un autre espace de configurations que Y car seules quelques

étiquettes sont considérées: E = 1, m-1 (correspondant aux différentes classes cherchées). Le terme

P(Y = y / X = x) traduit donc la probabilité de réalisation d'une configuration donnée connaissant son

étiquetage (c'est-à-dire connaissant la classe de chaque pixel). En supposant l'indépendance des sites

les uns par rapport aux autres et en supposant que le niveau de gris ys en un site s ne dépend que de

l'étiquette xs en ce site, on a :

(24)

Les valeurs des probabilités conditionnelles sont données par l’histogramme conditionnel des niveaux

de gris pour une classe donnée. Par exemple, si on suppose que chaque classe i a une distribution

gaussienne de moyenne µi et d'écart-type σi, on a :

(25)


19

La probabilité a priori P(X = x) permet d'introduire les contraintes que nous souhaitons imposer à la

solution. En faisant l'hypothèse que X est markovien nous nous restreignons à des contraintes locales,

le plus souvent de régularité entre sites voisins. On se limite fréquemment aux cliques d'ordre 2, on a :

(26) On a alors l'énergie suivante correspondant à la distribution de Gibbs du champ a posteriori :

(27)

Le champ des étiquettes conditionnellement à y est markovien et d'énergie de Gibbs W(x / y). La

constante b pondère l'influence entre le terme d'attache aux données (cliques d'ordre 1) qui impose des

niveaux de gris xs de l'image classée, proches de ys, et le terme qui exprime la contrainte de

régularisation introduite (cliques d'ordre 2) et qui impose une solution constituée de zones homogènes.

On choisit souvent un modèle de Potts [WU, 1982] pour X, ce qui donne une image classée avec de

larges zones homogènes. La fonction φ modélise les potentiels des cliques d'ordre 2 :

U c = (s, t ) = φ ( xs - xt ) .

La Figure 10 montre un exemple de classification d'une image de satellite optique.

L'utilisation du modèle de Potts pour le terme d'attache aux données produit des régions compactes.

Dans classification, il est nécessaire de pouvoir déterminer le ou les états d'énergie minimale qui

correspondent au maximum de la probabilité d'un champ markovien.

Figure 10: Exemple de classification markovienne sur une image satellitaire optique.


20

V. Conclusions

L’étude la classification markovienne m’a permis dans un premier temps de bien poser les bases

théoriques des chaines de markov. Dans un second temps, elle m’a permis de rendre compte de leur

utilisation dans de vastes domaines tels que la reconnaissance de la parole, de textes, la RI, ...

Les traitements statistiques fondés sur des modèles Markoviens peuvent présenter des qualités

exceptionnelles. L’avantage de ces modèles par rapport à des modèles « locaux » découle de leur

aptitude à prendre en compte, de façon souvent élégante et mathématiquement rigoureuse, l’ensemble

de l’information disponible. De plus, les diverses études semblent indiquer qu’une extraordinaire

robustesse s’ajoute aux qualités classiques des méthodes statistiques que sont la souplesse et

l’optimalité. Cette robustesse permet d’envisager des complexifications croissantes des modèles :

séquences d’images, images 3D, …etc.


21

Référence

[Besag, 1974] Besag, J., “Spatial Interaction and the Statistical Analysis of Lattice Systems”, Journal of the Royal Statistical Society, vol. B-36, pp. 192-236, 1974. [BKN 04] M. Benaïm et N. El Karoui, Promenade aléatoire Chaînes de Markov et simulations ; martingales et stratégies, Les éditions de l’école polytechnique, 2004. [FOA 02] Processus stochastiques [Texte Imprimé] : processus de Poisson, chaînes de Markov et martingales : cours et exercices corrigés, Foata, Dominique / Dunod / 2002. [Gordon, 1981] Gordon, A. D. (1981). Classification : Methods for the Exploratory Analysis of Multivariate Data. Chapman & Hall Ltd., London. [Kshmrk] Nicholas Kushmerick, Edward Johnston, Stephen Mcguinness. In The IJCAI-2001 Workshop on Adaptive Text Extraction and Mining. [RAB89] L.R. Rabiner, A tutorial on Hidden Markov Models and selected applications in speech recognition,In the proceedings of IEEE, 77(2):257-285,1989. [Rakesh Dugad] Rakesh Dugad, A Tutorial on Hidden Markov Models. Signal Processing and Artificial Neural Networks Laboratory Department of Electrical Engineering Indian Institute of Technology — Bombay, India, 1996. [Sigelle, 1993] Sigelle, M., “Champs de Markov en traitement d'images et modèles de la physiques statistique: applications en relaxation d'images de classification”, Thèse, Ecole nationale supérieure des télécommunications, 1993. [SSV 02] Classification semi-automatique de documents Web à l’aide de chaînes de Markov cachées, L.Serradura, M.Slimane, N.Vincent, C.Proust, Inforsid 2002, Nantes, juin 2002, pp215-228. [WU, 1982] Wu, F. Y, “The Potts Model” , Review of Modem Physics, vol. 54, no. 1, 1982.

Autre Référence

[Vitebri] The Viterbi algorithm http://en.wikipedia.org/wiki/Viterbi_algorithm

La Classification Markovienne

Documents

Transcript of La Classification Markovienne