La Classification Markovienne
Embed Size (px)
Transcript of La Classification Markovienne

République Algérienne démocratique et populaire
Ministère De L’enseignement Supérieur Et De La Recherche Scientifique
Université De Laghouat École Doctorale STIC
Option : IRM
MODULE : DATA MINING
INTITULÉINTITULÉINTITULÉINTITULÉ ::::
LLLLa Classification Markoviennea Classification Markoviennea Classification Markoviennea Classification Markovienne
Réalisé Par :
CHAIRA Mahmoud
Année Universitaire 2010 Année Universitaire 2010 Année Universitaire 2010 Année Universitaire 2010 –––– 2011201120112011
Proposé Par :
Dr MOUSSAOUI Abdel

Table des matières
I. INTRODUCTION .................................................................................................................................................... 1
I. La classification non-supervisée ........................................................................................................................... 1
II. La classification supervisée ................................................................................................................................. 1
III. La classification semi-supervisée ....................................................................................................................... 2
IV. THEORIE DES CHAINES DE MARKOV .................................................................................................................. 2
IV.1. Chaîne Observable ...................................................................................................................................... 2
IV.2. Chaîne Cachée............................................................................................................................................. 3
IV.3. Modèle de Markov Caché ........................................................................................................................... 4
IV.3.1. Définition : ........................................................................................................................................... 4
IV.3.2. Les 3 problèmes fondamentaux des HMM : ........................................................................................ 5
IV.3.3. CHAMP D’APPLICATION : ..................................................................................................................... 5
V. Conclusions ....................................................................................................................................................... 20
Référence .............................................................................................................................................................. 21
Autre Référence .................................................................................................................................................... 21

Table des figures
Figure 1: Graphe d'un Modèle de Markov Observable ........................................................................................... 2
Figure 2: Graphe d'un Modèle de Markov Caché ................................................................................................... 3
Figure 3: Modélisation HMM de l'exemple ............................................................................................................ 5
Figure 4: Organigramme de la méthode de classification de séquence par HMMs ................................................ 6
Figure 5: l’intégration entre la classification de texte et le modèle de Markov caché ............................................ 7
Figure 6: Reconnaissance du thème d’un document ............................................................................................... 9
Figure 7: Les cliques associées à deux systèmes de voisinage en dimension 2 .................................................... 10
Figure 8 : Le modèle d’Ising ................................................................................................................................. 14
Figure 9 : Le modèle de Potts 2D et 4-connexes pour différentes valeurs de b (m = 4). ...................................... 16
Figure 10: Exemple de classification markovienne sur une image satellitaire optique. ....................................... 19


La classification markovienne
1
I. INTRODUCTION
La modélisation stochastique permet l’utilisation des modèles probabilistes pour traiter les problèmes à
information incertaine ou incomplète. Ainsi, les modèles de Markov connaissent un regain d’intérêt
tant dans leurs aspects théoriques qu’appliqués. La théorie des chaînes de Markov est née en 1913, une
première application a été développée par Markov pour analyser le langage. Ces travaux ont été
utilisés régulièrement mais les premières applications exploitables furent réalisées dans le années 60,
telles que les modèles probabilistes d’urnes par Neuwirtch, le calcul direct du maximum de
vraisemblance ou l’observation de la suite d’états dans une chaîne de Markov.
Ceci a permis à la communauté scientifique d’exploiter pleinement le potentiel de ces modèles. C’est
dans les années 70 que des chercheurs ont apporté des algorithmes puissants permettant de résoudre les
problèmes de reconnaissance, d’analyse et d’apprentissage.
Depuis 1975, les HMM sont utilisés dans de nombreuses applications, principalement dans le domaine
de la parole. Ces applications ne se contentent pas de s’appuyer sur la théorie des Modèles de Markov
Cachés, mais développent plusieurs extensions théoriques dans le but d’améliorer les modèles. C’est
ce qui en a fait leur succès.
I. La classification non-supervisée
La classification non-supervisée a pour but de trouver une structure intéressante dans les données à
partir d’un échantillon X = (x1, . . ., xn). Cette méthode, comme de nombreuses autres, repose en
grande partie sur les choix de l’expérimentateur ; variables prises en compte, choix de la métrique, . . .
Le développement récent de l’informatique a rendu possible la mise en œuvre d’algorithmes de
classification sur de grands échantillons très multi-variés. Le résultat de la classification est soit une
partition soit une hiérarchie [Gordon, 1981]. Il existe deux grands types d’approche :
– Les méthodes géométriques à base de distances : Classification hiérarchique, méthode des centres
mobiles
– Les méthodes probabilistes : Modèles de mélange
II. La classification supervisée
Dans le cas de la classification supervisée, on connaît les individus et leur groupe d’appartenance.
L’objectif est d’établir une règle de classification à partir de ces données afin de pouvoir classer de
nouvelles données de groupe inconnu.

La classification markovienne
2
III. La classification semi-supervisée
Avant l’apparition de la classification semi-supervisée, les classifications non-supervisée et supervisée
faisaient figure de deux méthodes disjointes. L’une cherche à établir une structure de groupe à partir de
l’observation d’un ensemble de points non-étiquetés, l’autre vise à établir la meilleure séparation
possible entre les différents groupes observés. La classification semi-supervisée utilise les données
étiquetées et non-étiquetées pour établir la règle de classification. Elle permet ainsi de faire le lien
entre les classifications supervisée et non-supervisée.
IV. THEORIE DES CHAINES DE MARKOV
Un processus stochastique est un phénomène où intervient le hasard, nous définissons X (t) une
variable aléatoire évoluant en fonction du temps.
Exemple : une suite de lancers de dés 1, 6, 2, 5 d’où X0 = 1, X1 = 6, X2 =2, X3 = 5
Ce processus est dit markovien si son évolution ne dépend pas de son passé, mais uniquement de son
état présent. (Ceci est appelé la propriété de Markov.).
Un processus markovien peut être modélisé par un modèle théorique dit « Modèle de Markov ».
Il existe 2 types de Modèle : Observable et Caché.
Cette première partie s’appuie sur le tutorial de Rabiner [RAB89], complété par les travaux de Foata
[FOA 02] et de Benaïm et Karoui [BKN 04].
IV.1. Chaîne Observable
L’évolution du processus de Markov peut être représentée par un graphe de transitions d’états (Figure
1) qui fait apparaître la structure du processus selon les règles suivantes:
Figure 1: Graphe d'un Modèle de Markov Observable

La classification markovienne
3
• Les états sont représentés par des sommets. (Etat n)
On parle d’alphabet des états : S= s1, s2,…, sn, les états de la chaîne de Markov
• Les transitions (possibilité de passer d’un état à un autre) sont représentées par des arêtes, elles
sont pondérées par leur probabilité. (Flèche)
Les probabilités sont regroupées dans une matrice de transition: A = aij = P(Sj|Si);
∑ aij = 1Nj=1
• Les probabilités de départ : ce sont les probabilités de débuter dans un état ou un autre (point 0)
Elles sont regroupées dans un vecteur d’initialisation :
Π = πi = P(si)
On notera ∑ πi = 1
Un modèle λ est dit observable car les états sont directement observables, il est caractérisé par une
matrice de transition A et un vecteur d’initialisation π, on note :
λ = Π, A
IV.2. Chaîne Cachée
Dans un Modèle de Markov Caché les états S = s1, s2,..., sm sont non observables cependant ils
émettent des signaux observables O = (o1, o2, ..., ok) qui sont pondérés par leur probabilité. Le modèle
λ peut être représenté graphiquement (Figure 2), avec :
Figure 2: Graphe d'un Modèle de Markov Caché
• Les états S = s1, s2,…, sn
• La matrice de transitions A = aij = P (Sj|Si) ; ∑ aij = 1Nj=1
• Le vecteur d’initialisation Π = πi = P(si) ; ∑ πi = 1Ni=1
• Les probabilités que l’état si émettent le signal d’observation ok (Flèche brisée)

La classification markovienne
4
Elles sont regroupées dans une matrice d’émission B= bi (ok) = P(ok|si) ∑ biTj=1 oj=1;
Les représentations mathématiques seront utilisées tout au long de ce document. Nous utiliserons
ainsi :
• N : le nombre d’états = ∑ ;
• T : le nombre d’observations possibles = ∑ , si T est défini et dénombrable on parle aussi
d’alphabet ;
• qt : l’état du système au temps t ;
• M : taille de la séquence observée ;
Un Modèle de Markov Caché λ est caractérisé par une matrice de transition A, une matrice
d’observation B et un vecteur d’initialisati1on, on note : λ = Π, A, B
IV.3. Modèle de Markov Caché
Un modèle de Markov Caché ou HMM (pour Hidden Model Markov) est un processus doublement
stochastique dont une composante est une chaîne de Markov non observable. Ce processus peut être
observé à travers un autre ensemble de processus qui produit une suite d’observations.
Plus simplement, c’est un modèle qui décrit les états d’un processus markovien à l’aide des
probabilités de transition et des probabilités d’observation par états.
Les HMM sont utilisés dans de nombreux domaines tels que la reconnaissance et la synthèse de la
parole, la biologie, l'ordonnancement, l'indexation de documents, la reconnaissance d'images, la
prédiction de séries temporelles, ...
IV.3.1. Définition :
Lors de la création d’un HMM il existe 3 problèmes à résoudre : la reconnaissance, l’analyse et
l’apprentissage. Afin de bien les appréhender, voici un exemple, il permettra de voir l’application des
solutions préconisées.
L’exemple a pour objectif de définir à quelle saison nous sommes. Posons :
• Les 4 saisons (Printemps, Eté, Automne, Hiver), comme étant les états de notre modèle.
L’état ‘saison’ n’est pas directement observable mais il émet des observations le temps de la journée. Il
est défini par Nuage, Pluie, Soleil.
1 Remarque : Un Modèle de Markov Observable peut être modélisé sous la forme d’un Modèle de Markov Caché où les
états correspondent aux événements observés. C'est-à-dire que chaque état si a une probabilité ‘1‘ d’émettre l’observation bi.

La classification markovienne
5
• Une chaîne d’observations le temps de la semaine. Dans les exemples cette chaîne est réduite à
3 jours pour limiter le nombre de calcul (Soleil, Soleil, Nuage) ou (S, S, N).
Le Modèle de Markov nous permettra de définir quelle est la chaîne de Markov qui a le plus de
probabilité d’avoir généré la séquence observée, par exemple Eté, Eté, Printemps (E, E, P)
La représentation graphique de ce modèle : (voir Figure 3).
Figure 3: Modélisation HMM de l'exemple
IV.3.2. Les 3 problèmes fondamentaux des HMM :
Voici la liste de ces problèmes, il est nécessaire de les résoudre afin de pouvoir utiliser les HMM lors
de la modélisation d’un processus réel.
• Problème 1 : Reconnaissance Etant donnés un HMM λ = Π, A, B et une séquence observée
O = o1, o2,…, onquelle est la vraisemblance P(Ο |λ ) que le modèle λ génère O ?
• Problème 2 : Analyse Etant donnés un HMM λ et une séquence observée O, quelle est la
séquence des états qui a la probabilité maximale d’avoir généré O ?
• Problème 3 : Apprentissage A partir d’une chaîne d’observations O = o1, o2, ..., on; comment
ajuster les paramètres du HMM λ = π, A, B pour maximiser la vraisemblance de l’ensemble
d’apprentissage P(O|λ ) ?
IV.3.3. CHAMP D’APPLICATION :
Les Modèles de Markov Cachés ont prouvé dans de nombreux domaines qu’ils étaient de puissants
outils. Cette liste n’est pas exhaustive :

La classification markovienne
6
• Reconnaissance automatique de la parole
• Reconnaissance de l’écriture
• Modélisation des langages
• Traitement d’images statiques et dynamiques
• Reconnaissance de forme
• Théorie de codage
• Traitement du signal
• Modélisation des finances
• Contrôle biologique
• Bio statique
• Télécommunication
• Analyse de séquences biologiques
• Modélisation de signaux acoustiques
• Robotique
IV.3.3.1. Utilisation pour la classification de séquences
Les bases des modèles de Markov cachés étant posées, nous allons maintenant pouvoir les utiliser pour la
reconnaissance de séquences, ou plus exactement la classification de séquences. Le principe est le suivant :
On veut classifier des séquences en un nombre nc de catégories. Pour cela, on crée nc HMMs et on entraîne
chacun d’entre eux avec un ensemble de séquences d’apprentissage représentatif d’une classe donnée (voir
Figure 4). On obtient donc nc HMMs spécialisés qu’on appellera (Hi)i=1..nc. Soit
la séquence inconnue
que l’on souhaite classifier. Elle sera placée dans la catégorie k telle que P (|Hk) est maximale, c’est à dire
que c’est Hk qui a la plus grande probabilité d’émettre
et qui est donc le modèle le plus proche au sens du
maximum de vraisemblance. Le calcul de la probabilité d’émission de la séquence O par les différents modèles
est effectué à l’aide de l’algorithme Forward-Backward.
Observed
data
Symbole
sequences O
HMM λ1
HMM λi
HMM λI
P(O| λ1)
P(O| λi)
P(O| λI)
Compare,
recognize
Figure 4: Organigramme de la méthode de classification de séquence par HMMs

La classification markovienne
7
Dans le cas où l’on ne souhaite pas créer la structure du modèle par apprentissage, il faut soit décider
du nombre d’états d’après des connaissances a priori, soit essayer la méthode de reconnaissance avec
plusieurs structure puis choisir celle qui convient le mieux.
IV.3.3.2. Classification de texte et modèle de Markov caché
IV.3.3.2.1. Définition
Selon [Rakesh Dugad], un modèle de Markov caché est défini formellement suivant : λ = (A, B, π)
Pour : S = (S1,…,SN) un ensemble de l’état possible
V = (V1, …, VM) un ensemble de symboles d’observation
A = aij aij = P(Sj| Si) la probabilité de la transition Si Sj
B = bj(k) b j(k) = P(Vk|Sj) la probabilité d’observer le symbole Vk en étant dans l’état Sj
π = (πi) la probabilité d’être dans l’état Si au début.
IV.3.3.2.2. la classification de texte par le modèle de Markov caché
Selon Kushmerick [Kshmrk] on peut considérer le processus d’extraction d’information sur la carte de
visite comme la classification de texte. Le texte reconnu par l’OCR2 se divisé en plusieurs lignes qui
contient les données valables. Dans ce cas là, on va classer ces linges en certaines catégories telles
que : le nom, le titre, l’adresse, le courriel, le numéro de téléphone etc. Mais il faut mettre en compte la
contraint structurale de la carte de visite. Par exemple, le titre souvent se trouve juste après le nom.
Pour réaliser cela, Kushmerick [Kshmrk] a proposé une approche qui applique la classification de texte
et le modèle de Markov caché à la fois.
Figure 5: l’intégration entre la classification de texte et le modèle de Markov caché
On peut exprimer formellement cette approche comme suit: Soit l1, l2 …lN sont les lignes de texte
reconnu par l’OCR. N est le nombre de ligne. Soit f1, f2 ….fN sont les catégories (le nom, le titre,
l’adresse, le courriel, le numéro de téléphone etc). Pour appliquer le modèle de Markov caché, on va 2 OCR: La reconnaissance optique de caractères

La classification markovienne
8
considérer fi comme l’état et li comme le symbole d’observation (voir figure 5). En conséquence, le
problème de déterminer quelle ligne li appartient à quelle catégorie fi devient le problème de trouver
une chaine de fi qui maximise la probabilité :
π (f1) Πi P (fi| li) P (fi+1|fi) (1)
Pour : π (f1) la probabilité que f1 est dans la première situation qui peut être calculé par un ensemble
d’exemple. P (fi| li) la probabilité que li appartient à fi qui peut être estimé par l’algorithme de
classification de texte : Naïve Bayes P (fi+1|fi) la probabilité de la transition d’état ou la probabilité
que fi+1 est après fi. Cela peut être calculé par un ensemble d’exemple. Le problème de trouver une
chaine de fi qui maximise (1) se résout à l'aide de l'algorithme de Viterbi [Vitebri]. C’est un algorithme
standard à résoudre les problèmes de modèle de Markov caché. Par exemple, soit tous les paramètres
du modèle, soit la chaine de symboles d’observation, trouver la chaine d’état qui a la probabilité
maximale.
IV.3.3.3. HMM appliqué à la recherche d’information
Différents travaux concernant la Recherche d’Information (RI) ont déjà été développés. Il est
nécessaire de différencier les travaux concernant la tâche de recherche documentaire de ceux
concernant la tâche de classification. En effet, ils reposent sur deux notions très différentes.
Afin de clarifier ce problème et d’éliminer toute ambiguïté, voici en quoi consistent ces deux tâches :
• La classification est utilisée dans plusieurs tâches de RI. Elle consiste à attribuer à chaque
document une classe, parmi un ensemble de classes connues à l’avance (e.g. économie, science
ou littérature). Il s’agit d’une tâche de discrimination entre plusieurs classes.
• La recherche documentaire (ad-hoc retrieval) a pour but de trouver, parmi un ensemble de
documents, celui ou ceux qui répondent le mieux à une requête exprimée en langage naturel.
Classification de document
D’après les travaux de L.Serradura, M.Slimane, N.Vincent, C.Proust [SSV 02]. Prenons l’exemple
d’une encyclopédie classée par thèmes, on définit :
• Les différents thèmes (astronomie, histoire, économie,…) ;
• un corpus de documents associés à chacun des thèmes ;
• un dictionnaire contenant les mots significatifs des différents thèmes. Celui-ci pourrait être
déduit du corpus de document.

La classification markovienne
9
Dans le cadre des HMM, la classification de document se fait en 3 étapes :
Etape1 : Construction des modèles (HMM) individuels pour chaque thème ;
Cette étape est réalisée en utilisant la solution du problème 3 (Apprentissage : Baum-Welch) pour
estimer d’une façon optimale, les paramètres du modèle de chaque thème.
Etape 2 : Elle permet de développer une connaissance du sens physique des états du modèle. La
solution du problème 2 (Analyse : Viterbi) est utilisée pour segmenter chacun des documents
d’apprentissage en état. Pour des questions de performances, seuls les mots significatifs du domaine
sont traités.
Etape 3 : Une fois les n modèles HMM construits et optimisés, la reconnaissance d’un document
inconnu est effectuée en utilisant la solution du problème 1 (Reconnaissance : Forward) pour évaluer
le modèle de chaque thème et sélectionner ainsi celui qui a généré le meilleur score.
Figure 6: Reconnaissance du thème d’un document
En pratique les HMM sont de type ergodique, l’ordonnancement des mots n’est pas pris en compte.
Les différents états correspondent aux mots significatifs du thème modélisé.
IV.3.3.4. Le contexte spatial dans la classification : utilisation des champs de Markov
Dans cette partie, nous introduisons tout d'abord de façon intuitive la notion d'énergie locale avant de
définir plus formellement un champ de Markov et d'énoncer le théorème d'équivalence entre champs
de Markov et champs de Gibbs. L'utilisation des champs markoviens dans la classification est ensuite
décrite.

La classification markovienne
10
IV.3.3.4.1. Un Modèle markovien général d’images
IV.3.3.4.1.1. Description de l'image
L’image est représentée comme une grille rectangulaire finie bidimensionnelle de taille m x n = N
contenant un ensemble de sites S = si avec 1 < i < N appelés pixels. Á chaque site est associé un
descripteur, représentant l’état du site et pouvant être un scalaire (niveau de gris, label (ou étiquette))
ou encore un vecteur (spectre), et prenant ses valeurs dans l’espace des états E.
La notion d'interactions locales nécessite de structurer les relations spatiales entre les différents sites du
réseau. Pour ce faire, on munit S d'un système de voisinage ϑ est défini de la façon suivante:
(1)
A un système de voisinage donné correspond un ensemble de cliques, une clique étant un ensemble de
points du treillis mutuellement voisins, l’ordre d’une clique étant le nombre de sites qui la compose
(on s’intéresse en général aux cliques d’ordre 2). En fonction du système de voisinage utilisé, le
système de cliques sera différent et fera intervenir plus ou moins de sites comme illustré sur la Figure 7
On notera C l'ensemble des cliques relatif à ϑ, et Ck l'ensemble des cliques de cardinal k.
Figure 7: Les cliques associées à deux systèmes de voisinage en dimension 2
Les interactions locales entre niveaux de gris (ou descripteurs) de sites voisins peuvent alors s'exprimer
comme un potentiel de clique. Soit c une clique, on lui associe le potentiel Uc dont la valeur dépend

La classification markovienne
11
des niveaux de gris des pixels constituant la clique. En poursuivant ce raisonnement, on peut définir
l'énergie globale de l'image comme la somme des potentiels de toutes les cliques:
U = ∑ ∈ (2)
Et l'énergie locale en un site comme la somme des potentiels de toutes les cliques auxquelles il
appartient:
Us = ∑ .∈/∈ (3)
IV.3.3.4.1.2. Modélisation Markovienne de l'image
Dans la modélisation Markovienne, l'image est considérée comme une réalisation x d'un champ
aléatoire. Soit s un site de l'image, on peut en effet lui associer une variable aléatoire (v.a) Xs prenant
ses valeurs dans E. Le niveau de gris xs en s est donc une réalisation de la v.a Xs. On définit alors le
champ aléatoire X= (Xs, Xt,…) prenant ses valeurs dans Ω = E|S|.
La probabilité globale de x, P(X=x), permet d'accéder en quelque sorte à la vraisemblance de l'image et
les probabilités conditionnelles locales d'une valeur en un site permettent de mesurer le lien statistique
entre un niveau de gris et le reste de l'image.
IV.3.3.4.1.3 Champs de Markov - Champs de Gibbs
IV.3.3.4.1.3.1 Définition d'un champ de Markov
Considérons Xs la valeur prise au site s et xs = (xt )t#s la configuration de l'image excepté le site s.
Un champ de Markov X est un champ aléatoire si et seulement si il vérifie la propriété suivante :
(4)
Cela signifie que la probabilité en un site s conditionnellement au reste du champ est égale à la
probabilité en ce site connaissant uniquement ses voisins. Ainsi, tout l’intérêt d’une modélisation
Markovienne réside donc dans la possibilité de spécifier localement un modèle qui est en fait global.
Cette hypothèse markovienne se justifie bien dans le cas des images satellitaires et plus généralement
dans le cas de la plupart des images naturelles constituées de zones homogènes ou texturées.
IV.3.3.4.1.3.2. Equivalence entre champs de Markov et champs de Gibbs
La modélisation markovienne prend toute sa puissance grâce au théorème Hammersley- Clifford
[Besag, 1974]. En effet, Il permet d'établir une correspondance entre un champ de Markov et un champ

La classification markovienne
12
de Gibbs lorsqu’aucune réalisation de X n'est de probabilité nulle. Il nous faut au préalable définir un
certain nombre de notions relatives aux mesures et champs de Gibbs.
IV.3.3.4.1.3.2.1. Définition (mesure de Gibbs).
La mesure de Gibbs de fonction d'énergie U : Ω→ℜ est la probabilité P définie sur Ω par:
(5)
Avec
(6)
Où C est le système de cliques associé au système de voisinage ϑ de U. Z est une constante de
normalisation sur l’ensemble des réalisations de Ω de cette fonction d’énergie, elle est appelée
fonction de partition et peut être exprimée par :
(7)
Nous pouvons maintenant définir le champ de Gibbs de potentiel associé au système de voisinage ϑ : c'est le champ aléatoire X dont la probabilité est une mesure de Gibbs associée au système de voisinage ϑ, ce qui implique:
(8)
La probabilité d’une configuration dépend donc d’un ensemble d’interactions locales (au niveau des
cliques). Plus l’énergie totale U(x) est grande, moins la configuration est probable.
Un résultat fondamental est l’équivalence des champs de Markov et des champs de Gibbs grâce au
théorème suivant :
IV.3.3.4.1.3.2.2. Le théorème de Hammersley-Clifford [Besag, 1974]
Sous les hypothèses :

La classification markovienne
13
- S fini ou dénombrable;
- le système de voisinage J est borné;
- l'espace des états E est discret.
X est un champ de Markov relativement à J si et seulement si X est un champ de Gibbs de potentiel
associé à J.
En fonction du système de voisinage, U(x) peut prendre diverses formes ; par exemple, si nous
considérons un champ de Markov de voisinage 4-connexe, nous pouvons écrire l'énergie de la
configuration x sous la forme :
(9)
Où C1 et C2 sont respectivement les cliques d’ordre 1 et 2.
Si nous cherchons à écrire la probabilité conditionnelle locale P (xs /Xs =xs), nous avons grâce au
résultat précédent :
(10)
Définissons l'énergie locale Us par:
(11)
Notons désormais Vs = ( xt, t∈ϑ). On peut alors écrire l'énergie globale U(x) sous la forme :
(12)
En simplifiant on obtient :

La classification markovienne
14
(13)
Cette expression ne fait intervenir que les potentiels des cliques contenant le site s. Le calcul de la
probabilité conditionnelle locale est donc rendu possible.
IV.3.3.4.1.4 Quelques MRF fondamentaux
Nous présentons ici quelques uns des champs de Markov les plus utilisés. Comme indiqué
précédemment, ces champs sont définis par leur voisinage et leurs fonctions de potentiel. Ils sont
illustrés par le tirage de réalisations selon l'échantillonneur de Gibbs.
IV.3.3.4.1.4.1 Modèle d'lsing
Ce modèle est le plus ancien [Ising, 1925] et a été développé lors de l'étude du ferromagnétisme en
physique statistique. L'espace des descripteurs est celui des états des spins, c'est-à-dire E = −1,1
(espace binaire), et le voisinage est constitué par les 4 ou 8 plus proches voisins dans un espace
bidimensionnel.
Les potentiels sont des potentiels en tout ou rien:
(14)
Figure 8 : Le modèle d’Ising

La classification markovienne
15
ce qui s'écrit également Uc= s,t (xt , xt) = −βxsxt.
Les potentiels des cliques d'ordre 1 (clique constituée par un seul spin) sont de la forme −Bxs.
L'énergie totale s'écrit :
(15)
Avec
(16)
β est la constante de couplage entre sites voisins et h représente un champ magnétique externe.
Lorsque β est positif, les configurations les plus probables (c'est-à-dire d'énergies plus faibles) sont
celles pour lesquelles les spins sont de même signe (ferromagnétisme), alors que dans le cas de
β négatif, au contraire, on favorisera l'alternance de spins de signes opposés (anti-ferromagnétisme).
La valeur de β conditionne donc la régularité du modèle d'Ising. Quant au champ magnétique externe
relatif au potentiel d'ordre 1, il favorise a priori par son signe un spin ou un autre.
IV.3.3.4.1.4.2. Modèle de Potts
Il s’agit d’une généralisation du modèle précèdent [WU, 1982] pour un espace m-aire, c'est-à dire
E = 0, m −1. Il peut s'agir de plusieurs niveaux de gris mais, plus souvent pour ce modèle,
d'étiquettes (labels) pouvant représenter une classification de l'image (par exemple les classes eau,
forêt, champ, ville). Le voisinage considéré est 4- ou 8-connexes et les potentiels sont comme
précédemment en tout ou rien mais définis seulement pour les cliques d'ordre 2 :
(17)
Lorsque b est positif, les configurations les plus probables correspondent à des sites voisins de même
niveau de gris, ce qui donne des réalisations constituées par des larges zones homogènes. La taille de
ces régions est gouvernée par la valeur de b. Des exemples de réalisations pour différentes valeurs de b
sont montrés dans la figure 9.

La classification markovienne
16
Figure 9 : Le modèle de Potts 2D et 4-connexes pour différentes valeurs de b (m = 4).
Il est possible de définir des modèles utilisant des pondérations β différentes en fonction
des directions des cliques et de privilégier ainsi certaines directions.
Ce modèle permet également de prendre en compte différentes relations entre les régions (c'est-à-dire
entre différentes valeurs des niveaux de gris). On peut par exemple définir des pondérations β (es, et) pour es, et ϵ E. Dans notre exemple de classification en 4 étiquettes eau, forêt, champ, ville, une
configuration de sites avec les étiquettes champ / forêt peut être supposée plus probable qu'une
configuration ville / forêt, d'où des valeurs β (champ, forêt) et β (ville, forêt) différentes [Sigelle,
1993].
IV.3.3.4.1.4.3. Modèle markovien gaussien
Ce modèle est réservé aux images en niveaux de gris E = 0, …, 255 et ne convient pas bien aux
images d'étiquettes. Le voisinage est 4 ou 8-connexes et l'énergie est de la forme:
(18)

La classification markovienne
17
Le premier terme correspondant aux cliques d'ordre 2 est un terme de régularisation, qui favorise les
faibles différences de niveaux de gris entre sites voisins pour β > 0. Le second terme peut correspondre
à un terme d'attache aux données dans le cas où on possède une image de données extérieures. Le
rapport α/β pondère les influences respectives de l'attache aux données et de la régularisation, et les
valeurs absolues des paramètres caractérisent le caractère plus ou moins piqué ou au contraire
équiréparti de la distribution.
IV.3.3.4.2. Application dans la classification
IV.3.3.4.2.1. Règle de Bayes
Pour cette application, on peut modéliser le problème dans un cadre bayésien de la façon suivante.
Nous disposons d'une image que nous noterons y et que nous pouvons considérer comme une
réalisation d'un champ aléatoire Y. Nous cherchons une réalisation x de l'image classée, que nous
pouvons modéliser comme un champ de Markov, où X est le champ des étiquettes (labels). Les espaces
de configurations ne sont donc pas nécessairement les mêmes pour X et Y. La classification a pour
objectif de remonter à une réalisation de X à partir de l'observation des données y. On parle dans ce
contexte de champ de Markov caché pour X, ou de données incomplètes puisque y n'est pas une
réalisation de X.
On peut par exemple utiliser le critère du maximum a posteriori et rechercher la configuration !
maximisant la probabilité de X conditionnellement à la donnée y c'est-à dire P(X = x /Y = y). Or la règle
de Bayes permet d'écrire:
(19)
expression dans laquelle il s'agit alors d'analyser chacun des termes P(Y = y / X = x) et P(X = x),
sachant que P(Y ) est une constante (indépendante de la réalisation x). Le premier terme P(Y = y/X = x)
décrit justement le processus d'observation et d'acquisition des données. L'hypothèse la plus courante
consiste à supposer l'indépendance conditionnelle des pixels :
(20)
On fait sur le champ X recherché une hypothèse markovienne selon un voisinage ϑ et un modèle
donné dépendant de l'application. On peut alors écrire:

La classification markovienne
18
(21)
Si on revient maintenant à la distribution a posteriori, celle-ci s'exprime par:
(22)
Avec
(23)
Par conséquent, sous les hypothèses précédentes, on constate que la distribution a posteriori est une
distribution de Gibbs et que donc le champ X conditionnellement à Y est également un champ de
Markov (théorème de Hammersley-Clifford). Ainsi, il est possible de simuler des réalisations de ce
champ à l'aide de l'échantillonneur de Gibbs ou de l'algorithme de Metropolis. Mais la configuration x
qui nous intéresse est celle qui maximise la probabilité a posteriori, donc la réalisation la plus probable
du champ de Gibbs, ou encore celle qui minimise l'énergie W(x / y).
IV.3.3.4.2.2. La classification
Le champ markovien X est défini sur un autre espace de configurations que Y car seules quelques
étiquettes sont considérées: E = 1, m-1 (correspondant aux différentes classes cherchées). Le terme
P(Y = y / X = x) traduit donc la probabilité de réalisation d'une configuration donnée connaissant son
étiquetage (c'est-à-dire connaissant la classe de chaque pixel). En supposant l'indépendance des sites
les uns par rapport aux autres et en supposant que le niveau de gris ys en un site s ne dépend que de
l'étiquette xs en ce site, on a :
(24)
Les valeurs des probabilités conditionnelles sont données par l’histogramme conditionnel des niveaux
de gris pour une classe donnée. Par exemple, si on suppose que chaque classe i a une distribution
gaussienne de moyenne µi et d'écart-type σi, on a :
(25)

La classification markovienne
19
La probabilité a priori P(X = x) permet d'introduire les contraintes que nous souhaitons imposer à la
solution. En faisant l'hypothèse que X est markovien nous nous restreignons à des contraintes locales,
le plus souvent de régularité entre sites voisins. On se limite fréquemment aux cliques d'ordre 2, on a :
(26) On a alors l'énergie suivante correspondant à la distribution de Gibbs du champ a posteriori :
(27)
Le champ des étiquettes conditionnellement à y est markovien et d'énergie de Gibbs W(x / y). La
constante b pondère l'influence entre le terme d'attache aux données (cliques d'ordre 1) qui impose des
niveaux de gris xs de l'image classée, proches de ys, et le terme qui exprime la contrainte de
régularisation introduite (cliques d'ordre 2) et qui impose une solution constituée de zones homogènes.
On choisit souvent un modèle de Potts [WU, 1982] pour X, ce qui donne une image classée avec de
larges zones homogènes. La fonction φ modélise les potentiels des cliques d'ordre 2 :
U c = (s, t ) = φ ( xs - xt ) .
La Figure 10 montre un exemple de classification d'une image de satellite optique.
L'utilisation du modèle de Potts pour le terme d'attache aux données produit des régions compactes.
Dans classification, il est nécessaire de pouvoir déterminer le ou les états d'énergie minimale qui
correspondent au maximum de la probabilité d'un champ markovien.
Figure 10: Exemple de classification markovienne sur une image satellitaire optique.

La classification markovienne
20
V. Conclusions
L’étude la classification markovienne m’a permis dans un premier temps de bien poser les bases
théoriques des chaines de markov. Dans un second temps, elle m’a permis de rendre compte de leur
utilisation dans de vastes domaines tels que la reconnaissance de la parole, de textes, la RI, ...
Les traitements statistiques fondés sur des modèles Markoviens peuvent présenter des qualités
exceptionnelles. L’avantage de ces modèles par rapport à des modèles « locaux » découle de leur
aptitude à prendre en compte, de façon souvent élégante et mathématiquement rigoureuse, l’ensemble
de l’information disponible. De plus, les diverses études semblent indiquer qu’une extraordinaire
robustesse s’ajoute aux qualités classiques des méthodes statistiques que sont la souplesse et
l’optimalité. Cette robustesse permet d’envisager des complexifications croissantes des modèles :
séquences d’images, images 3D, …etc.

La classification markovienne
21
Référence
[Besag, 1974] Besag, J., “Spatial Interaction and the Statistical Analysis of Lattice Systems”, Journal of the Royal Statistical Society, vol. B-36, pp. 192-236, 1974. [BKN 04] M. Benaïm et N. El Karoui, Promenade aléatoire Chaînes de Markov et simulations ; martingales et stratégies, Les éditions de l’école polytechnique, 2004. [FOA 02] Processus stochastiques [Texte Imprimé] : processus de Poisson, chaînes de Markov et martingales : cours et exercices corrigés, Foata, Dominique / Dunod / 2002. [Gordon, 1981] Gordon, A. D. (1981). Classification : Methods for the Exploratory Analysis of Multivariate Data. Chapman & Hall Ltd., London. [Kshmrk] Nicholas Kushmerick, Edward Johnston, Stephen Mcguinness. In The IJCAI-2001 Workshop on Adaptive Text Extraction and Mining. [RAB89] L.R. Rabiner, A tutorial on Hidden Markov Models and selected applications in speech recognition,In the proceedings of IEEE, 77(2):257-285,1989. [Rakesh Dugad] Rakesh Dugad, A Tutorial on Hidden Markov Models. Signal Processing and Artificial Neural Networks Laboratory Department of Electrical Engineering Indian Institute of Technology — Bombay, India, 1996. [Sigelle, 1993] Sigelle, M., “Champs de Markov en traitement d'images et modèles de la physiques statistique: applications en relaxation d'images de classification”, Thèse, Ecole nationale supérieure des télécommunications, 1993. [SSV 02] Classification semi-automatique de documents Web à l’aide de chaînes de Markov cachées, L.Serradura, M.Slimane, N.Vincent, C.Proust, Inforsid 2002, Nantes, juin 2002, pp215-228. [WU, 1982] Wu, F. Y, “The Potts Model” , Review of Modem Physics, vol. 54, no. 1, 1982.
Autre Référence
[Vitebri] The Viterbi algorithm http://en.wikipedia.org/wiki/Viterbi_algorithm