EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau,...
-
Upload
deline-berry -
Category
Documents
-
view
106 -
download
0
Transcript of EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau,...
EGC-03.
Nouveaux résultats Nouveaux résultats
en en classificationclassification
à l’aide d’un codageà l’aide d’un codage par par motifs fréquentsmotifs fréquents
S. Jouteau, A. Cornuéjols, M. Sebag (LRI)
Ph. Tarroux & J-S. Liénard (LIMSI)
CNRS - Université de Paris-Sud, Orsay
Journée « Fouille d’images » 01/04/03 2/36
Données en grandes dimensionsDonnées en grandes dimensions
Définies par un très grand nombre d’attributs(Note : l’un des 10 pbs soulevés lors du congrès mondial de
mathématiques en 2000)
Exemples : Puces ADN
E.g. 6400 gènes,
organismes sains ou irradiés
Images E.g. 256*256*(256 niveaux de gris)
Formes présentes dans l’image
3/36Journée « Fouille d’images » 01/04/03
L’objectifL’objectif
Apprentissage supervisé multi-classes
Beaucoup de dimensions + peu d’exemples
= Difficulté pour distinguer vraies régularités et coïncidences
Identifier des régularités dans des données de très grandes dimensions
Journée « Fouille d’images » 01/04/03 4/36
PrétraitementsPrétraitements
Réduction de dimension
Sélection d’attributs
Élimination des redondances (ACPACP, …)
Recherche de corrélations (attribut-classe)
Modélisation : hypothèses sur la statistique du signal
Analyse de FourrierFourrier
Analyse en ondelettesondelettes
Journée « Fouille d’images » 01/04/03 5/36
Cas de l’analyse de scènesCas de l’analyse de scènes
Scènes naturelles ≠ scènes artificielles
Observations neurobiologiques : codage clairsemé
Hypothèse : signal résultant d’une superposition de « formes
latentes »
Analyse en composantes indépendantes (ACI)
Journée « Fouille d’images » 01/04/03 6/36
L’analyse en composantes indépendantesL’analyse en composantes indépendantes
Mais : Inapplicable en grande dimension
Hypothèse de linéarité
( Introduite en 1984. Développée dans les 90s )
Hyp. de base : les données résultent d’une combinaison linéaire de formes latentes
Recherche de ces formes latentes
Journée « Fouille d’images » 01/04/03 7/36
L’ACI en analyse de scènesL’ACI en analyse de scènes
Les scènes sont décomposées en imagettes …
… codées par des superpositions linéaires de formes latentes
Journée « Fouille d’images » 01/04/03 8/36
Le projetLe projet
Peut-on rechercher directement un codage clairsemé ?Peut-on rechercher directement un codage clairsemé ?
Idée : adapter des techniques de fouilles de donnéesadapter des techniques de fouilles de données
Recherche de motifs fréquents
Journée « Fouille d’images » 01/04/03 9/36
Les motifs fréquentsLes motifs fréquents
Le problème Étant donné une base de données consistant en tuples,
trouver des règles d’association prédisant avec confiance quels items se trouvent souvent ensemble (Frequent ItemSets)
Exemple canonique (mais mythique) Les caddys dans les supermachés Un tuple = ensemble d’items achetés ensemble
En général : Beaucoup de motifs fréquents Mais peu qui soient vérifiés ensemble
Codage clairseméCodage clairsemé
Journée « Fouille d’images » 01/04/03 10/36
Contraintes sur les motifsContraintes sur les motifs
Représentativité Chaque image correspond à un nombre suffisantsuffisant de motifs
Codage clairsemé Chaque image correspond à un nombre limitélimité de motifs
Orthogonalité des motifs Chaque couple de motifs a peu d’images en communpeu d’images en commun
+ Contraintes sémantiquesContraintes sémantiques E.g. : motifs connexesconnexes (zones de l’image) E.g. : motifs en ligneen ligne (contours) …
Journée « Fouille d’images » 01/04/03 11/36
Les donnéesLes données
Base d’images tirées de la base COREL
12 classes différentes de scènes
Base de 1080 images (90 images / classe)
128 x 128 = 16384 en 128 niveaux de gris
ou : 64 x 64 = 4096 en 32 ou 16 niveaux de gris
On utilise 540 images pour chercher 1000 motifs fréquents
Journée « Fouille d’images » 01/04/03 12/36
La base d’imagesLa base d’images
Journée « Fouille d’images » 01/04/03 13/36
ConstatConstat
L’application directe de APRIORI est impossible
Il y a trop de motifs fréquents
Pour images 32 x 32 en 64 niveaux de gris
Il faut adapter l’algorithme et faire une Il faut adapter l’algorithme et faire une recherche stochastique recherche stochastique et et
non plus exhaustivenon plus exhaustive
Nb. élts / motif 1 2 3 4 5 6
Nb motifs 2 103 110 103 3,8 106 80 106 1,15 109 12,5 109
Journée « Fouille d’images » 01/04/03 14/36
Adaptation de l’algorithmeAdaptation de l’algorithme
Recherche itérative et stochastique de motifs fréquents
Paramètres : taux de couverture . Nombre de motifs cherchés = N Nombre de motifs trouvés = n
Tant que n ≤ N faire
Choix dans un exemple xi encore peu couvert d’un premier atome a0 présent dans au moins
des exemples
motif <- a0
Tant que taux de couverture de motif > faire
Tirer au hasard un atome a de xi couvrant au moins des exemples et peu utilisé dans les motifs existants et satisfaisant les contraintes sémantiques
Si motif+a couvre au moins des exemple alors
motif <- motif +a
fin si
Fin tant que
Fin tant que
Journée « Fouille d’images » 01/04/03 15/36
Les expériencesLes expériences
Nouvelles contraintes (choix des pixels) Min : les moins présents dans les motifs
Connexe : touchant les précédents
Ligne : formant des lignes
Paramètres Taille image : 64 x 64 x 16 (niveaux de gris)
Taux de couverture : 1, 2, 5, 10 %
Journée « Fouille d’images » 01/04/03 16/36
Codage clairsemé Codage clairsemé Nb de FIS / imagesNb de FIS / images
10 20 30 40 50
= 1%
= 2%
= 5%= 5%
Journée « Fouille d’images » 01/04/03 17/36
Codage clairsemé Codage clairsemé Nb de FIS / imagesNb de FIS / images
= 1%
= 2%
= 5%= 5%
Journée « Fouille d’images » 01/04/03 18/36
Orthogonalité Orthogonalité Nb images par couple de motifsNb images par couple de motifs
= 1%
= 2%
= 5%= 5%
Journée « Fouille d’images » 01/04/03 19/36
FIS : min_1%FIS : min_1%
Journée « Fouille d’images » 01/04/03 20/36
FIS : min_1%FIS : min_1%
Journée « Fouille d’images » 01/04/03 21/36
FIS : connexe_1%FIS : connexe_1%
Journée « Fouille d’images » 01/04/03 22/36
FIS : connexe_1%FIS : connexe_1%
Journée « Fouille d’images » 01/04/03 23/36
FIS : ligne_1%FIS : ligne_1%
Journée « Fouille d’images » 01/04/03 24/36
FIS : ligne_1%FIS : ligne_1%
Journée « Fouille d’images » 01/04/03 25/36
AnalyseAnalyse
Difficilement interprétables !!
Pas de contours, même quand contraintes dans ce sens
Malheureusement pas de comparaison possible avec ACI
puisque ACI non praticable
Journée « Fouille d’images » 01/04/03 26/36
La classification : La classification : le protocolele protocole
Apprentissage d’une base de 1000 motifs sur 540 images
Les paramètres : Taille image (32 x 32, 64 x 64 ou 128 x 128)
Niveaux de gris (16, 32 ou 64)
Taux de couverture (1%, 2%, 5% ou 10%)
Note : Tous les résultats sont disponibles sur :
http://www.eleves.iie.cnam.fr/jouteau
Test sur les 540 images restantes (répété 10 fois)
Journée « Fouille d’images » 01/04/03 27/36
La classification : la méthodeLa classification : la méthode
Chaque exempleexemple (dans X) est décrit par ses motifsdécrit par ses motifs (dans (X))
Un nouvel exemple est classé par une méthode de plus proches voisinsclassé par une méthode de plus proches voisins
(dans l’espace de redescription (X) ) 1-ppv
ou k-ppv avec pondération en fonction de la distance
X (X)
xx
Journée « Fouille d’images » 01/04/03 28/36
Performances (Performances ( = 5%) = 5%)
Journée « Fouille d’images » 01/04/03 29/36
Avec un réseau de neurones RBFAvec un réseau de neurones RBF
Journée « Fouille d’images » 01/04/03 30/36
ComparaisonComparaison
Journée « Fouille d’images » 01/04/03 31/36
Performances en classificationPerformances en classification
Résultats Meilleurs résultats pour = 2 ou 5 %
Assez comparable : min, connexe, ligne
Bien meilleurs que méthode RN
Peut mieux faire … Avec un appariement plus souple
Journée « Fouille d’images » 01/04/03 32/36
AnalyseAnalyse
Pourquoi ça marche (si bien) ?
Recodage non supervisé !!
Puis une méthode de plus proche(s) voisin(s)
Quelles sont les propriétés de ce recodage ?Quelles sont les propriétés de ce recodage ?
X (X)
x x
Journée « Fouille d’images » 01/04/03 33/36
Codage d’une imageCodage d’une image
QuickTime™ et un décompresseurBMP sont requis pour visualiser
cette image.
Image
Motifsprésents
dansl’image
Partie de l’imagecouverte parles motifs
Journée « Fouille d’images » 01/04/03 34/36
Approches classiquesApproches classiques
Analyse fonctionnelle
+/-
PCA
Apprent. artificiel
ICA
Réducti
on
Approximatio
n
Orthogonalité
Indép.
des données
… et moins classiques
Journée « Fouille d’images » 01/04/03 35/36
Ne permet pas la reconstruction des entrées
Les motifs sont orthogonaux : mais par rapport aux exemples d’apprentissage !!
Espace
Tous les points d’apprentissage sont orthogonaux dans cet espace
Le codage par motifs fréquentsLe codage par motifs fréquents
C100010
Journée « Fouille d’images » 01/04/03 36/36
ConclusionConclusion
Analyse théorique en cours
Expérimentations
sur les scènes naturelles (poursuite du travail)
sur les puces ADN
sur la classification de textes de NewsGroups
Peut-être un nouveau type de traitement du signalPeut-être un nouveau type de traitement du signal