EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau,...

36
EGC-03. Nouveaux résultats Nouveaux résultats en en classification classification à l’aide d’un codage à l’aide d’un codage par par motifs fréquents motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard (LIMSI) CNRS - Université de Paris-Sud, Orsay

Transcript of EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau,...

Page 1: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard.

EGC-03.

Nouveaux résultats Nouveaux résultats

en en classificationclassification

à l’aide d’un codageà l’aide d’un codage par par motifs fréquentsmotifs fréquents

S. Jouteau, A. Cornuéjols, M. Sebag (LRI)

Ph. Tarroux & J-S. Liénard (LIMSI)

CNRS - Université de Paris-Sud, Orsay

Page 2: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard.

Journée « Fouille d’images » 01/04/03 2/36

Données en grandes dimensionsDonnées en grandes dimensions

Définies par un très grand nombre d’attributs(Note : l’un des 10 pbs soulevés lors du congrès mondial de

mathématiques en 2000)

Exemples : Puces ADN

E.g. 6400 gènes,

organismes sains ou irradiés

Images E.g. 256*256*(256 niveaux de gris)

Formes présentes dans l’image

Page 3: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard.

3/36Journée « Fouille d’images » 01/04/03

L’objectifL’objectif

Apprentissage supervisé multi-classes

Beaucoup de dimensions + peu d’exemples

= Difficulté pour distinguer vraies régularités et coïncidences

Identifier des régularités dans des données de très grandes dimensions

Page 4: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard.

Journée « Fouille d’images » 01/04/03 4/36

PrétraitementsPrétraitements

Réduction de dimension

Sélection d’attributs

Élimination des redondances (ACPACP, …)

Recherche de corrélations (attribut-classe)

Modélisation : hypothèses sur la statistique du signal

Analyse de FourrierFourrier

Analyse en ondelettesondelettes

Page 5: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard.

Journée « Fouille d’images » 01/04/03 5/36

Cas de l’analyse de scènesCas de l’analyse de scènes

Scènes naturelles ≠ scènes artificielles

Observations neurobiologiques : codage clairsemé

Hypothèse : signal résultant d’une superposition de « formes

latentes »

Analyse en composantes indépendantes (ACI)

Page 6: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard.

Journée « Fouille d’images » 01/04/03 6/36

L’analyse en composantes indépendantesL’analyse en composantes indépendantes

Mais : Inapplicable en grande dimension

Hypothèse de linéarité

( Introduite en 1984. Développée dans les 90s )

Hyp. de base : les données résultent d’une combinaison linéaire de formes latentes

Recherche de ces formes latentes

Page 7: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard.

Journée « Fouille d’images » 01/04/03 7/36

L’ACI en analyse de scènesL’ACI en analyse de scènes

Les scènes sont décomposées en imagettes …

… codées par des superpositions linéaires de formes latentes

Page 8: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard.

Journée « Fouille d’images » 01/04/03 8/36

Le projetLe projet

Peut-on rechercher directement un codage clairsemé ?Peut-on rechercher directement un codage clairsemé ?

Idée : adapter des techniques de fouilles de donnéesadapter des techniques de fouilles de données

Recherche de motifs fréquents

Page 9: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard.

Journée « Fouille d’images » 01/04/03 9/36

Les motifs fréquentsLes motifs fréquents

Le problème Étant donné une base de données consistant en tuples,

trouver des règles d’association prédisant avec confiance quels items se trouvent souvent ensemble (Frequent ItemSets)

Exemple canonique (mais mythique) Les caddys dans les supermachés Un tuple = ensemble d’items achetés ensemble

En général : Beaucoup de motifs fréquents Mais peu qui soient vérifiés ensemble

Codage clairseméCodage clairsemé

Page 10: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard.

Journée « Fouille d’images » 01/04/03 10/36

Contraintes sur les motifsContraintes sur les motifs

Représentativité Chaque image correspond à un nombre suffisantsuffisant de motifs

Codage clairsemé Chaque image correspond à un nombre limitélimité de motifs

Orthogonalité des motifs Chaque couple de motifs a peu d’images en communpeu d’images en commun

+ Contraintes sémantiquesContraintes sémantiques E.g. : motifs connexesconnexes (zones de l’image) E.g. : motifs en ligneen ligne (contours) …

Page 11: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard.

Journée « Fouille d’images » 01/04/03 11/36

Les donnéesLes données

Base d’images tirées de la base COREL

12 classes différentes de scènes

Base de 1080 images (90 images / classe)

128 x 128 = 16384 en 128 niveaux de gris

ou : 64 x 64 = 4096 en 32 ou 16 niveaux de gris

On utilise 540 images pour chercher 1000 motifs fréquents

Page 12: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard.

Journée « Fouille d’images » 01/04/03 12/36

La base d’imagesLa base d’images

Page 13: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard.

Journée « Fouille d’images » 01/04/03 13/36

ConstatConstat

L’application directe de APRIORI est impossible

Il y a trop de motifs fréquents

Pour images 32 x 32 en 64 niveaux de gris

Il faut adapter l’algorithme et faire une Il faut adapter l’algorithme et faire une recherche stochastique recherche stochastique et et

non plus exhaustivenon plus exhaustive

Nb. élts / motif 1 2 3 4 5 6

Nb motifs 2 103 110 103 3,8 106 80 106 1,15 109 12,5 109

Page 14: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard.

Journée « Fouille d’images » 01/04/03 14/36

Adaptation de l’algorithmeAdaptation de l’algorithme

Recherche itérative et stochastique de motifs fréquents

Paramètres : taux de couverture . Nombre de motifs cherchés = N Nombre de motifs trouvés = n

Tant que n ≤ N faire

Choix dans un exemple xi encore peu couvert d’un premier atome a0 présent dans au moins

des exemples

motif <- a0

Tant que taux de couverture de motif > faire

Tirer au hasard un atome a de xi couvrant au moins des exemples et peu utilisé dans les motifs existants et satisfaisant les contraintes sémantiques

Si motif+a couvre au moins des exemple alors

motif <- motif +a

fin si

Fin tant que

Fin tant que

Page 15: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard.

Journée « Fouille d’images » 01/04/03 15/36

Les expériencesLes expériences

Nouvelles contraintes (choix des pixels) Min : les moins présents dans les motifs

Connexe : touchant les précédents

Ligne : formant des lignes

Paramètres Taille image : 64 x 64 x 16 (niveaux de gris)

Taux de couverture : 1, 2, 5, 10 %

Page 16: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard.

Journée « Fouille d’images » 01/04/03 16/36

Codage clairsemé Codage clairsemé Nb de FIS / imagesNb de FIS / images

10 20 30 40 50

= 1%

= 2%

= 5%= 5%

Page 17: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard.

Journée « Fouille d’images » 01/04/03 17/36

Codage clairsemé Codage clairsemé Nb de FIS / imagesNb de FIS / images

= 1%

= 2%

= 5%= 5%

Page 18: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard.

Journée « Fouille d’images » 01/04/03 18/36

Orthogonalité Orthogonalité Nb images par couple de motifsNb images par couple de motifs

= 1%

= 2%

= 5%= 5%

Page 19: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard.

Journée « Fouille d’images » 01/04/03 19/36

FIS : min_1%FIS : min_1%

Page 20: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard.

Journée « Fouille d’images » 01/04/03 20/36

FIS : min_1%FIS : min_1%

Page 21: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard.

Journée « Fouille d’images » 01/04/03 21/36

FIS : connexe_1%FIS : connexe_1%

Page 22: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard.

Journée « Fouille d’images » 01/04/03 22/36

FIS : connexe_1%FIS : connexe_1%

Page 23: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard.

Journée « Fouille d’images » 01/04/03 23/36

FIS : ligne_1%FIS : ligne_1%

Page 24: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard.

Journée « Fouille d’images » 01/04/03 24/36

FIS : ligne_1%FIS : ligne_1%

Page 25: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard.

Journée « Fouille d’images » 01/04/03 25/36

AnalyseAnalyse

Difficilement interprétables !!

Pas de contours, même quand contraintes dans ce sens

Malheureusement pas de comparaison possible avec ACI

puisque ACI non praticable

Page 26: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard.

Journée « Fouille d’images » 01/04/03 26/36

La classification : La classification : le protocolele protocole

Apprentissage d’une base de 1000 motifs sur 540 images

Les paramètres : Taille image (32 x 32, 64 x 64 ou 128 x 128)

Niveaux de gris (16, 32 ou 64)

Taux de couverture (1%, 2%, 5% ou 10%)

Note : Tous les résultats sont disponibles sur :

http://www.eleves.iie.cnam.fr/jouteau

Test sur les 540 images restantes (répété 10 fois)

Page 27: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard.

Journée « Fouille d’images » 01/04/03 27/36

La classification : la méthodeLa classification : la méthode

Chaque exempleexemple (dans X) est décrit par ses motifsdécrit par ses motifs (dans (X))

Un nouvel exemple est classé par une méthode de plus proches voisinsclassé par une méthode de plus proches voisins

(dans l’espace de redescription (X) ) 1-ppv

ou k-ppv avec pondération en fonction de la distance

X (X)

xx

Page 28: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard.

Journée « Fouille d’images » 01/04/03 28/36

Performances (Performances ( = 5%) = 5%)

Page 29: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard.

Journée « Fouille d’images » 01/04/03 29/36

Avec un réseau de neurones RBFAvec un réseau de neurones RBF

Page 30: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard.

Journée « Fouille d’images » 01/04/03 30/36

ComparaisonComparaison

Page 31: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard.

Journée « Fouille d’images » 01/04/03 31/36

Performances en classificationPerformances en classification

Résultats Meilleurs résultats pour = 2 ou 5 %

Assez comparable : min, connexe, ligne

Bien meilleurs que méthode RN

Peut mieux faire … Avec un appariement plus souple

Page 32: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard.

Journée « Fouille d’images » 01/04/03 32/36

AnalyseAnalyse

Pourquoi ça marche (si bien) ?

Recodage non supervisé !!

Puis une méthode de plus proche(s) voisin(s)

Quelles sont les propriétés de ce recodage ?Quelles sont les propriétés de ce recodage ?

X (X)

x x

Page 33: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard.

Journée « Fouille d’images » 01/04/03 33/36

Codage d’une imageCodage d’une image

QuickTime™ et un décompresseurBMP sont requis pour visualiser

cette image.

Image

Motifsprésents

dansl’image

Partie de l’imagecouverte parles motifs

Page 34: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard.

Journée « Fouille d’images » 01/04/03 34/36

Approches classiquesApproches classiques

Analyse fonctionnelle

+/-

PCA

Apprent. artificiel

ICA

Réducti

on

Approximatio

n

Orthogonalité

Indép.

des données

… et moins classiques

Page 35: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard.

Journée « Fouille d’images » 01/04/03 35/36

Ne permet pas la reconstruction des entrées

Les motifs sont orthogonaux : mais par rapport aux exemples d’apprentissage !!

Espace

Tous les points d’apprentissage sont orthogonaux dans cet espace

Le codage par motifs fréquentsLe codage par motifs fréquents

C100010

Page 36: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard.

Journée « Fouille d’images » 01/04/03 36/36

ConclusionConclusion

Analyse théorique en cours

Expérimentations

sur les scènes naturelles (poursuite du travail)

sur les puces ADN

sur la classification de textes de NewsGroups

Peut-être un nouveau type de traitement du signalPeut-être un nouveau type de traitement du signal