Méthodes en classification automatiqueantoine/Courses/Master-ISI/ISI... · Méthodes en...

21
Méthodes en classification automatique, ISI Méthodes en classification automatique Yves Lechevallier INRIA-Rocquencourt 78153 Le Chesnay Cedex E_mail : [email protected] Introduction

Transcript of Méthodes en classification automatiqueantoine/Courses/Master-ISI/ISI... · Méthodes en...

  • Méthodes en classification automatique, ISI

    Méthodes en classification automatique

    Yves LechevallierINRIA-Rocquencourt

    78153 Le Chesnay CedexE_mail : [email protected]

    Introduction

  • Méthodes en classification automatique, ISI

    Exploitation des données

    Quantité

    Qualité

    Données

    patterns

    Meta Data / Modèles

  • Méthodes en classification automatique, ISI

    Population ou échantillonnage des observations

    Notre information est contenue dans un ensemble E d’observations expérimentales. Chaque individu est associé une description qui est un vecteur de dimension p:

    [ ]Z z z z= =

    1

    11

    1 11

    1

    , , , ,L Li N

    j p

    i ij

    ip

    N Nj

    Np

    z z z

    z z z

    z z z

    Le tableau de données Z associé àl’ensemble E de N individus est une matrice ayant p colonnes et N lignes

    { }NE zz ,,1 L= est l’ensemble d’apprentissageEn statistique on suppose que l’ensemble E est un échantillonissu d’une population ayant une distribution inconnue.

  • Méthodes en classification automatique, ISI

    Espace de description

    élément de E

    D

    +

    + ++

    +

    ++

    XXj

    X1

    Xp

    + valeur dans D

  • Méthodes en classification automatique, ISI

    Exemple

    1 asticots 16,1343 8,46391

    … … … …

    247 carres 16,6233 13,1452

    asticots00.pgm

    carres01.pgm

    No Groupe X 1 X2

    Nom

    Image

    Tableau de données

  • Méthodes en classification automatique, ISI

    Tableau de données

    X1 … X j … Xp

    e1 … …

    … … …

    ei …

    … … …

    eN … …

    11x

    1ix

    jix

    jx1

    1Nx

    pix

    pNx

    px1

    jNx

    N objets ou individus E={e1,…, ei ,…, eN }

    p descripteurs X={X1,…, Xj,…, Xp}

    À chaque objet ei de E est associéun vecteur de description( )pijii xxx ,...,,...,1représentant les p mesures

    À chaque variable ou paramètre Xj est associé un vecteur ( )jNjij xxx ,...,,...,1représentant l’ensemble des valeurs observéesde E sur Xj

  • Méthodes en classification automatique, ISI

    Mesure de proximité

    E={e1,…, ei ,…, eN } ensemble de N individus

    d une mesure de proximité entre les individus de E+ℜ→× EEd :

    (E,d)

    Mesure de ressemblance:

    Plus deux individus sont proches plus la valeur de la mesure de ressemblance entre ces individus est élevée.

    Mesure de dissemblance:

    Plus deux individus sont proches plus la valeur de la mesure de dissemblance entre ces individus est petite.

  • Méthodes en classification automatique, ISI

    Variables

    Chaque variable aléatoire Xj est une fonction mesurable de

    Ω⊆EΩ est l’ensemble des observables

    jD→Ω

    Xj est une variable continueou quantitativesi Dj est R

    Xj est une variable discrèteou qualitativesi Dj est un ensemble fini {m1,…,mj}. Les éléments de Dj sont appelés modalitésde la variable Xj .

    Xj est une variable ordonnée s’il existe un ordre sur Dj .

  • Méthodes en classification automatique, ISI

    Distance et similarité

    +ℜ→× DDd :Distance d

    espace de description de E∏=

    =p

    jjDD

    1

    ),(),(),(,,)3(

    ),()(,)2(

    siseulement et si 0),()1(

    yzzxyxzyx

    xyyxyx

    yxyx

    ddd

    d,d

    d

    +≤∀=∀

    ==

    Sss

    s,s

    Ss

    =≤∀=∀

    =∀

    ),(),(,)3(

    ),()(,)2(

    ),()1(

    xxyxyx

    xyyxyx

    xxxSimilarités

    +ℜ→× DDs:

  • Méthodes en classification automatique, ISI

    La Classification Automatique (1/2)

    La classification non superviséepropose la recherche de classes homogènesà partir d’un ensemble d’observations.

    Objectif : les observations les plus semblables doivent appartenir à la même classe.

    C'est un objectif très intuitif mais ce n’est pas une définition précise de la notion de classe.

  • Méthodes en classification automatique, ISI

    La Classification Automatique (2/2)

    Les principales approches

    �Il existe des classes sous-jacenteset que le défi est de les découvrir,

    �il faut construire les classes dans un sens structurel, à travers les structures classificatoires,

    �il faut trouver les classes utilesà l'utilisateur.

    �Associer un conceptà chaque classe

  • Méthodes en classification automatique, ISI

    Problèmes de classification

    Il y a deux grandes catégoriesde problèmes de classification.

    Si, à chaque observation est associée une classe a priori et que l’objectif de la classification est de respecter, au mieux, ces classes a priori alors nous sommes dans un problème de discrimination ou de classification superviséeou de l’apprentissage avec professeur.

    S’il n’y a pas de classification a priori et que l’objectif de ce classement est de regrouper ces individus dans des classes homogènes en fonction de l’ensemble de variables sélectionnées. Ce type de problème est un problème de classification automatiqueou de classification non superviséeou bien d’apprentissage sans professeur.

  • Méthodes en classification automatique, ISI

    Difficultés

    Cette classification d’objets est réalisée à partir d’un vecteur de mesures. Ce vecteur correspond aux réponses de cet objet à un ensemble de paramètres ou variables définis a priori.

    La nature multidimensionnelle de la descriptionde ces objets présente l’une des difficultés les plus importantes dans la résolution d’un problème de classification.

    En général l’information initiale s’exprime sous la forme d’un système d’hypothèses probabilistesou sous la forme d’un critère objectifqui doit être optimisé.

  • Méthodes en classification automatique, ISI

    Hypothèses initiales

    On considère qu’un objet ou individu à classer est une entitéappartenant à une population théorique Π constituant l’ensemble des objets susceptibles être classés.

    Nous affirmons qu’il existe sur cette population Π une structure classificatoire.

    D’autre part on suppose qu’il existe une description des individus de Π. Cette description est un élément de l’ensemble appeléespace de descriptionou espace des données.

  • Méthodes en classification automatique, ISI

    Structures classificatoires

    0

    1

    2

    3

    4

    5

    0 1 2 3 4 5

    ee

    ee

    e

    1

    2

    3

    4

    5

    1 1

    21

    ) , ,

    )

    ∀ = ≠ ∅

    ==

    l L l

    l

    U

    K P

    P ElK

    on a

    0

    1

    2

    3

    4

    5

    0 1 2 3 4 5

    ee

    ee

    e

    1

    2

    3

    4

    5

    ∅=∩≠=∀

    mPP alors

    m et Km

    l

    lLl ,,1,)3

    PartitionRecouvrement

  • Méthodes en classification automatique, ISI

    Structures classificatoires

    Hiérarchie

    { }

    hhhhhh

    Hhh

    HeEe

    HE

    ⊂′′⊂⇒∅≠′∩∈′∀

    ∈∈∀∈

    ou

    :aon ,)3

    alors )2

    )1

    0

    1

    2

    3

    4

    5

    0 1 2 3 4 5

    ee

    ee

    e

    1

    2

    3

    4

    5

  • Méthodes en classification automatique, ISI

    Classification « numérique »

    0

    1

    2

    3

    4

    5

    0 1 2 3 4 5

    ee

    ee

    e

    1

    2

    3

    4

    5

    Distance

    e1 0

    e2 1,1 0

    e3 1,6 1,8 0

    e4 2,2 2,5 0,7 0

    e5 3,2 3,6 1,8 1,1 0

    Tableau des distances entre ces 5 individus

    Représentation d’un ensemble de 5 individus dans un plan.

    Chercher la structure classificatoire qui optimise un critère objectif sur ce tableau de distances

  • Méthodes en classification automatique, ISI

    Classe « homogène »

    Approche géométrique

    ∑∑∈ ∈

    =ki kPe Pe

    k dPwl

    l ),()(2 zzi

    Classe Pk Critère

    Modèle probabiliste

    Prototype

    ∑∈

    =ki Pe

    kkk LDLPw ),(),( iz

    jj

    K

    j

    pp πθ=θ ∑=

    )./()/(1

    zz ∏∈

    θ=θki Pe

    kikk pPL )/()/( z

    d distance

    Lk prototype

  • Méthodes en classification automatique, ISI

    Classification

    Cuvier :

    Pour qu’une partition soit bonne il faut que deux objets pris dans la même classe se ressemblent plus que deux objets pris dans deux classes différentes

    Construire une partition P qui vérifie les deux conditions :

    � si d(x,y) < α alors x et y doivent être mis dans la même classe

    �si d(x,y)> α alors x et y doivent être mis dans deux classes différentes

    Exemple : d(A,B)=2, d(B,C)=3 et d(A,C)=4

    Pour α =3 il est impossible de construire une partition

  • Méthodes en classification automatique, ISI

    Classification

    Si d est une distance ultramétrique

    { }),(),,(Max),(,,)4( yzzxyxzyx ddd ≤∀alors α≤⇔ ),( yxyx dR est une relation d’équivalence

    Solution 1 :Construire un espace ultramétrique

    (méthodes hiérarchiques)

    Solution 2 :Construire une partition optimisant un critère a priori

    (méthodes itératives)

  • Méthodes en classification automatique, ISI

    La classification automatique

    Méthodes

    de

    classification

    Tableau

    de

    données

    Tableau

    de distances

    Structures classificatoires

    partition

    e1 e2 e5 e4 e3

    hiérarchie