Download - Classification k-Medoides

Transcript
  • Problme de classificationClassification non supervise :Mthodes de partitionnement

  • *ClassificationRegrouper des objets en groupes, ou classes, ou familles, ousegments, ou clusters, de sorte que :- 2 objets dun mme groupe se ressemblent le + possible- 2 objets de groupes distincts diffrent le + possible- nombre des groupes est parfois fix

  • *ClassificationLes objets classer sont- des individus- des variables Mthode descriptive :- pas de variable cible privilgie- dcrire de faon simple une ralit complexe en la rsumant

  • *Exemple de classification

  • *ClassificationApplicationsMarketing :dcouper la clientle en segments dots chacun dune offre et dunecommunication spcifiqueMdical : dterminer des groupes de patients susceptibles dtre soumis des protocoles thrapeutiques dtermins, chaque groupe regroupant tous les patients ragissant identiquementSociologie : dcouper la population en groupes homognes du point de vue sociodmographique, Style de vie, opinions, attentesDtection des profils de clients de banques :clients tendance pargne , clients tendance crdit consommation , clients tendance crdit habitat

  • Cest quoi ?Regroupement (Clustering): construire une collection dobjetsSimilaires au sein dun mme groupeDissimilaires quand ils appartiennent des groupes diffrentsLe Clustering est de la classification non supervise: pas de classes prdfinies

  • *Quest ce quun bon regroupement ?Une bonne mthode de regroupement permet de garantirUne grande similarit intra-groupeUne faible similarit inter-groupe

  • *Qualit dun regroupementLa qualit dpend de: la mesure de similarit utilise par la mthode et de son implmentation

  • *Mesure de similaritMatrice de donnes

    Matrice de similarit

  • *Mesure de similaritMtrique pour la similarit: La similarit est exprime par le biais dune mesure de distanceLes dfinitions de distance sont trs diffrentes que les variables soient des intervalles (continues), catgories, boolennes ou ordinalesEn pratique, on utilise souvent une pondration des variables

  • *Mesure de similaritIntervalles:Binaires:catgories, ordinales, ratio:Diffrents types:La mesure dpend de la nature des attributs

  • *Les variables de type Intervalle (discrtes)Mesurer la similarit entre les diffrentes personnesCalculer la distance

    Feuil1

    AgeSalaire

    Personne15011000

    Personne27011100

    Personne36011122

    Personne46011074

    Feuil2

    Feuil3

  • *Distance de Minkowski :

    o i = (xi1, xi2, , xip) et j = (xj1, xj2, , xjp) sont deux objets p-dimensionnels et q un entier positifSi q = 1, d est la distance de Manhattan

    Les variables de type Intervalle (discrtes)

  • *Si q = 2, d est la distance Euclidienne :

    Propritsd(i,j) 0d(i,i) = 0d(i,j) = d(j,i)d(i,j) d(i,k) + d(k,j)Les variables de type Intervalle (discrtes)

  • *Standardiser les donnesCalculer lcart absolu moyen:

    o

    Calculer la mesure standardise (z-score)

    Les variables de type Intervalle (discrtes)

  • *Les variables de type Intervalle (discrtes)Msalaire=11074 Msalaire=?Standardiser les donnes

    AgeSalairePersonne1-2?Personne22?Personne30?Personne40?

    Feuil1

    AgeSalaire

    Personne15011000

    Personne27011100

    Personne36011122

    Personne46011074

    Feuil2

    Feuil3

  • *Distance de Manhattand(p1,p2)=120d(p1,p3)=132d(p1,p2)=6,7d(p1,p3)=5,29Conclusion: p1 ressemble plus p2 qu p3 Conclusion: ?distance normalise (z-Score)Les variables de type Intervalle (discrtes)

    AgeSalairePersonne1-2-2Personne220,70Personne301,29Personne400

    Feuil1

    AgeSalaire

    Personne15011000

    Personne27011100

    Personne36011122

    Personne46011074

    Feuil2

    Feuil3

  • *Les variables de type binairesUne table de contingence pour donnes binaires

    Exemple oi=(1,1,0,1,0) et oj=(1,0,0,0,1)a=1, b=2, c=1, d=1Objet iObjet ja= nombre de positions o i a 1 et j a 1

  • *Mesures de distancesCoefficient dappariement (matching) simple (invariant pour variables symtriques):

    Exemple oi=(1,1,0,1,0) et oj=(1,0,0,0,1) d(oi, oj)=3/5Coefficient de Jaccardd(oi, oj)=3/4

  • *Variables binaires (I)Variable symtrique: Ex. le sexe dune personne, i.e coder masculin par 1 et fminin par 0 cest pareil que le codage inverse

    Variable asymtrique: Ex. Test HIV. Le test peut tre positif ou ngatif (0 ou 1) mais il y a une valeur qui sera plus prsente que lautre. Gnralement, on code par 1 la modalit la moins frquente

  • *Variables binaires(II)Exemple

    Sexe est un attribut symtriqueLes autres attributs sont asymtriquesY et P 1, N 0, la distance nest mesure que sur les asymtriquesLes plus similaires sont Jack et Maryatteints de la mme maladie

  • *Les variables de type NominalesUne gnralisation des variables binaires, ex: rouge, vert et bleuMthode 1: Matching simplem: # dappariements, p: # total de variables

    Mthode 2: utiliser un grand nombre de variables binairesCrer une variable binaire pour chaque modalit (ex: variable rouge qui prend les valeurs vrai ou faux)

  • *Variables OrdinalesUne variable ordinale peut tre discrte ou continueLordre peut tre important, ex: classement Peuvent tre traites comme les variables intervallesremplacer xif par son rang Remplacer le rang de chaque variable par une valeur dans [0, 1] en remplaant la variable f dans lobjet I par

    Utiliser une distance pour calculer la similarit

  • *En Prsence de Variables de diffrents TypesPour chaque type de variables utiliser une mesure adquate. On utilise une formule pondre pour faire la combinaison

    f est binaire ou nominale:dij(f) = 0 si xif = xjf , sinon dij(f) = 1, ou distance de Jaccard f est de type intervalle: utiliser une distance normalise

    f est ordinalecalculer les rangs rif et Ensuite traiter zif comme une variable de type intervalle

  • *Mthodes de classificationk-reprsentants (k-medoids)Mthodes partitionnement

  • *Algorithmes partionnementConstruire une partition k clusters dune base D de n objetsLes k clusters doivent optimiser le critre choisiAlgorithmes k-medoidsk-medoids or PAM (Partition around medoids) (Kaufman & Rousseeuw87): Chaque cluster est reprsent par un de ses objets

  • *La mthode des K-Medoids (PAM)Trouver des objets reprsentatifs (medodes) dans les clusters (au lieu de la moyenne)PrincipeCommencer avec un ensemble de medodes puis itrativement remplacer un par un autre si a permet de rduire la distance globale

    Efficace pour des donnes de petite tailleAlgorithmes partionnement

  • *Algorithme des k-MedoidesChoisir arbitrairement k medoidesRpteraffecter chaque objet restant au medoide le plus procheChoisir alatoirement un non-medoide OrPour chaque medoide OjCalculer le cot TC du remplacement de Oj par OrSi TC < 0 alors Remplacer Oj par OrCalculer les nouveaux clustersFinsiFinPourJusqu ce ce quil ny ait plus de changement

  • *TCjh reprsente le gain en distance globale que lon va avoir en remplaant h par j

    Si TCjh est ngatif alors on va perdre en distance. Ca veut dire que les clusters seront plus compacts.

    TCjh=i dist(j,h)-dist(j,i)= i CijhAlgorithme des k-Medoides

  • *Soit A={1,3,4,5,8,9}, k=2 et M={1,8} ensemble des medoidesC1={1,3,4} et C2={5,8,9}E{1,8}=dist(3,1)2+dist(4,1)2+dist(5,8)2+dist(9,8)2=23

    Comparons 1 et 3M={3,8}C1={1,3,4,5} et C2={8,9} E{3,8} =dist(1,3)2+dist(4,3)2+dist(5,3)2+dist(9,8)2=10E {3,8} - E{1,8}= -13 E{3,8}Algorithme des k-Medoides: Exemple

  • Problme de classificationFinClassification non supervise :Mthodes de partitionnement

    *****************************