Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf ·...

104
Master 1 Informatique – Université Marne-la-Vallée (IGM) 14/02/2014 – Cours 3 Ingéniérie Linguistique Classification supervisée et non supervisée Philippe Gambette

Transcript of Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf ·...

Page 1: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

Master 1 Informatique – Université Marne-la-Vallée (IGM)14/02/2014 – Cours 3Ingéniérie Linguistique

Classification supervisée et non supervisée

Philippe Gambette

Page 2: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

• Cours de Matthieu Constant, Ingéniérie Informatique 1

http://igm.univ-mlv.fr/ens/Master/M1/2010-2011/IngenierieLinguistique1/cours.php

• Cours d'Alexandre Allauzen et Jérôme Azé, Université Paris-Sud

http://www.bioinfo-biostats-etudiants.u-psud.fr/Ressources/Cours/Master%202/ECT/

• Cours de Guillaume Wisniewski, Université Paris-Sud

http://perso.limsi.fr/Individu/wisniews/enseignement/old/10-11/10-11_rdf_m1/

Sources du cours

Page 3: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

• Introduction

• Classification supervisée de documents

• Approche du centroïde

• k-plus proches voisins

• Classifieurs linéaires et SVM

• Classification non supervisée

• k-moyennes

• Classification hiérarchique

• Partitionnement de graphes et modularité

Plan

Page 4: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

• Introduction

• Classification supervisée de documents

• Approche du centroïde

• k-plus proches voisins

• Classifieurs linéaires et SVM

• Classification non supervisée

• k-moyennes

• Classification hiérarchique

• Partitionnement de graphes et modularité

Plan

Page 5: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

Classification supervisée :

• On dispose d'éléments déjà classésExemple : articles en rubrique économie, politique, sport, culture...

• On veut classer un nouvel élémentExemple : lui attribuer une étiquette parmi économie, politique, sport, culture...

Classification non supervisée

• On dispose d'éléments non classésExemple : mots d'un texte

• On veut les regrouper en classesExemple : si deux mots ont la même étiquette, ils sont en rapport avec une même thématique...

Introduction

Page 6: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

Classification supervisée :

• On dispose d'éléments déjà classésExemple : articles en rubrique économie, politique, sport, culture...

• On veut classer un nouvel élémentExemple : lui attribuer une étiquette parmi économie, politique, sport, culture...

Classification non supervisée

• On dispose d'éléments non classésExemple : mots d'un texte

• On veut les regrouper en classesExemple : si deux mots ont la même étiquette, ils sont en rapport avec une même thématique...

Introduction

Page 7: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

Classification supervisée :

• On dispose d'éléments déjà classésExemple : articles en rubrique économie, politique, sport, culture...

• On veut classer un nouvel élémentExemple : lui attribuer une étiquette parmi économie, politique, sport, culture...

Classification non supervisée

• On dispose d'éléments non classésExemple : mots d'un texte

• On veut les regrouper en classesExemple : si deux mots ont la même étiquette, ils sont en rapport avec une même thématique...

Introduction

?

Page 8: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

?

Classification supervisée :

• On dispose d'éléments déjà classésExemple : articles en rubrique économie, politique, sport, culture...

• On veut classer un nouvel élémentExemple : lui attribuer une étiquette parmi économie, politique, sport, culture...

Classification non supervisée

• On dispose d'éléments non classésExemple : mots d'un texte

• On veut les regrouper en classesExemple : si deux mots ont la même étiquette, ils sont en rapport avec une même thématique...

Introduction

Page 9: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

?

Classification supervisée :

• On dispose d'éléments déjà classésExemple : articles en rubrique économie, politique, sport, culture...

• On veut classer un nouvel élémentExemple : lui attribuer une étiquette parmi économie, politique, sport, culture...

Classification non supervisée

• On dispose d'éléments non classésExemple : mots d'un texte

• On veut les regrouper en classesExemple : si deux mots ont la même étiquette, ils sont en rapport avec une même thématique...

Introduction

Page 10: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

?

Classification supervisée :

• On dispose d'éléments déjà classésExemple : articles en rubrique économie, politique, sport, culture...

• On veut classer un nouvel élémentExemple : lui attribuer une étiquette parmi économie, politique, sport, culture...

Classification non supervisée

• On dispose d'éléments non classésExemple : mots d'un texte

• On veut les regrouper en classesExemple : si deux mots ont la même étiquette, ils sont en rapport avec une même thématique...

Introduction

Page 11: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

Classification supervisée :

• On dispose d'éléments déjà classésExemple : articles en rubrique économie, politique, sport, culture...

• On veut classer un nouvel élémentExemple : lui attribuer une étiquette parmi économie, politique, sport, culture...

Classification non supervisée

• On dispose d'éléments non classésExemple : mots d'un texte

• On veut les regrouper en classesExemple : si deux mots ont la même étiquette, ils sont en rapport avec une même thématique...

Introduction

?

Page 12: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

• Introduction

• Classification supervisée de documents

• Approche du centroïde

• k-plus proches voisins

• Classifieurs linéaires et SVM

• Classification non supervisée

• k-moyennes

• Classification hiérarchique

• Partitionnement de graphes et modularité

Plan

Page 13: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

Conception d'une méthode

Étiquetage manuel du corpus + partitionnement du corpus en deux :

• un corpus d'apprentissage APP : éléments déjà classés + ou - (80%)

• un corpus d'évaluation EVAL : éléments à classer (20%)

• (si on organise un concours, un corpus de test TEST est fourni aux candidats)

Classification supervisée à deux classes

Page 14: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

Conception d'une méthode

Étiquetage manuel du corpus + partitionnement du corpus en deux :

• un corpus d'apprentissage APP : éléments déjà classés + ou - (80%)

• un corpus d'évaluation EVAL : éléments à classer (20%)

• (si on organise un concours, un corpus de test TEST est fourni aux candidats)

Classification supervisée à deux classes

Évaluation

• Précision : moyenne de la proportion de vrais documents + parmi les documents classés +, et de la proportion de vrais documents - parmi les documents classés -

• Rappel : moyenne de la proportion parmi les vrais documents +, des documents classés +, et de la proportion, parmi les vrais documents -, des documents classés -.

vrai document +document classé +vrai document +document classé +

Page 15: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

Conception d'une méthode

Étiquetage manuel du corpus + partitionnement du corpus en deux :

• un corpus d'apprentissage APP : éléments déjà classés + ou - (80%)

• un corpus d'évaluation EVAL : éléments à classer (20%)

• (si on organise un concours, un corpus de test TEST est fourni aux candidats)

Classification supervisée à deux classes

Évaluation

• Précision : moyenne de la proportion de vrais documents + parmi les documents classés +, et de la proportion de vrais documents - parmi les documents classés -

• Rappel : moyenne de la proportion parmi les vrais documents +, des documents classés +, et de la proportion, parmi les vrais documents -, des documents classés -.

vrai document +document classé +vrai document -document classé -

précision = 0.5rappel = 1précision = 1rappel = 0

précision = 0.75rappel = 0.5

Page 16: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

Conception d'une méthode

Étiquetage manuel du corpus + partitionnement du corpus en deux :

• un corpus d'apprentissage APP : éléments déjà classés + ou - (80%)

• un corpus d'évaluation EVAL : éléments à classer (20%)

• (si on organise un concours, un corpus de test TEST est fourni aux candidats)

Classification supervisée à deux classes

Évaluation

• Précision : moyenne de la proportion de vrais documents + parmi les documents classés +, et de la proportion de vrais documents - parmi les documents classés -

• Rappel : moyenne de la proportion parmi les vrais documents +, des documents classés +, et de la proportion, parmi les vrais documents -, des documents classés -.

vrai document +document classé +vrai document -document classé -

précision = 0.625rappel = 1précision = 1rappel = 0.4

précision = 0.8125rappel = 0.7

Page 17: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

Conception d'une méthode

Étiquetage manuel du corpus + partitionnement du corpus en deux :

• un corpus d'apprentissage APP : éléments déjà classés + ou - (80%)

• un corpus d'évaluation EVAL : éléments à classer (20%)

• (si on organise un concours, un corpus de test TEST est fourni aux candidats)

Classification supervisée à deux classes

Évaluation

• Précision : moyenne de la proportion de vrais documents + parmi les documents classés +, et de la proportion de vrais documents - parmi les documents classés -

• Rappel : moyenne de la proportion parmi les vrais documents +, des documents classés +, et de la proportion, parmi les vrais documents -, des documents classés -.

vrai document +document classé +vrai document -document classé -

précision = 0.667rappel = 0.3précision = 0.571rappel = 0.8

précision = 0.619rappel = 0.65

Page 18: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

Conception d'une méthode

Étiquetage manuel du corpus + partitionnement du corpus en deux :

• un corpus d'apprentissage APP : éléments déjà classés + ou - (80%)

• un corpus d'évaluation EVAL : éléments à classer (20%)

• (si on organise un concours, un corpus de test TEST est fourni aux candidats)

Classification supervisée à deux classes

Évaluation

• Précision : moyenne de la proportion de vrais documents + parmi les documents classés +, et de la proportion de vrais documents - parmi les documents classés -

• Rappel : moyenne de la proportion parmi les vrais documents +, des documents classés +, et de la proportion, parmi les vrais documents -, des documents classés -.

vrai document +document classé +vrai document -document classé -

précision = 1rappel = 0précision = 0.5rappel = 1

précision = 0.75rappel = 0.5

Page 19: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

Étiquettes non binaires, scores entre -1 et 1 :

Classification supervisée à deux classes

-0.7

-0.8

0.6

-0.9

-0.1

0.5-0.5

10.8 0.2

vrai document +document classé +vrai document -document classé -vrai-positiffaux-positif

Page 20: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

Étiquettes non binaires, scores entre -1 et 1 :

→ choix d'un seuil s pour attribuer l'étiquette – ou +

Classification supervisée à deux classes

-0.7

-0.8

0.6

-0.9

-0.1

0.5-0.5

10.8 0.2

vrai document +document classé +vrai document -document classé -vrai-positiffaux-positif

Page 21: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

Étiquettes non binaires, scores entre -1 et 1 :

→ choix d'un seuil s pour attribuer l'étiquette – ou +Exemple : s=0 (4 vrais positifs → fraction des vrais + classés + : 0.8)

(1 faux positif → fraction des vrais - classés + : 0.2)

Classification supervisée à deux classes

-0.7

-0.8

0.6

-0.9

-0.1

0.5-0.5

10.8 0.2

vrai document +document classé +vrai document -document classé -vrai-positiffaux-positif

Page 22: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

Étiquettes non binaires, scores entre -1 et 1 :

→ choix d'un seuil s pour attribuer l'étiquette – ou +Exemple : s=0 (4 vrais-positifs → fraction des vrais + classés + : 0.8)

(1 faux-positif → fraction des vrais - classés + : 0.2)

Classification supervisée à deux classes

-0.7

-0.8

0.6

-0.9

-0.1

0.5-0.5

10.8 0.2

vrai document +document classé +vrai document -document classé -vrai-positiffaux-positif

00

1

1

vrais-positifs

faux-positif

Page 23: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

Étiquettes non binaires, scores entre -1 et 1 :

→ choix d'un seuil s pour attribuer l'étiquette – ou +Exemple : s=1.1 (0 vrai-positif → fraction des vrais + classés + : 0)

(0 faux-positif → fraction des vrais - classés + : 0)

Classification supervisée à deux classes

-0.7

-0.8

0.6

-0.9

-0.1

0.5-0.5

10.8 0.2

vrai document +document classé +vrai document -document classé -vrai-positiffaux-positif

00

1

1

vrais-positifs

faux-positif

Page 24: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

Étiquettes non binaires, scores entre -1 et 1 :

→ choix d'un seuil s pour attribuer l'étiquette – ou +Exemple : s=-1.1 (5 vrais-positifs → fraction des vrais + classés + : 1)

(5 faux-positif → fraction des vrais - classés + : 1)

Classification supervisée à deux classes

-0.7

-0.8

0.6

-0.9

-0.1

0.5-0.5

10.8 0.2

vrai document +document classé +vrai document -document classé -vrai-positiffaux-positif

00

1

1

vrais-positifs

faux-positif

Page 25: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

Étiquettes non binaires, scores entre -1 et 1 :

→ choix d'un seuil s pour attribuer l'étiquette – ou +Exemple : s=0.4 (3 vrais-positifs → fraction des vrais + classés + : 0.6)

(1 faux-positif → fraction des vrais - classés + : 0.2)

Classification supervisée à deux classes

-0.7

-0.8

0.6

-0.9

-0.1

0.5-0.5

10.8 0.2

vrai document +document classé +vrai document -document classé -vrai-positiffaux-positif

00

1

1

vrais-positifs

faux-positif

Page 26: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

Étiquettes non binaires, scores entre -1 et 1 :

→ choix d'un seuil s pour attribuer l'étiquette – ou +Exemple : s=-0.4 (5 vrais-positifs → fraction des vrais + classés + : 1)

(1 faux-positif → fraction des vrais - classés + : 0.2)

Classification supervisée à deux classes

-0.7

-0.8

0.6

-0.9

-0.1

0.5-0.5

10.8 0.2

vrai document +document classé +vrai document -document classé -vrai-positiffaux-positif

00

1

1

vrais-positifs

faux-positif

Page 27: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

Étiquettes non binaires, scores entre -1 et 1 :

→ choix d'un seuil s pour attribuer l'étiquette – ou +

Classification supervisée à deux classes

-0.7

-0.8

0.6

-0.9

-0.1

0.5-0.5

10.8 0.2

vrai document +document classé +vrai document -document classé -vrai-positiffaux-positif

00

1

1

vrais-positifs

faux-positif

Page 28: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

Étiquettes non binaires, scores entre -1 et 1 :

→ choix d'un seuil s pour attribuer l'étiquette – ou +

La courbe ROC doit se rapprocher le plus possible de (0,1) pour un bon classifieur.

Classification supervisée à deux classes

-0.7

-0.8

0.6

-0.9

-0.1

0.5-0.5

10.8 0.2

vrai document +document classé +vrai document -document classé -vrai-positiffaux-positif

00

1

1

vrais-positifs

faux-positif

courbe ROC“Receiver Operating Characteristic”

Page 29: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

• Introduction

• Classification supervisée de documents

• Approche du centroïde

• k-plus proches voisins

• Classifieurs linéaires et SVM

• Classification non supervisée

• k-moyennes

• Classification hiérarchique

• Partitionnement de graphes et modularité

Plan

Page 30: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

Idée :

Représenter chaque classe par son centre et classer le nouvel élément en fonction de sa distance aux centres.

Approche du centroïde

Page 31: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

Idée :

Représenter chaque classe par son centre et classer le nouvel élément en fonction de sa distance aux centres.

Exemple en dimension 2 :

Approche du centroïde

Classe 1 :D1 (1,1)D2 (1,2)D3 (2,1)

Classe 2 :D4 (3,4)D5 (4,5)D6 (4,3)

Classe 3 :D7 (4,2)D8 (5,2)D9 (6,1)D10(4,1)0 1 2 3 4 5 6 7

7

6

5

4

3

2

1

0

Document D11(3,3) à classer

?

Page 32: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

Idée :

Représenter chaque classe par son centre et classer le nouvel élément en fonction de sa distance aux centres (= centroïdes, barycentres, moyennes).

Exemple en dimension 2 :

Approche du centroïde

Classe 1 :D1 (1,1)D2 (1,2)D3 (2,1)

Classe 2 :D4 (3,4)D5 (4,5)D6 (4,3)

Classe 3 :D7 (4,2)D8 (5,2)D9 (6,1)D10(4,1)

C1

C2

C3

7

6

5

4

3

2

1

00 1 2 3 4 5 6 7

Document D11(3,3) à classer

?

Page 33: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

Idée :

Représenter chaque classe par son centre et classer le nouvel élément en fonction de sa distance aux centres (= centroïdes, barycentres, moyennes).

Exemple en dimension 2 :

Approche du centroïde

Classe 1 :D1 (1,1)D2 (1,2)D3 (2,1)

Classe 2 :D4 (3,4)D5 (4,5)D6 (4,3)

Classe 3 :D7 (4,2)D8 (5,2)D9 (6,1)D10(4,1)

C1

C2

C3

7

6

5

4

3

2

1

00 1 2 3 4 5 6 7

i-ième coordonnée du centroïde de la classe k :

Cki =

Σ Dji

|classe k|

Dj ϵ classe k

Document D11(3,3) à classer

?

Page 34: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

7

6

5

4

3

2

1

0

Idée :

Représenter chaque classe par son centre et classer le nouvel élément en fonction de sa distance aux centres (= centroïdes, barycentres, moyennes).

Exemple en dimension 2 :

Approche du centroïde

Classe 1 :D1 (1,1)D2 (1,2)D3 (2,1)

Classe 2 :D4 (3,4)D5 (4,5)D6 (4,3)

Classe 3 :D7 (4,2)D8 (5,2)D9 (6,1)D10(4,1)

C1(1.333,1.333)

C2(3.667,4)

C3(4.75,1.5)

0 1 2 3 4 5 6 7

i-ième coordonnée du centroïde de la classe k :

Cki =

Σ Dji

|classe k|

Document D11(3,3) à classer

?

Dj ϵ classe k

Page 35: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

7

6

5

4

3

2

1

0

Idée :

Représenter chaque classe par son centre et classer le nouvel élément en fonction de sa distance aux centres (= centroïdes, barycentres, moyennes).

Exemple en dimension 2 :

Approche du centroïde

Classe 1 :D1 (1,1)D2 (1,2)D3 (2,1)

Classe 2 :D4 (3,4)D5 (4,5)D6 (4,3)

Classe 3 :D7 (4,2)D8 (5,2)D9 (6,1)D10(4,1)

C1(1.333,1.333)

C2(3.667,4)

C3(4.75,1.5)

0 1 2 3 4 5 6 7

i-ième coordonnée du centroïde de la classe k :

Cki =

Σ Dji

|classe k|

Document D11(3,3) à classer

?

Dj ϵ classe k

Page 36: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

7

6

5

4

3

2

1

0

Idée :

Représenter chaque classe par son centre et classer le nouvel élément en fonction de sa distance aux centres (= centroïdes, barycentres, moyennes).

Exemple en dimension 2 :

Approche du centroïde

Classe 1 :D1 (1,1)D2 (1,2)D3 (2,1)

Classe 2 :D4 (3,4)D5 (4,5)D6 (4,3)

Classe 3 :D7 (4,2)D8 (5,2)D9 (6,1)D10(4,1)

C1(1.333,1.333)

C2(3.667,4)

C3(4.75,1.5)

0 1 2 3 4 5 6 7

Document D11(3,3) à classer

Carrés des distances euclidiennes aux centroïdes

?

Page 37: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

7

6

5

4

3

2

1

0

Idée :

Représenter chaque classe par son centre et classer le nouvel élément en fonction de sa distance aux centres (= centroïdes, barycentres, moyennes).

Exemple en dimension 2 :

Approche du centroïde

Classe 1 :D1 (1,1)D2 (1,2)D3 (2,1)

Classe 2 :D4 (3,4)D5 (4,5)D6 (4,3)

Classe 3 :D7 (4,2)D8 (5,2)D9 (6,1)D10(4,1)

C1(1.333,1.333)

C2(3.667,4)

C3(4.75,1.5)

0 1 2 3 4 5 6 7

Document D11(3,3) à classer

Carrés des distances euclidiennes aux centroïdes→ Classe 2 !

?

Page 38: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

• Introduction

• Classification supervisée de documents

• Approche du centroïde

• k-plus proches voisins

• Classifieurs linéaires et SVM

• Classification non supervisée

• k-moyennes

• Classification hiérarchique

• Partitionnement de graphes et modularité

Plan

Page 39: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

Idée :

Choisir pour chaque sommet la classe majoritaire parmi ses k plus proches voisins.

Exemple en dimension 2, k=3 :

Approche des k plus proches voisins

Classe 1 :D1 (1,1)D2 (1,2)D3 (2,1)

Classe 2 :D4 (3,4)D5 (4,5)D6 (4,3)

Classe 3 :D7 (4,2)D8 (5,2)D9 (6,1)D10(4,1)0 1 2 3 4 5 6 7

7

6

5

4

3

2

1

0

Document D11(3,3) à classer

?

Page 40: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

Idée :

Choisir pour chaque sommet la classe majoritaire parmi ses k plus proches voisins.

Exemple en dimension 2, k=3 :

Approche des k plus proches voisins

Classe 1 :D1 (1,1)D2 (1,2)D3 (2,1)

Classe 2 :D4 (3,4)D5 (4,5)D6 (4,3)

Classe 3 :D7 (4,2)D8 (5,2)D9 (6,1)D10(4,1)0 1 2 3 4 5 6 7

7

6

5

4

3

2

1

0

Document D11(3,3) à classer

?

Page 41: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

Idée :

Choisir pour chaque sommet la classe majoritaire parmi ses k plus proches voisins.

Exemple en dimension 2, k=3 :

Approche des k plus proches voisins

Classe 1 :D1 (1,1)D2 (1,2)D3 (2,1)

Classe 2 :D4 (3,4)D5 (4,5)D6 (4,3)

Classe 3 :D7 (4,2)D8 (5,2)D9 (6,1)D10(4,1)0 1 2 3 4 5 6 7

7

6

5

4

3

2

1

0

Document D11(3,3) à classer

?

Page 42: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

Idée :

Choisir pour chaque sommet la classe majoritaire parmi ses k plus proches voisins.

Exemple en dimension 2, k=10 :

Approche des k plus proches voisins

Classe 1 :D1 (1,1)D2 (1,2)D3 (2,1)

Classe 2 :D4 (3,4)D5 (4,5)D6 (4,3)

Classe 3 :D7 (4,2)D8 (5,2)D9 (6,1)D10(4,1)0 1 2 3 4 5 6 7

7

6

5

4

3

2

1

0

Document D11(3,3) à classer

?

Page 43: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

Idée :

Choisir pour chaque sommet la classe majoritaire parmi ses k plus proches voisins.

Exemple en dimension 2, k=10 :

Approche des k plus proches voisins

Classe 1 :D1 (1,1)D2 (1,2)D3 (2,1)

Classe 2 :D4 (3,4)D5 (4,5)D6 (4,3)

Classe 3 :D7 (4,2)D8 (5,2)D9 (6,1)D10(4,1)0 1 2 3 4 5 6 7

7

6

5

4

3

2

1

0

Document D11(3,3) à classer

?

Page 44: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

Idée :

Choisir pour chaque sommet la classe majoritaire parmi ses k plus proches voisins.

Exemple en dimension 2, k=10 :

Approche des k plus proches voisins

Classe 1 :D1 (1,1)D2 (1,2)D3 (2,1)

Classe 2 :D4 (3,4)D5 (4,5)D6 (4,3)

Classe 3 :D7 (4,2)D8 (5,2)D9 (6,1)D10(4,1)0 1 2 3 4 5 6 7

7

6

5

4

3

2

1

0

Document D11(3,3) à classer

?

Page 45: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

Cas d'égalité ?

• Augmenter k de 1 ? Fonctionnera si classification à 2 classes, risque d'échouer sinon.

• Tirage au hasard.

• Pondération des voisins par rapport à leur distance au point à classer.

Approche des k plus proches voisins

Page 46: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

• Introduction

• Classification supervisée de documents

• Approche du centroïde

• k-plus proches voisins

• Classifieurs linéaires et SVM

• Classification non supervisée

• k-moyennes

• Classification hiérarchique

• Partitionnement de graphes et modularité

Plan

Page 47: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

Idée pour une classification supervisée à 2 classes :

Choisir une ligne qui sépare le mieux les deux classes

Exemple en dimension 2 :

Classifieurs linéaires

0 1 2 3 4 5 6 7

7

6

5

4

3

2

1

0

?

Page 48: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

Idée pour une classification supervisée à 2 classes :

Choisir une ligne qui sépare le mieux les deux classes

Exemple en dimension 2 :

Classifieurs linéaires

0 1 2 3 4 5 6 7

7

6

5

4

3

2

1

0

?

Classifieur linéaire : d'un côté bleu, de l'autre rouge.

Page 49: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

Idée pour une classification supervisée à 2 classes :

Choisir une ligne qui sépare le mieux les deux classes

Exemple en dimension 2 :

Classifieurs linéaires

0 1 2 3 4 5 6 7

7

6

5

4

3

2

1

0

?

Classifieur linéaire : d'un côté bleu, de l'autre rouge.

Page 50: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

Idée pour une classification supervisée à 2 classes :

Choisir une ligne qui sépare le mieux les deux classes

Exemple en dimension 2 :

Classifieurs linéaires

0 1 2 3 4 5 6 7

7

6

5

4

3

2

1

0

?

Quelle droite choisir ?

Page 51: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

Idée pour une classification supervisée à 2 classes :

Choisir une ligne qui sépare le mieux les deux classes

Exemple en dimension 2 :

Classifieurs linéaires - SVM

0 1 2 3 4 5 6 7

7

6

5

4

3

2

1

0

?

Quelle droite choisir ?

Séparateur à Vastes Marges : maximiser la margede part et d'autre duclassifieur linéaire.

Page 52: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

Idée pour une classification supervisée à 2 classes :

Choisir une ligne qui sépare le mieux les deux classes

Exemple en dimension 2 :

Classifieurs linéaires - SVM

0 1 2 3 4 5 6 7

7

6

5

4

3

2

1

0

?

Quelle droite choisir ?

Séparateur à Vastes Marges : maximiser la margede part et d'autre duclassifieur linéaire.

+ généralisation à des classifieurs non linéaires par transformation dans un espace de plus grande dimension où il existe un hyperplan

linéaire séparateur “kernel trick”https://www.lri.fr/~sebag/Slides/Cachan_5_2013.pdf

Page 53: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

• Introduction

• Classification supervisée de documents

• Approche du centroïde

• k-plus proches voisins

• Classifieurs linéaires et SVM

• Classification non supervisée

• k-moyennes

• Classification hiérarchique

• Partitionnement de graphes et modularité

Plan

Page 54: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

Classification non supervisée

Objectif : trouver une partition des données

Évaluation

Qualité des partitions calculées ?

• Formule de Rand entre deux partitions P1 et P2 :

Rand(P1,P2) = ratio de paires d'éléments se comportant pareil dans P1 et P2

http://en.wikipedia.org/wiki/Rand_index

Page 55: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

Classification non supervisée

Objectif : trouver une partition des données

Évaluation

• Si aucune partition de référence n'est connue, vérifier que :

- les éléments proches sont dans un même ensemble (ou “cluster”) de la partition

- les éléments éloignés sont dans deux ensembles différents de la partition

• Si une partition de référence est connue :

→ distance avec la partition de référence ?

Page 56: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

Classification non supervisée

Objectif : trouver une partition des données

Évaluation

Qualité des partitions calculées si une partition de référence P1 est connue ?

• Formule de Rand entre deux partitions P1 et P2 :

Rand(P1,P2) = ratio de paires d'éléments se comportant pareil dans P1 et P2

http://en.wikipedia.org/wiki/Rand_index

réunies dans P1 et dans P2ou séparées dans P1 et dans P2

Page 57: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

Classification non supervisée

Objectif : trouver une partition des données

Évaluation

Qualité des partitions calculées si une partition de référence P1 est connue ?

• Formule de Rand entre deux partitions P1 et P2 :

Rand(P1,P2) = ratio de paires d'éléments se comportant pareil dans P1 et P2

• Formule “adjusted Rand” entre deux partitions P1 et P2 :

Prise en compte du fait que certaines paires se comportent pareil par hasard.

http://en.wikipedia.org/wiki/Rand_index

Page 58: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

• Introduction

• Classification supervisée de documents

• Approche du centroïde

• k-plus proches voisins

• Classifieurs linéaires et SVM

• Classification non supervisée

• k-moyennes

• Classification hiérarchique

• Partitionnement de graphes et modularité

Plan

Page 59: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

5

4

3

2

1

0

Idée :

• Choisir k points au hasard, et les considérer comme des centroïdes

• Distribuer les points dans les k classes ainsi formées selon leur proximité au centroïde

• Utiliser les barycentres des classes comme nouveaux centroïdes et répéter jusqu'à ce qu'il n'y ait plus de changement.

Exemple en dimension 2 avec k=3 :

k-moyennes

0 1 2 3 4 5 6 7

Page 60: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

5

4

3

2

1

0

Idée :

• Choisir k points au hasard, et les considérer comme des centroïdes

• Distribuer les points dans les k classes ainsi formées selon leur proximité au centroïde

• Utiliser les barycentres des classes comme nouveaux centroïdes et répéter jusqu'à ce qu'il n'y ait plus de changement.

Exemple en dimension 2 avec k=3 :

k-moyennes

0 1 2 3 4 5 6 7

Page 61: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

5

4

3

2

1

0

Idée :

• Choisir k points au hasard, et les considérer comme des centroïdes

• Distribuer les points dans les k classes ainsi formées selon leur proximité au centroïde

• Utiliser les barycentres des classes comme nouveaux centroïdes et répéter jusqu'à ce qu'il n'y ait plus de changement.

Exemple en dimension 2 avec k=3 :

k-moyennes

0 1 2 3 4 5 6 7

Page 62: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

5

4

3

2

1

0

Idée :

• Choisir k points au hasard, et les considérer comme des centroïdes

• Distribuer les points dans les k classes ainsi formées selon leur proximité au centroïde

• Utiliser les barycentres des classes comme nouveaux centroïdes et répéter jusqu'à ce qu'il n'y ait plus de changement.

Exemple en dimension 2 avec k=3 :

k-moyennes

0 1 2 3 4 5 6 7

Page 63: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

5

4

3

2

1

0

Idée :

• Choisir k points au hasard, et les considérer comme des centroïdes

• Distribuer les points dans les k classes ainsi formées selon leur proximité au centroïde

• Utiliser les barycentres des classes comme nouveaux centroïdes et répéter jusqu'à ce qu'il n'y ait plus de changement.

Exemple en dimension 2 avec k=3 :

k-moyennes

0 1 2 3 4 5 6 7

Page 64: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

5

4

3

2

1

0

Idée :

• Choisir k points au hasard, et les considérer comme des centroïdes

• Distribuer les points dans les k classes ainsi formées selon leur proximité au centroïde

• Utiliser les barycentres des classes comme nouveaux centroïdes et répéter jusqu'à ce qu'il n'y ait plus de changement.

Exemple en dimension 2 avec k=3 :

k-moyennes

0 1 2 3 4 5 6 7

Page 65: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

5

4

3

2

1

0

Idée :

• Choisir k points au hasard, et les considérer comme des centroïdes

• Distribuer les points dans les k classes ainsi formées selon leur proximité au centroïde

• Utiliser les barycentres des classes comme nouveaux centroïdes et répéter jusqu'à ce qu'il n'y ait plus de changement.

Exemple en dimension 2 avec k=3 :

k-moyennes

0 1 2 3 4 5 6 7

Page 66: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

5

4

3

2

1

0

Idée :

• Choisir k points au hasard, et les considérer comme des centroïdes

• Distribuer les points dans les k classes ainsi formées selon leur proximité au centroïde

• Utiliser les barycentres des classes comme nouveaux centroïdes et répéter jusqu'à ce qu'il n'y ait plus de changement.

Exemple en dimension 2 avec k=3 :

k-moyennes

0 1 2 3 4 5 6 7

Page 67: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

5

4

3

2

1

0

Idée :

• Choisir k points au hasard, et les considérer comme des centroïdes

• Distribuer les points dans les k classes ainsi formées selon leur proximité au centroïde

• Utiliser les barycentres des classes comme nouveaux centroïdes et répéter jusqu'à ce qu'il n'y ait plus de changement.

Exemple en dimension 2 avec k=3 :

k-moyennes

0 1 2 3 4 5 6 7

Page 68: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

5

4

3

2

1

0

Idée :

• Choisir k points au hasard, et les considérer comme des centroïdes

• Distribuer les points dans les k classes ainsi formées selon leur proximité au centroïde

• Utiliser les barycentres des classes comme nouveaux centroïdes et répéter jusqu'à ce qu'il n'y ait plus de changement.

Exemple en dimension 2 avec k=3 :

k-moyennes

0 1 2 3 4 5 6 7

Diagramme de Voronoi

Page 69: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

• Introduction

• Classification supervisée de documents

• Approche du centroïde

• k-plus proches voisins

• Classifieurs linéaires et SVM

• Classification non supervisée

• k-moyennes

• Classification hiérarchique

• Partitionnement de graphes et modularité

Plan

Page 70: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

5

4

3

2

1

0

Idée :

• Prendre les deux points les plus proches, les fusionner, considérer leur moyenne par la suite.

• Répéter jusqu'à un critère d'arrêt (par exemple distance supérieure à une certaine valeur)

• Ou bien découper l'arbre des fusions pour obtenir des classes

Exemple en dimension 2 :

Classification hiérarchique

0 1 2 3 4 5 6 7

Page 71: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

5

4

3

2

1

0

Idée :

• Prendre les deux points les plus proches, les fusionner, considérer leur moyenne par la suite.

• Répéter jusqu'à un critère d'arrêt (par exemple distance supérieure à une certaine valeur)

• Ou bien découper l'arbre des fusions pour obtenir des classes

Exemple en dimension 2 :

Classification hiérarchique

0 1 2 3 4 5 6 7

Page 72: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

5

4

3

2

1

0

Idée :

• Prendre les deux points les plus proches, les fusionner, considérer leur moyenne par la suite.

• Répéter jusqu'à un critère d'arrêt (par exemple distance supérieure à une certaine valeur)

• Ou bien découper l'arbre des fusions pour obtenir des classes

Exemple en dimension 2 :

Classification hiérarchique

0 1 2 3 4 5 6 7

Page 73: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

5

4

3

2

1

0

Idée :

• Prendre les deux points les plus proches, les fusionner, considérer leur moyenne par la suite.

• Répéter jusqu'à un critère d'arrêt (par exemple distance supérieure à une certaine valeur)

• Ou bien découper l'arbre des fusions pour obtenir des classes

Exemple en dimension 2 :

Classification hiérarchique

0 1 2 3 4 5 6 7

Page 74: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

5

4

3

2

1

0

Idée :

• Prendre les deux points les plus proches, les fusionner, considérer leur moyenne par la suite.

• Répéter jusqu'à un critère d'arrêt (par exemple distance supérieure à une certaine valeur)

• Ou bien découper l'arbre des fusions pour obtenir des classes

Exemple en dimension 2 :

Classification hiérarchique

0 1 2 3 4 5 6 7

Page 75: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

5

4

3

2

1

0

Idée :

• Prendre les deux points les plus proches, les fusionner, considérer leur moyenne par la suite.

• Répéter jusqu'à un critère d'arrêt (par exemple distance supérieure à une certaine valeur)

• Ou bien découper l'arbre des fusions pour obtenir des classes

Exemple en dimension 2 :

Classification hiérarchique

0 1 2 3 4 5 6 7

Page 76: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

5

4

3

2

1

0

Idée :

• Prendre les deux points les plus proches, les fusionner, considérer leur moyenne par la suite.

• Répéter jusqu'à un critère d'arrêt (par exemple distance supérieure à une certaine valeur)

• Ou bien découper l'arbre des fusions pour obtenir des classes

Exemple en dimension 2 :

Classification hiérarchique

0 1 2 3 4 5 6 7

Page 77: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

5

4

3

2

1

0

Idée :

• Prendre les deux points les plus proches, les fusionner, considérer leur moyenne par la suite.

• Répéter jusqu'à un critère d'arrêt (par exemple distance supérieure à une certaine valeur)

• Ou bien découper l'arbre des fusions pour obtenir des classes

Exemple en dimension 2 :

Classification hiérarchique

0 1 2 3 4 5 6 7

Page 78: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

5

4

3

2

1

0

Idée :

• Prendre les deux points les plus proches, les fusionner, considérer leur moyenne par la suite.

• Répéter jusqu'à un critère d'arrêt (par exemple distance supérieure à une certaine valeur)

• Ou bien découper l'arbre des fusions pour obtenir des classes

Exemple en dimension 2 :

Classification hiérarchique

0 1 2 3 4 5 6 7

Page 79: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

5

4

3

2

1

0

Idée :

• Prendre les deux points les plus proches, les fusionner, considérer leur moyenne par la suite.

• Répéter jusqu'à un critère d'arrêt (par exemple distance supérieure à une certaine valeur)

• Ou bien découper l'arbre des fusions pour obtenir des classes

Exemple en dimension 2 :

Classification hiérarchique

0 1 2 3 4 5 6 7

Page 80: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

5

4

3

2

1

0

Idée :

• Prendre les deux points les plus proches, les fusionner, considérer leur moyenne par la suite.

• Répéter jusqu'à un critère d'arrêt (par exemple distance supérieure à une certaine valeur)

• Ou bien découper l'arbre des fusions pour obtenir des classes

Exemple en dimension 2 :

Classification hiérarchique

0 1 2 3 4 5 6 7

Page 81: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

5

4

3

2

1

0

Idée :

• Prendre les deux points les plus proches, les fusionner, considérer leur moyenne par la suite.

• Répéter jusqu'à un critère d'arrêt (par exemple distance supérieure à une certaine valeur)

• Ou bien découper l'arbre des fusions pour obtenir des classes

Exemple en dimension 2 :

Classification hiérarchique

0 1 2 3 4 5 6 7

Page 82: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

5

4

3

2

1

0

Idée :

• Prendre les deux points les plus proches, les fusionner, considérer leur moyenne par la suite.

• Répéter jusqu'à un critère d'arrêt (par exemple distance supérieure à une certaine valeur)

• Ou bien découper l'arbre des fusions pour obtenir des classes

Exemple en dimension 2 :

Classification hiérarchique

0 1 2 3 4 5 6 7

Page 83: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

5

4

3

2

1

0

Idée :

• Prendre les deux points les plus proches, les fusionner, considérer leur moyenne par la suite.

• Répéter jusqu'à un critère d'arrêt (par exemple distance supérieure à une certaine valeur)

• Ou bien découper l'arbre des fusions pour obtenir des classes

Exemple en dimension 2 :

Classification hiérarchique

0 1 2 3 4 5 6 7

Page 84: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

5

4

3

2

1

0

Idée :

• Prendre les deux points les plus proches, les fusionner, considérer leur moyenne par la suite.

• Répéter jusqu'à un critère d'arrêt (par exemple distance supérieure à une certaine valeur)

• Ou bien découper l'arbre des fusions pour obtenir des classes

Exemple en dimension 2 :

Classification hiérarchique

0 1 2 3 4 5 6 7

Page 85: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

5

4

3

2

1

0

Idée :

• Prendre les deux points les plus proches, les fusionner, considérer leur moyenne par la suite.

• Répéter jusqu'à un critère d'arrêt (par exemple distance supérieure à une certaine valeur)

• Ou bien découper l'arbre des fusions pour obtenir des classes

Exemple en dimension 2 :

Classification hiérarchique

0 1 2 3 4 5 6 7

Page 86: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

5

4

3

2

1

0

Idée :

• Prendre les deux points les plus proches, les fusionner, considérer leur moyenne par la suite.

• Répéter jusqu'à un critère d'arrêt (par exemple distance supérieure à une certaine valeur)

• Ou bien découper l'arbre des fusions pour obtenir des classes

Exemple en dimension 2 :

Classification hiérarchique

0 1 2 3 4 5 6 7

Page 87: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

5

4

3

2

1

0

Idée :

• Prendre les deux points les plus proches, les fusionner, considérer leur moyenne par la suite.

• Répéter jusqu'à un critère d'arrêt (par exemple distance supérieure à une certaine valeur)

• Ou bien découper l'arbre des fusions pour obtenir des classes

Exemple en dimension 2 :

Classification hiérarchique

0 1 2 3 4 5 6 7

Page 88: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

5

4

3

2

1

0

Idée :

• Prendre les deux points les plus proches, les fusionner, considérer leur moyenne par la suite.

• Répéter jusqu'à un critère d'arrêt (par exemple distance supérieure à une certaine valeur)

• Ou bien découper l'arbre des fusions pour obtenir des classes

Exemple en dimension 2 :

Classification hiérarchique

0 1 2 3 4 5 6 7

Page 89: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

5

4

3

2

1

0

Idée :

• Prendre les deux points les plus proches, les fusionner, considérer leur moyenne par la suite.

• Répéter jusqu'à un critère d'arrêt (par exemple distance supérieure à une certaine valeur)

• Ou bien découper l'arbre des fusions pour obtenir des classes

Exemple en dimension 2 :

Classification hiérarchique

0 1 2 3 4 5 6 7

Fonctionne aussi si on n'a pas les coordonnées des points mais seulement

les distances entre paires de points !

Page 90: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

5

4

3

2

1

0

Idée :

• Prendre les deux points les plus proches, les fusionner, considérer leur moyenne par la suite.

• Répéter jusqu'à un critère d'arrêt (par exemple distance supérieure à une certaine valeur)

• Ou bien découper l'arbre des fusions pour obtenir des classes

Exemple en dimension 2 :

Classification hiérarchique

0 1 2 3 4 5 6 7

Arbre construit de bas en hautMéthode bottom-up

Page 91: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

Variantes de la classification hiérarchiques

Pour calculer la distance entre deux classes C1 et C2 :

• calculer la moyenne des distances entre les éléments de C1 et les éléments de C2

• calculer le minimum des distances entre les éléments de C1 et les éléments de C2

• calculer le maximum des distances entre les éléments de C1 et les éléments de C2

Méthodes par division (top-down) plutôt que par agglomération (bottom-up)

Classification hiérarchique

Page 92: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

• Introduction

• Classification supervisée de documents

• Approche du centroïde

• k-plus proches voisins

• Classifieurs linéaires et SVM

• Classification non supervisée

• k-moyennes

• Classification hiérarchique

• Partitionnement de graphes et modularité

Plan

Page 93: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

Classification non supervisée des sommets d'un graphe :

Une arête relie deux sommets à petite distance (forte similarité).

Partitionnement de graphes

Page 94: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

Classification non supervisée des sommets d'un graphe :

Une arête relie deux sommets à petite distance (forte similarité).

Score de qualité du partitionnement ?

La modularité

Girvan & Newman 2004

Pas besoin de paramètres : nombre de classes et tailles des classes fixées automatiquement par l'optimisation de la modularité

Partitionnement de graphes et modularité

Page 95: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

Partitionnement de graphes et modularité

Partitionnement d'un réseau : couvrir tous les sommets par des classes disjointes

Modularité : qualité du partitionnementGirvan & Newman 2004

M(G,P) = Σ M( C

i )

M( C

i ) = e

ii - (e

ii + Σ e

ij /2)²

eij = proportion d'arêtes avec un sommet

dans Ci et l'autre dans C

j

j≠i

Ci Є P

Page 96: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

Partitionnement de graphes et modularité

Partitionnement d'un réseau : couvrir tous les sommets par des classes disjointes

proportion d'arêtes observées dans la

classe Ci

proportion d'arêtes attendues dans la classe C s'il n'y avait pas de communauté, et répartition au hasard en respectant les degrés

Modularité : qualité du partitionnementGirvan & Newman 2004

M(G,P) = Σ M( C

i )

M( C

i ) = e

ii - (e

ii + Σ e

ij /2)²

eij = proportion d'arêtes avec un sommet

dans Ci et l'autre dans C

j

Ci Є P

j≠i

Page 97: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

Partitionnement de graphes et modularité

Partitionnement d'un réseau : couvrir tous les sommets par des classes disjointes

Ci Є P

Modularité : qualité du partitionnementGirvan & Newman 2004

M(G,P) = Σ M( C

i )

M( C

i ) = e

ii - (e

ii + Σ e

ij /2)²

eij = proportion d'arêtes avec un sommet

dans Ci et l'autre dans C

j

C1

C2

C3

C4

e11

= 3 ; e12

= 2 ; e13

= 1 ; e14

= 1

M(C1) = 3/100 – (5/100)² = 0.0275

proportion d'arêtes observées dans la

classe Ci

proportion d'arêtes attendues dans la classe C s'il n'y avait pas de communauté, et répartition au hasard en respectant les degrés

j≠i

Page 98: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

Partitionnement de graphes et modularité

Partitionnement d'un réseau : couvrir tous les sommets par des classes disjointes

u,v

Modularité : formule équivalenteNewman 2004

12m

d(u)d(v)2mM(G,P) = Σ (G

uv - )α

uv

Guv

= 1 si u et v adjacents 0 sinon

αuv

= 1 si u et v dans la même classe 0 sinon

Page 99: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

Partitionnement de graphes et modularité

Partitionnement d'un réseau : couvrir tous les sommets par des classes disjointes

u,v

Modularité : formule équivalenteNewman 2004

12m

d(u)d(v)2mM(G,P) = Σ (G

uv - )α

uv

Guv

= 1 si u et v adjacents 0 sinon

αuv

= 1 si u et v dans la même classe 0 sinon Possibilité d'étendre

aux graphes aux arêtes pondérées

Page 100: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

Partitionnement de graphes et modularité

Partitionnement d'un réseau : couvrir tous les sommets par des classes disjointes

u,v

Modularité : formule équivalenteNewman 2004

12m

d(u)d(v)2mM(G,P) = Σ (G

uv - )α

uv

Guv

= 1 si u et v adjacents 0 sinon

αuv

= 1 si u et v dans la même classe 0 sinon

wuv

Page 101: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

Partitionnement de graphes et modularité

Partitionnement d'un réseau : couvrir tous les sommets par des classes disjointes

u,v

Modularité : formule équivalenteNewman 2004

12m

d(u)d(v)2mM(G,P) = Σ (G

uv - )α

uv

Problème d'optimisation NP-completBrandes et al. 2008

wuv

• Même si la solution recherchée a 2 classes et que le graphe est peu denseDasGupta & Desai, 2011

Page 102: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

Partitionnement de graphes et modularité

Partitionnement d'un réseau : couvrir tous les sommets par des classes disjointes

u,v

Modularité : formule équivalenteNewman 2004

12m

d(u)d(v)2mM(G,P) = Σ (G

uv - )α

uv

Problème d'optimisation NP-completBrandes et al. 2008

wuv

• Même si la solution recherchée a 2 classes et que le graphe est peu denseDasGupta & Desai, 2011

• Heuristiques très rapides (traitent des graphes de millions de sommets)Blondel et al. 2008

Page 103: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

Heuristiques d'optimisation de la modularité

Base similaire à la classification hiérarchique :

Tant qu'on augmente le score de modularité :

On transfère un sommet dans la classe qui fait le plus augmenter la modularité.

Page 104: Classification supervisée et non superviséeigm.univ-mlv.fr/~gambette/EnsInfoling/CM3-2014.pdf · • k-plus proches voisins • Classifieurs linéaires et SVM ... -0.5 1 0.8 0.2

Heuristiques d'optimisation de la modularité

Base similaire à la classification hiérarchique :

Tant qu'on augmente le score de modularité :

Si aucun transfert de sommet ne fait augmenter la modularité :

On transfère un sommet dans la classe qui fait le plus augmenter la modularité.

On contracte les sommets en un seul représentant et on recommence l'algorithme.