Des arbres de décision et des treillis dichotomiques

29
Journée des Treillis Lorrains Nancy, France – Décembre 2008 Nathalie Girard Encadrantes : Karell Bertet – Muriel Visani Equipe Imédoc - Laboratoire L3I – Université de La Rochelle - France

description

Journée des Treillis Lorrains Nancy, France – Décembre 2008. Des arbres de décision et des treillis dichotomiques. Nathalie Girard Encadrantes : Karell Bertet – Muriel Visani Equipe Imédoc - Laboratoire L3I – Université de La Rochelle - France. LIENS. Des Arbres Et Des Treillis. - PowerPoint PPT Presentation

Transcript of Des arbres de décision et des treillis dichotomiques

Page 1: Des arbres de décision et des treillis dichotomiques

Journée des Treillis Lorrains

Nancy, France – Décembre 2008

Nathalie Girard

Encadrantes : Karell Bertet – Muriel Visani

Equipe Imédoc - Laboratoire L3I – Université de La Rochelle - France

Page 2: Des arbres de décision et des treillis dichotomiques

Des Données à la Classification 1) Différents types de données

2) Différents classifieurs

Le Treillis Dichotomique1) Treillis Dichotomique : Définition2) Arbre de Décision Treillis Dichotomique

Conclusion & Perspectives

2

LIENS

Page 3: Des arbres de décision et des treillis dichotomiques

3

Des Données à la Classification

Le Treillis Dichotomique

Conclusion & Perspectives

Quantitatives Qualitatives

Ordinales Sur une échelle tailles

S/M/L/XL

NominalesFemme

/ Homme

Nombre de modalités

Infini Dénombrable Dénombrable

Relations d’ordre sur les

modalités

OUI Écarts

quantifiablesNON

OUIEcarts non

quantifiables

Exhaustive / Continue

À valeur dans ℝNb exemples

=Nb modalités

Nb exemples =

Nb modalités

Discrète À valeur dans ℕNb exemples

<Nb modalités

Nb exemples <

Nb modalités

Page 4: Des arbres de décision et des treillis dichotomiques

A partir d’une base de données construction d’une table objets/attributs

Méthode utilisée => mise en forme de la table :

◦ Discrétisation des variables continues Ex : intervalles de valeurs

◦ Codage disjonctif (complet ou non) Variables discrètes = Variables à deux modalités (V/F)

4

Des Données à la Classification

Le Treillis Dichotomique

Conclusion & Perspectives

Changements de type

Page 5: Des arbres de décision et des treillis dichotomiques

O

I CLASSE

a b ca1[0-3]

a2[6-20]

b1[0-4]

b2[12-20]

c1[0-2]

C2[11-20]

1 × × ×S1

2 × × ×

3 × × ×

S24 × × ×

5 × × ×

6 × × ×

S37 × × ×

8 × × ×

9 × × ×S4

10 × × ×

O

I CLASSE

a b C

1 [0-3] [0-4] [11-20]S1

2 [0-3] [0-4] [11-20]

3 [0-3] [12-20] [11-20]

S24 [0-3] [12-20] [11-20]

5 [0-3] [12-20] [11-20]

6 [6-20] [12-20] [11-20]

S37 [6-20] [12-20] [11-20]

8 [6-20] [12-20] [11-20]

9 [6-20] [0-4] [0-2]S4

10 [6-20] [12-20] [0-2]

OI

CLASSEa b c

1 1 0 14S1

2 3 3 17

3 3 16 15

S24 2 18 20

5 0 14 11

6 6 19 18

S37 8 13 16

8 20 12 11

9 15 4 0S4

10 17 15 2

Discrétisation des données continues

5

Des Données à la Classification

Le Treillis Dichotomique

Conclusion & Perspectives

+ codage binaire

Page 6: Des arbres de décision et des treillis dichotomiques

Méthode utilisée => Utilisation différente des données :

◦ Utilisation d’une partie des données pour l’apprentissage, de l’autre pour la validation

◦ Sélection d’attributs pertinents◦ Suppression des objets/données « aberrantes »◦ Transformation des attributs◦ Codage des données◦ …

6

Des Données à la Classification

Le Treillis Dichotomique

Conclusion & Perspectives

Page 7: Des arbres de décision et des treillis dichotomiques

Objectif, pour les nouveaux objets : ◦ Inférer la variable à prédire

Une classe Une valeur pour un attributs …

Classifieurs statistiques◦ SVM, …

Classifieurs probabilistes◦ Bayésiens, …

Classifieurs symboliques◦ Arbre de décision◦ Treillis de Galois◦ … 7

Des Données à la Classification

Le Treillis Dichotomique

Conclusion & Perspectives

Page 8: Des arbres de décision et des treillis dichotomiques

1. Défini à partir d’un ensemble de données2. Classifier avec un Arbre de Décision :

a. Nœud : test sur un attributb. Feuille : classe

3. Constructiona. De la racine (= O) aux feuillesb. Requiert deux critères

i. Critère de Division (supervisé ou non)ii. Critère d’arrêt (supervisé ou non)

4. Eventuellement, élagage

8

Des Données à la Classification

Le Treillis Dichotomique

Conclusion & Perspectives

Page 9: Des arbres de décision et des treillis dichotomiques

O

I CLASSE

a b ca1

[0-3]a2[6-20]

b1[0-4]

b2[12-20]

c1[0-2]

C2[11-20]

1 × × ×S1

2 × × ×

3 × × ×

S24 × × ×

5 × × ×

6 × × ×

S37 × × ×

8 × × ×

9 × × ×S4

10 × × × 9

Des Données à la Classification

Le Treillis Dichotomique

Conclusion & Perspectives

Page 10: Des arbres de décision et des treillis dichotomiques

10

Contexte C = (O,I,(f,g))

Prop : = f g est un opérateur de fermeture sur I

Le Treillis de Galois de C =(K, ≤)

avec:

(A,B) K f(A)=B et g(B)=A pour A O, B I,

(A,B) ≤ (A2,B2) A A2  B B2

O = { objets labélisés}I = {attributs}(f,g) = correspondance de Galois

K = {concepts}≤ = relation d’ordre entre concepts

Des Données à la Classification

Le Treillis Dichotomique

Conclusion & Perspectives

Page 11: Des arbres de décision et des treillis dichotomiques

Treillis de Galois

Correspondance de Galois f(1) = {a1,b1,c2} g(b1) = {1, 2, 9}

Contexte / Table

OI

Classea1

[0-3]a2

[6-20]b1

[0-4]b2

[12-20]c1

[0-2]C2

[11-20]

1 × × ×S1

2 × × ×

3 × × ×

S24 × × ×

5 × × ×

6 × × ×

S37 × × ×

8 × × ×

9 × × ×S4

10 × × ×

11

Des Données à la Classification

Le Treillis Dichotomique

Conclusion & Perspectives

Fermeture : (a1) = {a1, c2} = f(g(a1))

Page 12: Des arbres de décision et des treillis dichotomiques

12

Méthodes orientées Sélection

Méthodes orientées Navigation

Des Données à la Classification

Le Treillis Dichotomique

Conclusion & Perspectives

Page 13: Des arbres de décision et des treillis dichotomiques

NAVIGALA (Guillas, Bertet, Ogier, 2007)

1. Préparation des données : 1. Extraction de Signatures des images de symbole.2. Discrétisation supervisée des Signatures (contexte multi-valué)3. Séparation ensemble d’apprentissage/ensemble de validation

2. Apprentissage supervisé de l’ensemble de données :1. Génération du Treillis de Galois à partir de l’ensemble

d’apprentissage (aucun paramètre nécessaire)2. Labellisation de chaque concept terminal par sa classe

majoritaire 3. Etape de Reconnaissance – Ensemble de validation:

1. Classification des symboles de l’ensemble de validation par navigation dans le treillis par validation d’intervalles jusqu’à atteindre un concept terminal

2. Classification de nouveaux symboles bruités à partir de leur signature par navigation dans le treillis (comme dans un arbre de décision)

13

Des Données à la Classification

Le Treillis Dichotomique

Conclusion & Perspectives

Page 14: Des arbres de décision et des treillis dichotomiques

OI

Classea1

[0-3]a2

[6-20]b1

[0-4]b2

[12-20]c1

[0-2]C2

[11-20]

1 × × ×S1

2 × × ×

3 × × ×

S24 × × ×

5 × × ×

6 × × ×

S37 × × ×

8 × × ×

9 × × ×S4

10 × × ×

Nouvel objet

11 × × × ?

14

Objet 11

Classe 2

Des Données à la Classification

Le Treillis Dichotomique

Conclusion & Perspectives

Page 15: Des arbres de décision et des treillis dichotomiques

15

Plusieurs chemins dans le Treillis de Galois

Robustesse pour les images de données bruitées

Version bruitée de l’objet 11

Des Données à la Classification

Le Treillis Dichotomique

Conclusion & Perspectives

Page 16: Des arbres de décision et des treillis dichotomiques

Des Données à la Classification 1) Différents types de données

2) Différents classifieurs

Le Treillis Dichotomique1) Treillis Dichotomique : Définition2) Arbre de Décision Treillis Dichotomique

Conclusion & Perspectives

16

LIENS

Page 17: Des arbres de décision et des treillis dichotomiques

17

Définition 1: Un treillis est dichotomique lorsque pour

tout concept (A1,B1) il existe un concept

V-complémentaire (A2,B2)

(A1,B1) (K, ≤), (A2,B2) (K, ≤) tel que

(A1,B1) (A2,B2) = (,I) = concept maximal

Des Données à la Classification

Le Treillis Dichotomique

Conclusion & Perspectives

Page 18: Des arbres de décision et des treillis dichotomiques

18

Des Données à la Classification

Le Treillis Dichotomique

Conclusion & Perspectives

O

I CLASSE

a b ca1[0-3]

a2[6-20]

b1[0-4]

b2[12-20]

c1[0-2]

C2[11-20]

1 × × ×S1

2 × × ×

3 × × ×

S24 × × ×

5 × × ×

6 × × ×

S37 × × ×

8 × × ×

9 × × ×S4

10 × × ×

Page 19: Des arbres de décision et des treillis dichotomiques

Contexte Dichotomique

Treillis Dichotomique

Complémentarité sur les Attributs (Kuznetsov04) : x I, ! x I tel que y O

f(y) = x ou f(y) = x

V-Complémentarité sur les Concepts : X I, X un ensemble d’attributs tel

que

g(X) g(X ) =

19

Des Données à la Classification

Le Treillis Dichotomique

Conclusion & Perspectives

Page 20: Des arbres de décision et des treillis dichotomiques

O

I CLASSE

a b ca1

[0-3]a2

[4-5]a3[6-20]

b1[0-4]

b2[12-20]

c1[0-2]

C2[11-20]

1 × × ×S1

2 × × ×

3 × × ×

S24 × × ×

5 × × ×

6 × × ×

S37 × × ×

8 × × ×

9 × × ×S4

10 × × ×

Complémentarité entre attributs : Non◦ Pour a1, a2, a3

Complémentarité entre concepts : Oui

◦ g(a1) g({a2,a3}) =

20

Des Données à la Classification

Le Treillis Dichotomique

Conclusion & Perspectives

Page 21: Des arbres de décision et des treillis dichotomiques

Proposition 1:Chaque arbre de décision est inclus dans

le treillis dichotomique, lorsque les deux structures sont construites à

partir de la même table.

Points clés de la preuve :

21

Arbre de Décision Treillis Dichotomique

Deux nœuds différents N1, N2

Deux concepts différents (A1,B1), (A2,B2)

N1 est un prédécesseur de N2 (A2,B2) ≤ (A1,B1)

N1 n’est pas un prédécesseur de N2

(A2,B2) ≥ (A1,B1) et (A2,B2) ≤ (A1,B1)

Des Données à la Classification

Le Treillis Dichotomique

Conclusion & Perspectives

Page 22: Des arbres de décision et des treillis dichotomiques

22

N1

N2N3

N4 N7N6

N5

N1

N2

N3

N4 N5N6

N7

Des Données à la Classification

Le Treillis Dichotomique

Conclusion & Perspectives

Page 23: Des arbres de décision et des treillis dichotomiques

Points clés de la preuve :1. Par construction d’un sous-arbre inclus dans le treillis

dichotomique2. Utilisation de la propriété de V-complémentarité

Proposition 2:Un treillis dichotomique est l’union de tout

les arbres de décision, lorsque les deux structures sont construites à partir de la

même table.

23

Des Données à la Classification

Le Treillis Dichotomique

Conclusion & Perspectives

Page 24: Des arbres de décision et des treillis dichotomiques

Des Données à la Classification 1) Différents types de données

2) Différents classifieurs

Le Treillis Dichotomique1) Treillis Dichotomique : Définition2) Arbre de Décision Treillis Dichotomique

Conclusion & Perspectives

24

LIENS

Page 25: Des arbres de décision et des treillis dichotomiques

25

Arbres de Décision et Treillis de Galois sont utilisés comme des classifieurs.

Utilisation d’un treillis de Galois Robustesse avec les symboles bruités.

Résultats : liens structurels forts arbres de décision/treillis dichotomiques

Prop.1: Ti, Ti L

Prop.2: L = Ti

Des Données à la Classification

Le Treillis Dichotomique

Conclusion & Perspectives

Page 26: Des arbres de décision et des treillis dichotomiques

Etude expérimentales dans un contexte de classification :

1. Considérer et comparer différents sous arbres pris dans le treillis selon différents critères :1. Le nombre de sous concept (J. Outrata)2. Le nombre d’objet d’un concept3. La hauteur/largeur de l’arbre4. …

2. Conception d'une nouvelle méthode de classification hybride alliant treillis dichotomiques et arbres de décision.

26

Des Données à la Classification

Le Treillis Dichotomique

Conclusion & Perspectives

Page 27: Des arbres de décision et des treillis dichotomiques

Etude structurelle des treillis dichotomique :

1. Positionnement par rapport à des classes de treillis connues• => Extension du cadre d’application des liens de

fusion/inclusion à d’autres types de données

2. Possibilité de génération incrémentales (lié aux duplications?/discrétisation au fur et à mesure)

27

Des Données à la Classification

Le Treillis Dichotomique

Conclusion & Perspectives

Page 28: Des arbres de décision et des treillis dichotomiques

28

(Carpineto, Romano93) C. Capineto and G. Romano. Galois: An order-theoretic approach to conceptual clustering.In Proceedings of ICML’93, p33-40, Amherst, July 1993

(Liquière, Mephu-Nguifo90) M. Liquière and E. Mephu-Nguifo. LEGAL: Learning with Galois Lattice.In Actes des Journées Françaises sur l’Apprentissage (JFA), p93-113, Lannion, France, avril 1990.

(Oosthuizen88) G. Oosthuizen. The use of a lattice in Knowmedge Processing. PhD thesis, University of Strathclyde, Glasgow, 1988.

(Sahami95) M. Sahami. Learning classification rules using lattices . In Nada Lavrac and Stephan Wrobel, editors, Processing of ECML’95, p343-346, Heraclion, Crete,

Greece, April 1995.

(Kuznetsov04) S. Kuznetsov. Machine learning and formal concept analysis. Innovations in applied artificial intelligence :   Ottawa, 3029:287–312, 2004.

(Njiwoua, Mephu-Nguifo99) P. Njiwoua and E. Mephu-Nguifo. Améliorer l’apprentissage à partir d’instances grâce à l’induction de concepts : le système CIBLe.

Revue d’intelligence Artificielle (RIA), 13(2): 413-440, 1999, Hermès Science.

(Guillas, Bertet, Visani, Ogier, 2008) S. Guillas, K. Bertet, M. Visani, J.M. Ogier. A propos des liens entre arbre de décision et treillis dichotomique.

CIFED’2008, Rouen, France, Novembre 28-30 2008.

Page 29: Des arbres de décision et des treillis dichotomiques

Merci pour votre attention !