Cours DM - Classification

of 23 /23
23/04/22 Fodé CAMARA Fodé CAMARA 1 1 Cours Datamining Cours Datamining Dr. F. CAMARA [email protected] ISI-Institut Supérieur d’Informatique

Embed Size (px)

Transcript of Cours DM - Classification

ISI-Institut Suprieur dInformatique

Cours DataminingDr. F. CAMARA

[email protected]

03/05/2013

Fod CAMARA

1

Techniques de datamining

La classification Elle permet de prdire si une instance de donne est membre dun groupe ou dune classe prdfinie. Classes o Groupes dinstances avec des profils particuliers o Apprentissage supervis: classes connues lavance Applications: marketing direct (profils des consommateurs), grande distribution (classement des clients), mdecine (malades/non malades), etc.Exemple 1: les acheteurs de voitures de sport sont de jeunes citadins ayant un revenu important Exemple 2: 45% des clients ayant fait un achat en ligne sur la page /societe/produits/produit1 sont originaires de la cte Ouest des tats unis.

03/05/2013

Fod CAMARA

2

Techniques de datamining(33)

La classification Processus deux tapes

03/05/2013

Fod CAMARA

3

Construction du modle(2)Donnes Apprentissage Algorithmes Classification

Nom Mary James Bill John Mark Annie

Rang Assistant Prof Assistant Prof Professor Associate Prof Assistant Prof Associate Prof

Anne 3 7 2 7 6 3

Titulaire non oui oui oui non non

Modle

Si Rang=Professor Ou Anne>6 Alors titulaire=Oui

03/05/2013

Fod CAMARA

4

Construction du modleDonnes Test Classifier

Nom Tom Lisa Jack Ann

Rang Assistant Prof Assistant Prof Professor Associate Prof

Anne 2 7 5 7

Titulaire non non oui oui

Taux derreur du modle ?

03/05/2013

Fod CAMARA

5

Construction du modleDonne inconnue Classifier

Nom Jeff Paul

Rang Professor Associate Prof

Anne 4 7

Titulaire ? ?

Titulaire ?

Oui Oui

03/05/2013

Fod CAMARA

6

Validation de la Classification

03/05/2013

Fod CAMARA

7

Validation de la Classification

03/05/2013

Fod CAMARA

8

Techniques de datamining(34)

La classification Mthodes de Classification Arbres de dcision Classification baysienne Rseaux de neurones etc.Caractristiques Apprentissage supervis (classes connues)03/05/2013

Fod CAMARA

9

Techniques de datamining(35)

La classification Arbre de dcision Gnration darbres de dcision partir des donnes Arbre = Reprsentation graphique dune procdure de classification

Rang?Professor Associate Prof Assistant Prof

Oui

Anne?6 Oui

Anne? 6Non Oui

03/05/2013

Fod CAMARA

10

Gnration de l'arbreoo o o o oAu dpart, toutes les instances dapprentissage sont la racine de larbre. Slectionner un attribut et choisir un test de sparation(split) sur lattribut, qui spare le mieux les instances. Partitionner les instances entre les nuds fils suivant la satisfaction des tests logiques. v'1 Traiter chaque nud fils de faon rcursive. Rpter jusqu ce que tous les nuds soient des terminaux. C1 Etiqueter le nud terminal par la classe majoritaireA1 = ? v1 v2 A2 = ? ... v'3 v'2 v'1 A2 = ? v'3 v3

v'2

C2

C3

C7

C8

C9

Arbre = ensemble de rgles(A1=v1)&(A2=v'1) C1 (A1=v1)&(A2=v'2) C2 (A1=v1)&(A2=v'3) C3 (A1=v3)&(A2=v'1) C7 (A1=v3)&(A2=v'2) C8 (A1=v3)&(A2=v'3) C9A1? v1 v2 A2? ... v'1 v'2 A2? v'3 v3

v'1v'2

v'3

C1

C2

C3

C7

C8

C9

Arbre = ensemble de rglesExemple:Rang?Professor Associate Prof Assistant Prof

Oui

Anne? 6 Oui

Anne? 6 Non Oui

Si Rang=Professor Ou Anne>6 Alors titulaire=Oui

03/05/2013

Fod CAMARA

13

Procdure de construction (1)

recherche chaque niveau declasse) alors retour; pour chaque attribut A faire

lattribut le plus discriminant Partition (nud P) si (tous les lments de P sont dans la mmevaluer la qualit du partitionnement sur A;

utiliser le meilleur partitionnement pour diviser Pen P1, P2, Pn pour i = 1 n faire Partition(Pi);

Procdure de Construction (2)

Processus rcursifClass Atr=?

L'arbre commence un nud reprsentant

toutes les donnes Si les objets sont de la mme classe, alors le nud devient une feuille tiquet par le nom de la classe. Sinon, slectionner les attributs qui sparent le mieux les objets en classes homognes => Fonction de qualit La rcursion s'arrte quand:Les objets sont assigns une classe homogne Il n'y a plus d'attributs pour diviser

Mesure de qualit

La mesure est appel fonction dequalit Goodness Function en anglais Varie selon l'algorithme : Gain d'information (ID3/C4.5) Gini IndexSuppose des attributs continus Suppose plusieurs valeurs de division pour chaque

Suppose des attributs nominaux (discrets) Peut-tre tendu des attributs continus

attribut Peut-tre tendu pour des attributs nominaux

Gain dinformation Slectionner lattribut avec le plus grand gain dinformation Soient P et N deux classes et S un ensemble dinstancesavec p lments de P et n lments de N. Linformation ncessaire pour dterminer si une instance prise au hasard fait partie de P ou N est(entropie).

Gain dinformationSoient les ensembles {S1, S2, , , Sv} formant une partition delensemble S , en utilisant lattribut A Toute partition Si contient p instances de P et n instances de N Lentropie, ou linformation ncessaire pour classifier les instances dans les sous-arbres Si est:

Le gain dinformation par rapport au branchement sur A est Choisir lattribut qui maximise le gain

Indice de GINIUtiliser lindice Gini pour un partitionnement purpi est la frquence relative de la classe C dans S Si S est pur (classe unique), Gini(S) = 0

Trouver le branchement (split-point) qui minimise lindice Gini

Indice de GINI (Exemple 1)

Indice de GINI (Exemple 2)

Exemple dapplicationClassifier les clients d'une banque sils sont risque ou pas

BD

03/05/2013

Fod CAMARA

22

Rappel(3)Evaluation dune classification

03/05/2013

Fod CAMARA

23