Classification Ascendante 2-3 Hiérarchique: Applications au Web Mining

10
Classification Ascendante 2-3 Hiérarchique: Applications au Web Mining Sergiu Chelcea, Brigitte Trousse Projet AxIS INRIA Sophia Antipolis {Sergiu.Chelcea, Brigitte.Trousse}@inria.fr

description

Classification Ascendante 2-3 Hiérarchique: Applications au Web Mining. Sergiu Chelcea, Brigitte Trousse. Projet AxIS INRIA Sophia Antipolis {Sergiu.Chelcea, Brigitte.Trousse}@inria.fr. Objectifs. - PowerPoint PPT Presentation

Transcript of Classification Ascendante 2-3 Hiérarchique: Applications au Web Mining

Page 1: Classification Ascendante 2-3 Hiérarchique: Applications au Web Mining

Classification Ascendante 2-3 Hiérarchique:Applications au Web Mining

Sergiu Chelcea, Brigitte Trousse

Projet AxISINRIA Sophia Antipolis

{Sergiu.Chelcea, Brigitte.Trousse}@inria.fr

Page 2: Classification Ascendante 2-3 Hiérarchique: Applications au Web Mining

• Analyser l’impact de l’organisation scientifique de l’INRIA sur le comportement des internautes

• Classification des rubriques visitées (équipes de recherche) utilisant la CAH classique et la 2-3 CAH introduite par P.

Bertrand en 2002

Objectifs

Page 3: Classification Ascendante 2-3 Hiérarchique: Applications au Web Mining

2-3 CAHCAH

Propriétés 2-3 CAH

• Généralise la CAH

• Construit une structure plus riche que la CAH

• Algorithme avec la même complexité que la CAH : O(n2 log n)

Page 4: Classification Ascendante 2-3 Hiérarchique: Applications au Web Mining

Application de la 2-3 CAH au Web Mining

• Pour classer les rubriques visitées : navigations = vecteurs binaires sur le rubriques visitées

• Calcul de la matrice de dissimilarités sur les rubriques : Indice de Jaccard :

cba

aRRS ji

),(

),(1),( jiji RRSRR

N1 N2 N3 ...

R1R2R3...

1

1

0

1

0

1

0

1

0

Page 5: Classification Ascendante 2-3 Hiérarchique: Applications au Web Mining

Première analyse 1/2

• L’impact de la structure globale des site Web sur les navigations :

application de la 2-3 CAH sur les rubriques visitées dans les navigations sur les deux serveurs

• La distribution des équipes de recherche (ER) dans laclassification obtenue

Page 6: Classification Ascendante 2-3 Hiérarchique: Applications au Web Mining

Première analyse 2/2

(singletons pas représentes)

Page 7: Classification Ascendante 2-3 Hiérarchique: Applications au Web Mining

Deuxième analyse 1/2

• L’impact de l’organisation scientifique sur les navigations : Classification des ER basée sur les rubriques visitées du

serveur INRIA principal

• L’évolution de la distribution des ER de la theme 3 (COG) : Comparaison entre deux périodes :

1 – 15 Janvier 2003 27 Mai – 10 Juin 2004

Page 8: Classification Ascendante 2-3 Hiérarchique: Applications au Web Mining

Deuxième analyse 2/2

- Thème 3 - Per1 - ancienne Thème 3 - Per2

Page 9: Classification Ascendante 2-3 Hiérarchique: Applications au Web Mining

Troisième analyse

• Comparaison entre la CAH classique et la 2-3 CAH (Thème 3):

CAH : 15 classes crées

2-3 CAH : 22 classes crées

Page 10: Classification Ascendante 2-3 Hiérarchique: Applications au Web Mining

Conclusions

• L’organisation scientifique des équipes de recherche de l`INRIA a un grand impact sur les navigations

• La structure globale du site Web influence aussi les navigations