Extraction de motifs fr´equents - Université de...

60
Introduction Wiki Extraction de motifs fr´ equents Motifs de r´ edaction collaborative sur les Wikis History flow Conclusion ef´ erences Extraction de motifs fr´ equents Application ` a l’analyse de la r´ edaction collaborative sur les Wikis Uwatowenimana Jeanne d’Arc Cours IFT6261 : Traitement des connaissances Professeur : A¨ ımeur Esma DIRO, Universit´ e de Montr´ eal, Montr´ eal (Qc), Canada 10 avril 2006 Uwatowenimana Jeanne d’Arc Motifs fr´ equents propres aux Wikis 1 / 53

Transcript of Extraction de motifs fr´equents - Université de...

Page 1: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

Extraction de motifs frequentsApplication a l’analyse de la redaction collaborative sur les Wikis

Uwatowenimana Jeanne d’Arc

Cours IFT6261 : Traitement des connaissancesProfesseur : Aımeur Esma

DIRO, Universite de Montreal, Montreal (Qc), Canada

10 avril 2006

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 1 / 53

Page 2: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

1 Introduction

2 Wiki

3 Extraction de motifs frequents

4 Motifs de redaction collaborative sur les Wikis

5 History flow

6 Conclusion

7 References

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 2 / 53

Page 3: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

E-gouvernanceWikiProblematique & objectif

1 IntroductionE-gouvernanceWikiProblematique & objectif

2 Wiki

3 Extraction de motifs frequents

4 Motifs de redaction collaborative sur les Wikis

5 History flow

6 Conclusion

7 References

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 3 / 53

Page 4: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

E-gouvernanceWikiProblematique & objectif

E-gouvernance

Definition

E-governance est l’utilisation par le secteur public des technologies del’information et de la communication dans le but d’ameliorer la fournitured’information et de service, d’encourager la participation du citoyen auprocessus de decision et de rendre le gouvernement plus responsable,transparent et efficace.

UNESCO, 10/03/06

Secteur public : la population.

Utilisation des technologies de l’information et de la communication.

Fourniture d’information et de service.

Participation du citoyen a la prise de decision.

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 4 / 53

Page 5: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

E-gouvernanceWikiProblematique & objectif

Wiki

Definition

Un wiki est un site web dont la principale caracteristique est de permettre a

ses utilisateurs d’ editer de facon simple et rapide n’importe laquelle de sespages.

Tout-Savoir.Net, 10/03/06

Terme hawaiien «wiki wiki» qui signifie «vite».

Nouvelle technologie : introduite par Ward Cunningham en 1995.

Impersonnel : les interventions sur les wikis sont anonymes.

Collectif : le resultat appartient a toute la communaute.

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 5 / 53

Page 6: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

E-gouvernanceWikiProblematique & objectif

Wiki : application de la e-gouvernance

Communaute virtuelle : 1.078.636 utilisateurs enregistres sur Wikipediaen anglais et 83.759 pour Wikipedia en francais. Wikipedia, 10/03/06

Site Web accessible par n’importe qui grace a un navigateur.

Experts qui partagent leurs connaissances.

Chaque personne peut participer a la decision (edition des pages,discussion sur le contenu, etc.).

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 6 / 53

Page 7: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

E-gouvernanceWikiProblematique & objectif

Problematique & objectif

Collaboration propre aux wikis

Analyser les mecanismes de collaboration que les wikis mettent adisposition et les principes de gouvernance qui regissent cette collaboration.

Les techniques utilisees par la communaute autour des Wikis pour :

Faire face au comportement antisocial.

Faire face aux differends entre utilisateurs.

Determiner ce qui est correct sur une page de ce qui ne l’est pas.

Arriver a un consensus.

Objectif principal

Faciliter l’adaptation des wikis dans les entreprises. Accessibilite en lecturepar tout le monde 6= l’echec.

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 7 / 53

Page 8: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

HistoriqueCaracteristiquesHistorique WikiAvantages et inconvenients

1 Introduction

2 WikiHistoriqueCaracteristiquesHistorique WikiAvantages et inconvenients

3 Extraction de motifs frequents

4 Motifs de redaction collaborative sur les Wikis

5 History flow

6 Conclusion

7 References

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 8 / 53

Page 9: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

HistoriqueCaracteristiquesHistorique WikiAvantages et inconvenients

Historique des wikis

23 mars 1995 : WikiWikiWeb, premiere implementation d’un siteWeb Wiki pour recueillir des « patterns » en programmation parWard Cunningham. Wikipedia, 10/03/06

Des 2000 : Utilisation des wikis dans plusieurs domaines (eninformatique : clubic, medical : Wikihealth, droit : Jurispedia, etc.),developpement des «engins» Wikis (Mediawiki, SocialText, jotspot,etc.). LesWikis, 10/03/06

15 janvier 2001 : debut du projet Wikipedia, encyclopedie libre,gratuite, universelle, multilingue (214 langues) et ecritecollaborativement sur Internet par Jimmy Wales et Larry Sanger.Wikipedia, 10/03/06

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 9 / 53

Page 10: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

HistoriqueCaracteristiquesHistorique WikiAvantages et inconvenients

Caracteristiques d’une page

Page «Universite de Montreal» de wikipedia

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 10 / 53

Page 11: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

HistoriqueCaracteristiquesHistorique WikiAvantages et inconvenients

Historique wiki

Deux typesHistorique de l’article.Historique de la discussion (sur l’article).

Differentes versions de l’article (de la page de discussion).

Possibilite de faire une comparaison entre deux versions.

Caracteristiques d’une version : la date et l’heure, l’auteur (alias ouadresse IP), les commentaires de l’auteur.

Contribution d’un utilisateur

La difference entre deux versions de l’article (de la discussion) successives.Ajout d’une nouvelle idee, suppression, reformulation, etc.

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 11 / 53

Page 12: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

HistoriqueCaracteristiquesHistorique WikiAvantages et inconvenients

Historique wiki - Exemple

Historique de la page «Intelligence artificielle» de wikipedia

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 12 / 53

Page 13: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

HistoriqueCaracteristiquesHistorique WikiAvantages et inconvenients

Avantages et inconvenients

Avantages :

Communaute (planetaire) ⇒ l’exactitude de l’information. BBC news,

Wikipedia vs Britanica, 15 decembre 2005.

Facilite d’utilisation (edition simple et rapide). Desilets et al., Octobre 2005

Outil gratuit

Inconvenients :

Anonymat ⇒ vandalisme (effacer tout le contenu d’un article, ajouterdes termes hors sujet, etc.)

Quantite d’information importante (difficulte de controle, le maintientde cohesion, etc.). Quelques scandales (John Seigenthaler, Adam Curry,Jimmy Wales, etc.) CNET News.com., decembre 2005.

Centralisation de l’information.

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 13 / 53

Page 14: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

Fouille de donneesRegles d’associationApproche basee sur AprioriApproche basee sur FP-GrowthDomaines d’application

1 Introduction

2 Wiki

3 Extraction de motifs frequentsFouille de donneesRegles d’associationApproche basee sur AprioriApproche basee sur FP-GrowthDomaines d’application

4 Motifs de redaction collaborative sur les Wikis

5 History flow

6 Conclusion

7 ReferencesUwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 14 / 53

Page 15: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

Fouille de donneesRegles d’associationApproche basee sur AprioriApproche basee sur FP-GrowthDomaines d’application

Fouille de donnees (Datamining)

Definition

Fouille de donnees est le processus non trivial d’extraction deconnaissances implicites, precedemment inconnues et potentiellementutiles a partir de donnees.

Frawley et al. 1992

AI magazine

Sous forme : de regles, de modeles, de regularites, de concepts, etc.

Techniques : clustering, classification, regles d’association , etc.

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 15 / 53

Page 16: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

Fouille de donneesRegles d’associationApproche basee sur AprioriApproche basee sur FP-GrowthDomaines d’application

Regles d’association - Introduction

Introduit par Agrawal et al. en 1993. Agrawal et al., 1993

Motivation : l’analyse de bases de donnees de transactions de vente.

Analyse du panier de la menagere

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 16 / 53

Page 17: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

Fouille de donneesRegles d’associationApproche basee sur AprioriApproche basee sur FP-GrowthDomaines d’application

Regles d’association - Definitions

Item un element xi de I = {x1, x2, ..., xn}exemple : x1=lait, x2=sucre, x3=pain, x4=cereale

Itemset ensemble X ⊆ I , k-itemset un itemset de k itemsexemple : {lait, sucre, pain}, c’est un 3-itemset

Base de transactions D = {(tid ,Xt)/tid ∈ T ,Xt ∈ I }

Support(X)= |{(t,Xt )∈D/X⊆Xt}||D|

Itemset frequent : X ∈ I est frequent ssi Support(X ) ≥ γ,ou γ seuil de support minimum

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 17 / 53

Page 18: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

Fouille de donneesRegles d’associationApproche basee sur AprioriApproche basee sur FP-GrowthDomaines d’application

Regles d’association - Fonctionnement

Deux phases :

1 Trouver les itemsets frequents : FF = {X ⊆ I /Support(X ) ≥ γ}avec γ seuil de support minimum

2 Trouver les regles solides : R

R =nr : A→ C , Support(A∪C)

Support(A)≥ ϕ

oavec ϕ seuil de confiance minimum

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 18 / 53

Page 19: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

Fouille de donneesRegles d’associationApproche basee sur AprioriApproche basee sur FP-GrowthDomaines d’application

Regles d’association - Exemple

Calcul de regles d’associationSource : Ansaf Salleb, Recherche de motifs frequents : Applications aux donnees geographiques, juin

2004

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 19 / 53

Page 20: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

Fouille de donneesRegles d’associationApproche basee sur AprioriApproche basee sur FP-GrowthDomaines d’application

La phase d’extraction des motifs frequents

Deux approches :

1 Basee sur l’algorithme Aprioriou niveau par niveau.

2 Basee sur la structure Pattern Growth

Evolution dans la modelisation des donnees :

Bases de donnees transactionnelles : Itemsets

arbres, graphes, treillis

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 20 / 53

Page 21: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

Fouille de donneesRegles d’associationApproche basee sur AprioriApproche basee sur FP-GrowthDomaines d’application

Algorithme Apriori

Algorithme iteratif de recherche des itemsets frequents par niveaux. Pourchaque k-iteration :

1 Generation d’un ensemble d’itemsets candidats de taille k.

2 Scan de la base de transactions pour supprimer les candidats nonfrequents.

L’ensemble des k-itemsets frequents generes est utilise a l’iteration k + 1pour generer les candidats de taille k + 1.

Principe

Si un itemset de longueur k est non frequent alors tous ses sur-ensembles(super-set) le sont egalement.

R. Agrawal and R. Srinkat, 1994

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 21 / 53

Page 22: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

Fouille de donneesRegles d’associationApproche basee sur AprioriApproche basee sur FP-GrowthDomaines d’application

Algorithme Apriori - Exemple

Base de transactions et le treillis correspondantNicolas THIERRY-MIEG

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 22 / 53

Page 23: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

Fouille de donneesRegles d’associationApproche basee sur AprioriApproche basee sur FP-GrowthDomaines d’application

Principe d’extraction de sous-graphes frequents

Donnees :D : une base de graphes de transactions.t : un graphe d’une transaction contenu dans D .gk : un k-sous-graphe, un sous-graphe avec k arcs.C k : un ensemble de k-sous-graphes candidats.F k : un ensemble de k-sous-graphes frequents.cl

`gk

´: un canonical label d’un k-sous-graphes gk . Un code unique

identifiant un sous-graphe.

Problematique :Trouver tous les sous-graphes connectes frequents, etant donne unevaleur minsupport donnee.

Principes :Graphes non-diriges et annotes (code unique par graphe).Generation des sous-graphes candidats par extension, d’un arc (d’unnoeud) a la fois, des sous-graphes frequents trouves a l’iterationprecedente.

M.Kuramochi et al., 2001

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 23 / 53

Page 24: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

Fouille de donneesRegles d’associationApproche basee sur AprioriApproche basee sur FP-GrowthDomaines d’application

Algorithmes d’extraction de sous-graphes frequents

Difference sur la facon de construire les graphes

AGM (An apriori-based algorithm for mining frequent substructuresfrom graph data) propose par A. Inokuchi, T. Washio, and H.Motodaen 2000. Extension des sous-graphes par l’ajout d’un noeud.

FSG (Frequent Subgraphs) propose par M. Kuramochi et G. Karypisen 2002. Tester pour des ensembles larges de transactions sous formesde graphes (100.000). Extention des sous-graphes par l’ajout d’unearrete.

Computing frequent graph patterns from semistructured data. Proposepar N. Vanetik, E. Gudes et S.E. Shimony en 2002.

Mining Frequent Labeled and Partially Labeled Graph Patterns,propose le 26 fevrier 2004 par N. Vanetik et E. Gudes.

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 24 / 53

Page 25: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

Fouille de donneesRegles d’associationApproche basee sur AprioriApproche basee sur FP-GrowthDomaines d’application

Avantages et inconvenients

Avantages :

Bonne performance par la reduction iterative des itemsets candidats.

Facile a comprendre.

Inconvenients :

Nombre d’itemsets (sous graphes) possibles peut-etre tres grand (ex :

pour n = 100 on a 2100 − 1 ≈ 1030 itemsets possibles ! ! !).

Nombre de parcours de la base de transactions egal a la taille du plus

long itemset frequent trouve. D’ordre n dans le pire des cas.Operations couteuses d’entrees-sorties sur des bases de donneesvolumineuses residant sur le disque.

Nombre d’itemsets candidats pour chaque iteration considerable.Temps de calcul important (dans le cas ou le minsupport est tres petit).

Beaucoup d’itemsets frequents ⇒ des regles redondantes.

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 25 / 53

Page 26: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

Fouille de donneesRegles d’associationApproche basee sur AprioriApproche basee sur FP-GrowthDomaines d’application

Ameliorations

Apriori-TID Amelioration du temps de calcul du support desitemsets candidats.

Partition Reduction du nombre de parcours de la base de donnees adeux parcours.

DIC Reduction du nombre de parcours de la base de donnees enpartitionnant la base de donnees en blocs de M transactions.

Sampling Approche par echantillonage.

Eclat

Representation condensee des transactions ⇒ Approche basee surFP-Growth

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 26 / 53

Page 27: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

Fouille de donneesRegles d’associationApproche basee sur AprioriApproche basee sur FP-GrowthDomaines d’application

Approche basee sur FP-Growth - Introduction

Methode FP-growth (Frequent Pattern growth)

Introduction d’une structure condensee de la base des transactions.

Eviter les parcours repetes dans la base de donnees.

Extraction des motifs (itemsets ou sous-graphes) frequents sansgeneration de candidats.

Generation d’un ensemble des itemsets frequents fermes a partir

desquels il est possible de deduire tous les itemsets frequents.

Connexion de Galois :φ ensemble des elements de I communs aux objets de B (D).ϕ ensemble des objets de B (D) contenant tous les items de I .Operateur de fermeture : γ = φ ◦ ϕ ou φ ◦ ϕ (i) =φ (ϕ (i)) pour i ⊆ I .Un itemset i ⊆ I est ferme si γ (i) = i . Si aucun autre item n’estcommun a l’ensemble des transactions de B (D) qui contiennent cetitemset.

Nicolas THIERRY-MIEG

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 27 / 53

Page 28: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

Fouille de donneesRegles d’associationApproche basee sur AprioriApproche basee sur FP-GrowthDomaines d’application

Exemple

Treillis d’ensembles fermes relatif a un ensemble de transactionsNicolas THIERRY-MIEG

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 28 / 53

Page 29: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

Fouille de donneesRegles d’associationApproche basee sur AprioriApproche basee sur FP-GrowthDomaines d’application

Quelques algorithmes

Extraction d’itemsets frequents :

ClosetCloset+CHARM

Extraction de sous-graphes frequents :gSpan (Graph-Based Substructure Pattern Mining) propose par X. Yanet J. Han. en 2002. Extension des sous-graphes par l’ajout d’un noeud.CloseGraph (Closed Graph pattern mining) Propose par X. Yan et J.Han en 2003. Amelioration de gSpan.CloseCut : Mining Closed Relational Graphs with ConnectivityConstraints. Propose par X. Yan, X. J. Zhou et J. Han.

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 29 / 53

Page 30: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

Fouille de donneesRegles d’associationApproche basee sur AprioriApproche basee sur FP-GrowthDomaines d’application

Quelques domaines d’application

Marketing

Aide au diagnostic medical

Telecommunication

Analyse de donnees spatiales

Telephonie

...

Ansaf Salleb, Recherche de motifs frequents : Applications aux donnees geographiques, juin

2004

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 30 / 53

Page 31: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

Historique wikiCollaboration sur les wikisMotifs de collaborationDifferentes etapes

1 Introduction

2 Wiki

3 Extraction de motifs frequents

4 Motifs de redaction collaborative sur les WikisHistorique wikiCollaboration sur les wikisMotifs de collaborationDifferentes etapes

5 History flow

6 Conclusion

7 References

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 31 / 53

Page 32: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

Historique wikiCollaboration sur les wikisMotifs de collaborationDifferentes etapes

Historique wiki d’un article

Source : Wikipedia

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 32 / 53

Page 33: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

Historique wikiCollaboration sur les wikisMotifs de collaborationDifferentes etapes

Exemple d’ajout de donnees

Source : Wikipedia

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 33 / 53

Page 34: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

Historique wikiCollaboration sur les wikisMotifs de collaborationDifferentes etapes

Exemple de suppression de donnees

Source : Wikipedia

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 34 / 53

Page 35: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

Historique wikiCollaboration sur les wikisMotifs de collaborationDifferentes etapes

Motif frequent de collaboration

Definition

Une intervention ou un enchaınement d’interventions frequent.

Exemples :

Ajout (utilisateur 1) − > Suppression (utilisateur 2) − > Ajout(utilisateur 1).

Suppression de tout le texte => Vandalisme.

...

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 35 / 53

Page 36: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

Historique wikiCollaboration sur les wikisMotifs de collaborationDifferentes etapes

Etape 1 : Observation de la collaboration (1/3)

Wikipedia : les versions des articles sont disponibles et exportables sousformat xml.

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 36 / 53

Page 37: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

Historique wikiCollaboration sur les wikisMotifs de collaborationDifferentes etapes

Etape 2 : Modelisation de la collaboration (2/3)

Un echantillon d’articles interessants 7−→ un graphe pour chaque article.

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 37 / 53

Page 38: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

Historique wikiCollaboration sur les wikisMotifs de collaborationDifferentes etapes

Etape 3 : Extraction des motifs frequents (3/3)

Une base de motifs frequents propres a la collaboration sur les wikis.Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 38 / 53

Page 39: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

IntroductionFonctionnementExemples de motifs

1 Introduction

2 Wiki

3 Extraction de motifs frequents

4 Motifs de redaction collaborative sur les Wikis

5 History flowIntroductionFonctionnementExemples de motifs

6 Conclusion

7 References

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 39 / 53

Page 40: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

IntroductionFonctionnementExemples de motifs

History flow - Introduction

Outil de visualisation des versions d’un fichier (en l’occurence lesversions d’un article sur les wikis).

Implemente par IBM en collaboration avec une etudiante de MIT (en2004).

Exemples de motifs :Vandalisme (acte malveillant, pour le simple plaisir de detruire lapropriete des autres ) vs. Correction (corriger des degats causes par lesvandales).Anonymat vs. Utilisateur connu (Certains articles sont principalementedites par des utilisateurs enregistres et d’autres par les utilisateursinconnus).Stabilite (ou la persistance) du contenu.

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 40 / 53

Page 41: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

IntroductionFonctionnementExemples de motifs

Fonctionnement (1/3)

Source : http ://researchweb.watson.ibm.com/history/explanation.htm

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 41 / 53

Page 42: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

IntroductionFonctionnementExemples de motifs

Fonctionnement (2/3)

Source : http ://researchweb.watson.ibm.com/history/explanation.htm

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 42 / 53

Page 43: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

IntroductionFonctionnementExemples de motifs

Fonctionnement (3/3)

Source : http ://researchweb.watson.ibm.com/history/explanation.htm

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 43 / 53

Page 44: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

IntroductionFonctionnementExemples de motifs

Vandalisme vs. Correction

Source : http ://researchweb.watson.ibm.com/history/explanation.htm

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 44 / 53

Page 45: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

IntroductionFonctionnementExemples de motifs

Anonymat vs. Utilisateur connu (1/2)

Les couleurs gris et blanc representent la contribution des utilisateurs anonymesSource : http ://researchweb.watson.ibm.com/history/explanation.htm

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 45 / 53

Page 46: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

IntroductionFonctionnementExemples de motifs

Anonymat vs. Utilisateur connu (2/2)

Les couleurs gris et blanc representent la contribution des utilisateurs anonymesSource : http ://researchweb.watson.ibm.com/history/explanation.htm

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 46 / 53

Page 47: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

IntroductionFonctionnementExemples de motifs

Stabilite (ou la persistance) du contenu

Source : http ://researchweb.watson.ibm.com/history/explanation.htm

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 47 / 53

Page 48: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

1 Introduction

2 Wiki

3 Extraction de motifs frequents

4 Motifs de redaction collaborative sur les Wikis

5 History flow

6 Conclusion

7 References

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 48 / 53

Page 49: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

Conclusion, persectives

1 Concernant les algorithmes etudiesLes algorithmes bases sur Apriori permettent de retrouver un grandnombre de motifs frequents.Les algorithmes bases sur FP-Growth optimisent l’extraction des motifsfrequents en eliminant la phase de generation de candidats et enintroduisant une structure condensee de la base des transactions (dessous-graphes).

2 Concernant l’analyse de la collaboration sur les WikisLe but est de retrouver un grand nombre de motifs et de les interpreterdans le but de fournir une meilleure comprehension de la communicationsur un outil de collaboration.La modelisation de la collaboration sous forme de graphe proposee peutetre integree dans les engins wikis pour ameliorer le stockage deshistoriques des articles utilise actuellement.Une base de motifs de collaboration peut etre utilisee pour reperer desendroits interessants dans les articles, voir meme predire lecomportement de ces derniers dans le future.Un systeme d’alertes peut etre envisage consistant a envoyer des alertesaux administrateurs des wikis lors de la detection d’un motif frequent.

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 49 / 53

Page 50: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

Conclusion, persectives

1 Concernant les algorithmes etudiesLes algorithmes bases sur Apriori permettent de retrouver un grandnombre de motifs frequents.Les algorithmes bases sur FP-Growth optimisent l’extraction des motifsfrequents en eliminant la phase de generation de candidats et enintroduisant une structure condensee de la base des transactions (dessous-graphes).

2 Concernant l’analyse de la collaboration sur les WikisLe but est de retrouver un grand nombre de motifs et de les interpreterdans le but de fournir une meilleure comprehension de la communicationsur un outil de collaboration.La modelisation de la collaboration sous forme de graphe proposee peutetre integree dans les engins wikis pour ameliorer le stockage deshistoriques des articles utilise actuellement.Une base de motifs de collaboration peut etre utilisee pour reperer desendroits interessants dans les articles, voir meme predire lecomportement de ces derniers dans le future.Un systeme d’alertes peut etre envisage consistant a envoyer des alertesaux administrateurs des wikis lors de la detection d’un motif frequent.

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 49 / 53

Page 51: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

Conclusion, persectives

1 Concernant les algorithmes etudiesLes algorithmes bases sur Apriori permettent de retrouver un grandnombre de motifs frequents.Les algorithmes bases sur FP-Growth optimisent l’extraction des motifsfrequents en eliminant la phase de generation de candidats et enintroduisant une structure condensee de la base des transactions (dessous-graphes).

2 Concernant l’analyse de la collaboration sur les WikisLe but est de retrouver un grand nombre de motifs et de les interpreterdans le but de fournir une meilleure comprehension de la communicationsur un outil de collaboration.La modelisation de la collaboration sous forme de graphe proposee peutetre integree dans les engins wikis pour ameliorer le stockage deshistoriques des articles utilise actuellement.Une base de motifs de collaboration peut etre utilisee pour reperer desendroits interessants dans les articles, voir meme predire lecomportement de ces derniers dans le future.Un systeme d’alertes peut etre envisage consistant a envoyer des alertesaux administrateurs des wikis lors de la detection d’un motif frequent.

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 49 / 53

Page 52: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

Conclusion, persectives

1 Concernant les algorithmes etudiesLes algorithmes bases sur Apriori permettent de retrouver un grandnombre de motifs frequents.Les algorithmes bases sur FP-Growth optimisent l’extraction des motifsfrequents en eliminant la phase de generation de candidats et enintroduisant une structure condensee de la base des transactions (dessous-graphes).

2 Concernant l’analyse de la collaboration sur les WikisLe but est de retrouver un grand nombre de motifs et de les interpreterdans le but de fournir une meilleure comprehension de la communicationsur un outil de collaboration.La modelisation de la collaboration sous forme de graphe proposee peutetre integree dans les engins wikis pour ameliorer le stockage deshistoriques des articles utilise actuellement.Une base de motifs de collaboration peut etre utilisee pour reperer desendroits interessants dans les articles, voir meme predire lecomportement de ces derniers dans le future.Un systeme d’alertes peut etre envisage consistant a envoyer des alertesaux administrateurs des wikis lors de la detection d’un motif frequent.

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 49 / 53

Page 53: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

Conclusion, persectives

1 Concernant les algorithmes etudiesLes algorithmes bases sur Apriori permettent de retrouver un grandnombre de motifs frequents.Les algorithmes bases sur FP-Growth optimisent l’extraction des motifsfrequents en eliminant la phase de generation de candidats et enintroduisant une structure condensee de la base des transactions (dessous-graphes).

2 Concernant l’analyse de la collaboration sur les WikisLe but est de retrouver un grand nombre de motifs et de les interpreterdans le but de fournir une meilleure comprehension de la communicationsur un outil de collaboration.La modelisation de la collaboration sous forme de graphe proposee peutetre integree dans les engins wikis pour ameliorer le stockage deshistoriques des articles utilise actuellement.Une base de motifs de collaboration peut etre utilisee pour reperer desendroits interessants dans les articles, voir meme predire lecomportement de ces derniers dans le future.Un systeme d’alertes peut etre envisage consistant a envoyer des alertesaux administrateurs des wikis lors de la detection d’un motif frequent.

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 49 / 53

Page 54: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

Conclusion, persectives

1 Concernant les algorithmes etudiesLes algorithmes bases sur Apriori permettent de retrouver un grandnombre de motifs frequents.Les algorithmes bases sur FP-Growth optimisent l’extraction des motifsfrequents en eliminant la phase de generation de candidats et enintroduisant une structure condensee de la base des transactions (dessous-graphes).

2 Concernant l’analyse de la collaboration sur les WikisLe but est de retrouver un grand nombre de motifs et de les interpreterdans le but de fournir une meilleure comprehension de la communicationsur un outil de collaboration.La modelisation de la collaboration sous forme de graphe proposee peutetre integree dans les engins wikis pour ameliorer le stockage deshistoriques des articles utilise actuellement.Une base de motifs de collaboration peut etre utilisee pour reperer desendroits interessants dans les articles, voir meme predire lecomportement de ces derniers dans le future.Un systeme d’alertes peut etre envisage consistant a envoyer des alertesaux administrateurs des wikis lors de la detection d’un motif frequent.

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 49 / 53

Page 55: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

Conclusion, persectives

1 Concernant les algorithmes etudiesLes algorithmes bases sur Apriori permettent de retrouver un grandnombre de motifs frequents.Les algorithmes bases sur FP-Growth optimisent l’extraction des motifsfrequents en eliminant la phase de generation de candidats et enintroduisant une structure condensee de la base des transactions (dessous-graphes).

2 Concernant l’analyse de la collaboration sur les WikisLe but est de retrouver un grand nombre de motifs et de les interpreterdans le but de fournir une meilleure comprehension de la communicationsur un outil de collaboration.La modelisation de la collaboration sous forme de graphe proposee peutetre integree dans les engins wikis pour ameliorer le stockage deshistoriques des articles utilise actuellement.Une base de motifs de collaboration peut etre utilisee pour reperer desendroits interessants dans les articles, voir meme predire lecomportement de ces derniers dans le future.Un systeme d’alertes peut etre envisage consistant a envoyer des alertesaux administrateurs des wikis lors de la detection d’un motif frequent.

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 49 / 53

Page 56: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

Conclusion, persectives

1 Concernant les algorithmes etudiesLes algorithmes bases sur Apriori permettent de retrouver un grandnombre de motifs frequents.Les algorithmes bases sur FP-Growth optimisent l’extraction des motifsfrequents en eliminant la phase de generation de candidats et enintroduisant une structure condensee de la base des transactions (dessous-graphes).

2 Concernant l’analyse de la collaboration sur les WikisLe but est de retrouver un grand nombre de motifs et de les interpreterdans le but de fournir une meilleure comprehension de la communicationsur un outil de collaboration.La modelisation de la collaboration sous forme de graphe proposee peutetre integree dans les engins wikis pour ameliorer le stockage deshistoriques des articles utilise actuellement.Une base de motifs de collaboration peut etre utilisee pour reperer desendroits interessants dans les articles, voir meme predire lecomportement de ces derniers dans le future.Un systeme d’alertes peut etre envisage consistant a envoyer des alertesaux administrateurs des wikis lors de la detection d’un motif frequent.

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 49 / 53

Page 57: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

Livres - PapiersSites Web - Blogs - Wikis

1 Introduction

2 Wiki

3 Extraction de motifs frequents

4 Motifs de redaction collaborative sur les Wikis

5 History flow

6 Conclusion

7 ReferencesLivres - PapiersSites Web - Blogs - Wikis

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 50 / 53

Page 58: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

Livres - PapiersSites Web - Blogs - Wikis

Livres et papiers

R. Agrawal, T. Imielinski, and A. N. Swami. Mining association rules between sets ofitems in large databases. Proc. of the ACM SIGMOD’93, p. 207-216, 1993.

R. Agrawal and R. Srikant. Fast algorithms for mining association rules. In VLDB’94, p.487-499, September 1994.

M. Cohen and E. Gudes. Diagonally subgraphs pattern mining. Proc. of the 9th ACMSIGMOD Workshop on Research issues in Data Mining and Knowledge Discovery, 2004.

A. Desilets, S. Paquet, N. G. Vinson. Are wikis usable ?. In Proc. of the 2005 internationalsymposium on Wikis WikiSym’05. Octobre 2005.

W. J. Frawley, G. Piatetsky-Shapiro and C. J. Matheus. Knowledge discovery indatabases : an overview. AI Magazine, vol.13, p.57-70, 1992.

J. Han and M. Kamber. Data Mining : Concepts and Techniques. Morgan Kaufmann, 2001.

J. Han, J. Pei, and Y. Yin. Mining frequent patterns without candidate generation. InSIGMOD’00.

A. Inokuchi, T. Washio, and H. Motoda. An apriori-based algorithm for mining frequentsubstructures from raph data. Proc. of the 4th European Conference on Principles of DataMining and Knowledge Discovery (PKDD’00), p. 1323, 2000.

M. Kuramochi and G. Karypis. Frequent subgraph discovery. In Proc. InternationalConference on Data Mining’01.

B. Leuf and W. Cunningham. The Wiki Way : Quick Collaboration on the Web. Boston :Addison-Wesley, 2001.

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 51 / 53

Page 59: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

Livres - PapiersSites Web - Blogs - Wikis

Livres et papiers (2)

M. Kuramochi and G. Karypis. Discovering frequent geometric subgraphs. In ICDT’99.

J. Pei, J. Han, and R. Mao. CLOSET : An efficient algorithm for mining frequent closeditemsets. In DMKD’00, Mai 2000.

A. Salleb. Recherche de motifs frequents pour l’extraction de regles d’association et decaracterisation. 1 decembre 2003.

A. Salleb. Recherche de motifs frequents - Applications aux donnees geographiques. 8juin 2004.

J. Wang, J. Han, and J. Pei. CLOSET+ : Searching for the best strategies for miningfrequent closed itemsets. In Proceedings of the 9th ACM SIGKDD International Conferenceon Knowledge discovery and data mining, Aout 2003.

F. B. Viegas, M. Wattenberg, and K. Dave. Studying cooperation and conflict betweenauthors with history flow visualizations. CHI 2004, p.575-582.

X. Yan and J. Han. gspan : Graph-based substructure pattern mining. Proc. of the 2002IEEE International Conference on Data Mining (ICDM’02), page 721, 2002.

X. Yan and J. Han. Closegraph : Mining closed frequent graph patterns. Proc. of the 9thInternational Conference on Knowledge Discovery and Data Mining (KDD’03), pages286295, 2003.

M. J. Zaki and C. J. Hsiao. CHARM : An efficient algorithm for closed itemset mining.In SDM’02.

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 52 / 53

Page 60: Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

Livres - PapiersSites Web - Blogs - Wikis

Sites Web - Blogs - Wikis

BBC NEWS. Wikipedia survives research test.http ://news.bbc.co.uk/2/hi/technology/4530930.stm. Article consulte le 15 fevrier 2006.

Daniel Terdiman CNET News.com. Wikipedia’s open-source label conudrum.http ://news.com.com/Wikipedias+open-source+label+conundrum/2100-1038 3-5988267.html. Article consulte le 15 fevrier2006.

M. Davis - BBC NEWS. Congress made Wikipedia changes.http ://news.bbc.co.uk/2/hi/technology/4695376.stm . Article consulte le 15 fevrier 2006.

Clubic. http ://www.clubic.com/

Gouvernance. Gilles Paquet. http ://www.gouvernance.ca/

History Flow. http ://researchweb.watson.ibm.com/history/index.htm/

History Flow. IBM. http ://www.alphaworks.ibm.com/tech/historyflow/

JotSpot. http ://www.jot.com/

LesWikis. www.leswikis.com/

SocialText. http ://www.socialtext.com/

Tout-Savoir.Net (wiki-definition).http ://www.tout-savoir.net/lexique.php ?code=8128&rub=definition

UNESCO (e-gouvernance). http ://portal.unesco.org/ci/fr/ev.php-URL ID=3038&URL DO=DO TOPIC&URL SECTION=201.html

WikiWikiWeb. http ://c2.com/cgi/wiki/

Wikipedia. http ://www.wikipedia.org/

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 53 / 53