Fouille de données complexes

61
Karine Zeitouni Master COSY – Université de Versailles Saint-Quentin Edition 2005-2006 En ligne sur : http://www.prism.uvsq.fr/users/karima/DM Fouille de données complexes

description

Fouille de données complexes. Karine Zeitouni Master COSY – Université de Versailles Saint-Quentin Edition 2005-2006 En ligne sur : http://www.prism.uvsq.fr/users/karima/DM. Introduction. De plus en plus d’entrepôts de données sont ou seront créés Raisons principales : - PowerPoint PPT Presentation

Transcript of Fouille de données complexes

Page 1: Fouille de données complexes

Karine Zeitouni

Master COSY – Université de Versailles Saint-Quentin

Edition 2005-2006

En ligne sur :

http://www.prism.uvsq.fr/users/karima/DM

Fouille de données complexes

Page 2: Fouille de données complexes

K. Zeitouni Cours M2 COSY - Fouille de données complexes

2

Introduction De plus en plus d’entrepôts de données sont ou seront

créés Raisons principales :

Le tout numérique dans l’entreprise génère des données à entreposer échange et recherche de données facilités (via Internet) capteurs et numérisations de toute sorte (librairies digitales)

Explosion des données multimédias SIG / Télédétection (données cartographiques, données satellitales) agence de photo de presses CAO, Bio-informatique, imagerie médicales (données techniques) finance (cours des actions= séries temporelles) GED (documents, emails) vidéo, …

Page 3: Fouille de données complexes

K. Zeitouni Cours M2 COSY - Fouille de données complexes

3

Plan

Fouille de données spatiales

Les Bases de données spatiales

Méthodes de la FDS

Fouille de données textuelles

Fouille de données séquentielles

Page 4: Fouille de données complexes

Bases de données spatiales

Page 5: Fouille de données complexes

K. Zeitouni Cours M2 COSY - Fouille de données complexes

5

Définition d’une BD spatiale

Ensemble organisé d’objets géographiques :

Chaque objet est une association d'une description

qualitative ou quantitative et d’une localisation spatiale

Gérée au sein d’un SIG

Organisée en couches thématiques

Ex : découpage administratif, Réseaux routier, Cadastre,

POS, Topographie (courbes de niveau)...

Page 6: Fouille de données complexes

K. Zeitouni Cours M2 COSY - Fouille de données complexes

6

Interface graphique

Page 7: Fouille de données complexes

K. Zeitouni Cours M2 COSY - Fouille de données complexes

7

Parallèle relationnel – Spatial (1)

Parallèle entre Thème et table: Un thème peut être vu comme une table avec un attribut de

localisation

Table

Id_route

1

2

3

TypeSurface

Goudronnée

Goudronnée

Goudronnée

Nom_route

Av. Morane Saulnier

Rue Dewoitine

Av. Europe

Nb_voies

4

3

1

Localisation

Page 8: Fouille de données complexes

K. Zeitouni Cours M2 COSY - Fouille de données complexes

8

Requêtes spatiales Sélection

Ville de plus de 10 000

Sélection spatiale Accès aux objets situés dans une

fenêtre donnée

Accès par relation à un objet Communes au bord de le N10

Jointure spatiale Zones d’intersection des communes

et des forêts (map overlay)

Agrégation Fusion des communes par

département

select c.nom, c.locfrom commune cwhere c.population > 10000

select c.nom, c.locfrom commune cwhere c.population > 10000

select c.*from commune c, route rwhere r.nom = 'N10' and adjacent(c.loc, r.loc)

select c.*from commune c, route rwhere r.nom = 'N10' and adjacent(c.loc, r.loc)

select c.nom, f.nom, Intersection (c.loc, f.loc)from commune c, foret fwhere Intersecte (c.loc, f.loc)

select c.nom, f.nom, Intersection (c.loc, f.loc)from commune c, foret fwhere Intersecte (c.loc, f.loc)

select departement, fusion (loc)from communegroup by departement

select departement, fusion (loc)from communegroup by departement

select c.nom, c.locfrom commune cwhere Intersecte (c.loc,

Rectangle(xmin,ymin,xmax,ymax))

select c.nom, c.locfrom commune cwhere Intersecte (c.loc,

Rectangle(xmin,ymin,xmax,ymax))

Parallèle relationnel – Spatial (2)

Page 9: Fouille de données complexes

K. Zeitouni Cours M2 COSY - Fouille de données complexes

9

Parallèle relationnel – Spatial (3)

RELATIONNEL SPATIAL Données Entier, Réel, Texte, … Plus complexes: Point, Ligne, Région …

Prédicats et calculs

Tests : =, >,… Calculs : +, /,… et fonctions simples

Prédicats et calculs géom. et topologiques: Tests : intersecte, adjacent à,… Fonctions géom. : intersection, surface…

Manipulation Opérateurs de l'algèbre : Sélection, Projection, Jointure… Agrégats : Count, Sum, Avg…

Manipulation par thème ou inter-thèmes Sélection et jointure sur critère spatial Agrégats : fusion d'objets adjacents

Liens entre objets

Par clés de jointures Liens spatiaux (souvent) implicites

Méthodes d'accès

Index B-tree, hachage Index R-tree, quad-tree, etc.

Cette comparaison montre que : les SGBD Géographiques sont spécifiques, mais ils peuvent être vus comme une extension des SGBD relationnels

Page 10: Fouille de données complexes

K. Zeitouni Cours M2 COSY - Fouille de données complexes

10

Exemple d’Oracle spatial

Niveau de fiabilité supérieur à celui des simples fichiers (sécurité

d’accès, intégrité transactionnelle…)

Intégration des données géo-spatiales dans un SGBD:

=>utilisation beaucoup plus efficace des données

=>garantie de l’universalité et de l’interopérabilité - conforme aux normes

(OpenGIS, ISO, …)

=>requêtes combinées aux informations géo-spatiales et classiques -

dans un langage SQL (familier aux développeurs)

Page 11: Fouille de données complexes

Fouille de données spatiales

Page 12: Fouille de données complexes

K. Zeitouni Cours M2 COSY - Fouille de données complexes

12

Problème typeDr. John Snow découvre la cause probable des cas de choléra

Page 13: Fouille de données complexes

K. Zeitouni Cours M2 COSY - Fouille de données complexes

13

Autre application - Analyse de l’accidentologie routière Vise à décrire et expliquer le risque routier par :

la description des accidents inventoriés leur contexte géographique

Fouille deDonnéesSpatiales

Cartes etconnaissances

extraites

Accidentsinventoriés

Voirie

Activités

...

Page 14: Fouille de données complexes

K. Zeitouni Cours M2 COSY - Fouille de données complexes

14

Fouille de données spatiales versus Analyse spatiale

Fouille de données spatiales Analyse spatiale (Dr J. Snow)Découverte automatique de connaissances

Découverte visuelle de connaissances

Exploratoire (génère des hypothèses) Confirmatoire

Opère sur des gros volumes de données Inapplicable sur des BD volumineuses

Applications décisionnelles : Analyse spatiale de phénomènes localisés :

risque routier, épidémiologie, criminologie, pollution, …

FDS versus Analyse spatiale

Page 15: Fouille de données complexes

K. Zeitouni Cours M2 COSY - Fouille de données complexes

15

FD « classique » Batterie de méthodes exploratoires Pas de raisonnement spatial

BD spatiales Requêtes avec critères spatiaux Pas d’analyse exploratoires

Fouille de données spatiales Intègre les techniques de BDS et de FD Explore les données et les relations spatiales d ’une BDS

Fouille de données spatiales versus Fouille de données classique

Page 16: Fouille de données complexes

K. Zeitouni Cours M2 COSY - Fouille de données complexes

16

Fouille de données spatiales - Définition

Découverte de connaissances implicites depuis une BDS toute propriété, règle ou régularité

impliquant les objets de la BD spatiales et/ou les objets avoisinants

et leurs relations spatiales

Principales méthodes : Statistiques spatiales

Clustering

Règles d’association

Classification

Page 17: Fouille de données complexes

K. Zeitouni Cours M2 COSY - Fouille de données complexes

17

Statistiques spatiales

Analyse globale - Mesure d’auto-corrélation spatiale d’une variable

Indice global (par carte) de Moran et Geary (en 1945 et 54)

Analyse locale - Indice local d’associations spatiales (LISA) [Anselin 90]

Particularités au niveau local => met en évidence les données atypiques

utilise une matrice de voisinage binaire ou pondérée (wij)

quantifie la contribution individuelle de chaque lieu à l’indice global

i

i

jjiji

Local

NXX

XXwXX

M2

Page 18: Fouille de données complexes

K. Zeitouni Cours M2 COSY - Fouille de données complexes

18

Application aux sections

Lim_roub.shpRes_roub.shp

LISA (2)-32.929 - -2.76-2.76 - -0.341-0.341 - 2.8322.832 - 8.6738.673 - 171.983

Vert : moins corrélé que la

moyenne globale

Rouge : plus corrélé que

l’indice global

Jaune: comme l’indice

global

Blanc : tronçons sans

calcul (pas d’accidents)

Page 19: Fouille de données complexes

K. Zeitouni Cours M2 COSY - Fouille de données complexes

19

Application aux régionsAutocorrélation locale du nombre de blessés

Page 20: Fouille de données complexes

K. Zeitouni Cours M2 COSY - Fouille de données complexes

20

Problèmes engendrés

Problème 1: Les données spatiales sont liées Les méthodes de FD supposent les données indépendantes

Problème 2: Les relations spatiales sont implicites Non stockées dans la BD

Leur calcul nécessite des jointures coûteuses

Leur intégration dans l’analyse est coûteuse

Problème 3: Les relations spatiales sont multiples Topologiques (adjacence, intersection, …) ou métriques (distance)

Le choix de la bonne relation spatiale est difficile

Page 21: Fouille de données complexes

K. Zeitouni Cours M2 COSY - Fouille de données complexes

21

Clustering

Groupage d’objets similaires / séparation dissimilaires Similarité en spatial = distance euclidienne Utilisé moins pour classer que pour découvrir des concentrations ou

des points chauds ex: criminologie, épidémiologie, accidents

Méthodes en spatial : orientés perf. : CLARANS, DBSCAN, ... sur spatial & attributs : GDBSCAN, Neighborhood EM [Govaert] évitement obstacle : COE-CLARANS [Han] Concentration atypiques : machine GAM [Openshaw]

Page 22: Fouille de données complexes

K. Zeitouni Cours M2 COSY - Fouille de données complexes

22

Clustering spatial sous contraintes

Problème : Trouver des regroupements qui respectent des contraintes et des obstacles

physiques

Contraintes physiques « COE-CLARANS » [Tung ICDT’01] Ex: installation de réseaux ATM doit tenir compte des obstacles géographiques

(rivière, pont, etc.) Solution: calculer la distance entre p et q en considérant les obstacles

Pont

Rivière

Page 23: Fouille de données complexes

K. Zeitouni Cours M2 COSY - Fouille de données complexes

23

Exemple avec la machine GAM : caractériser les accidents de nuit/ WE

##

#

#

#

#

#

## ##

##

#

#

## #

#

###

#

#

#

##

##

#

#

#

###

#

#

###

#

#

###

##

#

##

###

###

###

###

#

#

# #

##

##

#

#

#

#

###

#

#

## #

#

#

##

#

#

#

#

#

#

#

# ###

#

#

###

##

#

##

## #

##

#

#

##

##

##

###

#

#

#

##

##

#

#

##

#

# ##

#

##

#

###

#

# #

#

#

#

##

#

#

#

##

#

#

#

## #

#

#

#

#

####

#

###

##

##

#

###

#

###

#

##

#

###

#

#

###

#

##

#

#

#

#

#

# #

#

## #

###

#

##

#

##

##

#

#

##

# #

#

#

#

##

#####

#

#

#

##

###

#

##

######

####

#

# #

# ##

##

##

#

#

##

#

##

#

## ##

#

#

#

##

##

####

##

##

######

# #

#####

###### #

##

#

###

##

#

##

###

#

#

#

#

####

#

#

#

#

#

#

##

#

#

####

#

##

###

#

####

####

###

#

#

###

##

#

##

##

#

###

#

##

#

###

#

#

#

# ###

#

### # #

##

#

#

###

#

#

###

###

# ##

#

######

#

# #####

###

## # ##

##

#

#

#######

#

#

##

#

####

#

#

#

#

#

#

#

#

#

#

##

#

#

###

##

###

# #

##

###

##

###

##

#

#

#

#

#

##

#

#

#

#

##

#

##

#

###

#

#

#

#

##

#

#

##

#

#

#

#

#

#####

#

#

#

##

#

#

##

##

###

#

# #

#

#

##

# #

#

##

#

#

#

##

###

##

#

#

##

##

#

#

#

#

##

##

#

##

#

#

###

#

#

#

#

#

#

#

#

#

#

#

#

#

##

#

#

#

#

#

##

##

#

####

#

#### #

#

#

###

####

#

###

#

#

#

# ##

#

#

##

##

#

#

#

### #

###

####

## #

## #

#

####

##

#

###

#

#

###

# ######

##

####

##

###

###

#

#

#

######

######

##

#######

#

#

#

####

#####

###

#####

######

###########

####

#

##

###

#

##

##

####

#### ##

#########

## ##

#######

#####

################

###############

#######

#######

###############

##########

####

###

###

###

#

#

##

#

#

##

#

#

###

#

######

####################

##############

###

###############

######

####################

################

##

#

#######

######

###########

# ####

##

#

##

#

##

#

# ### ###

###########

##########

########

####

### #

##

#

##

#####

####

#

#

##

#

###

#########

##

# ###

#####

#

##### ##

###

###

##

#

#

#

#

#

#

#

## ######

####

#########

#

##### #

#

###

##########

#

#

### #

# ###

#####

## ###

####

##

#

#

#

#######

#

#########

###

###

###

####

##### #

####

###

##

# ##### #

####

######

########

### #

##

##

#

#

###

######

##

##

######

#

####

#####

#

#######

####

#########

#####

#########

## #

######

#

#####

#########

########

####

########

#

#

##

#

### #

# ########

#####

####

##

###

######

#####

#######

#######

#########

##

#####

#######

#

##

####

##

#

########

##

###

####

###

#

#

#

#

#

#####

#

#

########

####

###

#####

# #

#

#

#####

### #

##

#

#

#

#

#

#

#

#

#

#

##

#

#

##

#

#

#

##

#

#

# #

#

##

#

##

###

#

#

#

#

##

#

#

#

##

##

#

#

#

#

#

#

#

#

#

#

#

#

#

#

#

#

#

#

#

#

#

#

#

#

# #

#

#

#

#

#

#

#

###

#

#

###

#

###

#####

##

#

#

#

#

### #

#

##

###### ##

####

#

#

####

###

#

#

#

#

#

#

#

##

##

#

#

##

#

#

#

##

#

## #

###

##

####

#

##

###

#

##

##

#

#

#

#

#

Localisations des accidents de nuit WE en rouge

Recherche de concentrations spatiales locales atypiques

Page 24: Fouille de données complexes

K. Zeitouni Cours M2 COSY - Fouille de données complexes

24

Clustering sous Oracle 10g

But: Trouver les zones de concentration de criminologie.

Moyen: Grouper les données spatiales dans une table spécifiée USBG_high_crimes1. Définir high_crimes>150Create Table USBG_high_crimes AsSelect* From USBG_data Where CrimeIndex>150

2. Appliquer la méthode de clustering (k=4)Select geometry FromTable(sdo_sam.spatial_cluster(‘USBG_high_crimes’,’geom’,4))

Page 25: Fouille de données complexes

K. Zeitouni Cours M2 COSY - Fouille de données complexes

25

Clustering sous Oracle 10g

Visualiser les clusters par Oracle MapViewerUSBG_data en jaune, partie crimes élevés en bleu foncé et clusters en

bleu transparent

Page 26: Fouille de données complexes

K. Zeitouni Cours M2 COSY - Fouille de données complexes

26

Règles d’associations spatiales

1. Règle d’association multi-dimensionnelle Sur une table (attributs x Valeurs) en remplaçant les valeurs

d ’"articles" d'une transaction par les valeurs d’attributs

"A1^A2...^Am => B1^...^Bn" avec support et confianceoù Ai et Bj sont des valeurs d'attributs

2. Sur des données spatialesidem + Rel° spatiales => idem + Rel° spatiales

ce qui revient à trouver des associations entre des propriétés des objets et celles de leurs "voisins"

Page 27: Fouille de données complexes

K. Zeitouni Cours M2 COSY - Fouille de données complexes

27

Exemple

station_service ^ dans (zone_rurale) -> proche (autoroute) (25%, 80%)

exprime que les stations service en zone rurales sont près des autoroutes, à 80% (confiance) et que ces stations forment 25% (support) des stations inventoriées.

VariantesThème de référence [Koperski]Règle de co-localisation quelconque [Shashi]

Page 28: Fouille de données complexes

K. Zeitouni Cours M2 COSY - Fouille de données complexes

28

Co-localisation

Sous ensemble d’objets spatiaux fréquemment situés ensemble

Page 29: Fouille de données complexes

K. Zeitouni Cours M2 COSY - Fouille de données complexes

29

Rappel Règles de classement pour expliquer une variable « classe » par

des variables explicatives.

En FDSLes propriétés du voisinage peuvent être explicatives

Exemple : classer les accidents selon 3 classes d’impliqués (piéton, 2 roues, véhicules) selon les propriétés des accidents et des objets voisins

Découvre des liens cachés avec certains types de voisins et les illustrer sur la carte.

Arbre de décision spatial

Page 30: Fouille de données complexes

K. Zeitouni Cours M2 COSY - Fouille de données complexes

30

Exemple – Spatial CART

Page 31: Fouille de données complexes

K. Zeitouni Cours M2 COSY - Fouille de données complexes

31

FD spatiales

FD multi-tables

Index de Jointure Spatial

Eta

pe 1

AlgosILP

Etendre les algorithmesau multi-tables

Adapter les données aux algos existants

CROISEMENT

ConnaissancesConnaissances

Prendre en compte la duplication des objets

algorithme classique

Eta

pe 2

Approches proposées

Programme logique

Page 32: Fouille de données complexes

K. Zeitouni Cours M2 COSY - Fouille de données complexes

32

Approche préconisée par Oracle 10g

Page 33: Fouille de données complexes

K. Zeitouni Cours M2 COSY - Fouille de données complexes

33

Index de jointure spatiale?

Structure secondaire qui matérialise et codifie les relations spatiales

ID1 Relation spatiale ID2

01

02

…..

60

45

…….

…..

99

…….

53

12

43

……

…..

75

Id ….. Ann

01

02

…..

…..

….

…..

99

….

….

Id …. Bnn

01

02

…..

…..

….

…..

99

….

….

….

Thème 1 Thème 2Index de jointure spatiale

……. ……….. ….. … …….. … …

….

Page 34: Fouille de données complexes

K. Zeitouni Cours M2 COSY - Fouille de données complexes

34

La FD classique est mono-table

1 table unique

Valeurs atomiques

1 exemple d’apprentissage

par ligne

Représentation des données en FD classique

Page 35: Fouille de données complexes

K. Zeitouni Cours M2 COSY - Fouille de données complexes

35

Transformation préalable

ID1 Date Impliqué … An Dist_ école Dist_ marché

01 12/03/03 Piéton … an1 10 Null

02 10/04/03 2 roues … An2 75 20

IndexJS

An22 roues10/04/0302

an1Piéton12/03/0301

AnImpliquéDateID1

200302

750102

550201

100101

DistID2ID1

Accident

Marché03

Ecole01

Ecole02

LibelleID

Bâtiment

Opérateur CROISEMENT

Page 36: Fouille de données complexes

K. Zeitouni Cours M2 COSY - Fouille de données complexes

36

Conclusion sur la FDS

La fouille de données spatiales = prolongement de la

fouille de données Tient compte des interactions dans l’espace

La préparation des données peut changer la donne ? FD spatiale FD multi-tables grâce aux index de jointures

spatiales FD classique grâce à l’opérateur

C’est souvent le cas d’autres objets complexes : Fouille de texte FD par transformation en vecteur de termes

Fouille d’images FD sur descripteurs

Page 37: Fouille de données complexes

Fouille de données textuelles

Page 38: Fouille de données complexes

K. Zeitouni Cours M2 COSY - Fouille de données complexes

38

Fouille de textes

Croissance phénoménale de données textuelles Documents sur Internet, mail, rapports, … Besoin d’automatiser leur recherche et leur classement

Comment faire supporter à la machine le traitement rapide du langage naturel ?

Techniques d’Analyse du Langage Naturel (TALN): Extraction d’éléments du langage : nom propres (personne, lieu, société) Utilise les règles de grammaire et des patrons linguistiques, des thésaurus

(synonymes et hiérarchies de termes) ou des ontologies (règles en plus) Fouille de textes (si grand nombre de textes)

Clustering de texte Classification (catégorisation) Associations de termes

Page 39: Fouille de données complexes

K. Zeitouni Cours M2 COSY - Fouille de données complexes

39

Fouille de texte versus fouille de données

Data Mining Text Mining

Objetnumérique & catégorique

textuel

Structure structuré non-structuré

Représentation simple complexe

Dimension dizaines milliers

MaturitéImplémentation vaste

dès 1994Implémentation vaste

dès 2000

Page 40: Fouille de données complexes

K. Zeitouni Cours M2 COSY - Fouille de données complexes

40

Classification de documents

Principe Classification (par apprentissage) de textes dans 1 ou plusieurs

catégories

Application en e-commerce : Relier une description de produit en texte libre à une classe de produits.

Application web: les sites tels que Yahoo constituent une exellente base

d’apprentissage, car les catégories y ont été générées manuellement.

Sert à générer un classifieur pour classer les prochains documents.

Ces classes peuvent servir comme balises sémantiques

textes Moteur de Catégorisation

Moteur de Catégorisation

sportculturesanté

politiceconomicvacances

Page 41: Fouille de données complexes

K. Zeitouni Cours M2 COSY - Fouille de données complexes

41

Site organisé par catégorie

Page 42: Fouille de données complexes

K. Zeitouni Cours M2 COSY - Fouille de données complexes

42

Processus global de catégorisation

Sélection des termes

Sélection des termes

Termes uniques présents dans les documents

pré-traitement pré-traitement

Vecteur des documents

Calcul des similaritésCalcul des similarités

k proches voisins

Calcul des scores des catégories

Calcul des scores des catégories

catégories affectées

Documentsd’apprentissage

DictionnaireDictionnaire

Représentation Représentation

Vecteurs des documents

Vecteurs des documents

document

Termes uniquesTermes uniques

ApprentissageCatégorisation

Page 43: Fouille de données complexes

K. Zeitouni Cours M2 COSY - Fouille de données complexes

43

Prétraitement des documentsDocument: doc

Tokenizing

Removing stop words

Stemming words*

Calculating term frequency

StemmedTermsTF*stoppedTermsTF

Génère des données de type:(docID, (term, term frequency)*)

Page 44: Fouille de données complexes

K. Zeitouni Cours M2 COSY - Fouille de données complexes

44

Ex: Stop-words (mots chevilles)

Liste de mots (ex. ceux listés par Oracle text) sont les 200 suivants :a , beaucoup, comment, encore, lequel, moyennant, près, ses, toujours, afin,

ça, concernant, entre, les, ne, puis, sien, tous, ailleurs, ce, dans, et, lesquelles, ni, puisque, sienne, toute, ainsi, ceci, de, étaient, lesquels, non, quand, siennes, toutes, alors, cela, dedans, était, leur, nos, quant, siens, très, après, celle, dehors, étant, leurs, notamment, que, soi, trop, attendant, celles, déjà, etc, lors, notre, quel, soi-même, tu, au, celui, delà, eux, lorsque, notres, quelle, soit, un, aucun, cependant, depuis, furent, lui, nôtre, quelqu’un, sont, une, aucune, certain, des, grâce, ma, nôtres, quelqu’une, suis, vos, au-dessous, certaine, desquelles, hormis, mais, nous, quelque, sur, votre, au-dessus, certaines, desquels, hors, malgré, nulle, quelques-unes, ta, vôtre, auprès, certains, dessus, ici, me, nulles, quelques-uns, tandis, vôtres, auquel, ces, dès, il, même, on, quels, tant, vous, aussi, cet, donc, ils, mêmes, ou, qui, te, vu, aussitôt, cette, donné, jadis, mes, où, quiconque, telle, y, autant, ceux, dont, je, mien, par, quoi, telles, autour, chacun, du, jusqu, mienne, parce, quoique, tes, aux, chacune, duquel, jusque, miennes, parmi, sa, tienne, auxquelles, chaque, durant, la, miens, plus, sans, tiennes, auxquels, chez, elle, laquelle, moins, plusieurs, sauf, tiens, avec, combien, elles, là, moment, pour, se, toi, à, comme, en, le, mon, pourquoi, selon, ton.

Page 45: Fouille de données complexes

K. Zeitouni Cours M2 COSY - Fouille de données complexes

45

Représentation des documents et Mesure de similarité

Représentation des documents Vecteurs de document

ou matrice Document x terme

Pondération (ex: tf-idf)

+ Réduction de dimension

Similarité : Par le cosinus : Plus il est élevé (angle obtus) plus les

documents sont similaires

w11 w12  w1T

w21 w22  w2T

wN1 wN2  wNT

d1

d2

dN

t1 t2 tT

jiji ddddSimil ,cos),(

Page 46: Fouille de données complexes

K. Zeitouni Cours M2 COSY - Fouille de données complexes

46

Pondération TF-IDF

TF-IDF signifie Term Frequency x Inverse

Document Frequency : Proposée par [Salton 1989], mesure l'importance d’un terme

dans un document relativement à l’ensemble des documents.

Avec: tf i,j = fréquence du terme i dans le document j

df i = nombre de documents du corpus contenant le terme i N = nombre de documents du corpus

Page 47: Fouille de données complexes

K. Zeitouni Cours M2 COSY - Fouille de données complexes

47

Évaluation de Performances Ex. pour la catégorisation binaire (Y/N):

Mesures basés sur la table de contingences :

Rappel mesure la largeur de la catégorisation : ratio des documents bien classés par rapport à l’ensemble des documents appartenant réellement à la catégorie. r=a/(a+c)

Précision mesure la qualité de la catégorisation et correspond à la fraction des documents bien classés sur tous les documents affectés à la catégorie. p=a/(a+b)

F-mesure mesure le compromis entre r et p: F1=2r*p/(r+p)

pré-étiqueté Y pré-étiquetéNAffecté à Y a b a+b

Affecté à N c d c+d

a+c b+d a+b+c+d

Page 48: Fouille de données complexes

Fouille de données séquentielles

Page 49: Fouille de données complexes

K. Zeitouni Cours M2 COSY - Fouille de données complexes

49

Utilisations

Panier de la ménagère en considérant l’historique des transactions des clients.

Le Web Usage Mining en considérant les succession des pages accédées par un même internaute.

Analyse de séquences ADN Analyse de séquences d’événements quelconques :

Ex: Séquence d’activités de l’enquête «Ménages- Déplacements»

Différences avec les séries temporelles Séries qualitatives et non numériques Parfois série d’ensembles, série de données multi-variées, …

Page 50: Fouille de données complexes

K. Zeitouni Cours M2 COSY - Fouille de données complexes

50

Ex : Le Web Usage Mining Le Weblog contient des informations riches sur la

dynamique du Web => Son analyse permet de cibler les utilisateurs (clients, marchés) potentiels

La recherche de régularités (séquences fréquentes de pages) permet :

D’ajuster la conception des pages et des liens et d’améliorer les performances des sites

Les associations de pages côté client permet d’optimiser le cache du navigateur, d’effectuer du « prefetching »

L’analyse de tendance (temporelle): Indique les changements et la dynamique du web pour s’y adapter

Page 51: Fouille de données complexes

K. Zeitouni Cours M2 COSY - Fouille de données complexes

51

Sous-séquences fréquentes

Algorithme GSP [Skirant 95]: Extension d’Apriori Génération de candidats modifiée Inconvénient : plusieurs parcours de la base => coût élevé

a b c

aa ab ac ba bb bc ca cb cc

abb abc bbb bbc cbb cbc

abbc abcb bbcb cbbc cbcb

Page 52: Fouille de données complexes

K. Zeitouni Cours M2 COSY - Fouille de données complexes

52

Sous-séquences fréquentes (Suite)

Algorithme PrefixSpan [Pei 2001]: Inspiré de FP-tree et FP-growth de J. Han Code les données dans une structure d’arbre Plus performant que GSP si la structure tient en mémoire Problème : compacité moyenne => peut dépasser la taille de

la mémoire

Page 53: Fouille de données complexes

K. Zeitouni Cours M2 COSY - Fouille de données complexes

53

Sous-séquences fréquentes (Suite)

Algorithme TBI [Savary 2005]: Un seul parcours de la base Codage compact au fur et à mesure dans un tableau binaire Maintien des fréquences des séquences lues et d’un index

pour l’accès rapide par longueur. Plus performant que PrefixSpan

Méthode en 2 phases : Phase de codage dans la structure de donnée (Lit 1 fois la BD) Phase de génération de fréquents en mémoire

Page 54: Fouille de données complexes

K. Zeitouni Cours M2 COSY - Fouille de données complexes

54

Sous-séquences fréquentes (Suite) Structure de données

M T E S M R T M

0 1 0 0 1 0 1 1

1

VS

TB NB

Index

1 4 6 8 9

240

0 1 1 0 1 0 1 1

1 0 0 0 0 0 0 0

0 1 0 0 1 0 0 1

0 1 0 0 0 0 0 0

.. .. .. .. .. .. .. .. ...

389

500

5Pointe sur le débutde séquences de

taille 3

Pointe sur le débutde séquences de

taille 1.

Fréquence de la séquenceentière

Page 55: Fouille de données complexes

K. Zeitouni Cours M2 COSY - Fouille de données complexes

55

Sous-séquences fréquentes (Suite)

Algo TBI (Seuil-support, Tmax)Pour s dans la BD

Gen-vecteur-séquences (VS, s) //génère le vecteur de séquences

Coder et Insérer séquence dans le TBI

Décalage éventuel pour séquences déjà codées

Mettre à jour NB et Index

Fin pour

Pour k = 1 à Tmax //taille maximale des séquences de la base

- Générer Ck

- Gen-séquences-fréquentes (Seuil-support, k)

Fin Pour

Page 56: Fouille de données complexes

K. Zeitouni Cours M2 COSY - Fouille de données complexes

56

Sous-séquences fréquentes (Suite)

Algo. Gen-vecteur-séquences (VS, s) --s : nouvelle séquence

indice=1 -- Position courante dans VS

Pour chaque article a de s

Si a (VS à partir de indice)

Si b s tel que b VS et position(b) > indice

Insérer a avant b dans VS

indice = indice + 1

Sinon insérer a à la fin de VS

indice = Longueur VS+1

Fin Pour

Fin

Page 57: Fouille de données complexes

K. Zeitouni Cours M2 COSY - Fouille de données complexes

57

Sous-séquences fréquentes (Suite)

Algo. Gen-séquences-fréquentes (Seuil-support, k) :

Lk = // ensemble des séquences fréquentes de tailles k

Pour toutes les sous-séquences candidates s de taille k

- Pour toutes les lignes l du TBI à partir de la ligne index[k]

- Si s l

- s.count = s.count + NB[k] // fréquence de s

- Fin Pour

- Si s.count >= Seuil-support

- Lk= Lk s

Fin Pour

Page 58: Fouille de données complexes

K. Zeitouni Cours M2 COSY - Fouille de données complexes

58

Conclusion

La recherche d’information a dominé la recherche au cours du demi-siècle passé.

La découverte d’informations dominera la recherche au cours du siècle à venir.

Directions de recherche Vers les outils intégrés de data mining

“Vertical” (spécifique par application) data mining invisible (systèmes intelligents)

Vers les méthodes intelligentes, efficaces et passant à l’échelle Réduire les accès disque Surtout réduire les calculs tels que les similarités sur des données

complexes.

Page 59: Fouille de données complexes

K. Zeitouni Cours M2 COSY - Fouille de données complexes

59

Références

Miller H.J., Han J., Geographic Data Mining and Knowledge Discovery, Research monographs in geographic information systems, 2001.

Ester M., Kriegel H.-P., Sander J., Xu X.: A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise, Proc. 2nd Int. Conf. on Knowledge Discovery and Data Mining (KDD-96), Portland, 1996, pp. 226-231.

Ester M., Kriegel H.P., Sander J., "Spatial Data Mining: A Database Approach", Proc. of 5th Symposium on Spatial Databases, Berlin, Germany, 1997.

K. Koperski, G. B. Marchisio, « Multi-level Indexing and GIS Enhanced Learning for Satellite Imageries », In proceedings of Workshop on Multimedia Data Mining, August 20, 2000, Boston, MA, USA, pages 8-13. In conjunctions with the 6th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining 2000.

Lu, W., Han, J. and Ooi, B.: Discovery of General Knowledge in Large Spatial Databases, in Proc. of 1993 Far East Workshop on Geographic Information Systems (FEGIS'93), Singapore, June 1993

Page 60: Fouille de données complexes

K. Zeitouni Cours M2 COSY - Fouille de données complexes

60

Références (suite)R. Ng and J.Han, "Efficient and Effective Clustering Method for Spatial Data Mining'', in

Proc. of Int. Conf. on Very Large Data Bases (VLDB'94), Santiago, Chile, September 1994, pp. 144-155.

Tung A.KH, Ng R T., Lakshmanan L VS, Han J., Constraint-based clustering in large databases. ICDT 2001.

Zeitouni K., "Data Mining Spatial" - Numéro spécial, Revue internationale de géomatique, Editions Hermès, Vol. 9, 4 (99).

Zeitouni K.,Yeh L., Aufaure M-A., "Join indices as a tool for spatial data mining", Int. Workshop on Temporal, Spatial and Spatio-Temporal Data Mining, LNAI n° 2007, Springer, Lyon, September 2000.

Sites web :

http://www.kdnuggets.com/

http://www.cs.bham.ac.uk/~anp/TheDataMine.html

Site de DBMiner/GeoMiner : http://db.cs.sfu.ca/DBMiner/index.html

Page 61: Fouille de données complexes

K. Zeitouni Cours M2 COSY - Fouille de données complexes

61

Références (suite) Agrawal R., Srikant R.: Mining sequential patterns. In Proc. of the 11th Int'l Conference on Data Engineering, Taipei,

Taiwan, March 1995.Han, J., Jamil, H. M., Lu, Y., Chen, L., Liao, Y. and Pei, J. DNA Miner: A system prototype for mining DNA

sequences. In the proc. of the ACM SIGMOD International Conference on the management of data, Day 21-24, 2001, Santa Barbara, CA, USA.

M. J. Zaki. 2001. SPADE: an efficient algorithm for mining frequent sequences. Machine Learning Journal, 42 (1/2): 31-60.

R. Srikant and R. Agrawal. 1996. Mining sequential patterns: generalization and performance improvements. Proceedings of the 15th International Conference on Extending Database Technology, 3-17.

J. Pei, J. Han, B. Mortazavi-Asl, H. Pinto, Q. Chen, U. Dayal, and M-C. Hsu. 2001. PrefixSpan: mining sequential patterns efficiently by prefix-projected pattern growth. Proceedings of the 17th International Conference on Data Engineering (ICDE), 215-224.

F.Masseglia, P.Poncelet, M.Teisseire: Incremental mining of sequential patterns in large databases. Data Knowledge Engineering 46(1): 97-121 (2003).

Savary L., Zeitouni K., “Indexed Bit Map (IBM) for Mining Frequent Sequences”, 9th European Conference on Principles and Practice of Knowledge Discovery in Databases (PKDD 2005), Porto, Portugal, October 3-7, 2005. Lecture Notes in Computer Science n° 3721 / 2005, Springer-Verlag Ed, pp. 659 – 666. Vesrion en Français ”Tableau de Bits Indexé (TBI) pour la Recherche de Séquences Fréquentes », Actes de la conférenceExtraction et Gestion de connaissances (EGC) 2005.