Extension des bases de données inductives pour la découverte de chroniques

24
Extension des bases de données inductives pour la découverte de chroniques Alexandre Vautier, René Quiniou et Marie-Odile Cordier

description

Extension des bases de données inductives pour la découverte de chroniques. Alexandre Vautier, René Quiniou et Marie-Odile Cordier. !. + Contrainte temporelle. A. B. [2,3]. [0,3]. [-1,0]. A. A. A. B. B. B. Une petite illustration…. … sur 2 séquences d’évènements. - PowerPoint PPT Presentation

Transcript of Extension des bases de données inductives pour la découverte de chroniques

Page 1: Extension des bases de données inductives  pour la découverte de chroniques

Extension des bases de données inductives

pour la découverte de chroniques

Alexandre Vautier, René Quiniou et Marie-Odile Cordier

Page 2: Extension des bases de données inductives  pour la découverte de chroniques

Une petite illustration…

Trouver des motifs temporels Fréquents dans D1 (selon un seuil de 3)

Non fréquents dans D2 (selon un seuil de 2)

Motifs : Évènements ? : 5 dans D1 et 5 dans D2

: 5 dans D1 et 3 dans D2

Ensemble d’évènements ? { , }

Contrainte temporelle : intervalle [dmin, dmax]

AB AB AB B A

A A BA B A AB

D1:

D2:

AB

A B )

A B[2,3]

A B

A B[0,3]

A B[-1,0] …?

A B

+ Contrainte temporelle !

… sur 2 séquences d’évènements

Page 3: Extension des bases de données inductives  pour la découverte de chroniques

Introduction

Fouille de données temporelles Complexité due à l’introduction du temps

numérique

Base de données inductives Un cadre formel de la fouille de données

intégrer le temps dans une BDI

Page 4: Extension des bases de données inductives  pour la découverte de chroniques

Plan

Introduction

Base de données inductive et chroniques Relation d’ordre - fréquence

Traitement d’une requête Algorithme de Mitchell FACE : un outil de fouille de données temporelles

Page 5: Extension des bases de données inductives  pour la découverte de chroniques

Base de données inductives

Une formalisation de la fouille de données Donne un cadre au processus d’extraction de connaissances

Une base de données et de motifs La fouille de données est vue comme un processus

d’extraction par requête

Exemple de requêtes atomiques sur les motifs et les données :Fréquence(m,D1) > Tmin

Fréquence(m,D2) < Tmax

Sous-motif(m,M1)

Sous-motif(M1,m)

Requêtes : formule logique de requêtes atomiques

m : motifs cibles à déterminerD1, D2 : données

T… : fréquenceM1 : motifs

Page 6: Extension des bases de données inductives  pour la découverte de chroniques

Processus d’Extraction des connaissances dans les Bases de données

Volume de données Connaissances

Entrepôt de données

Sélection

Prétraitement

Transformation

Fouille de données

Interprétation/Evaluation

Connaissances

Modèles

Données transforméesDonnées

prétraitéesDonnées sélectionnées

Etapes d’un processus ECD [Fayyad et al. 1996]

Page 7: Extension des bases de données inductives  pour la découverte de chroniques

Les données : séquences d’évènements Les motifs : chroniques

Séquence d’évènements : liste d’évènements ordonnés

Chronique : ensemble d’évènements contraints temporellement Évènements de même type : Contrainte temporelle : [dmin,dmax] dmin,dmax 2 Z

A,t0

B,t1

C,t2

[5;10]

[-2;20]

A,1 C,5 B,8 C,10 A,15 A,16 B,26 C,34B,27

Instances

A,t0 B,t1 B,t2

C,t3C,t34

Page 8: Extension des bases de données inductives  pour la découverte de chroniques

Relation de généralité

C plus générale que C’ (C v C’) ,

Il existe un sous-graphe de C’ tel que

toutes les contraintes de C sont égales ou plus larges que celles de ce sous-graphe.

A,t0

B,t1

B,t2

[5;10]

[9;20]A,t0

B,t1

[8;21]v

C C’

Page 9: Extension des bases de données inductives  pour la découverte de chroniques

Requêtes sur la fréquence

freq(m,D) · T Fréquence des motifs m inférieure ou égale à T

freq(m,D) ¸ T Fréquence des motifs m supérieure ou égale à T

Deux ensembles de séquences P et N (9 L 2 P freq(m,D) ¸ TD) Æ (8 L 2 N freq(m,L) · TD)

on continue avec deux séquences…

Page 10: Extension des bases de données inductives  pour la découverte de chroniques

Fréquence et relation d’ordre

Contrainte monotone Ex : freq(m,D) · T

C 2 m Æ C’ v C ) C’ 2 m Freq(C’) · Freq(C)

Contrainte anti-monotone Ex : freq(m,D) ¸ T

C 2 m Æ C’ v C ) C’ 2 m Freq(C’) ¸ Freq(C)

C

C

C’

C’

w

v

Page 11: Extension des bases de données inductives  pour la découverte de chroniques

IC(D) = {i1, i2, i3, i4, i5, i6} Critère de reconnaissance Q

E µ IC(D), Q(E) ) Freq(C,D) = |E|

Exemple de critère : Qd&t: critère d’instances disjointes au plus tôt

E = {i1, i3, i6} ) Freq(C,D) = 3

Fréquence d’une chronique

D: C:i1

i2

i3

i4

i5

i6

Instances

E est unique(Anti)monotonie des contraintes sur la fréquence

Page 12: Extension des bases de données inductives  pour la découverte de chroniques

Traitement d’une requête

freq(m,D1) ¸ T1 Æ freq(m,D2) · T2

T

?

Le calcul des bordssuffit

Espace des versions

mfreq(m,D1) · T1

Æ freq(m,D2) ¸ T2

Maximalement général

Maximalement spécifique

Page 13: Extension des bases de données inductives  pour la découverte de chroniques

Calcul des bords de l’espace des versions

freq(m,D1) ¸ T1 Æ freq(m,D2) < T2

Algorithme de MitchellT

?

freq(m2,D2) ¸ T2

freq(m,D2) < T2

Æ freq(m,D1) ¸ T1

Utilisation des ChroniquesMaximalement spécifiques et Fréquentes (CMFs)

freq(m1,D1) ¸ T1

+

Page 14: Extension des bases de données inductives  pour la découverte de chroniques

FACEFrequency Analyser for Chronicle Extraction

Principe : Freq(m,D) ¸ T

Contrainte Anti-monotone Une chronique peut être fréquente si toutes ses

sous-chroniques sont fréquentes.

… FACE

Séquence d’évènements

Chroniques représentatives

[Dousson & Thang Vu Duong]

Page 15: Extension des bases de données inductives  pour la découverte de chroniques

n=1

Aucune chronique fréquente

n=n + 1

Génération de chroniques de

taille n

Reconnaissance dans la séquence

d’évènements

Raffinage des chroniques fréquentes

Algorithme de FACE

Page 16: Extension des bases de données inductives  pour la découverte de chroniques

FACE……Un outil de fouille de données

Optimisé pour la génération d’un nombre minimum de chroniques

Synthèse efficace recherche des CMFs Néglige les contraintes temporelles

Un extracteur complet et correct d’instances ! À partir des instances reconnues on peut

retrouver les chroniques maximalement spécifiques et fréquentes (CMFs)

Page 17: Extension des bases de données inductives  pour la découverte de chroniques

n=1

Aucune chronique fréquente

n=n + 1

Génération de chroniques de

taille n

Reconnaissance dans la séquence

d’évènements

Raffinage des chroniques fréquentes

Adaptation de l’algorithme FACE

Spécialisation desContraintes temporelles

Page 18: Extension des bases de données inductives  pour la découverte de chroniques

Raffinage pour résultats

, Recherche des motifs fréquents sur des données numériques

Très coûteux : en temps, en espace

Introduction d’un nouveau critère d’intérêt : la densité Meilleure caractérisation des chroniques intéressantes Réduction du nombre de CMFs

Utilisation et adaptation d’algorithmes de clustering Basé sur la densité, algorithmes hiérarchiques…

Page 19: Extension des bases de données inductives  pour la découverte de chroniques

Conclusion

Extension d’une BDI à la recherche de motifs intégrant une notion temporelle

Nécessité de calculer seulement les CMFs de chaque séquence d’évènements

Formalisation de la notion de chronique Relation d’ordre Fréquence, critère de reconnaissance

Utilisation d’un outil de fouille de données existant : FACE

Les BDIs : une formidable façon de structurer la fouille de données

Page 20: Extension des bases de données inductives  pour la découverte de chroniques

Perspectives

Poursuivre la réalisation des bases de données inductives étendues au temps

Utilisation d’autres mesures d’intérêt Autre que la fréquence

Permettre à l’utilisateur de spécifier le niveau de complétude désirée

Application dans le domaine de la détection d’intrusions dans les réseaux de télécommunications

Page 21: Extension des bases de données inductives  pour la découverte de chroniques

pour la découverte de chroniques

Extension des BDIs

Alexandre Vautier, René Quiniou,

Marie-Odile Cordier

Page 22: Extension des bases de données inductives  pour la découverte de chroniques

Raffinage pour résultats

Une instance , un point Une chronique , un hypercube Rechercher les hypercubes minimaux

englobant au moins T points

Très coûteux En temps En espace

Recherche des motifs fréquents sur des données numériques

xx

xx

x

xx

T = 4

Page 23: Extension des bases de données inductives  pour la découverte de chroniques

Densité des CMFs (1)

Chronique intéressante : Fréquente Maximalement spécifique dense

xx x

xx

xx

xx

x

xx

xx xxx

x xx

x

xx

xx

xx

x

Une CMF non dense

Une CMF dense

T = 4

Page 24: Extension des bases de données inductives  pour la découverte de chroniques

Base de données inductive (2)

Son origine [Imielinski et Mannila, 1996] Base de données : gérer les applications de

stockage des données

BDI : gérer les applications de découverte de connaissances

Le temps : attribut complexe à gérer Apport des BDIs : leur formalisme