Extension des BDI pour la découverte de chroniques avec contraintes temporelles

24
1 Alexandre Vautier – GDRI3.4 – Novembre 2004 Extension des BDI pour la découverte de chroniques avec contraintes temporelles

description

Extension des BDI pour la découverte de chroniques avec contraintes temporelles. Introduction. Fouille de données temporelles Complexité dûe à l’introduction du temps numérique Base de données inductives Un cadre formel de la fouille de données intégrer le temps dans une BDI. Plan. - PowerPoint PPT Presentation

Transcript of Extension des BDI pour la découverte de chroniques avec contraintes temporelles

Page 1: Extension des BDI  pour la découverte de chroniques  avec contraintes temporelles

1 Alexandre Vautier – GDRI3.4 – Novembre 2004

Extension des BDI

pour la découverte de chroniques

avec contraintes temporelles

Page 2: Extension des BDI  pour la découverte de chroniques  avec contraintes temporelles

2 Alexandre Vautier – GDRI3.4 – Novembre 2004

Introduction

Fouille de données temporellesComplexité dûe à l’introduction du temps numérique

Base de données inductivesUn cadre formel de la fouille de données

intégrer le temps dans une BDI

Page 3: Extension des BDI  pour la découverte de chroniques  avec contraintes temporelles

3 Alexandre Vautier – GDRI3.4 – Novembre 2004

Plan

Introduction

Présentation générale de la fouille de données temporelles

Base de données inductive et chroniquesRelation d’ordre - fréquence

Traitement d’une requêteAlgorithme de MitchellFACE : un outil de fouille de données temporelles

Page 4: Extension des BDI  pour la découverte de chroniques  avec contraintes temporelles

4 Alexandre Vautier – GDRI3.4 – Novembre 2004

A partir d’une séquence d’évènements :une liste ordonnée d’occurrences d’évènements

On découvre des motifs

[Manilla et al. 1997]

A,1 C,5 B,8 C,10 A,15 B,16 B,18 C,34B,27

Fouille de données temporelles(1)

Fenêtre = 6

Page 5: Extension des BDI  pour la découverte de chroniques  avec contraintes temporelles

5 Alexandre Vautier – GDRI3.4 – Novembre 2004

Fouille de données temporelles(2)

Techniques de la fouille de données « classiques »

Itemset Ensemble d’évènements Intérêt d’un motif essentiellement basé sur la fréquence.

Date Enregistrement

1 A,B

2 C

5 A,C

Page 6: Extension des BDI  pour la découverte de chroniques  avec contraintes temporelles

6 Alexandre Vautier – GDRI3.4 – Novembre 2004

Une formalisation de la fouille de données

Base de données « classique » : pas de motifs

Base de données inductive : Une base de données et une base de motifs

La fouille de données est vue comme un processus d’extraction par requête

Exemple de requêtes sur les motifs et les données :

Fréquence(m,D1) > Tmin

Fréquence(m,D2) < Tmax

Sous-motif(m,M1)

Sous-motif(M1,m)

[L. De Raedt]

Base de données inductive

m : motifs cibles à déterminerD1, D2 : données

T… : fréquenceM1 : motifs

Page 7: Extension des BDI  pour la découverte de chroniques  avec contraintes temporelles

7 Alexandre Vautier – GDRI3.4 – Novembre 2004

Notre approche :

Intégrer une notion numérique du temps dans les BDI

Les bases de données inductives actuelles n’intègrent pas de notion numérique du temps[Lee et De Raedt 2002, Dzeroski 2002, Imielinski et Manilla 1996]

Les données : des séquences d’évènements

Les motifs : des chroniques

Page 8: Extension des BDI  pour la découverte de chroniques  avec contraintes temporelles

8 Alexandre Vautier – GDRI3.4 – Novembre 2004

Les motifs temporels : les chroniques

Une chronique : Ensemble d’évènements contraints temporellement

Une contrainte : [a,b] tel que a,b 2 Z

A,t0

B,t1

C,t2

[5;10]

[9;20]

A,1 C,5 B,8 C,10 A,15 A,16 B,26 C,34B,27

Instances

Page 9: Extension des BDI  pour la découverte de chroniques  avec contraintes temporelles

9 Alexandre Vautier – GDRI3.4 – Novembre 2004

Relation de généralité

C plus générale que C’ (C v C’) ,

Il existe un sous-graphe de C’ tel que les contraintes de C sont égales ou plus larges

que celles de ce sous-graphe.

A,t0

B,t1

B,t2

[5;10]

[9;20]A,t0

B,t1[8;21]

v

C C’

Page 10: Extension des BDI  pour la découverte de chroniques  avec contraintes temporelles

10 Alexandre Vautier – GDRI3.4 – Novembre 2004

Fréquence et relation d’ordre

Contrainte monotoneEx : freq(m,D) · T

C 2 m Æ C’ v C ) C’ 2 mFreq(C’) · Freq(C)

Contrainte anti-monotoneEx : freq(m,D) ¸ T

C 2 m Æ C’ v C ) C’ 2 mFreq(C’) ¸ Freq(C) C

C

C’

C’

w

v

Page 11: Extension des BDI  pour la découverte de chroniques  avec contraintes temporelles

11 Alexandre Vautier – GDRI3.4 – Novembre 2004

IC(D) = {i1, i2, i3, i4, i5, i6}Critère de reconnaissance Q

Freq(C,D) = |E|, E µ IC(D), Q(E)

Exemple, Qd&t: critère d’instances disjointes au plus tôtE = {i1, i3, i6} et F(C,D) = 3

Fréquence d’une chronique

D: C:i1

i2

i3

i4

i5

i6

Instances

E est unique(Anti)monotonie des contraintes sur la fréquence

Page 12: Extension des BDI  pour la découverte de chroniques  avec contraintes temporelles

12 Alexandre Vautier – GDRI3.4 – Novembre 2004

Traitement d’une requête

freq(m,D1) ¸ T1 Æ freq(m,D2) · T2

T

?

Le calcul des bordssuffit

Espace des versions

mfreq(m,D1) · T1

Æ freq(m,D2) ¸ T2

Maximalement général

Maximalement spécifique

Page 13: Extension des BDI  pour la découverte de chroniques  avec contraintes temporelles

13 Alexandre Vautier – GDRI3.4 – Novembre 2004

Calcul des bords de l’espace des versions

freq(m,D1) ¸ T1 Æ freq(m,D2) < T2

Algorithme de MitchellT

?

freq(m2,D2) ¸ T2

freq(m,D2) < T2

Æ freq(m,D1) ¸ T1

Utilisation des ChroniquesMaximalement spécifiques et Fréquentes (CMFs)

freq(m1,D1) ¸ T1

+

Page 14: Extension des BDI  pour la découverte de chroniques  avec contraintes temporelles

14 Alexandre Vautier – GDRI3.4 – Novembre 2004

FACEFrequency Analyser for Chronicle Extraction

Principe :Freq(m,D) ¸ T

Contrainte Anti-monotoneUne chronique peut être fréquente si toutes ses sous-chroniques sont fréquentes.

… FACE

Séquence d’évènements

Chroniques représentatives

[Dousson & Thang Vu Duong]

Page 15: Extension des BDI  pour la découverte de chroniques  avec contraintes temporelles

15 Alexandre Vautier – GDRI3.4 – Novembre 2004

Algorithme général de FACE

Adaptation de l’algorithme A PRIORI

n=1

Aucune chronique fréquenten=n + 1

Génération de chroniques de

taille n

Reconnaissance dans la séquence

d’évènements

Raffinage des chroniques fréquentes

Page 16: Extension des BDI  pour la découverte de chroniques  avec contraintes temporelles

16 Alexandre Vautier – GDRI3.4 – Novembre 2004

FACE……Un outil de fouille de données

Optimisé pour la génération d’un nombre minimum de chroniques

Synthèse efficace recherche des CMFs

Un extracteur complet et correct d’instances !

À partir des instances reconnues on peut retrouver les chroniques maximalement spécifiques et fréquentes (CMFs)

Page 17: Extension des BDI  pour la découverte de chroniques  avec contraintes temporelles

17 Alexandre Vautier – GDRI3.4 – Novembre 2004

Algorithme modifié de FACE

Génération de chroniques de

taille n

Reconnaissance dans la séquence

d’évènements

Raffinage des chroniques fréquentes

n=1

Aucune chronique fréquente

n=n + 1

Raffinage pour résultats

Page 18: Extension des BDI  pour la découverte de chroniques  avec contraintes temporelles

18 Alexandre Vautier – GDRI3.4 – Novembre 2004

Raffinage pour résultats

, Recherche des motifs fréquents sur des données numériques

Très coûteux : en temps, en espace

Introduction d’un nouveau critère d’intérêt : la densité

Meilleure caractérisation des chroniques intéressantesRéduction du nombre de CMFs

Utilisation et adaptation d’algorithmes de clustering

Basé sur la densité, algorithmes hiérarchiques…

Page 19: Extension des BDI  pour la découverte de chroniques  avec contraintes temporelles

19 Alexandre Vautier – GDRI3.4 – Novembre 2004

Conclusion

Extension des BDIs à la recherche de motifs intégrant une notion temporelle

Nécessité de calculer seulement les CMFs de chaque séquence d’évènements

Formalisation de la notion de chroniqueRelation d’ordreFréquence, critère de reconnaissance

Utilisation d’un outil de fouille de données existant : FACE

Page 20: Extension des BDI  pour la découverte de chroniques  avec contraintes temporelles

20 Alexandre Vautier – GDRI3.4 – Novembre 2004

Perspectives

Poursuivre la réalisation des bases de données inductives étendues au temps

Utilisation d’autres mesures d’intérêtFréquence sans critère de reconnaissanceAutre que la fréquence

Application dans le domaine de la détection d’intrusions dans les réseaux de télécommunications

Page 21: Extension des BDI  pour la découverte de chroniques  avec contraintes temporelles

21 Alexandre Vautier – GDRI3.4 – Novembre 2004

Extension des BDI pour la découverte de

chroniques avec contraintes temporelles

Page 22: Extension des BDI  pour la découverte de chroniques  avec contraintes temporelles

22 Alexandre Vautier – GDRI3.4 – Novembre 2004

Raffinage pour résultats

Une instance , un pointUne chronique , un hypercubeRechercher les hypercubes minimaux englobant au moins T points

Très coûteuxEn tempsEn espace

Recherche des motifs fréquents sur des données numériques

xx

xx

x

xx

T = 4

Page 23: Extension des BDI  pour la découverte de chroniques  avec contraintes temporelles

23 Alexandre Vautier – GDRI3.4 – Novembre 2004

Densité des CMFs (1)

Chronique intéressante :FréquenteMaximalement spécifiquedense

xx x

xxxx

xxx

xx

xx xxx

x xxx

xxxx

xxx

Une CMF non dense

Une CMF dense

T = 4

Page 24: Extension des BDI  pour la découverte de chroniques  avec contraintes temporelles

24 Alexandre Vautier – GDRI3.4 – Novembre 2004

Densité des CMFs (2)

Utilisation et adaptation d’algorithmes de clustering

Basé sur la densité, algorithmes hiérarchiques…

Réduction du nombre de CMFs

Meilleure caractérisation des chroniques intéressantes