Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

64
Analyse des probl` emes de fouille de donn´ ees Lo¨ ıck Lhote, Fran¸ cois Rioult, Arnaud Soulet GREYC, universit´ e de Caen Basse-Normandie ALEA’06 CIRM, Luminy Lhote, Rioult, Soulet (GREYC, Caen) Probl` emes de fouille de donn´ ees ALEA’06 1 / 27

Transcript of Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Page 1: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Analyse des problemes de fouille de donnees

Loıck Lhote, Francois Rioult, Arnaud Soulet

GREYC, universite de Caen Basse-Normandie

ALEA’06CIRM, Luminy

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 1 / 27

Page 2: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

1 Points de vue algorithmique du problemeVision matricielleVision graphes bipartitesVision graphes co-bipartitesAutres points de vue

2 Motivations en fouille de donneesMotifs frequents et motifs fermesTreillis des motifs

3 Modele pour l’analyse en moyenne

4 Hypotheses et Resultats

5 Conclusion et perspectives

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 2 / 27

Page 3: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Probleme : vision matricielle

Dans une matrice binaire, compter (a une permutation des lignes et des colonnes)

les rectangles maximaux en hauteur de 1

les rectangles maximaux en hauteur et en largeur de 1

condition supplementaire : hauteur≥ γ

1

un zéro

au moins

par ligne

*

*

max

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 3 / 27

Page 4: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Probleme : vision matricielle

Dans une matrice binaire, compter (a une permutation des lignes et des colonnes)

les rectangles maximaux en hauteur de 1

les rectangles maximaux en hauteur et en largeur de 1

condition supplementaire : hauteur≥ γ

1

un zéro

au moins

par ligne

*

*

max 1

un zéro

au moins

par ligne

*

*

max

max

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 3 / 27

Page 5: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Probleme : vision matricielle

Dans une matrice binaire, compter (a une permutation des lignes et des colonnes)

les rectangles maximaux en hauteur de 1

les rectangles maximaux en hauteur et en largeur de 1

condition supplementaire : hauteur≥ γ

1

un zéro

au moins

par ligne

*

*

max 1

un zéro

au moins

par ligne

*

*

max

max

1

un zéroau moins

par ligne

*

*

≥ γ

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 3 / 27

Page 6: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Probleme : vision graphes bipartites

Dans un graphe bipartite G = (S1,S2,E ), compter

les sous-graphes bipartites complets (S ′1,S′2,E

′) avec S ′2 maximum (ausens de l’inclusion)

les sous-graphes bipartites complets maximums

condition supplementaire : |S ′2| ≥ γ

maxi

colonnes lignes

maxi

colonnes lignes

maxi

colonnes lignes

≥ γ

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 4 / 27

Page 7: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Probleme : vision graphes co-bipartites

clique clique clique clique

graphe bipartite graphe co-bipartite separateur

Dans un graphe co-bipartite G = (S1,S2,E ), compter

les separateurs (S ′1,S′2,E

′) avec S ′2 minimum (au sens de l’inclusion)

les separateurs minimaux

condition supplementaire : |S ′2| ≤ n − γ (n = |S2|)

clique clique

mini

clique clique

mini mini ≤ n − γ

clique clique

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 5 / 27

Page 8: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Autres points de vue

matrice binaire n ×m=fonction de {1 . . . n} dans P({1 . . .m})→ ensembles (maximaux) dont l’intersection des images est de cardinal aumoins γ,

matrice binaire=hypergraphe→ ensembles (maximaux) de sommets contenus dans au moins γ hyperaretes,

. . .

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 6 / 27

Page 9: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

1 Points de vue algorithmique du problemeVision matricielleVision graphes bipartitesVision graphes co-bipartitesAutres points de vue

2 Motivations en fouille de donneesMotifs frequents et motifs fermesTreillis des motifs

3 Modele pour l’analyse en moyenne

4 Hypotheses et Resultats

5 Conclusion et perspectives

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 7 / 27

Page 10: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Motifs γ-frequents

attributsobj. a1 a2 a3 a4 a5 a6 a7

o1 1 0 1 0 1 0 0o2 0 1 1 0 1 0 0o3 1 0 1 0 1 0 0o4 1 0 0 1 0 1 0o5 0 1 1 0 0 1 0o6 0 1 1 0 0 1 0o7 1 0 0 1 0 0 1o8 0 1 0 1 0 0 1

Motifs= ensemble d’attributs (itemset)exemple : {a1, a3} = a1a3

Supp(M)= objets (transactions) ou il y a des 1 dans toutes les colonnes dumotif Mexemple : Supp(a1a3) = {o1, o3}M est un motif γ-frequent si |Supp(M)| ≥ γexemple : a1a3 est un motif 0,1 ou 2-frequent mais pas 3-frequent

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 8 / 27

Page 11: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Motifs γ-frequents

attributsobj. a1 a2 a3 a4 a5 a6 a7

o1 1 0 1 0 1 0 0o2 0 1 1 0 1 0 0o3 1 0 1 0 1 0 0o4 1 0 0 1 0 1 0o5 0 1 1 0 0 1 0o6 0 1 1 0 0 1 0o7 1 0 0 1 0 0 1o8 0 1 0 1 0 0 1

Motifs= ensemble d’attributs (itemset)exemple : {a1, a3} = a1a3

Supp(M)= objets (transactions) ou il y a des 1 dans toutes les colonnes dumotif Mexemple : Supp(a1a3) = {o1, o3}M est un motif γ-frequent si |Supp(M)| ≥ γexemple : a1a3 est un motif 0,1 ou 2-frequent mais pas 3-frequent

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 8 / 27

Page 12: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Motifs γ-frequents

attributsobj. a1 a2 a3 a4 a5 a6 a7

o1 1 0 1 0 1 0 0o2 0 1 1 0 1 0 0o3 1 0 1 0 1 0 0o4 1 0 0 1 0 1 0o5 0 1 1 0 0 1 0o6 0 1 1 0 0 1 0o7 1 0 0 1 0 0 1o8 0 1 0 1 0 0 1

Motifs= ensemble d’attributs (itemset)exemple : {a1, a3} = a1a3

Supp(M)= objets (transactions) ou il y a des 1 dans toutes les colonnes dumotif Mexemple : Supp(a1a3) = {o1, o3}M est un motif γ-frequent si |Supp(M)| ≥ γexemple : a1a3 est un motif 0,1 ou 2-frequent mais pas 3-frequent

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 8 / 27

Page 13: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Motifs γ-frequents

attributsobj. a1 a3 a2 a4 a5 a6 a7

o1 1 1 0 0 1 0 0o3 1 1 0 0 1 0 0o2 0 1 1 0 1 0 0o4 1 0 0 1 0 1 0o5 0 1 1 0 0 1 0o6 0 1 1 0 0 1 0o7 1 0 0 1 0 0 1o8 0 0 1 1 0 0 1

Motifs= ensemble d’attributs (itemset)exemple : {a1, a3} = a1a3

Supp(M)= objets (transactions) ou il y a des 1 dans toutes les colonnes dumotif Mexemple : Supp(a1a3) = {o1, o3}M est un motif γ-frequent si |Supp(M)| ≥ γexemple : a1a3 est un motif 0,1 ou 2-frequent mais pas 3-frequent

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 8 / 27

Page 14: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Motifs γ-frequents

attributsobj. a1 a3 a2 a4 a5 a6 a7

o1 1 1 0 0 1 0 0o3 1 1 0 0 1 0 0o2 0 1 1 0 1 0 0 Motifs frequents=rectangleso4 1 0 0 1 0 1 0 maximaux en hauteuro5 0 1 1 0 0 1 0o6 0 1 1 0 0 1 0o7 1 0 0 1 0 0 1o8 0 0 1 1 0 0 1

Motifs= ensemble d’attributs (itemset)exemple : {a1, a3} = a1a3

Supp(M)= objets (transactions) ou il y a des 1 dans toutes les colonnes dumotif Mexemple : Supp(a1a3) = {o1, o3}M est un motif γ-frequent si |Supp(M)| ≥ γexemple : a1a3 est un motif 0,1 ou 2-frequent mais pas 3-frequent

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 8 / 27

Page 15: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Motifs γ-fermes

attributsobj. a1 a2 a3 a4 a5 a6 a7

o1 1 0 1 0 1 0 0o2 0 1 1 0 1 0 0o3 1 0 1 0 1 0 0o4 1 0 0 1 0 1 0o5 0 1 1 0 0 1 0o6 0 1 1 0 0 1 0o7 1 0 0 1 0 0 1o8 0 1 0 1 0 0 1

M est un motif γ-ferme si

|Supp(M)| ≥ γet si tout sur-motif a un support strictement plus petit

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 9 / 27

Page 16: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Motifs γ-fermes

attributsobj. a1 a2 a3 a4 a5 a6 a7

o1 1 0 1 0 1 0 0o2 0 1 1 0 1 0 0o3 1 0 1 0 1 0 0o4 1 0 0 1 0 1 0o5 0 1 1 0 0 1 0o6 0 1 1 0 0 1 0o7 1 0 0 1 0 0 1o8 0 1 0 1 0 0 1

M est un motif γ-ferme si

|Supp(M)| ≥ γet si tout sur-motif a un support strictement plus petit

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 9 / 27

Page 17: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Motifs γ-fermes

attributsobj. a1 a3 a2 a4 a5 a6 a7

o1 1 1 0 0 1 0 0o3 1 1 0 0 1 0 0o2 0 1 1 0 1 0 0o4 1 0 0 1 0 1 0o5 0 1 1 0 0 1 0o6 0 1 1 0 0 1 0o7 1 0 0 1 0 0 1o8 0 0 1 1 0 0 1

M est un motif γ-ferme si

|Supp(M)| ≥ γet si tout sur-motif a un support strictement plus petit

exemple : a1a3 n’est pas un motif 0,1 ou 2-ferme

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 9 / 27

Page 18: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Motifs γ-fermes

attributsobj. a1 a3 a5 a4 a2 a6 a7

o1 1 1 1 0 0 0 0o3 1 1 1 0 0 0 0o2 0 1 1 0 1 0 0o4 1 0 0 1 0 1 0o5 0 1 1 0 0 1 0o6 0 1 1 0 0 1 0o7 1 0 0 1 0 0 1o8 0 0 1 1 0 0 1

M est un motif γ-ferme si

|Supp(M)| ≥ γet si tout sur-motif a un support strictement plus petit

exemple : a1a3 n’est pas un motif 0,1 ou 2-fermeexemple : a1a3a5 est un motif 0,1 ou 2-ferme

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 9 / 27

Page 19: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Motifs γ-fermes

attributsobj. a1 a3 a5 a4 a2 a6 a7

o1 1 1 1 0 0 0 0o3 1 1 1 0 0 0 0o2 0 1 1 0 1 0 0 Motifs fermes=rectangleso4 1 0 0 1 0 1 0 maximaux en hauteuro5 0 1 1 0 0 1 0 et en largeuro6 0 1 1 0 0 1 0o7 1 0 0 1 0 0 1o8 0 0 1 1 0 0 1

M est un motif γ-ferme si

|Supp(M)| ≥ γet si tout sur-motif a un support strictement plus petit

exemple : a1a3 n’est pas un motif 0,1 ou 2-fermeexemple : a1a3a5 est un motif 0,1 ou 2-ferme

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 9 / 27

Page 20: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Treillis des motifs

Treillis des motifs 1-frequents

a1 a4a3a2 a5 a6 a7

a1a3 a1a4 a1a5 a1a6 a1a7 a2a3 a2a4 a2a5 a2a6 a2a7 a3a5 a3a6 a4a6 a4a7

a1a3a5 a1a4a6 a1a4a7 a2a3a5 a2a3a6 a2a4a7

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 10 / 27

Page 21: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Treillis des motifs

Treillis des motifs 1-fermes

a1 a4a3a2 a6

a1a3 a1a4 a2a3 a2a7 a3a5 a4a7

a1a3a5 a1a4a6 a1a4a7 a2a3a5 a2a3a6 a2a4a7

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 10 / 27

Page 22: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Treillis des motifs

Treillis des motifs 1-fermes

a1 a4a3a2 a6

a1a3 a1a4 a2a3 a2a7 a3a5 a4a7

a1a3a5 a1a4a6 a1a4a7 a2a3a5 a2a3a6 a2a4a7

probleme : taille du treillis ?

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 10 / 27

Page 23: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Utilisation des motifs

clustering : creation de classesexemple : regrouper des articles de journaux, proposer des pages web,. . .

classification : attribution d’une classeexemple : attribution d’un credit

regles d’associationsexemple : jambon, beurre ⇒ pain(80%)

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 11 / 27

Page 24: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Fouille de donnees et algorithmique

La fouille de donnees : peu d’analyses en moyenne

Fouille de donnees Algorithmique• rectangles maximaux de 1

motifs frequents/fermes • sous-graphes bipartites complets maximaux• separateurs minimaux

bordure negative Traverses minimales d’hypergraphescomplexite ?

Algorithmes par niveaux • nb de motifs frequents+nb de motifs candidats

complexite ?Algorithmes en profondeur • structure arborescente

• techniques habituelles ?

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 12 / 27

Page 25: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

1 Points de vue algorithmique du problemeVision matricielleVision graphes bipartitesVision graphes co-bipartitesAutres points de vue

2 Motivations en fouille de donneesMotifs frequents et motifs fermesTreillis des motifs

3 Modele pour l’analyse en moyenne

4 Hypotheses et Resultats

5 Conclusion et perspectives

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 13 / 27

Page 26: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Pires et meilleurs des cas

nombre de lignes/objets= n

nombre de colonnes/attributs= m

Meilleur des cas 0

nb de motifs frequents=O(1)nb de motifs fermes=O(1)

Pire des cas

1

0 1 . . . 1 1 . . . 1

1. . .

. . ....

......

.... . .

. . . 1...

...1 . . . 1 0 1 . . . 1

nb de motifs frequents=O(2m) nb de motifs fermes=O(2min(m,n))

en realite ou plutot en moyenne ?

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 14 / 27

Page 27: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Pires et meilleurs des cas

nombre de lignes/objets= n

nombre de colonnes/attributs= m

Meilleur des cas 0

nb de motifs frequents=O(1)nb de motifs fermes=O(1)

Pire des cas

1

0 1 . . . 1 1 . . . 1

1. . .

. . ....

......

.... . .

. . . 1...

...1 . . . 1 0 1 . . . 1

nb de motifs frequents=O(2m) nb de motifs fermes=O(2min(m,n))

en realite ou plutot en moyenne ?

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 14 / 27

Page 28: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Pires et meilleurs des cas

nombre de lignes/objets= n

nombre de colonnes/attributs= m

Meilleur des cas 0

nb de motifs frequents=O(1)nb de motifs fermes=O(1)

Pire des cas

1

0 1 . . . 1 1 . . . 1

1. . .

. . ....

......

.... . .

. . . 1...

...1 . . . 1 0 1 . . . 1

nb de motifs frequents=O(2m) nb de motifs fermes=O(2min(m,n))

en realite ou plutot en moyenne ?

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 14 / 27

Page 29: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Pires et meilleurs des cas

nombre de lignes/objets= n

nombre de colonnes/attributs= m

Meilleur des cas 0

nb de motifs frequents=O(1)nb de motifs fermes=O(1)

Pire des cas

1

0 1 . . . 1 1 . . . 1

1. . .

. . ....

......

.... . .

. . . 1...

...1 . . . 1 0 1 . . . 1

nb de motifs frequents=O(2m) nb de motifs fermes=O(2min(m,n))

en realite ou plutot en moyenne ?

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 14 / 27

Page 30: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Modele aleatoire

nombre de lignes/objets= n

nombre de colonnes/attributs= m

Condition 1 : Base rectangulaire

log m = Θ(log n)

Condition 2 : independance des lignes/objets

Les lignes/objets sont independants 2 a 2.

Condition 3 : Lignes/objets=mots produits par une source S sur l’alphabet{0, 1}.

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 15 / 27

Page 31: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Modele aleatoire

nombre de lignes/objets= n

nombre de colonnes/attributs= m

Condition 1 : Base rectangulaire

log m = Θ(log n)

Condition 2 : independance des lignes/objets

Les lignes/objets sont independants 2 a 2.

Condition 3 : Lignes/objets=mots produits par une source S sur l’alphabet{0, 1}.

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 15 / 27

Page 32: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Modele aleatoire

nombre de lignes/objets= n

nombre de colonnes/attributs= m

Condition 1 : Base rectangulaire

log m = Θ(log n)

Condition 2 : independance des lignes/objets

Les lignes/objets sont independants 2 a 2.

Condition 3 : Lignes/objets=mots produits par une source S sur l’alphabet{0, 1}.

Remarque

Les lignes sont independantes mais pas necessairement les colonnes.

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 15 / 27

Page 33: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

1 Points de vue algorithmique du problemeVision matricielleVision graphes bipartitesVision graphes co-bipartitesAutres points de vue

2 Motivations en fouille de donneesMotifs frequents et motifs fermesTreillis des motifs

3 Modele pour l’analyse en moyenne

4 Hypotheses et Resultats

5 Conclusion et perspectives

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 16 / 27

Page 34: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Seuils de frequence

nombre de lignes/objets= n

nombre de colonnes/attributs= m

Trois type de seuils γ :

seuil lineaire : γ = r · n, r ∈]0, 1[Hypothese 1 ⇒ comportement polynomial des motifs frequents

seuil intermediaire : log n = o(γ)Hypothese 2 ⇒ Motifs frequents∼Motifs fermes

seuil fixe :Hypothese 3 ⇒ comportement exponentiel des motifs frequents

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 17 / 27

Page 35: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Resultat : seuil lineaire γ = r · n

Hypothese 1

n lignes et m colonnes

pour X un motif, on note pX la probabilite qu’une ligne (un objet) contiennele motif X .

Alors il existe K1 > 0 et θ1 < 1 tels que

∀X , pX ≤ K1θ|X |1 .

Theoreme 1 [L., Rioult, Soulet]

Le nombre de motifs (r · n)-frequents est au plus polynomial en le nombred’attributs (colonnes),

Freqr ·n = O

(mj

j!

), j =

⌊log r − log K1

log θ1

⌋.

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 18 / 27

Page 36: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Resultat : seuil intermediaire

seuil intermediaire : log n = o(γ)

Hypothese 2

n lignes et m colonnes

pour X un motif, on note pX la probabilite qu’une ligne (un objet) contiennele motif X .

Alors il existe K2 > 0 et θ2 < 1 tels que

∀X ,Y , X ( Y , |X | ≥ K2,pY

pX≤ θ2.

Hypothese 2 ⇒ Hypothese 1

Theoreme 2 [L., Rioult, Soulet]

Le nombre de motifs γ-frequents est equivalent au nombre de motifs γ-fermes,

Freqγ ∼ Fermγ

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 19 / 27

Page 37: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Resultat : seuil constant

Sous probleme : pour γ (ou γ + 1) executions independantes de S, quel est lenombre de colonnes de 1 ?

S : 1 1 1 1 . . .S : 0 1 1 1 . . .S : 0 1 1 1 . . .S : 1 1 0 1 . . .

S : 0γ 1γ 0γ 1γ . . .nombre d’occurences de 1 dans un mot de longueur m pour S.loi gaussienne pour les sources classiques (Em[C ] ∼ αm, Vm[C ] ∼ βm)serie generatrice

Sγ(z ,w) =∑

M∈{0γ ,1γ}?

pM ewC(M) z |M|

Si C (M) = k alors il y a 2k motifs γ-frequentsmeme serie avec w = log 2

Sγ(z) =∑

M∈{0γ ,1γ}?

pM 2C(M) z |M|

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 20 / 27

Page 38: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Resultat : seuil constant

Sous probleme : pour γ (ou γ + 1) executions independantes de S, quel est lenombre de colonnes de 1 ?

S : 1 1 1 1 . . .S : 0 1 1 1 . . .S : 0 1 1 1 . . .S : 1 1 0 1 . . .

S : 0γ 1γ 0γ 1γ . . .nombre d’occurences de 1 dans un mot de longueur m pour S.loi gaussienne pour les sources classiques (Em[C ] ∼ αm, Vm[C ] ∼ βm)serie generatrice

Sγ(z ,w) =∑

M∈{0γ ,1γ}?

pM ewC(M) z |M|

Si C (M) = k alors il y a 2k motifs γ-frequentsmeme serie avec w = log 2

Sγ(z) =∑

M∈{0γ ,1γ}?

pM 2C(M) z |M|

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 20 / 27

Page 39: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Resultat : seuil constant

Sous probleme : pour γ (ou γ + 1) executions independantes de S, quel est lenombre de colonnes de 1 ?

S : 1 1 1 1 . . .S : 0 1 1 1 . . .S : 0 1 1 1 . . .S : 1 1 0 1 . . .

S : 0γ 1γ 0γ 1γ . . .nombre d’occurences de 1 dans un mot de longueur m pour S.loi gaussienne pour les sources classiques (Em[C ] ∼ αm, Vm[C ] ∼ βm)serie generatrice

Sγ(z ,w) =∑

M∈{0γ ,1γ}?

pM ewC(M) z |M|

Si C (M) = k alors il y a 2k motifs γ-frequentsmeme serie avec w = log 2

Sγ(z) =∑

M∈{0γ ,1γ}?

pM 2C(M) z |M|

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 20 / 27

Page 40: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Resultat : seuil constant

Sous probleme : pour γ (ou γ + 1) executions independantes de S, quel est lenombre de colonnes de 1 ?

S : 1 1 1 1 . . .S : 0 1 1 1 . . .S : 0 1 1 1 . . .S : 1 1 0 1 . . .

S : 0γ 1γ 0γ 1γ . . .nombre d’occurences de 1 dans un mot de longueur m pour S.loi gaussienne pour les sources classiques (Em[C ] ∼ αm, Vm[C ] ∼ βm)serie generatrice

Sγ(z ,w) =∑

M∈{0γ ,1γ}?

pM ewC(M) z |M|

Si C (M) = k alors il y a 2k motifs γ-frequentsmeme serie avec w = log 2

Sγ(z) =∑

M∈{0γ ,1γ}?

pM 2C(M) z |M|

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 20 / 27

Page 41: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Resultat : seuil constant

Sous probleme : pour γ (ou γ + 1) executions independantes de S, quel est lenombre de colonnes de 1 ?

S : 1 1 1 1 . . .S : 0 1 1 1 . . .S : 0 1 1 1 . . .S : 1 1 0 1 . . .

S : 0γ 1γ 0γ 1γ . . .nombre d’occurences de 1 dans un mot de longueur m pour S.loi gaussienne pour les sources classiques (Em[C ] ∼ αm, Vm[C ] ∼ βm)serie generatrice

Sγ(z ,w) =∑

M∈{0γ ,1γ}?

pM ewC(M) z |M|

Si C (M) = k alors il y a 2k motifs γ-frequentsmeme serie avec w = log 2

Sγ(z) =∑

M∈{0γ ,1γ}?

pM 2C(M) z |M|

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 20 / 27

Page 42: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Resultat : seuil constant

Sous probleme : pour γ (ou γ + 1) executions independantes de S, quel est lenombre de colonnes de 1 ?

S : 1 1 1 1 . . .S : 0 1 1 1 . . .S : 0 1 1 1 . . .S : 1 1 0 1 . . .

S : 0γ 1γ 0γ 1γ . . .nombre d’occurences de 1 dans un mot de longueur m pour S.loi gaussienne pour les sources classiques (Em[C ] ∼ αm, Vm[C ] ∼ βm)serie generatrice

Sγ(z ,w) =∑

M∈{0γ ,1γ}?

pM ewC(M) z |M|

Si C (M) = k alors il y a 2k motifs γ-frequentsmeme serie avec w = log 2

Sγ(z) =∑

M∈{0γ ,1γ}?

pM 2C(M) z |M|

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 20 / 27

Page 43: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Resultat : seuil constant

Sous probleme : pour γ (ou γ + 1) executions independantes de S, quel est lenombre de colonnes de 1 ?

S : 1 1 1 1 . . .S : 0 1 1 1 . . .S : 0 1 1 1 . . .S : 1 1 0 1 . . .

S : 0γ 1γ 0γ 1γ . . .nombre d’occurences de 1 dans un mot de longueur m pour S.loi gaussienne pour les sources classiques (Em[C ] ∼ αm, Vm[C ] ∼ βm)serie generatrice

Sγ(z ,w) =∑

M∈{0γ ,1γ}?

pM ewC(M) z |M|

Si C (M) = k alors il y a 2k motifs γ-frequentsmeme serie avec w = log 2

Sγ(z) =∑

M∈{0γ ,1γ}?

pM 2C(M) z |M|

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 20 / 27

Page 44: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Resultat 3

Hypothese 3

On pose Si (z), pour i = γ ou γ + 1, la serie

Si (z) =∑

M∈{0i ,1i}?

pM 2C(M) z |M| :=∑m≥0

am,izm.

On suppose que Si (z) admet une unique singularite dominante zi avec

zi ∈]1

2, 1[ et zγ < zγ+1

Theoreme 3 [L., Rioult, Soulet]

Le nombre de motifs γ-frequents est asymptotiquement exponentiel en lenombre de colonnes et polynomial en le nombre de lignes,

Freqγ =

(n

γ

)am,γ [1 + O (n · θm)] , θ =

zγ + ε

zγ+1 − ε

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 21 / 27

Page 45: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Quels types de sources ?

sources de Bernoulli de parametre p

Hypothese 1 : pX = p|X |

Hypothese 2 : pour X ( Y , pY /pX ≤ p < 1Hypothese 3 :

Si (z) =1

1− z(1 + pi ), [zm]Si (z) = (1 + pi )m

Le ie symbole est 1 avec la probabilite pi avec 0 < θ1 < pi < θ2 < 1

Hypothese 1 : pX ≤ θ|X |2

Hypothese 2 : pour X ( Y , pY /pX ≤ p < θ2

Hypothese 3 :

[zm]Sγ(z) =mY

i=1

(1 + pγi ) ≥ (1 + θi

1)m

modeles groupes de Bernoulli pour les attributs qui s’excluent mutuellement(ex : petit, moyen grand)

chaınes de markov (irreductibles et aperiodiques)

sources dynamiques (completes ou markoviennes)

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 22 / 27

Page 46: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Quels types de sources ?

sources de Bernoulli de parametre p

Hypothese 1 : pX = p|X |

Hypothese 2 : pour X ( Y , pY /pX ≤ p < 1Hypothese 3 :

Si (z) =1

1− z(1 + pi ), [zm]Si (z) = (1 + pi )m

Le ie symbole est 1 avec la probabilite pi avec 0 < θ1 < pi < θ2 < 1

Hypothese 1 : pX ≤ θ|X |2

Hypothese 2 : pour X ( Y , pY /pX ≤ p < θ2

Hypothese 3 :

[zm]Sγ(z) =mY

i=1

(1 + pγi ) ≥ (1 + θi

1)m

modeles groupes de Bernoulli pour les attributs qui s’excluent mutuellement(ex : petit, moyen grand)

chaınes de markov (irreductibles et aperiodiques)

sources dynamiques (completes ou markoviennes)

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 22 / 27

Page 47: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Quels types de sources ?

sources de Bernoulli de parametre p

Hypothese 1 : pX = p|X |

Hypothese 2 : pour X ( Y , pY /pX ≤ p < 1Hypothese 3 :

Si (z) =1

1− z(1 + pi ), [zm]Si (z) = (1 + pi )m

Le ie symbole est 1 avec la probabilite pi avec 0 < θ1 < pi < θ2 < 1

Hypothese 1 : pX ≤ θ|X |2

Hypothese 2 : pour X ( Y , pY /pX ≤ p < θ2

Hypothese 3 :

[zm]Sγ(z) =mY

i=1

(1 + pγi ) ≥ (1 + θi

1)m

modeles groupes de Bernoulli pour les attributs qui s’excluent mutuellement(ex : petit, moyen grand)

chaınes de markov (irreductibles et aperiodiques)

sources dynamiques (completes ou markoviennes)

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 22 / 27

Page 48: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Quels types de sources ?

sources de Bernoulli de parametre p

Hypothese 1 : pX = p|X |

Hypothese 2 : pour X ( Y , pY /pX ≤ p < 1Hypothese 3 :

Si (z) =1

1− z(1 + pi ), [zm]Si (z) = (1 + pi )m

Le ie symbole est 1 avec la probabilite pi avec 0 < θ1 < pi < θ2 < 1

Hypothese 1 : pX ≤ θ|X |2

Hypothese 2 : pour X ( Y , pY /pX ≤ p < θ2

Hypothese 3 :

[zm]Sγ(z) =mY

i=1

(1 + pγi ) ≥ (1 + θi

1)m

modeles groupes de Bernoulli pour les attributs qui s’excluent mutuellement(ex : petit, moyen grand)

chaınes de markov (irreductibles et aperiodiques)

sources dynamiques (completes ou markoviennes)

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 22 / 27

Page 49: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Sources dynamiques completes

a b x

mot associé à x: babb....

deux branches inverses : h0 et h1

operateurs :

H0[f ](x) = |h′0(x)|f (h0(x)), H1[f ](x) = |h′1(x)|f (h1(x)), H = H0 + H1

si M = `1 . . . `m, branche inverse associee hM = h`1 ◦ . . . ◦ h`m

Hypothese 1 : pour un motif X

On utilise recursivement

H1[φ](t) ≤ θ1φ(t), avec θ1 < 1.

On obtient pX ≤ (1 + ε)θ|X |−n0

1

Hypothese 2 : distorsion bornee des branches + nombre de branches fini

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 23 / 27

Page 50: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Sources dynamiques completes

deux branches inverses : h0 et h1

operateurs :

H0[f ](x) = |h′0(x)|f (h0(x)), H1[f ](x) = |h′1(x)|f (h1(x)), H = H0 + H1

si M = `1 . . . `m, branche inverse associee hM = h`1 ◦ . . . ◦ h`m

Hypothese 1 : pour un motif X

pX =

∫ 1

0

H ◦H1 ◦H ◦ . . . ◦H1 ◦H ◦H1 ◦H ◦H[f0](t)dt

On utilise recursivement

H1[φ](t) ≤ θ1φ(t), avec θ1 < 1.

On obtient pX ≤ (1 + ε)θ|X |−n0

1

Hypothese 2 : distorsion bornee des branches + nombre de branches fini

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 23 / 27

Page 51: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Sources dynamiques completes

deux branches inverses : h0 et h1

operateurs :

H0[f ](x) = |h′0(x)|f (h0(x)), H1[f ](x) = |h′1(x)|f (h1(x)), H = H0 + H1

si M = `1 . . . `m, branche inverse associee hM = h`1 ◦ . . . ◦ h`m

Hypothese 1 : pour un motif X

pX =

∫ 1

0

H ◦H1 ◦H ◦ . . . ◦H1 ◦H ◦H1 ◦H ◦H[f0](t)dt

pX ≤∫ 1

0

H ◦H1 ◦H ◦ . . .H1 ◦Hn0 [f0](t)dt

On utilise recursivement

H1[φ](t) ≤ θ1φ(t), avec θ1 < 1.

On obtient pX ≤ (1 + ε)θ|X |−n0

1

Hypothese 2 : distorsion bornee des branches + nombre de branches finiLhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 23 / 27

Page 52: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Sources dynamiques completes

deux branches inverses : h0 et h1

operateurs :

H0[f ](x) = |h′0(x)|f (h0(x)), H1[f ](x) = |h′1(x)|f (h1(x)), H = H0 + H1

si M = `1 . . . `m, branche inverse associee hM = h`1 ◦ . . . ◦ h`m

Hypothese 1 : pour un motif X

pX ≤∫ 1

0

H ◦H1 ◦H ◦ . . .H1 ◦Hn0 [f0](t)dt

pX ≤ (1 + ε)

∫ 1

0

H ◦H1 ◦H ◦ . . .H1[φ](t)dt

On utilise recursivement

H1[φ](t) ≤ θ1φ(t), avec θ1 < 1.

On obtient pX ≤ (1 + ε)θ|X |−n0

1

Hypothese 2 : distorsion bornee des branches + nombre de branches finiLhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 23 / 27

Page 53: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Sources dynamiques completes

deux branches inverses : h0 et h1

operateurs :

H0[f ](x) = |h′0(x)|f (h0(x)), H1[f ](x) = |h′1(x)|f (h1(x)), H = H0 + H1

si M = `1 . . . `m, branche inverse associee hM = h`1 ◦ . . . ◦ h`m

Hypothese 1 : pour un motif X

pX ≤ (1 + ε)

∫ 1

0

H ◦H1 ◦H ◦ . . .H1[φ](t)dt

On utilise recursivement

H1[φ](t) ≤ θ1φ(t), avec θ1 < 1.

On obtient pX ≤ (1 + ε)θ|X |−n0

1

Hypothese 2 : distorsion bornee des branches + nombre de branches fini

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 23 / 27

Page 54: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Sources dynamiques completes

deux branches inverses : h0 et h1

operateurs :

H0[f ](x) = |h′0(x)|f (h0(x)), H1[f ](x) = |h′1(x)|f (h1(x)), H = H0 + H1

si M = `1 . . . `m, branche inverse associee hM = h`1 ◦ . . . ◦ h`m

Hypothese 1 : pour un motif X

pX ≤ (1 + ε)

∫ 1

0

H ◦H1 ◦H ◦ . . .H1[φ](t)dt

On utilise recursivement

H1[φ](t) ≤ θ1φ(t), avec θ1 < 1.

On obtient pX ≤ (1 + ε)θ|X |−n0

1

Hypothese 2 : distorsion bornee des branches + nombre de branches fini

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 23 / 27

Page 55: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Sources dynamiques completes

deux branches inverses : h0 et h1

operateurs :

H0[f ](x) = |h′0(x)|f (h0(x)), H1[f ](x) = |h′1(x)|f (h1(x)), H = H0 + H1

si M = `1 . . . `m, branche inverse associee hM = h`1 ◦ . . . ◦ h`m

Hypothese 1 : pour un motif X

pX ≤ (1 + ε)

∫ 1

0

H ◦H1 ◦H ◦ . . .H1[φ](t)dt

On utilise recursivement

H1[φ](t) ≤ θ1φ(t), avec θ1 < 1.

On obtient pX ≤ (1 + ε)θ|X |−n0

1

Hypothese 2 : distorsion bornee des branches + nombre de branches fini

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 23 / 27

Page 56: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Sources dynamiques completes : hypothese 3

Operateurs :

H1[F ](x1, . . . , xγ) = |h′1(x1)| . . . |h′1(xγ)|F (h1(x1), . . . , h1(xγ))

H0[F ](x1, . . . , xγ) =∑

(`1,...,`γ) 6=(1,...,1)

|h′`1(x1)| . . . |h′`γ

(xγ)|F (h`1(x1), . . . , h`γ(xγ))

H = H0 + 2H1

Serie S(z)

Sγ(z) =

∫[0,1]γ

(I− zH)−1(x1, . . . , xγ)dx1 . . . dxγ

Unique pole simple en z = 1/λ(γ) avec

λ(γ) > λ(γ + 1) > 1

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 24 / 27

Page 57: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Sources dynamiques completes : hypothese 3

Operateurs :

H1[F ](x1, . . . , xγ) = |h′1(x1)| . . . |h′1(xγ)|F (h1(x1), . . . , h1(xγ))

H0[F ](x1, . . . , xγ) =∑

(`1,...,`γ) 6=(1,...,1)

|h′`1(x1)| . . . |h′`γ

(xγ)|F (h`1(x1), . . . , h`γ(xγ))

H = H0 + 2H1

Serie S(z)

Sγ(z) =

∫[0,1]γ

(I− zH)−1(x1, . . . , xγ)dx1 . . . dxγ

Unique pole simple en z = 1/λ(γ) avec

λ(γ) > λ(γ + 1) > 1

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 24 / 27

Page 58: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Sources dynamiques completes : hypothese 3

Operateurs :

H1[F ](x1, . . . , xγ) = |h′1(x1)| . . . |h′1(xγ)|F (h1(x1), . . . , h1(xγ))

H0[F ](x1, . . . , xγ) =∑

(`1,...,`γ) 6=(1,...,1)

|h′`1(x1)| . . . |h′`γ

(xγ)|F (h`1(x1), . . . , h`γ(xγ))

H = H0 + 2H1

Serie S(z)

Sγ(z) =

∫[0,1]γ

(I− zH)−1(x1, . . . , xγ)dx1 . . . dxγ

Unique pole simple en z = 1/λ(γ) avec

λ(γ) > λ(γ + 1) > 1

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 24 / 27

Page 59: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Schema de la preuve

Freqγ =∑

X∈{a1,...,am}∑n

i=γ

(ni

)pi

X (1− pX )n−i

Freqγ = γ(nγ

) ∑X∈{a1,...,am}

∫ pX

0tγ−1(1− t)n−γdt

(1− t)n−γ ≈ 1− (n − γ)t

seuil fixe seuil lineaire

fonction gamma incompletemethode de Laplace

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 25 / 27

Page 60: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Preuve : seuil fixe

Freqγ = γ

(n

γ

) ∑X⊂{a1,...,am}

∫ pX

0

tγ−1(1− t)n−γdt

(1− t)n−γ ≈ 1− (n − γ)t

Freqγ ≈(

n

γ

) ∑X⊂{a1,...,am}

pγX − (n − γ)

γ

γ + 1

(n

γ

) ∑X⊂{a1,...,am}

pγ+1X

Mais pγX s’ecrit aussi

pγX =

∑M1, . . . ,Mγ

Mi ∈ {0, 1}m

X ⊂ Mi

P(M1) . . .P(Mγ)

En inversant toutes les sommes,∑X⊂{a1,...,am}

pγX =

∑M1,...,Mγ

2|M1∩...∩Mγ |P(M1) . . .P(Mγ)

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 26 / 27

Page 61: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Preuve : seuil fixe

Freqγ = γ

(n

γ

) ∑X⊂{a1,...,am}

∫ pX

0

tγ−1(1− t)n−γdt

(1− t)n−γ ≈ 1− (n − γ)t

Freqγ ≈(

n

γ

) ∑X⊂{a1,...,am}

pγX − (n − γ)

γ

γ + 1

(n

γ

) ∑X⊂{a1,...,am}

pγ+1X

Mais pγX s’ecrit aussi

pγX =

∑M1, . . . ,Mγ

Mi ∈ {0, 1}m

X ⊂ Mi

P(M1) . . .P(Mγ)

En inversant toutes les sommes,∑X⊂{a1,...,am}

pγX =

∑M∈{0γ ,1γ}m

2C(M)P(M)

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 26 / 27

Page 62: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Preuve : seuil fixe

Freqγ = γ

(n

γ

) ∑X⊂{a1,...,am}

∫ pX

0

tγ−1(1− t)n−γdt

(1− t)n−γ ≈ 1− (n − γ)t

Freqγ ≈(

n

γ

) ∑X⊂{a1,...,am}

pγX − (n − γ)

γ

γ + 1

(n

γ

) ∑X⊂{a1,...,am}

pγ+1X

Mais pγX s’ecrit aussi

pγX =

∑M1, . . . ,Mγ

Mi ∈ {0, 1}m

X ⊂ Mi

P(M1) . . .P(Mγ)

En inversant toutes les sommes,∑X⊂{a1,...,am}

pγX = [zm]Sγ(z)

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 26 / 27

Page 63: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Preuve : seuil fixe

Freqγ = γ

(n

γ

) ∑X⊂{a1,...,am}

∫ pX

0

tγ−1(1− t)n−γdt

(1− t)n−γ ≈ 1− (n − γ)t

Freqγ ≈(

n

γ

) ∑X⊂{a1,...,am}

pγX − (n − γ)

γ

γ + 1

(n

γ

) ∑X⊂{a1,...,am}

pγ+1X

Mais pγX s’ecrit aussi

pγX =

∑M1, . . . ,Mγ

Mi ∈ {0, 1}m

X ⊂ Mi

P(M1) . . .P(Mγ)

En inversant toutes les sommes,

Freqγ ≈(

n

γ

)[zm]Sγ(z)− (n − γ)

γ

γ + 1

(n

γ

)[zm]Sγ+1(z)

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 26 / 27

Page 64: Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Conclusion et perspectives

Trois resultats avec des conditions suffisantes :

seuil fixe : nombre exponentiel de motifs frequentsseuil intermediaire : equivalence entre motifs frequents et fermesseuil lineaire : nombre polynomial de motifs frequents

s’appliquent a toutes les sources classiques

modeles de bases de donnees non correlees

Perspectives :

Nombre de motifs fermes pour un seuil fixe ?analyses d’autres motifs (bordure negative, motifs candidats, motifs libres,. . . )analyses des algorithmes par niveaux et en profondeurtrouver des modeles plus realistescontraintes generalisees

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 27 / 27