Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Post on 24-May-2022

9 views 0 download

Transcript of Lo¨ıck Lhote, Fran¸cois Rioult, Arnaud Soulet

Analyse des problemes de fouille de donnees

Loıck Lhote, Francois Rioult, Arnaud Soulet

GREYC, universite de Caen Basse-Normandie

ALEA’06CIRM, Luminy

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 1 / 27

1 Points de vue algorithmique du problemeVision matricielleVision graphes bipartitesVision graphes co-bipartitesAutres points de vue

2 Motivations en fouille de donneesMotifs frequents et motifs fermesTreillis des motifs

3 Modele pour l’analyse en moyenne

4 Hypotheses et Resultats

5 Conclusion et perspectives

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 2 / 27

Probleme : vision matricielle

Dans une matrice binaire, compter (a une permutation des lignes et des colonnes)

les rectangles maximaux en hauteur de 1

les rectangles maximaux en hauteur et en largeur de 1

condition supplementaire : hauteur≥ γ

1

un zéro

au moins

par ligne

*

*

max

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 3 / 27

Probleme : vision matricielle

Dans une matrice binaire, compter (a une permutation des lignes et des colonnes)

les rectangles maximaux en hauteur de 1

les rectangles maximaux en hauteur et en largeur de 1

condition supplementaire : hauteur≥ γ

1

un zéro

au moins

par ligne

*

*

max 1

un zéro

au moins

par ligne

*

*

max

max

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 3 / 27

Probleme : vision matricielle

Dans une matrice binaire, compter (a une permutation des lignes et des colonnes)

les rectangles maximaux en hauteur de 1

les rectangles maximaux en hauteur et en largeur de 1

condition supplementaire : hauteur≥ γ

1

un zéro

au moins

par ligne

*

*

max 1

un zéro

au moins

par ligne

*

*

max

max

1

un zéroau moins

par ligne

*

*

≥ γ

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 3 / 27

Probleme : vision graphes bipartites

Dans un graphe bipartite G = (S1,S2,E ), compter

les sous-graphes bipartites complets (S ′1,S′2,E

′) avec S ′2 maximum (ausens de l’inclusion)

les sous-graphes bipartites complets maximums

condition supplementaire : |S ′2| ≥ γ

maxi

colonnes lignes

maxi

colonnes lignes

maxi

colonnes lignes

≥ γ

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 4 / 27

Probleme : vision graphes co-bipartites

clique clique clique clique

graphe bipartite graphe co-bipartite separateur

Dans un graphe co-bipartite G = (S1,S2,E ), compter

les separateurs (S ′1,S′2,E

′) avec S ′2 minimum (au sens de l’inclusion)

les separateurs minimaux

condition supplementaire : |S ′2| ≤ n − γ (n = |S2|)

clique clique

mini

clique clique

mini mini ≤ n − γ

clique clique

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 5 / 27

Autres points de vue

matrice binaire n ×m=fonction de {1 . . . n} dans P({1 . . .m})→ ensembles (maximaux) dont l’intersection des images est de cardinal aumoins γ,

matrice binaire=hypergraphe→ ensembles (maximaux) de sommets contenus dans au moins γ hyperaretes,

. . .

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 6 / 27

1 Points de vue algorithmique du problemeVision matricielleVision graphes bipartitesVision graphes co-bipartitesAutres points de vue

2 Motivations en fouille de donneesMotifs frequents et motifs fermesTreillis des motifs

3 Modele pour l’analyse en moyenne

4 Hypotheses et Resultats

5 Conclusion et perspectives

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 7 / 27

Motifs γ-frequents

attributsobj. a1 a2 a3 a4 a5 a6 a7

o1 1 0 1 0 1 0 0o2 0 1 1 0 1 0 0o3 1 0 1 0 1 0 0o4 1 0 0 1 0 1 0o5 0 1 1 0 0 1 0o6 0 1 1 0 0 1 0o7 1 0 0 1 0 0 1o8 0 1 0 1 0 0 1

Motifs= ensemble d’attributs (itemset)exemple : {a1, a3} = a1a3

Supp(M)= objets (transactions) ou il y a des 1 dans toutes les colonnes dumotif Mexemple : Supp(a1a3) = {o1, o3}M est un motif γ-frequent si |Supp(M)| ≥ γexemple : a1a3 est un motif 0,1 ou 2-frequent mais pas 3-frequent

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 8 / 27

Motifs γ-frequents

attributsobj. a1 a2 a3 a4 a5 a6 a7

o1 1 0 1 0 1 0 0o2 0 1 1 0 1 0 0o3 1 0 1 0 1 0 0o4 1 0 0 1 0 1 0o5 0 1 1 0 0 1 0o6 0 1 1 0 0 1 0o7 1 0 0 1 0 0 1o8 0 1 0 1 0 0 1

Motifs= ensemble d’attributs (itemset)exemple : {a1, a3} = a1a3

Supp(M)= objets (transactions) ou il y a des 1 dans toutes les colonnes dumotif Mexemple : Supp(a1a3) = {o1, o3}M est un motif γ-frequent si |Supp(M)| ≥ γexemple : a1a3 est un motif 0,1 ou 2-frequent mais pas 3-frequent

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 8 / 27

Motifs γ-frequents

attributsobj. a1 a2 a3 a4 a5 a6 a7

o1 1 0 1 0 1 0 0o2 0 1 1 0 1 0 0o3 1 0 1 0 1 0 0o4 1 0 0 1 0 1 0o5 0 1 1 0 0 1 0o6 0 1 1 0 0 1 0o7 1 0 0 1 0 0 1o8 0 1 0 1 0 0 1

Motifs= ensemble d’attributs (itemset)exemple : {a1, a3} = a1a3

Supp(M)= objets (transactions) ou il y a des 1 dans toutes les colonnes dumotif Mexemple : Supp(a1a3) = {o1, o3}M est un motif γ-frequent si |Supp(M)| ≥ γexemple : a1a3 est un motif 0,1 ou 2-frequent mais pas 3-frequent

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 8 / 27

Motifs γ-frequents

attributsobj. a1 a3 a2 a4 a5 a6 a7

o1 1 1 0 0 1 0 0o3 1 1 0 0 1 0 0o2 0 1 1 0 1 0 0o4 1 0 0 1 0 1 0o5 0 1 1 0 0 1 0o6 0 1 1 0 0 1 0o7 1 0 0 1 0 0 1o8 0 0 1 1 0 0 1

Motifs= ensemble d’attributs (itemset)exemple : {a1, a3} = a1a3

Supp(M)= objets (transactions) ou il y a des 1 dans toutes les colonnes dumotif Mexemple : Supp(a1a3) = {o1, o3}M est un motif γ-frequent si |Supp(M)| ≥ γexemple : a1a3 est un motif 0,1 ou 2-frequent mais pas 3-frequent

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 8 / 27

Motifs γ-frequents

attributsobj. a1 a3 a2 a4 a5 a6 a7

o1 1 1 0 0 1 0 0o3 1 1 0 0 1 0 0o2 0 1 1 0 1 0 0 Motifs frequents=rectangleso4 1 0 0 1 0 1 0 maximaux en hauteuro5 0 1 1 0 0 1 0o6 0 1 1 0 0 1 0o7 1 0 0 1 0 0 1o8 0 0 1 1 0 0 1

Motifs= ensemble d’attributs (itemset)exemple : {a1, a3} = a1a3

Supp(M)= objets (transactions) ou il y a des 1 dans toutes les colonnes dumotif Mexemple : Supp(a1a3) = {o1, o3}M est un motif γ-frequent si |Supp(M)| ≥ γexemple : a1a3 est un motif 0,1 ou 2-frequent mais pas 3-frequent

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 8 / 27

Motifs γ-fermes

attributsobj. a1 a2 a3 a4 a5 a6 a7

o1 1 0 1 0 1 0 0o2 0 1 1 0 1 0 0o3 1 0 1 0 1 0 0o4 1 0 0 1 0 1 0o5 0 1 1 0 0 1 0o6 0 1 1 0 0 1 0o7 1 0 0 1 0 0 1o8 0 1 0 1 0 0 1

M est un motif γ-ferme si

|Supp(M)| ≥ γet si tout sur-motif a un support strictement plus petit

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 9 / 27

Motifs γ-fermes

attributsobj. a1 a2 a3 a4 a5 a6 a7

o1 1 0 1 0 1 0 0o2 0 1 1 0 1 0 0o3 1 0 1 0 1 0 0o4 1 0 0 1 0 1 0o5 0 1 1 0 0 1 0o6 0 1 1 0 0 1 0o7 1 0 0 1 0 0 1o8 0 1 0 1 0 0 1

M est un motif γ-ferme si

|Supp(M)| ≥ γet si tout sur-motif a un support strictement plus petit

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 9 / 27

Motifs γ-fermes

attributsobj. a1 a3 a2 a4 a5 a6 a7

o1 1 1 0 0 1 0 0o3 1 1 0 0 1 0 0o2 0 1 1 0 1 0 0o4 1 0 0 1 0 1 0o5 0 1 1 0 0 1 0o6 0 1 1 0 0 1 0o7 1 0 0 1 0 0 1o8 0 0 1 1 0 0 1

M est un motif γ-ferme si

|Supp(M)| ≥ γet si tout sur-motif a un support strictement plus petit

exemple : a1a3 n’est pas un motif 0,1 ou 2-ferme

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 9 / 27

Motifs γ-fermes

attributsobj. a1 a3 a5 a4 a2 a6 a7

o1 1 1 1 0 0 0 0o3 1 1 1 0 0 0 0o2 0 1 1 0 1 0 0o4 1 0 0 1 0 1 0o5 0 1 1 0 0 1 0o6 0 1 1 0 0 1 0o7 1 0 0 1 0 0 1o8 0 0 1 1 0 0 1

M est un motif γ-ferme si

|Supp(M)| ≥ γet si tout sur-motif a un support strictement plus petit

exemple : a1a3 n’est pas un motif 0,1 ou 2-fermeexemple : a1a3a5 est un motif 0,1 ou 2-ferme

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 9 / 27

Motifs γ-fermes

attributsobj. a1 a3 a5 a4 a2 a6 a7

o1 1 1 1 0 0 0 0o3 1 1 1 0 0 0 0o2 0 1 1 0 1 0 0 Motifs fermes=rectangleso4 1 0 0 1 0 1 0 maximaux en hauteuro5 0 1 1 0 0 1 0 et en largeuro6 0 1 1 0 0 1 0o7 1 0 0 1 0 0 1o8 0 0 1 1 0 0 1

M est un motif γ-ferme si

|Supp(M)| ≥ γet si tout sur-motif a un support strictement plus petit

exemple : a1a3 n’est pas un motif 0,1 ou 2-fermeexemple : a1a3a5 est un motif 0,1 ou 2-ferme

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 9 / 27

Treillis des motifs

Treillis des motifs 1-frequents

a1 a4a3a2 a5 a6 a7

a1a3 a1a4 a1a5 a1a6 a1a7 a2a3 a2a4 a2a5 a2a6 a2a7 a3a5 a3a6 a4a6 a4a7

a1a3a5 a1a4a6 a1a4a7 a2a3a5 a2a3a6 a2a4a7

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 10 / 27

Treillis des motifs

Treillis des motifs 1-fermes

a1 a4a3a2 a6

a1a3 a1a4 a2a3 a2a7 a3a5 a4a7

a1a3a5 a1a4a6 a1a4a7 a2a3a5 a2a3a6 a2a4a7

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 10 / 27

Treillis des motifs

Treillis des motifs 1-fermes

a1 a4a3a2 a6

a1a3 a1a4 a2a3 a2a7 a3a5 a4a7

a1a3a5 a1a4a6 a1a4a7 a2a3a5 a2a3a6 a2a4a7

probleme : taille du treillis ?

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 10 / 27

Utilisation des motifs

clustering : creation de classesexemple : regrouper des articles de journaux, proposer des pages web,. . .

classification : attribution d’une classeexemple : attribution d’un credit

regles d’associationsexemple : jambon, beurre ⇒ pain(80%)

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 11 / 27

Fouille de donnees et algorithmique

La fouille de donnees : peu d’analyses en moyenne

Fouille de donnees Algorithmique• rectangles maximaux de 1

motifs frequents/fermes • sous-graphes bipartites complets maximaux• separateurs minimaux

bordure negative Traverses minimales d’hypergraphescomplexite ?

Algorithmes par niveaux • nb de motifs frequents+nb de motifs candidats

complexite ?Algorithmes en profondeur • structure arborescente

• techniques habituelles ?

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 12 / 27

1 Points de vue algorithmique du problemeVision matricielleVision graphes bipartitesVision graphes co-bipartitesAutres points de vue

2 Motivations en fouille de donneesMotifs frequents et motifs fermesTreillis des motifs

3 Modele pour l’analyse en moyenne

4 Hypotheses et Resultats

5 Conclusion et perspectives

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 13 / 27

Pires et meilleurs des cas

nombre de lignes/objets= n

nombre de colonnes/attributs= m

Meilleur des cas 0

nb de motifs frequents=O(1)nb de motifs fermes=O(1)

Pire des cas

1

0 1 . . . 1 1 . . . 1

1. . .

. . ....

......

.... . .

. . . 1...

...1 . . . 1 0 1 . . . 1

nb de motifs frequents=O(2m) nb de motifs fermes=O(2min(m,n))

en realite ou plutot en moyenne ?

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 14 / 27

Pires et meilleurs des cas

nombre de lignes/objets= n

nombre de colonnes/attributs= m

Meilleur des cas 0

nb de motifs frequents=O(1)nb de motifs fermes=O(1)

Pire des cas

1

0 1 . . . 1 1 . . . 1

1. . .

. . ....

......

.... . .

. . . 1...

...1 . . . 1 0 1 . . . 1

nb de motifs frequents=O(2m) nb de motifs fermes=O(2min(m,n))

en realite ou plutot en moyenne ?

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 14 / 27

Pires et meilleurs des cas

nombre de lignes/objets= n

nombre de colonnes/attributs= m

Meilleur des cas 0

nb de motifs frequents=O(1)nb de motifs fermes=O(1)

Pire des cas

1

0 1 . . . 1 1 . . . 1

1. . .

. . ....

......

.... . .

. . . 1...

...1 . . . 1 0 1 . . . 1

nb de motifs frequents=O(2m) nb de motifs fermes=O(2min(m,n))

en realite ou plutot en moyenne ?

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 14 / 27

Pires et meilleurs des cas

nombre de lignes/objets= n

nombre de colonnes/attributs= m

Meilleur des cas 0

nb de motifs frequents=O(1)nb de motifs fermes=O(1)

Pire des cas

1

0 1 . . . 1 1 . . . 1

1. . .

. . ....

......

.... . .

. . . 1...

...1 . . . 1 0 1 . . . 1

nb de motifs frequents=O(2m) nb de motifs fermes=O(2min(m,n))

en realite ou plutot en moyenne ?

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 14 / 27

Modele aleatoire

nombre de lignes/objets= n

nombre de colonnes/attributs= m

Condition 1 : Base rectangulaire

log m = Θ(log n)

Condition 2 : independance des lignes/objets

Les lignes/objets sont independants 2 a 2.

Condition 3 : Lignes/objets=mots produits par une source S sur l’alphabet{0, 1}.

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 15 / 27

Modele aleatoire

nombre de lignes/objets= n

nombre de colonnes/attributs= m

Condition 1 : Base rectangulaire

log m = Θ(log n)

Condition 2 : independance des lignes/objets

Les lignes/objets sont independants 2 a 2.

Condition 3 : Lignes/objets=mots produits par une source S sur l’alphabet{0, 1}.

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 15 / 27

Modele aleatoire

nombre de lignes/objets= n

nombre de colonnes/attributs= m

Condition 1 : Base rectangulaire

log m = Θ(log n)

Condition 2 : independance des lignes/objets

Les lignes/objets sont independants 2 a 2.

Condition 3 : Lignes/objets=mots produits par une source S sur l’alphabet{0, 1}.

Remarque

Les lignes sont independantes mais pas necessairement les colonnes.

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 15 / 27

1 Points de vue algorithmique du problemeVision matricielleVision graphes bipartitesVision graphes co-bipartitesAutres points de vue

2 Motivations en fouille de donneesMotifs frequents et motifs fermesTreillis des motifs

3 Modele pour l’analyse en moyenne

4 Hypotheses et Resultats

5 Conclusion et perspectives

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 16 / 27

Seuils de frequence

nombre de lignes/objets= n

nombre de colonnes/attributs= m

Trois type de seuils γ :

seuil lineaire : γ = r · n, r ∈]0, 1[Hypothese 1 ⇒ comportement polynomial des motifs frequents

seuil intermediaire : log n = o(γ)Hypothese 2 ⇒ Motifs frequents∼Motifs fermes

seuil fixe :Hypothese 3 ⇒ comportement exponentiel des motifs frequents

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 17 / 27

Resultat : seuil lineaire γ = r · n

Hypothese 1

n lignes et m colonnes

pour X un motif, on note pX la probabilite qu’une ligne (un objet) contiennele motif X .

Alors il existe K1 > 0 et θ1 < 1 tels que

∀X , pX ≤ K1θ|X |1 .

Theoreme 1 [L., Rioult, Soulet]

Le nombre de motifs (r · n)-frequents est au plus polynomial en le nombred’attributs (colonnes),

Freqr ·n = O

(mj

j!

), j =

⌊log r − log K1

log θ1

⌋.

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 18 / 27

Resultat : seuil intermediaire

seuil intermediaire : log n = o(γ)

Hypothese 2

n lignes et m colonnes

pour X un motif, on note pX la probabilite qu’une ligne (un objet) contiennele motif X .

Alors il existe K2 > 0 et θ2 < 1 tels que

∀X ,Y , X ( Y , |X | ≥ K2,pY

pX≤ θ2.

Hypothese 2 ⇒ Hypothese 1

Theoreme 2 [L., Rioult, Soulet]

Le nombre de motifs γ-frequents est equivalent au nombre de motifs γ-fermes,

Freqγ ∼ Fermγ

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 19 / 27

Resultat : seuil constant

Sous probleme : pour γ (ou γ + 1) executions independantes de S, quel est lenombre de colonnes de 1 ?

S : 1 1 1 1 . . .S : 0 1 1 1 . . .S : 0 1 1 1 . . .S : 1 1 0 1 . . .

S : 0γ 1γ 0γ 1γ . . .nombre d’occurences de 1 dans un mot de longueur m pour S.loi gaussienne pour les sources classiques (Em[C ] ∼ αm, Vm[C ] ∼ βm)serie generatrice

Sγ(z ,w) =∑

M∈{0γ ,1γ}?

pM ewC(M) z |M|

Si C (M) = k alors il y a 2k motifs γ-frequentsmeme serie avec w = log 2

Sγ(z) =∑

M∈{0γ ,1γ}?

pM 2C(M) z |M|

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 20 / 27

Resultat : seuil constant

Sous probleme : pour γ (ou γ + 1) executions independantes de S, quel est lenombre de colonnes de 1 ?

S : 1 1 1 1 . . .S : 0 1 1 1 . . .S : 0 1 1 1 . . .S : 1 1 0 1 . . .

S : 0γ 1γ 0γ 1γ . . .nombre d’occurences de 1 dans un mot de longueur m pour S.loi gaussienne pour les sources classiques (Em[C ] ∼ αm, Vm[C ] ∼ βm)serie generatrice

Sγ(z ,w) =∑

M∈{0γ ,1γ}?

pM ewC(M) z |M|

Si C (M) = k alors il y a 2k motifs γ-frequentsmeme serie avec w = log 2

Sγ(z) =∑

M∈{0γ ,1γ}?

pM 2C(M) z |M|

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 20 / 27

Resultat : seuil constant

Sous probleme : pour γ (ou γ + 1) executions independantes de S, quel est lenombre de colonnes de 1 ?

S : 1 1 1 1 . . .S : 0 1 1 1 . . .S : 0 1 1 1 . . .S : 1 1 0 1 . . .

S : 0γ 1γ 0γ 1γ . . .nombre d’occurences de 1 dans un mot de longueur m pour S.loi gaussienne pour les sources classiques (Em[C ] ∼ αm, Vm[C ] ∼ βm)serie generatrice

Sγ(z ,w) =∑

M∈{0γ ,1γ}?

pM ewC(M) z |M|

Si C (M) = k alors il y a 2k motifs γ-frequentsmeme serie avec w = log 2

Sγ(z) =∑

M∈{0γ ,1γ}?

pM 2C(M) z |M|

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 20 / 27

Resultat : seuil constant

Sous probleme : pour γ (ou γ + 1) executions independantes de S, quel est lenombre de colonnes de 1 ?

S : 1 1 1 1 . . .S : 0 1 1 1 . . .S : 0 1 1 1 . . .S : 1 1 0 1 . . .

S : 0γ 1γ 0γ 1γ . . .nombre d’occurences de 1 dans un mot de longueur m pour S.loi gaussienne pour les sources classiques (Em[C ] ∼ αm, Vm[C ] ∼ βm)serie generatrice

Sγ(z ,w) =∑

M∈{0γ ,1γ}?

pM ewC(M) z |M|

Si C (M) = k alors il y a 2k motifs γ-frequentsmeme serie avec w = log 2

Sγ(z) =∑

M∈{0γ ,1γ}?

pM 2C(M) z |M|

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 20 / 27

Resultat : seuil constant

Sous probleme : pour γ (ou γ + 1) executions independantes de S, quel est lenombre de colonnes de 1 ?

S : 1 1 1 1 . . .S : 0 1 1 1 . . .S : 0 1 1 1 . . .S : 1 1 0 1 . . .

S : 0γ 1γ 0γ 1γ . . .nombre d’occurences de 1 dans un mot de longueur m pour S.loi gaussienne pour les sources classiques (Em[C ] ∼ αm, Vm[C ] ∼ βm)serie generatrice

Sγ(z ,w) =∑

M∈{0γ ,1γ}?

pM ewC(M) z |M|

Si C (M) = k alors il y a 2k motifs γ-frequentsmeme serie avec w = log 2

Sγ(z) =∑

M∈{0γ ,1γ}?

pM 2C(M) z |M|

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 20 / 27

Resultat : seuil constant

Sous probleme : pour γ (ou γ + 1) executions independantes de S, quel est lenombre de colonnes de 1 ?

S : 1 1 1 1 . . .S : 0 1 1 1 . . .S : 0 1 1 1 . . .S : 1 1 0 1 . . .

S : 0γ 1γ 0γ 1γ . . .nombre d’occurences de 1 dans un mot de longueur m pour S.loi gaussienne pour les sources classiques (Em[C ] ∼ αm, Vm[C ] ∼ βm)serie generatrice

Sγ(z ,w) =∑

M∈{0γ ,1γ}?

pM ewC(M) z |M|

Si C (M) = k alors il y a 2k motifs γ-frequentsmeme serie avec w = log 2

Sγ(z) =∑

M∈{0γ ,1γ}?

pM 2C(M) z |M|

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 20 / 27

Resultat : seuil constant

Sous probleme : pour γ (ou γ + 1) executions independantes de S, quel est lenombre de colonnes de 1 ?

S : 1 1 1 1 . . .S : 0 1 1 1 . . .S : 0 1 1 1 . . .S : 1 1 0 1 . . .

S : 0γ 1γ 0γ 1γ . . .nombre d’occurences de 1 dans un mot de longueur m pour S.loi gaussienne pour les sources classiques (Em[C ] ∼ αm, Vm[C ] ∼ βm)serie generatrice

Sγ(z ,w) =∑

M∈{0γ ,1γ}?

pM ewC(M) z |M|

Si C (M) = k alors il y a 2k motifs γ-frequentsmeme serie avec w = log 2

Sγ(z) =∑

M∈{0γ ,1γ}?

pM 2C(M) z |M|

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 20 / 27

Resultat 3

Hypothese 3

On pose Si (z), pour i = γ ou γ + 1, la serie

Si (z) =∑

M∈{0i ,1i}?

pM 2C(M) z |M| :=∑m≥0

am,izm.

On suppose que Si (z) admet une unique singularite dominante zi avec

zi ∈]1

2, 1[ et zγ < zγ+1

Theoreme 3 [L., Rioult, Soulet]

Le nombre de motifs γ-frequents est asymptotiquement exponentiel en lenombre de colonnes et polynomial en le nombre de lignes,

Freqγ =

(n

γ

)am,γ [1 + O (n · θm)] , θ =

zγ + ε

zγ+1 − ε

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 21 / 27

Quels types de sources ?

sources de Bernoulli de parametre p

Hypothese 1 : pX = p|X |

Hypothese 2 : pour X ( Y , pY /pX ≤ p < 1Hypothese 3 :

Si (z) =1

1− z(1 + pi ), [zm]Si (z) = (1 + pi )m

Le ie symbole est 1 avec la probabilite pi avec 0 < θ1 < pi < θ2 < 1

Hypothese 1 : pX ≤ θ|X |2

Hypothese 2 : pour X ( Y , pY /pX ≤ p < θ2

Hypothese 3 :

[zm]Sγ(z) =mY

i=1

(1 + pγi ) ≥ (1 + θi

1)m

modeles groupes de Bernoulli pour les attributs qui s’excluent mutuellement(ex : petit, moyen grand)

chaınes de markov (irreductibles et aperiodiques)

sources dynamiques (completes ou markoviennes)

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 22 / 27

Quels types de sources ?

sources de Bernoulli de parametre p

Hypothese 1 : pX = p|X |

Hypothese 2 : pour X ( Y , pY /pX ≤ p < 1Hypothese 3 :

Si (z) =1

1− z(1 + pi ), [zm]Si (z) = (1 + pi )m

Le ie symbole est 1 avec la probabilite pi avec 0 < θ1 < pi < θ2 < 1

Hypothese 1 : pX ≤ θ|X |2

Hypothese 2 : pour X ( Y , pY /pX ≤ p < θ2

Hypothese 3 :

[zm]Sγ(z) =mY

i=1

(1 + pγi ) ≥ (1 + θi

1)m

modeles groupes de Bernoulli pour les attributs qui s’excluent mutuellement(ex : petit, moyen grand)

chaınes de markov (irreductibles et aperiodiques)

sources dynamiques (completes ou markoviennes)

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 22 / 27

Quels types de sources ?

sources de Bernoulli de parametre p

Hypothese 1 : pX = p|X |

Hypothese 2 : pour X ( Y , pY /pX ≤ p < 1Hypothese 3 :

Si (z) =1

1− z(1 + pi ), [zm]Si (z) = (1 + pi )m

Le ie symbole est 1 avec la probabilite pi avec 0 < θ1 < pi < θ2 < 1

Hypothese 1 : pX ≤ θ|X |2

Hypothese 2 : pour X ( Y , pY /pX ≤ p < θ2

Hypothese 3 :

[zm]Sγ(z) =mY

i=1

(1 + pγi ) ≥ (1 + θi

1)m

modeles groupes de Bernoulli pour les attributs qui s’excluent mutuellement(ex : petit, moyen grand)

chaınes de markov (irreductibles et aperiodiques)

sources dynamiques (completes ou markoviennes)

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 22 / 27

Quels types de sources ?

sources de Bernoulli de parametre p

Hypothese 1 : pX = p|X |

Hypothese 2 : pour X ( Y , pY /pX ≤ p < 1Hypothese 3 :

Si (z) =1

1− z(1 + pi ), [zm]Si (z) = (1 + pi )m

Le ie symbole est 1 avec la probabilite pi avec 0 < θ1 < pi < θ2 < 1

Hypothese 1 : pX ≤ θ|X |2

Hypothese 2 : pour X ( Y , pY /pX ≤ p < θ2

Hypothese 3 :

[zm]Sγ(z) =mY

i=1

(1 + pγi ) ≥ (1 + θi

1)m

modeles groupes de Bernoulli pour les attributs qui s’excluent mutuellement(ex : petit, moyen grand)

chaınes de markov (irreductibles et aperiodiques)

sources dynamiques (completes ou markoviennes)

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 22 / 27

Sources dynamiques completes

a b x

mot associé à x: babb....

deux branches inverses : h0 et h1

operateurs :

H0[f ](x) = |h′0(x)|f (h0(x)), H1[f ](x) = |h′1(x)|f (h1(x)), H = H0 + H1

si M = `1 . . . `m, branche inverse associee hM = h`1 ◦ . . . ◦ h`m

Hypothese 1 : pour un motif X

On utilise recursivement

H1[φ](t) ≤ θ1φ(t), avec θ1 < 1.

On obtient pX ≤ (1 + ε)θ|X |−n0

1

Hypothese 2 : distorsion bornee des branches + nombre de branches fini

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 23 / 27

Sources dynamiques completes

deux branches inverses : h0 et h1

operateurs :

H0[f ](x) = |h′0(x)|f (h0(x)), H1[f ](x) = |h′1(x)|f (h1(x)), H = H0 + H1

si M = `1 . . . `m, branche inverse associee hM = h`1 ◦ . . . ◦ h`m

Hypothese 1 : pour un motif X

pX =

∫ 1

0

H ◦H1 ◦H ◦ . . . ◦H1 ◦H ◦H1 ◦H ◦H[f0](t)dt

On utilise recursivement

H1[φ](t) ≤ θ1φ(t), avec θ1 < 1.

On obtient pX ≤ (1 + ε)θ|X |−n0

1

Hypothese 2 : distorsion bornee des branches + nombre de branches fini

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 23 / 27

Sources dynamiques completes

deux branches inverses : h0 et h1

operateurs :

H0[f ](x) = |h′0(x)|f (h0(x)), H1[f ](x) = |h′1(x)|f (h1(x)), H = H0 + H1

si M = `1 . . . `m, branche inverse associee hM = h`1 ◦ . . . ◦ h`m

Hypothese 1 : pour un motif X

pX =

∫ 1

0

H ◦H1 ◦H ◦ . . . ◦H1 ◦H ◦H1 ◦H ◦H[f0](t)dt

pX ≤∫ 1

0

H ◦H1 ◦H ◦ . . .H1 ◦Hn0 [f0](t)dt

On utilise recursivement

H1[φ](t) ≤ θ1φ(t), avec θ1 < 1.

On obtient pX ≤ (1 + ε)θ|X |−n0

1

Hypothese 2 : distorsion bornee des branches + nombre de branches finiLhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 23 / 27

Sources dynamiques completes

deux branches inverses : h0 et h1

operateurs :

H0[f ](x) = |h′0(x)|f (h0(x)), H1[f ](x) = |h′1(x)|f (h1(x)), H = H0 + H1

si M = `1 . . . `m, branche inverse associee hM = h`1 ◦ . . . ◦ h`m

Hypothese 1 : pour un motif X

pX ≤∫ 1

0

H ◦H1 ◦H ◦ . . .H1 ◦Hn0 [f0](t)dt

pX ≤ (1 + ε)

∫ 1

0

H ◦H1 ◦H ◦ . . .H1[φ](t)dt

On utilise recursivement

H1[φ](t) ≤ θ1φ(t), avec θ1 < 1.

On obtient pX ≤ (1 + ε)θ|X |−n0

1

Hypothese 2 : distorsion bornee des branches + nombre de branches finiLhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 23 / 27

Sources dynamiques completes

deux branches inverses : h0 et h1

operateurs :

H0[f ](x) = |h′0(x)|f (h0(x)), H1[f ](x) = |h′1(x)|f (h1(x)), H = H0 + H1

si M = `1 . . . `m, branche inverse associee hM = h`1 ◦ . . . ◦ h`m

Hypothese 1 : pour un motif X

pX ≤ (1 + ε)

∫ 1

0

H ◦H1 ◦H ◦ . . .H1[φ](t)dt

On utilise recursivement

H1[φ](t) ≤ θ1φ(t), avec θ1 < 1.

On obtient pX ≤ (1 + ε)θ|X |−n0

1

Hypothese 2 : distorsion bornee des branches + nombre de branches fini

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 23 / 27

Sources dynamiques completes

deux branches inverses : h0 et h1

operateurs :

H0[f ](x) = |h′0(x)|f (h0(x)), H1[f ](x) = |h′1(x)|f (h1(x)), H = H0 + H1

si M = `1 . . . `m, branche inverse associee hM = h`1 ◦ . . . ◦ h`m

Hypothese 1 : pour un motif X

pX ≤ (1 + ε)

∫ 1

0

H ◦H1 ◦H ◦ . . .H1[φ](t)dt

On utilise recursivement

H1[φ](t) ≤ θ1φ(t), avec θ1 < 1.

On obtient pX ≤ (1 + ε)θ|X |−n0

1

Hypothese 2 : distorsion bornee des branches + nombre de branches fini

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 23 / 27

Sources dynamiques completes

deux branches inverses : h0 et h1

operateurs :

H0[f ](x) = |h′0(x)|f (h0(x)), H1[f ](x) = |h′1(x)|f (h1(x)), H = H0 + H1

si M = `1 . . . `m, branche inverse associee hM = h`1 ◦ . . . ◦ h`m

Hypothese 1 : pour un motif X

pX ≤ (1 + ε)

∫ 1

0

H ◦H1 ◦H ◦ . . .H1[φ](t)dt

On utilise recursivement

H1[φ](t) ≤ θ1φ(t), avec θ1 < 1.

On obtient pX ≤ (1 + ε)θ|X |−n0

1

Hypothese 2 : distorsion bornee des branches + nombre de branches fini

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 23 / 27

Sources dynamiques completes : hypothese 3

Operateurs :

H1[F ](x1, . . . , xγ) = |h′1(x1)| . . . |h′1(xγ)|F (h1(x1), . . . , h1(xγ))

H0[F ](x1, . . . , xγ) =∑

(`1,...,`γ) 6=(1,...,1)

|h′`1(x1)| . . . |h′`γ

(xγ)|F (h`1(x1), . . . , h`γ(xγ))

H = H0 + 2H1

Serie S(z)

Sγ(z) =

∫[0,1]γ

(I− zH)−1(x1, . . . , xγ)dx1 . . . dxγ

Unique pole simple en z = 1/λ(γ) avec

λ(γ) > λ(γ + 1) > 1

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 24 / 27

Sources dynamiques completes : hypothese 3

Operateurs :

H1[F ](x1, . . . , xγ) = |h′1(x1)| . . . |h′1(xγ)|F (h1(x1), . . . , h1(xγ))

H0[F ](x1, . . . , xγ) =∑

(`1,...,`γ) 6=(1,...,1)

|h′`1(x1)| . . . |h′`γ

(xγ)|F (h`1(x1), . . . , h`γ(xγ))

H = H0 + 2H1

Serie S(z)

Sγ(z) =

∫[0,1]γ

(I− zH)−1(x1, . . . , xγ)dx1 . . . dxγ

Unique pole simple en z = 1/λ(γ) avec

λ(γ) > λ(γ + 1) > 1

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 24 / 27

Sources dynamiques completes : hypothese 3

Operateurs :

H1[F ](x1, . . . , xγ) = |h′1(x1)| . . . |h′1(xγ)|F (h1(x1), . . . , h1(xγ))

H0[F ](x1, . . . , xγ) =∑

(`1,...,`γ) 6=(1,...,1)

|h′`1(x1)| . . . |h′`γ

(xγ)|F (h`1(x1), . . . , h`γ(xγ))

H = H0 + 2H1

Serie S(z)

Sγ(z) =

∫[0,1]γ

(I− zH)−1(x1, . . . , xγ)dx1 . . . dxγ

Unique pole simple en z = 1/λ(γ) avec

λ(γ) > λ(γ + 1) > 1

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 24 / 27

Schema de la preuve

Freqγ =∑

X∈{a1,...,am}∑n

i=γ

(ni

)pi

X (1− pX )n−i

Freqγ = γ(nγ

) ∑X∈{a1,...,am}

∫ pX

0tγ−1(1− t)n−γdt

(1− t)n−γ ≈ 1− (n − γ)t

seuil fixe seuil lineaire

fonction gamma incompletemethode de Laplace

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 25 / 27

Preuve : seuil fixe

Freqγ = γ

(n

γ

) ∑X⊂{a1,...,am}

∫ pX

0

tγ−1(1− t)n−γdt

(1− t)n−γ ≈ 1− (n − γ)t

Freqγ ≈(

n

γ

) ∑X⊂{a1,...,am}

pγX − (n − γ)

γ

γ + 1

(n

γ

) ∑X⊂{a1,...,am}

pγ+1X

Mais pγX s’ecrit aussi

pγX =

∑M1, . . . ,Mγ

Mi ∈ {0, 1}m

X ⊂ Mi

P(M1) . . .P(Mγ)

En inversant toutes les sommes,∑X⊂{a1,...,am}

pγX =

∑M1,...,Mγ

2|M1∩...∩Mγ |P(M1) . . .P(Mγ)

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 26 / 27

Preuve : seuil fixe

Freqγ = γ

(n

γ

) ∑X⊂{a1,...,am}

∫ pX

0

tγ−1(1− t)n−γdt

(1− t)n−γ ≈ 1− (n − γ)t

Freqγ ≈(

n

γ

) ∑X⊂{a1,...,am}

pγX − (n − γ)

γ

γ + 1

(n

γ

) ∑X⊂{a1,...,am}

pγ+1X

Mais pγX s’ecrit aussi

pγX =

∑M1, . . . ,Mγ

Mi ∈ {0, 1}m

X ⊂ Mi

P(M1) . . .P(Mγ)

En inversant toutes les sommes,∑X⊂{a1,...,am}

pγX =

∑M∈{0γ ,1γ}m

2C(M)P(M)

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 26 / 27

Preuve : seuil fixe

Freqγ = γ

(n

γ

) ∑X⊂{a1,...,am}

∫ pX

0

tγ−1(1− t)n−γdt

(1− t)n−γ ≈ 1− (n − γ)t

Freqγ ≈(

n

γ

) ∑X⊂{a1,...,am}

pγX − (n − γ)

γ

γ + 1

(n

γ

) ∑X⊂{a1,...,am}

pγ+1X

Mais pγX s’ecrit aussi

pγX =

∑M1, . . . ,Mγ

Mi ∈ {0, 1}m

X ⊂ Mi

P(M1) . . .P(Mγ)

En inversant toutes les sommes,∑X⊂{a1,...,am}

pγX = [zm]Sγ(z)

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 26 / 27

Preuve : seuil fixe

Freqγ = γ

(n

γ

) ∑X⊂{a1,...,am}

∫ pX

0

tγ−1(1− t)n−γdt

(1− t)n−γ ≈ 1− (n − γ)t

Freqγ ≈(

n

γ

) ∑X⊂{a1,...,am}

pγX − (n − γ)

γ

γ + 1

(n

γ

) ∑X⊂{a1,...,am}

pγ+1X

Mais pγX s’ecrit aussi

pγX =

∑M1, . . . ,Mγ

Mi ∈ {0, 1}m

X ⊂ Mi

P(M1) . . .P(Mγ)

En inversant toutes les sommes,

Freqγ ≈(

n

γ

)[zm]Sγ(z)− (n − γ)

γ

γ + 1

(n

γ

)[zm]Sγ+1(z)

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 26 / 27

Conclusion et perspectives

Trois resultats avec des conditions suffisantes :

seuil fixe : nombre exponentiel de motifs frequentsseuil intermediaire : equivalence entre motifs frequents et fermesseuil lineaire : nombre polynomial de motifs frequents

s’appliquent a toutes les sources classiques

modeles de bases de donnees non correlees

Perspectives :

Nombre de motifs fermes pour un seuil fixe ?analyses d’autres motifs (bordure negative, motifs candidats, motifs libres,. . . )analyses des algorithmes par niveaux et en profondeurtrouver des modeles plus realistescontraintes generalisees

Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 27 / 27