Modèles d\'Information CORIA\'2010

$: Modèles d\'Information CORIA\'2010$
Modeles de RI fondes sur l’information

Stephane Clinchant 1,2 Eric Gaussier 2

1 Xerox Research Centre Europe

2 Laboratoire d’Informatique de GrenobleUniv. Grenoble 1

18 Mars 2010

S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 1 / 37

Contenu Informatif

Utiliser l’information de Shannon pour ponderer les mots dans lesdocuments

P(X)−log P(X)

Inf(x) = − log P(x |ΘC ) = Contenu InformatifEcart au comportement moyen

Observation par Harter (70):Les mots ”Non-Fonctionnels” s’ecartent d’une distribution de Poisson.


Contenu Informatif

Utiliser l’information de Shannon pour ponderer les mots dans lesdocuments

P(X)−log P(X)

Inf(x) = − log P(x |ΘC ) = Contenu InformatifEcart au comportement moyenObservation par Harter (70):Les mots ”Non-Fonctionnels” s’ecartent d’une distribution de Poisson.


Modeles fondes sur l’information

Idee Principale:

1 Les frequences discretes des termes (x) sont renormalisees envaleurs continues (t(x)), du fait de la variabilite des longueurs dedocuments.

2 Pour chaque terme w , on suppose que les valeurs t(x) suivent unedistribution P de parametre λw sur le corpus.

3 Requetes et documents sont compares avec une mesure de surprise,une moyenne d’information de la forme:

RSV (q, d) =∑

w∈q∩d

−xqw log Prob(Xw ≥ t(xd

w )|λw )


Plan

1 Proprietes theoriques des modelesI Contraintes Heuristiques des modeles de R.II Phenomene de Rafale

2 Exemples de ModelesI Le modele log-logistiqueI Loi de Puissance lissee

3 Validation Experimentale

4 Extension au PRF


Contraintes Heuristiques (1)

Une fonction d’ordonnancement en RI prend la forme suivante:

RSV (q, d) =∑

w∈q∩d

f (xqw )h(xd

w , yd , zw , θ)

xqw frequence du mot dans la requete, xd

w dans le documentyd Longueur du document dzw = Fw ou zw = Nw

θ parametre du modele de RI.Fw Frequence de w dans le corpus : Fw =

∑d xd

w

Nw Frequence Documentaire de w : Nw =∑

d I (xdw > 0)

N Nombre de documents dans la collection

⇒ Etude des proprietes de h



Hypotheses:

Condition 1: Les documents avec plus d’occurences d’un terme dela requete devraient avoir un score plus grand que ceux qui en ontmoins (Luhn)

∀(y , z , θ),∂h(x , y , z , θ)

∂x> 0 (h est croissante en x)

Condition 2: Cependant, la difference de score devrait etre pluspetite pour de grandes frequences. Ex: 2→4, 50→ 52

∀(y , z , θ),∂2h(x , y , z , θ)

∂x2< 0 (h est concave)



Hypotheses:

Condition 3: On devrait penaliser les longs documents comparesaux documents plus courts, car les longs documents sont suceptiblesde couvrir differents sujets

∀(x , z , θ),∂h(x , y , z , θ)

∂y< 0 (h decroissante en y)

Condition 4: Enfin, il est important de diminuer l’importance desmots apparaissant dans beaucoup de documents (IDF)

∀(x , y , θ),∂h(x , y , z , θ)

∂z< 0 (effet IDF)

cf Fang et al, A Formal Study of Information Retrieval Heuristics, SIGIR’04


Phenomene de Rafale (Burstiness)

On s’interesse maintenant aux lois de probabilites sur les frequences:

Church et Gale 1 ont mis en evidence que le modele 2-Poissons’ajuste mal aux donnees.

Une explication possible: le comportement en rafale des mots, oucrepitement (burstiness). Decrit le fait que les mots, dans undocument, tendent a apparaıtre par paquets

Une fois que l’on a observe une occurrence d’un mot dans undocument, il est bien plus probable d’observer de nouvellesoccurrences de ce mot

1Poisson MixturesS.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 8 / 37

Phenomene de Rafale

Definition (Cas discret ECIR’08)

Une distribution discrete P est en rafale ou crepite ssi la suite:

g(n) = P(X ≥ n + 1|X ≥ n)

est une suite strictement croissante

Definition (Cas general)

Une distribution continue P est en rafale ou crepite ssi ∀ε > 0 la fonctiongε:

gε(x) = P(X ≥ x + ε|X ≥ x)

est une fonction strictement croissante en x .


Distribution En rafale

Poisson NonGeometrique Neutre

Negative Binomiale Oui si r < 1Beta Negative Binomiale Oui

Pareto OuiLog-Logistique Oui


Modeles d’Information & Contraintes heuristiques:Modeles definis par:

RSV (q, d) =∑

w∈q∩d

xqw

Fonction h︷︸︸︷− log Prob(X ≥ td

w |λw ) (1)

tdw frequences normalisees: generalement croissante en x , decroissante

en y .

Condition 1 (h croissante) Direct

Condition 3 (penalise longs documents) Direct.

Condition 2 (h concave)

Theoreme

Si la distribution P est en rafale, alors le modele d’information defini avecP est concave


Modeles d’Information & Contraintes heuristiques:

Soit P une distribution de classe C 2. Une condition necessaire pour que Psoit en rafale est :

∂2 log(P(X ≥ x))

∂x2> 0

Or

Concavite ⇐⇒ ∂2 log(P(X ≥ x))

∂x2> 0

Condition 4 (effet IDF) et 2 Conditions d’ajustement supplementairesdependent du choix de la distribution P


Les modeles log-logistique et loi de puissance lissee


La distribution log-logistique

On considere ici une loi log-logistique contrainte:

P(X > x |r) =r

(x + r)(r mediane)

On se restreint a cette forme a cause de relations avec d’autresdistributions (Negative Binomiale, Beta Negative Binomiale)


log P(X > x) Poisson et Log-Logistique

0 5 10 15

−10

−8−6

−4−2

0

x

log

P(X

> x

)

r=0.001r=0.01r=0.1

r=0.001 Poissonr=0.01 Poissonr=0.1 Poisson


Ajustement aux donnees

Pour verifier l’ajustement aux donnees, on a effectue un test du χ2 sousces deux hypotheses:

Poisson: λw = FwN

Log-Logistique: rw = FwN

⇒ La statistique du χ2 est bien meilleure pour la log-logistique(confirme des travaux precedents)

La loi log-logistique est un ”bon” modele de frequences sur le corpus(meilleur que Poisson, Geometrique, Binomial et 2-Poisson).

Est-ce un bon modele de RI ?


Modele Log-Logistique pour la RI (LGD)

Le modele LGD est defini par

1 Normalisation: tdw = xd

w log(1 + c myd

) (N2 DFR)

2 Loi de frequences: Les tdw sont distribues par une loi log-logistique de

parametre rw = NwN

3

RSV (q, d) =∑

w∈q∩d

xqw

[log(

Nw

N+ td

w )− log(Nw

N)

]Respecte toutes les conditions quels que soient les parametres.


Loi de Puissance Lissee (Smoothed Power Law SPL)

On appelle loi de Puissance lissee la distribution sur [0,+∞[ de parametre0 < λ < 1 :

P(X > x |λ) =λ

xx+1 − λ1− λ

Modele de RI:


w log(1 + c myd

) (N2 DFR)

2 Loi de frequences: Les tdw sont distribues par une loi de puissance

lissee de parametre rw = NwN

Respecte aussi toutes les conditions


Loi de Puissance Lissee

0 5 10 15

−8

−6

−4

−2

0

lambda = 0.005

x

log

P(X

>x)

loglogisticspl


Caracterisation des modeles d’information

1 Normalisation de frequences verifie:

∂tdw

∂xdw

> 0;∂td

w

∂yd< 0;

∂2xdw

∂(tdw )2≥ 0

2 Loi de Probabilite continue et en rafale

3 Fonction d’Ordonnancement

RSV (q, d) =∑

w∈q∩d

−xqw log Prob(Xw ≥ td

w |λw )

4 Parametre sur la collection

λw =Fw

Nor

Nw

N


Relations avec d’autres modeles

Relation avec les modeles de langues:


w c myd

(N1 DFR)

2 rw = FwN et Loi Log-Logistique

3 Modele = Modele de langues avec lissage de Jelinek-Mercer

Relation avec les modeles DFR:Les modeles DFR sont definis de la maniere suivante:

RSV (q, d) =∑

w∈q∩d

−xqw Inf2(td

w ) log Prob1(tdw )

Problemes:

Loi discretes avec valeurs continues

2 Notions d’informations non ”homogenes”

⇒ Nos modeles reposent sur des lois continues et sur une seule notiond’Information


Experiences

Comparaison avec modeles de langues, BM25, modeles DFR

Corpus: ROBUST, CLEF03, GIRT avec requetes longues et courtes

5 jeu de requetes: ROB-d , ROB-t , GIRT , CLEF-d , CLEF-t

Corpus # Requete

ROBUST 250CLEF03 60

GIRT 75

Divise en apprentissage/testOptimise MAP ou P10 sur une grille de valeurs:Par exemple:

k1 ∈ {0.3, 0.5, 0.8, 1.0, 1.2, 1.5, 1.8, 2, 2.2, 2.5} (BM25)

c ∈ {0.25, 0.5, 0.8, 1, 2, 3, 5, 8, 10} (LGD,DFR)

µ ∈ {10, 50, 100, 200, 500, 800, 1000, 1500, 2000, 5000, 10000} (LM)


Comparaison avec le lissage de Jelinek-Mercer

Comparaison avec les modeles de langues

Table: LM-Jelinek-Mercer vs Log-Logistique apres 10 divisions; en gras, lesmeilleures performances ; ∗ denote une difference statistiquement significative

MAP ROB-d ROB-t GIRT CLEF-d CLEF-t

LM 26.0 20.7 40.7 49.2 36.5LGD 27.2∗ 22.5∗ 43.1∗ 50.0∗ 37.5∗

P10 ROB-d ROB-t GIRT CLEF-d CLEF-t

LM 43.8 35.5 67.5 33.0 26.2LGD 46.0∗ 38.9∗ 69.4∗ 33.6∗ 26.6∗


Comparaison avec le lissage de Dirichlet

Table: LMDirichlet vs Log-Logistique apres 10 divisions; en gras, les meilleuresperformances ; ∗ denote une difference statistiquement significative


DIR 27.1 25.1 41.1 48.5 36.2LGD 27.4∗ 25.0 42.1∗ 49.7∗ 36.8∗


DIR 45.6 44.7∗ 68.6 33.8 28.4LGD 46.2∗ 44.4 69.0 34.5∗ 28.6


Comparaison avec BM25

BM25 optimise seulement avec le parametre k1

MAP ROB-d ROB-t GIRT CLEF-t CLEF-d

BM25 26.8 22.4 39.8 34.9 46.8LGD 28.2∗ 23.5∗ 41.4∗ 34.8 48.0P10 ROB-d ROB-t GIRT CLEF-t CLEF-d

BM25 45.9 42.6 62.6 28.5 33.7LGD 46.5 44.3∗ 66.6∗ 28.7 34.4


Comparaison avec les modeles DFR

Table: INL2 et PL2 versus Log-Logistique apres 10 divisions; en gras, lesmeilleures performances; ∗ denote une difference statistiquement significative


INL2 27.7 24.8 42.5 47.7 37.5LGD 28.5∗ 25.0∗ 43.1∗ 48.0 37.4


INL2 47.7∗ 43.3 67.0 33.4 27.3LGD 47.0 43.5 69.4∗ 33.3 27.2

MAP ROB-d ROB-t GIRT CLEF-t CLEF-d

LGD 27.3∗ 24.7 40.5 36.2 47.5PL2 26.2 24.8 40.6 36.0 47.2

P10 ROB-d ROB-t GIRT CLEF-t CLEF-d

LGD 46.6 43.2 66.7 28.5 33.7PL2 46.4 44.1∗ 68.2∗ 28.7 33.1


Comparaison SPL avec le modele de langue Dirichlet

Table: SPL versus LM-Dirichlet after 10 splits; bold indicates significant difference

MAP ROB-d ROB-t GIR T3-t CL-t CL-d

DIR 26.7 25.0 40.9 27.1 36.2 50.2SPL 25.6 24.9 42.1 26.8 36.4 46.9

P10 ROB-d ROB-t GIR T3-t CL-t CL-d

DIR 45.2 43.8 68.2 52.8 27.3 32.8SPL 46.6 44.7 70.8 55.3 27.1 32.9


Comparaison SPL avec les modeles InL2 et PL2 (DFR)

Table: SPL versus DFR models after 10 splits; bold indicates significant difference


INL 26.9 24.3 40.4 24.8 35.5 49.4SPL 26.6 24.6 40.7 25.4 34.6 48.1

P10 ROB-d ROB-t GIR T3-t CL-t CL-d

INL 47.6 42.8 63.4 52.5 28.8 33.8SPL 47.8 44.1 68.0 53.9 28.7 33.6


SPL 26.3 25.2 42.7 25.3 37.4 44.1PL2 26.3 25.2 42.8 25.8 37.3 45.7P10 ROB-d ROB-t GIR T3-t CL-t CL-d

SPL 47.0 45.2 69.8 55.4 25.9 32.9PL2 46.0 45.2 69.3 54.8 26.2 32.7


Extension au PRF

Moyenne de l’information sur les premiers documents retournes:

Info(w) =1

n

∑d∈R

− log(P(Xw > tdw ;λw ))

Mise a jour de la requete: (similaire au modele Bo2)

xq2w =

xqw

maxw xqw

+ βInfo(w)

maxw Info(w)

Le modele de PRF et le modele de RI sont les memes !


Table: MAP, ∗ denote une difference statistiquement significative avec LM et Bo2

Model n TC ROB-t GIRT TREC3-t CLEF-t

LM+MIX 5 5 27.5 44.4 30.7 36.6INL+Bo2 5 5 26.5 42.0 30.6 37.6

LGD 5 5 28.3∗ 44.3 32.9∗ 37.6

LM+MIX 5 10 28.3 45.7∗ 33.6 37.4INL+Bo2 5 10 27.5 42.7 32.6 37.5

LGD 5 10 29.4∗ 44.9 35.0∗ 40.2∗

LM+MIX 10 10 28.4 45.5 31.8 37.6INL+Bo2 10 10 27.2 43.0 32.3 37.4

LGD 10 10 30.0∗ 46.8∗ 35.5∗ 38.9LM+MIX 10 20 29.0 46.2 33.7 38.2INL+Bo2 10 20 27.7 43.5 33.8 37.7

LGD 10 20 30.3∗ 47.6∗ 37.4∗ 38.6LM+MIX 20 20 28.6 47.9 32.9 37.8INL+Bo2 20 20 27.4 44.3 33.5 36.8

LGD 20 20 29.5∗ 48.9∗ 37.2∗ 41.0∗


Table: Mean average precision of PRF experiments; bold indicates bestperformance, ∗ significant difference over LM and Bo2 models

Model N TC ROB-t GIR T3-t CL-t

LGD 5 5 28.3∗ 44.3 32.9∗ 37.6SPL 5 5 28.9∗ 45.6∗ 32.9∗ 39.0∗

LGD 5 10 29.4∗ 44.9 35.0∗ 40.2∗

SPL 5 10 29.6∗ 47.0∗ 34.6∗ 39.5∗

LGD 10 10 30.0∗ 46.8∗ 35.5∗ 38.9SPL 10 10 30.0∗ 48.9∗ 33.8∗ 39.1∗

LGD 10 20 30.3∗ 47.6∗ 37.4∗ 38.6SPL 10 20 29.9∗ 50.2∗ 34.3 39.7∗

LGD 20 20 29.5∗ 48.9∗ 37.2∗ 41.0∗

SPL 20 20 28.8 50.3∗ 33.9 39.0∗


Conclusion

Caracterisation analytique des contraintes heuristiques

Phenomene de rafale pour les lois continues

Une nouvelle famille de modeles de RII ”En Rafale” ⇒ Modele concave

Extension au PRF

Les modeles log-logistique et loi de puissance lisseeI LGD contient un modele de langueI LGD, SPL ≥ modele de languesI LGD,SPL ≈ DFRI plus simple que les modeles DFRI les meilleures performances en PRF

Questions ?


La distribution log-logistique

Church et al. 2 ont propose la distribution Negative Binomiale(melange infini de Poisson) pour modeliser les frequences.⇒ ”meilleur” modele que 2-Poisson

Nous avons propose precedemment la loi Beta-Negative Binomiale(BNB):

BNB(x |r) =

∫Beta(θ|1, 1)Negbin(x |θ, r)

On considere ici une loi log-logistique contrainte:

P(X > x |r) =r

(x + r)(r mediane)

Cette log-logistique contrainte peut etre vue comme une versioncontinue d’une Beta-Negative Binomiale

2 Poisson MixturesS.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 33 / 37

Relation avec les Modeles DFR

Les modeles DFR sont definis de la maniere suivante:

RSV (q, d) =∑

w∈q∩d

xqw Inf2(td

w )Inf1(tdw ) =

∑w∈q∩d

−xqw Inf2(td

w ) log Prob1(tdw )

On peut montrer que :

Inf2 rend les modeles DFR concave (condition 2)

Sans Inf2 , les modeles DFR obtiennent de mauvaises performances


Experimental Fit

Chi Square test on Robust collection, with terms appearing with documentfrequency ≥ 100; Frequency range divided into three intervals: [0, 3[,[3, 10[ and [10, 100[.

Hypothesis

Poisson: λw = FwN

Log-Logistic: λw = FwN


Chi Square Statistics


Comparaison des modeles

0 5 10 15

02

46

8r = 0.005

x

We

igh

t

LGDINLSPLPL

0 5 10 15

04

8

r = 5e−04

x

We

igh

t

LGDINLSPLPL


Modèles d\'Information CORIA\'2010

Documents

Transcript of Modèles d\'Information CORIA\'2010