Modèles d\'Information CORIA\'2010

47
Mod` eles de RI fond´ es sur l’information St´ ephane Clinchant 1,2 Eric Gaussier 2 1 Xerox Research Centre Europe 2 Laboratoire d’Informatique de Grenoble Univ. Grenoble 1 18 Mars 2010 S.Clinchant E.Gaussier (XRCE-LIG) Mod` eles de RI fond´ es sur l’information 18 Mars 2010 1 / 37

Transcript of Modèles d\'Information CORIA\'2010

Page 1: Modèles d\'Information CORIA\'2010

Modeles de RI fondes sur l’information

Stephane Clinchant 1,2 Eric Gaussier 2

1 Xerox Research Centre Europe

2 Laboratoire d’Informatique de GrenobleUniv. Grenoble 1

18 Mars 2010

S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 1 / 37

Page 2: Modèles d\'Information CORIA\'2010

Contenu Informatif

Utiliser l’information de Shannon pour ponderer les mots dans lesdocuments

P(X)−log P(X)

Inf(x) = − log P(x |ΘC ) = Contenu InformatifEcart au comportement moyen

Observation par Harter (70):Les mots ”Non-Fonctionnels” s’ecartent d’une distribution de Poisson.

S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 2 / 37

Page 3: Modèles d\'Information CORIA\'2010

Contenu Informatif

Utiliser l’information de Shannon pour ponderer les mots dans lesdocuments

P(X)−log P(X)

Inf(x) = − log P(x |ΘC ) = Contenu InformatifEcart au comportement moyenObservation par Harter (70):Les mots ”Non-Fonctionnels” s’ecartent d’une distribution de Poisson.

S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 2 / 37

Page 4: Modèles d\'Information CORIA\'2010

Modeles fondes sur l’information

Idee Principale:

1 Les frequences discretes des termes (x) sont renormalisees envaleurs continues (t(x)), du fait de la variabilite des longueurs dedocuments.

2 Pour chaque terme w , on suppose que les valeurs t(x) suivent unedistribution P de parametre λw sur le corpus.

3 Requetes et documents sont compares avec une mesure de surprise,une moyenne d’information de la forme:

RSV (q, d) =∑

w∈q∩d

−xqw log Prob(Xw ≥ t(xd

w )|λw )

S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 3 / 37

Page 5: Modèles d\'Information CORIA\'2010

Plan

1 Proprietes theoriques des modelesI Contraintes Heuristiques des modeles de R.II Phenomene de Rafale

2 Exemples de ModelesI Le modele log-logistiqueI Loi de Puissance lissee

3 Validation Experimentale

4 Extension au PRF

S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 4 / 37

Page 6: Modèles d\'Information CORIA\'2010

Contraintes Heuristiques (1)

Une fonction d’ordonnancement en RI prend la forme suivante:

RSV (q, d) =∑

w∈q∩d

f (xqw )h(xd

w , yd , zw , θ)

xqw frequence du mot dans la requete, xd

w dans le documentyd Longueur du document dzw = Fw ou zw = Nw

θ parametre du modele de RI.Fw Frequence de w dans le corpus : Fw =

∑d xd

w

Nw Frequence Documentaire de w : Nw =∑

d I (xdw > 0)

N Nombre de documents dans la collection

⇒ Etude des proprietes de h

S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 5 / 37

Page 7: Modèles d\'Information CORIA\'2010

Contraintes Heuristiques (2)

Hypotheses:

Condition 1: Les documents avec plus d’occurences d’un terme dela requete devraient avoir un score plus grand que ceux qui en ontmoins (Luhn)

∀(y , z , θ),∂h(x , y , z , θ)

∂x> 0 (h est croissante en x)

Condition 2: Cependant, la difference de score devrait etre pluspetite pour de grandes frequences. Ex: 2→4, 50→ 52

∀(y , z , θ),∂2h(x , y , z , θ)

∂x2< 0 (h est concave)

S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 6 / 37

Page 8: Modèles d\'Information CORIA\'2010

Contraintes Heuristiques (2)

Hypotheses:

Condition 1: Les documents avec plus d’occurences d’un terme dela requete devraient avoir un score plus grand que ceux qui en ontmoins (Luhn)

∀(y , z , θ),∂h(x , y , z , θ)

∂x> 0 (h est croissante en x)

Condition 2: Cependant, la difference de score devrait etre pluspetite pour de grandes frequences. Ex: 2→4, 50→ 52

∀(y , z , θ),∂2h(x , y , z , θ)

∂x2< 0 (h est concave)

S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 6 / 37

Page 9: Modèles d\'Information CORIA\'2010

Contraintes Heuristiques (3)

Hypotheses:

Condition 3: On devrait penaliser les longs documents comparesaux documents plus courts, car les longs documents sont suceptiblesde couvrir differents sujets

∀(x , z , θ),∂h(x , y , z , θ)

∂y< 0 (h decroissante en y)

Condition 4: Enfin, il est important de diminuer l’importance desmots apparaissant dans beaucoup de documents (IDF)

∀(x , y , θ),∂h(x , y , z , θ)

∂z< 0 (effet IDF)

cf Fang et al, A Formal Study of Information Retrieval Heuristics, SIGIR’04

S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 7 / 37

Page 10: Modèles d\'Information CORIA\'2010

Contraintes Heuristiques (3)

Hypotheses:

Condition 3: On devrait penaliser les longs documents comparesaux documents plus courts, car les longs documents sont suceptiblesde couvrir differents sujets

∀(x , z , θ),∂h(x , y , z , θ)

∂y< 0 (h decroissante en y)

Condition 4: Enfin, il est important de diminuer l’importance desmots apparaissant dans beaucoup de documents (IDF)

∀(x , y , θ),∂h(x , y , z , θ)

∂z< 0 (effet IDF)

cf Fang et al, A Formal Study of Information Retrieval Heuristics, SIGIR’04

S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 7 / 37

Page 11: Modèles d\'Information CORIA\'2010

Phenomene de Rafale (Burstiness)

On s’interesse maintenant aux lois de probabilites sur les frequences:

Church et Gale 1 ont mis en evidence que le modele 2-Poissons’ajuste mal aux donnees.

Une explication possible: le comportement en rafale des mots, oucrepitement (burstiness). Decrit le fait que les mots, dans undocument, tendent a apparaıtre par paquets

Une fois que l’on a observe une occurrence d’un mot dans undocument, il est bien plus probable d’observer de nouvellesoccurrences de ce mot

1Poisson MixturesS.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 8 / 37

Page 12: Modèles d\'Information CORIA\'2010

Phenomene de Rafale (Burstiness)

On s’interesse maintenant aux lois de probabilites sur les frequences:

Church et Gale 1 ont mis en evidence que le modele 2-Poissons’ajuste mal aux donnees.

Une explication possible: le comportement en rafale des mots, oucrepitement (burstiness). Decrit le fait que les mots, dans undocument, tendent a apparaıtre par paquets

Une fois que l’on a observe une occurrence d’un mot dans undocument, il est bien plus probable d’observer de nouvellesoccurrences de ce mot

1Poisson MixturesS.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 8 / 37

Page 13: Modèles d\'Information CORIA\'2010

Phenomene de Rafale

Definition (Cas discret ECIR’08)

Une distribution discrete P est en rafale ou crepite ssi la suite:

g(n) = P(X ≥ n + 1|X ≥ n)

est une suite strictement croissante

Definition (Cas general)

Une distribution continue P est en rafale ou crepite ssi ∀ε > 0 la fonctiongε:

gε(x) = P(X ≥ x + ε|X ≥ x)

est une fonction strictement croissante en x .

S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 9 / 37

Page 14: Modèles d\'Information CORIA\'2010

Phenomene de Rafale

Definition (Cas discret ECIR’08)

Une distribution discrete P est en rafale ou crepite ssi la suite:

g(n) = P(X ≥ n + 1|X ≥ n)

est une suite strictement croissante

Definition (Cas general)

Une distribution continue P est en rafale ou crepite ssi ∀ε > 0 la fonctiongε:

gε(x) = P(X ≥ x + ε|X ≥ x)

est une fonction strictement croissante en x .

S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 9 / 37

Page 15: Modèles d\'Information CORIA\'2010

Distribution En rafale

Poisson NonGeometrique Neutre

Negative Binomiale Oui si r < 1Beta Negative Binomiale Oui

Pareto OuiLog-Logistique Oui

S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 10 / 37

Page 16: Modèles d\'Information CORIA\'2010

Modeles d’Information & Contraintes heuristiques:Modeles definis par:

RSV (q, d) =∑

w∈q∩d

xqw

Fonction h︷ ︸︸ ︷− log Prob(X ≥ td

w |λw ) (1)

tdw frequences normalisees: generalement croissante en x , decroissante

en y .

Condition 1 (h croissante) Direct

Condition 3 (penalise longs documents) Direct.

Condition 2 (h concave)

Theoreme

Si la distribution P est en rafale, alors le modele d’information defini avecP est concave

S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 11 / 37

Page 17: Modèles d\'Information CORIA\'2010

Modeles d’Information & Contraintes heuristiques:Modeles definis par:

RSV (q, d) =∑

w∈q∩d

xqw

Fonction h︷ ︸︸ ︷− log Prob(X ≥ td

w |λw ) (1)

tdw frequences normalisees: generalement croissante en x , decroissante

en y .

Condition 1 (h croissante) Direct

Condition 3 (penalise longs documents) Direct.

Condition 2 (h concave)

Theoreme

Si la distribution P est en rafale, alors le modele d’information defini avecP est concave

S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 11 / 37

Page 18: Modèles d\'Information CORIA\'2010

Modeles d’Information & Contraintes heuristiques:Modeles definis par:

RSV (q, d) =∑

w∈q∩d

xqw

Fonction h︷ ︸︸ ︷− log Prob(X ≥ td

w |λw ) (1)

tdw frequences normalisees: generalement croissante en x , decroissante

en y .

Condition 1 (h croissante) Direct

Condition 3 (penalise longs documents) Direct.

Condition 2 (h concave)

Theoreme

Si la distribution P est en rafale, alors le modele d’information defini avecP est concave

S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 11 / 37

Page 19: Modèles d\'Information CORIA\'2010

Modeles d’Information & Contraintes heuristiques:

Soit P une distribution de classe C 2. Une condition necessaire pour que Psoit en rafale est :

∂2 log(P(X ≥ x))

∂x2> 0

Or

Concavite ⇐⇒ ∂2 log(P(X ≥ x))

∂x2> 0

Condition 4 (effet IDF) et 2 Conditions d’ajustement supplementairesdependent du choix de la distribution P

S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 12 / 37

Page 20: Modèles d\'Information CORIA\'2010

Les modeles log-logistique et loi de puissance lissee

S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 13 / 37

Page 21: Modèles d\'Information CORIA\'2010

La distribution log-logistique

On considere ici une loi log-logistique contrainte:

P(X > x |r) =r

(x + r)(r mediane)

On se restreint a cette forme a cause de relations avec d’autresdistributions (Negative Binomiale, Beta Negative Binomiale)

S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 14 / 37

Page 22: Modèles d\'Information CORIA\'2010

log P(X > x) Poisson et Log-Logistique

0 5 10 15

−10

−8−6

−4−2

0

x

log

P(X

> x

)

r=0.001r=0.01r=0.1

r=0.001 Poissonr=0.01 Poissonr=0.1 Poisson

S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 15 / 37

Page 23: Modèles d\'Information CORIA\'2010

Ajustement aux donnees

Pour verifier l’ajustement aux donnees, on a effectue un test du χ2 sousces deux hypotheses:

Poisson: λw = FwN

Log-Logistique: rw = FwN

⇒ La statistique du χ2 est bien meilleure pour la log-logistique(confirme des travaux precedents)

La loi log-logistique est un ”bon” modele de frequences sur le corpus(meilleur que Poisson, Geometrique, Binomial et 2-Poisson).

Est-ce un bon modele de RI ?

S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 16 / 37

Page 24: Modèles d\'Information CORIA\'2010

Modele Log-Logistique pour la RI (LGD)

Le modele LGD est defini par

1 Normalisation: tdw = xd

w log(1 + c myd

) (N2 DFR)

2 Loi de frequences: Les tdw sont distribues par une loi log-logistique de

parametre rw = NwN

3

RSV (q, d) =∑

w∈q∩d

xqw

[log(

Nw

N+ td

w )− log(Nw

N)

]Respecte toutes les conditions quels que soient les parametres.

S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 17 / 37

Page 25: Modèles d\'Information CORIA\'2010

Loi de Puissance Lissee (Smoothed Power Law SPL)

On appelle loi de Puissance lissee la distribution sur [0,+∞[ de parametre0 < λ < 1 :

P(X > x |λ) =λ

xx+1 − λ1− λ

Modele de RI:

1 Normalisation: tdw = xd

w log(1 + c myd

) (N2 DFR)

2 Loi de frequences: Les tdw sont distribues par une loi de puissance

lissee de parametre rw = NwN

Respecte aussi toutes les conditions

S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 18 / 37

Page 26: Modèles d\'Information CORIA\'2010

Loi de Puissance Lissee (Smoothed Power Law SPL)

On appelle loi de Puissance lissee la distribution sur [0,+∞[ de parametre0 < λ < 1 :

P(X > x |λ) =λ

xx+1 − λ1− λ

Modele de RI:

1 Normalisation: tdw = xd

w log(1 + c myd

) (N2 DFR)

2 Loi de frequences: Les tdw sont distribues par une loi de puissance

lissee de parametre rw = NwN

Respecte aussi toutes les conditions

S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 18 / 37

Page 27: Modèles d\'Information CORIA\'2010

Loi de Puissance Lissee

0 5 10 15

−8

−6

−4

−2

0

lambda = 0.005

x

log

P(X

>x)

loglogisticspl

S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 19 / 37

Page 28: Modèles d\'Information CORIA\'2010

Caracterisation des modeles d’information

1 Normalisation de frequences verifie:

∂tdw

∂xdw

> 0;∂td

w

∂yd< 0;

∂2xdw

∂(tdw )2≥ 0

2 Loi de Probabilite continue et en rafale

3 Fonction d’Ordonnancement

RSV (q, d) =∑

w∈q∩d

−xqw log Prob(Xw ≥ td

w |λw )

4 Parametre sur la collection

λw =Fw

Nor

Nw

N

S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 20 / 37

Page 29: Modèles d\'Information CORIA\'2010

Relations avec d’autres modeles

Relation avec les modeles de langues:

1 Normalisation: tdw = xd

w c myd

(N1 DFR)

2 rw = FwN et Loi Log-Logistique

3 Modele = Modele de langues avec lissage de Jelinek-Mercer

Relation avec les modeles DFR:Les modeles DFR sont definis de la maniere suivante:

RSV (q, d) =∑

w∈q∩d

−xqw Inf2(td

w ) log Prob1(tdw )

Problemes:

Loi discretes avec valeurs continues

2 Notions d’informations non ”homogenes”

⇒ Nos modeles reposent sur des lois continues et sur une seule notiond’Information

S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 21 / 37

Page 30: Modèles d\'Information CORIA\'2010

Relations avec d’autres modeles

Relation avec les modeles de langues:

1 Normalisation: tdw = xd

w c myd

(N1 DFR)

2 rw = FwN et Loi Log-Logistique

3 Modele = Modele de langues avec lissage de Jelinek-Mercer

Relation avec les modeles DFR:Les modeles DFR sont definis de la maniere suivante:

RSV (q, d) =∑

w∈q∩d

−xqw Inf2(td

w ) log Prob1(tdw )

Problemes:

Loi discretes avec valeurs continues

2 Notions d’informations non ”homogenes”

⇒ Nos modeles reposent sur des lois continues et sur une seule notiond’Information

S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 21 / 37

Page 31: Modèles d\'Information CORIA\'2010

Experiences

Comparaison avec modeles de langues, BM25, modeles DFR

Corpus: ROBUST, CLEF03, GIRT avec requetes longues et courtes

5 jeu de requetes: ROB-d , ROB-t , GIRT , CLEF-d , CLEF-t

Corpus # Requete

ROBUST 250CLEF03 60

GIRT 75

Divise en apprentissage/testOptimise MAP ou P10 sur une grille de valeurs:Par exemple:

k1 ∈ {0.3, 0.5, 0.8, 1.0, 1.2, 1.5, 1.8, 2, 2.2, 2.5} (BM25)

c ∈ {0.25, 0.5, 0.8, 1, 2, 3, 5, 8, 10} (LGD,DFR)

µ ∈ {10, 50, 100, 200, 500, 800, 1000, 1500, 2000, 5000, 10000} (LM)

S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 22 / 37

Page 32: Modèles d\'Information CORIA\'2010

Experiences

Comparaison avec modeles de langues, BM25, modeles DFR

Corpus: ROBUST, CLEF03, GIRT avec requetes longues et courtes

5 jeu de requetes: ROB-d , ROB-t , GIRT , CLEF-d , CLEF-t

Corpus # Requete

ROBUST 250CLEF03 60

GIRT 75

Divise en apprentissage/testOptimise MAP ou P10 sur une grille de valeurs:Par exemple:

k1 ∈ {0.3, 0.5, 0.8, 1.0, 1.2, 1.5, 1.8, 2, 2.2, 2.5} (BM25)

c ∈ {0.25, 0.5, 0.8, 1, 2, 3, 5, 8, 10} (LGD,DFR)

µ ∈ {10, 50, 100, 200, 500, 800, 1000, 1500, 2000, 5000, 10000} (LM)

S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 22 / 37

Page 33: Modèles d\'Information CORIA\'2010

Comparaison avec le lissage de Jelinek-Mercer

Comparaison avec les modeles de langues

Table: LM-Jelinek-Mercer vs Log-Logistique apres 10 divisions; en gras, lesmeilleures performances ; ∗ denote une difference statistiquement significative

MAP ROB-d ROB-t GIRT CLEF-d CLEF-t

LM 26.0 20.7 40.7 49.2 36.5LGD 27.2∗ 22.5∗ 43.1∗ 50.0∗ 37.5∗

P10 ROB-d ROB-t GIRT CLEF-d CLEF-t

LM 43.8 35.5 67.5 33.0 26.2LGD 46.0∗ 38.9∗ 69.4∗ 33.6∗ 26.6∗

S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 23 / 37

Page 34: Modèles d\'Information CORIA\'2010

Comparaison avec le lissage de Dirichlet

Table: LMDirichlet vs Log-Logistique apres 10 divisions; en gras, les meilleuresperformances ; ∗ denote une difference statistiquement significative

MAP ROB-d ROB-t GIRT CLEF-d CLEF-t

DIR 27.1 25.1 41.1 48.5 36.2LGD 27.4∗ 25.0 42.1∗ 49.7∗ 36.8∗

P10 ROB-d ROB-t GIRT CLEF-d CLEF-t

DIR 45.6 44.7∗ 68.6 33.8 28.4LGD 46.2∗ 44.4 69.0 34.5∗ 28.6

S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 24 / 37

Page 35: Modèles d\'Information CORIA\'2010

Comparaison avec BM25

BM25 optimise seulement avec le parametre k1

MAP ROB-d ROB-t GIRT CLEF-t CLEF-d

BM25 26.8 22.4 39.8 34.9 46.8LGD 28.2∗ 23.5∗ 41.4∗ 34.8 48.0P10 ROB-d ROB-t GIRT CLEF-t CLEF-d

BM25 45.9 42.6 62.6 28.5 33.7LGD 46.5 44.3∗ 66.6∗ 28.7 34.4

S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 25 / 37

Page 36: Modèles d\'Information CORIA\'2010

Comparaison avec les modeles DFR

Table: INL2 et PL2 versus Log-Logistique apres 10 divisions; en gras, lesmeilleures performances; ∗ denote une difference statistiquement significative

MAP ROB-d ROB-t GIRT CLEF-d CLEF-t

INL2 27.7 24.8 42.5 47.7 37.5LGD 28.5∗ 25.0∗ 43.1∗ 48.0 37.4

P10 ROB-d ROB-t GIRT CLEF-d CLEF-t

INL2 47.7∗ 43.3 67.0 33.4 27.3LGD 47.0 43.5 69.4∗ 33.3 27.2

MAP ROB-d ROB-t GIRT CLEF-t CLEF-d

LGD 27.3∗ 24.7 40.5 36.2 47.5PL2 26.2 24.8 40.6 36.0 47.2

P10 ROB-d ROB-t GIRT CLEF-t CLEF-d

LGD 46.6 43.2 66.7 28.5 33.7PL2 46.4 44.1∗ 68.2∗ 28.7 33.1

S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 26 / 37

Page 37: Modèles d\'Information CORIA\'2010

Comparaison SPL avec le modele de langue Dirichlet

Table: SPL versus LM-Dirichlet after 10 splits; bold indicates significant difference

MAP ROB-d ROB-t GIR T3-t CL-t CL-d

DIR 26.7 25.0 40.9 27.1 36.2 50.2SPL 25.6 24.9 42.1 26.8 36.4 46.9

P10 ROB-d ROB-t GIR T3-t CL-t CL-d

DIR 45.2 43.8 68.2 52.8 27.3 32.8SPL 46.6 44.7 70.8 55.3 27.1 32.9

S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 27 / 37

Page 38: Modèles d\'Information CORIA\'2010

Comparaison SPL avec les modeles InL2 et PL2 (DFR)

Table: SPL versus DFR models after 10 splits; bold indicates significant difference

MAP ROB-d ROB-t GIR T3-t CL-t CL-d

INL 26.9 24.3 40.4 24.8 35.5 49.4SPL 26.6 24.6 40.7 25.4 34.6 48.1

P10 ROB-d ROB-t GIR T3-t CL-t CL-d

INL 47.6 42.8 63.4 52.5 28.8 33.8SPL 47.8 44.1 68.0 53.9 28.7 33.6

MAP ROB-d ROB-t GIR T3-t CL-t CL-d

SPL 26.3 25.2 42.7 25.3 37.4 44.1PL2 26.3 25.2 42.8 25.8 37.3 45.7P10 ROB-d ROB-t GIR T3-t CL-t CL-d

SPL 47.0 45.2 69.8 55.4 25.9 32.9PL2 46.0 45.2 69.3 54.8 26.2 32.7

S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 28 / 37

Page 39: Modèles d\'Information CORIA\'2010

Extension au PRF

Moyenne de l’information sur les premiers documents retournes:

Info(w) =1

n

∑d∈R

− log(P(Xw > tdw ;λw ))

Mise a jour de la requete: (similaire au modele Bo2)

xq2w =

xqw

maxw xqw

+ βInfo(w)

maxw Info(w)

Le modele de PRF et le modele de RI sont les memes !

S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 29 / 37

Page 40: Modèles d\'Information CORIA\'2010

Table: MAP, ∗ denote une difference statistiquement significative avec LM et Bo2

Model n TC ROB-t GIRT TREC3-t CLEF-t

LM+MIX 5 5 27.5 44.4 30.7 36.6INL+Bo2 5 5 26.5 42.0 30.6 37.6

LGD 5 5 28.3∗ 44.3 32.9∗ 37.6

LM+MIX 5 10 28.3 45.7∗ 33.6 37.4INL+Bo2 5 10 27.5 42.7 32.6 37.5

LGD 5 10 29.4∗ 44.9 35.0∗ 40.2∗

LM+MIX 10 10 28.4 45.5 31.8 37.6INL+Bo2 10 10 27.2 43.0 32.3 37.4

LGD 10 10 30.0∗ 46.8∗ 35.5∗ 38.9LM+MIX 10 20 29.0 46.2 33.7 38.2INL+Bo2 10 20 27.7 43.5 33.8 37.7

LGD 10 20 30.3∗ 47.6∗ 37.4∗ 38.6LM+MIX 20 20 28.6 47.9 32.9 37.8INL+Bo2 20 20 27.4 44.3 33.5 36.8

LGD 20 20 29.5∗ 48.9∗ 37.2∗ 41.0∗

S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 30 / 37

Page 41: Modèles d\'Information CORIA\'2010

Table: Mean average precision of PRF experiments; bold indicates bestperformance, ∗ significant difference over LM and Bo2 models

Model N TC ROB-t GIR T3-t CL-t

LGD 5 5 28.3∗ 44.3 32.9∗ 37.6SPL 5 5 28.9∗ 45.6∗ 32.9∗ 39.0∗

LGD 5 10 29.4∗ 44.9 35.0∗ 40.2∗

SPL 5 10 29.6∗ 47.0∗ 34.6∗ 39.5∗

LGD 10 10 30.0∗ 46.8∗ 35.5∗ 38.9SPL 10 10 30.0∗ 48.9∗ 33.8∗ 39.1∗

LGD 10 20 30.3∗ 47.6∗ 37.4∗ 38.6SPL 10 20 29.9∗ 50.2∗ 34.3 39.7∗

LGD 20 20 29.5∗ 48.9∗ 37.2∗ 41.0∗

SPL 20 20 28.8 50.3∗ 33.9 39.0∗

S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 31 / 37

Page 42: Modèles d\'Information CORIA\'2010

Conclusion

Caracterisation analytique des contraintes heuristiques

Phenomene de rafale pour les lois continues

Une nouvelle famille de modeles de RII ”En Rafale” ⇒ Modele concave

Extension au PRF

Les modeles log-logistique et loi de puissance lisseeI LGD contient un modele de langueI LGD, SPL ≥ modele de languesI LGD,SPL ≈ DFRI plus simple que les modeles DFRI les meilleures performances en PRF

Questions ?

S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 32 / 37

Page 43: Modèles d\'Information CORIA\'2010

La distribution log-logistique

Church et al. 2 ont propose la distribution Negative Binomiale(melange infini de Poisson) pour modeliser les frequences.⇒ ”meilleur” modele que 2-Poisson

Nous avons propose precedemment la loi Beta-Negative Binomiale(BNB):

BNB(x |r) =

∫Beta(θ|1, 1)Negbin(x |θ, r)

On considere ici une loi log-logistique contrainte:

P(X > x |r) =r

(x + r)(r mediane)

Cette log-logistique contrainte peut etre vue comme une versioncontinue d’une Beta-Negative Binomiale

2 Poisson MixturesS.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 33 / 37

Page 44: Modèles d\'Information CORIA\'2010

Relation avec les Modeles DFR

Les modeles DFR sont definis de la maniere suivante:

RSV (q, d) =∑

w∈q∩d

xqw Inf2(td

w )Inf1(tdw ) =

∑w∈q∩d

−xqw Inf2(td

w ) log Prob1(tdw )

On peut montrer que :

Inf2 rend les modeles DFR concave (condition 2)

Sans Inf2 , les modeles DFR obtiennent de mauvaises performances

S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 34 / 37

Page 45: Modèles d\'Information CORIA\'2010

Experimental Fit

Chi Square test on Robust collection, with terms appearing with documentfrequency ≥ 100; Frequency range divided into three intervals: [0, 3[,[3, 10[ and [10, 100[.

Hypothesis

Poisson: λw = FwN

Log-Logistic: λw = FwN

S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 35 / 37

Page 46: Modèles d\'Information CORIA\'2010

Chi Square Statistics

S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 36 / 37

Page 47: Modèles d\'Information CORIA\'2010

Comparaison des modeles

0 5 10 15

02

46

8r = 0.005

x

We

igh

t

LGDINLSPLPL

0 5 10 15

04

8

r = 5e−04

x

We

igh

t

LGDINLSPLPL

S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 37 / 37