Information Bildungsforschung – Versand 4-2020 Information ...
Modèles d\'Information CORIA\'2010
Transcript of Modèles d\'Information CORIA\'2010
Modeles de RI fondes sur l’information
Stephane Clinchant 1,2 Eric Gaussier 2
1 Xerox Research Centre Europe
2 Laboratoire d’Informatique de GrenobleUniv. Grenoble 1
18 Mars 2010
S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 1 / 37
Contenu Informatif
Utiliser l’information de Shannon pour ponderer les mots dans lesdocuments
P(X)−log P(X)
Inf(x) = − log P(x |ΘC ) = Contenu InformatifEcart au comportement moyen
Observation par Harter (70):Les mots ”Non-Fonctionnels” s’ecartent d’une distribution de Poisson.
S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 2 / 37
Contenu Informatif
Utiliser l’information de Shannon pour ponderer les mots dans lesdocuments
P(X)−log P(X)
Inf(x) = − log P(x |ΘC ) = Contenu InformatifEcart au comportement moyenObservation par Harter (70):Les mots ”Non-Fonctionnels” s’ecartent d’une distribution de Poisson.
S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 2 / 37
Modeles fondes sur l’information
Idee Principale:
1 Les frequences discretes des termes (x) sont renormalisees envaleurs continues (t(x)), du fait de la variabilite des longueurs dedocuments.
2 Pour chaque terme w , on suppose que les valeurs t(x) suivent unedistribution P de parametre λw sur le corpus.
3 Requetes et documents sont compares avec une mesure de surprise,une moyenne d’information de la forme:
RSV (q, d) =∑
w∈q∩d
−xqw log Prob(Xw ≥ t(xd
w )|λw )
S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 3 / 37
Plan
1 Proprietes theoriques des modelesI Contraintes Heuristiques des modeles de R.II Phenomene de Rafale
2 Exemples de ModelesI Le modele log-logistiqueI Loi de Puissance lissee
3 Validation Experimentale
4 Extension au PRF
S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 4 / 37
Contraintes Heuristiques (1)
Une fonction d’ordonnancement en RI prend la forme suivante:
RSV (q, d) =∑
w∈q∩d
f (xqw )h(xd
w , yd , zw , θ)
xqw frequence du mot dans la requete, xd
w dans le documentyd Longueur du document dzw = Fw ou zw = Nw
θ parametre du modele de RI.Fw Frequence de w dans le corpus : Fw =
∑d xd
w
Nw Frequence Documentaire de w : Nw =∑
d I (xdw > 0)
N Nombre de documents dans la collection
⇒ Etude des proprietes de h
S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 5 / 37
Contraintes Heuristiques (2)
Hypotheses:
Condition 1: Les documents avec plus d’occurences d’un terme dela requete devraient avoir un score plus grand que ceux qui en ontmoins (Luhn)
∀(y , z , θ),∂h(x , y , z , θ)
∂x> 0 (h est croissante en x)
Condition 2: Cependant, la difference de score devrait etre pluspetite pour de grandes frequences. Ex: 2→4, 50→ 52
∀(y , z , θ),∂2h(x , y , z , θ)
∂x2< 0 (h est concave)
S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 6 / 37
Contraintes Heuristiques (2)
Hypotheses:
Condition 1: Les documents avec plus d’occurences d’un terme dela requete devraient avoir un score plus grand que ceux qui en ontmoins (Luhn)
∀(y , z , θ),∂h(x , y , z , θ)
∂x> 0 (h est croissante en x)
Condition 2: Cependant, la difference de score devrait etre pluspetite pour de grandes frequences. Ex: 2→4, 50→ 52
∀(y , z , θ),∂2h(x , y , z , θ)
∂x2< 0 (h est concave)
S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 6 / 37
Contraintes Heuristiques (3)
Hypotheses:
Condition 3: On devrait penaliser les longs documents comparesaux documents plus courts, car les longs documents sont suceptiblesde couvrir differents sujets
∀(x , z , θ),∂h(x , y , z , θ)
∂y< 0 (h decroissante en y)
Condition 4: Enfin, il est important de diminuer l’importance desmots apparaissant dans beaucoup de documents (IDF)
∀(x , y , θ),∂h(x , y , z , θ)
∂z< 0 (effet IDF)
cf Fang et al, A Formal Study of Information Retrieval Heuristics, SIGIR’04
S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 7 / 37
Contraintes Heuristiques (3)
Hypotheses:
Condition 3: On devrait penaliser les longs documents comparesaux documents plus courts, car les longs documents sont suceptiblesde couvrir differents sujets
∀(x , z , θ),∂h(x , y , z , θ)
∂y< 0 (h decroissante en y)
Condition 4: Enfin, il est important de diminuer l’importance desmots apparaissant dans beaucoup de documents (IDF)
∀(x , y , θ),∂h(x , y , z , θ)
∂z< 0 (effet IDF)
cf Fang et al, A Formal Study of Information Retrieval Heuristics, SIGIR’04
S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 7 / 37
Phenomene de Rafale (Burstiness)
On s’interesse maintenant aux lois de probabilites sur les frequences:
Church et Gale 1 ont mis en evidence que le modele 2-Poissons’ajuste mal aux donnees.
Une explication possible: le comportement en rafale des mots, oucrepitement (burstiness). Decrit le fait que les mots, dans undocument, tendent a apparaıtre par paquets
Une fois que l’on a observe une occurrence d’un mot dans undocument, il est bien plus probable d’observer de nouvellesoccurrences de ce mot
1Poisson MixturesS.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 8 / 37
Phenomene de Rafale (Burstiness)
On s’interesse maintenant aux lois de probabilites sur les frequences:
Church et Gale 1 ont mis en evidence que le modele 2-Poissons’ajuste mal aux donnees.
Une explication possible: le comportement en rafale des mots, oucrepitement (burstiness). Decrit le fait que les mots, dans undocument, tendent a apparaıtre par paquets
Une fois que l’on a observe une occurrence d’un mot dans undocument, il est bien plus probable d’observer de nouvellesoccurrences de ce mot
1Poisson MixturesS.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 8 / 37
Phenomene de Rafale
Definition (Cas discret ECIR’08)
Une distribution discrete P est en rafale ou crepite ssi la suite:
g(n) = P(X ≥ n + 1|X ≥ n)
est une suite strictement croissante
Definition (Cas general)
Une distribution continue P est en rafale ou crepite ssi ∀ε > 0 la fonctiongε:
gε(x) = P(X ≥ x + ε|X ≥ x)
est une fonction strictement croissante en x .
S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 9 / 37
Phenomene de Rafale
Definition (Cas discret ECIR’08)
Une distribution discrete P est en rafale ou crepite ssi la suite:
g(n) = P(X ≥ n + 1|X ≥ n)
est une suite strictement croissante
Definition (Cas general)
Une distribution continue P est en rafale ou crepite ssi ∀ε > 0 la fonctiongε:
gε(x) = P(X ≥ x + ε|X ≥ x)
est une fonction strictement croissante en x .
S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 9 / 37
Distribution En rafale
Poisson NonGeometrique Neutre
Negative Binomiale Oui si r < 1Beta Negative Binomiale Oui
Pareto OuiLog-Logistique Oui
S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 10 / 37
Modeles d’Information & Contraintes heuristiques:Modeles definis par:
RSV (q, d) =∑
w∈q∩d
xqw
Fonction h︷ ︸︸ ︷− log Prob(X ≥ td
w |λw ) (1)
tdw frequences normalisees: generalement croissante en x , decroissante
en y .
Condition 1 (h croissante) Direct
Condition 3 (penalise longs documents) Direct.
Condition 2 (h concave)
Theoreme
Si la distribution P est en rafale, alors le modele d’information defini avecP est concave
S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 11 / 37
Modeles d’Information & Contraintes heuristiques:Modeles definis par:
RSV (q, d) =∑
w∈q∩d
xqw
Fonction h︷ ︸︸ ︷− log Prob(X ≥ td
w |λw ) (1)
tdw frequences normalisees: generalement croissante en x , decroissante
en y .
Condition 1 (h croissante) Direct
Condition 3 (penalise longs documents) Direct.
Condition 2 (h concave)
Theoreme
Si la distribution P est en rafale, alors le modele d’information defini avecP est concave
S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 11 / 37
Modeles d’Information & Contraintes heuristiques:Modeles definis par:
RSV (q, d) =∑
w∈q∩d
xqw
Fonction h︷ ︸︸ ︷− log Prob(X ≥ td
w |λw ) (1)
tdw frequences normalisees: generalement croissante en x , decroissante
en y .
Condition 1 (h croissante) Direct
Condition 3 (penalise longs documents) Direct.
Condition 2 (h concave)
Theoreme
Si la distribution P est en rafale, alors le modele d’information defini avecP est concave
S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 11 / 37
Modeles d’Information & Contraintes heuristiques:
Soit P une distribution de classe C 2. Une condition necessaire pour que Psoit en rafale est :
∂2 log(P(X ≥ x))
∂x2> 0
Or
Concavite ⇐⇒ ∂2 log(P(X ≥ x))
∂x2> 0
Condition 4 (effet IDF) et 2 Conditions d’ajustement supplementairesdependent du choix de la distribution P
S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 12 / 37
Les modeles log-logistique et loi de puissance lissee
S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 13 / 37
La distribution log-logistique
On considere ici une loi log-logistique contrainte:
P(X > x |r) =r
(x + r)(r mediane)
On se restreint a cette forme a cause de relations avec d’autresdistributions (Negative Binomiale, Beta Negative Binomiale)
S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 14 / 37
log P(X > x) Poisson et Log-Logistique
0 5 10 15
−10
−8−6
−4−2
0
x
log
P(X
> x
)
r=0.001r=0.01r=0.1
r=0.001 Poissonr=0.01 Poissonr=0.1 Poisson
S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 15 / 37
Ajustement aux donnees
Pour verifier l’ajustement aux donnees, on a effectue un test du χ2 sousces deux hypotheses:
Poisson: λw = FwN
Log-Logistique: rw = FwN
⇒ La statistique du χ2 est bien meilleure pour la log-logistique(confirme des travaux precedents)
La loi log-logistique est un ”bon” modele de frequences sur le corpus(meilleur que Poisson, Geometrique, Binomial et 2-Poisson).
Est-ce un bon modele de RI ?
S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 16 / 37
Modele Log-Logistique pour la RI (LGD)
Le modele LGD est defini par
1 Normalisation: tdw = xd
w log(1 + c myd
) (N2 DFR)
2 Loi de frequences: Les tdw sont distribues par une loi log-logistique de
parametre rw = NwN
3
RSV (q, d) =∑
w∈q∩d
xqw
[log(
Nw
N+ td
w )− log(Nw
N)
]Respecte toutes les conditions quels que soient les parametres.
S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 17 / 37
Loi de Puissance Lissee (Smoothed Power Law SPL)
On appelle loi de Puissance lissee la distribution sur [0,+∞[ de parametre0 < λ < 1 :
P(X > x |λ) =λ
xx+1 − λ1− λ
Modele de RI:
1 Normalisation: tdw = xd
w log(1 + c myd
) (N2 DFR)
2 Loi de frequences: Les tdw sont distribues par une loi de puissance
lissee de parametre rw = NwN
Respecte aussi toutes les conditions
S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 18 / 37
Loi de Puissance Lissee (Smoothed Power Law SPL)
On appelle loi de Puissance lissee la distribution sur [0,+∞[ de parametre0 < λ < 1 :
P(X > x |λ) =λ
xx+1 − λ1− λ
Modele de RI:
1 Normalisation: tdw = xd
w log(1 + c myd
) (N2 DFR)
2 Loi de frequences: Les tdw sont distribues par une loi de puissance
lissee de parametre rw = NwN
Respecte aussi toutes les conditions
S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 18 / 37
Loi de Puissance Lissee
0 5 10 15
−8
−6
−4
−2
0
lambda = 0.005
x
log
P(X
>x)
loglogisticspl
S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 19 / 37
Caracterisation des modeles d’information
1 Normalisation de frequences verifie:
∂tdw
∂xdw
> 0;∂td
w
∂yd< 0;
∂2xdw
∂(tdw )2≥ 0
2 Loi de Probabilite continue et en rafale
3 Fonction d’Ordonnancement
RSV (q, d) =∑
w∈q∩d
−xqw log Prob(Xw ≥ td
w |λw )
4 Parametre sur la collection
λw =Fw
Nor
Nw
N
S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 20 / 37
Relations avec d’autres modeles
Relation avec les modeles de langues:
1 Normalisation: tdw = xd
w c myd
(N1 DFR)
2 rw = FwN et Loi Log-Logistique
3 Modele = Modele de langues avec lissage de Jelinek-Mercer
Relation avec les modeles DFR:Les modeles DFR sont definis de la maniere suivante:
RSV (q, d) =∑
w∈q∩d
−xqw Inf2(td
w ) log Prob1(tdw )
Problemes:
Loi discretes avec valeurs continues
2 Notions d’informations non ”homogenes”
⇒ Nos modeles reposent sur des lois continues et sur une seule notiond’Information
S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 21 / 37
Relations avec d’autres modeles
Relation avec les modeles de langues:
1 Normalisation: tdw = xd
w c myd
(N1 DFR)
2 rw = FwN et Loi Log-Logistique
3 Modele = Modele de langues avec lissage de Jelinek-Mercer
Relation avec les modeles DFR:Les modeles DFR sont definis de la maniere suivante:
RSV (q, d) =∑
w∈q∩d
−xqw Inf2(td
w ) log Prob1(tdw )
Problemes:
Loi discretes avec valeurs continues
2 Notions d’informations non ”homogenes”
⇒ Nos modeles reposent sur des lois continues et sur une seule notiond’Information
S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 21 / 37
Experiences
Comparaison avec modeles de langues, BM25, modeles DFR
Corpus: ROBUST, CLEF03, GIRT avec requetes longues et courtes
5 jeu de requetes: ROB-d , ROB-t , GIRT , CLEF-d , CLEF-t
Corpus # Requete
ROBUST 250CLEF03 60
GIRT 75
Divise en apprentissage/testOptimise MAP ou P10 sur une grille de valeurs:Par exemple:
k1 ∈ {0.3, 0.5, 0.8, 1.0, 1.2, 1.5, 1.8, 2, 2.2, 2.5} (BM25)
c ∈ {0.25, 0.5, 0.8, 1, 2, 3, 5, 8, 10} (LGD,DFR)
µ ∈ {10, 50, 100, 200, 500, 800, 1000, 1500, 2000, 5000, 10000} (LM)
S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 22 / 37
Experiences
Comparaison avec modeles de langues, BM25, modeles DFR
Corpus: ROBUST, CLEF03, GIRT avec requetes longues et courtes
5 jeu de requetes: ROB-d , ROB-t , GIRT , CLEF-d , CLEF-t
Corpus # Requete
ROBUST 250CLEF03 60
GIRT 75
Divise en apprentissage/testOptimise MAP ou P10 sur une grille de valeurs:Par exemple:
k1 ∈ {0.3, 0.5, 0.8, 1.0, 1.2, 1.5, 1.8, 2, 2.2, 2.5} (BM25)
c ∈ {0.25, 0.5, 0.8, 1, 2, 3, 5, 8, 10} (LGD,DFR)
µ ∈ {10, 50, 100, 200, 500, 800, 1000, 1500, 2000, 5000, 10000} (LM)
S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 22 / 37
Comparaison avec le lissage de Jelinek-Mercer
Comparaison avec les modeles de langues
Table: LM-Jelinek-Mercer vs Log-Logistique apres 10 divisions; en gras, lesmeilleures performances ; ∗ denote une difference statistiquement significative
MAP ROB-d ROB-t GIRT CLEF-d CLEF-t
LM 26.0 20.7 40.7 49.2 36.5LGD 27.2∗ 22.5∗ 43.1∗ 50.0∗ 37.5∗
P10 ROB-d ROB-t GIRT CLEF-d CLEF-t
LM 43.8 35.5 67.5 33.0 26.2LGD 46.0∗ 38.9∗ 69.4∗ 33.6∗ 26.6∗
S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 23 / 37
Comparaison avec le lissage de Dirichlet
Table: LMDirichlet vs Log-Logistique apres 10 divisions; en gras, les meilleuresperformances ; ∗ denote une difference statistiquement significative
MAP ROB-d ROB-t GIRT CLEF-d CLEF-t
DIR 27.1 25.1 41.1 48.5 36.2LGD 27.4∗ 25.0 42.1∗ 49.7∗ 36.8∗
P10 ROB-d ROB-t GIRT CLEF-d CLEF-t
DIR 45.6 44.7∗ 68.6 33.8 28.4LGD 46.2∗ 44.4 69.0 34.5∗ 28.6
S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 24 / 37
Comparaison avec BM25
BM25 optimise seulement avec le parametre k1
MAP ROB-d ROB-t GIRT CLEF-t CLEF-d
BM25 26.8 22.4 39.8 34.9 46.8LGD 28.2∗ 23.5∗ 41.4∗ 34.8 48.0P10 ROB-d ROB-t GIRT CLEF-t CLEF-d
BM25 45.9 42.6 62.6 28.5 33.7LGD 46.5 44.3∗ 66.6∗ 28.7 34.4
S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 25 / 37
Comparaison avec les modeles DFR
Table: INL2 et PL2 versus Log-Logistique apres 10 divisions; en gras, lesmeilleures performances; ∗ denote une difference statistiquement significative
MAP ROB-d ROB-t GIRT CLEF-d CLEF-t
INL2 27.7 24.8 42.5 47.7 37.5LGD 28.5∗ 25.0∗ 43.1∗ 48.0 37.4
P10 ROB-d ROB-t GIRT CLEF-d CLEF-t
INL2 47.7∗ 43.3 67.0 33.4 27.3LGD 47.0 43.5 69.4∗ 33.3 27.2
MAP ROB-d ROB-t GIRT CLEF-t CLEF-d
LGD 27.3∗ 24.7 40.5 36.2 47.5PL2 26.2 24.8 40.6 36.0 47.2
P10 ROB-d ROB-t GIRT CLEF-t CLEF-d
LGD 46.6 43.2 66.7 28.5 33.7PL2 46.4 44.1∗ 68.2∗ 28.7 33.1
S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 26 / 37
Comparaison SPL avec le modele de langue Dirichlet
Table: SPL versus LM-Dirichlet after 10 splits; bold indicates significant difference
MAP ROB-d ROB-t GIR T3-t CL-t CL-d
DIR 26.7 25.0 40.9 27.1 36.2 50.2SPL 25.6 24.9 42.1 26.8 36.4 46.9
P10 ROB-d ROB-t GIR T3-t CL-t CL-d
DIR 45.2 43.8 68.2 52.8 27.3 32.8SPL 46.6 44.7 70.8 55.3 27.1 32.9
S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 27 / 37
Comparaison SPL avec les modeles InL2 et PL2 (DFR)
Table: SPL versus DFR models after 10 splits; bold indicates significant difference
MAP ROB-d ROB-t GIR T3-t CL-t CL-d
INL 26.9 24.3 40.4 24.8 35.5 49.4SPL 26.6 24.6 40.7 25.4 34.6 48.1
P10 ROB-d ROB-t GIR T3-t CL-t CL-d
INL 47.6 42.8 63.4 52.5 28.8 33.8SPL 47.8 44.1 68.0 53.9 28.7 33.6
MAP ROB-d ROB-t GIR T3-t CL-t CL-d
SPL 26.3 25.2 42.7 25.3 37.4 44.1PL2 26.3 25.2 42.8 25.8 37.3 45.7P10 ROB-d ROB-t GIR T3-t CL-t CL-d
SPL 47.0 45.2 69.8 55.4 25.9 32.9PL2 46.0 45.2 69.3 54.8 26.2 32.7
S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 28 / 37
Extension au PRF
Moyenne de l’information sur les premiers documents retournes:
Info(w) =1
n
∑d∈R
− log(P(Xw > tdw ;λw ))
Mise a jour de la requete: (similaire au modele Bo2)
xq2w =
xqw
maxw xqw
+ βInfo(w)
maxw Info(w)
Le modele de PRF et le modele de RI sont les memes !
S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 29 / 37
Table: MAP, ∗ denote une difference statistiquement significative avec LM et Bo2
Model n TC ROB-t GIRT TREC3-t CLEF-t
LM+MIX 5 5 27.5 44.4 30.7 36.6INL+Bo2 5 5 26.5 42.0 30.6 37.6
LGD 5 5 28.3∗ 44.3 32.9∗ 37.6
LM+MIX 5 10 28.3 45.7∗ 33.6 37.4INL+Bo2 5 10 27.5 42.7 32.6 37.5
LGD 5 10 29.4∗ 44.9 35.0∗ 40.2∗
LM+MIX 10 10 28.4 45.5 31.8 37.6INL+Bo2 10 10 27.2 43.0 32.3 37.4
LGD 10 10 30.0∗ 46.8∗ 35.5∗ 38.9LM+MIX 10 20 29.0 46.2 33.7 38.2INL+Bo2 10 20 27.7 43.5 33.8 37.7
LGD 10 20 30.3∗ 47.6∗ 37.4∗ 38.6LM+MIX 20 20 28.6 47.9 32.9 37.8INL+Bo2 20 20 27.4 44.3 33.5 36.8
LGD 20 20 29.5∗ 48.9∗ 37.2∗ 41.0∗
S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 30 / 37
Table: Mean average precision of PRF experiments; bold indicates bestperformance, ∗ significant difference over LM and Bo2 models
Model N TC ROB-t GIR T3-t CL-t
LGD 5 5 28.3∗ 44.3 32.9∗ 37.6SPL 5 5 28.9∗ 45.6∗ 32.9∗ 39.0∗
LGD 5 10 29.4∗ 44.9 35.0∗ 40.2∗
SPL 5 10 29.6∗ 47.0∗ 34.6∗ 39.5∗
LGD 10 10 30.0∗ 46.8∗ 35.5∗ 38.9SPL 10 10 30.0∗ 48.9∗ 33.8∗ 39.1∗
LGD 10 20 30.3∗ 47.6∗ 37.4∗ 38.6SPL 10 20 29.9∗ 50.2∗ 34.3 39.7∗
LGD 20 20 29.5∗ 48.9∗ 37.2∗ 41.0∗
SPL 20 20 28.8 50.3∗ 33.9 39.0∗
S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 31 / 37
Conclusion
Caracterisation analytique des contraintes heuristiques
Phenomene de rafale pour les lois continues
Une nouvelle famille de modeles de RII ”En Rafale” ⇒ Modele concave
Extension au PRF
Les modeles log-logistique et loi de puissance lisseeI LGD contient un modele de langueI LGD, SPL ≥ modele de languesI LGD,SPL ≈ DFRI plus simple que les modeles DFRI les meilleures performances en PRF
Questions ?
S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 32 / 37
La distribution log-logistique
Church et al. 2 ont propose la distribution Negative Binomiale(melange infini de Poisson) pour modeliser les frequences.⇒ ”meilleur” modele que 2-Poisson
Nous avons propose precedemment la loi Beta-Negative Binomiale(BNB):
BNB(x |r) =
∫Beta(θ|1, 1)Negbin(x |θ, r)
On considere ici une loi log-logistique contrainte:
P(X > x |r) =r
(x + r)(r mediane)
Cette log-logistique contrainte peut etre vue comme une versioncontinue d’une Beta-Negative Binomiale
2 Poisson MixturesS.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 33 / 37
Relation avec les Modeles DFR
Les modeles DFR sont definis de la maniere suivante:
RSV (q, d) =∑
w∈q∩d
xqw Inf2(td
w )Inf1(tdw ) =
∑w∈q∩d
−xqw Inf2(td
w ) log Prob1(tdw )
On peut montrer que :
Inf2 rend les modeles DFR concave (condition 2)
Sans Inf2 , les modeles DFR obtiennent de mauvaises performances
S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 34 / 37
Experimental Fit
Chi Square test on Robust collection, with terms appearing with documentfrequency ≥ 100; Frequency range divided into three intervals: [0, 3[,[3, 10[ and [10, 100[.
Hypothesis
Poisson: λw = FwN
Log-Logistic: λw = FwN
S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 35 / 37
Chi Square Statistics
S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 36 / 37
Comparaison des modeles
0 5 10 15
02
46
8r = 0.005
x
We
igh
t
LGDINLSPLPL
0 5 10 15
04
8
r = 5e−04
x
We
igh
t
LGDINLSPLPL
S.Clinchant E.Gaussier (XRCE-LIG) Modeles de RI fondes sur l’information 18 Mars 2010 37 / 37