Post on 15-Jul-2015
Exploitation de signaux sociaux pour estimer
la pertinence a priori d’une ressource
Ismaël BADACHE
Mohand BOUGHANEM
2013/2014
CORIA’14
Plan de la présentation
Introduction
État de l’art
Modèle de RI sociale
Evaluation expérimentale4
1
3
Conclusion
2
5
1.1 Émergence du Web social
1
Nombre d’utilisateurs actifs 2013
1,2 1,41,7
2,4
2011 2012 2013 2014
Nombre d’internautes
Contenu social par 1 minute
41000 Publications
1,8 Millions J’aime
~350 GO de données
Face
bo
ok
Source:blogdumoderateur.comquantcast.comsemiocast.com
1. Introduction 2. Etat de l’art
5. Conclusion
3. Modèle de RI sociale
4. Evaluation expérimentale
Vidéo
Photo
Page Web
Ressources Web
Ressource
.
.
.
Réseaux sociaux
Marques
Commentaires/Avis
Partages/Recommandes
Mentions/Votes
Like/+1
Interactions
Extraction et quantification des
propriétés sociales
Modèle de RI
Incorporation
Requête
Réputation
2
Résultats
Fig 1. Schéma de la RI sociale par rapport à notre approche
Signaux Sociaux
(Source d’évidence)
Popularité
.
.
etc.
1.2 Questions de recherche
Quelles sont les propriétés sociales utiles pour évaluer la pertinence a
priori d’une ressource ?2
Comment traduire les signaux sociaux en propriétés sociales ?1
Quel modèle théorique pour combiner la pertinence a priori d’une
ressource et sa pertinence thématique ?3
3
Quel est l’impact de ces propriétés sociales sur les performances d’un
système de RI ?4
1. Introduction 2. Etat de l’art
5. Conclusion
3. Modèle de RI sociale
4. Evaluation expérimentale
2.1 Synthèse des travaux
4
Sources d’évidence Propriétés Modèles Auteurs
Caractéristiques structurelles du document
• Liens entrants, sortants (PageRank, HITS).Popularité
Autorité Modèle de
langue
(Brin et Page, 1998)
(Kleinberg, 1999)
• Types d'URL. Importance (Kraaij et al., 2002)
Caractéristiques sociales du document
• Nombre de : clicks, votes, enregistrement et
recommandation.
Popularité
Importance
Combinaison
Linéaire
(Karweg et al., 2011)
• Nombre de : j’aime, j’aime pas,
commentaire sur YouTube et nombre de
lecture d’un titre sur Last.fm. Importance
Technique
d’apprentissage
et
Combinaison
linéaire
(Chelaru et al., 2012)
(Khodaei et al. 2012)
• Présence d'un lien URL dans un tweet. (Alonso et al., 2010)
• Nombre de retweet. PopularitéTechnique
d’apprentissage
(Yang et al., 2012)
(Hong et al., 2011)
1. Introduction 2. Etat de l’art
5. Conclusion
3. Modèle de RI sociale
4. Evaluation expérimentale
3.1 Modèle de langue
• Un document D peut être représenté à la fois par un ensemble de mots-
clés 𝐷𝑚={𝑚1, 𝑚2, …𝑚𝑛} et des caractéristiques non-textuelles.
• 𝑃(𝐷) est une probabilité estimant la pertinence a priori d’un document
indépendamment de son contenu textuel.
• Dans notre approche : un document (ressource) est représenté par un
ensemble de mots-clés 𝐷𝑚 et un ensemble de caractéristiques sociales
𝐷𝑠={𝑎1, 𝑎2, … 𝑎𝑚}.
Probabilité a priori
du document D
Modèle textuel
Requête/Contenu
𝑃 𝐷 𝑄 =𝑟𝑎𝑛𝑘 𝑷 𝑫 ∙ 𝑃 𝑄 𝐷)
5
1. Introduction 2. Etat de l’art
5. Conclusion
3. Modèle de RI sociale
4. Evaluation expérimentale
𝑃 𝐷 𝑄 =𝑟𝑎𝑛𝑘 𝑷 𝑫𝒔 ∙ 𝑃 𝑄 𝐷)
3.2 Propriétés sociales utilisées
La popularité 𝑷𝑺𝒐𝒄Phénomène social qui dicte quel est le plus connu dans le public,
estimée en fonction de l’intensité de partage d’une ressource dans les
réseaux sociaux.
La réputation 𝑹𝑺𝒐𝒄Une opinion sur cette ressource, estimée à partir des actions relevant
d’activités sociales qui portent un sens positif tel que le j’aime de
Facebook.
La fraîcheur 𝑭𝑺𝒐𝒄La date d’une action (ex. commentaire, mention, etc.) effectuée sur
une ressource dans les réseaux sociaux, peut être utilisée pour mesurer la
fraîcheur de l’information.
6
1. Introduction 2. Etat de l’art
5. Conclusion
3. Modèle de RI sociale
4. Evaluation expérimentale
3.3 Estimation de P(𝑫𝒔) : La combinaison
• La formule de la combinaison des 3 propriétés sociales :
• 𝑃𝐹𝑆𝑜𝑐(𝐷𝑠), 𝑃𝑃𝑆𝑜𝑐(𝐷𝑠) et 𝑃𝑅𝑆𝑜𝑐(𝐷𝑠) sont les probabilités a priori
d’une ressource relative à 𝑭𝑺𝒐𝒄 (Fraîcheur), 𝑷𝑺𝒐𝒄 (Popularité) et
𝑹𝑺𝒐𝒄 (Réputation), respectivement.
• 𝑃𝐹𝑆𝑜𝑐⊕𝑃𝑆𝑜𝑐⊕𝑅𝑆𝑜𝑐 𝐷𝑠 est la probabilité de la combinaison des trois
probabilités a priori.
7
𝑃 𝐷𝑠 = 𝑃𝐹𝑆𝑜𝑐⊕𝑃𝑆𝑜𝑐⊕𝑅𝑆𝑜𝑐 𝐷𝑠
= 𝑃𝐹𝑆𝑜𝑐(𝐷𝑠) ∙ 𝑃𝑃𝑆𝑜𝑐(𝐷𝑠) ∙ 𝑃𝑅𝑆𝑜𝑐(𝐷𝑠)
1. Introduction 2. Etat de l’art
5. Conclusion
3. Modèle de RI sociale
4. Evaluation expérimentale
La probabilité a priori relative à la popularité/réputation :
• 𝑥 ∈ {𝑃𝑆𝑜𝑐 , 𝑅𝑆𝑜𝑐} . c une constante permettant de traduire le simple
comptage Count() en distribution de probabilité.
• 𝐶𝑜𝑢𝑛𝑡(𝑎𝑖𝑥 , 𝐷𝑠) représente le nombre d’apparition d’une action
spécifique 𝑎𝑖𝑥 dans la ressource 𝐷𝑠. 𝑎𝑖
𝑥 désigne l’action 𝑎𝑖 exploitée pour
mesurer la propriété x.
8
3.4 Estimation de P(𝑫𝒔) : Popularité et Réputation
𝑃𝑥(𝐷) = 𝑃𝑥(𝐷𝑠) =
𝑎𝑖𝑥∈𝐴
𝑃𝑥(𝑎𝑖𝑥) =
𝑎𝑖𝑥∈𝐴
𝑐 ∙ 𝐶𝑜𝑢𝑛𝑡(𝑎𝑖𝑥 , 𝐷𝑠)
1. Introduction 2. Etat de l’art
5. Conclusion
3. Modèle de RI sociale
4. Evaluation expérimentale
• 𝑇 = {𝑡𝑎1 , 𝑡𝑎2 , … 𝑡𝑎𝑘} ensemble de k moments (date) à laquelle une action
ai a été produite. Un instant de temps t représente la date et l’heure
(datetime) de l’action effectuée par un utilisateur sur une ressource 𝐷𝑠.
• 𝑇𝑖𝑚𝑒 𝑡𝑎𝑖 , 𝐷𝑠 = 𝑡𝐴𝑐𝑡𝑢𝑒𝑙 − 𝑡𝑎𝑖estime le temps écoulé depuis la dernière
action 𝑡𝑎𝑖 pour une ressource 𝐷𝑠.
9
3.5 Estimation de P(𝑫𝒔) : Fraîcheur
𝑃𝐹𝑆𝑜𝑐(𝐷𝑠) =
𝑎𝑖∈𝐴
𝑃𝐹𝑆𝑜𝑐(𝑡𝑎𝑖) =
𝑎𝑖∈𝐴
1
𝑇𝑖𝑚𝑒(𝑡𝑎𝑖 , 𝐷𝑠)
1. Introduction 2. Etat de l’art
5. Conclusion
3. Modèle de RI sociale
4. Evaluation expérimentale
4.1 Objectifs de l’evaluation
10
1. Introduction 2. Etat de l’art
5. Conclusion
3. Modèle de RI sociale
4. Evaluation expérimentale
1) Etudier l’impact d’intégration individuelle de chacun des signaux
sociaux sur la performance du modèle proposé.
2) Etudier l’impact de la combinaison ces signaux sociaux regroupés
sous forme de propriétés sociales.
• Cadre d’évaluation :
- Absence d’un cadre standard pour l’évaluation dans la RI sociale.
- Collecter des signaux sociaux et monter l’expérimentation.
4.2 Dataset : Contenu textuel
11
Champ Description Statut
ID identifiant du film (le document). -
Title le titre du film. indexé
Year l’année de sortie du film. indexé
Rated classement des films selon le type du contenu. -
Released date de réalisation du film. indexé
Runtime durée du film. indexé
Genre genre de film (Action, Drame, etc.). indexé
Director le directeur du projet du film. indexé
Writer les écrivains et les scénaristes du film. indexé
Actors les acteurs principaux du film. indexé
Plot résumé textuel du film. indexé
Poster le lien URL de l’affiche du film. -
url le lien URL qui mène à la source originale du document. -
UGC Les différents signaux sociaux récupérés. -
• 32706 Documents Film en anglais extrait du site IMDb.com
1. Introduction 2. Etat de l’art
5. Conclusion
3. Modèle de RI sociale
4. Evaluation expérimentale
4.3 Dataset : Contenu social
12
ACEBOOKJ’aime
Partage
Commentaire
Date de la mention
WITTERTweet
GOOGLE+Mention +1
Partage
LINKEDDELICIOUS
Marquer
1. Introduction 2. Etat de l’art
5. Conclusion
3. Modèle de RI sociale
4. Evaluation expérimentale
4.3 Dataset : Contenu social
13
• Le champ UGC contient les différents signaux sociaux.
Réseau social Signaux sociaux Somme Min Max Moyenne
J’aime 5056517 0 79693 154
Partage 5778414 0 41618 176
Commentaire 6717573 0 60081 205
Twitter Tweet 1097204 0 22954 33
Google+ +1 139189 0 1368 4
Delicious Marque 32810 0 1033 1
LinkedIn Partage 57545 0 25215 1
1. Introduction 2. Etat de l’art
5. Conclusion
3. Modèle de RI sociale
4. Evaluation expérimentale
4.4 Requêtes et jugement de pertinence
14
• Requêtes
- 20 requêtes issues d’INEX IMDb.
- 5 requêtes crées par nous-même.
• Jugement de pertinence
- 12 évaluateurs (23-31 ans).
- Jugement des 100 premiers documents retournés.
- Echelle d’évaluation à 3 points de pertinence.
- Chaque requête est jugée par 3 utilisateurs.
- Bon accord Kappa entre les évaluateurs (81,24%).
1. Introduction 2. Etat de l’art
5. Conclusion
3. Modèle de RI sociale
4. Evaluation expérimentale
4.5 Quantification des propriétés sociales
15
Propriétés sociales Signaux sociaux Réseaux sociaux
Popularité (PSoc)
Nombre de « Commentaire » Facebook
Nombre de « Tweet » Twitter
Nombre de « Partage » LinkedIn, Facebook
Réputation (RSoc)
Nombre de « +1 » Google+
Nombre de « J’aime » Facebook
Nombre de « Marque » Delicious
Fraîcheur (FSoc) Date de la dernière action Facebook
• Chaque propriété est quantifiée par des signaux sociaux spécifiques,
selon leurs nature et signification.
1. Introduction 2. Etat de l’art
5. Conclusion
3. Modèle de RI sociale
4. Evaluation expérimentale
4.6 Résultats : Signaux sociaux
16
0,64140,6586
0,6507
0,6048 0,5979 0,5965 0,5921 0,58660,5748
0,52
0,54
0,56
0,58
0,6
0,62
0,64
0,66
0,68
nDCG@20
J'aime
Partage
Commentaire
Tweet
PlusOne
Marque
Partage (Lin)
ML.Hiemstra
BM25
0,3155 0,3126 0,2912 0,2844 0,267 0,2697 0,2701 0,2666 0,2601
0
0,1
0,2
0,3
0,4
MAP
Baselines
Baselines
Fig 2. Intégration individuelle des signaux sociaux dans ML.Hiemstra
J’aim
e
Partage
Commentaire
Comment
Partage
J’aim
e
Tweet
+1 Partage
Hiemstra
BM25
Marque
Tweet
+1 Marque
Partage
Hiemstra
BM25
1. Introduction 2. Etat de l’art
5. Conclusion
3. Modèle de RI sociale
4. Evaluation expérimentale
4.7 Résultats : Propriétés sociales
17
0,6951
0,3333
0,6661
0,3219
0,6229
0,2902
0,7438
0,3882
0,5866
0,2666
0,5748
0,2601
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
nDCG@20 MAP
Popularité Réputation Fraîcheur Toutes les propriétés ML.Hiemstra BM25
BaselinesBaselines
Fig 3. Intégration de propriétés sociales dans ML.Hiemstra
Popularité
Réputation
Fraîcheur
Globale
BM25
Hem
stra
Popularité
Réputation
Fraîcheur
BM25
Globale
Hem
stra
1. Introduction 2. Etat de l’art
5. Conclusion
3. Modèle de RI sociale
4. Evaluation expérimentale
4.8 Résultats : Comparaison
18Fig 4. Comparaison des résultats
0,3155 0,3126
0,2912 0,2844
0,267 0,2697 0,2701
0,24
0,26
0,28
0,3
0,32
MAP
J'aime Partage Commentaire Tweet PlusOne Marque Partage (Lin)
0,3333 0,3219 0,2902
0,3882
0
0,1
0,2
0,3
0,4
0,5
MAP
Popularité Réputation Fraîcheur Toutes les propriétés
Popularité Réputation FraîcheurGlobale
1. Introduction 2. Etat de l’art
5. Conclusion
3. Modèle de RI sociale
4. Evaluation expérimentale
4.9 Analyse de corrélation des rangs
19
0,1675
0,1760
0,2158
0,2322
0,2701
0,2858
0,2986
Google +1
Marque
Partages (Lin)
Tweet
Partage (FB)
Commentaire
J'aime
0,22
0,52
0,6431
Fraîcheur
Réputation
Popularité
Fig 6. Corrélation des propriétés sociales
Fig 5. Corrélation des signaux sociaux
1. Introduction 2. Etat de l’art
5. Conclusion
3. Modèle de RI sociale
4. Evaluation expérimentale
5. Conclusion
20
• Modèle de recherche d’information sociale
- Evidence thématique (Modèle de langue)
- Evidence sociale (Propriétés sociales).
• Expérimentation sur une collection IMDb
- Amélioration significative par rapport aux modèles textuels.
• Perspectives
- Evaluation sur d’autres collections.
- Intégration d’autres propriétés sociales
- Etude approfondie sur l’impact de la propriété temporelle.
- Comparer le modèle proposé avec d’autres modèles sociaux.
1. Introduction 2. Etat de l’art
5. Conclusion
3. Modèle de RI sociale
4. Evaluation expérimentale