1 13/05/07 LIST – DTSI – Service Réalité virtuelle, Cognitique et Interfaces sensorielles...

113/05/07LIST – DTSI – Service Réalité virtuelle, Cognitique et Interfaces sensorielles

Structures linguistiques pour la recherche d’images sur Internet

14/10/2008

Directeur de thèse Ioannis KanellosEncadrants CEA Pierre-Alain Moëllic

Gregory GrefenstetteRapporteurs Florence Sèdes

Bruno BachimontExaminateur Pierre-François Marteau

Adrian PopescuCEA LIST / Télécom Bretagne

213/05/007DTSI 14/10/2008

Plan de la présentation

Introduction Approche conceptuelle de la recherche

d’images Structuration de connaissances

Création de ressources Applications

Conclusions et perspectives

313/05/007DTSI

Recherche d’images sur Internet

Pratique courante associée aux moteurs de recherche d’informations

Fonctionnalités de recherche d’imagesGrands acteurs de la recherche d’informations

(Google Images, Yahoo! Images, Microsoft Live)Applications dédiées (Picsearch, Flickr)

Recherches effectuées par un très grand nombre d’utilisateurs

Requêtes visant une grande diversité de sujets Corpus photographiques très vastes et en rapide

croissance

14/10/2008

413/05/007DTSI

Systèmes actuels

Indexation des images En exploitant le texte

environnant dans les pages Web (Google Images)

Effectuée par les utilisateurs (Flickr)

Indexation peu coûteuse de grands volumes de données

Mais… 3 grandes critiques sur les moteurs actuels Exclusivement textuelle et de bas niveau Pas ou peu de traitements d’images Moyens d’interaction avec les applications souvent inadaptés

513/05/007DTSI

Structures linguistiques

Solution pour palier ces problèmesFaire évoluer les moteurs pour permettre un

traitement non plus au niveau des chaînes de caractères, mais à un niveau symbolique

Exploitation de structures sémantiques Conditions d’exploitabilité

(Nécessairement) à large échelle Couvrir le plus possible les requêtes des utilisateurs

Bonne qualité des connaissances incluses Attente de plus en plus importante de la part des

utilisateurs en terme de précision des réponses

613/05/007DTSI

Structures linguistiques existantes

Ressources généralistes constituées manuellement WordNet (Fellbaum98) – base de données lexicale

Structurée hiérarchiquement 82 115 synsets nominaux

Cyc (Guha91) – réseau sémantique recueillant des connaissances du sens commun

Hiérarchie moins adéquate que celle de WordNet 300 000 nœuds

Ressources relatives à des domaines Geonames – base de données géographiques

Structure hiérarchique et spatiale Six millions d’entités géographiques

UMLS – base de connaissances complexe relative au domaine médical

713/05/007DTSI

Construction automatique de structures linguistiques

Constitution manuelle de ressources coûteuse Cognition (cognition.com) – 24 ans de travail pour

constituer une carte sémantique de l’anglais Nombreux travaux visant l’automatisation du processus

(Sanderson99) Mais

La plupart des travaux visent des domaines précis Difficultés à assurer simultanément une bonne qualité des

connaissances extraites et une bonne couverture du domaine ciblé

Construction automatique de structures à large échelle (Grefenstette07) – fouille de données sur le Web afin de

construire une carte sémantique de la langue (Ponzetto07) – nettoyage de l’arbre catégoriel de

Wikipédia (Rattenbury07) – structuration de connaissances

géographiques à partir de Flickr

813/05/007DTSI

Recherche par le contenu visuel (CBIR)

Méthode alternative ou complémentaire à la recherche par mots clef

Description de bas niveau des images

Descripteurs globaux (texture, couleur, forme)

Descripteurs locaux (points d’intérêt)

Plus complexe du point de vue algorithmique (temps de calcul, passage à l’échelle)

Pour les moteurs CBIR classiques : manque de cohérence conceptuelle des résultats

Source : http://alipr.com

913/05/007DTSI 14/10/2008


Introduction

Approche conceptuelle de la recherche d’images

Structuration de connaissances Création de ressources Applications


1013/05/007DTSI

Approche de la thèse

Ressources structurées / semi structuréesWordNet, Geonames, Wikipedia

Applications

Structures sémantiques à large échelle

Structures linguistiques Approche

Recherche par le contenuWeb

Architecture générique de moteur de recherche d'images

ThemExplorerOlive Safir

• Quelles images cherchons-nous sur Internet ?• Comment ?

Analyse d’un fichier de log

1113/05/007DTSI

Comment cherchons nous des images sur Internet?

Nombre de requêtes par

session

Analyse statistique et conceptuelle d’un fichier de log contenant plus de 20 millions de requêtes

Position des pages regardées dans

l’ensemble des résultats

1213/05/007DTSI

Étude des usages – complexité des requêtes

Analyse manuelle d’un échantillon de 1000 requêtes choisies aléatoirement

64% des requêtes incluent un seul concept

30% des requêtes incluent deux concepts

Les requêtes simples se prêtent bien à un traitement en exploitant des ressources linguistiques

Classiquement la complexité dépend du nombre de termes composant une requête

Proposition d’une analyse basée sur le nombre de concepts dans une requête

1313/05/007DTSI

Quels concepts cherchons nous sur Internet ?

3 millions de requêtes uniques

Noms communs(WordNet)

Noms de Personnes

(Wiki + NNDB)

Toponymes(Geonames)

358 000requêtes

392 000requêtes

108 000 requêtes

1413/05/007DTSI

Étude des usages - conclusion

Importance d’une bonne précision sur la première page de résultats

Nombre important de recherches allant au-delà : intéressant de proposer une navigation rapide parmi les images résultats

Une majorité de requêtes mono-conceptuellesFacilement traitées en utilisant des structures

linguistiques Découverte de trois domaines conceptuels

intéressants pour la recherche d’imagesNoms communsToponymesNoms de personnalités

1513/05/007DTSI

Caractérisation des structures linguistiques

Espace de requêtes très diversifié Besoin de structures linguistiques à (très) large

échelle Existence de ressources préconstituées

Utiles mais devant être adaptées pour la recherche d’images

Nécessité de construire automatiquement des nouvelles ressources

Relations quelquefois incorrectes et risques d’incohérence

1613/05/007DTSI

Relations entre les concepts

Sélection de relations utiles en recherche d’images

Relations - définitoires pour les opérations possibles sur le contenu des structures linguistiques

Relations génériques Hyperonymie

Homonymie

Synonymie

Relations spécifiques à des domaines Géographie : positionnement, inclusion spatiale Personnes : données biographiques

dog, Canis familiaris

dog isAn animal dog isA sausage

dog, hotdog

1713/05/007DTSI

Relations conceptuelles en recherche d’images

Reformulation automatique des requêtes

Structuration des résultats

Skyscraper

Petronas Towers…Empire State

Building

isAisA

isA

Adaptation de la présentation des résultats

Robert De Niro

Raging Bull…Taxi Driver

filmWith filmWithfilmWith

1813/05/007DTSI

CBIR dirigé par la sémantique

Recherche par le contenu dans des espaces conceptuellement et visuellement cohérents

La combinaison des descriptions de bas et de haut niveau des images fait l’objet d’un effort de recherche soutenu (Liu07)

1913/05/007DTSI

Architecture de recherche sémantique d’images

Corpus d’images Internet

Ressource linguistique

Corpus d’imagesCollecteur d’images

Sélecteur de concepts

Moteur de recherche visuel

Interface

Requête textuelle

Requête image

2013/05/007DTSI 14/10/2008



d’images

Structuration de connaissances Création de ressources Applications


2113/05/007DTSI

Domaines conceptuels

Constitution de structures sémantiques pour trois domaines

Noms communs ToponymesNoms de personnalités

Choix dirigé par Leur intérêt pour la recherche d’image – grand

nombre de requêtes pour ces trois domaines La possibilité d’adapter ou de construire des

structures linguistiques à large échelle

2213/05/007DTSI

Adaptation de WordNet

Synsets de la base lexicale existante Ajout d’une mesure de proximité conceptuelle

Format de sortie des résultats

freqWeb : fréq. de cooccurrence de deux termes sur le web

distance : nombre de nœuds dans la hiérarchie entre c1 et c2

sens: nombre de sens différents de c1

2313/05/007DTSI

Évaluation de l’adaptation de WordNet

20 concepts du niveau de base (Rosch76) : animaux, plantes, concepts naturels, artéfacts

7 évaluateurs Comparaison avec la ressource linguistique de Ask (

http://ask.com) Pertinence des termes proches

Couverture des ressources Ask : moins de 10 requêtes proches pour 13 requêtes WordNet : au minimum 10 requêtes proches pour

toutes les 20 requêtes

2413/05/007DTSI

Olive – recherche d’images de noms communs

Exploitation de la version adaptée de WordNet et de PIRIA (moteur CBIR du CEA LIST) (Joint04)

CaractéristiquesReprésentation conceptuellement structurée des

requêtes Utilisation des sous-types feuilles de WordNet

Proposition de requêtes proches Plus génériques Plus spécifiques Du même niveau

CBIR parmi les images du même terme feuille de la hiérarchie

Olive - démo vidéo

2513/05/007DTSI

Évaluation d’Olive

Précision de la recherche Comparaison avec Google Images, sur un panel de 20

concepts, avec 8 participants

Meilleurs résultats pour 15 concepts testés Précision du CBIR

Comparaison avec Cortina (Quack04)

Test utilisateurs – 10 participants Comparaison avec Google Images Structuration sémantique des résultats appréciée Enrichissement de l’interactivité perçu comme utile

Olive Google Images

P@20 64% 56%

Olive (CBIR constraint) Cortina (CBIR brut)

P@10 52% 6%

2613/05/007DTSI

Construction d’un thésaurus géographique

Définition d’un thésaurus géographique (Hill99)Élément = (nom, coordonnées, type)

Structure d’un thésaurus géographiqueOrganisation hiérarchique (relation isA)

Notre Dame de Paris est une cathédrale Inclusion spatiale

Notre Dame de Paris Paris Île de France France

Non considérée dans la définition de Hill

2713/05/007DTSI

Sources d’information

Réutilisation d’une ressource existante et enrichissement automatique

Geonames (geonames.org) : base de données géographiques constituée manuellement

Wikipédia : Nombre important d’articles décrivant des toponymes

Alltheweb : moteur de recherche d’informations

Panoramio – partage d’images géo-référencées

>6 millions d’images + descriptions Validation du contenu : faible

niveau de bruit

2813/05/007DTSI

Construction d’un thésaurus géographique

Sources de données Gazetiki

Extraction

Localisation

Catégorisation

Classement

Golden Gate Bridge

37,819 -122, 479

Bridge

25330085000

Extraction / Analyse

Gazetiki Plus de 7 millions d’entités géographiques Thésaurus couvrant la plupart des régions du monde

Adrian Popescu, Gregory Grefenstette, Pierre-Alain Moëllic Gazetiki: Automatic Creation of a Geographical Gazetteer, JCDL 2008 , June 16 - 20, Pittsburgh, USA.

2913/05/007DTSI

Extraction de toponymes et localisation

Extraction de toponymes Wikipédia – titres des

articles Panoramio – dictionnaire

de concepts géographiques

+ règles d’extraction Localisation

Wikipédia – coordonnées

de l’article Panoramio – statistiques

sur les images décrites

par un toponyme

Longitude : 21,2478

Latitude : 45,757

3013/05/007DTSI

Catégorisation et classement

Catégorisation Wikipédia – dictionnaire du domaine + utilisation de la

première phrase, des catégories et de l’Infobox

Panoramio – dictionnaire du domaine + statistiques sur le texte des résultats de AlltheWeb

Classement – deux composantes Panoramio nombre d’images x nombre d’utilisateurs AlltheWeb nombre de résultats

+

3113/05/007DTSI

Évaluation de Gazetiki

15 villes: comparaison avec TagMaps (Rattenbury07) ou Geonames

Couverture et précision améliorées par rapport à TagMaps

Localisation avec Panoramio Majorité des coordonnées

à <200 m Catégorisation

Précision Couverture

TagMaps 85% 1915

Gazetiki 90% 6087

Wikipedia Panoramio

Nb éléments 217 326

Erreurs 13 32

Précision 94% 90%

3213/05/007DTSI

ThemExplorer – recherche d’images de toponymes

Exploitation de Gazetiki et de PIRIA Présentation de noms d’entités précis

Pas de divisions administratives Caractéristiques

Navigation basé sur une carte interactive fournie par Yahoo!

Navigation selon des catégoriesCBIR parmi les images du même toponyme

ThemExplorer - démo vidéo

Adrian Popescu, Pierre-Alain Moëllic, Ioannis Kanellos ThemExplorer: Finding and Browsing Geo-referenced Images, CBMI 2008, June 18 - 20, London, UK.

3313/05/007DTSI

Évaluation de ThemExplorer

Restriction de l’espace de recherche pour le CBIR sur 20 images, avec 6 participants

Fusion de descripteurs pour le CBIR sur 20 images, avec 6 participants

Test utilisateurs – 8 participants Comparaison avec World Explorer (Ahern07) Navigation selon des catégories et CBIR bien appréciées Couverture de Gazetiki sensiblement meilleure que celle

de TagMaps Problème avec les tags apparaissant en double

Restriction Spatiale Spatiale + mots clef

P@10 29% 51%

Descripteurs globaux locaux Globaux + locaux

P@10 57% 60% 70%

3413/05/007DTSI

CelebWiki- structure pour les noms de personnalités

Analyse des articles Wikipédia décrivant des acteurs, musiciens, footballeurs et modèles

Infobox, catégories, tableaux, texte de l’article Extraction

Données biographiques Données relatives à leur activité

Ajout d’une mesure de pertinence

Ajout d’une mesure de proximité conceptuelle

3513/05/007DTSI

Évaluation de CelebWiki

20 noms d’acteurs, musiciens et footballeurs 8 participants au test Comparaison avec la ressource linguistique

de AskPertinence des termes proches

Couverture (370 de requêtes)

3613/05/007DTSI

Safir – recherche de noms de personnalités

Exploitation de CelebWiki et de PIRIA Caractéristiques

Représentation conceptuellement structurée des noms de célébrités

Utilisation des informations dans CelebWiki

Proposition de requêtes proches Noms de personnalités associées Requêtes plus génériques

CBIR parmi les images de la même personne Safir – système en cours de finalisation

3713/05/007DTSI

Safir – recherche de noms de personnalités

3813/05/007DTSI

Évaluation de Safir

Précision de la recherche Comparaison avec Google Image sur 20 noms de

personnalités, avec 5 participants

La reformulation des requêtes n’améliore pas la précision des résultats

Meilleure précision pour Safir dans le cas des footballeurs

Safir Google Images

P@20 60% 68%

3913/05/007DTSI 14/10/2008



d’images Structuration de connaissances

Création de ressources Applications


4013/05/007DTSI

Conclusions

Structuration automatique de connaissances à grande échelle à partir du Web

Méthode de recherche d’images par le contenu dans des espaces conceptuellement cohérents

Proposition d’une méthode de recherche sémantique d’images sur Internet

Intégration des structures linguistiques et du CBIR

Application à trois domaines conceptuels Noms communs Toponymes Noms de personnalités

Résultats très encourageants pour les deux premiers cas

4113/05/007DTSI

Perspectives

Traitement des requêtes complexes Résultats positifs dans la campagne d’évaluation

ImageCLEF WikipediaMM Task 2008

4213/05/007DTSI

Perspectives

Focalisation du travail sur le domaine géographique Amélioration de la structuration des connaissances

Catégorisation multilingue Ajout de nouvelles relations : inclusion spatiale, synonymie

Amélioration des traitements par le contenu Descriptions locales des images (sacs de mots visuels) Classification supervisée

Annotation automatique d’images géo-référencées Algorithme basé sur un k-PPV

Une majorité de ces pistes s’inscrivent dans le projet ANR Georama (CEA List – Télécom Bretagne – Exalead)

4313/05/007DTSI

Publications au cours de la thèse

Adrian Popescu, Pierre-Alain Moëllic, Ioannis Kanellos ThemExplorer: Finding and Browsing Geo-referenced Images, CBMI 2008, June 18 - 20, London, UK.

Adrian Popescu, Gregory Grefenstette, Pierre-Alain Moëllic Gazetiki: Automatic Creation of a Geographical Gazetteer, JCDL 2008 , June 16 - 20, Pittsburgh, USA.

Adrian Popescu, Pierre-Alain Moëllic, Ioannis Kanellos A Conceptual Approach to Web Image Retrieval , LREC 2008, May 28 - 30, 2008, Marrakech, Morroco.

Adrian Popescu, Ioannis Kanellos Multilingual and content based access to Flickr, ICTTA 2008, April 7 - 11, 2008, Damascus, Syria.

Adrian Popescu, Pierre-Alain Moëllic, Ioannis Kanellos Utilisation de structures sémantiques pour la recherche d'images sur Internet, ECOI Workshop, in conjunction with EGC 2008, January 29, 2008, Nice, France.

Adrian Popescu, The RIAO 2007 Conference - A Personal View , ACM SIGIR Forum, December 2007 Adrian Popescu Large Scale Semantic Structures for Image Retrieval, ACM Multimedia 2007,

September 24 - 29, Augsburg, Germany - doctoral symposium. Adrian Popescu, Gregory Grefenstette, Pierre-Alain Moëllic Improving Image Retrieval Using Semantic

Resources, to appear as book chapter in the Springer Series in Computational Intelligence Adrian Popescu, Christophe Millet, Pierre-Alain Moëllic Ontology Driven Content Based Image

Retrieval, CIVR 2007 - posters session, July 9 - 11, 2007, Amsterdam, The Netherlands. Adrian Popescu Image Retrieval Using a Multilingual Ontology, RIAO 2007, May 30 - June 1, 2007,

Pittsburgh, USA. Christian Fluhr, Gregory Grefenstette, Adrian Popescu Toward a common semantics between Media

and Languages, IWRIDL, December 12-15, 2006, Kolkata, India Adrian Popescu, Christophe Millet, Gregory Grefenstette, Pierre-Alain Moëllic, Patrick Hède Imaging

Word - Wording Images, SAMT 2006 - poster session, December 6 - 9, 2006, Athens, Greece. Adrian Popescu, Gregory Grefenstette, Pierre-Alain Moëllic Using Semantic Commonsense Resources

in Image Retrieval, SMAP 2006, December 4 - 5, 2006, Athens, Greece.

1 13/05/07 LIST – DTSI – Service Réalité virtuelle, Cognitique et Interfaces sensorielles...

Documents

Transcript of 1 13/05/07 LIST – DTSI – Service Réalité virtuelle, Cognitique et Interfaces sensorielles...