1 13/05/07 LIST – DTSI – Service Réalité virtuelle, Cognitique et Interfaces sensorielles...
-
Upload
lottie-jegou -
Category
Documents
-
view
103 -
download
0
Transcript of 1 13/05/07 LIST – DTSI – Service Réalité virtuelle, Cognitique et Interfaces sensorielles...
113/05/07LIST – DTSI – Service Réalité virtuelle, Cognitique et Interfaces sensorielles
Structures linguistiques pour la recherche d’images sur Internet
14/10/2008
Directeur de thèse Ioannis KanellosEncadrants CEA Pierre-Alain Moëllic
Gregory GrefenstetteRapporteurs Florence Sèdes
Bruno BachimontExaminateur Pierre-François Marteau
Adrian PopescuCEA LIST / Télécom Bretagne
213/05/007DTSI 14/10/2008
Plan de la présentation
Introduction Approche conceptuelle de la recherche
d’images Structuration de connaissances
Création de ressources Applications
Conclusions et perspectives
313/05/007DTSI
Recherche d’images sur Internet
Pratique courante associée aux moteurs de recherche d’informations
Fonctionnalités de recherche d’imagesGrands acteurs de la recherche d’informations
(Google Images, Yahoo! Images, Microsoft Live)Applications dédiées (Picsearch, Flickr)
Recherches effectuées par un très grand nombre d’utilisateurs
Requêtes visant une grande diversité de sujets Corpus photographiques très vastes et en rapide
croissance
14/10/2008
413/05/007DTSI
Systèmes actuels
Indexation des images En exploitant le texte
environnant dans les pages Web (Google Images)
Effectuée par les utilisateurs (Flickr)
Indexation peu coûteuse de grands volumes de données
Mais… 3 grandes critiques sur les moteurs actuels Exclusivement textuelle et de bas niveau Pas ou peu de traitements d’images Moyens d’interaction avec les applications souvent inadaptés
513/05/007DTSI
Structures linguistiques
Solution pour palier ces problèmesFaire évoluer les moteurs pour permettre un
traitement non plus au niveau des chaînes de caractères, mais à un niveau symbolique
Exploitation de structures sémantiques Conditions d’exploitabilité
(Nécessairement) à large échelle Couvrir le plus possible les requêtes des utilisateurs
Bonne qualité des connaissances incluses Attente de plus en plus importante de la part des
utilisateurs en terme de précision des réponses
613/05/007DTSI
Structures linguistiques existantes
Ressources généralistes constituées manuellement WordNet (Fellbaum98) – base de données lexicale
Structurée hiérarchiquement 82 115 synsets nominaux
Cyc (Guha91) – réseau sémantique recueillant des connaissances du sens commun
Hiérarchie moins adéquate que celle de WordNet 300 000 nœuds
Ressources relatives à des domaines Geonames – base de données géographiques
Structure hiérarchique et spatiale Six millions d’entités géographiques
UMLS – base de connaissances complexe relative au domaine médical
713/05/007DTSI
Construction automatique de structures linguistiques
Constitution manuelle de ressources coûteuse Cognition (cognition.com) – 24 ans de travail pour
constituer une carte sémantique de l’anglais Nombreux travaux visant l’automatisation du processus
(Sanderson99) Mais
La plupart des travaux visent des domaines précis Difficultés à assurer simultanément une bonne qualité des
connaissances extraites et une bonne couverture du domaine ciblé
Construction automatique de structures à large échelle (Grefenstette07) – fouille de données sur le Web afin de
construire une carte sémantique de la langue (Ponzetto07) – nettoyage de l’arbre catégoriel de
Wikipédia (Rattenbury07) – structuration de connaissances
géographiques à partir de Flickr
813/05/007DTSI
Recherche par le contenu visuel (CBIR)
Méthode alternative ou complémentaire à la recherche par mots clef
Description de bas niveau des images
Descripteurs globaux (texture, couleur, forme)
Descripteurs locaux (points d’intérêt)
Plus complexe du point de vue algorithmique (temps de calcul, passage à l’échelle)
Pour les moteurs CBIR classiques : manque de cohérence conceptuelle des résultats
Source : http://alipr.com
913/05/007DTSI 14/10/2008
Plan de la présentation
Introduction
Approche conceptuelle de la recherche d’images
Structuration de connaissances Création de ressources Applications
Conclusions et perspectives
1013/05/007DTSI
Approche de la thèse
Ressources structurées / semi structuréesWordNet, Geonames, Wikipedia
Applications
Structures sémantiques à large échelle
Structures linguistiques Approche
Recherche par le contenuWeb
Architecture générique de moteur de recherche d'images
ThemExplorerOlive Safir
• Quelles images cherchons-nous sur Internet ?• Comment ?
Analyse d’un fichier de log
1113/05/007DTSI
Comment cherchons nous des images sur Internet?
Nombre de requêtes par
session
Analyse statistique et conceptuelle d’un fichier de log contenant plus de 20 millions de requêtes
Position des pages regardées dans
l’ensemble des résultats
1213/05/007DTSI
Étude des usages – complexité des requêtes
Analyse manuelle d’un échantillon de 1000 requêtes choisies aléatoirement
64% des requêtes incluent un seul concept
30% des requêtes incluent deux concepts
Les requêtes simples se prêtent bien à un traitement en exploitant des ressources linguistiques
Classiquement la complexité dépend du nombre de termes composant une requête
Proposition d’une analyse basée sur le nombre de concepts dans une requête
1313/05/007DTSI
Quels concepts cherchons nous sur Internet ?
3 millions de requêtes uniques
Noms communs(WordNet)
Noms de Personnes
(Wiki + NNDB)
Toponymes(Geonames)
358 000requêtes
392 000requêtes
108 000 requêtes
1413/05/007DTSI
Étude des usages - conclusion
Importance d’une bonne précision sur la première page de résultats
Nombre important de recherches allant au-delà : intéressant de proposer une navigation rapide parmi les images résultats
Une majorité de requêtes mono-conceptuellesFacilement traitées en utilisant des structures
linguistiques Découverte de trois domaines conceptuels
intéressants pour la recherche d’imagesNoms communsToponymesNoms de personnalités
1513/05/007DTSI
Caractérisation des structures linguistiques
Espace de requêtes très diversifié Besoin de structures linguistiques à (très) large
échelle Existence de ressources préconstituées
Utiles mais devant être adaptées pour la recherche d’images
Nécessité de construire automatiquement des nouvelles ressources
Relations quelquefois incorrectes et risques d’incohérence
1613/05/007DTSI
Relations entre les concepts
Sélection de relations utiles en recherche d’images
Relations - définitoires pour les opérations possibles sur le contenu des structures linguistiques
Relations génériques Hyperonymie
Homonymie
Synonymie
Relations spécifiques à des domaines Géographie : positionnement, inclusion spatiale Personnes : données biographiques
dog, Canis familiaris
dog isAn animal dog isA sausage
dog, hotdog
1713/05/007DTSI
Relations conceptuelles en recherche d’images
Reformulation automatique des requêtes
Structuration des résultats
Skyscraper
Petronas Towers…Empire State
Building
isAisA
isA
Adaptation de la présentation des résultats
Robert De Niro
Raging Bull…Taxi Driver
filmWith filmWithfilmWith
1813/05/007DTSI
CBIR dirigé par la sémantique
Recherche par le contenu dans des espaces conceptuellement et visuellement cohérents
La combinaison des descriptions de bas et de haut niveau des images fait l’objet d’un effort de recherche soutenu (Liu07)
1913/05/007DTSI
Architecture de recherche sémantique d’images
Corpus d’images Internet
Ressource linguistique
Corpus d’imagesCollecteur d’images
Sélecteur de concepts
Moteur de recherche visuel
Interface
Requête textuelle
Requête image
2013/05/007DTSI 14/10/2008
Plan de la présentation
Introduction Approche conceptuelle de la recherche
d’images
Structuration de connaissances Création de ressources Applications
Conclusions et perspectives
2113/05/007DTSI
Domaines conceptuels
Constitution de structures sémantiques pour trois domaines
Noms communs ToponymesNoms de personnalités
Choix dirigé par Leur intérêt pour la recherche d’image – grand
nombre de requêtes pour ces trois domaines La possibilité d’adapter ou de construire des
structures linguistiques à large échelle
2213/05/007DTSI
Adaptation de WordNet
Synsets de la base lexicale existante Ajout d’une mesure de proximité conceptuelle
Format de sortie des résultats
freqWeb : fréq. de cooccurrence de deux termes sur le web
distance : nombre de nœuds dans la hiérarchie entre c1 et c2
sens: nombre de sens différents de c1
2313/05/007DTSI
Évaluation de l’adaptation de WordNet
20 concepts du niveau de base (Rosch76) : animaux, plantes, concepts naturels, artéfacts
7 évaluateurs Comparaison avec la ressource linguistique de Ask (
http://ask.com) Pertinence des termes proches
Couverture des ressources Ask : moins de 10 requêtes proches pour 13 requêtes WordNet : au minimum 10 requêtes proches pour
toutes les 20 requêtes
2413/05/007DTSI
Olive – recherche d’images de noms communs
Exploitation de la version adaptée de WordNet et de PIRIA (moteur CBIR du CEA LIST) (Joint04)
CaractéristiquesReprésentation conceptuellement structurée des
requêtes Utilisation des sous-types feuilles de WordNet
Proposition de requêtes proches Plus génériques Plus spécifiques Du même niveau
CBIR parmi les images du même terme feuille de la hiérarchie
Olive - démo vidéo
2513/05/007DTSI
Évaluation d’Olive
Précision de la recherche Comparaison avec Google Images, sur un panel de 20
concepts, avec 8 participants
Meilleurs résultats pour 15 concepts testés Précision du CBIR
Comparaison avec Cortina (Quack04)
Test utilisateurs – 10 participants Comparaison avec Google Images Structuration sémantique des résultats appréciée Enrichissement de l’interactivité perçu comme utile
Olive Google Images
P@20 64% 56%
Olive (CBIR constraint) Cortina (CBIR brut)
P@10 52% 6%
2613/05/007DTSI
Construction d’un thésaurus géographique
Définition d’un thésaurus géographique (Hill99)Élément = (nom, coordonnées, type)
Structure d’un thésaurus géographiqueOrganisation hiérarchique (relation isA)
Notre Dame de Paris est une cathédrale Inclusion spatiale
Notre Dame de Paris Paris Île de France France
Non considérée dans la définition de Hill
2713/05/007DTSI
Sources d’information
Réutilisation d’une ressource existante et enrichissement automatique
Geonames (geonames.org) : base de données géographiques constituée manuellement
Wikipédia : Nombre important d’articles décrivant des toponymes
Alltheweb : moteur de recherche d’informations
Panoramio – partage d’images géo-référencées
>6 millions d’images + descriptions Validation du contenu : faible
niveau de bruit
2813/05/007DTSI
Construction d’un thésaurus géographique
Sources de données Gazetiki
Extraction
Localisation
Catégorisation
Classement
Golden Gate Bridge
37,819 -122, 479
Bridge
25330085000
Extraction / Analyse
Gazetiki Plus de 7 millions d’entités géographiques Thésaurus couvrant la plupart des régions du monde
Adrian Popescu, Gregory Grefenstette, Pierre-Alain Moëllic Gazetiki: Automatic Creation of a Geographical Gazetteer, JCDL 2008 , June 16 - 20, Pittsburgh, USA.
2913/05/007DTSI
Extraction de toponymes et localisation
Extraction de toponymes Wikipédia – titres des
articles Panoramio – dictionnaire
de concepts géographiques
+ règles d’extraction Localisation
Wikipédia – coordonnées
de l’article Panoramio – statistiques
sur les images décrites
par un toponyme
Longitude : 21,2478
Latitude : 45,757
3013/05/007DTSI
Catégorisation et classement
Catégorisation Wikipédia – dictionnaire du domaine + utilisation de la
première phrase, des catégories et de l’Infobox
Panoramio – dictionnaire du domaine + statistiques sur le texte des résultats de AlltheWeb
Classement – deux composantes Panoramio nombre d’images x nombre d’utilisateurs AlltheWeb nombre de résultats
+
3113/05/007DTSI
Évaluation de Gazetiki
15 villes: comparaison avec TagMaps (Rattenbury07) ou Geonames
Couverture et précision améliorées par rapport à TagMaps
Localisation avec Panoramio Majorité des coordonnées
à <200 m Catégorisation
Précision Couverture
TagMaps 85% 1915
Gazetiki 90% 6087
Wikipedia Panoramio
Nb éléments 217 326
Erreurs 13 32
Précision 94% 90%
3213/05/007DTSI
ThemExplorer – recherche d’images de toponymes
Exploitation de Gazetiki et de PIRIA Présentation de noms d’entités précis
Pas de divisions administratives Caractéristiques
Navigation basé sur une carte interactive fournie par Yahoo!
Navigation selon des catégoriesCBIR parmi les images du même toponyme
ThemExplorer - démo vidéo
Adrian Popescu, Pierre-Alain Moëllic, Ioannis Kanellos ThemExplorer: Finding and Browsing Geo-referenced Images, CBMI 2008, June 18 - 20, London, UK.
3313/05/007DTSI
Évaluation de ThemExplorer
Restriction de l’espace de recherche pour le CBIR sur 20 images, avec 6 participants
Fusion de descripteurs pour le CBIR sur 20 images, avec 6 participants
Test utilisateurs – 8 participants Comparaison avec World Explorer (Ahern07) Navigation selon des catégories et CBIR bien appréciées Couverture de Gazetiki sensiblement meilleure que celle
de TagMaps Problème avec les tags apparaissant en double
Restriction Spatiale Spatiale + mots clef
P@10 29% 51%
Descripteurs globaux locaux Globaux + locaux
P@10 57% 60% 70%
3413/05/007DTSI
CelebWiki- structure pour les noms de personnalités
Analyse des articles Wikipédia décrivant des acteurs, musiciens, footballeurs et modèles
Infobox, catégories, tableaux, texte de l’article Extraction
Données biographiques Données relatives à leur activité
Ajout d’une mesure de pertinence
Ajout d’une mesure de proximité conceptuelle
3513/05/007DTSI
Évaluation de CelebWiki
20 noms d’acteurs, musiciens et footballeurs 8 participants au test Comparaison avec la ressource linguistique
de AskPertinence des termes proches
Couverture (370 de requêtes)
3613/05/007DTSI
Safir – recherche de noms de personnalités
Exploitation de CelebWiki et de PIRIA Caractéristiques
Représentation conceptuellement structurée des noms de célébrités
Utilisation des informations dans CelebWiki
Proposition de requêtes proches Noms de personnalités associées Requêtes plus génériques
CBIR parmi les images de la même personne Safir – système en cours de finalisation
3713/05/007DTSI
Safir – recherche de noms de personnalités
3813/05/007DTSI
Évaluation de Safir
Précision de la recherche Comparaison avec Google Image sur 20 noms de
personnalités, avec 5 participants
La reformulation des requêtes n’améliore pas la précision des résultats
Meilleure précision pour Safir dans le cas des footballeurs
Safir Google Images
P@20 60% 68%
3913/05/007DTSI 14/10/2008
Plan de la présentation
Introduction Approche conceptuelle de la recherche
d’images Structuration de connaissances
Création de ressources Applications
Conclusions et perspectives
4013/05/007DTSI
Conclusions
Structuration automatique de connaissances à grande échelle à partir du Web
Méthode de recherche d’images par le contenu dans des espaces conceptuellement cohérents
Proposition d’une méthode de recherche sémantique d’images sur Internet
Intégration des structures linguistiques et du CBIR
Application à trois domaines conceptuels Noms communs Toponymes Noms de personnalités
Résultats très encourageants pour les deux premiers cas
4113/05/007DTSI
Perspectives
Traitement des requêtes complexes Résultats positifs dans la campagne d’évaluation
ImageCLEF WikipediaMM Task 2008
4213/05/007DTSI
Perspectives
Focalisation du travail sur le domaine géographique Amélioration de la structuration des connaissances
Catégorisation multilingue Ajout de nouvelles relations : inclusion spatiale, synonymie
Amélioration des traitements par le contenu Descriptions locales des images (sacs de mots visuels) Classification supervisée
Annotation automatique d’images géo-référencées Algorithme basé sur un k-PPV
Une majorité de ces pistes s’inscrivent dans le projet ANR Georama (CEA List – Télécom Bretagne – Exalead)
4313/05/007DTSI
Publications au cours de la thèse
Adrian Popescu, Pierre-Alain Moëllic, Ioannis Kanellos ThemExplorer: Finding and Browsing Geo-referenced Images, CBMI 2008, June 18 - 20, London, UK.
Adrian Popescu, Gregory Grefenstette, Pierre-Alain Moëllic Gazetiki: Automatic Creation of a Geographical Gazetteer, JCDL 2008 , June 16 - 20, Pittsburgh, USA.
Adrian Popescu, Pierre-Alain Moëllic, Ioannis Kanellos A Conceptual Approach to Web Image Retrieval , LREC 2008, May 28 - 30, 2008, Marrakech, Morroco.
Adrian Popescu, Ioannis Kanellos Multilingual and content based access to Flickr, ICTTA 2008, April 7 - 11, 2008, Damascus, Syria.
Adrian Popescu, Pierre-Alain Moëllic, Ioannis Kanellos Utilisation de structures sémantiques pour la recherche d'images sur Internet, ECOI Workshop, in conjunction with EGC 2008, January 29, 2008, Nice, France.
Adrian Popescu, The RIAO 2007 Conference - A Personal View , ACM SIGIR Forum, December 2007 Adrian Popescu Large Scale Semantic Structures for Image Retrieval, ACM Multimedia 2007,
September 24 - 29, Augsburg, Germany - doctoral symposium. Adrian Popescu, Gregory Grefenstette, Pierre-Alain Moëllic Improving Image Retrieval Using Semantic
Resources, to appear as book chapter in the Springer Series in Computational Intelligence Adrian Popescu, Christophe Millet, Pierre-Alain Moëllic Ontology Driven Content Based Image
Retrieval, CIVR 2007 - posters session, July 9 - 11, 2007, Amsterdam, The Netherlands. Adrian Popescu Image Retrieval Using a Multilingual Ontology, RIAO 2007, May 30 - June 1, 2007,
Pittsburgh, USA. Christian Fluhr, Gregory Grefenstette, Adrian Popescu Toward a common semantics between Media
and Languages, IWRIDL, December 12-15, 2006, Kolkata, India Adrian Popescu, Christophe Millet, Gregory Grefenstette, Pierre-Alain Moëllic, Patrick Hède Imaging
Word - Wording Images, SAMT 2006 - poster session, December 6 - 9, 2006, Athens, Greece. Adrian Popescu, Gregory Grefenstette, Pierre-Alain Moëllic Using Semantic Commonsense Resources
in Image Retrieval, SMAP 2006, December 4 - 5, 2006, Athens, Greece.