1Collecte, analyse et valorisation de Bigdata textuelles multilingues
Projet CNRS-Mastodons ANalyse d'IMages fondée sur … · Informations TEXtuelles Bilan et...
Transcript of Projet CNRS-Mastodons ANalyse d'IMages fondée sur … · Informations TEXtuelles Bilan et...
Projet CNRS-MastodonsANalyse d’IMages fondée sur des
Informations TEXtuelles
Bilan et prospectivesPremière année du projet ANIMITEX
Paris – 24 janvier 2014
1 / 18
MotivationsConsortium et méthodes de travail
Travaux réalisésProspectives
Conclusion
ContexteProblème lié à l’analyse des données satellites à haute ettrès haute résolutionLimite des algorithmes de classification pour une analyse finedes images (par exemple, distinguer les types de cultures,fonction des bâtiments, etc.)Investissement humain conséquent
2 / 18
MotivationsConsortium et méthodes de travail
Travaux réalisésProspectives
Conclusion
Objectif du projet ANIMITEX
Exploiter des données textuelles massives et hétérogènespermettant de compléter l’analyse des images satellites
3 / 18
MotivationsConsortium et méthodes de travail
Travaux réalisésProspectives
Conclusion
Plan
1 Motivations
2 Consortium et méthodes de travailConsortiumRéunions de travail
3 Travaux réalisésMéthodologie globaleAcquisition des données et ressourcesTraitement des données
4 Prospectives
5 ConclusionBilanPublications associées au projet
4 / 18
MotivationsConsortium et méthodes de travail
Travaux réalisésProspectives
Conclusion
ConsortiumRéunions de travail
1 Laboratoire d’Informatique, de Robotique et de Microélectronique deMontpellier – LIRMM (Montpellier)Domaine : Traitement Automatique du Langage Naturel et Fouille deDonnées
2 Territoires, Environnement, Télédetection et Information Spatiale –TETIS (Montpellier)Domaine : Informations Géospatiales et Fouille de Données
3 Laboratoire des sciences de l’ingénieur, de l’informatique et de l’imagerie– ICube (Strasbourg)Domaine : Analyse d’Image et Traitement Automatique du LangageNaturel
4 Groupe de Recherche en Informatique, Image, Automatique etInstrumentation de Caen – GREYC (Caen)Domaine : Fouille de Données et Traitement Automatique du LangageNaturel
5 Laboratoire d’Informatique de L’Université de Pau et des Pays de l’Adour– LIUPPA (Pau)Domaine : Recherche d’Information Géographique et TraitementAutomatique du Langage Naturel
5 / 18
MotivationsConsortium et méthodes de travail
Travaux réalisésProspectives
Conclusion
ConsortiumRéunions de travail
15 membres permanents participent activement au projet.
3 post doctorants (Labex NUMEV, Equipex GEOSUD, ATER) ont étéintégrés au projet dès son démarrage.
6 / 18
MotivationsConsortium et méthodes de travail
Travaux réalisésProspectives
Conclusion
ConsortiumRéunions de travail
4 réunions plénières
1er juillet 2013 à Montpellier,
23 septembre 2013 à Brest,
15 novembre 2013 à Montpellier,
16 janvier 2014 à Paris
7 Réunions de travail / séjours de collaborations spécifiques (28mai, 4 juillet, 12 juillet, 22-24 juillet, 26 juillet, 6 septembre, 4 novembre).
→ Échanges de savoir-faire sur des méthodologies, état de l’art,prototypes logiciels et ressources.→ Définitions collectives des besoins, scénarios, entrées/sorties desmodules et chaîne globale de traitement.
7 / 18
MotivationsConsortium et méthodes de travail
Travaux réalisésProspectives
Conclusion
ConsortiumRéunions de travail
Plan
1 Motivations
2 Consortium et méthodes de travailConsortiumRéunions de travail
3 Travaux réalisésMéthodologie globaleAcquisition des données et ressourcesTraitement des données
4 Prospectives
5 ConclusionBilanPublications associées au projet
8 / 18
MotivationsConsortium et méthodes de travail
Travaux réalisésProspectives
Conclusion
Méthodologie globaleAcquisition des données et ressourcesTraitement des données
9 / 18
MotivationsConsortium et méthodes de travail
Travaux réalisésProspectives
Conclusion
Méthodologie globaleAcquisition des données et ressourcesTraitement des données
Scenario retenu : Aménagement du territoire (liens avec l’analyse desentiments ?)
Données Textuelles :
Corpus issu du territoire côtier de Thau composé de 11.697documents normalisés et nettoyés
Données Images :
Fichiers raster (mosaïques d’images Pléiades) couvrant l’ensembledu Bassin de Thau (RTU – Recette Thématique Utilisateurs –CNES et Equipex GEOSUD)
Principaux résultats
→ Acquisition d’un corpus exploitable en 2014→ Acquisition de ressources : thesaurus (généraux et spécialisés) pourtraiter les textes, liste de toponymes du domaine de l’étude,nomenclatures pour traiter les images
10 / 18
MotivationsConsortium et méthodes de travail
Travaux réalisésProspectives
Conclusion
Méthodologie globaleAcquisition des données et ressourcesTraitement des données
11 / 18
MotivationsConsortium et méthodes de travail
Travaux réalisésProspectives
Conclusion
Méthodologie globaleAcquisition des données et ressourcesTraitement des données
Identification automatique d’Entités Spatiales (ES) dans les textes
utilisation de patrons d’extraction pour identifierdes indicateurs spatiaux (orientation, distance, adjacence,inclusion, figure géométrique)des Entités Spatiales Absolues et Relatives
→ F-mesure autour de 67% (ESA) / 74% (ESR)Remarques :
précision élevée pour les ESR,limite des outils de TAL pour le traitement de ces données complexes.
12 / 18
MotivationsConsortium et méthodes de travail
Travaux réalisésProspectives
Conclusion
Méthodologie globaleAcquisition des données et ressourcesTraitement des données
Identification automatique d’Entités Spatiales (ES) dans les textes
utilisation de méthodes statistiques pour
traiter les masses de donnéesenrichir les méthodes symboliques
Principaux résultats
→ Identification d’ES et coordonnées associées→ Identification de thèmes
13 / 18
MotivationsConsortium et méthodes de travail
Travaux réalisésProspectives
Conclusion
Poursuite des travaux en cours :
Mise en correspondance Images/Textes et analyse des résultats encollaboration avec des géographes,
Détection de changements à partir d’images,
Désambiguisation de toponymes,
Identification de thématiques dans les textes (combinaison delexiques thématiques : ontologies légères et thésaurus),
Identification de relations entre ES [Alatrista Salas et Béchet,CerGEO’2014].
Moyens
→ 3 stages recherche : Caen-Montpellier, Pau-Montpellier,Strasbourg-Montpellier
14 / 18
MotivationsConsortium et méthodes de travail
Travaux réalisésProspectives
Conclusion
Et à plus long terme...
ANIMITEX permet de proposer des solutions originales pourSentinel-2 : aujourd’hui une dizaine d’images par an (satellitesSPOT, Landsat, etc.), une image tous les 5 jours d’ici trois ans !
Projets en cours...
→ Dépôt d’un projet ANR (KITTI)→ Organisation de Workshops
15 / 18
MotivationsConsortium et méthodes de travail
Travaux réalisésProspectives
Conclusion
Bilan et calendrier
I : Analyse d’ImagesT : Traitement Automatique du Langage NaturelF : Fouille de Données
Remarque : Demande d’intégration d’un laboratoire de Géographie pour 2014(LIVE – Laboratoire Image, Ville et Environnement - Strasbourg).
16 / 18
MotivationsConsortium et méthodes de travail
Travaux réalisésProspectives
Conclusion
BilanPublications associées au projet
Corpus et ressources acquises,
Chaîne de traitement définie,
Premiers modules de la chaîne expérimentés et verrous identifiés.
→ Nombreuses perspectives pour 2014
Page web du projet :http ://www.lirmm.fr/∼mroche/ANIMITEX/
Mail aux membres du projet :[email protected]
17 / 18
MotivationsConsortium et méthodes de travail
Travaux réalisésProspectives
Conclusion
BilanPublications associées au projet
Publications 2013-2014
H. Alatrista Salas, N. Béchet, Fouille de textes : une approcheséquentielle pour découvrir des relations spatiales. Atelier Cergeo -EGC 2014, à paraître
E. Kergosien, B. Laval, M. Roche, and M. Teisseire. Are opinionsexpressed in land-use planning documents ? International Journal ofGeographical Information Science, 2014, to appear
C. Sallaberry, Geographical Information Retrieval in TextualCorpora. FOCUS Series in GIS, 2013
http ://www.lirmm.fr/∼mroche/ANIMITEX/
18 / 18