Fouille de données : quelques applications en...

16
Séminaire « document numérique », INTD-CNAM 23 novembre 2010 (Paris) Julien VELCIN, laboratoire ERIC Fouille de données : quelques applications en SHS

Transcript of Fouille de données : quelques applications en...

Séminaire «!document numérique!», INTD-CNAM

23 novembre 2010 (Paris)

Julien VELCIN, laboratoire ERIC

Fouille de données :

quelques applications en SHS

Informatique et humanités numériques

!!Université Lumière Lyon 2 !!De nombreux corpus et bases de données à exploiter

!! BD historiques, interactions orales, discussions sur le Web, etc.

!! Laboratoire ERIC !!Axe ENA-DC

!!Axe FODA

!!Axe DECO

!! Fouille de données complexes !!Traiter de grands volumes de données

!!Aider les experts à trouver «!de la connaissance!»

!!Améliorer la réutilisabilité des corpus de données

Julien Velcin 2 INTD-CNAM - 23/11/2010 (Paris)

Corpus de données historiques

!! SyMoGIH !! Système Modulaire de Gestion de l’Information Historique

LARHRA, pôle méthode (F. Beretta, P. Vernus…)

!! SI développé en collaboration avec ERIC (J. Darmont, O. Boussaïd…)

!! Exemple : la base des «!photo-cartes postales!»

Julien Velcin 3 INTD-CNAM - 23/11/2010 (Paris)

ID: 22 Titre : Deux petites filles en pied l'une portant

un panier Support: Carton Fin

Taille: Photo-carte de Visite Nature: Noir et Blanc Legende Verso: Ethel and Grace

Photographe(s) : 1:Nom: WADE G

Thématique(s) : Cadrage --> En pied Genre et âges de la vie --> Enfants

Photographe ID: 10891 Nom: WADE Prénom: G

Sexe: Homme Pays: Angleterre Technique: Plaque Sèche

Activité Principale: Photographe de studio Stock: Oui

Date début activité: 1880

Corpus d’interactions orales

!!CLAPI !! Corpus de Langues Parlées en Interaction

Laboratoire ICAR (C. Etienne, C. Plantin, L. Mondada…)

!! SI développé en collaboration avec ERIC (F. Bentayeb, S. Loudcher…)

!! Exemple : réunion de publicitaires

Julien Velcin 4 INTD-CNAM - 23/11/2010 (Paris)

Discussions en ligne (forums, blogs…)

Julien Velcin 5 INTD-CNAM - 23/11/2010 (Paris)

(Stavrianou et al.,2009)

Julien Velcin INTD-CNAM - 23/11/2010 (Paris) 6

Cycle de l’ECD

6 Base / Entrepôt de données

Données cibles

Données

préparées

Informations

extraites

Connaissances

SELECTION

PREPARATION

FOUILLE

INTERPRETATION

VISUALISATION

!! Apprentissage automatique

!!apprentissage supervisé !!catégorisation/segmentation

!! Extraction de règles !! Analyses factorielles

(…)

Quelques challenges en Fouille de Données

!!Modélisation des données complexes !! Extraction des attributs pertinents

!! Indexation multi points de vue

!!Comparer des objets (malédiction de la dimension)

!! Fusion de données !! Plusieurs modalités : texte, image, index, annotations, etc.

!! Sources diverses et hétérogènes, confiance, traçabilité

!! Enrichissement sémantique

!! Intégrer la connaissance du domaine (ex. : ontologies)

!!Recherche d’information, analyse des données, apprentissage

!! Franchir le «!gap semantic!» : rôle de la validation

Julien Velcin 7 INTD-CNAM - 23/11/2010 (Paris)

Modélisation et analyse de

discussions en ligne (thèse d’A. Stavrianou)

!! Nouvelle représentation plus appropriée

!! Opinion échange !! Navigation efficace

!! Application de mesures / critères

!! Messages influentes !! Evolution de l’opinion !! Recommandation

Julien Velcin 8 INTD-CNAM - 23/11/2010 (Paris)

Construction de réseaux sociaux

à partir du Web (thèse de M. Forestier)

!! Objectif : synthétiser l’information contenue dans les discussions du point de vue des acteurs

!! Plus précisément, identifier des communautés et des rôles, analyser la dynamique des thèmes et des opinions, etc.

!! Une approche naturelle : les réseaux sociaux [Jing et al., 2007] [Culotta et al., 2005]

!! Deux types d’information : !! les acteurs

!! les relations

Julien Velcin 9 INTD-CNAM - 23/11/2010 (Paris)

Julien Velcin 10 Séminaire GAMA, 26 mars 2010

!! Approche semi-supervisée, connaissances fournies par des experts (souvent sous forme de tags)

Julien Velcin INTD-CNAM - 23/11/2010 (Paris) 11

Enrichissement de documents historiques (thèse de M.A. Rizoiu)

!! Décrire les images dans un langage compatible avec les textes [Pham et al., 2009]

!! Parallèle entre les textes et les images

!! Trois étapes envisagées : 1) Extraction de points d'intérêt et leur description en SIFT

2) Création du «!vocabulaire visuel!»

3) Traduction des images dans ce nouveau langage visuel

Julien Velcin

INTD-CNAM - 23/11/2010 (Paris) 12

Notre approche

Julien Velcin INTD-CNAM - 23/11/2010 (Paris) 13

Chaîne de traitement visuel

Détection

points intérêt, description

SIFT

Collection photos Photos avec

point d'intérêt

t1 t2, t4 t1,

t3

Vocabulaire visuel

Génération des

mots visuels

Traduction

dans le nouveau

langage

Photos décrites par

un vocabulaire visuel

Connaissances

expertes

Autres travaux en cours à ERIC

!! Fouille de données dans les corpus d’interactions orales ERIC-ICAR

!! Nouveaux outils de fouille de données dans les grandes bases de données historiques ERIC-LARHRA

!! Construction et test d’outils semi-automatiques pour l’étude de la dynamique des discours ERIC-ELICO

Julien Velcin 14 INTD-CNAM - 23/11/2010 (Paris)

Annexes

Julien Velcin 15 INTD-CNAM - 23/11/2010 (Paris)

Références !! Blei, D. M., Ng, A. Y., Jordan, M. I., & Lafferty, J. (2003). Latent dirichlet allocation. In: Journal of

Machine Learning Research, 3, 2003.

!! Culotta, A., A. McCallum, and R. Bekkerman, Extracting Social Networks and Contact Information From Email and the Web, 2005.

!! Forestier, M., Velcin, J. and Ganascia, J.G., Un cadre formel pour la veille numérique sur la presse en ligne. In: Atelier Veille Numérique (EGC-VN 09), Strasbourg, Janvier 2009.

!! Jing, H., N. Kambhatla, and S. Roukos, Extracting social networks and biographical facts from conversational speech transcripts, 45th Annual Meeting of the Association of Computational Linguistics, vol. 45, 2007, pp. 1040-1047.

!! Pham N.K., Morin A., Gros P.. CAViz, exploration interactive des résultats de l'analyse factorielle des correspondances pour des images. RSTI série RIA, Série Visualisation et extraction des connaissances, Hermès Lavoisier, 22(3):473-488, 2008.

!! Rizoiu, M.A., Velcin, J. and Chauchat, J.H.. Regrouper les données textuelles et nommer les groupes à l'aide de classes recouvrantes, In: Actes des 10ème journées francophones en Extraction et Gestion des Connaissances (EGC 10), Hammamet, Tunisie 2010.

!! Stavrianou, A., Velcin, J. and Chauchat, J.H., A combination of opinion mining and social network techniques for discussion analysis. In: Revue des Nouvelles Technologies de l'Information, Cepadues 2009.

Julien Velcin Séminaire GAMA, 26 mars 2010 16