30/12/2010
1
Fouille de Données TextuellesTextuelles
Dr. Rim [email protected]
Quantité de documents électroniques en croissance permanente
Contexte
croissance permanente.
Exploration et récupération des connaissances manuellement extrêmement ardues ou presque impossibles.
2
Utilisation de la puissance de l’outil informatique pour en extraire les connaissances.
30/12/2010
2
«Data Mining» est en général utilisée quand on travaille sur d d é é d d b l i ll
«Data Mining» et «Text Mining»
des données structurées dans des bases relationnelles.
«Text Mining» lorsqu’il s’agit de données textuelles (textual data).
«Text Mining» est l’extraction d’information utile à partir
3
«Text Mining» est l extraction d information utile à partir des formes non manifestés (hidden patterns) dans des grands corpus de textes.(Feldman et al. 1998)
«Text Mining» : domaine de recherche qui essaye de résoudre le problème de la surabondance d’information textuelle
Fouille de données textuelles (1)
p
Utilisant des techniques de :
«data mining», «machine learning», «information retrieval», «natural-language understanding», «case-based reasoning», «statistics» and «knowledge management»
4
«statistics», and «knowledge management»
But : aider les personnes à gagner de la connaissance à partir de grandes quantités de textes semi-structurés ou non-structurés
30/12/2010
3
L f ill d d é ll i
Fouille de données textuelles (2)
La fouille de données textuelles consiste en l'analyse d'un volume important de documents textuels pour fournir à l'utilisateur une vision synthétique et interprétable de leur contenu.
5
Objectifs initiaux de la fouille de textes
ObjectifsTraduction automatique de textes.Dialogue homme machine.
Inaccessibles a court termeImplique de comprendre les textes en profondeur.Nécessiterait d'avoir une bonne connaissance du
6
Nécessiterait d avoir une bonne connaissance du monde extérieur.
Même les humains ne sont souvent pas d'accord sur l'interprétation d'un texte.
30/12/2010
4
Objectifs actuels de la fouille de textes
ObjectifsRequêtes sur de grandes masses de textes.Catégorisation automatique de textes.
Accessibles et effectifs
7
Accessibles et effectifsDes objectifs beaucoup plus raisonnables et liés aux besoins des entreprises et de leurs clients.
Langage naturel : définition et exemple
DéfinitionLes langages naturels sont utilisés par les humains par opposition aux langages artificiels compris par les machines.
ExempleLangages naturels : français, anglais, espagnol,
8
etc.Langages artificiels : langages de programmation, de modélisation, mathématique, etc.
30/12/2010
5
Complexité du langage naturel
CausePrincipale difficulté : l'ambiguïté du langage naturelPrincipale difficulté : l'ambiguïté du langage naturel.La cause de cette ambiguïté vient de l'économie du langage qui est faite lors de son utilisation.
ExempleLes fils tapissent la pièce. Trop de PCs s'y trouvent.
Polysémie : fils tapissent pièce Pièce de monnaie ou de
9
Polysémie : fils, tapissent, pièce. Pièce de monnaie ou de maison ?Abréviation PCs signifie Personal Computer.Référence : «y» réfère à la pièce.
Principe de la fouille de textes
Les textes sont traités à l'aide de ressourcesLes textes sont traités à l'aide de ressourcespar des modules inclus dans des chaînes de traitement pour une tâche ou applicationdonnée.
10
30/12/2010
6
1. Eléments des textes traités
PrésentationLes textes traités sont composés d’éléments que l'on extrait.Les éléments sont présentés par niveau d'imbrication.Un élément de niveau supérieur utilise les élé t d i i fé i
11
éléments de niveaux inférieurs.Reprend la structure du langage naturel.
Mot
Définitions1. Suite de symboles différents d'une ponctuation séparés
par des ponctuations.2. Unité minimale de signification appartenant au lexique
appelé lexème.
ExempleLe mot porte dans la phrase : Ceci est une «porte».
12
UtilisationLe découpage en mot est une première étape nécessaire a tout traitement ultérieur.
30/12/2010
7
Etiquette
DéfinitionAnnotation d'un mot qui peut être grammaticale ou sémantique.
ExempleNom, Verbe pour un étiquetage grammatical ou Lieu, Date pour une extraction d'entités nommées.
Utilisation
13
Permet d’étiqueter les mots d'un texte pour trouver des relations entre eux, extraire des entités nommées, des termes,etc.
Relation
DéfinitionAnnotation d'une relation entre deux ou plusieurs mots qui peut être grammaticale ou sémantique.
Exemplesujet-verbe pour une relation grammaticale ou partie-de, part-of, pour un étiquetage sémantique utilisable dans une ontologie.
14
gUtilisation
A partir des étiquettes des mots trouve des relations entre eux.
30/12/2010
8
Entité Nommée
DéfinitionEntité nommée impliquée dans un événement ou un processus, qui n'est pas commune par opposition aux noms communs.
ExemplePersonne, groupe, lieu, événement, marque.
15
UtilisationUtilisé dans la plupart des systèmes de fouille de textes, notamment question réponse.
Terme
DéfinitionExpression possédant un sens unique pour un domaine particulier.
ExemplePièce dans le domaine monétaire.
Utilisation
16
UtilisationPeut être utilisé pour catégoriser des textes ou effectuer une indexation.
30/12/2010
9
2. Ressources de traitement
PrésentationLes textes sont traités à l'aide de ressources.Elaboration manuelle ou automatique à l'aide de techniques d'apprentissage.Application des ressources : locale (mot courant) ou contextuelle (mots courants et adjacents).
17
Corpus de textes
DéfinitionEnsemble de textes homogènes.
ExempleEnsemble de textes de lois composées d'articles.
ConstitutionNumérisation regroupement tri normalisation
18
Numérisation, regroupement, tri, normalisation.
30/12/2010
10
Lexique de mots
DéfinitionListe de mots associés à une ou plusieurs catégories.
ExempleListe de mots avec leurs étiquettes grammaticales : Nom, Adjectif, Verbe, etc.
19
ConstitutionUtilisation de dictionnaires et de corpus étiquetés.
Ensemble de règles
DéfinitionP l’é i l l i iPour l’étiquetage, les relations syntaxiques entre mots.
ExempleNon contextuelle : mot terminé par un s ⇒ étiquette pluriel.Contextuelle : nom suivant un nombre autre que «un» ⇒ étiquette pluriel
20
⇒ étiquette pluriel.
ConstitutionApprentissage à partir de corpus étiquetés manuellement.
30/12/2010
11
Ontologie de concepts
DéfinitionEnsemble de mots et/ou concepts et de relations entre eux.
ExempleSalon partie-de Maison.
Constitution
21
ConstitutionSemi-automatique à l'aide d'une terminologie, d'un classement manuel et d'induction.
3. Chaîne de traitement
22
30/12/2010
12
Pré-traitements de la collection de documents ( é i i d i d )
Processus de la Fouille de textes
(exp. catégorisation des textes ou extraction de termes)
Stockage et Indexation des documents
Analyse des représentations intermédiaires (via exp. analyse de distribution, classification automatique (clustering), analyse de tendances, découverte de règles
23
d’association)
Visualisation des résultats.
Pré-traitements du corpus : nettoyage
Le nettoyage consiste à identifier et nettoyer le bruit.
L'exploitation des corpus spécialisés au format HTML et/ou XML, demande une phase de nettoyage importante afin d'enlever les informations non pertinentes du corpus (exemple: les balises).
24
Cependant les balises XML contiennent des informations sémantiques lesquelles, si elles sont exploitées, peuvent aider à la construction d'ontologies spécialisées.
30/12/2010
13
Exemples de règles de nettoyage
Carboxy terminal C terminalCarboxy-terminal, C-terminal, COOH-terminal, C02H-terminal C-term
nombreux noms pour 1e même gène nom générique
25
Exemple : ISE1, LIS1, SED6 ERG6
Etiquetage grammatical
Pré-traitement du corpus : étiquetage
grammatical
Corpus nettoyé Corpus nettoyéet étiqueté
26
The modulationof thebiologicalactivities ofmitochondrialhistoneAbf2-protein …
Etiqueteur de Brill
The/DT modulation/NNof/IN the/DTBiological/JJactivities/NNS of/INmitochondrial/JJhistone/NNPAbf2-protein/NNP …
30/12/2010
14
Démarches suivies par le Text Mining
DocumentsCollecte de documents
du domaine
Outils d’ingénierie du document
- Formalisation des données textuelles- Etiquetage des textes (date, auteur, ...)
Outils d’ingénierie du langage
- Extraction des termes - Filtrage des termes
Traitement linguistique
Extraction de connaissances
Outils de fouille
- Extraction de connaissances (des règles d’association, calcul statistique)
27
g- Indexation des documents - Création d’une taxonomie- Regroupement des documents par
les termes qui leur sont associés
connaissances
InterprétationOutil de visualisation
et navigationExplorer et analyser les
résultats
1. Sélection du corpus (data selection)
2 E t ti t i l i
Etapes de la Fouille de textes
2. Extraction terminologique
extraction des termes
filtrage des termes extraits
3. Classification
automatique (clustering)
28
q ( g)
taxonomie (classement)
4. Visualisation des données : cartographie (graphes, ...)
5. Interprétation des résultats
30/12/2010
15
Extraction terminologiqueExtraction terminologique
Extraction des termes
Filtrage des termes extraits
Fonction : extraction et tri automatiques de candidats termes
Extraction de termes
candidats termes.Méthodes d’extraction
statistiquessegments répétés
morpho-syntaxiquesrepérage de patrons
30
repérage de patronsanalyse syntaxique partielle
Critères de tris numériquesfréquence d’occurrences dans le corpus
30/12/2010
16
Lexter, un extracteur de candidats termes
Explore un corpus étiqueté syntaxiquementAnalyse robuste de textes techniques ou scientifiquesAnalyse robuste de textes techniques ou scientifiques
Extrait des syntagmes nominaux complexesRecherche à l’aide de patrons en négatif (recherche et rejette les séparateurs de candidats termes)
31
Points forts : résolution des associations ambiguës d’adjectifs et de prépositions (ou syntagmes prépositionnels) au sein des groupes nominaux complexes.
Texte brut
Etiquettagesyntaxique
Lexter, étape 1 : Découpage : Analyse de surface pour extraire les Syntagmes Nominaux de Longueur Maximale (SNLM)
Lexter, un extracteur de candidats termes
Texte étiqueté
Découpage
Syntagmes Nominaux de Longueur Maximale
(SNLM)
Lexter, étape 2, Parsing : analyse en profondeur pour décomposer récursivement les SNLM
[ [ système à [ mémoire de cas ] ] en [ anatomie pathologique ] ]
les Syntagmes Nominaux de Longueur Maximale (SNLM)
système à mémoire de cas en anatomie pathologiquetraits de signification pertinents des concepts sémantiques
32
(SNLM)
Parsing
Réseau de candidats termes
[ [ système à [ mémoire de cas ] ] en [ anatomie pathologique ] ][ [ [ traits de signification ] pertinents ] des [ concepts sémantiques ] ]
30/12/2010
17
Liste des candidats termes dont «modèle conceptuel » est en expansion
33
ClassificationClassification
Automatique (clustering)
Taxonomie (classement)
30/12/2010
18
Classification conceptuelle
M dMoyens de transportsclassification
conceptuelle
bateaux voitures
35Classification conceptuelleEnsemble
de connaissances
Définitions 1
ClassificationA ti d di t ib l té iAction de distribuer par classes, par catégoriesRésultat de cette action
Classe ensemble d’individus ou d’objets qui ont des caractères communs
ClasserDi i t é ti l
36
Diviser et répartir en classesClassifier
Répartir selon une classification
30/12/2010
19
Définitions 2
Le terme classification est ambigu ; ne sépare pas l’action de création de classes ~= classerl’action d’affectation à une classe = classifier
En anglais : un terme non ambiguA clustering = a cluster = un regroupement
37
A clustering a cluster un regroupement« A grouping of a number of similar things »To cluster
Classification / Clustering
Classification: Apprentissage supervisé :Apprendre une méthode pour prédire la classe
d'un élément à partir d'éléments déjà classés
38
30/12/2010
20
Clustering
Apprentissage non superviséTrouver les classes naturelles (implicites) pour rassembler des
données non étiquetées
39
Définitions 3
Taxinomie, taxonomieÉtude théorique des bases lois règle principes d’uneÉtude théorique des bases, lois, règle, principes d’une classification
Classification des plantes, animaux, microbes, science fondatrice de la biologieLivre : « L’analyse des données, La taxinomie », J.B. Benzécri, 1973, DunodTaxinomie des syntagmes !!!
40
Catégorisation (plus spécifique que classe)Classement par catégories, notamment en linguistique, en psychologie sociale
30/12/2010
21
Classification supervisée :classes des documents
articles scientifiques à regrouper en paquets homogèneshomogènes
thème général (mathématique, physique, littérature …)date de publication, nom des auteursCeux qui traitent à la fois d’informatique et de biologie
41
Ceux qui se ressemblentselon un certain critère
Des critères précis aux critères vagues
Qui classe?
Du travail de documentaliste, supervisée, qui crée des classes de documents, avec des critères humains, classes avec des étiquettes.
Au travail automatique réalisé par une machine, qui répartit des documents en classes selon des critères logiques et/ou
42
classes selon des critères logiques et/ou mathématiques, à partir d'un classement initial.
30/12/2010
22
Création de classes de documents
De manière supervisée :classes étiquetées préalablement (sports et loisirs, art et culture…)classement par des humains (coûteux)Google : 20 000 évaluateurs volontaires ODP (Open Directory Project)
43
Visualisation des donnéesdes données
Carthographie (graphes, ...)
30/12/2010
23
Visualisation des résultats de l’analyse Lexter
45
Les opérations de «Text mining» ont pour objet la
Au niveau inter-document
distribution de concepts au niveau inter-document.
But : découvrir les concepts et leurs rapports tels qu’ils se trouvent dans la collection considérée comme
46
un tout.
30/12/2010
24
Un instrument central de la fouille de données
Relations conceptuelles
textuelles est l’analyse des relations conceptuelles (concept relationships)
Une collection d’éléments séparés (documents)
Chaque document représente un ensemble de concepts (termes)
47
(termes)
Analyse des relations conceptuelles
L’analyse des relations conceptuelles cherche à découvrir les rapports entre concepts, tels qu’ils peuvent être dégagés de la totalité du corpus disponible
48
30/12/2010
25
Un nombre croissant de documents (articles brevets) à
Exemple
Un nombre croissant de documents (articles, brevets) à propos de la société Y et le produit Z peut indiquer un changement d’orientation concernant les intérêts de la firme
L’information n’est pas fournie par un seul document isolé,
49
mais par l’ensemble de la collection
Le domaine de la veille technologique vise à :
Veille Technologique assistée par la FT
récolter, traiter, et analyser des informations scientifiques et techniques utiles aux acteurs économiques.
L’idée est :d’utiliser des techniques de fouille de textes pour
50
d utiliser des techniques de fouille de textes pour automatiser le processus de traitement des données issues de bases de textes scientifiques.
Fouille de Données Textuelles (Text Mining)Fouille de Données Textuelles (Text Mining)
30/12/2010
26
Toutefois, la veille introduit une difficulté inhabituelle par rapport a domaines d’application classiq es des
Veille Technologique assistée par la FT
rapport aux domaines d’application classiques des techniques de FT:
au lieu de rechercher de la connaissance fréquente cachée dans les données, il faut rechercher de la connaissance inattendue.
51
Exp. Système UnexpectedMiner dans lequel de nouvelles mesures permettent d’estimer le caractère inattendu d’un document. Le système est évalué sur une base de résumés d’articles dans le domaine de l’apprentissage automatique.
Fouille de Données Textuelles (Text Mining)Fouille de Données Textuelles (Text Mining)
Catégorisation de textes
Objectif : prédire la catégorie d'un document ( ti t/ ti t)(pertinent/ non pertinent)
documents considérés comme des «sacs de mots»sélection des descripteurs (mots) pertinents pour la prédictionapprentissage supervisé d'un modèle de prédiction
n grammes [Jalam et Cha chat 2002] [Damashek 1995]
52
n-grammes [Jalam et Chauchat, 2002] [Damashek, 1995]Latent Semantic Analysis (LSA) [Landauer et al., 98] [Dumais, 92]Support Vector Machines (SVM)
30/12/2010
27
Catégorisation de textes (exemple)
Définition d'un filtre de SpamClasser en Spam ou non le courriel.Analyse des en-têtes et du corps des messagesRègles établies manuellement avec pondération par un réseau de neurone : SpamAssassin
Utilisation
53
Filtrage des courriels indésirables.Classement par auteur, par thèmes de textes.
Text Mining Solutions
54
30/12/2010
28
Normalisation
Objectif : diminuer le bruit et améliorer la qualité du l b lprocessus global
Unification des formats (ISO, : : :)Détection et correction des fautes d'orthographeUtilisation massive de patrons et de lexiques
Patrons de normalisation de dates :mm/jj/aa ! jj/mm/aa
55
mm/jj/aa ! jj/mm/aajj[-/ ]mm[-/ ]aa ! jj mois(mm) aa
Suppression d'éléments tels que date, références bibliographiques, …
Normalisation (suite)
Application d'un «Tokenizer» pour découper le k ( i )textes en tokens (mots et ponctuation)
Découpage en phrases du texteApplication d'un lemmatiseur (masculin singulier)Application d'un radicaliseur (stemming)
56
( g)(suppression des préfixes et suffixes)
Top Related