Download - Cours Text Mining LIAA3

30/12/2010

1

Fouille de Données TextuellesTextuelles

Dr. Rim [email protected]

Quantité de documents électroniques en croissance permanente

Contexte

croissance permanente.

Exploration et récupération des connaissances manuellement extrêmement ardues ou presque impossibles.

2

Utilisation de la puissance de l’outil informatique pour en extraire les connaissances.

30/12/2010

2

«Data Mining» est en général utilisée quand on travaille sur d d é é d d b l i ll

«Data Mining» et «Text Mining»

des données structurées dans des bases relationnelles.

«Text Mining» lorsqu’il s’agit de données textuelles (textual data).

«Text Mining» est l’extraction d’information utile à partir

3

«Text Mining» est l extraction d information utile à partir des formes non manifestés (hidden patterns) dans des grands corpus de textes.(Feldman et al. 1998)

«Text Mining» : domaine de recherche qui essaye de résoudre le problème de la surabondance d’information textuelle

Fouille de données textuelles (1)

p

Utilisant des techniques de :

«data mining», «machine learning», «information retrieval», «natural-language understanding», «case-based reasoning», «statistics» and «knowledge management»

4

«statistics», and «knowledge management»

But : aider les personnes à gagner de la connaissance à partir de grandes quantités de textes semi-structurés ou non-structurés

30/12/2010

3

L f ill d d é ll i

Fouille de données textuelles (2)

La fouille de données textuelles consiste en l'analyse d'un volume important de documents textuels pour fournir à l'utilisateur une vision synthétique et interprétable de leur contenu.

5

Objectifs initiaux de la fouille de textes

ObjectifsTraduction automatique de textes.Dialogue homme machine.

Inaccessibles a court termeImplique de comprendre les textes en profondeur.Nécessiterait d'avoir une bonne connaissance du

6

Nécessiterait d avoir une bonne connaissance du monde extérieur.

Même les humains ne sont souvent pas d'accord sur l'interprétation d'un texte.

30/12/2010

4

Objectifs actuels de la fouille de textes

ObjectifsRequêtes sur de grandes masses de textes.Catégorisation automatique de textes.

Accessibles et effectifs

7

Accessibles et effectifsDes objectifs beaucoup plus raisonnables et liés aux besoins des entreprises et de leurs clients.

Langage naturel : définition et exemple

DéfinitionLes langages naturels sont utilisés par les humains par opposition aux langages artificiels compris par les machines.

ExempleLangages naturels : français, anglais, espagnol,

8

etc.Langages artificiels : langages de programmation, de modélisation, mathématique, etc.

30/12/2010

5

Complexité du langage naturel

CausePrincipale difficulté : l'ambiguïté du langage naturelPrincipale difficulté : l'ambiguïté du langage naturel.La cause de cette ambiguïté vient de l'économie du langage qui est faite lors de son utilisation.

ExempleLes fils tapissent la pièce. Trop de PCs s'y trouvent.

Polysémie : fils tapissent pièce Pièce de monnaie ou de

9

Polysémie : fils, tapissent, pièce. Pièce de monnaie ou de maison ?Abréviation PCs signifie Personal Computer.Référence : «y» réfère à la pièce.

Principe de la fouille de textes

Les textes sont traités à l'aide de ressourcesLes textes sont traités à l'aide de ressourcespar des modules inclus dans des chaînes de traitement pour une tâche ou applicationdonnée.

10

30/12/2010

6

1. Eléments des textes traités

PrésentationLes textes traités sont composés d’éléments que l'on extrait.Les éléments sont présentés par niveau d'imbrication.Un élément de niveau supérieur utilise les élé t d i i fé i

11

éléments de niveaux inférieurs.Reprend la structure du langage naturel.

Mot

Définitions1. Suite de symboles différents d'une ponctuation séparés

par des ponctuations.2. Unité minimale de signification appartenant au lexique

appelé lexème.

ExempleLe mot porte dans la phrase : Ceci est une «porte».

12

UtilisationLe découpage en mot est une première étape nécessaire a tout traitement ultérieur.

30/12/2010

7

Etiquette

DéfinitionAnnotation d'un mot qui peut être grammaticale ou sémantique.

ExempleNom, Verbe pour un étiquetage grammatical ou Lieu, Date pour une extraction d'entités nommées.

Utilisation

13

Permet d’étiqueter les mots d'un texte pour trouver des relations entre eux, extraire des entités nommées, des termes,etc.

Relation

DéfinitionAnnotation d'une relation entre deux ou plusieurs mots qui peut être grammaticale ou sémantique.

Exemplesujet-verbe pour une relation grammaticale ou partie-de, part-of, pour un étiquetage sémantique utilisable dans une ontologie.

14

gUtilisation

A partir des étiquettes des mots trouve des relations entre eux.

30/12/2010

8

Entité Nommée

DéfinitionEntité nommée impliquée dans un événement ou un processus, qui n'est pas commune par opposition aux noms communs.

ExemplePersonne, groupe, lieu, événement, marque.

15

UtilisationUtilisé dans la plupart des systèmes de fouille de textes, notamment question réponse.

Terme

DéfinitionExpression possédant un sens unique pour un domaine particulier.

ExemplePièce dans le domaine monétaire.

Utilisation

16

UtilisationPeut être utilisé pour catégoriser des textes ou effectuer une indexation.

30/12/2010

9

2. Ressources de traitement

PrésentationLes textes sont traités à l'aide de ressources.Elaboration manuelle ou automatique à l'aide de techniques d'apprentissage.Application des ressources : locale (mot courant) ou contextuelle (mots courants et adjacents).

17

Corpus de textes

DéfinitionEnsemble de textes homogènes.

ExempleEnsemble de textes de lois composées d'articles.

ConstitutionNumérisation regroupement tri normalisation

18

Numérisation, regroupement, tri, normalisation.

30/12/2010

10

Lexique de mots

DéfinitionListe de mots associés à une ou plusieurs catégories.

ExempleListe de mots avec leurs étiquettes grammaticales : Nom, Adjectif, Verbe, etc.

19

ConstitutionUtilisation de dictionnaires et de corpus étiquetés.

Ensemble de règles

DéfinitionP l’é i l l i iPour l’étiquetage, les relations syntaxiques entre mots.

ExempleNon contextuelle : mot terminé par un s ⇒ étiquette pluriel.Contextuelle : nom suivant un nombre autre que «un» ⇒ étiquette pluriel

20

⇒ étiquette pluriel.

ConstitutionApprentissage à partir de corpus étiquetés manuellement.

30/12/2010

11

Ontologie de concepts

DéfinitionEnsemble de mots et/ou concepts et de relations entre eux.

ExempleSalon partie-de Maison.

Constitution

21

ConstitutionSemi-automatique à l'aide d'une terminologie, d'un classement manuel et d'induction.

3. Chaîne de traitement

22

30/12/2010

12

Pré-traitements de la collection de documents ( é i i d i d )

Processus de la Fouille de textes

(exp. catégorisation des textes ou extraction de termes)

Stockage et Indexation des documents

Analyse des représentations intermédiaires (via exp. analyse de distribution, classification automatique (clustering), analyse de tendances, découverte de règles

23

d’association)

Visualisation des résultats.

Pré-traitements du corpus : nettoyage

Le nettoyage consiste à identifier et nettoyer le bruit.

L'exploitation des corpus spécialisés au format HTML et/ou XML, demande une phase de nettoyage importante afin d'enlever les informations non pertinentes du corpus (exemple: les balises).

24

Cependant les balises XML contiennent des informations sémantiques lesquelles, si elles sont exploitées, peuvent aider à la construction d'ontologies spécialisées.

30/12/2010

13

Exemples de règles de nettoyage

Carboxy terminal C terminalCarboxy-terminal, C-terminal, COOH-terminal, C02H-terminal C-term

nombreux noms pour 1e même gène nom générique

25

Exemple : ISE1, LIS1, SED6 ERG6

Etiquetage grammatical

Pré-traitement du corpus : étiquetage

grammatical

Corpus nettoyé Corpus nettoyéet étiqueté

26

The modulationof thebiologicalactivities ofmitochondrialhistoneAbf2-protein …

Etiqueteur de Brill

The/DT modulation/NNof/IN the/DTBiological/JJactivities/NNS of/INmitochondrial/JJhistone/NNPAbf2-protein/NNP …

30/12/2010

14

Démarches suivies par le Text Mining

DocumentsCollecte de documents

du domaine

Outils d’ingénierie du document

- Formalisation des données textuelles- Etiquetage des textes (date, auteur, ...)

Outils d’ingénierie du langage

- Extraction des termes - Filtrage des termes

Traitement linguistique

Extraction de connaissances

Outils de fouille

- Extraction de connaissances (des règles d’association, calcul statistique)

27

g- Indexation des documents - Création d’une taxonomie- Regroupement des documents par

les termes qui leur sont associés

connaissances

InterprétationOutil de visualisation

et navigationExplorer et analyser les

résultats

1. Sélection du corpus (data selection)

2 E t ti t i l i

Etapes de la Fouille de textes

2. Extraction terminologique

extraction des termes

filtrage des termes extraits

3. Classification

automatique (clustering)

28

q ( g)

taxonomie (classement)

4. Visualisation des données : cartographie (graphes, ...)

5. Interprétation des résultats

30/12/2010

15

Extraction terminologiqueExtraction terminologique

Extraction des termes

Filtrage des termes extraits

Fonction : extraction et tri automatiques de candidats termes

Extraction de termes

candidats termes.Méthodes d’extraction

statistiquessegments répétés

morpho-syntaxiquesrepérage de patrons

30

repérage de patronsanalyse syntaxique partielle

Critères de tris numériquesfréquence d’occurrences dans le corpus

30/12/2010

16

Lexter, un extracteur de candidats termes

Explore un corpus étiqueté syntaxiquementAnalyse robuste de textes techniques ou scientifiquesAnalyse robuste de textes techniques ou scientifiques

Extrait des syntagmes nominaux complexesRecherche à l’aide de patrons en négatif (recherche et rejette les séparateurs de candidats termes)

31

Points forts : résolution des associations ambiguës d’adjectifs et de prépositions (ou syntagmes prépositionnels) au sein des groupes nominaux complexes.

Texte brut

Etiquettagesyntaxique

Lexter, étape 1 : Découpage : Analyse de surface pour extraire les Syntagmes Nominaux de Longueur Maximale (SNLM)

Lexter, un extracteur de candidats termes

Texte étiqueté

Découpage

Syntagmes Nominaux de Longueur Maximale

(SNLM)

Lexter, étape 2, Parsing : analyse en profondeur pour décomposer récursivement les SNLM

[ [ système à [ mémoire de cas ] ] en [ anatomie pathologique ] ]

les Syntagmes Nominaux de Longueur Maximale (SNLM)

système à mémoire de cas en anatomie pathologiquetraits de signification pertinents des concepts sémantiques

32

(SNLM)

Parsing

Réseau de candidats termes

[ [ système à [ mémoire de cas ] ] en [ anatomie pathologique ] ][ [ [ traits de signification ] pertinents ] des [ concepts sémantiques ] ]

30/12/2010

17

Liste des candidats termes dont «modèle conceptuel » est en expansion

33

ClassificationClassification

Automatique (clustering)

Taxonomie (classement)

30/12/2010

18

Classification conceptuelle

M dMoyens de transportsclassification

conceptuelle

bateaux voitures

35Classification conceptuelleEnsemble

de connaissances

Définitions 1

ClassificationA ti d di t ib l té iAction de distribuer par classes, par catégoriesRésultat de cette action

Classe ensemble d’individus ou d’objets qui ont des caractères communs

ClasserDi i t é ti l

36

Diviser et répartir en classesClassifier

Répartir selon une classification

30/12/2010

19

Définitions 2

Le terme classification est ambigu ; ne sépare pas l’action de création de classes ~= classerl’action d’affectation à une classe = classifier

En anglais : un terme non ambiguA clustering = a cluster = un regroupement

37

A clustering a cluster un regroupement« A grouping of a number of similar things »To cluster

Classification / Clustering

Classification: Apprentissage supervisé :Apprendre une méthode pour prédire la classe

d'un élément à partir d'éléments déjà classés

38

30/12/2010

20

Clustering

Apprentissage non superviséTrouver les classes naturelles (implicites) pour rassembler des

données non étiquetées

39

Définitions 3

Taxinomie, taxonomieÉtude théorique des bases lois règle principes d’uneÉtude théorique des bases, lois, règle, principes d’une classification

Classification des plantes, animaux, microbes, science fondatrice de la biologieLivre : « L’analyse des données, La taxinomie », J.B. Benzécri, 1973, DunodTaxinomie des syntagmes !!!

40

Catégorisation (plus spécifique que classe)Classement par catégories, notamment en linguistique, en psychologie sociale

30/12/2010

21

Classification supervisée :classes des documents

articles scientifiques à regrouper en paquets homogèneshomogènes

thème général (mathématique, physique, littérature …)date de publication, nom des auteursCeux qui traitent à la fois d’informatique et de biologie

41

Ceux qui se ressemblentselon un certain critère

Des critères précis aux critères vagues

Qui classe?

Du travail de documentaliste, supervisée, qui crée des classes de documents, avec des critères humains, classes avec des étiquettes.

Au travail automatique réalisé par une machine, qui répartit des documents en classes selon des critères logiques et/ou

42

classes selon des critères logiques et/ou mathématiques, à partir d'un classement initial.

30/12/2010

22

Création de classes de documents

De manière supervisée :classes étiquetées préalablement (sports et loisirs, art et culture…)classement par des humains (coûteux)Google : 20 000 évaluateurs volontaires ODP (Open Directory Project)

43

Visualisation des donnéesdes données

Carthographie (graphes, ...)

30/12/2010

23

Visualisation des résultats de l’analyse Lexter

45

Les opérations de «Text mining» ont pour objet la

Au niveau inter-document

distribution de concepts au niveau inter-document.

But : découvrir les concepts et leurs rapports tels qu’ils se trouvent dans la collection considérée comme

46

un tout.

30/12/2010

24

Un instrument central de la fouille de données

Relations conceptuelles

textuelles est l’analyse des relations conceptuelles (concept relationships)

Une collection d’éléments séparés (documents)

Chaque document représente un ensemble de concepts (termes)

47

(termes)

Analyse des relations conceptuelles

L’analyse des relations conceptuelles cherche à découvrir les rapports entre concepts, tels qu’ils peuvent être dégagés de la totalité du corpus disponible

48

30/12/2010

25

Un nombre croissant de documents (articles brevets) à

Exemple

Un nombre croissant de documents (articles, brevets) à propos de la société Y et le produit Z peut indiquer un changement d’orientation concernant les intérêts de la firme

L’information n’est pas fournie par un seul document isolé,

49

mais par l’ensemble de la collection

Le domaine de la veille technologique vise à :

Veille Technologique assistée par la FT

récolter, traiter, et analyser des informations scientifiques et techniques utiles aux acteurs économiques.

L’idée est :d’utiliser des techniques de fouille de textes pour

50

d utiliser des techniques de fouille de textes pour automatiser le processus de traitement des données issues de bases de textes scientifiques.

Fouille de Données Textuelles (Text Mining)Fouille de Données Textuelles (Text Mining)

30/12/2010

26

Toutefois, la veille introduit une difficulté inhabituelle par rapport a domaines d’application classiq es des

Veille Technologique assistée par la FT

rapport aux domaines d’application classiques des techniques de FT:

au lieu de rechercher de la connaissance fréquente cachée dans les données, il faut rechercher de la connaissance inattendue.

51

Exp. Système UnexpectedMiner dans lequel de nouvelles mesures permettent d’estimer le caractère inattendu d’un document. Le système est évalué sur une base de résumés d’articles dans le domaine de l’apprentissage automatique.

Fouille de Données Textuelles (Text Mining)Fouille de Données Textuelles (Text Mining)

Catégorisation de textes

Objectif : prédire la catégorie d'un document ( ti t/ ti t)(pertinent/ non pertinent)

documents considérés comme des «sacs de mots»sélection des descripteurs (mots) pertinents pour la prédictionapprentissage supervisé d'un modèle de prédiction

n grammes [Jalam et Cha chat 2002] [Damashek 1995]

52

n-grammes [Jalam et Chauchat, 2002] [Damashek, 1995]Latent Semantic Analysis (LSA) [Landauer et al., 98] [Dumais, 92]Support Vector Machines (SVM)

30/12/2010

27

Catégorisation de textes (exemple)

Définition d'un filtre de SpamClasser en Spam ou non le courriel.Analyse des en-têtes et du corps des messagesRègles établies manuellement avec pondération par un réseau de neurone : SpamAssassin

Utilisation

53

Filtrage des courriels indésirables.Classement par auteur, par thèmes de textes.

Text Mining Solutions

54

30/12/2010

28

Normalisation

Objectif : diminuer le bruit et améliorer la qualité du l b lprocessus global

Unification des formats (ISO, : : :)Détection et correction des fautes d'orthographeUtilisation massive de patrons et de lexiques

Patrons de normalisation de dates :mm/jj/aa ! jj/mm/aa

55

mm/jj/aa ! jj/mm/aajj[-/ ]mm[-/ ]aa ! jj mois(mm) aa

Suppression d'éléments tels que date, références bibliographiques, …

Normalisation (suite)

Application d'un «Tokenizer» pour découper le k ( i )textes en tokens (mots et ponctuation)

Découpage en phrases du texteApplication d'un lemmatiseur (masculin singulier)Application d'un radicaliseur (stemming)

56

( g)(suppression des préfixes et suffixes)