Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure...

62
1 Visa TM : une infrastructure pour s’approprier les technologies du Text Mining Visa TM : une infrastructure pour s’approprier les technologies du Text Mining − en partenariat avec OpenMinTed & ISTEX Istex Tour 2018

Transcript of Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure...

Page 1: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

1Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

Visa TM : une infrastructure pour s’approprier les technologies du Text

Mining − en partenariat avec OpenMinTed & ISTEX

Istex Tour 2018

Page 2: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

2

Introduction

Text mining, fouille de texte. Une définition

l’ensemble des méthodes et des traitements informatiquesqui consistent à analyser le sens de textes en langage naturel

pour en donner une représentation utilisable par les humains et les ordinateurs.C'est une spécialisation de la fouille de données (data mining)

qui fait appel aux méthodes de l'Intelligence Artificielle, du Traitement Automatique des Langues et des Statistiques.

Page 3: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

3

En utilisant des méthodes de

fouille de texte génériques

Intégrées dans un système intelligent

Centralisées dans une plateforme

Pour des applications

diverses

Mises à disposition sous

forme de services

1

5

3

4

2

Vers une Infrastructure de Services Avancés de text-mining

Page 4: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

4Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

1. Pour des applications diverses

Page 5: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

5Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

Filtrage de spam

Recommandation

Assistant personnel

Service client

Marketing

Intelligence économique

Gestion documentaire

Assistance au diagnostic medical

Intelligence stratégique sécurité

Recherche scientifique

Analyse thématique

Classification de documents

Recherche documentaire

Analyse d’opinion, de sentiment,

de controverse

Traduction

Question- réponse

Extraction d’information

Résumé

Construction de terminologie, d’ontologie

L’ensemble des technologies permettant

d’extraire des connaissances à partir de

documents textuels.

Caché dans bien des applications quotidiennes

TDM, Text and (data)-mining

Page 6: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

6

De la donnée textuelle à la connaissanceAnalyser automatique les tweets pour extraire de la connaissance : ● e.g. : Signaux liés à l’utilisation de médicaments, pharmacovigilance

O’Connor et al., 2014 https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4419871/

Exemple de Tweet Classification Annotations

Page 7: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

7

Mots clefs identiques Moteur de recherche par mots clefs

"à la Google Scholar"cherche les mots

identiques

Page 8: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

8

Mot clefs avec variations légères

Page 9: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

9

Moteur de recherche sémantique interprète la requête et répond par des documents

dont le contenu a été préalablement analysé

Page 10: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

10Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

Bacteria =

... à l’aide des connaissances du domaine

Ontologie Ontobiotope

Cheese =

Page 11: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

11

Différences au niveau de l’indexation des textes

Appariement par mots exacts

Indexation manuelle par un thésaurus

Indexation automatique par taxonomie et ontologies

Page 12: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

12

Du comptage de mots à la compréhension automatique de la langue : une grande diversité des approchesSelon les objectifs,

● une analyse plus ou moins approfondie de la langue● l'adaptation des outils de TDM au domaine

○ par apprentissage automatique○ par l'utilisation de connaissances externes au texte

Du sac de mots ... au robot apprenant à lireIllustration: Garey Freeman /Pixabay

Page 13: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

13Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

2. En utilisant des méthodes de fouille de texte génériques

Page 14: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

14

Des étapes d’analyse en fonction des besoins

Meilleure précision de la recherche par mot clef

Cibler la recherche sur les segments de texte pertinents

Ne rien manquer malgré les variations

Chercher le concept, pas sa formulation

Rechercher le rôle des objets

Chaque traitement repose sur les traitements précédents et produit un résultat directement exploitable

Segmentation en phrases et en mots

Filtrage de phrase et de documents

Reconnaissance et normalisation de termes

Étiquetage sémantique

Annotation de relations

Étapes d’analyse du texte

Besoins

Page 15: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

15

SegmentationSegmentation en phrases et en mots

Filtrage de phrase et de documents

Reconnaissance et normalisation de termes

Étiquetage sémantique

Annotation de relations● But: détecter les mots, les phrases● Indices: espace, ponctuation, tirets

...

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Quisque ante tellus, pulvinar vitae sollicitudin nec, posuere quis massa.

loremipsumdolorsitamet,consecteturadipiscingelit.quisqueantetellus,pulvinarvitaesollicitudinnec,posuerequismassa.

lorem | ipsum | dolor | sit | amet| , | consectetur | adipiscing | elit |. | quisque | ante | tellus| , | pulvinar | vitae | sollicitudin | nec |,| posuere | quis | massa| . |

Suite de caractères Suite de mots Mots et phrases

Cependant ce n’est pas aussi simple:

« Lactococcus sp. was found as the main microorganism in cheeses. »⇒ Traitement en amont pour conserver des structures de mots et de phrases qui ne respectent pas la structure « classique » et pourraient être segmentés par ces traitements.

Page 16: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

16

Similarité entre documents

Les documents comme des sacs de mots ⇒ Vectorisation

Comparer les vecteurs par une mesure (ex. cosinus)

Hypothèse distributionnelle : les mots qui ont les mêmes distributions ont des sens proches

Segmentation en phrases et en mots

Filtrage de phrase et de documents

Reconnaissance et normalisation de termes

Étiquetage sémantique

Annotation de relations

source: Florian Leitner

Page 17: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

17

Classification de documents "non supervisée"

Basée sur une méthode de clustering Application: exploration et sélection de corpus, veille.

Segmentation en phrases et en mots

Filtrage de phrase et de documents

Reconnaissance et normalisation de termes

Étiquetage sémantique

Annotation de relations

Page 18: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

18

Identifier les entités nomméesi.e. noms de personnes, de lieux géographiques, de bactéries…Utilisation de la taxonomie du NCBI pour la détection en intégrant des

● variations morpho-syntaxiques○ Lactococcus lactis, L. lactis,

● synonymes○ Streptococcus lactis, Bacterium lactis

Segmentation en phrases et en mots

Filtrage de phrase et de documents

Reconnaissance et normalisation de termes

Étiquetage sémantique

Annotation de relations

Page 19: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

19

Identifier les entités nomméesi.e. noms de personnes, de lieux géographiques, de bactéries…Utilisation de la taxonomie du NCBI pour la détection en intégrant des

● variations morpho-syntaxiques○ Lactococcus lactis, L. lactis,

● synonymes○ Streptococcus lactis, Bacterium lactis

Segmentation en phrases et en mots

Filtrage de phrase et de documents

Reconnaissance et normalisation de termes

Étiquetage sémantique

Annotation de relations

Catégoriser, normaliserUne catégorie unique à différentes entitésici : Lactococcus lactis, L. lactis, Streptococcus lactis, Bacterium lactis représentent le même concept “Lactococcus lactis”, identifié par le TaxID 1358

Page 20: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

20

Analyse linguistique

Chaque mot peut être identifié par différentes propriétés linguistiques: e.g. “Lactococcus sp. was found as the main microorganism in cheeses”

⇒ Permet de s’affranchir des variations : ● singulier/pluriel = nombre ● féminin/masculin = genre● conjugaisons etc ...

Segmentation en phrases et en mots

Filtrage de phrase et de documents

Reconnaissance et normalisation de termes

Étiquetage sémantique

Annotation de relations

Page 21: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

21

Identifier les termes

e.g. les habitats, les noms de maladies et leurs symptômes, les parties anatomiquesTermes d’intérêt du domaine étudié : ici groupes nominaux et des adjectifs Outil : YaTeA, qui utilise l’analyse syntaxique

Segmentation en phrases et en mots

Filtrage de phrase et de documents

Étiquetage sémantique

Annotation de relations

Reconnaissance et normalisation de termes

The effect of high hydrostatic pressure on the survival of

the psychrotrophic organisms Listeria monocytogenes,

Bacillus cereus, and Pseudomonas fluorescens

was investigated in ultrahigh-temperature milk.

Page 22: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

22

Identifier les termes

Outil : YaTeA, qui utilise l’analyse syntaxique et applique des “patrons” Ex. JJ NN = adjectif suivi d’un nom

Segmentation en phrases et en mots

Filtrage de phrase et de documents

Étiquetage sémantique

Annotation de relations

The effect of high hydrostatic pressure on the survival of

the psychrotrophic organisms Listeria monocytogenes,

Bacillus cereus, and Pseudomonas fluorescens

was investigated in ultrahigh-temperature milk.

DTDT

DT

NN NN NN

NNS

NN

IN JJ JJ IN IN

JJ

VBD VBD IN JJ

Bacterie

BacterieBacterie

➢ effect of high hydrostatic pressure

➢ high hydrostatic pressure➢ hydrostatic pressure➢ hydrostatic➢ pressure➢ survival of the

psychrotrophic organisms➢ psychrotrophic organisms➢ psychrotrophic➢ organisms➢ ultrahigh-temperature milk➢ ultrahigh-temperature➢ milk

CC

Termes candidats

Reconnaissance et normalisation de termes

Page 23: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

23

Catégoriser avec une ressource

Associer les termes extraits avec des catégories

Exemple d’appariement avec ToMap et Ontobiotope

➢ effect of high hydrostatic pressure

➢ high hydrostatic pressure➢ hydrostatic pressure➢ hydrostatic➢ pressure➢ survival of the psychrotrophic

organisms➢ psychrotrophic organisms➢ psychrotrophic➢ organisms➢ ultrahigh-temperature milk➢ ultrahigh-temperature➢ milk

Termes candidats

→ microbial habitat→ food

→ animal product and primary derivative thereof→ milk and milk

product→ butter→ cheese→ ice cream→ milk→ yogurt

Segmentation en phrases et en mots

Filtrage de phrase et de documents

Reconnaissance et normalisation de termes

Étiquetage sémantique

Annotation de relations

Page 24: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

24

Catégoriser avec une ressource

Comparaison des termes extraits et des noms des catégories

Exemple d’appariement avec ToMap et Ontobiotope

➢ effect of high hydrostatic pressure

➢ high hydrostatic pressure➢ hydrostatic pressure➢ hydrostatic➢ pressure➢ survival of the psychrotrophic

organisms➢ psychrotrophic organisms➢ psychrotrophic➢ organisms➢ ultrahigh-temperature milk➢ ultrahigh-temperature➢ milk

Termes candidats

→ microbial habitat→ food

→ animal product and primary derivative thereof→ milk and milk

product→ butter→ cheese→ ice cream→ milk→ yogurt

appariement exact

appariement des têtes

syntaxiques

Segmentation en phrases et en mots

Filtrage de phrase et de documents

Reconnaissance et normalisation de termes

Étiquetage sémantique

Annotation de relations

Page 25: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

25

Apprendre à classer avec une classification fixée

Page 26: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

26

Apprendre à classer avec une classification fixée

Page 27: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

27

Identifier des relations Segmentation en phrases et en mots

Filtrage de phrase et de documents

Reconnaissance et normalisation de termes

Étiquetage sémantique

Annotation de relations

Lives inMicrobe Habitat

Wigglesworthia glossinidia grows in the gut of the tsetse fly

?

« Wigglesworthia glossinidia grows in the gut of the tsetse fly »

Microbe Habitat

Habitat

Page 28: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

28

Identifier des relations Segmentation en phrases et en mots

Filtrage de phrase et de documents

Reconnaissance et normalisation de termes

Étiquetage sémantique

Annotation de relations

Wigglesworthia glossinidia grows in the

Nom sujetPréposition

gut

Objet de la préposition

of the tsetse fly

PrépositionObjet de la préposition

Groupe nominal

modifieur

Chemin de dépendance syntaxique

Lives inMicrobe Habitat

Microbe Habitat

?

Page 29: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

29

Ressources du TDM

Isolation site

Microbe Habitat

Lactococcus lactis

Goat’s milk

Lactococcus lactis

Valdeteja cheese

Données structuréesDonnées non-structurées

Comparison of the acidifying activity of Lactococcus lactis strains isolated from goat's milk and Valdeteja cheese.

Outils de TDM

Ressources extérieures

Page 30: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

30

Ressources du TDM➔ Listes de mots, grammaires,

vocabulaires et lexiques

➔ Nomenclatures, thesaurus, ontologies

➔ Bases de données

AbricotFraisePomme

Nom Type Couleur

Abricot Fruit Orange

Fraise Fruit Rouge

Pomme Fruit Vert

Epinard Légume Vert

➔ Corpus annoté d'entraînement

➔ Modèles symboliques/statistiques

➔ Vecteurs

n di

men

sion

s

fruit fraise légume épinard

...

Page 31: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

31

Ressources du TDM

Analyse linguistique

Projection lexicale

Analysedistributionnelle

Recherche de motifs

algorithmecorpus

motifs

grammaire

modèle de langue

lexique

corpus annoté

Apprentissage automatique

(Machine Learning)

Page 32: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

32Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

3. Intégrées dans un système intelligent

Page 33: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

33

Le TDM encapsulé dans un système intelligent

L’ensemble des techniques précédemment vues contribue à construire une représentation du/des texte(s) permettant une facilitation/automatisation de l’exploitation de leur contenu.

Suivant les besoins exprimés, les traitements pourront être différents et répondre à un niveau de complexité croissant. Il s’agira de réfléchir avant de les appliquer à un compromis raisonnable entre leur coût et leur valeur ajoutée.

Page 34: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

34

Leur mise en place nécessite des niveaux de compétences divers également. Ces compétences peuvent:• faire l’objet de formations• être amenées par un accompagnement

spécifique par des personnes dédiées • relever de l’acquisition d’outils « sur étagère ».

Les compétences nécessaires relèvent de différents domaines des sciences et de l’intelligence artificielle.

Le TDM encapsulé dans un système intelligent

Page 35: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

Isolation site

Microbe Habitat

Lactococcus lactis Goat’s milk

Lactococcus lactis Chicken meat

Conception d’une application TDM

Données structuréesDonnées non-structurées

Comparison of the acidifying activity of Lactococcus lactis strains isolated from goat's milk and Valdeteja cheese.

Outils de TDM

Ressources extérieures

Analyse du besoin

Mise en oeuvre

Recherche de ressources

Expérimentation

Evaluation

Itération et mise au point

Conception du corpus

Page 36: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

Isolation site

Microbe Habitat

Lactococcus lactis Goat’s milk

Lactococcus lactis Cheese

Conception d’une application TDM

Données structuréesDonnées non-structurées

Comparison of the acidifying activity of Lactococcus lactis strains isolated from goat's milk and Valdeteja cheese.

Outils de TDM

Ressources extérieures

Analyse du besoin

Mise en oeuvre

Recherche de ressources

Expérimentation

Evaluation

Itération et mise au point

Conception du corpus

Mise à jour

Page 37: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

37

Concevoir un service de TDM

● Exemples concrets d'objectifs à atteindreAnalyse du besoin

Réalisation des services

Analyse sémantique

Corpus et ressources

Test et Mises à jour

Application end-user

● Définition de critères de constitution de la collection documentaire

● Définition de l’information à extraire

● Définition des stratégies d’extraction● Identification de ressources (nomenclature, etc)● Configuration de la chaîne de traitement● Adaptation et évaluation des méthodes

● Application des méthodes à la collection de documents

● Evaluation des résultats, intégration, déploiement● Mise à jour des corpus, méthodes et ressources

● Accès aux résultats, visualisation, IHM

Page 38: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

38

Accès aux données, processus et appui

Collecte TraitementsPrétraitement

Résultats

corp

us

corp

us

AppuiRequête

OntologiesThesaurus

Chercheu·r·se

Besoin

Accès licite

Copies techniquesFichiers bruts

Connaissances

Accès liciteRessources numériques

Interprétation

d'après A. Nazarenko & C. Nédellec

Page 39: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

39

Accès aux données, processus et appui

Collecte TraitementsPrétraitement

Résultats

corp

us

corp

us

AppuiRequête

OntologiesThesaurus

Chercheu·r·se

Besoin

Accès licite

Copies techniquesFichiers bruts

Connaissances

Accès liciteRessources numériques

Interprétation

d'après A. Nazarenko & C. Nédellec

Expertise métierBiologie,

Médecine, Mathématiques,

Apprentissage automatiqueAnalyse des

données

Traitement automatique de

la langue

Informatique spécialisée

Bioinformatique

Gestion électronique de

documentBig Data

Ingénierie de connaissances

Accompagnement juridique

Ingénierie de services

Information scientifique et

techniqueAnalyste

Page 40: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

40

Processus TDM et compétences

Expertise métierBiologie,

Médecine, Mathématiques,

Informatique spécialisée

Bioinformatique

Informatique spécialiséeBig Data

Ingénierie de connaissances

Accompagnement juridique

Ingénierie de services

Apprentissage automatiqueAnalyse des

données

Traitement automatique de la

langue

Page 41: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

41

Enjeux des services innovants en fouille de texte

● Réutilisation des produits de la recherche: composants de TDM et contenus (publication, ressources)

● Développer des e-infrastructures et interconnexion (fouille de texte, bibliothèques, ressources, service métiers)

● Rendre les développeurs d'application autonomesdans l'exploitation d'outils de TDM

● Nouveaux métiers, nouvelles compétences : développeurs informatiques spécialisés, concepteurs d'applications, ingénieurs de la connaissance …

● Une proposition : OpenMinTed, un modèle à suivre et à étendre avec le projet Visa TM (Inra - Inist - Univ Montpellier) qui en pose les bases au niveau national.

Page 42: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

42

Faisabilité, quelques critèresCritères de complexité de la tâche- "Propreté" du texte (origine, format)- Régularité des formulations- Evénement local à la phrase- Entités explicites ou non (anaphores)- Présence de marqueurs de la relation- Nombre réduit d’événements dans une même section

Mobilisation d'expertise- Définition détaillée du besoin- Formalisation dans un schéma et un document de consignes d’annotation- Choix d’un corpus de texte pertinents- Annotation homogène d'exemples d'apprentissage si nécessaire (dépend de la tâche)- Evaluation

Page 43: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

43Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

4. Centralisées dans une plateforme

Page 44: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

44

Le TDM scientifique, des enjeux de recherche et d'ingénierieConvergence● Maturité des technologies du TDM et du web

sémantique● Efficacité et disponibilité des moyens de calcul● Accessibilité des bases bibliographiques● Standardisation des accès et des

représentations, sécurité juridique grandissante● Développement des infrastructures de recherche

Un paysage fragmenté fournisseurs de contenus, chercheurs en TDM,

infrastructures de calcul, utilisateursDes outils très nombreux et hétéroclites

pour traiter la diversité

De nouvelles questions économiques, juridiques,

techniques et organisationnelles

Page 45: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

45

Complémentarité des outils, plateformes et infrastructures

PlateformesPour répondre à la diversité des besoins, Apportent de la flexibilité : configuration en fonction des besoinsPouvoir varier les donnéesMutualiser et réutiliser des partiesAjouter de nouveaux services/composants

De nombreuses plateformes existantes pour les informaticiens : CoreNLP, OpenNLP, Mallet, GATE, Weka, UIMA, nltk

Outils sur étagère• Des outils clefs en main, facile d’utilisation, mais monolithiques• Des outils génériques, mal adaptés à des besoins spécifiques• Des outils dédiés spécialisés

Page 46: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

TDM: Comment faire?

Fournir un cadre d'interopérabilité pour le traitement TDM

Partager des contenus

Développer une plateforme orientée service

46

Page 47: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

47

OpenMinted (2015-2018) : Objectifs

Permettre aux acteurs TDM de partager leurs outils, leur corpus, ou des résultats ainsi que de créer et de partager des workflow d’analyse.

Proposer une infrastructure de Text et Data Mining (TDM), ouverte et pérenne, qui permette aux chercheurs un accès facilité aux technologies de fouille de textes applicables à un vaste éventail de sources de la littérature scientifique.

http://openminted.eu/

H2020

Page 48: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

48

pensé comme un pont entre

The OpenMinTeD landscape, source OpenMinTeD

Page 49: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

49

, aujourd’hui https://services.openminted.eu/home

1un catalogue de composants et applications clé en main de text-mining

2 une connexion à des bibliothèques numériques Open Access majeures

3 un environnement de composition de workflows et des moyens de calcul

Page 50: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

50

Biologists ask questions to librarians and bioinformaticians to find relevant information

Where could I find information on microbes

for fermenting a new product, cucumber yogurt

sauce?

The answer is in literature,

let’s search OpenMinTeD

Démo vidéo

Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

Page 51: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

51

Le pas plus loin : l’infrastructure basée sur OpenMinTeD

OpenMinTeD, une solution accessible en ligne, résultant du projet H2020Avec une interface utilisateur très simpleInterconnectée avec les sources d ’information • Bibliothèques numériques• Portail d’ontologies et lexiques (ressources sémantiques)

Facilite l’adaptation des services par les ressources sémantiquesCentralise et facilite l’identification des services existants et des composants,Facilite leur composition, l’exécution et l’obtention de résultats à des formats standards

Page 52: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

52Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

5. Mises à disposition sous forme de services

OpenMinTed - VisaTMune solution mutualisée, pour la recherche

Page 53: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

53

Le projet Visa ™ : un pas de plus vers une généralisation des approches TM dans les activités de recherche

2 ans pour étudier les conditions de production de services de text-mining à haute valeur ajoutée basés sur l’analyse sémantique à destination des chercheurs.

INISTles partenaires

Un établissement de recherche

Un opérateur IST

Une université (Montpellier)

…sous l’égide du CoSO dans le cadre de sa stratégie « Open Science » et financé par

?

Page 54: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

54

Notre démarche : basée sur une grande étude

1. Analyser les opportunités, qualifier les besoins des différents acteurs

Enquête VisaTMNovice ou expert, exprimez vos attentes !

Page 55: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

55

Notre démarche : connecter les infrastructures

1. Analyser les opportunités, qualifier les besoins des différents acteurs2. Tester la faisabilité technique des interconnexions entre plateforme TDM,

bibliothèques numériques et portails de ressources sémantiques

Page 56: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

56

Notre démarche : s’appuyer sur des cas concrets

1. Analyser les opportunités, qualifier les besoins des différents acteurs2. Tester la faisabilité technique des interconnexions entre plateforme TDM,

bibliothèques numériques et portails de ressources sémantiques 3. Démontrer l’utilité au travers de 3 applications pilote combinant TDM, corpus

documentaires et ressources sémantiques.

Page 57: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

57

Notre démarche : s’appuyer sur des cas concrets

Aide à la sélection de génome→ identifier les preuves dans le texte

- extraction d’information fine- combiné aux données structurées- résultat du TM intégré dans l’environnement - du chercheur

1

Sélection de génomes

par l’expert pour la

comparaison

Aspergillus flavus

Listeria seeligeri

Yarrowia lipolytica

Génomes de références

Page 58: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

58

Notre démarche : s’appuyer sur des cas concrets

2Editeur de workflows → faciliter l’édition de chaînes TM

- recherche des composants adéquats- combinaison flexible des composants- informations sur les étapes et résultats des processus

Page 59: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

59

Notre démarche : s’appuyer sur des cas concrets

Outil d’aide à la construction et l’exploration d’un corpus de documents scientifiques issu de ISTEXCaractériser et affiner itérativement un corpus grâce à une représentation thématique de l’information, calculée à partir des fréquences des termes

Analyse thématique de 5000 documents de Geosciences

Extraction corpus

Visualisation information

Analyse corpus

3

Page 60: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

60

Notre démarche : de l’informatique et plus1. Analyser les opportunités, qualifier les besoins des différents acteurs2. Tester la faisabilité technique des interconnexions entre plateforme TDM,

bibliothèques numériques et portails de ressources sémantiques3. Démontrer l’utilité au travers de 3 applications pilote combinant TDM, corpus

documentaires et ressources sémantiques.4. Proposer une infrastructure technique et humaine, ouverte et pérenne

proposant une offre de services en fouille de textes et de données dans le contexte français

+ des missions- développer les compétences

en fouille de texte au sein de l’ESR

- mettre les acteurs en synergie- accompagner l’évolution des

méthodes de recherche sc. (Science Ouverte, FAIR...)

Page 61: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

61

En utilisant des méthodes de

fouille de texte génériques

Intégrées dans un système intelligent

Centralisées dans une plateforme

Pour des applications

diverses1

5

3

4

2

Vers une Infrastructure de Services Avancés de text-mining

Mises à disposition sous

forme de services

5

Page 62: Visa TM : une infrastructure pour s’approprier les technologies ......Visa TM : une infrastructure pour s’approprier les technologies du Text Mining 2 Introduction Text mining,

Visa TM : une infrastructure pour s’approprier les technologies du Text Mining

62

Merci !

Des questions

Contacts : [email protected] [email protected]@inra.fr [email protected] [email protected]