Ontology Multilingue et Système Documentaire

36
FRE 2672 Ontology Multilingue et Système Documentaire Farah HARRATHI (PhD) Rami HARRATHI (PhD) Catherine ROUSSEY (MCF), Sylvie CALABRETTO (HDR),

description

Ontology Multilingue et Système Documentaire. Farah HARRATHI (PhD) Rami HARRATHI (PhD) Catherine ROUSSEY (MCF), Sylvie CALABRETTO (HDR),. Plan. SyDoM Système Documentaire Multilingue Passage à l’échelle Travaux de Farrah HARRATHI - PowerPoint PPT Presentation

Transcript of Ontology Multilingue et Système Documentaire

FRE 2672

Ontology Multilingueet Système Documentaire

Farah HARRATHI (PhD)

Rami HARRATHI (PhD)

Catherine ROUSSEY (MCF),

Sylvie CALABRETTO (HDR),

SyDoM Système Documentaire Multilingue

Passage à l’échelleTravaux de Farrah HARRATHI

Documents Structurés: interrogation par le contenu et la structure

Travaux de Rami Harrathi

Perspectives

Plan

2

3

Introduction

Problématique Recherche d’Information dans un corpus Multilingue (RIM)

Indexation: Amélioration de la représentation de l’information

Contexte Doc ’INSA: les preprints de la SAE Contenu textuel Articles anglais de mécanique Public français: étudiants ou chercheurs Problème: indexation?, interrogation?, visualisation? Format pérenne XML

Proposer un système capable de répondre aux besoins d'une bibliothèque spécialisée Système Documentaire Multilingue

Notice Bibliographique

RIM : les ressources linguistiques

NécessairesConstruction difficileQualité ressources qualité résultatsAdéquation ressources / corpus :

connaissance du domaine terminologie du domaine

Problème de traduction des termesterme = "manifestation linguistique d'un concept dans un

texte"

Les objectifs du système SyDoM

Indexation manuelle (qualité / quantité) automatisationMultilingue :

utilisation d’un langage pivotAméliorer la précision des index :

prise en compte des relationsGérer et normaliser les connaissancesDifférencier le terme du concept ontologie

Besoin d’un modèle de représentation des connaissances

Les Graphes Sémantiques

« Tom réalise une expérimentation sur un moteur »

tc1.1tr1 tr21 12 2

tc2.1 tc1.2

Personne Expérimentation

Moteuragent

patient

1 12 2

Un type de concept

Un terme label d’un type de concept

Un arc

Une ontologie

ExpérimentationMoteu

r

Experimentation

Engine

Ensemble des vocabulaires

Ensemble des types de concepts

Vocabulaire anglais

Vocabulaire français

tc1

T

tc1.1 tc1.2

tc1.2.1

tc2

tc2.1

Les Graphes Sémantiques

Le niveau conceptuel : une modélisation du domaine ne dépend pas d’une seule langue (type terme)

définit le langage pivot

Le niveau terminologique : vocabulaire = ensemble de termes d’une langue le terme dans un contexte référence un concept

terme = label d’un type

définit les langages de présentation pour l’utilisateur

Carburant

Les Graphes Sémantiques :

Projection étendue

butDéveloppeme

nt

1 2

butDéveloppeme

ntDiese

l

1 2

Projection étendue

Relation de spécialisation

Carburant

composant

Moteur monocylindr

e

2 1

H

G

Spécialise ou généralise les types Ne conserve pas le nombre de nœuds conceptsConserve le nombre d ’arcs

SyDoM: 3 modules

Module Gestion de l’ontologie

Module IndexationAnnotationConstruction des indexMAJ de l’ontologie

Module RechercheConstruction d'une requêteTraduction en langage pivotRecherche de documentsVisualisation

experimental study

of combustion in diesel

engine

Indexation

Documentaliste

Index Annotations

1

2

L’ontologie

experimental study of

combustion in diesel engine

Mise à jour de l’ontologie

Annoter un document avec SyDoM

Annoter le document avec SyDoM

Construction de l'index

Construction de l'index

Résultat d'une recherche

Visualisation des résultats

Si l’utilisateur souhaite connaître l’endroit de la deuxième annotation de « moteur diesel » dans le texte, alors en cliquant sur « 2 » le système surligne l’occurrence dans le texte

Si l’utilisateur clique sur un lien hypertexte alors le système affiche la définition du concept ou de la relation sélectionné 

FRE 2672

Indexation semi automatique

de corpus multilingues basée sur une ontologie

Farah HARRATHI

20

Outline

Context: SyDoM prototypeManual indexing semi-automatic indexingLarge scale corpora

A new indexing procedureLanguage propertiesStatistical and linguistic method

Experimentation and Future works

21

State of the Art : Concept Extraction

Monolingual Corpora1. Statistical Methods : ANA, etc.

2. Linguistic Methods : LEXTER, NOMINO, FASTER, etc.

3. Hybrid Methods : XTRACT, SYNTEX, EXIT, etc.

Multilingual Corpora : Endogenous Method Latent Semantic Indexing Method parallel corpora

Terms gathering:Contextual Distribution

22

Our Proposition : Theory

General language propertiesLeast Effort PrincipleSaussure PrincipleWord Sequence Term Unicity

Statistic and linguistic analysisMutual InformationContextual Distribution

23

General Language Properties

Principle of Least Effort Empty words are frequent and short.

Saussure PrincipleLocal differences help identifying empty from non empty

words

Word sequences2 patterns are possible NEN or NEEN

Unicity Principle In a textual unit, two occurrences of the same term cannot

be found.

24

Corpus pre processing

List of words, word frequencies, size and position

25

Simple Terms Extraction

word categorization

A S

Lexical data available after

corpus pre-processing.

Candidate terms

terms

ontology

matching

validation

26

Mutual Information

MI(x,y)=log2(P(x,y)/(P(x)P(y)) = log2(N*f(x,y)/f(x)f(y))

If 2 words, T1 and T2, appear together in the corpus in a significative way then the sequence of these 2 words (T1T2) is considered as a new term of the domain untitled a compound term.

Term frequency « graphe » 9313

Term frequency« conceptuel » 8205

Term frequency« conceptuel » at position p+1 such as « graphe » is at the position p

7522

27

Compound Term Extraction

Mutual Information is used to determine compound terms.

Iterative and incremental process.

Terms lists New termsDetection of new

terms

Addition of new terms

28

Contextual Distribution

distribution of T2 :(T1), (T5-T3), (T3-T5), (T3-T1).distribution of T4 :(T3-T1), (T3-T5), (T1), (T5-T3).

if 2 terms have similar contextual distributions, then they are 2 occurrences of the same concept.

1) T1T2 4) T3T2T5 7) T5T4T3

2) T3T4T1 5) T3T4T5 8) T3T2T1

3) T5T2T3 6) T1T4

29

Concept labellingIf 2 terms have the same context they are

semantically closed.« the inventory of products in dump »

« the inventory of products in warehouse »

« the inventory of products in store »

terms « dump », « warehouse » and « store » belong to the same concept

Warehouse

Store

Dump

?

Store

Garage

Warehouse

Dump

Drugstore

Stocking Place

matching

Ontology concept

Build concept (to name)

30 doctor’s prescriptionsExtraction of compound termsComparison with TerminologyExtractor

Patient âgé de 55 ans, adressé par le Dr M. pour coronarographie en vue d'une revascularisation.

Ce patient sportif réalise régulièrement des épreuves d'effort à titre systématique. En janvier 1990, l'épreuve d'effort était négative à 210 watts. Le 27.11.91, elle s'avérait positive et symptomatique dès 120 watts.

La scintigraphie myocardique réalisée en décembre montrait une ischémie antérieure.

La coronarographie a mis en évidence une sténose de l'IVA distale sub-occlusive et la même lésion sur la circonflexe distale. Ces deux vaisseaux sont revascularisés par collatéralité, la fonction ventriculaire gauche est normale.

Experimentation

30

Word categorization results

31

Compound term extraction results

32

33

Conclusions et perspectives

Generic method of concept extraction using large scale multilingual corpora

Combination of linguistic and statistical approaches.

SyDoM prototype evolutionSemi automatic indexing

Tests on several corpora in order to find appropriate thresholds.

Relation extraction method?

FRE 2672

A Conceptual Graph Based Framework

For Structured DocumentRetrieval

Rami HARRATHI

Proposer un modèle logique d’interrogation de partie de document.

Toujours basé sur les Graphes Conceptuels.

Repart des travaux de Ammar Kheirbek et Yves Chiramella.

Proposition

35

Classification de documents techniques à base d’ontologies multilingues

Prise en compte de la structure logique, sémantique du document.

Différents niveau de ressources sémantiquesOntologie formelle pour la gestion de projetOntologie linguistique pour l’indexation de document.

Une bourse du ministère à la recherche d’un bon étudiant de Master Recherche

voir liris.cnrs.fr/actu/these2008 sujet N°4.

Perspectives