OUTILEX RNTL OUTILEX Présentation des résultats Ministère de l'Industrie Vendredi 24 novembre...

33
OUTILEX RNTL OUTILEX Présentation des résultats Ministère de l'Industrie Vendredi 24 novembre 2006

Transcript of OUTILEX RNTL OUTILEX Présentation des résultats Ministère de l'Industrie Vendredi 24 novembre...

Page 1: OUTILEX RNTL OUTILEX Présentation des résultats Ministère de l'Industrie Vendredi 24 novembre 2006.

OUTILEX RNTL

OUTILEXPrésentation des résultats

Ministère de l'IndustrieVendredi 24 novembre 2006

Page 2: OUTILEX RNTL OUTILEX Présentation des résultats Ministère de l'Industrie Vendredi 24 novembre 2006.

OUTILEX RNTL

Ordre du jour Présentation synthétique des résultats - Eric Laporte - Université

de Marne-la-Vallée

Démonstrations Plate-forme - Matthieu Constant - Université de Marne-la-Vallée

Moteur de recherche interlingue - Romaric Besançon - CEA

Reconnaissance d'expressions multi-mots - Hugues de Mazancourt - Lingway

Moteur de recherche dans des documents XML - Massih Amini - Université Paris 6

Filtrage thématique de messages audio - Bénédicte Goujon - Thales R&T

Extraction d'information pour alimentation d'une base de connaissances - Catherine Gouttas - Thales Com

Discussion

Page 3: OUTILEX RNTL OUTILEX Présentation des résultats Ministère de l'Industrie Vendredi 24 novembre 2006.

OUTILEX RNTL

Objectifs et structure du projet

Page 4: OUTILEX RNTL OUTILEX Présentation des résultats Ministère de l'Industrie Vendredi 24 novembre 2006.

OUTILEX RNTL

Plate-forme du RNTL : traitement des langues naturelles

Budget et durée : environ 3,2 M€ / 4 ans

Démarrage : 1er octobre 2002

10 partenaires

Structure 2002-2005 : Spécifications, réalisation et tests de la plate-forme

2005-2006 : Réalisation de démonstrateurs

Répartition Grands groupes, grands instituts : 35 %

PME : 31 %

Instituts, universités : 34 %

Page 5: OUTILEX RNTL OUTILEX Présentation des résultats Ministère de l'Industrie Vendredi 24 novembre 2006.

OUTILEX RNTL

Thales R&T

Thales Com

CEA

LCI

Lingway

Systran

Université de Marne-la-Vallée (IGM), coordinateur

Université Paris 6 (LIP6)

Inria (Loria)

Université de Rouen (PSY.CO)

Industriels et grands instituts PME, start-ups

Instituts de recherche, universités

Page 6: OUTILEX RNTL OUTILEX Présentation des résultats Ministère de l'Industrie Vendredi 24 novembre 2006.

OUTILEX RNTL

Enjeux et objectifs du projet

Normalisation des formats des ressources linguistiques Mise à la disposition de la communauté d'outils logiciels et

de ressources linguistiques de base Interopérabilité avec les autres systèmes Fluidifier le marché des outils logiciels et des ressources

Page 7: OUTILEX RNTL OUTILEX Présentation des résultats Ministère de l'Industrie Vendredi 24 novembre 2006.

OUTILEX RNTL

Systèmes existants

GATE (Sheffield) FSM (AT&T) NLTK (communauté open-source) Intex (Univ. Franche-Comté) Unitex (Univ. Marne-la-Vallée)

Page 8: OUTILEX RNTL OUTILEX Présentation des résultats Ministère de l'Industrie Vendredi 24 novembre 2006.

OUTILEX RNTL

La plate-forme

Page 9: OUTILEX RNTL OUTILEX Présentation des résultats Ministère de l'Industrie Vendredi 24 novembre 2006.

OUTILEX RNTL

Architecture générale

Page 10: OUTILEX RNTL OUTILEX Présentation des résultats Ministère de l'Industrie Vendredi 24 novembre 2006.

OUTILEX RNTL

Ressources linguistiques dictionnaires morphosyntaxiques

pour le français (109 912 lemmes simples et 86 337 lemmes composés)

pour l'anglais (166 150 lemmes simples et 13 361 lemmes composés)

format XML (compatible avec LMF) jeu d'étiquettes riche et structuré (13 catégories

grammaticales, 18 codes flexionnels, divers traits syntactico-sémantiques)

niveau de généralité : langues européennes à suffixes

Page 11: OUTILEX RNTL OUTILEX Présentation des résultats Ministère de l'Industrie Vendredi 24 novembre 2006.

OUTILEX RNTL

Description du jeu d'étiquettes<lingdef lang='fr'>

<attrtype name="gender" type='enum'> <value name='m' alias='masculine'/> <value name='f' alias='feminine'/></attrtype><attrtype name='nounsubcat' type='enum'> <value name='abst' alias='Abst,abstract,abs'/> <value name='conc' alias='Conc,concret'/> <value name='hum' alias='Hum,human'/> [,,,] <value name='tps' alias='Tps,temporal'/></attrtype><pos name='noun' cutename='N'> <attribute name='subcat' type='nounsubcat' shortcut='yes'/> <attribute name='gender' type='gender' shortcut='yes'/> [,,,] <attribute name='proper' type='proper' default='false'/></pos>

Page 12: OUTILEX RNTL OUTILEX Présentation des résultats Ministère de l'Industrie Vendredi 24 novembre 2006.

OUTILEX RNTL

Ressources linguistiques dictionnaires terminologiques

aéronautique

dictionnaires bilingues une sélection des entrées des dictionnaires morphosyntaxiques

format XML

Page 13: OUTILEX RNTL OUTILEX Présentation des résultats Ministère de l'Industrie Vendredi 24 novembre 2006.

OUTILEX RNTL

Chaîne de traitement générale

Page 14: OUTILEX RNTL OUTILEX Présentation des résultats Ministère de l'Industrie Vendredi 24 novembre 2006.

OUTILEX RNTL

Segmentation

texte brut, HTML, RTF, PDF... en entrée segmentation en paragraphes, en phrases et en

tokens pré-étiquetage des tokens (information sur

l'alphabet, la casse, ponctuation ouvrante, etc.) opération réversible

Page 15: OUTILEX RNTL OUTILEX Présentation des résultats Ministère de l'Industrie Vendredi 24 novembre 2006.

OUTILEX RNTL

SegmentationLa police a saisi 164 procès-verbaux jeudi dernier

<document original_format="txt"><par id="1"><tu id="s0"><token type="word" id="t1" alph="latin" case="capit">La</token> <token type="word" id="t2" alph="latin">police</token> <token type="word" id="t3" alph="latin">a</token> <token type="word" id="t4" alph="latin">saisi</token> <token type="numeric" id="t5">164</token> <token type="word" id="t6" alph="latin">proc&#xE8;s</token><token type="punctuation" id="t7" subt="Pc">-</token><token type="word" id="t8" alph="latin">verbaux</token> <token type="word" id="t9" alph="latin">jeudi</token> <token type="word" id="t10" alph="latin">dernier</token><token type="punctuation" id="t11">.</token></tu></par></document>

Page 16: OUTILEX RNTL OUTILEX Présentation des résultats Ministère de l'Industrie Vendredi 24 novembre 2006.

OUTILEX RNTL

Etiquetage morpho-syntaxique

étiquetage lexical par consultation des lexiques représentation de l'ambiguïté par automate (MAF) 4,7 % de silence suite à l'application des

dictionnaires livrés avec la plate-forme sur un corpus de dépèches AFP

silence de 0,4 % en déduisant les mots inconnus commençant par une majuscule

Page 17: OUTILEX RNTL OUTILEX Présentation des résultats Ministère de l'Industrie Vendredi 24 novembre 2006.

OUTILEX RNTL

Etiquetage morpho-syntaxique

consultation des lexiques tolérante redressage orthographique et typographique texte étiqueté : représentation compatible avec le

modèle MAF représentation plus compacte convertisseurs

Page 18: OUTILEX RNTL OUTILEX Présentation des résultats Ministère de l'Industrie Vendredi 24 novembre 2006.

OUTILEX RNTL

Etiquetage morpho-syntaxique

Page 19: OUTILEX RNTL OUTILEX Présentation des résultats Ministère de l'Industrie Vendredi 24 novembre 2006.

OUTILEX RNTL

Traitements par grammaires formalisme des RTN pondérés (ou WRTN)

plus puissant que les automates et transducteurs finis possibilité de sorties (cf. transducteurs) poids : peuvent être établis grâce à des méthodes statistiques

(démonstrateur Thales RT)

opérations sur les grammaires conversion de formats XML (graphique ou opérationnel) émondation, déterminisation, minimisation... import/export : Unitex, dot

Page 20: OUTILEX RNTL OUTILEX Présentation des résultats Ministère de l'Industrie Vendredi 24 novembre 2006.

OUTILEX RNTL

Traitements par grammaires moteur d'analyse basé sur l'algorithme d'Earley résultat sous la forme d'une forêt partagée d'arbres

d'analyse pondérés et annotés par les sorties de la grammaire

forêt fournie en entrée à des modules de traitement extérieurs durant l'analyse du corpus (phrase par phrase)

Page 21: OUTILEX RNTL OUTILEX Présentation des résultats Ministère de l'Industrie Vendredi 24 novembre 2006.

OUTILEX RNTL

Applications concordancier

format XML

annotation de textes reconnaissance et étiquetage d'entités nommées et autres motifs extraction d'informations options : sortie texte ou sortie automate (itération possible) options : les parties reconnues sont conservées ou supprimées option : seuil sur le poids du chemin dans la grammaire

analyse syntaxique avec unification

Page 22: OUTILEX RNTL OUTILEX Présentation des résultats Ministère de l'Industrie Vendredi 24 novembre 2006.

OUTILEX RNTL

Exemple de grammaire

Page 23: OUTILEX RNTL OUTILEX Présentation des résultats Ministère de l'Industrie Vendredi 24 novembre 2006.

OUTILEX RNTL

Annotation sur l'automate du texte

Page 24: OUTILEX RNTL OUTILEX Présentation des résultats Ministère de l'Industrie Vendredi 24 novembre 2006.

OUTILEX RNTL

Autre grammaire

Page 25: OUTILEX RNTL OUTILEX Présentation des résultats Ministère de l'Industrie Vendredi 24 novembre 2006.

OUTILEX RNTL

Gestion des ressources linguistiques

module de flexion flexion des mots composés

indexation des dictionnaires de formes fléchies efficace : 63 s pour 1,3 million de formes

transcodage des ressources dans différents formats : texte (lisible, édition, maintenance) XML (format d'échange, maintenance) binaires (traitements)

Page 26: OUTILEX RNTL OUTILEX Présentation des résultats Ministère de l'Industrie Vendredi 24 novembre 2006.

OUTILEX RNTL

Interfaces

interface graphique utilisateur mise au point des ressources linguistiques

utilisation en ligne de commande mise au point des traitements

API optimisation utile pour le traitement de documents nombreux

Page 27: OUTILEX RNTL OUTILEX Présentation des résultats Ministère de l'Industrie Vendredi 24 novembre 2006.

OUTILEX RNTL

Normalisation

Page 28: OUTILEX RNTL OUTILEX Présentation des résultats Ministère de l'Industrie Vendredi 24 novembre 2006.

OUTILEX RNTL

Textes

texte tokenisé texte étiqueté référence : MAF

cadre d'annotation morphosyntaxique

Page 29: OUTILEX RNTL OUTILEX Présentation des résultats Ministère de l'Industrie Vendredi 24 novembre 2006.

OUTILEX RNTL

Lexiques

référence : LMF cadre de balisage de lexiques

structuration de lexiques noms propres lexiques terminologiques

Page 30: OUTILEX RNTL OUTILEX Présentation des résultats Ministère de l'Industrie Vendredi 24 novembre 2006.

OUTILEX RNTL

Diffusion

Page 31: OUTILEX RNTL OUTILEX Présentation des résultats Ministère de l'Industrie Vendredi 24 novembre 2006.

OUTILEX RNTL

Le site web

communication entre partenaires après la fin du projet : distribution de la plate-

forme et des ressources cotisation annuelle : 100 euros

paiement sécurisé sur le site

Page 32: OUTILEX RNTL OUTILEX Présentation des résultats Ministère de l'Industrie Vendredi 24 novembre 2006.

OUTILEX RNTL

Publications

nationales et internationales formats applications présentations générales

Page 33: OUTILEX RNTL OUTILEX Présentation des résultats Ministère de l'Industrie Vendredi 24 novembre 2006.

OUTILEX RNTL

Conclusion http://www.at-lci.com/outilex opérations de base sur les textes utilisation de ressources à large couverture la plate-forme sera bientôt disponible et ouverte au

développement collaboratif (licence LGPL) nouvelles fonctionnalités nouvelles langues