1 Modélisation, reformulation et interrogation dexpressions temporelles extraites de textes en...

16
1 Modélisation, reformulation et interrogation d’expressions temporelles extraites de textes en langage naturel Ce travail est financé par l’Agence Nationale de la Recherche (ANR-Contint, projet RelaxMultiMedias 2) Cyril Faucher , Jean-Yves Lafaye, Frédéric Bertrand L3i, Université de La Rochelle, France [email protected] Master 2, 16/09/2010

Transcript of 1 Modélisation, reformulation et interrogation dexpressions temporelles extraites de textes en...

Page 1: 1 Modélisation, reformulation et interrogation dexpressions temporelles extraites de textes en langage naturel Ce travail est financé par lAgence Nationale.

1

Modélisation, reformulation et interrogation d’expressions temporelles extraites de

textes en langage naturel

Ce travail est financé par l’Agence Nationale de la Recherche (ANR-Contint, projet RelaxMultiMedias 2)

Cyril Faucher, Jean-Yves Lafaye, Frédéric Bertrand

L3i, Université de La Rochelle, France [email protected]

Master 2, 16/09/2010

Page 2: 1 Modélisation, reformulation et interrogation dexpressions temporelles extraites de textes en langage naturel Ce travail est financé par lAgence Nationale.

Le doctorat

La thèse c’est un sujet faire l’état de l’art du domaine (bibliographie) des contributions

expérimenter des approches, développer des applicationsvaloriser son travail par des articles : conférences nationales /

internationales et des revues (journaux) rédiger un mémoire de thèse

Mais aussi participer à des groupes de travail, séminaires, etc enseigner à l’Université, à l’IUT, etc

Débouchés principaux : Maître de Conférence, ingénieur de recherche (public ou privé), startup, etc

2

Page 3: 1 Modélisation, reformulation et interrogation dexpressions temporelles extraites de textes en langage naturel Ce travail est financé par lAgence Nationale.

3

2

Thèse dans un contexte de projet de recherche avec des partenaires

industriels

Page 4: 1 Modélisation, reformulation et interrogation dexpressions temporelles extraites de textes en langage naturel Ce travail est financé par lAgence Nationale.

Plan

1. Contexte et objectifs

2. Modéliser des propriétés temporelles d’événements

3. Acquisition et Modélisation de Connaissances Temporelles : chaîne TKAM

4

Page 5: 1 Modélisation, reformulation et interrogation dexpressions temporelles extraites de textes en langage naturel Ce travail est financé par lAgence Nationale.

1. Contexte

Notion d’événements Nature des événements: culturels, touristiques Propriétés spatiales et temporelles Récurrence et périodicité

Interopérabilité avec les standards du domaine (presse) IPTC (NewsML, EventsML) iCalendar

52

Page 6: 1 Modélisation, reformulation et interrogation dexpressions temporelles extraites de textes en langage naturel Ce travail est financé par lAgence Nationale.

1. Objectifs

Représenter de manière intégrée des événements et leurs données associées (métadonnées)

Assurer la persistance dans une base de données / connaissances

Aligner un modèle métier sur des ontologies existantes (donne accès à des raisonneurs, définit une sémantique de manière formelle et structurée)

Formuler des requêtes avec des expressions contrôlées proche du langage naturel

6

Page 7: 1 Modélisation, reformulation et interrogation dexpressions temporelles extraites de textes en langage naturel Ce travail est financé par lAgence Nationale.

1. Contexte et objectifs

Chaîne d’acquisition de connaissances temporelles A partir de textes (dépêches), extraire des événements

Produire une reformulation du texte des dépêches, dans un langage formel non ambigu, proche du langage naturel initial

=> validation sémantique par l’utilisateur => interrogation

7

Texte libreEvénements + propriétés temporelles

Texte contrôlé

Page 8: 1 Modélisation, reformulation et interrogation dexpressions temporelles extraites de textes en langage naturel Ce travail est financé par lAgence Nationale.

1. Contexte : utilisation de l’IDM

Utilisation des techniques de l’Ingénierie Dirigée par les Modèles pour assurer l’interopérabilité d’applications métier (passerelles entre les applicatifs) l’intégration de données hétérogènes la vérification de l’intégrité d’instances / d’information

Exemple : transformation / reformulation / intégration

8

Texte Libre

SGBDR

Texte contrôlé

Ontologie

Page 9: 1 Modélisation, reformulation et interrogation dexpressions temporelles extraites de textes en langage naturel Ce travail est financé par lAgence Nationale.

2. Modéliser des propriétés temporelles d’événements : Comment ?

Deux types de représentations des occurrences d’événements Concrète : un ensemble (en extension) contenant des dates identifiables

dans un calendrier (une granularité est fixée, le calendrier est défini sur une base annuelle)

Extension :

{ …, « de 2010-05-20T14:00:00 à 2010-05-20T16:00:00 »,

« de 2010-05-27T14:00:00 à 2010-05-27T16:00:00 », … }

Abstraite : une formule décrit en intension l’ensemble précédentParticulièrement adapté aux événements périodiques ou pseudo

périodiques (exceptions), et aussi aux événements définis relativement les uns par rapport aux autres

Intension [Carnap] :« tous les jeudis de mai de chaque année de 14h à 16h »

« tous les jours 3 heures avant la basse mer »9

Page 10: 1 Modélisation, reformulation et interrogation dexpressions temporelles extraites de textes en langage naturel Ce travail est financé par lAgence Nationale.

2. Modéliser des propriétés temporelles d’événements : avec quel modèle ?

Modèle métier : Modèle d’accessiblité [Battistelli, Teissèdre]

Modèle d’événement : métadonnées sur les événements (IPTC) spatiales temporelles …

Modèles temporels existants ISO 19108 standard : Time geometry: Instant, Period, Allen’s relations iCalendar format : Periodic interval, Exception (+ periodic exception) TimeML [Pustejovsky], OWL-Time [Pan]

Modèle temporel proposé synthèse de l’ISO et d’iCalendar sous une forme objet position relative (3 heures avant la basse mer) une grammaire formelle

10

Page 11: 1 Modélisation, reformulation et interrogation dexpressions temporelles extraites de textes en langage naturel Ce travail est financé par lAgence Nationale.

2. Modéliser des propriétés temporelles d’événements : extrait du Modèle Temporel Extension de l’ISO 19108 Fondé sur le concept de règle périodique (PeriodicRule)

11

Norme ISO 19108

Page 12: 1 Modélisation, reformulation et interrogation dexpressions temporelles extraites de textes en langage naturel Ce travail est financé par lAgence Nationale.

L’utilisateur saisie des expressions temporelles avec un éditeur contextuel

2. Un langage textuel contrôlé pour exprimer des propriétés temporelles

12

Vue textuelle

Peuplement

Page 13: 1 Modélisation, reformulation et interrogation dexpressions temporelles extraites de textes en langage naturel Ce travail est financé par lAgence Nationale.

3. Workflow générique

13

cfauch01
DSL ad hoc pour l'extraction
Page 14: 1 Modélisation, reformulation et interrogation dexpressions temporelles extraites de textes en langage naturel Ce travail est financé par lAgence Nationale.

6ème semaine de chaque mois

6ème semaine de chaque année

Janvier 2010 suit décembre 2009

Décembre 2009 précède janvier 2009

3. Validation des expressions

14

Base de connaissance

Modèle du calendrier

Expressions temporelles

Définition de règles

Espace technique :• objet • conception par contrats

Espace technique :• logique de description

- un mois est composé de 4 à 5 semaines- une année est composée de 52 à 53 semaines

- janvier suit décembre de l’année précédente- février suit janvier de la même l’année

Page 15: 1 Modélisation, reformulation et interrogation dexpressions temporelles extraites de textes en langage naturel Ce travail est financé par lAgence Nationale.

3. Interrogation des expressions

15

Requêtes Est-ce qu’un musée est « ouvert le 20/05/2010 » ? Promotion : extension -> intension : « ouvert tous les jeudis » Recherche dans la base de connaissance des expressions du type

« tous les jeudis »« tous les jours (changement de granularité) »

Réponse du système : logique ternaire VRAI FAUX ? (inconnu)

Page 16: 1 Modélisation, reformulation et interrogation dexpressions temporelles extraites de textes en langage naturel Ce travail est financé par lAgence Nationale.

3. Acquisition et de Modélisation de Connaissances Temporelles : chaîne TKAM

16

Instances du modèle temporel

Instances du modèle linguistique

iCalendar

Texte contrôlé

La chaîne de traitement a été expérimentée sur un

corpus de 513 expressions fournies par RelaxNews

Expression saisie : « Ouvert du lundi au vendredi, de 9h à 18h. Nocturne le jeudi jusqu'à 22h. Fermé le 18 mai. »

- du texte en langage naturel au texte contrôlé -