Proposition d'architecture à base de corpus pour la ... · [SumTime-Mousam - Sripada 03] Réponse...

60
Génération Automatique de Texte E. Charton Introduction Un peu de théorie ! Les propositions d’architecture Le systèmes de GAT existants et leur fonction- nement Propositions Expériences de génération Proposition d’architecture à base de corpus pour la Génération Automatique de Texte Eric Charton Laboratoire d'Informatique Université d'Avignon Séminaires du Rali, Montréal Février 2010 1 / 34

Transcript of Proposition d'architecture à base de corpus pour la ... · [SumTime-Mousam - Sripada 03] Réponse...

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

Proposition d’architecture à base decorpus pour la Génération Automatique

de Texte

Eric Charton

Laboratoire d'Informatique

Université d'Avignon

Séminaires du Rali, MontréalFévrier 2010

1 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

Plan

1 Introduction

2 Un peu de théorie !

3 Les propositions d’architecture

4 Le systèmes de GAT existants et leur fonctionnement

5 Propositions

6 Expériences de génération

2 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

La génération automatique de texte (GAT)

ObjectifProduire un texte en langue naturelle à partir d’unereprésentation formelle d’un contenu

Exemples applicatifs

Produire un bulletin météo d’après des données[SumTime-Mousam - Sripada 03]Réponse automatique à des E.Mails [Lapalme - 03]Produire un texte d’après un formulaire [Smokinginformation questionnaire - Aberdeen NLG group 99]Documentation industrielle automatisée [AutomaticGeneration of Technical documentation - Reiter 95]Génération de réponses dans un système de dialogue[Rambow et al 01]

3 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

La génération automatique de texte (GAT)

ObjectifProduire un texte en langue naturelle à partir d’unereprésentation formelle d’un contenu

Exemples applicatifs

Produire un bulletin météo d’après des données[SumTime-Mousam - Sripada 03]Réponse automatique à des E.Mails [Lapalme - 03]Produire un texte d’après un formulaire [Smokinginformation questionnaire - Aberdeen NLG group 99]Documentation industrielle automatisée [AutomaticGeneration of Technical documentation - Reiter 95]Génération de réponses dans un système de dialogue[Rambow et al 01]

3 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

La génération automatique de texte (GAT)

ObjectifProduire un texte en langue naturelle à partir d’unereprésentation formelle d’un contenu

Exemples applicatifsProduire un bulletin météo d’après des données[SumTime-Mousam - Sripada 03]

Réponse automatique à des E.Mails [Lapalme - 03]Produire un texte d’après un formulaire [Smokinginformation questionnaire - Aberdeen NLG group 99]Documentation industrielle automatisée [AutomaticGeneration of Technical documentation - Reiter 95]Génération de réponses dans un système de dialogue[Rambow et al 01]

3 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

La génération automatique de texte (GAT)

ObjectifProduire un texte en langue naturelle à partir d’unereprésentation formelle d’un contenu

Exemples applicatifsProduire un bulletin météo d’après des données[SumTime-Mousam - Sripada 03]Réponse automatique à des E.Mails [Lapalme - 03]

Produire un texte d’après un formulaire [Smokinginformation questionnaire - Aberdeen NLG group 99]Documentation industrielle automatisée [AutomaticGeneration of Technical documentation - Reiter 95]Génération de réponses dans un système de dialogue[Rambow et al 01]

3 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

La génération automatique de texte (GAT)

ObjectifProduire un texte en langue naturelle à partir d’unereprésentation formelle d’un contenu

Exemples applicatifsProduire un bulletin météo d’après des données[SumTime-Mousam - Sripada 03]Réponse automatique à des E.Mails [Lapalme - 03]Produire un texte d’après un formulaire [Smokinginformation questionnaire - Aberdeen NLG group 99]

Documentation industrielle automatisée [AutomaticGeneration of Technical documentation - Reiter 95]Génération de réponses dans un système de dialogue[Rambow et al 01]

3 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

La génération automatique de texte (GAT)

ObjectifProduire un texte en langue naturelle à partir d’unereprésentation formelle d’un contenu

Exemples applicatifsProduire un bulletin météo d’après des données[SumTime-Mousam - Sripada 03]Réponse automatique à des E.Mails [Lapalme - 03]Produire un texte d’après un formulaire [Smokinginformation questionnaire - Aberdeen NLG group 99]Documentation industrielle automatisée [AutomaticGeneration of Technical documentation - Reiter 95]

Génération de réponses dans un système de dialogue[Rambow et al 01]

3 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

La génération automatique de texte (GAT)

ObjectifProduire un texte en langue naturelle à partir d’unereprésentation formelle d’un contenu

Exemples applicatifsProduire un bulletin météo d’après des données[SumTime-Mousam - Sripada 03]Réponse automatique à des E.Mails [Lapalme - 03]Produire un texte d’après un formulaire [Smokinginformation questionnaire - Aberdeen NLG group 99]Documentation industrielle automatisée [AutomaticGeneration of Technical documentation - Reiter 95]Génération de réponses dans un système de dialogue[Rambow et al 01]

3 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

Un domaine de recherche largementpluridisciplinaire

4 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

Qu’est ce qu’un texte ?

Une hiérarchieUn document composé de paragraphes (le plan)

Des paragraphes composés de phrases (le contenu)Des phrases composées de mots (le style)

Générer du texte commence par la production dephrases : qu’est ce qu’une phrase ?

Un système infini et non dénombrable, soumis à unegrammaire transformationnelle et non modélisable pardes approches statistiques (Chomsky)Chaque phrase est finie, l’ensemble des phrases estinfini mais dénombrable. La langue est régie par ladistribution des mots et groupes de mots (Harris)

5 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

Qu’est ce qu’un texte ?

Une hiérarchieUn document composé de paragraphes (le plan)Des paragraphes composés de phrases (le contenu)

Des phrases composées de mots (le style)

Générer du texte commence par la production dephrases : qu’est ce qu’une phrase ?

Un système infini et non dénombrable, soumis à unegrammaire transformationnelle et non modélisable pardes approches statistiques (Chomsky)Chaque phrase est finie, l’ensemble des phrases estinfini mais dénombrable. La langue est régie par ladistribution des mots et groupes de mots (Harris)

5 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

Qu’est ce qu’un texte ?

Une hiérarchieUn document composé de paragraphes (le plan)Des paragraphes composés de phrases (le contenu)Des phrases composées de mots (le style)

Générer du texte commence par la production dephrases : qu’est ce qu’une phrase ?

Un système infini et non dénombrable, soumis à unegrammaire transformationnelle et non modélisable pardes approches statistiques (Chomsky)Chaque phrase est finie, l’ensemble des phrases estinfini mais dénombrable. La langue est régie par ladistribution des mots et groupes de mots (Harris)

5 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

Qu’est ce qu’un texte ?

Une hiérarchieUn document composé de paragraphes (le plan)Des paragraphes composés de phrases (le contenu)Des phrases composées de mots (le style)

Générer du texte commence par la production dephrases : qu’est ce qu’une phrase ?

Un système infini et non dénombrable, soumis à unegrammaire transformationnelle et non modélisable pardes approches statistiques (Chomsky)Chaque phrase est finie, l’ensemble des phrases estinfini mais dénombrable. La langue est régie par ladistribution des mots et groupes de mots (Harris)

5 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

Qu’est ce qu’un texte ?

Une hiérarchieUn document composé de paragraphes (le plan)Des paragraphes composés de phrases (le contenu)Des phrases composées de mots (le style)

Générer du texte commence par la production dephrases : qu’est ce qu’une phrase ?

Un système infini et non dénombrable, soumis à unegrammaire transformationnelle et non modélisable pardes approches statistiques (Chomsky)

Chaque phrase est finie, l’ensemble des phrases estinfini mais dénombrable. La langue est régie par ladistribution des mots et groupes de mots (Harris)

5 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

Qu’est ce qu’un texte ?

Une hiérarchieUn document composé de paragraphes (le plan)Des paragraphes composés de phrases (le contenu)Des phrases composées de mots (le style)

Générer du texte commence par la production dephrases : qu’est ce qu’une phrase ?

Un système infini et non dénombrable, soumis à unegrammaire transformationnelle et non modélisable pardes approches statistiques (Chomsky)Chaque phrase est finie, l’ensemble des phrases estinfini mais dénombrable. La langue est régie par ladistribution des mots et groupes de mots (Harris)

5 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

Les phrases selon Chomsky

ChomskyPour Chomsky, les processus de Markov à nombre finisd’états ne permettent pas de modéliser une langue : "Il estimpossible de construire une machine qui produirait [toutes]les phrases grammaticales de l’Anglais"

6 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

Les phrases selon Harris

Harris : analyse distributionnelle"On peut décrire toute langue par une structuredistributionnelle, cad, par l’occurrence des partiesrelativement les unes aux autres"

"[Le modèle distributionnel] consiste à décrire toutesles formes [linguistiques] comme des combinaisonsd’éléments""Une forme A est dérivée d’une forme B parsubstitution [de ses éléments]"

A = e + f et B = e + gA dérive de B par substitution de g à fExemple : il est [en outre] très poli -> il est [par ailleurs] trèspoli

7 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

Les phrases selon Harris

Harris : analyse distributionnelle"On peut décrire toute langue par une structuredistributionnelle, cad, par l’occurrence des partiesrelativement les unes aux autres""[Le modèle distributionnel] consiste à décrire toutesles formes [linguistiques] comme des combinaisonsd’éléments"

"Une forme A est dérivée d’une forme B parsubstitution [de ses éléments]"

A = e + f et B = e + gA dérive de B par substitution de g à fExemple : il est [en outre] très poli -> il est [par ailleurs] trèspoli

7 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

Les phrases selon Harris

Harris : analyse distributionnelle"On peut décrire toute langue par une structuredistributionnelle, cad, par l’occurrence des partiesrelativement les unes aux autres""[Le modèle distributionnel] consiste à décrire toutesles formes [linguistiques] comme des combinaisonsd’éléments""Une forme A est dérivée d’une forme B parsubstitution [de ses éléments]"

A = e + f et B = e + gA dérive de B par substitution de g à fExemple : il est [en outre] très poli -> il est [par ailleurs] trèspoli

7 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

Les phrases selon Shannon

Génération de phrases selon un modèle de languageDans A mathematical theory of communication

"The resemblance to ordinary English text increasesquite noticeably at each of the above steps"

THE HEAD AND IN FRONTAL ATTACK ON AN ENGLISHWRITER THAT THE CHARACTER OF THIS POINT ISTHEREFORE ANOTHER METHOD FOR THE LETTERSTHAT THE TIME OF WHO EVER TOLD THE PROBLEMFOR AN UNEXPECTED.

8 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

Les phrases selon Shannon

Génération de phrases selon un modèle de languageDans A mathematical theory of communication"The resemblance to ordinary English text increasesquite noticeably at each of the above steps"

THE HEAD AND IN FRONTAL ATTACK ON AN ENGLISHWRITER THAT THE CHARACTER OF THIS POINT ISTHEREFORE ANOTHER METHOD FOR THE LETTERSTHAT THE TIME OF WHO EVER TOLD THE PROBLEMFOR AN UNEXPECTED.

8 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

Evolution de l’architecture dessystèmes de génération

automatique de texte

9 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

Une mise au point progressive depuis lesannées 50

Approches statistiques et combinatoiresTentative d’implémenter les grammaires dans dessystèmes de génération combinatoires [Mathews,1962]

Référence explicite à la théorie de la communication deShannon

L’influence Chomskyennes, années 60

Génération de phrases par combinaisons etintroduction de règles [Yngve,1960]Génération à base exclusive de grammaires horscontexte [Friedman, 1969]

10 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

Une mise au point progressive depuis lesannées 50

Approches statistiques et combinatoiresTentative d’implémenter les grammaires dans dessystèmes de génération combinatoires [Mathews,1962]Référence explicite à la théorie de la communication deShannon

L’influence Chomskyennes, années 60

Génération de phrases par combinaisons etintroduction de règles [Yngve,1960]Génération à base exclusive de grammaires horscontexte [Friedman, 1969]

10 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

Une mise au point progressive depuis lesannées 50

Approches statistiques et combinatoiresTentative d’implémenter les grammaires dans dessystèmes de génération combinatoires [Mathews,1962]Référence explicite à la théorie de la communication deShannon

L’influence Chomskyennes, années 60

Génération de phrases par combinaisons etintroduction de règles [Yngve,1960]Génération à base exclusive de grammaires horscontexte [Friedman, 1969]

10 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

Une mise au point progressive depuis lesannées 50

Approches statistiques et combinatoiresTentative d’implémenter les grammaires dans dessystèmes de génération combinatoires [Mathews,1962]Référence explicite à la théorie de la communication deShannon

L’influence Chomskyennes, années 60Génération de phrases par combinaisons etintroduction de règles [Yngve,1960]

Génération à base exclusive de grammaires horscontexte [Friedman, 1969]

10 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

Une mise au point progressive depuis lesannées 50

Approches statistiques et combinatoiresTentative d’implémenter les grammaires dans dessystèmes de génération combinatoires [Mathews,1962]Référence explicite à la théorie de la communication deShannon

L’influence Chomskyennes, années 60Génération de phrases par combinaisons etintroduction de règles [Yngve,1960]Génération à base exclusive de grammaires horscontexte [Friedman, 1969]

10 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

Années 70 à nos jours, 3 propositionsdominantes

Approches par patrons à trousDes modèles de phrases prédéfinis contenant deséléments variables [Reiter 1995 ;Deemter 2005]

Approches à base de règlessystèmes à base de règle et de grammaires régis parune architecture modulaire en pipeline [Reiter, 1994 ;Lapalme & Danlos, 2000]

Approches statistiques et n-grammessystèmes probabilistes guidés reposant sur desassemblages de n-grammes [Langdike & Knight, 1998 ;Belz, 2006]

11 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

Années 70 à nos jours, 3 propositionsdominantes

Approches par patrons à trousDes modèles de phrases prédéfinis contenant deséléments variables [Reiter 1995 ;Deemter 2005]

Approches à base de règlessystèmes à base de règle et de grammaires régis parune architecture modulaire en pipeline [Reiter, 1994 ;Lapalme & Danlos, 2000]

Approches statistiques et n-grammessystèmes probabilistes guidés reposant sur desassemblages de n-grammes [Langdike & Knight, 1998 ;Belz, 2006]

11 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

Années 70 à nos jours, 3 propositionsdominantes

Approches par patrons à trousDes modèles de phrases prédéfinis contenant deséléments variables [Reiter 1995 ;Deemter 2005]

Approches à base de règlessystèmes à base de règle et de grammaires régis parune architecture modulaire en pipeline [Reiter, 1994 ;Lapalme & Danlos, 2000]

Approches statistiques et n-grammessystèmes probabilistes guidés reposant sur desassemblages de n-grammes [Langdike & Knight, 1998 ;Belz, 2006]

11 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

Fonctionnement des systèmes degénération automatique de texte

12 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

Que dire et comment le dire ?

Deux paradigmes incontournables"Quoi dire" et "Comment le dire"

Une caution psycholinguistique [Levelt, 89 ; Ferrand 02]

13 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

Que dire et comment le dire ?

Deux paradigmes incontournables"Quoi dire" et "Comment le dire"Une caution psycholinguistique [Levelt, 89 ; Ferrand 02]

13 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

Le modèle de patron à trous

Un modèle classique et simpleLe système de [Buseman, 1998] pour produire desbulletins de pollutionFacile à déployer, aisé à maintenir en plusieurs languesUne hybridation simple avec les modèles pluscomplexes (voir comparaison par [Deemter 2005])

14 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

Le modèle d’architecture générique

Pipelined Natural langage Generation SystemUn ensemble de modules consécutifs

Repose essentiellement sur des modèles formels

15 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

Le modèle d’architecture générique

Pipelined Natural langage Generation SystemUn ensemble de modules consécutifsRepose essentiellement sur des modèles formels

15 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

Production des phrases

Utilisation de modèles formels de représentationArbres syntaxiques

Réseaux de transitionsFramesGraphes conceptuels

16 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

Production des phrases

Utilisation de modèles formels de représentationArbres syntaxiquesRéseaux de transitions

FramesGraphes conceptuels

16 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

Production des phrases

Utilisation de modèles formels de représentationArbres syntaxiquesRéseaux de transitionsFrames

Graphes conceptuels

16 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

Production des phrases

Utilisation de modèles formels de représentationArbres syntaxiquesRéseaux de transitionsFramesGraphes conceptuels

16 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

Exemple de système à base de grammaires

Simple NLG [Reiter, 2009]Librairie en Java. Il faut programmer le texte : indiquerle temps, l’intention de communicationLe système gère la construction de phrase, lesconjugaisons, les connexions logiquesUniquement en anglais, très difficile à adapter

17 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

Expériences à base de corpus

Le corpus en tant que ressource pour la générationLe corpus est utilisé en tant que ressource den-grammes [Langkilde, 1998]Le corpus est utilisé en tant que ressource de choixlexical [Bangalore, 2000]Le corpus est utilisé en tant que ressource de partiesde phrases avec des étiquettes discursives [Marciniak,2005]Aucun système n’utilise le corpus en tant queressource de phrases prêtes à l’emploi

18 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

Un système de générationautomatique de texte d’après une

librairie de phrases modèles

19 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

Principe de base

Tirer partie des avantages de chaque modèleRemplacer la génération syntaxique par un inventairede phrases le plus grand possibleAvantage : génération multilingue possible, adaptation des modèles de génération automatisée

Utiliser le principe des patrons à trous pour transformer lescontenus d’une phrase existanteAvantage : simplicité du processus de transformation

Utiliser des modèles n-grammes pour réaliser les dernièrestransformations de surface (genre, etc)Avantage : les phrases du modèle ont une meilleure couverture puisqu’elles deviennent partiellementtransformables

20 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

Modélisation des phrases d’une langue (1)

Le modèle de phrasesRécupérer depuis un corpus proche du domaine degénération plusieurs millions de phrasesLe corpus ne sert plus à modéliser les n-grammes maisles formes de phrasesEtiqueter ces phrases à plusieurs niveaux (lexical,morphosyntaxique, syntagmatique) pour les rendreabstraites

Les corpus de phrases possiblesWikipédia (28 millions de phrases FR, 115 millions de phrases EN ...)

Wikisource, Gutemberg (plusieurs milliers de livres thématiques)

Des corpus adaptés au domaine de génération visé (notions de e.langage et i.langage) (juridique,technique, web) (Notion de I-Language [Chomsky 1986] / masse parlante [Saussure 1894])

21 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

Modélisation des phrases d’une langue (2)

Le modèle de générationFormaliser une intention de communication : l’arbre dedépendance, les contenus des syntagmes, les concepts et leurssynonymes

Mesurer la similarité entre l’intention de communication et lesphrases abstraites contenues dans le modèle

Sélectionner une liste des N meilleures phrases candidates

Choisir la meilleure candidate et remplacer les abstractions par leséléments de l’intention de communication

22 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

Représentation d’une espace linguistique

Comment le dire ?

Le modèle de phrase à trois niveauxA : Niveau lexical et conceptuelB : Niveau morpho-syntaxiqueC : Niveau syntagmatique (dépendances)

Rendre les phrase du corpus les plus abstraites possibles

Exemple : Le Rhône passe en bordure d’Avignon

A Le LOC.GEO passe en bordure d’ LOC.ADMIB det.art nam verb.pres prp nom prp namC SN SN NV SA SA SA SA

23 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

Représentation d’une intention decommunication

Que dire ?La représentation de l’intention de communication

A : Concept lexical (réseau de synonynes) - EntitésnomméesB : Niveau morpho-syntaxiqueC : Niveau syntagmatique (dépendances)

Exemple : Loire ;Couler :présent ;Autour ;Orléans

LOC.GEO couler :passer :ruisseler :traverser autour :bord :orée :pourtour :corniche LOC.ADMInam verb.pres nom namSN NV SA SA

24 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

Mesures de similarité

Chercher une phrase dans le modèle (M) correspondant à la représentation de l’intention de communication(I)

1 : évaluer le degré de proximité lexicale

2 : évaluer la proximité des arbres de dépendances

3 : évaluer la compatibilité de temps, de forme (négations, pluriels,etc)

Méthode utilisée1 : La similarité cosinus permet de mesurer la proximité lexicale -cos(Mlex, Ilex)

2 : un calcul de pourcentage de proximité ps appliqué sur chaqueniveau des arbres de M et I comparés

3 : Calcul de similarité cosinus sur les étiquettes de POScos(Mpos, Ipos) (ie : temps des verbes)

Rang de la phrase candidate : est égal au produit decos(Mlex, Ilex) ∗ ps ∗ cos(Mpos, Ipos) (ou à la somme des log base 10)

25 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

Appliquer un traitement de surface à la phrasechoisie

I=Loire ;Couler→ présent ;Autour ;Orléans

Exemple : M=Le Rhône passe en bordure d’AvignonA Le LOC.GEO passe en bordure d’ LOC.ADMIB det.art nam verb.pres prp nom prp namC SN SN NV SA SA SA SA

Remplacer les contenus par les correspondances(principe du patron à trous)

A Le Loire passe en bordure d’ OrléansB det.art nam verb.pres prp nom prp namC SN SN NV SA SA SA SA

Appliquer un traitement de surface avec des règles oudes modèles n-grammes

La Loire passe en bordure d’ Orléans

26 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

Composants du système

Génération du modèle de phrasesLexique d’entités nommées NLGbAse (5 langues) [Charton &Torres-Morenno, 2009]

Etiqueteur d’entités nommées LIA/ESTER (CRF) [Béchet &Charton, 2010]

Lexique terminologique et verbal Worldnet / base de synonymesCortex

Etiqueteur morphosyntaxique multilingue LIA-TAG/TreeTagger

Algorithme de substitution par n-grammes [Charton &Torres-Morenno, 2010]

Modèles de phrases produitsCorpus Wikipédia FR, EN, ES, IT, PL

Modèle français : 28 millions de phrases

Modèle anglais : 120 millions de phrases

Modèle espagnol : 12 millions de phrases (en cours)27 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

Composants du système

28 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

Evaluation et résultatspréliminaires

29 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

Expérience

PrincipeGénérer un modèle de phrase appris sur Wikipédia FRExtraire 100 phrases qui seront retirées du modèleConstruire une représentation de l’intention decommunication pour les 100 phrasesChercher des modèles de phrases compatiblesProduire une phrase syntaxiquement etsémantiquement correcte

30 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

Expérience

ExemplePhrase servant de base pour construire l’intention decommunicationLes armées de Junot envahissent le pays

FormalisationA armée ;troupes ; PERS envahir attaquer pays ;voisin ;frontièreB nom nam verb.pres nomC SN SN NV SA

31 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

Expérience

FormalisationA armée ;troupes ; PERS envahir attaquer pays ;voisin ;frontièreB nom nam verb.pres nomC SN SN NV SA

Propositions ordonnée fournie par le systèmeBelka disposant d’une puissante armée , envahit son voisin

Les armées Wisigoth envahirent le pays

Les princes ruthénes envahirent le pays polonais

Le sire Anselme de Ribeaupierre attaqua en 1287 la ville de Saint-Hippolyte

Les Philistins envahirent une fois de plus le pays

Lesdites hostilités débutent lorsque les premiers attaquent à l’arme lourde le domicile privée de l’exPrésident Sassou

TransformationJunot disposant d’une puissante armée, envahit son voisin

32 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

Résultats préliminaires

Validation de l’algorithme de similarité100% des phrases qui correspondent à l’intention decommunication sont retrouvées dans le modèle de phrasessi elles y sont présentes

Validation du processus de génération pour 100intentions de communication, non présentes dans lemodèle de phrasesSens et syntaxe correcte 74Sens correct et syntaxe erronée 9Sens incorrect et syntaxe correcte 6Sens incorrect et syntaxe erronée 11

33 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

Conclusions

Une architecture prometteuseLe système fonctionne dans 74% des cas

Il est moins performant qu’un système à base de règles et degrammaires qui fonctionne dans tous les cas

Il est peu coûteux à mettre au point, facilement adaptable àplusieurs langues

La taille du corpus d’apprentissage et son domaine jouent un rôleimportant sur la qualité et les performances

PerspectivesAchever la mise au point (traitement des négations, etc)

Produire un jeu d’expérience de taille suffisante

Identifier une méthode d’évaluation semi-automatique

Appliquer dans un contexte multilingue

34 / 34

GénérationAutomatique

de Texte

E. Charton

Introduction

Un peu dethéorie !

Lespropositionsd’architecture

Le systèmesde GATexistants etleur fonction-nement

Propositions

Expériencesde génération

Merci

Eric Charton - [email protected]

35 / 34