Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

98
Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS

Transcript of Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

Page 1: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

Modèles pour le Traitement Automatique des Langues

Alain Lecomte

M1-ICPS

Page 2: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

Le Traitement Automatique des Langues

• Traduction automatique (ou assistée)• Interfaces en langue naturelle• Dialogue homme – machine• Indexation automatique de documents• Web sémantique

– Par exemple, quand je tape dans Google « Statistical NLP », il n’est pas fichu de me renvoyer les documents concernant « Statistical Natural Language Processing »!!!

• Recherche d’information• Aide à la rédaction dans des langues simplifiées

Page 3: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

Exemples dans les stages soutenus en 2005

• Sur six mémoires soutenus en septembre, quatre portaient sur du TAL:– Extraction des entités nommées (Digimind, veille

technologique)– Indexation sémantique de documents (Xerox, projet

«document intelligent »)– Moteur d’interrogation synchrone de plusieurs

dictionnaires en ligne (sté Babeling)– Mémoires de traduction (sté Babeling)– Un site pour les apprenants du chinois (U. Stendhal)

Page 4: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

Groupe NLP de Microsoft (1)

• The goal of the Natural Language Processing (NLP) group is to design and build software that will analyze, understand, and generate languages that humans use naturally, so that eventually you will be able to address your computer as though you were addressing another person.

• This goal is not easy to reach. "Understanding" language means, among other things, knowing what concepts a word or phrase stands for and knowing how to link those concepts together in a meaningful way. It's ironic that natural language, the symbol system that is easiest for humans to learn and use, is hardest for a computer to master. Long after machines have proven capable of inverting large matrices with speed and grace, they still fail to master the basics of our spoken and written languages.

Page 5: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

• The challenges we face stem from the highly ambiguous nature of natural language. As an English speaker you effortlessly understand a sentence like "Flying planes can be dangerous". Yet this sentence presents difficulties to a software program that lacks both your knowledge of the world and your experience with linguistic structures. Is the more plausible interpretation that the pilot is at risk, or that the danger is to people on the ground? Should "can" be analyzed as a verb or as a noun? Which of the many possible meanings of "plane" is relevant? Depending on context, "plane" could refer to, among other things, an airplane, a geometric object, or a woodworking tool. How much and what sort of context needs to be brought to bear on these questions in order to adequately disambiguate the sentence?

Groupe NLP de Microsoft (2)

Page 6: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

• We address these problems using a mix of knowledge-engineered and statistical/machine-learning techniques to disambiguate and respond to natural language input. Our work has implications for applications like text critiquing, information retrieval, question answering, summarization, gaming, and translation. The grammar checkers in Office for English, French, German, and Spanish are outgrowths of our research; Encarta uses our technology to retrieve answers to user questions; Intellishrink uses natural language technology to compress cellphone messages; Microsoft Product Support uses our machine translation software to translate the Microsoft Knowledge Base into other languages. As our work evolves, we expect it to enable any area where human users can benefit by communicating with their computers in a natural way.

Groupe NLP de Microsoft (3)

Page 7: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

Y a-t-il un modèle universel de traitement des langues?

• Principales difficultés:– La très grande variété des solutions choisies

par les langues pour exprimer le « sens »• Modèles existants développés surtout à partir des

langues dominantes :langues indo-européennes (surtout l’anglais!), japonais, chinois…

– La très grande complexité du langage humain• Problème NP-dur, voire indécidable?

Page 8: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

Langue et système de communication

• À quoi sert le langage?– Insuffisance de la thèse selon laquelle il « sert

à communiquer »– La langue n’est pas un simple « code »– Le rôle de la langue pour :

• Argumentation (Dessalles)• Narration (Victorri)

Page 9: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

des structures universelles?

• On s’accorde pour reconnaître l’importance de plusieurs types de structure:– Structure en constituants (ou syntagmatique)– Structure thématique– Structure morphologique

Page 10: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

Structure syntagmatique (1)

• Importance de la décomposition en syntagmes– Concept syntaxique ou concept sémantique? – Rôle de la structure en constituants dans la

détermination d’une entité

Page 11: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

Structure syntagmatique (2)

• Offre la possibilité de regrouper les prédicats qui se rapportent à la même variable

• Un syntagme = une tête + des compléments + (éventuellement) un spécifieur ou sujet

• A l’intérieur d’un même syntagme : partage d’argument

• La notion d’arbre rend bien compte de ces notions

Page 12: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

Ex: syntagme nominal• Le petit chat de Marie

N’’

N’Det

Adj

N

N

SP

petit(x) chat(x)

Page 13: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

Syntagme nominal• Le petit chat de Marie

N’’

N’Det

Adj

N

N

SP

petit(x) chat(x)

petit(x)&chat(x)

Page 14: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

Syntagme nominal• Le petit chat de Marie

N’’

N’Det

Adj

N

N

SP

petit(x) chat(x)

petit(x)&chat(x) possède(Marie, x)

Page 15: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

Syntagme nominal• Le petit chat de Marie

N’’

N’Det

Adj

N

N

SP

petit(x) chat(x)

petit(x)&chat(x) possède(Marie, x)

petit(x)&chat(x)&possède(Marie, x)

Page 16: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

Syntagme nominal• Le petit chat de Marie

N’’

N’Det

Adj

N

N

SP

petit(x) chat(x)

petit(x)&chat(x) possède(Marie, x)

petit(x)&chat(x)&possède(Marie, x)

Le x tel quepetit(x)&chat(x)&possède(Marie, x)

Page 17: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

• Tous les noeuds ont une variable commune,

• Le syntagme a trois niveaux :– Niveau 0 : position de la tête, possibilité

d’insertion lexicale d’un N– Niveau 1 : la tête + ses compléments (eux-

mêmes des syntagmes « complets »)– Niveau 2 : le syntagme de niveau 1 + son

spécifieur

Page 18: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

phrase

• Analyse classique:

• Pourquoi?

S

SNSV

V SN

Peter likes Mary

Page 19: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

phrase

• Analyse classique:S

SNSV

V SN

Peter likes Mary

SUJET

OBJET

Page 20: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

phrase (2)

• X-barre? une solution:S = IP

I’

InflSV

V’

V

Page 21: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

phrase (2)

• X-barre? une solution:S = IP

I’

InflSV

V’

V

SNsujet

?

?

Page 22: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

phrase (2)

• X-barre? une solution:S = IP

I’

InflSV

V’

V

SN

Page 23: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

phrase (2)

• X-barre? une solution:S = IP

I’

InflSV

V’

V

SN

MOVE t

Page 24: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

phrase (2)

• X-barre? une solution:S = IP

I’

InflSV

V’

V

SN

MOVE

cas nominatif

t

Page 25: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

Profondeur des arbres

• Est-ce que les arbres élémentaires ont toujours trois niveaux?

• Qu’est-ce qui sert de tête dans le cas de la « phrase » (nœud S)?

• Le nœud SV est-il toujours nécessaire? – Y a-t-il des langues plus «plates» que

d’autres?

Page 26: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

Cas du latin

• Tullius vidit Paulum• Paulum vidit Tullius• Tullium vidit Paulus• Paulus vidit Tullium

• Mettre un nœud SV est inutile, puisque le sujet est reconnu par sa marque morphologique

S

VSN SN

Page 27: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

Rôles thématiques

• On appelle rôles thématiques les rôles joués par les entités mises en jeu dans le discours

• J.L. Dessalles appelle segmentation thématique le processus visant à présenter une situation sous la forme d’un énoncé linéaire mettant en évidence ces rôles

Page 28: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

exemple

• Pierre va de Paris à Londres– Trois entités mises en jeu : Pierre, Paris,

Londres• Pierre est l’entité qui se déplace : le « thème »• Paris est l’origine du déplacement : la « source »• Londres en est : « le but »

Page 29: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

suite

• Noter que ce n’est pas si simple…

• Le nuage (chimique!) va de Pont-de-Claix à Echirolles– Ici, rien ne se déplace à proprement parler– On peut néanmoins continuer d’attribuer ces

rôles thématiques à le nuage, Pt-de-Claix et Echirolles

Page 30: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

rôles thématiques (2)

• Pierre coupe la viande avec son couteauAGENT PATIENT INSTRUMENTsujet objet complément ind.

• Pierre utilise son couteau pour couper la viandeAGENT INSTR. BUT PATIENTsujet objet compl. objet

• La viande se coupe facilement avec un couteauPATIENT INSTR.sujet compl.

• Le couteau coupe bien la viandeINSTRUMENT PATIENTsujet objet

Page 31: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

rôles thématiques (3)cas du sanskrit – Pânini (500 av JC)

• les six karaka – agent (kartr), objet (karman), intrument (karana), destinataire

(sampradana), origine (apadana), location (adhikarana)– Devadattah pacati odanam

indique que le nom avec –h est agent

– AGENT ACTION OBJET– Devadatta cuisine le riz– Devadattena pacyata odanah

indique que le nom avec –h est objet

– Le riz est cuisiné par devadattena

Page 32: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

Autonomie relative de la syntaxe

• Le lien fonction grammaticale – rôle thématique n’est pas systématique (cf. passif).– Le gardien de but relance le ballon

sujet = agent– Le ballon est relancé par le gardien de but

sujet = patient

• « la part d’arbitraire dans le rapport entre grammaire et sens contribue à conférer une autonomie à la syntaxe ».

Page 33: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

Structure morphologiqueex. d’une langue bantoue

• Le mot Nàïkimiyiïà : « II le mange pour elle », comporte 8 parties : • n- : marqueur de focus• -à- : accord de classe avec le sujet (il existe 16 classes : humain singulier,

humain pluriel, objets fins, objets étendus, objets en paquets, objets allant par paires, paires elles-mêmes, paquets, instruments, animaux, parties du corps, diminutifs de petitesse et d'affection, qualités abstraites, localisations précises, localisations vagues). Ici: humain singulier

• -î- : temps présent (temps : aujourd'hui, plus tôt aujourd'hui, hier, pas plus tôt qu'hier, hier ou avant, dans le passé lointain, habituellement, en train, consécutivement, hypothétique, futur, temps indéterminé, pas encore, parfois).

• -kî-: accord avec l'objet, classe animaux (classe 10)• - m - : marqueur indiquant que le bénéficiaire de l'action est de la classe 1• -lyi -: verbe manger• -1- : modification du verbe pour indiquer la présence d'un rôle de

bénéficiaire• -à : mode indicatif

Page 34: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

n à ï ki m iyi ï à

nàïkimiyiïà

focus accord suj.hum.sing.

présent

accord obj.animaux

benef racine verbalemanger

mode indicatifmodifverbale

Page 35: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

Différentes propriétés des langues

• Accusativité et ergativité– Exemple du tibétain:– Les constructions ergatives peuvent paraître surprenantes au

début dans la mesure où elles fonctionnent à l’inverse des constructions accusatives dans les langues européennes. Dans ces dernières ainsi qu’en chinois, le sujet n’est pas marqué tandis que l’objet l’est, soit par un cas spécial, l’accusatif (cf. latin , russe), soit par sa position, en étant rejeté après le verbe. Le tibétain, lui, choisit de marquer non pas l’objet mais le sujet par un cas, l’ergatif. Le sujet marqué par l’ergatif correspond presque toujours à un agent humain. Le cas de l’objet correspond à l’absence de marque formelle et est appelé « absolutif ».

Page 36: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

ergativité

• Latin : ego ill-um libr-um legi• Russe : ja èt-u knig-u procëi• (nom) (ce+acc) (livre+acc) lire

(passé)• Chinois: wo kan-guo zhe-ben shu• Français: j’ ai lu ce livre• Anglais : I read this book• (nom) lire (passé) (ce) (livre)• Tibétain : ngä thep tä-payin• (erg) (livre+abs) (lire-passé)

Page 37: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

Langues isolantes vs agglutinantes

• Inuit (inuktitut) :– Je pense lui donner un kayak– qajaqartinniarpara (un seul mot)

• qajaq : kayak• qar : avoir• ti : le faire• niar : vouloir• pa : but• ra : mon

• Conséquence :– Difficulté de définir ce que l’on entend par « un mot »

Page 38: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

Pro-drop• Français : il pleut• Anglais : it rains• Italien : piove• Espagnol : llueve

• Italien : Verrà Gianni / Gianni verrà• Français : Jean vient / *vient Jean mais :

il est arrivé quelqu’un

• Anglais: which book did you think that Mary read? *who did you think that read those books?

• Français: quel livre crois-tu que Marie a lu? *qui crois-tu que a lu ces livres?

• Italien: chi credi che verra?

Page 39: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

Ordre des constituants

Ordre pourcentage exemples

des langues

SVO 42 anglais, edo, indonésien

SOV 45 japonais, turc, quetchua

VSO 9 zapotec, gallois

VOS 3 totzil, malagasy

OVS 1 hixkaryana

OSV 0

Page 40: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

Structure en constituants vs marquage morphologique

• Français : La sœur de Yann a retrouvé le petit chat noir

• Warlpiri : La(SU) de Yann(SU) a retrouvé chat(OB) sœur(SU) petit(OB) noir(OB)

Page 41: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

récursivité

• Récursivité évidente du système de branchement en syntagmes– un, un plus un, un plus un plus un, etc.

• Marquage morphologique non récursif?– Allemand :

• Der Vater des Schülers shämt sich • Der Vater schämt sich des Schülers

Page 42: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

L’ancien géorgien

• igi sisxl-i saxl-isa-j m-is Saül-is-isa-j

• le-nom sang-nom maison-gen-nom la-gen Saül-gen-gen-nom

• N1-nom N2-gen-nom N3-gen2-nom - … - Nk-genk-nom

Page 43: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

à différencier du… sumérien

– maison du roi (king’s house)– é lugal-ak– maison roi-GEN– dans la maison du roi– é lugal-ak-a– maison roi-GEN-LOC– dans la maison du frère du roi– é ses lugal-ak-ak-a– maison frère roi-GEN-GEN-LOC

Page 44: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

relativisation

• Paul achète un livre que Jean a acquis

• c’est grâce à ‘que’ que le deuxième argument de acquérir peut être partagé avec livre

• ainsi que effectue un déplacement qui permet de rapprocher cet argument de la tête livre.

Page 45: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

Le SN un livre que Jean a acquisN’’

Det N’

N ***

I’’

I’

I V’’

V’

V

SN

SN

un

livre

t

SNJean

a

acquis t’

que

Page 46: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

Le SN un livre que Jean a acquisN’’

Det N’

N ***

I’’

I’

I V’’

V’

V

SN

SN

un

livre(x)

t

SNJean

a

acquis t’

que

z

y

a_acquis(z, y)

a_acquis(Jean, y)

a_acquis(Jean, y) & x = y

Page 47: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

• Paul achète un livre que Jean a acquisx achète(Paul, x) & livre(x) &

a_acquis(Jean, x)

Page 48: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

commentaire

• que transporte la variable qui tient lieu de deuxième argument du verbe enchâssé vers une position où elle devient visible pour le prédicat livre(x)

• Le lien x = y résulte alors de la relation de gouvernement qui existe entre la position occupée par livre et celle occupée par que, et qui traduit la notion de proximité au sein d’un syntagme,

• C’est le système mouvement-trace qui permet à un argument de se hisser à l’extérieur de son prédicat pour être visible depuis le prédicat supérieur.

Page 49: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

relativisation (2)

• Tibétain : – J’ai acheté-NOM GEN chemise– nominalisateur + génitif

Page 50: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

Formation de questions

• En oui/non :– Pierre est-il parti en vacances ?– Did Peter go in holidays ?– Fait-il beau là où tu es ?– Is the weather fine, at the place you are presently ?

• Chinois:– ni shi faguo ren ni shi faguo ren ma ?– tu es français tu es français – interr (es-tu

français ?) • Tibétain:

– thep yö thep yö-pä– tu as des livres as-tu des livres ?

Page 51: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

Formation de question (2)

– Quel livre m’as-tu recommandé de lire ?– Which book did you recommand me to read ?

• Déplacement, traces– [Quel livre]i m’as-tu recommandé de lire ti ?– [Which book]i did you recommand me to

read ti ?

• Chinois:– ni kan-shu-le shenme ben shu ?– tu as lu quel (classif) livre?

Page 52: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

Sujet / Objet

• Français, anglais : ordre des mots• Japonais : o et ga

– John frappe Marie, :– John-ga Mary-o butta– Mary-o John-ga butta

• Mohawk : – John likes Mary– Sak Uwary shako-nùhwe’s– Mary likes John– Sak Uwary ruwa- nùhwe’s – 45 différents préfixes!

Page 53: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

Modèles classiques (1)

• Grammaires hors-contexte– Limitations (néerlandais, suisse allemand…)– Empêche de faire des généralisations « entre

les langues »

• Amélioration : – GPSG (Gazdar, Klein, Pullum, Sag) autour de

1985

Page 54: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

Modèles classiques (1)rappels

Type 0 (Turing-reconnaissables)

Type 1 (contextuels)

Type 2 (hors-contexte)

Type 3 (réguliers)

Page 55: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

Modèles classiques (1)rappels

Type 0 (Turing-reconnaissables)

Type 1 (contextuels)

Type 2 (hors-contexte)

Type 3 (réguliers)

LN?

Page 56: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

Modèles classiques (1)ou….

Type 0 (Turing-reconnaissables)

Type 1 (contextuels)

Type 2 (hors-contexte)

Type 3 (réguliers)

LN?

Page 57: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

Ordre des mots dans les subordonnées

• Anglais:– I said that Jan saw Mary let hans teach the

children to swim

• Allemand:– Ich sagte, dass Jan Marie Hans das Kind

schwimmen lehren lassen sah

• Néerlandais:– Ik zei dat Jan Marie Hans het kind zag laten

leren zwemmen

Page 58: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

Ordre des mots dans les subordonnées

• Anglais:– that Jan saw Mary let Hans teach the children to swim

• Allemand:– dass Jan Marie Hans das Kind schwimmen lehren lassen sah

• Néerlandais:– dat Jan Marie Hans het kind zag laten leren zwemmen

Page 59: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

Ordre des mots dans les subordonnées

• Anglais:– that Jan saw Mary let Hans teach the children to swim

• Allemand:– dass Jan Marie Hans das Kind schwimmen lehren lassen sah

• Néerlandais:– dat Jan Marie Hans het kind zag laten leren zwemmen

Page 60: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

anglais

• S SN SV• SI SN SVI• SV V SI | Vb• SVI VI SI | VbI• SN jan | marie | hans | the child• VI see | teach | let• VbI swim• V saw | let | taught• Vb swam

Page 61: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

S

SN SV

V SI

SN SVI

VI SI

Jan

saw

Mary

let

SN SVIHans

VI SIteach

Page 62: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

allemand

• S SN SV• SI SN SVI• SV SI V | Vb• SVI SI VI | VbI• SN jan | marie | hans | das Kind• VI sehen | lehren | lassen• VbI schwimmen• V sah | liess | lehrte• Vb schwamm

Page 63: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

S

SN SV

VSI

SN SVI

VISI

Jan

sah

lehren

SN SVI

Marie

VISI

lassen

Hans

Page 64: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

néerlandais?

• S1 SN Vb | SN SV1• SV1 S2 VbI• S2 SN SV2• SV2 S2 VI | SN V• SN jan | marie | hans | het kind• VI zien | laten | leren• VbI zwemmen• V zag | liet | lerte• Vb zwam

Page 65: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

S1

SN SV1

VbIS2

SN SV2

VIS2

Jan

zwemmen

laten

SN SV2

Marie

VIS2

leren

Hans

Page 66: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

S1

SN SV1

VbIS2

SN SV2

VIS2

Jan

zwemmen

laten

SN SV2

Marie

VIS2

leren

Hans

Structure incorrecte !

?

Page 67: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

Exercice • Faire une grammaire hors-contexte de l’anglais qui s’applique aux phrases

suivantes avec auxiliaire :– I did prepare one meal– He will prepare one meal

• Ajouter ce qu’il faut à cette grammaire pour obtenir aussi des phrases comme:

– Did he prepare one meal?– Who did prepare this meal?– What did he prepare?

• Comment résoudre le cas de phrases comme:– I prepared this meal

• Que faut-il changer à la grammaire obtenue en (1) pour avoir une grammaire qui s’applique à la phrase tibétaine:

– nga neka ci sö payin– [je plat-un préparé AUX]

• Décrire avec des déplacements la phrase:– I did prepare the meal that you are eating

Page 68: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

Modèles classiques (2)

• Les langues naturelles seraient-elles « mildly context-sensitive »?– Grammaires d’arbres adjoints (A. Joshi)

• Vers une « lexicalisation »:– Grammaires d’arbres adjoints lexicalisées– Grammaire catégorielle combinatoire (M.

Steedman)

Page 69: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

Modèles classiques (3)

• Prolog les vertus de l’unification

• Grammaires d’unification– DCG– LFG– HPSG

Page 70: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

exemple

chien ::=

CAT : N

AGR : GE : masc

NBR : sing

Page 71: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

exemple

un ::=

CAT : Det

AGR : GE : masc

NBR : sing

Page 72: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

exemple

aboie ::=

CAT : V

AGR : NBR : sing

SUBCAT : nil

Page 73: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

exemple

mange ::=

CAT : V

AGR : NBR : sing

SUBCAT : 1er :

queue : nil

CAT: SN

Page 74: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

exemple

donne ::=

CAT : V

AGR : NBR : sing

SUBCAT : 1er :

queue :

CAT: SN

1er:queue : nil

Cat : SPPFORM: à

Page 75: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

représentation sous forme de graphe

chien ::=

CAT AGR

NGE NBR

masc sing

Page 76: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

un ::=

CAT AGR

detGE NBR

masc sing

Page 77: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

aboie ::=

CAT AGR

V

NBR

sing

SUBCAT

nil

Page 78: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

mange ::=

CAT AGR

VNBR

sing

SUBCAT

1er

CATSN

queue

nil

Page 79: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

donne ::=

CAT AGR

VNBR

sing

SUBCAT

1er

CATSN

queue

1er

CAT PFORM

queue

nil

SP à

Page 80: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

structures de traits

• D’une façon générale, on appelle ces objets: structures de traits

Page 81: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

structure de traits associée à une règle

soit la règle s ---> sn, sv, avec l’accord entre sn et sv

On peut la traduire par une règle (schéma de concaténation)et un ensemble d’équations entre valeurs de traits :

Règle : X ---> Y, Z

Equations:cat(X) = scat(Y) = sncat(Z) = svagr(Y) = agr(Z)

Page 82: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

ou par la structure de traits:

X :

Y :

Z :

CAT: S

CAT: SNAGR: #1

CAT: SVAGR: #1

Page 83: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

cette règle ne peut s’appliquer:

• Qu’à deux objets A et B qui peuvent s’unifier respectivement à:

– et à:

CAT: SN

AGR: #1

CAT: SV

AGR: #1

Page 84: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

Exemple:Médor aboie

Page 85: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

agr

sn

X Y Z

cat cat

scat

agr

sv

On utilise le schéma de règle :

Page 86: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

cat agr

sn

masc sing

ge nbr

Médor

Voici la structure de traits associée dans le lexique à/Médor/

Page 87: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

sing

nbr

aboie

cat

agr

sv

Voici la structure de traits associée dans le lexique à/aboie/

Page 88: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

X Y Z

cat

cat cat agr agr

s sn sv

sing

nbr

aboie

Insertion de /aboie/ dans le schéma de règle

Page 89: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

masc sing

ge nbr

aboie

cat

agr

sv

X Y Z

cat cat

scat

agr

sv

Médor

sn

Insertion de /Médor/ dans le schéma de règle

Page 90: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

• Il y a réussite car les trois structures :– schéma de règle (partie bleue)– entrée lexicale /Médor/– entrée lexicale /aboie/

se sont unifiées

Page 91: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

plur

nbr

aboient

cat

agr

sv

Autre exemple : *Médor aboient

Entrée lexicale associée à /aboient/

Page 92: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

X Y Z

cat

cat cat agr agr

s sn sv

plur

nbr

aboient

Insertion de /aboient/ dans le schéma de règle

Page 93: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

masc plur

ge nbr

aboient

cat

agr

sv

X Y Z

cat cat

scat

agr

sv

Médor

sn

sing

Echec de l’insertion de /Médor/ dans le schéma de règle

Page 94: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

Exercice • Faire une grammaire d’unification sur le modèle précédent qui accepte les phrases

suivantes (à condition que l’accord soit respecté):– Nous achetons nos livres– Ils achètent des livres usagés– Il vend une armoire usagée

• En refusant bien sûr:– *Nous achètent nos livre– *Ils achète des livre usagés– *Il vend un armoire usagé– *Il vends son livres

• Compléter cette grammaire de manière à ce que les phrases suivantes soient acceptées :

– Nous regardons nos livres– Il donne son livre à sa copine– Il plaisante

• mais pas les suivantes:– *nous regardons– *nous regardons nos livres à un inconnu– *il plaisante sa copine

Page 95: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

Modèles classiques (4)

• Thèses chomskyennes– Grammaires minimalistes (Stabler)– Formalismes équivalents :

• Multi-Context Free Grammars (Seki)• Grammaires catégorielles multimodales (Moortgat,

Vermaat)

Page 96: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

Algorithmes

• Analyseurs descendants (LL(k))

• Analyseurs ascendants (LR(k))

• Cocke-Younger-Kasami

• Earley

• Chart-parsing

Page 97: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

Le problème de la représentation du sens

• En général: sens « logique »– Conditions de vérité

• Utilisation de la LPO

• Utilisation d’une logique intensionnelle

• Mais le sens est aussi dynamique…

Page 98: Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

TP

• Réaliser en PROLOG une petite interface d’interrogation d’une base de données en langue naturelle

• Ex: quels sont les romans écrits par Flaubert?

• Qui a écrit « Le Rouge et le Noir »?

• Quels romans ont été écrits par Stendhal entre 1820 et 1830?