Une palette mathématique pour appréhender le langage

48
INRIA Une palette mathématique pour appréhender le langage Éric de la Clergerie <[email protected]> http://alpage.inria.fr INRIA Paris-Rocquencourt Olympiades de mathématiques 2017 Versailles – 25 Janvier 2017 INRIA É. de la Clergerie Math & TAL 25/01/2017 1 / 48

Transcript of Une palette mathématique pour appréhender le langage

Page 1: Une palette mathématique pour appréhender le langage

INRIA

Une palette mathématiquepour appréhender le langage

Éric de la Clergerie<[email protected]>

http://alpage.inria.frINRIA Paris-Rocquencourt

Olympiades de mathématiques 2017Versailles – 25 Janvier 2017

INRIA É. de la Clergerie Math & TAL 25/01/2017 1 / 48

Page 2: Une palette mathématique pour appréhender le langage

INRIA

Expliquer ce que je fais !

De l’analyse syntaxique,une composante du Traitement Automatique des Langues (TAL).

L’ordinateur en classe de primaire,objectif: Retrouver les fonctions des mots dans la phrase

Vue par dépendances

INRIA É. de la Clergerie Math & TAL 25/01/2017 2 / 48

Page 3: Une palette mathématique pour appréhender le langage

INRIA

ou alternativement

Retrouver les constituants de la phrase

Paul mange un délicieux gâteau

Ph

GN

np

GV

v GN

det N

adj nc

sujetdet

N

objet

INRIA É. de la Clergerie Math & TAL 25/01/2017 3 / 48

Page 4: Une palette mathématique pour appréhender le langage

INRIA

Mais c’est plus compliqué . . .

de nombreuses constructions syntaxiquesdes rôles obscurs ou ambiguës dans la phraseil observe une maman avec ses jumelles. . .

INRIA É. de la Clergerie Math & TAL 25/01/2017 4 / 48

Page 5: Une palette mathématique pour appréhender le langage

INRIA

En fait, beaucoup plus compliqué

Paul, je t’ai dit que François Flore est sorti furieux de chez son banquier carcelui-ci lui avait ex abrupto refusé son prêt pour sa future maison ?

Morphologie: les mots et leur structure (lubéronisation)découpage du texte en mots, catégories syntaxiques:celui/pro -ci/adj lui/cld avait/aux ex_abrupto/adv ...flexion (conjugaison) : avait=avoir+3s+Ind+Imparfaitentités nommées (personnes, lieux, . . . ) : (François Flore) PERSON_m

Syntaxe: structure des phrases et relations entre motsfonctions syntaxiques (sujet, objet, . . . ) : celui-ci=sujet, prêt=objet,lui=obj indirect de refusé

Sémantique: sens des énoncés et des motsstructure prédicatives, rôle des actants (agent, patient, . . . )refuser(agent=celui-ci,patient=lui,theme=prêt)

Pragmatique: contexte & connaissancesréférants: celui-ci=banquier, lui=son=sa=François, t’=Paulstructures argumentatives: refus explique furieuxscénarios, implicites

INRIA É. de la Clergerie Math & TAL 25/01/2017 5 / 48

Page 6: Une palette mathématique pour appréhender le langage

INRIA

Pour quoi faire ?

Extraction d’information & Annotations

http://alpage.inria.fr/sapiens

Acquisition de connaissances (à partir de grands corpus)

http://alpage.inria.fr/Lbx

INRIA É. de la Clergerie Math & TAL 25/01/2017 6 / 48

Page 7: Une palette mathématique pour appréhender le langage

INRIA

Beaucoup d’applications potentielles . . .2010: Google translate

2011: IBM Watsongagne à Jeopardy 2011: Assistants vocaux

Siri, Google Now, Cortana

recherche d’information, veille, extraction, questions-réponsesaccès à l’information: traduction, résumés, annotations/liens sémantiquesanalyse d’opinion, e-réputationgénération (articles journaux, rapports, ...)plagiat, authoring, détection spams & faux commentaires,aide à la rédaction: correction grammaticale, stylistique; saisie prédictiveaide pédagogique: apprentissage des langues; tutorat; évaluationinteraction: agents conversationnels, chatbots, assistants numériques,

INRIA É. de la Clergerie Math & TAL 25/01/2017 7 / 48

Page 8: Une palette mathématique pour appréhender le langage

INRIA

Outline

1 Les approches algébriques

2 Les approches probabilistes avec apprentissage supervisé

3 Les approches neuronales profondes

INRIA É. de la Clergerie Math & TAL 25/01/2017 8 / 48

Page 9: Une palette mathématique pour appréhender le langage

INRIA

La langue est structureOn trouve des structures à tous les niveaux de la langue

au niveau des mots: lubéronisation ≡ ((lubéron ◦ +iser) ◦ +tion)

au niveau des phrases: GN

ncdet

au niveau sémantique (lambda-calcul)

S(Paul mange un fruit) = (λ s. ((λ o. /m/(s,o)) /f/)) /P/ (1); /m/(/P/, /f/) (2)

; utilisation de langages formels pourdécrire les structureset la manière de les combiner

INRIA É. de la Clergerie Math & TAL 25/01/2017 9 / 48

Page 10: Une palette mathématique pour appréhender le langage

INRIA

Hiérarchie de Chomsky

Hiérarchie de Chomsky (1959):sur les langages et grammaires (qui les génèrent)

Type 3: Langages réguliers a(b|c)*d

A −→ a, A −→ aB

Type 2: Langages hors-contextes (Context-Freee Grammar – CFG)

A −→ γ

Type 1: Langages dépendants du contexte

αAβ −→ αγβ, |γ| > 0

Type 0: Langages récursivement énumérables

α −→ β

INRIA É. de la Clergerie Math & TAL 25/01/2017 10 / 48

Page 11: Une palette mathématique pour appréhender le langage

INRIA

CFG & Langues naturelles

Les CFG utilisées pour réécrire des non-terminaux par substitutionLes séquences de substitution (dérivations) aussi représentables par desarbres d’analyse

S --> NP VPNP --> pnNP --> det nNP --> NP PPVP --> v NPVP --> VP PPPP --> prep NP

S =⇒ NP VP =⇒ pn VP =⇒ pn VP PP =⇒ pn v NP PP =⇒?

pn v det nc prep det ncS =⇒ S

VPNP

=⇒ S

VPNP

pn

=⇒? S

VP

PP

NP

ncdet

prep

VP

NP

ncdet

v

NP

pn

Les CFG suffisent pour de nombreux phénomènes syntaxiques,dont les enchassements comme anbn ≡ a(an−1bn−1)b

INRIA É. de la Clergerie Math & TAL 25/01/2017 11 / 48

Page 12: Une palette mathématique pour appréhender le langage

INRIA

Mais les CFG suffisent-elles ?2 aspects:

Comment vérifier qu’un langage n’est pas hors-contexte ?utilisation du lemme de pompage

Theorem (Lemme de pompage Bar Hillel)

L est un langage hors-contexte ssi

∃N > 0,∀w ∈ L, |w | > N =⇒ ∃u, v ,w , x , y , ∧

w = uvwxy|vwx | ≤ N ∧ |vx | > 0∀n ≥ 0, uvnwxny ∈ L

En particulier le langage anbmcndm, n,m ≥ 0 n’est pas hors-contexte(dépendances croisées)

a a b c c d

Peut-on trouver un contre-exemple linguistique ? Pas si évident !

INRIA É. de la Clergerie Math & TAL 25/01/2017 12 / 48

Page 13: Une palette mathématique pour appréhender le langage

INRIA

Exemple du Suisse-Allemand (Shieber 1985)

Jan säit das mer em Hans es huus hälfed asstriicheJean dit que nous Hans-DAT la maison-ACC aider à-peindre

Les croisements peuvent être multiples

Jan säit das mer d’chind em Hans es huus lönd hälfed asstriicheJean dit que nous les enfants-ACC Hans-DAT la maison-ACC laisser aider à-peindre

On peut théoriquement itérer et se rapprocher de anbmcndm

. . . das mer (d’chind)n (em Hans)m es huus (lönd)n (hälfed)m asstriiche. . . que nous (les enfants-ACC)n (Hans-DAT)m la maison-ACC (laisser)n (aider)m à-peindre

INRIA É. de la Clergerie Math & TAL 25/01/2017 13 / 48

Page 14: Une palette mathématique pour appréhender le langage

INRIA

Et pour le français

Il existe plusieurs phénomènes syntaxiques en français dont la structuresyntaxique naturelle (ie attendue) ne correspond pas à des analyses CFG.

Par exemple, les comparatives:

Note: Possible de fournir une CFG pour couvrir la phrase mais pas avec labonne structure

INRIA É. de la Clergerie Math & TAL 25/01/2017 14 / 48

Page 15: Une palette mathématique pour appréhender le langage

INRIA

Aller plus loin que les CFGs

Toute une gamme de formalismes grammaticaux ont été proposés pour:dépasser le pouvoir expressif des CFGsrester si possible analysable efficacementfaciliter la description linguistique

; développement de FRMG, une (méta-) grammaire TAG à large couverturepour le français (http://alpage.inria.fr/frmgwiki)

INRIA É. de la Clergerie Math & TAL 25/01/2017 15 / 48

Page 16: Une palette mathématique pour appréhender le langage

INRIA

Grammaire d’Arbres Adjoints (TAG)Introduites par Joshi, les TAGs’appuient sur des arbres et 2 opérations pour les combiner

la substitution d’une feuille par un arbrel’adjonction d’un arbre au sein d’un autre arbre

INRIA É. de la Clergerie Math & TAL 25/01/2017 16 / 48

Page 17: Une palette mathématique pour appréhender le langage

INRIA

Un exemple plus complet: les comparatives

adjP

supermod

3adv

plus

?adjPadjP

3adj

grand

supermod

?supermod CS

3csu

que

NP

S

NP

pn

Paul

VP

v

est

adjP

supermod

supermod

adv

plus

adjP

adj

grand

CS

csu

que

NP

pro

lui

INRIA É. de la Clergerie Math & TAL 25/01/2017 17 / 48

Page 18: Une palette mathématique pour appréhender le langage

INRIA

Limites des approches algébriques

Problème pour recenser et décrire une très grande variété de phénomènessyntaxiquesde plus, beaucoup de phénomènes sont rares, voire très rares(distribution zipfienne)

I pb de maintenance de grosses grammairesI pb d’efficacité dans les analyses

une grammaire complexe tend à fournir beaucoup d’analyses possiblespour une phrase (ambiguité)

I il commence un livreI il commence cette nuitI il aime la nuitI il prend une tarte maison aux fruitsI il prend un glace fraise des boisI il prend une tarte maison au restaurant

; comment choisir la bonne analyse ? contraintes ou probabilités

INRIA É. de la Clergerie Math & TAL 25/01/2017 18 / 48

Page 19: Une palette mathématique pour appréhender le langage

INRIA

Outline

1 Les approches algébriques

2 Les approches probabilistes avec apprentissage supervisé

3 Les approches neuronales profondes

INRIA É. de la Clergerie Math & TAL 25/01/2017 19 / 48

Page 20: Une palette mathématique pour appréhender le langage

INRIA

Une formulation probabiliste générique

Étant donnée une observation x , trouver la meilleure structure (cachée)expliquant x (décodage)

une séquence d’étiquettes ti for chaque mot wi

un arbre syntaxique T couvrant w1:n

Approches discriminatives: fondées sur des configurations

y = argmaxy∈Y(x)

p(y |x)

Approches génératives: fondées sur la combinaison de structures

y = argmaxy∈Y(x)

p(y |x) = argmaxy∈Y(x)

p(x |y)p(y)

p(x)= argmax

y∈Y(x)

likehood︷ ︸︸ ︷p(x |y)

prior︷︸︸︷p(y)

INRIA É. de la Clergerie Math & TAL 25/01/2017 20 / 48

Page 21: Une palette mathématique pour appréhender le langage

INRIA

Étiquetage syntaxique

Tâche: Assigner une catégorie syntaxique à chaque mot,problème des ambiguïtés

La/DET belle/N ferme/V le/DET voile/NLa/DET belle/ADJ ferme/N le/CL voile/V

Mais aussi:La/CL belle/ADJ ferme/V le/CL voile/NLa/DET belle/N ferme/V le/DET voile/VLa/N belle/N ferme/V le/DET voile/V

; Un nombre exponentiel de séquences d’étiquettes O(|T |n)

INRIA É. de la Clergerie Math & TAL 25/01/2017 21 / 48

Page 22: Une palette mathématique pour appréhender le langage

INRIA

Treillis

L’ensemble des possibilités représentable par un treillis(graphe orienté acyclique – DAG)

START

La/DET

La/CL

La/N

belle/N

belle/ADJ

ferme/N

ferme/V

le/DET

le/CL

voile/N

voile/V

END

Objectif: Rechercher le meilleur chemin dans ce treillis

INRIA É. de la Clergerie Math & TAL 25/01/2017 22 / 48

Page 23: Une palette mathématique pour appréhender le langage

INRIA

Approximer le problèmeOn cherche t1 . . . tn tel que

t1 . . . tn = argmax p(t1 . . . tn|w1 . . .wn) = argmax p(w1:n|t1:n)p(t1:n)

Approximations:une étiquette ne dépend que de la précédente

p(ti+1|t1:i ) ≈ p(ti+1|ti )

un mot ne dépend que de son étiquette

p(w1:n|t1:n) ≈n∏

i=1

p(wi |ti )

Si on assume une étiquette initiale t0 (en début de phrase)

t1:n ≈ argmaxn∏

i=1

p(ti |ti−1)p(wi |ti )

INRIA É. de la Clergerie Math & TAL 25/01/2017 23 / 48

Page 24: Une palette mathématique pour appréhender le langage

INRIA

Modèle de Markov Caché (HMM)

La formulation correpond à un automate pondéré à états finis

0 D

la

p(D|0)

p(la|D)

N

belle

p(N|D)

p(belle|N)

V

ferme

p(V |N)

p(ferme|V )

D

le

p(D|V )

p(le|D)

N

voile

p(N|D)

p(voile|N)

Formalisation en tant que HMM H:

un ensemble fini d’états Q = {0,D,N,V , . . .}

q0 = 0 et qf = $ les états initiaux et finaux

une matrice de transitions entre états aqr = p(r |q) avec∑

r∈Q aqr = 1

des probabilités d’emission bq(w) = p(w |q)

INRIA É. de la Clergerie Math & TAL 25/01/2017 24 / 48

Page 25: Une palette mathématique pour appréhender le langage

INRIA

HMM: Décodage

Étant donné H, recherche du meilleur chemin dans le trellis

t1:n = argmaxt1:n

∏i

p(ti |ti−1)p(wi |ti )

= argmax∏

i

ati−1,ti bti (wi )

Mais si t1:n est un meilleur chemin,alors t1:k meilleur sous-chemin atteignant k dans l’état tk

; résolution d’un problème plus général, acceptant une décompositionrécursive

viterbik (r) = maxt1:k−1

p(w1, . . . ,wk , t0, . . . , tk = r |H)

= maxq

viterbik−1(q)aq,r br (wk )

INRIA É. de la Clergerie Math & TAL 25/01/2017 25 / 48

Page 26: Une palette mathématique pour appréhender le langage

INRIA

Décomposition récursive de Viterbi

Initialisationviterbi1(q) = aq0,qbq(w1)

Recursion, pour 1 < k ≤ n

viterbik (q) = maxp

viterbik−1(p)ap,qbq(wk )

Terminaisonviterbin(qF )

similaire à la recherche de plus court cheminadaptée à des algorithmes de programmation dynamique; complexité polynomiale (quadratique) plutôt que exponentielle

INRIA É. de la Clergerie Math & TAL 25/01/2017 26 / 48

Page 27: Une palette mathématique pour appréhender le langage

INRIA

Estimation des paramètres (approche supervisée)

Comment obtenir les paramètres aq,r et bq(w) ?En les estimant à partir d’un corpus annoté (par des humains), comme leCorpus Brown (1Mmots)

Les probabilités p approchées par des probabilités empiriques p,fournies par les fréquences observées sur corpus

pour ap,q

aq,r = p(ti+1 = r |ti = q) =#(ti = q, ti+1 = r)

#(ti = q)

pour bp

bq(w) = p(wi = w |ti = q) =#(wi = w , ti = q)

#(ti = q)

Note: la constitution d’un corpus annoté est une tâche complexe, longue,fastidieuse et couteuse !

INRIA É. de la Clergerie Math & TAL 25/01/2017 27 / 48

Page 28: Une palette mathématique pour appréhender le langage

INRIA

Limites des approches génératives

Les approches génératives donnent des résultats corrects, mais

Peu de prise en compte du contexte, avec juste l’état précédent p(qi+1|qi )

Problèmes pour estimer les emissions p(wi |qi ) pour les mots rares wior la langue suit une distribution en loi de puissance (loi de Zipf)

La fréquence f décroit exponentiellement avec le rang r :

fr ∼1rα

α > 1

Autrement dit, quelques mots sont très fréquents mais il existe une trèslongue traîne de mots rares.

INRIA É. de la Clergerie Math & TAL 25/01/2017 28 / 48

Page 29: Une palette mathématique pour appréhender le langage

INRIA

Zipf: distribution de lemmes

Distribution des mots (lemmes) dans un corpus de 500 millions de mots, avec3 234 274 lemmes distincts dont 71 348 hors noms propres:

0 20 40 60 80 100

0

2

4

6

8

10

rang

fréqu

ence

(%)

0 20 40 60 80 100

10

20

30

40

50

60

rang

cum

ulfre

q(%

)

Les mots les plus fréquents: le, de, “,”, “.”, à, un, et, cln, “:”, en, être/v, . . .80% des occurrences couvertes avec ∼1500 lemmes et 90% avec 6000 mots

INRIA É. de la Clergerie Math & TAL 25/01/2017 29 / 48

Page 30: Une palette mathématique pour appréhender le langage

INRIA

Methodes discriminantes

On reprend la tâche d’étiquetage de x = w1 · · ·wn,reformulée avec des probabilités conditionnelles

y = argmaxy∈Y(x)

p(y |x) = argmaxt1:n∈Y(x)

p(t1|x).p(t2|x , t1). · · · .p(tn|x , t1:n−1)

chaque x , t1, · · · tk est vu comme une configuration ck−1

y = argmaxt1:n∈Y(x)

p(t1|c0).p(t2|c1). · · · .p(tn|cn−1)

Pas assez de données (annotées) pour calculer des probabilités fiables p(.|c)pour chaque configuration c

INRIA É. de la Clergerie Math & TAL 25/01/2017 30 / 48

Page 31: Une palette mathématique pour appréhender le langage

INRIA

Abstraire par des traits

Une configuration c est alors résumée par un ensemble de propriétés(trait – features)

La configuration c

Paul/PN pense/V que le chat dort

abstraite par

f1 le mot courant est quef2 le mot précedent est pensef3 le mot à -2 est Paulf4 l’étiquette du mot à -1 est vf5 le mot à -2 commence par une majuscule...

...f93 les 2 étiquettes précédentes sont pn vf100 les 2 mots précédents sont Paul pense...

...

INRIA É. de la Clergerie Math & TAL 25/01/2017 31 / 48

Page 32: Une palette mathématique pour appréhender le langage

INRIA

Pondérer les traits

On approche p(t |c) à partir de poids λi,t associés aux traits fi de cMéthode MaxEnt (ou régression logistique)

p(t |c) =eΣiλi,t fi

Zavec (normalisation)

Z = ΣteΣiλi,t fi

Mais on peut oublier Z pour aujourd’hui

Décodage (glouton – greedy): à chaque mot wk et configuration ck−1

tk = argmaxtp(t |ck−1)

Décodage par faisceau (beam), on garde les b meilleurs configurations ckà chaque étape

INRIA É. de la Clergerie Math & TAL 25/01/2017 32 / 48

Page 33: Une palette mathématique pour appréhender le langage

INRIA

Calcul des paramètres: perceptron

Comment calculer les paramètres λi,t pour les traits fi ?

Apprentissage possible par perceptron (rétroaction)méthode itérative avec mise à jour des λi,t en fonction des succès et des échecs

on initialise λ(0)i,t (aléatoirement ou par décompte)

si pour une configuration c, on choisit t = argmaxt p(t |c) en place de labonne étiquette salors

I on pénalise les paramètres pour t par µ

λ(m+1)i,t = λ

(m)i,t − µ

I on favorise les paramètres pour s par µ

λ(m+1)i,s = λ

(m)i,s + µ

En pratique, convergence des paramètres

INRIA É. de la Clergerie Math & TAL 25/01/2017 33 / 48

Page 34: Une palette mathématique pour appréhender le langage

INRIA

Limites des approches discriminantes

Les approches discriminantes (Perceptron, MaxEnt, SVM, CRF, . . . ) donnentd’excellents résultats.

Mais

elles nécessitent un effort important d’identification du bon jeu de traits.=⇒ en pratique, on considère d’immense jeux (plusieurs millions à dizainesde millions de traits)

toujours quelques soucis pour des mots inconnus/rares dans les corpusannotés.

INRIA É. de la Clergerie Math & TAL 25/01/2017 34 / 48

Page 35: Une palette mathématique pour appréhender le langage

INRIA

Outline

1 Les approches algébriques

2 Les approches probabilistes avec apprentissage supervisé

3 Les approches neuronales profondes

INRIA É. de la Clergerie Math & TAL 25/01/2017 35 / 48

Page 36: Une palette mathématique pour appréhender le langage

INRIA

IA ? On y est presque :-)

Réseaux de Neurones: leretour !Buzz sur Deep Learninget word embeddings

2013: Word embeddingsanalogies ≡ calcul vectoriel

Mikolov et al.2014: Analyse d’opinions

Socher et al.

2015: Google SmartReplysuggérer des réponses aux mails

http://goo.gl/d8R2LI

DeepMind (Google) annonce Neural Turing MachineLabo Facebook ParisToolkit Google TensorFlow libérénombreux autres toolkits

INRIA É. de la Clergerie Math & TAL 25/01/2017 36 / 48

Page 37: Une palette mathématique pour appréhender le langage

INRIA

BasesModélisation des neurones biologiques:

les neurones portent des vecteurs (réels) de dimension moyenne (d=100 à500)les vecteurs xi associés à des neurones d’entrées sont combinés pourfournir un vecteur y à un neurone de sortie

y

x1 x2 x3 x4

y = σ(ΣiAixi ) avec Ai matrice

Fonction d’activation σ: en générale non linéaireelle doit faire basculer l’état du neurone de sortie vers oui ou non

INRIA É. de la Clergerie Math & TAL 25/01/2017 37 / 48

Page 38: Une palette mathématique pour appréhender le langage

INRIA

Fonctions d’activation

Utilisation de fonctions proches d’une bascule oui/non mais dérivables

tanh(x) =ex − e−x

ex + e−x tanh′(x) = 1− tanh2(x)

tangente hyperbolique tanh

D’autres fonctions sont aussi utilisées (softmax, sigmoïde)

INRIA É. de la Clergerie Math & TAL 25/01/2017 38 / 48

Page 39: Une palette mathématique pour appréhender le langage

INRIA

Sorties multiples

On peut avoir plusieurs neurones de sortie

y1 y2

x1 x2 x3 x4

INRIA É. de la Clergerie Math & TAL 25/01/2017 39 / 48

Page 40: Une palette mathématique pour appréhender le langage

INRIA

Couches cachéesOn peut intercaler des couches cachées intermédiairesces couches permettent de progressivement abstraire les informations desneurones d’entrée

y1 y2

x1 x2 x3 x4

INRIA É. de la Clergerie Math & TAL 25/01/2017 40 / 48

Page 41: Une palette mathématique pour appréhender le langage

INRIA

Apprentissage: backpropagation

y1 y2

x1 x2 x3 x4

Similaire au perceptronon fait descendre les erreurs des neurones de sortie vers les neuronesd’entrée (backpropagation)mise à jour des paramètres Wi par descente de gradient

W (t+1)i = W (t)

i − µ ∗∂y∂Wi

INRIA É. de la Clergerie Math & TAL 25/01/2017 41 / 48

Page 42: Une palette mathématique pour appréhender le langage

INRIA

Réseaux récurrentsPour le TAL, on veut des structures de réseaux adaptées au traitement deséquences de mots =⇒ Réseaux récurrentsla sortie de la config à i est utilisée comme entrée pour calculer i + 1

(crédit illustration: http://colah.github.io/posts/2015-08-Understanding-LSTMs)INRIA É. de la Clergerie Math & TAL 25/01/2017 42 / 48

Page 43: Une palette mathématique pour appréhender le langage

INRIA

LSTM

Encore mieux: des réseaux récurrents avec mémoire à long terme (et oubli)Long-Short Term Memory – LSTMÉtat de l’art actuellement en TAL (bi-LSTM)

INRIA É. de la Clergerie Math & TAL 25/01/2017 43 / 48

Page 44: Une palette mathématique pour appréhender le langage

INRIA

LSTM: oublier des info

INRIA É. de la Clergerie Math & TAL 25/01/2017 44 / 48

Page 45: Une palette mathématique pour appréhender le langage

INRIA

LSTM: ajouter des info

INRIA É. de la Clergerie Math & TAL 25/01/2017 45 / 48

Page 46: Une palette mathématique pour appréhender le langage

INRIA

LSTM: mettre à jour la mémoire

INRIA É. de la Clergerie Math & TAL 25/01/2017 46 / 48

Page 47: Une palette mathématique pour appréhender le langage

INRIA

LSTM: avancer

INRIA É. de la Clergerie Math & TAL 25/01/2017 47 / 48

Page 48: Une palette mathématique pour appréhender le langage

INRIA

Conclusion

Un large éventail mathématique utilisé en TALalgèbre (langages formels), probabilités, optimisation, calcul matriciel,analyse (dérivées partielles), calculs de gradients, . . .

encore de nombreuses techniques non présentées ici (apprentissagenon-supervisée)espaces à grande dimensions, variétés, topologie, métriques

certaines techniques très sophistiquées (ex. convergence rapide de calculsde gradients)mais résultats intéressants avec des techniques simples: fréquences,n-grammesma présentation ISN en 2014https://euler.ac-versailles.fr/IMG/pdf/eric_de_la_clergerie.pdf

INRIA É. de la Clergerie Math & TAL 25/01/2017 48 / 48