Désuffixation -- Algorithme de Porter

22
esuffixation – Algorithme de Porter Thierry Lecroq Universit´ e de Rouen FRANCE Thierry Lecroq (Univ. Rouen) esuffixation 1 / 22

Transcript of Désuffixation -- Algorithme de Porter

Page 1: Désuffixation -- Algorithme de Porter

Desuffixation – Algorithme de Porter

Thierry Lecroq

Universite de RouenFRANCE

Thierry Lecroq (Univ. Rouen) Desuffixation 1 / 22

Page 2: Désuffixation -- Algorithme de Porter

But : avoir la meme forme de base pour des mots de la meme famille

Concu pour l’anglais, adaptable a d’autres langues (francais, ...)

Thierry Lecroq (Univ. Rouen) Desuffixation 2 / 22

Page 3: Désuffixation -- Algorithme de Porter

Plan

1 Notations

2 Algorithme

Thierry Lecroq (Univ. Rouen) Desuffixation 3 / 22

Page 4: Désuffixation -- Algorithme de Porter

Consonne ou voyelle

v represente une voyelle (y est considere comme une voyelle s’il estprecede par une consonne)

c represente une consonne

V represente une suite de voyelles

C represente une suite de consonnes

Thierry Lecroq (Univ. Rouen) Desuffixation 4 / 22

Page 5: Désuffixation -- Algorithme de Porter

De la mesure

Un mot en anglais peut etre de l’une des 4 formes suivantes :

CV CV · · ·CCV CV · · ·VV CV C · · ·CV CV C · · ·V

ce qui peut se representer par

[C]V CV C · · · [V ]

ou[C](V C)m[V ]

ou m est appelee la mesure d’un mot.

Thierry Lecroq (Univ. Rouen) Desuffixation 5 / 22

Page 6: Désuffixation -- Algorithme de Porter

Mesurons la mesure

m = 0 : tree, by

m = 1 : trouble, oats, trees, ivy

m = 2 : troubles, private, oaten, orrery

Thierry Lecroq (Univ. Rouen) Desuffixation 6 / 22

Page 7: Désuffixation -- Algorithme de Porter

Regles

Les regles de desuffixation sont exprimees sous la forme(condition) S1 → S2

ce qui signifie que si un mot se termine par S1 et que le prefixe satisfait lacondition alors le suffixe S1 est remplace par S2

Thierry Lecroq (Univ. Rouen) Desuffixation 7 / 22

Page 8: Désuffixation -- Algorithme de Porter

Condition

∗e : le prefixe se termine par la lettre e

∗v∗ : le prefixe contient une voyelle

∗d : le prefixe se termine par une consonne doublee

∗o : le prefixe se termine par cvc ou le second c n’est ni w, ni x, ni y

Il est possible d’utiliser des operateurs booleens : et, ou, non

Thierry Lecroq (Univ. Rouen) Desuffixation 8 / 22

Page 9: Désuffixation -- Algorithme de Porter

A chaque etape seule la regle capturant le plus long S1 s’applique

Thierry Lecroq (Univ. Rouen) Desuffixation 9 / 22

Page 10: Désuffixation -- Algorithme de Porter

Plan

1 Notations

2 Algorithme

Thierry Lecroq (Univ. Rouen) Desuffixation 10 / 22

Page 11: Désuffixation -- Algorithme de Porter

Etape 1a

sses → ss caresses → caressies → i ponies → poni

ties → tiss → ss caress → caresss → cats → cat

Thierry Lecroq (Univ. Rouen) Desuffixation 11 / 22

Page 12: Désuffixation -- Algorithme de Porter

Etape 1b

(m > 0)eed → ee feed → feedagreed → agree

(∗v∗)ed → plastered → plasterbled → bled

(∗v∗)ing → motoring → motorsing → sing

at → ate conflat(ed) → conflatebl → ble troubl(ed) → troubleiz → ize siz(ed) → size

(∗d et non (∗l ou ∗ s ou ∗ z))→ lettre non doubleehopp(ing) → hoptann(ed) → tanfall(ing) → fallhiss(ing) → hissfizz(ed) → fizz(m = 1) et ∗ o → e fail(ing) → fail

(filing) → fileThierry Lecroq (Univ. Rouen) Desuffixation 12 / 22

Page 13: Désuffixation -- Algorithme de Porter

Etape 1c

(∗v∗)y → i happy → happisky → sky

Thierry Lecroq (Univ. Rouen) Desuffixation 13 / 22

Page 14: Désuffixation -- Algorithme de Porter

Etape 2

(m > 0)ational → ate relational → relate

(m > 0)tional → TION conditional → condition

rational → rational

(m > 0)enci → ence valenci → valence

(m > 0)anci → ance hesitanci → hesitance

(m > 0)izer → ize digitizer → digitize

(m > 0)abli → able conformabli → conformable

(m > 0)alli → al radicalli → radical

(m > 0)entli → ent differentli → different

(m > 0)eli → e vileli → vile

(m > 0)ousli → ous analogousli → analogous

(m > 0)ization → ize vietnamization → vietnamize

(m > 0)ation → ate predication → predicate

(m > 0)ator → ate operator → operate

(m > 0)alism → al feudalism → feudal

(m > 0)iveness → ive decisiveness → decisive

(m > 0)fulness → ful hopefulness → hopeful

(m > 0)ousness → ous callousness → callous

(m > 0)aliti → al formaliti → formal

(m > 0)iviti → ive sensitiviti → sensitive

(m > 0)biliti → ble sensibiliti → sensibleThierry Lecroq (Univ. Rouen) Desuffixation 14 / 22

Page 15: Désuffixation -- Algorithme de Porter

Etape 3

(m > 0)icate → ic triplicate → triplic(m > 0)ative → formative → form(m > 0)alize → al formalize → formal(m > 0)iciti → ic electriciti → electric(m > 0)ical → ic electrical → electric(m > 0)ful → hopeful → hope(m > 0)ness → goodness → good

Thierry Lecroq (Univ. Rouen) Desuffixation 15 / 22

Page 16: Désuffixation -- Algorithme de Porter

Etape 4

(m > 1)al → revival → reviv(m > 1)ance → allowance → allow(m > 1)ence → inference → infer(m > 1)er → airliner → airlin(m > 1)ic → gyroscopic → gyroscop(m > 1)able → adjustable → adjust(m > 1)ible → defensible → defens(m > 1)ant → irritant → irrit(m > 1)ement → replacement → replac(m > 1)ment → adjustment → adjust(m > 1)ent → dependent → depend(m > 1 et (∗s ou ∗ t))ion → adoption → adopt(m > 1)ou → homologou → homolog(m > 1)ism → communism → commun(m > 1)ate → activate → activ(m > 1)iti → angulariti → angular(m > 1)ous → homologous → homolog(m > 1)ive → effective → effect(m > 1)ize → bowdlerize → bowdlerThierry Lecroq (Univ. Rouen) Desuffixation 16 / 22

Page 17: Désuffixation -- Algorithme de Porter

Etape 5a

(m > 1)e → probate → probatrate → rate

(m > 1 et non ∗ o)e → cease → cease

Thierry Lecroq (Univ. Rouen) Desuffixation 17 / 22

Page 18: Désuffixation -- Algorithme de Porter

Etape 5b

(m > 1 et ∗ d et ∗ l)→ lettre non doubleecontroll →controlroll→roll

Thierry Lecroq (Univ. Rouen) Desuffixation 18 / 22

Page 19: Désuffixation -- Algorithme de Porter

generalizations→generalization etape 1→generalize etape 2→general etape 3→gener etape 4

Thierry Lecroq (Univ. Rouen) Desuffixation 19 / 22

Page 20: Désuffixation -- Algorithme de Porter

oscillators→oscillator etape 1→oscillate etape 2→oscill etape 4→oscil etape 5

Thierry Lecroq (Univ. Rouen) Desuffixation 20 / 22

Page 21: Désuffixation -- Algorithme de Porter

sur 10 000 mots

etape 1 3597etape 2 766etape 3 327etape 4 2424etape 5 1373non reduits 3650

6370 formes reduites

Thierry Lecroq (Univ. Rouen) Desuffixation 21 / 22

Page 22: Désuffixation -- Algorithme de Porter

Reference

M. F. PorterAn Algorithm for Suffix StrippingProgram, 14(3), 130–137, 1980

Thierry Lecroq (Univ. Rouen) Desuffixation 22 / 22