Cours 4 Étiquettes lexicales. Catégories grammaticales En anglais parts of speech (POS) Exemple de...

27
Cours 4 Étiquettes lexicales

Transcript of Cours 4 Étiquettes lexicales. Catégories grammaticales En anglais parts of speech (POS) Exemple de...

Page 1: Cours 4 Étiquettes lexicales. Catégories grammaticales En anglais parts of speech (POS) Exemple de liste de catégories grammaticales nom, verbe, adjectif,

Cours 4

Étiquettes lexicales

Page 2: Cours 4 Étiquettes lexicales. Catégories grammaticales En anglais parts of speech (POS) Exemple de liste de catégories grammaticales nom, verbe, adjectif,

Catégories grammaticalesEn anglais parts of speech (POS)

Exemple de liste de catégories grammaticales

nom, verbe, adjectif, adverbe, pronom, préposition, conjonction, déterminant

En général, 10 à 15 catégories par langue

Information sur les voisins du mot

Un pronom est souvent suivi d'un verbe : il intervient

Un déterminant est souvent suivi d'un nom : les annonces

Information sur la prononciation du mot

Président peut être un nom : Le président de séance est en retard

Président peut être un verbe : Ils président la séance à tour de rôle

La prononciation est différente

Les poules du couvent couvent

Page 3: Cours 4 Étiquettes lexicales. Catégories grammaticales En anglais parts of speech (POS) Exemple de liste de catégories grammaticales nom, verbe, adjectif,

Catégories grammaticales

Catégories grammaticales et suffixes

vaccine est un verbe, on peut le regrouper avec vacciner

féminine est un adjectif, on peut le regrouper avec féminin

Application : la recherche d'informations

Catégories grammaticales et pertinence

Les noms sont souvent pertinents : balle, film, banque...

Les prépositions le sont moins : selon, depuis, malgré...

une croix en or et pierres précieuses... nom

Or la version de la chanson... conjonction

Page 4: Cours 4 Étiquettes lexicales. Catégories grammaticales En anglais parts of speech (POS) Exemple de liste de catégories grammaticales nom, verbe, adjectif,

Définition des catégories grammaticales

Par les suffixes

Deux mots qui prennent les mêmes suffixes ont des chances d'appartenir à la même catégorie

vaccine, vaccinent, vacciné, vaccines/juge, jugent, jugé, juges verbes

parent, parents, parente, parentes/ami, amis, amie, amies noms

Par les contextes

Deux mots qui acceptent les mêmes contextes ont des chances d'appartenir à la même catégorie

Les représentants des pays concernés

Les représentants des partis concernés noms

Le TGV n'avait pas prévu de s'arrêter

Le TGV n'avait pas cessé de s'arrêter verbes

Page 5: Cours 4 Étiquettes lexicales. Catégories grammaticales En anglais parts of speech (POS) Exemple de liste de catégories grammaticales nom, verbe, adjectif,

Catégories ouvertes/fermées

Catégories ferméesLes éléments sont en nombre limité et fixeMots grammaticaux (jouent un rôle important dans la grammaire), courts

et fréquentsPrépositions : à de par pour sans selon depuis malgré...Quelques dizainesOn en crée rarement de nouvelles

Catégories ouvertesLes éléments sont nombreux et de nouveaux sont créés continuellementNoms : futon MP3 pseudotéléspectateur triréacteur...Quelques dizaines de milliersVerbes : faxer surréglementer sursubventionner télécopier...Quelques milliers

Page 6: Cours 4 Étiquettes lexicales. Catégories grammaticales En anglais parts of speech (POS) Exemple de liste de catégories grammaticales nom, verbe, adjectif,

Catégories ouvertes

Noms ou substantifs

Souvent précédés d'un déterminant des annonces

Varient entre singulier et pluriel une annonce/des annonces

Sous-catégories :

noms communs bateau, chaise, relation, élève

noms propres Paris, Laporte, Lip

Verbes

Varient en temps il annonce il annoncera

personne il annonce nous annonçons

Sous-catégories :

auxiliaires pouvoir, devoir, avoir, être...

Page 7: Cours 4 Étiquettes lexicales. Catégories grammaticales En anglais parts of speech (POS) Exemple de liste de catégories grammaticales nom, verbe, adjectif,

Catégories ouvertes

Adjectifs

Varient entre singulier et pluriel normal normaux

masculin et féminin normaux normales

Adverbes

Généralement déplaçables dans une phrase

Souvent, le bus s'arrête ici

Le bus, souvent, s'arrête ici

Le bus s'arrête souvent ici

Le bus s'arrête ici souvent

Page 8: Cours 4 Étiquettes lexicales. Catégories grammaticales En anglais parts of speech (POS) Exemple de liste de catégories grammaticales nom, verbe, adjectif,

Catégories fermées

Prépositions

à de par pour sans selon sur sous avec depuis malgré...

Devant des noms ou des verbes : à des annonces pour annoncer

Conjonctions

et ou mais car...

Entre deux séquences analogues : des programmes et des données

que quand si comme lorsque...

Devant une phrase incluse dans une autre : Je viendrai si je peux

Page 9: Cours 4 Étiquettes lexicales. Catégories grammaticales En anglais parts of speech (POS) Exemple de liste de catégories grammaticales nom, verbe, adjectif,

Catégories fermées

Déterminants

un une des du le la les chaque deux trois quatre beaucoup mon...

Devant des noms : des annonces beaucoup d'annonces

Pronoms

je tu il elle on nous vous moi toi lui ceci cela qui quoi que quelqu'un...

Page 10: Cours 4 Étiquettes lexicales. Catégories grammaticales En anglais parts of speech (POS) Exemple de liste de catégories grammaticales nom, verbe, adjectif,

Étiquettes lexicales

En anglais tags

Je viendrai si je peux

Je,PRO:1s viendrai,V:F1s si,CONJS je,PRO:1s peux,V:P1s

Un objet qui identifie pour chaque token-mot

- la catégorie grammaticale

- éventuellement d'autres propriétés (temps, personne, nombre...)

On peut aussi étiqueter les symboles de ponctuation

Page 11: Cours 4 Étiquettes lexicales. Catégories grammaticales En anglais parts of speech (POS) Exemple de liste de catégories grammaticales nom, verbe, adjectif,

Étiquettes lexicales non structurées

Je,PP viendrai,VBF si,IN je,PP peux,VBP

Chaque étiquette représente une catégorie généralement un peu plus précise qu'une catégorie grammaticale

Exemples

PP pronom personnel

VBF verbe conjugué au futur

IN préposition ou conjonction de subordination

Jeu d'étiquettes (tagset)

Ensemble d'étiquettes

Pour l'anglais, généralement 50 à 150 étiquettes

Page 12: Cours 4 Étiquettes lexicales. Catégories grammaticales En anglais parts of speech (POS) Exemple de liste de catégories grammaticales nom, verbe, adjectif,

Étiquettes lexicales structurées

Je,PRO:1s viendrai,V:F1s si,CONJS je,PRO:1s peux,V:P1s

Chaque étiquette donne séparément

- la catégorie grammaticale

- d'autres propriétés éventuelles :

- temps (présent, futur, passé...)

- personne (1, 2, 3)

- genre (masculin, féminin)

- nombre (singulier, pluriel)

etc.

Traits flexionnels

Page 13: Cours 4 Étiquettes lexicales. Catégories grammaticales En anglais parts of speech (POS) Exemple de liste de catégories grammaticales nom, verbe, adjectif,

Étiquettes lexicales structurées

viendrai,V:F1s

Paires attribut-valeur

partOfSpeech = verb

tense = future

person = 1

number = singular

attributs (features)

valeurs (values)

Page 14: Cours 4 Étiquettes lexicales. Catégories grammaticales En anglais parts of speech (POS) Exemple de liste de catégories grammaticales nom, verbe, adjectif,

ABR abreviation

ADJ adjective

ADV adverb

DET:ART article

DET:POS possessive pronoun (ma, ta, ...)

INT interjection

KON conjunction

NAM proper name

NOM noun

NUM numeral

PRO pronoun

PRO:DEM demonstrative pronoun

PRO:IND indefinite pronoun

PRO:PER personal pronoun

PRO:POS possessive pronoun (mien, tien, ...)

PRO:REL relative pronoun

PRP preposition

PRP:det preposition plus article (au,du,aux,des)

PUN punctuation

PUN:cit punctuation citation

SENT sentence tag

SYM symbol

VER:cond verb conditional

VER:futu verb futur

VER:impe verb imperative

VER:impf verb imperfect

VER:infi verb infinitive

VER:pper verb past participle

VER:ppre verb present participle

VER:pres verb present

VER:simp verb simple past

VER:subi verb subjunctive imperfect

VER:subp verb subjunctive present

Page 15: Cours 4 Étiquettes lexicales. Catégories grammaticales En anglais parts of speech (POS) Exemple de liste de catégories grammaticales nom, verbe, adjectif,

Racinisation

Pour la recherche d'informations, les variations de forme des mots ne sont pas très pertinentes et augmentent inutilement le nombre de dimensions de l'espace vectoriel

Exemples

vaccine, vaccinent, vacciné, vaccines...

La racinisation (stemming) consiste à remplacer toutes ces variantes par vacciner

ou même vaccine, vaccinent, vacciné, vaccines, vaccination, vaccinal... par vaccin

On n'a pas besoin que ce soit un mot correct, il suffit que ce soit le même pour tous

Page 16: Cours 4 Étiquettes lexicales. Catégories grammaticales En anglais parts of speech (POS) Exemple de liste de catégories grammaticales nom, verbe, adjectif,

Le raciniseur de Porter (1980)

Substitution de suffixes

ational --> ate relational --> relate

ing --> motoring --> motor

Plusieurs passes

Passe 1 ies --> i capabilities --> capabiliti

Passe 4 (m>0)biliti --> ble capabiliti --> capable

m = nombre de séquences voyelle/consonne

Exemples

capabilities m = 5 capa m = 1

Page 17: Cours 4 Étiquettes lexicales. Catégories grammaticales En anglais parts of speech (POS) Exemple de liste de catégories grammaticales nom, verbe, adjectif,

Step 1a  SSES -> SS caresses -> caress IES -> I ponies -> poni ties -> ti SS -> SS caress -> caress S -> cats -> cat

Step 1b  (m>0) EED -> EE feed -> feed agreed -> agree (*v*) ED -> plastered -> plaster bled -> bled (*v*) ING -> motoring -> motor sing -> singIf the second or third of the rules in Step 1b is successful, the following is done:  AT -> ATE conflat(ed) -> conflate BL -> BLE troubl(ed) -> trouble IZ -> IZE siz(ed) -> size (*d and not (*L or *S or *Z)) -> single letter hopp(ing) -> hop tann(ed) -> tan fall(ing) -> fall hiss(ing) -> hiss fizz(ed) -> fizz (m=1 and *o) -> E fail(ing) -> fail fil(ing) -> fileThe rule to map to a single letter causes the removal of one of the double letter pair.

*v* contains a vowel (a, e, i, o, u, or y preceded by a consonant)*d ends with a double consonant, e.g. tt, ss*o ends with cvc, where the second c is not w, x or y

Page 18: Cours 4 Étiquettes lexicales. Catégories grammaticales En anglais parts of speech (POS) Exemple de liste de catégories grammaticales nom, verbe, adjectif,

Step 1c  (*v*) Y -> I happy -> happi sky -> sky

Step 2  (m>0) ATIONAL -> ATE relational -> relate (m>0) TIONAL -> TION conditional -> condition rational -> rational (m>0) ENCI -> ENCE valenci -> valence (m>0) ANCI -> ANCE hesitanci -> hesitance (m>0) IZER -> IZE digitizer -> digitize (m>0) ABLI -> ABLE conformabli -> conformable (m>0) ALLI -> AL radicalli -> radical (m>0) ENTLI -> ENT differentli -> different (m>0) ELI -> E vileli - > vile (m>0) OUSLI -> OUS analogousli -> analogous (m>0) IZATION -> IZE vietnamization -> vietnamize (m>0) ATION -> ATE predication -> predicate (m>0) ATOR -> ATE operator -> operate (m>0) ALISM -> AL feudalism -> feudal (m>0) IVENESS -> IVE decisiveness -> decisive (m>0) FULNESS -> FUL hopefulness -> hopeful (m>0) OUSNESS -> OUS callousness -> callous (m>0) ALITI -> AL formaliti -> formal (m>0) IVITI -> IVE sensitiviti -> sensitive (m>0) BILITI -> BLE sensibiliti -> sensible

Page 19: Cours 4 Étiquettes lexicales. Catégories grammaticales En anglais parts of speech (POS) Exemple de liste de catégories grammaticales nom, verbe, adjectif,

Step 3 (m>0) ICATE -> IC triplicate -> triplic (m>0) ATIVE -> formative -> form (m>0) ALIZE -> AL formalize -> formal (m>0) ICITI -> IC electriciti -> electric (m>0) ICAL -> IC electrical -> electric (m>0) FUL -> hopeful -> hope (m>0) NESS -> goodness -> good

Step 4  (m>1) AL -> revival -> reviv (m>1) ANCE -> allowance -> allow (m>1) ENCE -> inference -> infer (m>1) ER -> airliner -> airlin (m>1) IC -> gyroscopic -> gyroscop (m>1) ABLE -> adjustable -> adjust (m>1) IBLE -> defensible -> defens (m>1) ANT -> irritant -> irrit (m>1) EMENT -> replacement -> replac (m>1) MENT -> adjustment -> adjust (m>1) ENT -> dependent -> depend (m>1 and (*S or *T)) ION -> adoption -> adopt (m>1) OU -> homologou -> homolog (m>1) ISM -> communism -> commun (m>1) ATE -> activate -> activ (m>1) ITI -> angulariti -> angular (m>1) OUS -> homologous -> homolog (m>1) IVE -> effective -> effect (m>1) IZE -> bowdlerize -> bowdler

*S ends with s (and the same for other letters)

Page 20: Cours 4 Étiquettes lexicales. Catégories grammaticales En anglais parts of speech (POS) Exemple de liste de catégories grammaticales nom, verbe, adjectif,

Step 5a  (m>1) E -> probate -> probat rate -> rate (m=1 and not *o) E -> cease -> ceas

Step 5b  (m > 1 and *d and *L) -> single letter controll -> control roll -> roll

Page 21: Cours 4 Étiquettes lexicales. Catégories grammaticales En anglais parts of speech (POS) Exemple de liste de catégories grammaticales nom, verbe, adjectif,

Le raciniseur de Porter (1980)

Exemples d'imperfections

Paires regroupées

numerical numerous --> numer

university universe --> univers

Paires non regroupées

noisy --> noisi noise --> nois

sparsity --> sparsiti sparse --> spars

Page 22: Cours 4 Étiquettes lexicales. Catégories grammaticales En anglais parts of speech (POS) Exemple de liste de catégories grammaticales nom, verbe, adjectif,

Étiquetage

Attribution d'une étiquette lexicale à chaque token (mot ou symbole de ponctuation)

Entrées : un texte tokenisé et un jeu d'étiquettes

Sortie : le texte étiqueté

Applications

recherche d'informations

reconnaissance de parole

analyse syntaxique

Ambiguïtés lexicales

La poste livre le colis dans un délai d'une semaine verbe

Le livre parvient à l'acheteur en une semaine nom

Page 23: Cours 4 Étiquettes lexicales. Catégories grammaticales En anglais parts of speech (POS) Exemple de liste de catégories grammaticales nom, verbe, adjectif,

Étiquetage par règles écrites à la main

Première étape

On consulte un lexique qui donne toutes les étiquettes possibles des tokens-mots

Il,PRO:3s est,V:P3s,A:ms,A:mp,A:fs,A:fp,ADV fin,A:ms,N:fs ./.

Deuxième étape

On applique des règles écrites à la main qui éliminent des étiquettes en fonction du contexte

if (+1A/ADV/QUANT); (+2 SENT-LIM); (NOT -1 SVOC/A);

then eliminate non-ADV tags

else eliminate ADV tag

Page 24: Cours 4 Étiquettes lexicales. Catégories grammaticales En anglais parts of speech (POS) Exemple de liste de catégories grammaticales nom, verbe, adjectif,

Étiquetage par règles apprises statistiquement (Brill, 1995)

Première étape

On consulte un lexique qui donne l'étiquette la plus fréquente pour chaque token

race/NN (plus souvent nom que verbe)

expected/VBN to/TO race/NN tomorrow/NN

Deuxième étape

On applique les règles apprises statistiquement qui changent des étiquettes en fonction du contexte

Changer NN en VB après TO

expected/VBN to/TO race/VB tomorrow/NN

Page 25: Cours 4 Étiquettes lexicales. Catégories grammaticales En anglais parts of speech (POS) Exemple de liste de catégories grammaticales nom, verbe, adjectif,

Étiquetage par règles apprises statistiquement

Deux algorithmes d'apprentissagePour la première étapeLe lexique donnant l'étiquette la plus fréquente pour chaque token

est obtenu à partir d'un corpus étiquetéPour la deuxième étapeEntrées : le lexique de la première étape ; un corpus étiqueté ; des

formes de règlesSorties : un ensemble de règlesétiqueter le texte du corpus avec le lexique de la première étapetant que les résultats ne sont pas assez bons

examiner toutes les règlessélectionner celle qui donne le meilleur étiquetageremplacer l'ancien étiquetage par celui obtenu

Page 26: Cours 4 Étiquettes lexicales. Catégories grammaticales En anglais parts of speech (POS) Exemple de liste de catégories grammaticales nom, verbe, adjectif,

Étiquetage par règles apprises statistiquement

Pour la deuxième étapeLes règles peuvent être des arbres de décisionChaque noeud de l'arbre correspond à un critère (question), et

chaque noeud fils à une réponse possibleChaque feuille correspond à une décisionExemple de jeu de critères :

- étiquette de l'avant-dernier token avant

- étiquette du dernier token avant

- forme du token, s'il est fréquent

- les 2 premières lettres du token

- les 3 dernières lettres du token

- particularités typographiques du token (majuscules, guillemets, tiret...)

- forme du token après, s'il est fréquent

- particularités typographiques du token après (majuscules, guillemets, tiret...)

Page 27: Cours 4 Étiquettes lexicales. Catégories grammaticales En anglais parts of speech (POS) Exemple de liste de catégories grammaticales nom, verbe, adjectif,

Étiquetage par modèle de Markovappris statistiquement

Probabilité qu'un mot étiqueté TO soit suivi d'un mot étiqueté NN :P(NN|TO) = 0,021 P(VB|TO) = 0,34

Probabilité qu'un mot étiqueté NN soit race :P(race|NN) = 0,00041 P(race| VB) = 0,00003

Probabilité qu'un mot étiqueté TO soit suivi de race/NN :P(NN|TO) P(race|NN) = 0,000007P(VB|TO) P(race| VB) = 0,00001

ConclusionL'étiquette correcte de race dans to race est probablement VB