Métriques pour l'évaluation de l'Annotation

Métriques pour l’évaluation de l’Annotation

Jean-Philippe Fauconnier

Institut de Recherche en Informatique de ToulouseÉquipe MELODI

25 novembre 2013

Jean-Philippe Fauconnier Métriques pour l’Annotation 1 / 71

Introduction

1. Annotation au sens Linguistique et TAL

Annotation de corpus

Annotation : une méta-donnée sur du texte (Pustejovsky et Stubbs, 2012)

(...) it is not enough to simply provide a computer with a largeamount of data and expect it to learn to speak—the data hasto be prepared in such a way that the computer can moreeasily find patterns and inferences. This is usually done byadding relevant metadata to a dataset. Any metadata tag usedto mark up elements of the dataset is called an annotationover the input.

Corpus annoté : ensemble de textes annotés (Pustejovsky et Stubbs, 2012)

Datasets of natural language are referred to as corpora, and asingle set of data annotated with the same specification iscalled an annotated corpus.


Introduction

2. Pourquoi annoter ? (Rosset, 2013)

• Évaluer un modèle théorique (Péry-Woodley, et al., 2009)• Développer/Évaluer un système TAL (Afantenos et al., 2010)

• Observer des phénomènes (Pascual, 1995 ; Rebeyrolle, 2009)

3. Cadre pour l’annotation• Corpus

Pré-annoté ou non

• Annotateurs (≥2)Étudiants, chercheurs, experts, etc.

• Guide d’annotationDescription de la tâche et rédaction itérative

• Schéma d’annotationConventions pour représenter l’annotation

• OutilsMAE (Stubbs, 2011), Glozz (Widlöcher et Mathet, 2009 ; 2012), etc.


Introduction

4. Pourquoi bien annoter ?• Risque de silence pour les approche symboliques• Risque de bruit dans les tâches en ML

• Faire des hypothèses et les éprouver empiriquement• Assurer la reproductibilité de ces expériences

Constitution d’un corpus // méthodologie expérimentale (stat.)

→ Relation entre var. indépendantes et dépendantes

→ Diminuer les variables cachées (confounding factors)

→ Corpus et annotateurs "représentatifs"

→ Objectif : dégager des liens causalité

Cependant

• Mais en réalité, beaucoup de facteurs interviennent

• Et peut-on réellement considérer un annotateur comme un processusaléatoire et indépendant ?

D’où un réel besoin d’évaluer.


Introduction

5. Évaluer pour :- Qualité du corpus- Qualité des annotations- Estimateurs stat. pour un phénomène- Produire un alignement consistant

6. Qu’est-ce qu’on évalue ?- Le corpus ?- Les annotateurs ?- Le guide d’annotation ?- Le schéma d’annotation ?

7. Et comment ?- Tests d’hypothèse ?- Corrélation intra-classes ?- Coefficients d’accord ?


Introduction

Validity vs. Reliability :Notions reprises de l’Analyse de Contenu (Krippendorf, 2004), où les chercheursvisent à diminuer les biais, et adaptées au TAL (Artstein et Peosio, 2008).

1. Validity :Vérifier la validité du schéma d’annotation.

• Les catégories définies sont-elles correctes ?• Est-ce qu’il s’agit de la vérité ?• Validity ← Reliability

2. Reliability :Vérifier la fiabilité de la tâche d’annotation

• Stability :Accord intra-annotateur

• Reproductibility :Accord inter-annotateurs

• Accuracy :Comparaison à un "gold standard"


Introduction

Et après l’évaluation de la validité/fiabilité ?

⇒ Question de l’alignementComment choisir l’annotation finale ?

- Un annotateur expert ?- Un vote majoritaire ?- Discussion entre annotateurs ?→ Dépendances entre annotateurs ?→ Mise à mal de la situation expérimentale ?

Dans les prochaines sections :

- Section 1 : Retour sur les coefficients d’accord- Section 2 : Une approche unifiée pour l’accord et l’alignement- Section 3 : Corpus LARAt - Un cas concret


1 Coefficients pour l’accordNécessité d’une mesure du hasard2 annotateurs : s, π et κMultiples-annotateurs : multi-π, multi-kMétriques pondérées : α, kw et αkInterprétation

2 Une approche holiste et unifiée

3 Corpus LARAt : un cas concret


Coefficients pour l’accordNécessité d’une mesure du hasard

Les coefficients d’accord (Artstein & Peosio, 2008)

- forment une famille de métriques- mesurent l’accord entre codeurs- sont contraints dans un intervalle [-1,1]

accord = 1 accord parfaitaccord = 0 aucun accordaccord = -1 désaccord parfait

Pourquoi les coefficients d’accord ?Il existe d’autres métriques/tests.- Accord observé- Test d’hypothèse du χ2

- Coefficients de corrélation


Coefficients pour l’accordNécessité d’une mesure du hasard : Accord observé

Accord ObservéAo est la plus simple mesure pour l’accord

(1) Dénombrer les items i où les codeurs c sont en accord(2) Accord = quand à un item i est assigné une même catégorie k(3) Diviser par le nombre N d’items pour obtenir un pourcentage.

A2

A1

isA instOf Synon Multi TotalisA 20 5 25instOf 10 15 25Synon 15 10 25Multi 5 20 25Total 25 25 25 25 100

Ao =1N

∑k∈K

nk =60100

= 0, 60



Accord Observé

- Ao rentre dans le calcul de tous les coefficients- Cependant Ao seul n’est pas suffisant- Le facteur de "chance" est ignoré- → impossibilité de comparer les études

Deux facteurs :Variation de ces deux facteurs d’une étude à l’autre.

- Le nombre K de catégories (Scott, 1955)- Distribution des items i (Di Eugenio et Glass, 2004)



(Scott, 1955)

"[percentage agreement] is biased in favor of dimensions with asmall number of categories."

k1 k2 Totalk1 1/4 - 1/2k2 - 1/4 1/2

Total 1/2 1/2 1

K = 2Par "chance" : 1/4 des idans chaque celluleAo = 1/2

k1 k2 k3 Totalk1 1/9 - - 1/3k2 - 1/9 - 1/3k3 - - 1/9 1/3

Total 1/3 1/3 1/3 1

K = 3Par "chance" : 1/9 des idans chaque celluleAo = 1/3



(Arstein & Peosio, 2008)

"(...) we expect a higher percentage agreement when one categoryis much more common than the other."

Supposons la distribution suivante :

- 95 % des i d’un domaine sont k1

- 5 % des i d’un domaine sont k2

k1 k2 Totalk1 0,95 0,95k2 0,05 0,05

Total 0,95 0,05 1

• Par "chance" : (0, 95)2

des i classés en k1 et(0, 05)2 classés en k2.

• Par "chance" :Ao = (0, 95)2 + (0, 05)2

= 90,5 %


Coefficients pour l’accordNécessité d’une mesure du hasard : Test du Chi-2

Un test statistique pour l’accord ?

- Tests d’hypothèses évaluent une hypothèse statistiquement- Ces tests produisent une p-value qui permet de rejeter ouaccepter une hypothèse selon un risque alpha (souvent à 0,05)

Test du Chi-2

- Le χ2 teste l’indépendance entre deux V.A X et Y- Sous H0 : X et Y sont indépendants- Sous H1 : X et Y ont une "relation"

- Comparaison des distributions de X et Y pour choisir l’hypothèse- Cependant, (Cohen, 1960) montre que le χ2 mesure l’associationet non l’accord.


Coefficients pour l’accordNécessité d’une mesure du hasard : Test du Chi-2

Test du χ2 de Pearson


Ao = 0,60X 2 = 140p-value < 0,01→ Accord

isA instOf Synon Multi TotalisA 25 25instOf 10 15 25Synon 15 10 25Multi 25 25Total 25 25 25 25 100

Ao = 0,20X 2 = 204p-value < 0,01→ Désaccord


Coefficients pour l’accordNécessité d’une mesure du hasard : Coefficients de corrélation

Coefficients de corrélation r et rs- mesurent la corrélation entre une V.A X et Y- prennent une valeur entre [-1,1]- Cependant, mesurent l’existence d’une relation et non l’accord

Supposons l’exemple suivant :- Deux expériences avec chacune 2 codeurs et 5 items- À chaque item est attribué une valeur entre [1,5] (rating)

ItemExp1 Exp2

A1 A2 A1 A2a 1 1 1 2b 2 2 2 4c 3 3 3 6d 4 4 4 8e 5 5 5 10


Coefficients pour l’accordNécessité d’une mesure du hasard : Coefficients de corrélation

Existence d’une relation affine

r =σx ,y

σxσy= 1

Ao = 1 Ao = -1→ Accord → DésaccordJean-Philippe Fauconnier Métriques pour l’Annotation 17 / 71

Coefficients pour l’accordNécessité d’une mesure du hasard

Nécessiter d’une correction par la chance- Ao ne suffit pas- χ2, r et rs ne sont pas adaptés- il est nécessaire de prendre en compte la "chance" avec laquelleles annotateurs auraient pu tomber d’accord.

Accord attendu- Ae une mesure pour estimer le "hasard"- Une formule qui corrige Ao- Mesure corrigée de ce que serait l’accord "réel" sous l’effet du hasard.- Si Ao élevé, mais que Ae l’est aussi ' 0- Si Ao moyen, mais que Ae est bas, → 1

Ao − Ae

1− Ae


Coefficients pour l’accord2 annotateurs : S, Pi et Kappa

Comment estimer le hasard pour 2 annotateurs ?

- L’estimation de Ae diffère dans les métriques :- S (Bennett et al., 1954)- π (Scott, 1955)- κ (Cohen, 1960)

- Mais la formule reste identique :

S , π, κ =Ao − Ae

1− Ae



Comment calculer Ae ?

Situation expérimentale avec des annotateurs indépendantsImplique :• Indépendance entre deux événements (d’annotation)• Ainsi, si A et B, deux événements, sont indépendants :

P(A ∩ B) = P(A).P(B)

(*) L’hypothèse d’indépendance est très controversée (cf. John Uebersax)

Ae : la somme des produits sur toutes les catégories k :

ASe ,A

πe ,A

κe =

∑k∈K

P(kc1).P(kc2)



Comment calculer∑

k∈K P(kc1).P(kc2) ?C’est dans l’estimation du hasard que S , π, κ diffèrent :

- S = Distribution uniformePas de distinction p(k) = 1

k

Ase =

∑k∈K

1k .

1k = k .( 1

k )2 = 1k

- π = Une seule distributionDistinction des catégories p(k) = nk

2N

Aπe =∑

k∈K P(k).P(k) =∑

k∈K ( nk2N )2

- κ = Distributions individuellesDistinction des catégories et des codeurs p(k |ci ) =

nc1kN

Aκe =∑

k∈K P(k |ci ).P(k |ci ) =∑

k∈Knc1kN .

nc2kN


Coefficients pour l’accord2 annotateurs : comparaison

Comparaison des métriquesPour Ao fixé à 0,60


S = 0,467π = 0,467κ = 0,467

isA instOf Synon Multi TotalisA 20 10 10 40instOf 10 10 20Synon 10 10 20Multi 20 20Total 40 20 20 20 100

S = 0,467π = 0,444κ = 0,444


Coefficients pour l’accord2 annotateurs : comparaison

Comparaison des métriquesPour Ao fixé à 0,60

isA instOf Synon Multi TotalisA 20 5 5 10 40instOf 10 5 5 20Synon 5 10 5 20Multi 20 20Total 20 20 20 40 100

S = 0,467π = 0,460κ = 0,474

"Paradoxe" du KappaLe κ augmente lorsque les distributions des annotateurs divergentet, inversement, pénalise les distributions similaires.


Coefficients pour l’accordMultiples annotateurs : multi-Pi et multi-kappa

Multi-π et Multi-k

- Métriques π et κ ont leur généralisation à de multiples codeurs- π (Scott, 1955) ⇒ k de Fleiss (Fleiss, 1971), appelé multi-π- κ (Cohen, 1960)⇒ k de (Davies et Fleiss, 1982), appelé multi-κ

"Accident" terminologiqueEn TAL :• Proposition d’un "kappa" (Carletta, 1996)• issu du K (Siegel et Castellan, 1988)• lui-même issu du κ de Fleiss (Fleiss, 1971)• Et le κ de Fleiss est une généralisation du π (Scott, 1955)


Coefficients pour l’accordMultiples annotateurs : multi-Pi et multi-kappa

Principe

- Utilisation de tables d’accord- Impossibilité d’utiliser des tables de contingence- Divergences :- Distribution seule : multi-π- Distributions individuelles : multi-κ

ItemisA instOf Synon Multi

i1 1 0 2 1i2 3 1 0 0..iN 0 4 0 0Total 60 (0,4) 15 (0,1) 30 (0,2) 45 (0,3)


Coefficients pour l’accordCoefficient cube

Coefficient cube (Artstein et Peosio, 2008)

- Classification des coefficients selon 3 axes


Coefficients pour l’accordMétriques pondérées

Métriques pondérées- α (Krippendorf, 1980)- κw (Cohen, 1968)- αk (Artstein et Peosio, 2008)

Principe• Utilisation d’une fonction de distance δ• Mesurer le désaccord Do

De

- DoDe

= 0 accord parfait- Do

De= 1 aucun accord

- DoDe

> 1 désaccord systématique

• Que l’on soustrait à 1 pour la comparaison entre coefficients

1− Do

De


Coefficients pour l’accordMétriques pondérées : fonction de distance

Fonction de distance δ- Donner des coûts différents aux erreurs- Utilisation d’une matrice de distance entre les catégories- Permet de définir une distance pour plusieurs types de variables :

nominale, ordinale, rating, ratio

δki ,kj = (ki − kj)2 =

{0 si ki = kj0 < x ≤ 1 si ki 6= kj

- Croissance quadratique pour pénaliser les écarts- La matrice de distance doit être symétrique

isA instOf Synon MultiisA 0 0.5 1 1instOf 0.5 0 1 1Synon 1 1 0 1Multi 1 1 1 0


Coefficients pour l’accordMétriques pondérées : alpha de krippendorf

α (Krippendorf, 1980)- Multiples codeurs et types de variables- Autorise les annotations manquantes- Reste significatif avec de petits échantillons (Krippendorf, 2004)- S’apparente au test ANOVA

Test ANOVA (Analysis of Variance)

- Le test ANOVA teste si deux V.A X et Y proviennent de lamême population- Sous H0 : X et Y < même population- Sous H1 : X et Y ne proviennent pas de la même population

- Comparaison des variances de X et Y pour choisir l’hypothèse- Dans l’α :- Faible variance ' 0 Accord- Variance limitée ' 1 Aucun accord- Variance élevée > 1 Désaccord


Coefficients pour l’accordInterprétation des coefficients d’accord

Échelle d’interprétation (Fort, 2011 ; Rosset, 2013)

- (Landis & Koch, 1977)0,00-0,20 0,21 - 0,40 0,41 - 0,60 0,61 - 0,80 0,81 - 1,00mauvais médiocre moyen bon excellent

- (Krippendorf, 1980)0,00 - 0,67 0,67 - 0,80 0,81 - 1,00incohérence aucune décision cohérence

- (Green, 1997)0,00 - 0,40 0,40 - 0,75 0,75 - 1,00

faible moyen élevé


Coefficients pour l’accordInterprétation des coefficients d’accord : biais et prévalence

Biais : le "paradoxe du k"

- Le k paraît récompenser les distributions qui diffèrent- (Di Eugenio et Glass, 2004) : utiliser le κ en discours où lesdistributions diffèrent, π/α quand les distributions sont similaires.

- (Artstein et Peosio, 2008) : bien qu’il y ait divergence pour un Aofixé, dans la pratique Ao et Ae sont dépendants (car issus desmêmes données).

isA instOf Synon Multi TotalisA 20 5 5 10 40instOf 10 5 5 20Synon 5 10 5 20Multi 20 20Total 20 20 20 40 100

S = 0,467π = 0,460κ = 0,474


Coefficients pour l’accordInterprétation des coefficients d’accord : biais et prévalence

Prévalence :

- La distribution des items tend à diminuer le coefficient.- (Artstein et Peosio, 2008) : les coefficients corrigés par unemesure de hasard sont sensibles à l’accord sur les catégories rares.

isA Multi TotalisA 0,90 0,05 0,95Multi 0 0,05 0,05Total 0,90 0,10 1

• Ako = 0,95

• Ake = 0,86

• k = 0,63


Coefficients pour l’accordInterprétation des coefficients d’accord

Quels coefficients pour quelle évaluation ?(Artstein et Peosio, 2008)

1. Validité du schéma d’annotation- Les coefficients à distributions individuelles k, kw et αkreflètent mieux le travail individuel des annotateurs.

Les annotateurs ont-ils bien compris ?Le schéma reflète-t-il la réalité/vérité ?Le guide d’annotation est-il pertinent ?

2. Fiabilité de la tâche d’annotation- Les coefficients à simple distribution π, multi-π, αdiminuent la variance et permettent la généralisation.

La tâche est-elle reproductible ?L’annotation est-elle cohérente ?Les résultats tirés de ce corpus sont fiables ?


1 Coefficients pour l’accord

2 Une approche holiste et unifiéeUne approche holiste et unifiéeLe désaccord comme créateur de désordreAlignementAlignement idéal et mesure d’accord



Une approche holiste et unifiéeProblématique : Accord et Alignement

Accord sur des unités non-prédéfinies

- Les coef. fonctionnent pour les cas où les unités sont prédéfinies(e.g : PosTag, annotation syntaxique, etc.)

- Comment estimer l’accord avec des unités qui "pavent" le texte ?(e.g : REN, chaînes anaphoriques, Discours, etc.)



Accord sur des unités non-prédéfinies- F-Mesure :- Une annotation est considérée comme annotation de référence- Une moy. harmonique est effectuée entre le rappel et la précision- Moy. sur le corpus (micro-avg) ou sur chaque doc./cat. (macro-avg)

- Pour codeurs>2 , on préférera l’exactitude∑

c∈C TPci ,cjN.C (micro-avg)

Présent AbsentPrésent TP FNAbsent FP TN

precision =TP

TP + FPrecall =

TPTP + FN

F (β) = (1 + β2)precision.recall

β2.precision + recall

- Alternative : adaptation de α (voir Krippendorf, 2004)



Accord sur des unités non-prédéfinies

- Comment définir un TP ?À partir de quel écart est-on prêt à dire que 2 unités ayant uneposition légèrement différente (chez c1, c2 et c3) désignent bienle même phénomène ?

Problème de l’alignement

- Le choix d’une métrique d’accord ne résout pas l’alignement :Comment choisir la position finale ?Comment choisir la catégorie finale ?Comment produire un alignement consistant ?


Une approche holiste et unifiée(Mathet, 2011)

Une approche holiste et unifiée (Mathet et Widlöcher, 2011)- unifiée : définit l’accord et l’alignement en utilisant la position etla catégorisation des items

- holiste : prend en compte tous les items pour l’alignement finalPrincipes :- accord et alignement = tâches inter-dépendantes- Meilleur alignement = alignement qui minimise le désordre- Meilleur accord = valeur de désordre


Une approche holiste et unifiéeLe désaccord comme créateur de désordre

Désaccord = Désordre

- Hypothèse : Pour c codeurs, même si position et catégorisationdiffèrent, elles devraient en grande partie converger (dans le cascontraire, tâche = échec).

- Idée : calculer le désordre pour estimer le désaccord- Accord parfait : les unités i ont les mêmes bornes et catégories- Désaccord : les unités i n’ont pas les mêmes bornes et catégories

- Combien de transformations entre accord parfait et désaccord ?

Transformations1. déplacement de bornes de début et de fin2. requalification de catégories3. suppression d’unités



Fonction de Dissimilarité d

- La fonction de dissimilarité d s’apparente à la fonction δkrippendorf

- Différence : elle s’applique directement aux items i (et non aux k)

diu ,iv =

{0 si iu = iv0 < x si iu 6= iv

- Différence : elle est appliquée à la position et la catégorisation• dpos mesure la distance dans le texte• dcat mesure la distance entre catégories



Dissimilarité positionnelle

- Soit start(i) et end(i) pour l’indice de début et de fin de l’item idans le texte

dpos iu ,iv =

|start(iu)− start(iv )|+ |end(iu)− end(iu)|((end(iu)−start(iu))+(start(iv )+end(iv ))

2

)2

• Croissance quadratique pour pénaliser les écarts importants

• |start(iu)− start(iv )|+ |end(iu)− end(iu)|Somme des écarts absolus pour deux items

• (end(iu)−start(iu))+(end(iv )+start(iv ))2

Moyenne des unités. Permet le passage à des échelles différentes.



Dissimilarité catégorielle

- Deux fonctions :- dcat : dissimilarité entre deux unités- distcat : différence entre les catégories dans la matrice symétrique

- où dcat est :

dcat iu ,iv = distcat(kiu , kiv ).∆∅

- où distcat retourne la valeur dans la matrice :

isA instOf Synon MultiisA 0 0.5 1 1instOf 0.5 0 1 1Synon 1 1 0 1Multi 1 1 1 0



Dissimilarité combinée

- dcombi est une combinaison linéaire de dpos et dcat

dcombi iu,iv = a.dpos(iu, iv) + b.dcat(iu, iv)

- où si a = 0, 5 et b = 0, 5, un poids égal est donné aux deuxdissimilarités :

dcombi iu,iv =dpos(iu, iv) + dcat(iu, iv)

2


Une approche holiste et unifiéeAlignement

Distinction entre alignement unitaire et alignement

-.a = un alignement unitaire entre deux unités

- a = un ensemble d’alignements unitaires pour un jeu d’annotation

Alignement unitaire

-.a, un n-uplet, avec n compris dans l’intervalle [1,C ]

-.a contient, au plus, une unité de chaque annotateur

Alignementc1 c2( i11 , i∅ ) → alignement vide avec unité fictive i∅( i11 , i21 ) → vrai alignement( ... , ... )( i13 , i212 ) → "faux" alignement

Nombre d’alignements unitaires générables : (∏

c∈C Nc)− 1Jean-Philippe Fauconnier Métriques pour l’Annotation 50 / 71

Une approche holiste et unifiéeAlignement et Entropie

Alignement et EntropieEntropie dans le sens de désordre (et non de (Shannon, 1948))

Alignement unitaire :- Idée : mesurer le désordre d’un alignement unitaire en utilisantune fonction de dissimilarité

- On mesure l’"entropie" d’un alignement unitaire, pour une dxdonnée, en faisant la moyenne de ses dissimilarités.

.e(

.a) =

1(n2

) ∑iu ,iv∈

.a

dx(iu, iv )

IntuitionAu plus un alignement unitaire aura de grandes distances entre sesunités, au plus il aura de "désordre", c’est-à-dire d’entropie au sensde (Mathet, 2011).


Une approche holiste et unifiéeAlignement et Entropie

Alignement et EntropieEntropie dans le sens de désordre (et non de (Shannon, 1948))

Alignement :- On mesure l’"entropie" d’un alignement en faisant la moyenne del’entropie de chacun de ses alignements unitaires

.a

e(a) =1|a|

|a|∑i=1

.e(

.a)

- Ici, la moyenne est considérée afin d’éviter, dans le cas decomparaison entre deux jeux, l’un avec doublons et l’autre sans,qu’il y ait une différence d’entropie.


Une approche holiste et unifiéeAlignement idéal et mesure d’accord

Alignement idéal :- a est l’alignement a qui minimise l’entropie pour tous lesalignements unitaires

.a possibles pour un jeu d’annotations j .

Mesure d’accord- Pour un jeu d’annotations j et un corpus c (textes nus) :

accord(j) =ealeatoire(c)− e(j)

ealeatoire(c)

- où ealeatoire est une estimation du "hasard" (cf. section 1), c-à-dde ce que pourrait être l’entropie pour un corpus donné.

Interprétation• Si accord(j) = 1, accord parfait et entropie nulle.• Si accord(j) ≤ 0, aucun accord.


Une approche holiste et unifiéeAlignement idée et mesure d’accord

Ainsi :

- le choix de l’alignement idéal se fait sur base de l’entropie- réciproquement, la mesure d’accord se fait sur base del’alignement idéal.

Dans la pratique :

- Réduction de l’espace de recherche en enlevant les.a improbables

- Algorithme d’approximation pour une solution approchée de a- Nécessité, cependant, de définir un ∆∅ pour chaque campagne




3 Corpus LARAt : un cas concretCadreRetour sur la tâche d’annotationExploitation


Corpus LARAtCadre

Une campagne d’annotation

- Objectif : Annoter des structures énumératives selon unetypologie multi-dimensionnelle avec plusieurs axes.

- Corpus :- 249 documents de Wikipédia (< GEONTO)- 87 documents de Annodis

- Un guide d’annotation- 2 annotateurs étudiants

Outil :

- Les SE sont objets discursifs où la mise en forme du texte estnécessaire pour l’annotation en texte.

- Les outils tels que Callisto, MMAX2, Glozz ne conviennent pas.- Nécessité d’un outil adapté :

Développement de LARAt


Corpus LARAtCadre

Interface de LARAt


Corpus LARAtRetour sur la tâche d’annotation

Des distributions différentes pour les annotateurs :

- Annotateur 1 sur Axe Sémantique



Des distributions différentes pour les annotateurs :

- Annotateur 2 sur Axe Sémantique



Distributions différentes au niveau du nombre d’items :

- Les classes InstanceOf et isA : grand nombre d’items + outliers


Corpus LARAtExploitation

Exploitation :

1. Nécessité de définir un alignement pour calculer les accords2. Calculer des coef. à distributions individuelles pour évaluer la

typologie (k)3. calculer des coef. à distribution simple pour évaluer le

corpus/tâche (α)

1. Alignement par le positionnement

- Les multiples axes empêchent une approche unifiée- Alternative : estimer les paramètres de distance- qui nécessite d’annoter un petit set d’annotations ..


Corpus LARAtExploitation : alignement par le positionnement

Génération d’alignements unitaires

- Sous-ensemble restreint du corpus (env. 300 annot.)- Objectif : estimer des seuils sur diff − start et diff − end



Annotation semi-automatique des alignements "réels"



Estimation d’une frontière de décision- Par Support Vector Machine (SVM)



Estimation d’une frontière de décision- Par régression logistique (ici sur la seule variable diff − start)- Moyennement efficace mais modèle moins "boîte noire"


Conclusion

L’annotation

- est à la base de la majorité des systèmes TAL- est un sujet non clos :

- L’annotation multi-labels- Le seuil d’accord humain et les performances en ML- Les annotateurs réellement "aléatoires" sous A. Mechanical Turk- etc.

Accord et Alignement :

- ne sont pas des problèmes indépendants- il existe de nombreuses métriques :- Nécessité d’un choix conscient- Et d’intervalles de confiance ?


Références

• S. Afantenos, P. Denis, P. Muller, and L. Danlos, "Learning recursivesegments for discourse parsing," in Proc. Proceedings of 7th LanguageResources and Evaluation Conference (LREC 2010), 2010.

• R. Artstein and M. Poesio, "Inter-coder agreement for computationallinguistics," Computational Linguistics, vol. 34, iss. 4, pp. 555-596, 2008.

• E. M. Bennett, R. Alpert, and A. Goldstein, "Communications throughlimited-response questioning," Public Opinion Quarterly, vol. 18, iss. 3, pp.303-308, 1954.

• Y. Bestgen, "Quels indices pour mesurer l’efficacité en segmentationthématique ?," in Proc. Actes de la 16e Conférence sur le TraitementAutomatique des Langues Naturelles (TALN 2009), 2009.

• J. Carletta, "Assessing agreement on classification tasks : the kappastatistic," Computational linguistics, vol. 22, iss. 2, pp. 249-254, 1996.

• J. Cohen and others, "A coefficient of agreement for nominal scales,"Educational and psychological measurement, vol. 20, iss. 1, pp. 37-46, 1960.

• J. Cohen, "Weighted kappa : Nominal scale agreement provision for scaleddisagreement or partial credit.," Psychological bulletin, vol. 70, iss. 4, p.213, 1968.

• B. Di Eugenio and M. Glass, "The kappa statistic : A second look,"Computational linguistics, vol. 30, iss. 1, pp. 95-101, 2004.


Références

• J. L. Fleiss, "Measuring nominal scale agreement among many raters.,"Psychological bulletin, vol. 76, iss. 5, p. 378, 1971.

• Fort, K., Corpus Linguistics : Inter-Annotator Agreements, INIST, 2011.• A. M. Green, "Kappa statistics for multiple raters using categorical

classifications," in Proc. Proceedings of the 22nd annual SAS User GroupInternational conference, 1997, pp. 1110-1115.

• C. Grouin, S. Rosset, P. Zweigenbaum, K. Fort, O. Galibert, and L.Quintard, "Proposal for an extension of traditional named entities : Fromguidelines to evaluation, an overview," in Proc. Proceedings of the 5thLinguistic Annotation Workshop, 2011, pp. 92-100.

• K. Krippendorff, Content analysis : An introduction to its methodology,Sage Publications, 1980.

• K. Krippendorff, "On the reliability of unitizing continuous data,"Sociological Methodology, pp. 47-76, 1995.

• K. Krippendorff, "Measuring the reliability of qualitative text analysis data,"Quality & Quantity, vol. 38, pp. 787-800, 2004.

• R. J. Landis and G. G. Koch, "The measurement of observer agreement forcategorical data," biometrics, pp. 159-174, 1977.


Références

• Y. Mathet and A. Widlöcher, "Une approche holiste et unifiée del’alignement et de la mesure d’accord inter-annotateurs," in Proc. Actes dela 18e Conférence sur le Traitement Automatique des Langues Naturelles(TALN 2011), 2011.

• C. Müller and M. Strube, "Multi-level annotation of linguistic data withMMAX2," , Braun, S., Kohn, K., and Mukherjee, J., Eds., Frankfurt a.M.,Germany : Peter Lang, 2006, pp. 197-214.

• E. Pascual and M. P. Pery-Woodley, "La définition dans le texte," Textes detype consigne–Perception, action, cognition, pp. 65-88, 1995.

• M. Péry-Woodley, N. Asher, P. Enjalbert, F. Benamara, M. Bras, C. Fabre,S. Ferrari, L. Ho-Dac, A. Le Draoulec, Y. Mathet, and others, "ANNODIS :une approche outillée de l’annotation de structures discursives," in Proc.Actes de la 16e Conférence sur le Traitement Automatique des LanguesNaturelles (TALN 2009), 2009.

• J. Pustejovsky and A. Stubbs, Natural language annotation for machinelearning, O’Reilly, 2012.

• J. Rebeyrolle, M. P. Jacques, M. P. Péry-Woodley, and others, "Titres etintertitres dans l’organisation du discours 1," Journal of French LanguageStudies, vol. 19, iss. 2, p. 269, 2009.


Références

• Rosset, S., Accords inter-annotateurs dans une campagne d’annotation : dela théorie à la pratique, CLEE-ERSS, 2013.

• W. A. Scott, "Reliability of content analysis : The case of nominal scalecoding.," Public opinion quarterly, 1955.

• S. Siegel and J. N. Castellan, Nonparametric Statistics for the BehavioralSciences, McGraw-HiU Book Company, N. Y., Ed., , 1988, vol. 2nd edition.

• C. E. Shannon, "A mathematical theory of communication," The BellSystem Technical Journal„ vol. 27, iss. 1, pp. 379-423, 1948.

• A. Stubbs, "MAE and MAI : Lightweight Annotation and AdjudicationTools," in Proc. Proceedings of the 5th Linguistic Annotation Workshop,Association of Computational Linguistics, Portland, 2011.

• A. Widlöcher and Y. Mathet, "La plate-forme Glozz : environnementd’annotation et d’exploration de corpus," in Proc. Actes de la 16eConférence sur le Traitement Automatique des Langues Naturelles (TALN2009), 2009.

• A. Widlöcher and Y. Mathet, "The Glozz platform : a corpus annotationand mining tool," in Proc. Proceedings of the 2012 ACM symposium onDocument engineering, 2012, pp. 171-180.


Métriques pour l'évaluation de l'Annotation

Data & Analytics

Transcript of Métriques pour l'évaluation de l'Annotation