Métriques pour l'évaluation de l'Annotation

71
Métriques pour l’évaluation de l’Annotation Jean-Philippe Fauconnier Institut de Recherche en Informatique de Toulouse Équipe MELODI 25 novembre 2013 Jean-Philippe Fauconnier Métriques pour l’Annotation 1 / 71

description

L'annotation est une tâche cruciale pour le développement et l'évaluation de systèmes TAL. Entre notions de validité et de fiabilité de l'annotation, il est nécessaire de faire un choix conscient des métriques (Kappa, Pi, Alpha, etc.) à utiliser. Dans cette continuité, un focus est fait sur une approche unifiant mesure d'accord et alignement (Mathet and Widlöcher, 2011). Pour tout commentaire, correction, amélioration : prénom.nom /dot/ irit.fr (Jean-Philippe Fauconnier)

Transcript of Métriques pour l'évaluation de l'Annotation

Page 1: Métriques pour l'évaluation de l'Annotation

Métriques pour l’évaluation de l’Annotation

Jean-Philippe Fauconnier

Institut de Recherche en Informatique de ToulouseÉquipe MELODI

25 novembre 2013

Jean-Philippe Fauconnier Métriques pour l’Annotation 1 / 71

Page 2: Métriques pour l'évaluation de l'Annotation

Introduction

1. Annotation au sens Linguistique et TAL

Annotation de corpus

Annotation : une méta-donnée sur du texte (Pustejovsky et Stubbs, 2012)

(...) it is not enough to simply provide a computer with a largeamount of data and expect it to learn to speak—the data hasto be prepared in such a way that the computer can moreeasily find patterns and inferences. This is usually done byadding relevant metadata to a dataset. Any metadata tag usedto mark up elements of the dataset is called an annotationover the input.

Corpus annoté : ensemble de textes annotés (Pustejovsky et Stubbs, 2012)

Datasets of natural language are referred to as corpora, and asingle set of data annotated with the same specification iscalled an annotated corpus.

Jean-Philippe Fauconnier Métriques pour l’Annotation 2 / 71

Page 3: Métriques pour l'évaluation de l'Annotation

Introduction

2. Pourquoi annoter ? (Rosset, 2013)

• Évaluer un modèle théorique (Péry-Woodley, et al., 2009)• Développer/Évaluer un système TAL (Afantenos et al., 2010)

• Observer des phénomènes (Pascual, 1995 ; Rebeyrolle, 2009)

3. Cadre pour l’annotation• Corpus

Pré-annoté ou non

• Annotateurs (≥2)Étudiants, chercheurs, experts, etc.

• Guide d’annotationDescription de la tâche et rédaction itérative

• Schéma d’annotationConventions pour représenter l’annotation

• OutilsMAE (Stubbs, 2011), Glozz (Widlöcher et Mathet, 2009 ; 2012), etc.

Jean-Philippe Fauconnier Métriques pour l’Annotation 3 / 71

Page 4: Métriques pour l'évaluation de l'Annotation

Introduction

4. Pourquoi bien annoter ?• Risque de silence pour les approche symboliques• Risque de bruit dans les tâches en ML

• Faire des hypothèses et les éprouver empiriquement• Assurer la reproductibilité de ces expériences

Constitution d’un corpus // méthodologie expérimentale (stat.)

→ Relation entre var. indépendantes et dépendantes

→ Diminuer les variables cachées (confounding factors)

→ Corpus et annotateurs "représentatifs"

→ Objectif : dégager des liens causalité

Cependant

• Mais en réalité, beaucoup de facteurs interviennent

• Et peut-on réellement considérer un annotateur comme un processusaléatoire et indépendant ?

D’où un réel besoin d’évaluer.

Jean-Philippe Fauconnier Métriques pour l’Annotation 4 / 71

Page 5: Métriques pour l'évaluation de l'Annotation

Introduction

5. Évaluer pour :- Qualité du corpus- Qualité des annotations- Estimateurs stat. pour un phénomène- Produire un alignement consistant

6. Qu’est-ce qu’on évalue ?- Le corpus ?- Les annotateurs ?- Le guide d’annotation ?- Le schéma d’annotation ?

7. Et comment ?- Tests d’hypothèse ?- Corrélation intra-classes ?- Coefficients d’accord ?

Jean-Philippe Fauconnier Métriques pour l’Annotation 5 / 71

Page 6: Métriques pour l'évaluation de l'Annotation

Introduction

Validity vs. Reliability :Notions reprises de l’Analyse de Contenu (Krippendorf, 2004), où les chercheursvisent à diminuer les biais, et adaptées au TAL (Artstein et Peosio, 2008).

1. Validity :Vérifier la validité du schéma d’annotation.

• Les catégories définies sont-elles correctes ?• Est-ce qu’il s’agit de la vérité ?• Validity ← Reliability

2. Reliability :Vérifier la fiabilité de la tâche d’annotation

• Stability :Accord intra-annotateur

• Reproductibility :Accord inter-annotateurs

• Accuracy :Comparaison à un "gold standard"

Jean-Philippe Fauconnier Métriques pour l’Annotation 6 / 71

Page 7: Métriques pour l'évaluation de l'Annotation

Introduction

Et après l’évaluation de la validité/fiabilité ?

⇒ Question de l’alignementComment choisir l’annotation finale ?

- Un annotateur expert ?- Un vote majoritaire ?- Discussion entre annotateurs ?→ Dépendances entre annotateurs ?→ Mise à mal de la situation expérimentale ?

Dans les prochaines sections :

- Section 1 : Retour sur les coefficients d’accord- Section 2 : Une approche unifiée pour l’accord et l’alignement- Section 3 : Corpus LARAt - Un cas concret

Jean-Philippe Fauconnier Métriques pour l’Annotation 7 / 71

Page 8: Métriques pour l'évaluation de l'Annotation

1 Coefficients pour l’accordNécessité d’une mesure du hasard2 annotateurs : s, π et κMultiples-annotateurs : multi-π, multi-kMétriques pondérées : α, kw et αkInterprétation

2 Une approche holiste et unifiée

3 Corpus LARAt : un cas concret

Jean-Philippe Fauconnier Métriques pour l’Annotation 8 / 71

Page 9: Métriques pour l'évaluation de l'Annotation

Coefficients pour l’accordNécessité d’une mesure du hasard

Les coefficients d’accord (Artstein & Peosio, 2008)

- forment une famille de métriques- mesurent l’accord entre codeurs- sont contraints dans un intervalle [-1,1]

accord = 1 accord parfaitaccord = 0 aucun accordaccord = -1 désaccord parfait

Pourquoi les coefficients d’accord ?Il existe d’autres métriques/tests.- Accord observé- Test d’hypothèse du χ2

- Coefficients de corrélation

Jean-Philippe Fauconnier Métriques pour l’Annotation 9 / 71

Page 10: Métriques pour l'évaluation de l'Annotation

Coefficients pour l’accordNécessité d’une mesure du hasard : Accord observé

Accord ObservéAo est la plus simple mesure pour l’accord

(1) Dénombrer les items i où les codeurs c sont en accord(2) Accord = quand à un item i est assigné une même catégorie k(3) Diviser par le nombre N d’items pour obtenir un pourcentage.

A2

A1

isA instOf Synon Multi TotalisA 20 5 25instOf 10 15 25Synon 15 10 25Multi 5 20 25Total 25 25 25 25 100

Ao =1N

∑k∈K

nk =60100

= 0, 60

Jean-Philippe Fauconnier Métriques pour l’Annotation 10 / 71

Page 11: Métriques pour l'évaluation de l'Annotation

Coefficients pour l’accordNécessité d’une mesure du hasard : Accord observé

Accord Observé

- Ao rentre dans le calcul de tous les coefficients- Cependant Ao seul n’est pas suffisant- Le facteur de "chance" est ignoré- → impossibilité de comparer les études

Deux facteurs :Variation de ces deux facteurs d’une étude à l’autre.

- Le nombre K de catégories (Scott, 1955)- Distribution des items i (Di Eugenio et Glass, 2004)

Jean-Philippe Fauconnier Métriques pour l’Annotation 11 / 71

Page 12: Métriques pour l'évaluation de l'Annotation

Coefficients pour l’accordNécessité d’une mesure du hasard : Accord observé

(Scott, 1955)

"[percentage agreement] is biased in favor of dimensions with asmall number of categories."

k1 k2 Totalk1 1/4 - 1/2k2 - 1/4 1/2

Total 1/2 1/2 1

K = 2Par "chance" : 1/4 des idans chaque celluleAo = 1/2

k1 k2 k3 Totalk1 1/9 - - 1/3k2 - 1/9 - 1/3k3 - - 1/9 1/3

Total 1/3 1/3 1/3 1

K = 3Par "chance" : 1/9 des idans chaque celluleAo = 1/3

Jean-Philippe Fauconnier Métriques pour l’Annotation 12 / 71

Page 13: Métriques pour l'évaluation de l'Annotation

Coefficients pour l’accordNécessité d’une mesure du hasard : Accord observé

(Arstein & Peosio, 2008)

"(...) we expect a higher percentage agreement when one categoryis much more common than the other."

Supposons la distribution suivante :

- 95 % des i d’un domaine sont k1

- 5 % des i d’un domaine sont k2

k1 k2 Totalk1 0,95 0,95k2 0,05 0,05

Total 0,95 0,05 1

• Par "chance" : (0, 95)2

des i classés en k1 et(0, 05)2 classés en k2.

• Par "chance" :Ao = (0, 95)2 + (0, 05)2

= 90,5 %

Jean-Philippe Fauconnier Métriques pour l’Annotation 13 / 71

Page 14: Métriques pour l'évaluation de l'Annotation

Coefficients pour l’accordNécessité d’une mesure du hasard : Test du Chi-2

Un test statistique pour l’accord ?

- Tests d’hypothèses évaluent une hypothèse statistiquement- Ces tests produisent une p-value qui permet de rejeter ouaccepter une hypothèse selon un risque alpha (souvent à 0,05)

Test du Chi-2

- Le χ2 teste l’indépendance entre deux V.A X et Y- Sous H0 : X et Y sont indépendants- Sous H1 : X et Y ont une "relation"

- Comparaison des distributions de X et Y pour choisir l’hypothèse- Cependant, (Cohen, 1960) montre que le χ2 mesure l’associationet non l’accord.

Jean-Philippe Fauconnier Métriques pour l’Annotation 14 / 71

Page 15: Métriques pour l'évaluation de l'Annotation

Coefficients pour l’accordNécessité d’une mesure du hasard : Test du Chi-2

Test du χ2 de Pearson

isA instOf Synon Multi TotalisA 20 5 25instOf 10 15 25Synon 15 10 25Multi 5 20 25Total 25 25 25 25 100

Ao = 0,60X 2 = 140p-value < 0,01→ Accord

isA instOf Synon Multi TotalisA 25 25instOf 10 15 25Synon 15 10 25Multi 25 25Total 25 25 25 25 100

Ao = 0,20X 2 = 204p-value < 0,01→ Désaccord

Jean-Philippe Fauconnier Métriques pour l’Annotation 15 / 71

Page 16: Métriques pour l'évaluation de l'Annotation

Coefficients pour l’accordNécessité d’une mesure du hasard : Coefficients de corrélation

Coefficients de corrélation r et rs- mesurent la corrélation entre une V.A X et Y- prennent une valeur entre [-1,1]- Cependant, mesurent l’existence d’une relation et non l’accord

Supposons l’exemple suivant :- Deux expériences avec chacune 2 codeurs et 5 items- À chaque item est attribué une valeur entre [1,5] (rating)

ItemExp1 Exp2

A1 A2 A1 A2a 1 1 1 2b 2 2 2 4c 3 3 3 6d 4 4 4 8e 5 5 5 10

Jean-Philippe Fauconnier Métriques pour l’Annotation 16 / 71

Page 17: Métriques pour l'évaluation de l'Annotation

Coefficients pour l’accordNécessité d’une mesure du hasard : Coefficients de corrélation

Existence d’une relation affine

r =σx ,y

σxσy= 1

Ao = 1 Ao = -1→ Accord → DésaccordJean-Philippe Fauconnier Métriques pour l’Annotation 17 / 71

Page 18: Métriques pour l'évaluation de l'Annotation

Coefficients pour l’accordNécessité d’une mesure du hasard

Nécessiter d’une correction par la chance- Ao ne suffit pas- χ2, r et rs ne sont pas adaptés- il est nécessaire de prendre en compte la "chance" avec laquelleles annotateurs auraient pu tomber d’accord.

Accord attendu- Ae une mesure pour estimer le "hasard"- Une formule qui corrige Ao- Mesure corrigée de ce que serait l’accord "réel" sous l’effet du hasard.- Si Ao élevé, mais que Ae l’est aussi ' 0- Si Ao moyen, mais que Ae est bas, → 1

Ao − Ae

1− Ae

Jean-Philippe Fauconnier Métriques pour l’Annotation 18 / 71

Page 19: Métriques pour l'évaluation de l'Annotation

1 Coefficients pour l’accordNécessité d’une mesure du hasard2 annotateurs : s, π et κMultiples-annotateurs : multi-π, multi-kMétriques pondérées : α, kw et αkInterprétation

2 Une approche holiste et unifiée

3 Corpus LARAt : un cas concret

Jean-Philippe Fauconnier Métriques pour l’Annotation 19 / 71

Page 20: Métriques pour l'évaluation de l'Annotation

Coefficients pour l’accord2 annotateurs : S, Pi et Kappa

Comment estimer le hasard pour 2 annotateurs ?

- L’estimation de Ae diffère dans les métriques :- S (Bennett et al., 1954)- π (Scott, 1955)- κ (Cohen, 1960)

- Mais la formule reste identique :

S , π, κ =Ao − Ae

1− Ae

Jean-Philippe Fauconnier Métriques pour l’Annotation 20 / 71

Page 21: Métriques pour l'évaluation de l'Annotation

Coefficients pour l’accord2 annotateurs : S, Pi et Kappa

Comment calculer Ae ?

Situation expérimentale avec des annotateurs indépendantsImplique :• Indépendance entre deux événements (d’annotation)• Ainsi, si A et B, deux événements, sont indépendants :

P(A ∩ B) = P(A).P(B)

(*) L’hypothèse d’indépendance est très controversée (cf. John Uebersax)

Ae : la somme des produits sur toutes les catégories k :

ASe ,A

πe ,A

κe =

∑k∈K

P(kc1).P(kc2)

Jean-Philippe Fauconnier Métriques pour l’Annotation 21 / 71

Page 22: Métriques pour l'évaluation de l'Annotation

Coefficients pour l’accord2 annotateurs : S, Pi et Kappa

Comment calculer∑

k∈K P(kc1).P(kc2) ?C’est dans l’estimation du hasard que S , π, κ diffèrent :

- S = Distribution uniformePas de distinction p(k) = 1

k

Ase =

∑k∈K

1k .

1k = k .( 1

k )2 = 1k

- π = Une seule distributionDistinction des catégories p(k) = nk

2N

Aπe =∑

k∈K P(k).P(k) =∑

k∈K ( nk2N )2

- κ = Distributions individuellesDistinction des catégories et des codeurs p(k |ci ) =

nc1kN

Aκe =∑

k∈K P(k |ci ).P(k |ci ) =∑

k∈Knc1kN .

nc2kN

Jean-Philippe Fauconnier Métriques pour l’Annotation 22 / 71

Page 23: Métriques pour l'évaluation de l'Annotation

Coefficients pour l’accord2 annotateurs : comparaison

Comparaison des métriquesPour Ao fixé à 0,60

isA instOf Synon Multi TotalisA 20 5 25instOf 10 15 25Synon 15 10 25Multi 5 20 25Total 25 25 25 25 100

S = 0,467π = 0,467κ = 0,467

isA instOf Synon Multi TotalisA 20 10 10 40instOf 10 10 20Synon 10 10 20Multi 20 20Total 40 20 20 20 100

S = 0,467π = 0,444κ = 0,444

Jean-Philippe Fauconnier Métriques pour l’Annotation 23 / 71

Page 24: Métriques pour l'évaluation de l'Annotation

Coefficients pour l’accord2 annotateurs : comparaison

Comparaison des métriquesPour Ao fixé à 0,60

isA instOf Synon Multi TotalisA 20 5 5 10 40instOf 10 5 5 20Synon 5 10 5 20Multi 20 20Total 20 20 20 40 100

S = 0,467π = 0,460κ = 0,474

"Paradoxe" du KappaLe κ augmente lorsque les distributions des annotateurs divergentet, inversement, pénalise les distributions similaires.

Jean-Philippe Fauconnier Métriques pour l’Annotation 24 / 71

Page 25: Métriques pour l'évaluation de l'Annotation

1 Coefficients pour l’accordNécessité d’une mesure du hasard2 annotateurs : s, π et κMultiples-annotateurs : multi-π, multi-kMétriques pondérées : α, kw et αkInterprétation

2 Une approche holiste et unifiée

3 Corpus LARAt : un cas concret

Jean-Philippe Fauconnier Métriques pour l’Annotation 25 / 71

Page 26: Métriques pour l'évaluation de l'Annotation

Coefficients pour l’accordMultiples annotateurs : multi-Pi et multi-kappa

Multi-π et Multi-k

- Métriques π et κ ont leur généralisation à de multiples codeurs- π (Scott, 1955) ⇒ k de Fleiss (Fleiss, 1971), appelé multi-π- κ (Cohen, 1960)⇒ k de (Davies et Fleiss, 1982), appelé multi-κ

"Accident" terminologiqueEn TAL :• Proposition d’un "kappa" (Carletta, 1996)• issu du K (Siegel et Castellan, 1988)• lui-même issu du κ de Fleiss (Fleiss, 1971)• Et le κ de Fleiss est une généralisation du π (Scott, 1955)

Jean-Philippe Fauconnier Métriques pour l’Annotation 26 / 71

Page 27: Métriques pour l'évaluation de l'Annotation

Coefficients pour l’accordMultiples annotateurs : multi-Pi et multi-kappa

Principe

- Utilisation de tables d’accord- Impossibilité d’utiliser des tables de contingence- Divergences :- Distribution seule : multi-π- Distributions individuelles : multi-κ

ItemisA instOf Synon Multi

i1 1 0 2 1i2 3 1 0 0..iN 0 4 0 0Total 60 (0,4) 15 (0,1) 30 (0,2) 45 (0,3)

Jean-Philippe Fauconnier Métriques pour l’Annotation 27 / 71

Page 28: Métriques pour l'évaluation de l'Annotation

1 Coefficients pour l’accordNécessité d’une mesure du hasard2 annotateurs : s, π et κMultiples-annotateurs : multi-π, multi-kMétriques pondérées : α, kw et αkInterprétation

2 Une approche holiste et unifiée

3 Corpus LARAt : un cas concret

Jean-Philippe Fauconnier Métriques pour l’Annotation 28 / 71

Page 29: Métriques pour l'évaluation de l'Annotation

Coefficients pour l’accordCoefficient cube

Coefficient cube (Artstein et Peosio, 2008)

- Classification des coefficients selon 3 axes

Jean-Philippe Fauconnier Métriques pour l’Annotation 29 / 71

Page 30: Métriques pour l'évaluation de l'Annotation

Coefficients pour l’accordMétriques pondérées

Métriques pondérées- α (Krippendorf, 1980)- κw (Cohen, 1968)- αk (Artstein et Peosio, 2008)

Principe• Utilisation d’une fonction de distance δ• Mesurer le désaccord Do

De

- DoDe

= 0 accord parfait- Do

De= 1 aucun accord

- DoDe

> 1 désaccord systématique

• Que l’on soustrait à 1 pour la comparaison entre coefficients

1− Do

De

Jean-Philippe Fauconnier Métriques pour l’Annotation 30 / 71

Page 31: Métriques pour l'évaluation de l'Annotation

Coefficients pour l’accordMétriques pondérées : fonction de distance

Fonction de distance δ- Donner des coûts différents aux erreurs- Utilisation d’une matrice de distance entre les catégories- Permet de définir une distance pour plusieurs types de variables :

nominale, ordinale, rating, ratio

δki ,kj = (ki − kj)2 =

{0 si ki = kj0 < x ≤ 1 si ki 6= kj

- Croissance quadratique pour pénaliser les écarts- La matrice de distance doit être symétrique

isA instOf Synon MultiisA 0 0.5 1 1instOf 0.5 0 1 1Synon 1 1 0 1Multi 1 1 1 0

Jean-Philippe Fauconnier Métriques pour l’Annotation 31 / 71

Page 32: Métriques pour l'évaluation de l'Annotation

Coefficients pour l’accordMétriques pondérées : alpha de krippendorf

α (Krippendorf, 1980)- Multiples codeurs et types de variables- Autorise les annotations manquantes- Reste significatif avec de petits échantillons (Krippendorf, 2004)- S’apparente au test ANOVA

Test ANOVA (Analysis of Variance)

- Le test ANOVA teste si deux V.A X et Y proviennent de lamême population- Sous H0 : X et Y < même population- Sous H1 : X et Y ne proviennent pas de la même population

- Comparaison des variances de X et Y pour choisir l’hypothèse- Dans l’α :- Faible variance ' 0 Accord- Variance limitée ' 1 Aucun accord- Variance élevée > 1 Désaccord

Jean-Philippe Fauconnier Métriques pour l’Annotation 32 / 71

Page 33: Métriques pour l'évaluation de l'Annotation

1 Coefficients pour l’accordNécessité d’une mesure du hasard2 annotateurs : s, π et κMultiples-annotateurs : multi-π, multi-kMétriques pondérées : α, kw et αkInterprétation

2 Une approche holiste et unifiée

3 Corpus LARAt : un cas concret

Jean-Philippe Fauconnier Métriques pour l’Annotation 33 / 71

Page 34: Métriques pour l'évaluation de l'Annotation

Coefficients pour l’accordInterprétation des coefficients d’accord

Échelle d’interprétation (Fort, 2011 ; Rosset, 2013)

- (Landis & Koch, 1977)0,00-0,20 0,21 - 0,40 0,41 - 0,60 0,61 - 0,80 0,81 - 1,00mauvais médiocre moyen bon excellent

- (Krippendorf, 1980)0,00 - 0,67 0,67 - 0,80 0,81 - 1,00incohérence aucune décision cohérence

- (Green, 1997)0,00 - 0,40 0,40 - 0,75 0,75 - 1,00

faible moyen élevé

Jean-Philippe Fauconnier Métriques pour l’Annotation 34 / 71

Page 35: Métriques pour l'évaluation de l'Annotation

Coefficients pour l’accordInterprétation des coefficients d’accord : biais et prévalence

Biais : le "paradoxe du k"

- Le k paraît récompenser les distributions qui diffèrent- (Di Eugenio et Glass, 2004) : utiliser le κ en discours où lesdistributions diffèrent, π/α quand les distributions sont similaires.

- (Artstein et Peosio, 2008) : bien qu’il y ait divergence pour un Aofixé, dans la pratique Ao et Ae sont dépendants (car issus desmêmes données).

isA instOf Synon Multi TotalisA 20 5 5 10 40instOf 10 5 5 20Synon 5 10 5 20Multi 20 20Total 20 20 20 40 100

S = 0,467π = 0,460κ = 0,474

Jean-Philippe Fauconnier Métriques pour l’Annotation 35 / 71

Page 36: Métriques pour l'évaluation de l'Annotation

Coefficients pour l’accordInterprétation des coefficients d’accord : biais et prévalence

Prévalence :

- La distribution des items tend à diminuer le coefficient.- (Artstein et Peosio, 2008) : les coefficients corrigés par unemesure de hasard sont sensibles à l’accord sur les catégories rares.

isA Multi TotalisA 0,90 0,05 0,95Multi 0 0,05 0,05Total 0,90 0,10 1

• Ako = 0,95

• Ake = 0,86

• k = 0,63

Jean-Philippe Fauconnier Métriques pour l’Annotation 36 / 71

Page 37: Métriques pour l'évaluation de l'Annotation

Coefficients pour l’accordInterprétation des coefficients d’accord

Quels coefficients pour quelle évaluation ?(Artstein et Peosio, 2008)

1. Validité du schéma d’annotation- Les coefficients à distributions individuelles k, kw et αkreflètent mieux le travail individuel des annotateurs.

Les annotateurs ont-ils bien compris ?Le schéma reflète-t-il la réalité/vérité ?Le guide d’annotation est-il pertinent ?

2. Fiabilité de la tâche d’annotation- Les coefficients à simple distribution π, multi-π, αdiminuent la variance et permettent la généralisation.

La tâche est-elle reproductible ?L’annotation est-elle cohérente ?Les résultats tirés de ce corpus sont fiables ?

Jean-Philippe Fauconnier Métriques pour l’Annotation 37 / 71

Page 38: Métriques pour l'évaluation de l'Annotation

1 Coefficients pour l’accord

2 Une approche holiste et unifiéeUne approche holiste et unifiéeLe désaccord comme créateur de désordreAlignementAlignement idéal et mesure d’accord

3 Corpus LARAt : un cas concret

Jean-Philippe Fauconnier Métriques pour l’Annotation 38 / 71

Page 39: Métriques pour l'évaluation de l'Annotation

Une approche holiste et unifiéeProblématique : Accord et Alignement

Accord sur des unités non-prédéfinies

- Les coef. fonctionnent pour les cas où les unités sont prédéfinies(e.g : PosTag, annotation syntaxique, etc.)

- Comment estimer l’accord avec des unités qui "pavent" le texte ?(e.g : REN, chaînes anaphoriques, Discours, etc.)

Jean-Philippe Fauconnier Métriques pour l’Annotation 39 / 71

Page 40: Métriques pour l'évaluation de l'Annotation

Une approche holiste et unifiéeProblématique : Accord et Alignement

Accord sur des unités non-prédéfinies- F-Mesure :- Une annotation est considérée comme annotation de référence- Une moy. harmonique est effectuée entre le rappel et la précision- Moy. sur le corpus (micro-avg) ou sur chaque doc./cat. (macro-avg)

- Pour codeurs>2 , on préférera l’exactitude∑

c∈C TPci ,cjN.C (micro-avg)

Présent AbsentPrésent TP FNAbsent FP TN

precision =TP

TP + FPrecall =

TPTP + FN

F (β) = (1 + β2)precision.recall

β2.precision + recall

- Alternative : adaptation de α (voir Krippendorf, 2004)

Jean-Philippe Fauconnier Métriques pour l’Annotation 40 / 71

Page 41: Métriques pour l'évaluation de l'Annotation

Une approche holiste et unifiéeProblématique : Accord et Alignement

Accord sur des unités non-prédéfinies

- Comment définir un TP ?À partir de quel écart est-on prêt à dire que 2 unités ayant uneposition légèrement différente (chez c1, c2 et c3) désignent bienle même phénomène ?

Problème de l’alignement

- Le choix d’une métrique d’accord ne résout pas l’alignement :Comment choisir la position finale ?Comment choisir la catégorie finale ?Comment produire un alignement consistant ?

Jean-Philippe Fauconnier Métriques pour l’Annotation 41 / 71

Page 42: Métriques pour l'évaluation de l'Annotation

Une approche holiste et unifiée(Mathet, 2011)

Une approche holiste et unifiée (Mathet et Widlöcher, 2011)- unifiée : définit l’accord et l’alignement en utilisant la position etla catégorisation des items

- holiste : prend en compte tous les items pour l’alignement finalPrincipes :- accord et alignement = tâches inter-dépendantes- Meilleur alignement = alignement qui minimise le désordre- Meilleur accord = valeur de désordre

Jean-Philippe Fauconnier Métriques pour l’Annotation 42 / 71

Page 43: Métriques pour l'évaluation de l'Annotation

1 Coefficients pour l’accord

2 Une approche holiste et unifiéeUne approche holiste et unifiéeLe désaccord comme créateur de désordreAlignementAlignement idéal et mesure d’accord

3 Corpus LARAt : un cas concret

Jean-Philippe Fauconnier Métriques pour l’Annotation 43 / 71

Page 44: Métriques pour l'évaluation de l'Annotation

Une approche holiste et unifiéeLe désaccord comme créateur de désordre

Désaccord = Désordre

- Hypothèse : Pour c codeurs, même si position et catégorisationdiffèrent, elles devraient en grande partie converger (dans le cascontraire, tâche = échec).

- Idée : calculer le désordre pour estimer le désaccord- Accord parfait : les unités i ont les mêmes bornes et catégories- Désaccord : les unités i n’ont pas les mêmes bornes et catégories

- Combien de transformations entre accord parfait et désaccord ?

Transformations1. déplacement de bornes de début et de fin2. requalification de catégories3. suppression d’unités

Jean-Philippe Fauconnier Métriques pour l’Annotation 44 / 71

Page 45: Métriques pour l'évaluation de l'Annotation

Une approche holiste et unifiéeLe désaccord comme créateur de désordre

Fonction de Dissimilarité d

- La fonction de dissimilarité d s’apparente à la fonction δkrippendorf

- Différence : elle s’applique directement aux items i (et non aux k)

diu ,iv =

{0 si iu = iv0 < x si iu 6= iv

- Différence : elle est appliquée à la position et la catégorisation• dpos mesure la distance dans le texte• dcat mesure la distance entre catégories

Jean-Philippe Fauconnier Métriques pour l’Annotation 45 / 71

Page 46: Métriques pour l'évaluation de l'Annotation

Une approche holiste et unifiéeLe désaccord comme créateur de désordre

Dissimilarité positionnelle

- Soit start(i) et end(i) pour l’indice de début et de fin de l’item idans le texte

dpos iu ,iv =

|start(iu)− start(iv )|+ |end(iu)− end(iu)|((end(iu)−start(iu))+(start(iv )+end(iv ))

2

)2

• Croissance quadratique pour pénaliser les écarts importants

• |start(iu)− start(iv )|+ |end(iu)− end(iu)|Somme des écarts absolus pour deux items

• (end(iu)−start(iu))+(end(iv )+start(iv ))2

Moyenne des unités. Permet le passage à des échelles différentes.

Jean-Philippe Fauconnier Métriques pour l’Annotation 46 / 71

Page 47: Métriques pour l'évaluation de l'Annotation

Une approche holiste et unifiéeLe désaccord comme créateur de désordre

Dissimilarité catégorielle

- Deux fonctions :- dcat : dissimilarité entre deux unités- distcat : différence entre les catégories dans la matrice symétrique

- où dcat est :

dcat iu ,iv = distcat(kiu , kiv ).∆∅

- où distcat retourne la valeur dans la matrice :

isA instOf Synon MultiisA 0 0.5 1 1instOf 0.5 0 1 1Synon 1 1 0 1Multi 1 1 1 0

Jean-Philippe Fauconnier Métriques pour l’Annotation 47 / 71

Page 48: Métriques pour l'évaluation de l'Annotation

Une approche holiste et unifiéeLe désaccord comme créateur de désordre

Dissimilarité combinée

- dcombi est une combinaison linéaire de dpos et dcat

dcombi iu,iv = a.dpos(iu, iv) + b.dcat(iu, iv)

- où si a = 0, 5 et b = 0, 5, un poids égal est donné aux deuxdissimilarités :

dcombi iu,iv =dpos(iu, iv) + dcat(iu, iv)

2

Jean-Philippe Fauconnier Métriques pour l’Annotation 48 / 71

Page 49: Métriques pour l'évaluation de l'Annotation

1 Coefficients pour l’accord

2 Une approche holiste et unifiéeUne approche holiste et unifiéeLe désaccord comme créateur de désordreAlignementAlignement idéal et mesure d’accord

3 Corpus LARAt : un cas concret

Jean-Philippe Fauconnier Métriques pour l’Annotation 49 / 71

Page 50: Métriques pour l'évaluation de l'Annotation

Une approche holiste et unifiéeAlignement

Distinction entre alignement unitaire et alignement

-.a = un alignement unitaire entre deux unités

- a = un ensemble d’alignements unitaires pour un jeu d’annotation

Alignement unitaire

-.a, un n-uplet, avec n compris dans l’intervalle [1,C ]

-.a contient, au plus, une unité de chaque annotateur

Alignementc1 c2( i11 , i∅ ) → alignement vide avec unité fictive i∅( i11 , i21 ) → vrai alignement( ... , ... )( i13 , i212 ) → "faux" alignement

Nombre d’alignements unitaires générables : (∏

c∈C Nc)− 1Jean-Philippe Fauconnier Métriques pour l’Annotation 50 / 71

Page 51: Métriques pour l'évaluation de l'Annotation

Une approche holiste et unifiéeAlignement et Entropie

Alignement et EntropieEntropie dans le sens de désordre (et non de (Shannon, 1948))

Alignement unitaire :- Idée : mesurer le désordre d’un alignement unitaire en utilisantune fonction de dissimilarité

- On mesure l’"entropie" d’un alignement unitaire, pour une dxdonnée, en faisant la moyenne de ses dissimilarités.

.e(

.a) =

1(n2

) ∑iu ,iv∈

.a

dx(iu, iv )

IntuitionAu plus un alignement unitaire aura de grandes distances entre sesunités, au plus il aura de "désordre", c’est-à-dire d’entropie au sensde (Mathet, 2011).

Jean-Philippe Fauconnier Métriques pour l’Annotation 51 / 71

Page 52: Métriques pour l'évaluation de l'Annotation

Une approche holiste et unifiéeAlignement et Entropie

Alignement et EntropieEntropie dans le sens de désordre (et non de (Shannon, 1948))

Alignement :- On mesure l’"entropie" d’un alignement en faisant la moyenne del’entropie de chacun de ses alignements unitaires

.a

e(a) =1|a|

|a|∑i=1

.e(

.a)

- Ici, la moyenne est considérée afin d’éviter, dans le cas decomparaison entre deux jeux, l’un avec doublons et l’autre sans,qu’il y ait une différence d’entropie.

Jean-Philippe Fauconnier Métriques pour l’Annotation 52 / 71

Page 53: Métriques pour l'évaluation de l'Annotation

1 Coefficients pour l’accord

2 Une approche holiste et unifiéeUne approche holiste et unifiéeLe désaccord comme créateur de désordreAlignementAlignement idéal et mesure d’accord

3 Corpus LARAt : un cas concret

Jean-Philippe Fauconnier Métriques pour l’Annotation 53 / 71

Page 54: Métriques pour l'évaluation de l'Annotation

Une approche holiste et unifiéeAlignement idéal et mesure d’accord

Alignement idéal :- a est l’alignement a qui minimise l’entropie pour tous lesalignements unitaires

.a possibles pour un jeu d’annotations j .

Mesure d’accord- Pour un jeu d’annotations j et un corpus c (textes nus) :

accord(j) =ealeatoire(c)− e(j)

ealeatoire(c)

- où ealeatoire est une estimation du "hasard" (cf. section 1), c-à-dde ce que pourrait être l’entropie pour un corpus donné.

Interprétation• Si accord(j) = 1, accord parfait et entropie nulle.• Si accord(j) ≤ 0, aucun accord.

Jean-Philippe Fauconnier Métriques pour l’Annotation 54 / 71

Page 55: Métriques pour l'évaluation de l'Annotation

Une approche holiste et unifiéeAlignement idée et mesure d’accord

Ainsi :

- le choix de l’alignement idéal se fait sur base de l’entropie- réciproquement, la mesure d’accord se fait sur base del’alignement idéal.

Dans la pratique :

- Réduction de l’espace de recherche en enlevant les.a improbables

- Algorithme d’approximation pour une solution approchée de a- Nécessité, cependant, de définir un ∆∅ pour chaque campagne

Jean-Philippe Fauconnier Métriques pour l’Annotation 55 / 71

Page 56: Métriques pour l'évaluation de l'Annotation

1 Coefficients pour l’accord

2 Une approche holiste et unifiée

3 Corpus LARAt : un cas concretCadreRetour sur la tâche d’annotationExploitation

Jean-Philippe Fauconnier Métriques pour l’Annotation 56 / 71

Page 57: Métriques pour l'évaluation de l'Annotation

Corpus LARAtCadre

Une campagne d’annotation

- Objectif : Annoter des structures énumératives selon unetypologie multi-dimensionnelle avec plusieurs axes.

- Corpus :- 249 documents de Wikipédia (< GEONTO)- 87 documents de Annodis

- Un guide d’annotation- 2 annotateurs étudiants

Outil :

- Les SE sont objets discursifs où la mise en forme du texte estnécessaire pour l’annotation en texte.

- Les outils tels que Callisto, MMAX2, Glozz ne conviennent pas.- Nécessité d’un outil adapté :

Développement de LARAt

Jean-Philippe Fauconnier Métriques pour l’Annotation 57 / 71

Page 58: Métriques pour l'évaluation de l'Annotation

Corpus LARAtCadre

Interface de LARAt

Jean-Philippe Fauconnier Métriques pour l’Annotation 58 / 71

Page 59: Métriques pour l'évaluation de l'Annotation

Corpus LARAtRetour sur la tâche d’annotation

Des distributions différentes pour les annotateurs :

- Annotateur 1 sur Axe Sémantique

Jean-Philippe Fauconnier Métriques pour l’Annotation 59 / 71

Page 60: Métriques pour l'évaluation de l'Annotation

Corpus LARAtRetour sur la tâche d’annotation

Des distributions différentes pour les annotateurs :

- Annotateur 2 sur Axe Sémantique

Jean-Philippe Fauconnier Métriques pour l’Annotation 60 / 71

Page 61: Métriques pour l'évaluation de l'Annotation

Corpus LARAtRetour sur la tâche d’annotation

Distributions différentes au niveau du nombre d’items :

- Les classes InstanceOf et isA : grand nombre d’items + outliers

Jean-Philippe Fauconnier Métriques pour l’Annotation 61 / 71

Page 62: Métriques pour l'évaluation de l'Annotation

Corpus LARAtExploitation

Exploitation :

1. Nécessité de définir un alignement pour calculer les accords2. Calculer des coef. à distributions individuelles pour évaluer la

typologie (k)3. calculer des coef. à distribution simple pour évaluer le

corpus/tâche (α)

1. Alignement par le positionnement

- Les multiples axes empêchent une approche unifiée- Alternative : estimer les paramètres de distance- qui nécessite d’annoter un petit set d’annotations ..

Jean-Philippe Fauconnier Métriques pour l’Annotation 62 / 71

Page 63: Métriques pour l'évaluation de l'Annotation

Corpus LARAtExploitation : alignement par le positionnement

Génération d’alignements unitaires

- Sous-ensemble restreint du corpus (env. 300 annot.)- Objectif : estimer des seuils sur diff − start et diff − end

Jean-Philippe Fauconnier Métriques pour l’Annotation 63 / 71

Page 64: Métriques pour l'évaluation de l'Annotation

Corpus LARAtExploitation : alignement par le positionnement

Annotation semi-automatique des alignements "réels"

Jean-Philippe Fauconnier Métriques pour l’Annotation 64 / 71

Page 65: Métriques pour l'évaluation de l'Annotation

Corpus LARAtExploitation : alignement par le positionnement

Estimation d’une frontière de décision- Par Support Vector Machine (SVM)

Jean-Philippe Fauconnier Métriques pour l’Annotation 65 / 71

Page 66: Métriques pour l'évaluation de l'Annotation

Corpus LARAtExploitation : alignement par le positionnement

Estimation d’une frontière de décision- Par régression logistique (ici sur la seule variable diff − start)- Moyennement efficace mais modèle moins "boîte noire"

Jean-Philippe Fauconnier Métriques pour l’Annotation 66 / 71

Page 67: Métriques pour l'évaluation de l'Annotation

Conclusion

L’annotation

- est à la base de la majorité des systèmes TAL- est un sujet non clos :

- L’annotation multi-labels- Le seuil d’accord humain et les performances en ML- Les annotateurs réellement "aléatoires" sous A. Mechanical Turk- etc.

Accord et Alignement :

- ne sont pas des problèmes indépendants- il existe de nombreuses métriques :- Nécessité d’un choix conscient- Et d’intervalles de confiance ?

Jean-Philippe Fauconnier Métriques pour l’Annotation 67 / 71

Page 68: Métriques pour l'évaluation de l'Annotation

Références

• S. Afantenos, P. Denis, P. Muller, and L. Danlos, "Learning recursivesegments for discourse parsing," in Proc. Proceedings of 7th LanguageResources and Evaluation Conference (LREC 2010), 2010.

• R. Artstein and M. Poesio, "Inter-coder agreement for computationallinguistics," Computational Linguistics, vol. 34, iss. 4, pp. 555-596, 2008.

• E. M. Bennett, R. Alpert, and A. Goldstein, "Communications throughlimited-response questioning," Public Opinion Quarterly, vol. 18, iss. 3, pp.303-308, 1954.

• Y. Bestgen, "Quels indices pour mesurer l’efficacité en segmentationthématique ?," in Proc. Actes de la 16e Conférence sur le TraitementAutomatique des Langues Naturelles (TALN 2009), 2009.

• J. Carletta, "Assessing agreement on classification tasks : the kappastatistic," Computational linguistics, vol. 22, iss. 2, pp. 249-254, 1996.

• J. Cohen and others, "A coefficient of agreement for nominal scales,"Educational and psychological measurement, vol. 20, iss. 1, pp. 37-46, 1960.

• J. Cohen, "Weighted kappa : Nominal scale agreement provision for scaleddisagreement or partial credit.," Psychological bulletin, vol. 70, iss. 4, p.213, 1968.

• B. Di Eugenio and M. Glass, "The kappa statistic : A second look,"Computational linguistics, vol. 30, iss. 1, pp. 95-101, 2004.

Jean-Philippe Fauconnier Métriques pour l’Annotation 68 / 71

Page 69: Métriques pour l'évaluation de l'Annotation

Références

• J. L. Fleiss, "Measuring nominal scale agreement among many raters.,"Psychological bulletin, vol. 76, iss. 5, p. 378, 1971.

• Fort, K., Corpus Linguistics : Inter-Annotator Agreements, INIST, 2011.• A. M. Green, "Kappa statistics for multiple raters using categorical

classifications," in Proc. Proceedings of the 22nd annual SAS User GroupInternational conference, 1997, pp. 1110-1115.

• C. Grouin, S. Rosset, P. Zweigenbaum, K. Fort, O. Galibert, and L.Quintard, "Proposal for an extension of traditional named entities : Fromguidelines to evaluation, an overview," in Proc. Proceedings of the 5thLinguistic Annotation Workshop, 2011, pp. 92-100.

• K. Krippendorff, Content analysis : An introduction to its methodology,Sage Publications, 1980.

• K. Krippendorff, "On the reliability of unitizing continuous data,"Sociological Methodology, pp. 47-76, 1995.

• K. Krippendorff, "Measuring the reliability of qualitative text analysis data,"Quality & Quantity, vol. 38, pp. 787-800, 2004.

• R. J. Landis and G. G. Koch, "The measurement of observer agreement forcategorical data," biometrics, pp. 159-174, 1977.

Jean-Philippe Fauconnier Métriques pour l’Annotation 69 / 71

Page 70: Métriques pour l'évaluation de l'Annotation

Références

• Y. Mathet and A. Widlöcher, "Une approche holiste et unifiée del’alignement et de la mesure d’accord inter-annotateurs," in Proc. Actes dela 18e Conférence sur le Traitement Automatique des Langues Naturelles(TALN 2011), 2011.

• C. Müller and M. Strube, "Multi-level annotation of linguistic data withMMAX2," , Braun, S., Kohn, K., and Mukherjee, J., Eds., Frankfurt a.M.,Germany : Peter Lang, 2006, pp. 197-214.

• E. Pascual and M. P. Pery-Woodley, "La définition dans le texte," Textes detype consigne–Perception, action, cognition, pp. 65-88, 1995.

• M. Péry-Woodley, N. Asher, P. Enjalbert, F. Benamara, M. Bras, C. Fabre,S. Ferrari, L. Ho-Dac, A. Le Draoulec, Y. Mathet, and others, "ANNODIS :une approche outillée de l’annotation de structures discursives," in Proc.Actes de la 16e Conférence sur le Traitement Automatique des LanguesNaturelles (TALN 2009), 2009.

• J. Pustejovsky and A. Stubbs, Natural language annotation for machinelearning, O’Reilly, 2012.

• J. Rebeyrolle, M. P. Jacques, M. P. Péry-Woodley, and others, "Titres etintertitres dans l’organisation du discours 1," Journal of French LanguageStudies, vol. 19, iss. 2, p. 269, 2009.

Jean-Philippe Fauconnier Métriques pour l’Annotation 70 / 71

Page 71: Métriques pour l'évaluation de l'Annotation

Références

• Rosset, S., Accords inter-annotateurs dans une campagne d’annotation : dela théorie à la pratique, CLEE-ERSS, 2013.

• W. A. Scott, "Reliability of content analysis : The case of nominal scalecoding.," Public opinion quarterly, 1955.

• S. Siegel and J. N. Castellan, Nonparametric Statistics for the BehavioralSciences, McGraw-HiU Book Company, N. Y., Ed., , 1988, vol. 2nd edition.

• C. E. Shannon, "A mathematical theory of communication," The BellSystem Technical Journal„ vol. 27, iss. 1, pp. 379-423, 1948.

• A. Stubbs, "MAE and MAI : Lightweight Annotation and AdjudicationTools," in Proc. Proceedings of the 5th Linguistic Annotation Workshop,Association of Computational Linguistics, Portland, 2011.

• A. Widlöcher and Y. Mathet, "La plate-forme Glozz : environnementd’annotation et d’exploration de corpus," in Proc. Actes de la 16eConférence sur le Traitement Automatique des Langues Naturelles (TALN2009), 2009.

• A. Widlöcher and Y. Mathet, "The Glozz platform : a corpus annotationand mining tool," in Proc. Proceedings of the 2012 ACM symposium onDocument engineering, 2012, pp. 171-180.

Jean-Philippe Fauconnier Métriques pour l’Annotation 71 / 71