Génération automatique de distracteurs dans le cadre de QCM

Génération automatique dedistracteurs dans le cadre de QCM

Thibault ANDRÉStage de Master 1, Université Catholique de Louvain

24 juin 2013 - 14 août 2013LIMSI-CNRS

Table des matières

Remerciements 3

Introduction 4

1 Présentation du stage et du cadre de travail 51.1 Présentation du stage . . . . . . . . . . . . . . . . . . . . . . . 51.2 Le LIMSI et le groupe ILES . . . . . . . . . . . . . . . . . . . 5

2 Bref état de l’art de la génération automatique de distrac-teurs 72.1 Le domaine général du Questions-Réponses . . . . . . . . . . . 7

2.1.1 Analyse de la question . . . . . . . . . . . . . . . . . . 72.1.2 Sélection des passages . . . . . . . . . . . . . . . . . . 82.1.3 Extraction de la réponse . . . . . . . . . . . . . . . . . 9

2.2 Les Questionnaires à Choix Multiples . . . . . . . . . . . . . . 102.2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . 102.2.2 Les distracteurs : caractéristiques générales . . . . . . . 112.2.3 Génération automatique de distracteurs . . . . . . . . . 13

2.3 Positionnement du stage . . . . . . . . . . . . . . . . . . . . . 15

3 Présentation des outils utilisés 163.1 Brat Rapid Annotation Tool . . . . . . . . . . . . . . . . . . . 163.2 The Stanford Natural Language Processing Group . . . . . . . 17

3.2.1 Stanford Parser et Stanford Named Entity Recognition 183.2.2 Tregex . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

4 Présentation du corpus 204.1 QA4MRE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204.2 QCM provenant d’un corpus déjà constitué . . . . . . . . . . . 224.3 QCM issus de divers sites internet . . . . . . . . . . . . . . . . 234.4 Format du corpus . . . . . . . . . . . . . . . . . . . . . . . . . 23

1

5 Annotation d’un corpus d’entraînement 245.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245.2 Annotation des relations internes au QCM (réponse, distrac-

teurs, stem) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255.2.1 Annotation syntaxique . . . . . . . . . . . . . . . . . . 255.2.2 Annotation sémantique . . . . . . . . . . . . . . . . . . 27

5.3 Annotation des relations entre la réponse et le correspondanttextuel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

5.4 Analyses et résultats . . . . . . . . . . . . . . . . . . . . . . . 295.4.1 Syntaxe inter-alternative . . . . . . . . . . . . . . . . . 295.4.2 Typologie d’entité nommée inter-alternative . . . . . . 335.4.3 Alternatives vs stem : type de réponse attendu . . . . 345.4.4 Relation entre la réponse du QCM et son correspon-

dant textuel . . . . . . . . . . . . . . . . . . . . . . . . 355.4.5 Mesure de la distance entre un distracteur et sa réponse 37

6 Implémentation d’un générateur automatique de distrac-teurs dans le cadre de QCM 396.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 396.2 Présentation de la typologie de distracteurs . . . . . . . . . . . 406.3 Génération de distracteurs sur la base d’une taxonomie d’en-

tités nommées . . . . . . . . . . . . . . . . . . . . . . . . . . . 416.4 Génération de distracteurs sur la base d’une analyse syntaxique 436.5 Regroupement des programmes . . . . . . . . . . . . . . . . . 46

7 Analyses et résultats du générateur automatique de distrac-teurs 477.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 477.2 Remarques préambulaires . . . . . . . . . . . . . . . . . . . . 477.3 Génération de distracteurs sur la base d’une taxonomie d’en-

tités nommées . . . . . . . . . . . . . . . . . . . . . . . . . . . 487.4 Génération de distracteurs sur la base d’une analyse syntaxique 50

Conclusion : apports et limites 53

Bibliographie 54

Annexes 56

2

Remerciements

Par ces mots, je tiens à remercier d’emblée le LIMSI et le groupe ILESde m’avoir accueilli pour la réalisation de mon stage de Master 1.

En particulier, je remercie tout d’abord Anne-Laure Ligozat et Van-MinhPho (Sami), pour leur aide précieuse, leurs conseils judicieux et leur soutienindéfectible tout au long de ces huit semaines. Je tiens vraiment à vous fairepart, à tous les deux, de ma reconnaissance pour tout ce que vous m’avezapporté et pour toutes les heures (que dis-je, jours) que vous m’avez dédiés.

J’ai une pensée particulière pour Sami, qui, même s’il déborde de travaildans le cadre de sa thèse, a toujours trouvé du temps à me consacrer pourm’aider à surmonter les (nombreux) problèmes qui ont parsemé ma route.

Je remercie également Brigitte Grau pour m’avoir épaulé deux semainesdurant dans les périodes de dépeuplement du LIMSI et, de surcroît, de mesdeux encadrants susmentionnés.

Et, finalement, je remercie mes camarades de stage Frédéric, Loïc, Maria,Marine, Vincent pour leur support et leur compagnie durant les (rares) pauses– gastronomiques mais pas seulement – que nous nous sommes octroyées encette période de fortes chaleurs.

3

Introduction

Les questionnaires à choix multiples (QCM) ont fait leur apparition il y après d’un siècle et, pourtant, très peu de tentatives d’automatisation ont étéréalisées avant les années 1990. Plus large qu’il n’y parait, ce domaine revêtune utilité indéniable en ce qu’il pourrait, à terme, fournir aux professeursdes outils de qualités leur épargnant la rédaction bien souvent fastidieuse deces QCM. Au sein de ceux-ci, la tâche la plus compliquée reste la création des« fausses réponses » : elles doivent être suffisamment proches de la réponsepour qu’elles soient efficaces, mais également être suffisamment différentespour éviter qu’elles ne constituent des réponses tout aussi valides. Face à ceconstat, de nombreux auteurs – dont [Burton et al., 1991], sur lequel nousrevenons souvent dans ce rapport – ont tenté d’établir des listes de règles àsuivre en vue d’offrir des bases permettant de créer des « distracteurs » (lesfausses réponses) de qualité.

Nous proposons ici une approche permettant de générer automatiquementces distracteurs, à partir d’un texte et des paires de questions-réponses s’yrapportant. Si cela a déjà été réalisé ces dernières années, ces systèmes nese concentrent généralement que sur un type de texte ou de questions parti-culières (biomédical, test lexicaux,. . .) ; notre approche se veut plus ouverte,permettant de générer des distracteurs pour tout type de texte, et surtouttout type de questions.

L’objectif est de fournir un « socle de base » pour la langue anglaise, fonc-tionnel, qui pourra aisément être modifié en vue d’améliorations ultérieures.En effet, ce stage constitue une étape préalable au mémoire, consacré aumême sujet.

4

Chapitre 1

Présentation du stage et ducadre de travail

1.1 Présentation du stageLe stage, dénommé « Création automatique de distracteurs au sein de

QCM », a été proposé par le Laboratoire d’Informatique pour la Mécanique etles Sciences de l’Ingénieur (LIMSI). Il s’est déroulé du 24 juin au 14 août 2013,sous la supervision d’Anne-Laure Ligozat (maître de conférences), BrigitteGrau (professeur des universités) et Van-Minh Pho (doctorant).

1.2 Le LIMSI et le groupe ILES 1

Le LIMSI, laboratoire d’environ 200 permanents et doctorants dirigé parPatrick Le Quéré, est une unité du Centre National de la Recherche Scienti-fique (CNRS) concentrant ses recherches dans deux domaines spécifiques : lamécanique et énergétique d’un côté, et les sciences et technologies de l’infor-mation et de la communication de l’autre. Les thèmes de recherche couvrentun large spectre disciplinaire, allant du thermodynamique au cognitif, en pas-sant par la mécanique des fluides, l’énergétique, l’acoustique, l’analyse et lasynthèse vocale, le traitement de la langue parlée et du texte, la vision et laperception, la réalité virtuelle et augmentée,. . .

Les deux départements sont divisés en neuf groupes. Six d’entre eux sontdédiés au domaine de l’interaction homme-machine, dont le groupe Informa-tion, Langue Écrite et Signée (ILES) auquel ce stage est rattaché. Le premierdomaine d’étude de ce groupe est consacré au traitement de la langue écrite,

1. Cette section est partiellement reprise du site du LIMSI, www.limsi.fr

5

et plus précisément à son analyse, à sa compréhension et sa production,ainsi qu’à l’acquisition des connaissances nécessaires, principalement mor-phologiques et sémantiques. Le second domaine d’étude tente de modéliseret automatiser la langue des signes.

6

Chapitre 2

Bref état de l’art de lagénération automatique dedistracteurs

2.1 Le domaine général du Questions-Réponses

La génération automatique de distracteurs est une spécialisation duQuestions-Réponses (Question Answering (QA)), domaine particulier de larecherche d’information (Information Retrieval (IR)). Le processus, décritpar [Lampert, 2004], passe par trois étapes, à savoir (i) l’analyse de la ques-tion, soumise aux modules de prétraitements permettant de représenter l’in-formation demandée, (ii) la sélection des passages (paragraphes) pouvantcontenir la réponse à la question (information retrieval), et (iii) l’extractionde la réponse.

2.1.1 Analyse de la questionCette étape vise à créer une représentation de la question, en tentant de

dégager le type de la question et le type de la réponse attendue.La détermination du type de la question se base sur les taxonomies exis-

tantes, par exemple celle de [Li et Roth, 2002], qui comprend six catégoriesgénérales 1 (<abbreviation>, <entity>, <description>, <human>,<location>, <numeric>), elles-mêmes subdivisées en une cinquantainede sous-catégories. Catégoriser la question selon un type défini permet de

1. Cette taxonomie s’est inspirée des catégories de questions définies par[Lehnert, 1977].

7

faciliter le travail des modules ultérieurs : à chaque type de question corres-pond généralement un type de réponse attendu (notamment en termes desyntaxe ou d’entités nommées).

Cependant, dans certains cas, la taxonomie n’est pas suffisante pour déter-miner précisément le type de la réponse attendue (principalement, les ques-tions débutant par exemple par un why ou what sont très hétérogènes etpeuvent nécessiter des réponses de types très différents). Le focus est une no-tion essentielle à l’interprétation d’une question, en ce qu’il s’agit de l’élémentcentral de la question.

Le focus de la question permet de sélectionner des mots-clefs dans les do-cuments, en utilisant la reconnaissance d’entités nommées ou en réalisant uneannotation des unités de discours. Ces mots-clefs peuvent être de nature trèsdifférente ([Moldovan et al., 2000]) : les noms propres sont les plus évidents(dans le cadre des entités nommées), mais citons également les syntagmesnominaux et adjectivaux, les verbes, ou encore le focus de la question. Laliste des mots-clefs, si elle se révèle insuffisante, est souvent complétée pard’autres termes sortis d’une analyse de synonymes, hyperonymes, ou encoreméronymes provenant d’une base de données telle que WordNet.

Cette première étape consiste donc en une construction d’une représen-tation de la question, en une détermination du type de la réponse et enl’extraction des termes-clefs. [Sundblad, 2007] ajoute qu’il peut être intéres-sant de transformer préalablement la question en une phrase déclarative etde réaliser un arbre syntaxique ou de dépendance, une structure qui peutêtre utilisée par la suite pour repérer et vérifier les réponses au sein decertains passages des documents.

Par exemple 2, dans la phrase How large is the Arctic refuge to pre-serve unique wildlife and wilderness value on Alaska’s north coast ?, laquestion s’inscrit dans la classe how et la sous-classe how-large, la réponseest de type <number> et le focus est Arctic refuge. L’annexe B reprend untableau du TREC 8 contenant un exemple d’analyses de Questions-Réponsessur la base de classes de question et de types de réponse précis.

2.1.2 Sélection des passagesÀ partir de systèmes de recherche d’information, les éléments retenus spé-

cifiques à une question sont extraits du corpus. Les paragraphes ne contenantpas les mots-clefs sont écartés, et les autres sont classés selon la plausibilitéde la présence de la réponse au sein de ces paragraphes. Si trop peu de para-

2. Exemple tiré du TREC 8 ( [Moldovan et al., 2000]).

8

graphes sont retenus, la liste des mot-clefs générée lors de l’étape précédenteest élargie. Par exemple, le mot-clef kill sera étendu à murder ou assassinate.

Une approche permettant d’améliorer la recherche d’information est l’an-notation prédictive des documents, qui consiste en la notation des conceptsou caractéristiques supposés utiles pour un certain type de question. Combi-née à la taxonomie de réponses (cf. supra), il s’agit là d’un outil puissant etefficace [Lampert, 2004].

[Jurafsky, 2012] avance qu’un document ne doit pas forcément être scindéselon ses paragraphes. Il s’agit de la solution la plus simple, mais pas forcé-ment la plus pertinente pour tous les types de textes. Il synthétise égalementles différentes caractéristiques nécessaires à prendre en compte lors de la clas-sification des passages pouvant contenir les réponses, avec, entre autres, lenombre d’entités nommées du bon type, de mots-clefs, et de n-grams de laquestion qui sont présents dans le passage.

2.1.3 Extraction de la réponseLa troisième étape identifie et récupère la réponse à partir des paragraphes

classés lors de la deuxième étape. L’identification de la réponse se fondesur le type de la réponse déterminé lors de l’analyse de la question (l’entiténommée recherchée, le cas échéant). L’utilisation de taggers est indispensableà l’identification de la réponse, et il est souvent nécessaire de réaliser uneanalyse syntaxique complète du passage et de la comparer au résultat del’analyse syntaxique de la question ([Sundblad, 2007]). Une fois les réponsespotentielles identifiées, il se peut qu’il y ait plusieurs candidats à une question,et que toutes ne soient pas forcément correctes 3. Dans ce cas, on réalise desanalyses supplémentaires.

Selon [Jurafsky, 2012], ces analyses consistent en l’étude de la correspon-dance entre le type de la réponse attendu et le type de la réponse déduit del’analyse de la question, en la prise en compte du nombre de mots-clefs etde la plus longue séquence de mots de la question retrouvés au sein de laréponse, et en l’analyse de la distance entre la réponse et les mots-clefs de laquestion.

[Lampert, 2004] ajoute une méthode peu utilisée jusqu’alors, bien querelativement facile à mettre en place, qui propose l’utilisation de la fréquencede co-occurence entre la question et la réponse via les moteurs de recherche,voire, dans la limite du possible, l’utilisation de ressources encyclopédiquesspécialisées selon le type de la question.

3. Par exemple, dans la phrase Who was King Albert II’s second child ?, si le type dela réponse attendu est person, deux réponses sont possibles

9

Une fois la sélection du segment du texte contenant la réponse terminée, laréponse en tant que telle est extraite du segment, éventuellement reformuléepour correspondre au mieux aux exigences de la question dont elle dépend.

2.2 Les Questionnaires à Choix Multiples

2.2.1 IntroductionAu point précédent, nous avons présenté le domaine du Questions-

Réponses et surtout la méthodologie « de base » employée pour extraire laréponse d’un texte. Cependant, le domaine du questionnaire à choix multiplesou QCM, bien qu’il soit intrinsèque à celui du Questions-Réponses, possèdedes caractéristiques qui lui sont propres, indispensables à prendre en comptedans une optique d’automatisation du processus de création de QCM. Nousprésentons ici, dans un premier temps, la structure générale du QCM, pourensuite se concentrer, dans un second temps, sur l’un des éléments principauxdu QCM : le distracteur.

Un questionnaire à choix multiples standard comprend deux parties : lestem d’un côté, et les alternatives de l’autre. Le stem correspond soit à unequestion explicite, soit à une proposition, à laMitkovquelle un certain nombred’alternatives sont rattachées. Les alternatives correspondent à la réponse dustem ainsi qu’à un ou plusieurs distracteurs (les « mauvaises réponses »).

Figure 2.1 – Composants d’un QCM [Burton et al., 1991]

Plus que le choix d’une question, la principale difficulté rencontrée lorsde la création d’un QCM est le choix des distracteurs ; la qualité d’un QCMrepose presqu’exclusivement sur la qualité de ceux-ci. Pourtant, même si le

10

QCM semble, en apparence, relativement aisé à mettre en place, la réalité est,au contraire, tout autre. [Rodriguez, 2005] compare d’ailleurs ce travail decomposition de QCM et, plus précisément, le choix et la rédaction de distrac-teurs, à celui d’un artiste : « item writing has been, is, and will always be anart ». Nombreuses sont les règles à suivre pour assurer la qualité des distrac-teurs, en témoignent par exemples celles des professeurs [Burton et al., 1991],qui en référencent une trentaine 4.

2.2.2 Les distracteurs : caractéristiques généralesDans le cadre de la création du générateur automatique de distracteurs,

plutôt que de se fonder sur une liste de règles, nous avons souhaité prendreen compte les caractéristiques générales, et donc moins restrictives, de cesderniers. Peu d’articles abordant le sujet, nous avons établi nous-mêmes cescaractéristiques à partir d’une analyse relativement superficielle de notre cor-pus d’entraînement (cf. le chapitre 4).

Au terme de notre analyse, nous avons pu dégager deux notions princi-pales, à savoir l’homogénéité et la spécificité. L’homogénéité correspond àla similarité (lexicale, sémantique, syntaxique) entre les alternatives d’unemême question, et cette homogénéité est justement liée à la spécificité decette question ; si nous reconsidérons le tableau des types de questions et deréponses de [Moldovan et al., 2000] (annexe B), les questions de type Whoet When sont plus spécifiques que celles de type Why, par exemple.

L’homogénéité de la structure syntaxique des alternatives d’un mêmestem est une caractéristique essentielle à tout QCM. Ceci est certainementvalable pour des stems demandant une personne, un lieu, un nombre ou unedate uniques, et, plus généralement, pour des stems dont la réponse ne re-quiert qu’un seul mot. Ainsi, homogénéité et spécificité sont deux notionsindissociables l’une de l’autre. Au plus le stem perd en spécificité, au moinsl’homogénéité est conservée. Les caractéristiques sémantiques de la réponseet de ses distracteurs sont également à prendre en compte : une réponse dontle contenu sémantique voulu n’est présent que dans un seul mot et non dansune proposition aura tendance à gagner en spécificité. Au contraire, lorsquec’est une proposition qui possède le contenu sémantique, la réponse est rare-ment reproduite telle quelle du texte vers le QCM, en ce qu’elle est soumise àdiverses opérations syntaxiques. Ces opérations sont d’importance variable,dépendant de la nature de la question (type de question et formulation dela question), et visent deux objectifs : d’une part, éviter la présence d’in-dices trop explicites quant à la bonne réponse, et, d’autre part, établir une

4. L’annexe C en reprend les principales.

11

cohérence (syntaxique) entre le stem et la réponse.Si les alternatives d’une question spécifique requérant un mot unique

d’une catégorie grammaticale précise sont, par là même, homogènes, les syn-tagmes et propositions ne le sont pas forcément. En effet, même si l’homogé-néité de la structure syntaxique devrait être conservée entre les alternativesd’un stem, cela dépend fortement de l’auteur du QCM : en théorie, l’homo-généité devrait prévaloir, comme le stipulent [Burton et al., 1991] :

– la grammaire des alternatives est constante avec le stem ;– les alternatives ont une forme parallèle– les alternatives ont une longueur similaire

Mais, en pratique, les créateurs des QCM se permettent de nombreuses li-bertés, ce qui n’est pas sans incidence quant à la qualité de ceux-ci.

L’homogénéité touche les trois niveaux de la langue, à savoir le lexique,la syntaxe et la sémantique.

L’homogénéité lexicale est la plus évidente des trois, et consiste à re-prendre un même mot au sein des alternatives. Généralement, cette reprise semanifeste en position initiale. Elle ne concerne que les alternatives contenantau minimum un syntagme, souvent des propositions, et touche l’ensembledes catégories grammaticales. Cette reprise dépend fortement du type de laquestion : si, par exemple, il s’agit d’une question causale, les alternatives dé-buteront toutes par le même marqueur (as, because, since, ou implicite). Lesreprises lexicales non initiales concernent principalement les nombres (dates(X years), quantité (X millions), etc.).

L’homogénéité syntaxique fait intervenir la similarité des construc-tions entre les alternatives, qui, toujours selon [Burton et al., 1991], doiventêtre de forme parallèle. Sur ce point, la longueur des alternatives a une in-fluence indéniable : au plus les alternatives sont longues, au moins l’homo-généité syntaxique est respectée, à l’exception de cas spéciaux : soit l’auteurn’opère que des substitutions de mots spécifiques entre les alternatives :

Which of the following is true?(a)Somis studied with Locatelli(b)Geminiani studied with Vivaldi(c)Vivaldi studied with Corelli

soit les différentes alternatives contiennent une succession de mots, séparéspar une virgule ou conjonction de coordination (typiquement, plusieurs choixde combinaisons).

L’homogénéité sémantique comprend principalement les relationsd’antonymies, méronymies, synonymies. Elle est très fréquente pour certainsadverbes (never, always, etc.) les noms, verbes ainsi que les adjectifs

12

2.2.3 Génération automatique de distracteursIntroduction

Dans l’optique de pallier les inconvénients liés à une élaboration manuellede questionnaires à choix multiples, de nombreuses tentatives d’automatisa-tion voient le jour. En effet, le Traitement Automatique des Langues (TAL)permettrait de faciliter le travail des créateurs de QCM en en réduisant consi-dérablement le temps de rédaction. Les approches sont sans cesse revisitéesen vue d’offrir un système combinant à la fois les avantages des QCM créésmanuellement - précision dans la sélection des distracteurs et de la formula-tion des questions et réponses - et les avantages de la technologie.

L’objectif général est de sélectionner des mots suffisamment proches de laréponse, sans être des synonymes pour autant (auquel cas le distracteur s’ap-parenterait davantage à une réponse), et incorrects dans le contexte donné(c’est-à-dire dans celui du texte relatif au QCM, le cas échéant). D’embléese pose la question des ressources à utiliser pour générer les distracteurs ;deux options sont envisageables : soit on se restreint au texte sur la baseduquel le QCM est produit, et les distracteurs sont sélectionnés au sein dece même texte, soit on s’extrait des frontières du texte pour sélectionner desdistracteurs au sein d’autres sources (WordNet, Google, etc.). Les deux op-tions ayant leurs avantages et inconvénients, le choix d’une option plutôt quel’autre doit se faire judicieusement en prenant en compte le type de la réponse(entité nommée, proposition) tout autant que les caractéristiques du texte(longueur, type) : un QCM relatif à un roman sera plus à même d’utiliserdes ressources externes, au contraire d’un QCM interrogeant un article dequelques lignes. En effet, dans le second cas, l’utilisateur peut facilement vé-rifier la présence ou l’absence d’un distracteur, opération fastidieuse à réaliserdans le premier cas.

Présentation de diverses études

[Mitkov et al., 2006] présentent une méthodologie pour générer auto-matiquement des QCM (non restreint aux distracteurs) concernant un textespécialisé dans un domaine particulier. Ils réalisent une analyse syntaxiquede surface, et utilisent des techniques d’extraction et de transformations dephrase. Dans le cadre spécifique de la génération de distracteurs, les auteursfont également usage des ontologies, dont Wordnet, pour repérer ceux quisont sémantiquement proches de la réponse, c’est-à-dire principalementdes hyperonymes, hyponymes ou coordonnés (concepts ayant le mêmehyperonyme), en privilégiant ceux présents dans le texte. Dans le cas où laréponse est un syntagme nominal (voire syntagmes adjectival et verbal), la

13

méthode consiste en la sélection d’autres syntagmes nominaux comportantle même mot-clef (head, selon la terminologie anglaise).

[Karamanis et al., 2006] ont réalisé une étude sur la génération deQCM appliqués à des textes médicaux ainsi que l’implémentation d’ungénérateur dont l’évaluation a été réalisée par des experts médicaux. A partird’une phrase et du texte duquel elle elle extraite, l’objectif est de générer unQCM (stem, distracteurs et réponse ou, comme ils la dénomment, le anchor).Leur méthode prend appui sur celle développée par [Mitkov et al., 2006] etconsiste en cinq étapes majeures. La premier étape correspond à l’analysesyntaxique en constituants de la phrase, réalisée avec l’analyseur syntaxiquedéveloppé par [Charniak, 1997]. La deuxième étape consiste en l’identifica-tion du terme-clef (les auteurs affirment qu’un QCM de qualité doit avoirpour réponse ce terme-clef), en utilisant le thesaurus UMLS 5, spécifiqueau domaine biomedical. La troisième étape consiste en la détection desstructures du texte (clauses) de la forme sujet-verbe-complément et quicontiennent un terme-clef, tout en développant un module permettant delimiter les clauses indésirables. La quatrième étape consiste en la transfor-mation d’une clause appropriée en un stem. La cinquième et dernière étapeconsiste, finalement, à sélectionner des distracteurs appropriés. Au lieud’utiliser WordNet, les auteurs y ont préféré UMLS, en repérant les termesde la même catégorie sémantique que la réponse ; ces termes sont ensuitesoumis à une mesure de similarité distributionnelle à partir d’un corpus deréférence afin de sélectionner ceux qui obtiennent le meilleur score.

[Lee et Seneff, 2007] se sont intéressés aux FBI (Fill-in the BlankItem), un domaine particulier des QCM en ce que, dans ce cas, le stemcontient un « blanc » à remplir à l’aide d’une des alternatives. Ils ontétabli un générateur de FBI pour les japonais apprenant l’anglais, en seconcentrant sur la grammaire, et plus précisément les prépositions. Dans cecadre, un distracteur efficace doit remplir deux conditions : d’une part il doitavant tout être incorrect dans la phrase donnée, ce qui est déterminé parune étude de fréquence sur le web ; d’autre part, il doit être suffisammentproche de la réponse pour être considéré comme une alternative valide.Pour mener à bien leur objectif, les auteurs ont procédé en quatre étapes.La première consiste en la représentation du contexte de la prépositiondans la phrase (pour la phrase Let’s go to a movie, le contexte extrait serale triplet go, to et movie). La deuxième étape consiste en le calcul de lafréquence des prépositions dans le contexte déterminé à l’étape précédente.

5. http ://www.nlm.nih.gov/research/umls/

14

La troisième étape consiste en l’étude des collocations pour déterminer lesdistracteurs n’apparaissant qu’avec certains termes du contexte uniquement(si le contexte est <A, p (préposition), B>, les prépositions étant fréquentesavec A et B seront rejetées, pour éviter qu’elles puissent être considéréescomme des réponses totalement valables. La quatrième étape consiste enl’utilisation d’un corpus d’anglais de non-natifs, comprenant les erreurs etcorrections, afin de repérer directement, au sein des triplets, les prépositionsqui ont fait l’objet d’une correction.

2.3 Positionnement du stageLe stage se situe dans le prolongement des études présentées pré-

cédemment. En effet, nous cherchons à élaborer un système permet-tant de générer automatiquement des distracteurs ; cela a déjà été réalisé([Mitkov et al., 2006], [Karamanis et al., 2006] par exemple), mais, générale-ment, ces systèmes ne se concentrent que sur un type de texte ou de questionsparticulières (biomédical, test lexicaux,. . .) ; nous proposons ici un systèmeplus ouvert, permettant de générer des distracteurs pour tous les types dequestions (quitte à subir une perte de précision). Nous nous sommes partiel-lement basés sur les études présentées dans ce chapitre pour établir notreméthode de génération de distracteurs, qui, au final, se révèle être innovantedans sa structure : d’une part, elle établit d’emblée une distinction entre lesalternatives de type entité nommée et celles qui ne le sont pas ; d’autre part,elle fait appel à un ensemble de règles définies manuellement afin de repérerau sein du texte les structures de type syntagme, proposition, ou phrase, aumoyen du logiciel Tregex, dans le souci de fournir des distracteurs syntaxique-ment proches de la réponse. Nous nous basons ici uniquement sur la structuresyntaxique sans aucune considération sémantique, une approche peu utilisée,relativement simple, mais également, nous le verrons, risquée. Finalement,nous avons au préalable réalisé une étape innovante puisqu’il s’agit de l’an-notation d’un ensemble de QCM créés manuellement pour ajuster, au mieuxpossible, notre programme aux QCM « réels » à partir des résultats de cetteannotation.

15

Chapitre 3

Présentation des outils utilisés

3.1 Brat Rapid Annotation Tool 1

Dans le cadre de notre étude préliminaire, sur corpus, nous avons uti-lisé le logiciel Brat Rapid Annotation Tool (ou plus simplement Brat, sonacronyme récursif). Il s’agit d’un logiciel d’annotation de texte disponible entéléchargement ou directement utilisable en ligne sur le site officiel 2.

Brat présente plusieurs atouts : premièrement, il autorise le travail col-laboratif dans la mesure où plusieurs utilisateurs peuvent annoter un mêmedocument simultanément ; deuxièmement, son utilisation et sa configurationsont relativement simples ; troisièmement, le format d’annotation laisse en-trevoir la possibilité d’exporter facilement les annotations créées vers des for-mats différents (bases de données, ontologies, etc.). Cependant, si ce logicielfonctionne parfaitement sur un texte de taille réduite (jusqu’à une cinquan-taine de lignes environ), il se révèle inadapté pour les textes d’une taille plusimportante, avec l’apparition de bogues, d’une vitesse d’exécution fortementréduite (proportionnellement à la taille du texte), et d’une mauvaise ergono-mie. Si le rendu des annotations et des relations est particulièrement visiblepour les petits textes, il peut rapidement s’apparenter un enchevêtrement delignes et de flèches sitôt que les relations sont un tant soit peu espacées ausein du texte ou si leur nombre devient trop important, nécessitant, le caséchéant, de scinder le corpus en plusieurs parties et de les annoter séparément(ce qui peut éventuellement poser problème 3).

Le logiciel prend en entrée au minimum trois fichiers : le premier contient

1. Cette section est partiellement extraite de la page wiki du LIMSI dédiée à ce logiciel,rédigée par Frédéric Giannetti, stagiaire.

2. http ://brat.nlplab.org/index.html3. Lorsqu’une annotation met en relation deux termes d’un même texte séparés lors de

la division du corpus en plusieurs parties

16

le texte brut à annoter, le deuxième l’ensemble des types d’annotation desentités, le troisième les différents types de relations entre ces entités. Il fourniten sortie un fichier au format .ann, facilement analysable par la suite aumoyen de scripts en Perl par exemple. Ce fichier .ann se présente commesuit :

T1 Stem 18749 18863 In what year was a study concerning the contributionof using ethanol for reducing emissions in Brazil undertaken?T2 Answer 15104 15116 1997R1 isTypeConform Arg1:T1 Arg2:T2

T1 et T2 sont les entités, et R1 est une relation de type <isTypeCon-form>, mettant en relation T1 et T2.

Figure 3.1 – Exemple d’annotation sous Brat

3.2 The Stanford Natural Language Proces-sing Group

Le Stanford NLP Group 4 est une section de l’Université de Stanford tra-vaillant sur des algorithmes dont l’objectif est de faciliter l’analyse et la com-préhension du langage humain. Le champ d’application du Standford NLPGroup est large ; citons par exemple la traduction automatique, l’approche

4. http ://nlp.stanford.edu/

17

probabiliste du tagging et parsing, l’extraction d’informations biomédicales,les systèmes de questions-réponses. . .Le point fort de ce groupe consiste en lacombinaison de modèles linguistiques sophistiqués, de l’analyse de donnéessur une base probabiliste, ainsi qu’une approche d’apprentissage automa-tique appliqué au NLP. Les différents logiciels fournis par le Stanford NLPGroup sont accessibles à tous, gratuitement, et permettent de traiter ungrand nombre de situations en linguistique computationnelle.

Dans le cadre de la génération automatique de distracteurs, nous avonseu recours à trois outils développés par ce groupe : Stanford Parser, Stan-ford Named Entity Recognition (SNER) et Tregex. Tous sont opensource etdisponibles en ligne sur le site de l’université.

3.2.1 Stanford Parser et Stanford Named Entity Re-cognition

Le premier outil, Stanford Parser, est dédié à l’analyse de la structuregrammaticale des phrases. Il s’agit d’un parser probabiliste, faisant usage deconnaissances du langage apprises par une analyse manuelle préalable pourtenter de produire l’analyse la plus probable d’une phrase et de chacun deses constituants.

Le second, Stanford Named Entity Recognition (SNER), est une implé-mentation Java d’un reconnaisseur d’entités nommées. Pour la langue an-glaise (celle qui nous concerne), l’outil est très performant pour les entitésde type <PERSON>, <ORGANIZATION> et <LOCATION> ; il identifieégalement quatre autres types, à savoir <DURATION>, <DATE>, <MO-NEY>, <NUMBER> et <ORDINAL>. Cependant, on peut regretter l’ab-sence de reconnaissance hiérarchique (par exemple une subdivision au seindu type <LOCATION> qui permettrait de distinguer un état d’un pays) 5.

Les deux outils ont été utilisés en concomitance afin de faciliter l’analysedes textes. Ils ont été adaptés par Van-Minh Pho pour etre utilisables à partird’un script en Perl. Le fichier de sortie, au format XML, comprend tant lesinformations résultant du parsing que celles résultant de la reconnaissancedes entités nommées. Ce fichier est ensuite soumis au logiciel Tregex.

3.2.2 TregexA partir d’un corpus préalablement soumis à une analyse syntaxique en

constituants (Stanford Parser), Tregex permet d’en explorer les arbres syn-taxiques et de repérer certaines séquences spécifiques, définies par expressions

5. Se référer à la section 6.3 pour davantage d’informations sur cette typologie.

18

régulières. Ce formalisme se fonde sur une combinaison de relations existantentre deux ou plusieurs nœuds :

– relation de fratrie ;– relation de filiation ;– relation linéraire.Tregex est souvent utilisé avec Tsurgeon. Alors que le premier réalise des

recherches sur les arbres, le second permet de transformer ces derniers en enmodifiant les noeuds, ce qui peut par exemple se révéler utile en générationautomatique de questions.

L’intérêt d’un tel outil dans le cadre de la génération de distracteurs estindéniable. En effet, comme nous le verrons au chapitre 6, nous cherchonsà établir une liste de l’ensemble des structures syntaxiques d’un texte quisont similaires à celles de la réponse. Une fois l’ensemble des règles définies,Tregex permet de réaliser relativement facilement cette opération.

Figure 3.2 – Exemple d’utilisation de Tregex

19

Chapitre 4

Présentation du corpus

Le corpus d’entraînement provient de trois sources différentes de questionsà choix multiples, contenant au total 193 questions. Chaque QCM a subi untraitement sur la forme afin de garantir un format homogène au sein ducorpus. Le tableau 4.1. indique le nombre total de questions, alternatives etréponses selon les différentes composantes du corpus, présentées aux pointssuivants.

Corpus #Ques. #Alt. #Rép.QA4MRE 100 500 100M. Gleize 60 252 60Internet 33 167 33Total 193 919 193

Table 4.1 – Nombre de questions, d’alternatives et de réponses

4.1 QA4MRELa première source, la plus importante des trois, provient du Question

Answering for Machine Reading Evaluation 1 (QA4MRE), une tâche de laConference and Labs of the Evaluation Forum (CLEF) reconduite chaqueannée depuis 2003, qui consiste à fournir un corpus de quelques QCM, avecleurs textes, sur lesquels les chercheurs peuvent mener des études appro-fondies. L’objectif de cette organisation est de développer une méthodologiepour évaluer les systèmes de compréhension de textes à travers des tests de

1. http ://celct.fbk.eu/QA4MRE/

20

questions-réponses et de compréhension à la lecture. Les systèmes devraientêtre en mesure d’extraire la connaissance disséminée dans de grandes quan-tités de textes afin de pouvoir répondre efficacement aux questions.

Même si cette tâche a été initiée en 2003, seules celles de 2011, 2012 et2013 contiennent effectivement des QCM. Les tâches des années antérieuresne contiennent, elles, que des questions. Mais, parmi les trois tâches retenues,seules celles de 2012 et 2013 sont suffisamment détaillées pour pouvoir êtreutilisées dans le cadre de notre analyse. QA4MRE 2012 constitue à lui seul lamoitié de notre corpus d’entraînement. De plus, il sera réutilisé dans le cadrede l’élaboration du générateur automatique de distracteurs. QA4MRE 2013,est, lui, réservé à l’évaluation de ce générateur. Les deux tâches contiennentdes QCM à propos de quatre thèmes :

– alzheimer ;– music and society ;– climate change ;– AIDS.Différents corpus sont disponibles pour la tâche de l’année 2012. Nous

avons sélectionné les QCM de la section Training Data 2. Chaque thème estcomposé de 10 articles contenant chacun 10 questions, soit 400 questions autotal. La structure du QA4MRE se présente donc comme suit :

Figure 4.1 – Structure du QA4MRE

Afin de diversifier notre corpus tout en conservant une taille réduite,nous avons sélectionné aléatoirement un nombre spécifique d’articles au sein

2. http ://celct.fbk.eu/QA4MRE/index.php ?page=Pages/pastCampaigns.php

21

du QA4MRE2012. Ainsi, au moyen d’un logiciel de génération aléatoire denombres dans un intervalle défini 3, deux articles par thème ont été retenus,totalisant 80 questions et 400 alternatives (5 par question).

Une section secondaire 4 contient un thème sur lequel traitent quatre ar-ticles. Pareillement, deux articles ont été sélectionnés.

La composante QA4MRE de notre corpus d’entraînement est donc consti-tuée de 100 questions et 500 alternatives (dont 100 réponses).

4.2 QCM provenant d’un corpus déjà consti-tué

Ce corpus nous a été fourni par Martin Gleize, doctorant au LIMSI. Il aété constitué en regroupant une série de QCM de trois sites internet diffé-rents :

– www.pearsonlongman.com ;– www.examenglish.com ;– www.testprepreview.com.

Contrairement au QA4MRE, les QCM utilisés dans ce corpus ne sont pas ho-mogènes sur leur fond : les textes servant de base à l’élaboration des questionssont de type différentes (articles, mais aussi conversation ou encore lettre) etle nombre de questions et d’alternatives est inconstant.

La partie de ce corpus issue du premier site contient 2 textes (et non d’ar-ticles, dans la mesure où ils appartiennent à des types de textes distincts : destextes, mais également des conversations, des manuels. . .), et 6 questions pararticle, soit 12 questions au total. La partie issue du deuxième site contient 3textes, avec respectivement 12, 9 et 6 questions par document, soit 27 ques-tions au total. La partie issue du troisième site contient 8 documents, avecrespectivement 5, 4, 10, 5, 4, 5, 4 et 7 questions par texte, soit 43 questions autotal. Pour chacun des sites, nous avons sélectionné aléatoirement 9 articlesparmi les 13 que compte le corpus :

– les deux textes du premier site ;– deux des trois textes du deuxième site ;– cinq des huit textes du troisième site.

Au final, cette section de notre corpus contient donc 60 questions et 252alternatives (dont 60 réponses).

3. http ://www.random.org4. Pilot Task

22

4.3 QCM issus de divers sites internetLa troisième composante de notre corpus provient de quatre sites internet

fournissant des QCM facilement importables :– www.ecenglish.com, un site d’apprentissage de la langue anglaise ;– www.englishlearner.com, un site d’apprentissage de la langue anglaise ;– www.boardofstudies.nsw.edu.au, un site dédié à l’apprentissage univer-sitaire contenant de nombreux QCM (non basés sur un texte) notam-ment à propos de la théologie et du droit ;

– www.mcqtoday.com, un site proposant des QCM sur des sujets variés(histoire, géographie. . .).

Les deux premiers sites incluent des textes sur lesquels des questions sontposées. Nous y avons sélectionné un texte sur chacun de ces sites, conte-nant respectivement 6 et 7 questions. Les deux autres sites présentent desQCM sur des thèmes spécialisés, et non sur des textes spécifiques. Nous yavons sélectionné 10 questions par site. Nous obtenons donc 33 QCM et 167alternatives (dont 33 réponses) pour cette section de notre corpus.

4.4 Format du corpusLes sources utilisées dans le cadre de la constitution du corpus provenant

de sites divers, le format des QCM a dû subir une homogénéisation. Celle-ci aété réalisée en se basant sur le format du QA4MRE, tout en opérant quelquesmodifications. Ce format, en balisage XML, est le suivant :

<QCM><text></text><questions>

<q q_id="1"><q_str></q_str><answer a_id=’1’ correct="Yes"></answer><answer a_id=’2’></answer><answer a_id=’3’></answer><answer a_id=’4’></answer><answer a_id=’5’></answer>

</q></questions>

</QCM>

Bien entendu, le nombre d’alternatives et l’indication de la réponse sont àadapter au cas par cas. Dans les exemples de QCM inclus dans ce rapport,nous avons retiré les balises XML pour en alléger la présentation.

23

Chapitre 5

Annotation d’un corpusd’entraînement

5.1 IntroductionLe but final de ce stage est de parvenir à un générateur automatique de

distracteurs dans le cadre de QCM. Cependant, plutôt que de s’y atteler di-rectement, tête baissée, nous avons souhaité, au préalable, réaliser une étudesur corpus destinée à repérer les caractéristiques majeures des QCM créésmanuellement. Dans l’idéal, il s’agirait de considérer les résultats obtenus auterme de l’analyse de corpus lors de l’élaboration du générateur de distrac-teurs. Pour cette raison, nous avons consacré autant de temps à cette phaseannotation qu’à l’élaboration du générateur de distracteurs proprement dite,en ce que qu’elle revêt, à notre sens, autant d’importance.

Nous nous intéressons spécifiquement à deux grands types de relations :d’un côté, nous établissons les différentes relations (syntaxiques et séman-tiques) existant entre la réponse et ses distracteurs ; de l’autre, nous étudionsles modifications d’ordre syntaxique entre la réponse et sa formulation dansle texte. Une fois cette annotation réalisée, nous vérifions que les résultatsobtenus correspondent entre autres aux règles de [Burton et al., 1991] (homo-généité syntaxique des alternatives, par exemple) et qu’ils sont effectivementapplicables dans le cadre d’une automatisation de la génération des distrac-teurs.

Pour autant, réaliser une annotation n’est pas une tâche simple. En par-ticulier, élaborer une taxonomie d’annotation syntaxique et sémantique estune tâche rendue complexe par le grand nombre d’approches permettant derendre compte de ces deux phénomènes, finalement très larges. Par consé-quent, le choix de cette taxonomie doit se faire avec précaution, puisque

24

toute l’annotation et son analyse ultérieure en dépendra.Ce chapitre propose une synthèse de la méthodologie employée, de l’ana-

lyse du corpus ainsi que des résultats obtenus au terme de celle-ci.

5.2 Annotation des relations internes auQCM (réponse, distracteurs, stem)

Dans cette section, nous présentons la méthodologie et les résultats del’annotation de certaines relations se manifestant entre les alternative selonune taxonomie définie au préalable. Dans un premier temps, nous réalisonsune annotation syntaxique, qui consiste à analyser les différences d’ordre syn-taxique pouvant exister entre un distracteur et la réponse. Dans un secondtemps, nous nous intéressons au pan sémantique, avec l’étude des types d’en-tités nommées attendus. Cette étude se déroule en deux étapes distinctes :une annotation des relations entre un distracteur et la réponse d’une part, etentre les alternatives et le stem d’autre part.

5.2.1 Annotation syntaxiqueCette annotation se concentre donc sur les grandes différences syntaxiques

entre une distracteur et la réponse à laquelle il est lié. Il s’agit de distinguerles structures des alternatives et de vérifier que celles-ci soient cohérentes ausein d’une même question.

Taxonomie d’annotation

Lors de la réalisation de ce travail, nous avons réalisés trois taxonomies tota-lement différentes : la première sur la base du nombre de mots, la deuxièmeà partir de la taxonomie de questions/réponses de Li et Roth (annexe A), etla troisième, plus générale, sur une étude syntaxique globale de l’alternative.C’est cette troisième qui a finalement été choisie, présentant l’avantage d’êtresimple, puisque qu’elle ne comporte que quatre cas (cf. tableau 5.1), facili-tant ainsi l’annotation et la catégorisation des alternatives (moins de cas detergiversations, même s’ils restent possibles).

hasIS est réservé aux distracteurs ayant une syntaxe strictement iden-tique à celle de la réponse. En d’autres mots, les chunks sont identiques. Parexemple, si la réponse est formée d’un nom et d’un adjectif, et que le distrac-teur contient un nom et deux adjectifs coordonnés, la syntaxe est considérée

25

Sigle sous Brat SignificationhasIS Syntaxe identiquehasPIS Syntaxe partiellement identiquehasIGS Syntaxe globalement identiquehasDS Syntaxe différente

Table 5.1 – Taxonomie de la syntaxe sous Brat

comme étant différente. Les déterminants et autres particules secondes y fontcependant exception.

hasPIS concerne les cas où les chunks sont identiques, mais leur nombrediffère, résultant d’une suppression ou d’une adjonction d’items.

hasIGS concerne principalement les propositions et phrases, se situantainsi à un niveau supérieur des deux premiers cas. Lorsque la syntaxe n’est niidentique ni partiellement identique, il s’agit de vérifier si l’on a la présencedes mêmes structures globales. Par exemple, un sujet suivi d’un verbe lui-même amorçant un complément circonstanciel est un ensemble constituantune structure spécifique qu’il faudra comparer avec la structure de la réponseou du distracteur. Cette catégorie ne s’intéresse donc pas aux variations d’unniveau inférieur, à savoir l’ajout ou la suppression d’adverbes, d’adjectifs,entre autres, mais se concentre sur les structures syntaxiques globales.

hasDS est le cas extrême où la structure syntaxique globale n’est pasconservée : une phrase versus un syntagme adjectival, par exemple.

Voici un exemple de cette annotation :(1) What advantage does the Jatropha curcas offer?

(a)it captures high amounts of CO2(b)it grows on semi-arid fields (réponse)(c)it stops desertification(d)it reduces pests of other crops(e)it produces wood

La syntaxe est différente mais la structure globale est similaire : sujet (it),verbe (notons que les verbes des alternatives (b), (c), (d) et (e) sont mé-ronymes ou antonymes, et que celui de l’alternative (a) ne partage pas desens avec les autres verbes), complément (COD pour (a), (c), (d) et (e),complément de lieu pour (b)).

La taxonomie présentée met en relation deux entités différentes (ta-bleau 5.2).

Remarques sur l’annotation (1) L’annotation des entités doit, assez lo-giquement, être préalable à l’annotation de la relation de la première entité

26

Nom sous Brat Significationstem le stem du QCManswer la réponse du QCMdistractor un distracteur du QCM

Table 5.2 – Types d’entités sous Brat

à la seconde. Le fichier d’entrée contenant les QCM étant formaté selon desbalises bien définies, nous avons pu automatiser, à l’aide d’un script en Perl,l’annotation de l’intégralité des entités selon qu’il s’agit d’un stem, d’une ré-ponse ou d’un distracteur. (2) Nous avons scindé le corpus en 22 parties, pourles raisons mentionnées dans la présentation du logiciel. (3) L’annotation aété réalisée par une seule personne, avec toutes les réserves que cela peut im-pliquer. (4) 143 QCM ont été totalement annotés sur les 193 au total. Nousn’avons annoté que la moitié des 100 QCM du QA4MRE dans la mesure oùles structures sont très récurrentes.

5.2.2 Annotation sémantiqueL’annotation sémantique vise deux objectifs :– déterminer si les alternatives correspondent effectivement au type at-tendu par la question ;

– déterminer si les distracteurs appartiennent au même type d’entiténommée que la réponse.

Taxonomie d’annotation La taxonomie utilisée dans le cadre de cetteannotation est la suivante :

Sigle sous Brat SignificationisTypeConform conforme au type attenduisNotTypeConform non conforme au type attenduunknownTypeConform type attendu inconnuhasITNE type d’entité nommée identiquehasDTNE type d’entité nommée différentnotANE pas une entité nommée

Table 5.3 – Taxonomie de conformité

27

isTypeConform s’applique lorsque le type de réponse attendu par le stemest connu et les alternatives correspondent effectivement à ce type. Ce typeattendu n’est pas catégorisable dans une typologie particulière ; dépendantde chaque stem, il peut, par exemple, aussi bien concerner des personnalités,que des idées reçues ou encore des maladies. La liste est bien plus large quela typologie des entités nommées (cf. Figure 5.3), en ce qu’elle est potentiel-lement infinie.

(2) Why, when playing at the house of Cardinal Ottoboni,did Corelli stop playing in the middle of a solo?(a)Because Ottoboni was talking(b)Because Ottoboni liked music(c)Because he wished to join the conversation(d)Because he was in Rome(e)Because he was a violonist

Dans cet exemple, le type attendu, impliqué par le marqueur interrogatifwhy, est de type raison/cause. Les alternatives sont cohérentes par rapportà ce ce type.

isNotTypeConform s’applique lorsqu’une alternative ne correspond pasau type attendu par le stem.

unknownTypeConform s’applique lorsque la conformité du type attendupar le stem est impossible à déterminer. L’annotation ayant été réalisée parune seule personne, il peut y avoir des cas pour lesquels l’annotateur ne peutpas se prononcer sur la validité d’une alternative vis-à-vis du type attendu(sur la base de ses connaissances ou du texte dont le QCM dépend, le caséchéant).

hasITNE s’applique lorsqu’un distracteur est du même type d’entité nom-mée que celui de la réponse.

hasDTNE s’applique lorsqu’un distracteur n’est du même type d’entiténommée que celui de la réponse.

notANE s’applique lorsqu’un distracteur n’est pas une entité nommée.La typologie des entités nommées utilisée est extraite de [Ligozat, 2006].

Elle contient une hiérarchie de 21 types d’entités nommées :

28

Figure 5.1 – Typologie des entités nommées

5.3 Annotation des relations entre la réponseet le correspondant textuel

L’analyse étant légère, nous l’avons directement liée aux résultats (seréférer au point 5.4.3).

5.4 Analyses et résultatsDans la présentation des exemples illustrant les cas de variation entre un

distracteur et la réponse, (a) correspond au distracteur et (b) à la réponsequi lui est liée :(nb) distracteur(a)

réponse(b)

5.4.1 Syntaxe inter-alternativeDans la section du chapitre de l’état de l’art consacré aux distracteurs,

nous avions établi une brève présentation des principales variations syn-

29

taxiques pouvant se manifester entre les distracteurs et les réponses. Danscette analyse-ci, nous nous concentrons sur les résultats de l’annotation ducorpus sur la base de la taxonomie définie à cette fin. Nous présentons éga-lement un exemple de fichier d’annotation construit à partir d’un ou de plu-sieurs QCM en fonction leur taille, ainsi qu’un résumé des variations syn-taxiques selon l’un des quatre types de la taxonomie (<hasIS>, <hasPIS>,<hasIGS>, <hasDS>).

Nous avons annoté au total 479 relations syntaxiques entre un distracteuret la réponse d’un même QCM, dont la répartition est la suivante :

Nombre PourcentageSyntaxe identique [hasIS] 189 39,4%

Syntaxe partiellement identique [hasPIS] 91 19,0%Syntaxe globalement identique [hasIGS] 141 29,4%

Syntaxe différente [hasDS] 58 12,1%Total 479 (100%)

Table 5.4 – Résultats syntaxe inter-alternatives

Syntaxe identique

Nous constatons que près de 40% des distracteurs ont une syntaxe iden-tique à celle de la réponse du même QCM. Conserver une même structuresyntaxique est l’option la moins complexe à mettre en place, s’agissant prin-cipalement de quelques modifications lexicales, partielles (par exemple dansle cadre des listes) ou totales (typiquement, dans le cas d’une entité nommée).

Les phénomènes syntaxiques, redondants, sont facilement identifiables :

Dans le cas des entités nommées, les substitutions sont légion : la substi-tution d’une date par une autre date, syntaxiquement identique :(3) in 1980(a)

in 1997(b)

ou encore la substitution d’une organisation par une autre organisation :(4) PROINFA(a)

PROCEL(b)

Dans le cas des syntagmes et propositions, les substitutions sont moinspropices à une conservation de la structure syntaxique. Toutefois, nous notonsla substitution d’un élément de la structure par un autre, principalement leverbe ou le sujet dans le cas de propositions :

30

(5) to increase the emission of greenhouse effect gases(a)to reduce the emission of greenhouse effect gases(b)

S’il s’agit d’un verbe, celui-ci est souvent sémantiquement lié avec celui quile substitue (antonymie, méronymie).

Et, finalement, la substitution peut concerner la totalité du syntagme :

(6) replanting trees(a)burning forests(b)

Syntaxe partiellement identique

L’analyse des distracteurs à la syntaxe partiellement identique et globale-ment identique (cf. infra) sont très liées dans la mesure où ces deux catégoriesont des frontières relativement floues, et le choix définitif résulte davantaged’une prise de décision subjective de la part du chercheur que d’une décisionobjective fondée sur des règles précises(les cas étant extrêmement différents etnombreux, cela eût été impossible). Nous avons cependant chercher à être co-hérent tout au long de l’annotation. Cette remarque est à prendre en compte,dans la mesure où les syntaxes partiellement et globalement identiques re-présentent à elles deux près de 50% des cas de variation syntaxique.

La situation la plus évidente de la syntaxe partiellement identique (has-PIS) est celle des listes. Souvent constituées de syntagmes coordonnées àl’aide de la virgule ou d’une conjonction de coordination, un distracteur à lasyntaxe partiellement identique à celle de la réponse comprend typiquementun syntagme (un item) en plus ou en moins par rapport à cette dernière (siun distracteur contient exactement le même nombre de syntagmes, et queceux-ci sont du même type que ceux de la réponse, il s’agit d’un cas d’unesyntaxe identique (hasIS)) :

(7) Union and State list(a)Concurrent List, Union List, Residuary Subject List(b)

(8) Concurrent and State List(a)Concurrent List, Union List, Residuary Subject List(b)

Lorsqu’un distracteur contient une insertion ou une suppression d’aumoins deux items, bien que la similarité de la syntaxe s’affaiblisse, nousconsidérons qu’appartenant au type de la liste, il s’agit toujours d’un cas desyntaxe partiellement identique :

(9) State list(a)Concurrent List, Union List, Residuary Subject List(b)

Cependant, ces trois exemples présentent une reprise mot pour mot d’unou plusieurs item(s) d’une autre alternative (réponse ou distracteur), mais ilest tout à faire possible que seule la structure de la liste soit conservée, aucontraire du lexique :

31

(10) Smoking ceremony and totems(a)Myths, legends and enactment ceremonies(b)

Il se peut également qu’un distracteur poursuive le contenu de la réponse(ou vice-versa) :

(11) in the event of foreign attack(a)in the event of threat arising on account of foreign attack andarmed rebelion(b)

Le début de proposition étant identique, et seul le complément (ou l’absencede complément) étant altéré, nous avons considéré ce cas comme étant le faitd’une syntaxe partiellement identique.

Les cas plus subtils d’une syntaxe partiellement identique, ceux sur les-quels les liens avec une syntaxe globalement identique sont relativement forts,se présentent lorsque le distracteur contient une variation syntaxique en tantque telle (et non plus une « simple » adjonction ou suppression d’un syntagmeou d’une proposition) :

(12) judges of the Supreme Court of India(a)district and session judges(b)

Syntaxe globalement identique

La syntaxe globalement identique (hasIGS) concerne assez logiquementpresqu’exclusivement les propositions. Nous rappelons que par syntaxe glo-balement identique, nous entendons une même structure globale (sujet-verbe-complément par exemple), avec variation du nombre de groupes au sein decette structure (insertion d’un complément du nom, d’un syntagme adjecti-val. . .) ou, plus généralement, avec variation de la syntaxe d’un élément dela structure (sujet, verbe ou complément dans le cas le plus basique) parrapport à la structure prise en référence, celle de la réponse. Cette catégoriene concerne que 19% des cas, témoignant du souci accordé à l’équivalencesyntaxique entre la réponse et ses distracteurs lorsque ceux-ci se veulent iden-tiques (en termes de nombres d’items dans le cadre de liste, d’informationsfournies dans le cadre de syntagmes et propositions).

Syntaxe différente

La syntaxe différente touche tant les mots, les syntagmes, les propositions,que les phrases. Au sein de notre corpus d’entrainement, nous avons repéré unnombre non négligeable de none of the above, généralement syntaxiquementdifférents de la réponse 1. Avec 12% des cas la syntaxe différente entre undistracteur et la réponse reste une situation marginale. Dans le cadre de

1. Nous n’avons d’ailleurs pas rencontré aucun all of the above lors de l’annotation

32

notre projet, nous ne nous y intéresserons pas (ou, tout du moins, pas dansle cadre du stage).

5.4.2 Typologie d’entité nommée inter-alternativeLes résultats de l’analyse statistique portant sur les entités nommées,

menée sur les fichiers de sortie de Brat, sont les suivants :

Nombre Pourcentagehas identic type named entity [hasITNE] 102 21,1%

has different type named entity [hasDTNE] 17 3,5%not a named entity [notANE] 365 75,4%

Total 484 (100%)

Table 5.5 – Résultats entités nommées

75,4% des distracteurs (et, on peut le supposer, des réponses) ne sont pasdes entités nommées. Ce résultat n’est pas surprenant : les entités nomméesétant surtout réservées aux questions factuelles ne portant que sur une in-formation (personne, date, organisation, etc.), ces dernières sont en minoritéen regard de l’ensemble des questionnaires à choix multiples de notre corpusd’entrainement.

L’élément le plus intéressant de ce tableau est le faible pourcentage dedistracteurs ayant un type d’entité nommée différent de celui de la réponse.Dans la taxonomie d’annotation, nous avions indiqué que cette catégorie étaitprincipalement le fait de cas d’hyperonymie ou d’hyponymie. Cependant, unesituation récurrente est celle de la non appartenance de la réponse à un typed’entité nommée précis, à la différence du distracteur sur lequel l’annotationporte :(13) In New York.(a)

A proper geographical term.(b)

Le distracteur New York est de type <LOCATION>, alors que la réponse àlaquelle il se rapporte n’est pas catégorisable dans la taxonomie des entitésnommées. Ainsi, nous avons suivi notre taxonomie d’annotation de la ma-nière la plus cohérente possible : le type d’entité nommée du distracteur estdifférent de celui de la réponse dans la mesure ou ce dernier n’est pas uneentité nommée. Le tableau 5.6 présente les résultats de l’analyse lorsque nesont conservés que les cas où le distracteur et la réponse correspondent à destypes d’entités nommées différents.

Aucun cas de type d’entité nommée différent entre le distracteur et la ré-ponse (celle-ci étant une entité nommée) n’a été repéré. Les cas d’hyponymieet hyperonymie correspondent à 70% des cas, illustrés en (14).

33

Nombre Pourcentage Pourcentage globalHyperonymie 4 23,5% 0,8%Hyponymie 8 47,1% 1,7%

Autre (EN différente) 0 0,0% 0,0%Autre ( !EN) 5 29,4% 1,0%

Total 17 (100%) (3,5%)

Table 5.6 – Résultats hasDTNE

(14)Cambridge(1)Massachusetts(2)

5.4.3 Alternatives vs stem : type de réponse attenduLors de l’établissement de la taxonomie d’annotation, nous avions voulu

étudier la conformité des types de réponses en fonction du type attendu parle stem. Ce type dépasse le cadre des entités nommées, étant à la fois d’uneprécision accrue mais aussi indénombrable, à la différence [de la taxonomie]des entités nommées : il existe autant de types que de questions, voire deconcepts au sein de la langue (une opinion, une idée, un chanteur, etc.).

Considérons cet exemple :

(15) Which medical disorder first described in 1866 can increase the risk ofdeveloping Alzheimer’s disease?(a)APOE e2(b)APOE e3(c)APOE e4(d)Down’s syndrome(e)Parkinson’s disease

Le stem requiert une réponse du type medical disorder. Nous pouvons rai-sonnablement supposer que les cinq alternatives sont toutes de ce type. Ladétermination du type, bien qu’elle soit relativement univoque, peut parfoisêtre sujet à des tergiversations. En effet, si, dans le cas suivant :

(16) In what American state did university scientists calculate the cost toeach American of spending 5 dollars annually to combat AIDS in Africa?(a)Cambridge

la détermination du type attendu et la validation de la réponse sont assezsimples à déduire, (le type de la réponse, une ville, ne correspond pas au typeattendu, un état américain), la situation ce corse dans l’exemple ci-dessous :

(17) Which of the following is not an opinion?(a)It is important for us to take care of endangered animals.

34

(b)The black rhinoceros is the most frightening animal in Africa.(c)The fastest land animal, the cheetah, also lives in Africa.(d)If we don’t protect endangered animals now, we will regret it in the

future.

Le type attendu n’est pas « une opinion », mais bien « pas une opinion ».Seule la réponse (c) correspond donc au type attendu. Ce phénomène seprésente lorsque le stem est négatif.

Nombre PourcentageType conforme au type attendu 460 75,5%

Type non conforme au type attendu 26 0,4%Conformité au type inconnue 123 20,1%

Total 484 (100%)

Table 5.7 – Conformité au type attendu par le stem

Une grande majorité des alternatives - 75.5% - est du type attendu par lestem. Moins d’1% ne correspondent pas au type attendu, un gage de qualitéou, plus précisément de difficulté, des QCM. Les 20.1% du type inconnucorrespondent aux situations dans lesquelles déterminer le type attendu parle stem est impossible. Il s’agit notamment de QCM à la limite du FBI (Fill-in the Blank Item) :

(18) If you "out do" someone, you..?(a)Do something with someone else

ou encore de QCM dont on ne peut trancher sur la validité du type desalternatives par rapport au type attendu de par les connaissances a priori duchercheurs ou après analyse du texte.

5.4.4 Relation entre la réponse du QCM et son corres-pondant textuel

Nous avons indiqué au moyen de la relation <isLocated> la position dela réponse dans le texte, le cas échéant. Dans le souci de faciliter l’analyse,nous nous référons au syntagme correspondant textuel pour désigner le oules termes du texte à partir desquels la réponse a été rédigée. L’annotationétant fastidieuse sous Brat dès lors que les relations deviennent espacées(cf. Présentation de Brat), nous n’avons pas indiqué directement dans celogiciel la nature de la relation entre la réponse et son correspondant textuel,l’analyse ayant été réalisée manuellement à partir d’un fichier de sortie d’unscript Perl reprenant la réponse et son correspondant textuel côtes à côtes.

35

Pour cette même raison, nous n’avons réalisé que 94 annotations, celles-ciétant trop chronophages pour se permettre d’annoter l’ensemble du corpus.

Toutefois, même si l’annotation a été réalisée manuellement, nous avonsquand même indiqué au sein même du fichier de sortie le degré d’« identicité »(<aTL> pour <answerTextLocation>) entre une réponse et son correspon-dant textuel, sur la base de la taxonomie suivante :

Sigle SignificationaTL1 la réponse et son correspond textuel sont identiquesaTL2 la réponse et son correspondant textuel, moyennant

quelques modifications mineures, sont identiquesaTL3 la réponse et son correspondant textuel sont similairesaTL4 pas de similitudes directes entre la réponse et son

correspondant textuel

Table 5.8 – Analyse de la syntaxe entre la réponse et son correspond textuel

Identicité totale entre l’alternative et son correspondant textuel[aTL1]

Cette première catégorie ne concerne que les cas où une alternative esttotalement identique à son correspond textuel.

Identicité partielle entre l’alternative et son correspondant textuel[aTL2]

Cette catégorie concerne les cas de différences de l’ordre d’une adjonction,déletion ou substitution d’éléments lexicaux secondaires, principalement lesdéterminants, prépositions ou encore certains adverbes et adjectifs :

(19) the 1990s (a)the early 1990s (b)

(20) The discovery of a document in 1916 (a)the discovery of a document from 1916 (b)

Similarité entre l’alternative et son correspondant textuel [aTL3]Cette catégorie regroupe les cas où les différences linguistiques entre une

alternative et son correspond textuel sont manifestes et multiples. Cependant,à la différence de la quatrième catégorie, la structure globale est conservée, etles différences en termes de nombre d’informations véhiculées sont minimes.

36

(21) burning forests with the aim of increasing arable land (a)Burning is widely used in the Amazon region to prepare newagricultural land (b)

(22) ignoring poverty, social inequality and traditional ways (a)to ignore the poverty and inequality (b)

(23) improving public health systems in Africa (a)public health systems needed to be ramped up (b)

(24) Tortoise eggs were kept in safe containers. (a)They gathered the eggs and put them in safe containers (b)

Seul un lien sémantique relie l’alternative à son correspond textuel[aTL4]

Cette quatrième catégorie regroupe les cas extrêmes, pour lesquels la re-lation entre une alternative et son correspond textuel ne peut se baser surune similarité syntaxico-lexicale, dans la mesure où leur structure est fonciè-rement différente. La mise en correspondance se réalise au moyen d’un travailinterprétatif d’une séquence du texte (proposition ou phrase) voire d’un deses paragraphes (auquel cas nous avons écarté l’alternative de l’annotationdes relations <isLocated>). L’annotation est laissée à l’appréciation du cher-cheur : définir les frontières d’une séquence d’information correspondant àl’alternative est bien souvent peu évident.

(25) The sailors use the tortoises for food. (1)fresh food was always a problem for the sailors on board. Thegiant tortoises provided an easy solution to this problem (2)

(26) The animals ate the tortoises’ food and eggs. (1)Donkeys and goats ate all the plants that the tortoisesusually fed on, while the pigs, dogs and cats consumedthousands of baby tortoises each year. (2)

(27) To know something about spelling and geography. (1)The second person has 10 seconds to think of how the word endsand come up with another geographical term starting with thatletter (2)

5.4.5 Mesure de la distance entre un distracteur et saréponse

À partir des relations isLocated des fichiers d’annotation de Brat, nousavons pu calculer le nombre de caractères moyen séparant la réponse de sesdistracteurs. Si nous avons par exemple le texte suivant :

(28) For the second year in a row, American competitive eater <answer>Joey Chestnut</answer><length> defeated his Japanese rival </length><distractor> Takeru Kobayashi</distractor> at the annual Nathan’s HotDog Eating Contest in New York City, after a tie forced a five hot dog

37

eat off to be held.

À l’aide d’un programme Perl, nous pouvons facilement calculer le nombrede caractères entre </answer> et <distractor>.

Sur l’ensemble du corpus annoté, nous obtenons le nombre moyen de2 296,69 caractères. Sachant que la longueur moyenne d’une phrase en langueanglaise est de 15 à 20 mots, soit 75-100 caractères ([Watson Solomon, 2008]),la distance entre un distracteur et sa réponse se situe entre 22 et 30 phrases.Un chiffre élevé dans le cadre de QCM mais qu’il est nécessaire de repla-cer dans son contexte : le corpus est constitué de nombreux extraits duQA4MRE, d’une longueur approximative de 8000 à 10000 caractères, alorsque les textes provenant d’autres sources (notamment internet, cf. [Présenta-tion du corpus]) ont une longueur de 1000 à 2000 caractères. Par conséquent,il serait judicieux de soit séparer homogènement chaque texte en quatre sec-tions, sur lesquelles l’analyse serait reconduite, soit reproduire l’analyse surchaque sous-corpus contenant des QCM basés sur un texte (QA4MRE etQCM de Martin Gleize) 2.

L’utilité d’une telle analyse est indéniable : dans le cas où plusieurs can-didats distracteurs sont sélectionnés, le choix final s’effectuera par une étudedes proximités tant sémantique que physique ([Mitkov et al., 2006]).

2. Ces analyses seront réalisées ultérieurement, lors de notre mémoire qui prolonge cestage.

38

Chapitre 6

Implémentation d’ungénérateur automatique dedistracteurs dans le cadre deQCM

6.1 IntroductionCe chapitre concrétise, dans la mesure du possible, les informations dé-

gagées lors de l’analyse sur le corpus d’entraînement. Étant limités dans letemps, nous nous sommes restreints à la réalisation d’un système de géné-ration automatique de distracteurs qui soit à la fois fonctionnel et aisémentmodifiable en vue d’améliorations ultérieures. Pour cette raison, cet outil està considérer comme un socle de base permettant de générer aisément des dis-tracteurs à certaines catégories de questions spécifiques, et doit être évaluécomme tel.

Le principe de base de notre méthode est le suivant : l’utilisateur soumetun fichier en entrée, dans un format bien précis 1, contenant un texte, une ouplusieurs questions et leur réponse respective. L’outil détermine, au moyende divers outils d’analyse, le type de la réponse. Sur la base de ce type, l’ou-til répertorie l’ensemble des items du même type présent dans le texte, et,aléatoirement, en sélectionne 4. Un fichier de sortie est produit, contenant letexte de départ, les questions, et les alternatives (la réponse et ses alterna-tives) ordonnées elles aussi de manière aléatoire. Ainsi, à chaque actualisationdu programme, différentes alternatives peuvent être fournies. Si la structure

1. Ce format est identique à celui utilisé lors de l’analyse sur corpus ; se référer auchapitre 4 pour davantage d’informations.

39

à reconnaître dans le texte est présente en moins de 4 occurrences, le QCMgénéré pour cette question ne contiendra que 1, 2 ou 3 distracteurs.

Dans ce chapitre, nous présentons, dans un premier temps, la typologiede distracteurs utilisée (ou, plus précisément, la typologie des réponses àpartir desquelles les distracteurs sont sélectionnés), et, dans un second, pourchaque type, la méthodologie mise en œuvre pour la génération automatiquede distracteurs : les prétraitements, la génération en tant que telle, et unebrève analyse des résultats obtenus.

6.2 Présentation de la typologie de distrac-teurs

Comme nous l’avons démontré dans l’état de l’art et, surtout, dans l’ana-lyse du corpus d’entraînement, les alternatives sont loin d’être uniformes.Dans le cadre de notre travail, nous avons voulu réduire au maximum lesvariations structurelles de ces alternatives afin, d’une part, d’en faciliter lagénération et, d’autre part, de correspondre au mieux aux prescriptions de[Burton et al., 1991]. Pour ce faire, nous avons divisé la génération de dis-tracteurs en deux sections, sur la base du type de la réponse, selon que celle-ciest ou n’est pas une entité nommée.

réponse

entité nommée syntaxe

syntagme proposition phrase

Figure 6.1 – Génération de distracteurs

Si la réponse est une entité nommée, la méthode est relativement simpledans la mesure où aucune étape supplémentaire à celles présentées dans l’in-troduction n’est appliquée. Si la réponse n’est pas une entité nommée, la mé-thode devient plus complexe puisqu’elle se base sur la structure syntaxiqueafin de catégoriser la réponse en tant que syntagme, proposition, ou phrase.

L’analyse suit une hiérarchie bien précise : (1) entité nommée, (2) syn-tagme, (3) proposition, (4) phrase. En d’autres mots, si la réponse n’est pas

40

reconnue comme étant un des 8 types d’entités nommées reconnus par leStanford Named Entity Recognition, l’analyse en étudiera la syntaxe pourdéterminer, dans l’ordre, s’il s’agit ou non d’un syntagme, d’une propositionou d’une phrase.

6.3 Génération de distracteurs sur la based’une taxonomie d’entités nommées

La gestion des réponses du type entité nommée constitue la première desdeux phases de génération de distracteurs, la plus rapide et aisée à mettreen place et, comme nous l’indiquons dans les résultats, la plus efficace 2.

La génération des distracteurs de type entité nommée débute par la sou-mission du fichier d’entrée au Stanford Named Entity Recognition, adaptépar Van-Minh Pho 3 pour qu’il puisse être appelé à partir d’un script Perl. Lefichier produit en sortie de ce programme contient, sur chaque ligne, le mottagué et la catégorie de son tag, le cas échéant. En effet, loin des 21 typesd’entités nommées de la taxonomie de [Ligozat, 2006], le logiciel ne reconnaitque 8 types :

Tag Significationorganization les organisations (acronymes, noms propres)person les individus, sans différenciation entre les noms et pré-

nomslocation les lieux, sans différenciation entre les villes, pays ou

continentsdate les dates au sens strict et les informations temporellesmoney les sommes contenant explicitement un sigle monétairenumber les nombresordinal les ordinauxduration les informations de durée

Table 6.1 – Typologie d’entités nommées du SNER

En outre, la précision du logiciel est contestable : si une entité est compo-sée de deux, trois, voire quatre termes successifs, chacun d’entre eux aura un

2. Le mémoire prolongeant le stage, des améliorations seront apportées après la fin dece dernier ; il est donc tout à fait possible que notre méthode permettant de générer desdistracteurs sur la base syntaxique de la réponse sera plus efficace que celle prenant appuisur la détermination des types d’entités nommées.

3. Doctorant au LIMSI-CNRS

41

tag ; celui-ci est généralement identique, ce qui signifie que le logiciel prenden compte l’ensemble de la séquence pour en déterminer le type d’entiténommée, mais la tague séparément. Toujours à l’aide de Perl, nous avonspu pallier ce problème, en concaténant, dans la mesure du possible, tous lesmots successifs ayant un type d’entité nommée identique. Cependant, cettetentative de résolution du problème en apporte un autre : que se passe-t-ildans le cas où deux entités de même type d’entité nommée ne sont pas àconsidérer ensemble (cf. exemple (1)) ? Cette situation étant très marginale,nous ne nous en sommes pas préoccupés 4.

(1) <REPONSE_PHRASE_TAGS>1 $ $ $ MONEY2 460 CD 460 MONEY3 million CD million MONEY</REPONSE_PHRASE_TAGS>

Dans cet exemple, sans un traitement particulier, notre programme consi-dérerait chacun de ces termes comme étant une entité nommée à part, etpourrait proposer "$" comme un distracteur à une réponse contenant unesomme d’argent.

Une fois l’ensemble du QCM (questions, réponses, texte) passé aux Stan-ford Named Entity Recognition et Stanford Parser, le fichier de sortie Spar-ser.xml est généré, comprenant les entités nommées et le résultat du parsing.Ce fichier est ensuite analysé par notre programme :

– le format du QCM fourni en entrée permet de distinguer la réponseparmi les alternatives au moyen de balises XML 5 ; celles-ci sont repéréespar le logiciel pour également inclure des balises encadrant la réponseau sein du fichier Sparser.xml ;

– tous les mots du texte contenant un tag d’un des huit types d’entiténommée sont intégrés à une table de hachage (clef : mot ; valeur : tag).

A partir de cette table de hachage, le programme détermine le type d’en-tité nommée de la réponse, et insère tous les mots du texte du même typedans un tableau. Les distracteurs y sont ensuite succesivement sélectionnésde manière aléatoire, en rejetant évidemment les distracteurs identiques lecas échéant. Pour chaque sélection d’un distracteur, un booléen est égalementinséré dans un tableau (1 si un distracteur a été sélectionné, 0 dans le cascontraire), analysé lors de la génération du fichier de sortie du QCM selonqu’une question contient un, deux, trois ou quatre distracteurs. Il s’agit làd’une des raisons pour lesquelles les textes longs sont préférables, dans lamesure où cela permet d’obtenir un QCM complet (quatre distracteurs).

4. Dans notre corpus d’entrainement, nous ne l’avons pas rencontrée.5. Cf. la section 4.4

42

Le programme récupère ces tableaux et concatène au QCM les distrac-teurs, la réponse, le stem et leurs balises XML correspondantes, avant depasser à la question suivante.

6.4 Génération de distracteurs sur la based’une analyse syntaxique

L’analyse syntaxique du QCM constitue la seconde phase de la générationde distracteurs, et n’est utilisé que dans le cas où la réponse n’est pas reconnuecomme un des huit types d’entités nommées (soit celle-ci est bien une entiténommée mais n’a pas été taguée comme telle par le Stanford Named EntityRecognition, soit elle n’est tout simplement pas une entité nommée).

C’est dans ce cadre-ci que nous utilisons le logiciel Tregex présenté auchapitre 3. En effet, nous tentons d’associer à chaque structure syntaxiqueune règle particulière ; si la réponse correspond à une des règles définies, elleest intégrée à une table de hachage avec la règle qui a été utilisée.

La détermination et le choix des règles à implémenter dans le programmeest à réaliser judicieusement : les règles doivent être suffisamment généralespour repérer un maximum de cas mais également suffisamment précises pourréduire au maximum les correspondances indésirables, c’est-à-dire le bruit.Nous avons préféré restreindre au maximum le nombre de règles tout enassurant une relative qualité des correspondances réalisées. Ainsi, une listede 10 règles générales a été établie 6 :

Syntagmes nominaux

NP</NNS?/?<CC?<DT?<JJ?<RBNP<(NP</NNS?/?<CC?<DT?<JJ?<RB)<(PP<IN<(NP</NNS?/?<CC?<DT?<JJ?<RB))

La première règle repère les syntagmes nominaux simples, c’est-à-dire uni-quement composés de noms, et éventuellement de conjonctions de coordina-tions, déterminants, adjectifs et adverbes. La seconde règle repère certainssyntagmes nominaux « complexes », en ce qu’ils sont constitués de plusieurssyntagmes hiérarchisés par une particule <IN> (par exemple des prépositionstelles que of et beneath).

Syntagmes adjectivaux

ADJP<JJ ?<RB ?<DT ?<CC

6. L’annexe D reprend l’ensemble des règles et leurs balises.

43

La règle reconnait tout syntagme adjectival contenant, forcément, un adjectif,et éventuellement des adverbes, déterminants ou conjonctions de coordina-tions.

Syntagmes verbaux

VP<VBG<(PP<1IN<2(NP</NNS?/ ?<CC ?<DT?<JJ)!<<S)VP <VBG

Les deux règles repèrent les syntagmes contenant un gérondif ; la premièreest plus précise, puisqu’outre le gérondif, le syntagme doit contenir une pro-position et un syntagme prépositionnel.

Syntagmes adverbiaux

ADVP<RB ?<RBR|RBS

La règle repère les syntagmes adverbiaux contenant un adverbe et éventuel-lement un adverbe comparatif ou superlatif.

Syntagmes prépositionnels

PP<1IN<2(NP</NNS?/ ?<CC ?<DT ?<JJ)!<<S

La règle repère les syntagmes prépositionnels contenant une particule pré-positionnelle suivie d’un syntagme nominal (nom, éventuellement conjonc-tions de coordinations, déterminants et adjectifs) mais qui ne contiennentpas d’autres propositions, afin, par exemple, de ne conserver que for patientsdans la phrase They make it easier for patients to sleep et non for patientsto sleep.

Propositions

SBAR<(IN<because | <since) <S <(IN !<if) !<RBVP <TO <(VP <VB)

Ces deux règles repèrent les propositions causales (débutant par because ousince) et infinitives (to + verbe).

Phrases

S

44

Il s’agit là de la règle la plus simple qui soit puisqu’elle repère toutes lesphrases déclaratives.

Le fichier regles.xml est facilement modifiable dans le cas où il est né-cessaire d’ajuster les règles, éventuellement en ajouter pour augmenter lareconnaissance de certaines constructions, moins fréquentes.

Une fois le fichier regles.xml défini, il est entré en argument avec Spar-ser.xml dans une version du logiciel Stanford Tregex adaptée par Van-MinhPho permettant, tout comme le Stanford Parser, d’être appelée par un scriptPerl et fournir en sortie un fichier STregex.xml intégrant tous les segmentsdu texte ayant été repérés par les règles, avec l’indication, pour chacun deces segments, de la règle utilisée :

<SOUS_ARBRE id_regle="SP1" type_regle="SP"><SOUS_ARBRE_CONSTITUANTS>(PP (IN with) (NP (DT the) (NNP Amazon) (NN problem)))</SOUS_ARBRE_CONSTITUANTS><SOUS_ARBRE_TEXTE>with the Amazon problem</SOUS_ARBRE_TEXTE></SOUS_ARBRE>

Figure 6.2 – Extrait du fichier STregex.xml

L’ordre des règles dans le fichier regles.xml a son son importance : lelogiciel lit les règles de haut en bas ; si une séquence du texte n’est pasreconnue par la première règle, il passe à la deuxième, et ainsi de suite,jusqu’à ce que la séquence soit reconnue. Pour cette raison, les règles lesplus précises doivent être placées avant les règles les plus générales (la plusgénérale possible étant <S>, dans notre fichier).

Dans un module du programme, nous analysons ensuite le fichier STre-gex.xml sur le même mode opératoire que celui suivi lors de la génération dedistracteurs de type entité nommée : l’ensemble des structures syntaxiquesrepérées sur la base des règles définies est inséré dans une table de hachage.Selon la structure de la réponse dont on cherche à fournir des distracteurs,identifiable avec des balises XML spécifiques, tous les segments du texte dontla structure syntaxique est identique à celle de la réponse sont placés dansun tableau, pour ensuite en récupérer un de manière aléatoire. L’opérationest répétée au maximum 4 fois par réponse, selon la fréquence de la structureà rechercher au sein du texte. Les distracteurs, et leurs booléens correspon-dants (1 ou 0, selon qu’un distracteur a été trouvé ou non), sont à leur tourplacés dans deux tableaux, et retournés au programme principal.

45

6.5 Regroupement des programmesLes deux modules de génération de distracteurs sont récupérés par le pro-

gramme principal, qui s’occupe de générer en sortie le fichier final, QCMout-put.xml, contenant le texte, les questions, les réponses et les distracteurs, letout sous le même format que celui utilisé en entrée. Conformément à ce quenous avons avancé dans l’introduction de ce chapitre, les distracteurs sont enpriorité choisis – le cas échéant – sur la base de leur type d’entité nommée.Quel que soit le module appelé (analyse sur le type d’entité nommée ou surla structure syntaxique), deux tableaux sont retournés, contenant les distrac-teurs et les booléens, à partir desquels le fichier de sortie final contenant leQCM est produit.

46

Chapitre 7

Analyses et résultats dugénérateur automatique dedistracteurs

7.1 IntroductionNous présentons dans ce chapitre les résultats de notre programme de

génération automatique de distracteurs dans le cadre de QCM. Nous nouslimitons à une analyse qualitative, linguistique, dans la mesure où une ana-lyse quantitative eût nécessité de nouvelles étapes d’annotation et d’analysesstatistiques similaires à celles réalisées au chapitre 5. La durée du stage étantlimitée, nous avons préféré nous focaliser sur la finalisation du programme.En outre, des améliorations ultérieures seront apportées au programme lorsde notre mémoire (le stage en constituant la partie « pratique ») ; nous réali-serons à ce moment-là une analyse plus approfondie, en passant notammentpar des tests sur population.

Pour réaliser cette analyse, nous avons soumis notre programme aux QCMde la tâche 2012 du QA4MRE, mais aussi 2013, comme indiqué au chapitre 4.

7.2 Remarques préambulairesDe manière générale, la qualité des distracteurs fournis par le programme

dépend de deux éléments : le texte d’un côté et la formulation des réponsesde l’autre.

Un texte trop court limitera la génération de distracteurs en ce que le pro-gramme cherche à reconnaître des types d’entités nommées ou des structuressyntaxiques précises au sein du texte, sans recours à des bases de données

47

externes. Logiquement, au plus la longueur du texte est importante, plus laprobabilité d’obtenir quatre distracteurs par question l’est aussi.

Une autre caractéristique du texte est à prendre en compte : son type.En effet, il existe certains types de textes à partir desquels la génération dedistracteurs est plus efficace. Dans le cadre de la génération de distracteursà partir d’entités nommées, les articles historiques par exemple, ou, plusgénéralement, factuels, sont à privilégier. Les textes narratifs voire autrespoèmes sont, au contraire, à écarter.

La formulation de la réponse joue également un rôle certain dans la mesurede la performance du programme : certaines réponses peuvent être rédigéesde telle sorte que le type d’entité nommée, pourtant évident pour un lecteurhumain, ne soit pas reconnu par le programme. Ainsi, il est préférable derédiger la réponse à la question le plus simplement possible : juste un nombre(dans le cadre d’une date, d’une somme, etc.), un lieu, ou le nom d’unepersonne ; à éviter, donc, les formulations syntaxiquement complexes. Ceprécepte est aussi valable dans le cadre de la formulation des réponses detype proposition causale, par exemple : les règles élaborées sous Tregex nepermettent de reconnaitre que les structures « typiques », c’est-à-dire, dansnotre cas, les propositions débutant par un because ou since.

7.3 Génération de distracteurs sur la based’une taxonomie d’entités nommées

Les distracteurs générés sont dans la majorité des cas cohérents tantpar rapport à la question que par rapport à la réponse. Bien entendu, ils’agit là d’une « impression » ; des études statistiques sur la base d’une nou-velle annotation permettraient de la corroborer ou, au contraire, de l’infirmer.

Voici un exemple de QCM générés par notre programme :

(1) Which pupil of Dr John Blow taught Charles Burney ?(a)Edmund Baker(b)Johnson(c)Canone(d)J. J. Rousseau(e)J. J. Eschenburg

(2) How many degrees did Burney receive from Oxford ?(a)One(b)Three(c)2(d)years(e)Six

48

(3) Where was Burney working when he first conceived the idea of writing amusic history ?

(a)Great Britain(b)Oxford(c)Milan(d)England(e)London

Les distracteurs sont totalement valables dans le cadre de ces questions,à l’exception du (2d) et, dans une moindre mesure, de (3a) et (3d), hyper-onymes de (3e) et (3b). Pour résoudre ce problème, nous pourrions éven-tuellement utiliser des bases de données (listes de pays, de villes, etc.), bienque celles-ci soient largement insuffisantes compte tenu de la subtilité dontdoivent faire preuve les distracteurs.

Nous notons également, dans la deuxième question, que le format des al-ternatives n’est pas identique (One vs 2 ), ce qui va à l’encontre des principesde base de la rédaction de QCM ([Burton et al., 1991]). Cette disparité dansles formats se remarque également dans les alternatives de la question (1) :les alternatives (b) et (c) proposent uniquement un nom, la (a) le prénom etle nom, et les (d) et (e) les initiales du prénom suivies d’un nom. Le StanfordNamed Entity Recognition ne faisant pas de distinction entre les prénoms etles noms, nous ne pouvons réellement y remédier, si ce n’est s’arranger pourne conserver que les noms.

Une autre limite de notre programme réside dans la reconnaissance desentités nommées. En effet, si le ou les termes à reconnaître ne constituentpas à eux seul la réponse (ajout d’une particule, par exemple), le StanfordNamed Entity Recognition ne la considérera pas comme une entité nommée :(4) In what year was a study concerning the contribution of using ethanol

for reducing emissions in Brazil undertaken?(a)in 1990(b)in 1980(c)in 1975(d)in 1991(e)in 1997 (réponse)

Dans cet exemple, notre programme ne fournit pas de distracteurs du typed’entité nommée <date> à cause de la particule in. Le Stanford NamedEntity Recognition tague bien 1997, mais pas sa particule. Pour cette raison,lors de la recherche de in 1997 dans la table de hachage contenant l’ensembledes entités nommées et leur type, aucune entrée n’est identifiée, et la réponseest donc considérée comme n’étant pas une entité nommée.

En outre, il se peut que le logiciel associe un type d’entité nommé erronéà une réponse, impliquant la génération de distracteurs ne correspondant pasau type attendu par le stem :

49

(5)What program had as an objective of reducing emissions from energy production ?(a)da Silva(b)Emilio La Rovere(c)PROCEL (réponse)(d)Isaías Macedo

PROCEL, une organisation, a été reconnue comme étant de type <person>,générant ainsi des distracteurs de ce type.

7.4 Génération de distracteurs sur la based’une analyse syntaxique

Les distracteurs générés à partir de la structure syntaxique de la réponsesont qualitativement très variables, selon qu’il s’agit d’un syntagme ou d’uneproposition.

Syntagmes Dans le cas des syntagmes (ou, tout du moins, dans le casdes syntagmes nominaux), le programme ne se base que sur la structureglobale de la réponse (un nom, éventuellement complété par un ou plusieursadjectifs, déterminants, conjonctions, voire d’autres noms) pour sélectionnerles distracteurs dans le texte. Ce faisant, toute structure identique à celle dela réponse constitue un distracteur potentiel, susceptible d’être sélectionné àchaque lancement du programme.(6)What phenomenon that happens in the Amazon rainforest could contribute

to global warming ?(a)the country’s financial burden(b)economic terms(c)spontaneous fires (réponse)(d)bagasse and ethanol(e)Brazil

Dans cet exemple, le stem attend pour réponse un phénomène qui a lieudans la forêt amazonienne. Seule la réponse (c) correspond effectivement autype attendu. On constate ici les limites de la génération de distracteursuniquement sur une analyse de la structure syntaxique.

Pour certains types de syntagmes, les distracteurs générés sont demeilleure qualité, en ce que le programme se base sur une catégorie de motspour sélectionner les distracteurs :(7)How can new arable land be obtained ?

(a)burning forests(b)using sugarcane ethanol and bagasse -LRB- the dry pulpy residue

left after extracting juice from sugar cane -RRB-(c)Taking into account only the gasoline that is not burned(d)mitigating the energy sector’s contribution to greenhouse gas emissions(e)raising temperatures further

50

Ces syntagmes verbaux sont générés à partir d’un verbe au gérondif, selonla règle définie dans le fichier regles.xml. Les distracteurs sont plus efficacesque dans le cas des syntagmes nominaux 1.

Propositions En ce qui concerne les propositions, le générateur fournitdes distracteurs relativement efficaces. En effet, si nous conservons l’analysede la structure syntaxique, nous fournissons également à Tregex des listesde termes susceptibles d’introduire ou d’être contenus dans une proposition.Ainsi, le logiciel prend quand même en compte quelques informations lexi-cales, fussent-elles minimes. Nous avons fourni ces termes pour repérer lespropositions causales (since, because) et infinitives (to + verbe), principale-ment.(8)Why might yearly studies concerning the contribution of a country to

climate change be inexact ?(a)because they only consider current emissions but not previous ones

(réponse)(b)because the sectors that contribute most to the economy, including iron

and steel, cement, aluminium, chemical, petrochemical, pulp and paper,and transportation, rely heavily on fossil fuels which produce largeamounts of greenhouse gases

(c)primarily because the most important greenhouse gas -LRB- carbon dioxide-RRB- remains in the atmosphere for more than a century on average

Les trois alternatives débutent toutes sur le même marqueur causal, et, en lesanalysant, on remarque que les distracteurs sont finalement pas si incongrusque cela. L’utilisation de termes lexicaux lors de la recherche des propositionspermet de répondre à une des caractéristique définies lors de la phase d’an-notation, à savoir la correspondance entre le distracteur et le type attendupar le stem.

Voici un autre exemple, qui concerne cette fois les propositions infinitives :(9)What is the objective of the Brazilian National Biodiesel Program ?

(a)to reduce its emissions(b)to accept emission targets before the middle of the century(c)to include more biodiesel in normal diesel fuel(d)to help organisms that act as vectors for diseases, such as

mosquitoes, which transmit dengue fever and malaria, and assassinbugs -LRB- Tripanosomiasis americana -RRB-, which transmit Chagasdisease

(e)to increase the share of these sources to ten per cent

Dans ce cas, nous avons recherché toutes les séquences du texte débutant parla particule to, suivie d’un verbe à l’infinitif et qui ne contient pas d’autrespropositions. Nous remarquons que les distracteurs générés sont égalementplutôt efficaces.

1. Encore une fois, il s’agit d’impressions générales, à considérer avec précaution, donc.

51

Phrases Dans le cas des phrases, le générateur sélectionne toute phrasedéclarative du texte. Parmi les distracteurs générés, nous n’en avons pasrencontrés, ce qui n’est pas surprenant dans la mesure où les réponses auxQCM du corpus que nous avons testé ne sont pas pas repérées comme étantdes phrases. Des analyses plus approfondies doivent encore être menées dansce domaine.

52

Conclusion : apports et limites

Lors de ce stage, nous avons élaboré un générateur automatique de dis-tracteurs dans le cadre de QCM. Cet objectif a été atteint en passant pardeux étapes distinctes : la première consiste en l’annotation d’un corpus d’en-trainement, au terme de laquelle nous avons pu établir une liste de caracté-ristiques des QCM créés manuellement ; la seconde, qui prend appui sur lapremière, consiste en la création du générateur automatique de distracteursen tant que tel.

En l’état, bien qu’il soit fonctionnel, de nombreuses limitations rendentle générateur dépendant d’une vérification manuelle des distracteurs générés.Si la génération de distracteurs de type entité nommée est fonctionnelle et –moyennant quelques ajustements – efficace, la génération de distracteurs sefondant sur une analyse de la structure syntaxique est plus sujette à caution.Nous nous sommes rendus compte que l’analyse syntaxique seule ne nouspermet pas de générer des distracteurs de qualité, surtout dans le cas dessyntagmes.

Des développements ultérieurs d’ordre sémantique restent donc à envisa-ger, en étudiant par exemple le terme-clef du stem ou de la réponse à partirduquel les recherches seront lancées, comme nous l’avons vu dans l’état del’art. Combinée à l’utilisation d’ontologies telles que WordNet, cette approchepermettrait d’ajouter une barrière sémantique à la sélection des distracteurs.Une autre amélioration, syntaxique cette fois, consisterait à établir des de-grés de similarités entre les structures syntaxiques d’une réponse et de sesdistracteurs potentiels. Les règles du fichier regles.xml pourraient égalementsubir quelques améliorations. Et, finalement, il pourrait être intéressant deconjuguer Tsurgeon à Tregex afin de créer des distracteurs combinant à lafois des éléments de la réponse et des éléments des distracteurs extraits dutexte.

En définitive, le générateur que nous avons élaboré répond à l’objectifinitial : la création d’une « brique de base », fonctionnelle et facilement modi-fiable en vue d’améliorations qui seront menées lors du mémoire, qui s’inscritdans la continuité de ce stage.

53

Bibliographie

[Burton et al., 1991] Burton, S. J., Sudweeks, R. R., Merrill, P. F. etWood, B. (1991). How to prepare better multiple-choice test items : Gui-delines for university faculty. Brigham Young University Testing Services.

[Charniak, 1997] Charniak, E. (1997). Statistical parsing with a context-free grammar and word statistics. AAAI/IAAI, 2005:598–603.

[Jurafsky, 2012] Jurafsky, D. (2012). Question answe-ring. http://aiweb.techfak.uni-bielefeld.de/content/bworld-robot-control-software/. [Page consultée en juillet 2013].

[Karamanis et al., 2006] Karamanis, N., Ha, L. A. et Mitkov, R. (2006).Generating multiple-choice test items from medical text : A pilot study.In Proceedings of the Fourth International Natural Language GenerationConference, pages 111–113. Association for Computational Linguistics.

[Lampert, 2004] Lampert, A. (2004). A quick introduction to question ans-wering.

[Lee et Seneff, 2007] Lee, J. et Seneff, S. (2007). Automatic generation ofcloze items for prepositions. In INTERSPEECH, pages 2173–2176.

[Lehnert, 1977] Lehnert, W. G. (1977). A conceptual theory of questionanswering. In Proceedings of the 5th international joint conference on Arti-ficial intelligence-Volume 1, pages 158–164. Morgan Kaufmann PublishersInc.

[Li et Roth, 2002] Li, X. et Roth, D. (2002). Learning question classi-fiers. In Proceedings of the 19th international conference on Computationallinguistics-Volume 1, pages 1–7. Association for Computational Linguis-tics.

[Ligozat, 2006] Ligozat, A.-L. (2006). Exploitation et fusion de connais-sances locales pour la recherche d’informations précises. Thèse de doctorat,Université Paris-Sud 11, Orsay, France.

[Mitkov et al., 2006] Mitkov, R., Ha, L. A. et Karamanis, N. (2006). Acomputer-aided environment for generating multiple-choice test items. Na-tural Language Engineering, 12(2):177–194.

54

[Moldovan et al., 2000] Moldovan, D., Harabagiu, S., Pasca, M., Mi-halcea, R., Girju, R., Goodrum, R. et Rus, V. (2000). The structureand performance of an open-domain question answering system. In Pro-ceedings of the 38th Annual Meeting on Association for ComputationalLinguistics, pages 563–570. Association for Computational Linguistics.

[Rodriguez, 2005] Rodriguez, M. C. (2005). Three options are optimal formultiple-choice items : A meta-analysis of 80 years of research. EducationalMeasurement : Issues and Practice, 24(2):3–13.

[Sundblad, 2007] Sundblad, H. (2007). Question Classification in QuestionAnswering Systems. Thèse de doctorat, Linköping.

[Watson Solomon, 2008] Watson Solomon, N. (2008). The averagesentence length. http://strainindex.wordpress.com/2008/07/28/the-average-sentence-length/. [Page consultée en juillet 2013].

55

Annexe A

Taxonomie de [Li et Roth, 2002]

56

Annexe B

Tableau des types de questions et de réponses ([Moldovan et al., 2000]).

57

Annexe C

Règles de rédaction de QCM selon [Burton et al., 1991]– un item pour un objectif spécifique ;– chaque item correspond à une information spécifiquement marquéedans le stem ;

– placer dans le stem le maximum de l’item, en excluant les informationsnon nécessaires ;

– le stem est de forme positive ;– les alternatives sont clairement énoncées, et de manière concise ;– les alternatives sont mutuellement exclusives ;– les alternatives sont homogènes dans leur contenu ;– les alternatives ne contiennent pas d’indice quant à la réponse correcte ;– la grammaire des alternatives est constante avec le stem ;– les alternatives ont une forme parallèle ;– les alternatives ont une longueur similaire ;– éviter les citations dans les alternatives ;– éviter certaines particules (always, only, never, etc.) dans les alter-natives ;

– éviter les mots-clefs dans les alternatives ;– utiliser des distracteurs plausibles ;

– éviter les alternatives « all of the above » ou « none of the above » ;– utiliser autant de distracteurs fonctionnels que possible ;– inclure une seule bonne réponse ou une réponse clairement meilleurepar rapport aux autres ;

– présenter les bonnes réponses dans toutes les positions des alternatives ;– présenter les items de manière constante et claire ;– utiliser une grammaire, une orthographe et une ponctuation correctes ;– éviter l’utilisation non nécessaire d’un vocabulaire trop complexe ;– analyser les résultats de chaque item après chaque soumission du test.

58

Annexe D

Liste des règles utilisées pour la détection des syntagmes, propositions etphrases sous le logiciel Tregex<regles>

<patrons type="DateIN"><patron id="DateIN1"><![CDATA[PP <(IN<in) <(NP <CD)]]></patron>

</patrons><patrons type="SAdj">

<patron id="SAdjSimple"><![CDATA[ADJP<JJ ?<RB ?<DT ?<CC]]></patron></patrons><patrons type="SV">

<patron id="SVSimple"><![CDATA[VP<VBG<(PP<1IN<2(NP</NNS?/ ?<CC ?<DT?<JJ)!<<S)]]></patron><patron id="GerondifLarge"><![CDATA[VP <VBG]]></patron>

</patrons>étape préalable<patrons type="SAdv">

<patron id="SAdvSimple"><![CDATA[ADVP<RB ?<RBR|RBS]]></patron></patrons><patrons type="SP">

<patron id="SPSimple"><![CDATA[PP<1IN<2(NP</NNS?/ ?<CC ?<DT ?<JJ)!<<S]]></patron>

</patrons><patrons type="SN">

<patron id="SNSimple"><![CDATA[NP</NNS?/?<CC?<DT?<JJ?<RB]]></patron><patron id="SNComplex"><![CDATA[NP<(NP</NNS?/?<CC?<DT?<JJ?<RB)<(PP<IN<(NP</NNS?/?<CC?<DT?<JJ?<RB))]]></patron>

</patrons><patrons type="Pcausale">

<patron id="Pcausale1"><![CDATA[SBAR<(IN<because | <since) <S <(IN!<if)!<RB]]></patron>

</patrons><patrons type="Pinfinitive">

<patron id="Pinfinitive1"><![CDATA[VP <TO <(VP <VB)]]></patron></patrons><patrons type="Phrase">

<patron id="Phrase1"><![CDATA[S]]></patron></patrons>

</regles>

59

Annexe E

Présentation des fichiers contenus dans notre programme

FichiersProgram.plExtract.pmExtractEN.pmGenerationEN.pmGenerationSY.pmQCM_Analysis.jarTregexRules.jarregles.xml

Description et utilisationperl Program.pl <nom_qcm>

ard Le programme s’utilise comme suit :

perl Program.pl <nom\_qcm>.xml

Un fichier <nom_qcm>output.xml est produit, qui contient le texte, lesquestions, les réponses et les distracteurs générés par le programme.

Le fichier d’entrée doit être balisé selon ce format :

<QCM><text></text><questions>

<q q_id="1"><q_str></q_str><answer a_id=’1’ correct="Yes"></answer><answer a_id=’2’></answer></q>

60

</questions></QCM>

Les distracteurs du fichier d’entrée sont facultatifs.

Le programme ne fonctionne que pour la langue anglaise.

Program.pl fait passer le fichier dans QCMAnalysis, qui parse et tague lesentités nommées au moyen des Stanford Parser et Stanford Named EntityRecognition. Il produit en sortie SParser.xml. Ce fichier est ensuite utilisépar TregexRules.jar qui prend en argument Sparser.xml et regles.xml pourproduire STregex.xml, un fichier contenant toutes les structures du textessegmentées selon les règles définies dans regles.xml, à partir du logicielTregex.

Il analyse ensuite la réponse à chaque question : s’il s’agit d’une entiténommée, program.pl fait appel à GenerationEN.pm, qui génère les distrac-teurs pour les réponses de type entité nommée. Si la réponse n’est pas uneentité nommée, program.pl fait appel à GenerationSY.pm, qui génère lesdistracteurs sur la base de la structure syntaxique de la réponse.

Extract.pm est un module permettant de récupérer les questions, ré-ponses, et texte du QCM, afin de les réimprimer dans le fichier de sortienomqcmoutput.xml.

ExtractEN.pm est un module utilisé par GenerationEN.pm.Tous les fichiers doivent se trouver dans un même dossier pour que le

programme puisse fonctionner.

61

Génération automatique de distracteurs dans le cadre de QCM

Education

Transcript of Génération automatique de distracteurs dans le cadre de QCM