Icar2 kelly sofia

2

Click here to load reader

Transcript of Icar2 kelly sofia

Page 1: Icar2 kelly sofia

Première partie "Méthode de recueil des données" : Kelly-Sofia · Constitution d'un corpus d'apprenants en ALMT : considérations techniques et méthodologiques - Cédric Sarré (Université Paris-Sorbonne - ESPE, CELTA EA 3553) Dans cette partie, Cédric Sarré et Ciarra Wigham expliquent comment organiser le recueil de données ainsi que les corpus (quels outils, quelles méthodes?). Tout d’abord, Cédric Sarré aborde la constitution d’un corpus d'apprenants. Il insiste sur le fait que cela ne constitue pas une simple collection de données de corpus oraux mais plutôt un ensemble de données collectées et d’un enrichissement de ces données. De fait, le corpus est un ensemble de données primaires et de données secondaires activement produites par le chercheur. Lors de sa recherche, le contexte dans lequel Sarré a mis en place son dispositif s’inscrivait dans une formation hybride en anglais Langue vivante 2 pour des étudiants en master Sciences du vivant. L’objectif était de développer la compétence interactionnelle en L2 en télécollaboration rassemblant ainsi plusieurs tâches collaboratives et permettant des interactions entre pairs. Quant à l’objectif de recherche, il s’agissait de comparer 3 modes de CMO : le clavardage, la visioconférence et le forum électronique. De ce fait, le recueil de données s’est fait par le biais de données primaires orales et écrites, puis en face à face et enfin en ligne. Lors de ce dispositif, le problème rencontré fut, tout d’abord, le recours à une multiplicité d’outils. En effet, lors de la capture des données écrites du clavardage et du forum, il a fallu recourir à la plateforme de téléformation Dokeos qui donne accès aux données assez facilement. Ensuite, pour le recueil des données orales, la plateforme ne contenant pas d’outil de visioconférence, un outil externe, flashmeeting, a été utilisé. Enfin, pour les données orales récoltées lors du face à face, le caméscope numérique a été utilisé cependant, il faut prendre en compte que la présence de la caméra peut avoir une influence sur le comportement des étudiants, ce qui constitue le paradoxe de l’observateur. Cédric Sarré a aussi évoqué les aspects éthiques importants qui peuvent aussi rajouter des difficultés lors de ce recueil de données. En effet, le consentement éclairé des apprenants est nécessaire, c’est-à-dire qu’ils doivent être informés de la finalité de la recherche et donner leur autorisation avant d’entamer les phases de tests. Là encore, le fait d’informer les apprenants peut avoir une influence sur leur comportement et donc un peu biaiser les résultats. Pour mener à bien cette collecte de données en vue d’un corpus d’apprenant, il faut tenir compte de certains principes. Notamment, en ce qui concerne les données orales, il y a le paradoxe du passage de l’oral à l’écrit pour les transcriptions. Ainsi, un des soucis du chercheur est de savoir quoi transcrire et avec quel niveau de détail. Ce degré de détail lors de la transcription peut varier d’un corpus à l’autre mais il se doit, cependant, d’être fidèle, de garder une cohérence, une granularité ainsi que d’être pertinent. Il est possible de rencontrer un problème de pertinence de la transcription car comme le dit Ochs (1979, Transcription is theory), « transcrire c'est déjà interpréter ». Pour cette collecte, il est bon de suivre des méthodologies qui répondent aux questions à savoir comment, avec quels outils, avec quel degré de détail et s’il s’agit du même degré de détail sur l’ensemble du corpus, s’il faut opter une approche quantitative ou qualitative pour obtenir une transcription plus fine…etc. Pour déterminer le type d’outil que l’on peut utiliser pour le recueil de données, il est nécessaire de considérer plusieurs paramètres tels que le type de données et le logiciel d'alignement.

Page 2: Icar2 kelly sofia

En ce qui concerne cette expérience les objectifs étaient de décrire et représenter à l'écrit les traits de la langue parlée pour faciliter son analyse. Le logiciel utilisé s’appelle EXMARalda. EXMARaLDA est un acronyme de "Extensible Markup Language for Discourse Annotation". Il s'agit d'un système de formats et outils pour la transcription et l'annotation de la langue parlée, et pour la constitution et l'analyse de corpus oraux. EXMARaLDA est développé par le projet "Méthodes computationelles pour la création et l'analyse de données multilingues" au Centre de Recherche "Multilingualisme" (Sonderforschungsbereich "Mehrsprachigkeit" - SFB 538) à l'Université de Hambourg. Tous les composants du système peuvent être téléchargés gratuitement. (http://www.exmaralda.org/fr_index.html et http://icar.univ-lyon2.fr/projets/corinte/confection/exmaralda.htm) Il s’agit d’une suite de trois logiciels qui accomplissent trois fonctions principales : l’édition, la gestion du corpus et la concordance des données. Par ailleurs, le chercheur doit aussi se questionner par rapport aux phénomènes qu’il choisira d’annoter. Il est important de se demander comment assurer la fiabilité de l’annotation. Granger (2002) nous rappelle que l’annotation des erreurs est une approche pertinente mais il s’agit d’une pratique chronophage. Lors de l’annotation, il est nécessaire de ne pas perdre de vue l’enjeu du degré de granularité. Sarré nous explique qu’il est possible de rendre compte d’une évolution au niveau des erreurs commises on mettant en place une catégorisation des erreurs. Il ajoute que la transcription des erreurs peut avoir une influence sur l’annotation des erreurs et sur certains types d'analyse. En conclusion à cette présentation sur la constitution d’un corpus d’apprenants en ALMT, Cédric Sarré a fait part de deux remarques et a proposé trois questions d’ouverture. Par ailleurs, il ne faut pas oublier que la constitution de corpus est une pratique qui est toujours adaptée à l'objectif de la recherche. En questions d’ouverture, il nous propose tout d’abord de réfléchir à la représentativité de ce type de corpus comprenant ainsi la remise en question des limites en termes de volume de textes et le nombre de participants ainsi que le choix d’études longitudinales ou empiriques. Puis, il interroge l’utilité d’une élaboration standard commune pour l’annotation des erreurs et enfin il demande quels pourraient être les incitations et les moyens pour diffuser plus largement les corpus à la communauté.