De la transcription de corpus à l’analyse...

15
De la transcription de corpus à l’analyse interphonologique : enjeux méthodologiques en FLE 1 Isabelle Racine, ELCF, Université de Genève, Suisse Françoise Zay, ELCF, Université de Genève, Suisse Sylvain Detey, SILS, Waseda University, Japon et LiDiFra, Université de Rouen, France Yuji Kawaguchi, Tokyo University of Foreign Studies, Japon Résumé Dans ce travail, nous présentons les enjeux méthodologiques liés à la transcription auxquels nous sommes confrontés dans le projet « Interphonologie du français contemporain », dont l’objectif est de constituer une base de données orales de FLE issues d’apprenants de multiples L1 en ciblant spécifiquement le niveau phonético-phonologique. L’examen des premières données du projet, issues d’apprenants hispanophones et japonophones, souligne l’importance de confronter données et théorie dans une étape préliminaire afin de déterminer le mode et les modalités précises de transcription. Ce travail préalable peut certes paraître coûteux au premier abord, mais constitue une étape essentielle afin d’assurer la qualité des analyses qui seront ensuite effectuées sur le corpus. Abstract In this study, we present the methodological challenges to which we are confronted about data’s transcription in the project “InterPhonology of Contemporary French”. This project aims to build a large multitask phonological corpus of French as a foreign language and consists of data collected from speakers of various L1s using a single methodological protocol. The screening of our first data, collected from Spanish and Japanese learners, raises several questions about the type and modalities of the transcription procedure which should be adopted in the project. Such a methodological pre-analysis is an essential prerequisite to any sound corpus analysis, on which the quality of the transcription can have a non-trivial impact. Introduction Transcrire l’oral n’est jamais tâche aisée, et la difficulté s’accroît lorsque l’on s’intéresse à la dimension phonético-phonologique de la parole en L2. Or, ces dernières années ont vu l’apparition de différents travaux dans ce domaine faisant usage de corpus en L2, notamment avec des apprenants de néerlandais (Neri et al., 2006), de polonais (Cylwik et al., 2009), d’allemand (Gut, 2009) et d’anglais (Gut, 2009 ; Visceglia et al., 2009). Dans le domaine du français langue étrangère (FLE), les corpus ESF 2 (Perdue, 1993), LANCOM 3 (Debrock & Flament-Boistrancourt, 1996) et FLLOC 4 (Myles & Mitchell, 2007) ont servi à alimenter les recherches dans les domaines du lexique, de la (morpho-)syntaxe et de la pragmatique, mais ont largement laissé de côté la dimension phonético-phonologique de l’interlangue des apprenants. Les transcriptions offertes dans le cadre de ces corpus se prêtent donc mal à 1 Nous remercions Sylvie Hanote et Isabelle Girard qui ont relu et commenté le manuscrit. 2 http://www.mpi.nl/world/tg/lapp/esf/esf.html 3 http://bach.arts.kuleuven.be/elicop/ProjetLANCOM.htm 4 http://www.flloc.soton.ac.uk/

Transcript of De la transcription de corpus à l’analyse...

Page 1: De la transcription de corpus à l’analyse ...lidifra.free.fr/files/Racine_Zay_Detey_Kawaguchi_FINAL_201210.pdf · L’examen des premières données ... Le recueil de données

De la transcription de corpus à l’analyse interphonologique : enjeux méthodologiques en FLE1

Isabelle Racine, ELCF, Université de Genève, Suisse Françoise Zay, ELCF, Université de Genève, Suisse Sylvain Detey, SILS, Waseda University, Japon et LiDiFra, Université de Rouen, France Yuji Kawaguchi, Tokyo University of Foreign Studies, Japon Résumé Dans ce travail, nous présentons les enjeux méthodologiques liés à la transcription auxquels nous sommes confrontés dans le projet « Interphonologie du français contemporain », dont l’objectif est de constituer une base de données orales de FLE issues d’apprenants de multiples L1 en ciblant spécifiquement le niveau phonético-phonologique. L’examen des premières données du projet, issues d’apprenants hispanophones et japonophones, souligne l’importance de confronter données et théorie dans une étape préliminaire afin de déterminer le mode et les modalités précises de transcription. Ce travail préalable peut certes paraître coûteux au premier abord, mais constitue une étape essentielle afin d’assurer la qualité des analyses qui seront ensuite effectuées sur le corpus. Abstract In this study, we present the methodological challenges to which we are confronted about data’s transcription in the project “InterPhonology of Contemporary French”. This project aims to build a large multitask phonological corpus of French as a foreign language and consists of data collected from speakers of various L1s using a single methodological protocol. The screening of our first data, collected from Spanish and Japanese learners, raises several questions about the type and modalities of the transcription procedure which should be adopted in the project. Such a methodological pre-analysis is an essential prerequisite to any sound corpus analysis, on which the quality of the transcription can have a non-trivial impact. Introduction

Transcrire l’oral n’est jamais tâche aisée, et la difficulté s’accroît lorsque l’on s’intéresse à la dimension phonético-phonologique de la parole en L2. Or, ces dernières années ont vu l’apparition de différents travaux dans ce domaine faisant usage de corpus en L2, notamment avec des apprenants de néerlandais (Neri et al., 2006), de polonais (Cylwik et al., 2009), d’allemand (Gut, 2009) et d’anglais (Gut, 2009 ; Visceglia et al., 2009). Dans le domaine du français langue étrangère (FLE), les corpus ESF2 (Perdue, 1993), LANCOM3 (Debrock & Flament-Boistrancourt, 1996) et FLLOC4 (Myles & Mitchell, 2007) ont servi à alimenter les recherches dans les domaines du lexique, de la (morpho-)syntaxe et de la pragmatique, mais ont largement laissé de côté la dimension phonético-phonologique de l’interlangue des apprenants. Les transcriptions offertes dans le cadre de ces corpus se prêtent donc mal à

1 Nous remercions Sylvie Hanote et Isabelle Girard qui ont relu et commenté le manuscrit. 2 http://www.mpi.nl/world/tg/lapp/esf/esf.html 3 http://bach.arts.kuleuven.be/elicop/ProjetLANCOM.htm 4 http://www.flloc.soton.ac.uk/

Page 2: De la transcription de corpus à l’analyse ...lidifra.free.fr/files/Racine_Zay_Detey_Kawaguchi_FINAL_201210.pdf · L’examen des premières données ... Le recueil de données

l’étude de ces aspects spécifiques. C’est justement le manque de données de ce type pour le FLE qui a constitué le point de départ du projet « Interphonologie du français contemporain » (IPFC, Detey & Kawaguchi, 2008 ; Racine et al., à paraître), dont le lancement a été suivi récemment par deux autres projets de corpus d’apprenants de FLE : le corpus COREIL (Delais-Roussarie & Yoo, 2010) ainsi que le corpus de Pillot-Loiseau et al. (2010). Dans ce travail, nous présentons les enjeux méthodologiques liés à la transcription auxquels nous sommes confrontés dans le projet IPFC.

1. Le projet IPFC

Le projet IPFC5 s’inscrit dans un champ encore peu exploité dans le domaine de la phonétique-phonologie. Il a pour objectif, d’une part d’examiner des questions d’ordre méthodologique concernant l’articulation entre linguistique de corpus et méthodologie utilisée par la psycholinguistique et, d’autre part, d’élaborer et mettre à disposition une base de données orales de FLE, issues d’apprenants de multiples L1, base constituée pour des analyses phonético-phonologiques. Les données sont récoltées avec un protocole de recueil multitâches unique pour toutes les L1, comparable à celui utilisé dans le projet « Phonologie du français contemporain » (PFC6), (Durand et al., 2002, 2005) en ce qui concerne les tâches, mais dont les modalités ont été adaptées aux apprenants. Basé sur celui du projet PFC, le protocole IPFC vise à établir un ensemble de « points d’enquête », rassemblant des populations d’apprenants de profils linguistiques aussi similaires que possible, d’après les descripteurs du Cadre Européen Commun de Référence pour les Langues (Conseil de l’Europe 2001). Le recueil de données est constitué de six tâches : 1) répétition d’une liste spécifique de mots (lue par un locuteur francophone natif) ; 2) lecture de cette même liste spécifique ; 3) lecture de la liste de mots PFC ; 4) lecture du texte PFC ; 5) entretien avec un locuteur natif ; 6) interaction semi-contrainte entre deux apprenants (pour une description détaillée du protocole, voir Detey et al., 2010).

2. Les premières données

Le projet IPFC a débuté avec la constitution d’un corpus d’apprenants japonophones (IPFC-japonais7) et d’un corpus d’apprenants hispanophones (IPFC-espagnol). Le premier contient, à l’heure actuelle, les données d’une centaine d’apprenants japonophones, de provenance et de niveaux CECRL variés, qui étudient le français à l’Université des Langues Etrangères de Tokyo. Ils n’ont effectué que les tâches de répétition et de lecture des listes de mots ainsi que la lecture du texte, le recueil des conversations étant actuellement en cours. Le corpus IPFC-espagnol comporte, quant à lui, les données de 14 locuteurs hispanophones originaires d’Espagne (région centre) qui étudient le français à l’Université de Genève (contexte homoglotte) et de 6 locuteurs hispanophones d’Espagne étudiant le français à Madrid (contexte hétéroglotte). Ce sont des étudiants avancés (niveau B2-C1 du CECRL) et ils ont effectué les six tâches du protocole. D’autres corpus (IPFC-allemand, IPFC-anglais canadien, IPFC-grec moderne, IPFC-néerlandais et IPFC-norvégien) sont actuellement en cours de constitution.

3. La transcription des données

5 http://cblle.tufs.ac.jp/ipfc/ 6 http://www.projet-pfc.net 7 L’adjectif après le tiret fait référence à la L1 des apprenants.

Page 3: De la transcription de corpus à l’analyse ...lidifra.free.fr/files/Racine_Zay_Detey_Kawaguchi_FINAL_201210.pdf · L’examen des premières données ... Le recueil de données

Bien que nos analyses portent, pour l’instant, sur un nombre restreint de segments phonémiques, nous avons pris la décision de transcrire l’intégralité des données sur une ligne principale orthographique, accompagnée de plusieurs autres lignes d’annotations et de codages. Représenter sur un plan scriptural des données produites oralement est, comme l’ont souligné il y a déjà longtemps Blanche-Benveniste & Jeanjean (1987 : 115), une forme de paradoxe, qui a pour conséquence que le transcripteur se retrouve constamment tiraillé entre « la fidélité à la chose parlée » et « la lisibilité de son rendu à l’écrit ». Ces exigences parfois contradictoires engagent ainsi à prendre des décisions – qui se révèleront parfois déterminantes pour l’utilisation ultérieure du corpus – et à expliciter les conventions utilisées8.

Si la transcription est une étape clé dans la constitution d’un corpus, c’est non seulement

parce qu’elle en conditionne un accès simple et lisible, mais parce qu’elle suppose, comme le rappelle Bilger (2007 : 3) – et comme l’ont montré depuis longtemps les travaux du GARS sur les corpus – « une réflexion à la fois théorique et méthodologique sur les données ». En participant à la construction des faits analysés, la transcription agit comme révélateur de la distance qui peut intervenir entre les productions effectives et les formes langagières interprétées ou comprises. Toute transcription n’est ainsi qu’une représentation limitée de la production orale, qui en efface nombre de paramètres non segmentaux, gestuels, contextuels. En tant que codage écrit, elle passe également par la nécessaire explicitation de certaines ambiguïtés, ou plus exactement de certaines sous-spécifications liées à l’oralité. Elle en est de surcroît une interprétation – non un duplicata –, qui va parfois jusqu’à une sur-interprétation, voire à une reconstruction9 des formes langagières, et ce à différents niveaux. Les études de corpus portant sur la morpho-syntaxe et la syntaxe ont mis en évidence le poids de la tradition grammaticale qui conduit parfois le transcripteur, persuadé d’entendre des éléments absents du signal, à « normaliser » l’énoncé et à ajouter là un « ne » de négation, ici un « que » de subordination ou une forme de subjonctif, par exemple10.

Lorsque le niveau d’analyse visé est phonético-phonologique, la question de la fidélité à ce

qui a été effectivement produit et la question de la notation – ou de la catégorisation – de ces productions se posent de façon d’autant plus cruciale qu’il s’agit de données d’apprenants. Noter orthographiquement des formes « déviantes » comme [ilbyv] pour « ils boivent » ou

[ilapaʁti] pour « il est parti » ne pose pas autant de problèmes que rendre compte de formes

comme [βwaʁ] pour « voir » ou « boire » ou [tɑnt] pour « tante », dont on ne peut pas rendre compte par l’orthographe. Delais-Roussarie (2009 : 4) préconise, dans ce cas, « de transcrire ce qui a été dit » et « d’éviter au maximum de faire des interprétations », ce qui ne va pas forcément de soi. En effet, lorsque les systèmes phonologiques des deux langues impliquées diffèrent, la transcription passe obligatoirement par un certain degré d’interprétation des formes produites, interprétation qui n’est pas volontaire mais qui est simplement due à la reconstruction perceptive effectuée par le transcripteur qui « filtre » automatiquement les données à travers son propre système (Troubetzkoy, 1939 ; Segui & Ferrand, 2001). Ainsi, tout auditeur a non seulement tendance à attribuer les propriétés de sa propre langue à un

8 Ces conventions doivent être respectées par l’ensemble des transcripteurs et il est, comme le souligne Delais-Roussarie (2009), impératif de les diffuser avec les données afin d’en permettre une exploitation adéquate. 9 Cette sur-interprétation ou cette reconstruction des faits en fonction des attentes – et des normes – de l’auditeur est souvent un écueil dans tout corpus, et parfois une nécessité, notamment dans les corpus de jeunes enfants, où « savoir ce qui est dit » relève parfois de la gageure (cf. Morgenstern & Parisse, 2007), ce qui s’applique également aux corpus d’apprenants non natifs. 10 La réflexion sur l’édition des corpus a été initiée en France par les travaux du GARS, elle est rendue d’autant plus nécessaire aujourd’hui par la volonté de développer de grands corpus oraux. Pour une synthèse sur les difficultés liées à la transcription, voir Cappeau (2008).

Page 4: De la transcription de corpus à l’analyse ...lidifra.free.fr/files/Racine_Zay_Detey_Kawaguchi_FINAL_201210.pdf · L’examen des premières données ... Le recueil de données

énoncé en L2 mais il est également « sourd » aux propriétés de cette autre langue. Ce filtrage automatique par la L1 se reflète d’ailleurs dans la chute drastique du taux de concordance entre transcripteurs lorsqu’il s’agit de données non natives. Dans une étude récente, Zechner (2009) a en effet montré que, si le taux de désaccord entre transcripteurs est en moyenne de 5% dans le cas de données natives, il s’élève fortement (entre 10 et 34%) dès qu’il s’agit de données d’apprenants.

Ainsi, le paradoxe mentionné par Blanche-Benveniste & Jeanjean (1987) est encore plus

manifeste lorsqu’il s’agit de transcrire des données non natives pour analyser des aspects phonético-phonologiques. On peut se demander d’une part comment rendre compte des formes « déviantes » produites par les apprenants et ce, tout en respectant le principe de lisibilité énoncé ci-dessus et, d’autre part, si un système comme l’Alphabet Phonétique International (API) est suffisant pour offrir un reflet fidèle de la production de l’apprenant, fidélité nécessaire à une description de l’interphonologie.

4. Le niveau orthographique

La question de la transcription orthographique a été souvent et longuement débattue : entre notation orthographique standard, orthographe aménagée, utilisation de symboles phonétiques, le choix se porte le plus souvent sur l’orthographe standard, qui permet d’assurer la lisibilité et la simplicité d’un corpus. Rappelons cependant que l’orthographe est à la fois un outil de transcription et un outil de modélisation ou d’abstraction : elle propose une correspondance phonie-graphie, mais aussi une représentation abstraite des formes morphologiques. Cela peut poser des problèmes spécifiques dans les corpus de parole non native lorsque l’apprenant produit des formes « déviantes », catégorisables ici en quatre types.

Il peut s’agir d’abord de séquences totalement inintelligibles dans lesquelles les suites

phonémiques ne peuvent être identifiées avec certitude, et ce indépendamment d’éventuels problèmes de qualité sonore de l’enregistrement ou de chevauchement de parole. Le caractère incompréhensible de la séquence est alors, comme dans les corpus de parole native, noté au moyen d’un « X » (autant de symboles que de syllabes incompréhensibles perçues). Il peut s’agir ensuite d’une forme phonétiquement identifiable, mais qui ne correspond à aucune forme lexicale de la langue cible, ou d’une séquence non segmentable dans la langue cible. Mis à part le fait qu’on pourrait leur donner une représentation phonétique, ces séquences sont tout aussi inintelligibles que les premières. Le troisième cas concerne des formes caractérisées comme intelligibles mais déviantes : elles sont identifiées comme des réalisations phonétiques et/ou morphologiques approximatives ou erronées d’une forme lexicale existante dans la langue cible. Enfin apparaissent aussi des séquences phonétiquement identifiables, mais formellement ambiguës, pour lesquelles deux ou plusieurs interprétations morphologiques sont possibles.

Ce sont ces deux derniers cas qui devront entraîner des choix raisonnés concernant la

transcription. Quelles que soient les décisions prises, elles se devront d’être explicitées et cohérentes dans l’ensemble du corpus, et devront également tenir compte du type de tâche accomplie par l’apprenant (lecture ou parole spontanée).

4.1 Réalisations phonétiques déviantes d’une forme morphologique identifiée

Prenons l’exemple de la séquence [lemɛʁ] produite par un apprenant hispanophone. Hors

contexte, et sachant que cet apprenant neutralise le plus souvent l’opposition /e ɛ ə/, la

Page 5: De la transcription de corpus à l’analyse ...lidifra.free.fr/files/Racine_Zay_Detey_Kawaguchi_FINAL_201210.pdf · L’examen des premières données ... Le recueil de données

séquence est potentiellement ambiguë : le déterminant pourrait être un article singulier « mal prononcé » tout autant qu’un pluriel. En fait, la séquence étant produite dans une tâche de lecture, il ne fait pas de doute que le lecteur encode bel et bien un singulier – « le maire » –, qui doit donc être conservé en tant que tel dans la transcription orthographique, et qui sera éventuellement annoté comme particularité de prononciation à un niveau phonétique.

Si le document oral à transcrire est issu d’une tâche de lecture, l’impact de la

méconnaissance de la morphologie de la langue cible semble pouvoir être interprété comme minime dans la majorité des cas. Ainsi, dans la séquence « le premier Ministre » lue [lepʁəmjɛʁministʁ], la transcription orthographique reprendra la cible encodée « premier » au masculin. Dans cette situation, il pourrait être tentant de rendre compte de la réalisation phonétique effective en utilisant la notation orthographique « première ». Mais penser que l’apprenant ne maîtrise pas la distinction masculin/féminin et utilise une forme du féminin revient à qualifier négativement les compétences linguistiques de l’apprenant et à mettre en relief une supposée incohérence morphologique (inconsistance entre l’article et l’adjectif), sans refléter la problématique de l’apprentissage difficile des correspondances graphie-phonie en français. Il est à noter d’ailleurs que ce type d’erreurs liées à la lecture ne se retrouve pas forcément dans les productions spontanées des apprenants.

En parole spontanée, de nombreux exemples posent de manière plus délicate encore la

question de savoir si la transcription orthographique reflète l’interprétation de celui qui transcrit ou l’intention – plus exactement l’encodage – du locuteur. Ainsi, dans la séquence [ilaʁəvny], la notation orthographique devra forcément résulter d’un choix conscient du transcripteur : s’agit-il d’un cas de généralisation de l’auxiliaire avoir au passé composé (et dans ce cas, la séquence sera transcrite il a revenu), ou s’agit-il d’une réalisation phonétique trop ouverte de la voyelle /ɛ/, et dans ce cas, on pourra transcrire il est revenu, avec un commentaire sur la prononciation inadéquate de la forme « est » qui en fait un homophone de la forme « a » ? En l’occurrence, seule l’apparition récurrente, dans le même corpus, de formes comme il s’a rendu, il a parti, etc. a permis de trancher en faveur de la première hypothèse.

4.2 Ambiguïtés

Prenons le cas de la séquence [leʃwa] produite par le même apprenant, qui présente

apparemment le même phénomène que [lemɛʁ], mais dans une conversation spontanée. Le

contexte plus large de l’énoncé – Il y avait le français et l’anglais c’était [leʃwa] on pouvait choisir – ne permet pas a priori de décider si le locuteur cible un article pluriel (en ce cas, sa prononciation est correcte) ou un article singulier (et en ce cas, elle ne l’est pas). Et, selon que l’auditeur est familiarisé ou non avec l’accent de l’apprenant, l’interprétation qu’il fera de cette séquence pourra autant élire un singulier qu’un pluriel, et risquer un choix arbitraire. Du coup, la transcription orthographique devra rendre compte de cette ambiguïté par une notation multiple (le/les choix), correspondant à une double cible phonologique /lə/ – /le/ mais à une

seule réalisation phonétique [le]. Les complications surgissent lorsque l’identification, à la fois phonétique et

morphologique, devient problématique et que les multi-transcriptions forcent quand même à opérer des choix hasardeux. Ainsi, selon les transcripteurs, une même séquence a-t-elle pu

Page 6: De la transcription de corpus à l’analyse ...lidifra.free.fr/files/Racine_Zay_Detey_Kawaguchi_FINAL_201210.pdf · L’examen des premières données ... Le recueil de données

être transcrite « je l’ai revue et je lui ai donné les (transcriptions) »11, avec une notation qui reflète le décodage normalisé de l’auditeur. Mais la séquence réellement prononcée [ʒəlaʁəvy

eʒəledɔne] pousse à s’interroger sur la réalité de l’encodage des formes par l’apprenant : le

premier auxiliaire « avoir » est-il mal prononcé (/e/ mal ciblé qui se réalise par [a]), ou l’erreur se situe-t-elle au niveau de la morphologie (a revu, corrigé ensuite dans ai donné) ? Le deuxième pronom reflète-t-il un usage généralisé du pronom direct ou une réduction articulatoire du pronom indirect ? On peut même se demander si, dans la première proposition, le verbe est vraiment au passé composé (« je l’a revue ») ou s’il s’agit d’une forme erronée de passé simple, précédé du pronom personnel non élidé (« je la revus »). Se poser ce type de questions et recourir à des transcriptions multiples n’est pas anodin, car la transcription orthographique normalisée, jouant le rôle de filtre, reflète potentiellement moins les connaissances grammaticales effectives de l’apprenant que celles que l’auditeur lui prête – ou ne lui prête pas.

4.3 Réalisations phonétiques non problématiques et adaptations orthographiques

L’exemple ci-dessous illustre un autre phénomène de recours à la multi-transcription : « les gens […] ils habitent […] ils ne connaient pas / il ne connaît pas ». La réalisation phonétique non ambiguë du passage souligné en gras peut être interprétée de deux manières : soit l’apprenant conserve le même référent pluriel (les gens… ils… ils…) et on peut considérer qu’il régularise le présent du verbe connaître sur le modèle du verbe habiter, où la 3ème personne du singulier et la 3ème personne du pluriel sont oralement indifférenciées. C’est cette interprétation que reflète la première transcription, qui ne peut être considérée comme un « trucage » orthographique mais plutôt comme la notation orthographique « standard » d’une forme morphologique non standard. Soit on envisage avec la deuxième transcription qu’il y a eu passage inopiné d’un référent pluriel à un référent singulier (correspondant à un collectif), modification qui peut se retrouver aussi chez des francophones, mais qui s’explique d’autant mieux chez cet apprenant hispanophone que le mot correspondant « la gente » est singulier en espagnol.

On voit donc que, dans nos corpus d’apprenants, le recours à la multi-transcription n’est

pas uniquement motivé par des situations d’homophonie, des hésitations et/ou des désaccords entre transcripteurs : les transcriptions multiples sont révélatrices du fait qu’une séquence phonétique émanant d’un locuteur dont la prononciation est considérée comme déviante ou incertaine peut être envisagée, soit comme résultant d’un encodage morphologiquement correct mais phonétiquement approximatif, soit comme manifestant une réalisation phonétiquement bien ciblée mais morphologiquement ou grammaticalement irrégulière. Et il nous paraît important qu’une transcription orthographique servant de porte d’entrée aux données d’apprenants ne régularise pas à outrance les formes produites, en fonction des normes et des attentes du transcripteur.

4.4 Transferts lexicaux et alternances codiques

Mentionnons pour clore ce bref panorama des cas ambigus, les problèmes – parfois épineux – que posent dans nos données de FLE les phénomènes de transferts de la L1, plus ou moins adaptés au système de la L2. Utiliser les correspondances graphies-phonies de la L1 pour les cas d’alternance codique (retour à la L1) semble aller de soi. On transcrira par exemple « le

11 Selon le contexte, le référent du pronom « l’ » ou « lui » est une femme.

Page 7: De la transcription de corpus à l’analyse ...lidifra.free.fr/files/Racine_Zay_Detey_Kawaguchi_FINAL_201210.pdf · L’examen des premières données ... Le recueil de données

niño » si le locuteur intègre le lexème espagnol et son phonétisme propre dans ses propos en français, en traduisant éventuellement en note le lexème « étranger ».

Les interférences ne sont pas toujours aussi clairement identifiables. Ainsi, par exemple,

dans la séquence [lənɔbʁdənɔnbudist sɛmintʃi], il a fallu le contexte large de l’énoncé pour comprendre que l’apprenant parlait du « nom » d’une nonne bouddhiste, Min Tchi. On se trouve dans ce cas face à un cas de transfert lexical (nombre prononcé normalement en espagnol [nombɾe] signifiant « nom ») avec adaptation au système phonologique de la L2 et donc confusion avec le mot « nombre » du français. Ici, lexique L1 et phonologie L2 caractérisent de façon assez surprenante ce phénomène d’interlangue, dont la transcription orthographique « le nombre (= nom) de nonne bouddhiste » peine à rendre compte.

4.5 Entre données et analyses

Il peut paraître surprenant de s’interroger aussi longuement sur les critères et les conventions qu’une transcription orthographique intégrale de nos données d’apprenants requiert, alors que le niveau d’analyse visé est d’ordre phonémique. Intervient bien sûr l’obligation de réaliser une transcription soignée si l’on veut, à terme, que d’autres chercheurs puissent avoir accès au corpus, ou si l’on souhaite réaliser des analyses d’un autre ordre sur ces données : on sait bien que toute exploitation ultérieure du corpus passera le plus souvent par une lecture de la transcription – même si la technologie qui associe facilement maintenant fichier sonore et transcription permet en tout temps de « revenir à la source ». La transcription de nos données d’apprenants avancés peut, dans la plupart des cas, être réalisée au moyen de l’orthographe standard, sans entremêler symboles phonétiques et code orthographique, ce qui permet une meilleure lisibilité et facilite la compréhension globale. Au-delà de cette exigence purement externe, la transcription oblige d’emblée à considérer que le corpus est constitué non de portions de réalité brute, mais de données interprétées, reconstruites. Les questions ainsi posées sur les conventions de la transcription orthographique, qui ont parfois une incidence directe sur la prise en compte ou non d’un fait dans nos analyses – selon qu’il est interprété au plan phonétique ou au plan morphologique – obligent à pousser la réflexion sur la façon dont sont traitées les « déviances » en L2.

5. Le niveau phonético-phonologique

Si la question de la transcription orthographique a été souvent et longuement débattue, celle de la transcription phonétique l’a en revanche été beaucoup moins. Les chercheurs qui s’y sont attelés sont unanimes : il s’agit d’une tâche extrêmement coûteuse en temps, fastidieuse et qui requiert des compétences spécifiques (cf. Gut, 2009 ; Makino, 2007 ; Wester et al., 2001). Le principal problème que pose une transcription phonétique manuelle est celui de la subjectivité. Wester et al. (2001 : 378) mentionnent différents travaux qui ont révélé, sur de la parole native, des différences considérables non seulement inter- mais également intra-transcripteur, lorsque la transcription est effectuée à différents moments ou dans des conditions qui ne sont pas exactement les mêmes. Ils relèvent que la solution adoptée pour remédier à cela est généralement de recourir à plusieurs transcripteurs, ce qui contribue à alourdir encore la tâche.

Cette subjectivité peut être expliquée par le fait que la transcription phonétique, au même

titre que la transcription orthographique, constitue une représentation abstraite de la réalité et qu’elle passe par une double étape de catégorisation. En effet, d’une part, la parole effectivement produite est « filtrée » automatiquement par le système perceptif du

Page 8: De la transcription de corpus à l’analyse ...lidifra.free.fr/files/Racine_Zay_Detey_Kawaguchi_FINAL_201210.pdf · L’examen des premières données ... Le recueil de données

transcripteur, ce qui va aboutir à une reconstruction perceptive – rappelons ici que cette étape revêt une importance particulière lorsqu’il s’agit de parole non native. D’autre part, si la transcription phonétique est effectuée par le biais d’un alphabet phonétique, celui-ci va fonctionner également comme une sorte de « filtre » de par le nombre fini d’unités qu’il contient. Ce sont ces deux problèmes, à savoir la reconstruction perceptive obligatoire effectuée par le transcripteur ainsi que les éventuelles limites d’un système tel que l’API, qui vont être discutés ci-dessous sur la base d’illustrations tirées du corpus IPFC-espagnol.

5.1. Reconstruction perceptive effectuée par l’oreille native Afin d’illustrer le premier problème, prenons un exemple produit par l’une des apprenantes hispanophones, extrait du début de la lecture du texte PFC :

Jusqu'ici les seuls titres de gloire de Beaulieu étaient son vin blanc sec, ses chemises en soie,

un champion local de course à pied (Louis Garret), quatrième aux jeux olympiques de Berlin en 1936, et plus récemment, son usine de pâtes italiennes.

Lorsque l’apprenante prononce la séquence que nous avons indiquée en gras ci-dessus, on

remarque d’emblée la confusion /ʒ, j/ dans « jeux » ainsi que l’assourdissement de la

consonne de liaison qui en résulte. Elle produit donc « aux jeux » [osjsjsjsjø]. La consonne de liaison entre « jeux » et « olympiques » est également assourdie et les deux dénasalisations de la voyelle nasale /ɛ/ – produit [im] dans « olympiques » et [in] dans « Berlin » – sont

clairement identifiables. Par contre, la réalisation particulière du /b/ initial de « Berlin » est susceptible de passer complètement inaperçue au premier abord. Or, un examen visuel et acoustique de l’oscillogramme et du spectrogramme de la séquence « de Berlin » – signal présenté dans la Figure 1 ci-dessous – permet de constater d’une part que la barre d’explosion du /b/ initial de « Berlin » n’est pas présente et, d’autre part, que ce qui devrait être le silence correspondant à la tenue avant l’explosion de toute consonne occlusive est bruité et se rapproche davantage de ce que l’on peut observer lors de la production d’une fricative.

Figure 1 : signal sonore de la séquence « de Berlin » produite par une apprenante hispanophone.

L’oscillogramme (en haut) et le spectrogramme (en-dessous) sont alignés pour chaque phonème avec la transcription en SAMPA sous Praat (Boersma & Weenink, 2009).

Page 9: De la transcription de corpus à l’analyse ...lidifra.free.fr/files/Racine_Zay_Detey_Kawaguchi_FINAL_201210.pdf · L’examen des premières données ... Le recueil de données

Si l’on compare cette réalisation avec le /b/ de la séquence « à Beaulieu », produit par la même locutrice un peu plus loin dans le texte lu, la différence est frappante. Dans l’oscillogramme, on voit très clairement l’énergie dégagée par le relâchement de l’air lors de la phase d’explosion, visualisée dans le spectrogramme par la présence de la barre d’explosion. On observe aussi dans le spectrogramme un vrai silence – non bruité – correspondant à la tenue précédant l’explosion. Il s’agit cette fois d’une occlusive bilabiale sonore, ce qui se vérifie également à l’écoute.

Figure 2 : signal sonore de la séquence « à Beaulieu » produite par la même apprenante

hispanophone. On peut par conséquent en conclure que cette apprenante possède deux réalisations pour le

phonème-cible /b/ du français : une occlusive bilabiale sonore et une réalisation plus fricative et sans explosion, ce qui n’est pas surprenant si l’on tient compte de ce qui se passe en espagnol. En effet, dans cette langue, les consonnes occlusives sonores /b, d, ɡ/ ont des réalisations différentes selon les contextes :

- /b/ et /g/ se prononcent [b] et [ɡ] lorsqu’elles se trouvent juste après une pause ou une

consonne nasale et /d/ est réalisé [d] lorsqu’il est situé juste après une pause, une consonne nasale ou une consonne latérale.

- Dans tous les autres contextes, /b, d, ɡ/ sont réalisés [β, ð, ɣ] (Quilis, 1993 ; Gil Fernández, 2007).

Ainsi, si notre apprenante transfère la règle de l’espagnol au français lorsqu’elle réalise le /b/ initial de la séquence « de Berlin » puisqu’elle produit la spirante12 [β], elle ne l’applique pas dans la séquence « à Beaulieu », qui constitue pourtant un contexte identique13. Un examen plus large de notre corpus montre que l’interférence entre [b, β] observée dans cet exemple est également présente dans les réalisations des deux autres occlusives sonores (interférences [d, ð] et [ɡ, ɣ]). Ces interférences apparaissent chez tous nos locuteurs à des degrés variés et ne sont pas limitées aux tâches de lecture.

Cet exemple illustre les difficultés, au niveau de la transcription phonétique fine, liées à la

reconstruction perceptive effectuée inconsciemment par le(s) transcripteur(s). En effet,

12 Ce terme renvoie à une forme atténuée qui peut être une fricative ou une approximante (Face & Menke, 2009).

13 Il faut toutefois ici prendre en compte également la dimension lexicale. En effet, « Berlin » est également une forme lexicale orthographique espagnole (hormis l’accent « Berlín »), alors que « Beaulieu » ne l’est pas.

Page 10: De la transcription de corpus à l’analyse ...lidifra.free.fr/files/Racine_Zay_Detey_Kawaguchi_FINAL_201210.pdf · L’examen des premières données ... Le recueil de données

lorsque l’on écoute la séquence « à Berlin », la consonne initiale du mot « Berlin » est produite [β], réalisation qui ne fait pas partie du système phonologique du français qui lui, possède une occlusive bilabiale sonore [b] et une fricative labiodentale sonore [v]. Puisque l’on sait que le système de la L1 influence la perception en L2, on peut donc se demander comment la réalisation [β] sera catégorisée par un transcripteur francophone natif : va-t-il la percevoir comme une réalisation de /b/ et, dans ce cas, ne pas remarquer cette interférence et, par conséquent, ne pas la signaler dans la transcription phonétique fine ? Ou va-t-il percevoir la friction et dans ce cas l’apparenter davantage à un /v/ et la signaler comme une réalisation déviante ? A cela vient s’ajouter le fait qu’en espagnol, comme le mentionne Quilis (1993), les réalisations des consonnes [β, ð, ɣ] semblent se situer sur un continuum allant d’une constriction proche de celle des occlusives à une ouverture proche de celle des voyelles et que, selon Piñeros (2002), le degré de friction de ces consonnes varie en fonction du débit et de l’attention portée à la parole. Il semble donc que chaque occurrence de /b/, /d/, /g/ nécessite un examen attentif, basé à la fois sur l’écoute mais également sur une analyse du signal sonore.

Ainsi, la difficulté présentée dans l’exemple « de Berlin » réside uniquement dans le

repérage de cette forme comme une forme déviante. Une fois identifiée, la forme ne pose pas de problème particulier puisqu’il y a concordance des deux transcripteurs qui l’ont examinée : ils ont tous deux perçu une spirante bilabiale, ce qui est confirmé par l’examen visuel du signal sonore. Cette réalisation peut être transcrite avec l’API, en utilisant le symbole phonétique de la spirante espagnole [β].

5.2. Désaccords entre transcripteurs Le deuxième exemple illustre un cas où la reconstruction phonémique conduit à un désaccord entre les transcripteurs. Dans la tâche de répétition de mots, l’une des apprenantes a produit « adorer » avec une réalisation du /R/14, qui, à l’écoute, a été catégorisée comme /ɡ/ par l’un des transcripteurs, alors que le deuxième a perçu un /R/. L’examen du signal sonore – présenté dans la Figure 3 – permet d’exclure qu’il s’agit d’un /ɡ/ puisqu’il n’y a pas de barre d’explosion, caractéristique d’une occlusive. Par contre, il ne permet pas de trancher entre la spirante [ɣ] – susceptible d’être perçue comme une réalisation de /ɡ/, tout comme [β] était

perçue comme une réalisation de /b/ dans le premier exemple – et [ʁ].

14 Conformément à Lyche (2010), nous utilisons ce symbole, qui n’appartient pas à l’API, pour désigner un segment sous-spécifié renvoyant aux diverses réalisations possibles en français (par exemple [ʁ, χ, r]).

Page 11: De la transcription de corpus à l’analyse ...lidifra.free.fr/files/Racine_Zay_Detey_Kawaguchi_FINAL_201210.pdf · L’examen des premières données ... Le recueil de données

Figure 3 : signal sonore du mot « adorer » produit par une apprenante hispanophone dans la tâche

de répétition de mots. Cette interférence entre [ɣ] et [ʁ] est aisément explicable si l’on examine le système

phonologique de la L1 et de la L2. En effet, pour réaliser le /R/ français, les hispanophones doivent modifier à la fois le mode et le lieu d’articulation par rapport au /r/ espagnol, qui est une vibrante alvéolaire réalisée [ɾ] lorsqu’elle est orthographiée avec un seul <r> et [r] lorsqu’elle s’écrit avec double <r> (Gil Fernández, 2007). Or, les hispanophones disposent d’une réalisation avec un lieu d’articulation proche du /R/ français, le [ɣ]. Selon Companys

(1966), pour acquérir le [ʁ], l’apprenant peut donc s’appuyer sur la catégorie [ɣ] et tenter de

reculer le point d’articulation, ce qui est susceptible de générer des interférences entre [ɡ, ɣ,

ʁ]. Ainsi, dans ce deuxième exemple, si l’examen du signal sonore permet de réduire

l’ambiguïté de trois ([ɡ, ɣ, ʁ]) à deux possibilités ([ɣ, ʁ]), il ne permet cependant pas de

trancher entre les deux réalisations avec friction ([ɣ, ʁ]). Dans ce cas-là, la solution la plus plausible serait d’avoir recours à la multi-transcription également au niveau phonétique et de transcrire [adɔɣe/adɔʁe], ce qui permet d’éviter un choix hasardeux.

5.3. Les limites de l’API

Les deux premiers exemples montraient des cas dans lesquels une transcription phonétique fine par le biais de l’API était toujours possible en ayant recours aux symboles de la L1 des apprenants. Or, ce n’est pas toujours le cas, comme le montre l’exemple suivant : dans la tâche de conversation guidée, l’un des apprenants hispanophones a produit la séquence « J’ai trente-trois ans », sans liaison entre « trois » et « ans », et dans laquelle le mot « ans » n’est pas identifiable s’il est isolé, mais est facilement interprété grâce au contexte. Dans le cas des voyelles nasales, l’examen du signal n’est pas d’un très grand secours puisqu’il permet uniquement de déterminer la présence éventuelle d’une consonne postvocalique (consonantisation) ou d’une diphtongaison de la voyelle produite, mais ne fournit aucune information concernant son timbre.

Cet exemple pose donc deux problèmes : d’une part, si l’on transcrit la séquence

orthographiquement d’abord, on risque de passer à côté de la réalisation particulière de cette

Page 12: De la transcription de corpus à l’analyse ...lidifra.free.fr/files/Racine_Zay_Detey_Kawaguchi_FINAL_201210.pdf · L’examen des premières données ... Le recueil de données

voyelle nasale. En effet, étant donné que le contexte permet assez aisément de reconstruire la forme « ans », il induit un biais. D’autre part, même si elle est identifiée comme une forme déviante, il paraît très difficile de rendre compte de cette réalisation particulière, impossible à pré-catégoriser phonémiquement, au moyen de l’API. L’analyse que nous avons effectuée sur la qualité de la réalisation des voyelles nasales (/ɛ/, /ɔ/, /ɑ/) par les apprenants avancés hispanophones et japonophones15 confirme les observations faites à partir de l’exemple ci-dessus : la grande majorité des réalisations de ces voyelles ne peuvent que très difficilement être transcrites au moyen de l’API, même dans sa forme étendue avec diacritiques, car elles n’appartiennent à aucune catégorie phonémique, ni de la L1 ni de la L2. Conclusion La subjectivité induite par la double catégorisation effectuée, d’une part de manière automatique et inconsciente par l’oreille du ou des transcripteur(s) et, d’autre part, par la représentation catégorielle imposée par l’usage de tout alphabet phonétique, pose par conséquent un certain nombre de problèmes. Les conclusions suivantes s’imposent, suite à l’examen des trois exemples proposés ci-dessus.

Premièrement, pour être en mesure de fournir une analyse pertinente des réalisations des

apprenants, il ne semble effectivement pas possible – comme le relevait Wester et al. (2001) – d’éviter le recours à plusieurs transcripteurs. En outre, il semble indispensable que ceux-ci – s’ils ne sont pas bilingues – connaissent le système phonologique de la L1 de l’apprenant et les règles qui le régissent. Cette base théorique permet de repérer des occurrences qui, sans ces connaissances, seraient passées inaperçues car réattribuées à une catégorie de la langue cible par le système perceptif des transcripteurs.

Deuxièmement, à cause de ce « filtrage » perceptif, l’analyse des productions des

apprenants ne peut être réalisée uniquement sur une base auditive ; le recours à la représentation du signal sonore semble indispensable car elle permet de visualiser la présence/absence de certains paramètres tels que la barre d’explosion ou la présence de friction par exemple. Toutefois, si le signal sonore constitue une aide précieuse, il ne permet pas de résoudre toutes les ambiguïtés. Dans les cas où il y a désaccord entre les transcripteurs, le recours à la multi-transcription permet d’éviter de prendre une décision immédiate sur un phénomène où la réalisation de l’apprenant semble justement se situer dans une zone frontière sur le plan de la catégorisation phonémique. Ces occurrences sont, selon nous, particulièrement intéressantes et doivent rester aisément repérables dans notre corpus. Elles permettront, à terme, d’élaborer un inventaire des éléments susceptibles de poser des problèmes perceptifs à l’oreille native. La catégorisation phonémique de ces unités par des natifs devra ensuite être examinée plus en détail, et à plus large échelle, par le biais de tests perceptifs effectués par des sujets non spécialistes. Ceux-ci comprendront à la fois l’identification du phonème ciblé ainsi qu’un indice du degré de représentativité de l’élément perçu comme membre d’une catégorie donnée16.

Troisièmement, si l’on reprend les observations présentées précédemment sur la séquence

« quatrième aux jeux olympiques de Berlin en 1936 » (cf. section 5.1), on constate que, sur un total de douze mots, six formes déviantes sont identifiables (la confusion /ʒ, j/ dans « jeux »,

15 Pour une description détaillée, voir Detey et al. (2010) ; Racine et al. (2010). 16 Pour des détails sur la procédure expérimentale, voir Strange et al. (2005), et pour un exemple de ce type de travail sur les voyelles nasales, voir Racine et al. (2010).

Page 13: De la transcription de corpus à l’analyse ...lidifra.free.fr/files/Racine_Zay_Detey_Kawaguchi_FINAL_201210.pdf · L’examen des premières données ... Le recueil de données

deux occurrences d’assourdissement de la consonne de liaison, deux occurrences de dénasalisation de /ɛ/ et la spirantisation17 du /b/ initial de « Berlin »). Or, chacune de ces formes mériterait d’être reportée dans une transcription phonétique fine. Il faut dès lors se rendre à l’évidence : envisager une transcription complète de ce type pour l’ensemble de notre corpus n’est tout simplement pas envisageable. Un centrage sur un petit nombre de phénomènes qui feront l’objet d’une transcription phonétique fine basée à la fois sur l’information acoustique et un examen visuel du signal sonore, semble donc constituer un objectif beaucoup plus réaliste.

Enfin, l’usage de l’API – ou de tout autre alphabet phonétique – implique également un degré de catégorisation qui accorde beaucoup de poids à l’oreille native des transcripteurs, avec tous les problèmes de fiabilité et de discordance que cela induit. Un système de codage numérique basé sur le paramétrage de certains traits permettrait d’éviter d’attribuer une catégorie phonémique à une réalisation dont l’appartenance à une catégorie phonémique donnée est justement problématique. Toutefois, ce type de codage est coûteux et il implique donc de se focaliser sur un nombre limité de phénomènes dans l’analyse de l’interphonologie des apprenants.

La transcription des données n’est ainsi ni une simple tâche de transposition de l’oral à

l’écrit, ni une tâche simple d’alignement du son avec un certain nombre de symboles mais représente une phase d’analyse préliminaire et un travail d’édition dont l’ampleur est souvent sous-estimée18 . Confronter données et théorie dans un va-et-vient qui peut sembler, à première vue, coûteux en temps et en efforts nous semble cependant constituer une étape indispensable si l’on souhaite assurer la qualité des analyses qui seront ensuite effectuées sur la base du corpus.

Références BILGER, Mireille, 2007, « Réflexions sur un obscur objet de désir : le corpus ». Cahiers de

l’Association for French Language Studies, (e-journal), vol. 13-1, 2-17. BLANCHE-BENVENISTE, Claire & JEANJEAN, Colette, 1987, Le français parlé. Edition et

transcription, Paris, Didier-Erudition. BOERSMA, Paul & WEENINK, David, 2009, Praat : doing phonetics by computer (version 5.0),

http://www.praat.org. CAPPEAU, Paul, 2008, « Perception et reconstruction », in M. BILGER (éd.), Données orales :

les enjeux de la transcription, Perpignan, PUP, 235-247. COMPANYS, Emmanuel, 1966, Phonétique française pour hispanophones, Paris,

Hachette/Larousse. CYLWIK , Natalia, WAGNER, Agnieszka & DEMENKO, Grażyna, 2009, « The EURONOUNCE

corpus of non-native Polish for ASR-based Pronunciation Tutoring System », Proceedings of SlaTE 2009 – 2009 ISCA Workshop on Speech and Language Technology in Education, Birmingham, UK.

DEBROCK, Mark & FLAMENT-BOISTRANCOURT, Danièle, 1996, « Le corpus LANCOM : bilan et perspectives », ITL – Review of Applied Linguistics, 111-112, 1-36.

DELAIS-ROUSSARIE, Elisabeth, 2009, Conventions CHAT de Transcription des données, Document interne, BDD Interlangue, janvier 2009.

17 Terme utilisé par exemple par Zampini (1994) pour qualifier cette règle allophonique de l’espagnol. 18 Ce travail d’édition de corpus est comparable à celui de l’édition d’un ouvrage (Cappeau, communication personnelle).

Page 14: De la transcription de corpus à l’analyse ...lidifra.free.fr/files/Racine_Zay_Detey_Kawaguchi_FINAL_201210.pdf · L’examen des premières données ... Le recueil de données

DELAIS-ROUSSARIE, Elisabeth & YOO, Hi-Yon, 2010, « The COREIL corpus : a learner corpus designed for studying phrasal phonology and intonation », in K. DZIUBALSKa-KOLACZYK, M. WREMBEL & M. KUL (eds), Proceedings of New Sounds 2010 - Sixth International Symposium on the Acquisition of Second Language Speech [CD-ROM], Poznan (Pologne), Adam Mickiewicz University, 100-105.

DETEY, Sylvain & KAWAGUCHI, Yuji, 2008, « Interphonologie du Français Contemporain (IPFC) : récolte automatisée des données et apprenants japonais », Journées PFC : Phonologie du français contemporain : variation, interfaces, cognition, Paris, 11-13 décembre 2008.

DETEY, Sylvain, RACINE, Isabelle, KAWAGUCHI, Yuji, ZAY , Françoise, BÜHLER, Nathalie & SCHWAB, Sandra, 2010, « Evaluation des voyelles nasales en français L2 en production : de la nécessité d’un corpus multitâches », in F. NEVEU, J. DURAND, T. KLINGLER, S. PREVOST & V. MUNI-TOKE (éds), Actes de CMLF’10 [CD-ROM], ILF, 1289-1301.

DURAND, Jacques, LAKS, Bernard & LYCHE, Chantal, 2002, « La phonologie du français contemporain: usages, variétés et structure », in C. PUSCH & W. RAIBLE (eds), Romanistische Korpuslinguistik- Korpora und gesprochene Sprache/Romance Corpus Linguistics - Corpora and Spoken Language, Tübingen, Gunter Narr Verlag, 93-106.

DURAND, Jacques, LAKS, Bernard & LYCHE, Chantal, 2005, « Un corpus numérisé pour la phonologie du français », in G. WILLIAMS (éd.), La linguistique de corpus, Rennes, Presses Universitaires de Rennes, 205-217.

FACE, Timothy L. & MENKE, Mandy R., 2009, « Acquisition of the Spanish voiced spirants by second language learners », in J. COLLENTINE et alii (eds), Selected Proceedings of the 11th Hispanic linguistics symposium, Cascadilla Proceedings Project, Somerville, 39-52.

GIL FERNÁNDEZ, Juana, 2007, Fonética para profesores de español : de la teoría à la práctica. Madrid, Arco/Libros.

GUT, Ulrike, 2009, Non-native Speech : A Corpus-based Analysis of Phonological and Phonetic Properties of L2 English and German, Wien, Peter Lang.

LYCHE, Chantal, 2010, « Le français de référence : éléments de synthèse » in S. DETEY, J. DURAND, B. LAKS & C. LYCHE (éds), Les variétés du français parlé dans l’espace francophone : ressources pour l’enseignement, Paris, Ophrys, 143-165.

MAKINO , Takehiko, 2007, « A corpus of Japanese speakers’ pronunciation of American English : preliminary research », PTLC 2007, UCL, London.

MORGENSTERN, Aliyah & PARISSE, Christophe, 2007, « Codage et interprétation du langage spontané d’enfants de 1 à 3 ans », Corpus, 6, 55-78.

MYLES, Florence & MITCHELL, Rosamund, 2007, French Learner Language Oral Corpora (FLLOC), University of Southampton, 13.3 GB.

NERI, Ambra, CUCCHIARINI, Catia & STRIK, Helmer, 2006, « Selecting segmental errors in non-native Dutch for optimal pronunciation training », IRAL - International Review of Applied Linguistics in Language Teaching, 44, 357-404.

PERDUE, Clive, 1993, Adult Language Acquisition : Crosslinguistic Perspectives, Volume 1, Field Methods, Cambridge, Cambridge University Press.

PILLOT-LOISEAU, Claire, AMELOT, Angélique & FREDET, Florentina, 2010, « Contributions of experimental phonetics to the didactics of the pronunciation of the French as a Foreign language: stage 1: reflection around the establishment of a speaking materials », in K. DZIUBALSKa-KOLACZYK, M. WREMBEL & M. KUL (eds), Proceedings of New Sounds 2010 - Sixth International Symposium on the Acquisition of Second Language Speech [CD-ROM], Poznan (Pologne), Adam Mickiewicz University, 343-348.

PIÑEROS, Carlos-Eduardo, 2002, « Markedness and laziness in Spanish obstruents », Lingua, 112, 379-413.

QUILIS, Antonio, 1993, Tratado de fonología y fonética españolas, Madrid, Gredos.

Page 15: De la transcription de corpus à l’analyse ...lidifra.free.fr/files/Racine_Zay_Detey_Kawaguchi_FINAL_201210.pdf · L’examen des premières données ... Le recueil de données

RACINE, Isabelle, DETEY, Sylvain, ZAY , Françoise & KAWAGUCHI, Yuji, à paraître, « Des atouts d’un corpus multitâches pour l’étude de la phonologie en L2 : l’exemple du projet « Interphonologie du français contemporain » (IPFC) », in A. KAMBER & C. SKUPIENS (éds), Recherches récentes en FLE, Berne, Peter Lang.

RACINE, Isabelle, DETEY, Sylvain, BÜHLER, Nathalie, SCHWAB, Sandra, ZAY , Françoise & KAWAGUCHI, Yuji, 2010, « The production of French nasal vowels by advanced Japanese and Spanish learners of French : a corpus-based evaluation study », in K. DZIUBALSKa-KOLACZYK, M. WREMBEL & M. KUL (eds), Proceedings of New Sounds 2010 - Sixth International Symposium on the Acquisition of Second Language Speech [CD-ROM], Poznan (Pologne), Adam Mickiewicz University, 367-372.

SEGUI, Juan & FERRAND, Ludovic, 2001, Leçons de parole, Paris, Odile Jacob. STRANGE, Winifred, BOHN, Ocke-Schwen, TRENT, Sonja & NISHI, Kanae, 2005, « Contextual

variation in the acoustic and perceptual similarity of North German and American English vowels », Journal of the Acoustical Society of America, 118, 1751-1762.

TROUBETZKOY, Nikolay Sergeevich, 1939, Grundzüge der Phonologie, TCLP, 7, Prague, [trad. française : Principes de phonologie (trad. par J. Cantineau), Paris, Klincksieck, 1949].

VISCEGLIA, Tanya, TSENG, Chiu-yu, KONDO, Mariko, MENG, Helen & SAGISAKA , Yoshinori, 2009, « Phonetic aspects of content design in AESOP (Asian English Speech cOrpus Project) », Proceedings of Oriental-COCOSDA, Urumuqi, China.

WESTER, Mirjam, KESSENS, Judith, CUCCHIARINI, Catia & STRIK, Helmer, 2001, « Obtaining Phonetic Transcriptions : A Comparison between Expert Listeners and a Continuous Speech Recognizer », Language and Speech, 44 (3), 377-403.

ZAMPINI , Mary L., 1994, « The role of native language transfer and task formality in the acquisition of Spanish spirantization », Hispania, 77 (3), 470-481.

ZECHNER, Klaus, 2009, « What did they actually say? Agreement and Disagreement among Transcribers of Non-Native Spontaneous Speech Responses in an English Proficiency Test », Proceedings of the ISCA SLaTE-2009 Workshop, Wroxall, UK.