(co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

Post on 18-Jul-2015

66 views 3 download

Transcript of (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

séminaire "Recherches linguistiques et corpus" STIH de l’Université Paris-Sorbonne

mercredi 8 avril 2015

Thierry Chanier

LETECMulce

2

3

(Liégeois, 2014)

5

6

7

8

Collecte des données

Contrats de consentement

éclairé

ou

Licence d'utilisationsur données récoltées

Anonymisation

- Préserver informations essentielles- Identifier utilisateur sur toute la banque de corpus

Poser licenced'utilisation

9

Corpus PFC, 15 ans d'études

10

Loic Liegeois (2014). Usage des variables phonologiques dans un corpus d'interactions naturelles parents-enfant : impact du bain linguistique et dispositifs cognitifs d'apprentissage.Humanities and Social Sciences.Clermont Ferrand 2. French.

<tel-01108764>

http://tel.archives-ouvertes.fr/tel-01108764

11

12

13

Acquisition de la liaison

• Objet d’un débat entre une approche constructionniste,« basée sur l’usage » (Dugua, 2006 ; Chevrot et al.,2007 ; Chevrot et al., 2009) et une approche « baséesur des principes abstraits » (Wauquier-Gravelines etBraud, 2005).

• Divergence théorique, accord sur les faits observés etrelevés dans des études de corpus.

Modèles d’acquisition de la liaison

14

Annotation Contexte Exemple

A Dét - N Un ours

B Pro - V Ils aiment

C Expression figée Tout à l'heure

D V - Pro Prends-en

E Adj - N Petit oiseau

F N(pluriel) - X Des pommes et …

G Avoir - X Ils ont appris

H Être - X C'est un

I V - X Prends un verre

J Inv - X Pas appris

P « Poubelle » En orange

Z Hors contexte Le -n- âne

Annotation des données

Liaisons

catégoriques

Liaisons

variables

Acquisition de la liaison variable et catégorique : ce que nous apprend le DAE

15

Répartition des adresses équivalente chez les parents de Prune et de Salomé.

Dominance des énoncés adressés à l'enfant.

Nombre suffisant des deux types d'énoncé pour pouvoir les comparer.

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

Prune Salomé

Adressé à tous

Adressé àl'enfant

Adressé àl'adulte

Distribution des contextes de liaison dans les corpus (chez les parents)

16

La liaison variable : analyse à partir des mots1 après lesquels la liaison est réalisée au moins une fois.

17.30%19.60%

29% 28.20%

0.00%

10.00%

20.00%

30.00%

40.00%

50.00%

60.00%

70.00%

80.00%

90.00%

100.00%

Prune Salomé

Discours adressé àl'adulte

Discours adressé àl'enfant

17

Le schwaUne voyelle pouvant alterner avec zéro dans un

même contexte lexical en fonction de différents

critères.

Cinq contextes d’apparition :

monosyllabe,

syllabe interne d'un polysyllabe

première ou la dernière syllabe d'un polysyllabe et

dans la métathèse.

Taux d’élision en DAA et DAE en FrL1

ParentsTemps de recueil

et âge de l’enfant

Taux d’élision en

DAA

Taux d’élision en

DAEχ² P

Parents de

BaptisteT1 : 2;4 ans

65,1% 31,7%Chi2=75.9812 p<0,0001

T2 : 3;0 ans49,4% 34,2%

Chi2=21.8028 p<0,0001

Parents de SaloméT1 : 3;0 ans

62,1% 37,0%Chi2=95.0865 p<0,0001

T2 : 3;7 ans58,2% 56,1%

Chi2=0 p>0,05

Parents de PruneT1 : 3;4 ans

67,8% 31,6%Chi2=95.0865 p<0,0001

T2 : 4;0 ans50,0% 51,2%

Chi2=0 p>0,05

65.1%

49.4%

62.1%58.2%

67.8%

50.0%

31.7%34.2% 37.0%

56.1%

31.6%

51.2%

0.0%

10.0%

20.0%

30.0%

40.0%

50.0%

60.0%

70.0%

80.0%

90.0%

100.0%

T1 T2 T1 T2 T1 T2

Parents de Baptiste Parents de Salomé Parents de Prune

DAA

DAE

Élision chez l’enfant et développement

linguistique

9.2% 10.8%

44.2%

19.1%

44.9%51.9%

0.0%

10.0%

20.0%

30.0%

40.0%

50.0%

60.0%

70.0%

80.0%

90.0%

100.0%

Baptiste Salomé Prune

T1

T2

EnfantTemps de recueil

et âge de l’enfantTaux d’élision χ² P

Salomé

T1 : 2;4 ans 10,81%

χ² = 216.0006 P<0,0001

T2 : 3;0 ans 44,91%

Baptiste

T1 : 3;0 ans 9,2%

χ² = 6.7688 P<0,01

T2 : 3;7 ans 19,02%

Prune T1 : 3;4 ans 44,19%

χ² = 7.3637 P<0,01

Enfant T2 : 4;0 ans 51,9%

Élision en DAE en FrL1

Les parents tendent à davantage maintenir le schwa

lorsqu’ils s’adressent à leur enfant et ajustent leur

production en fonction des performances de celui-

ci.

Chez les parents de Salomé et Prune, au T2, plus

de différence significative DAA/DAE. Au T2,

Salomé et Prune élident le schwa dans des

proportions proches de celles des adultes.

L’élision du schwa en DAE est modulée selon le

développement linguistique de l’enfant.

22

• Corpus audio d’interactions parents-enfant recueillis ensituation naturelle (bain, jeu, repas…).

• Deux temps (voire 3) d’enregistrement afin d’observer lavitesse et la qualité de l’acquisition de la variationphonologique.

• Enregistrement audio géré par les parents :

• méthode peu intrusive : le chercheur n’est pas présent au domicilefamilial,

• méthode qui demande peu d’intervention des parents.

• Nouvelles collectes, après réutilisation d'un corpus (malstructuré) venant d'une ANR

• Recherche de parents, contrat de consentement éclairé)

Constitution et diffusion du corpus ALIPE

24

Avant, projet ANR Phonlex

Réalisées par Loic seul

25

Format XML-ALIPE

Programme de conversion

Format CHAT

Format CHAT-XML

Format XML-TEI

Conversion via le Chatter

Programme de conversion

26

Format XML-ALIPE

Programme de conversion

Format CHAT

Format CHAT-XML

Format XML-TEI

Conversion via le Chatter

Programme de conversion

27

Format XML-ALIPE

Programme de conversion

Format CHAT

Format CHAT-XML

Format XML-TEI

Conversion via le Chatter

Programme de conversion

28

Vocabulaires contrôlés

TEI > Métadonnées > Acteurs

29

<w>mais</w>

<w>la</w>

<w>politique</w>

<w>à</w>

<fs type="anonymisation">

<f name="Identity" fVal=”Place"/>

<f name="Original"

fVal=”PlaceName"/>

</fs>

<w>[_Lieu-de-travail-de-mot-Prune_]</w>

<w>c'est</w>

TranscriptionMétadonnées

Métadonnées

TEI > Métadonnées > Anonymisation

30

<w>elle</w>

<w>a</w>

<w>pas</w>

<w>de</w>

<fs type="liaison">

<f name="Word1" fVal="de"/>

<f name="Word2" fVal="oreilles"/>

<f name="SynctacticContext" fVal="Z"/>

<f name="ExpectedConsonnant" fVal="o"/>

<f name="ProducedConsonnant" fVal="z"/>

<f name="ObligatoryOptional" fVal="2"/>

</fs>

<w>oreilles</w>

Transcription Métadonnées

Possibilité de futures annotations de part l’extensivité du format

31

32

Zip pour corpus distinguable :- Transcription TEI- Transcription avec

alignement CLAN : CHAT- Fichier audio- Fiche descriptive HTML

http://lrl-diffusion.univ-bpclermont.fr/alipe/

Base de corpus en ligne

33

Affichage « simplifié » des transcriptions

généré à partir du fichier XML-TEI :

- Affichage des liaisons

- Affichage des évènements para-

et extralinguistique

Lecture en ligne (streaming) des fichiers

audio téléchargeables

34

http://hdl.handle.net/11041/alipe-000853

35

Ciara R. Wigham (2012). The interplay between nonverbal and verbal interaction in synthetic worldswhich supports verbal participation and production in a foreign language.. Linguistics. Université Blaise Pascal -Clermont-Ferrand II. English. <tel-00762382v2>

http://tel.archives-ouvertes.fr/tel-00762382

36

Interplay nonverbal & verbal

• 1A: During a collaborative building activity, are nonverbal acts autonomous in the synthetic world or does interplay exist between the nonverbal and verbal modes?

Analyses 37

Characterisation of SL modalities

Methodology 38

• Literature review of classifications of nonverbal mode used in SLA & CSCW domains

• Classification of verbal & nonverbal modalities in Second Life

• Elaboration of transcription methodology

Interplay textchat & voicechat

• 3D: Can the textchat serve for L2 feedback provision?

Analyses 39

An example of modality interplay 40

European project with architects: course Environments

face-

to-face

distance

VoiceForum Second Life

Paris Malaquais

UBP Languagetutor

UBP Languagetutor

ENSAPM Architecture teachersENSAPM Architecture teachers

UBP Languagetutors

4 workgroups GA, GE, GL, GS

Presentation

environment

Research protocol

Methodology 42

DesignData

collection

Data

organisationPost research

Data collection and coverage

Data collected

Pre-questionnaires

Session data Post questionnaires

Semi-directive

interviews

Environment

Kwiksurveys Second Life VoiceForum Kwiksurveys Skype

Data type Spreadsheetfile

Video screencaptures

Audio recordings

Spreadsheet file Audio recordings

Quantity&

coverage of data

17 student questionnaires

20 group sessions & 2 presentation

sessions19h40m

64 forum messages

16 student questionnaires

5 student interviews

2h30

MultimodalTranscription

7 sessions 5h15m

2238 verbal2659 nonverbal

Methodology 43

pre-course post-courseduring course

Multimodal transcription using ELAN

video screen capture

multimodal transcription aligned using timeline

participants & modality

view of annotations for one participant in

one modality

Max Planck Institute for Psycholinguistics (2001). ELAN [software]. The Netherlands: Max Planck Institute for Psycholinguistics. [http://www.lat-mpi.eu/tools/elan/]

44

Aperçu du

code de

transcription

pour non

verbal

45

An example of modality interplay 46

Annotations du chercheur

47

Un type de corpus défini dans projet MULCE

précédent : corpus d’apprentissage LETEC

Instantiation

Pedagogical scenario

Researchprotocol

Public licence

Privatelicence

Analyses

C

o

n

t

e

x

t

48

"A LETEC corpus collects in a systematic and structured way all the data frominteractions which occur during a course which is partially or entirely online.These data are enriched by technical, pedagogical and scientific information as well asinformation about the participants and are organized to allow contextualizedanalyses to be performed.“ (Mulce-documentation, 2013)

ethics & rights

Organisation des données dans LETEC

49

50

Simuligne(2001)

UK-FR

fre

Copéas(2005)

eng

UK-FR

Tridem(2005-06)

UK-FR-USA

eng, fre

Ecofralin(2008)

CO-FR

fre,spa

VMT-teamC(2006)

math

UK-USA-SG

INFRAL (2009)

deu,fra

DE-FR

FR

FAVI (2006-08)

fra

ARCHI21 (2011)

eng,fra

FR

SLIC (2013)

USA-FR

fra

http://mulce.org http://repository.mulce.org

Nouveaux corpus

apportés par

chercheur(se)

51

52

Objective: Kernel corpus assembling existing corpora of different CMC

genres and new corpora build on data extracted from the Internet. These

heterogeneous corpora will be structured and processed in a uniform way,

complemented with metadata. CoMeRe will be released as OpenData

through the national infrastructure Ortolang, following constraints which will

be reused for the forthcoming “Corpus de Référence du Français”.

Project supported by the national

consortium Corpus-écrits, sub-part of

Huma-Num, and Ortolang

Variety + Standards + Open Access

Consortium Corpus-écrits

http://comere.orghttp://hdl.handle.net/11403/comere

54

55

New macro-level elements

56

57