(co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

57
séminaire "Recherches linguistiques et corpus" STIH de l’Université Paris-Sorbonne mercredi 8 avril 2015 Thierry Chanier LETEC Mulce

Transcript of (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

Page 1: (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

séminaire "Recherches linguistiques et corpus" STIH de l’Université Paris-Sorbonne

mercredi 8 avril 2015

Thierry Chanier

LETECMulce

Page 2: (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

2

Page 3: (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

3

(Liégeois, 2014)

Page 4: (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?
Page 5: (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

5

Page 6: (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

6

Page 7: (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

7

Page 8: (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

8

Collecte des données

Contrats de consentement

éclairé

ou

Licence d'utilisationsur données récoltées

Anonymisation

- Préserver informations essentielles- Identifier utilisateur sur toute la banque de corpus

Poser licenced'utilisation

Page 9: (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

9

Corpus PFC, 15 ans d'études

Page 10: (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

10

Loic Liegeois (2014). Usage des variables phonologiques dans un corpus d'interactions naturelles parents-enfant : impact du bain linguistique et dispositifs cognitifs d'apprentissage.Humanities and Social Sciences.Clermont Ferrand 2. French.

<tel-01108764>

http://tel.archives-ouvertes.fr/tel-01108764

Page 11: (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

11

Page 12: (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

12

Page 13: (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

13

Acquisition de la liaison

• Objet d’un débat entre une approche constructionniste,« basée sur l’usage » (Dugua, 2006 ; Chevrot et al.,2007 ; Chevrot et al., 2009) et une approche « baséesur des principes abstraits » (Wauquier-Gravelines etBraud, 2005).

• Divergence théorique, accord sur les faits observés etrelevés dans des études de corpus.

Modèles d’acquisition de la liaison

Page 14: (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

14

Annotation Contexte Exemple

A Dét - N Un ours

B Pro - V Ils aiment

C Expression figée Tout à l'heure

D V - Pro Prends-en

E Adj - N Petit oiseau

F N(pluriel) - X Des pommes et …

G Avoir - X Ils ont appris

H Être - X C'est un

I V - X Prends un verre

J Inv - X Pas appris

P « Poubelle » En orange

Z Hors contexte Le -n- âne

Annotation des données

Liaisons

catégoriques

Liaisons

variables

Acquisition de la liaison variable et catégorique : ce que nous apprend le DAE

Page 15: (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

15

Répartition des adresses équivalente chez les parents de Prune et de Salomé.

Dominance des énoncés adressés à l'enfant.

Nombre suffisant des deux types d'énoncé pour pouvoir les comparer.

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

Prune Salomé

Adressé à tous

Adressé àl'enfant

Adressé àl'adulte

Distribution des contextes de liaison dans les corpus (chez les parents)

Page 16: (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

16

La liaison variable : analyse à partir des mots1 après lesquels la liaison est réalisée au moins une fois.

17.30%19.60%

29% 28.20%

0.00%

10.00%

20.00%

30.00%

40.00%

50.00%

60.00%

70.00%

80.00%

90.00%

100.00%

Prune Salomé

Discours adressé àl'adulte

Discours adressé àl'enfant

Page 17: (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

17

Page 18: (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

Le schwaUne voyelle pouvant alterner avec zéro dans un

même contexte lexical en fonction de différents

critères.

Cinq contextes d’apparition :

monosyllabe,

syllabe interne d'un polysyllabe

première ou la dernière syllabe d'un polysyllabe et

dans la métathèse.

Page 19: (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

Taux d’élision en DAA et DAE en FrL1

ParentsTemps de recueil

et âge de l’enfant

Taux d’élision en

DAA

Taux d’élision en

DAEχ² P

Parents de

BaptisteT1 : 2;4 ans

65,1% 31,7%Chi2=75.9812 p<0,0001

T2 : 3;0 ans49,4% 34,2%

Chi2=21.8028 p<0,0001

Parents de SaloméT1 : 3;0 ans

62,1% 37,0%Chi2=95.0865 p<0,0001

T2 : 3;7 ans58,2% 56,1%

Chi2=0 p>0,05

Parents de PruneT1 : 3;4 ans

67,8% 31,6%Chi2=95.0865 p<0,0001

T2 : 4;0 ans50,0% 51,2%

Chi2=0 p>0,05

65.1%

49.4%

62.1%58.2%

67.8%

50.0%

31.7%34.2% 37.0%

56.1%

31.6%

51.2%

0.0%

10.0%

20.0%

30.0%

40.0%

50.0%

60.0%

70.0%

80.0%

90.0%

100.0%

T1 T2 T1 T2 T1 T2

Parents de Baptiste Parents de Salomé Parents de Prune

DAA

DAE

Page 20: (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

Élision chez l’enfant et développement

linguistique

9.2% 10.8%

44.2%

19.1%

44.9%51.9%

0.0%

10.0%

20.0%

30.0%

40.0%

50.0%

60.0%

70.0%

80.0%

90.0%

100.0%

Baptiste Salomé Prune

T1

T2

EnfantTemps de recueil

et âge de l’enfantTaux d’élision χ² P

Salomé

T1 : 2;4 ans 10,81%

χ² = 216.0006 P<0,0001

T2 : 3;0 ans 44,91%

Baptiste

T1 : 3;0 ans 9,2%

χ² = 6.7688 P<0,01

T2 : 3;7 ans 19,02%

Prune T1 : 3;4 ans 44,19%

χ² = 7.3637 P<0,01

Enfant T2 : 4;0 ans 51,9%

Page 21: (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

Élision en DAE en FrL1

Les parents tendent à davantage maintenir le schwa

lorsqu’ils s’adressent à leur enfant et ajustent leur

production en fonction des performances de celui-

ci.

Chez les parents de Salomé et Prune, au T2, plus

de différence significative DAA/DAE. Au T2,

Salomé et Prune élident le schwa dans des

proportions proches de celles des adultes.

L’élision du schwa en DAE est modulée selon le

développement linguistique de l’enfant.

Page 22: (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

22

Page 23: (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

• Corpus audio d’interactions parents-enfant recueillis ensituation naturelle (bain, jeu, repas…).

• Deux temps (voire 3) d’enregistrement afin d’observer lavitesse et la qualité de l’acquisition de la variationphonologique.

• Enregistrement audio géré par les parents :

• méthode peu intrusive : le chercheur n’est pas présent au domicilefamilial,

• méthode qui demande peu d’intervention des parents.

• Nouvelles collectes, après réutilisation d'un corpus (malstructuré) venant d'une ANR

• Recherche de parents, contrat de consentement éclairé)

Constitution et diffusion du corpus ALIPE

Page 24: (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

24

Avant, projet ANR Phonlex

Réalisées par Loic seul

Page 25: (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

25

Format XML-ALIPE

Programme de conversion

Format CHAT

Format CHAT-XML

Format XML-TEI

Conversion via le Chatter

Programme de conversion

Page 26: (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

26

Format XML-ALIPE

Programme de conversion

Format CHAT

Format CHAT-XML

Format XML-TEI

Conversion via le Chatter

Programme de conversion

Page 27: (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

27

Format XML-ALIPE

Programme de conversion

Format CHAT

Format CHAT-XML

Format XML-TEI

Conversion via le Chatter

Programme de conversion

Page 28: (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

28

Vocabulaires contrôlés

TEI > Métadonnées > Acteurs

Page 29: (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

29

<w>mais</w>

<w>la</w>

<w>politique</w>

<w>à</w>

<fs type="anonymisation">

<f name="Identity" fVal=”Place"/>

<f name="Original"

fVal=”PlaceName"/>

</fs>

<w>[_Lieu-de-travail-de-mot-Prune_]</w>

<w>c'est</w>

TranscriptionMétadonnées

Métadonnées

TEI > Métadonnées > Anonymisation

Page 30: (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

30

<w>elle</w>

<w>a</w>

<w>pas</w>

<w>de</w>

<fs type="liaison">

<f name="Word1" fVal="de"/>

<f name="Word2" fVal="oreilles"/>

<f name="SynctacticContext" fVal="Z"/>

<f name="ExpectedConsonnant" fVal="o"/>

<f name="ProducedConsonnant" fVal="z"/>

<f name="ObligatoryOptional" fVal="2"/>

</fs>

<w>oreilles</w>

Transcription Métadonnées

Possibilité de futures annotations de part l’extensivité du format

Page 31: (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

31

Page 32: (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

32

Zip pour corpus distinguable :- Transcription TEI- Transcription avec

alignement CLAN : CHAT- Fichier audio- Fiche descriptive HTML

http://lrl-diffusion.univ-bpclermont.fr/alipe/

Base de corpus en ligne

Page 33: (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

33

Affichage « simplifié » des transcriptions

généré à partir du fichier XML-TEI :

- Affichage des liaisons

- Affichage des évènements para-

et extralinguistique

Lecture en ligne (streaming) des fichiers

audio téléchargeables

Page 34: (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

34

http://hdl.handle.net/11041/alipe-000853

Page 35: (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

35

Ciara R. Wigham (2012). The interplay between nonverbal and verbal interaction in synthetic worldswhich supports verbal participation and production in a foreign language.. Linguistics. Université Blaise Pascal -Clermont-Ferrand II. English. <tel-00762382v2>

http://tel.archives-ouvertes.fr/tel-00762382

Page 36: (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

36

Page 37: (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

Interplay nonverbal & verbal

• 1A: During a collaborative building activity, are nonverbal acts autonomous in the synthetic world or does interplay exist between the nonverbal and verbal modes?

Analyses 37

Page 38: (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

Characterisation of SL modalities

Methodology 38

• Literature review of classifications of nonverbal mode used in SLA & CSCW domains

• Classification of verbal & nonverbal modalities in Second Life

• Elaboration of transcription methodology

Page 39: (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

Interplay textchat & voicechat

• 3D: Can the textchat serve for L2 feedback provision?

Analyses 39

Page 40: (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

An example of modality interplay 40

Page 41: (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

European project with architects: course Environments

face-

to-face

distance

VoiceForum Second Life

Paris Malaquais

UBP Languagetutor

UBP Languagetutor

ENSAPM Architecture teachersENSAPM Architecture teachers

UBP Languagetutors

4 workgroups GA, GE, GL, GS

Presentation

environment

Page 42: (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

Research protocol

Methodology 42

DesignData

collection

Data

organisationPost research

Page 43: (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

Data collection and coverage

Data collected

Pre-questionnaires

Session data Post questionnaires

Semi-directive

interviews

Environment

Kwiksurveys Second Life VoiceForum Kwiksurveys Skype

Data type Spreadsheetfile

Video screencaptures

Audio recordings

Spreadsheet file Audio recordings

Quantity&

coverage of data

17 student questionnaires

20 group sessions & 2 presentation

sessions19h40m

64 forum messages

16 student questionnaires

5 student interviews

2h30

MultimodalTranscription

7 sessions 5h15m

2238 verbal2659 nonverbal

Methodology 43

pre-course post-courseduring course

Page 44: (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

Multimodal transcription using ELAN

video screen capture

multimodal transcription aligned using timeline

participants & modality

view of annotations for one participant in

one modality

Max Planck Institute for Psycholinguistics (2001). ELAN [software]. The Netherlands: Max Planck Institute for Psycholinguistics. [http://www.lat-mpi.eu/tools/elan/]

44

Page 45: (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

Aperçu du

code de

transcription

pour non

verbal

45

Page 46: (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

An example of modality interplay 46

Page 47: (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

Annotations du chercheur

47

Page 48: (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

Un type de corpus défini dans projet MULCE

précédent : corpus d’apprentissage LETEC

Instantiation

Pedagogical scenario

Researchprotocol

Public licence

Privatelicence

Analyses

C

o

n

t

e

x

t

48

"A LETEC corpus collects in a systematic and structured way all the data frominteractions which occur during a course which is partially or entirely online.These data are enriched by technical, pedagogical and scientific information as well asinformation about the participants and are organized to allow contextualizedanalyses to be performed.“ (Mulce-documentation, 2013)

ethics & rights

Page 49: (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

Organisation des données dans LETEC

49

Page 50: (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

50

Simuligne(2001)

UK-FR

fre

Copéas(2005)

eng

UK-FR

Tridem(2005-06)

UK-FR-USA

eng, fre

Ecofralin(2008)

CO-FR

fre,spa

VMT-teamC(2006)

math

UK-USA-SG

INFRAL (2009)

deu,fra

DE-FR

FR

FAVI (2006-08)

fra

ARCHI21 (2011)

eng,fra

FR

SLIC (2013)

USA-FR

fra

http://mulce.org http://repository.mulce.org

Page 51: (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

Nouveaux corpus

apportés par

chercheur(se)

51

Page 52: (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

52

Page 53: (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

Objective: Kernel corpus assembling existing corpora of different CMC

genres and new corpora build on data extracted from the Internet. These

heterogeneous corpora will be structured and processed in a uniform way,

complemented with metadata. CoMeRe will be released as OpenData

through the national infrastructure Ortolang, following constraints which will

be reused for the forthcoming “Corpus de Référence du Français”.

Project supported by the national

consortium Corpus-écrits, sub-part of

Huma-Num, and Ortolang

Variety + Standards + Open Access

Consortium Corpus-écrits

http://comere.orghttp://hdl.handle.net/11403/comere

Page 54: (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

54

Page 55: (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

55

New macro-level elements

Page 56: (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

56

Page 57: (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

57