Approche lexicométrique de corpus de dialogues adulte-enfant

Post on 10-Jan-2016

24 views 0 download

description

Approche lexicométrique de corpus de dialogues adulte-enfant. dans le cadre de recherches en linguistique de l’acquisition du langage. Luiggi Sansonetti – DEA Sciences du Langage 2001/2002. Hypothèse et objectif de départ Interdisciplinarité de la recherche Phases de préparation - PowerPoint PPT Presentation

Transcript of Approche lexicométrique de corpus de dialogues adulte-enfant

Approche lexicométriquede corpus de

dialoguesadulte-enfantdans le cadre de

recherches enlinguistique de

l’acquisition du langageLuiggi Sansonetti – DEA Sciences du

Langage 2001/2002

Plan de l’exposé

1. Hypothèse et objectif de départ2. Interdisciplinarité de la

recherche3. Phases de préparation4. Exemples d’analyses5. Premier bilan6. Projet de thèse

1.Hypothèse et objectif de départ

Suivant une normalisation adaptée, il est possible de procéder à des analyses

lexicométriques et statistiques sur des corpus de dialogues dans le cadre de recherches en

acquisition du langage.

Analyser de façon automatisée des corpus de dialogues adulte-enfant en contexte d’acquisition

du langage en appliquant des méthodes quantitatives de statistiques textuelles.

• Constitution d’une banque de données de corpus de dialogues normalisés

• Traitement de grands corpus longitudinaux simplifié

2.Interdisciplinarité de la recherche

Linguistique de l’acquisition du langage•Analyse syntaxique

•Interaction langagière

Traitement Automatique des Langues•Statistique textuelle

•Lexicométrie

2.1Linguistique de l’acquisition du langage Recherche les processus d’élaboration du

fonctionnement cognitivo-langagier, en observant tout particulièrement la syntaxe chez l’enfant, à partir d’interactions verbales entre un adulte et un enfant en situation de dialogues spontanés.

• Recherche de formes

• Recherche de constructions syntaxiques

• Recherche des phénomènes de reprises et reformulations

• Evolution du langage de l’enfant dans l’étude longitudinale

2.2Traitement Automatique des Langues Le TAL est l’étude et le traitement de données

linguistiques exprimées dans une langue dite naturelle par des moyens informatiques comme des programmes ou des logiciels.

• Statistique textuelle et lexicométrie (Lexico)•Fréquences

•Concordances

•Partitions

•Evolution du vocabulaire

• Etiquetage morpho-syntaxique (Cordial)• Préparation et manipulation (MkCorpus)

3.Phases de préparation Phases de nettoyage

•Commentaires, fiche de présentation, hésitations…

Phases de remplacement•Estimation, prononciation, majuscule…

Phases de balisage•Dialogues, locuteurs, énoncés…

Phases de présentation•Enoncés regroupés par 50 pour avoir sur une

ligne l’adulte et en dessous l’enfant

CORPUSCorpus de JULIENENREGISTREMENT :Claire T. Date 20/11/99TRANSCRIPTION : Claire T. Date : 21/11/99ENFANT : Julien F. Né le 01/01/94

Age : 05 ; 10 ; 19 Corpus N°1nJ = 68nA = 69

SITUATION : Julien, âgé de 5 ans, est un garçon francophone : il n’a aucune origine étrangère. Il a un grand frère, Raphaël, qui est son aîné de 3 ans. Ils vivent tous les deux dans un appartement avec leurs parents : les enfants ont chacun leur chambre. Leur père est ingénieur et leur mère est femme au foyer avec un niveau d’études supérieures. Ainsi c’est cette dernière qui s’occupe énormément de Julien et de Raphaël : elle les emmène et va les chercher à l’école et d’autre part, elle emprunte souvent des livres à la bibliothèque municipale, et lit donc beaucoup d’histoires à Julien. Celui-ci et sa famille ont déménagé cet été : les enfants ont donc changé d’école en début d’année. Julien est en dernière année de maternelle. Julien est le fils de ma cousine germaine mais je ne le vois que très rarement. Pour faire ce corpus, j’ai choisi de prendre un livre comme support. J’ai demandé à la maman de Julien de m’apporter deux livres. Puis, avant de commencer l’enregistrement, j’ai demandé à Julien de choisir lui-même entre Crictor et Babar à New York : il a préféré raconter l’histoire de Crictor, de Tomi Ungerer, l’école des loisirs, Collection Lutin Poche, première parution 1980. Pour des raisons de commodité, l’entretien a lieu à 17h30 dans ma chambre contrairement à l’année dernière où cela s’était passé chez lui. Julien est assis sur mon lit et moi par terre pour supprimer toute différence de taille entre l’enfant et moi. D’autre part, nos regards pouvaient directement se croiser. J’ai relu l’histoire tout en tenant lui-même le livre et en tournant les pages. Il n’est pas distrait par le magnétophone dont il a l’habitude. L’enregistrement a duré 19 minutes 35 secondes. Le passage, que j’ai choisi, dure 9 minutes 55 secondes : il correspond au début de l’enregistrement et concerne le livre ; par la suite, Julien raconte abondamment les jeux qu’il fait sur ordinateur. Durant l’enregistrement, Julien est un peu excité : il sortait de son cours de judo. Parfois même, il sautait sur le lit.

TRANSCRIPTION :A1 Alors c’est quoi l’histoire de Crictor ? J1 mm un jour le facteur arrive et donne un mm quand madame Bodot ouv(r)e le pa/quet mm elle va / elle va au zooA2 Et pourquoi elle va au zoo ? J2 pour voir si c’est pas un / un serpent dang(e)reux (il avale sa salive)A3 Pourquoi le serpent dang(e)reux, il est dans / il était dans l(e) paquet,, que l(e) facteur a apporté ? J3 ouiA4 D’accord. J4 et mm un c’était un boa constructeur alors elle l’appela Cric(tor) elle lui donna un [s] / [s] le biberon [s] elle lui apporta des palmiersA5 Et pourquoi elle lui apporta des palmiers ? J5 pour sa propre natureA6 Ah, pour qu’i(l) euh se rappelle. J6 sa natureA7 D’accord. J7 mm elle lui faisa un petit gilet,, elle décida de / de l’em/mener en classe il apprena,, l’alphabetA8 Et euh, en fait elle s’occu, madame Bodot / elle s’occupe du serpent comme un / un petit enfant, en fait ? J mmA9 Et c’est qui qui lui a envoyé le / le serpent ? J8 c’est son / c’est son mariA10 C’est son mari ? J9 il apprena à compterA11 Donc il a / il a appris à / à compter à l’école aussi ? J10 mm mm mm i(l) jouait avec les p(e)tits garçons et aussi les fillesA12 Il jouait à quoi avec les garçons ? J11 à / à ça,, toboggan il était très serviable et il montrait comment on faisait les nœudsA13 Il montrait euh à qui,, comment on faisait les nœuds ? J12 ben aux p(e)tits garçonsA14 A des garçons, ok.

<dialogue=1>§<adulte=101> $alors $c'$est $quoi $l'$histoire $de $*crictor ?§<adulte=102> $et $pourquoi $elle $va $au $zoo ?§<adulte=103> $pourquoi $le $serpent $dangereux, $il $est $dans $il $était $dans $le $paquet,, $que $le $facteur $a $apporté ?§<adulte=104> $d'$accord. §<adulte=105> $et $pourquoi $elle $lui $apporta $des $palmiers ?§<adulte=106> $eh, $pour $qu'$il $euh $se $rappelle.§<adulte=107> $d'$accord.§<adulte=108> $et $euh, $en $fait $elle $s'$occu, $madame $*bodot $elle $s'$occupe $du $serpent $comme $un $un $petit $enfant, $en $fait ?§<adulte=109> $et $c'$est $qui $qui $lui $a $envoyé $le $le $serpent ?§<adulte=110> $c'$est $son $mari ?§<adulte=111> $conc $il $a $il $a $appris $à $à $compter $à $l'$école $aussi ?§<adulte=112> $il $jouait $à $quoi $avec $les $garçons ?§<adulte=113> $il $montrait $euh $à $qui,, $comment $on $faisait $les $noeuds ?§<adulte=114> $à $des $garçons, $ok.§<adulte=115> $et $euh $le $qui $l'$a $bâillonnée $euh $madame $euh $*bodot ?§<adulte=116> $le $cambrioleur, $d'$accord. $et $qu'$est-$ce $qui $s'$est $passé $par $la $suite ?§<adulte=117> $il $attacha $qui $le $serpent ?§<adulte=118> $le $bandit, $d'$accord.§<adulte=119> $donc $il $a $bien $un $jardin $qui $portait $son $nom ?§<adulte=120> $d'$accord. $Donc $là $c'$était $l'$histoire $du $petit $*crictor.§<adulte=121> $et $pourquoi $tu $aimes $bien $ce $livre ?§<adulte=122> $tu $aimes $bien $les $serpents ?§<adulte=123> $et $pourquoi $tu $avais $envie $de $me $raconter $l'$histoire $de $de $*crictor $le $serpent ?§<adulte=124> $parce $que $c'$était $un $livre $très $court $alors ?§<adulte=125> $et $euh $et $alors $tu $aimes $bien $les $serpents $ou $pas ?§<adulte=126> $ca $te $fait $peur $quand $tu $les $vois ?§<adulte=127> $ou $en $vrai.§<adulte=128> $mais $par $exemple $quand $tu $as $après $que $tu $aies $lu $euh $ce $livre, $maintenant $tu $euh $tu $aimes $bien $les $serpents $ou $un $peu $mieux ?§<adulte=129> $du $fait $que $ce $soit $un $serpent $gentil.§<adulte=130> $c'$est $tout. $et $alors $euh $madame $*bodot $au $départ, $elle $elle $avait $peur $du $serpent ?§<adulte=131> $ouais. $et $euh $et $euh $en $fait, $elle $s'$occupe $du $serpent $comme $un $enfant ?

§<adulte=132> $et $toi, $tu $aurais $fait $pareil $à $sa $place ?§<adulte=133> $tu $aurais $réagi $comment ?§<adulte=134> $et $tu $lui $aurais $tu $lui $aurais $donné $quoi $à $manger ?§<adulte=135> $des $pâtes.§<adulte=136> $pourquoi $à $la $vanille ?§<adulte=137> $pourquoi $au $café ?§<adulte=138> $alors $en $fait, $en $fait $tu $lui $aurais $donné $les $la $même $nourriture $que $toi $tu $manges ?§<adulte=139> $et $euh $tu $voudrais $pas $qu'il $dorme $dans $la $même $chambre $que $toi ?§<adulte=140> $pourquoi ?§<adulte=141> $il $t'$embêterait ?§<adulte=142> $tu $crois ? $qu'$est-$ce $qu'$il $te $ferait ?§<adulte=143> $il $gigoterait $et $toi $ça $t'$embêterait ?§<adulte=144> $parce $que $tu $pourrais $pas $dormir.§<adulte=145> $mais $tu $jouerais $avec $lui ?§<adulte=146> $et $euh, $tu $jouerais $à $quoi ?§<adulte=147> $et $euh $d'$autres $à $d'$autres $jeux ? $comme $quoi ?§<adulte=148> $c'$est $tout ?§<adulte=149> $et $qu'$est-$ce $que $tu $fais $d'$autre $et $qu'$est-$ce $que $tu $ferais $d'$autre $avec $lui ?§<adulte=150> $rien ? $tu $te $t'$amuserais $seulement ?§<enfant=101> mm un jour le facteur arrive et donne un mm quand madame *bodot ouvre le paquet mm elle va elle va au zoo§<enfant=102> pour voir si c'est pas un un serpent dangereux §<enfant=103> oui§<enfant=104> et mm un c'était un boa constructeur alors elle l'appela *crictor elle lui donna un le biberon elle lui apporta des palmiers§<enfant=105> pour sa propre nature§<enfant=106> sa nature§<enfant=107> mm elle lui faisa un petit gilet,, elle décida de de l'emmener en classe il apprena,, l'alphabet§<enfant=000> mm§<enfant=108> c'est son c'est son mari§<enfant=109> il apprena à compter§<enfant=110> mm mm mm il jouait avec les petits garçons et aussi les filles§<enfant=111> à à ça,, toboggan il était très serviable et il montrait comment on faisait les noeuds§<enfant=112> ben aux petits garçons

4.Exemples d’analyses

Fréquences des mots Recherches des formes dans les

énoncés Graphiques de ventilation des formes Etiquetage morpho-syntaxique Concordances des formes

Extraits du dictionnaire des formes énoncées par l’adulte etpar l’enfant dans le corpus longitudinal de Julien(comprenant 3 dialogues) analysé par Lexico3

Recherche portant sur « parce que »

Mise en relation des « parce que » énoncés par l’enfant et des « pourquoi » énoncés par l’adulte dans le corpus

longitudinal

Extrait du fichier résultat de l’étiquetage automatique du corpus à l’aide de Cordial

N° mot mot lemme Typegram Codegram==== DEBUT DE PHRASE ====

0 <1 dialogue dialogue NCMS Ncms2 =3 1 1 NCMIN Ncm.4 >

===== FIN DE PHRASE ========= DEBUT DE PHRASE ====

0 \r\r§<1 adulte adulte ADJSIG Afp.s2 =3 101 101 NCMIN Ncms4 >5 $6 alors alors ADV Rgp7 $8 c' ce PDS Pd-..n9 $10 est être VINDP3S Vmip3s11 $12 quoi quoi PRI Pr-..-13 $14 l' le DETDFS Da-ms-d15 $16 histoire histoire NCFS Ncfs17 $18 de de PREP Sp19 $*20 crictor crictor NCI Nc.. => Erreur orthographique: crictor => cricri21 ? ? PCTFORTE Yps22 ?

===== FIN DE PHRASE =====(…)

Manipulation avec MkCorpus du fichier étiqueté pour générer différentes

représentations

1. « cordialCateg.txt » présente les catégories seules :<enfant=102>PREP VINF ADV PDS VINDP3S ADV DETIMS NCMS ADJMIN

2. « cordialForme.txt » présente le texte initial :<enfant=102>pour voir si c' est pas un serpent dangereux

3. « cordialLemm.txt » présente les formes lemmatisées :<enfant=102>pour voir si ce être pas un serpent dangereux

4. « cordialFormCat.txt » associe les formes avec leur catégorie juxtaposée :<enfant=102>pour_PREP voir_VINF si_ADV c'_PDS est_VINDP3S pas_ADV un_DETIMS serpent_NCMS dangereux_ADJMIN

5. « cordialLemCat.txt » associe les lemmes avec leur catégorie juxtaposée :<enfant=102>pour_PREP voir_VINF si_ADV ce_PDS être_VINDP3S pas_ADV un_DETIMS serpent_NCMS dangereux_ADJMIN

6. « cordial2lexico.txt » concatène les formats « cordialCateg », « cordialForme » et « corialLemm » en un seul fichier.

Fichiers de sortie générés par MkCorpus

1. « cordialCateg.txt » présente les catégories seules :<enfant=102>PREP VINF ADV PDS VINDP3S ADV DETIMS NCMS ADJMIN

2. « cordialForme.txt » présente le texte initial :<enfant=102>pour voir si c' est pas un serpent dangereux

3. « cordialLemm.txt » présente les formes lemmatisées :<enfant=102>pour voir si ce être pas un serpent dangereux

4. « cordialFormCat.txt » associe les formes avec leur catégorie juxtaposée :<enfant=102>pour_PREP voir_VINF si_ADV c'_PDS est_VINDP3S pas_ADV un_DETIMS serpent_NCMS dangereux_ADJMIN

5. « cordialLemCat.txt » associe les lemmes avec leur catégorie juxtaposée :<enfant=102>pour_PREP voir_VINF si_ADV ce_PDS être_VINDP3S pas_ADV un_DETIMS serpent_NCMS dangereux_ADJMIN

6. « cordial2lexico.txt » concatène les formats « cordialCateg », « cordialForme » et « corialLemm » en un seul fichier.

Fichiers de sortie générés par MkCorpus

Concordance des constructions « Verbe à l’Infinitif »

Graphiques de ventilation de la construction « Préposition + Verbe à l’Infinitif » dans les énoncés de l’adulte et de l’enfant

Evolution de l’emploi des Pronoms Relatifs dans les énoncés de l’enfant et dans ceux de l’adulte avec

occurrences dans le corpus

Concordance des constructions « Préposition »

Recherche sur l’emploi du conditionnel par l’enfantcomparé à son emploi par l’adulte

Visualisation des occurrences du « conditionnel »dans les énoncés de l’enfant et de l’adulte

5.Premier bilan Avantages

• Stockage et échange de données

• Traitement rapide de grands corpus

• Analyses automatiques « visuelles »

• Approche quantitative complémentaire

Inconvénients• Phases de préparation

• Fiabilité de l’étiquetage automatique

• Traitement de données orales

• Repérage d’essais de constructions complexes

6.Projet de thèse

Réfléchir sur une apparente incompatibilité entre le modèle informatique qui est un modèle rigide, appliqué à une analyse qualitative de corpus de données orales en contexte particulier d’acquisition du langage, donc

sujettes à la variation et à des formes non standardisées ;

Résoudre les problèmes liés aux phases de préparation ; Constituer une banque de données de corpus

d’acquisition du langage normalisés ; Trouver des applications possibles pour quantifier le

développement du langage chez l’enfant, et apporter des méthodes complémentaires.

Approche lexicométrique de corpus de dialogues adulte-

enfant dans le cadre de recherches en linguistique de l’acquisition du langage

Luiggi SANSONETTIEA 2290 SYLED – EA 170 CALIPSO

Septembre 2002

luiggi.sansonetti@noos.fr

MERCI