Traitement Automatique des Langues appliqué à l’Acquisition du Langage Apports d’une...

25
Traitement Automatique des Langues appliqué à l’Acquisition du Langage Apports d’une pluridisciplinarité Luiggi SANSONETTI EA 2290 SYLED – EA 170 CALIPSO Colloque International APLIC – 25/26 Juin 2004 – Paris

Transcript of Traitement Automatique des Langues appliqué à l’Acquisition du Langage Apports d’une...

Page 1: Traitement Automatique des Langues appliqué à l’Acquisition du Langage Apports d’une pluridisciplinarité Luiggi SANSONETTI EA 2290 SYLED – EA 170 CALIPSO.

Traitement Automatique des Languesappliqué

à l’Acquisition du Langage

Apports d’une pluridisciplinarité

Luiggi SANSONETTI

EA 2290 SYLED – EA 170 CALIPSO

Colloque International APLIC – 25/26 Juin 2004 – Paris

Page 2: Traitement Automatique des Langues appliqué à l’Acquisition du Langage Apports d’une pluridisciplinarité Luiggi SANSONETTI EA 2290 SYLED – EA 170 CALIPSO.

Colloque International APLIC Paris, 25-26 Juin 2004

2

PlanPlan• 1. Corpus utilisés1. Corpus utilisés• 2. Repérage automatique des 2. Repérage automatique des

reprises et reformulationsreprises et reformulations• 3. Etiquetage morphosyntaxique3. Etiquetage morphosyntaxique• 4. Evolution du langage et 4. Evolution du langage et

ajustement des locuteursajustement des locuteurs• 5. Limites de l’automatisation de 5. Limites de l’automatisation de

certaines tâches et « remèdes » certaines tâches et « remèdes » possiblespossibles

Page 3: Traitement Automatique des Langues appliqué à l’Acquisition du Langage Apports d’une pluridisciplinarité Luiggi SANSONETTI EA 2290 SYLED – EA 170 CALIPSO.

Colloque International APLIC Paris, 25-26 Juin 2004

3

IntroductionIntroduction

• Corpus d’interactions verbales Corpus d’interactions verbales adulte/enfantadulte/enfant– Enregistrement Enregistrement (K7, DAT, VIDEO)(K7, DAT, VIDEO)

– Transcription Transcription (conventions suivant objectifs)(conventions suivant objectifs)

– Analyses Analyses (grilles, courbes, tableaux)(grilles, courbes, tableaux)• Logiciels et programmes informatiquesLogiciels et programmes informatiques

– Correcteur orthographique Correcteur orthographique (syntaxe, grammaire)(syntaxe, grammaire)

– Statistique textuelle Statistique textuelle (lexicométrie, évolution du (lexicométrie, évolution du vocabulaire)vocabulaire)

– Traitement du signal Traitement du signal (phonologie, prosodie)(phonologie, prosodie)

Page 4: Traitement Automatique des Langues appliqué à l’Acquisition du Langage Apports d’une pluridisciplinarité Luiggi SANSONETTI EA 2290 SYLED – EA 170 CALIPSO.

Colloque International APLIC Paris, 25-26 Juin 2004

4

1. Corpus utilisés1. Corpus utilisés

• JulienJulien– 3 dialogues de 5 ans 10 mois à 6 ans 4 mois3 dialogues de 5 ans 10 mois à 6 ans 4 mois– Transcriptions imprimées et sauvegardées sur Transcriptions imprimées et sauvegardées sur

disquettedisquette– Analyses, grilles, courbes, tableauxAnalyses, grilles, courbes, tableaux

• MathildeMathilde– 3 dialogues de 4 ans 9 mois à 4 ans 11 mois3 dialogues de 4 ans 9 mois à 4 ans 11 mois– Transcriptions imprimées et sauvegardées sur Transcriptions imprimées et sauvegardées sur

disquettedisquette– Analyses, grilles, courbes, tableauxAnalyses, grilles, courbes, tableaux

Page 5: Traitement Automatique des Langues appliqué à l’Acquisition du Langage Apports d’une pluridisciplinarité Luiggi SANSONETTI EA 2290 SYLED – EA 170 CALIPSO.

Colloque International APLIC Paris, 25-26 Juin 2004

5

Extrait d’une transcription d’un Extrait d’une transcription d’un autre corpusautre corpus

1. Corpus1. Corpus

Page 6: Traitement Automatique des Langues appliqué à l’Acquisition du Langage Apports d’une pluridisciplinarité Luiggi SANSONETTI EA 2290 SYLED – EA 170 CALIPSO.

Colloque International APLIC Paris, 25-26 Juin 2004

6

Extrait d’une grille d’analyseExtrait d’une grille d’analyse1. Corpus1. Corpus

Page 7: Traitement Automatique des Langues appliqué à l’Acquisition du Langage Apports d’une pluridisciplinarité Luiggi SANSONETTI EA 2290 SYLED – EA 170 CALIPSO.

Colloque International APLIC Paris, 25-26 Juin 2004

7

Exemple d’un tableau récapitulatifExemple d’un tableau récapitulatif1. Corpus1. Corpus

Page 8: Traitement Automatique des Langues appliqué à l’Acquisition du Langage Apports d’une pluridisciplinarité Luiggi SANSONETTI EA 2290 SYLED – EA 170 CALIPSO.

Colloque International APLIC Paris, 25-26 Juin 2004

8

Exemple d’un graphique Exemple d’un graphique d’évolutiond’évolution

1. Corpus1. Corpus

Page 9: Traitement Automatique des Langues appliqué à l’Acquisition du Langage Apports d’une pluridisciplinarité Luiggi SANSONETTI EA 2290 SYLED – EA 170 CALIPSO.

Colloque International APLIC Paris, 25-26 Juin 2004

9

2. Repérage automatique2. Repérage automatique

• Logiciel utilisé :Logiciel utilisé :– Lexico3 Lexico3 (SYLED 2290 – A. Salem, W. Martinez, (SYLED 2290 – A. Salem, W. Martinez,

C. Lamalle, S. Fleury)C. Lamalle, S. Fleury)

http://www.cavi.univ-paris http://www.cavi.univ-paris 3.fr/ilpga/ilpga/tal/lexicoWWW3.fr/ilpga/ilpga/tal/lexicoWWW

• Corpus utilisés :Corpus utilisés :– JulienJulien– MathildeMathilde

Page 10: Traitement Automatique des Langues appliqué à l’Acquisition du Langage Apports d’une pluridisciplinarité Luiggi SANSONETTI EA 2290 SYLED – EA 170 CALIPSO.

Colloque International APLIC Paris, 25-26 Juin 2004

10

Phases de Préparation du Phases de Préparation du corpuscorpus

2. Reprises et 2. Reprises et ReformulationsReformulations

Page 11: Traitement Automatique des Langues appliqué à l’Acquisition du Langage Apports d’une pluridisciplinarité Luiggi SANSONETTI EA 2290 SYLED – EA 170 CALIPSO.

Colloque International APLIC Paris, 25-26 Juin 2004

11

Dictionnaire des formesDictionnaire des formes2. Reprises et 2. Reprises et

ReformulationsReformulations

Page 12: Traitement Automatique des Langues appliqué à l’Acquisition du Langage Apports d’une pluridisciplinarité Luiggi SANSONETTI EA 2290 SYLED – EA 170 CALIPSO.

Colloque International APLIC Paris, 25-26 Juin 2004

12

Carte des énoncésCarte des énoncés

Qui parle

Dialogue n°

Enoncé n°

Forme recherchée

2. Reprises et 2. Reprises et ReformulationsReformulations

Page 13: Traitement Automatique des Langues appliqué à l’Acquisition du Langage Apports d’une pluridisciplinarité Luiggi SANSONETTI EA 2290 SYLED – EA 170 CALIPSO.

Colloque International APLIC Paris, 25-26 Juin 2004

13

Repérage des Feed-backRepérage des Feed-back2. Reprises et 2. Reprises et

ReformulationsReformulations

Page 14: Traitement Automatique des Langues appliqué à l’Acquisition du Langage Apports d’une pluridisciplinarité Luiggi SANSONETTI EA 2290 SYLED – EA 170 CALIPSO.

Colloque International APLIC Paris, 25-26 Juin 2004

14

Repérage des tentativesRepérage des tentatives2. Reprises et 2. Reprises et

ReformulationsReformulations

Page 15: Traitement Automatique des Langues appliqué à l’Acquisition du Langage Apports d’une pluridisciplinarité Luiggi SANSONETTI EA 2290 SYLED – EA 170 CALIPSO.

Colloque International APLIC Paris, 25-26 Juin 2004

15

3. Etiquetage de l’oral3. Etiquetage de l’oral

• Corpus utilisés :Corpus utilisés :– JulienJulien– MathildeMathilde

• Logiciels utilisés :Logiciels utilisés :– Cordial Université 6Cordial Université 6 (Synapse Developpement)(Synapse Developpement)

http://www.synapse-fr.comhttp://www.synapse-fr.com

– MkCorpus MkCorpus (CLA2T/SYLED – S. Fleury)(CLA2T/SYLED – S. Fleury)http://www.cavi.univ-paris3.fr/ilpga/ilpga/sfleury/http://www.cavi.univ-paris3.fr/ilpga/ilpga/sfleury/

mkcorpusProject.htmmkcorpusProject.htm

Page 16: Traitement Automatique des Langues appliqué à l’Acquisition du Langage Apports d’une pluridisciplinarité Luiggi SANSONETTI EA 2290 SYLED – EA 170 CALIPSO.

Colloque International APLIC Paris, 25-26 Juin 2004

16

Forme-Cat et Lemme-CatForme-Cat et Lemme-Cat3. Corpus étiquetés3. Corpus étiquetés

Page 17: Traitement Automatique des Langues appliqué à l’Acquisition du Langage Apports d’une pluridisciplinarité Luiggi SANSONETTI EA 2290 SYLED – EA 170 CALIPSO.

Colloque International APLIC Paris, 25-26 Juin 2004

17

Concordance des PREPConcordance des PREP3. Corpus étiquetés3. Corpus étiquetés

Page 18: Traitement Automatique des Langues appliqué à l’Acquisition du Langage Apports d’une pluridisciplinarité Luiggi SANSONETTI EA 2290 SYLED – EA 170 CALIPSO.

Colloque International APLIC Paris, 25-26 Juin 2004

18

Repérage SubjonctifRepérage Subjonctif3. Corpus étiquetés3. Corpus étiquetés

Page 19: Traitement Automatique des Langues appliqué à l’Acquisition du Langage Apports d’une pluridisciplinarité Luiggi SANSONETTI EA 2290 SYLED – EA 170 CALIPSO.

Colloque International APLIC Paris, 25-26 Juin 2004

19

4. Evolution et 4. Evolution et AjustementAjustement

Adulte« Claire »

Livre illustré« CRICTOR »

Julien1 Julien2 Julien3

EnoncésAdultead1-1

EnoncésJulienju1-1

EnoncésAdultead1-2

EnoncésJulienju1-2

EnoncésAdultead1-3

EnoncésJulienju1-3

Juli

en

Juli

en

Math

ild

eM

ath

ild

e

Adulte« Claire »

Livre illustré« CRICTOR »

Mathilde1Mathilde2Mathilde3

EnoncésAdultead2-1

EnoncésJulienma2-1

EnoncésAdultead2-2

EnoncésJulienma2-2

EnoncésAdultead2-3

EnoncésJulienma2-3

Page 20: Traitement Automatique des Langues appliqué à l’Acquisition du Langage Apports d’une pluridisciplinarité Luiggi SANSONETTI EA 2290 SYLED – EA 170 CALIPSO.

Colloque International APLIC Paris, 25-26 Juin 2004

20

Prep+VInfPrep+VInf4. Evolution et Ajustement4. Evolution et Ajustement

Page 21: Traitement Automatique des Langues appliqué à l’Acquisition du Langage Apports d’une pluridisciplinarité Luiggi SANSONETTI EA 2290 SYLED – EA 170 CALIPSO.

Colloque International APLIC Paris, 25-26 Juin 2004

21

Ajustement du langageAjustement du langage4. Evolution et Ajustement4. Evolution et Ajustement

Page 22: Traitement Automatique des Langues appliqué à l’Acquisition du Langage Apports d’une pluridisciplinarité Luiggi SANSONETTI EA 2290 SYLED – EA 170 CALIPSO.

Colloque International APLIC Paris, 25-26 Juin 2004

22

5. Limites de la 5. Limites de la rechercherecherche

• Peu de corpus et corpus trop petitsPeu de corpus et corpus trop petits

• Transcriptions et représentationsTranscriptions et représentations

• Etiquetage automatiqueEtiquetage automatique

Page 23: Traitement Automatique des Langues appliqué à l’Acquisition du Langage Apports d’une pluridisciplinarité Luiggi SANSONETTI EA 2290 SYLED – EA 170 CALIPSO.

Colloque International APLIC Paris, 25-26 Juin 2004

23

Mots inconnusMots inconnus5. Limites5. Limites

Page 24: Traitement Automatique des Langues appliqué à l’Acquisition du Langage Apports d’une pluridisciplinarité Luiggi SANSONETTI EA 2290 SYLED – EA 170 CALIPSO.

Colloque International APLIC Paris, 25-26 Juin 2004

24

Erreurs d’étiquetageErreurs d’étiquetage5. Limites5. Limites

« en fait » a trois étiquetages différents :– en fait_ADV (7 occurrences) uniquement dans le discours de l’adulte ;– en_PREP fait_NCMS (13 occurrences) ;– en_PREP fait_ADJMS (3 occurrences) uniquement en début d’énoncé avec le segment « madame Bodot » à la suite.

« pour » :– pour (11 occurrences) en contexte « pour que_SUB » ;– pour_PREP (88 occurrences) dont une en contexte « pour_PREP que_SUB » ;– pour_NCMS (2 occurrences) dans les énoncés suivants :- <ma207> […] elle l’amena des palmiers pour euh remettre sa / pour- <ad=337> euh on a que cinq doigts dans une main six comme les / pour les six pattes d’un insecte […].

Page 25: Traitement Automatique des Langues appliqué à l’Acquisition du Langage Apports d’une pluridisciplinarité Luiggi SANSONETTI EA 2290 SYLED – EA 170 CALIPSO.

Colloque International APLIC Paris, 25-26 Juin 2004

25

MerciMerci

[email protected]@noos.fr

http://mapage.noos.fr/luiggi.sansonetti/http://mapage.noos.fr/luiggi.sansonetti/