Traitement Automatique des Langues appliqué à l’Acquisition du Langage Apports d’une...
-
Upload
ariane-robinet -
Category
Documents
-
view
109 -
download
0
Transcript of Traitement Automatique des Langues appliqué à l’Acquisition du Langage Apports d’une...
Traitement Automatique des Languesappliqué
à l’Acquisition du Langage
Apports d’une pluridisciplinarité
Luiggi SANSONETTI
EA 2290 SYLED – EA 170 CALIPSO
Colloque International APLIC – 25/26 Juin 2004 – Paris
Colloque International APLIC Paris, 25-26 Juin 2004
2
PlanPlan• 1. Corpus utilisés1. Corpus utilisés• 2. Repérage automatique des 2. Repérage automatique des
reprises et reformulationsreprises et reformulations• 3. Etiquetage morphosyntaxique3. Etiquetage morphosyntaxique• 4. Evolution du langage et 4. Evolution du langage et
ajustement des locuteursajustement des locuteurs• 5. Limites de l’automatisation de 5. Limites de l’automatisation de
certaines tâches et « remèdes » certaines tâches et « remèdes » possiblespossibles
Colloque International APLIC Paris, 25-26 Juin 2004
3
IntroductionIntroduction
• Corpus d’interactions verbales Corpus d’interactions verbales adulte/enfantadulte/enfant– Enregistrement Enregistrement (K7, DAT, VIDEO)(K7, DAT, VIDEO)
– Transcription Transcription (conventions suivant objectifs)(conventions suivant objectifs)
– Analyses Analyses (grilles, courbes, tableaux)(grilles, courbes, tableaux)• Logiciels et programmes informatiquesLogiciels et programmes informatiques
– Correcteur orthographique Correcteur orthographique (syntaxe, grammaire)(syntaxe, grammaire)
– Statistique textuelle Statistique textuelle (lexicométrie, évolution du (lexicométrie, évolution du vocabulaire)vocabulaire)
– Traitement du signal Traitement du signal (phonologie, prosodie)(phonologie, prosodie)
Colloque International APLIC Paris, 25-26 Juin 2004
4
1. Corpus utilisés1. Corpus utilisés
• JulienJulien– 3 dialogues de 5 ans 10 mois à 6 ans 4 mois3 dialogues de 5 ans 10 mois à 6 ans 4 mois– Transcriptions imprimées et sauvegardées sur Transcriptions imprimées et sauvegardées sur
disquettedisquette– Analyses, grilles, courbes, tableauxAnalyses, grilles, courbes, tableaux
• MathildeMathilde– 3 dialogues de 4 ans 9 mois à 4 ans 11 mois3 dialogues de 4 ans 9 mois à 4 ans 11 mois– Transcriptions imprimées et sauvegardées sur Transcriptions imprimées et sauvegardées sur
disquettedisquette– Analyses, grilles, courbes, tableauxAnalyses, grilles, courbes, tableaux
Colloque International APLIC Paris, 25-26 Juin 2004
5
Extrait d’une transcription d’un Extrait d’une transcription d’un autre corpusautre corpus
1. Corpus1. Corpus
Colloque International APLIC Paris, 25-26 Juin 2004
6
Extrait d’une grille d’analyseExtrait d’une grille d’analyse1. Corpus1. Corpus
Colloque International APLIC Paris, 25-26 Juin 2004
7
Exemple d’un tableau récapitulatifExemple d’un tableau récapitulatif1. Corpus1. Corpus
Colloque International APLIC Paris, 25-26 Juin 2004
8
Exemple d’un graphique Exemple d’un graphique d’évolutiond’évolution
1. Corpus1. Corpus
Colloque International APLIC Paris, 25-26 Juin 2004
9
2. Repérage automatique2. Repérage automatique
• Logiciel utilisé :Logiciel utilisé :– Lexico3 Lexico3 (SYLED 2290 – A. Salem, W. Martinez, (SYLED 2290 – A. Salem, W. Martinez,
C. Lamalle, S. Fleury)C. Lamalle, S. Fleury)
http://www.cavi.univ-paris http://www.cavi.univ-paris 3.fr/ilpga/ilpga/tal/lexicoWWW3.fr/ilpga/ilpga/tal/lexicoWWW
• Corpus utilisés :Corpus utilisés :– JulienJulien– MathildeMathilde
Colloque International APLIC Paris, 25-26 Juin 2004
10
Phases de Préparation du Phases de Préparation du corpuscorpus
2. Reprises et 2. Reprises et ReformulationsReformulations
Colloque International APLIC Paris, 25-26 Juin 2004
11
Dictionnaire des formesDictionnaire des formes2. Reprises et 2. Reprises et
ReformulationsReformulations
Colloque International APLIC Paris, 25-26 Juin 2004
12
Carte des énoncésCarte des énoncés
Qui parle
Dialogue n°
Enoncé n°
Forme recherchée
2. Reprises et 2. Reprises et ReformulationsReformulations
Colloque International APLIC Paris, 25-26 Juin 2004
13
Repérage des Feed-backRepérage des Feed-back2. Reprises et 2. Reprises et
ReformulationsReformulations
Colloque International APLIC Paris, 25-26 Juin 2004
14
Repérage des tentativesRepérage des tentatives2. Reprises et 2. Reprises et
ReformulationsReformulations
Colloque International APLIC Paris, 25-26 Juin 2004
15
3. Etiquetage de l’oral3. Etiquetage de l’oral
• Corpus utilisés :Corpus utilisés :– JulienJulien– MathildeMathilde
• Logiciels utilisés :Logiciels utilisés :– Cordial Université 6Cordial Université 6 (Synapse Developpement)(Synapse Developpement)
http://www.synapse-fr.comhttp://www.synapse-fr.com
– MkCorpus MkCorpus (CLA2T/SYLED – S. Fleury)(CLA2T/SYLED – S. Fleury)http://www.cavi.univ-paris3.fr/ilpga/ilpga/sfleury/http://www.cavi.univ-paris3.fr/ilpga/ilpga/sfleury/
mkcorpusProject.htmmkcorpusProject.htm
Colloque International APLIC Paris, 25-26 Juin 2004
16
Forme-Cat et Lemme-CatForme-Cat et Lemme-Cat3. Corpus étiquetés3. Corpus étiquetés
Colloque International APLIC Paris, 25-26 Juin 2004
17
Concordance des PREPConcordance des PREP3. Corpus étiquetés3. Corpus étiquetés
Colloque International APLIC Paris, 25-26 Juin 2004
18
Repérage SubjonctifRepérage Subjonctif3. Corpus étiquetés3. Corpus étiquetés
Colloque International APLIC Paris, 25-26 Juin 2004
19
4. Evolution et 4. Evolution et AjustementAjustement
Adulte« Claire »
Livre illustré« CRICTOR »
Julien1 Julien2 Julien3
EnoncésAdultead1-1
EnoncésJulienju1-1
EnoncésAdultead1-2
EnoncésJulienju1-2
EnoncésAdultead1-3
EnoncésJulienju1-3
Juli
en
Juli
en
Math
ild
eM
ath
ild
e
Adulte« Claire »
Livre illustré« CRICTOR »
Mathilde1Mathilde2Mathilde3
EnoncésAdultead2-1
EnoncésJulienma2-1
EnoncésAdultead2-2
EnoncésJulienma2-2
EnoncésAdultead2-3
EnoncésJulienma2-3
Colloque International APLIC Paris, 25-26 Juin 2004
20
Prep+VInfPrep+VInf4. Evolution et Ajustement4. Evolution et Ajustement
Colloque International APLIC Paris, 25-26 Juin 2004
21
Ajustement du langageAjustement du langage4. Evolution et Ajustement4. Evolution et Ajustement
Colloque International APLIC Paris, 25-26 Juin 2004
22
5. Limites de la 5. Limites de la rechercherecherche
• Peu de corpus et corpus trop petitsPeu de corpus et corpus trop petits
• Transcriptions et représentationsTranscriptions et représentations
• Etiquetage automatiqueEtiquetage automatique
Colloque International APLIC Paris, 25-26 Juin 2004
23
Mots inconnusMots inconnus5. Limites5. Limites
Colloque International APLIC Paris, 25-26 Juin 2004
24
Erreurs d’étiquetageErreurs d’étiquetage5. Limites5. Limites
« en fait » a trois étiquetages différents :– en fait_ADV (7 occurrences) uniquement dans le discours de l’adulte ;– en_PREP fait_NCMS (13 occurrences) ;– en_PREP fait_ADJMS (3 occurrences) uniquement en début d’énoncé avec le segment « madame Bodot » à la suite.
« pour » :– pour (11 occurrences) en contexte « pour que_SUB » ;– pour_PREP (88 occurrences) dont une en contexte « pour_PREP que_SUB » ;– pour_NCMS (2 occurrences) dans les énoncés suivants :- <ma207> […] elle l’amena des palmiers pour euh remettre sa / pour- <ad=337> euh on a que cinq doigts dans une main six comme les / pour les six pattes d’un insecte […].
Colloque International APLIC Paris, 25-26 Juin 2004
25
MerciMerci
[email protected]@noos.fr
http://mapage.noos.fr/luiggi.sansonetti/http://mapage.noos.fr/luiggi.sansonetti/