U TILISATION DE CORPUS DE LANGAGE ORAL AVEC D AUTRES LOGICIELS Christophe Parisse, Inserm,...

91
UTILISATION DE CORPUS DE LANGAGE ORAL AVEC D’AUTRES LOGICIELS Christophe Parisse, Inserm, Modyco/CNRS Université Paris Ouest Nanterre

Transcript of U TILISATION DE CORPUS DE LANGAGE ORAL AVEC D AUTRES LOGICIELS Christophe Parisse, Inserm,...

  • Page 1
  • Page 2
  • U TILISATION DE CORPUS DE LANGAGE ORAL AVEC D AUTRES LOGICIELS Christophe Parisse, Inserm, Modyco/CNRS Universit Paris Ouest Nanterre
  • Page 3
  • T LCHARGEMENTS Elan: http://tla.mpi.nl/tools/tla-tools/elan/download/http://tla.mpi.nl/tools/tla-tools/elan/download/ Prsentation des donnes en partitions, codage des gestes, des interactions et reprsentation temporelle fine des donnes Clan: http://childes.psy.cmu.edu/clan/http://childes.psy.cmu.edu/clan/ Codage textuel complet du langage oral (en particulier acquisition du langage). Prsentation textuelles avec donnes secondaires. Commandes annexes. Transcriber: http://trans.sourceforge.nethttp://trans.sourceforge.net Codage textuel des interactions. Transcription au kilomtre. Pas de donnes secondaires. Praat: http://www.fon.hum.uva.nl/praat/http://www.fon.hum.uva.nl/praat/ Logiciel de traitement et affichage de sons. Excel ou LibreOffice: Logiciels de manipulation de tableau de donnes R: http://cran.univ-lyon1.fr/http://cran.univ-lyon1.fr/ Le logiciel libre de statistique, de traitement de corpus, de cration de graphiques TXM: http://textometrie.ens-lyon.fr/http://textometrie.ens-lyon.fr/ Un logiciel de textomtrie permettant limport de multiples fichiers textes Le Trameur: http://www.tal.univ-paris3.fr/trameur/http://www.tal.univ-paris3.fr/trameur/ Un autre logiciel de textomtrie possdant des caractristiques diffrentes (seulement sous Windows) Jedit, Notepad++, TextWrangler Editeurs de texte brut permettant de modifier et de corriger semi-automatiquement les corpus de texte ou les tableaux en texte spars par des tabulations ou des virgules
  • Page 4
  • U TILISATION DE TABLEUR, DE LOGICIELS DE TEXTOMTRIE (TXM), DE STATISTIQUES (R), AVEC DES CORPUS DE LANGAGE ORAL Plan du cours Extraction depuis des corpus: Vers du texte en lignes et colonnes (pour tableur) Vers du texte avec des sparateurs (pour textomtrie) Vers des fichiers structurs (XML simplifi) Utilisation de logiciel de textomtrie Lexique Concordances Cooccurrences Autres fonctions Utilisation avec un tableur Codage Passage vers un logiciel de statistiques Retour vers un logiciel de transcription
  • Page 5
  • E XPORTATIONS
  • Page 6
  • E XTRACTION DE CORPUS La plupart des logiciels dalignement de corpus ont des outils permettant lexport vers des formats textes ou csv (donnes spares par des virgules ou des tabulations) Cette exportation permet de travailler avec des outils de statistiques, de textomtrie, ou des tableurs. Il est parfois ncessaire, selon loutil que lon va utiliser de faire des ajustements sur les fichiers obtenus Changement dencodage (format des accents) Insertion dentete de fichiers Insertion ou modification des formats de lignes ou de mots La conversion peut tre loccasion dutiliser doutils (analyse syntaxique par exemple)
  • Page 7
  • E XEMPLES DE CORPUS Le tutoriel est bas sur des exemples de corpus de plusieurs origines et formats: Transcriber: Corpus du franais parl parisien (http://cfpp2000.univ-paris3.fr/ )http://cfpp2000.univ-paris3.fr/ Clan: Corpus de Madeleine (Morgenstern Paris corpus : Childes http://childes.psy.cmu.edu )http://childes.psy.cmu.edu
  • Page 8
  • C ONVERSION DEPUIS T RANSCRIBER Les conversions de Transcriber vers du format texte peuvent se faire facilement en passant par ELAN ou par CLAN. TXM permet aussi limport direct depuis Transcriber. ELAN ne permet toutefois pas le traitement de multiples fichiers Transcriber Fichiers convertir un par un Passer de Transcriber Clan Un outil est disponible ( tlcharger sur la page du workshop : Conversion.jar attention ncessite Java) Il permet une conversion vers Clan de rpertoires complets
  • Page 9
  • C ONVERSIONS. JAR ( NCESSITE J AVA ) Cliquer sur: Convertir de Transcriber Vers CLAN Choisir dossier ou fichiers Convertir !
  • Page 10
  • C ONVERSION DEPUIS CLAN Les conversions depuis CLAN se ralisent laide des commandes de CLAN CLAN permet de traiter en une seule fois tout un ensemble de fichiers CLAN permet de choisir les parties extraire Il est aussi possible de nettoyer les corpus des codes spcifiques CHAT quils peuvent contenir et mettre les noncs dans une seule ligne (ou paragraphe) Les commandes CLAN permet aussi une conversion vers un format TABLEUR
  • Page 11
  • C OMMANDES CLAN D EXTRACTION DE T EXTE FLO cre une ligne secondaire %flo contenant la transcription orthographique sans les codes spcifiques de CHAT Loption -d supprime la ligne principale et la remplace par la ligne sans code Loption -cm filtre la ligne principale de manire parallle la ligne %mor: LONGTIER cre un fichier CLAN sans retour la ligne (tous les tiers sont mis sur une seule ligne) cette option facilite le traitement par certains logiciels KWAL permet dextraire certaines parties dun corpus selon ses besoins
  • Page 12
  • E NCHAINEMENT DES COMMANDES CLAN CLAN permet denchainer plusieurs commandes de suite Dabord FLO, puis LONGTIER, puis KWAL Chaque commande traite tous les fichiers et cre un nouveau fichier avec le rsultat Soit cre un nouveau fichier avec une nouvelle extension Soit remplace lancien fichier (attention avoir fait une copie !). Par exemple: Andre-Morange.cha puis aprs FLO Andre-Morange.flo.cex puis aprs LONGTIER Andre-Morange.flo.longtr.cex puis aprs KWAL Andre-Morange.flo.longtr.kwal.cex
  • Page 13
  • C OMMANDE KWAL La commande kwal est la commande fondamentale pour extraire des donnes au format texte depuis des fichiers CLAN. Elle est utilise pour le texte et pour linsertion dans un tableur. Elle possde 18 paramtres dont 3 sont fondamentaux pour lexportation: +dvaleur : paramtre rglant le format de sortie +d sortie au format texte brut +d4 sortie au format tableur +tvaleur : spcifie les champs rechercher et afficher +t*NOM cherche les lignes principales du locuteur NOM +t%tier cherche les lignes secondaires de nom %tier -t*NOM cherche les lignes principales sauf celles du locuteur NOM -t%tier cherche les lignes secondaires sauf celles de nom %tier
  • Page 14
  • C OMMANDE K WAL : SUITE +ovaleur : spcifie les champs produire en dehors de ceux concerns par +t +o*MOT produit le locuteur MOT mme sil nest pas recherch par +t +o%sit produit les lignes secondaires %sit mme si elles ne sont pas recherches par +t +smotif : spcifie un motif rechercher dans les lments indiqus par +t/-t permet de nextraire quune partie des donnes +u combine tous les fichiers en un seul +wx -wx produit des noncs avant ou aprs les lments recherchs +xCNT produit seulement les noncs de C(> table(t$enfant,t$nbargs) rsultats bruts 0 1 2 3 4 leonard 65 35 51 19 0 madeleine 257 129 265 104 1 theophile 38 23 48 7 0 >">
  • Q UELQUES STATISTIQUES > table(t$enfant,t$nbargs) rsultats bruts 0 1 2 3 4 leonard 65 35 51 19 0 madeleine 257 129 265 104 1 theophile 38 23 48 7 0 > round(prop.table(table(t$enfant,t$nbargs),1),2)*100 pourcentages 0 1 2 3 4 leonard 38 21 30 11 0 madeleine 34 17 35 14 0 theophile 33 20 41 6 0 > chisq.test(c(65,35,51,19),c(257,129,265,104)) pas de diffrence entre lonard Pearson's Chi-squared test et madeleine data: c(65, 35, 51, 19) and c(257, 129, 265, 104) X-squared = 12, df = 9, p-value = 0.2133 > chisq.test(c(65,35,51,19),c(38,23,48,7)) pas de diffrence entre lonar d Pearson's Chi-squared test et thophile data: c(65, 35, 51, 19) and c(38, 23, 48, 7) X-squared = 12, df = 9, p-value = 0.2133 > chisq.test(c(257,129,265,104),c(38,23,48,7)) pas de diffrence entre madeleine Pearson's Chi-squared test et thophile data: c(257, 129, 265, 104) and c(38, 23, 48, 7) X-squared = 12, df = 9, p-value = 0.2133
  • Page 90
  • E T UN GRAPHIQUE > barplot(prop.table(table(t$enfant,t$nbargs),1), beside=T, legend=c('leonard','madeleine','theophile)
  • Page 91
  • Editer le fichier tableur et exporter la feuille Convertir le format si ncessaire Choisir le format de chaque colonne Rsultat dans ELAN I MPORTER DE E XCEL VERS E LAN
  • Page 92
  • A UTRES IMPORTATIONS Il est possible dimporter depuis Transcriber (fichier de transcription), depuis Praat, depuis CLAN. Les importations depuis des CSV (fichiers spars par des tabulations) peuvent tre rptes successivement en tirant parti de la fonction Fusionner les transcriptions (menu Fichier) elle permet de superposer deux transcriptions et de mettre le rsultat dans un nouveau fichier ce qui permet de faire plusieurs traitements ou transcriptions successives