Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline...

61
Aix-MARSEC : Une proposition de Aix-MARSEC : Une proposition de traitement automatique de corpus traitement automatique de corpus d’anglais britannique oral d’anglais britannique oral Caroline Bouzon, Cyril Auran Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst Laboratoire Parole & Langage Laboratoire Parole & Langage Université de Provence Université de Provence Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

Transcript of Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline...

Page 1: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

Aix-MARSEC : Une proposition de Aix-MARSEC : Une proposition de traitement automatique de corpus traitement automatique de corpus

d’anglais britannique orald’anglais britannique oral

Caroline Bouzon, Cyril AuranCaroline Bouzon, Cyril Auran

& Daniel Hirst& Daniel Hirst

Laboratoire Parole & LangageLaboratoire Parole & Langage

Université de ProvenceUniversité de ProvenceLes corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

Page 2: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

Aix-MARSECAix-MARSEC

PLAN

I) Petit tour d’horizon des Corpus en anglais

1) Des corpus nombreux et variés 2) Les corpus oraux 3) Les corpus oraux britanniques

II) Le corpus Aix-MARSEC 1) Les origines 2) de MARSEC à Aix-MARSEC : traitements 3) perspectives

Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

Page 3: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais

Des corpus nombreux et variés

A titre d’exemple, on pourra citer les corpus disponibles à l’UCREL :

* The British National Corpus (BNC) * The Lancaster/Oslo-Bergen Corpus (LOB) * The Brown University Corpus * The Kolhapur Corpus * The Longman-Lancaster Corpus * The Lancaster/IBM Spoken English Corpus (SEC) * The London-Lund Corpus * The ET10-63 Corpus * The International Telecommunications Union (ITU) or CRATER Corpus * The Helsinki Corpus (Diachronic Part) * The Lampeter Corpus of Early Modern English Tracts

Diapo 1

Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

Page 4: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

Des corpus nombreux et variés

Suite des corpus disponibles à l’UCREL :

* The Lancaster-Leeds Treebank * The Lancaster Parsed Corpus (LPC) • The American Printing House for the Blind Treebank (APHB) * The Associated Press Treebank (AP) * The Canadian Hansard Treebank * The IBM Manuals Treebank * The Anaphoric Treebank * The ACL/DCI CD-ROM * The WordCruncher Disk

Diapo 2

Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais

Page 5: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

Sans oublier quelques travaux pré-électroniques :

* cruden : Concordance of the Authorized version of the Bible (1736) * Johnson : Dictionary of the english language * The Oxford English Dictionary (1928) * Webster : An American Dictionary of the English Language (1928) * Wright : The English Dialect Dictionary (1898 - 1905) * Ellis : The Existing Phonology of English Dialects (1889) * Thorndike : Teacher’s Workbook (1921) * Thorndike & Lorge : The Teacher’s Workbook of 30,000 words (1944) * Jespersen : A Modern English Grammar on Historical Principles (1909 - 49) * Kruisinga : A Handbook of Present-Day English (1931-32) * Poutsma : A Grammar of Late Modern English (1926-29) * Fries : American English Grammar (1940) * Fries : The Structure of English (1952) * Quirk : The Survey of English Usage (1968)

Des corpus nombreux et variés

Diapo 3

Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais

Page 6: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

Des corpus nombreux et variés

Corpus Généralistes :

- Brown University Corpus- LOB Corpus

- Brittish National Corpus- Kohlapur Corpus of Indian English

- Wellington Corpus of Written New Zealand English- Australian Corpus of English

- …

Corpus Orientés :

- Oxford Psycholinguistic Database- Child Language Data Exchange System

- European Science Foundation Second Language Databank- International Corpus of Learner’s English

-Canterbury Corpus- BDBRUIT Database

- …

1) Approche généraliste / Orientée (type d’exploitation visé)

Critères de classification utilisables :

Diapo 4

Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais

Page 7: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

Des corpus nombreux et variés

1) Approche généraliste / Orientée (type d’exploitation visé)

2) Approche Dialectologique (type de population étudiée)

Par pays :

- Wellington Corpus of New zealand English- Corpus of Spoken American English

- Brown University Corpus- Australian Corpus of English

- Corpus of English Canadian Writing- Kohlapur Corpus of Indian English

- …

Par Groupes sociaux ou provinces :

- COLT- IViE

- PAC :o)- …

Critères de classification utilisables :

Diapo 5

Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais

Page 8: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

Des corpus nombreux et variés

1) Approche généraliste / Orientée (type d’exploitation visé)

2) Approche Dialectologique (type de population étudiée)

3) Approche Stylistique (type de texte)

Critères de classification utilisables :

Par Style de texte :

- Jiao Tang University Corpus of English in Science- COLT (London teenage colloquial English)

- CRATER Corpus (telecom English)- Lampeter Corpus of Early Modern English Tracts

-…

Par modalité de production :

Recours à une échelle de spontanéité

Lecture de mots isolés … Lecture de phrases … MAP Task … Conversation guidée … Parole publique …

conversation libre … Conversation libre enregistrée à l’insu des locuteurs

Diapo 6

Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais

Page 9: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

Des corpus nombreux et variés

1) Approche généraliste / Orientée (type d’exploitation visé)

2) Approche Dialectologique (type de population étudiée)

3) Approche Stylistique (type de texte)

4) Nature des données enregistrées

Critères de classification utilisables :

Données écrites :

- LOB Corpus- Brown University Corpus

- Kohlapur Corpus- BNC (90 %)

- …

Données orales :

-BNC (10 %)- Lancaster/IBM Spoken English Corpus (SEC)

- London-Lund Corpus- IviE- …

Diapo 7

Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais

Page 10: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

Des corpus nombreux et variés

1) Approche généraliste / Orientée (type d’exploitation visé)

2) Approche Dialectologique (type de population étudiée)

3) Approche Stylistique (type de texte)

4) Nature des données enregistrées

5) Format des données disponibles (données enregistrées orales)

Critères de classification utilisables :

Transcriptions seules :

- BNC- American National Corpus

- Corpus of Spoken Professional American English-Canadian Hansard Treebank

- …

Transcriptions et fichiers son :

- MULTEXT- ICE (International Corpus of English)

- SBCSAE- IViE- …

Diapo 8

Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais

Page 11: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

Les corpus Oraux

Corpus Oraux

=Corpus de données orales

Disponibles sous un format audio

Diapo 9

Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais

Page 12: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

Les corpus Oraux

Disponibles sous un format audio

Corpus Oraux

=Corpus de données orales

Diapo 9

Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais

Page 13: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

Les corpus Oraux

Disponibles sous un format audio

Mais encore ???Nature des transcriptions ???

Format des Transcriptions ???

Diapo 10

Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais

Page 14: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

Les corpus OrauxNature des transcriptions ???

Ponctuée / NON Ponctuée

Annotée / Non annotée

Annotée

- Syntaxe (étiquetage “POS” / structures)- Phonétique / Phonologie (segmental / “supra-segmental”)- Infos Conversationnelles (Tours de parole, chevauchements, …)- Infos DISCURSIVES (Structure informationnelle, référentielle,

rhétorique, hiérarchique-fonctionnelle, …)

Orthographique

Diapo 11

Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais

Page 15: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

Les corpus OrauxNature des transcriptions ???

OrthographiqueNON-Orthographique

Diapo 12

Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais

Page 16: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

Les corpus OrauxFormat des transcriptions ???

Texte “simple”(Plain Text)

Diapo 13

Fichiers au format ASCII,Non destinés à un logiciel particulier :

Exploitation manuelle facilitéeMais

Traitement exhaustif difficile

Portabilité maximaliséeMais

Traitement automatique direct impossibleLes corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais

Page 17: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

Les corpus OrauxFormat des transcriptions ???

Exemple de Texte “simple” : LLC:c

Diapo 14

Version réduite du LLC (cf. Svartvick & Quirk 1980)Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais

Page 18: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

Les corpus OrauxFormat des transcriptions ???

Exemple de Texte “simple” : MARSEC

Diapo 15

Transcription MARSEC

signal a0101type 0color 121comment created by Caro et Cyrilfont -adobe-helvetica-medium-r-normal--14-140-75-75-p-77-iso8859-1separator ;nfields 1# 0.000000 122 || 0.570000 122 <Good 0.680000 122 `morning 1.160000 122 || 1.780000 122 >`more 1.940000 122 *news 2.281180 122 about 2.500000 122 the 2.630000 122 ~Reverend 2.950000 122 _Sun 3.290000 122 *Myung 3.643588 122 `Moon

Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais

Page 19: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

Les corpus OrauxFormat des transcriptions ???

Texte “formaté”

Diapo 16

Fichiers au format ASCII ou “compilés”,destinés à un logiciel particulier :

Exploitation manuelle plus difficilEMais

Exploitation exhaustive possible

Portabilité minimaliséeMais

Exploitation directe possible

Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais

Page 20: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

Les corpus OrauxFormat des transcriptions ???

Exemple de Texte “Formaté” : BNC

Diapo 17

Transcription BNC (Header)

<bncDoc id=BDFX8 n=093802><header type=text creator='natcorp' status=new update=1994-07-13> <fileDesc> <titStmt> <title> General Practitioners Surgery -- an electronic transcription </title> <respStmt> <resp> Data capture and transcription </resp> <name> Longman ELT </name> </respStmt> </titStmt> <ednStmt n=1> Automatically-generated header </ednStmt> <extent kb=7 words=128> </extent>

<u who=FX8PS000><s n=01><w ITJ>Ah <w AV0>there <w PNP>we <w VBB>are<c PUN>, <unclear><c PUN>.<s n=02><w AV0>Right <unclear> <w AJ0>abdominal <w NN1>wound<c PUN>, <w PNP>she<w VBZ>'s<w AT0>a <w AJ0>wee <w NN1>bit <pause> <w VVD>confused<c PUN>.<s n=03><w PNP>She <w VDD>did<w XX0>n't <w VVI>bother <w TO0>to <w VVI>tell <w PNP>me<w CJT>that <w PNP>she<w VHD>'d <w AV0>only <w VVN>got <unclear> <w TO0>to<w VVI>call <w PNP>you<c PUN>, <w AV0>right<c PUN>?<s n=04><w UNC>Erm <w PNP>she <w VBD>was<w XX0>n't <w PRP>in <w DPS>her <w NN1>nightdress<w CJC>but <w PNP>she <w AV0>only <w VVN>dressed <w PNX>herself<c PUN>, <w PNP>she<w VVD>said <ptr t=FX8LC001> <unclear> <ptr t=FX8LC002></u><u who=PS22T><s n=05><ptr t=FX8LC001> <w CJC>And <w PNP>you <unclear> <ptr t=FX8LC002></u>

Transcription BNCLes corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais

Page 21: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

Les corpus OrauxFormat des transcriptions ???

Exemple de Texte “Formaté” :IviE dans XWaves

Diapo 18

Transcription IviELes corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais

Page 22: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

Les corpus Oraux

Diapo 19

Les transcriptions sont en général :

orthographiques annotées

Texte simple / formaté

+ / - Alignées

Qu’en est-il des principaux corpus oraux d’anglais britannique ???

Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais

Page 23: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

Les corpus Oraux Britanniques

Diapo 20

Description sommaire de DEUX corpus oraux d’anglais Britannique :

1)ICE

2) IViE

Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais

Page 24: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

Les corpus Oraux Britanniques

Diapo 21

ICE :The International Corpus of English

Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais

Page 25: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

Les corpus Oraux BritanNiques

Diapo 22

ICE-GB :LE composant britannique

Début du programme : 1990

Objectif principal : Fournir les données nécessaires à une étude comparative des variantes nationales et régionales

de l’anglais

Nombre de partenaires : 20 centres

Composition : 1 million de mots(200 textes écrits, 300 textes oraux)

Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais

Page 26: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

Les corpus Oraux BritanNiques

Diapo 23

ICE-GB :LE composant britannique

Format des données : annotation syntaxique complète au format ICECUP (étiquetage +

structure syntaxique)

83.394 arbres au total

59.640 arbres pour la partie orale

Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais

Page 27: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

Les corpus Oraux BritanNiques

Diapo 24

ICE-GB :LE composant britannique

ICE-GB : un véritable corpus oral ???

Version 1 du corpus : Transcriptions seules …

Version 2 du Corpus : Transcriptions et fichiers son(Alignement ???)

(si oui, QuelLe granularité d’alignement ???)

Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais

Page 28: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

Les corpus Oraux BritanNiques

Diapo 25

IViE :Intonational Variation in English

Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais

Page 29: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

Les corpus Oraux BritanNiques

Diapo 26

Début du programme : 1997

Objectif principal : Fournir les données et les outils nécessaires à une étude comparative des variantes

intonatives régionales de l’anglais des îles britanniques

Nombre de points d’enquête : 9

Composition : 36 heures de parole(dont 4h transcrites et 1h disponible en ligne)

IViE :Intonational Variation in English

Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais

Page 30: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

Les corpus Oraux BritanNiques

Diapo 27

Composition (suite) : 5 modalités de production :

-Conversation- Interaction guidée (Map Task)

- Récit “de mémoire”- Lecture de texte

- Lecture de passages phonétiquement contrôlés

IViE :Intonational Variation in English

Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais

Page 31: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

Les corpus Oraux BritanNiques

Diapo 28

Format des données

Format Xwaves (Entropic Soft.) sous Unix

Possibilité d’Utilisation avec PitchWorks, WaveSurfer,

Praat, …

IViE :Intonational Variation in English

Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais

Page 32: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

Les corpus Oraux BritanNiques

Diapo 28

IViE :Intonational Variation in English

Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais

Page 33: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

Les corpus Oraux BritanNiques

Diapo 29

IViE :Intonational Variation in English

Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

IVIE : un véritable corpus oral d’anglais britannique

Un corpus orienté (intonation, pas d’annotation syntaxique ni de concordance)

Un corpus aligné au niveau du mot (fin d’unité)

Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais

Page 34: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

Les corpus Oraux BritanNiques

Diapo 30

En Résumé

Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

Les corpus sont nombreux mais rares sont ceux qui sont :

-réellement oraux

- sur l’anglais britannique

- disponibles (cf. CIC)

- Gratuits (ou presque …)

(cf. ICE : 477 € / EUROM 1 : 800-1600 € / …)

Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais

Page 35: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

1) Les origines

2) de MARSEC à Aix-MARSEC : traitements

3) perspectives

Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

Le corpus Aix-MARSEC

Page 36: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

Origines de MARSECOrigines de MARSECMARSEC: MAchine Readable Spoken English Corpus

SEC: Spoken English Corpus (Lancaster, Leeds, IBM)

Corpus d’environ 55 000 mots

Catégories de discours: bulletins d’informations, émissions religieuses, fiction, poésie, dialogues (de type mise en scène), commentaires sportifs).

53 locuteurs (17 locutrices et 36 locuteurs)

Archives de la BBC (début des années 1980)

Diapo 31

Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

Aix-MARSEC : Le corpus Aix-MARSEC Aix-MARSEC : Le corpus Aix-MARSEC

Page 37: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

Origines de MARSECOrigines de MARSEC

Durée : 339 minutes et 18 secondes, corpus divisé en fichiers de 60s environ

Alignement (temporel) au niveau du mot

Annotation prosodique: tonetic stress marks (G. Knowles & B. Williams)

80 passages de chevauchement (9% du corpus) pour comparaison

Diapo 32

Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

Aix-MARSEC : Le corpus Aix-MARSEC Aix-MARSEC : Le corpus Aix-MARSEC

Page 38: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

annotation prosodique (14 symboles ASCII) :_ low level~ high level< step-down> step-up/’ (high) rise-fall

‘/ high fall-rise/ high rise

\ high fall, low rise‘ low fall,\ (low rise-fall – not used)\, low fall-rise* stressed but unaccented| minor intonation unit boundary|| major intonation unit boundary

Diapo 33

Origines de MARSECOrigines de MARSEC

Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

Aix-MARSEC : Le corpus Aix-MARSEC Aix-MARSEC : Le corpus Aix-MARSEC

Page 39: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

DeDe

MARSECMARSEC

àà

AIX-MARSECAIX-MARSEC

Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

Aix-MARSEC : Le corpus Aix-MARSEC Aix-MARSEC : Le corpus Aix-MARSEC

Page 40: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

- Conversion des fichiers étiquettes au format ‘textgrid’ (Praat)

- Mise en correspondance des noms de fichiers son avec les noms de fichiers d’étiquettes (correction)

- Suppression des fichiers son défectueux

- Suppression des fichiers avec étiquettes manquantes

- Suppression totale de 3 fichiers

- Élimination des doublons (= fichiers de chevauchement) avec préférence pour BJW (sur GOK)

Homogénéisation du corpus

Diapo 34

Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

TraitementsAix-MARSEC : Le corpus Aix-MARSEC Aix-MARSEC : Le corpus Aix-MARSEC

Page 41: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

Vérification des étiquettes

Vérification et correction de la totalité des étiquettes de mot avec PRAAT

Fenêtre minimale de correction: 50ms (pas de modification dans le cas de décalages de moins de 50ms)

Modification d’étiquette dans 82 fichiers

Marquage des fichiers modifiés par ajout de ‘mod’ dans le nom (facilement identifiables)

Diapo 35

Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

TraitementsAix-MARSEC : Le corpus Aix-MARSEC Aix-MARSEC : Le corpus Aix-MARSEC

Page 42: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

Prédiction de la durée des phonèmes

Diapo 36

Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

TraitementsAix-MARSEC : Le corpus Aix-MARSEC Aix-MARSEC : Le corpus Aix-MARSEC

Algorithme inspiré de Campbell 1992

Appliqué au niveau du mot

Page 43: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

PHONETISATION DU CORPUS

Utilisation du dictionnaire ‘Advanced Learners’ Dictionary’ publié par ‘Oxford University Press’

Dictionnaire de transcription avec 71 000 mots en entrée

Conversion en SAMPA(= computer readable phonetic alphabet)

Fonctionnement général :

Recherche automatique de chaque mot du corpus dans le dictionnaire

SAMPA/ IPA

I

e e{ Q V U @ i: i:eI aI OI u: :@U aU 3: :A: :O: :I@ e@ U@

Utilisation du dictionnaire ‘Advanced Learners’ Dictionary’ publié par Oxford University Press

Dictionnaire de transcription avec 71 000 mots en entrée

Conversion en SAMPA(= computer readable phonetic alphabet)

Diapo 37

Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

TraitementsAix-MARSEC : Le corpus Aix-MARSEC Aix-MARSEC : Le corpus Aix-MARSEC

Page 44: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

Différentes étapes de la phonétisation (1)

CODAGE d’un Module perl traitant :

- les nombres et combinaisons de lettres + nombres (codes postaux),

- les suites de majuscules (abréviations),

- les génitifs et les formes contractées.

Diapo 38

Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

TraitementsTraitementsAix-MARSEC : Le corpus Aix-MARSEC Aix-MARSEC : Le corpus Aix-MARSEC

Page 45: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

Traitement des formes réduites

• dictionnaire : formes pleines uniquement (ex: « and » est transcrit /{nd/)

• Création d’un dictionnaire avec la liste des formes réduites et leur réalisation ex: « and » est transcrit /@nd/

Diapo 39

Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

TraitementsTraitements

Utilisation de ces formes dès lors qu’elles apparaissent sans marque prosodique

dans le corpus

ex: « ‘/and » = /{nd/

mais

« and » sans marque = /@nd/

Différentes étapes de la phonétisation (2)

Aix-MARSEC : Le corpus Aix-MARSEC Aix-MARSEC : Le corpus Aix-MARSEC

Page 46: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

Lors de la phonétisation, 900 mots présents dans le corpus n’apparaissaient pas dans le dictionnaire.

Constitution d’un troisième dictionnaire avec les 900 mots transcrits manuellement (à partir de Wells, 1990) …

… et d’un quatrième avec la transcription des formes "problématiques" (hésitations, coupures en début/ fin de fichier).

But : aucune modification du dictionnaire d’origine pour applications ultérieures

Diapo 40

Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

TraitementsTraitementsDifférentes étapes de la phonétisation (3)

Aix-MARSEC : Le corpus Aix-MARSEC Aix-MARSEC : Le corpus Aix-MARSEC

Page 47: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

Problèmes non résolus :

Diapo 41

Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

Aix-MARSEC : Le corpus Aix-MARSEC Aix-MARSEC : Le corpus Aix-MARSEC

TraitementsTraitementsDifférentes étapes de la phonétisation (3)

Doublons

Mots avec deux entrées dans le dictionnaireEx: « object » (nom / verbe) ; « wind » (nom / verbe)

Aucune solution automatique pour l’instant puisqu’on ne tient pas compte de l’accent lexical

en projet

Dates

Nombres entre 1000 et 1999 traités comme des dates (vérification prévue)

Page 48: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

Traitement des élisions

Diapo 42

Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

Aix-MARSEC : Le corpus Aix-MARSEC Aix-MARSEC : Le corpus Aix-MARSEC

TraitementsTraitementsDifférentes étapes de la phonétisation (4)

- Observation des élisions dans le corpus

- Établissement de 14 règles phonotactiques

d’élisions

d’après Jones (1990), Wells (1990)

et Cruttenden (1997)

d’après les données

- Application des 14 règles au corpus

- Suppression totale de 4027 phonèmes

But : améliorer la transcription phonématique pour l’alignement automatique

Page 49: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

Alignement effectué au laboratoire du LIA (Laboratoire Informatique d’Avignon)

- par Christophe Lévy- sous la direction de Pascal Nocéra

Application d’un « force Viterbi » à partir de la liste de phonèmes fournie

Diapo 43

Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

Aix-MARSEC : Le corpus Aix-MARSEC Aix-MARSEC : Le corpus Aix-MARSEC

TraitementsTraitementsAlignement automatique

Page 50: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

Evaluation de l’alignement automatique

Diapo 44

Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

Aix-MARSEC : Le corpus Aix-MARSEC Aix-MARSEC : Le corpus Aix-MARSEC

TraitementsTraitementsAlignement automatique

Erreur moyenne absolue : 22 ms

Erreur moyenne : - 6,29 ms

Aplatissement : 8,15 (forte concentration)

Dyssimétrie : -0,94 (léger biais à gauche)

Page 51: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

Evaluation de l’alignement automatique

Diapo 45

Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

Aix-MARSEC : Le corpus Aix-MARSEC Aix-MARSEC : Le corpus Aix-MARSEC

TraitementsTraitementsAlignement automatique

-5

0

5

10

15

20

25

30

-50 -46 -42 -38 -34 -30 -26 -22 -18 -14 -10 -6 -2 2 6 10 14 18 22 26 30 34 38 42 46 50

Series2Poly. (Series2)

Page 52: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

Après alignement, regroupement des phonèmes en syllabes

Pour cela, - application de règles phonotactiques de

cooccurrence en fonction du principe d’attaque maximale

- traitement des consonnes syllabiques /n-m-l/

Diapo 46

Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

Aix-MARSEC : Le corpus Aix-MARSEC Aix-MARSEC : Le corpus Aix-MARSEC

TraitementsTraitementsDécoupage syllabique (1)

Page 53: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

Application de règles phonotactiques de cooccurrence

Principe de base: principe d’attaque maximale

Les consonnes sont regroupées en position d’attaque si les conditions de cooccurrence sont respectées

Toutes les consonnes exclues par ces restrictions sont placées en position codaïque.

Diapo 47

Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

Aix-MARSEC : Le corpus Aix-MARSEC Aix-MARSEC : Le corpus Aix-MARSEC

Découpage syllabique (2)

TraitementsTraitements

Résumé des contraintes de cooccurrence en attaque

(cruttenden, 1997):

Page 54: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

Contraintes de cooccurrence des attaques bi-consonantiques (cruttenden, 1997):

p + l, r, jt + r, j, wk + l, r, j, wb + l, r, jd + r, j, wg + l, r, j, wm + j, wn + jl + jf + l, r, jv + l, r, jT + r, j, ws + l, r, j, w, p, t, k, m, n, f, vS + l, r, w, m, nh + j

Diapo 48

Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

Aix-MARSEC : Le corpus Aix-MARSEC Aix-MARSEC : Le corpus Aix-MARSEC

Découpage syllabique (3)

TraitementsTraitements

Page 55: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

Contraintes de cooccurrence des attaques avec trois consonnes:

s + p + l, r, js + t + r, js + k + l, r, j, w

Diapo 49

Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

Aix-MARSEC : Le corpus Aix-MARSEC Aix-MARSEC : Le corpus Aix-MARSEC

TraitementsTraitementsDécoupage syllabique (4)

Page 56: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

Traitement des consonnes syllabiques /m-n-l/

• Syllabification selon le principe d’attaque maximale

• Identification de ces consonnes syllabiques en fonction du contexte :

C + /m - n - l/ (+ /z-d/)• Resyllabification: /m-n-l/ deviennent noyaux

syllabiques

Diapo 50

Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

Aix-MARSEC : Le corpus Aix-MARSEC Aix-MARSEC : Le corpus Aix-MARSEC

TraitementsTraitementsDécoupage syllabique (5)

Ex: expectation transcrit /IkspekteISn/découpé en syllabes /Ik.spek.teISn//n/ est syllabique (contexte post-consonantique)resyllabification: /Ik.spek.teI.Sn/ (/n/ = noyau syllabique)

Page 57: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

-Codage automatique de l’intonation

- amélioration de l’alignement actuel

Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

Aix-MARSEC : Le corpus Aix-MARSEC Aix-MARSEC : Le corpus Aix-MARSEC

PerspectivesPerspectives

Page 58: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

Aix-MARSEC : Le corpus Aix-MARSEC Aix-MARSEC : Le corpus Aix-MARSEC Diapo 51

PerspectivesPerspectivesCodage automatique de l’intonation

1) Segmentation automatique en fonction des pauses

Génération de Segments inter-pauses (sip)2) Modélisation perceptive automatique de la

fréquence fondamentale

algorithme MOMEL (Modélisation Mélodique)

3) Codage automatique des points ciblescodage intsint

Page 59: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

Diapo 52

Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

Aix-MARSEC : Le corpus Aix-MARSEC Aix-MARSEC : Le corpus Aix-MARSEC

PerspectivesPerspectivesAmélioration de l’alignement

1) Génération automatique d’un signal de synthèse

Phonétisation alignée + MBROLA

2) Transfert des étiquettes

Utilisation d’un algorithme de programmation dynamique (DTW)

3) Itérations multiples des phases 1 et 2 jusqu’à stabilité

Page 60: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

- représente une durée totale d’environ 332 minsoit environ 5 heures et demi de parole ;

- est divisé en 408 fichiers ;

- comporte 54083 mots ;

- 195447 phonèmes (après élisions) ;

- est aligné aux niveaux de l’Unité Intonative, du mot et du phonème ;

- sera disponible sous peu à prix coûtant …

Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

Aix-MARSEC : Le corpus Aix-MARSEC Aix-MARSEC : Le corpus Aix-MARSEC

Aix-MARSEC : BilanAix-MARSEC : BilanAprès homogénéisation, le corpus AIX-MARSEC

Page 61: Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

Aix-MARSEC : Le corpus Aix-MARSEC Aix-MARSEC : Le corpus Aix-MARSEC

Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

Merci de votre attention

Vous avez bien mérité un petit échantillon …