Manuel du transcripteur - UPJV - Université de …€¢À l'intérieur d'une section on va...

30
Version électronique du tutoriel disponible sur le site officiel du logiciel Transcriber : http://trans.sourceforge.net/en/transguidFR.php Transcriber a tool for segmenting, labeling and transcribing speech Manuel du transcripteur Conventions de transcription pour les enregistrements radio-télédiffusés Version 1.22, février 2005 (valable avec les version 1.4.1 et plus récentes de Transcriber) 1. Introduction 1.1 Documents audios concernés 1.2 Objectifs du manuel 1.3 Versions 2. Structuration de la transcription 2.1. Enregistrement 2.1.1. Comment transcrire un nouvel enregistrement ? 2.1.2. Caractéristiques de l'enregistrement 2.2. Segmentation du signal 2.2.1. Où segmenter? 2.2.2. Comment segmenter? 2.3. Tours et locuteurs 2.3.1. Comment créer les tours de parole? 2.3.2. Caractéristiques des tours 2.3.3. Caractéristiques des locuteurs 2.3.4. Parole simultanée 1

Transcript of Manuel du transcripteur - UPJV - Université de …€¢À l'intérieur d'une section on va...

Version électronique du tutoriel disponible sur le site officiel du logiciel Transcriber :

http://trans.sourceforge.net/en/transguidFR.php

Transcriber

a tool for segmenting, labeling and transcribing speech

Manuel du transcripteurConventions de transcription pour

les enregistrements radio-télédiffusés

Version 1.22, février 2005(valable avec les version 1.4.1 et plus récentes de Transcriber)

1. Introduction1.1 Documents audios concernés1.2 Objectifs du manuel1.3 Versions

2. Structuration de la transcription2.1. Enregistrement2.1.1. Comment transcrire un nouvel enregistrement ?2.1.2. Caractéristiques de l'enregistrement

2.2. Segmentation du signal2.2.1. Où segmenter?2.2.2. Comment segmenter?

2.3. Tours et locuteurs2.3.1. Comment créer les tours de parole?2.3.2. Caractéristiques des tours2.3.3. Caractéristiques des locuteurs2.3.4. Parole simultanée

1

2.4. Sections et thèmes2.4.1. Que faut-il transcrire?2.4.2. Type et thème des sections2.4.3. Comment indiquer les sections?

2.5. Transcription orthographique2.5.1. Comment transcrire?2.5.2. Conventions de transcription2.5.3. Transcription ou prononciation ambiguë

2.6. Bruits et conditions acoustiques2.6.1. Comment noter les bruits ?2.6.2. Bruits de l'appareil phonatoire (non-parole)

• Respiration• Autres bruits de bouche et de gorge

2.6.3. Bruits extérieurs à l'acte de parole2.6.4. Changement de conditions acoustiques

2.7 Commentaires

3. Conventions de transcription

3.1. Conventions d'écriture3.1.1. Majuscules/minuscules3.1.2. Ponctuations3.1.3. Apostrophe3.1.4. Trait d'union3.1.5. Sigles3.1.6. Abréviations3.1.7. Nombres3.1.8. Dates3.1.9. Chiffres romains3.1.10. Adresses internet3.1.11. Préfixes agglutinés ou non-agglutinés

3.2. Mots hors-lexique3.2.1. Mots d'origine étrangère, changement de langue3.2.2. Noms propres étrangers3.2.3. Mots techniques, nouveaux mots, noms propres inconnus

2

3.3. Spécificités du langage parlé3.3.1. Onomatopées3.3.2. Répétitions3.3.3. Elisions & formes réduites3.3.4. Troncatures3.3.5. Lapsus3.3.6. Prononciation erronée3.3.7. Liaisons3.3.8. Épellations3.3.9. Ponctuation verbalisée

4. Vérification4.1. Comment vérifier la transcription ?

1. IntroductionLa création manuelle de transcriptions d'enregistrements de journaux radio- ou télédiffusés, permet de faire avancer les recherches en transcription automatique, en indexation et en archivage de ce type de documents sonores.

1.1. Documents audios concernésLes enregistrements de journaux radio- ou télédiffusés présentent un contenu varié : le signal acoustique peut correspondre à de la parole, de la musique ou du bruit, mais également à des mélanges de parole, de musique et de bruit. Ensuite il y a, pour la parole proprement dite, une grande diversité de locuteurs et de thèmes abordés. Plusieurs personnes peuvent intervenir sur un sujet donné successivement, voire simultanément. La qualité acoustique de l'enregistrement (fidélité) peut varier de manière considérable au cours du temps. La durée de tels enregistrements peut varier de quelques dizaines de minutes à plusieurs heures.

Pour l'instant nous nous intéressons plus particulièrement aux nouvelles (journal, flash, revue de presse, incluant météo et bourse, économie, faits de société ...) dans le document sonore. Toute autre forme d'enregistrement (publicités, jeux, fictions....) ne sera pas transcrite.

1.2. Objectifs du manuelNous décrivons dans ce qui suit un ensemble de conventions pour structurer, annoter et transcrire des enregistrements de journaux radio- ou télédiffusés. Ces conventions doivent permettre de structurer les enregistrements au niveau du contenu thématique, des locuteurs et de la qualité acoustique. Les informations produites à ce sujet sont nommées annotations. La parole de chaque locuteur doit aussi être transcrite orthographiquement. C'est la transcription proprement dite. La transcription est ici la partie la plus importante et donc sur laquelle le maximum d'attention doit être porté.

Les différentes étapes du travail de transcription sont : la segmentation de la bande son, l'identification des tours de paroles et des locuteurs, l'identification des sections thématiques, la transcription orthographique, et la vérification. Ces étapes peuvent être menées en

3

parallèle ou au contraire appliquées séquentiellement sur de longues portion du signal, suivant le choix du transcripteur.

1.3. Versionsversion 1.2.2 (février 2005) :

• Ajout des conventions de transcriptions pour les préfixes agglutinés ou non-agglutinés (cf. §§ 3.1.11))

version 1.2.1 (mars 2004) :

• Mise à jour des conventions d'annotations des mots mals prononcés : ceux-ci doivent toujours être précédés d'une étoile même si une balise de prononciation effective "+[pron=...]" est présente (cf. §§ 3.3.6)

• Ajout de conventions concernant la segmentation des passages sans locuteurs (musique, jingle, etc.) par création d'un tour de parole sans locuteur (cf. §§ 2.3.1)

• Correction de l'orthographe de "pourcent" qui doit s'écrire "pour cent". • Diverses modifications mineures : mise en cohérence des présentes conventions avec

l'interface graphique de Transcriber ([lexical=...] devient [lex=...], [pronounce=...] devient [pron=...] ...

version 1.2 (octobre 2003) :

• Conventions concernant les tours de parole traduite simultanément explicitées (cf. §§ 2.3.4)

• Ajout de conventions concernant les nombres fractionnaires et ordinaux (cf. §§ 3.1.7) • Mise à jour des conventions concernant les chiffres romains (cf. §§ 3.1.9) et les

adresses internet (§§ 3.1.10)

version 1.1 (juillet 2003) :

• L'exemple de France-Inter est remplacé par la graphie officielle France Inter.

• Ajout de précisions sur l'utilisation du marqueur d'orthographe incertaine ^^ (cf. §§ 3.2.3)

• Explicitation de l'utilisation du raccourci % (cf. fin §§ 3.1.7) • Le marquage des entités spécifiques par des guillemets est rendu facultatif dans

l'attente de conventions plus détaillées (cf. §§ 3.1.1) • Abandon de la notation .point ou ,virgule pour la ponctuation épelée.

version 1.0 (juin 1999) : La première version stable du présent manuel.

2. Structuration de la transcriptionL'étape d'annotation vise à structurer les enregistrements, c'est-à-dire à segmenter et à décrire le signal acoustique à différents niveaux jugés pertinents pour le traitement ultérieur. Il s'agit ici principalement de l'identité du locuteur, de l'identification du contenu thématique, ou de la qualité du canal de transmission (acoustique).

Actuellement, un document de transcription est structuré de la manière la suivante :

• L'enregistrement correspond à la totalité de l'enregistrement à transcrire. • L'enregistrement est découpé en sections, délimitant les parties des émissions à

transcrire, les enchaînements journalistiques, ou les parties non-transcrites.

4

• À l'intérieur d'une section on va distinguer les tours de parole (turn) qui correspondent à des changements de locuteur.

• Les tours de paroles sont eux-mêmes découpés en segments plus courts au moyen de points de synchronisation. La transcription proprement dite n'intervient qu'à ce niveau de structuration.

• A certains points de synchronisation, des changements durables de bruit de fond sont indiqués ; cette segmentation en conditions acoustiques est indépendante de la structuration en tours et sections.

2.1. Enregistrement

2.1.1. Comment transcrire un nouvel enregistrement?• Démarrez Transcriber (cf. manuel de référence !) • Créez une nouvelle transcription avec le menu [Fichier]/[Nouvelle transcription]. Une fenêtre de dialogue propose de choisir le fichier son à transcrire.

• Indiquez les informations générales associées à l'enregistrement dans la fenêtre [Fichiers]/[Paramètres de l'épisode].

• Si vous voulez réutiliser certains locuteurs ou sujets d'une transcription précédente, vous pouvez le faire dès à présent avec [Edition]/[Locuteurs]/[Importer à partir du fichier...] et [Edition]/[Sujets]/[Importer à partir du fichier...].

• Enregistrez la nouvelle transcription vide avec [Fichier]/[Enregistrer]. Un nom par défaut dérivé du nom du signal sera proposé.

• Enregistrez la configuration avec [Options]/[Enregistrer la configuration], afin de réouvrir automatiquement ces fichiers au prochain démarrage

Par la suite, pensez à enregistrer fréquemment votre travail avec [Fichier]/[Enregistrer] ou le raccourci Control-s, surtout si vous n'avez pas activé la sauvegarde automatique. Par ailleurs, un double affichage du signal (un avec une résolution de 10 secondes, l'autre de une minute environ) peut être pratique.

2.1.2. Caractéristiques de l'enregistrementLes informations associées à un enregistrement, éditées avec [Fichiers]/[Paramètres de l'épisode], sont les suivantes :

• l'identité du transcripteur (par exemple Claire Montaigne) est automatiquement remplie ;

• le nom du fichier son à transcrire (par exemple france-inter980428-0700:0820) est automatiquement renseigné ;

• la date et le numéro de version de la transcription sont automatiquement renseignés par le logiciel et ne peuvent pas être modifiés ;

• le programme: la provenance du document sonore (c'est-à-dire qui a enregistré), la chaîne qui a diffusé le document (par exemple France Inter) et le nom de l'émission (par exemple tranche matinale 7-9) ;

• la date de diffusion ;

5

• la langue principale de diffusion.

Pour des enregistrements de même nature (par exemple sur plusieurs jours) il convient de respecter la même nomenclature pour des programmes identiques.

2.2. Segmentation du signalPour fournir des repères temporels par rapport au signal, et pour faciliter le travail de transcription, on segmente le signal en insérant des balises temporelles instantanées de synchronisation (ou frontières).

2.2.1. Où segmenter?Nous recommandons de faire correspondre ces balises à des groupes de souffle dans le signal ou à des marques de ponctuation dans le langage écrit. Pour des raisons techniques du traitement ultérieur il est également souhaitable de fournir une balise de synchronisation après différents types de problèmes au niveau acoustique (mots mal prononcés, bruit court superposé à un mot...).

En résumé, l'insertion d'une frontière de synchronisation est recommandé dans les situations suivantes :

• début et fin d'élocution, • respiration, • ponctuation, • mauvaise prononciation, • bruit instantané, • début et fin de musique...

2.2.2. Comment segmenter?• Choisissez une résolution d'environ 30 secondes pour l'affichage du signal. • Lancez la restitution à partir du début du signal ou du début de la section non encore

transcrite. • Pendant la restitution, à chaque instant correspondant à un changement de locuteur

ou une zone de silence, une pause, une respiration, un changement de conditions acoustiques... insérez une frontière en pressant la touche Return. Une nouvelle ligne précédée d'un petit cercle apparaît dans la fenêtre de texte, et la segmentation sous le signal est scindée au niveau du curseur.

Vous obtenez une segmentation grossière d'une partie du signal en intervalles de 5 à 20 secondes en moyenne. Il est possible de positionner les frontières plus précisément par la suite.

2.3. Tours et locuteursÀ ce niveau on décrit la succession de tours de parole avec les différents locuteurs qui interviennent.

2.3.1. Comment créer les tours de parole?• Affichez le signal à une résolution d'environ 30 secondes ou plus et écoutez le signal.

6

• Si un nouveau locuteur prend la parole au début du segment courant, indiquez le début d'un nouveau tour de parole avec [Segmentation]/[Créer un tour...] ou le raccourci Control-t.

• Le locuteur du tour doit être identifié : • Si le locuteur est connu et existe déjà dans la liste, il suffit de cliquer sur son

nom. • Pour un nouveau locuteur, le nom peut être tapé directement au clavier. Si

l'identité est inconnue cliquez simplement sur Créer un locuteur. Les caractéristiques du locuteur (l'orthographe précise de son nom, le genre, l'accent...) peuvent être modifiées plus tard.

• S'il s'agit de parole superposée, validez l'option correspondante et identifiez le

deuxième locuteur de la même façon. • D'autres caractéristiques du tour (type de parole, canal, qualité) peuvent

éventuellement être renseignés. • Des tours de parole spécifiques avec l'indication "Pas de locuteur" doivent être

utilisés pour les passages sans parole (musique, jingle, silence,etc.) d'une durée significative ( de l'ordre de 1s ou plus ) : NB : Les balises de bruit de fond ne doivent être utilisées que pour annoter un phénomène en arrière plan. Ainsi, prenons l'exemple d'un segment ne contenant que de la musique, il devra être annoté à l'aide d'une balise [musique] sans indication de bruit de fond, qui serait alors une redondance puisque l'information temporelle du segment délimite déjà l'évenement dans le temps et la balise en donne son type.

A la création d'un tour, le locuteur proposé par défaut est l'avant-dernier utilisé, ce qui est pratique dans le cas d'un dialogue.

7

2.3.2. Caractéristiques des toursPour chaque tour de parole le transcripteur indique :

• un identificateur du locuteur, et éventuellement si cela est demandé :

• le type de parole : préparé, spontané • la qualité du son : bon, moyen, faible • le canal de transmission : intervention téléphonique ou prise en studio

2.3.3. Caractéristiques des locuteursPour chaque nouveau locuteur le transcripteur indique :

• le nom du locuteur s'il est identifié, sinon un numéro de locuteur avec un qualificatif (au titre duquel l'inconnu est intervenu dans l'émission).

• le statut : orthographe connue ou incertaine. • le sexe du locuteur : homme, femme, inconnu • langue maternelle : oui/non. • l'accent : on peut spécifier ici les différents accents : régionaux, francophones,

étrangers. • le statut global/local : un nom est global s'il est identifiable en dehors du contexte de

la transcription (par exemple, un journaliste, un homme politique connu, etc.)

Il est important de respecter l'orthographe des noms. On peut trouver les noms des journalistes et des différentes émissions radio et télé français dans le guide MédiaSid.

On considère tout francophone (français, belge, suisse, québécois) de langue maternelle française.

2.3.4. Parole simultanéeIl faut distinguer différentes situations de parole superposée :

• Un locuteur parle, et un autre intervient ponctuellement par des interjections (hum oui ...) ; il convient de noter ces dernières comme de simples bruits se superposant à la parole.

• Un locuteur parle en premier plan, et une ou plusieurs voix sont audibles à un niveau moindre (par exemple la voix d'un traducteur est superposée à la voix d'origine) ; seule la voix au premier plan est transcrite et un marqueur de bruit de fond (de type parole ou conversation) doit être utilisé.

• Deux locuteurs dialoguent, se coupent mutuellement la parole et parlent simultanément sur plusieurs mots. Le mécanisme de gestion de parole simultanée décrit ci-après peut être appliqué. En cas de difficulté, les segments pourront être annotés comme parole "non-transcrite" .

• Si plus de deux locuteurs interviennent à un fort niveau sonore, il faut annoter la portion de signal comme "non-transcrite".

Dans le cas de parole traduite simultanément, les règles précédemment énoncées s'appliquent. Ainsi si on entend le locuteur traduit s'exprimer seul pendant plus d'un mot, un tour de paroles sera créé. Pour les autres cas (moins d'un mot prononcé seul ou traducteur s'exprimant simultanément) on insérera une balise bruit de fond de type parole. L'intégralité du passage traduit sera encadré par deux balises de type commentaire: {traduction-}....{-

8

traduction} :

Dans le cas de parole simultanée avec deux locuteurs (cas numéro 3), le deuxième locuteur est identifié dans la fenêtre des paramètres du tour après avoir validé Parole superposée. L'affichage dans le logiciel est par exemple :

Patricia Martin + Invite1 1: évidemment découvert que2: enfin n'oubliez pas

Dans la transcription, 1: va identifier les paroles (évidemment découvert que) du premier locuteur (Patricia Martin) et 2: les paroles (enfin n'oubliez pas) du deuxième locuteur Invite1. Les frontières au niveau du signal seront posées au niveau des frontières de mot, de sorte à inclure dans le segment ainsi découpé, toute la parole superposée (par exemple si le mot enfin du locuteur 2 ne démarre qu'à la fin du mot évidemment du locuteur 1, ce dernier est quand même inclus dans le segment).

Cependant la transcription de ce type de signal est très coûteuse. À l'heure actuelle on ne sait pas traiter de manière satisfaisante la parole superposée et les transcriptions, mêmes si elles

9

sont produites, ne sont pas encore exploitées. Le transcripteur peut donc choisir de marquer simplement le signal comme parole superposée sans transcription, avec éventuellement un commentaire décrivant la situation ou le contenu du dialogue.

2.4. Sections et thèmesLa structuration complète d'un enregistrement peut être complexe : une succession d'émissions, composées de sections journalistiques, subdivisées elles-mêmes en rubriques thématiques... En l'état actuel du logiciel, il faut choisir un seul niveau de découpage (en sections journalistiques ou en rubriques thématiques) et les frontières des segments ne sont pas toujours évidentes ; une structuration plus fine est envisagée pour l'avenir.

2.4.1. Que faut-il transcrire?Un enregistrement peut contenir des segments sans intérêt pour le traitement automatique ultérieur. Les transcriptions sont limitées aux émissions d'information avec les messages d'introduction et de conclusion. Le reste sera annoté non-transcribed, c'est-à-dire inexploitable et ne sera pas transcrit.

2.4.2. Type et thème des sectionsUn enregistrement est découpé en sections de 3 types :

• Les segments de type report réfèrent à des parties d'émission à transcrire (journal, chronique...). Pour chaque section journalistique, le transcripteur peut indiquer un thème général (journal, revue de presse, chronique, politique, faits de société, économie, bourse, culture, sports, météo) choisi dans une liste prédéfinie, suivi éventuellement d'un titre résumé.

• Les segments de type filler ne concernent pas directement le thème journalistique abordé, mais réfèrent plutôt à l'organisation rédactionnelle, à l'enchaînement des journalistes ou des invités etc.

• Les segments de type non-trans sont les parties de l'enregistrement dont la transcription n'est pas souhaitée ; il convient d'indiquer au moins la nature de ces segments suivi éventuellement d'un titre résumé (par exemple : publicité - les prêts malins du CA).

2.4.3. Comment indiquer les sections?• Affichez le signal à une résolution d'environ 30 secondes ou plus et écoutez le signal. • A chaque changement d'émission ou de sujet (et en fonction des consignes données),

indiquez le début d'une nouvelle section avec [Segmentation]/[Créer une section...] ou le raccourci Control-e.

• Indiquez pour chaque section : • le type de la section : report, filler, non-transcribed • un thème général (journal, politique intérieure, international, bourse, économie, culture, sports, météo, faits de société, revue, chronique, ...) suivi éventuellement d'une courte description du sujet.

10

2.5. Transcription orthographiqueNous abordons ici les problèmes de transcriptions des segments de parole. Ces conventions concernent d'abord la parole pour laquelle la transcription graphémique peut être ambiguë. Elles sont nécessaires ensuite pour coder les bruits, catégorie dans laquelle on regroupe tous les événements acoustiques non assimilables à des mots (ou entrées lexicales) de la langue.

2.5.1. Comment transcrire?• Choisissez une résolution d'environ 10 secondes ou moins pour l'affichage du signal. • Allez au premier segment non transcrit en cliquant sur la ligne correspondante dans

le texte ou à la position dans le signal. • Ecoutez ce segment avec [Signal]/[Joue le segment] ou un des raccourcis Shift-Tab ou Alt-Tab; vous pouvez faire une pause ou redémarrer à tout moment avec [Signal]/[Joue/Pause] ou le raccourci Tab.

• Si nécessaire, ajustez la frontière entre le segment et son voisin en cliquant sur cette frontière avec la touche Control enfoncée (ou avec le bouton du milieu) puis en déplaçant la souris.

• Tapez la transcription au clavier ; elle apparaît simultanément dans l'éditeur de texte et dans la segmentation sous le signal.

• Certains événements (bruits divers, respirations...) peuvent être indiqués avec des balises spéciales par [Edition]/[Insérer une balise]/[...] ou Control-d.

• Les changements durables de condition acoustique (bruits de fond persistants) sont à indiquer avec [Segmentation]/[Insérer un bruit de fond].

2.5.2. Conventions de transcriptionLa transcription graphémique doit permettre de prédire au mieux la prononciation du locuteur. Si une même séquence graphémique permet de générer différentes prononciations (typiquement les dates qu'on peut énoncer en utilisant mille et cent), on adoptera des conventions capables de lever l'ambiguïté. Les conventions concernent aussi les éléments de la langue pour lesquels la transcription n'est pas unique (typiquement les sigles et les épellations, ou encore les nombres qu'on peut écrire sous forme de séquence de chiffres ou comme séquence de mots). Dans tous les cas, les conventions adoptées visent à standardiser la forme graphémique attendue pour minimiser l'ambiguïté, éventuellement en utilisant des balises de prononciation. Les conventions n'étant pas exhaustives le transcripteur peut adopter par défaut une écriture telle qu'on peut la trouver dans des textes de journaux.

Les conventions de transcription sont détaillées dans la 3ème partie.

2.5.3. Transcription ou prononciation ambiguëLa balise de prononciation permet de rajouter par dessus une graphie à prononciation multiple (typiquement les nombres, les sigles/acronymes, noms propres) une description levant l'ambiguïté de la prononciation.

Il est difficile d'énoncer une règle stricte ici. La balise de prononciation permet de spécifier si un mot a été prononcé de manière peu standard, l'interprétation du standard dépendant évidemment du transcripteur. On peut utiliser la balise de prononciation aussi pour n'importe quel autre commentaire relatif à la prononciation d'un mot (par exemple le marquage du -euh typique en fin de mot de l'accent parisien).

11

2.6. Bruits et conditions acoustiquesParmi les bruits on peut trouver de la parole ne correspondant pas à des mots proprement dits de la langue (mots tronqués, erronés, ... dont le cas est traité dans les conventions de transcription), des bruits émis par le locuteur (par son appareil phonatoire, mais qui ne sont pas de la parole, et donc dans la plupart des cas non-superposés à la parole : bruits de bouche, de gorge, toux, respirations) ou bien des bruits produits par des sources différentes de l'appareil phonatoire du locuteur. Ces derniers bruits sont plus gênants parce qu'ils se superposent en général à la parole, dégradant ainsi la qualité du signal enregistré. Les sources de bruit peuvent être, sur le lieu d'enregistrement, le locuteur lui-même ou son environnement : bruits d'écouteur ou froissements de papiers en général produits par le locuteur pendant qu'il parle, conversations annexes, radio, télé, claquements de porte, horloge, bruits de voiture, ... Le système d'enregistrement radio-télédiffusé peut également générer des bruits : bruits de micro, craquements de ligne téléphonique, bips, effet Larsen, raccrochement téléphone, ... Enfin certains bruits peuvent provenir du système de diffusion (parasites) ou d'enregistrement (souffle électrique).

2.6.1. Comment noter les bruits ?Pour les bruits instantanés ou de courte durée, le transcripteur crée une balise de bruit par [Edition]/[Insérer une balise]/[Bruit instantané] ou Control-d, et indique :

• la catégorie de la balise - un bruit, une balise de prononciation, d'annotation lexicale, de changement de langue, ou un commentaire.

• la description du bruit ou de l'événement par une chaîne de caractères ; des valeurs prédéfinies sont proposées dans un menu.

• l'étendue de la balise - balise instantanée, de début ou de fin, ou encore appliquée au mot précédent ou suivant.

Par défaut, les balises de bruit sont affichées entre crochets. Si le bruit s'étend sur plusieurs mots on peut sélectionner les mots et insérer une balise ; les marqueurs de début et de fin seront automatiquement insérés autour.

• Si le bruit advient entre deux mots le code est affiché comme un mot, c'est-à-dire séparé des mots voisins par des blancs : parole1 [b] parole2

• Si le bruit se superpose au mot précédent ou suivant, à l'affichage le code correspondant est accolé au mot avec le caractère + (mais le transcripteur n'a pas à taper ce caractère)Affichage : parole+[b]

• Si le bruit se superpose à plusieurs mots, des marqueurs de début et de fin seront utilisés.Affichage : parole1 [b-] parole2 [-b] parole3le bruit de type [b] commence avant parole2 et se termine avant parole3.

Pour les bruits de longue durée, une autre procédure est détaillée plus loin (paragraphe 2.6.4).

2.6.2. Bruits de l'appareil phonatoire (non-parole)Ici nous considérons des bruits produits par l'appareil phonatoire du locuteur enregistré : en général ces bruits ne se superposent pas à la parole, sauf quand la personne parle en chuchotant ou en rigolant : je+[rire] voudrais+[rire] (on peut utiliser aussi des marqueurs de

12

début et de fin : [rire-] je voudrais [-rire]).Pour ne pas trop compliquer la tâche du transcripteur (à identifier la nature exacte du bruit) les codes de bruit marqués en gras sont à utiliser par défaut pour un type de bruit donné. Si le transcripteur a envie de marquer plus particulièrement un bruit donné, il peut choisir un des codes proposés en retrait de la marge ; cependant, ces différences ne sont actuellement pas exploitées.

Suggestion : le transcripteur peut accompagner les codes de bruit de balises temporelles de synchronisation (afin de poser un repère pour la segmentation automatique).

Respiration

• [r] : respiration • acte physiologique :

• [i] : inspiration • [e] : expiration • [n] : reniflement

• acte volontaire : • [pf] : souffle (on entend par souffle un acte de respiration volontairement

bruyant pour marquer son désaccord ou sa mauvaise humeur, pour retenir un rire, ...)

Autres bruits de bouche et de gorge

• [bb] : bruit de bouche (ce code regroupe les bruits de lèvres, de langue ou autre combinaison, ...)

• [tx] : toux, râclement de gorge, éternuement • [bg] : bruit de gorge (par exemple coup de glotte, bruit de larynx ) • [rire] : rires du locuteur • [sif] : sifflement du locuteur • [ch] : le locuteur se parle en voix chuchotée pour faire un commentaire

[ch-] voix chuchotée [-ch]

2.6.3. Bruits extérieurs à l'acte de paroleNous regroupons dans cette section tous les bruits produits en dehors de l'appareil phonatoire du locuteur. La plupart de ces bruits peuvent se produire à n'importe quel instant de l'enregistrement, et peuvent donc se superposer au signal de parole, dégradant ainsi sa qualité.

Tout bruit de nature indéterminée ou non-répertorié dans ce document peut être noté comme suit :

• [b] : bruit indéterminé

Bruits dus à l'environnement et au matériel d'enregistrement

• [conv] : conversations dans le fond : il peut s'agir de personnes présentes, de public, de voitures, ...

• [pap] : froissement de papiers. • [mic] : bruits micros.

13

2.6.4. Changement de conditions acoustiquesLorsqu'un bruit s'étend sur une longue durée (bruit de fond persistant), un système de marquage spécifique doit être utilisé. La balise de bruit de fond est une balise instantanée décrivant un changement durable ans les conditions acoustiques. L'information apportée par cette balise reste valable à l'intérieur d'un même enregistrement jusqu'à l'apparition d'une nouvelle balise de bruit de fond, ou bien jusqu'à la fin de l'enregistrement.

Le transcripteur positionne le curseur temporel à l'instant du changement de conditions acoustiques, choisit [Segmentation]/[Insérer un bruit de fond] et indique :

• la nature : musique, parole ou conversations, bruit électrique, autre...

Une icône de note de musique apparaît dans le texte à la position courante.

Si le changement de conditions acoustiques est associé aux conditions d'enregistrement et lié au tour de parole (par exemple, une intervention téléphonique de très mauvaise qualité), il sera plus pratique d'utiliser le champ Fidelité=low dans les paramètres du tour de parole [Segmentation]/[Paramètres du tour...] , plutôt que la balise de bruit de fond.

2.7. CommentairesCette balise permet au transcripteur de commenter l'enregistrement (la parole ou les conditions acoustiques ) à transcrire. Le transcripteur peut également faire ici des remarques sur ce qui lui paraît utile pour faciliter la transcription.

3. Conventions de transcriptionConcernant la transcription l'idée de base consiste à focaliser l'attention sur ce qui apparaît en premier plan. Si de multiples sources sonores sont présentes il convient de focaliser la transcription sur la source la plus émergente. Par exemple on entend en arrière-plan une personnalité parler une langue étrangère, un traducteur donnant la version française en premier plan. Il suffit de transcrire le traducteur en signalant de la parole en bruit de fond. On entend de la musique en premier plan avec des commentaires en arrière-plan. On peut annoter un tel segment comme musique avec comme bruit de fond de la parole (non transcrite). Si deux locuteurs se 'disputent' le premier plan, on transcrit les deux grâce au mécanisme de parole superposée. Cependant de manière générale on fait l'hypothèse qu'il n'y a qu'une source sonore unique au premier plan.

De manière générale, dans tous les segments de parole qui ont été annotés transcribed (sections report ou filler), tout ce qui est entendu doit être transcrit : la transcription doit fournir la séquence orthographique exacte correspondant à ce que le locuteur a prononcé, à laquelle il faut rajouter dans la mesure du possible tous les événements extra-lexicaux présents dans le signal acoustique (les répétitions, hésitations, troncatures, bruits).

3.1. Conventions d'écritureLe produit de la transcription est essentiellement une séquence de mots séparés par des espaces, entre lesquels s'intercalent des balises identifiant les bruits, les conditions acoustiques et diverses informations permettant de lever l'ambiguïté de prononciation. Autant que possible, il convient de respecter l'orthographe standard des mots. La

14

ponctuation sert à marquer les frontières syntaxiques et prosodiques claires.

Dans la suite les icônes représentent :

= le locuteur dit

= le transcripteur écrit

3.1.1. Majuscules/minusculesTout est transcrit en minuscules (pas de majuscule systématique en début de phrase). L'emploi des majuscules est réservé à la transcription des épellations et des sigles, au début des noms propres et dans des formules de politesse.

Pour les noms propres d'organisation assimilables à des marques (tels que les journaux, les banques...) et utilisant des noms communs, les noms communs en question sont écrits avec des initiales majuscules.

as-tu lu Le Monde, L'Humanité et Le Dimanche ...les journalistes du Monde, de L'Humanité et du Dimanche ...au Crédit Lyonnais

Dans le doute, on peut suivre la pratique des journeaux qui peuvent ne mettre en majuscules que le premier mot d'un sigle :

le Front national est au bord de l'implosion

Pour les noms de lieux on adopte la convention d'écrire en minuscule le nom commun. S'il est suivi d'un nom propre, celui-ci a évidemment son initiale en majuscule.

le lycée Anatole Francel'opéra Garnier

Des mots communs ayant fonction de nom propre (par exemple : titres d'émissions, de films, de livre, d'institutions ) s'écrivent entre guillemets. À l'intérieur des guillemets les noms communs sont écrits en minuscules.

Par exemple :"le téléphone sonne" de ce soir sera consacré à "la chaîne de l'espoir""le monde d'est en ouest et du nord au sud" sur France Inter"regards sur le monde" , Dominique Bromberger bonjour !bienvenue à "radio com , c'est vous"aux Etats-Unis , le "Monica gate" continueeuh , je préfère "Tomb raider"le chanteur de "divine comédie"des associations comme "médecins du monde"le prix Louis-Delluc pour Cédric Kahn et son film "l'ennui"sortie aujourd'hui de "à la place du coeur" de Robert Guédiguian un bel exemple de Le Clézio dans "la fièvre""neuf mois marathon" , Marie-Cécile Picquet , aux éditions "hors commerce"une grande opération "mains propres" a été lancéele "conseil économique et social"ils ont gagné la "terre promise"

Pour les sigles étendus (c'est-à-dire prononcés en toutes lettres) la suite de mots composant

15

le sigle est entourée de guillemets. Les noms communs y sont écrits en minuscules.le "fond monétaire international" a fonctionnéle "commissariat à l'énergie atomique"l'"agence France presse"

Notes : cette utilisation des guillemets demande à être précisée. Dans l'attente d'un véritable guide d'annotation des entités spécifiques, elle est facultative.

Enfin, on met une majuscule à monsieur (ainsi qu'à madame, mademoiselle ...) dans les formules de politesse comme indiqué dans l'exemple :

est-il vrai Monsieur le préfet que, ...

maisle monsieur qui ...

3.1.2. PonctuationsIl est recommandé de mettre des marques de ponctuation là où il y a des pauses dans le signal qui correspondent à des frontières syntaxiques, ou bien dans le cas où l'absence de ponctuation engendre une ambiguïté dans le texte.

Attention : il faut précéder les signes de ponctuations d'un blanc.

les fleurs sont fanées , le pain est devenu sec .

Les marqueurs de ponctuations sont indicateurs du mode de l'énoncé :conclusif ''.'', interrogatif ``?'', exclamatif ``!'', hésitation ``...'', etc.Ces informations sont fortement liées à la prosodie et à la compréhension. Il est recommandé d'accompagner les marques de ponctuation forte (. ? !) d'une marque temporelle dans le signal (balise de synchronisation , permettant de segmenter).

3.1.3. ApostropheIl n'y a pas de séparateur entre l'apostrophe et le mot suivant.

l'horairel'arrivéejusqu'à

3.1.4. Trait d'unionLes mots liés par un trait d'union sont écrits normalement sans séparation par un blanc.

après-midivoulez-vousanglo-saxons

Attention : on ne relie pas par trait d'union les suites de noms propres. On peut marquer graphiquement le lien par un slash entouré de blancs.

dans le Nord / Pas-de-Calaisle trajet Paris / Toulouse

16

3.1.5. SiglesPar défaut : les sigles sont notés par des majuscules non séparés par des blancs.

s n c f

SNCF

otan

OTAN

c d rom, ina p g

CDROM, INA PG Uniquement dans les cas d'ambiguïté, la distinction entre un sigle prononcé comme un mot et un sigle prononcé comme une suite de lettres se fera par l'ajout devant le sigle d'un underscore "_" s'il est lu ou d'un point d'exclamation "!" s'il est épelé, par exemple:

l' onu ou l'o n u, c'est selon

l'_ONU ou l'!ONU , c'est selonOn peut observer des expressions complexes composées de sigles et de mots ou de fragments de mots (acronymes,...), de chiffres voire de ponctuation, par exemple :

JCSat+[pron=J C sat] , RMIste , Smicard , Pacser , l'autoroute A10 , l'association AC!

La distinction entre sigle et lexie standard est parfois floue (ainsi, LASER qui était à l'origine un acronyme est devenu Laser puis laser). Pour l'utilisation des majuscules, on considèrera qu'à partir de 5 lettres un acronyme lu est lexicalisé et donc écrit en minuscules sauf la première lettre :

Medef , Insee , Staps , Pacsé , Assedic (sigle lu, 5 lettres ou plus)

IFOP , SMIG , SFOR , PACS , ENA (sigle lu, 4 lettres ou moins)

FM , ETA , CFDT , EHESS , FNSEA , DGCCRF (sigle épelé)

Dans les cas mixtes comme RMiste, CDROM..., on prendra la graphie majoritaire des journaux: RMiste, CDROM....

3.1.6. AbréviationsIl existe dans la langue des abréviations standards comme etc pour et caetera. Les transcripteurs utilisent etc sans point accolé.

et caetera

etc

17

okay

OK

3.1.7. NombresLes nombres sont transcrits sous forme de suite de chiffres si la prononciation correspond à la syntaxe standard de prononciation des nombres (écrire la suite de mots est toujours autorisé, mais cela demande plus de travail et peut générer plus d'erreur de la part du transcripteur).

soixante mille

60000 ou bien 60 mille

soixante millions

60000000 ou bien 60 millions Attention: il ne faut pas introduire d'espace entre les chiffres!

vingt virgule cinquante-sept

20,57 ou bien 20 virgule 57

un franc cinquante

1 franc 50Attention: il ne faut pas écrire: 1,50 francs !

cent cinquante-huit litres virgule neuf

158 litres virgule 9Les fractions de l'unité (demi, tiers...) seront écrits en toutes lettres:

deux tiers

deux tiers ou 2 tiersAttention: il ne faut pas écrire: 2/3 !

Les nombres ordinaux seront écrits en toutes lettres:

le troisième

le troisièmeAttention: il ne faut pas écrire: le 3ème !

Le signe moins pouvant être confondu avec le tiret, il sera écrit en toutes lettres, ainsi que plus, fois, égale, etc. La seule exception est "pour cent", qui sera écrit % :

18

moins dix degrés

moins 10 degrés

trois pour cent

3 %

3.1.8. DatesPour les dates dont la prononciation peut être ambiguë (dix-neuf cent ou mille neuf cent), on utilisera une balise de prononciation dans le cas non-standard, s'appliquant au mot précédent (ou suivant). Le choix proposé par défaut est "19 cent...", il faudra veiller à le modifier manuellement en fonction du siècle en question, exemple pour 1660 on utilisera "16 cent..."

mille neuf cent quatre-vingts

1980

dix-neuf cent quatre-vingts

1980+[pron=19 cent...]

3.1.9. Chiffres romainsIls peuvent être utilisés dans les noms de roi ou de pape (qui servent souvent à désigner des lieux publics ). La transcription se fait avec les chiffres romains, en ajoutant une balise de prononciation s'appliquant au mot précédent (ou suivant).

l'hôtel Charles cinq

l'hôtel Charles V+[pron=(chiffres romains:) 5]

le stade Louis deux

le stade Louis II+[pron=(chiffres romains:) 2]

3.1.10. Adresses internetPour les adresses internet (URL ou e-mail), la transcription se fait en notant l'adresse telle qu'elle s'écrit (habituellement tout en minuscules), et en ajoutant une balise de prononciation s'appliquant au mot précédent (ou suivant).

telsonne at radio tiret france point f r

[email protected]+[pron=(URL:) telsonne at radio tiret France point FR]

w w w point radio tiret france point f r

www.radio-france.fr+[pron=(URL:) WWW point radio tiret France point FR]

19

Dans le cas de présence d'inspirations, d'hésitations... au milieu de l'URL, celles-ci seront annotées dans la balise prononciation, par exemple il faut écrire :

www.tf1.fr+[pron=(URL:) WWW [i] point TF() 1 point FR]

Attention: il ne faut pas écrire:

www [i].tf() 1.fr+[pron=(URL:) WWW point TF1 point FR]Dans le cas cas particulier d'une URL scindée, par exemple prononcée par plusieurs locuteurs, transcrire comme dans cet exemple :

3.1.11. Préfixes agglutinés ou non-agglutinés anti ; archi ; auto ; bi ; co ; extra ; giga ; hyper ; hypo ; inter ; intra ; macro ; micro ; para ; poly ; super ; sur ; télé ; contre ; entre ; néo ; outre ; quasi ; mini ; ultra ; post ; pseudo ; pré ; ...

On peut trouver sur Internet, dans les dictionnaires ou dans les livres de grammaire différentes règles orthographiques concernant les préfixes. Dans le cadre de nos transcriptions, afin de respecter notre souci de normalisation de corpus, nous devons mettre à plat des règles que nous suivrons systématiquement lors des transcriptions.

Ci-dessous sont présentées les règles à appliquer :ANTI : --> toujours collé (antiaméricain) sauf :- avant un i (anti-infectieux, anti-israélien), - un mot lui-même composé (anti-sous-marin) - dans les mots forgés pour la circonstance (anti-Bush)

exemples :

20

antiallemandantiaméricainsantiaméricanismeantiarabeanticastristeanticharsantichimiqueantisectesantisémitesantitabacanti-destinanti-incendieanti-israélienanti-israélienneanti-israéliennesARCHI :

--> toujours collé (archicomble) sauf avant un i

AUTO :

--> toujours collé (autoallumage) sauf :- avant un i (auto-immune), - avant un verbe, - si auto = voiture et non soi-même (auto-école).

exemples :

autoévaluationauto-détruireauto-proclaméauto-répliquéauto-écoleBI :

--> toujours collé

bicylindrebimoteur CO :--> toujours collé (coauteur) sauf :- devant un i, le i devient ï (coïnculpé)

coprésidécolocataireEXTRA :

--> toujours collé (extraconjugal, extraterrestre) sauf :- devant i, a, u (extra-atmosphérique)

extraconjugalesextraterrestre

21

extra-atmosphériqueGIGA :

--> toujours collé

HYPER :

--> toujours collé

hypersportHYPO :

--> toujours colléINTER :

--> toujours collé

interauriculaireintergouvernementaleinterprofessionnellesinterreligieuxINTRA :

--> toujours collé sauf : - devant i, a , u (intra-atomique, intra-utérin), et dans intra-murosMACRO :

--> toujours collé

macroéconomieMICRO :--> toujours collé (microentreprenariat) sauf :- devant i, o (micro-informatique, micro-onde)

microétatsmicro-ordinateurmicro-ondePARA :

--> toujours collé (paramilitaire) sauf : - devant i, a , uPOLY :

--> toujours colléSUPER :

--> toujours colléSUR :

22

--> toujours collé

surachalandéTÉLÉ :

--> toujours colléCONTRE :

--> aucune règle spécifique (voir dans le dictionnaire au cas par cas)

contretemps (dans le dictionnaire)

contre-alléecontre-attaquecontre-attaquescontrebandecontre-emploicontre-espionnagecontre-expertisecontre-feucontre-feuxcontre-manifestationscontre-menacescontre-offensivecontre-performancescontre-piedcontre-pouvoirENTRE :

--> aucune règle spécifique (voir dans le dictionnaire au cas par cas)

entrechocsentre-tempsentre-deuxentre-déchirentNÉO :--> aucune règle spécifique (voir dans le dictionnaire au cas par cas)

néo-frontistenéo-nazisnéo-zélandaisOUTRE :--> généralement avec tiret (outre-mer, outre-tombe, outre-atlantique), sauf pour le terme "outremer" lorsqu'il désigne une couleur, une nuance de bleu.

Dans une expression adverbiale "outre" signifie "au delà de"

outre-Mancheoutre-Rhinoutre-mer

23

QUASI :--> avec un tiret avant un nom (quasi-totalité) et un espace avant un adjectif (quasi estivale)devant un adjectif : quasi estivalesquasi militaires (les commandes quasi militaires du...)devant un nom : quasi-finquasi-hommedevant un nom/adjectif, cela dépend du contexte: quasi-inconnu ou quasi inconnu une chose quasi inconnue… un quasi-inconnu… (très rare)CRYPTO :--> toujours collé MINI :

--> toujours collé

minijupeminibusminicassetteminichaîneminisérieminisommetULTRA :

--> la tendance est à l'agglutination

ultraguerrièresultraprudenteultrarépressiveultrasimpleultrasonultraroyalisteainsi que pour :POST, PSEUDO, PRÉ, SIMILI, SUB :

--> pas de règle précise, très souvent écrit avec un tiretAutres préfixes souvent écrits avec un tiret, et en tout cas normalement pas agglutinés :arrière-avant-demi-deux-

24

double-ex-faux-non-sans-semi-sous-vice-Quelques autres mots souvent inclus dans des mots composés à tirets :

court(s)-date(s)-grand(s)--clé(s)-culte(s)-fleuve(s)-record(s)-type(s)

3.2. Mots hors-lexique

3.2.1. Mots d'origine étrangère, changement de langueUne balise de changement de langue permet d'identifier un mot ou une suite de mots qui ne font pas partie du parler français.

Les mots d'origine étrangère (et absorbés dans la langue avec une prononciation donnée) ne sont pas marqués (par exemple week-end, playstation, business prononcés à l'anglaise). On considère ces prononciations comme ``standard''.

En revanche des prononciations peu communes devront être signalées (par exemple les correspondants à l'étranger démarrant leur intervention par buon giorno di Roma, good morning from London... ).

échangeant des potins [lang=anglais-] cashing up with gossip [-lang=anglais]

ça s'appelle l'[lang=anglais-] easy listening [-lang=anglais]

cela reviendra à légaliser le sabouba+[lang=arabe]

Il est inutile d'ajouter un marqueur d'orthographe incertaine aux mots étrangers, même si la transcription est simplement acoustique. Un segment de longue durée en langue étrangère doit être annoté non-trans.

3.2.2. Noms propres étrangersLes noms propres Beatles, Clinton, les sigles CNN, CBS prononcés à l'anglaise correspondent au standard ; à l'inverse une prononciation à la française inhabituelle doit être spécifiée par une balise de prononciation :

Bill Clinton , en français Guillaume Clinton+[pron=français]

25

Pour des noms propres comme Morgan le standard dépend évidemment du contexte (Michèle Morgan ou Nelson Morgan par exemple). Mais pour des noms propres comme Benjamin, le contexte peut ne pas être suffisant : Benjamin Netanyahou peut admettre différentes prononciations.

3.2.3. Mots techniques, nouveaux mots, noms propres inconnusCette section concerne les problèmes d'écriture qui se posent pour des néologismes, entités idiosyncrasiques, des mots techniques .

Dans un contexte particulier des mots nouveaux peuvent apparaître. Ces mots ne font pas partie du vocabulaire de la langue courante, et sont souvent ignorés des gens extérieurs à ce domaine particulier. Ceci est vrai pour des domaines techniques spécialisés, mais se rencontrent fréquemment aussi dans le milieu journalistique (par exemple le terme de pu-putch a été employé plusieurs fois début décembre 98). Ces mots sont à considérer comme des entités lexicales à part entière.

Lorsque l'orthographe se déduit sans ambiguïté, il suffit de l'écrire sans balise supplémentaire :

un télévirenquethon ? ça ne sonne pas très bienle greige , quelque part entre gris et beigela primature du chef est publiquement mise en cause

Des noms propres inconnus (souvent d'origine étrangère) peuvent admettre plusieurs graphies en français. Afin de pouvoir normaliser ces graphies lors d'un traitement ultérieur, il est important de marquer les mots qui posent problèmes.

Règle : tous mots techniques, idiosyncrasiques, noms propres, etc, dont la graphie est incertaine (non figée, et qu'un complément d'information permettrait de corriger ou confirmer), seront précédés par deux accents circonflexes :

^^mot_inconnuExemples :

^^Annam ^^Lefebvre ^^Baranov ^^Tourner ^^Réresse ^^Micoine ^^Itaï ^^Arad ^^Mougins ^^Mossey ^Klipffel ^^Jaillard ^^Elina ^^Castella ^^Zwetaïeva ...

De manière équivalente, une balise de commentaire lexical peut être utilisée :

^^Guédet ou Guédet+[lex=orthographe incertaine]

Remarque: Ceci ne s'applique pas aux mots qui ont deux orthographes possibles (on choisira la première venant à l'esprit) :

clé ou clef , cuillère ou cuiller , aéroclub ou aéro-club , CDROM ou cédérom , etc

En revanche, cela s'applique aux prénoms ambigus :

^^Michèle ou ^^Michelle Martin ; ^^Danièle ou ^^Danielle Durand ; mais

Michèle Morgan ; Danielle , avec 2 L ,

26

3.3. Spécificités du langage parléLorsqu'on écoute attentivement le signal, on se rend compte que des parties de mots, voire des mots entiers peuvent avoir disparus.

On peut être tenté de marquer graphémiquement les réductions produites par le locuteur. La consigne à suivre ici est de respecter l'orthographe standard: ne pas marquer, dans l'écriture, l'élision ou la réduction présente dans la parole. On peut utiliser la balise de prononciation ou la balise de commentaire, si on veut décrire les phénomènes observés.

3.3.1. OnomatopéesLes onomatopées font partie de la langue et sont à transcrire au même titre que les autres mots. Les plus fréquentes existent en général en tant que mots graphémiques, pour toutes les autres on devra créer des mots correspondants et maintenir cette liste à jour.

euh , ben, eh, hein, ah, hum, oh, hé, ouahou, huhum, hou, hop, aïe ...

Exemples :euh on voit que les ... , ah , comment dire et en fait euh bon benl'indice Nikkei et non pas Mickey hein ! eh bien , hé oh comme vous dites !hou là là une étude sur le le hum ()ouahou , chic alors !on en parle plus , hop .

3.3.2. RépétitionsLes répétitions ne portent pas d'information et on tenterait naturellement de les éliminer dans un processus de transcription d'une dictée. Elles doivent être transcrites comme tout autre mot.

le le le député ...

3.3.3. Elisions & formes réduitesLa réduction peut porter sur un seul mot ou une suite de mots, par exemple:

orches' de chambre | s'i 'ous plaît | qu'i soit | dans c' domaine

orchestre de chambre | s'il vous plaît | qu'il soit | dans ce domaine

Remarque: La réduction de qu'il en qu'i' est transcrite qu'il et non pas qui.

Autres exemples:

i' y a ou bien y a

il y a ou bien (il) y a

27

On peut écrire (il) y a si le il est absent de manière évidente. Mais nous tenons à souligner qu'il est inutile de faire des écoutes répétées pour décider si le il est présent ou non.

Dans le langage parlé le ne de la négation est très souvent omis. Dans ce cas on ne l'écrit pas.

j'en sais rien

j'en sais rien

chais pas ou bien chsais pas ou bien ...

je sais pas ou bien je (ne) sais pas

mais y a pas d' raison qu'i' soit pas là

mais il y a pas de raison qu'il soit pas là ou bien mais (il n') y a pas de raison qu'il (ne) soit pas là

3.3.4. TroncaturesLes mots tronqués peuvent provenir de deux origines différentes : soit le locuteur s'arrête avant la fin du mot, soit le locuteur est coupé par le système d'enregistrement. Dans ce dernier cas le mot peut être tronqué au début : le locuteur a commencé à parler avant le début de l'enregistrement. La troncature est marquée par des parenthèses. Si le mot tronqué est connu (grâce au contexte) on note la partie manquante du mot entre parenthèses.

notation : ()

vou() : troncature finale de voudrais, voulais,...

()embre : troncature initiale de septembre, novembre, décembre,...

après-de(main) : le mot complet peut être déduit du contexte

3.3.5. LapsusIl arrive que la prononciation erronée soit un mot correct de la langue. Dans ce cas, on transcrit les mots tel qu'ils ont été prononcés.

une augmentation conséquence euh conséquente

une augmentation conséquence euh conséquente

3.3.6. Prononciation erronéeSi on arrive à identifier le mot mal prononcé, on écrit le mot correct précédé d'une étoile.

notation : *mot-correct

pestacle

28

*spectacleLa prononciation effective peut être, en plus, signalée par une balise :

rénumération

*rémunération+[pron=rénumération]

S'il s'agit de parole inintelligible, on utilise la notation suivante :notation : [pi]Si la parole est inintelligible parce qu'il s'agit de parole inaudible et faible, on peut noter ce type d'événement, si on veut la différencier du cas ci-dessus, par :notation : [pif]Le transcripteur est invité à insérer une balise de synchronisation près du mot (juste après le mot) mal prononcé (afin de poser un repère pour la segmentation automatique dans cette zone erronée).

3.3.7. LiaisonsOn ne marque pas les liaisons dans la transcription orthographique. Les liaisons erronées sont relevées par la balise de prononciation.

vingt-z-animaux

vingt+[pron=vingt-z] animaux

trop-z ennuyeux il voudrait-z y aller

trop+[pron=trop-z] ennuyeux il voudrait y aller

3.3.8. ÉpellationsToutes les lettres sont notées en majuscules séparées par des blancs, p. ex :P A R I SL'épellation des lettres accentuées peut conduire à différentes transcriptions, suivant l'énoncé du locuteur, par exemple :

é accent aigu

É accent aigu

e accent aigu

E accent aigu Remarque : l'épellation des lettres redoublées peut donner lieu à différentes transcriptions. Par exemple le locuteur doit épeler Vannes :

v a n n e s

V A N N E S

29

v a deux n e s

V A 2 N E S

3.3.9. Ponctuation verbaliséeSi un locuteur énonce la ponctuation (comme s'il faisait une dictée, verbalized punctuation) on écrit le mot correspondant en toutes lettres :

cent-cinq point cinq

105 point 5

4. Vérification

4.1. Comment vérifier la transcription ?• Ecoutez le signal tout en lisant la transcription. Stoppez et redémarrez aussi souvent

que nécessaire. Utilisez de préférence la commande [Signal]/[Joue le segment] ou Shift-Tab.

• La transcription est à modifier dans l'éditeur de texte. Dans une future version du logiciel, un correcteur orthographique devrait être disponible pour la correction des fautes d'orthographe (et plus généralement des fautes de frappe).

• Les frontières des segments peuvent être déplacées ou supprimées • Les tours de paroles et les sections sont éditables en cliquant sur le bouton

correspondant. • La correction orthographique est disponible par [Edition]/[Correction orthographique]

30