spc.emde.free.frspc.emde.free.fr/fichiers/specialite/TP_7.docx  · Web viewLe spectre d’un son...

13
TP 7 La reconnaissance de la La reconnaissance de la parole parole (Mots-clés : voix, reconnaissance vocale) Source : Apple Identifier une personne par sa voix est une tâche complexe. La voix dépend de nombreux paramètres physiologiques. Les Smartphones, les ordinateurs ou les plateformes téléphonique utilisent de plus en plus la reconnaissance automatique de la parole (souvent improprement appelée reconnaissance vocale) pour que l’homme puisse communiquer avec les machines. Comment fonctionne cette technique ? DOCUMENTS MIS A DISPOSITION : DOC. 1 DOC. 1 : Les phonèmes L’une des étapes de la reconnaissance vocale est le repérage des phonèmes. La voix peut être décomposée en une suite de sons distinctifs appelés phonèmes. Par exemple, les mots « lait » et « loup » diffèrent par un phonème respectivement repéré, en alphabet phonique, par [] et [u]. Quelques phonèmes classiques de la langue française sont donnés ci-dessous : [i] : il ; ami ; souris ; lit ; [] : colère ; lait ; jamais ; fer ; [o] : mot ; peau ; dos ; faux ; [y] : rue ; but ; abus ; culotte ; [ə] : le ; me ; semer ; premier ; [ᾶ] : sans ; temps; banc ; dent ; [e] : blé ; clé ; donner, nez ; [a] : plat ; rat ; maman ; [u] : genou ; loup ; clou ; mou ; [ø] : peu ; deux ; feu ; jeu ; [ɛ̃] : plein ; fin ; pain ; demain ; [ɔ] : bon ; fond ; ombre ; mon ; DOC. 2 DOC. 2 : Les techniques de la reconnaissance vocale Pour identifier le langage parlé, deux techniques peuvent être employées en Émetteurs et récepteurs sonores 1

Transcript of spc.emde.free.frspc.emde.free.fr/fichiers/specialite/TP_7.docx  · Web viewLe spectre d’un son...

Page 1: spc.emde.free.frspc.emde.free.fr/fichiers/specialite/TP_7.docx  · Web viewLe spectre d’un son correspondant à un phonème fait apparaître plusieurs pics, appelés formants.

TP7La reconnaissance de la paroleLa reconnaissance de la parole

(Mots-clés : voix, reconnaissance vocale)

Source      :   Apple

Identifier une personne par sa voix est une tâche complexe.   La   voix   dépend   de   nombreux paramètres  physiologiques.  Les  Smartphones,   les ordinateurs   ou   les   plateformes   téléphonique utilisent   de   plus   en   plus   la  reconnaissance automatique de la parole (souvent improprement appelée  reconnaissance vocale)   pour   que l’homme puisse communiquer avec les machines.

Comment fonctionne cette technique ?

DOCUMENTS MIS A DISPOSITION   :

DOC. 1DOC. 1 :: Les phonèmesL’une  des  étapes  de  la  reconnaissance vocale est le repérage des phonèmes. La voix peut être décomposée en une suite de  sons  distinctifs  appelés  phonèmes. Par exemple, les mots « lait » et « loup » diffèrent  par  un  phonème respectivement  repéré,  en  alphabet phonique, par [] et [u].

Quelques phonèmes classiques de la langue française sont donnésci-dessous :[i] : il ; ami ; souris ; lit ;[] : colère ; lait ; jamais ; fer ;[o] : mot ; peau ; dos ; faux ;[y] : rue ; but ; abus ; culotte ;[ə] : le ; me ; semer ; premier ;[ᾶ] : sans ; temps; banc ; dent ;

[e] : blé ; clé ; donner, nez ;[a] : plat ; rat ; maman ;[u] : genou ; loup ; clou ; mou ;[ø] : peu ; deux ; feu ; jeu ;[ ] : plɛ̃ ein ; fin ; pain ; demain ;[ɔ] : bon ; fond ; ombre ; mon ;

DOC. 2DOC. 2 :: Les techniques de la reconnaissance vocalePour identifier le langage parlé, deux techniques peuvent être employées en fonction de l’application utilisée.

L’approche globale  s’intéresse  directement  aux  mots.  Une   image   acoustique   (ou  profil   acoustique)  d’un certain nombre de mots est enregistrée dans une base de données et comparée à l’image acoustique du mot prononcé. En usage normal, pour reconnaître un mot prononcé par l’utilisateur, l’appareil compare son image acoustique à celles qu’il possède en mémoire puis lui attribue alors des notes statistiques de ressemblance et décrète que le mot prononcé est celui qui a obtenu la meilleure note. Cette technique est efficace mais le nombre de mots est limité, à cause de la capacité de stockage et de traitement de la machine ;

L’approche analytique est basée sur la reconnaissance des phonèmes et syllabes. Après amplification et tri par fréquences, grâce à un jeu de filtres électroniques rappelant les « égaliseurs » des chaines haute-fidélité, un spectrogramme de la phrase prononcée est obtenu. Pour l’ordinateur, la première tâche consiste à séparer chaque phonème. Il le transforme alors en un fichier numérique sous forme de tableau de données. Il compare ensuite les tableaux obtenus à ceux que contient un dictionnaire stocké dans une base de données où sont associés phonèmes (ou groupes de phonèmes) et mots réels. L’avantage est incomparable : tous les mots de la langue française peuvent être prononcés avec seulement 36 phonèmes. Pour pallier les différences d’accents, de timbre ou de rythme de parole, on « entraîne » le système de reconnaissance en faisant lire au locuteur des phrases choisies. La plus grande difficulté est que la machine doit interpréter le sens du discours pour ne pas confondre deux phrases phonétiquement identiques (comme par exemple : « la citerne est pleine d’eau » et « la scie terne est plaine dos »).

Émetteurs et récepteurs sonores  1

Page 2: spc.emde.free.frspc.emde.free.fr/fichiers/specialite/TP_7.docx  · Web viewLe spectre d’un son correspondant à un phonème fait apparaître plusieurs pics, appelés formants.

DOC. 3DOC. 3 :: Spectre d’un phonème

Le   spectre   d’un   son   correspondant   à   un   phonème   fait apparaître plusieurs pics, appelés formants. Ils sont dus à des phénomènes de résonance à l’intérieur du conduit vocal ; leur fréquence dépend de la position des divers organes mis en jeu dans   la   voix   (langues,   lèvres,   etc.).   Les   formants   sont caractéristiques du phonème prononcé. Les analyses spectrales montrent que quatre à cinq formants importants sont présents dans tous les spectres de voix.

DOC. 4DOC. 4 :: Les sonagrammes (ou sonogrammes)Un   sonagramme   (« spectrogram »   en   anglais)   est   la   représentation visuelle d’un son : il est utilisé pour identifier un son.

Il   représente  la   fréquence en fonction du temps et   l’intensité  sonore associée à chaque fréquence est représentée par un code couleur qui dépend du logiciel utilisé : sur le sonagramme ci-contre, plus le point est de couleur foncée, plus l’intensité est élevée.

Sur un sonagramme, les formants sont repérés par des zones nettement colorées.

Répondre aux questions suivantes en utilisant Word ou PowerPoint. Utilisez des copies d’écrans pour illustrer les réponses ainsi que des extraits sonores enregistrés avec le logiciel Audacity.

1. Analyse d’un sonagramme  Branchez le micro sur la borne bleue à l’avant de l’unité centrale et ouvrir le micro (si nécessaire) ; Ouvrez le logiciel « Frequency Analyseur » ; Réalisez le sonagramme du phonème [], suffisamment fort, pendant 2 à 3 secondes environ.

Q1.Q1. Décrire l’allure du sonagramme réalisé.Q2.Q2. Comment repère-t-on les formants sur le sonagramme ? Repérez les cinq premiers. À quoi correspondent-ils ? Q3.Q3. À quel paramètre du son du phonème correspond la fréquence du premier formant ?Q4.Q4. Comparez les sonagrammes des phonèmes [] prononcés par une voix féminine et une voix masculine.Q5.Q5. Montrez, en réalisant quelques enregistrements, qu’il est possible de reconnaître des phonèmes dans un mot par l’observation de leur sonagramme.

2. Analyse par phonèmes  Branchez le micro sur la borne bleue à l’avant de l’unité centrale et ouvrir le micro (si nécessaire) ; Ouvrez le logiciel « Audacity » ; Enregistrez le signal sonore associé au phonème [] et en affichez son spectre.

Q6.Q6. Repérez les fréquences des cinq premiers formants. Que remarque-t-on ? Q7.Q7. Enregistrez les signaux sonores associés à deux phonèmes parmi ceux du document 1 puis, sur le même enregistrement, celui d’un mot contenant ces deux phonèmes. Comparez les formes des signaux et des sonagrammes.

Émetteurs et récepteurs sonores  2

Spectre du phonème []

Questions

Questions

Page 3: spc.emde.free.frspc.emde.free.fr/fichiers/specialite/TP_7.docx  · Web viewLe spectre d’un son correspondant à un phonème fait apparaître plusieurs pics, appelés formants.

3. Application Les voix des personnes de sexe féminin sont souvent plus aigües que celle des personnes de sexe masculin.Dans les documents ci-dessous,  deux personnes, de sexes opposés,  ont été enregistrées prononçant  les mêmes mots.

Fig. 1 : Sonagramme du mot « envoyer » Fig. 2 : Sonagramme du mot « annuler »

Fig. 3 : Sonagramme inconnu n°1 Fig. 4 : Sonagramme inconnu n°2

Q8.Q8. Quel est le mot prononcé sur la figure 3 ? Sur la figure 4 ?Q9.Q9. Retrouvez la paire de mots prononcée par chaque personne. Associez à la personne le sexe le plus probable.

4. Conclusion Après   avoir   résumé   le   principe  de   la   reconnaissance  de   la   voix   par   approche   analytique   (par  un   schéma  par exemple),   montrez,   à   travers   un   ou   plusieurs   exemples   judicieusement   choisis,   que   la   seule   lecture   d’un sonagramme (sans l’écoute du signal correspondant) permet de retrouver le contenu d’un message parlé.

Émetteurs et récepteurs sonores  3

Questions

Page 4: spc.emde.free.frspc.emde.free.fr/fichiers/specialite/TP_7.docx  · Web viewLe spectre d’un son correspondant à un phonème fait apparaître plusieurs pics, appelés formants.

TTABLEAUABLEAU DESDES COMPÉTENCESCOMPÉTENCES MISESMISES ENEN ŒUVREŒUVRE DANSDANS LL’’ACTIVITÉACTIVITÉ

COMPÉTENCES Exemples de capacités et d’aptitudes

MOBILISER SESCONNAISSANCES

Connaître les notions scientifiques du programme, le vocabulaire approprié, les symboles adaptés, les unités.

S’APPROPRIER

Rechercher, extraire et organiser l’information utile.

Adopter une attitude critique vis-à-vis de l’information.

Questionner, identifier, formuler un problème. 

Reformuler.

Identifier les risques.

RÉALISER

Réaliser un montage à partir d’un schéma. 

Suivre un protocole donné. 

Utiliser, dans un contexte donné, le matériel à disposition.

Savoir choisir, combiner et réaliser plusieurs actions.

Effectuer un relevé de mesures.

Schématiser, construire un graphique, un tableau, etc.

Exploiter une relation, un calcul littéral.

Effectuer un calcul numérique, utiliser les symboles et les unités appropriés, utiliser la calculatrice.

Reconnaître et utiliser la proportionnalité.

Respecter les règles de sécurité, manipuler avec soin, veiller au rangement du plan de travail, etc.

ANALYSER

Émettre une hypothèse.

Identifier les paramètres qui influencent un phénomène, choisir les grandeurs à mesurer.

Élaborer ou justifier un protocole.

Proposer une méthode, un calcul, un outil adapté ; faire des essais (choisir, adapter une méthode, un protocole).

Proposer, décrire un modèle ; utiliser un modèle pour prévoir, décrire et expliquer.

Percevoir la différence entre un modèle et la réalité, entre la réalité et une simulation.

VALIDER

Estimer l’incertitude d’une mesure, faire un traitement statistique d’une série de mesures, etc.

Interpréter des résultats, juger de la qualité d’une mesure, etc.

Confronter le résultat au résultat attendu, mettre en relation, déduire.

Valider ou invalider une information, une hypothèse, etc.

COMMUNIQUER À L’AIDE DE LANGAGES OU D'OUTILS SCIENTIFIQUES

Communiquer des résultats, rédiger une solution.

Exprimer un résultat (grandeur ─ unité ─ chiffres significatifs).

Rendre compte à l’écrit ou à l’oral en utilisant un vocabulaire adapté.

ÊTRE AUTONOME, FAIRE PREUVE D’INITIATIVE

S’impliquer.

Prendre des initiatives, anticiper, faire preuve de créativité.

Travailler en autonomie.

Travailler en équipe.

Émetteurs et récepteurs sonores  4

Page 5: spc.emde.free.frspc.emde.free.fr/fichiers/specialite/TP_7.docx  · Web viewLe spectre d’un son correspondant à un phonème fait apparaître plusieurs pics, appelés formants.

Émetteurs et récepteurs sonores  5

Page 6: spc.emde.free.frspc.emde.free.fr/fichiers/specialite/TP_7.docx  · Web viewLe spectre d’un son correspondant à un phonème fait apparaître plusieurs pics, appelés formants.

CORRECTIONCORRECTION1. Analyse d’un spectrogramme Q1.Q1. 

                                               Voix masculin                            Voix féminine

On obtient plusieurs formants d’intensités variables et qui se trouvent à des fréquences différents selon qu’il s’agisse de l’enregistrement d’une voie féminine ou masculine.

Q2.Q2. Les formants sont repérés grâce aux lignes colorées horizontales. Le premier formant correspond à l’harmonique fondamental, les quatre autres correspondent aux harmoniques de rang 2, 3, 4 et 5. Les formants de grande intensité sonore sont repérés en blanc. Le formant de rang 1, 2, 4, 11 et 12 de la voix masculine sont de grande intensité sonore.

Les formants      :  

Q3.Q3. La fréquence du premier formant correspond à la hauteur du son du phonème.Q4.Q4. Les formants du phonème [], prononcé par une voix féminine, ont des fréquences plus élevée que celles d’une voix masculine. Le son du phonème est plus aigu donc l’écart en fréquence entre deux formants consécutifs est plus grand.

Q5.Q5. Grâce à la position et à l’intensité des différents formants, on peut reconnaître les phonèmes dans les mots  prononcés.

Page 7: spc.emde.free.frspc.emde.free.fr/fichiers/specialite/TP_7.docx  · Web viewLe spectre d’un son correspondant à un phonème fait apparaître plusieurs pics, appelés formants.

Par exemple, on reconnaît dans le mot « poulet » (ci-après) les deux phonèmes [u] et [e] et dans le mot « colère » on repère les phonèmes [o], [] et [ə].

Spectrogramme du mot poulet et des phonèmes associés :

2. Analyse par phonèmes Q6.Q6. Signal sonore du phonème [] et son spectre avec Audacity :

Fréquences des 5 premiers formants :

f1  = 51 Hz  f2  = 154 Hz  3 f1  f3  = 304 Hz   6 f1 (grande intensité sonore)  f4  = 455 Hz   9 f1 (grande intensité sonore)f5  = 609 Hz   12 f1

 On remarque que les fréquences des différents formants sont des multiples du premier (le fondamental).

Q7.Q7. Enregistrement de deux phonèmes suivant d’un mot :

Enregistrement des signaux acoustiques

Spectrogrammes

 On reconnait les phonèmes [a] et [i] dans la forme du signal sonore et dans le spectrogramme associé au mot « ami ».

Page 8: spc.emde.free.frspc.emde.free.fr/fichiers/specialite/TP_7.docx  · Web viewLe spectre d’un son correspondant à un phonème fait apparaître plusieurs pics, appelés formants.

Enregistrements avec le logiciel « Frequency Analyser » :

Voix masculine Voix féminine

3. Application Q8.Q8. En comparant l’allure générale des différents mots, on identifie que le mot prononcé à la figure 3 est « envoyer ». À la figure 4, il s’agit du mot « annuler ».Q9.Q9. La même personne a prononcé les mots des figures 1 et 4. Les fréquences atteignent des valeurs plus grandes que dans les autres figures. Il s’agit a priori d’une personne de sexe féminin. Du coup, les figures 2 et 3 ont a priori été prononcées par la même personne de sexe masculin.

4. Conclusion

La reconnaissance vocale, domaine scientifique en plein essor, peut se décomposer en quatre étapes :

 Le traitement acoustique, qui numérise le signal et le traite par analyse spectrale (appelée analyse de Fourier) ;

 La décomposition du mot en phonèmes ;

 L’apprentissage automatique, qui compare des séquences enregistrées à une base de séquences connues ;

 Le décodage, qui reconstitue le discours le plus probable en assemblant les séquences apprises précédemment.

Page 9: spc.emde.free.frspc.emde.free.fr/fichiers/specialite/TP_7.docx  · Web viewLe spectre d’un son correspondant à un phonème fait apparaître plusieurs pics, appelés formants.

FICHE TP N°7 – FICHE TP N°7 – La reconnaissance de la paroleLa reconnaissance de la paroleType d’activité : Activité expérimentale (TP 1 h)

Conditions de mise en œuvre : manipulation en binômes.

Pré- requis :

DOMAINE D’ÉTUDE MOTS-CLÉS

Émetteurs et récepteurs sonores Reconnaissance vocale.

Compétences transversales :

Matériel (par table) :

- Microphone à électret, à brancher directement sur l’ordinateur.

Bureau professeur :

Rien !

Page 10: spc.emde.free.frspc.emde.free.fr/fichiers/specialite/TP_7.docx  · Web viewLe spectre d’un son correspondant à un phonème fait apparaître plusieurs pics, appelés formants.

COMPLÉMENTS

Spectrogramme      :  

Sonagramme      :  

Page 11: spc.emde.free.frspc.emde.free.fr/fichiers/specialite/TP_7.docx  · Web viewLe spectre d’un son correspondant à un phonème fait apparaître plusieurs pics, appelés formants.

Sources de l’activitéSources de l’activitéActivité n°6 p96-97 (BORDAS TLES Enseignement de Spécialité, Collection E.S.P.A.C.E Lycée)Activité n°4 p74 (HACHETTE TS Ens. Spécialité, Collection Dulaurans Durupthy)Document de Éric DAINI – Lycée Paul Cézanne – Aix en Provence (http://labotp.org)

http://outilsrecherche.over-blog.com/pages/Notes_311_Decodage_du_Signal_de_la_Parole-3082466.htmlhttp://alluin.fr/article.php?id_article=12http://alluin.fr/article.php?id_article=13http://alluin.fr/article.php?id_article=11

https://fr.wikipedia.org/wiki/Liste_des_graphies_des_phon%C3%A8mes_du_fran%C3%A7ais