UNIVERSITÉ HAMA LAKHDAR D’EL

73
N° d‟ordre : N° de série : République Algérienne Démocratique et Populaire Ministère de l’Enseignement Supérieur et de la Recherche Scientifique UNIVERSITÉ HAMA LAKHDAR D’EL-OUED FACULTÉ DES SCIENCES ET DE TECHNOLOGIE Mémoire de fin d’étude Présenté pour l’obtention du diplôme de MASTER ACADEMIQUE Domaine : Mathématique et Informatique Filière : Informatique Spécialité : Systèmes Distribués et Intelligence Artificielle Présenté par: M elle Maamra OumElhana M elle Settou Trablesse Thème Soutenu le 04 juin 2015 Devant le jury composé de : MC (B) Univ. El Oued Président MA (B) Univ. ElOued Examinateur MA (B) Univ. ElOued Rapporteur Année universitaire 2014 2015 Proposition d’un modèle de descripteur structurel pour la voix arabe, Application saisie des notes Mr. Othmani Samir M elle .Bellila Khaoula Mr. ZAIZ Faouzi

Transcript of UNIVERSITÉ HAMA LAKHDAR D’EL

Page 1: UNIVERSITÉ HAMA LAKHDAR D’EL

N° d‟ordre :

N° de série :

République Algérienne Démocratique et Populaire

Ministère de l’Enseignement Supérieur et de la Recherche

Scientifique

UNIVERSITÉ HAMA LAKHDAR D’EL-OUED

FACULTÉ DES SCIENCES ET DE TECHNOLOGIE

Mémoire de fin d’étude Présenté pour l’obtention du diplôme de

MASTER ACADEMIQUE

Domaine : Mathématique et Informatique

Filière : Informatique

Spécialité : Systèmes Distribués et Intelligence Artificielle

Présenté par: Melle

Maamra OumElhana

Melle

Settou Trablesse

Thème

Soutenu le 04 juin 2015

Devant le jury composé de :

MA (B) Univ. MC (B) Univ. El Oued Président

MA (B) Univ. ElOued Examinateur

MA (B) Univ. ElOued Rapporteur

Année universitaire 2014 – 2015

Proposition d’un modèle de descripteur structurel

pour la voix arabe, Application saisie des notes

Mr. Othmani Samir

Melle

.Bellila Khaoula

Mr. ZAIZ Faouzi

Page 2: UNIVERSITÉ HAMA LAKHDAR D’EL

Remerciements

Nous remercions Allah le tout puissant, qui nous a donné la force et la

patience pour l’accomplissement de ce travail.

Nos remerciements, les plus vifs, notre profonde gratitude et nos

respects s'adressent à notre Encadreur

M. ZAIZ Faouzi

Pour avoir accepté de nous encadrer, pour les conseils et orientations

tant précieux qu’il nous avons prodigués durant ce Mémoire.

Sans son aide, notre travail n'aurait pas vu la lumière.

Nous remercions vivement les membres du jury qui nous ont fait

l’honneur

D’accepter de juger notre travail.

Notre reconnaissance va aussi à tous ceux qui ont collaboré à notre

Formation en particulier les enseignants du département

D’Informatique, de l’université Hama Lakhdar d’El-Oued.

Aussi à nos familles Settou et Maamra

Nous remercions également tous ceux qui ont participé de près

Ou de loin à élaborer ce travail.

Page 3: UNIVERSITÉ HAMA LAKHDAR D’EL

Résumé

La reconnaissance du son et la reconnaissance de la voie arabe en particulier présente

un défi très grand et joue un rôle très important dans le monde actuel pour rendre les

machines capable de connaitre comme un homme et capable de résoudre des problèmes

complexes. Malgré les tentatives de rendre la machine apprendre comme les humains, Mais

jusqu‟aujourd‟hui, aucune machine capable de comprendre100%un message vocal provenant

d'un locuteur quelconque, dans des environnements souvent perturbés, quel que soit son mode

d'élocution, la syntaxe et le vocabulaire utilisés tel que l‟homme.

Dans ce travail on s‟intéresse d‟une part à faire une étude concernant le domaine de la

reconnaissance du son. Ensuite, nous allons affinée par un intérêt particulier à une phase

considérée comme cruciale dans le procédé de reconnaissance: la phase de segmentation.

Enfin, nous allons proposer un modèle de descripteur vocale pour la langue arabe vue

la robustesse et la qualité de définition offerte par ce technique.

Mots clés: reconnaissance du son, voie arabe, classificateur FLC.

Page 4: UNIVERSITÉ HAMA LAKHDAR D’EL

صــملخ

إن التعرف على الصوت و خاصة الكلام العرب أصبح لعب دورا هاما ف العالم و ذلك بجعل الآلة ذكة قادرة

على %100لا توجد لحد الآن آلة تستطع التعرفعلى حل المشاكل المعقدة, فبالرغم من المحاولات الكثرة لتحقق هذا

م وجود فوضى(.)وجود أو عد رسالة صوتة من أي متكلم و ف أي وسط

ف هذا العمل كانت دراستنا ف مجال الصوت, حث ركزنا على وجه الخصوص بمرحلة تعتبر حاسمة ف

التعرف على الصوت : التقسم, فاقترحنا نموذج وصف للصوت العرب موضحن استقرارة و جودة النتائج المقدمة.

.FLC, المصنف التعرف على الصوت, الكلام العرب : الكلمات المفتاحية

Page 5: UNIVERSITÉ HAMA LAKHDAR D’EL

Abstract

The knowledge of voices and particularly those of Arabic language represents a great

defy and play an important role in our world to enable the machine of knowing and

distinguishing as human being. It resolves many complicated problems making the human life

more easier.

In spite of repetitive essays to replace the human by the machine but until now there is

no machine that could understand the vocal message and distinguish it from different speakers

in different environment with divergent words, syntax and used expressions. After that, we

will stress the importance on a phase which is called: segmentation phase.

Finally, we will suggest a mode for describing voices in Arabic language because of

its harness, quality of definition that has been presented by its technics.

Keywords: voice knowledge, Arabic voice, Classifier FLC.

Page 6: UNIVERSITÉ HAMA LAKHDAR D’EL

I

Liste des figures

I. Reconnaissance Automatique de Parole

Figure I. 1:Schéma synoptique de l‟acquisition d‟un signal de parole. .................................... 6

Figure I. 2: Schéma de synthèse de la parole. ........................................................................... 7

Figure I. 3:Schéma de Reconnaissance de parole. .................................................................... 8

Figure I. 4: Schéma générale d„un SRAP. .............................................................................. 11

II. Segmentation et Extraction des caractéristiques de SP

Figure II. 1: Forme d'onde et spectrogramme d'un énoncé du mot "17 ............................... ."رقم

Figure II. 2: Exemples de fenêtres de pondération. ................................................................ 20

Figure II. 3: Schéma présentant les différentes méthodes d'extraction de caractéristique. .... 20

Figure II. 4: Représentation temporelle(Audiogramme) de signaux de parole. ..................... 21

Figure II. 5: L‟extraction des paramètres vocaux par LPC. ................................................... 22

Figure II. 6: Analyse cepstrale sur une fenêtre temporelle. .................................................... 24

Figure II. 7: Calcul des coefficients cepstraux MFCC. .......................................................... 25

Figure II. 8: Calcul des coefficients cepstraux LPCC. .......................................................... 25

III. Classification de signal de parole

Figure III. 1: Schéma de structure de classificateur FLC. ...................................................... 33

Figure III. 2: Classificateur FLC. ........................................................................................... 35

IV. Conception & Mise en œuvre

Figure IV. 1: Illustration des modules du système. .............................................................................. 39

Figure IV. 2: Exemple de segmentation niveau 1. ............................................................................... 41

Figure IV. 3: Exemple de segmentation niveau 2. ............................................................................... 44

Figure IV. 4: Exemple de normalisation de mot « 46 .................................................................... .«رقـــم

Figure IV. 5: Exemple d‟extraction des caractéristiques pour le mot « 47 .................................... .«رقـــم

Figure IV. 6: La phase de classification. .............................................................................................. 48

Figure IV. 7: Exemple de classification exacte. ................................................................................... 49

Figure IV. 8: a) Résultat par classification approchée, b) Résultat par classification approchée. ....... 50

Figure IV. 9: L'interface de démarrage de notre système. ................................................................... 52

Figure IV. 10: Fenêtre principale de l‟application. .............................................................................. 52

Figure IV. 11: Illustration de l‟utilisation de l‟application. ................................................................. 53

Figure IV. 12: Illustration de segmentation de signal de son. .............................................................. 54

Figure IV. 13: Illustration d‟apprentissage de nouveaux exemples. .................................................... 54

Figure IV. 14: Illustration de test d‟un exemple donné. ...................................................................... 55

Figure IV. 15: Illustration de Taux de reconnaissance de MS et LPC. ................................................ 56

Figure IV. 16: Illustration de temps d'exécution de MS et LPC. ......................................................... 56

Page 7: UNIVERSITÉ HAMA LAKHDAR D’EL

II

Liste des tableaux

IV. Conception & Mise en œuvre

Table IV. 1: Exemple des chaines de définition des segmente de parole. ............................................ 51

Table IV. 2 : Illustration des résultats obtenus avec une comparaison de la méthode LPC. ................ 56

Page 8: UNIVERSITÉ HAMA LAKHDAR D’EL

III

Sommaire

Liste des figures ......................................................................................................................... I

Liste des tableaux .................................................................................................................... II

Sommaire ................................................................................................................................ III

Liste d'abréviation…………………...…………………...…………………..……………..IV

Introduction générale ............................................................................................................. 1

Chapitre I: Reconnaissance Automatique de Parole

Introduction ................................................................................................................................ 3

1. Quelque concept de base ..................................................................................................... 3

1.1 Définition de son .............................................................................................................. 3

1.2 Les types de son ................................................................................................................ 3

1.3 Présentation de langue arabe ............................................................................................ 4

2. Traitement de signal de parole ............................................................................................ 4

2.1 Définition de signale de parole ......................................................................................... 5

2.2 Caractéristiques de signal de parole ................................................................................. 5

2.3 Le capteur (microphone) .................................................................................................. 6

2.4 Carte d‟interface (carte son) ............................................................................................ 7

2.5 Type de traitement de signal de parole ........................................................................... 7

2.5.1 La synthèse de la parole ............................................................................................. 7

2.5.2 La Reconnaissance de la Parole ................................................................................. 7

3. Système de Reconnaissance Automatique de la Parole «SRAP» ....................................... 8

3.1 Problèmes liés aux Systèmes de Reconnaissance de parole ............................................. 8

3.2 Approches de reconnaissance de parole .......................................................................... 9

3.3 Modules de base de la reconnaissance de parole ............................................................ 10

3.3.1 Un module d‟acquisition et de modélisation du signal ............................................ 10

3.3.2 Un module acoustique .............................................................................................. 10

3.3.3 Un module lexical .................................................................................................... 10

3.3.4Un module syntaxique .............................................................................................. 10

3.4 Phases de system de reconnaissance de parole ............................................................... 11

3.4.1 Acquisition du signal ............................................................................................... 11

3.4.2 Prétraitement ............................................................................................................ 12

3.4.3 La segmentation ....................................................................................................... 12

Page 9: UNIVERSITÉ HAMA LAKHDAR D’EL

IV

3.4.4 Extraction de caractéristique .................................................................................... 12

3.4.5 Classification ........................................................................................................... 13

3.4.6 Post traitement ......................................................................................................... 14

4. Conclusion ........................................................................................................................ 14

Chapitre II: Segmentation et Extraction des caractéristiques de SP

Introduction .............................................................................................................................. 16

1. Segmentation ..................................................................................................................... 16

1.1 Méthodes de segmentation ............................................................................................ 16

1.1.2 Segmentation en voisées/ non voisées .................................................................... 16

1.1.2 Segmentation en phonème ....................................................................................... 16

1.1.3 Segmentation en syllabe ......................................................................................... 17

1.1.4 Segmentation en mots .............................................................................................. 18

1.1.5 Segmentation en locuteurs et tour de parole ............................................................ 18

2. Extraction des caractéristiques .......................................................................................... 19

2.1 Fenêtrage ........................................................................................................................ 19

2.2 Approches et techniques d'extraction de caractéristique ............................................... 20

2.2.1 Approche temporelle ................................................................................................ 20

2.2.2 Approche fréquentielles ou spectrales ..................................................................... 22

2.2.3 Approche cepstrales ................................................................................................. 24

3. Conclusion ........................................................................................................................ 26

Chapitre III: Classification de signal de parole

Introduction .............................................................................................................................. 28

1. Distances dans l'espaceacoustique .................................................................................... 28

1.1 Mesure de distorsion ...................................................................................................... 28

1.2 Distance Euclidienne ..................................................................................................... 28

1.3 Distance d'ltakura ........................................................................................................... 29

1.4 Distance cepstrale ........................................................................................................... 29

1.5 Distance de Mahalanobis ................................................................................................ 30

2. Catégories de classification de signal de parole ............................................................... 30

2.1 Classification statistique .............................................................................................. 30

2.1.1 Décision Bayésienne ................................................................................................ 30

2.1.2 Méthode des k-plus proches voisins (k-ppv) ........................................................... 31

2.1.3 Machines à Vecteurs de Support (SVM) ................................................................. 31

2.2 Classification stochastique .......................................................................................... 31

Page 10: UNIVERSITÉ HAMA LAKHDAR D’EL

IV

2.3 Classification neuronale .............................................................................................. 32

3. Méthode de classification FLC ......................................................................................... 32

3.1 Points forts de FLC ......................................................................................................... 32

3.2 Structure de classificateur FLC ...................................................................................... 33

3.2.1 Couche instructeur ................................................................................................... 33

3.2.2 Couche raisonnement ............................................................................................... 33

3.2.3 Couche apprentissage ............................................................................................... 34

3.2.4 Couche Classification .............................................................................................. 34

A.Gestionnaire de classification ....................................................................................... 34

B. Vote. ............................................................................................................................. 36

C. Calcule ....................................................................................................................... 36

4. Conclusion ........................................................................................................................ 36

Chapitre IV: Conception & Mise en oeuvre

Introduction .............................................................................................................................. 38

1. Mise en œuvre du système ................................................................................................ 38

1.1 Acquisition..................................................................................................................... 39

1.2 Segmentation ................................................................................................................. 39

1.2.1Segmentation niveau 1 .............................................................................................. 40

1.2.2 Segmentation niveau 2 ............................................................................................. 41

1.3 Extraction des caractéristiques ..................................................................................... 44

1.3.1 Normalisation de signal vocal .................................................................................. 44

1.3.2 Méthode proposée .................................................................................................... 46

1.4 Classification .................................................................................................................. 47

1.5 Post-traitement ................................................................................................................ 48

2. Résultats et bilan ............................................................................................................... 51

2.1 Choix du langage de programmation.............................................................................. 51

2.2 Interfaces du système ...................................................................................................... 51

2.2.1 Utilisation de l‟application ....................................................................................... 52

2.2.2Analyse du son (Sound Analyser) ............................................................................. 53

3. Comparaison des résultats (LPC/MS) ............................................................................... 55

4. Conclusion ........................................................................................................................ 57

Conclusion générale & perspectives…….………………………………………….………59

Bibliographie ........................................................................................................................... 60

Page 11: UNIVERSITÉ HAMA LAKHDAR D’EL

IV

Liste d’abréviations

CAN : Convertisseur Analogique Numérique

FLC :La méthode FastLogicClassifier

FFT:FastFourrier Transform

HMM:Modèle de Markov Caché

IFFT:Inverse FastFourrier Transform

LPCC:LinearPredictionCepstralCoefficients

LPC: LinearPredictifCoding

MFCC : Coefficients Cepstraux

PPZ: Le Ttaux de Passage par Zéro

PLP:PerceptualLinearPrediction

k-ppv : k-Plus Proches Voisins

RAP:Reconnaissance Automatique de la Parole

SRAP : Système de Reconnaissance Automatique de la Parole

SP : Signal de Parole

SVM : Support VectorMachines.

TDF:Transformé Discrète de Fourier

TFR:Transformée de Fourrier Rapide

Page 12: UNIVERSITÉ HAMA LAKHDAR D’EL

Introduction générale

1

Introduction générale

La reconnaissance automatique de la parole (RAP) par les machines est depuis

longtemps un thème de recherche qui fascine le public, mais qui demeure un défi pour les

spécialistes. À ses balbutiements, les projections sur ses applications étaient très optimistes:

quoi de plus naturel que de parler à une machine, sans avoir à s‟encombrer d‟un clavier ?

Malheureusement, malgré l‟incroyableévolution des ordinateurs et des connaissances, la

reconnaissance automatique de la parole n‟en demeure pas moins un sujet de recherche

toujours actif...et les résultats obtenus sont encore loin de l‟idéal qu‟on aurait pu en attendre,

il y a vingt ans.Il n‟existe encore aucun système capable de traiter de façon fiable la

reconnaissance.

La reconnaissance de la parole continue pour un vocabulaire moyen (quelques milliers

de mots) est actuellement possible dans un logiciel de reconnaissance de la parole. La

reconnaissance de la parole humaine se situe à l'intersection de nombreux domaines tels que

l'acoustique, l'électronique, la phonétique...Pour atteindre un haut niveau, un système de

reconnaissance de la parole doit s'inspirer des travaux d'une vaste gamme de disciplines

scientifiques : Mathématique, informatique, technologie,....

Notre étude s'intègre dans le cadre du développement d'un système de dictée vocale

indépendant du locuteur (logiciel de saisie des notes des étudiants par dicter). Qui apprend

d‟un ensemble d‟enregistrement du son des différents mots arabe et par la suite elle permet de

reconnaître de nouveaux exemples (nouvelles enregistrements des mots) des mots et les

classifier. La modélisation acoustique par les méthodes les plus performantes de l'état de l'art

reste insuffisante; cette faiblesse est un facteur limitant des systèmes de RAP. Nous cherchons

à améliorer la qualité de la modélisation acoustique, en proposant un modèle de descripteur

vocale dans phase considérée comme cruciale dans le procédé de reconnaissance « la phase de

segmentation » pour la langue arabe vue la robustesse et la qualité de définition offerte par ces

techniques.

Ce mémoire s‟articule autour de quatre chapitres :

Le premier chapitre présente une vue générale des systèmes de reconnaissance de la

parole, dont on s„intéresse à introduire et présenter un état de l„art du domaine de la

reconnaissance de parole ;

Le second chapitre illustre et exposer les différentes approches, méthodes et technique

réalisées depuis plusieurs années pour les deux phases « segmentation et extraction de

caractéristique » ;

Le troisième chapitre présent les différentes approche existent de classification et exposer

plus détaille le classificateur choisie FLC (FastLogic Classifier);

Le dernier chapitre présente laconception et l‟implémentation de système réalisé.

Page 13: UNIVERSITÉ HAMA LAKHDAR D’EL

Chapitre I:

Reconnaissance Automatique de parole

Page 14: UNIVERSITÉ HAMA LAKHDAR D’EL

Chapitre I Reconnaissance Automatique de parole

3

Introduction

La parole est un moyen de communication très efficace et naturel utilisé par l'humain.

Depuis longtemps, il rêve de pouvoir s'adresser par ce même moyen à des machines ce qui les

rendre plus intelligentes.

La reconnaissance automatique de la parole est un domaine multidisciplinaires d'étude

actif depuis le début des années 50, il est utilisé dans des domaines comme « Perception,

Acoustique, Linguistique, Électronique, Physique, Informatique et Traitement du signal» Il

est clair qu'un outil de reconnaissance de la parole efficace facilitera l'interaction entre les

hommes et les machines. Les applications possibles associées à un tel outil sont nombreuses

et sont amenées à connaître un grand essor. La plupart des applications en reconnaissance de

la parole peuvent être regroupées en quatre catégories : commande et contrôle, accès à des

bases de données ou recherche d'informations, dictée vocale et transcription automatique de la

parole.

Dans ce chapitre, on s„intéresse d„une part à introduire et présenter un état de l„art du

domaine de la reconnaissance des parole, et d„autre part à exposer les différentes approches,

méthodes et technique réalisées depuis plusieurs années.

1. Quelque concept de base

1.1 Définition de son

Le son est une vibration de l'air. A l'origine de tout son, il y a mouvement. Il s'agit de

phénomènes physiques créés par une source sonore qui met en mouvement les molécules de

l'air. Avant d'arriver jusqu'à notre oreille, ce mouvement se propage à une certaine vitesse

dans un milieu élastique (en général l‟air).[21]

1.2 Les types de son

Il faut d'abords différencier les deux types de sons: le son analogique et le son

numérique.

Le son analogique

Le son analogique est un signal électrique continu pour lequel il existe une valeur de

tension en concordance avec la variation de la pression de l‟air.En d'autres termes, on dit

qu'un signal électrique généré par un micro est transporté, à travers un câble puis une console

et enfin à travers un ampli et son haut-parleur, d'une façon analogique lorsque les vibrations

électriques qui parcourent ces éléments sont identiques, c'est à dire analogues, en fréquence et

en amplitude aux variations de pression, donc aux vibrations de l'air. Le son analogique n'est

pas manipulable tel quel par un ordinateur, qui ne connaît que les 0 et les 1.[21]

Page 15: UNIVERSITÉ HAMA LAKHDAR D’EL

Chapitre I Reconnaissance Automatique de parole

4

Le son numérique

Il est représenté par une suite binaire de 0 et de 1. L'exemple le plus évident de son

numérique est le CD audio. Le processus de passage du son analogique en son numérique est

appelé "échantillonnage". [21]

Le convertisseur analogique numérique "CAN"

Un convertisseur analogique / numérique (CAN) est un dispositif électronique

permettant la conversion d‟un signal analogique en un signal numérique. Lorsque les valeurs

numériques peuvent être stockées sous forme binaire (donc par un ordinateur), on parle de

données multimédia.

1.3 Présentation de langue arabe

L‟Arabe est la sixième langue actuellement parlée dans le monde. On estime le

nombre d‟Arabophone à 250 millions. C‟est la langue officielle de 22 pays. Mais comme c‟est

aussi la langue qui porte les instructions religieuses de l‟Islam dans le livre sacrée, on peut

imaginer que le nombre de personnes qui parlent l‟Arabe est nettement plus élevé.[7]

Elle possède un alphabet de vingt-huit lettres, parmi lesquelles, vingt-cinq représentent

des consonnes. Les trois lettres restantes représentent les voyelles longues (/ ا و / ,/ .(/ي/ ,/

Chaque lettre apparaît souvent en quatre formes selon qu‟elle soit en début, en milieu ou en

fin de mot, ou isolée. Les lettres sont le plus souvent connectées entre elles sans

majuscules.Dans la phonologie les alphabets arabe sont classés à des consonnes et des

voyelles.[7]

Les consonnes

Une consonne est un phonème dont la prononciation se caractérise par une obstruction

totale ou partielle en un ou plusieurs points du conduit vocal. Elle

estgénéralementprécédéeousuivied‟unevoyelle.[7]

Les voyelles

Lors de la prononciation des voyelles, l‟air émis par les vibrations des cordes vocales

passe librement à travers le conduit. On distingue trois types de voyelles : les voyelles courtes

/ ,/و/» et ‘’’ », longues ’-‘ ,’ ۥ‘ » ا / et /ي/ » et les semi-voyelles « sekune et tanwin ». [7]

2. Traitement de signal de parole

Aujourd‟hui, les sciences de l‟ingénieur s‟intéresse beaucoup du traitement de la

parole c‟est pour ça le traitement automatique de la parole est un champ de recherche riche

mais difficile.

Page 16: UNIVERSITÉ HAMA LAKHDAR D’EL

Chapitre I Reconnaissance Automatique de parole

5

De façon générale, le traitement de signal est un ensemble des techniques et des

méthodes appliqué sur un signal électrique pour extraire l‟information désirée se signale doit

traduire le plus fidèlement possible le phénomène physique à étudier. [12]

2.1 Définition de signale de parole

Le signal de la parole est un phénomène de nature acoustique porteur d‟un message.

L‟information d‟un message parlé réside dans les fluctuations de l‟air, engendrées, puis

émises par l‟appareil phonatoire. Ces fluctuations constituent le signal vocal. Elles sont

détectées par l‟oreille qui procède à une certaine analyse. Les résultats sont transmis au

cerveau qui les interprète. [16]

D‟autre part, le signal vocal représente la combinaison d‟éléments simples et brefs du

signal sonore appelés phonèmes, qui permettent de distinguer les différents mots. La parole

est un signal réel, continu, d‟énergie finie et non stationnaire. Sa structure est complexe et

variable avec le temps.[12]

2.2 Caractéristiques de signal de parole

Le signale de parole est un vecteur acoustique porteur d'informations d'une grande

complexité, variabilité et redondance, dont les signaux de parole sont différencier par un

ensemble des caractéristiques. Les caractéristiques de ce signal sont appelées traits

acoustiques.Parmi ces caractéristiques sont :

La fréquencefondamentale

Le spectre de fréquence

Le timbre Le pitch

Intensité

La fréquencefondamentale

C'est le premier trait acoustique, c'est la fréquence de vibration des cordes vocales. Pour

les sons voisés.[12]Correspond à la période de l'onde .c'est la fréquence de cette onde qui

nous permet d'évaluer, de façon globale, la hauteur du son. Les ondes qui accompagnent le

fondamental sont appelées les harmoniques.[1]

Le spectre de fréquence

C'est le deuxième trait acoustique dont dépend principalement le timbre de la voix. Il

résulte de filtrage dynamique de signale en provenance du larynx ou signale glottique par le

conduit vocale.[12]

Le timbre

Le timbre est l‟ensemble des caractéristiques qui permettent de différencier une voix.Il

provient en particulier de la résonance dans la poitrine, la gorge la cavité buccale et le nez

sont les amplitudes relatives des harmoniques du fondamental qui déterminent le timbre du

son.[12]

Page 17: UNIVERSITÉ HAMA LAKHDAR D’EL

Chapitre I Reconnaissance Automatique de parole

6

Les éléments physiques du timbre comprennent :

o Les relations entre les parties du spectre, harmoniques ou non ;

o Les bruits existant dans le son (qui n‟ont pas de fréquence particulière, mais

dont l‟énergie est limitée à une ou plusieurs bandes de fréquence) ;

o L‟évolution dynamique globale du son ;

o L‟évolution dynamique de chacun des éléments les uns par rapport aux autres.

Le pitch

La variation de la fréquence fondamentale définit le pitch qui constitue la perception

de la hauteur (ou les sons s'ordonnent de grave à aigu). Seuls les sons quasi-périodiques

(voisés) engendrent une sensation des hauteurs tonales. [12]

Intensité

L'intensité s‟appelle aussi volume permet de distinguer un son fort d‟un faible.

L‟intensité est liée à la pression de l‟air en amont du larynx, qui fait varier l‟amplitude des

vibrations sonores. [12]

2.3 Le capteur (microphone)

Le capteur représente le premier élément de l‟acquisition. Il est considéré comme un

transducteur, dispositif transformant une grandeur physique en une autre grandeur dépendante

de la première. Bien qu‟un microphone soit un obstacle à la propagation des ondes sonores,

pour l‟acquisition du signal de parole, ce microphone est un capteur comportant un organe

sensible aux variations de pression dues à l‟onde sonore. [21]

Ces variations de pression sont utilisées pour exercer une force sur un système ne

pouvant pratiquement pas se déplacer sans cette condition (existence de la force).Il existe

plusieurs types de microphone (Microphone : à charbon, à condensateur, à magnétostriction,

électrodynamique, électronique, thermique, ionique).On prend le microphone à condensateur

comme exemple. Ce dernier se trouve dans un circuit comprenant une résistance et un

générateur. L‟intensité du courant dans le circuit dépend de ces variations .Ce genre de

microphone est le plus performant parmi les microphones disponibles, en plus son avantage

majeur est sa petite taille ainsi que sa simple construction. [21]

Carte d’interface

MIC LINE OUT

PC

Pressionacoustique

Microphone

Figure I. 1:Schéma synoptique de l‟acquisition d‟un signal de parole.

Page 18: UNIVERSITÉ HAMA LAKHDAR D’EL

Chapitre I Reconnaissance Automatique de parole

7

2.4 Carte d’interface (carte son)

Une fois le signal analogique, issu du microphone arrive à l‟entrée MIC de la carte

son, il doit passer par un circuit de conditionnement, qui permet l‟amplification et le

filtrage de ce signal, après quoi la conversion Analogique-Numérique est effectuée, dans le

but de rendre l‟information récupérée, traitable par le système numérique (micro-

ordinateur).Cette conversion comprend l‟échantillonnage, la quantification et le codage.

Après la conversion Analogique-Numérique, la carte son passe à la mémorisation des

données numérisées dans un espace mémoire ou tampon (buffer) sous forme de valeurs

numérique. Ces données seront présentés par des vecteurs comportant une série de chiffre .On

utilise ce genre de mémorisation plusieurs fois pour un même mot prononcé selon le choix de

la taille du dictionnaire voulu, attribuée à l‟apprentissage des données. [21]

2.5 Type de traitement de signal de parole

Le signal de parole est complexe et démontre une très grande variabilité car sa

structure résulte de l'interaction entre la production des sons et leur perception par l'oreille et

son traitement peut diviser à deux grands domaines principaux :

La synthèse de la parole ;

La Reconnaissance de la Parole.

2.5.1La synthèse de la parole

La synthèse vocale est une technique informatique de synthèse sonore qui permet à une

machine de créer de la parole artificielle à partir de n'importe quel texte. Aucune restriction

n‟est faite sur la nature des mots à synthétiser (signale, abréviation, chiffre, date, etc.), ni sur

la taille du vocabulaire à traiter. Parmi les applications, on peut citer la vocalisation d'écrans

informatiques pour les personnes aveugles ou fortement malvoyantes(lecteur d'écran), ainsi que

de nombreuses applications de serveurs vocaux téléphoniques, comme les annuaires vocaux

de grande taille. [27]

Figure I. 2: Schéma de synthèse de la parole.

2.5.2 La Reconnaissance de la Parole

La reconnaissance de la parole ou reconnaissance vocale est une technologie

informatique qui permet d'analyser la voix humaine captée au moyen d'un microphone pour la

transcrire sous la forme d'un texte exploitable par une machine. Cette technologie utilise des

méthodes informatiques des domaines du traitement du signal et de l‟intelligence artificielle.

[25]

Système de synthèse

de la parole

Page 19: UNIVERSITÉ HAMA LAKHDAR D’EL

Chapitre I Reconnaissance Automatique de parole

8

Figure I. 3:Schéma de Reconnaissance de parole.

3. Système de Reconnaissance Automatique de la Parole «SRAP»

Il existe plusieurs applications des systèmes de reconnaissance automatique de la parole, nous

allons citer quelque système :

Une dictée vocale peut être associée à un traitement de texte : Un locuteur parle et le

texte s‟affiche ; ainsi, il n‟a plus besoin de taper son texte au clavier.

Les serveursd‟informations par téléphone

La messagerie

Elle permet l‟autonomie : par exemple en médecine, lorsqu‟un chirurgien a les deux

mains occupées, il peut parler pour demander une information technique au lieu de

taper sur un clavier (autonomie qui est aussi valable en industrie).

La sécurité possible grâce à la signature vocale

La possibilité de commande et de contrôle d‟appareils à distance.

3.1 Problèmes liés auxSystèmes de Reconnaissance de parole

La mesure du signal de parole est liée par des problèmes car elle est fortement

influencée par la fonction de transfert du système de reconnaissance (les appareils

d'acquisition et de transmission), ainsi que par l‟environnement ambiant. Parmiceproblème

on trouve:

Continuité

Lorsqu'on écoute une personne parler, on perçoit une suite de mots alors que l'analyse

du signal vocal ne permet de déceler aucun séparateur. Évidement il est plus simple de

reconnaître des mots isolés bien séparés par des périodes de silence que de reconnaître la

séquence de mots constituant une phrase.

Une grande Variabilité

Le signal vocal est très variable soit pour un même locuteur (variabilité intra locuteur)

ou pour des locuteurs différents (variabilité interlocuteur).[22]

a- Variabilité intra-locuteur

Une même personne ne prononce jamais un mot deux fois de façon identique par

exemple dans le cas voix chantée, criée, enrouée, sous stress,.... La vitesse d'élocution en

Système de Reconnaissance

de la parole

Page 20: UNIVERSITÉ HAMA LAKHDAR D’EL

Chapitre I Reconnaissance Automatique de parole

9

détermine la durée. Toute affection de l'appareil phonatoire peut altérer la qualité de la

production. [13]

b- Variabilitéinterlocuteur

Les différences physiologiques entre locuteurs, qu'il s'agisse de la longueur du conduit

vocal ou du volume des cavités résonnantes, modifient la production acoustique. En plus, il y

a la hauteur de la voix, l'intonation et l'accent différent selon le sexe « homme, femme,

enfant», l'origine sociale, régionale ou nationale.

Reconnaissance des informations en fonction de la tâche à accomplir

La reconnaissance vocale peut s'effectuer sur les sons eux-mêmes, sur la structure

syntaxique d'une phrase (dictée), sur la signification d'une phrase (robots) ou sur l'identité du

locuteur et son état émotionnel (joyeux, en colère,...).[22]

Le niveau de bruit ambiant

Notre environnement est souvent bruité, les applications audio se trouvent ainsi

confrontées au bruit ambiant. Le bruit tout signal nuisible qui se superpose au signal utile en

un point quelconque d‟une chaine de mesure ou d‟un système de transmission. Il constitue

donc une gêne dans la compréhension de la parole. [21]

3.2 Approches de reconnaissance de parole

Les approches de reconnaissance vocale se distinguent essentiellement par la nature et

par la taille des unités abstraites qu'elles s'efforcent de mettre en correspondance avec le

signal de parole. Il existe deux approches permettant d'aborder la reconnaissance de la parole :

Approcheglobale

Approcheanalytique

Approche globale

L'approche globale s‟applique aux systèmes pour lesquels l'unité de décision est

l'entité lexicale "le mot", qui non décomposée. [16]L'idée de cette méthode est de donner au

système une image acoustique de chacun des mots qu'il devra identifier par la suite. Cette

opération est faite lors de la phase d'apprentissage, où chacun des mots est prononcé une ou

plusieurs fois. Cette méthode a pour avantage d'éviter les effets de coarticulation, c'est à dire

l'influence réciproque des sons à l'intérieur des mots. Elle est cependant limitée aux petits

vocabulaires prononcés par un nombre restreint de locuteurs (les mots peuvent être prononcés

de manière différente suivant le locuteur). [22]

Approche analytique

L'approche analytique cherche à résoudre le problème de la parole en isolant des

unités acoustiques courtes en procédant à une segmentation en entités élémentaires de base

étiquetées ou identifiées, comme les phonèmes, les syllabes…etc.[16] Celles-ci sont les unités

de base à reconnaître.Cette approche a un caractère plus général que la précédente : pour

Page 21: UNIVERSITÉ HAMA LAKHDAR D’EL

Chapitre I Reconnaissance Automatique de parole

10

reconnaître de grands vocabulaires, il suffit d'enregistrer dans la mémoire de la machine les

principales caractéristiques des unités de base. [22]

Pour la reconnaissance de mots isolés à grand vocabulaire, la méthode globale ne

convient plus car la machine nécessiterait une mémoire et une puissance considérable pour

respectivement stocker les images acoustiques de tous les mots du vocabulaire et comparer un

mot inconnu à l'ensemble des mots du dictionnaire. C'est donc la méthode analytique qui est

utilisée : les mots ne sont pas mémorisés dans leur intégralité, mais traités en tant que suite de

phonèmes. Mais la méthode analytique a un grand inconvénient : l'extrême variabilité du

phonème en fonction du contexte (effets de la coarticulation).[22]

3.3 Modules de base de la reconnaissance de parole

La reconnaissance de la parole est décomposée en 4 modules, un module

d‟acquisition et de modélisation du signal, un module acoustique, module lexical et module

syntaxique.

3.3.1 Un module d’acquisition et de modélisation du signal

Qui transforme le signal de parole en une séquence de vecteurs acoustiques. Pour être

utilisable par un ordinateur, un signal doit tout d'abord être numérisé. Cette opération tend à

transformer un phénomène temporel analogique, le signal sonore dans notre cas, en une suite

d'éléments discrets, les échantillons. Ceux-ci sont obtenus avec une carte spécialisée « carte

de son »courante de nos jours dans les ordinateurs depuis l'avènement du multimédia. [10]

3.3.2 Un module acoustique

Qui peut produire une ou plusieurs hypothèses phonétiques pour chaque segment de

parole (par exemple de 10 ms, pour chaque vecteur acoustique), associées en général à une

probabilité. Ce générateur d'hypothèses locales est généralement basé sur des modèles

statistiques de phonèmes, qui sont entraînés sur une grande quantité de données de parole (par

exemple, enregistrement de nombreuses phrases) contenant plusieurs fois les différentes

unités de parole dans plusieurs contextes différents.[10]

3.3.3 Un module lexical

Dans le cadre de la reconnaissance de la parole continue, même si le système

acoustique est basé sur des phonèmes, il faut obtenir, pour chaque entrée du dictionnaire

phonétique, un modèle qui lui est propre. Un tel module lexical embarque en général des

modèles des mots de la langue (les modèles de base étant de simples dictionnaires

phonétiques ; les plus complexes sont de véritables automates probabilistes, capables

d‟associer une probabilité à chaque prononciation possible d‟un mot). A l‟issue de ce module,

il peut donc y avoir plusieurs hypothèses de mots qui ne pourront être départagées que par les

contraintes syntaxiques. [10]

3.3.4 Un module syntaxique

Qui interagit avec un système d'alignement temporel pour forcer la reconnaissance à

intégrer des contraintes syntaxiques, voire sémantiques. Les connaissances syntaxiques sont

Page 22: UNIVERSITÉ HAMA LAKHDAR D’EL

Chapitre I Reconnaissance Automatique de parole

11

généralement formalisées dans un modèle de la langue, qui associe une probabilité à toute

suite de mots présents dans le lexique. Ainsi le système est capable de choisir entre plusieurs

mots selon le contexte de la phrase ou du texte en cours et de son modèle lexical. [10]

3.4Phases de system de reconnaissance de parole

Le schéma général d„un système de reconnaissance de parole est présenté dans la

figure I.4.

Figure I. 4: Schéma générale d„un SRAP.

3.4.1 Acquisition du signal

L'acquisition du signal de parole constitue la première étape à franchir. Il s'agit de

numériser un signal analogique (la parole) pour qu'il soit prêt à des traitements numériques

ultérieurs. Cette étape est généralement réalisée à l'aide d'une carte d'acquisition spécialisée.

Une fois capté par un microphone, le signal est tout d'abord filtré, ensuite échantillonné et

enfin quantifié. Ces opérations successives permettent de transformer un signal continue x(t)

(où t désigne le temps) en un signal numérique x(n) où n correspond à des instants discrets.[5]

Segmentation

Acquisition

Prétraitement

Extraction de caractéristique

Classification

Post-traitement

Page 23: UNIVERSITÉ HAMA LAKHDAR D’EL

Chapitre I Reconnaissance Automatique de parole

12

L’échantillonnage

L‟échantillonnage procède à un découpage dans le temps du signal continu s(t). Il

consiste à sélectionner au moyen de circuit de commutation, les valeurs prises par le signal en

une suite d‟instants t1, t2, …,tn régulièrement espacés. Le théorème de Shannon nous indique

que la fréquence maximale fmax présente dans un signal échantillonné à une fréquence fe est

égale à la moitié de fe.[7]

La quantification

La quantification définit le nombre de bits sur lesquels on veut réaliser la

numérisation. Elle permet de mesurer l‟amplitude de l‟onde sonore à chaque pas de

l‟échantillonnage. C‟est alors pour associer à chaque échantillon une valeur.[12]

Le codage

Pour associer un code binaire à chaque valeur quantifiée qui permet le traitement du

signal sur machine.

3.4.2 Prétraitement

La phase de prétraitement ou de filtrage pouvant corriger le signal après l‟acquisition

afin de retirer les distorsions ou les bruits provenant du matériel ou de l‟environnement du

locuteur. Ce module est aussi appelé «traitement du canal de transmission». Du fait de sa

complexité et du peu d‟amélioration qu‟il apporte, ce phase n‟est pas toujours intégré aux

systèmes. Cependant la recherche de meilleurs traitements du canal de transmission sera

sûrement nécessaire à l‟amélioration des systèmes de reconnaissance vocale.[10]

3.4.3 La segmentation

C'est le processus de division d'une entité, généralement continue, en petites entités

appelées segments ou trames. Chaque segment possède des propriétés propres qui permettent

de le différencier des autres. La segmentation de la parole fait référence à des unités variées

selon la nature du segment considéré. On peut définir plusieurs types de segmentation

(organisés du segment le plus court au segment le plus long) [6] :

en voisé/non-voisé ;

en phonèmes ;

en syllabes ;

en mots ;

en groupes inter-pausaux (segments délimités par deux pauses silencieuses) ;

en locuteurs et tours de parole.

3.4.4 Extraction de caractéristique

Cette phase permet d‟extraire des paramètres qui caractérisent l‟information caché

derrière ce signal qui est appelé aussi un vecteur de caractéristique ou descripteur qui pourront

être utilisées pour le traitement de signal vocale pour la reconnaissance. Pour cette phase il y a

Page 24: UNIVERSITÉ HAMA LAKHDAR D’EL

Chapitre I Reconnaissance Automatique de parole

13

des approches et pour chaque approche existe plusieurs techniques (qui vont être décrit dans

le prochaine chapitre).

3.4.5 Classification

La classification ou la reconnaissance dans un Système RAP regroupe les deux tâches

d‟apprentissage et de décision. Elles tentent toutes les deux, à partir de la description en

paramètres extraits dans l‟étape précédente, d‟attribuer une forme acoustique à un modèle (ou

à une classe) de référence. On exige donc de la classification de vérifier les deux propriétés

suivantes:

compacité

Les points représentant une classe donnée sont plus proches entre eux que les points de

toutes les autres classes.

Séparabilité

Les classes sont bornées et il n y'a pas de recouvrement entre elles. En pratique, ces

propriétés sont rarement respectées à cause du bruit et de distorsion des signaux. La décision

d'attribuer un vecteur de mesures candidat à une classe est fondée sur la notion de proximité.

Il en est de même pour la constitution de classes lors de l'apprentissage. Parmi les méthodes

de classification automatique, on distingue la programmation dynamique. [16]

A. Apprentissage

L'étape d'apprentissage est l'une des étapes les plus importantes dans le processus de

reconnaissance est l'étape de la construction du dictionnaire de référence (représenté par les

groupes de mots ou modèles de référence formant des classes). En effet cette étape est d'une

telle importance pour un système de reconnaissance, que même l'utilisation des plus puissants

algorithmes lors de l'étape de décision ne peut compenser sa faiblesse éventuelle. La

performance de tout le système dépend du soin. Cela exige de l'apprentissage de bien définir

les classes des formes acoustiques et leurs modèles de manière à bien distinguer les familles

homogènes des formes et donc à identifier les nouvelles par rapport à elles, par exemple, en

fournissant un bon choix de formes de références ou en donnant au système les bons critères

de modélisation .[16]

En outre, l'apprentissage est dit supervisé, si la tâche d'apprentissage est guidée par un

superviseur (concepteur) qui indique à la nouvelle forme, la classe qui la contienne, ou

apprentissage non supervisé, si les classes sont créés automatiquement, sans l'intervention

d'un opérateur, à partir d‟échantillons de référence et de règles de regroupement. [13]

B. Décision

La décision est l'ultime étape de la reconnaissance. A partir de la description en

paramètres, elle recherche, parmi les modèles d'apprentissage en présence, ceux qui sont les

plus "proches", et cela en un temps aussi court que possible. La décision peut conduire à un

succès si la réponse est unique (un seul modèle répond à la description de l'image acoustique).

Elle peut conduire à une confusion (substitution) si la réponse est multiple (plusieurs modèles

Page 25: UNIVERSITÉ HAMA LAKHDAR D’EL

Chapitre I Reconnaissance Automatique de parole

14

correspondent à la description). Enfin, la décision peut conduire à un rejet de la forme si

aucun des modèles ne correspond à sa description. Dans les deux premiers cas, la décision

peut être accompagnée d'une mesure de vraisemblance appelée aussi score ou taux de

reconnaissance.[16]

3.4.6 Post traitement

Cette phase consiste à faire une sélection de la solution en utilisant des niveaux

d„information plus élevés (syntaxique, lexicale, sémantiques…). Le post-traitement se charge

également de vérifier si la réponse est correcte (même si elle est unique) en se basant sur

d„autres informations non disponibles au classificateur. [10]

4. Conclusion

Dans ce chapitre nous avons vu un état de l‟art de domaine de la reconnaissance de la

parole en générale, ou nous avons présenté les éléments de base nécessaire à un tel système.

Page 26: UNIVERSITÉ HAMA LAKHDAR D’EL

Chapitre II:

Segmentation et Extraction des

caractéristiques de SP

Page 27: UNIVERSITÉ HAMA LAKHDAR D’EL

Chapitre II Segmentation et Extraction de caractéristique de SP

16

Introduction

Dans le chapitre précédent nous avons présenté tous les phases de système de

reconnaissance de parole, parmi ces phases la segmentation et l'extraction de caractéristique

de signal de parole. Dans ce chapitre nous allons détaille les approches et les méthodes de ces

phases.

1. Segmentation

La phase de segmentation est une phase très importante dans le processus de

reconnaissance de la voix, tel qu‟aucun système n‟utilise cette phase, car elle prépare le signal

de parole pour les traitements ultérieur. Cette phase possédé une grande influence sur la

qualité des caractéristique à obtenir et par conséquent, le taux de classification à obtenir.

Le but de cette phase est l‟extraction des segments de base à traiter selon l‟unité de

base de traitement, à savoir : mot, syllabe ou phonème … etc. ce processus est très influencé

par le bruit intégré dans le signal enregistré.

1.1 Méthodes de segmentation

Dans ces parties nous allons détail les méthodes de segmentation qui nous avons cité

précédemment.

1.1.2 Segmentation en voisées/ non voisées

Les sons voisés sont produits par la vibration des cordes vocale. Les voyelles sont

intrinsèquement voisées, tandis que les consonnes peuvent l'être ou non. On peut donc

considérer qu'un mot est constitué d'une suite de segments voisés, de segments non voisés et

de silences brefs.

Cependant toute suite de ces trois segments de base ne correspond pas à un mot, du bruit

peut être constitué par des sons voisés. Un des paramètres de voisement est le pitch. [3]

1.1.2 Segmentation en phonème

La segmentation d'un signal de parole en phones consiste à délimiter sur le continuum

acoustique de ce signal une séquence de segments caractérisés par des étiquettes appartenant à

un ensemble discret et fini d'éléments, qui est l'alphabet phonétique de la langue.

La segmentation phonétique de la parole est une tâche difficile car le signal de parole

n'est pas clairement composé de segments discrets bien délimités. [24]

D'un côté, nous constatons que l'élocution d'un énoncé se caractérise par un

mouvement continu des organes de la parole et par l'absence d'un quelconque positionnement

statique de ces organes. Le passage d'une cible articulatoire d'un phone, à une autre cible

articulatoire d'un autre phone, se fait de manière continue, avec un chevauchement entre les

deux configurations articulatoires, ce qui donne naissance au phénomène de coarticulation.

Page 28: UNIVERSITÉ HAMA LAKHDAR D’EL

Chapitre II Segmentation et Extraction de caractéristique de SP

17

D'un autre côté, sur la base de notre perception de la parole, nous pouvons affirmer

que ce signal se compose d'une série d'éléments sonores distincts. En effet, l'examen du

spectrogramme d'un signal de parole permet de distinguer des zones spectralement

homogènes (figure. II.1). Ce fait révèle, à un certain degré, la nature segmentale de la parole.

Le paradoxe entre la perception des segments de parole et la variabilité acoustique de cette

dernière démontre que la segmentation est un problème fondamentalement complexe. Même

si les frontières entre certains phones semblent relativement claires, il n'y a pas de transitions

franches entre beaucoup de phones. [24]

Figure II. 1: Forme d'onde et spectrogramme d'un énoncé du mot "رقم".

1.1.3 Segmentation en syllabe

La syllabe est considérée comme unité structurante de la langue. Généralement, la

structure d‟une syllabe se décompose souvent en 3 parties : l‟attaque (une ou plusieurs

consonnes -facultatif), le noyau (une voyelle ou une diphtongue - obligatoire) et la coda (une

ou plusieurs consonnes - facultatif). A cause de la caractéristique facultative des consonnes

sur l‟attaque et sur la coda, il y a parfois des ambiguïtés de segmentation d‟une phrase en

syllabes. [15]

V. Berment, dans le cadre de sa thèse [Berment 2004], a construit un outil nommé «

Sylla » permettant de mettre au point rapidement des « modèles syllabiques » pour une langue

peu dotée. Il a appliqué cet outil pour construire des modèles grammaticaux des syllabes des

langues d‟Asie du Sud-est : laotien, birman, thaï et khmer. L‟outil et la méthode de

construction d‟un modèle syllabique permet de créer rapidement un « reconnaisseursyllabique

Page 29: UNIVERSITÉ HAMA LAKHDAR D’EL

Chapitre II Segmentation et Extraction de caractéristique de SP

18

» : pour une chaîne de caractères en entrée, le reconnaisseur teste si la chaîne peut constituer

une syllabe dans la langue considérée. [15]

Pour la segmentation en syllabes, un segmenteur syllabique sera construit en

employant un algorithme de programmation dynamique, à l‟aide d‟un modèle syllabique, qui

segmente une phrase de texte en optimisant le critère de « plus longue chaîne d‟abord »

(LongestMatching), ou le critère de « plus petit nombre de syllabes » (Maximal Matching).

[15]

1.1.4 Segmentation en mots

La segmentation d'un message parlé en ses constituants élémentaires est un sujet

difficile. Pour l'éviter, de nombreux projets de la RAP se sont intéressés à la reconnaissance

de mots prononcés isolement. La reconnaissance des mots isolés ou tous les mots prononcés

sont supposés être séparés par des silences de durée supérieure à quelques dixièmes de

secondes, se fait essentiellement par l'approche globale. [22]

1.1.5 Segmentation en locuteurs et tour de parole

La segmentation selon le locuteur est née relativement récemment pour répondre au

besoin créé par le nombre toujours croissant de documents multimédia devant être archivés et

accédés. Les tours de parole et l‟identité des locuteurs constituent une intéressante clé d‟accès

à ces documents. Le but de la segmentation selon le locuteur est donc de segmenter en tours

de parole (un tour de parole est un segment contenant une intervention d‟un locuteur) un

document audio contenant N locuteurs et d‟associer chaque tour de parole au locuteur l‟ayant

prononcé. En général, aucune information apriori n‟est disponible, sur le nombre de locuteurs

ou leurs identités.[4]

La segmentation en macro classes acoustiques est nécessaire pour supprimer les

parties du document ne contenant pas de parole (comme la musique, les silences…) ou pour

réaliser des traitements spécifiques à des conditions acoustiques données (genre des locuteurs,

parole téléphonique, parole au-dessus de la musique…). Le processus de segmentation

acoustique proposé en trois niveaux:parole/non parole, parole propre/parole avec

musique/parole téléphonique et homme/femme. La classification est réalisée suivant un

procédé hiérarchique en trois étapes [4]:

Le premier niveau de segmentation correspond à une séparation “parole/non parole”.

Le procédé est basé sur une modélisation statistique des deux classes. Il consiste en

une discrimination trame à trame suivie d‟un ensemble de règles morphologiques.

Ces dernières permettent de définir des contraintes sur les segments, comme leur

durée minimale;

La deuxième étape de segmentation consiste à répartir les zones étiquetées “parole”

en trois classes : “parole propre”, “parole et musique” et “parole téléphonique”. Cette

étape repose sur un décodage de type Viterbi associé à un HMM ergodique;

La dernière étape est dédiée à la séparation “homme/femme”. Un procédé de même

type que pour l‟étape précédente est employée, avec des états dépendant de la classe

acoustique et du genre (une classe “parole dégradée” est ajoutée, pour augmenter la

robustesse du procédé).

Page 30: UNIVERSITÉ HAMA LAKHDAR D’EL

Chapitre II Segmentation et Extraction de caractéristique de SP

19

2. Extraction descaractéristiques

Cette phase est consisté à extraire le vecteur de caractéristique de chaque segment

obtenu par la phase précèdent « Segmentation » à partir des méthodes d‟analyse pour utiliser

dans la phase suivante « Classification ».

2.1 Fenêtrage

Le découpage du signal en trames résultant de l'étape précédente produit des

discontinuités aux frontières des trames. Pour réduire ces problèmes, des fenêtres de

pondération sont appliquées. Ce sont des fonctions que l'on applique à l'ensemble des

échantillons prélevés dans la fenêtre du signal original de façon à diminuer les effets de bord.

Parmi les fenêtres les plus utilisées on trouve.[5]

Rectangulaire: ( ) {

(II.1)

Bartlett: ( ) {

(II.2)

Hanning: ( ) { (

)

(II.3)

Hamming: ( ) { (

)

(II.4)

Blackman:

( ) { (

) (

)

(II.5)

Où N représente la longueur de la fenêtre, et n un échantillon du signal.

Page 31: UNIVERSITÉ HAMA LAKHDAR D’EL

Chapitre II Segmentation et Extraction de caractéristique de SP

20

Figure II. 2: Exemples de fenêtres de pondération.[13]

2.2 Approches et techniques d'extraction de caractéristique

Dans ces parties nous allons détail les approches d'extraction de caractéristique et pour

chaque approche il existe plusieurs techniques.

Figure II. 3: Schéma présentant les différentes méthodes d'extraction de caractéristique.

2.2.1 Approche temporelle

Cette approche étudier le signale de parole de manier à observer la forme temporelle

du signale. On peut déduire un certain nombre de caractéristiques à partir de cette forme

temporelle qui pourront être utilisées pour le traitement de la parole. Il est, par exemple, assez

claire de distinguer les partie voisées, dans lesquelles on peut observer une forme d‟onde

quasi-périodique, des parties non voisées dans lesquelles un signal aléatoire de faible

amplitude est observé. [12]

Le signal de parole est un signal quasi-stationnaire. Cependant, sur un horizon de

temps supérieur, il est clair que les caractéristiques du signal évoluent significativement en

fonction des sons prononcés comme illustré sur la figure ci-dessous. [12]

Approchetemporelle

Extraction de caractéristique

Approchecepstrales Approchespectrale

PPZ LPC TDF/FFT TBF MFCC LPCC PLP

Page 32: UNIVERSITÉ HAMA LAKHDAR D’EL

Chapitre II Segmentation et Extraction de caractéristique de SP

21

Figure II. 4: Représentation temporelle(Audiogramme) de signaux de parole.

Les méthodes de type temporel sont basées sur l‟analyse des caractéristiques

temporelles du signal vocal telles que : l‟énergie, le taux de passage par zéro, le calcul de la

fréquence fondamental etc. Différentes techniques permettent l‟analyse de l‟aspect temporel

du signal vocal afin de permettre de déduire ses paramètres, parmi ces méthodes nous

trouvons [7] :

Le taux de passage par zéro (PPZ),

L‟analyse par prédiction linéaire (LPC).

A. Le taux de passage par zéro

Cette méthode permet en comptant les passages par zéro du signal, de construire des

histogrammes d'intervalles de fréquence. On ne s‟intéresse pas dans cette méthode à

l‟amplitude du signal mais à son signe. Les résultats sont assez grossiers car la variance des

passages par zéro est forte surtout dans les transitoires.

Pour un signal échantillonné, il y a passage par zéro lorsque deux échantillons

successifs sont de signes opposés «c pas obligatoire». Le calcul du taux de passage par zéro

du signal de la parole permet de faire la distinction d‟une part entre le signal de la parole

(information utile) et le bruit, et d‟autre part entre les sons voisés et les sons non voisé. Grâce

au taux de ppz d‟un signal, on peut faire ressortir trois plages de valeurs qui permettent de

distinguer la nature des sons soit [12]:

Plage de silence: taux de ppz très faible (entre 0 et 3),

Plage de voisement: taux de ppz moyen (entre 4 et 27),

Plage de dévoisement : taux de ppz élevé (> 27).

Une caractéristique pour le taux de passage par zéro, est qu'il est élevé pour le son non

voisé et faible pour le son voisé. Le taux de passage par zéro constitue un outil important pour la

classification voisé/non voisé, et pour la détection du début et la fin de la parole dans un signal

vocal. [13]

Page 33: UNIVERSITÉ HAMA LAKHDAR D’EL

Chapitre II Segmentation et Extraction de caractéristique de SP

22

B. L’analyse par prédiction linéaire (LPC)

Cette méthode a pour objectif une représentation directe du signal vocal sous la forme

d'un nombre limité de paramètres. Sa puissance provient du fait qu'elle est fondée sur un

modèle simple de production de la parole qui s'approche du système phonatoire.[13]

Le principe de cette méthode est fondé sur l'hypothèse selon laquelle un échantillon du

signal de parole x(nTs), où Tsest la période d'échantillonnage, peut être prédit

approximativement par une somme pondérée linéairement de péchantillons le précédant

immédiatement, p est appelé 1' ordre de prédiction.[13]

Les expériences ont montré que les performances des systèmes de reconnaissance

basées sur la méthode LPC sont meilleures à celle des systèmes basés sur le banc de filtres.

Ces phases ont pour rôle de convertir le signal vocal en coefficients. Il existe 5 phases

d‟extraction de caractéristiques du signal vocal par la méthode LPC : « Le filtrage,

l‟échantillonnage, le fenêtrage, l‟auto corrélation, et le calcul des coefficients » schématiser

dans la FigureII.5.

Figure II. 5: L‟extraction des paramètres vocaux par LPC.

2.2.2 Approche fréquentielles ou spectrales

La deuxième approche pour caractériser et représenter le signal de parole est d‟utiliser

une représentation spectrale. [12]

LeFiltrage

Parole Filtrée

Echantillonnage

Le Fenêtrage

Auto corrélation

Frame

Frame Fenêtrée

Le paramètre R

LPC

α

L

N

M

P

Parole brute

Page 34: UNIVERSITÉ HAMA LAKHDAR D’EL

Chapitre II Segmentation et Extraction de caractéristique de SP

23

Ces méthodes sont fondées sur une décomposition fréquentielle du signal sans

connaissance a priori de sa structure fine. Il s‟agit donc de transformer le signal original de la

représentation temporelle à une représentation fréquentielle par la transformé

deFourierreprésente sous la formule (II.1). [7]

( ) ∫ ( )

(II.6)

Ou j2 = -1 et f(t) est la fonction temporelle.

A. La Transformé Discrète de Fourier TDF

La Transformé Discrète de Fourier TDF est une méthode d‟analyse qui n‟opère que

sur un nombre d‟échantillons qui dépasse une centaine de points d‟échantillonnage. Elle

utilise le fenêtrage temporel avec recouvrement donc le temps de calcul reste considérable.

Principe : Cette méthode est fondée sur le théorème de Fourier qui stipule que tout signal

périodique peut être décomposé en une somme de sinusoïdes harmoniques. La transformée de

Fourier conduit donc à transformer un signal complexe en une combinaison de fonctions

élémentaires de formes simples et bien connues. [7]

B. Transformée de Fourrier Rapide TFR

La Transformée de Fourier Rapide (notée par la suite FFT) est simplement une TFD calculée

selon un algorithme permettant de réduire le nombre d‟opérations et, en particulier, le nombre de

multiplications à effectuer. Il faut noter cependant, que la réduction du nombre d‟opérations

arithmétiques à effectuer, n‟est pas synonyme de réduction du temps d‟exécution. Tout dépend de

l‟architecture du processeur qui exécute le traitement.[16]

C. Traitement par bancs de filtres

Cette technique d‟analyse spectrale est basée sur la représentation du signal par sa

transformée de Fourier pendant un intervalle de temps suffisamment court. Le signal subit

ainsi une décomposition fréquentielle permettant d‟isoler les informations utiles.

Le principe de cette technique est d‟injecter le signal s(t) dans un banc de filtres passe

bande couvrant une étendue spectrale intéressante de la voix (de 200 à 600 Hz en général).

Les N filtres réalisant cette analyse doivent tous avoir un même gain unité et de fréquences

centrales différentes. Les bancs de filtres se différencient entre eux par le nombre de filtres N

qui varie en pratique entre 12 et 32 filtres, la distribution de la fréquence centrale et la

caractéristique du filtre basse-bas à la sortie du redresseur.

L‟analyse par bancs de filtres présente l‟avantage d‟une grande performance avec un

prix de revient assez faible, son inconvénient étant un manque de souplesse car la

modification des caractéristiques d‟un filtre nécessite le changement de la configuration

matérielle de ce filtre. [7]

Page 35: UNIVERSITÉ HAMA LAKHDAR D’EL

Chapitre II Segmentation et Extraction de caractéristique de SP

24

2.2.3 Approche cepstrales

Contrairement au spectrogramme qui ne fait appel à aucune connaissance a priori sur

le signal acoustique, l‟analyse cepstrale résulte de travaux sur le modèle de production de la

parole : son but est d'effectuer la déconvolution « source / conduit » par une transformation

homomorphique.

Les coefficients cepstraux sont obtenus en appliquant une transformée de Fourier

numérique inverse au logarithme du spectre d'amplitude. Le signal ainsi obtenu est représenté

dans un domaine appelé cepstral ou quéfrentiel ; les échantillons se situant en basses

quéfrences correspondent à la contribution du conduit vocal et donnent les paramètres utilisés

en RAP, tandis que la contribution de la source n'apparaît qu'en hautes quéfrences.[7]

Figure II. 6: Analyse cepstrale sur une fenêtre temporelle.

Une première transformée de Fourier (FFT) est alors calculée pour obtenir un spectre

du signal. Ces coefficients sont ensuite transformés par logarithme module (Log(| |). La

convolution étant un opérateur multiplicatif, ce passage par les logarithmes permet de passer

les coefficients dans un espace additif. Une transformée de Fourier inverse (IFFT) permet

alors d‟obtenir un cepstre dont un coefficient représente le fondamental, les autres coefficients

permettant d‟obtenir le spectre de la convolution effectuée sur le fondamental. Cette méthode

de calcul des cepstres est élémentaire, il existe également des méthodes itératives effectuant

un lissage, ce qui permet d‟obtenir des cepstres de meilleure qualité.

Une extension possible des cepstres est leur passage dans un espace fréquentiel non

linéaire proche de l‟audition humaine. Il est ainsi possible de modifier la procédure de calcul

précédente pour que les coefficients obtenus soient répartis selon une échelle Mel. [16]

Échelles des hauteurs

L'échelle des Mels

Après 500Hz, l'oreille perçoit moins d'une octave pour un doublement de la fréquence.

Des expériences psycho acoustiques ont alors permis d'établir la loi qui relie la fréquence et la

hauteur perçue : l'échelle des Mels où le « Mel » est une unité représentative de la hauteur

perçue d'un son

[21]

La relation entre la fréquence en échelle Hertz et sa correspondance en mels est la

suivante :[5]

(

) (II.7)

Fenêtre de

Hamming FFT

Page 36: UNIVERSITÉ HAMA LAKHDAR D’EL

Chapitre II Segmentation et Extraction de caractéristique de SP

25

Où fHz est la fréquence, x = 2595 et y = 700. L'intérêt de l'échelle Mel est qu'elle est

assez proche d'échelles issues d'études sur la perception sonore et sur les bandes passantes

critiques de l'oreille, comme l'échelle Bark. [5]

L'échelle de Bark

Le système auditif se comporte comme un banc de filtres dont les bandes, appelées

“bandes critiques”, se chevauchent et dont les fréquences centrales s'échelonnent

continûment. Cette bande critique correspond à l'écartement en fréquence nécessaire pour que

deux harmoniques soient discriminées dans un son complexe périodique.[21]

A. Coefficients cepstraux (MFCC)

Les coefficients cepstraux (MFCC) ont été très utilisés en RAP du fait des bons

résultats qu‟ils ont permis d‟obtenir.Lorsque le spectre d'amplitude résulte d'une FFT sur le

signal de parole pré-traité, lissé par une suite de filtres triangulaires répartis selon l'échelle

Mel, les coefficients sont appelés Mel FrequencyCepstral Coefficients (MFCC). L‟échelle

non linéaire de Mel est donnée par la formule suivante [16]:

(

) (

)(II.8)

Afin de réduire l'information, une suite de filtres (triangulaires, rectangulaires...) est

appliquée dans le domaine spectral selon l'échelle précédemment décrite. Les coefficients

obtenus sont alors synonymes d'énergie dans des bandes de fréquence. La figure II.9 donne un

exemple de répartition d'une suite de filtres selon l'échelle Mel, couramment utilisée. [7]

Figure II. 7: Calcul des coefficients cepstraux MFCC.

B. LinearPredictionCepstral Coefficients (LPCC)

Lorsque le spectre correspond à une analyse LPC, les coefficients se déduisent des

coefficients LPC par développement de Taylor, d'où leur nom de LinearPredictionCepstral

Coefficients (LPCC). [7]

Figure II. 8: Calcul des coefficients cepstraux LPCC.

Signal Pré-

accentuation

Fenetre de

Hamming

FFT Filtres

Mel

MFCC

LPCC Signal Pré-

accentuation

Matriced‟autocorr

élation

Calcul

LPC

Développement

de Taylor

Page 37: UNIVERSITÉ HAMA LAKHDAR D’EL

Chapitre II Segmentation et Extraction de caractéristique de SP

26

C. Coefficients PLP

La méthode PLPPerceptualLinearPrediction (ou PerceptuallybasedLinearPrediction),

est une méthode inspirée du principe de prédiction linéaire. Elle combine ce principe à une

représentation du signal qui suit l‟échelle humaine de l‟audition. Elle est à l‟origine de toute

une famille de techniques de traitement du signal de parole. [16]

Les PLP sont basés sur le spectre à court terme du signal de parole, comme les

coefficients LPC. Cela signifie que le signale est analysé sur une fenétre glissante de courte

durée, En générale, on utilise une fenétre de longueur10 à 30 ms.que l‟on décale de 10 ms

pour chaque trame.[16]

3. Conclusion

Dans ce chapitre nous avons cité les méthodes de segmentation et les technique

d'extraction de caractéristique de signal de parole tel que le résultat de ces techniques utilise

par les méthodes de la phase suivante. Pour cela nous allons expliquer les méthodes de

classification et détailler le classificateur qui nous allons choisir dans le chapitre suivant.

Page 38: UNIVERSITÉ HAMA LAKHDAR D’EL

Chapitre III:

Classification de signal de parole

Page 39: UNIVERSITÉ HAMA LAKHDAR D’EL

Chapitre III Classification de signal de parole

28

Introduction

La phase de classification de signal de parole permet de faire les deux tâches

principales (apprentissage et décision) dans les systèmes de reconnaissance automatique par

le résultat de la phase de segmentation et extraction de caractéristique.

Dans ce chapitre on présente les catégories de classification de signal de parole et les

méthodes de chaque catégorie on forme générale. En plus, la description de la méthode de

classification qui utilisé dans notre système.

1. Distances dans l'espaceacoustique

La reconnaissance de la parole est effectuée normalement au niveau acoustique.

Lespectre du mot à reconnaître est comparé à ceux d'un ensemble de mots appelés mots

deréférence. Il est pertinent de se demander comment mesurer le degré de similarité entreune

occurrence et une autre lors d'un processus de décision. En d'autres termes il fautétablir une

distance ou une mesure de dissemblance entre ces deux occurrences.Cependant il faut

s'assurer de réduire au minimum la sensibilité de cette distance auxfluctuations des débits

d'élocution.[13]

1.1 Mesure de distorsion

Considérons un ensemble quelconque E de points. Nous dirons que E est un

espacemétrique réel s'il existe une fonction appelée distance, notée :

D: E * E R

Vérifiant les quatre propriétés suivantes :

séparabilité: ( ) ( ) ,

réflexivité: ( ) ,

symétrie: ( ) ( ) ( )

inégalité triangulaire: ( ) ( ) ( ) ( )

En parole ces conditions ne sont pas toutes satisfaites (c'est le cas par exemple de la

symétrie), on parle plutôt de la mesure de dissemblance ou de mesure de distorsion.

Les distances utilisées pour comparer deux occurrences sont étroitement liées aux

types de paramètres utilisés. Une définition particulière de la distance entre deux spectres doit

être [13]:

significative sur le plan acoustique.

formalisable d'une façon efficiente sur le plan mathématique.

définie dans un espace de paramètres judicieusement choisi.

1.2 Distance Euclidienne

Pour l'analyse spectrale ou cepstrale, le choix se porte généralement sur les distances

associées à la norme dite de Holder, pour des vecteurs à Kcomposantes, cette norme est:

Page 40: UNIVERSITÉ HAMA LAKHDAR D’EL

Chapitre III Classification de signal de parole

29

( ) ∑

(III.1)

Où a est un vecteur de paramètres du mot de référence, et b un vecteur de paramètres

du mot à reconnaître.

Pour p=2, cette distance est connue sous le nom de la distance euclidienne, qu'on peut

utiliser dans le domaine spectral ou cepstral.

1.3 Distance d'ltakura

La distance d'Itakura est utilisée pour comparer deux vecteurs a et b de (p+

1)coefficients de prédiction linéaire chacun, pétant l'ordre de la prédiction. Cette distanceest

définie par [13]:

[

](III.2)

Où aest le vecteur de référence et R est la matrice (p + 1) x (p + 1) des coefficients

d'autocorrélation évalués sur le segment de signal correspondant à b, et aTest le vecteur

colonne transposé de a. Pour le numérateur il s'agit de l'énergie résiduelle on peut 1' évaluer

par [13]:

( ) ( ) ∑ ( ) ( ) (III.3)

Où les r(k) sont les coefficients d'autocorrélation sur le segment du signal

correspondant à b, et ra (k) sont les coefficients d'autocorrélation correspondant au vecteur a.

Une autre variante de la distance d'Itakura est la distance appelée rapport de

vraisemblance (Likelihood Ratio) dont la forme est :

(III.4)

1.4 Distance cepstrale

Soit deux vecteurs C1 et Crqui contiennent respectivement les coefficients cepstrauxd'un

segment du mot de référence et d'un segment du mot à reconnaître. La distancecepstrale, d CEPest

la distance euclidienne entre ces deux vecteurs, elle est définie par :

( ) ( ) ∑ ( ) ( )

(III.5)

En pratique, on ne prend pas en considération le premier terme de la distance. La distance

cepstrale est généralement tronquée, elle est évaluée le long d'un nombre fini de coefficients

typiquement 10 à 30. Cependant ce nombre ne doit pas être inférieur à l'ordre de prédiction p si

les spectres sont issus d'un modèle tout pôle d'ordre p.[13]

La distance cepstrale sera :

∑ ( ) ( )

(III.6)

Avec L est le nombre de coefficients le long desquelles la distance est calculée.

Page 41: UNIVERSITÉ HAMA LAKHDAR D’EL

Chapitre III Classification de signal de parole

30

1.5 Distance de Mahalanobis

La distance de Mahalanobis est l‟une des mesures capables de discriminer ou de

séparer entre les classes [Mcl92]. C‟est une méthode globale linéaire pondérée par le volume

de la classe en prenant en compte l‟ensemble des échantillons d‟une classe. Soit l‟ensemble

des échantillons de l‟ensemble d‟apprentissage X n

appartenant à la classe i.

Soient ( ) ∑

l‟espérance et la matrice de variance-covariance

del‟ensemble des échantillons de cette classe.La distance de MahalanobisDi utilisée dans

notre cas est la distance entre l‟ensembled‟apprentissage pour la classe i et un élément x dont

on désire déterminer la classe.[17]

( )

∑ ( ) (III.7)

D est appelée distance de Mahalanobis de x à

La classe d‟affectation de x sera celle qui produira la distance minimale :

( )(III.8)

2. Catégories de classification de signal de parole

Les méthodes de classification qui ont contribué à la création des SRAP regroupées

parmi les catégories suivantes [16]:

classification statistique ;

classification stochastique ;

classificationneuronale.

2.1 Classification statistique

Les méthodes de classification statistiques consistent à faire correspondre des vecteurs

de caractéristiques de longueur fixe à un espace partitionné. Dans ces méthodes, la

classification peut être aussi simple qu‟un classifieur à distance qui compare les

caractéristiques de la forme à reconnaître avec la valeur moyenne des caractéristiques de

chaque classe, puis, attribut la forme à la classe ayant les valeurs de caractéristiques les plus

proches. Parmi les nombreuses théories et méthodes, on peut citer à titre d‟exemples [16]:

décisionBayésienne ;

la méthode des k-plus proches voisins (k-ppv).

Machines à Vecteurs de Support (SVM)

2.1.1 Décision Bayésienne

Soit un problème caractérisé par un ensemble de N observations, x = {x1, x2, …,xN}

réparties en M classes (C1, C2, …,CM) avec leur probabilité a priori P(Ci), probabilité

d‟avoir la classe Ci, calculée à partir des fréquences d‟occurrence des exemples de cette

classe. Le rôle de la théorieBayésienne est de fournir une fonction de décision qui minimise le

coût moyen d‟erreur par décision prise. Pour une probabilité d‟erreur minimum, il suffit de

construire un système qui à chaque x associe la classe dont la densité en x est la plus forte ;

Page 42: UNIVERSITÉ HAMA LAKHDAR D’EL

Chapitre III Classification de signal de parole

31

elle nécessite donc la connaissance de la probabilité conditionnelle d‟appartenance à une

classe Ci donnée, soit P(x/Ci). [19]

2.1.2Méthode des k-plus proches voisins (k-ppv)

Cette méthode de décision est liée à la notion de "proximité" (ou ressemblance). L'idée

de cette technique est simple. La forme acoustique à classer est comparée à d'autres déjà

classées, et on lui affecte la classe la plus représentée parmi les k plus proches.

Dans le cas particulier k=1, c'est la classe de la forme acoustique la plus proche de

celle à classer qui lui est affectée. Cette notion de voisinage est quantifiée par une mesure de

similarité. La mesure de similarité la plus utilisée est la distance euclidienne [19].

2.1.3Machines à Vecteurs de Support (SVM)

L'algorithme des machines à vecteurs de support a été développé dans les années 90 par

Vapnik. Initialement il est développé comme un algorithme de classification binaire supervisée. Il

s'avère particulièrement efficace de par le fait qu'il peut traiter des problèmes mettant en jeu de

grands nombres de descripteurs, qu'il assure une solution unique (pas de problèmes de minimum

local comme pour les réseaux de neurones) et il a fourni de bons résultats sur des problèmes réels.

[2]

2.2 Classification stochastique

L'approche stochastique utilise un modèle pour la comparaison, prenant en compte une

plus grande variabilité de la forme. Cette dernière est considérée comme un signal continu

observable dans le temps à différents endroits constituant des "état d'observations".

Le modèle stochastique décrit ces états à l'aide de probabilités de transitions d'état à

état et de probabilités d'observation par état. La comparaison consiste à chercher dans ce

graphe le chemin le plus probable correspondant à une suite d'éléments observés dans la

chaîne d'entrée.

Ces méthodes sont robustes et fiables du fait de l'existence de bon algorithme

d'apprentissage.

La reconnaissance est très rapide car les modèles comprennent généralement peu d'états et le

calcul est relativement faible. Parmi les nombreuses théories et méthodes, on peut citer à titre

d‟exemples [16]:

Model de Markov cachés

Un modèle de Markov caché (HMM) est un modèle statistique contenant des variables

cachées. Il s‟agit d‟un automate à états finis qui permet de modéliser les aspects stochastiques

du signal de parole. Ce modèle est constitué d‟un ensemble d‟états liés entre eux par un

certain nombre de transitions permises. Dans ce cas, chaque fois qu‟une observation est

émise, le système procède au passage d‟un état à l‟autre ou au bouclage dans le même état

selon les transitions permises. De manière générale, les HMM utilisés en RAP sont d‟ordre 1

compte-tenu de l‟aspect séquentiel du signal de parole. Cet ordre 1 signifie que la possibilité

de se trouver dans un état donné d‟un HMM à un instant (t+1) ne dépend que de l‟état dans

Page 43: UNIVERSITÉ HAMA LAKHDAR D’EL

Chapitre III Classification de signal de parole

32

lequel le système se trouvait à l‟instant t. D‟autres possibilités de modélisation, comme les

HMMs d‟ordre 2, existent mais rendent les systèmes de RAP plus complexes. Pour chaque

HMM, un état de début et un état de fin sont ajoutés à ces états d‟observation pour assurer la

transition lors de l‟enchaînement des HMMs les uns à la suite des autres durant le processus

de reconnaissance. De surcroît, un HMM contient pour chacun de ses états une probabilité

d‟émission. Cette probabilité est souventreprésentée par une distribution statistique qui

retourne un taux de vraisemblance pour chaque vecteur observe. [18]

2.3 Classification neuronale

Les réseaux de neurones possèdent des propriétés propres à leur style de raisonnement

ce qui les rendent très attrayant dans plusieurs domaines. Un des domaines d‟application les

plus répandus des réseaux de neurones est la reconnaissance des formes.

Les méthodes neuronales présentent les avantages suivants [16]:

Puissance d‟approximation ;

Robustesse pour des tâches difficiles ;

Parallélisme dans le traitement des données.

Cependant, les réseaux de neurones ont des problèmes et des limites propres à eux. En

plus de temps d‟apprentissage qui est lent, l‟inconvénient majeur des méthodes neuronales

réside dans la détermination de la topologie du réseau de neurones à utiliser. En effet, la

structuration du réseau (nombre de couches cachées, nombre de neurones dans chaque couche

cachée, la stratégie de connectivité : locale ou globale, …etc) se fait avant le processus

d‟apprentissage, d‟une manière aléatoire ou en utilisant des heuristiques. [16]

3. Méthode de classification FLC

La méthode FastLogic Classifier (FLC) permet de simuler au maximum les décisions

prise par l‟être humain : décision certaine (je suis sur de ma décision ou l‟objet en question est A) et

décision incertaine (je pense que c‟est A). [9]

3.1Points forts de FLC

Le classificateur FLC est riche par des traits qui facilitent la classification de vecteurs

de signaux, en plus aide à donner des résultats acceptable. Parmices traits est [9]:

Le classificateur utilise seulement les connecteurs (opérateurs) logique ET/OU.

Le classificateur doit contenir un mécanisme de décision pour basculer entre les deux

phases : Apprentissage et Test.

Le classificateur doit être capable d‟utiliser un Vecteur de Description

d‟Objets (OVD : Object VectorDescriptor) qui peut :

être de la même taille du vecteur du modèle (OVD=MVD : Model VectorDescriptor).

être de taille supérieur du vecteur du modèle (OVD>MVD : Model VectorDescriptor). Il

faut étendre la base des modèles (MDB : Models Data Base).

être de taille inférieur du vecteur du modèle (OVD<MVD : Model VectorDescriptor). Il

faut demander une description plus détaillée si nécessaire.

Page 44: UNIVERSITÉ HAMA LAKHDAR D’EL

Chapitre III Classification de signal de parole

33

être construit des éléments en deux parties : Indexe de la caractéristique (CI :

Characteristic Index), et valeur de la caractéristique (CV : Characteristic Value).

être avec des valeurs de caractéristiques définit par énumération ou par intervalle.

Le classificateur doit contenir une couche d‟accélération (Compression, hiérarchie).

Le classificateur doit être capable de faire des décisions certaines (exactes) et des

décisions incertaines (approchés).

3.2Structure de classificateur FLC

Principalement, le classificateur contient sept couches, qui présentent dans la figure suivant :

Figure III. 1: Schéma de structure de classificateur FLC.

3.2.1 Couche instructeur

Est une couche supplémentaire mais très importante qui se compose de trois candidats

possible [9] :

Personne : présente le cas où l‟instructeur est un être humain.

Unité IA Interne : présente le cas où l‟instructeur est un programme (agent) interne par

rapport à la machine contenant le classificateur.

Unité IA Externe : présente le cas où l‟instructeur est un programme (agent) externe par

rapport à la machine contenant le classificateur.

3.2.2 Couche raisonnement

Elle contient l‟ensemble des règles de gestion de classification.

Instructeur

Personne Unité IA interne Unité IA externe

Raisonnement

Gestionnaire de

Classification

Gestionnaired’Appre

ntissage

Vote

X Y X Y

Base des

Modèles

Accélération

Apprentissage

Classification

Page 45: UNIVERSITÉ HAMA LAKHDAR D’EL

Chapitre III Classification de signal de parole

34

3.2.3 Couche apprentissage

Elle consiste de faire la gestion de la phase d‟apprentissage, c‟est la phase dans laquelle le

système initialise et fait la mise à jour de la base des modèles. [9]

A. Création de la base des modèles

Pour l‟initialisation de la base des modèles le système prend en entrée les vecteurs de

description et les étiquettes des classes à apprendre, et les sauvegarde dans la base des

modèles. [9]

Durant ça, l‟instructeur peut donner des vecteurs de description d‟une classe séparés.

Le système convertit à l‟aide de la couche accélération ces vecteurs en mode de représentation

par énumération ou en mode de représentation par intervalle pour compresser la définition de

la classe. En plus, parfois l‟instructeur peut donner deux ou plusieurs vecteurs de la même

valeur. Dans ce cas, le système sauvegarde une seul copie. [9]

B. Mise à jour de la base des modèles

La mise à jour de la base des modèles est nécessaire pour des nouveaux exemples. Par

exemple, dans le cas où le système fait une décision incertaine ou approchée, ou dans le cas

où le système demande d‟apprendre de nouvelles caractéristiques. [9]

3.2.4Couche Classification

Elle permet de faire la gestion de phase de test, qui est composée les trois couches

suivantes :

Gestionnaire de Classification;

Vote;

Calcule.

A. Gestionnaire de classification

Cette couche permet de faire la gestion de la classification et la communication avec

l‟instructeur par la couche de raisonnement pour réapprendre ou confirmer une décision et la

figure suivante présente les détails de ces gestions

Page 46: UNIVERSITÉ HAMA LAKHDAR D’EL

Chapitre III Classification de signal de parole

35

Figure III. 2: Classificateur FLC.

Instructeur

Personne Unité IA interne Unité IA externe

Raisonnement

Gestionnaire de Classification

Vote

Calcule

MVS

Non

X Y

Base des

Modèles

Oui

Apprendre des nouvelles indexes et

valeurs des caractéristiques. M-à-j

de la base.

1

Demande d’enrichissement de la

description du vecteur descripteur

(plus de caractéristiques).

2

Préparer la matrice de vote

CE= trouver la classe élue

NE= trouver le nombre d’élection

XS=NE

Calcule de la

distance entre X et

MV

Oui

Oui

i Demande de confirmation de

classification.

3

Oui

i

No

n

Confirmation de classification.

4

Calcule des votes

Confirmation positive de classification.

Mise à jour de la base des modèles.

5

Confirmation négative de classification.

Mise à jour de la base des modèles.

6

Oui

i

Non

Y'

Classification

1

Non

XS<MVS

2

Décisioncertain

e = CE

3

Existe un

instructeur

? Non

4

XS>MVS

Décisionincerta

ine = CE

Confirmation

positive

5

6

7

Correction du résultat de classification.

Mise à jour de la base des modèles.

7

XS: Taille du Vecteur donnée X.

MVS: Taille du vecteur modèle.

CE : Classe élue.

NE: nombre d'élection.

MV: vecteurmodèle.

Page 47: UNIVERSITÉ HAMA LAKHDAR D’EL

Chapitre III Classification de signal de parole

36

B. Vote

Cette couche consiste à préparer la matrice de vote en calculant la distance entre les

deux vecteurs X et MV. En plus, elle permet de trouver la classes élue et le nombre

d‟élections pour chacune des classes par l‟intermédiaire de la couche de calcule des votes. [9]

C. Calcule

Cette couche consiste à faire les calculs nécessaires pour les couches supérieurs :

calcule de la distance entre les vecteurs et calcule des votes. [9]

4. Conclusion

Dans le but de faciliter la compréhension et la classification dans l'implémentation de

notre system nous avons présenté les méthodes de classification de signal de parole qui utilisé

dans les systèmes de reconnaissance automatique de parole, ainsi la description du

classificateur logique (FLC) qui utilise dans notre système, dont le chapitre suivant contient le

résultat d'exécution de cette méthode.

Page 48: UNIVERSITÉ HAMA LAKHDAR D’EL

Chapitre IV:

Conception & Mise en œuvre

Page 49: UNIVERSITÉ HAMA LAKHDAR D’EL

Chapitre IV Conception & Mise en œuvre

38

Introduction

Dans les chapitres précédent nous avons présentés les déférentes étapes de système

pour traitement, reconnaissance et compréhension du son, et ensuit une explication détaillée

de certaines des techniques utilisées dans les étapes les plus importantes de la reconnaissance

de la voie (segmentation, extraction de caractéristique et classification).

Dans ce chapitre nous allons proposer une conception par affinement successif du

système en donnant son architecture générale, puis nous détaillons en étudiant séparément

chacun de ses composants, surtout la phase d‟extraction des caractéristiques ou nous allons

présenter l‟architecture du descripteur structurel vocal proposé. Ensuite, nous présentons les

résultatsobtenus.

1. Mise en œuvre du système

Ce travail vise à développer une application de saisie des notes d‟étudiants qui

apprend d‟un ensemble d‟enregistrement du son des différents caractères arabe et par la suite

elle permet de reconnaître de nouveaux exemples (nouvelles enregistrements des mots) des

mots et les classifier. Pour ce faire, on utilise un ensemble de commandes vocales où chaque

commande passe par une succession d‟opérations : acquisition, segmentation et extraction des

vecteurs acoustiques, apprentissage et classification, et finalement modifier le fichier excel

contenant la liste des étudiants. « Figure IV.1 »

Page 50: UNIVERSITÉ HAMA LAKHDAR D’EL

Chapitre IV Conception & Mise en œuvre

39

Figure IV. 1: Illustration des modules du système.

1.1 Acquisition

L‟acquisition est la première étape du processus de reconnaissance vocale. Ce module

consiste tout simplement à acquérir le signal de parole (information) à un micro-ordinateur

afin d‟exécuter une tâche précise. Dans notre système nous allons utiliser le microphone

comme outil d‟acquisition à l‟extérieur du PC ainsi que la carte son comme périphérique

interne. Le signal acquit est échantillonné, quantifié et codé à l‟aide de la carte son de

l‟ordinateur.

1.2 Segmentation

Cette phase est considérée comme cruciale dans le procédé de reconnaissance tel que

une bonne segmentation du signale de parole donne une bonne description et classification et

par conséquent un bon taux de reconnaissance. Parmi les méthodes de segmentation existant

nous avons choisi la méthode de segmentation en mots isolés. Pour pouvoir faire cette tâche

on passe par 02 étapes:

Segmentation niveau 1 ;

Segmentation niveau 2 ;

Acquisition

Segmentation

Extraction des caractéristiques

Classification

Post-traitement

Page 51: UNIVERSITÉ HAMA LAKHDAR D’EL

Chapitre IV Conception & Mise en œuvre

40

1.2.1 Segmentation niveau 1

Dans ce composant, nous allons faire une analyse temporelle du signal. Une

inspection minutieuse de la structure temporelle (forme d'onde), en utilisant un seuil S pour

diviser ou segmenter le signal en 02 classes: silence / parole. Le résultat de cette étape est une

liste des segments des paroles et silences. La procédure suivante permet de réaliser ce niveau

de segmentation. La figure IV.2 représente un exemple.

public voidSegmenterParole(short[] audioBuffer)

{

booleanpS=true,pP=true;

for(int i = 0 ; i<audioBuffer.length ; i++)

{

if(Math.abs(audioBuffer[i]) <= maxB)

{

if((t != 0)&&(pP))

{

fp = i-1;

fw.writeBytes(" dp= "+dp+" fp= "+fp+" t=

Segmentparolepos= "+(i*hs)+"\n");

SegmentXYseg = new

SegmentXY(dp,fp,SegmentXY.SPEECH);

listeSegment.add(seg);

t = 0;pP=false;pS=true;

}

if(s == 0)ds = i;s++;

}

else //audioBuffer[i] >maxB

{

if((s != 0)&&(pS))

{

fs = i-1;

fw.writeBytes(" ds= "+ds+" fs= "+fs+" t= SegmentSilencepos=

"+(i*hs)+"\n");

SegmentXYseg = new

SegmentXY(ds,fs,SegmentXY.SILENCE);

listeSegment.add(seg);

s = 0;pP=true;

pS=false;

};

if(t == 0)dp = i;t++ ;

}

}

}

Page 52: UNIVERSITÉ HAMA LAKHDAR D’EL

Chapitre IV Conception & Mise en œuvre

41

_FileWriter () : est une classe qui permet de crée dans les fichiers texte.

writeBytes(s : chaine de caractère) : fonction dans la classe _FileWriter () qui permet

d‟écrire uneligne dans le fichier texte.

S P S P S P S …. P S

Figure IV. 2: Exemple de segmentation niveau 1.

1.2.2 Segmentation niveau 2

Dans cette étape, le système analyse la liste produite par l‟étape précédente en utilisant

02 critères: longueur minimal de parole et longueur minimal du silence. En fin du traitement

on obtient une liste qui contient seulement le début et la fin de chaque segment de parole. Ces

segments vont être utilisé par la suite pour le module d‟extraction des caractéristiques afin des

connaitre la nature des segments et reconstruire les différents mots d‟une phase.La figure IV.3

illustre un exemple de segmentation niveau 2, elle est réalisée par le code suivant:

public voidgetSpeechSegments()

{

int i=1;

do

{

SegmentXY seg1 =(SegmentXY)listeSegment.get(i-1);

SegmentXY seg2 =(SegmentXY)listeSegment.get(i);

SegmentXY seg3 =(SegmentXY)listeSegment.get(i+1);

if((seg1.type==SegmentXY.SPEECH)&&(seg2.type==SegmentXY.SILENC

E)&&(seg3.type==SegmentXY.SPEECH)&&((seg2.y-seg2.x)<minS))

{

Segmentation Niveau 1

Page 53: UNIVERSITÉ HAMA LAKHDAR D’EL

Chapitre IV Conception & Mise en œuvre

42

seg1.y=seg3.y;

listeSegment.remove(i);

listeSegment.remove(i);

}

else i++;

}while(i<(listeSegment.size()-1));

i=0;

do

{

SegmentXYseg =(SegmentXY)listeSegment.get(i);

if((seg.type==SegmentXY.SPEECH)&&((seg.y-seg.x)<minP))

{

if(i==0)

{

SegmentXY seg2 =(SegmentXY)listeSegment.get(i+1);

if(seg2.type==SegmentXY.SILENCE);

{

seg2.x=seg.x;

listeSegment.remove(i)

}

}

if((i>0)&&(i<listeSegment.size()-1))

{

SegmentXY seg1 =(SegmentXY)listeSegment.get(i-1);

SegmentXY seg2 =(SegmentXY)listeSegment.get(i+1);

if((seg1.type==SegmentXY.SILENCE)&&(seg2.type==

SegmentXY.SILENCE))

{

seg1.y=seg2.y;

listeSegment.remove(i);

listeSegment.remove(i);

Page 54: UNIVERSITÉ HAMA LAKHDAR D’EL

Chapitre IV Conception & Mise en œuvre

43

}

}

if(i==(listeSegment.size()-1))

{

SegmentXY seg2 =(SegmentXY)listeSegment.get(i-1);

if(seg2.type==SegmentXY.SILENCE)

{

seg2.y=seg.y;

listeSegment.remove(i);

}

}

}

else i++;

}while(i<(listeSegment.size()));

i=0;

intpassageZero =0;

PassageParZero(listeSegment);

do

{

SegmentXYseg=(SegmentXY)listeSegment.get(i);

passageZero =PassageParZero(seg);

if(seg.type==SegmentXY.SILENCE)

{listeSegment.remove(i); }

else

if(passageZero<200)

{listeSegment.remove(i);}

else

if((mean(seg)<100)||(mean(seg)>5000))

listeSegment.remove(i);

else i++;

Page 55: UNIVERSITÉ HAMA LAKHDAR D’EL

Chapitre IV Conception & Mise en œuvre

44

}while(i<(listeSegment.size()));

PrintSegParole(listeSegment);

}

PassageZero( liste ) : fonction qui donne le nombre de passage par zéro de chaque segment

dans la liste.

mean (Segment) : fonction qui donne le moyen des amplitudes d‟un segment de la liste.

S P S P S P S …. P S

Figure IV. 3: Exemple de segmentation niveau 2.

1.3 Extraction des caractéristiques

L„extraction des caractéristiques consiste à utiliser une techniques d‟analyse

(statistiques, hybride, structurelle,…etc.) pour obtenir les caractéristiques qui donnent une

bonne description des segments de parole. Pour ce faire, Il existe une diversité de méthodes

mais dans notre système nous avons proposé un nouvelle modèle de descripteur pour extraire

les caractéristiques structurel d‟un signal vocal.

1.3.1 Normalisation de signal vocal

Les segments obtenus dans la phase précédente « segmentation » sont caractérisé par

la variabilité dans la longueur et l‟amplitude. Pour cela nous avons proposé la méthode de

normalisation qui minimise cette variabilité. Cette méthode utilise une taille fixe (H=3000,

L=30000). La figure IV.4 montre un exemple de normalisation, elle est réalisée par le code

suivant:

Segmentation Niveau 2

Bruit

Segment de

parole

Page 56: UNIVERSITÉ HAMA LAKHDAR D’EL

Chapitre IV Conception & Mise en œuvre

45

publicshort[] normalize(SegmentXYs,intnv,intnh)

{

int start = (int)(s.x);

int end = (int)(s.y);

int size=end-start;

short[] nb=new short[nh];

intmax_val=getMax(audioBuffer,start,end);

doublehs=((nh+0.0)/size);

int x=0;

double pos=0.0;

int v1,v2,cc=0;

v1=(int)Math.floor((audioBuffer[start]*nv)/max_val);

nb[x]=(short)v1;

intmax_Value=v1;

for(int i=start+1;i<end;i++)

{

v2=(int)Math.floor((audioBuffer[i]*nv)/max_val);

if(Math.abs(v2)>max_Value)max_Value=Math.abs(v2);

nb[x]=(short)v2;

pos=pos+hs;

x=((int)Math.floor(pos));

}

audioBuffer=nb;

sampleViewersv= new sampleViewer(sW,sH,BufferedImage.TYPE_INT_RGB);

sv.createWaveForm();

sampleViewer.paint(sampleViewer.getGraphics());

scrollPane.repaint();

returnnb;

}

Où:

getMax(audioBuffer: tableaux, startentire , end entier): fonction permettant d'obtenir la

valeur max dans la table audioBuffer de l‟intervalle [Start , end].

Page 57: UNIVERSITÉ HAMA LAKHDAR D’EL

Chapitre IV Conception & Mise en œuvre

46

Figure IV. 4: Exemple de normalisation de mot « رقـــم».

1.3.2 Méthode proposée

Notre proposition consiste à utiliser une méthode structurelle pour extraire les vecteurs

caractéristiques des segments normalisés obtenus par l‟étape précédente

« normalisation ».Cette étape génère des vecteurs caractéristiques de taille fixe égale à L/k.

Pour obtenir une description structurelle le système divisela longueur du segment considéré

surk(dans notre cas k=150), ce qui génère des parties égales, puis calcule le moyen de chaque

partie. Finalement, nous allons obtenir un vecteur caractéristique de taille L/k=200.

Normalisation

رقـــــــــــــــم

Page 58: UNIVERSITÉ HAMA LAKHDAR D’EL

Chapitre IV Conception & Mise en œuvre

47

Figure IV. 5: Exemple d’extraction des caractéristiques pour le mot « رقـــم».

1.4 Classification

Cette phase consiste à utiliser une méthode de classification (dans notre cas FLC). Elle

se divise en deux sous phases: Apprentissage et Test ou Décision. La première consiste à

initialiser la base des modèles, autant que la deuxième consiste à assigner une classe pour

chaque nouveau exemple donnée (vecteur caractéristique).

C1 C2 C3 C4 … CK

Méthodestructurelle

C0=Moy0

C1=Moy1 Ck=Moyk

Vecteur « رقم »

Page 59: UNIVERSITÉ HAMA LAKHDAR D’EL

Chapitre IV Conception & Mise en œuvre

48

Classification (FLC)

C1 C2 C3 ... Cn

Figure IV. 6: La phase de classification.

1.4. 1 Apprentissage

Cette phase consiste à initialiser ou créer la base des modèles en sauvegardant les

caractéristiques des différents caractères.

1.4.2 Décision / Classification

Elle consiste à utiliser les caractéristiques extraites dans la phase précédente pour

attribuer une classe en se basant sur les données de la base des modèles. Dans la réalité, cette

phase se divise en deux parties :

VC≈VM ?

BD des

modèles

VMs

Prédiction Apprentissage

Non Oui

Comparaison avec les

modèles existant VM

Initialisation de

la base des

données

Chaine de definition

“Num”

Chained’initialisation

“Num” VecteurCaractéristiques VC

Page 60: UNIVERSITÉ HAMA LAKHDAR D’EL

Chapitre IV Conception & Mise en œuvre

49

1. Classification exacte ; et

2. Classification approchée.

A. Classification exacte

Dans ces cas, le système compare le vecteur donnée X avec un vecteur modèle MV et

trouve que tous les caractéristiques de X coïncide avec les caractéristiques de MV. Selon ces

informations le système considère que sa décision est certaine (exacte). Parce que, la taille de

X est égale à la taille de MV (XS=MVS).

Comme exemple, considérons les données suivantes des caractères (رقم، نقطت)

sauvegardées dans la base des modèles :

Num C1 2 1 0.49813986 C2 2 1 -0.35544977 C3 2 1 -0.32273778 C4 2 1 -0.38370106 ...

Num C1 2 1 0.33787295 C2 2 1 -0.15571517 C3 2 1 -0.46929294 C4 2 1 -0.33220175…

NumC1 2 1 0.4486087 C2 2 1 -0.32384408 C3 2 1 -0.3370984 C4 2 1 -0.35393882…

Note C1 2 1 0.52724016 C2 2 1 -0.11134369 C3 2 1 -0.22136661 C4 2 1 -0.28330418...

Note C1 2 1 0.5521551 C2 2 1 0.14634295 C3 2 1 -0.18275556 C4 2 1 -0.22439806…

Note C1 2 1 0.5521551 C2 2 1 0.14634295 C3 2 1 -0.18275556 C4 2 1 -0.22439806…

Ensuite, le vecteur caractéristique X suivant :

Num C1 2 1 0.49813986 C2 2 1 -0.35544977 C3 2 1 -0.32273778 C4 2 1 -0.38370106

Nous pouvons remarquer par une simple comparaison des données des vecteurs que

les caractéristiques du vecteur X coïncident exactement avec les caractéristiques du troisième

modèle du caractère Num.

d(x,y)=|xi-yj|

B. Classification approchée

Malheureusement, parfois à cause des états variés des locuteurs« le tempérament du

locuteur, état émotif, état de fatigue… » oul‟outil capteur utilisé n‟est pas vraiment fiable,

nous pouvons tomber dans le cas où les caractéristiques sont proches mais se diffèrent en

valeur de celle de la base des modèles.

2 1 0.49813986 2 1 -0.35544977 2 1 -0.32273778 2 1 -0.38370106

Num Num Num Num

Note

Vecteur X

Liste des

candidats

Figure IV. 7: Exemple de classification exacte.

Page 61: UNIVERSITÉ HAMA LAKHDAR D’EL

Chapitre IV Conception & Mise en œuvre

50

Par exemple, prenons le vecteur X suivant :

Note C1 2 1 0.5521551 C2 2 1 0.14634295 C3 2 1 -0.18275556 C4 2 1 -0.22439806

Pour ce vecteur, il n‟est pas possible de faire une classification exacte parce que les

valeurs sont proches mais se diffèrent de celles des modèles du caractère Note. Pour cela, on

essaye de réaliser un calcule distance à l‟aide d‟une fonction noyau.

Dans notre travail, nous avons utilisé une distance de Manhattan : qui calcule la somme

des valeurs absolues des différences entre les valeurs de deux caractéristiques:

d(x,y)=|xi-yj|.

Premièrement, le système utilise verticalement une fonction min pour choisir le

candidat le plus proche à chacune des caractéristiques. Ensuite, il utilise horizontalement une

fonction max pour choisir la classe élue

1.5 Post-traitement

La chaine des étiquètes « ex : Num Cinq Note Un » obtenu par la phase II.4 est

l‟entrée de la phase de post-traitement. Le résultat obtenu par cette phase représente une

commande qui va engendrer une modification dans le fichier Excel cible.

La table ci-dessous présente quelques exemples des chaines de définition des segments de

parole:

2 1 0.5521551 2 1 0.14634295 2 1 -0.18275556 2 1 -0.22439806

Note

Vecteur X

a)Liste des

candidats

2 1 0.5521551 2 1 0.14634295 2 1 -0.18275556 2 1 -0.22439806

Note

Vecteur X

b)Liste des

candidats Note Note Note

Figure IV. 8:a) Résultat par classification exacte, b) Résultat par classification approchée.

Page 62: UNIVERSITÉ HAMA LAKHDAR D’EL

Chapitre IV Conception & Mise en œuvre

51

Table IV. 1: Exemple des chaines de définition des segmente de parole.

Mots prononcer Etiquette « chaines de définition »

« Num » رقــــــــــــــــــم

« Note » نقــــــــــــــطت

« Un » واحــــــــــــــــــد

« Deux » اثنـــــــــــــــــــان

« Trois » ثلاثــــــــــــــــــــت

« Quatre » أربــــــــــــــــــعت

«Cinq » خمســـــــــــــــــت

« Six » ستـــــــــــــــــــــت

« Sept » سبعــــــــــــــــــــت

« Huit » ثمانيــــــــــــــــــــت

تـــــــــــــــــــــتسع « Neuf »

«Dix » عـــــشــــــرة

2. Résultats et bilan

Cette section présente le choix du langage de programmation, les différentes interfaces

et fenêtres principales du système, les tests et résultats obtenus.

2.1 Choix du langage de programmation

Dans ce travail, nous avons choisi comme environnement de programmation le

langage JAVA qui possède une richesse et offre une grande simplicité de manipulation de son

et d'images, soit en acquisition ou en génération des fichiers images. Ce langage possède des

avantages très intéressants tel que :

La portabilité des logiciels;

La réutilisation de certaines classes déjà développées;

La possibilité d„ajouter à l„environnement de base des composants fournis par

l„environnement lui-même;

La quasi-totalité de contrôle de Windows (boutons, boites de saisies, listes

déroulantes, menus …etc.) qui sont représentés par classes.

2.2 Interfacesdu système

Notre système est démarré par l‟interface suivante qui schématisé dans la figure ci-dessous.

Page 63: UNIVERSITÉ HAMA LAKHDAR D’EL

Chapitre IV Conception & Mise en œuvre

52

Figure IV. 9: L'interface de démarrage de notre système.

La figure suivante présente l'interface principale de notre système qui comporte les

boutons principaux de l'application.

Figure IV. 10: Fenêtre principale de l‟application.

2.2.1 Utilisation de l’application

Notre application permet de saisir les notes des étudiants vocalement pour faire cela:

Page 64: UNIVERSITÉ HAMA LAKHDAR D’EL

Chapitre IV Conception & Mise en œuvre

53

A. Premièrement, l‟utilisateur choisit un fichier excel cible dont lequel nous allons

enregistrer les notes des étudiants, en cliquant sur le bouton ‘Choisir fichier’.

B. Ensuite, il clique sur le bouton ‘Start’, dicte une commande de la forme décrit dans la

section II.5, puis clique sur le bouton ‘Stop’ pour arrêter l‟enregistrement et ajouter la

note dans le fichier;

C. En plus, Il est possible d‟avoir des détails sur le signal de son donné en cliquant sur le

bouton ‘Sound Analyser’. (Voir la figure IV.11)

Figure IV. 11: Illustration de l‟utilisation de l‟application.

2.2.2 Analyse du son (Sound Analyser)

Cette interface peut être utilisée suivant deux modes:

Apprentissage: comme phase initiale pour aider le système à apprendre les différentes

classes ;

Test: pour tester et calculer le taux de reconnaissance.

A. Mode apprentissage

Ce mode peut être vu comme phase initiale ou d'initialisation de la base de

connaissancedu système, pour le faire on procède comme suit:

1.On enregistre le signal de son par les boutons ‘Start’ et ‘Stop’.

2.Le signal de son est segmenté en un ensemble de segments par le bouton ‘Segmenter’dont

chaque segment est entre deux lignesbleues (figure IV.12).

1. Commencer

l’enregistrement de son

3. le choit de fichier

5.Analyer le signal

de son 1. Arrêter

l’enregistrement de

son

Page 65: UNIVERSITÉ HAMA LAKHDAR D’EL

Chapitre IV Conception & Mise en œuvre

54

Figure IV. 12: Illustration de segmentation de signal de son.

3. Saisir la chaine des étiquètes puis cliquer le bouton ‘learn’ pour extraire les caractéristiques

de nouveaux exemples et sauvegarderle vecteur résultant dans la base de connaissances du

système.(Figure IV.13)

Figure IV. 13: Illustration d‟apprentissage de nouveaux exemples.

Segmenter le signal en

mot

Bouton

Apprentissage Le chaine d’étiquètes

Page 66: UNIVERSITÉ HAMA LAKHDAR D’EL

Chapitre IV Conception & Mise en œuvre

55

B. Mode de test

Ce mode permet de faire la reconnaissance de signal après la comparaison entre les

vecteurs modèles de la base des modèles obtenus par la phase d‟apprentissage et le vecteur de

signal donné, cette action est faite par le bouton ‘Test’. (Voir figure IV.14)

Figure IV. 14: Illustration de test d‟un exemple donné.

3. Comparaison des résultats (LPC/MS)

Pour évaluer la performance de notre méthode nous avons divisé les échantillons en

des exemples d‟apprentissage et d‟autres pour le test « voir tableau IV.2 ». Les résultats sont

calculés pour la méthode structurelle proposée ainsi que la méthode statistique LPC. Dans

cette évaluation nous avons pris les critères de comparaisons suivantes :

Taux de reconnaissance ;

Temps d‟exécution ;

Robustesse de la méthode.

La table suivant représente les résultats obtenus dans cette comparaison et les exemples

utilisés sont : « رقم, نقطت, واحد, اثنان, ثلاثت, خمست, ستت, سبعت عشر »

Ou :

NEA : Nombre d‟Exemple utilise pour l‟Apprentissage ;

Bouton de

reconnaissance

Num 1 Note 6

ـــــــــةــنقطــــــــــ رقــــــــــــــــم واحــــــــــــــــــــــــــد ستـــــــــــــــة

Page 67: UNIVERSITÉ HAMA LAKHDAR D’EL

Chapitre IV Conception & Mise en œuvre

56

NET : Nombre d‟Exemple utilise pour le Test ;

TR : Taux de Reconnaissance, et TE : Temps d‟Exécution.

Table IV. 2 : Illustration des résultats obtenus avec une comparaison de la méthode LPC.

Nombre

de Classe NEA NET

MS LPC

TR TE TR TE

8

80 31 93% 2 min 17s 19,35 % 4 min 28s

160 63 88% 7 min 6s 19,04% 15 min 32s

240 95 95% 13 min 49s 17,89% 34 min 7s

320 127 92% 22 min 39s 18,89% 59 min 9s

400 159 93% 36 min 36s 23,89% 1 h 32 min 4s

560 191 92% 54 min 1s 21,98% 2h 36 min 48s

Figure IV. 15: Illustration de Taux de reconnaissance de MS et LPC.

Figure IV. 16: Illustration de temps d'exécution de MS et LPC.

0

20

40

60

80

100

120

140

160

180

0 50 100 150 200 250

TE

NET

MS

LPC

0

10

20

30

40

50

60

70

80

90

100

0 50 100 150 200 250

TR

NET

MS

LPC

Page 68: UNIVERSITÉ HAMA LAKHDAR D’EL

Chapitre IV Conception & Mise en œuvre

57

D‟après les résultats de la table IV.2 et les courbes des figures IV.15, IV.16 nous

avons observé que la méthode structurel est mieux que LPC dans le taux de reconnaissance et

le temps d‟exécution.

4. Conclusion

Nous avons présenté dans ce chapitrel‟architecture globale du système, ainsi que les

différents modulesen détails. En plus, nous avons décrit la méthode structurelle d‟extraction

des caractéristiques. En fin, les résultats de classification sont calculés pour notre méthode et

la méthode LPC afin de faire une comparaison entre les 02 méthodes.

Page 69: UNIVERSITÉ HAMA LAKHDAR D’EL

58

Conclusion générale &perspectives

Jusqu‟aujourd‟hui, La reconnaissance du son et la reconnaissance de la voie en

particulier présente un défi très grand, malgré les efforts et les travaux intensifs réalisés dans

ce domaine, aucun système RAP n„est jugé fiable à 100%, Mais ou fur et à mesure les autre

essayent d„améliorer les scores pour de meilleurs résultats. Et elle joue un rôle très important

dans le monde actuel. Elle est capable de résoudre des problèmes complexes et rendre les

activités de l'homme plus simple.

Dans ce travail ont été intéresser à présenter un modèle de descripteur structurel de la

voie Arabe, En noyant d‟améliorer le taux de reconnaissance en empreint un chemin différent

(méthode structurelle) que ceempreinte par les méthodes souvent utilisées comme LPC,

MFCC,..etc (méthodes statistiques ou stochastiques). Comme application nous avons choisi

une application de dicté pour saisir les notes des étudiants.

De plus, une technique de segmentation à deux niveaux est utilisée pour segmenter le

signale de parole en mots pour pouvoir avoir la possibilité d„extraire des caractéristiques

structurelles de ces segmentes.

Par la suit, le système utilise un modèle de descripteur vocale structurel à deux étages :

le premier, consiste à normaliser la structure du signal (mot) selon 02 facteurs (amplitude et

longueurs), le second, divise le segment normalisé en des parties égales et calcule le moyen

de chaque partie afin de donner un vecteur caractéristique.

Ensuite un classificateur FLC est utilisé pour classer les différentes signale de parole.

Finalement, les résultats de classification avec la méthode proposée ont été comparé avec

ceux de LPC selon 03 critères : taux de reconnaissance, temps d‟exécution et robustesse on

stabilité de la méthode dans des différents environnements.

Les résultats obtenus ont été acceptables, mais un taux de reconnaissance bien définit

pour de tels systèmes des tests réels sont exigés. Plusieurs ambiguïtés ont été rencontrées

durant notre étude, parmi lesquelles nous citons :

De tels systèmes sont normalement destiné à être utiliser avec des machines qui

possède un environnement d„acquisition conditionné.

Les conditions d‟enregistrement ne répondent pas aux contraintes d‟application

« bruit, position et sensibilité du microphone… » ;

Les états variés des locuteurs « le tempérament du locuteur, état émotif, état de

fatigue… ». Ces conditions onune influence sur les résultatsobtenus.

L‟outil capteur utilisé n‟est pas vraiment fiable ;

La diversité des notions liées au concept de la parole « la reconnaissance de mots

prononcés, La dictée vocale, La différentiation entre locuteur masculin, féminin et

enfant, la dépendance ou non dépendance du texte…. etc.. » ;

Page 70: UNIVERSITÉ HAMA LAKHDAR D’EL

59

Comme perspective, il est nécessaire d‟améliorer de plus la méthode pour la rendre

stable dans des environnements bruités. En plus, ses résultats doivent être comparés avec

d‟autres méthodes comme PLP, MFCC…etc.

Page 71: UNIVERSITÉ HAMA LAKHDAR D’EL

60

Bibliographie

[1]

BadraKhellat.K : «La Reconnaissance Automatique de la Maladie de Parkinson »,

Mémoire pour l‟obtention de diplôme Magister en Informatique, Université Des

Sciences Et De La Technologie D'Oran, Année 2012.

[2] Bahlmann.C, Haasdonk.B, Burkhardt.H: « On-line Handwriting Recognition with

Support Vector Machines - A Kernel Approach », Publ. in Proc. of the 8th Int.

Workshop on Frontiers in Handwriting Recognition (IWFHR), pp. 49–54,

Germany, 2002.

[3] Calliope : « La parole et son traitement automatique », Masson, 1989.

[4] Daniel.M, Sylvain.M, Corinne.F, Laurent.B, Jean-François.B : « Segmentation

selon le locuteur : les activités du Consortium ELISA dans le cadre de Nist RT03»,

Avignon Cedex 9-France, Année 2004.

[5] Fawzi.B : « Commande vocale d‟un robot manipulateur », Mémoire pour

l‟Obtention du Diplôme de Magister En Electronique, Université De Batnam,

Année 2014.

[6] François.L : « Segmentation non supervisée d‟un flux de parole en syllabes »,

Rapport de stage de master II recherche, 31 Juillet 2012.

[7] Halima.A :« Un système neuro-expert pour la reconnaissance de la parole -Neural

Expert System for Speech Recognition- », Mémoire pour l'obtention d‟un Doctorat

d‟Etat en Informatique, 2005.

[8] Ibrahim.M, Walid.I, Osama.M, Al-Zahraa.M: « Recognition of phonetic Arabic

figures via wavelet based Mel Frequency Cepstrum using HMMs », HBRC Journal

(2014) 10, 49–54.

[9] Imane Ben.G :« Proposition d‟un modèle de classification de clssificateur logique ;

application dans la reconnaissance du texte arabe imprimé », Mémoire pour

l'obtention du Master II En Informatique,Juin 2014.

[10] Julien.A :« Approche De La Reconnaissance Automatique De La Parole », Examen

Probatoire en Informatique, Année 2003.

[11] JulineLe.G : « Amélioration des Systèmes de reconnaissance de la parole des

personnes âgées », Mémoire pour l'obtention du Master II Recherche, Laboratoire

LIG, Équipe : GETALP BP 53, Année 2011/2012.

Page 72: UNIVERSITÉ HAMA LAKHDAR D’EL

61

[12] Kamal.B : « Modèle de Markov Cachés : Application à la Reconnaissance

Automatique de la Parole », Mémoire pour l‟obtention de diplôme Magister en

électronique, Année 2014.

[13] Khaled.Z :« Implémentation D'une Méthode De Reconnaissance De La Parole Sur

Le Processeur De Traitement Numérique Du Signal Tms320c6711 », Mémoire

Présenté À L'école De Technologie Supérieure Comme Exigence Partielle À

L'obtention De La Maitrise En Génie Électrique, 10 Juin 2004.

[14] Kunal.Sh, Nishant.S, Pradip K. Das, Shivashankar B. Nair: « A Speech Recognition

Client-Server Model for Control of Multiple Robots », Année 2013.

[15] LÊ Viet.B: « Reconnaissance automatique de la parole pour des langues peu dotes

», thèse Docteur de L‟université Joseph Fourier - Grenoble 1 en Informatique, juin

2006.

[16] Lotfi.A:« Un Systeme Hybride Ag/Pmc Pour La Reconnaissance De La Parole

Arabe », Mémoire pour L‟obtention Du Diplôme De Magister en Informatique,

Université Badji Mokhtar Annaba, Année 2005.

[17] Marwa.C: «Détection et classification des signaux non stationnaires par utilisation

des ondelettes. Application aux signaux électromyographies utérins», Thèse

Docteur De L‟université De Technologie De Troyes, Année 2010.

[18] Matthieu.C: «Identification audio pour la reconnaissance de la parole », Thèse

Docteur de l„Université du Paris Descartes, Année 2011.

[19] Menasri.F: « Segmentation d„image Application aux documents anciens », Thèse

Docteur de l„Université Paris Descartes en Informatique, France, Juin 2008.

[20] Muhammad.T, Tarek.H andReda.AAlez : « Multi-Agent based Arabic Speech

Recognition» , International Conferences on Web Intelligence and Intelligent Agent

Technology -Workshops, 2007 IEEE/WIC/ACM.

[21] Nacer-eddine.M : « Conception et Réalisation d‟un système de pilotage d‟un

véhicule par commande vocale », Mémoire pour l'obtention du Master II En

Informatique,Juin 2011.

[22] Oualid.D : « Reconnaissance Automatique De La Parole Arabe Par Cmu Sphinx 4

», Mémoire pour L‟obtention Du Diplôme De Magister en électronique, Université

Ferhat Abbas -Sétif 1-, Année 2013.

Page 73: UNIVERSITÉ HAMA LAKHDAR D’EL

62

[23] René.B, Murat.K « Traitement de la parole.Presses polytechniques romandes »,

Lausanne, Année 1987.

[24] Samir.N : « Segmentation automatique de parole en phones. Correction d'étiquetage

par l'introduction de mesures de confiance », thèse Docteur de l'Université de

Rennes 1en Informatique, Année 2004.

[25] Somaia.T, WafaaEl.K, Hesham.T, Eman.M : « The effect of using integrated signal

processing hearing aids on the speech recognition abilities of hearing impaired

Arabic-speaking children », Egyptian Journal of Ear, Nose, Throat and Allied

Sciences (2014) 15, 215–224.

[26] Satori.H, Harti.M, Chenfour.N: « Système de Reconnaissance Automatique de

l‟arabe basé sur CMUSphinx», Département de Mathématiques et Informatique,

Faculté des Sciences, B.P. 1796, DharMehraz Fès, Morocco.

[27] Sofiane.B: «Développement d‟un système automatique de synthèse de la parole à

partir du texte arabe standard voyelle », », Thèse Docteur de l„Université du Maine

France, Année 2003.