Machines Parlantes

14
République Algérienne Démocratique et Populaire Ministère de l’enseignement supérieur et de la recherche scientifique Université de Guelma Faculté des Sciences et de L’ingénierie Département de : informatique Spécialité : Intelligence Artificielle ===================================================== EXPOSE SUR : les machines Parlantes ===================================================== Réalisé par : sous la direction de : Chiheb Badreddine R. bourbia Gueroui omar 2008/2009

description

exposé sur les machines parlantesréaliser par Chiheb Badreddine

Transcript of Machines Parlantes

Page 1: Machines Parlantes

République Algérienne Démocratique et Populaire Ministère de l’enseignement supérieur et de la recherche scientifique

Université de Guelma Faculté des Sciences et de L’ingénierie

Département de : informatique

Spécialité : Intelligence Artificielle

=====================================================

EXPOSE SUR : les machines Parlantes

=====================================================

Réalisé par : sous la direction de :

Chiheb Badreddine R. bourbia

Gueroui omar

2008/2009

Page 2: Machines Parlantes

2

LES MACHINES PARLANTES

GENERALITE SUR L’IMAGE NUMERIQUE

S O M M A I R E

1. Introduction .................................................................................................................. . .01

2. Historique des machines parlantes .................................................................................. 02

3. Qu’est-ce que la parole ? ................................................................................................. 03

3.1. Le niveau acoustique ....................................................................................... 03

3.2 Le niveau phonétique et phonologique………………………………………...03

3.2.1 Les branches de la phonétique…………………………………………..03

3.2.2 Les branches de la phonologie…………………………………………...04

3.3 Le niveau morphologique……………………………………………………....04

3.4 Le niveau syntaxique ........................................................................................ 04

3.5 Le niveau sémantique………………………………………………………….05

3.6 Le niveau pragmatique ...................................................................................... 05

4. Système de synthèse à partir du texte…………………………………………………..05

5. Applications……………………………………………………………………………..06

6. Organisation générale du module de traitement du langage naturel…………………….08

7. compréhension de parole et dialogue oral homme-machine……………………………..09

8. Conclusion ............................................................................................................................... …11

Page 3: Machines Parlantes

3

LES MACHINES PARLANTES

GENERALITE SUR L’IMAGE NUMERIQUE

1. Introduction :

L’application de techniques d’analyse des langages formels et la confrontation de la

linguistique aux exigences de la modélisation informatique ont conduit en quelques décennies

à l’émergence d’un véritable domaine de recherche : la linguistique informatique. Les progrès

réalisés en électronique (augmentation de la vitesse des possesseurs et des capacités de

mémoire des ordinateurs) associés à la disponibilité des ressources linguistique électronique

ont permis le développement d’applications concrètes, dont la demande s’est progressivement

faite croissante. Ces applications, chacune circonscrite à un domaine particulier mais

nécessitant des traitements automatiques du langage naturel, écrit ou oral, relèvent

aujourd’hui de ce qui on appelle plus généralement l’ingénierie de langue Leur

développement a surtout été redu possible grâce aux efforts et aux progrès réalisés dans la

définition d’outils pour le traitement de la langue (algorithmes d’analyse, de génération,

d’acquisition de connaissances linguistiques), de modèles formels (grammaires, formalismes

lexicalisés) pour représenter ces connaissances, et dans le développement de procédés de

création et de gestion de ces ressources.[1]

Nous nous intéressons dans le cadre de cet exposé à l’un des grands domaines applicatifs

d’ingénierie des langues : Les machines parlantes. Cet exposé fait le point sur les niveaux de

description de parle après l’historique des machines parlantes, puis nous présentons le

système de synthèse à partir du texte (machine capable a lire a partir de texte) et ces

domaines d’applications et on terminera avec le principe de système de dialogue homme

machine.

Page 4: Machines Parlantes

4

LES MACHINES PARLANTES

GENERALITE SUR L’IMAGE NUMERIQUE

2. Historique des machines parlantes :

Mersenne évoque la possibilité de construire un orgue prononçant des sons de la parole.

Le XVIIIème siècle voit apparaître une floraison d’automates. Pierre Jaquet Droz (1721-

1790) et Jacques de Vaucanson (1709-1782) sont sans doute les plus connus des constructeurs

d’automates du siècle des Lumières. En héritiers du mécanisme de Descartes, ils cherchent à

reproduire les principales fonctions de la vie (digestion, circulation, respiration).

Parmi les automates les plus célèbres figurent « Le Joueur de Flûte », automate androïde

d’1m50 qui pouvait jouer une douzaine d’airs, et le « Canard », qui battait des ailes, mangeait

du grain et le rendait digéré (la digestion s’est avérée être une supercherie), présentés à Paris

en 1738. Il est probable que Vaucanson envisageait la construction d’un automate parleur [2].

En 1780, le Danois Kratenstein remporte le prix annuel de l’Académie Impériale de Saint-

Pétersbourg en construisant un orgue composé d’une série de résonateurs capables de

prononcer les cinq voyelles Figure 1.

(Figure 1) : Résonateurs de Kratenstein en 1770. [2]

L’abbé Mical construit en 1778 une « Téte d’airain » capable de prononcer une phrase, et

présenter à l’académie des sciences en 1783 une machine composée de deux téte parlantes,

qui séduit l’écrivain et journaliste Rivarol.

C’est le baron Wolfgang von Kempelen (1734-1804) qui a réalisé à Vienne en 1791 la

machine parlante la plus perfectionnée, après avoir construit un automate plus rudimentaire

dès 1778. Von Kempelen est connu pour son automate joueur d’échec qui fut présenté dans

divers pays et remporta des parties contre les grands de ce monde, mais qui s’avéra être une

supercherie (celle-ci fut dénoncée par Edgard Poe dans ses Histoiresgrotesques et

merveilleuses), un joueur humain de petite taille étant caché dans la machine.

Cette supercherie porta sans doute du tort à la crédibilité de sa machine parlante, qui était

pourtant une invention remarquable pour l’époque. Un soufflet faisait vibrer une anche qui

excitait un résonateur unique dont on faisait varier la forme pour les différentes voyelles avec

une main. Les consonnes, y compris les nasales étaient produites par quatre passages d’air que

l’on contrôlait avec les doigts de l’autre main [2].

Page 5: Machines Parlantes

5

LES MACHINES PARLANTES

GENERALITE SUR L’IMAGE NUMERIQUE

(Figure 2) : la machine parlante de von Kempelen [2].

3. Qu’est-ce que la parole ?

L’information portée par le signal de parole peut être analysée de bien des façons. On en

distingue généralement plusieurs niveaux de description non exclusifs : acoustique,

phonétique, phonologique, morphologique, syntaxique, sémantique, et pragmatique [3].

3.1 Le niveau acoustique :

La parole apparaît physiquement comme une variation de la pression de l’air causée et émise

par le système articulatoire. La phonétique acoustique étudie ce signal en le transformant

dans un premier temps en signal électrique grâce au transducteur approprié : le microphone

(lui-même associé à un préamplificateur).

3.2 Le niveau phonétique et phonologique : [4] La distinction phonétique / phonologie est issue de la tradition structurale fonctionnaliste.

Phonétique Phonologie

Étude des sons de la parole appelés phones Étude des sons à valeur linguistique,

phonèmes en relation avec un signifié. Les

traits phoniques sont appréhendés par rapport à

leur valeur distinctive.

3.2.1 Les branches de la phonétique :

Étape de la communication Branche de la phonétique correspondante

Production Phonétique articulatoire (étude des organes de

la parole et de la production des sons)

Transmission Phonétique acoustique (étude des propriétés

physiques des sons)

Perception Phonétique auditive (étude de l'appareil auditif

et du décodage des sons)

Page 6: Machines Parlantes

6

LES MACHINES PARLANTES

GENERALITE SUR L’IMAGE NUMERIQUE

3.2.2 Les branches de la phonologie : [4]

Phonématique Prosodie

Étude linguistique des unités distinctives de

la langue, les phonèmes que l'on peut :

- commuter sur un axe paradigmatique :

ex. /ru/ (rue) / /nu/ (nu)

(Le phonème a une fonction distintive)

- permuter sur un axe syntagmatique :

ex. /sale/ (salé) / /lase/ (lacé)

(Le phonème a alors une fonction

démarcative)

Étude de la valeur linguistique des sons selon :

-leur durée (cs),

-leur intensité (dB),

- et leur variation mélodique (Hz).

A partir desquels les phénomènes

d'accentuation et d'intonation sont constitués.

(Figure 3) : Exemple de prosodie [5].

3.3 Le niveau morphologique : [3]

La morphologie est la branche de la linguistique qui étudie comment les formes lexicales sont

obtenues à partir d’un ensemble réduit d’unités porteuses de sens, appelées morphèmes. On

distingue les morphèmes lexicaux des morphèmes grammaticaux, qui apportent aux premiers

des nuances de genre, nombre, mode, temps, personne, etc. Tout comme le phonème, le

morphème est une unité abstraite. Elle peut être réalisée en pratique sous diverses formes

appelées allomorphes, fonction de leur contexte morphémique. Ainsi le morphème

grammatical du pluriel se manifestet-il sous la forme d’un ‘s’ dans ‘pommes’, d’un ‘x’ dans

‘jeux’ et d’un ‘nt’ dans ‘jouent’.

L’importance de la morphologie en traitement de la parole tient à ce que la catégorie

grammaticale et la prononciation des mots peuvent être expliquées dans une large mesure par

leur composition morphémique.

3.4 Le niveau syntaxique :

Toute suite de mots du lexique ne forme pas une phrase correcte. En effet, la liste des phrases

admises, bien qu’infinie dans les langues naturelles, est restreinte par leur syntaxe. Ceci

constitue d’ailleurs la définition du mot syntaxe¸ qu’il ne faut pas confondre avec les règles

utilisées pour la décrire, organisées sous la forme de grammaires. Les mots du lexique y

Page 7: Machines Parlantes

7

LES MACHINES PARLANTES

GENERALITE SUR L’IMAGE NUMERIQUE

perdent leur individualité pour n'être plus vus qu'en tant que parties du discours (ou natures),

listes de mots interchangeables pour une grammaire donnée). Par exemple, la grammaire

(arbitrairement simplifiée) :

phrase = groupe nominal + verbe conjugué

groupe nominal = déterminant + nom [+ préposition + groupe nominal]

où les crochets indiquent des composantes optionnelles, interdit les phrases

déterminant+verbe conjugué comme dans 'mon donne' ou 'les joue'.

3.5 Le niveau sémantique :

Si la syntaxe restreint l'ensemble de phrases acceptables pour une langue donnée, elle ne

constitue cependant pas une limite exhaustive d'acceptabilité. En effet, bon nombre de phrases

syntaxiquement correctes restent inadmissibles (ex : 'la politesse jaune pleure du pain').

Cette imprécision tient à la confusion qui est faite, par les grammaires, des mots appartenants

a une même liste d'éléments du discours.

L’étude des significations des mots, de la façon dont elles sont liées les unes aux autres, et des

bases du choix lexical fait l’objet de la sémantique lexicale.

Parmi les principales questions qu’il lui appartient d’examiner, les problèmes d’ambiguïté de

portée prennent un part importante. Une phrase aussi simple que :

'Jean-François n’est pas parti à New York en avion'.

peut en effet être comprise comme :

Quelqu’un d’autre est parti à New York en avion

Jean-François est parti de New York en avion

Jean-François est parti ailleurs.

Jean-François est parti à New York par un autre moyen de transport selon l’étendue du champ d’application de la négation, et ceci bien que toutes ces acceptions

admettent la même description syntaxique.

3.6 Le niveau pragmatique (ou niveau du discours) :

Au contraire du sens sémantique, que l’on qualifie souvent d’indépendant du contexte, le sens

pragmatique est défini comme dépendant du contexte. Tout ce qui se réfère au contexte,

souvent implicite, dans lequel une phrase s’inscrit et à la relation entre le locuteur et de son

auditoire,Son étendue couvre l’étude de sujets tels que les présuppositions, les implications de

dialogue, les actes de parole indirects, etc.

Elle est malheureusement bien moins développée encore que la sémantique.

4. Système de synthèse à partir du texte : [3]

Un système de synthèse à partir du texte (TTS : Text-To-Speech) est une machine capable de

lire a priori n'importe quel texte à voix haute, que ce texte ait été directement introduit par un

opérateur sur un clavier alpha-numérique, qu'il ait été scanné et reconnu par un système de

reconnaissance optique des caractères (OCR : Optical Character Recognition), ou qu'il ait été

produit automatiquement par un système de dialogue homme-machine. Un tel système diffère

fondamentalement d'autres machines parlantes en ceci qu'il est destiné à donner lecture de

phrases qui n'ont en principe jamais été lues auparavant. Il est en effet possible de produire

automatiquement de la parole en concaténant simplement des mots ou des parties de phrases

Page 8: Machines Parlantes

8

LES MACHINES PARLANTES

GENERALITE SUR L’IMAGE NUMERIQUE

préalablement enregistrées, mais il est clair dans ce cas que le vocabulaire utilisé doit rester

très limité et que les phrases à produire doivent respecter une structure fixe, afin de maintenir

dans des limites raisonnables la quantité de mémoire nécessaire à stocker les éléments vocaux

de base. C'est le cas par exemple des annonceurs vocaux automatiques dans les gares. On

définira donc plutôt la synthèse TTS comme la production automatique de phrases par calcul

de leur transcription phonétique.

Texte chaine

Phonétique

Connaissances dictionnaire de sons règles de fusion

Morpho-syntaxiques, modèles prosodiques

Phonologiques

(Figure 4) : Le principe d'un système de synthèse à partir de texte ou

(Text- To-Speech) : [6]

5. Applications : [3]

Les applications des systèmes de synthèse à partir du texte ne manquent pas. En voici

quelques exemples :

Services de télécommunications :

La libéralisation du marché des télécommunications en Europe a récemment rendu les

opérateurs de télécommunications plus sensibles au confort de leurs clients. En particulier, on

cherche désormais à fournir un maximum de services, à moindre coût. Les synthétiseurs

permettent précisément de rendre tout type d'information écrite disponible via le téléphone.

On peut ainsi créer des serveurs vocaux diffusant les horaires des cinémas, des informations

routières, l'état d'un compte en banque, ou encore des explications automatisées concernant la

dernière facture de téléphone. Les requêtes se font soit par la voix (en combinant le

synthétiseur avec un reconnaisseur), soit par le clavier du téléphone. AT&T a récemment testé

certains services de ce type auprès de ses clients, et constaté un réel engouement, à condition

que l'intelligibilité des voix de synthèse soit suffisante; il s'est avéré que le naturel n'est pas un

facteur déterminant pour la plupart de ces services.

Transcription

Graphème/phonème

Génération acoustique

Prosodique

Page 9: Machines Parlantes

9

LES MACHINES PARLANTES

GENERALITE SUR L’IMAGE NUMERIQUE

Apprentissage (ou perfectionnement) de langues étrangères :

Une synthèse de très bonne qualité couplée à un logiciel d'apprentissage constitue un outil très

utile à l'apprentissage d'une nouvelle langue, en complément d'un cours avec un professeur. Si

ce type de produit n'a pas encore percé sur le marché, c'est à cause de la mauvaise qualité des

voix disponibles jusqu'à il y a peu. On voit par contre se multiplier les petits dictionnaires

électroniques de poche, qui devraient rapidement être dotés de voix de synthèse. Il en va de

même des traducteurs électroniques mot-à-mot qui sont apparus récemment. On pourra par

exemple bientôt lire un ouvrage dans une langue étrangère et utiliser un stylo à lecture optique

(intégrant un mini-scanner) pour obtenir instantanément la traduction d'un mot inconnu et sa

prononciation.

Aide aux personnes handicapées :

Les handicaps liés à la parole sont soit d'origine mentale, soit d'origine motrice ou sensorielle.

La machine peut être d'un grand secours dans le second cas. Avec l'aide d'un clavier

spécialement adapté et/ou d'un logiciel d'assemblage rapide de phrases, un handicapé peut

s'exprimer par la voix de son synthétiseur. Le célèbre astrophysicien Stephen Hawking donne

tous ses cours à l'université de Cambridge de cette façon. La synthèse offre également des

services aux personnes mal-voyantes, en leur donnant accès à l'information écrite "en noir"16,

à condition de coupler le synthétiseur à un logiciel de reconnaissance des caractères.

Livre et jouets parlants :

Le marché du jouet a déjà été touché par la synthèse vocale. De nombreux ordinateurs pour

enfants possèdent une sortie vocale qui en augmente l'attrait, particulièrement chez les jeunes

enfants (pour qui la voix est le seul moyen de communication avec la machine).

Communication homme-machine, multimédia :

A plus long terme, le développement de synthétiseurs de haute qualité (ainsi que la mise au

point de reconnaisseurs fiables et robustes) permettra à l'homme de communiquer avec la

machine de manière plus naturelle. L'explosion récente du marché du multimédia prouve bien

l'intérêt du grand public en la matière.

Recherche fondamentale et appliquée :

Enfin, les synthétiseurs possèdent aux yeux des phonéticiens une qualité qui nous fait défaut :

ils peuvent répéter deux fois exactement la même chose. Ils sont par conséquent utiles pour la

validation de théories relatives à la production, à la perception, ou à la compréhension de la

parole.

Page 10: Machines Parlantes

10

LES MACHINES PARLANTES

GENERALITE SUR L’IMAGE NUMERIQUE

6. Organisation générale du module de traitement du langage

naturel : [3]

L'organisation générale des opérations de traitement du langage réalisées par le synthétiseur

est donnée à la Figure 5.

(Figure 5) : Le module de traitement du langage naturel d'un système

De conversion texte parole. [3]

Le module d'analyse morpho-syntaxique de la Figure 5 est lui-même composé de :

Un module de prétraitement, qui joue principalement le rôle d’interface entre le texte

(représentation linéaire) et la structure de donnés internes gérée par le synthétiseur. Ce

module identifie toutes les séquences de caractères qui risquent de poser un problème

de prononciation : nombres, abréviations, acronymes, expressions toutes faites, etc. et

les transcrit éventuellement en toutes lettres.

Un analyseur morphologique, qui a pour tâche de proposer toutes les natures

possibles pour chaque mot pris individuellement, en fonction de sa graphie.

Page 11: Machines Parlantes

11

LES MACHINES PARLANTES

GENERALITE SUR L’IMAGE NUMERIQUE

Un analyseur contextuel, qui considère les mots dans leur contexte, ce qui lui permet

de réduire la liste des natures possibles pour chaque mot en fonction des natures

possibles des mots voisins.

Enfin, un analyseur syntaxique-prosodique, qui examine l’espace de recherche restant

et établit un découpage du texte en groupes de mots qui permettra d’y associer une

prosodie.

7. compréhension de parole et dialogue oral homme-machine :

Après avoir analysé rapidement les principales difficultés de nature linguistique aux quelles

doivent faire face les systèmes de traitement automatique de la parole, nous présentons dans

ce paragraphe l’architecture générale, souvent modulaire, des systèmes conversationnels.

L’architecture globale des systèmes de dialogue home-machine dans le domaine de recherche

d’information est résumée Figure 6.

Ces systèmes comprennent ainsi : [1]

-un module de reconnaissance de parole dot le but est de transcrire le signal vocal donné en

entrée en un message orthographe. Il est composé de deux composants principaux, le modèle

acoustique et le modèle de langage.

-un module de compréhension de la parole dont le but est d’extraire les informations

pragmatiques (domaine d’application) rendant compte des actes de langage exprimés par

l’utilisateur .On peut distinguer deux grandes dans étapes dans les processus visant à

comprendre un énoncé : la compréhension hors contexte et la compréhension contextuelle.

Ce module doit composer avec les phénomènes spécifiques de l’oral déjà évoqués mais aussi

avec les erreurs de reconnaissance éventuelles.

-un module de gestion de dialogue qui supporte le contexte dialogique et l’historique de

l’interaction. Il initie les actions à effectuer suite aux requêtes des utilisateurs, que le sens de

ces requêtes ait été correctement identifié ou non. Le gestionnaire du dialogue est non

seulement un lien entre la base de données et l’utilisateur mais aussi le coordinateur de ce qui

se passe, le reflet des capacités du système pour l’utilisateur. Il doit gérer l’échange « su

l’instant et dans la duré » [7].

-un module de génération de la réponse qui convertit l’information à de livrer à l’utilisateur

sous forme sonore (synthèse vocale), textuelle ou graphique. Le lecteur pourra toute fois

utilement se reporter à pour un point complet sur les avancées réalésées dans ce domaine en

liaison avec le traitement automatique des langues.

Page 12: Machines Parlantes

12

LES MACHINES PARLANTES

GENERALITE SUR L’IMAGE NUMERIQUE

Parole n meilleurs énoncés structeure sémantique

SQL

parole réponse

(Figure 6) : Architecture générale d’un système de dialogue oral homme-machine [1]

Reconnaissance Compréhension

Synthèse

Dialogueur

BDD

Page 13: Machines Parlantes

13

LES MACHINES PARLANTES

GENERALITE SUR L’IMAGE NUMERIQUE

8. Conclusion :

L’homme créa des machine « intelligente » qui peuvent remplacer leur intelligence et

résoudre les différentes problèmes de leur vie quotidienne parmi ces machines on trouve Les

machines parlantes qui sont des machines qui peuvent parler et aussi dialogue avec les

hommes, leur importance est très grand dans notre vie actuelle et en future dans plusieurs

domaines comme nous avant vu précédemment comme le domaine de télécommunication et

l’apprentissage des langues étrangères…etc.

Page 14: Machines Parlantes

14

LES MACHINES PARLANTES

GENERALITE SUR L’IMAGE NUMERIQUE

Les références :

[1]: Jérome Goulain,Stratégie d'analyse détaillée pour la compréhension automatique robuste

de la parole, these doctorat, Unversité de Bretagne sud, 2002.

[2] : jean véronis : informatique et linguistique 1, université de provenence (centre

informatique pour les lettres et sciences humaines), (1999-2001).

[3] : Thierry Dutoit : Introduction au Traitement Automatique de la Parole, Faculté

Polytechnique de Mons, 2000.

[4] : www.linguistes.com\phonetique\phon.html.

[5] : www.irit.fr\diamant\Demos\prosodie.html.

[6] : www.irit.fr\diamant\Demos\tts_accueil.html.

[7]: Rosset.S : Stratégies et gestionaire de dialogue pour les systèmes d'iterrogation de base de

données é reconaissance vocale, nancy France, 2000.