RPM - Reconnaissance de la Parole Multilingue - Un début de Parcours -

25
RPM - Reconnaissance de la Parole Multilingue - Un début de Parcours - Chafic Mokbel et Gérard Chollet Congrès 10ème Anniversaire Programme CEDRE

description

RPM - Reconnaissance de la Parole Multilingue - Un début de Parcours -. Chafic Mokbel et Gérard Chollet Congrès 10ème Anniversaire Programme CEDRE. Un Parcours. Qui Sommes Nous?. ENST Gérard Chollet Dijana Petrovska Maurice Charbit Raphael Blouet Guido Aversano - PowerPoint PPT Presentation

Transcript of RPM - Reconnaissance de la Parole Multilingue - Un début de Parcours -

Page 1: RPM - Reconnaissance de la Parole Multilingue - Un début de  Parcours  -

RPM - Reconnaissance de la Parole Multilingue

- Un début de Parcours -

Chafic Mokbel et Gérard CholletCongrès 10ème Anniversaire

Programme CEDRE

Page 2: RPM - Reconnaissance de la Parole Multilingue - Un début de  Parcours  -

Un Parcours

Page 3: RPM - Reconnaissance de la Parole Multilingue - Un début de  Parcours  -

Qui Sommes Nous? Université de Balamand

Chafic Mokbel Hanna Greige Walid Karam Rania Bayeh + des thésards et stagiaires

ENST Gérard Chollet Dijana Petrovska Maurice Charbit Raphael Blouet Guido Aversano + des thésards et stagiaires

Page 4: RPM - Reconnaissance de la Parole Multilingue - Un début de  Parcours  -

Le Projet

Base de donnéesBilingue

Reconnaissance deLa ParoleBilingue

Français/Arabe

HMMCART Reconnaissance du

LocuteurIndépendant du

Texte

GMM

BECARS

BEAF

Page 5: RPM - Reconnaissance de la Parole Multilingue - Un début de  Parcours  -

Base Scientifique

Modèles stochastiques Les mélanges à composantes Gaussiennes Les chaînes de Markov Cachées Les arbres de classification et de régression

Spécialisation Adaptation ou algorithmes EM récursifs

Page 6: RPM - Reconnaissance de la Parole Multilingue - Un début de  Parcours  -

Base Scientifique Modèles de Markov Cachés (MMC ou “HMM”) A un instant t, le système est dans un état interne

(non observable) s(t) qui n’est observé qu’à travers une mesure x(t)

s(t) x(t)

Page 7: RPM - Reconnaissance de la Parole Multilingue - Un début de  Parcours  -

Base ScientifiqueMMC

1° 2°

3° 4°

Vitesse

Accélération1°

2°3°

Page 8: RPM - Reconnaissance de la Parole Multilingue - Un début de  Parcours  -

Base Scientifique MMC

MMC () caractérisé par Probabilités d’occupation des états à l’instant

initial Probabilités de transition Distributions des observations

conditionnellement à l’état Données incomplètes

∑=Tss

TTT ssxxpxxp,...,

1111

)/,...,,,...,()/,...,( λλ

Page 9: RPM - Reconnaissance de la Parole Multilingue - Un début de  Parcours  -

Base Scientifique MMC

Lors de la manipulation des MMCs, une partie des observations est cachée. Calcul de la vraisemblance (avant-arrière) Calcul du meilleur chemin (Viterbi) Apprentissage (EM)

Modèle stochastique: Besoin d’une base de données représentative Adaptation aux nouvelles conditions (EM récursif)

Page 10: RPM - Reconnaissance de la Parole Multilingue - Un début de  Parcours  -

Base ScientifiqueEM

Paramètres

Chemin ou Alignements

s

Page 11: RPM - Reconnaissance de la Parole Multilingue - Un début de  Parcours  -

Base de données

Avec CEDRE – RPM: Serveur de collecte de données parole Un programme de validation des données Une expérience en étiquettage 2 bases de données (BAD et BEAF) dont l’une

bilingue Plus d’expériences en reco

Page 12: RPM - Reconnaissance de la Parole Multilingue - Un début de  Parcours  -

Reconnaissance Multilingue

SpeechAnalysis and

FeatureExtraction

AcousticModeling

LexicalModeling

LinguisticModeling

P(wi / h)

DecisionModule

Inputspeech

Θ

Recognizedsentence

Page 13: RPM - Reconnaissance de la Parole Multilingue - Un début de  Parcours  -

Reconnaissance Multilingue Peu de données dans BEAF partie arabe pour

effectuer un apprentissage multilocuteur et surtout pour des modèles par mots Modélisation phonétique

Pas d’étiquettage phonétique lors du lancement des premières expériences

Modéliser les mots arabes en utilisant des modèles phonétiques français

Page 14: RPM - Reconnaissance de la Parole Multilingue - Un début de  Parcours  -

Reconnaissance Multilingue Modèles phonétiques français appris par l’Enst sur de large bases de données Inférence de structures phonétiques:

Description manuelle ta3deel tt aa dd ii ll

Inférence automatique: Trouver une ou plusieurs séquences phonétiques de manière que le modèle résultant soit le plus vraisemblable

Page 15: RPM - Reconnaissance de la Parole Multilingue - Un début de  Parcours  -

Vérification du Locuteur

Identité proclamée Système de

Vérification du LocuteurAcceptation

Rejet

Technologie du Traitement Automatique de la Parole Technologie Biométrique de l’Authentification

Automatique

Page 16: RPM - Reconnaissance de la Parole Multilingue - Un début de  Parcours  -

Modélisation

Phase opérationnelle

Phase d’apprentissage

Paramétrisation

Base de donnéesId1 ,..,IdN

Comparaison et décision

Identité proclamée

Modélisation

Architecture des Systèmes

Acceptation

RejetParamétrisation

Page 17: RPM - Reconnaissance de la Parole Multilingue - Un début de  Parcours  -

Modélisation: travail effectué• Mise au point d’un système état-de-l’art• Mise au point d’un système avec adaptation MLLR des paramètres du mélange [Mokbel, 1992]• Participation commune aux évaluations NIST’2003

Organisée par le National Institute of Standard and Technologies (USA) 350 locuteurs – téléphones cellulaires – 20.000 accès Regroupant les meilleurs laboratoires mondiaux: MIT, IBM… Résultats proches des meilleurs systèmes

Page 18: RPM - Reconnaissance de la Parole Multilingue - Un début de  Parcours  -

BECARS

Balamand ENST CEDRE Automatic Recognition of SpeakersLogiciel libre (sous license cecile en France)http://tsi.enst.fr/becarshttp://www.balamand.edu.lb/english/

Research.asp

Page 19: RPM - Reconnaissance de la Parole Multilingue - Un début de  Parcours  -

http://tsi.enst.fr/becars Utilisé par différents

labos dans différents pays

Page 20: RPM - Reconnaissance de la Parole Multilingue - Un début de  Parcours  -

BioSecure

Page 21: RPM - Reconnaissance de la Parole Multilingue - Un début de  Parcours  -

NIST 2006

Page 22: RPM - Reconnaissance de la Parole Multilingue - Un début de  Parcours  -

A la fin de RPM

Bases de données BEAF Système de reconnaissance multilingue BECARS

Page 23: RPM - Reconnaissance de la Parole Multilingue - Un début de  Parcours  -

Suite à RPM

RPM

BEAF

BECARS

Reco Multi

NEMLAR

NIST 2004, 2005, 2006

Autres Domaines

Autres Projets

HCM

ESTER

SecurePhone

BioSecure

Reco AudioVisuelle

Segmentation et codage Video

Imagerie Médicale

Prédiction d’erreur

Détection d’intrus

Transformation audio-visuelle

Reco de l’écriture manuscrite

Virgule fixe /PDA

Page 24: RPM - Reconnaissance de la Parole Multilingue - Un début de  Parcours  -

Segmentation/Codage VideoBecars (G. Yazbek)

Page 25: RPM - Reconnaissance de la Parole Multilingue - Un début de  Parcours  -

Conclusions

CEDRE RPM était l’impulsion: Plusieurs technologies développées Plusieurs thèses en cours (5) Plusieurs projets en cours

Au delà et sur le plan scientifique: Le temps ou la position dans la séquence comme

paramètre (ou dimension de l’espace comme les autres dimensions)

Inférence de la connaissance à partir des données