Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht...

29
Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche en Informatique de Toulouse Soutenance DEA 2IL - 27 juin 2001

Transcript of Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht...

Page 1: Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche.

Indexation Parole / Musique / Bruit

Julien PINQUIER

Responsables de stage : Régine André-Obrecht et Christine Sénac

Equipe ART.ps

Institut de Recherche en Informatique de Toulouse

Soutenance DEA 2IL - 27 juin 2001

Page 2: Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche.

2Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit

Plan

Cadre de l’étude

Etat de l’art

Le système

Réalisations et expériences

Conclusion et perspectives

Page 3: Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche.

3Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit

Plan

Cadre de l’étude

Etat de l’art

Le système

Réalisations et expériences

Conclusion et perspectives

Page 4: Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche.

4Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit

Cadre de l’étude

Importance de l’indexation

Accroissement du volume des données numériquesDescription du contenu (« norme »

ISO_MPEG7)

Analogie avec la recherche textuelle

Méthodes actuelles d’indexation : manuelles

Réduire le temps de recherche

Bande sonore souvent très complexeDiscrimination entre parole et musique

Page 5: Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche.

5Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit

Signaturesmultimédia

Application et

validation

Signatures images

Signatures vidéo

Signatures texte

Signatures son

Moteur d’indexation

et de recherche

Signatures son

Documentsmultimédia

Cadre de l’étude

Le Projet de recherche : AGIR (RNRT)

Le sujet de DEA Caractérisation : Parole / Musique Un système d’indexation basé sur la modélisation différenciée Approche statistique (Modèles de Mélanges de lois Gaussiennes)

Page 6: Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche.

6Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit

Plan

Cadre de l’étude

Etat de l’art

Le système

Réalisations et expériences

Conclusion et perspectives

Page 7: Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche.

7Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit

Etat de l’art

Parole Structure formantique [Calliope89] Formants = Fréquences de résonance du conduit vocal

Formants

Page 8: Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche.

8Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit

Etat de l’art

Musique Structure harmonique

Harmoniques

Page 9: Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche.

9Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit

Etat de l ’art

Paramètres Temporels : ZCR et Energie [Saunders96], [Scheirer97] et [Zhang98] Fréquentiels : issus de la DSP [Saunders96] et [Scheirer97] Mixtes : modulation de l’énergie à 4 Hz [Scheirer97]

représente le rythme syllabique

Issus de modélisation : MFCC [Foote97]

Classification Fonctions à seuils Approche statistique

Méthodes paramétriques : mélanges de gaussiennes, MMC

Méthodes non paramétriques : k plus proches voisins...

Réseaux de neurones

musique

parole

Page 10: Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche.

10Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit

Plan

Cadre de l’étude

Etat de l’art

Le système

Réalisations et expériences

Conclusion et perspectives

Page 11: Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche.

11Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit

Le système

Pré traitement

Signal DécisionClassification

Modélisation Différenciée 1 classe = {Espace de représentation, Modèle}

Décomposition Parole / Musique

Description du système

2 systèmes : parole et musique

Page 12: Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche.

12Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit

Le pré traitement

Parole : analyse cepstrale MFCC (18 coefficients par vecteur d’observation) Soustraction cepstrale

Musique : analyse spectrale SPL (29 coefficients par vecteur d’observation)

Accentuation Fenêtrage FFT Filtrage+Mel Log FFT -1

CoefficientsSignal

Cepstraux

Accentuation Fenêtrage FFT FiltrageCoefficientsSignal

Spectraux

Page 13: Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche.

13Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit

Reconnaissance

Méthode de classification

Approche statistiqueClasse

2 modèles

NonClasse

MMG

Maximum de vraisemblance (vecteur observation - modèles)

Page 14: Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche.

14Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit

La reconnaissance

Classification Fenêtre d’analyse (256 ou 512 points)

Exemple de classification Parole / NonParole

Page 15: Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche.

15Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit

La reconnaissance

Assemblage

Page 16: Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche.

16Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit

La reconnaissance

1er Lissage (20 ms)

Page 17: Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche.

17Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit

La reconnaissance

2ème Lissage (indexation) Parole (environ 400 ms) et musique (environ 2 s)

Page 18: Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche.

18Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit

La reconnaissance

Page 19: Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche.

19Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit

Le système

Pré traitement

Signal DécisionClassification

Modèles

Apprentissage

Page 20: Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche.

20Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit

L’apprentissage des MMG (supervisé)

Etiquetage manuel Transcriber (C. Barras)

http://www.etca.fr/CTA/gip/Projets/Transcriber/

Affectation des paramètres 3 fichiers labels fichiers de paramètres

Page 21: Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche.

21Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit

L’apprentissage des GMM

Initialisation des modèles : algorithme VQ Représenter les éléments d’une classe par son centroïde

Optimisation des paramètres : algorithme EM Estimation : calcul des probabilités Pnk que le vecteur yn soit généré par

la loi gaussienne k.

Maximisation : Ré-estimation des paramètres k, mk et k à partir des probabilités Pnk

K

kknk

tkn

kd

k

knkt

kn

kd

k

nk

mymy

mymy

P

1''

1''2/1

'2/

'

12/12/

)()(21

exp)2(

)()(21

exp)2(

Page 22: Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche.

22Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit

L’apprentissage des GMM

Pré traitementSignal

Coeff. Cepstraux

18

Etiquetage manuel (parole)

Affectation

Paramètres indicés

(Parole)Paramètres

indicés

(NonParole)

VQ EM

VQ EM

Parole

NonParole

Affectation

Paramètres indicés

(Musique)Paramètres

indicés

(NonMusique)

VQ EM

VQ EM

Musique

NonMusique

29

Coeff. spectraux

MODELES

16 lois gaussiennes

32 lois gaussiennes

Etiquetage manuel (musique)

Page 23: Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche.

23Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit

Plan

Cadre de l’étude

Etat de l’art

Le système

Réalisations et expériences

Conclusion et perspectives

Page 24: Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche.

24Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit

Réalisations et expériences

Première expérience Corpus : épisode de la série « Chapeau Melon et Bottes de Cuir »

durée totale : 50mncomposition : parole pure, musique pure et zones « mixtes »parole : téléphonique, enregistrements extérieurs, foule, poursuites de voitures…musique : cordes, vents, basses, guitare électrique, batterie …locuteurs : 4 hommes + 1 femme

Apprentissagedurée : 35mncomposante parole : zone parole pure + non parolecomposante musique : zone musique pure + non musique

Reconnaissance15mn différentes de celles de l’apprentissage

Page 25: Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche.

25Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit

Réalisations et expériences

291 segments < 20 cs < 40 cs < 100 cs Omissions InsertionsParole 14 54NonParole

250 9 612 7

80 segments < 20 cs < 40 cs < 100 cs < 220 cs Omissions InsertionsMusique 0 20NonMusique

73 3 4 00 16

L’accuracy est de 95 % pour la parole et de 93 % pour la musique.

86 %

91 %

RésultatsCalcul des délais (frontières automatiques / manuelles)

Omissions et insertions

Calcul de l’accuracy : (durée corpus test - durée insertions - durée omissions ) / durée corpus test .

Page 26: Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche.

26Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit

Réalisations et expériences

Exemple d’indexation automatique

Problème la parole superposée au bruit et / ou à la musique

Délai 70 cs

Lissage

Omission

Page 27: Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche.

27Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit

Réalisations et expériences

Deuxième expérience Corpus

Journaux télévisés sportifs : 34mn environ

Apprentissage : 14mn

Reconnaissance : 20mn

< 20 cs < 40 cs < 100 cs Omissions InsertionsParole 1 4NonParole

446 13 50 0

Résultats (465 segments)

96 %

L’accuracy est excellente : 99,5 %.

Evolution nécessaire adapter les modèles à n’importe quelle source

apprentissage volumineux et diversifié

Page 28: Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche.

28Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit

Plan

Cadre de l’étude

Etat de l’art

Le système

Réalisations et expériences

Conclusion et perspectives

Page 29: Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche.

29Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit

Conclusion et perspectives

Conclusion Résultats excellents, validation de la modélisation différenciée Intérêt du stage : de la recherche à l’intégration

Perspectives Adaptation des modèles à des corpus différents Indexation multimédia basée sur la fusion audio / vidéo Reconnaissance du locuteur Détection mots clés, jingles