Master « ATSI » Estimation de fréquences fondamentales ...

60
Master « ATSI » Estimation de fréquences fondamentales multiples Gaël RICHARD TELECOM ParisTech Département Image, Données, Signal (IDS) Mars 2017 Merci à Roland Badeau pour un certain nombre de transparents « Licence de droits d'usage" http://formation.enst.fr/licences/pedago_sans.html

Transcript of Master « ATSI » Estimation de fréquences fondamentales ...

Page 1: Master « ATSI » Estimation de fréquences fondamentales ...

Master « ATSI »

Estimation de fréquences fondamentales

multiples

Gaël RICHARD TELECOM ParisTech Département Image, Données, Signal (IDS)

Mars 2017

Merci à Roland Badeau pour un certain nombre de transparents

« Licence de droits d'usage"

http://formation.enst.fr/licences/pedago_sans.html

Page 2: Master « ATSI » Estimation de fréquences fondamentales ...

2 Gaël RICHARD

Détection de fréquence(s) fondamentale(s)

Page 3: Master « ATSI » Estimation de fréquences fondamentales ...

3 Gaël RICHARD

Contenu

Introduction

• Sons quasi-périodiques

• Modèle de son quasi-périodique

Méthodes temporelles

Méthodes spectrales

Extension à la détection de fréquences fondamentales

multiples

Page 4: Master « ATSI » Estimation de fréquences fondamentales ...

4 Gaël RICHARD

Un son quasi-périodique

T0

F0=1/T0

Page 5: Master « ATSI » Estimation de fréquences fondamentales ...

5 Gaël RICHARD

Modèle de signal

• est la fréquence fondamentale réduite

• H est le nombre d’harmoniques du signal

• Les amplitudes {Ak} sont des réels > 0

• Les phases {k} sont des v.a. indépendantes de loi uniforme sur [0, 2 [

• w est un bruit blanc centré de variance 2, indépendant des phases {

k}

• x(n) est un processeur SSL centré d’autocovariance

Page 6: Master « ATSI » Estimation de fréquences fondamentales ...

6 Gaël RICHARD

Méthodes temporelles

Autocovariance biaisée

Page 7: Master « ATSI » Estimation de fréquences fondamentales ...

7 Gaël RICHARD

Méthodes temporelles

Autocovariance non biaisée

Page 8: Master « ATSI » Estimation de fréquences fondamentales ...

8 Gaël RICHARD

Méthodes temporelles

Autocorrélation

Page 9: Master « ATSI » Estimation de fréquences fondamentales ...

9 Gaël RICHARD

Average square difference function

(ASDF)

Page 10: Master « ATSI » Estimation de fréquences fondamentales ...

10 Gaël RICHARD

Average square difference function

(ASDF)

• La période T0 peut être estimée en recherchant le minimum de l’écart

quadratique entre les signaux x[n] et x[n+m] :

Page 11: Master « ATSI » Estimation de fréquences fondamentales ...

11 Gaël RICHARD

Average magnitude difference function

(AMDF)

Page 12: Master « ATSI » Estimation de fréquences fondamentales ...

12 Gaël RICHARD

Un algorithme temporel performant: Yin (merci à V. Emiya pour quelques transparents)

H. Kawahara A. de Cheveigné, YIN, a fundamental frequency estimator for

speech and music,, JASA, 111(4), 2002

Point de départ: Méthode de l’Autocorrélation (ACF)

Améliorations successives:

• Utilisation de l’ASDF

• Normalisation

• Seuillage

• Interpolation

• Minimisation locale en temps

Page 13: Master « ATSI » Estimation de fréquences fondamentales ...

13 Gaël RICHARD

YIN (2)

ASDF utilisée:

Liens avec l’Autocorrélation

Gain net car l’ASDF est beaucoup moins sensible aux

variations des amplitudes relatives que l’ACF (qui est

sensible, par exemple, à l’accentuation des partiels d’ordre

pair)

Page 14: Master « ATSI » Estimation de fréquences fondamentales ...

14 Gaël RICHARD

YIN (3)

Normalisation par la « moyenne cumulée »

Gain net car permet d’éviter les erreurs pour les F0 élevées

(suppression du lobe en 0)

0 0.005 0.01 0.015 0.02 0.025 0.030

200

400

(s)

dt()

norm. curve

0 0.005 0.01 0.015 0.02 0.025 0.030

1

2

3d'

t()

Page 15: Master « ATSI » Estimation de fréquences fondamentales ...

15 Gaël RICHARD

YIN (4)

Seuillage absolu

• La plus petite période inférieure au seuil est choisie

• Si aucune période n’est inférieure au seuil, alors le minimum global est

choisi

0 0.005 0.01 0.015 0.02 0.025 0.030

0.5

1

1.5

2

(s)

d't()

seuil

premier min

Page 16: Master « ATSI » Estimation de fréquences fondamentales ...

16 Gaël RICHARD

YIN (4)

Interpolation parabolique autour du minimum

6.4 6.45 6.5 6.55

x 10-3

0

2

4

6

8

10

(s)

dt()

Pts à interpoler

interpolation

minimum

Réalisée sur dn(m) (i.e

avant normalisation)

Gain en précision sur la

valeur de F0

Page 17: Master « ATSI » Estimation de fréquences fondamentales ...

17 Gaël RICHARD

YIN (5)

Minimisation locale en temps

• Période estimée:

• Minimisation autour du temps T: avec

Gain en cas de fluctuations sur certains signaux; correspond

à un effet de lissage (rappel l’effet du filtre médian ou

programmation dynamique).

Page 18: Master « ATSI » Estimation de fréquences fondamentales ...

18 Gaël RICHARD

YIN: Evaluation

• Sur quatre bases de données de parole, annotées automatiquement

(par YIN, à partir du laryngographe) puis vérifiées et triées à la main

Page 19: Master « ATSI » Estimation de fréquences fondamentales ...

19 Gaël RICHARD

Approche par le maximum de

vraisemblance

• Modèle de signal:

- a est un signal déterministe de période T0

- w est un bruit blanc gaussien de variance 2

• Vraisemblance des observations

• Log-vraisemblance

• Méthode: maximiser successivement L par rapport à a, puis 2 et enfin T0

Page 20: Master « ATSI » Estimation de fréquences fondamentales ...

20 Gaël RICHARD

Approche par le maximum de

vraisemblance

• On peut montrer que la maximisation de L par rapport à revient

à maximiser la somme spectrale

Page 21: Master « ATSI » Estimation de fréquences fondamentales ...

21 Gaël RICHARD

Produit spectral

• Par similitude avec la somme spectrale on peut définir le produit

spectral (souvent plus robuste)

Page 22: Master « ATSI » Estimation de fréquences fondamentales ...

22 Gaël RICHARD

TD-PSOLA: « Time-Domain Pitch

Synchronous Overlap and Add »

2.22 2.24 2.26 2.28 2.3 2.32 2.34 2.36

x 104

-0.1

-0.05

0

0.05

0.1

0.15

Marques de Picth

TD-PSOLA: Time Domain Pitch Synchronous OverLap and Add

Page 23: Master « ATSI » Estimation de fréquences fondamentales ...

23 Gaël RICHARD

Signaux à court-terme

2.22 2.24 2.26 2.28 2.3 2.32 2.34 2.36

x 104

-0.1

-0.05

0

0.05

0.1

0.15

Marques de Picth

0 50 100 150 200 250 300 350-0.1

-0.05

0

0.05

0.1

0.15

0 50 100 150 200 250 300 350-0.1

-0.05

0

0.05

0.1

0.15

0 50 100 150 200 250 300 350-0.1

-0.05

0

0.05

0.1

0.15

Page 24: Master « ATSI » Estimation de fréquences fondamentales ...

24 Gaël RICHARD

Modification de durée

0 50 100 150 200 250 300 350-0.1

-0.05

0

0.05

0.1

0.15

0 50 100 150 200 250 300 350-0.1

-0.05

0

0.05

0.1

0.15

0 50 100 150 200 250 300 350-0.1

-0.05

0

0.05

0.1

0.15

0 50 100 150 200 250 300 350-0.1

-0.05

0

0.05

0.1

0.15

0 50 100 150 200 250 300 350-0.1

-0.05

0

0.05

0.1

0.15

0 50 100 150 200 250 300 350-0.1

-0.05

0

0.05

0.1

0.15

0 50 100 150 200 250 300 350-0.1

-0.05

0

0.05

0.1

0.15

0 50 100 150 200 250 300 350-0.1

-0.05

0

0.05

0.1

0.15

Page 25: Master « ATSI » Estimation de fréquences fondamentales ...

25 Gaël RICHARD

Modification de fréquence fondamentale

0 50 100 150 200 250 300 350-0.1

-0.05

0

0.05

0.1

0.15

0 50 100 150 200 250 300 350-0.1

-0.05

0

0.05

0.1

0.15

0 50 100 150 200 250 300 350-0.1

-0.05

0

0.05

0.1

0.15

0 50 100 150 200 250 300 350-0.1

-0.05

0

0.05

0.1

0.15

0 50 100 150 200 250 300 350-0.1

-0.05

0

0.05

0.1

0.15

0 50 100 150 200 250 300 350-0.1

-0.05

0

0.05

0.1

0.15

Page 26: Master « ATSI » Estimation de fréquences fondamentales ...

26 Gaël RICHARD

Synthèse

Extraction des formes d’onde synchrone de la fréquence

fondamentale

Synthèse par addition / recouvrement de formes d’onde

• Insertion / Suppression de signaux à court-terme pour modifier la durée

• Modification de l’espacement des signaux à court-terme pour modifier la

fréquence fondamentale

• Démonstration

Original Transposé Transposé ralenti accéléré

(haut) (bas)

Page 27: Master « ATSI » Estimation de fréquences fondamentales ...

27 Gaël RICHARD

Détection de fréquences fondamentales

multiples

Page 28: Master « ATSI » Estimation de fréquences fondamentales ...

28 Gaël RICHARD

Détection de fréquences fondamentales

multiples

Objectif: extraire l’ensemble des notes d’un enregistrement

polyphonique

Problème important lorsque les notes sont en rapport

harmonique (ce qui est souvent le cas en musique…!!)

Nécessité de traiter le caractère non parfaitement harmonique

des notes jouées par un instrument.

Page 29: Master « ATSI » Estimation de fréquences fondamentales ...

29 Gaël RICHARD

Détection de fréquences fondamentales

multiples

Approche par estimation/soustraction conjointe

• DMDF (Double Magnitude Difference Function)

Son de piano addition de deux notes:

T1=0.0076s

T2=0.0057s

Page 30: Master « ATSI » Estimation de fréquences fondamentales ...

30 Gaël RICHARD

Détection de fréquences fondamentales

multiples

Approche par corrélation bi-dimensionnelle

Mesure la « ressemblance » entre

•d(n) et •d(n+k1) + d(n+k2)-d(n+k1+k2)

Page 31: Master « ATSI » Estimation de fréquences fondamentales ...

31 Gaël RICHARD

Une approche par banc de filtres

R. Meddis and M. Hewitt, “Virtual pitch and phase sensitivity of a computer model of the auditory periphery—I: Pitch identification,” J. Acoust. Soc. Am., vol. 89, pp. 2866–2882, June 1991.

Page 32: Master « ATSI » Estimation de fréquences fondamentales ...

32 Gaël RICHARD

Une approche plus simple inspirée de la

précédente

T. Tolonen and M. Karjalainen, “A computationally efficient multipitch

analysis model,” IEEE Trans. On Speech and Audio Processing, vol. 8, no. 6,

pp. 708–716, 2000.

Page 33: Master « ATSI » Estimation de fréquences fondamentales ...

33 Gaël RICHARD

Enhanced Summary ACF

Plusieurs étapes:

• Redressement demi-onde

- On ne conserve que les valeurs positives

• Ralentie 2 (ou plus) fois puis déduite du SACF redressé

- Permet de supprimer les pics doubles

Page 34: Master « ATSI » Estimation de fréquences fondamentales ...

34 Gaël RICHARD

Détection de fréquences fondamentales

multiples

Approche par soustraction itérative (Klapuri, 2003)

Principe de lissage spectral

ah=min(ah, mh)

où mh est la moyenne sur une fenêtre d ’un octave autour du partiel

Page 35: Master « ATSI » Estimation de fréquences fondamentales ...

35 Gaël RICHARD

Détection de fréquences fondamentales

multiples

Résultats: Comparaison aux performances humaines

Registre bas (l): 33 à 130 Hz

Registre médium (m): 130 à 520 Hz

Registre haut: 520 à 2100 Hz

200 stimuli sonores (20 catégories)

Sons polyphoniques générés par

ordinateur à partir d ’échantillons de

Piano Steinway provenant du Master

samples collection, Mc Gill University

Personnes ayant participé aux tests:

Tous sont musiciens

dont 2 ont l ’oreille absolue

(musiciens quasi-

professionnels

Page 36: Master « ATSI » Estimation de fréquences fondamentales ...

36 Gaël RICHARD

Une amélioration utilisant un modèle

perceptuel

Anssi P. Klapuri “Multipitch Analysis of Polyphonic Music and Speech

Signals Using an Auditory Model”, IEEE Trans. On ASLP, Feb. 2008

Page 37: Master « ATSI » Estimation de fréquences fondamentales ...

37 Gaël RICHARD

Banc de filtres perceptuels

Une approximation d’un banc de filtres Gammatone

Page 38: Master « ATSI » Estimation de fréquences fondamentales ...

38 Gaël RICHARD

Effet de la compression et redressement

Résultat sur une bande centrée at 2.7 kHz

Page 39: Master « ATSI » Estimation de fréquences fondamentales ...

39 Gaël RICHARD

Détection de fréquences fondamentales

multiples

Autres approches

• Approches bayesiennes

• Méthodes haute-résolution

• Factorisation en Matrices non-négatives (NMF) ou Analyse en

composantes latentes (PLCA – équivalent probabiliste de la NMF)

Page 40: Master « ATSI » Estimation de fréquences fondamentales ...

40 Gaël RICHARD

A popular model in audio: NMF

NMF = Non-negative Matrix Factorization

Original spectrogram

“Activations’”

“Templates or

Atoms’”

40

Page 41: Master « ATSI » Estimation de fréquences fondamentales ...

41 Gaël RICHARD

Euclidean

Kullback-Leibler

divergence

Itakura-Saito

divergence

A popular model in audio: NMF

How the template matrix W and activation matrix H are obtained [Lee&al. 1999]?

Minimization of

Typical distances and divergences used:

b-divergence

41

Page 42: Master « ATSI » Estimation de fréquences fondamentales ...

42 Gaël RICHARD

A popular model in audio: NMF

How the template matrix W and activation matrix H are obtained [Lee&al. 1999]?

In general, the cost function is not convex in

(W,H)…. However, it is separately convex in W

and H (for Euclidean and Kullback-Leibler

divergence)

The solution is iteratively obtained by means

of multiplicative update rules:

For example with the Euclidean distance:

42

Page 43: Master « ATSI » Estimation de fréquences fondamentales ...

One way to obtain these update rules

• First, express the gradient of the cost function as

where and are positive terms

• Then the following update rules

guarantees the decrease of the

cost function (under some restrictions

and for some “distances” such as

Euclidean and Kullback-Leibler)

43

Page 44: Master « ATSI » Estimation de fréquences fondamentales ...

44 Gaël RICHARD

A popular model in audio: NMF

How the template matrix W and activation matrix H are obtained [Lee&al. 1999]?

Properties of such multiplicative update rules:

Associated cost function monotonously

decreases along iterations

Non-negativity of the different coefficients is

guaranteed

44

Page 45: Master « ATSI » Estimation de fréquences fondamentales ...

45 Gaël RICHARD

A popular model in audio: NMF

NMF does not necessarily provides a semantically

meaningful decomposition in absence of “constraints”

Templates correspond to

musical notes

•Templates are built from half of each note

and are less semantically meaningful

• Activations are less sparse

• Templates grouping for source recovery

45

Page 46: Master « ATSI » Estimation de fréquences fondamentales ...

46 Gaël RICHARD

A popular model in audio: NMF

What types of constraints can be used ?

Harmonicity of the templates [Raczinsky&al.2007]

To have a decomposition in “harmonic notes”

Spectral smoothness of the templates

[Bertin&al.2010]

To obtain realistic timbral notes

Temporal continuity of activation [Virtanen2007]

To take into account that note activations are not

erratic

Sparsity of the activations

[Hoyer04][Smaragdis08]

To take into account that not too many notes are

played in a given time

46

Page 47: Master « ATSI » Estimation de fréquences fondamentales ...

An example of model-based constraints for

main melody separation using NMF

The model: Audio = Voice + Music

• The voice Voice follows a source filter

production model : Voice = Source * Filter

• Each component (Voice and Music) is

represented by separate NMF

Spectrogram of

the singing voice Spectrogram of

the background

music

Spectrogram of

the input audio

signal

47

Page 48: Master « ATSI » Estimation de fréquences fondamentales ...

An example of model-based constraints for

main melody separation using NMF

Illustration of the source/filter model with NMF

48

J-L Durrieu & al. G, Source/Filter Model for Unsupervised Main Melody Extraction From Polyphonic

Audio Signals, IEEE Trans. On ASLP, March 2010.

J-L Durrieu, & al. A musically motivated mid-level representation for pitch estimation and musical audio

source separation, IEEE Journal on Selected Topics in Signal Processing, October 2011

48

Original Backgrounds Leading voice

Singing voice

Trumpet

Page 49: Master « ATSI » Estimation de fréquences fondamentales ...

49 Gaël RICHARD

Original Backgrounds Leading

voice

Singing voice

Trumpet

From “Blind” source separation to Informed

Source Separation

How to recover the audio objects ?

• Using blind source separation

- Separation is only done using the audio mixture.

- But…quality is often not sufficient for active listening applications.

- Exemple of Blind leading voice extraction [Durrieu&al.2011]…

J-L Durrieu, & al. A musically motivated mid-level representation for pitch estimation and musical audio

source separation, IEEE Journal on Selected Topics in Signal Processing, October 2011.

49

Page 50: Master « ATSI » Estimation de fréquences fondamentales ...

50 Gaël RICHARD

Factorisation en Matrices Non-négatives

Utilisation en estimation multi-pitch:

• Nécessité d’introduire des a priori (approche probabiliste) ou des

contraintes (approche déterministe)

• Exemple de contraintes (d’après Vincent & al, 2010):

- NMF classique:

- NMF avec templates dépendants du pitch:

- …et avec contraintes sur les templates

- Exemples d’enveloppes locales

Page 51: Master « ATSI » Estimation de fréquences fondamentales ...

51 Gaël RICHARD

Utilisation d‘une représentation à Q

constant

D’après M. Mueller & al. « Signal Processing for Music Analysis, IEEE Trans. On Selected topics of

Signal Processing, oct. 2011

Page 52: Master « ATSI » Estimation de fréquences fondamentales ...

52 Gaël RICHARD

Utilisation d‘une représentation à Q

constant

En pratique:

• Solution peu satisfaisante

Solution souvent retenue: Utiliser des tailles de fenêtres

différentes pour chaque nouveau bin fréquentiel k’

Bin kN’

Bin k2’

Bin k1’

J. Brown and M. Puckette, An efficient algorithm for the calculation of a constant Q transform, JASA, 92(5):2698–2701, 1992.

J. Prado, Une inversion simple de la transformée à Q constant, technical report, 2011,

http://www.tsi.telecom-paristech.fr/aao/en/2011/06/06/inversible-cqt/

Page 53: Master « ATSI » Estimation de fréquences fondamentales ...

53 Gaël RICHARD

Utilisation en estimation multipitch

Sur une transformée à Q

constant:

• Une différence de pitch correspond

à une translation sur l’axe des

fréquences

• Vers des modèles “Shift invariant

PLCA (v. smaragdis2008 et

Fuentes & al. 2011)

Page 54: Master « ATSI » Estimation de fréquences fondamentales ...

Un exemple de modèle PLCA pour

l’estimation multi-pitch

Le Modèle HALCA (Fuentes & al.)

B. Fuentes, R. Badeau, and G. Richard, “Harmonic Adaptive Latent Component Analysis of Audio and Application to Music Transcription” IEEE Trans. On ASLP, 2013.

Page 55: Master « ATSI » Estimation de fréquences fondamentales ...

Un exemple de modèle PLCA pour

l’estimation multi-pitch

Le Modèle HALCA (Fuentes & al.)

Page 56: Master « ATSI » Estimation de fréquences fondamentales ...

Le modèle HALCA

• Modèle complet

• Processus génératif des coefficients de la CQT observée

Page 57: Master « ATSI » Estimation de fréquences fondamentales ...

Quelques résultats de simulations avec le

modèle HALCA

Utilisation de différents apriori pour les noyaux

harmoniques et les activations temporelles

Without sparsity prior With sparsity prior

Page 58: Master « ATSI » Estimation de fréquences fondamentales ...

Quelques résultats de simulations avec le

modèle HALCA

Page 59: Master « ATSI » Estimation de fréquences fondamentales ...

Quelques résultats de simulations avec le

modèle HALCA

Résultats de transcription (multiF0)

Base de données: MIREX07 + 6 fichiers Quaero

Page 60: Master « ATSI » Estimation de fréquences fondamentales ...

60 Gaël RICHARD

Quelques références en estimation de

Fréquence(s) fondamentale(s)

Estimation de la fréquence fondamentale

• M. Schroeder, “Period Histogram and Product Spectrum: New Methods for Fundamental-Frequency Measurement” The Journal

of the Acoustical Society of America -- April 1968 -- Volume 43, Issue 4, pp. 829-834

• Alain de Cheveigné, YIN, a fundamental frequency estimator for speech and music, Hideki Kawahara, JASA, 111(4), 2002

• Geoffroy Peeters, Music pitch representation by periodicity measures based on combined temporal and spectral representations, ICASSP 2006

Estimation de fréquences fondamentales multiples

• B. Fuentes, R. Badeau, and G. Richard, “Adaptive harmonic time-frequency decomposition of audio using shift-invariant

PLCA,” in Proc. of ICASSP, Prague, Czech Republic, May 2011, pp. 401–404.

• P. Smaragdis, B. Raj, and M.V. Shashanka, “Sparse and shift-invariant feature extraction from non-negative data,” in Proc. of ICASSP, Las Vegas, Nevada, USA, April 2008, pp. 2069–2072.

• E. Vincent, N. Bertin, and R. Badeau, “Adaptive harmonic spectral decomposition for multiple pitch estimation,” IEEE Transactions on Audio Speech and Language Processing, vol. 18, no. 3, pp. 528–537, Mar. 2010.

• T. Tolonen and M. Karjalainen, “A computationally efficient multipitch analysis model,” IEEE Trans. On Speech and Audio Processing, vol. 8, no. 6, pp. 708–716, 2000.

• Anssi P. Klapuri, Multiple Fundamental Frequency Estimation Based on Harmonicity and Spectral Smoothness, IEEE Trans. On Speech and Sig. Proc., 11(6), 2003

• C. Yeh, A. Röbel, and X.Rodet, "Multiple fundamental frequency estimation of polyphonic music signals", IEEE ICASSP, pp. 225-228 (Vol. III), Philadelphia, Pennsylvvania, USA, 2005.

• Hirokazu Kameoka, Takuya Nishimoto, and Shigeki Sagayama, “A Multipitch Analyzer Based on Harmonic Temporal Structured Clustering”, IEEE Trans. On ASLP, March. 2007

• V. Emiya, R. Badeau, B. David, “MULTIPITCH ESTIMATION OF QUASI-HARMONIC SOUNDS IN COLORED NOISE”, Proc. Of DAFX, Sept. 2007.

• V. Emiya, “Transcription automatique de la musique de piano », thèse de doctorat, Telecom ParisTech, 2008.

• Anssi P. Klapuri, A perceptually motivated multiple-f0 estimation method, WASPAA 2005

• Anssi P. Klapuri “Multipitch Analysis of Polyphonic Music and Speech Signals Using an Auditory Model”, IEEE Trans. On ASLP, Feb. 2008