Hauteur et indexation (contribution digestive) Alain de Cheveigné CNRS - Ecole Normale Sup é...

Post on 04-Apr-2015

104 views 0 download

Transcript of Hauteur et indexation (contribution digestive) Alain de Cheveigné CNRS - Ecole Normale Sup é...

HauteurHauteuretet

indexationindexation(contribution digestive)(contribution digestive)

Alain de CheveignéAlain de Cheveigné

CNRS - Ecole Normale SupCNRS - Ecole Normale Supérieureérieure

IntroIntro

Hauteur, hauteur multiplesHauteur, hauteur multiples

ModModèles de perceptionèles de perception

MMéthodes d'estimationéthodes d'estimation

IndexationIndexation

Plan

Intro

sonson perceptspercepts

Intro

sonson

espace desespace dessignaux:signaux:

dimensionalitédimensionalitéinfinieinfinie

Intro

sonson perceptpercept

espace desespace dessignaux:signaux:

dimensionalitédimensionalitéinfinieinfinie

espace (?) desespace (?) desétats mentaux:états mentaux:dimensionalitédimensionalité

infinieinfinie

sonsonsoniesonie

hauteurhauteur

timbretimbre

durdurée perçueée perçue

Fechner (1880): quantification des Fechner (1880): quantification des états mentauxétats mentaux

"dimensions"dimensionsperceptives"perceptives"

durdurée physiqueée physique

soniesonie

"dimensions"dimensionsphysiques"physiques"

"dimensions"dimensionsperceptives"perceptives"

hauteurhauteur

timbretimbre

durdurée perçueée perçue

--> psychophysique--> psychophysique

ppériodeériode

intensitintensitéé

centroide spectral,centroide spectral,temps d'attaque, etc.temps d'attaque, etc.

Fechner (1880): quantification des Fechner (1880): quantification des états mentauxétats mentaux

vision rvision réductrice:éductrice: ""états mentaux" ≠ espaceétats mentaux" ≠ espace vectoriel vectoriel

sonie, hauteur, etc.: description incomplsonie, hauteur, etc.: description incomplèteète

produit de la méthodologie? (e.g. MDS)produit de la méthodologie? (e.g. MDS)

néglige: contexte, dynamique, particularités individuelles, néglige: contexte, dynamique, particularités individuelles,

etc.etc.

vision rvision réductrice:éductrice: ""états mentaux" ≠ espaceétats mentaux" ≠ espace vectoriel vectoriel

sonie, hauteur, etc.: description incomplsonie, hauteur, etc.: description incomplèteète

produit de la méthodologie? (e.g. MDS)produit de la méthodologie? (e.g. MDS)

néglige: contexte, dynamique, particularités individuelles, néglige: contexte, dynamique, particularités individuelles,

etc.etc.

nnéanmoins:éanmoins: utile comme utile comme approximationapproximation du rapport entre son et percept du rapport entre son et percept

--> pouvoir pr--> pouvoir prédictifédictif

--> descripteurs psychoacoustiques utiles pour --> descripteurs psychoacoustiques utiles pour l'indexationl'indexation

Intro

durdurée physiqueée physique

soniesonie

"dimensions"dimensionsphysiques"physiques"

"dimensions"dimensionsperceptives"perceptives"

timbretimbre

durdurée perçueée perçue

psychophysiquepsychophysique

intensitintensitéé

centroide spectral,centroide spectral,temps d'attaque, etc.temps d'attaque, etc.

hauteurhauteurppériodeériode

AFNOR (1977): AFNOR (1977):

"le caract"le caractère de la sensation auditive lié à la ère de la sensation auditive lié à la

fréquence d'un son périodique, qui fait dire que le fréquence d'un son périodique, qui fait dire que le

son est aigu ou grave selon que cette fréquence son est aigu ou grave selon que cette fréquence

est plus ou moins élevée"est plus ou moins élevée"

Hauteur

AFNOR (1977): AFNOR (1977):

"le caract"le caractère de la sensation auditive lié à la ère de la sensation auditive lié à la

fréquence d'un fréquence d'un son périodiqueson périodique, qui fait dire que le , qui fait dire que le

son est aigu ou grave selon que cette fréquence son est aigu ou grave selon que cette fréquence

est plus ou moins élevée"est plus ou moins élevée"

Hauteur

--> sp--> spécifique d'une classe particulière deécifique d'une classe particulière designauxsignaux

son: multidimensionnelson: multidimensionnel hauteur: unidimensionnelhauteur: unidimensionnel

hauteur = classe d'hauteur = classe d'équivalence (abstraction)équivalence (abstraction)

T

ppériodeériode

hauteur = classe d'hauteur = classe d'équivalence (abstraction)équivalence (abstraction)

~= classe des sons de m~= classe des sons de même périodeême période

son: multidimensionnelson: multidimensionnel hauteur: unidimensionnelhauteur: unidimensionnel

son pson périodique mais ériodique mais pas de hauteur musicale si:pas de hauteur musicale si: F0 < ~30 Hz (Pressnitzer et al. 2001)F0 < ~30 Hz (Pressnitzer et al. 2001)

F0 > ~F0 > ~4000 Hz (Semal & Demany 1990)4000 Hz (Semal & Demany 1990)

partiels tous de rang > ~15partiels tous de rang > ~15

partiels tous de fréquence > ~5000 Hzpartiels tous de fréquence > ~5000 Hz

exceptions:exceptions:

son pson périodique mais ériodique mais pas de hauteur musicale si:pas de hauteur musicale si: F0 < ~30 Hz (Pressnitzer et al. 2001)F0 < ~30 Hz (Pressnitzer et al. 2001)

F0 > ~F0 > ~4000 Hz (Semal & Demany 1990)4000 Hz (Semal & Demany 1990)

partiels tous de rang > ~15partiels tous de rang > ~15

partiels tous de fréquence > ~5000 Hzpartiels tous de fréquence > ~5000 Hz

son non pson non périodique mais évoque une hauteur:ériodique mais évoque une hauteur: certains sons inharmoniquescertains sons inharmoniques

bruits modulbruits modulés en amplitudeés en amplitude

Huggins pitch (binaural)Huggins pitch (binaural)

exceptions:exceptions:

1

2

3

456

10

2

3

456

100

2

3

4

du

ratio

n (

CP

)

102

2 3 4 5 6 7 8 9

103

2 3 4 5 6 7 8 9

104

CF (Hz)

Bernstein & Bernstein & Oxenham (2003)Oxenham (2003)

high thresholdshigh thresholds

low thresholdslow thresholds

ddépend du épend du mode d'mode d'écoute:écoute: analytique (Helmholtz): hauteurs de partielsanalytique (Helmholtz): hauteurs de partiels

synthétique: synthétique: hauteur liée à la périodehauteur liée à la période

hauteur liée au centre de gravité spectralehauteur liée au centre de gravité spectrale

différences inter-individuelles!différences inter-individuelles!

aspects complexes:aspects complexes: dynamique (--> mélodie)dynamique (--> mélodie)

harmonie, tonalité, etc.harmonie, tonalité, etc.

relative vs absoluerelative vs absolue

autres complications:autres complications:

spectral locus pitchspectral locus pitch

peri

odic

iy p

itch

peri

odic

iy p

itch

FF00 FFlocuslocus

--> fortes diff--> fortes différenceérencess interindividuelles interindividuelles

Hauteur fondamentale vs spectraleHauteur fondamentale vs spectrale

spectral locus pitchspectral locus pitch

peri

odic

iy p

itch

peri

odic

iy p

itch

FF00 FFlocuslocus

--> nature pluridimensionnelle--> nature pluridimensionnelle

chromachroma

tone h

eig

ht

tone h

eig

ht

Modèles de perception de hauteur

controverse depuis Hemholtz...controverse depuis Hemholtz...

version classique:version classique: spectral vs spectral vs

temporeltemporel

version moderne:version moderne: pattern-matching vs pattern-matching vs

autocorrélationautocorrélation

version post moderne:version post moderne: unitaire vs 2 mécanismes...unitaire vs 2 mécanismes...

http://cognition.ens.fr/Audition/ps/2005_pitch_SHAR.pdf

Licklider (˜1951)

Licklider

from cochleafrom cochlea

Licklider

02.5

57.5

0.1

0.34

0.77

1.5

2.8

0.5

kHz

lag (ms)

02.5

57.5

0.1

0.34

0.77

1.5

2.8

0.5

kHz

lag (ms)

période --> hauteurpériode --> hauteur

delayed s(t-T)

direct s(t)

fast synapsesEE

EE soma: integrationsoma: integration

Licklider: interaction excitatriceLicklider: interaction excitatrice

delayed s(t-T)

direct s(t)

I

E

Annulation harmonique: interaction inhibitriceAnnulation harmonique: interaction inhibitrice

soma: integrationsoma: integration

02.5

57.5

0.1

0.34

0.77

1.5

2.8

0.5

kHz

lag (ms)

période --> hauteurpériode --> hauteur

modmodèle "annulation" de perception de hauteurèle "annulation" de perception de hauteur(de Cheveigné 1998)(de Cheveigné 1998)

Hauteurs multiples

hauteur 2hauteur 2

Hauteurs multiples

hauteur 1hauteur 1

hauteur 3hauteur 3

holistique: holistique: timbre de l'accordtimbre de l'accord

analytique:analytique: perception des perception des hauteurs élémentaireshauteurs élémentaires

2 modes de perception:2 modes de perception:

...difficiles ...difficiles à départagerà départager

nombre de notes:nombre de notes: plus facile si peu de notesplus facile si peu de notes

enveloppes spectrales:enveloppes spectrales: plus facile si différentesplus facile si différentes

enveloppes temporelles:enveloppes temporelles: plus facile si diffplus facile si différentesérentes

familiaritfamiliarité avec l'instrumenté avec l'instrument

diffdifférences interindividuelles!érences interindividuelles!

facteurs de l'facteurs de l'écoute analytique:écoute analytique:

peu d'peu d'études contrôlées...études contrôlées...

domaine frdomaine fréquence:équence: calcul d'un spectre d'excitation cochlcalcul d'un spectre d'excitation cochléaire, peigne harmoniqueéaire, peigne harmonique

résolution souvent insuffisante...résolution souvent insuffisante...

domaine spectrotemporel:domaine spectrotemporel: ssélection de canaux, autocorrélationélection de canaux, autocorrélation

fonctionne si enveloppes spectrales ≠fonctionne si enveloppes spectrales ≠

domaine temporel:domaine temporel: annulation harmonique par filtre neuronalannulation harmonique par filtre neuronal

fonctionne dans tous les cas, mais...fonctionne dans tous les cas, mais...

...pr...prédit performance supérieure à celle observéeédit performance supérieure à celle observée

ModModèles de hauteurs multiplesèles de hauteurs multiples

autocorrelation arrayautocorrelation array

channel selection:

A

B

TA

TB

0

0

(b)

E

I

E

I

stochastic spike train

multiple pitch perceptionmultiple pitch perception

--> voir expos--> voir exposé de é de KlapuriKlapuri

plusieurs mplusieurs méthodes issues de modèles perceptifséthodes issues de modèles perceptifs

exemple: algorithmes YIN et MMMexemple: algorithmes YIN et MMM

Estimation de F0

YIN

T=periodT=period

signal model:signal model:

si siT , i

(si j si jT )2

j1

W

0

true if T=periodtrue if T=period

property:property:

di( ) (si j si j )2

j1

W

0 100 200 300 400 500 6000

2

4

6

8

10

12

14

16

18x 108

...search for...search forminimum of minimum of d(d())

to find T...to find T...

d' ( ) d( ) 1/ d( j)j1

0 50 100 1500

0.5

1

1.5

2

2.5

MMM:

signal model:signal model:

st x t yt

xt xtT

yt ytU

sum of two periodic signalssum of two periodic signals

MMM:

property:property:

(st st T st U st T U )2

t 0

true if s is sum of two periodictrue if s is sum of two periodicsignals with periods T, Usignals with periods T, U

MMM:

if T,U unknown, form:if T,U unknown, form:

d(,) (st st st st )2

t

search for minimum of d(search for minimum of d(,,))

MMM:

50 100 150 200

20

40

60

80

100

120

140

160

180

200

220

MMM:

50 100 150 200

20

40

60

80

100

120

140

160

180

200

220

UU

TT

MMM:

0.02 0.04 0.06 0.08 0.1 0.12 0.14-1

-0.5

0

0.5

1

Oct

. re

: 4

40

Hz

TextEnd

s

10 20 30 40 500

0.5

1

sqrt

pw

r ra

tio

TextEnd

1000 2000 3000 4000 5000 6000 7000 8000-0.5

0

0.5

wa

vefo

rm

TextEnd

samples

Indexation de la hauteur

objectif: objectif: description de documents sonoresdescription de documents sonores

applications: recherche documents, navigationapplications: recherche documents, navigation

pertinence perceptivepertinence perceptive tout son peut avoir une hauteurtout son peut avoir une hauteur

pertinence musicalepertinence musicale liens avec indexation symbolique (partition)liens avec indexation symbolique (partition)

problproblèmes spécifiques:èmes spécifiques: gestion du tempsgestion du temps

quantification, structure chroma / hauteur quantification, structure chroma / hauteur

polyphoniepolyphonie

scalabilitscalabilité des descripteursé des descripteurs

traduction représentations symboliquestraduction représentations symboliques

Indexation de la hauteur

gestion du temps:gestion du temps: hauteur (F0) varie en fonction du tempshauteur (F0) varie en fonction du temps

quantification (notes)quantification (notes)

intervalles sans hauteur (mesure de confiance)intervalles sans hauteur (mesure de confiance)

d' ( ) d( ) 1/ d( j)j1

0 50 100 1500

0.5

1

1.5

2

2.5

reliabilityreliability

scalabilitscalabilité:é: croissance rapide des données (loi de Moore)croissance rapide des données (loi de Moore)

diversité des besoins des applicationsdiversité des besoins des applications

nécessité de réutiliser les métadonnéesnécessité de réutiliser les métadonnées

2211 oooooooooooooooooooooooooooooooo oooooooooooooooooooooooooooooooo

2222 o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o

2233 o o o o o o o o o o o o o o o o

2244 o o o o o o o o

225 5 o o o o

scaled seriesscaled series

original seriesoriginal series

scalingscalingfactorfactor

meanmean

extrema (min, max)extrema (min, max)

variance/covariancevariance/covariance

histogramhistogram

etc.etc.

Scalable operations

Mean:

m (1/K) x jj1

K

Histogram:

hk Sk (x jj1

K

)

Weighted histogram:

hk Sk (x jj1

K

)w j

d' ( ) d( ) 1/ d( j)j1

0 50 100 1500

0.5

1

1.5

2

2.5

reliabilityreliability

Conclusion

"dimension" importante du son"dimension" importante du son premipremière approximation: ère approximation: qualitqualité é

unidimensionnelle en bijection avec la périodeunidimensionnelle en bijection avec la période

deuxideuxième approximation: ème approximation: structure structure

multidimensionnelle, effets de contexte, effets multidimensionnelle, effets de contexte, effets

individuels, fonctions musicales complexes, etc.individuels, fonctions musicales complexes, etc.

estimation: difficile mais progrestimation: difficile mais progrès rapidesès rapides

indexation: problindexation: problèmes spécifiquesèmes spécifiques