r&d legal direction
High Order Ambisonics (HOA),une approche complète de la spatialisation sonore
Jérôme Daniel
Workshop Ear Wide OpenRennes, 2008/03/12
r&d legal direction
High Order Ambisonix,tous les bons côtés d'Ambisonix et les pouvoirs d'un super-Panoramix (sonore)
Jérôme Daniel
Workshop Ear Wide OpenRennes, 2008/03/12
Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 3 France Telecom Group
quelques généralités
concepts généraux (higher order ambisonics) encodage spatial et décodage spatial, format HOA
bénéfices en termes de restitution restitution: holophonique, binaurale, de groupe, dispositifs surround
principe des microphones 3D HOA approche progressive et rationalisation
récapitulatif et discussion
1
2
3
sommaire
4
5
Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 4 France Telecom Group
1introduction / généralités
Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 5 France Telecom Group
High Order Ambisonics (HOA): un système en 3 points clés
un format audio 3D générique and flexible basé sur un modèle pertinent de représentation du champ acoustique
une technologie rationnelle et efficace pour une "vraie" captation audio 3D
une technologie de reproduction sonore 3D adaptable à une large variété de dispositifs de haut-parleurs (et au casque)
Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 6 France Telecom Group
Ambisonics et HOA:quelques jalons
naissance en Angleterre dans les années 70 [M.Gerzon] ambisonics: captation et reproduction 3D (résolution spatiale minimale)
extension à des résolutions spatiales élevées
("higher order") 1996-2000: développement des bases théoriques
[Bamford, Poletti] [PhD Daniel] HOA, [PhD Nicol] liens avec WFS 2003: améliorations… vers l'holophonie / Wave Field Synthesis
[Daniel, Nicol, PhD Moreau] depuis 2004-2005: développement, validation et démonstration du premier
microphone HOA[PhD Moreau, Daniel, PhD Bertet]
reproduction binaurale dynamique (avec head-tracker) développement et utilisation d'une suite de plugins VST
Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 7 France Telecom Group
une approche aux points d'entrée multiples[angles d'éclairage utilisés dans cette présentation] ingénieur du son / outils d'enregistrement, microphones, panning mathématicien / concepts communs avec le traitement du signal [trait. signal + acousticien / antennes, beamforming] acousticien / propriétés du champ acoustique psycho-acousticien / sensations spatiales auditives & localisation
Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 8 France Telecom Group
2principaux concepts liés à higher order ambisonics(d'abord illustrés en 2D)
Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 9 France Telecom Group
ambisonics (ordre 1): encodage spatial
enregistrement sonore panoramique microphones coïncidents omni (W) et
bidirectifs (X,Y)
séparation AV-AR, G-D informations sur la propagation des ondes format d'encodage = B-Format [Gerzon]
indépendant de tout dispositif de HP
Front (X)
Back
Left (Y)
Right
B-Format
+-+ -+
W X Y
Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 10 France Telecom Group
décodage spatial pour la reproduction
reproduction sur haut-parleurs "reconstituer" un microphone par HP recombiner les directivités du B-Format opération de décodage: matricer W,X,Y ... autant de HP qu'on veut, mais... … le flou d'image sonore ne diminue pas
Front (X)
Back
Left (Y)
Right
+-= + =
B-Format
+-+ -+
W X Y
+ +
Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 11 France Telecom Group
ambisonics d'ordre 1: avantages et limites
avantages format multicanal compact homogénéité spatiale fidélité acoustique (pour les propriétés de propagation) facilement extensible à la 3D (composante additionnelle Z) flexibilité: transformation de champ acoustique; dispositifs de reproduction microphones B-Format commercialisés (eg SoundField™)
limites images sonores floues et instables (sweet spot très réduit) mal adapté aux arrangements de HP irréguliers/déséquilibrés (notamment
config ITU 5.1) séparation spatiale limitée car faible directivité des micros (surtout en BF) ... voilà peut-être pourquoi une partie des ingés son préfèrent les approches
non-coïncidentes (compte-tenu des technos traditionnelles de microphone)
Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 12 France Telecom Group
Higher Order Ambisonics (HOA)
augmenter la discrimination angulaire grâce à des directivités supplémentaires
encodage spatial Transf. de Fourier circulaire spectre spatial = {composantes ambisoniques} largeur de bande = fréquence angulaire max
Front (X)
Back
Left (Y)
Right
1st order 2nd order 3rd order 4th order
cos
sin
cos 2
sin 2
cos3
sin 3
cos 4
sin 4
0th order
spectrespatialenrichi
Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 13 France Telecom Group
directivité accrue
Higher Order Ambisonics (HOA)
augmenter la discrimination angulaire grâce à des directivités supplémentaires
encodage spatial Transf. de Fourier circulaire spectre spatial = {composantes ambisoniques} largeur de bande = fréquence angulaire max
améliorer la séparation spatiale pour un usage plus sélectif des haut-parleurs
synthétiser des directivités plus fines décodage spatial beamforming multidirectionnel
Front (X)
Back
Left (Y)
Right
+ + + +
= = = =
Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 14 France Telecom Group
Higher Order Ambisonics (HOA)
augmenter la discrimination angulaire grâce à des directivités supplémentaires
encodage spatial Transf. de Fourier circulaire spectre spatial = {composantes ambisoniques} largeur de bande = fréquence angulaire max
améliorer la séparation spatiale pour un usage plus sélectif des haut-parleurs
synthétiser des directivités plus fines décodage spatial beamforming multidirectionnel
Transf. Fourier inverse à support discret images sonores plus précises (étalement angulaire
réduit)
Front (X)
Back
Left (Y)
Right
1st order 2nd order 3rd order 4th order
Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 15 France Telecom Group
Front (X)
Back
Left (Y)
Right
2nd order3rd order4th order
scalabilité spatiale du format HOA
W
X
Y
Decodage :matrice
(+ filtres)
plus ou moins de composantes utiliséesselon les contraintes de transmission et/ou reproduction
1st order
Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 16 France Telecom Group
3bénéfices de HOA sur le plan de la restitution
Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 17 France Telecom Group
reconstruction acoustique élargie
ordre 1 ordre 2 ordre 3 ordre 4
cos
sin
cos 2
sin 2
cos3
sin 3
cos 4
sin 4
1st order 2nd order 5th order 10th order
fréquence angulaire croissante (spectre spatial + riche)
expansion radiale de la reconstruction acoustique (prop. longueur d'onde)
Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 18 France Telecom Group
reconstruction "holophonique"
là où la reconstruction est correcte ITD et ILD corrects
bonne localisation, stable avec le déplacement
f=300Hz, 5th order f=450Hz, 8th order f=600Hz, 10th orderf=125Hz, 2nd order
reconstruction en fonction de la fréquence (zone cible donnée)
ici: hypothèse d'ondes planes (HPs "à l'infini")!
or, HPs à distance finie front d'onde "infléchi"
Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 19 France Telecom Group
compenser le champ proche des HPs
(bass-boost et déphasage) et modéliser celui de la source virtuelle
contrôle de la courbure du front d'onde
(Near Field Compensated HOA)
[Daniel, 2003] sources "extérieures" et "intérieures"
synthèse de front d'onde avec NFC-HOA
Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 20 France Telecom Group
1 2 3 4 5 6 7 8 9 100
10
20
30
40
50
60
ordre M
Eff
et d
'élé
vatio
n (°
)
acos(rE) (max r
E)
acos(rE) (basic or in-phase)
acos(rV
) (in-phase)
et en dehors des conditions de reconstruction "exacte"?
ordre modérément élevé ; gamme MF/HF ; écoute excentrée étalement/ponctualité des contributions de HP
• dégradation/préservation des indices de localisation (ITD, ILD, IS) qualité décrite par le vecteur énergie décodage optimisable
impact sur la robustesse en écoute de groupe
1 2 3 4 5 6 7 8 9 100.5
0.6
0.7
0.8
0.9
1
ordre M
Réd
uctio
n de
laté
ralis
atio
n (r
E ou
r V)
rE (max r
E) = r
V (max r
E)
rE (basic or in-phase)
rV
(in-phase)
ponctualité étalement
Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 21 France Telecom Group
de la reconstruction holophonique à la reconstruction binaurale
reconstruction ciblée sur une zone englobant un auditeur centré
meilleure préservation des indices de localisation
ordre M 1 2 3 4
flim 700 Hz 1300 Hz 1900 Hz 2500 Hz
E 45° 30° 22.5° 18°
bonne reconstruction jusqu'à flim
(bon ITD voire ILD selon fq)
"angle de flou", compte-tenu seulement des indices de loc. HF (ILD&ITD), altérés au-delà de flim
évaluation subjective pour un auditeur centré [Bertet] précise le gain en "qualité" en fonction des ordres croissants
Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 22 France Telecom Group
extension à l'encodage et la reproduction 3D
encodage et décodage 3D reproduction binaural dynamique
approche de base: "virtualisation" binaurale des HPs décodage optimisé: [Faure, Daniel, Emerit] rotations de champ sonore piloté par head-tracker
encodage vers Format HOA 3D reproduction sur config 3D
reproduction sur casque
décodagespatial
(idem 2D)
head-tracker
“virtualisation”:filtrage HRTF
K N
signaux H
P
K
signauxH
OA
rotationdu champ
sonore
Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 23 France Telecom Group
compatibilité avec des dispositifs non-réguliers
configurations ITU standard and enrichies (5.0, 7.0, 8.0, etc.) synthétiser des directivités adaptées aux angles inter-HP (couverture optimale)
◊ = " vecteur énergie" (* = cible, i.e. image sonore idéale)
(exemple: décodage d'ordre 4)
= limite physique (cas extrême=pan-pot par paire de HP)
Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 24 France Telecom Group
4principe des microphones 3D HOA
Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 25 France Telecom Group
captation directive: approche progressive approximation du gradient (cas "unidimensionnel")
[ex. fonction sinusoïdale: "onde pour une fréquence donnée"] dérivée = pente, estimée entre deux points "proches"
• assez rapprochés // longueur d'onde
• pas trop proches non plus, car…
• la différence doit se détacher du bruit de mesure! (dans la "vraie vie")
cas de la prise de son par omnis [hors capteurs de vélocité] fonction = champ de pression points de mesure = lieux des capteurs omni…
mêmes positions quelle que soit la longueur d'onde!!
( / 2) ( / 2)'(0)
f ff
( )f x
'( / 2) '( / 2)''(0)
f ff
Bruit de mesure
trop grand
trop petit
OK
Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 26 France Telecom Group
captation HOA: approche progressive compromis sur l'espacement d des capteurs
• BF (différences noyées dans bruit)
• HF (aliasing spatial)
• théoriquement, EQ BF de –m x 6dB/oct !!!
• en pratique, effort relâché en BF baisse de directivité et/ou de réponse [id pour cardio et bi]
réseau microphonique global• ici, 9 capteurs rassemblés pour 5 composantes5 capteurs devraient suffire pour 5 composantes!?
y
x
+
y
x
+
-
y
x
+ - y
x
+
+
- -
x
y +
+
-
-
-
+
capteur de pression
gain positif
gain négatif
1 2
cos
1( )
SX S
p pjkd
3 4
sin
1( )
SY S
p pjkd
0W S p
1 2
23 4
cos 2
1
( )
SU S
p p
p pkd
p0
p1
p2
p3p4
p1
p2
p5
p6p7
p8
5 6
27 8
sin 2
1
( )
SV S
p p
p pkd
p3 p4
2 fk
c
bass-boost=6dB/oct bass-boost=12dB/oct
Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 27 France Telecom Group
rationalisation: sphère microphonique HOA Q capsules réparties sur une sphère
échantillonnage du champ sonore Q=32 ordre 4, K=25 composantes HOA
traitement = matrice + égalisation égalisation:
• théoriquement -mx6dB / oct !
• on relâche l’effort en BFrough( / )1
11
r cB
rough( / )100
r cB
rough( / )r c
mnB
rough( / )10
r c
mB
rough( / )1 r c
mmB
rough( / )1 r c
mmB
( / , / )1r c R cEQ
rough( / )111
r cB
rough( / )110
r cB
NFC( / )111
R cB
NFC( / )100
R cB
NFC( / )R c
mnB
NFC( / )10
R c
mB
NFC( / )1 R c
mmB
NFC( / )1 R c
mmB
NFC( / )111
R cB
NFC( / )110
R cB
( / , / )1r c R cEQ
( / , / )1r c R cEQ
( / , / )r c R cmEQ
( / , / )r c R cmEQ
( / , / )r c R cmEQ
( / , / )r c R cmEQ
Matrice
N x K
( / , / )0r c R cEQ
N signaux captés
Q signauxambisoniques
102
103
104
0
20
40
60
80
100
120
140
160
180
200a = 5 cm
Fréquence (Hz)
Am
plitu
de (
dB)
01234
Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 28 France Telecom Group
microphone HOA: limites et compromis
estim
atio
n er
ror
102
103
104
01
2
3
4
Frequency [Hz]
Ord
er
-60
-50
-40
-30
-20
-10
0
10
(dB)
décalé vers BF quand diamètre
décalé vers HF quand diamètre ↓
bande spatialeréduite
aliasing spatial
estimationcorrecte
7cm, 32 capteurs25 comp.
(ordre 4)
Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 29 France Telecom Group
sphères microphoniques HOA ou assimilables
produits commercialisés (sans label "HOA")
prototypes de laboratoire [Moreau, Daniel, Bertet], [Meyer, Elko] [Rafaely][Farina]
perspectives d'amélioration [Epain 2008]"multi-sphère" [Parthy et al]structures particulièrement diffractantes
résoudre le compromis LF/HF
EigenMike™ (mh-acoustics)
32 caps ordre 4
FTR&D32 caps ordre 412 caps ordre 220 caps ordre 3
B&K(orientée mesure et
imagerie acoustique)36/50 caps. ordre 5-6
Univ. Maryland[Lee, Duraiswami]64 caps ordre 6
Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 30 France Telecom Group
5récapitulatif et discussion
Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 31 France Telecom Group
récapitulatif
points forts (au moins les mêmes qu'à l'ordre 1, plus…) format multicanal scalable (hiérarchique) homogénéité spatiale fidélité acoustique + "haute définition spatiale" reconstruction "holophonique" extension à la 3D - spatialisation binaurale efficace encore plus de flexibilité: transformations spatiales;
config de reproduction, y compris irrégulières (surround ITU) microphones HOA (à « haute résolution spatiale »)
points faibles aucun? ... vraiment? peut-être les "défauts de ses qualités" !? marge d'amélioration sur les outils (microphones, etc.)
Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 32 France Telecom Group
contextes d'usage
contextes d'utilisation potentiels prise de son artistique (musicale, théâtrale…), documentaire… partage d'ambiances sonores 3D
• captation / reproduction sonore immersive pour des "proches à distance" amélioration de l'audioconférence
• gain en intelligibilité et confort nouvelles perspectives de création et de "consommation" de contenu
audio 3D• … un contenu pour une reproduction 2D ou 3D, statique ou interactive, de
haute ou basse résolution, selon les contraintes
Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 33 France Telecom Group
pour discussion… HOA par rapport à des approches plus traditionnelles
famille "coïncidente" / panning d'amplitude (car T=0) • … mais captation par micros non-coïncidents séparation spatiale
approche rationnelle qui tente d'exploiter au mieux les informations spatiales captées
• mais comme pour toutes les techniques, pas exempte d'artefact !• … certains artefacts sont-ils préférables à d'autres ?
un parti-pris: une certaine "fidélité" acoustique (effets de propagation / localisation) ≠ approche purement artistique
• privilégie l'immersion, homogénéité• outils à mettre aux mains des ingés sons• approche artistique: "trahir" éventuellement la réalité acoustique (pour
l'embellir ou la corriger) mais bénéficier de la solidité des infos spatiales marges d'amélioration
• éléments technologiques perfectibles (microphones, etc.)• outils de post-prod, mixage 3D, retouches spatiales
Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 34 France Telecom Group
6système mis en œuvre pour "ears wide open"
Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 35 France Telecom Group
le microphone HOA 20 DPA4060 arrangés suivant les sommets
d'un dodécaèdre sur une boule de 7,5cm de diamètre ordre 3 (16 composantes 3D) effort modéré en BF (+6dB de bruit) (éléments défectueux dans la chaîne
d'acquisition)
frequency [Hz]
orde
r
102
103
104
0
1
2
3
-140
-135
-130
-125
-120
-115
-110
-105
-100
Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 36 France Telecom Group
la restitution HOA (2D)
configurations ITU 5.0 et "enrichie" 8.0 suite de plugins VST HOA de FTR&D démonstration de "recadrage" par rotations, etc. appoints non exploités
Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 37 France Telecom Group
merci pour votre attention
Top Related