0 Grégory PALLONE [email protected] Dilatation et transposition sous contraintes perceptives des...

39
1 Grégory PALLONE [email protected] Dilatation et transposition sous contraintes perceptives des signaux audio : application au transfert cinéma- vidéo

Transcript of 0 Grégory PALLONE [email protected] Dilatation et transposition sous contraintes perceptives des...

Page 1: 0 Grégory PALLONE gregory@pallone.fr Dilatation et transposition sous contraintes perceptives des signaux audio : application au transfert cinéma-vidéo.

1

Grégory [email protected]

Dilatation et transposition sous contraintes perceptives

des signaux audio :application au transfert cinéma-vidéo

Page 2: 0 Grégory PALLONE gregory@pallone.fr Dilatation et transposition sous contraintes perceptives des signaux audio : application au transfert cinéma-vidéo.

2

Objectif de la thèse

CinémaCinéma(24 images/s)

VidéoVidéo(25 images/s)

Accélération du son AVEC modification

de la hauteur tonale et des formants

20%

Accélération du son SANS modificationde la hauteur tonale

ni des formants

Harmoniseur

Page 3: 0 Grégory PALLONE gregory@pallone.fr Dilatation et transposition sous contraintes perceptives des signaux audio : application au transfert cinéma-vidéo.

3

II. Classification des méthodes

III. Innovations algorithmiques

IV. Conception de l’HARMO

V. Conclusion et résultats

I. Problématique

Page 4: 0 Grégory PALLONE gregory@pallone.fr Dilatation et transposition sous contraintes perceptives des signaux audio : application au transfert cinéma-vidéo.

4

II. Classification des méthodes

III. Innovations algorithmiques

IV. Conception de l’HARMO

V. Conclusion et résultats

I. Problématique

Page 5: 0 Grégory PALLONE gregory@pallone.fr Dilatation et transposition sous contraintes perceptives des signaux audio : application au transfert cinéma-vidéo.

5

I. Problématique Problématique liée à la hauteur tonale

- Durée T- Fréquence F

Dilatation simple

- Durée T- Fréquence F/

- Durée  T- Fréquence F

Transposition-p

Dilatation-p

Page 6: 0 Grégory PALLONE gregory@pallone.fr Dilatation et transposition sous contraintes perceptives des signaux audio : application au transfert cinéma-vidéo.

6

DéfinitionZones de résonance du conduit vocal, faisant partiedes caractéristiques du timbre des locuteurs.

Le traitement d’harmonisation devra compenser l’altération de la hauteur tonale et des formants

I. Problématique

Problématique liée aux formants

Expérience illustrant le rôle des formantsInhalation d’hélium (chélium > cair)

• Modification des formants (altération du timbre)• Conservation hauteur tonale

Page 7: 0 Grégory PALLONE gregory@pallone.fr Dilatation et transposition sous contraintes perceptives des signaux audio : application au transfert cinéma-vidéo.

7

Format sonore multi-HP

Dolby Digital 5.1 (Cinéma, DVD)

Spatialisation de scènes sonores• Canaux indépendants• Relations de phases entre canaux

I. Problématique

Aspect multicanal

Traitement synchronisé entre canaux

Page 8: 0 Grégory PALLONE gregory@pallone.fr Dilatation et transposition sous contraintes perceptives des signaux audio : application au transfert cinéma-vidéo.

8

I. Problématique

Evaluations sonores

Evaluation des algorithmes• Appréciation personnelle

• Tests informels en interne

• Tests « grandeur nature » en auditorium

Difficultés pour évaluer les algorithmes • Pas d’évaluation automatique

• Oreille unique juge de la qualité

• Inexistence de banque de sons spécifique

Page 9: 0 Grégory PALLONE gregory@pallone.fr Dilatation et transposition sous contraintes perceptives des signaux audio : application au transfert cinéma-vidéo.

9

Pas de traitement • Modification de hauteur tonale de 4%

• Modification des formants

Traitement par la Lexicon 2400 • Entrées/sorties analogiques (coloration, bruit)

• Pas de possibilité de multicanal

• Qualité des sons impulsifs peu satisfaisante

• Problèmes sur certains sons complexes

I. Problématique

La technologie (non-) disponible

Page 10: 0 Grégory PALLONE gregory@pallone.fr Dilatation et transposition sous contraintes perceptives des signaux audio : application au transfert cinéma-vidéo.

10

Algorithme

Machine

Qualitésonore

Formatmulticanal

EconomiqueTemps-réel

Validation sur unebanque de sons-test

Délai de réalisation

Contraintes imposéesI. Problématique

Page 11: 0 Grégory PALLONE gregory@pallone.fr Dilatation et transposition sous contraintes perceptives des signaux audio : application au transfert cinéma-vidéo.

11

II. Classification des méthodes

III. Innovations algorithmiques

IV. Conception de l’HARMO

V. Conclusion et résultats

I. Problématique

Méthodes temporellesMéthodes fréquentielles

Page 12: 0 Grégory PALLONE gregory@pallone.fr Dilatation et transposition sous contraintes perceptives des signaux audio : application au transfert cinéma-vidéo.

12

II. Classification - Introduction

• Problèmes abordés depuis longtemps (1928), mais résolus ?

• Bibliographie : Nombreuses études, chacun sa méthode

• Nécessité de réaliser une classification

Méthodes de dilatation-p et transposition-p

Page 13: 0 Grégory PALLONE gregory@pallone.fr Dilatation et transposition sous contraintes perceptives des signaux audio : application au transfert cinéma-vidéo.

13

II. Classification – Méthodes temporelles

Méthodes temporelles « aveugles »

Avantage : SimplicitéInconvénient : Discontinuité de désynchronisation

duplication

[French 28], [Freund 35], [Schuller 44], [Lee 72]

Principe : Dupliquer et insérer des segments de durée constante

discontinuité

Page 14: 0 Grégory PALLONE gregory@pallone.fr Dilatation et transposition sous contraintes perceptives des signaux audio : application au transfert cinéma-vidéo.

14

Méthodes temporelles «  adaptatives  »

duplication

II. Classification – Méthodes temporelles

[Malah 79], [Roucos & Wilgus 85], [Verhelst & Roelands 93], [Hejna 92]

redoublement de transitoire

Principe : Adapter le segment inséré à une période fondamentale

Avantage : Haute qualité pour les rapports <20%Inconvénient : Redoublement de transitoire

Page 15: 0 Grégory PALLONE gregory@pallone.fr Dilatation et transposition sous contraintes perceptives des signaux audio : application au transfert cinéma-vidéo.

15

Compromis et hypothèses desméthodes temporelles

II. Classification – Méthodes temporelles

Compromis sur la durée du segment inséréSegment trop court :

• Discontinuité de désynchronisation sur BFSegment trop long :

•Anisochronie (irrégularité rythmique dans tempo)

Hypothèse sous-jacentePrésence d’une période fondamentale

Discontinuité sur sons inharmoniques

Page 16: 0 Grégory PALLONE gregory@pallone.fr Dilatation et transposition sous contraintes perceptives des signaux audio : application au transfert cinéma-vidéo.

16

II. Classification – Méthodes fréquentielles

Méthodes fréquentielles « aveugles »

Vocodeur de phase classique

[Schroeder 66], [Flanagan & Golden 66], [Moorer 78], [Portnoff 81], [Dolson 86], [Depalle 91]…

L

t

A

F

F

E

t

A

=E/L

Principe : Espacer les spectres à court terme en modifiant les phases

Avantage : Adapté à un contexte musical (taux élevés)Inconvénient : Coloration et réverbération sur sons complexes

Etalement des transitoires

Page 17: 0 Grégory PALLONE gregory@pallone.fr Dilatation et transposition sous contraintes perceptives des signaux audio : application au transfert cinéma-vidéo.

17

II. Classification – Méthodes fréquentielles

Méthodes fréquentielles «  adaptatives  »

Temps

Am

plit

ude

Fréquence

Am

plit

ude

A - Verrouillage de phase ([Puckette 95], [Laroche & Dolson 97])

But: Eviter coloration et réverbération sur des sons complexes

Principe: Conservation des phases dans les canaux fréquentiels d’un lobe correspondant à un partiel

Représentation temporelle Représentation fréquentielle

Fourier

Page 18: 0 Grégory PALLONE gregory@pallone.fr Dilatation et transposition sous contraintes perceptives des signaux audio : application au transfert cinéma-vidéo.

18

II. Classification – Méthodes fréquentielles

B - Détection de transitoires

But : Eviter étalement des transitoires

Principe : 1. Conservation des transitoires par segmentation

[Settel 95], [Duxbury 02]

2. Conservation des relations de phase originales hors des pics [Bonada 00]

Méthodes fréquentielles «  adaptatives  »

Page 19: 0 Grégory PALLONE gregory@pallone.fr Dilatation et transposition sous contraintes perceptives des signaux audio : application au transfert cinéma-vidéo.

19

II. Classification – Méthodes fréquentielles

Compromis temps-fréquence durée de la fenêtre temporelle d’analyse

bonnemauvaiseRésolution fréquentielle

mauvaisebonneRésolution temporelle

Fenêtre longueFenêtre courte

Adapté aux HF Adapté aux BF

Hypothèse sous-jacentePrésence d’une seule sinusoïde par canal fréquentiel

• Pas respectée pour sons complexes• Pas respectée pour sons impulsifs

Compromis et hypothèses desméthodes fréquentielles

Page 20: 0 Grégory PALLONE gregory@pallone.fr Dilatation et transposition sous contraintes perceptives des signaux audio : application au transfert cinéma-vidéo.

20

II. Classification - RécapitulatifA

van

tag

es

• Hypothèse sous-jacente(présence d’une période

fondamentale)• Problème d’anisochronie

• Conservation de la forme d’onde • Puissance de calcul modérée

Inco

nvé

nie

nts

Méthodes temporelles Méthodes fréquentielles

• Bons résultats pour des taux élevés• Pas de problème d’anisochronie

• Hypothèse sous-jacente (présence d’une seule sinusoïde

par canal fréquentiel)• Puissance de calcul élevée

Co

mp

rom

is

• Courts segments insérés (adapté aux HF, transitoires,

évite anisochronie)• Longs segments insérés

(adapté uniquement aux BF)

• Courtes fenêtres d’analyse(adapté uniquement aux transitoires)

• Longues fenêtres d’analyse(adapté aux BF et sons harmoniques)

Page 21: 0 Grégory PALLONE gregory@pallone.fr Dilatation et transposition sous contraintes perceptives des signaux audio : application au transfert cinéma-vidéo.

21

II. Classification - Conclusion

• Etat de l’art, revisite des méthodes

• Relations entre techniques existantes (formalisme commun)

• Expérimentation et évaluation de nombreuses méthodes

Aucune des méthodes totalement adaptée au problème Classification à l’origine d’innovations algorithmiques

Page 22: 0 Grégory PALLONE gregory@pallone.fr Dilatation et transposition sous contraintes perceptives des signaux audio : application au transfert cinéma-vidéo.

22

II. Classification des méthodes

III. Innovations algorithmiques

IV. Conception de l’HARMO

V. Conclusion et résultats

I. Problématique

Méthodes coupléesMéthode temps-fréquenceMéthode HARMO

Page 23: 0 Grégory PALLONE gregory@pallone.fr Dilatation et transposition sous contraintes perceptives des signaux audio : application au transfert cinéma-vidéo.

23

III. Innovations – Méthodes couplées

A - Décomposition en sous-bandes

Combinaison de méthodes temporelles / fréquentielles

Décomposition (Fc=500Hz)

BF

Reconstruction

Dilatationpar méthodefréquentielle

HF

Dilatationpar méthodetemporelle

Signal original Signal dilaté

Avantage : Evite anisochronie, discontinuités BFInconvénient : Problèmes de phase à Fc

Page 24: 0 Grégory PALLONE gregory@pallone.fr Dilatation et transposition sous contraintes perceptives des signaux audio : application au transfert cinéma-vidéo.

24

III. Innovations – Méthodes couplées

B - Décomposition hybride

Dilatationpar méthodetemporelle

Dilatationpar méthodefréquentielle

Décomposition

résidu

transitoire

Reconstruction

Signal original Signal dilaté

Combinaison de méthodes temporelles / fréquentielles

Avantage : Evite l’étalement de transitoireInconvénient : Problèmes de phase à la reconstruction

Page 25: 0 Grégory PALLONE gregory@pallone.fr Dilatation et transposition sous contraintes perceptives des signaux audio : application au transfert cinéma-vidéo.

25

III. Innovations – Méthode temps-fréquence

Généralisation de la méthode fréquentielle

Analyse fréquentielle adaptée à l’oreille humaine (Bark)

A

f

500Hz 20Hz

• f = constant pour f < 500 Hz : bonne résolution fréquentielle pour BF

• f/f = constant pour f > 500 Hz : bonne résolution temporelle pour HF

Avantage : Améliorations sur - sons complexes - sons transitoires

Inconvénient : Qualité insuffisante pour notre application

Page 26: 0 Grégory PALLONE gregory@pallone.fr Dilatation et transposition sous contraintes perceptives des signaux audio : application au transfert cinéma-vidéo.

26

III. Innovations – Méthode HARMO

Principe de la méthode HARMOBasée sur une méthode temporelle

3 paramètres principaux :FE : Durée du fondu-enchaîné

I : Décalage du point d’insertion

K : Durée du segment inséré

I K K

FE

insertion

Page 27: 0 Grégory PALLONE gregory@pallone.fr Dilatation et transposition sous contraintes perceptives des signaux audio : application au transfert cinéma-vidéo.

27

III. Innovations – Méthode HARMO

Détermination du paramètre FE

Forme du fondu-enchaîné :• Adaptée aux signaux corrélés• Adaptée aux signaux décorrélés• Adaptative

Durée du fondu-enchaîné : Adaptative• K long (segments similaires) FE long• K court (transitoire ou HF) FE court

FE

Courbes depondération

K

Page 28: 0 Grégory PALLONE gregory@pallone.fr Dilatation et transposition sous contraintes perceptives des signaux audio : application au transfert cinéma-vidéo.

28

III. Innovations – Méthode HARMO

Détermination du paramètre I

Utilisation de la détection de transitoires Amélioration dans certains cas,mais pas de garantie de succès (échéance d’insertion pas repoussée indéfiniment) Pour I constant : Nécessité de trouver une solution !

I

Page 29: 0 Grégory PALLONE gregory@pallone.fr Dilatation et transposition sous contraintes perceptives des signaux audio : application au transfert cinéma-vidéo.

29

III. Innovations – Méthode HARMO

Détermination du paramètre K

Estimation de similarité entre 2 segments successifs (détection de la période fondamentale) :

• Fonction de différence d’amplitude moyenne• Fonctions d’autocorrélation• Fonctions d’autocorrélation normalisée

Signaux quasi-stationnaires

Avantage : Améliorations sur les très basses fréquences Améliorations sur certains sons inharmoniques

Inconvénient : Redoublement de transitoire plus audibleAnisochronie plus audible

Ajustement des paramètres : Augmentation de K par rapport aux méthodes classiques

Page 30: 0 Grégory PALLONE gregory@pallone.fr Dilatation et transposition sous contraintes perceptives des signaux audio : application au transfert cinéma-vidéo.

30

III. Innovations – Méthode HARMO

Détermination du paramètre K

2 critères de stationnarité :

• Critère de corrélation (seuillage)

• Critère énergétique (détection de transitoire)

Signal considéré stationnaire Insertion d’un segment long

Signal considéré non-stationnaire Insertion d’un segment court

Signaux transitoires

Avantages : Redoublement moins audible (masquage temporel) Anisochronie diminuée

Page 31: 0 Grégory PALLONE gregory@pallone.fr Dilatation et transposition sous contraintes perceptives des signaux audio : application au transfert cinéma-vidéo.

31

III. Innovations - Conclusion

Méthode HARMOMeilleur compromis, satisfaisant les contraintes

• de qualité sonore• temps-réel• multicanal• économiques

Algorithme sélectionné pour implantation sur HARMO

Méthodes couplées & méthodes temps-fréquence• Résultats encourageants• Mais qualité actuellement insuffisante pour l’application

Conclusion

Page 32: 0 Grégory PALLONE gregory@pallone.fr Dilatation et transposition sous contraintes perceptives des signaux audio : application au transfert cinéma-vidéo.

32

II. Classification des méthodes

III. Innovations algorithmiques

IV. Conception de l’HARMO

V. Conclusion et résultats

I. Problématique

Matériel Logiciel

Page 33: 0 Grégory PALLONE gregory@pallone.fr Dilatation et transposition sous contraintes perceptives des signaux audio : application au transfert cinéma-vidéo.

33

IV. Conception de l’HARMO

Processeurs : 2 DSP : « Analog Device SHARC 21065L », 60MHz • 1 pour l’algorithme• 1 pour l’IHM et la communication entre machines

DSP

Matériel [Deschamps]

Rééchantillonnage : Composant spécialisé (SRC) : « Crystal CS8420 »

SRC

Multicanal: Lien physique synchronisant les paramètres

Liens

Page 34: 0 Grégory PALLONE gregory@pallone.fr Dilatation et transposition sous contraintes perceptives des signaux audio : application au transfert cinéma-vidéo.

34

IV. Conception de l’HARMO

Codage:• Mémoire interne limitée :

Program Memory (PM) : 36KoData Memory (DM) : 32Ko

Traitement de l’ autocorrélation normalisée « au vol » Traitement du fondu-enchaîné « au vol »

• Optimisation Mise de données en PM pour la Multiplication-Accumulation Certaines routines en assembleur (le reste en C)

Logiciel [Monteil, Adam, Pallone]

Multicanal: • 1 machine « maître », les autres « esclave » ou « indépendant »• Création d’un signal de référence (respect des relations de phase)

Liaison entre machines:• Création d’un protocole de communication

Page 35: 0 Grégory PALLONE gregory@pallone.fr Dilatation et transposition sous contraintes perceptives des signaux audio : application au transfert cinéma-vidéo.

35

II. Classification des méthodes

III. Innovations algorithmiques

IV. Conception de l’HARMO

V. Conclusion et résultats

I. Problématique

Page 36: 0 Grégory PALLONE gregory@pallone.fr Dilatation et transposition sous contraintes perceptives des signaux audio : application au transfert cinéma-vidéo.

36

Des contraintes respectées…

Algorithme

Machine

Contraintede qualité

sonore

Contraintede formatmulticanal

Contrainte économique

Contraintetemps-réel

Validation sur unebanque de sons-test

Contrainte de délai de réalisation

V. Conclusion

Page 37: 0 Grégory PALLONE gregory@pallone.fr Dilatation et transposition sous contraintes perceptives des signaux audio : application au transfert cinéma-vidéo.

37

… et des contributions apportées.

Algorithme

V. Conclusion

Classificationdes méthodes

Innovationsalgorithmique

s

Elaboration d’une banque

de sons-test spécifique

Page 38: 0 Grégory PALLONE gregory@pallone.fr Dilatation et transposition sous contraintes perceptives des signaux audio : application au transfert cinéma-vidéo.

38

Films traités par l’HARMO(liste non-exhaustive des films sortis jusqu’en janvier 2002)

Réalisateur Date de sortie

Conversion cinéma --> vidéoLe stade de Wimbledon Mathieu Almaric 30/01/2002L'emploi du temps Laurent Cantet 14/11/2001Va savoir Jacques Rivette 10/10/2001Une hirondelle a fait le printemps Christian Carion 05/09/2001Mauvais genre Francis Girod 08/08/2001Trouble every day Claire Denis 11/07/2001Eloge de l'amour Jean-Luc Godart 16/05/2001Les visiteurs en Amérique (just visiting) Jean-Marie Gaubert 11/04/2001Yamakasi Ariel Zeitoun 04/04/2001Intimité (Intimacy) Patrice Chereau 28/03/2001Barnie et ses petites contrariétés Bruno Chiche 21/02/2001Le pacte des loups Christophe Gans 31/01/2001Calle 54 Fernando Trueba 13/12/2000Harry un ami qui vous veut du bien Dominik Moll 15/08/2000Taxi 2 Gérard Krawczyk 29/03/2000

Conversion vidéo --> cinémaSuper 8 stories Emir Kusturica 10/10/2001Loin André Techiné 29/08/2001

V. Conclusion

Page 39: 0 Grégory PALLONE gregory@pallone.fr Dilatation et transposition sous contraintes perceptives des signaux audio : application au transfert cinéma-vidéo.

39

V. Conclusion

VOIXSuzanne Vega« Tom’s diner »

MUSIQUE(Voix + accordéon)

Jacques Brel« Vesoul »

Démonstration temps-réel de l’HARMO

Dilatationsimple(+20%)

Transposition-p(+20%)

Dilatation-p(+20%)

Dilatation-p(-20%)

Original Harmonisé

Dilatationsimple(-20%)

Transposition-p(-20%)

Original Harmonisé