1 Outils pour la Spécification et le Développement de Têtes Parlantes J.-C. Martin AMI: C....

1

Outils pour la Outils pour la Spécification et le Spécification et le Développement de Développement de

Têtes ParlantesTêtes ParlantesJ.-C. MartinJ.-C. Martin

AMIAMI: C. Jacquemin, J.-P. Sansonnet, S. Morel: C. Jacquemin, J.-P. Sansonnet, S. MorelPSPS: B. Katz, C. d’Alessandro: B. Katz, C. d’Alessandro

LIRLIR: A. Max: A. Max

2

PlanPlan

Contexte International Contexte International Contexte LIMSIContexte LIMSI Objectifs du projetObjectifs du projet Planning prévisionnelPlanning prévisionnel Résultats et publications prévuesRésultats et publications prévues BudgetBudget

3

Contexte InternationalContexte International Cohen, M. M. and Massaro, D. W. (1993). Modeling coarticulation in Cohen, M. M. and Massaro, D. W. (1993). Modeling coarticulation in

synthetic visual speech. synthetic visual speech. Models and Techniques in Computer Models and Techniques in Computer AnimationAnimation. M. Magnenat-Thalmann and D. Thalmann. Springer-Verlag: . M. Magnenat-Thalmann and D. Thalmann. Springer-Verlag: Tokyo, AAAI/MIT PressTokyo, AAAI/MIT Press: : 243-261. 243-261.

L. Revéret, G. Bailly, and P. Badin. Mother: a new generation of talking heads providing a flexible articulatory control for video-realistic speech animation. in Proceedings of the International Conference on Speech and Language Processing. 2000. Beijing, China.

Pandzic, I. S. (2002). Pandzic, I. S. (2002). MPEG-4 Facial Animation. The Standard, MPEG-4 Facial Animation. The Standard, Implementation and Applications.Implementation and Applications., Wiley. , Wiley.

Bailly, G., Bérar, M., Elisei, F. and Odisi, M. (2003). "Audiovisual Bailly, G., Bérar, M., Elisei, F. and Odisi, M. (2003). "Audiovisual Speech Synthesis." Speech Synthesis." International Journal of Speech Technology. Special International Journal of Speech Technology. Special Issue on Speech Synthesis: Part II.Issue on Speech Synthesis: Part II. 66(4): 331-346.(4): 331-346.

Beskow, J. (2003). Talking Heads - Models and Applications for Beskow, J. (2003). Talking Heads - Models and Applications for Multimodal Speech Synthesis, Stockholm. Multimodal Speech Synthesis, Stockholm.

4

Contexte InternationalContexte International

Ma, J., Cole, R., Pellom, B., Ward, W. and Wise, B. (2004). Ma, J., Cole, R., Pellom, B., Ward, W. and Wise, B. (2004). "Accurate automatic visible speech synthesis of arbitrary 3D "Accurate automatic visible speech synthesis of arbitrary 3D models based on concatenation of diviseme motion capture models based on concatenation of diviseme motion capture data." data." Computer Animation and Virtual WorldsComputer Animation and Virtual Worlds 1515(5): 485 – (5): 485 – 500500

DeCarlo, D., Stone, M., Revilla, C. and Venditti, J. (to appear). DeCarlo, D., Stone, M., Revilla, C. and Venditti, J. (to appear). "Specifying and Animating Facial Signals for Discourse in "Specifying and Animating Facial Signals for Discourse in Embodied Conversational Agents." Journal of Visualisation Embodied Conversational Agents." Journal of Visualisation and Computer Animationand Computer Animation

… … communauté et workshops audio visual speechcommunauté et workshops audio visual speech

E. Reiter et R. Dale (2000) Building Natural Language E. Reiter et R. Dale (2000) Building Natural Language Generation Systems, Cambridge University Press Generation Systems, Cambridge University Press

5

Contexte InternationalContexte International Rutgers University Rutgers University

Talking Head (RUTH)Talking Head (RUTH) Texte étiquetéTexte étiqueté DeCarlo, D., Stone, M., DeCarlo, D., Stone, M.,

Revilla, C. and Venditti, J. Revilla, C. and Venditti, J. (to appear). "Specifying (to appear). "Specifying and Animating Facial and Animating Facial Signals for Discourse in Signals for Discourse in Embodied Conversational Embodied Conversational Agents." Journal of Agents." Journal of Visualisation and Visualisation and Computer Animation. Computer Animation.

((far ((register "HL") (accent "L+H*") (jog "TR")))

(greater ((accent "!H*") (tone "H-") (blink) (jog)))

(than ((register "HL-H") (brow "1+2")))

(any ())

(similar ((accent "L+H*") (jog "D*")))

(object ((pos nn) (tone "L-") (blink) (brow)))

(ever ((register "L") (accent "H*") (jog "U*")))

(discovered ((accent "L+!H*") (tone "L-L%") (blink))))

6

Contexte InternationalContexte International Rutgers University Talking Head (RUTH) : Rutgers University Talking Head (RUTH) :

http://www.cs.rutgers.edu/~village/ruth/http://www.cs.rutgers.edu/~village/ruth/ AT&T AnimatedHead: Animation of Persons Using Text : AT&T AnimatedHead: Animation of Persons Using Text :

http://www.research.att.com/projects/AnimatedHead/http://www.research.att.com/projects/AnimatedHead/ Audio-visual speech web lab : Audio-visual speech web lab :

http://www.faculty.ucr.edu/~rosenblu/lab-index.htmlhttp://www.faculty.ucr.edu/~rosenblu/lab-index.html Virtual Human Web resources : Virtual Human Web resources :

http://www.ordinarymagic.com/v-people/Webresources.hthttp://www.ordinarymagic.com/v-people/Webresources.htmlml

Face Modeling Language Face Modeling Language http://ivizlab.sfu.ca/arya/Research/fml_1.htmlhttp://ivizlab.sfu.ca/arya/Research/fml_1.html

H-ANIM H-ANIM http://www.h-anim.org/http://www.h-anim.org/

FACS FACS http://face-and-emotion.com/dataface/facs/description.jsphttp://face-and-emotion.com/dataface/facs/description.jsp

7

PoserPoser

8

Contexte InternationalContexte International Parole audiovisuelle + communication + émotionParole audiovisuelle + communication + émotion

Combinaisons / conflits entre : mouvements des lèvres, sourcis, Combinaisons / conflits entre : mouvements des lèvres, sourcis, mouvements de tête, regard, interactivité/interruptionmouvements de tête, regard, interactivité/interruption

Intérêt pour les phonèmes labiodentals, bilabialesIntérêt pour les phonèmes labiodentals, bilabiales Cohérence et synchronisationCohérence et synchronisation

ApprochesApproches Modèle paramétrique 2D / 3D (Parke 1982), géométrique ou Modèle paramétrique 2D / 3D (Parke 1982), géométrique ou

musculaire, langue, trajectoires des paramètresmusculaire, langue, trajectoires des paramètres Images + morphingImages + morphing Capture du mouvementCapture du mouvement Différents degrés de réalismeDifférents degrés de réalisme Visèmes, co-articulation (di-visèmes articulation d’un visème à un Visèmes, co-articulation (di-visèmes articulation d’un visème à un

autre)autre) Module synthèse vocale fournit des informations au module Module synthèse vocale fournit des informations au module

d’animation, feedbackd’animation, feedback

Applications à des domaines variésApplications à des domaines variés e-commerce, réalité augmentée, formation, étude de la e-commerce, réalité augmentée, formation, étude de la

communication, handicapcommunication, handicap

9

Contexte LIMSIContexte LIMSI

Blum A., Amandine Afonso, Christian Blum A., Amandine Afonso, Christian Jacquemin, Brian Katz., (2004). Jacquemin, Brian Katz., (2004). Expérimentation sur la Perception de Expérimentation sur la Perception de l'Espace en Réalité Virtuelle Immersive l'Espace en Réalité Virtuelle Immersive Audio. In Proceedings, IHM'04, Namur, Audio. In Proceedings, IHM'04, Namur, BelgiqueBelgique

10

Contexte LIMSIContexte LIMSI R.Prudon, P. Boula de Mareüil, C. d’Alessandro, R.Prudon, P. Boula de Mareüil, C. d’Alessandro,

“Unit Selection Synthesis of Prosody: Evaluation “Unit Selection Synthesis of Prosody: Evaluation Using Diphone Transplantation”, in Shri Narayanan Using Diphone Transplantation”, in Shri Narayanan and Abeer Alwan (Eds) “Text to Speech Synthesis: and Abeer Alwan (Eds) “Text to Speech Synthesis: New Paradigms and Advances” Chapitre 9, Prentice New Paradigms and Advances” Chapitre 9, Prentice Hall, ISBN: 013145661X; juillet 2004, p. 203-217 Hall, ISBN: 013145661X; juillet 2004, p. 203-217

Olivier Ferret, Brigitte Grau, Martine Hurault-Olivier Ferret, Brigitte Grau, Martine Hurault-Plantet, Gabriel Illouz, Christian Jacquemin (2002) Plantet, Gabriel Illouz, Christian Jacquemin (2002) « Quand la réponse se trouve dans un grand corpus, « Quand la réponse se trouve dans un grand corpus, revue Ingénierie des Systèmes d'Information », revue Ingénierie des Systèmes d'Information », n°spécial Recherche et filtrage d'information sous la n°spécial Recherche et filtrage d'information sous la direction de Catherine Berrut et Mohand direction de Catherine Berrut et Mohand Boughanem, Volume 7 - n°1-2/2002, pp. 95-123Boughanem, Volume 7 - n°1-2/2002, pp. 95-123

11

Contexte LIMSIContexte LIMSI

AAATE’2005: AAATE’2005: JCM/OG/JNJCM/OG/JN

Context’2005, Context’2005, HCII’2005:HCII’2005:CP (Greta) /LD/SACP (Greta) /LD/SA

12

Objectifs du projetObjectifs du projet

Fédération Fédération d’expertisesd’expertises d’outils d’outils d’objectifsd’objectifs … … complémentaires / émergentescomplémentaires / émergentes

OriginalitéOriginalité Son 3DSon 3D

Représentations simples du visageReprésentations simples du visage

13

Objectifs du projetObjectifs du projetGénération d’énoncés (Q&A)

LIR

Synthèse de la parolePS

Génération spécifications visèmesPS / AMI

Animation faciale par interpolation / points de contrôleAMI

Spatialisation audio 3DPS

VirChor Poser

PC /VideoProjeté mur

Langages de représentationProtocole de communication

14

Planning prévisionnel (1 Planning prévisionnel (1 an)an)

MaiMai Etude de l’existant et analyse des Etude de l’existant et analyse des besoinsbesoins

Etude et test de quelques travaux Etude et test de quelques travaux extérieursextérieurs

Présentation des modules Présentation des modules individuelsindividuels

Juin - Juin - SeptembSeptemb

rere

SpécificationsSpécificationsSélection d’une application Q&ASélection d’une application Q&A

Langage de représentation des Langage de représentation des messagesmessages

Adaptation / devt. des modules Adaptation / devt. des modules individuelsindividuels

NovembNovembre - re -

JanvierJanvier

Intégration logicielleIntégration logicielle

MarsMars Tests utilisateursTests utilisateurs

15

Résultats et publicationsRésultats et publications

Echange d’expertisesEchange d’expertises Intégration d’outils complémentairesIntégration d’outils complémentaires Publications (dans les 2 ans)Publications (dans les 2 ans)

1 ou 2 revue en acoustique / parole1 ou 2 revue en acoustique / parole 1 ou 2 conférences / revues multimodal CHM1 ou 2 conférences / revues multimodal CHM

Coopérations avec d’autres thématiques du Coopérations avec d’autres thématiques du LIMSILIMSI Certains membres déjà affiliés dans VeniseCertains membres déjà affiliés dans Venise Intégration future à une thématique avatars, Intégration future à une thématique avatars,

réalité augmentéeréalité augmentée

16

Budget demandé au LIMSI Budget demandé au LIMSI sur 1 ansur 1 an

MONTANT

PUBLICATIONS (conférences et revues)

Multimodal et Communication Homme-Machine (ICMI, IVA, CHI) 3,000

Parole et traitement du langage (ICSLP, TAL, acta acoustica, JASA) 3,000

VACATIONS

Animation faciale (Virtual Choreographer et Poser) 2,000

Synthèse vocale 2,500

Intégration système Questions / Réponses 2,000

MATERIEL

Matériel de mesure et locuteurs 2,500

LOGICIELS

Upgrade poser 6 200

TOTAL 15,200

1 Outils pour la Spécification et le Développement de Têtes Parlantes J.-C. Martin AMI: C....

Documents

Transcript of 1 Outils pour la Spécification et le Développement de Têtes Parlantes J.-C. Martin AMI: C....