1 Outils pour la Spécification et le Développement de Têtes Parlantes J.-C. Martin AMI: C....
-
Upload
tilde-roche -
Category
Documents
-
view
102 -
download
0
Transcript of 1 Outils pour la Spécification et le Développement de Têtes Parlantes J.-C. Martin AMI: C....
1
Outils pour la Outils pour la Spécification et le Spécification et le Développement de Développement de
Têtes ParlantesTêtes ParlantesJ.-C. MartinJ.-C. Martin
AMIAMI: C. Jacquemin, J.-P. Sansonnet, S. Morel: C. Jacquemin, J.-P. Sansonnet, S. MorelPSPS: B. Katz, C. d’Alessandro: B. Katz, C. d’Alessandro
LIRLIR: A. Max: A. Max
2
PlanPlan
Contexte International Contexte International Contexte LIMSIContexte LIMSI Objectifs du projetObjectifs du projet Planning prévisionnelPlanning prévisionnel Résultats et publications prévuesRésultats et publications prévues BudgetBudget
3
Contexte InternationalContexte International Cohen, M. M. and Massaro, D. W. (1993). Modeling coarticulation in Cohen, M. M. and Massaro, D. W. (1993). Modeling coarticulation in
synthetic visual speech. synthetic visual speech. Models and Techniques in Computer Models and Techniques in Computer AnimationAnimation. M. Magnenat-Thalmann and D. Thalmann. Springer-Verlag: . M. Magnenat-Thalmann and D. Thalmann. Springer-Verlag: Tokyo, AAAI/MIT PressTokyo, AAAI/MIT Press: : 243-261. 243-261.
L. Revéret, G. Bailly, and P. Badin. Mother: a new generation of talking heads providing a flexible articulatory control for video-realistic speech animation. in Proceedings of the International Conference on Speech and Language Processing. 2000. Beijing, China.
Pandzic, I. S. (2002). Pandzic, I. S. (2002). MPEG-4 Facial Animation. The Standard, MPEG-4 Facial Animation. The Standard, Implementation and Applications.Implementation and Applications., Wiley. , Wiley.
Bailly, G., Bérar, M., Elisei, F. and Odisi, M. (2003). "Audiovisual Bailly, G., Bérar, M., Elisei, F. and Odisi, M. (2003). "Audiovisual Speech Synthesis." Speech Synthesis." International Journal of Speech Technology. Special International Journal of Speech Technology. Special Issue on Speech Synthesis: Part II.Issue on Speech Synthesis: Part II. 66(4): 331-346.(4): 331-346.
Beskow, J. (2003). Talking Heads - Models and Applications for Beskow, J. (2003). Talking Heads - Models and Applications for Multimodal Speech Synthesis, Stockholm. Multimodal Speech Synthesis, Stockholm.
4
Contexte InternationalContexte International
Ma, J., Cole, R., Pellom, B., Ward, W. and Wise, B. (2004). Ma, J., Cole, R., Pellom, B., Ward, W. and Wise, B. (2004). "Accurate automatic visible speech synthesis of arbitrary 3D "Accurate automatic visible speech synthesis of arbitrary 3D models based on concatenation of diviseme motion capture models based on concatenation of diviseme motion capture data." data." Computer Animation and Virtual WorldsComputer Animation and Virtual Worlds 1515(5): 485 – (5): 485 – 500500
DeCarlo, D., Stone, M., Revilla, C. and Venditti, J. (to appear). DeCarlo, D., Stone, M., Revilla, C. and Venditti, J. (to appear). "Specifying and Animating Facial Signals for Discourse in "Specifying and Animating Facial Signals for Discourse in Embodied Conversational Agents." Journal of Visualisation Embodied Conversational Agents." Journal of Visualisation and Computer Animationand Computer Animation
… … communauté et workshops audio visual speechcommunauté et workshops audio visual speech
E. Reiter et R. Dale (2000) Building Natural Language E. Reiter et R. Dale (2000) Building Natural Language Generation Systems, Cambridge University Press Generation Systems, Cambridge University Press
5
Contexte InternationalContexte International Rutgers University Rutgers University
Talking Head (RUTH)Talking Head (RUTH) Texte étiquetéTexte étiqueté DeCarlo, D., Stone, M., DeCarlo, D., Stone, M.,
Revilla, C. and Venditti, J. Revilla, C. and Venditti, J. (to appear). "Specifying (to appear). "Specifying and Animating Facial and Animating Facial Signals for Discourse in Signals for Discourse in Embodied Conversational Embodied Conversational Agents." Journal of Agents." Journal of Visualisation and Visualisation and Computer Animation. Computer Animation.
((far ((register "HL") (accent "L+H*") (jog "TR")))
(greater ((accent "!H*") (tone "H-") (blink) (jog)))
(than ((register "HL-H") (brow "1+2")))
(any ())
(similar ((accent "L+H*") (jog "D*")))
(object ((pos nn) (tone "L-") (blink) (brow)))
(ever ((register "L") (accent "H*") (jog "U*")))
(discovered ((accent "L+!H*") (tone "L-L%") (blink))))
6
Contexte InternationalContexte International Rutgers University Talking Head (RUTH) : Rutgers University Talking Head (RUTH) :
http://www.cs.rutgers.edu/~village/ruth/http://www.cs.rutgers.edu/~village/ruth/ AT&T AnimatedHead: Animation of Persons Using Text : AT&T AnimatedHead: Animation of Persons Using Text :
http://www.research.att.com/projects/AnimatedHead/http://www.research.att.com/projects/AnimatedHead/ Audio-visual speech web lab : Audio-visual speech web lab :
http://www.faculty.ucr.edu/~rosenblu/lab-index.htmlhttp://www.faculty.ucr.edu/~rosenblu/lab-index.html Virtual Human Web resources : Virtual Human Web resources :
http://www.ordinarymagic.com/v-people/Webresources.hthttp://www.ordinarymagic.com/v-people/Webresources.htmlml
Face Modeling Language Face Modeling Language http://ivizlab.sfu.ca/arya/Research/fml_1.htmlhttp://ivizlab.sfu.ca/arya/Research/fml_1.html
H-ANIM H-ANIM http://www.h-anim.org/http://www.h-anim.org/
FACS FACS http://face-and-emotion.com/dataface/facs/description.jsphttp://face-and-emotion.com/dataface/facs/description.jsp
7
PoserPoser
8
Contexte InternationalContexte International Parole audiovisuelle + communication + émotionParole audiovisuelle + communication + émotion
Combinaisons / conflits entre : mouvements des lèvres, sourcis, Combinaisons / conflits entre : mouvements des lèvres, sourcis, mouvements de tête, regard, interactivité/interruptionmouvements de tête, regard, interactivité/interruption
Intérêt pour les phonèmes labiodentals, bilabialesIntérêt pour les phonèmes labiodentals, bilabiales Cohérence et synchronisationCohérence et synchronisation
ApprochesApproches Modèle paramétrique 2D / 3D (Parke 1982), géométrique ou Modèle paramétrique 2D / 3D (Parke 1982), géométrique ou
musculaire, langue, trajectoires des paramètresmusculaire, langue, trajectoires des paramètres Images + morphingImages + morphing Capture du mouvementCapture du mouvement Différents degrés de réalismeDifférents degrés de réalisme Visèmes, co-articulation (di-visèmes articulation d’un visème à un Visèmes, co-articulation (di-visèmes articulation d’un visème à un
autre)autre) Module synthèse vocale fournit des informations au module Module synthèse vocale fournit des informations au module
d’animation, feedbackd’animation, feedback
Applications à des domaines variésApplications à des domaines variés e-commerce, réalité augmentée, formation, étude de la e-commerce, réalité augmentée, formation, étude de la
communication, handicapcommunication, handicap
9
Contexte LIMSIContexte LIMSI
Blum A., Amandine Afonso, Christian Blum A., Amandine Afonso, Christian Jacquemin, Brian Katz., (2004). Jacquemin, Brian Katz., (2004). Expérimentation sur la Perception de Expérimentation sur la Perception de l'Espace en Réalité Virtuelle Immersive l'Espace en Réalité Virtuelle Immersive Audio. In Proceedings, IHM'04, Namur, Audio. In Proceedings, IHM'04, Namur, BelgiqueBelgique
10
Contexte LIMSIContexte LIMSI R.Prudon, P. Boula de Mareüil, C. d’Alessandro, R.Prudon, P. Boula de Mareüil, C. d’Alessandro,
“Unit Selection Synthesis of Prosody: Evaluation “Unit Selection Synthesis of Prosody: Evaluation Using Diphone Transplantation”, in Shri Narayanan Using Diphone Transplantation”, in Shri Narayanan and Abeer Alwan (Eds) “Text to Speech Synthesis: and Abeer Alwan (Eds) “Text to Speech Synthesis: New Paradigms and Advances” Chapitre 9, Prentice New Paradigms and Advances” Chapitre 9, Prentice Hall, ISBN: 013145661X; juillet 2004, p. 203-217 Hall, ISBN: 013145661X; juillet 2004, p. 203-217
Olivier Ferret, Brigitte Grau, Martine Hurault-Olivier Ferret, Brigitte Grau, Martine Hurault-Plantet, Gabriel Illouz, Christian Jacquemin (2002) Plantet, Gabriel Illouz, Christian Jacquemin (2002) « Quand la réponse se trouve dans un grand corpus, « Quand la réponse se trouve dans un grand corpus, revue Ingénierie des Systèmes d'Information », revue Ingénierie des Systèmes d'Information », n°spécial Recherche et filtrage d'information sous la n°spécial Recherche et filtrage d'information sous la direction de Catherine Berrut et Mohand direction de Catherine Berrut et Mohand Boughanem, Volume 7 - n°1-2/2002, pp. 95-123Boughanem, Volume 7 - n°1-2/2002, pp. 95-123
11
Contexte LIMSIContexte LIMSI
AAATE’2005: AAATE’2005: JCM/OG/JNJCM/OG/JN
Context’2005, Context’2005, HCII’2005:HCII’2005:CP (Greta) /LD/SACP (Greta) /LD/SA
12
Objectifs du projetObjectifs du projet
Fédération Fédération d’expertisesd’expertises d’outils d’outils d’objectifsd’objectifs … … complémentaires / émergentescomplémentaires / émergentes
OriginalitéOriginalité Son 3DSon 3D
Représentations simples du visageReprésentations simples du visage
13
Objectifs du projetObjectifs du projetGénération d’énoncés (Q&A)
LIR
Synthèse de la parolePS
Génération spécifications visèmesPS / AMI
Animation faciale par interpolation / points de contrôleAMI
Spatialisation audio 3DPS
VirChor Poser
PC /VideoProjeté mur
Langages de représentationProtocole de communication
14
Planning prévisionnel (1 Planning prévisionnel (1 an)an)
MaiMai Etude de l’existant et analyse des Etude de l’existant et analyse des besoinsbesoins
Etude et test de quelques travaux Etude et test de quelques travaux extérieursextérieurs
Présentation des modules Présentation des modules individuelsindividuels
Juin - Juin - SeptembSeptemb
rere
SpécificationsSpécificationsSélection d’une application Q&ASélection d’une application Q&A
Langage de représentation des Langage de représentation des messagesmessages
Adaptation / devt. des modules Adaptation / devt. des modules individuelsindividuels
NovembNovembre - re -
JanvierJanvier
Intégration logicielleIntégration logicielle
MarsMars Tests utilisateursTests utilisateurs
15
Résultats et publicationsRésultats et publications
Echange d’expertisesEchange d’expertises Intégration d’outils complémentairesIntégration d’outils complémentaires Publications (dans les 2 ans)Publications (dans les 2 ans)
1 ou 2 revue en acoustique / parole1 ou 2 revue en acoustique / parole 1 ou 2 conférences / revues multimodal CHM1 ou 2 conférences / revues multimodal CHM
Coopérations avec d’autres thématiques du Coopérations avec d’autres thématiques du LIMSILIMSI Certains membres déjà affiliés dans VeniseCertains membres déjà affiliés dans Venise Intégration future à une thématique avatars, Intégration future à une thématique avatars,
réalité augmentéeréalité augmentée
16
Budget demandé au LIMSI Budget demandé au LIMSI sur 1 ansur 1 an
MONTANT
PUBLICATIONS (conférences et revues)
Multimodal et Communication Homme-Machine (ICMI, IVA, CHI) 3,000
Parole et traitement du langage (ICSLP, TAL, acta acoustica, JASA) 3,000
VACATIONS
Animation faciale (Virtual Choreographer et Poser) 2,000
Synthèse vocale 2,500
Intégration système Questions / Réponses 2,000
MATERIEL
Matériel de mesure et locuteurs 2,500
LOGICIELS
Upgrade poser 6 200
TOTAL 15,200