"Traitement du signal social et robotique personnelle: Signaux actes ...

236

Transcript of "Traitement du signal social et robotique personnelle: Signaux actes ...

Page 1: "Traitement du signal social et robotique personnelle: Signaux actes ...

Université Pierre et Marie Curie � Paris 6Institut des Systèmes Intelligents et de

Robotique

Habilitation à Dirigerdes Recherches

Spécialité "Sciences de l'ingénieur"

par

Mohamed CHETOUANI

Traitement du signal social

et robotique personnelle :Signaux, actes de communication et

comportements

Soutenance le 8 Décembre 2011 devant le jury composé de

Dr. Rachid Alami LAAS-CNRS (Rapporteur)Pr Gaël Richard Institut Telecom - LTCI-CNRS (Rapporteur)Dr. Alessandro Vinciarelli IDIAP-Université de Glasgow (Rapporteur)Pr Nick Campbell Trinity College (Examinateur)Pr. Philippe Bidaud UPMC-CNRS (Examinateur)Pr. Jean-Luc Zarader UPMC-CNRS (Examinateur)Pr. David Cohen UPMC-CNRS (Invité)

Page 2: "Traitement du signal social et robotique personnelle: Signaux actes ...
Page 3: "Traitement du signal social et robotique personnelle: Signaux actes ...

Remerciements

Les travaux présentés dans ce mémoire d'habilitation à diriger des re-cherches ont été réalisés avec des étudiants que j'ai encadré sans qui toutcela n'aurait pas été possible : Fabien Ringeval, Ammar Mahdhaoui, Cathe-rine Saint-Georges, Cong Zong, Consuelo Granata, Emilie Delaherche, JadeLe Maître et sans oublier l'ensemble des stagiaires et visiteurs.

Je tiens également à remercier ceux qui m'ont accueilli et m'ont permisde développer mes activités de recherche avec liberté, con�ance et respect :Jean-Luc Zarader, Maurice Milgram et Philippe Bidaud. Leurs conseils ontété utiles et grandement appréciés.

Mes activités n'auraient sûrement pas prises la même direction et encoremoins la même envergure sans le soutien de David Cohen que je tiens toutparticulièrement à remercier. J'ai ainsi eu l'honneur et la chance de béné�cierd'un cadre applicatif très riche au sein du service de psychiatrie de l'enfant etde l'adolescent de l'hôpital de la Pitié-Salpétriére. Mes plus vifs remerciementss'adressent à l'ensemble du personnel du service, pour nous avoir accueilli, auxpatients et leurs familles pour leurs engagements volontaires dans la rechercheet Filippo Muratori qui, par sa générosité scienti�que, nous a permis d'entre-prendre des recherches sur des bases de données inestimables.

Je tiens à associer à ces remerciements mes collègues qui ont accompa-gné cette aventure : Catherine Achard, Kévin Bailly, Laurence Chaby, XavierClady, Nizar Ouarti et Monique Plaza. Mes remerciements vont également àl'ensemble des membres de l'Institut des Systèmes Intelligents et de Robotiquepour avoir crée un cadre de travail riche et rigoureux.

C'est avec grand plaisir que je remercie les rapporteurs de mon mémoirepour la caution qu'ils ont bien voulu accorder à mes travaux : Rachid Alami,Gaël Richard et Alessandro Vinciarelli. Mes remerciements vont également àNick Campbell pour m'avoir fait l'honneur de participer à mon jury.

Bon nombre de mes travaux ont trouvé leurs inspirations dans les re-cherches menées par des collègues plus expérimentés que j'ai rencontré lorsde congrès, d'écoles d'été ou de visites : Rachid Alami, Gérard Bailly, NickCampbell, Gérard Chollet, Thierry Dutoit, Anna Esposito, Marcos Faundez-Zanuy, Bjorn Granstrom, David House, Amir Hussain, Eric Keller, CatherinePelachaud, Bjorn Schuller, Alessandro Vinciarelli, ainsi que l'ensemble despartenaires des projets collaboratifs (COST 277 et 2102, ROBADOM, Miche-langelo...).

En�n, ces remerciements ne seraient pas complets sans mentionner mafamille qui a été directement impactée par mes activités de recherche. Cetravail est ainsi dédié à l'ensemble des membres de ma famille pour le soutiendémesuré dont ils ont fait preuve.

Page 4: "Traitement du signal social et robotique personnelle: Signaux actes ...
Page 5: "Traitement du signal social et robotique personnelle: Signaux actes ...

iii

Résumé

Les travaux présentés dans ce document concernent la caractérisation, ladétection et l'analyse de la composante sociale des signaux échangés entre unhumain et son partenaire (humain-robot-agent virtuel). Les modèles proposéstrouvent leurs fondements dans un domaine émergent : le traitement dusignal social. D'un point de vue méthodologique, nos travaux couvrent lesétapes d'analyse, de caractérisation et de prédiction de signaux sociaux ens'appuyant sur des modèles statistiques issues du traitement du signal, de lareconnaissance des formes et de l'apprentissage. Nous avons proposé, et tentéde promouvoir, un domaine spéci�que : le traitement de signaux sociauxatypiques. L'idée étant de faire converger, dans les traitements et les modéli-sations, des connaissances issues du traitement du signal, de l'apprentissage,de la psychologie et de la psychiatrie. Les enjeux théoriques (e.g. modèles dela dynamique des signaux échangés), applicatifs (e.g. diagnostic di�érentiel)et sociétaux (e.g. conception de systèmes d'assistance) sont multiples. Noscontributions portent sur la caractérisation du signal de parole (identitéet a�ect), sur la dynamique de la communication humaine (synchronieinteractionnelle) et sur l'intelligence sociale. Les modèles développés et lesrésultats obtenus permettent de dé�nir un programme de recherche portantsur l'analyse, la modélisation et la prédiction des composantes multi-modaleet dynamique de l'interaction sociale.

Mots clés : extraction de caractéristiques, modélisations statistiques, trai-tement du signal social, robotique personnelle, apprentissage, synchronie in-teractionnelle, coordination multi-modale, engagement, émotion.

Abstract

Works presented in this document concern the characterization, thedetection and the analysis of social components of signals exchanged bet-ween a human and his partner (human-robot-virtual agent). The proposedmodels are rooted in an emerging �eld : social signal processing. From amethodological point of view, our works cover analysis, characterization andprediction of social signals based on statistical models : signal processing,pattern recognition and machine learning. We have proposed and tried topromote a speci�c area : aytpical social signal processing. The idea is toconverge, in the processing and modeling, knowledge from signal processing,machine learning, psychology and psychiatry. The theoretical issues (e.g.dynamic human communication modeling), application issues (e.g. di�erential

Page 6: "Traitement du signal social et robotique personnelle: Signaux actes ...

iv

diagnosis) and societal issues (e.g. design of assistive devices) are numerous.Our contribution focuses on the characterization of speech signals (identityand a�ect), dynamics of human communication (interactional synchrony)and social intelligence. The developed models and obtained results allow tode�ne a research agenda on the analysis, the modeling and the prediction ofmulti-modal and dynamic components of social interaction.

Keywords : feature extraction, statistical modeling, social signal proces-sing, personal robotics, learning, interactional synchrony, multi-modal coordi-nation, engagement, emotion.

Page 7: "Traitement du signal social et robotique personnelle: Signaux actes ...

Table des matières

Table des �gures vii

Liste des tableaux xii

Introduction générale 1

Contexte et motivations . . . . . . . . . . . . . . . . . . . . . . . . 1Traitement du signal social . . . . . . . . . . . . . . . . . . . . . . . 3Positionnement et thèmes de recherche . . . . . . . . . . . . . . . . 10

1 Caractérisation de signaux de parole : du signal au message

social 13

1.1 Contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.2 Encodage des informations dans la parole . . . . . . . . . . . . 14

1.2.1 Informations véhiculées . . . . . . . . . . . . . . . . . . 141.2.2 Caractérisation automatique de signaux de parole . . . 15

1.3 L'information locuteur . . . . . . . . . . . . . . . . . . . . . . 181.3.1 Résidu de prédiction . . . . . . . . . . . . . . . . . . . 191.3.2 Prise en compte de la nature du résidu . . . . . . . . . 201.3.3 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . 221.3.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . 24

1.4 Informations non-verbales . . . . . . . . . . . . . . . . . . . . 251.4.1 Caractérisation des dimensions temporelles et intégra-

tives : Ancrages acoustiques . . . . . . . . . . . . . . . 281.4.2 Dynamique du signal de parole : Rythme . . . . . . . . 37

1.5 Emotions chez les enfants atteints de troubles de la communi-cation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 441.5.1 Fonctionnalité grammaticale de la prosodie . . . . . . . 461.5.2 Fonctionnalité émotionnelle . . . . . . . . . . . . . . . 50

1.6 Apprentissage pour la caractérisation de signaux de parole ensituation réaliste . . . . . . . . . . . . . . . . . . . . . . . . . 511.6.1 Motherese . . . . . . . . . . . . . . . . . . . . . . . . . 521.6.2 Classi�cation de données naturelles et spontanées . . . 521.6.3 Problématique de l'apprentissage semi-supervisé . . . . 541.6.4 Co-apprentissage multi-vues . . . . . . . . . . . . . . . 561.6.5 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . 57

1.7 Discussion générale . . . . . . . . . . . . . . . . . . . . . . . . 58

Page 8: "Traitement du signal social et robotique personnelle: Signaux actes ...

vi Table des matières

2 Dynamique de la communication humaine 61

2.1 Contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 612.2 Synchronie interactionnelle . . . . . . . . . . . . . . . . . . . . 61

2.2.1 Dé�nitions . . . . . . . . . . . . . . . . . . . . . . . . . 622.2.2 Implications dans le développement de l'enfant . . . . . 632.2.3 Implications dans les interactions sociales chez l'adulte 632.2.4 Implications pour la robotique interactive . . . . . . . 642.2.5 Caractérisation automatique de la synchronie . . . . . 64

2.3 Modélisation intégrative de la synchronie . . . . . . . . . . . . 672.3.1 Signes précoces de l'autisme : étude de �lms familiaux 672.3.2 Modélisation computationnelle de la synchronie . . . . 682.3.3 Interprétation des résultats . . . . . . . . . . . . . . . . 732.3.4 Limites des méthodes basées sur l'annotation de com-

portements . . . . . . . . . . . . . . . . . . . . . . . . 752.4 Coordination multi-modale : du signal à l'interprétation . . . . 76

2.4.1 Synchronie et intégration multi-modale . . . . . . . . . 772.4.2 Des indices non-verbaux au degré de coordination . . . 822.4.3 Limites des méthodes basées uniquement sur des infor-

mations de bas-niveau . . . . . . . . . . . . . . . . . . 872.5 Discussion générale . . . . . . . . . . . . . . . . . . . . . . . . 87

3 Intelligence sociale pour la robotique personnelle 89

3.1 Contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 893.2 Dynamique de l'interaction Homme-Robot . . . . . . . . . . . 90

3.2.1 Dé�nitions . . . . . . . . . . . . . . . . . . . . . . . . . 913.2.2 Caractérisation automatique de l'engagement . . . . . 92

3.3 Supports non-verbaux de la dynamique d'une interaction . . . 943.3.1 Communication phatique . . . . . . . . . . . . . . . . . 943.3.2 Modélisation de la communication . . . . . . . . . . . . 94

3.4 Caractérisation du degré d'engagement . . . . . . . . . . . . . 973.4.1 Détection de l'interlocuteur . . . . . . . . . . . . . . . 973.4.2 Du self-talk à une métrique de l'engagement . . . . . . 100

3.5 Robotique d'assistance . . . . . . . . . . . . . . . . . . . . . . 1033.5.1 Interface multi-modale . . . . . . . . . . . . . . . . . . 1033.5.2 Engagement dans une interaction physique . . . . . . . 104

3.6 Discussion générale . . . . . . . . . . . . . . . . . . . . . . . . 109

Projet de recherche 111

Dynamique de la communication . . . . . . . . . . . . . . . . . . . 111Interfaces et intelligence sociale . . . . . . . . . . . . . . . . . . . . 114De l'investigation clinique aux sciences sociales computationnelles . 116

Page 9: "Traitement du signal social et robotique personnelle: Signaux actes ...

Table des matières vii

Curriculum vitæ 117

Sélection d'articles 135

Investigation on LP-Residual Representations For Speaker Identi�-cation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136

Time-scale feature extractions for emotional speech characterization 145Automatic intonation recognition for the prosodic assessment of lan-

guage impaired children . . . . . . . . . . . . . . . . . . . . . 154Supervised and semi-supervised infant-directed speech classi�cation

for parent-infant interaction analysis . . . . . . . . . . . . . . 170Do parents recognize autistic deviant behavior long before diagnosis ?

taking into account interaction using computational methods . 184Generating Robot/Agent Backchannels During a Storytelling Expe-

riment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198

Bibliographie 205

Page 10: "Traitement du signal social et robotique personnelle: Signaux actes ...
Page 11: "Traitement du signal social et robotique personnelle: Signaux actes ...

Table des �gures

1 Traitement du signal social : Exploitation d'indices non-verbaux (�gure adaptée de [Vinciarelli et al., 2009]) . . . . . . 4

1.1 Reconnaissance automatique des rôles de locuteurs . . . . . . 141.2 Processus d'encodage des informations dans la parole. Figure

tirée de [Ringeval, 2011] et initialement adaptée de [Fujisaki,2004] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1.3 Traitements temporels et fréquentiels appliqués au résidu r. . . 221.4 Segments voisés d'un signal de parole : rôle de la durée dans la

proéminence . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261.5 Identi�cation d'unités d'analyses par alignement "d'états émo-

tionnels" (Viterbi) . . . . . . . . . . . . . . . . . . . . . . . . 271.6 Diversité des ancrages acoustiques et rythmiques de la parole . 291.7 Système de détection de pseudo-phonèmes dans un signal de

parole . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301.8 Comparaison d'une segmentation phonétique manuelle vs au-

tomatique d'une phrase extraite du corpus TIMIT. . . . . . . 311.9 Evolution des mesures de durée des voyelles et des consonnes

selon les émotions . . . . . . . . . . . . . . . . . . . . . . . . . 331.10 Cascade de �ltres employés par [Tilsen and Johnson, 2008] pour

l'extraction de l'enveloppe rythmique d'un signal de parole. . . 341.11 Exemple d'enveloppe rythmique extraite d'un signal de parole 341.12 Principe de caractérisation dynamique des composantes proso-

diques incluant le rythme de la parole (�gure extraite de [Rin-geval, 2011]) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

1.13 Analyse basses fréquences du rythme : enveloppe rythmique etsa transformée de Fourier . . . . . . . . . . . . . . . . . . . . . 41

1.14 Contribution des métriques du rythme . . . . . . . . . . . . . 441.15 Variations des mesures issues des modèles du rythme conven-

tionnels (a), mixtes (b) et non conventionnels (c) selon les ca-tégories d'émotions ; (d) roue des émotions de Plutchik . . . . 45

1.16 Pro�ls intonatifs selon le contour du pitch . . . . . . . . . . . 471.17 Stratégie de reconnaissance des contours intonatifs . . . . . . . 491.18 Espace des caractéristiques formé par les métriques rythmiques 511.19 Distribution des données selon les trois semestres étudiés . . . 531.20 Exemple d'annotation du motherese . . . . . . . . . . . . . . . 541.21 Courbes ROC décrivant les performances de détection du mo-

therese : Comb1 (Classi�eur k-nn), Comb2 (Classi�eur GMM) 55

Page 12: "Traitement du signal social et robotique personnelle: Signaux actes ...

x Table des �gures

1.22 Performance en classi�cation avec di�érente quantité de don-nées étiquetées en apprentissage . . . . . . . . . . . . . . . . . 58

2.1 Signes précoces d'autisme en fonction de l'âge et des principauxaxes de développement [Saint-Georges, 2011] . . . . . . . . . . 68

2.2 Analyse automatique de l'interaction parent-bébé . . . . . . . 692.3 Représentation développementale des principaux modes d'in-

teraction du bébé à devenir autistique [Saint-Georges, 2011] . 742.4 Représentation développementale des principaux modes d'in-

teraction du bébé à devenir autistique [Saint-Georges, 2011] . 762.5 Di�érentes étapes du système de caractérisation automatique

de la synchronie [Delaherche and Chetouani, 2010] . . . . . . . 782.6 Con�gurations expérimentales . . . . . . . . . . . . . . . . . . 782.7 Paramètres de la synchronie interactionnelle . . . . . . . . . . 812.8 Principe de reconnaissance de signaux sociaux . . . . . . . . . 822.9 Degré de coordination perçu par de juges en fonction de l'ac-

cord inter-juge (mean weighted kappa), mesuré sur l'ensembledes dyades et des items du questionnaire [Delaherche and Che-touani, 2011a] . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

3.1 Principe du modèle de génération de feedback non-verbaux . . 973.2 Principe de détection de l'interlocuteur : on-view + on-talk . . 983.3 Maintien du contact visuel : Implementation sur le robot Jazz 993.4 Situation triadique : cas de l'interaction patient - exercice de

stimulation - thérapeute/robot (projet ROBADOM [Chetouaniet al., 2010]) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

3.5 Description du système proposé pour l'évaluation du degréd'engagement . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

3.6 Principe de l'interface multi-modale déployée dans un robot deservice pour personnes âgées . . . . . . . . . . . . . . . . . . . 104

3.7 Illustrations de travaux exploitant des signaux physiologiques . 1063.8 Caractérisation de signaux physiologiques basée sur la �ssion

de données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1063.9 Trajectoire du centre de masse . . . . . . . . . . . . . . . . . . 109

Page 13: "Traitement du signal social et robotique personnelle: Signaux actes ...

Liste des tableaux

1.1 Correspondance entre les sessions et les microphones. . . . . . 231.2 Performances en identi�cation de locuteur dans des conditions

diverses (enrôlement lors de la session M1) avec des modélisa-tions temporelles, fréquentielles et mixtes . . . . . . . . . . . 24

1.3 Caractéristiques principales des corpus de parole étudiés . . . 321.4 Comparaison des résultats en détection de pseudo-phonèmes

sur divers corpus (en %) . . . . . . . . . . . . . . . . . . . . . 321.5 Performances en détection de pseudo-phonèmes selon les styles

de production du corpus Berlin (en %) . . . . . . . . . . . . . 321.6 Taux de recouvrement des "p-centres" en % avec les autres

types d'ancrage acoustique de la parole (moyenne et écart-type) 351.7 Scores (en %) de reconnaissance des émotions sur le corpus Ber-

lin : e�et des normalisations des informations a priori. L'impor-tance relative des segments est indiquée entre parenthèses (αi

cf équation 1.14 ) . . . . . . . . . . . . . . . . . . . . . . . . . 361.8 Scores (en %) de reconnaissance des émotions sur le corpus Berlin 371.9 Résumé des caractéristiques des métriques conventionnelles du

rythme de la parole (extrait de [Ringeval, 2011]) . . . . . . . . 391.10 Résumé des caractéristiques des métriques non-

conventionnelles du rythme de la parole (extrait de [Ringeval,2011]) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

1.11 Quantité de phrases disponibles selon les groupes d'analyse dela tâche d'imitation des contours intonatifs . . . . . . . . . . . 47

1.12 Performances en reconnaissance de l'intonation (%) : modéli-sation statique, dynamique et sur la fusion des deux pour lessujets DT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

1.13 Analyse des contributions des approches statique et dynamiquedans la caractérisation de l'intonation chez les enfants . . . . . 49

1.14 Quantité de groupes de sou�e disponible pour l'analyse de latâche de production de parole spontanée a�ective . . . . . . . 50

1.15 Algorithme de co-apprentissage . . . . . . . . . . . . . . . . . 561.16 Algorithme de co-apprentissage automatique pour la classi�ca-

tion du motherese . . . . . . . . . . . . . . . . . . . . . . . . . 57

2.1 Corrélation entre la sortie du classi�eur (probabilité) et le scored'évaluation du degré de coordination. . . . . . . . . . . . . . 86

3.1 Quantité d'auto-verbalisation et de parole adressée au système 101

Page 14: "Traitement du signal social et robotique personnelle: Signaux actes ...

xii Liste des tableaux

3.2 Scores de reconnaissance (10 folds cross-validation) . . . . . . 1013.3 Estimation de l'e�ort d'interaction (degré d'engagement) . . . 1033.4 Scores de classi�cation à partir de quatre signaux physiologiques1073.5 Estimation de paramètres temporels de la marche . . . . . . . 108

Page 15: "Traitement du signal social et robotique personnelle: Signaux actes ...

Introduction générale

Dans ce mémoire sont présentés les travaux de recherche que j'ai menésdepuis ma thèse de doctorat, soutenue en décembre 2004. Ils ont été réalisésau Laboratoire des Instruments et Systèmes d'Ile-de-France en tant qu'ATER(2004-2005) et puis en tant que Maître de Conférences depuis Septembre 2005.Une partie des travaux présentés dans ce mémoire a été réalisée lors de séjoursinvités à l'Université Polytechnique de Mataro (Espagne) et l'Université deStirling (Ecosse) (printemps/été 2005). Depuis 2007, je mène mes activités derecherche au sein de l'Institut des Systèmes Intelligents et de Robotique (ISIRUMR 7222).

Contexte

La recherche sur les modèles computationnels permettant l'analyse de l'in-teraction centrée sur l'humain s'est, ces dernières années, considérablementaccélérée. L'interaction peut être dirigée vers d'autres partenaires humainsmais également vers des machines (ordinateurs, agents virtuels, robots). Lesmodèles computationnels ont pour objet la caractérisation automatique dessignaux échangés avec l'humain durant l'interaction. Diverses approches sontactuellement suivies pour l'analyse et la compréhension de l'interaction. L'uned'entre elles vient de la psychologie cognitive et se concentre sur l'émotion[Picard, 1997]. L'idée principale de ce concept, également appelé informa-tique a�ective (a�ective computing), est que la perception des émotions d'au-trui se fait sur la base de signaux stéréotypés (expressions faciales, prosodie,gestes,...). Une autre approche, venant de la linguistique, a pour objet la sé-mantique des signaux communicatifs [Argyle, 1987; Kendon et al., 1975]. Plusrécemment, un nouveau domaine de recherche a été proposé pour l'étude del'interaction : le Traitement du Signal Social (Social Signal Processing, SSP)[Pentland, 2007]. Le traitement du signal social se concentre sur l'analyse designaux sociaux en mesurant l'amplitude, la fréquence et la durée de la proso-die, des mouvements de la tête ou bien encore des gestes. Il di�ère des autresapproches dans le sens où il s'intéresse à des signaux non linguistiques et le plussouvent inconscients. Comme nous le verrons dans la suite de ce document,le traitement du signal social a pour objet la prédiction de comportements oud'attitudes (accord, intérêt, attention...) par l'analyse automatique de signauxnon-verbaux.

L'analyse des signaux de communication verbale et non-verbale est auc÷ur des méthodologies développées pour l'interprétation de situations inter-

Page 16: "Traitement du signal social et robotique personnelle: Signaux actes ...

2 Introduction générale

actives [Kendon et al., 1975; Picard, 1997; Vinciarelli et al., 2008]. Le Trai-tement Automatique de la Parole (TAP) apporte des outils fondamentauxpour l'analyse et la compréhension de la composante verbale de l'interaction.Les signaux non-verbaux, qui ont une expression qui di�ère selon les modali-tés, requièrent une méthodologie spéci�que. Vinciarelli et al. [2008] identi�entcinq indices pour la caractérisation de signaux non-verbaux : l'apparence phy-sique, les gestes et la posture, les comportements du visage et des yeux, lecomportement vocal, les comportements dans l'espace et l'environnement. Lacombinaison de ces di�érents indices permet de transmettre diverses informa-tions comme l'émotion, l'intention. Les signaux non-verbaux jouent un rôlefondamental dans la gestion de l'interaction et dans la transmission de mes-sages relationnels (dominance, persuasion, intention, etc.).

Les travaux décrits dans ce manuscrit ont pour objet l'exploitation de cer-tains indices non-verbaux pour l'analyse de l'interaction dans des situationsdiverses avec un humain, un agent virtuel ou un robot et, le plus souvent,dans des contextes d'investigation clinique et d'assistance. Dans la lignée denos travaux de thèse, nous nous sommes concentrés sur le signal de paroleavec la spéci�cité de s'intéresser au message social transmis et non le contenulinguistique. Les indices non-verbaux associés au signal de parole incluent lespauses silencieuses, les vocalisations (pauses remplies, rire, pleurs, etc.), lesstyles de parole (émotion, intention, etc.) et les tours de parole. La commu-nication étant par essence multi-modale et dynamique, nous avons cherché àcaractériser les signaux multi-modaux échangés avec les humains.

Les objectifs de ces travaux sont multiples et visent principalement à :

- Améliorer de la compréhension des interactions sociales : processus émo-tionnels et intermodaux.

- Détecter automatiquement les indices non-verbaux pertinents (porteursd'informations) lors d'interactions sociales.

- Développer des systèmes interactifs, sociaux et multi-modaux pour l'as-sistance de personnes dé�cientes

Le traitement du signal du social associé à la robotique personnelle dans dessituations réalistes et le plus souvent avec des partenaires dé�cients (autistes,personnes âgées avec ou sans troubles cognitifs) constituent les �ls conducteursde nos recherches.

Page 17: "Traitement du signal social et robotique personnelle: Signaux actes ...

Introduction générale 3

Traitement du signal social

Dé�nitions

Les signaux sociaux sont dé�nis comme étant des signaux communicatifsou informatifs qui, directement ou indirectement, fournissent des informationssur des "faits sociaux" comme les émotions ou bien encore les relations sociales.Lorsque l'émetteur associe un sens à ces signaux, ils sont alors considéréscomme communicatifs, et si le récepteur de ces signaux y associe égalementun sens, ils sont alors considérés comme informatifs. L'analyse automatiquede ces signaux est identi�ée comme un verrou pour l'interprétation et la syn-thèse de comportements sociaux et est l'objet d'un domaine émergent appelétraitement du signal social : Social Signal Processing1 (SSP)[Pentland, 2007;Vinciarelli et al., 2009].

Le traitement du signal social est un domaine de recherche interdiscipli-naire qui consiste à analyser, interpréter et prédire les interactions sociales.Il vise à étudier un autre volet de l'intelligence appelée intelligence sociale.Elle se traduit par la capacité de l'humain à prédire avec succès l'état mentald'autrui (théorie de l'esprit), de lui attribuer des intentions, des émotions...Un défaut de ces capacités caractérise certaines pathologies (e.g. l'autisme).Le compréhension et la gestion des signaux sociaux sont des étapes fondamen-tales de l'intelligence sociale. Une des di�cultés réside dans les formes diversesque peuvent prendre les signaux sociaux avec une prépondérance reconnue desindices non-verbaux (cf. �gure 1).

L'analyse ainsi que la synthèse de signaux par des méthodes issues dutraitement du signal et de l'informatique au sens large sont au c÷ur des pré-occupations du traitement du signal social. Les premiers travaux initiés dansle domaine ont montré que les signaux sociaux, généralement décrits commeidenti�ables par des experts de la psychologie, peuvent être actuellement trai-tés via des capteurs standards tels que des microphones et des caméras, etinterprétés par des techniques issues du traitement du signal, des statistiqueset de l'apprentissage arti�ciel [Pentland, 2004, 2007; Vinciarelli et al., 2009].La synthèse n'est pas en reste car les techniques issues du graphisme et del'interaction homme-machine permettent actuellement de réaliser des agentscommunicants animés (ACA) "réalistes" avec des comportements dits "natu-rels" et surtout sociaux [Swartout et al., 2006; Pelachaud, 2009].

1http ://sspnet.eu/

Page 18: "Traitement du signal social et robotique personnelle: Signaux actes ...

4 Introduction générale 1. MOTIVATIONS ET CONTEXTE

5

F ig. 1.3 Indices comportementaux et signaux sociaux ; figure reproduite de [VIN09]20. peuvent prendre la forme de constellations complexes !"#$!#%&'(non-verbaux du comporte-

ment (e.g., expressions faciales, de la prosodie, des gestes, de la posture, etc.) accompagnant

les interactions Homme-Homme ou Homme-machine, cf. Fig. 1.3. )"#$*+,-*(!&(."/$/.0'&(!&'('#1$/23('4%#/23(&'*(#55&$'&(62#'72"&..&(6&,5&*(!&(%4$*,#82&,(9(

la fois à la compréhension des informations véhiculées par les codes sociaux, mais également

à la tâche « !"#$%&'()&*(+' » des systèmes communicants. En effet, une interprétation précise

de ces signaux par les machines leur permettrait de prendre en compte les paramètres sociaux

présents dans les interactions Homme-machine. Toutefois, les signaux non-verbaux présentent

une forte dynamique et une interdépendance qui complexifient la tâche de caractérisation des

#$:4,5/*#4$'(72"#.'(;+<#%2.&$*(=>?@ABC22. Des études ont cependant 54$*,+(72"#.(&'*(!+D9(64s-

'#8.&(!"#!&$*#:#&,(./(6&,'4$$&(!45#$/$*&(!/$'(2$&(%4$;&,'/*#4$([ARA10]23 et [CAM09]24, ou

encore de gérer les rétroactions dans les interactions Homme-machine [ALM09]25, cf. Fig. 1.4.

1.5. Enjeux théoriques et applicatifs Les enjeux théoriques de cette thèse concernent à la fois le domaine du TAP orienté émo-

tion et le SSP ; puisque ces dernières font parties des interactions sociales. Notre étude a eu

pour objectif !"#!&$*#:#&,( .&'( !#::+,&$*'( 6/,/5E*,&'( #$*&,;&$/$*( !/$'( ./( %4552$#%/*#4$( 4,/.&(

des émotions. N4'(*,/;/23(4$*(*42*(!"/84,!(%4$'#'*+(9(définir des m+*<4!&'(6&,5&**/$*(!"iden-

tifier automatiquement les supports temporels sur lesquels les informations sont ancrées dans

22

M. Argyle, The Psychology of Interpersonal Behaviour, dans Penguin, 1967. 23

O. Aran et D. Gatica-Perez, FFusing audio-visual nonverbal cues to detect dominant people in small group

conversationGH(!/$'(6,4%I(ICPR, Istanbul, Turkey, Aug. 23-26 2010, pp. 3687J3690. 24

KI(L/568&..H(F>$(/2!#4-visual approach to measuring discourse synchrony in multimodal conversati4$(!/*/GH(

dans proc. Interspeech, Brighton, UK, Sep. 6-10 2009, pp. 2159J2162. 25

S. Al Moubayed, M. Baklouti, M. Chetouani, T. Dutoit, A. Mahdhaoui, J. C. Martin, S. Ondas, C. Pelachaud,

J. Urbain et M. Yilmaz, FGenerating robot/agent backchannels during a storytelling experimentG, dans proc.

IEEE Inter. C . on Rob. and Automation, Kobe, Japan, May 12-17 2009, pp. 2477J2482.

Signaux sociaux

Fig. 1: Traitement du signal social : Exploitation d'indices non-verbaux (�gure

adaptée de [Vinciarelli et al., 2009])

Emergence d'un domaine

Au sein de la communauté naissante en traitement du signal social, unconsensus se dégage autour de l'aspect encore exploratoire du domaine. Ce-pendant, la caractérisation de signaux sociaux permet dès à présent de traiterd'applications aussi diverses que le développement de systèmes de dialoguemulti-modaux ou bien encore l'analyse de pro�ls d'utilisateurs de téléphone...Cette section a pour vocation la présentation de l'état actuel de ce domaineémergent par l'exposé de quelques exemples jugés signi�catifs.

Dé�nition de travail

La dé�nition même des phénomènes traités par le traitement du signalsocial est en cours de précision. En introduction, nous avons évoqué une dé�-nition dite de travail : "Un signal social est un signal communicatif ou informa-

tif qui, directement ou indirectement, fournit des informations sur des "faits

sociaux" comme les émotions ou bien encore les relations sociales". Cette dé-�nition proposée par le réseau d'excellence SSPNet2 place la communicationavec autrui au centre des modélisations et des traitements.

Pentland [2008] propose les "signaux honnêtes" (honest signals) dont ladé�nition initiale est : "behaviors that are su�ciently hard to fake that they can

form the basis for a reliable channel of communication". Ces signaux peuvent

2http ://sspnet.eu/

Page 19: "Traitement du signal social et robotique personnelle: Signaux actes ...

Introduction générale 5

bien évidemment avoir un volet social et ont été exploités pour la prédictionde comportements dans des situations diverses comme la prédiction de l'issud'une négociation [Curhan and Pentland, 2007].

La composante interactive ou sociale des traitements apporte un angled'analyse di�érent. Par exemple, les émotions sociales di�èrent des émotionsdites individuelles. Ces dernières correspondent le plus souvent aux émotionsprimaires telles que la tristesse ou la joie. Elles sont considérées comme indivi-duelles car non dirigées vers autrui. Les émotions sociales ont pour objet mêmela production d'un e�et chez le partenaire comme c'est le cas de l'admirationou de la compassion. Les émotions sociales ont un rôle régulateur dans l'in-teraction et sont souvent exprimées via des émotions dites non-prototypiques.Nous reviendrons dans ce document sur l'intérêt de cette distinction ainsi quesur les enjeux de la dé�nition des signaux sociaux.

Quelques travaux signi�catifs

La prédiction de comportements humains est un des enjeux du traitementdu signal social. Et comme tout dé�, il est légitime d'en étudier les limites ca-ractérisées ici par la prédictibilité. Song et al. [2010] ont mené une étude visantà étudier la prédictibilité des comportements humains en exploitant le télé-phone mobile des utilisateurs comme source d'informations (géolocalisation).La méthodologie mise en ÷uvre pour la modélisation des comportements estbasée sur des mesures d'entropie combinées à des modèles statistiques d'in-formations de géolocalisation [Song et al., 2010]. Sur un ensemble de 50 000utilisateurs, les auteurs montrent que la prédictibilité de la mobilité satureà 93% pour tous les trajets réguliers de plus de 10km. Ce résultat montreque, sous une apparence aléatoire, les comportements sont caractérisés parune certaine régularité.

Les modèles statistiques trouvent leurs fondements dans le traitement dusignal, la reconnaissance des formes ou l'apprentissage. Ces modèles exploitentla régularité pour l'extraction d'informations de haut-niveau. Les exemplesprésentés dans cette section ont pour objectifs d'illustrer les méthodologiesmises en ÷uvre pour la caractérisation de signaux sociaux et d'identi�er lesdé�s majeurs de ce domaine de recherche.

Activité humaine Eagle and Pentland [2009] ont proposé de représenterla structure des comportements quotidiens par une analyse en composantesprincipales d'informations de géolocalisation. Les vecteurs propres de cetteanalyse sont appelés "Eigenbehaviors" en référence aux Eigenfaces (traite-ment des expressions faciales). Les activités quotidiennes d'un individu sontexpliquées par les composantes principales. Les n premiers axes de l'analyse

Page 20: "Traitement du signal social et robotique personnelle: Signaux actes ...

6 Introduction générale

caractérisent les comportements répétitifs (être à la maison, au travail...).Les autres axes décrivent des comportements moins précis et surtout moinstypiques de l'individu. Cette analyse �ne des comportements peut-être égale-ment étendue à des groupes d'individus. Pentland a ainsi proposé un domainede recherche appelé "fouille de la réalité" (reality mining) et considéré par leTechnology Review Magazine comme une des dix technologies qui changerontnotre façon de vivre.

L'idée principale de la fouille de la réalité est d'exploiter la régularité descomportements. On retrouve une idée similaire dans la fouille de données (datamining). L'analyse sémantique latente o�re une modélisation souvent jugéecomme pertinente pour la fouille de documents. Les facteurs favorisant le rap-prochement de l'analyse de comportements humains à celles des documentssont (1) une représentation des données souvent assez simples (histogrammes,sac de mots...) (2) une décomposition permettant une interprétation séman-tique de haut-niveau, et pour certains modèles (3) la combinaison de méthodessupervisées et non-supervisées et (4) la décomposition probabiliste permet-tant une décomposition dite souple. Chapitre 2, nous présenterons quelquescontributions dans l'analyse et la découverte de structures régulières dans lescomportements humains sur des données longitudinales (plusieurs mois) etdans une perspective interactive (in�uence mutuelle des partenaires).

Les approches inspirées de la fouille de données exploitent des méthodesde décomposition pour la dé�nition d'espace sémantique permettant l'identi�-cation et la prédiction de comportements. Un des dé�s consiste à proposer desméthodes combinant l'identi�cation de structure, souvent basée sur des ap-proches non-supervisées, et la prédiction basée sur des approches supervisées.Farrahi and Gatica-Perez [Aug. 2010] ont récemment élégamment combiné cesapproches en exploitant des modèles thématiques (topic model) probabilistes(LDA, Latent Dirichlet Analysis).

Tout simplement l'activité vocale... L'interaction est intrinsèquementliée à la production verbale, et l'activité vocale est le re�et des stratégies dechaque intervenant. Dans [Campbell, 2010], on retrouve une analyse intéres-sante de situations interactives (dialogue, réunion) basée sur l'activité vocalesans identi�cation du contenu linguistique. Campbell suggère que la synchro-nie de l'activité vocale de plusieurs locuteurs peut être utilisée dans la caracté-risation de l'interaction : relations entre les locuteurs, phases de propositions,accord, intérêt... L'activité vocale ne traduit pas seulement la prise de paroled'un individu mais également les moments de silence (incluant les pauses) quijouent un rôle dans la coordination. Dans un contexte multi-modal, Campbella également montré que l'activité vocale d'un individu était corrélée avec laquantité de mouvement [Campbell, 2008, 2010]. Le rôle des participants dans

Page 21: "Traitement du signal social et robotique personnelle: Signaux actes ...

Introduction générale 7

une interaction in�ue directement la dynamique de l'activité vocale (tours deparole). Vinciarelli [2009] exploite la proximité temporelle des interventionsen vue de la construction d'un réseau d'a�liation sociale (Social A�liationNework). Ce réseau est un graphe constitué de deux types de n÷uds repré-sentant les acteurs et les événements. Les acteurs sont les participants et lesévénements sont dé�nis, dans ce travail, par des fenêtres temporelles de du-rée uniforme. La participation d'un acteur à un événement permet de lierles événements. Il en découle une représentation simple des relations entre lesparticipants. Chaque individu est représenté par un vecteur comptabilisant lesparticipations à chaque événement. La caractérisation de la proximité tempo-relle des interventions a été appliquée avec succès à la reconnaissance de rôleset à la caractérisation de groupes sociaux...[Vinciarelli, 2009]. La modélisationde la dynamique temporelle des signaux sociaux est une étape commune à ungrand nombre de problématiques en traitement du signal social. Les chapitres1 et 2 présenteront certains aspects de la caractérisation temporelle de signauxsociaux pour l'interprétation de comportements humains.

Agent sensitif Dans un contexte d'interaction avec un agent virtuel ouun robot, la dynamique des échanges dépend de l'interprétation des signauxsociaux émis par l'humain mais également de la capacité de l'agent à produiredes réponses adéquates.

Un cadre théorique intéressant pour étudier cette dynamique est la syn-thèse d'auditeur dit actif (Active Listening). La situation consiste à dévelop-per un agent attentif aux signaux émis par le partenaire humain. L'attentions'exprime par la production de rétroactions (e.g. hochement de tête, vocali-sations). L'approche généralement suivie consiste à apprendre des règles decommunication à partir de situations interactives n'impliquant que des hu-mains (data-driven approach). Les modèles computationnels sont enrichis pardes connaissances issues de la pragmatique (ajustements verbal et non-verbal).L'extraction d'informations de bas niveau (indices acoustiques, prosodiques,mouvements de la tête ou bien encore la direction du regard) est une étape re-quise dans la modélisation de l'interaction [Morency et al., 2008; Al Moubayedet al., 2009].

Un des dé�s est la dé�nition de méthodes d'apprentissage dotées de ca-pacité (1) d'extraction des signaux pertinents incluant souvent une phase desélection de caractéristiques, (2) de capacité de généralisation à des situationsinteractives complexes. En e�et, même si la pragmatique et la psychologiede l'interaction o�rent une base de connaissance exploitable (et à exploiter),les travaux de recherche visant à apprendre la dynamique d'une interactionmontrent qu'il n'est pas simple d'identi�er le rôle des signaux. De plus, lesmodèles issus d'apprentissage de situations face-à-face avec uniquement des

Page 22: "Traitement du signal social et robotique personnelle: Signaux actes ...

8 Introduction générale

humains tendent à re�éter des comportements individuels et souvent stéréo-typés du fait du contexte expérimental, et limitent d'autant plus la capacitéde l'agent à interagir dans de nouvelles situations.

A titre d'exemple, citons le projet SEMAINE qui est à l'origine d'un sys-tème intégré basé sur un agent conversationnel animé (ACA) dont la spéci�citéest l'adaptation en temps-réel du dialogue et de l'état de l'ACA en fonction dela perception de signaux sociaux [Schroder et al., 2011]. Un des dé�s majeursest la conception de systèmes interactifs "enrichis" de capacité de perceptionet d'adaptation à des signaux sociaux permettant ainsi une régulation plusaboutie (durée, qualité, �uidité...).

Pathologies, états psychologiques, psychiatrie Comme nous le verronsdans ce mémoire, le traitement de signaux sociaux "atypiques" résultant leplus souvent de pathologies o�re un cadre privilégié en se focalisant sur larecherche de marqueurs di�érentiels. Cohn [2010] présente un état des tra-vaux actuels en traitement automatique du visage pour l'objectivation d'étatssociaux, psychologiques ou encore pathologiques. Les méthodes d'analyse d'ex-pressions faciales ont ainsi été exploitées pour la caractérisation de la synchro-nie émotionnelle mère-enfant, la détection de la douleur ou encore l'estimationdu degré de sévérité de la dépression. Cohn [2010] insiste, à juste titre, sur lepotentiel de ces méthodes en recherche clinique.

Dans un contexte général de compréhension du développement de l'enfant,Meltzo� et al. [2009] ont proposé un cadre théorique et expérimental, ap-pelé Social Learning, regroupant la psychologie, les neurosciences, les sciencesde l'éducation ainsi que l'apprentissage arti�ciel. L'apprentissage social, So-cial Learning, a pour objectif l'introduction d'une composante sociale dansles modèles (computationnels ou non). Les auteurs identi�ent trois compé-tences requises : l'imitation, l'attention conjointe et l'empathie. L'imitationrequiert l'observation et permet, le plus souvent, un apprentissage plus rapidequ'une approche basée uniquement sur la découverte individuelle. L'attentionconjointe permet le partage d'informations, la concentration sur les élémentspertinents de l'interaction (e.g instant clef, objet). L'empathie et les émotionssociales régulent les actes interactifs. Ces composantes sont mises en perspec-tive d'une convergence de domaines disciplinaires di�érents a�n d'améliorer lesconnaissances sur l'apprentissage social. A noter que les robots sont employéscomme outil d'investigation en exploitant leurs capacités d'apprentissage etplus généralement d'agentivité [Meltzo� et al., 2010]. Le développement deméthodes computationnelles pour l'étude et l'analyse de l'interaction, notam-ment en pathologie, est directement in�uencé par des domaines tels que lapsychologie et les neurosciences. Au cours de nos recherches, nous avons tentéde promouvoir cette convergence comme en témoignent les travaux présentés

Page 23: "Traitement du signal social et robotique personnelle: Signaux actes ...

Introduction générale 9

dans ce manuscrit.

Enjeux théoriques et applicatifs

Le traitement du signal social o�re de nouvelles perspectives pour l'ana-lyse et la synthèse automatique de comportements en proposant des problè-matiques de recherches innovantes et focalisées sur l'interaction. En plaçant lecontexte social au centre des études, le traitement du signal social fait évoluerles connaissances sur l'interaction (e.g. émotions individuelles vs. sociales).Comme indiqué dans [Vinciarelli et al., 2011], la notion même de comporte-ments a changé ces dernières années ; la problématique, initialement centréesur la détection d'actions simples (marche, geste), se focalise actuellementsur des composantes sociales, a�ectives, et plus généralement psychologiquesdes actions. Les recherches menées sur la détection, le suivi ou bien encorela reconnaissance d'actions simples restent bien évidemment d'actualité maisle contexte social permet, dans de nombreux cas, de lever des ambiguïtés etd'améliorer les performances globales d'interprétation.

Les enjeux tant théoriques qu'applicatifs ont été décrits dans une récenterevue de la littérature [Vinciarelli et al., 2011]. Ils correspondent à l'étudede l'intelligence sociale à la fois pour l'analyse et pour la synthèse de com-portements dans des contextes interactifs. Parmi les applications mentionnéeson notera l'indexation enrichie (émotions, rire), les téléphones de dernièregénération (géolocalisation, analyse de conversation), l'interaction médiatisée(visioconférence), le marketing (pro�ls d'utilisateurs), les mondes virtuels (e.g.Second Life), les agents conversationnels animés et la robotique sociale.

Les travaux que nous avons menés portent sur un sous-ensemble du traite-ment du signal social à savoir l'analyse et l'interprétation de signaux et de com-portements. L'ambiguïté des signaux sociaux et la subjectivité de l'évaluationsouvent associées rendent la caractérisation complexe. Sur ce point, nous ver-rons que la recherche clinique o�re un cadre singulier favorisant une démarcherigoureuse. Les modèles proposés d'analyse et d'interprétation de signaux so-ciaux exploitent la régularité des signaux et de comportements humains. Cetterégularité s'exprime lorsque les comportements humains sont contextualisés :temps, espace et également sociaux. Vinciarelli et al. [2011] mentionnent desdé�s importants du domaine : multimodalité, fusion et contexte :

Multimodalité La communication étant multimodale, l'exploitation deplusieurs sources d'informations doit permettre d'a�ner les traitements. Ce-pendant, la compréhension des contributions individuelles des signaux dans lesuccès de l'interaction multi-modale est identi�ée comme un verrou majeur.

Page 24: "Traitement du signal social et robotique personnelle: Signaux actes ...

10 Introduction générale

Fusion D'un point de vue méthodologique, la fusion est au centre du trai-tement du signal multimodal. Les problématiques sont similaires à d'autresdomaines comme la biométrie [Faundez-Zanuy, 2005], et requièrent d'étudier leniveau de fusion (e.g. espace des caractéristiques, décision...), les corrélationsexistantes (e.g. complémentarité, redondance) [Kuncheva, 2004] mais égale-ment les échelles temporelles (e.g. fenêtre d'analyse, contingence) [Chetouaniet al., 2009d].

Contexte Du fait de la nature des signaux sociaux, l'analyse et l'inter-prétation sont souvent dépendantes du contexte. Un des verrous majeurs entraitement du signal social consiste à passer d'un contexte W4 (where, what,when, who), traitant uniquement d'informations apparentes, à un contexteW5+ (where, what, when, who, why, how). Ce niveau d'informations est re-quis pour l'analyse de comportements, d'états psychologiques et cognitifs. Laprise en compte d'un tel niveau de contexte par les systèmes interactifs est auc÷ur de l'intelligence sociale.

Positionnement et thèmes de recherche

Traitement de signaux sociaux atypiques

Nos activités de recherche portent sur l'analyse, la caractérisation, la re-connaissance, la modélisation de signaux et de comportements sociaux. Larichesse et la complexité des signaux de communication et des comportementsimposent des modèlesations non-linéaires, adaptatives et contextualisées (per-sonne, environnement, tâche, état cognitif/a�ectif...). Nos travaux ont été mo-tivés par la compréhension des mécanismes fondamentaux de la communica-tion, exprimés le plus souvent par l'échange de signaux. Nous avons porté uneattention toute particulière aux modi�cations de ces échanges qui se traduisentpar des troubles de la communication (autisme, troubles cognitifs légers).

Le traitement du signal social a, par essence, un lien avec la psycholo-gie, et nos activités de recherche nous ont amenées à tisser des liens avecla psychologie et la psychiatrie. Nous avons de ce fait proposé ou du moinstenté de promouvoir un domaine spéci�que : le traitement de signaux sociauxatypiques.

Nos collaborations avec la clinique ont grandement contribué à a�ner notrevision du traitement du signal social. Ce document a pour vocation de pré-senter cette vision orientée vers la caractérisation, l'analyse et la prédictionde signaux et de comportements sociaux.

Page 25: "Traitement du signal social et robotique personnelle: Signaux actes ...

Introduction générale 11

Positionnement

D'un point de vue méthodologique, mes travaux couvrent des étapes im-portantes du traitement du signal social (Machine sensing and understandingof social behaviors), de la robotique personnelle (socially assistive robotics)en s'appuyant sur des méthodes statistiques issues du traitement du signal,de la reconnaissance des formes et de l'apprentissage. Mes contributions sontici traduites en trois pôles jugés représentatifs des travaux menés :

1. La caractérisation des composantes sociales du signal de parole (de-puis 2005), autour duquel subsistent un certain nombre de verrous, no-tamment en ce qui concerne l'extraction de caractéristiques re�étant lemessage social, et leur classi�cation dans des contextes variés : interac-tion homme-robot, interaction avec des personnes dé�cientes ou encorenaïves.

2. Dynamique de la communication humaine (depuis 2007), les dé�s scien-ti�ques résident dans la reconnaissance, la modélisation et la prédictiondes comportements non-verbaux humains par essence non-linéaires, dy-namiques et asynchrones.

3. L'intelligence sociale pour la robotique personnelle (depuis 2008), la re-connaissance et la gestion de signaux sociaux complexes tels que les toursde parole, l'engagement, l'attention conjointe... forment les éléments fon-damentaux de l'intelligence sociale. Doter les systèmes robotiques de cevolet de l'intelligence permet d'explorer des aspects nouveaux de la ro-botique personnelle en permettant une adaptation continue aux com-portements de personnes non-expertes et/ou dé�cientes.

Page 26: "Traitement du signal social et robotique personnelle: Signaux actes ...
Page 27: "Traitement du signal social et robotique personnelle: Signaux actes ...

Chapitre 1

Caractérisation de signaux de

parole : du signal au message

social

1.1 Contexte

La parole, signal social par excellence, véhicule des informations néces-saires à l'établissement et la régulation des interactions et de ce fait joue unrôle prépondérant dans les systèmes interactifs. Les recherches menées parla communauté du Traitement Automatique de la Parole (TAP) permettentactuellement de caractériser et d'extraire des informations riches allant au-delà de la simple transcription. En e�et, les informations véhiculées par lesignal de parole sont multiples et concernent le contenu phonétique, la langue,l'identité du locuteur, les vocalisations non-linguistiques, les états a�ectifs...La transcription enrichie vise à extraire des informations complémentaires(métadonnées) à celles extraites par un système de reconnaissance de la pa-role. La connaisance de ces métadonnées a un e�et structurant (e.g. recherched'informations, résumé de documents).

La composante sociale des métadonnées extraites di�érencie le traitementdu signal social de l'indexation. Pour mieux situer les problématiques de cedomaine de recherche, reprenons les grandes lignes d'un exemple présentéen introduction de ce manuscrit décrivant l'exploitation de l'activité vocalepour la reconnaissance de rôles [Vinciarelli, 2009]. Le principe du traitementconsiste 1) à extraire le temps de parole de chaque locuteur, 2) à construireun réseau social d'a�liation et 3) à catégoriser des caractéristiques extraitesdu réseau (proximité temporelle, temps de parole) à l'aide d'un classi�eur (cf.�gure 1.1).

La transcription enrichie, telle qu'actuellement traitée dans les campagnesNIST (Rich Transcription puis TREC Video Retrieval Evaluation) [Smeatonet al., 2006], porterait sur l'extraction de l'information locuteur (segmentationde locuteurs). Le traitement du signal social vise à extraire des informationsde plus haut-niveau : le rôle d'un participant, l'identité des locuteurs est unedonnée d'entrée du problème.

Page 28: "Traitement du signal social et robotique personnelle: Signaux actes ...

14 Caractérisation de signaux de parole

Flux audioExtractions de

différents groupes sociaux

Reconnaissance des rôles

RôlesSegmentation du flux audio

Extractions des caractéristiques

Fig. 1.1: Reconnaissance automatique des rôles de locuteurs

La plus value du traitement du signal social réside, du moins dans ce tra-vail, dans le développement d'une méthodologie de traitement automatiqueincluant des connaissances issues des sciences humaines et sociales pour lamodélisation de l'interaction : réseaux sociaux d'a�liation [Vinciarelli, 2009].Bien évidement, l'e�cacité même de cette méthodologie nécessite une détec-tion robuste et performante de signaux caractéristiques de l'activité humaine(segmentation en locuteurs).

Les travaux présentés dans ce chapitre portent sur la caractérisation de lacomposante sociale du signal de parole. Il s'agit d'un problème fondamentalet di�cile visant à déterminer, à partir d'un signal, des informations aussidiverses que l'identité du locuteur, son état a�ectif et pathologique ou bienencore son intention. Les sections suivantes introduisent la problématique etapportent des éléments de justi�cation sur notre positionnement scienti�que.

1.2 Encodage des informations dans la parole

1.2.1 Informations véhiculées

Le signal de parole est le support d'informations multiples qui peuventêtre décomposées en trois catégories : 1) linguistique, 2) para-linguistique et3) extra-linguistique. La transmission d'informations linguistiques est considé-rée comme l'objectif premier de la parole. Les informations linguistiques sontde plusieurs types (e.g. phonèmes, mots) et sont représentés par un ensemble�ni et discret de symboles. Les informations para-linguistiques modi�ent etajoutent des éléments utiles à la compréhension et à l'interprétation du mes-sage. Elles peuvent être délibérément ajoutées par le locuteur a�n de modi�erou d'enrichir les informations linguistiques. Elles caractérisent la modalité dela phrase ou bien encore l'intention du locuteur. L'état a�ectif et l'attitude dulocuteur sont des facteurs enclins à augmenter la variabilité du signal de pa-role. Plus l'interaction est personnelle, plus les informations para-linguistiques

Page 29: "Traitement du signal social et robotique personnelle: Signaux actes ...

1.2. Encodage des informations dans la parole 15 2. LA PROSODIE , SUPPORT DES INF ORMATIONS DE LA COMMUNICATION

9

Informations en

Entrée

Règles de

Grammaire Règles de

Prosodie Contraintes

Physiologiques Contraintes

Physiques

Caractéristiques

Segmentales et

Suprasegmentales

de la Parole

Linguistiques

Para-

Linguistiques

Extra-

Linguistiques

373839

F ig. 1.5 Processus par lesquels des informations de types variés se manifestent dans les caractéris-

tiques segmentales et suprasegmentales de la parole ; figure reproduite de [FUJ04]39.

2.2.3. Affective

La prosodie affective possède une fonction plus globale que celles desservies par les deux

précédentes [PAU05a]33. Elle exprime l'état général affectif d'un locuteur [WIN88]40 et com-

prend les changements de !"#$%&!"'()!%*+"'(,)-'./!("'0'1$223!"-&%' &4."%'15$-&"!()6+&"+!%'7"8#89'

nos pairs, de jeunes enfants ou des personnes de statut social plus élevé). Ses fonctionnalités

sont donc : (i) extérieures au discours, (ii) concernent les intentions et les attitudes du locuteur

face à ses semblables et (iii) ont pour objectif de desservir les interactions sociales.

2.3. Encodage des informations dans la parole

Les informations exprimées par la parole peuvent être décomposées en trois catégories :

(i) linguistiques, (ii) para-linguistique, et (iii) non-linguistique. Bien que leurs frontières ne

soient pas toujours très claires [FUJ04]41, cf. Fig. 1.5 ; (i) les informations l inguistiques sont

représentées par un ensemble fini et discret de symboles et de règles pour leurs combinai-

sons ; (ii) les informations para-linguistiques sont définies par celles qui ne peuvent être infé-

rées par la partie écrite et qui sont délibérément ajoutées par le locuteur pour modifier ou sup-

plémenter les informations linguistiques. Elles sont à la fois discrètes et continues, e.g., moda-

($&3%'1$%6!:&"%'1"' (/'.;!/%"'"&' 6)-&$-++<'15$-&"-&$)-%')+'15/&&$&+1"s du locuteur face au dis-

37

D. v/-'=/-6>"!9'?8'@/-&"!'"&'?8'A"!B"">9'C?$%/<B$#+/&$)-')2'1$&!).$6'%"-&"-6"%D'E6)+%&$6'/-1'.;)-"&$6'6+"%F'

dans, J. of Speech and Hearing Res.vol. 24, no. 3, pp. 330G335, Sep. 1981. 38

V. M. Quang, !"#$%&'('&%)*+,*$(*#-%.%+&,*#%/-*$(*.,01,)'('&%)*,'*$2()($3.,*(/'%1('&4/,*+,.*.&0)(/"*+,*#a-role, Thèse de Doctorat, Institut National Polytechnique de Grenoble, 2007.

39 H. Fujisaki, CInformation, prosody, and modeling G H$&;'"<.;/%$%')-'&)-/('2"/&+!"%')2'%.""6;F, dans Speech Prosody, Nara, Japan, Mar. 23-26 2004, invited paper.

40 E. Winner, 56,*#%&)'*%7*8%-+.9*:6&$+-,)2.*/)+,-.'()+&)0*%7*1,'(#6%-*()+* &-%)3, dans Cambridge, Harvard

University Press, 1988. 41

H. Fujisaki, CInformation, prosody, and modeling G H$&;'"<.;/%$%')-'&)-/('2"/&+!"%')2'%.""6;F, dans Speech Prosody, Nara, Japan, Mar. 23-26 2004, invited paper.

! " Physiques Emotionnelles

Lexicales Syntaxiques Sémantiques Pragmatiques

# $% %& '% %( )

Intentionnelles Attitudinales Stylistiques

# $% %& '% %( )

Production

des Sons de

la Parole

Génération de

Commandes

Motrices

Organisation

du Message

Organisation

de la Phrase

Fig. 1.2: Processus d'encodage des informations dans la parole. Figure tirée de

[Ringeval, 2011] et initialement adaptée de [Fujisaki, 2004]

deviennent prépondérantes et nécessitent une caractérisation spéci�que. Lestraits d'individualité du locuteur comme le genre, l'âge ou bien encore la per-sonnalité impactent les informations extra-linguistiques.

La �gure 1.2 rappelle la complexité du processus d'encodage et la nuancedes frontières existantes entre les catégories. Par exemple, dans le modèleproposé par [Fujisaki, 2004], l'information émotionnelle est considérée commenon-linguistique alors que dans d'autres dé�nitions cette information sera ca-tégorisée comme para-linguistique [Campbell, 2007; Keller, 2004].

La caractérisation automatique du signal de parole requiert l'étudeet l'exploitation d'informations linguistiques, para-linguistiques et extra-linguistiques. La convergence de la caractérisation des informations liées àla linguistique et à l'identité des locuteurs est un des éléments qui a favorisél'émergence de la transcription enrichie. Dans la même lignée, après une thèsede doctorat ayant portée principalement sur la caractérisation du contenulinguistique du signal de parole, je me suis intéressé aux informations para-linguistiques. Ce chapitre résume le cheminement intellectuel entrepris allantde la caractérisation de l'information locuteur à celle de l'information a�ective.

1.2.2 Caractérisation automatique de signaux de parole

Les di�érentes informations véhiculées par le signal de parole (e.g. linguis-tique, identité, état a�ectif...) introduisent de la variabilité. Les traitementsautomatiques visent, en fonction de l'application (e.g. reconnaissance de laparole, du locuteur ou de l'émotion), à identi�er une de ces sources de varia-bilité. Pour ce faire, les systèmes de reconnaissance sont généralement conçus

Page 30: "Traitement du signal social et robotique personnelle: Signaux actes ...

16 Caractérisation de signaux de parole

autour de trois étapes : 1) l'acquisition et les pré-traitements, 2) l'extractionde caractéristiques (ou de paramètres) et 3) la classi�cation.

En reconnaissance de formes, la distinction entre extracteur de caracté-ristiques et classi�eur n'est pas si aisée. Dans [Duda et al., 2000], il est ainsiexpliquer que, dans un cadre Bayésien, l'opération de classi�cation la plussimple peut se réduire à la fonction "max" à condition d'avoir une estimation�able des probabilités :

x ∈ Ci ⇐⇒ p(Ci|x) > p(Cj|x) ∀j 6= i (1.1)

où p(Ci|x) est la probabilité a posteriori que la classe correcte soit Ci lorsquel'on observe x.

Les probabilités forment alors le vecteur caractéristique et l'opérateur decomparaison, le classi�eur. Cette formalisation est un des fondements des ap-proches hybrides comme les modèles neuro-markoviens (estimation de proba-bilité par réseau de neurones) et de manière plus intégrée des TRAPs (Tem-poRAl Patterns) proposés par Hermansky and Sharma [1999].

Problématique La caractérisation automatique de signaux, telle que nousla dé�nissons dans nos travaux, requiert des modèles avancés d'extraction etde classi�cation de caractéristiques. Les justi�cations de cette démarche sontles suivantes :

� Extraction de caractéristiques : Présente en amont des phases de recon-naissance et souvent directement confrontée à des signaux brutes issusde capteurs, l'extraction de caractéristiques permet la prise en comptede la nature des signaux (contenu spectral, bruit, linéarité, stationna-rité...), tout en produisant une représentation compacte de ces derniers.Les méthodes développées, du moins en traitement de la parole, fontappel à des techniques de traitement du signal.

� Classi�cation : Les enjeux actuels, tant théoriques qu'applicatifs, dessystèmes interactifs imposent d'enrichir les informations extraites pardes méta-données (identité du locuteur, états psychologiques...). La re-connaissance des formes, et le plus souvent l'apprentissage arti�ciel,jouent un rôle prépondérant dans la modélisation et la classi�cationdes caractéristiques. En e�et un grand nombre de caractéristiques iden-tiques peuvent être employées pour des tâches di�érentes : acoustiquespour la reconnaissance de la parole et du locuteur, prosodiques pour lesémotions et les intentions... et dans ce cadre la classi�cation joue le rôled'extraction d'informations de plus haut-niveau.

D'un point de vue formel, l'extraction de caractéristiques consiste à déter-miner et à appliquer une fonction F à un signal de parole s a�n d'extraire un

Page 31: "Traitement du signal social et robotique personnelle: Signaux actes ...

1.2. Encodage des informations dans la parole 17

jeu de N caractéristiques f :f = F(s) (1.2)

Selon les approches, la fonction F peut-être dé�nie par des techniques detraitement du signal (e.g. Linear Predictive Coding), par apprentissage (e.g.TRAPS, Neural Predictive Coding cf. travaux de thèse [Chetouani, 2004]),par projection (e.g. Analyse en composantes principales), par sélection (e.g.Sequential Feature Selection).

Les verrous scienti�ques généralement identi�és portent sur la réduction1) de la complexité de l'extracteur, 2) de la dimension de la représentation, eten ce qui concerne la classi�cation, il s'agit de contrôler 3) la généralisationet 4) le pouvoir de modélisation et/ou de discrimination.

La classi�cation a également un e�et de réduction de la dimension desdonnées en associant à chaque jeu de caractéristiques une information d'ap-partenance à une ou plusieurs classes. La classi�cation consiste à attribuer auvecteur f la classe Ci où i ∈ {1, ..., N} :

Ci = C(f) (1.3)

Où C est la fonction de classi�cation dont l'instanciation varie selon les mé-thodes exploitées : directes, structurelles, statistiques... Parmi les algorithmesconcernés, les k-plus-proches voisins, les réseaux de neurones, les modèles àbase de mélange de gaussienne ou bien encore les machines à vecteur supportsont les plus populaires.

Au-delà d'un choix d'algorithme, les performances des systèmes de recon-naissance sont sujets à l'optimisation des paramètres (e.g. sélection de mo-dèles), à l'évaluation des performances (e.g. n-folds cross-validation, boots-trap) ainsi qu'aux bases de données exploitées (e.g. variabilité). Dans uncontexte de traitement de signaux de communication, la constitution de basesde données est une di�culté majeure et requiert une approche rigoureuse a�nde ne pas in�uencer les performances. Les méthodes mises en ÷uvre font gé-néralement appel à l'annotation manuelle de corpus produits par des acteurs(émotions prototypiques et souvent exagérées) ou bien extraits de scènes réa-listes [Devillers et al., 2005]. Les données non actées sont di�ciles à recueilliret souvent sujettes à des contraintes éthiques. Dans le cadre de l'informatiquea�ective, Schuller et al. [2010] proposent une étude intéressante portant sur lareproductibilité des performances en reconnaissance d'émotions en mixant desdonnées de corpus di�érents. Le traitement de signaux sociaux produits dansdes contextes réalistes est un des plus grands dé�s actuels de l'interaction.

Positionnement scienti�que Nos travaux de recherche portant sur la ca-ractérisation de signaux de parole ont pour motivation l'extraction de la com-

Page 32: "Traitement du signal social et robotique personnelle: Signaux actes ...

18 Caractérisation de signaux de parole

posante sociale du signal de parole. Cette composante inclut l'identité dulocuteur ainsi que les états a�ectifs et communicatifs.

Nos contributions s'inscrivent dans le domaine de l'extraction de caracté-ristiques et concernent plus précisément :

� La nature statistique des signaux de parole : apport d'une modélisationadaptée à la complexité du signal (gaussien vs non-gaussien, stationna-rité...).

� Les unités temporelles d'analyse : au lieu d'optimiser un vecteur ca-ractéristique donné, nous avons opté pour une approche consistant àoptimiser et multiplier les points d'ancrage (quand extraire des caracté-ristiques ?)

� La dynamique de la parole : Le rythme est une notion complexe et sous-exploité en caractérisation de la parole a�ective. Nous avons proposé unensemble de méthodes permettant de la prise en compte du rythme dansles systèmes de reconnaissance.

� La subjectivité de l'annotation de signaux sociaux : La collecte et l'an-notation de données naturelles sont des tâches requises mais complexescar consommatrices de temps et surtout nécessitant l'intervention d'ex-perts pas toujours disponibles. De plus les données annotées ne sont pastoujours �ables. L'apprentissage semi-supervisé permet de tirer pro�tdes données déjà annotées et de renforcer les capacités de prédiction desclassi�eurs.

Nous avons abordé la problématique de la caractérisation de signaux deparole à travers deux applications : la reconnaissance de locuteurs (nature sta-tistique des signaux) et la reconnaissance de la parole a�ective (ancrages etmodèles dynamiques). Nos activités de recherche se concentrent actuellementsur cette dernière application dans un contexte lié à l'investigation clinique :diagnostic di�érentiel, signes précoces, évaluation... Le volet expérimental denos travaux nous a conduit à nous confronter au traitement de données di-verses : actées, imitées, naturelles et spontanées.

Les sections suivantes présentent les contributions en caractérisation descomposantes sociales du signal de parole.

1.3 L'information locuteur

Deux approches sont généralement suivies pour la caractérisation de l'in-formation locuteur et elles se di�érencient par le niveau d'abstraction descomposantes du signal de parole : caractéristiques de haut et bas niveaux [Rey-nolds et al., 2003]. La composante bas-niveau véhicule des informations sur lastructure du conduit vocal alors que la composante haut-niveau exprime des

Page 33: "Traitement du signal social et robotique personnelle: Signaux actes ...

1.3. L'information locuteur 19

informations comportementales telles que la prosodie, la phonétique, la struc-ture de la conversation, etc. La dimension temporelle représente une di�érencefondamentale entre les deux composantes. Les informations de bas-niveau sontestimées à partir de fenêtres d'analyse de courte durée (<30ms) alors que lesinformations de haut-niveau requièrent souvent une durée allant au-delà de laseconde.

Les techniques de caractérisation de l'information locuteur sont largementdominées par des approches bas-niveau telles que les codages MFCC (Mel Fre-quency Cepstral Coding) et LPCC (Linear Predictive Cepstral Coe�cients)généralement associées à des caractéristiques auxiliaires comme l'énergie dusignal ou bien encore des paramètres dynamiques (vitesse ∆ et accélération∆∆). Cependant, plusieurs initiatives cherchent à remettre en cause cette su-prématie. L'action Européenne COST 277, coordonnée par Marcos Faundez-Zanuy (EUPMT) de 2001 à 2005, portant sur le traitement non-linéaire de laparole est une des ces initiatives visant à remettre en question les méthodestraditionnelles de traitement de la parole [Faundez-Zanuy et al., 2005]. A no-ter que les discussions menées en son sein ont amené à reformuler la questiondu traitement non-linéaire en une question plus ambitieuse portant sur laproposition de méthodes non-conventionnelles [Chetouani et al., 2009b]. Lesactivités de cette action Européenne sont à l'origine du congrès ISCA NO-LISP (Non-Linear Speech Processing) dont le premier événement NOLISP'03a été organisé par Frédéric Bimbot (IRISA), où pendant ma thèse, j'ai pu faireconnaissance avec de nombreuses personnes qui ont, directement ou indirec-tement, in�uencées mes recherches. En 2007, j'ai été l'organisateur principalde NOLISP'07 à Paris [Chetouani et al., 2009c], qui fût le premier événementaprès la �n de l'action et donc sans �nancement spéci�que. Une communautés'est ainsi formée permettant l'organisation de NOLISP'09 (University of Vic,Espagne) et de NOLISP'11 (University Las Palmas de Gran Canaria).

Après ma thèse de doctorat, mes contributions dans ce domaine ont portésur l'exploitation de statistiques d'ordre supérieur dans les modèles d'extrac-tion de caractéristiques. Des justi�cations d'une telle approche sont proposéesdans [Chetouani et al., 2009a] et sont basées sur les travaux de Kubin [1995].Ces justi�cations portent sur le dilemme entre les modélisations non-linéaireet non-gaussienne [Little, 2011].

1.3.1 Résidu de prédiction

Il est généralement admis que le signal de parole est le résultat de l'exci-tation du conduit vocal par une source (périodique ou non) formant ainsi labase du modèle source-�ltre. Dans l'analyse par prédiction linéaire, le conduitvocal est modélisé par un �ltre prédictif linéaire LPC (Linear Predictive Co-

Page 34: "Traitement du signal social et robotique personnelle: Signaux actes ...

20 Caractérisation de signaux de parole

ding) et l'excitation par le résidu de prédiction. L'analyse consiste à estimerles coe�cients LPC par minimisation de l'erreur de prédiction. L'échantillons est estimé par combinaison linéaire des p derniers échantillons [Atal andHanauer, 1971] :

s(k) = −p∑

i=1

ais(k − i) (1.4)

Les coe�cients LPC ai sont à relier au conduit vocal, et de ce fait, à lacaractérisation partielle de l'individualité du locuteur. Les coe�cients LPCC(Linear Predictive Cepstral Coding), dérivés des LPC, sont exploités avecsuccès en reconnaissance de locuteur. Le paramètre p (ordre du �ltre) joue unrôle important dans la modélisation par son implication dans les performancesdu prédicteur mais également dans la dimension du vecteur de caractéristiquesutilisé par le classi�eur.

Dans l'analyse par prédiction linéaire, le résidu est obtenu en estimantl'erreur entre l'échantillon courant s(k) et l'échantillon prédit s(k) :

r(k) = s(k)− s(k) (1.5)

Théoriquement, le résidu est décorrélé du signal de parole et doit représen-ter l'excitation. Le résidu est supposé véhiculé des informations dépendantesdu locuteur. Plusieurs chercheurs ont proposé l'exploitation de ce signal pourl'amélioration des systèmes automatiques de reconnaissance [Thévenaz andHugli, 1995; Faundez-Zanuy, 2007; Yegnanarayana et al., 2001; Mahadeva Pra-sanna et al., 2006; Zheng et al., 2007; Chetouani et al., 2009a]. Les méthodesgénéralement mises en ÷uvre exploitent l'orthogonalité théorique entre lesmodèles (LPC et modélisation du résidu) [Thévenaz and Hugli, 1995]. Maha-deva Prasanna et al. [2006] utilisent un réseau de neurones auto-associatif pourla caractérisation du résidu et montrent qu'il est possible d'atteindre des per-formances relativement élevées en exploitant uniquement des caractéristiquesextraites du résidu.

1.3.2 Prise en compte de la nature du résidu

De nombreux travaux ont souligné l'importance d'une modélisation plus�ne du résidu. Faundez-Zanuy [2007] propose, par exemple, une analyse parprédiction non-linéaire (réseau de neurones prédictifs). Les travaux de Thys-sen et al. [1994] et de Tao et al. [2004] soulignent le caractère non-linéaire durésidu. Thyssen et al. [1994] montre qu'il est nécessaire d'exploiter une cas-cade de prédicteurs linéaires a�n de supprimer toute composante linéaire durésidu. Notre démarche consiste à exploiter et à compléter les extracteurs decaractéristiques de l'état de l'art (MFCC et LPCC) par une caractérisationadaptée du résidu.

Page 35: "Traitement du signal social et robotique personnelle: Signaux actes ...

1.3. L'information locuteur 21

Contributions Nous sommes partis du constat que l'analyse prédictive li-néaire est basée sur des statistiques d'ordre deux (covariance, auto-corrélation)qui, par dé�nition, ne sont pas adaptées à la modélisation de processus non-gaussien. La conception de modèles prédictifs non-linéaires constitue une desvoies possibles [Mahadeva Prasanna et al., 2006] (cf. travaux de thèse : NeuralPredictive Coding [Chetouani, 2004]). Nous avons par la suite opté pour uneautre approche en tentant non pas de remettre en cause l'ensemble de l'étaged'extraction de caractéristiques (LPCC ou MFCC), mais en proposant des ca-ractéristiques complémentaires. Notre approche considère l'analyse prédictivelinéaire comme une étape de décomposition du signal permettant d'obtenir (1)une composante modélisée par le �ltre LPC et (2) le résidu porteur égalementd'informations (cf. equation 1.5). L'ordre p du �ltre, les algorithmes choisisou bien encore le bruit sont autant de facteurs in�uençant la nature du résiduet donc la modélisation requise.

Le modèle que nous avons proposé est basé sur cette approche et consiste àmodéliser par des prédicteurs linéaires le résidu. Comme l'illustre la �gure 1.3,nous avons exploité deux modélisations basées sur des statistiques du secondet troisième ordres. La première approche exploite une modélisation prédictivedu résidu de parole à l'image du codage LPC. Un modèle auto-régressif estainsi estimé :

r(k) = −ρ∑

i=1

αir(k − i) (1.6)

où r et ρ représentent, respectivement, le résidu et l'ordre du �ltre. A l'ins-tar de du codage LPC, les coe�cients αi ne sont pas utilisés directementpar l'étape de classi�cation. Nous exploitons une dérivation cepstrale simi-laire à celle permettant d'obtenir les paramètres LPCC (LPC->LPCC). Lesparamètres obtenus sont nommés R-SOS-LPCC du fait qu'ils sont issus d'unemodélisation du résidu basée sur des statistiques d'ordre 2, suivie d'une déri-vation dans le domaine cepstral.

La deuxième modélisation exploite des statistiques d'ordre supérieur (cf.�gure 1.3). Les coe�cients d'un prédicteur linéaire sont estimés par la résolu-tion des équations Yulke-Walker [Atal and Hanauer, 1971] liant les coe�cientsai à la matrice d'auto-corrélation R (statistique d'ordre deux). Une extensionaux ordres supérieurs est possible moyennant une estimation contrainte desstatistiques concernées. L'estimation des paramètres d'un modèle AR par uncumulant d'ordre trois, noté C, a été proposée par Paliwal and Sondhi [1991]et résulte dans les équations Yulke-Walker suivantes :

p∑i=0

aiCi(l,m) = 0 (1.7)

Avec les contraintes suivantes 1 ≤ l ≤ p, 0 ≤ m ≤ l.

Page 36: "Traitement du signal social et robotique personnelle: Signaux actes ...

22 Caractérisation de signaux de parole

Analyse par prédiction linéaire

Analyse par modèle statistique du second ordre

Analyse par modèle statistique du troisième ordre

Analyse fréquentielle

Résidu de prédiction

CoefficientsR-SOS LPCC

CoefficientsR-HOS LPCC

CoefficientsR-PDSS

Signalde parole

Fig. 1.3: Traitements temporels et fréquentiels appliqués au résidu r.

Le cumulant d'ordre trois d'un signal s étant dé�ni par :

Ci(l,m) =V∑

v=p+1

sv−isv−lsv−m (1.8)

Où V est la dimension de la fenêtre d'analyse.Suite à cette formulation du problème, un algorithme standard d'estima-

tion des coe�cients du modèle AR est utilisé [Paliwal and Sondhi, 1991]. Notrecontribution a consisté à appliquer cette modélisation non pas au signal deparole s (équation 1.4), mais au résidu r (équation 1.6). Les paramètres ob-tenus via une transformation cepstrale sont appelés R-HOS-LPCC (cf. �gure1.3 ). Une seconde contribution a consisté à mettre en ÷uvre une analyse fré-quentielle du résidu à l'aide d'une mesure de la platitude du spectre (SpectralFlatness Measure) :

R− PDSS(i) = 1−

(∏Hi

n=LiS(n)

) 1Ni

1Ni

∑Hi

n=LiS(n)

(1.9)

où S(n) est la densité spectrale de puissance estimée dans des bandes defréquences spéci�ques (banc de �ltre avec distribution linéaire ou non-linéairedes fréquences centrales). Le principe de l'analyse est décrit dans [Chetouaniet al., 2009a] (�gure 1.3).

1.3.3 Résultats

L'évaluation des performances de l'ensemble des paramètres proposés (R-SOS-LPCC, R-HOS-LPCC et R-PDSS) est menée dans le cadre d'une tâched'identi�cation de locuteurs. Cette tâche est composée des étapes suivantes :

Page 37: "Traitement du signal social et robotique personnelle: Signaux actes ...

1.3. L'information locuteur 23

1. Phase d'enrôlement : apprentissage d'un modèle statistique (GMM) parlocuteur

2. Phase d'identi�cation : détection d'un locuteur parmi N locuteurs.

Les expériences sont décrites dans [Chetouani et al., 2009a] en ce quiconcerne l'évaluation sur deux bases de données, Gaudi (N=49) et NTIMIT(N=630), et dans [Monte-Moreno et al., 2009] en ce qui concerne la mise en÷uvre de méthodes de compensation du canal de transmission, de fusion d'in-formations à la fois pour l'identi�cation et la véri�cation de locuteurs. Nousprésentons par la suite uniquement les résultats obtenus sur la base Gaudi.

L'intérêt de la base Gaudi [Ortega-Garcia et al., 2000] réside non pas dansle nombre de locuteurs (seulement 49) mais dans le large éventail des con�gu-rations possibles : langue, intervalles entre les sessions d'acquisition et type demicrophone. Nous avons eu accès à cette base de données lors de notre séjourà l'Université Polytechnique de Mataro et ce dans le cadre du programmeCOST 277. Le corpus est composé de :

− 49 locuteurs.− 4 sessions avec di�érentes tâches : lecture de chi�res isolés, connectéset de texte ainsi que de la parole conversationnelle.

− Pour chaque session, les enregistrements sont réalisés en Catalan eten Espagnol avec trois di�érents microphones : MIC1 (micro-cravateunidirectionnel à ≈ 10 cm du locuteur), MIC2 (cardioïde à ≈ 30 cm) etMIC3 (micro-casque).

Les correspondances entre les sessions et les microphones sont renseignéestable 1.1.

Tab. 1.1: Correspondance entre les sessions et les microphones.

Ref. M1 M2 M3 M3 M5 M6

Session 1 1 2 2 3 3

Microphone MIC1 MIC2 MIC1 MIC2 MIC1 MIC3

Un modèle statistique (GMM) par locuteur est estimé lors de la sessiond'enrôlement M1. Le tableau 1.2 regroupe les résultats expérimentaux. Lesméthodes de l'état de l'art (MFCC et LPCC) obtiennent les meilleurs scores.A noter que les modélisations basées uniquement sur le résidu (R-SOS-LPCC,R-HOS-LPCC et R-PDSS) atteignent des performances non négligeables. L'in-térêt majeur de notre contribution réside dans la combinaison des paramètrestraditionnels avec ceux dérivés du résidu et ceci dans le cas de con�gurationsdi�érentes entre l'apprentissage et le test (de M2 à M6) : di�érence de langues,de microphones et une augmentation de l'intervalle entre les sessions. D'autres

Page 38: "Traitement du signal social et robotique personnelle: Signaux actes ...

24 Caractérisation de signaux de parole

résultats publiés dans [Chetouani et al., 2009a; Monte-Moreno et al., 2009]illustrent l'importance et la complémentarité de la modélisation du résidu.

Tab. 1.2: Performances en identi�cation de locuteur dans des conditions diverses

(enrôlement lors de la session M1) avec des modélisations temporelles, fréquentielles

et mixtesParamètre M1 M2 M3 M4 M5 M6 Moy.

Tem

porelle LPCC 94.78 73.7 74.60 66.213 55.33 52.15 69.46

R-SOS-LPCC 87.98 63.72 60.32 59.18 44.45 43.99 59.94

R-HOS-LPCC 83.45 55.33 57.14 50.79 42.40 33.10 53.70

LPCC 97.5 81.86 79.82 71.43 56.92 62.81 75.05

+R-SOS-LPCC

LPCC 97.96 80.04 80.04 70.521 58.05 59.64 74.37

+R-HOS-LPCC

Fréq. MFCC 97.50 76.64 78.23 72.34 57.59 62.36 74.11

R-PDSS 82.09 59.86 62.36 60.99 45.35 42.18 58.80

Mixte

LPCC 99.77 82.54 85.26 83.22 66.43 67.35 80.76

+ R-PDSS

1.3.4 Conclusion

L'intérêt principal de cette étude a été de montrer le gain en robustesse(langue, canal de transmission et intervalle entre les sessions) par l'introduc-tion d'une méthode d'extraction de caractéristiques dont l'objectif est de sup-pléer la modélisation traditionnelle par une caractérisation statistique du ré-sidu. Pour obtenir ce résultat, nous avons proposé une approche orientée versla prise en compte de la nature du signal de parole :

� Le résidu comme support de l'information identité du locuteur. Nousavons montré que le résidu de prédiction linéaire est porteur d'infor-mations dépendantes du locuteur. Le modèle source-�ltre étant sujet àdébat, nous avons proposé non pas de remettre en cause toute la carac-térisation mais d'exploiter les informations non-modélisées : traitementstemporel et fréquentiel du résidu.

� Modélisation statistique du résidu. Dans le cadre du traitement non-linéaire de la parole, nous avons proposé de formaliser la problématiquede caractérisation par l'introduction d'un modèle prédictif basé sur desstatistiques d'ordre supérieur, et d'une méthode spectrale exploitant unemesure de la platitude.

Page 39: "Traitement du signal social et robotique personnelle: Signaux actes ...

1.4. Informations non-verbales 25

Par souci de cohérence, nous avons choisis de ne pas présenter d'autres travauxréalisés en collaboration avec l'ancienne équipe Signal du LISIF et notammentceux portés par Christophe Charbuillet (ancien doctorant de l'équipe, thèse di-rigée et encadrée par Bruno Gas et Jean-Luc Zarader) pendant les campagnesNIST et ESTER [Charbuillet et al., 2009].

1.4 Informations non-verbales

Le processus d'encodage de la parole, décrit précédemment (cf. �gure 1.2),est multi-dimensionel et implique des échelles temporelles di�érentes. La ca-ractérisation de la composante segmentale du signal de parole est généralementconsidérée via des fenêtres de courtes durées (2-3 périodes du pitch : 10-30ms).La composante supra-segmentale se caractérise par une durée plus longueavec plusieurs périodes du pitch (100-300ms). Bien que reposant majoritai-rement sur une approche segmentale, certains systèmes de reconnaissance delocuteurs exploitent des informations supra-segmentales [Mahadeva Prasannaet al., 2006; Reynolds et al., 2003]. Les informations supra-segmentales sontexploitées avec succès en reconnaissance d'émotions [Schuller et al., 2007a].

Le traitement automatique des émotions o�re un cadre tout à fait parti-culier pour l'étude de la dimension temporelle des signaux de parole. Une desparticularités de ce domaine est que la majorité des systèmes exploite un seultype de support temporel (les segments voisés) pour extraire des mesures denatures di�érentes (e.g. acoustique, prosodique) et regroupées dans un uniquevecteur de caractéristiques. L'unité standard est le tour de parole (speaker turnlevel) et les traitements consistent à appliquer un ensemble de fonctionnelles(statistiques) à des paramètres tels que la fréquence fondamentale, l'énergieou bien encore les formants du signal de parole puis à exploiter des classi�eursstatiques (e.g. SVM). Cette approche fait l'hypothèse que l'état émotionnel nevarie pas pendant le tour de parole d'un locuteur. Bien que cette approche aitprouvée son e�cacité, d'autres unités temporelles existent et visent à exploiterl'aspect dynamique des émotions.

La recherche d'unité élémentaire support de l'a�ect est un des dé�s actueldu traitement automatique des émotions [Schuller et al., 2011]. Batliner et al.[2010] les nomment "ememe" par analogie aux phonèmes et morphèmes. Ladé�nition d'unités temporelles suivent deux approches formalisées dans [Che-touani et al., 2009d] et que nous reprenons par la suite. La première est baséesur des connaissances concernant le signal de parole (Data-driven units) etl'autre sur des techniques d'apprentissage (Machine learning based units).

Page 40: "Traitement du signal social et robotique personnelle: Signaux actes ...

26 Caractérisation de signaux de parole

Unités guidées par les données Cette approche cherche à exploiter desconnaissances diverses sur les signaux de parole pour la dé�nition d'unitésd'analyse. Les segments voisés font o�ces d'unités de référence. La naturede ces segments (caractérisés par la présence de fréquence fondamentale) mo-tive leur utilisation dans les chaînes de traitement automatique des émotions[Picard, 1997; Shami and Verhelst, 2007].

Fig. 1.4: Segments voisés d'un signal de parole : rôle de la durée dans la proémi-

nence

La stratégie de reconnaissance d'émotion, basée sur une segmentation enzones voisées, consiste à combiner un ensemble de décisions locales [Shami andVerhelst, 2007; Vlasenko et al., 2007; Schuller et al., 2007b]. Si l'on considèreun cadre probabiliste, le processus de décision pour la phrase Ux impose uneestimation de probabilité a posteriori d'appartenance à une classe d'émotionCm pour chaque unité Fxi

, la décision �nale s'appuie sur une fusion pondéréede ces N probabilités (N segments voisés) :

P (Cm|Ux) =1

N

N∑xi=1

P (Cm|Fxi) (1.10)

Le principe de maximum a posteriori (MAP) est généralement utilisé pour laprise de décision. Shami and Verhelst [2007] proposent d'intégrer les informa-tions liées à la durée de ces unités (length(Fxi

)) :

P (Cm|Ux) =N∑

xi=1

P (Cm|Fxi)× length(Fxi

) (1.11)

L'approche SBA (Segment Based Approach) a pour e�et d'accorder un poidsaux probabilités qui est proportionnel à la durée des segments voisés sur les-quelles elles sont extraites. L'intérêt majeur de cette approche est l'introduc-tion d'une notion de proéminence des unités, qui est ici quali�ée par la durée

Page 41: "Traitement du signal social et robotique personnelle: Signaux actes ...

1.4. Informations non-verbales 27

(cf. �gure 1.4). Les résultats expérimentaux montrent l'intérêt de cette ap-proche pour la caractérisation d'énoncé de courte durée [Shami and Verhelst,2007].

La thèse de doctorat de Fabien Ringeval porte sur la proposition d'an-crages acoustiques et prosodiques re�étant notamment la proéminence. Nousretrouverons également une étude portant sur la notion de proéminence dansle cadre de la régulation de l'interaction homme-robot au Chapitre 3.

Unités dé�nies par apprentissage Une approche simple mais en cohé-rence avec les procédures du TAP (reconnaissance de la parole ou de locuteur)consiste à considérer des fenêtres d'analyse de durée arbitraire (<30ms) as-sociée à un codage de type MFCC et une modélisation statistique (GMM,HMM). Comme nous le verrons par la suite, cette approche peut se révélere�cace, et notamment en combinaison avec une caractérisation prosodique,pour la reconnaissance d'états émotionnels dans des bases de données réalistes.

A l'instar de l'alignement phonétique en reconnaissance de la parole parexemple, une unité temporelle (chunk) à valence émotionnelle est identi�éepar des modèles de Markov cachés préalablement entraînés sur des catégoriesémotionnelles (cf. �gure 1.5). Dans [Schuller et al., 2007b], une segmentationpar l'algorithme de Viterbi permet d'identi�er des segments homogènes etre�étant la dynamique émotionnelle. Ces unités atteignent de meilleures per-formances en comparaison à celles obtenues par une segmentation syllabique.Une des raisons avancées par les auteurs est que la durée des segments, pluslongue dans le cas des chunk, impacte la caractérisation.

Fig. 1.5: Identi�cation d'unités d'analyses par alignement "d'états émotionnels"

(Viterbi)

Page 42: "Traitement du signal social et robotique personnelle: Signaux actes ...

28 Caractérisation de signaux de parole

Contributions La segmentation en unités d'analyse est la première étapedes systèmes de reconnaissance d'émotions et, de ce fait, impacte directementles performances. Nous sommes partis du constat que la dé�nition d'unitéstemporelles porteuses d'informations émotionnelles impliquait plusieurs fac-teurs :

- La variabilité de la durée et de la nature de l'unité : Les segmentationsobtenues par alignement "d'états émotionnels" englobent des zones voi-sées, et souvent des zones connexes non-voisées pouvant aller au-delà dela syllabe. Il en découle une variabilité des segments obtenus (nature etdurée). Malgré l'intérêt que l'on peut porter à une approche par aligne-ment, elle est sujette à la dépendance de l'apprentissage de modèles deMarkov cachés sur des classes émotionnelles préalablement dé�nies.

- La proéminence de l'unité : Le caractère non-homogène des unitésmontre que la valence émotionnelle d'un segment de parole a une tra-duction complexe qu'une simple segmentation temporelle ne peut com-plètement re�éter (e.g. voisé vs non-voisé). Clavel et al. [2008] ont, parexemple, souligné le potentiel des segments non-voisés pour la recon-naissance d'émotions réalistes.

L'originalité de notre approche repose sur la notion d'ancrage (e.g. voisés,non-voisés, voyelles, consonnes...). L'idée étant d'exploiter la valence émotion-nelle portée par chacun des ancrages (caractérisation et décision locales) puispar fusion d'informations d'inférer une décision sur le tour de parole. Uneautre originalité de l'approche est l'introduction de la notion de dynamiquedes ancrages caractérisée par le rythme de la parole (dans une version géné-ralisée).

1.4.1 Caractérisation des dimensions temporelles et in-

tégratives : Ancrages acoustiques

La thèse de Fabien Ringeval [Ringeval, 2011] a porté sur la dé�nition etl'exploitation d'ancrages acoustiques de la parole pour la reconnaissance deparole a�ective. Les ancrages naturels de la parole sont multiples : voisé, non-voisé, voyelle, consonne, syllabe, etc. (cf. �gure 1.6) et constituent des supportsd'informations. Les voyelles ou les syllabes sont des exemples d'ancrages asso-ciés à la phonation. Les zones voisées et le rythme sont des traits dé�nis par laperception de la parole. Une des contributions de la thèse de Fabien Ringevala été la proposition d'une approche pseudo-phonétique pour la caractérisationde la parole émotionnelle. Cette approche repose sur le constat que la contri-bution de chaque phonème au message a�ectif n'est pas identique [Leinonenet al., 1997; Pereira and Watson, 1998; Lee et al., 2004; Schuller et al., 2007b].Lee et al. [2004] montrent, dans une expérience consistant à apprendre des

Page 43: "Traitement du signal social et robotique personnelle: Signaux actes ...

1.4. Informations non-verbales 29

Fig. 1.6: Diversité des ancrages acoustiques et rythmiques de la parole

modèles HMMs d'émotions pour cinq catégories phonétiques (voyelle, semi-voyelle, nasale, occlusive, fricative), que les voyelles sont des supports robustesdans la transmission de l'a�ect. Les approches di�érenciées exploitants plu-sieurs supports d'informations (e.g. segmental, supra-segmental) ont été appli-quées avec succès à la reconnaissance d'émotions [Vlasenko et al., 2007; Kimet al., 2007].

L'approche développée dans la thèse de Fabien Ringeval consiste (1) à dé-tecter un ensemble d'ancrages, (2) à extraire des caractéristiques puis pendreune décision locale et en�n (3) à fusionner les di�érentes contributions pourune prise de décision sur le tour de parole (ou la phrase).

Détection automatique d'ancrages

La segmentation en zones voisées et non-voisées fournit un premier en-semble d'ancrages dont la fusion se révèle robuste pour la reconnaissanced'émotions spontanées [Clavel et al., 2008; Mahdhaoui et al., 2008]. Dans[Ringeval and Chetouani, 2008; Ringeval, 2011], nous avons choisis de nousfocaliser sur deux types d'ancrages : phonétique (voyelle) et rythmique (p-centre), avec comme objectif une détection robuste et indépendante de lalangue. Un système de reconnaissance de la parole pourrait être exploité pourla détection de voyelles. Cette solution pose néanmoins plusieurs problèmes :(1) l'émotion impacte la production des phonèmes et met souvent en défautles systèmes de reconnaissance traditionnels, (2) l'adaptation à des contextesdi�érents (langue, conditions d'acquisition, rire, pleurs...) est une di�cultéadditionnelle. Nous avons donc opté pour des techniques issues du traitementdu signal. Ces techniques ne nécessitent pas de connaissances a priori et sont

Page 44: "Traitement du signal social et robotique personnelle: Signaux actes ...

30 Caractérisation de signaux de parole

jugées plus adaptées à la diversité des situations analysées dans nos travaux.

Pseudo-phonèmes L'approche adoptée consiste à extraire des segmentsquasi-stationnaires puis à les catégoriser en voyelle, consonne ou non-parole(cf. �gure 1.7). Une segmentation du signal de parole en zones quasi-

CHAPITRE 2. ANCRAGES ACOUSTIQUES DE LA PAROLE

40

!"#$%&$'!!!"#$"%&'&()%*'+&)$'&(,+"*-.+%*/(#%'0*-"*1'2)0"*1'2*0"*345!"!#$%&'!#()*%!+,-./-,!01!1)0(.#0!

/'+&*6*0.(%/&'%&*!!2#3!.-!'*!!!4!"!2567!+#1'!/.-!.8.9$:.3;!:.!'*<1#:!.'-!-%#*-,!+#1'!:.!'.1'!#$%&'$!(!2=3!>!

/(*+%*%)+7"'+*/'+&*"/&*-8&"9&8*6*0.(%/&'%&*)(!:.!'*<1#:!.'-!-%#*-,!+.$0*'!/.-!*1'-#1-!+#1'!:.!'.1'!*+!'$!(!

:9;*<*/(%)%=*0"*&2'(&"$"%&*2"9)$$"%9"*-"1+(/*0.(%/&'%&*!,>!?*<0%.!.8-%#*-.!+.!@ABCDDE('F!

F ig. 2.9 Système de détection de pseudo-phonèmes dans un signal de parole. 2324

!"#$%&'#'&()#!" le nombre de segments issus de la segmentation DFB et #$%& '$(& ) & $*+, la

suite de ces se*+)'(,-#$%./("0"(1#0&/.$)25 peut être définie par un seuil -. sur la variance des

segments $/ [4]. Les segments dont la variance est inférieure à -. peuvent être vus comme du

silence. La valeur de la constante 0 0.2(#(34"52)+)'(#67#89"'#:)#$"+"();#:%10)'(2)$,#)99)(,#:)#

<&;:#$"1,#=#:),#4>1'&+?'),#(;.',"(&";),#@)7*7-#&,/"$$.("&'#:%.+&;(",,)+)'(A#&2#=#:),#:1/.$.*),#

)'(;)#$),# 9;&'("?;),#:1()/(1),#)(#/)$$),# ",,2),#:2#,"*'.$#:%&;"*"')-# $.#0.;".'/)#),(#/.$/2$1)#,2;

une portion centrée $/1 des segments $/, cf. Fig. 2.10.

Les voyelles sont identifiées par les proéminences de la dérive spectrale. Cette mesure est

obtenue par la fonction « reduced energy cumulating » B REC [PEL98]19. La fonction REC a

23 Certains segments voisés peuvent présenter des pics dans la dérive spectrale qui sont considérés, à tort, comme

étant des noyaux vocaliques ; cela est notamment le cas pour les semi-voyelles /l/ et les sonorantes /n/.

24 Les pseudo-phonèmes consonantiques ont tendance à être sur-,)*+)'(1,#4.;#$%.$*&;"(>+)#CDE7#F)/"#),(#:G#.2#

fait que la modélisation LPC du signal de parole est adaptée aux voyelles, mais beaucoup moins pour les con-

sonnes. Ces dernières présentent en effet de fortes non-linéari(1,#/&':2",.'(#=#2'#,4)/(;)#:%1');*")#;)$.("0)+)'(#

plat dans les hautes fréquences. Un spectre parfaitement plat est par définition non prédictible par les modèles

AR.

Fusion Segmentation

automatique DFB Signal

de parole

Segments voyelles

Détection

:%./("0"(1#0&/.$)

Segmentation en

trame et calcul des

coefficients MFSC

Calcul de la

fonction REC

Localisation des

pics temporels

Fusion Segmentation

automatique DFB Signal

de parole

Segments voyelles

Détection

:%./("0"(1#0&/.$)

Segmentation en

trame et calcul des

coefficients MFSC

Calcul de la

fonction REC

Localisation des

pics temporels

Signal de

parole

Pseudo-voyelles, Pseudo-consonnes

Extraction de

coefficients MFSC

Segmentation

D FB Détection

:%./("0"(1#0&/.$)

Calcul de la

fonction REC

Fusion

Localisation des

noyaux vocaliques

Fig. 1.7: Système de détection de pseudo-phonèmes dans un signal de parole

stationnaires par l'algorithme DFB (Divergence Forward Backward) [Andre-Obrecht, 1988] permet d'obtenir des pseudo-phonèmes dont les supports tem-porels sont porteurs d'informations exploitables en reconnaissance de la pa-role [Andre-Obrecht and Jacob, 1997] ou de la langue [Rouas et al., 2005].Les segments de parole (détecteur d'activité vocale) sont ensuite catégorisésen voyelle ou non-voyelle. Ces derniers sont considérés, par défaut, commeétant des consonnes. La détection du noyau vocalique repose sur la fonctionREC (Reduced Energy Cumulating) dont l'objectif est de mesurer l'adéqua-tion entre la distribution spectrale d'une trame du signal de parole et la struc-ture formantique propre aux segments vocaliques :

REC(k) =EBF (k)

ET (k)

24∑i=1

αi

(Ei(k)− E(k)

)(1.12)

avec k indice de trame de parole, Ei l'énergie contenue dans le �ltre no. i,E l'énergie moyenne à travers tous les �ltres Mel, EBF l'énergie moyennecontenue dans les �ltres de fréquence inférieure à 1kHz et ET l'énergie totale.αi est le poids a�ecté au �ltre i.

La détection de zone voyelle est basée sur le seuillage (1) des maxima dela courbe REC et (2) du coe�cient d'autocorrélation du signal (zone quasi-périodique) [Ringeval, 2011]. Il est ainsi possible d'optimiser les performancesde la détection en jouant sur l'étape de seuillage. Nous avons fait le choix dene présenter que les résultats d'un détecteur générique (même seuil pour l'en-semble des corpus). Un exemple de détection de pseudo-phonèmes est donné �-gure 1.8. Une des particularités de la méthode de détection est que les maxima

Page 45: "Traitement du signal social et robotique personnelle: Signaux actes ...

1.4. Informations non-verbales 31

re�ètent des zones voyelles proéminentes (en caractéristiques spectrales selonla fonction REC).CHAPITRE 2. ANCRAGES ACOUSTIQUES DE LA PAROLE

42

[5]

[6]

F ig. 2.11 !"#$%&%'(")*+,-).*(./#.)0%0ion phonétique manuelle vs. automatique (Références vs.

Détectés). Les données sont issues du corpus TIMIT ; le code de couleur est le suivant : bleu 1 silence,

rouge 1 consonne et vert 1 voyelle.

avec,

! : indice de trame du signal de parole

"#$!% : énergie contenue dans le filtre numéro no. & "'$!% : énergie moyenne à travers tous les filtres Mel "()$!% : énergie moyenne contenue dans les filtres de fréquence inférieure à 1kHz

"*$!% : énergie totale contenue dans la trame !

+# : poids affecté au filtre numéro & (non utilisés dans cette étude, i.e., +# , -)

corrélation du signal. La valeur moyenne de ce coefficient, qui est fourni toutes les 10ms par

2,%2/"&'03#.*Snack, doit alors être supérieure à un seuil ./ fixé expérimentalement à 40% [6].

Les segments de parole issus du DFB sont considérés comme des « pseudo-voyelles »

2"&(4-,-)* "-* $2-('.-&(*pics sont détectés simultanément sur la fonction REC. La détection

doit toutefois être confortée par deux critères pour être validée : (i) le sommet principal des

pics doit être supérieur au seuil .0 et (ii) la valeur moyenne du coefficient +,%-0"5"&&62%0'")*

du segment correspondant doit être supérieur au seuil ./7*8%*9'/7*:7;;*&.$&6(.)0.*2,6<"2-0'")*de la fonction REC sur une phrase du corpus TIMIT : « She had your dark suit in greasy wash

water all year ». On constate que la mesure de dérive spectrale détermine des lobes générale-

#.)0*5.)0&6(*(-&*2.(*<"=.22.(*.0*+")0*2%*3%-0.-&*.(0*2'6.*>*2,6).&/'. du signal.

!"#$$% , "%&$$%"'$$%

1()2")$$% 3 "'$$%45

67

)89

!

*+ ,--:,-./$!"#%

*0 , ;:<

et,

!

Fig. 1.8: Comparaison d'une segmentation phonétique manuelle vs automatique

d'une phrase extraite du corpus TIMIT.

Nous avons évalué les performances de détection de pseudo-phonèmes surun ensemble de bases de données décrites brièvement dans le tableau 1.3 avecau total plus de 700k phonèmes (400k consonnes et 300k voyelles). L'évaluationdes performances repose sur la métrique VER (Vowel Error Rate) qui regroupedeux types d'erreur à savoir les non-détections Nnondet et les insertions Nins :

VER = 100

[Nnondet + Nins

Nvoy

]% (1.13)

avec Nvoy le nombre total de voyelles (transcription).Les performances sont reportées tableaux 1.4 et 1.5 avec un taux d'erreur

moyen inférieur à 30%. L'algorithme DFB sur-segmente les consonnes ce quise traduit par des taux d'erreur de détection des consonnes (Consonant ErrorDetection)1 très importants. Cependant, cela ne remet pas en cause l'approchedi�érenciée car l'ensemble des segments est exploité dans la décision �nale. Deplus, l'approche que nous proposons repose sur les proéminences du signal dontle support fait intervenir le noyau vocalique, qui lui est bien mieux détecté.

Les performances en détection dépendent bien évidemment de la qualitédes enregistrements (studio ou téléphone) mais également de l'a�ect (tableau1.4). Les résultats expérimentaux montrent que les dégradations introduites

1Calcul identique au VER (équation 1.13)

Page 46: "Traitement du signal social et robotique personnelle: Signaux actes ...

32 Caractérisation de signaux de parole

Tab. 1.3: Caractéristiques principales des corpus de parole étudiés

TIMIT NTIMIT Berlin Bute-TMI Aholab

Parole Lue Lue A�ective A�ective A�ective

Qualité Correcte Téléphone Correcte Correcte Correcte

Classes 8 régions 8 régions 7 styles 8 styles 7 styles

d'info. dialectales dialectales a�ectifs a�ectifs a�ectifs

Phonèmes 52 52 37 27 35

20 V / 32 C 20 V / 32 C 16 V / 21 C 8 V / 19 C 5 V / 30 C

Locuteur 630 630 10 37 1

Phrase 10 10 10 3 702

Durée ≈ 6h ≈ 6h ≈ 25min ≈ 38min ≈ 8h

Tab. 1.4: Comparaison des résultats en détection de pseudo-phonèmes sur divers

corpus (en %)

Taux TIMIT NTIMIT Berlin Bute-TMI Aholab

VER 20.3 26.9 29.0 32.3 24.6

CER 106 69.9 75.0 70.2 79.6

par ces deux sources sont du même ordre. Nous avons exploré l'impact desdi�érents styles de production a�ectifs. Ne sont reportés dans ce documentque les résultats obtenus sur le corpus Berlin (cf. tableau 1.5)2. Les variationsdu VER sont très importantes allant de 14.3% pour la "Joie" à 38.2% pourla "Peur". L'e�et des émotions sur la production de la parole est indéniablemais surtout il di�ère d'un état à un autre [Leinonen et al., 1997; Pereira andWatson, 1998; Lee et al., 2004]. Notons également que pour le style "Neutre",le taux d'erreur se révèle important. Des résultats similaires sont obtenus pourd'autres bases de données [Ringeval, 2011], et une des raisons avancées est quedans un contexte de parole émotionnelle actée, la production même du styleneutre est à remettre en cause. Cette ambiguïté du style neutre est souventrencontrée dans d'autres domaines connexes (e.g. la biométrie).

Tab. 1.5: Performances en détection de pseudo-phonèmes selon les styles de pro-

duction du corpus Berlin (en %)

Taux Colère Peur Joie Tristesse Dégoût Ennui Neutre

VER 28.6 38.2 14.3 35.6 26.4 37.0 35.7

CER 74.4 70.9 100 66.3 72.6 75.5 75.0

Nous avons proposé d'étudier et d'exploiter la variabilité a�ective de la pa-role par une prise en compte de la composante temporelle des ancrages. Nous

2De plus amples expériences sont décrites dans [Ringeval, 2011]

Page 47: "Traitement du signal social et robotique personnelle: Signaux actes ...

1.4. Informations non-verbales 33

avons pour cela étudié la durée des ancrages (cf. �gure 1.9) et la composanterythmique de la parole qui sera décrite section 1.4.2. La �gure 1.9 présente unespace de caractéristiques formé par les mesures de durée des voyelles et desconsonnes. Cet espace permet de discriminer certaines émotions. La séparabi-lité des catégories émotionnelles est plus importante pour la base de donnéesAHOLAB, résultat qui se justi�e pleinement par le nombre de locuteurs (cf.table 1.3). Nous reviendrons sur l'exploitation d'espaces de caractéristiquesbasées sur la dimension temporelle de la parole en proposant un lien avec lesmodélisations dimensionnelles de l'émotion. !"#$%&'()*+')%&#,#-,#(.$/.($/.#0+(#-1.2%')%&

27

F ig. 1.10 Variations des mesures de durée des voyelles et des consonnes selon les émotions contenus

dans les corpus Berlin (figure de gauche) et Aholab (figure de droite). La position de la croix dans

!"#$%&'#()#$()*+,#$(#-(),.#+/0-#(!#$(1&!#*+$(/23#--#$4(.&-)0$(5*#(!&(6&*.#*+(#.(!&(!&+7#*+('2++#$%2n-

)#-.(&*8(1&!#*+$()",'&+.-type ; figure extraite de [RIN08c]112.

)*(%0.'64()#(!",-#+70#(#.()#(!&(5*&!0.,(12'&!#4(&!2+$(5*#(!#(rythme a été exclusivement modélisé

par des mesures reposant sur le débit de parole ou sur la durée segmentale. La littérature

montre néanmoins que la nature complexe du rythme ne peut être capturée par de telles me-

sures puisque beaucoup trop réductrices.

Par conséquent, nous proposons dans cette thèse )"#8%!20.#+(diverses techniques de trai-

tement du signal et de reconnaissance des formes pour définir un système de reconnaissance

)",/2.02-$(qui se place dans une optique « bien conçue » plutôt que « force brute» [BAT-

99]113. Notre stratégie repose sur le principe de « diviser pour mieux régner » : nous combi-

nons les informations fournies par des supports temporels et des paramètres complémentaires

(e.g., voyelle / consones, acoustique / prosodie) pour caractériser les émotions. Cette approche

permet de quantifier la contribution des différents paramètres intervenant dans la caractérisa-

tion des états affectifs de la parole &*(/23#-()#$(.#'6-05*#$()#(9*$02-()"0-92+/&.02-$. Ainsi,

au lieu )"exploiter des segments définis de façon arbitraire (e.g., toutes les 500ms) ou de fa-

çon unique (e.g., segments voisés) pour extraire les caractéristiques du signal de parole, nous

préférons exploiter )099,+#-.$( %20-.$( )"&-'+&7#$ acoustiques complémentaires des informa-

tions (e.g., voyelle, consonne, syllabe, « p-centre », etc.). De nombreuses études ont en effet

montré que la durée des phonèmes est liée aux variabilités affectives de la parole [LEE04]114,

[BUL05]115, et [KIS10]116, et que ces variabilités peuvent également être dépendantes de la

langue du locuteur [RIN08c]112 et [GOU10]117, cf. Fig. 1.10.

Ensuite, et au-)#!:()*(9&0.(5*#(!&(/&;2+0.,()#$($3$.</#$()#(+#'2--&0$$&-'#(0$$*$()#(!",.&.-

de-!"&+.(#-(=>?(2+0#-.,(,/2.02-(07-2+#(!#('2-.#8.#()#(%+2)*'.02-(!2+$()#(!",.&%#()"#8.+&'.02-(

112

@A(B0-7#1&!( #.(CA(D6#.2*&-04( E>( 12F#!( G&$#)( &%%+2&'6( 92+( &'.#)( #/2.02-( +#'27-0.02-H4( )&-$( %+2'A Inter-speech, Brisbane, Australia, Sep. 22-26 2008, pp. 2763I2766.

113 >A(J&.!0-#+4(KA(J*'L2F4(BA(M*G#+4(NA(O&+-L#4(PA(QR.6(#.(MA(Q0#/&--4(E?+2$2dic feature evaluation: brute

92+'#(2+(F#!!()#$07-#)SH4()&-$(%+2'A(14th ICPhS, San Francisco, (CA), USA, Aug. 1999, pp. 2315I2318. 114

C. M. Lee, S. Yildirim, M. Bulut, A. Kazemzadeh, C. Busso4(TA(U#-74(VA(W##(#.(VA(Q&+&3&-&-4( EP/2.02-(

+#'27-0.02-(G&$#)(2-(%62-#/#('!&$$#$H4()&-$(%+2'A( Interspeech, Jeju Island, Korea, Oct. 4-8 2004, pp. 205I

211.

Fig. 1.9: Evolution des mesures de durée des voyelles et des consonnes selon les

émotions

Le centre de perception Une méthode a été récemment proposée pourextraire automatiquement l'enveloppe rythmique d'un signal de parole [Tilsenand Johnson, 2008]. Cette méthode permet d'accéder au centre de perceptionde la parole, appelée "p-centre", qui représente les instants rythmiques perçus.La méthode d'extraction de l'enveloppe rythmique exploite un ensemble de�ltres inspirés de la perception humaine (cf. �gure 1.10).

Le signal obtenu permet de caractériser des proéminences rythmiques (cf.�gure 1.11). Fabien Ringeval a proposé de dé�nir des ancrages ayant pour sup-port le p-centre. Trois niveaux de seuillage adaptatif de l'enveloppe rythmiquesont introduits : niveau 1 (1/3 de l'amplitude maximum), niveau 2 (1/4) etniveau 3 (1/6). De part cette dé�nition, la proéminence rythmique in�ueradonc directement le nombre d'ancrages.

Nous avons exploré les corrélats phonétiques des ancrages dé�nis sur labase du "p-centre". L'étude a consisté à étudier les recouvrements entre les

Page 48: "Traitement du signal social et robotique personnelle: Signaux actes ...

34 Caractérisation de signaux de paroleCHAPITRE 2. ANCRAGES ACOUSTIQUES DE LA PAROLE

44

Signal de parole

Enveloppe rythmique

Filtre passe-bande

700 ! 1300Hz

Filtre passe-bas

F c = 10Hz

Sous-échantillonnage

F e = 80Hz

Pondération

par une

fenêtre de Tukey

Normalisation

F ig. 2.14 "#$%&'()*+*,--)**#.*+&/'$#*/*+01,&+)2%&'#&)+$3)45)$100)+&6%78#9,)+:3,4+*#(4'$+:)+0'&1$);

Ce point désigne les instants rythmiques à la fois perçus par un locuteur et un auditeur. Une

8/%71:)+0)&8)%%'4%+:3)2%&'#&)+$3)45)$100)+&6%78#9,)+:3,4+*#(4'$+:)+0'&1$)+'+/%/+0&101*/)+0'&+

Tilsen et al. [TIL08b]29. Les proéminences issues de cette enveloppe permettent de localiser

les « p-centres ». Un ensemble de filtres numériques, supposés représenter les processus em-

0$16/*+ 0'&+ $3<188e pour percevoir le rythme de la parole, est pour cela employé, cf. Fig.

2.14.

U4+.#$%&)+:)+=,%%)&>1&%7+)*%+%1,%+:3'?1&:+'00$#9,/+*,&+$)+*#(4'$+:)+0'&1$)+:'4*+$'+?'4:)+:)

fréquence 700 ! 1300 Hz ; cette bande de fréquence a été identifiée comme étant celle du « p-centre » [CUM98]30. La seconde étape du filtrage consiste à extraire l'enveloppe du signal au

816)4+:3un passe-bas de type Butterworth (ordre 4 et fréquence de coupure égale à 10Hz). Le

signal est ensuite sous-échantillonné à la fréquence de 80Hz et une correction de 45ms est

appliquée pour le retard de phase introduit par les filtres, i.e., la somme des retards de phase

des filtres dans leur bande-passante;+ @3)45)$100)+ rythmique est enfin pondérée par une fe-

nêtre de Tukey (r = 0.1) et normalisée par sa moyenne. @3)2)80$)+de la Fig. 2.15 montre que

les proéminences rythmiques du signal de parole ne correspondent pas forcément avec celles

:)+$3/4)&(#)+'-1,*%#9,).

@3)45)$100)+&6%78#9,)+0)&8)%+:)+$1-'$#*)&+$)*+-)4%&)*+:)+perception de la parole. Les an-

crages « p-centre » peuvent par exemple être obtenus en définissant des seuils (e.g., 1/3, 1/4,

ABCD+*,&+$3'80$#%,:)+:)+$3)45)$100)+&6%78#9,)+:,+*#(4'$+:)+0'&1$) [RIN09]31. Ces seuils per-

mettent de représenter, de façon artificielle, différents niveaux de perception de la proémi-

4)4-)+&6%78#9,)+E+4#5)',+AF+*),#$+G+ABH+:)+$3'80$#%,:)F+4#5)',+IF+*),#$+G+ABJ+:)+$3'80$#%,:)F+)%+

4#5)',+HF+*),#$+G+ABC+:)+$3'80$#%,:)F+-.;+"#(;+I;A6. Les « p-centres » détectés au niveau 1 sont

ainsi sit,/*+',+*188)%+:)+$3/-7)$$)+:)+0&1/8#4)4-)+&6%78#9,);+@)*+:),2+',%&)*+4#5)',2+#4%è-

(&)4%+9,'4%+K+),2+0$,*+:3#4.1&8'%#14*+*,&+$'+*%&,-%,&)+:)+$'+0&1/8#4)4-)F+);(;F+$'+:#**68/%&#)+

0&/*)4%)+:'4*+$3'5'4%-dernier segment « p-centre » :)+$3)2)80$)+:)+$'+"#(;+I;AC+43'00'&'L%+9,)+

sur le niveau 3.

29 S. Tilsen et K. Johnson, MLow-frequency Fourier analysis of speech rhythmN, dans J. of Acoust. Soc. of Amer.,

Express Letters, vol. 124, no. 2, pp. 34!39, Aug. 2008.

30 F. O,88#4*+)%+P;+Q1&%F+MP76%78#-+-14*%&'#4%*+14+*%&)**+%#8#4(+#4+R4($#*7NF+:'4*+Journal of Phonetics, vol. 26,

pp. 145!171, 1998.

31 F. Ringeva$+ )%+ S;+ O7)%1,'4#F+ M<#$?)&%-Huang transform for non-$#4)'&+ -7'&'-%)&#T'%#14+ 1.+ *0))-7+ &76%78NF+

dans proc. NOLISP, Vic, Spain, Jun. 25-27 2009.

Fig. 1.10: Cascade de �ltres employés par [Tilsen and Johnson, 2008] pour l'ex-

traction de l'enveloppe rythmique d'un signal de parole. 4. EXPERIMENTATIONS

45

F ig. 2.15 !"#$%&#'()#*+#&,%%#'-./0$123#'#"/-41/#'53-'3*'516*4&'(#'%4-,&#7

F ig. 2.16 Niveaux de perception des « p-centres » selon le degré de seuillage ; niveau 1, seuil = 1/3 de

&)4$%&1/3(# ; niveau 2, seuil 8'9:;'(#'&)4$%&1/3(# <'#/'*1+#43'=>'5#31&'8'9:?'(#'&)4$%&1/3(#7

4. Expér imentations

@#//#'5#A/1,*'%-B5#*/#'&#5'-B53&/4/5'()3*#'B/3(#'+154*/'C'A4-4A/B-15#-'&#'A,$%,-/#$#*t des

systèmes précédents sur des données incluant différents types de parole (e.g., lue et affective).

Les scores en détection de pseudo-phonèmes ainsi que les structures phonétiques (i.e., taux de

recouvrement des voyelles et des consonnes) des ancrages rythmiques « p-centres » ont pu

être calculés grâce aux transcriptions contenues dans les corpus. Ces derniers sont présentés

dans la sous-section 4.1 et les résultats sont décrits dans les deux sous-sections suivantes.

4.1. Corpus de parole étudiés

D#5'#"%B-1#*A#5'1*A&3#*/'&)4*4&.5#'(#'corpus de parole lue en qualité laboratoire (corpus

Fig. 1.11: Exemple d'enveloppe rythmique extraite d'un signal de parole

ancrages phonétiques issus de la transcription (référence) et ceux issus desdétections automatiques précédemment décrites. Le tableau 1.6 regroupe lesrésultats de l'étude (voir [Ringeval, 2011] pour d'autres résultats). Les ré-sultats montrent que les voyelles et les segments voisés sont les principauxsupports des ancrages rythmiques et ceux quelque soit le seuil de percep-tion. Les segments consonantiques et non voisés ne contribuent que très peuaux ancrages rythmiques. Ce résultat expérimental montre que les ancragesdé�nis à partir du seuillage de l'enveloppe rythmique sont potentiellementporteurs d'informations a�ectives à l'image des ancrages voisés et voyelles.Néanmoins comme le montre le recouvrement avec les voyelles détectées, lesancrages "p-centre" permettent de caractériser des informations di�érentes

Page 49: "Traitement du signal social et robotique personnelle: Signaux actes ...

1.4. Informations non-verbales 35

qui seront exploitées par la suite dans la conception d'un système de recon-naissance multi-ancrage. Ces ancrages ont pour objectifs d'être générique etapplicable à des productions verbales non-linguistiques (e.g. rires, pleurs) sou-vent présentes dans les corpus naturels et spontanés comme ceux étudiés dansce manuscrit (interaction parent-bébé, enfants atteints de troubles de la com-munication, robotique).

Tab. 1.6: Taux de recouvrement des "p-centres" en % avec les autres types d'an-

crage acoustique de la parole (moyenne et écart-type)

Corpus Seuil VREF CREF VDET CDET SegV OI SegNV OI

TIMIT 1/3 74 (15) 14 (10) 64 (15) 28 (14) 75 (23) 2 (3)

1/4 74 (11) 17 (9) 62 (12) 32 (13) 79 (19) 2 (3)

1/6 72 (9) 21 (8) 59 (11) 38 (11) 82 (16) 4 (5)

Berlin 1/3 68 (17) 19 (14) 64 (15) 28 (14) 70 (22) 4 (7)

1/4 65 (15) 24 (14) 62 (13) 33 (12) 74 (18) 6 (7)

1/6 61 (13) 30 (12) 58 (10) 38 (10) 75 (16) 9 (8)

Reconnaissance des émotions : système multi-ancrage

Nous avons cherché à valider le concept d'ancrage en l'exploitant dans unetâche de reconnaissance d'émotions. La détection d'ancrages est associée à uneétape d'extraction de paramètres acoustiques (MFCC). Et suivant l'approchedé�nie par [Vlasenko et al., 2007; Shami and Verhelst, 2007], des probabilitésa posteriori sont estimées pour chaque ancrage. La décision �nale exploite lafusion de ces probabilités.

Lors de nos expériences avec le corpus Berlin, les ancrages apparus commeles plus pertinents pour extraire des caractéristiques acoustiques corrélées àl'a�ect ont été les segments voisés (score de reconnaissance 66%), les voyellesissues de la transcription (65%), les pseudo-voyelles (62%) et les "p-centres"de niveau 3 (62%). Selon les protocoles d'évaluation, les normalisations etles bases de données (nombre de locuteurs, données actées ou non), les di�é-rences entre ces scores peuvent se révéler signi�catives ou pas. La fusion deces ancrages permet d'investiguer les contributions individuelles des ancragesen exploitant un cadre probabiliste :

P (Cm|Ux) = αP (Cm|ACi) + (1− α)P (Cm|ACj) (1.14)

Avec P (Cm|ACi) probabilité a posteriori de reconnaître la classe Cm à partirde l'ancrage ACi. Il s'agit d'une généralisation de l'approche SBA dé�nie par[Shami and Verhelst, 2007] (cf. équation 1.11).

Page 50: "Traitement du signal social et robotique personnelle: Signaux actes ...

36 Caractérisation de signaux de parole

Les stratégies de normalisations (souvent basées sur le z-score) des para-mètres acoustiques impactent directement les performances des systèmes dereconnaissance. Nous avons étudié plusieurs variantes : (1) Raw : aucune nor-malisation des données, (2) Z-tout : normalisation sans information a priori,(3) Z-genre : normalisation selon le genre du locuteur, (4) Z-locuteur : nor-malisation selon le locuteur et (5) Z-phrase : normalisation selon la phrase.Au-delà de l'amélioration des scores, ces normalisations avec introduction d'in-formations a priori permettent d'analyser l'impact de l'identité, du genre dulocuteur ou bien encore du contenu phonétique de la phrase.

L'évaluation des performances a été menée dans un cadre expérimental ri-goureux selon deux conditions : (1) indépendance des classes (cross-validationstrati�ée), (2) indépendance au locuteur et ceci avec plusieurs types de clas-si�eur (k-ppv, GMM et SVM). Sont reportés dans ce document uniquementles résultats des di�érentes normalisations en cross-validation strati�ée (ta-bleau 1.7). L'identité et le genre du locuteur sont des informations permet-tant d'améliorer les performances des systèmes de reconnaissance re�étantainsi l'individualité de l'a�ect.

Tab. 1.7: Scores (en %) de reconnaissance des émotions sur le corpus Berlin : e�et

des normalisations des informations a priori. L'importance relative des segments est

indiquée entre parenthèses (αi cf équation 1.14 )

Fusion des ancrages Raw Z-tout Z-genre Z-locuteur Z-phrase

voisé / non-voisé 63 9/1 63 9/1 64 9/1 68 9/1 62 10/0

voyelle / consonne 61 5/5 62 5/5 62 7/3 68 7/3 6010/0

pseudo-voyelle / 62 1/8 61 8/2 626/4 67 10/0 60 10/0

pseudo-consonne

phonèmes voyelles / 59 2/8 59 0/10 59 7/3 65 4/6 60 6/4

consonnes

La table 1.8 regroupe les détails des scores de reconnaissance par émotion :la "Colère" et la "Tristesse" sont bien mieux reconnues que la "Joie" ou"l'Ennui". Une analyse détaillée des scores fait apparaître, selon les pointsd'ancrage, des di�érences importantes dans les performances obtenues.

Les expériences menées montrent que les ancrages proposés dans la thèsede Fabien Ringeval sont des supports du message a�ectif avec bien évidemmentdes contributions di�érentes (cf. tableau 1.8). Ces travaux réalisés avec un cor-pus d'émotions actées sont étendus à l'analyse de données naturelles et spon-tanées chez les enfants atteints de troubles de la communication (cf. section1.5). L'incorporation d'informations liées à des ancrages pseudo-phonétiqueset rythmiques est une des voies suivie pour la caractérisation robuste du mes-sage a�ectif tout en produisant des unités interprétables notamment par des

Page 51: "Traitement du signal social et robotique personnelle: Signaux actes ...

1.4. Informations non-verbales 37

Tab. 1.8: Scores (en %) de reconnaissance des émotions sur le corpus Berlin

Fusion des ancrages Colère Peur Ennui Dégoût Joie Neutre Tristesse

voisé / non-voisé 79 74 59 74 61 48 81

voyelle / consonne 79 74 65 46 59 49 87

pseudo-voyelle / 79 68 52 63 62 52 87

pseudo-consonne

phonèmes voyelles / 87 53 51 78 59 43 92

consonnes

"p-centres" de niveau 3 81 56 35 67 54 56 94

orthophonistes et des psycho-linguistes.

1.4.2 Dynamique du signal de parole : Rythme

La prosodie joue un rôle fondamental dans le traitement de la parole af-fective (cf. �gure 1.2). La �gure 1.12 rappelle les composantes perceptuelles etphysiques de la prosodie. Le pitch, l'intensité perçue et la qualité vocale sontles composantes les plus étudiées via leurs corrélats physiques : la fréquencefondamentale, la pression acoustique et les formants [Batliner et al., 2011].L'extraction robuste de ces signaux constitue un dé� en soi.

Les systèmes de l'état de l'art en reconnaissance des émotions ex-ploitent généralement une multitude de descripteurs acoustiques et proso-diques (LLDs : Low Level Descriptors) auxquels sont appliqués un ensemblede fonctionnelles ou statistiques (e.g. max, kurtosis, ecart inter quartiles, po-sition relative du minimum....) [Schuller et al., 2009, 2007a]. Il en résulte unsuper-vecteur composé de centaines voire de milliers de paramètres dont ladimension est généralement réduite par une phase de sélection de caractéris-tiques.

Nos travaux sur la caractérisation de la parole a�ective se sont focaliséssur la dimension temporelle des événements acoustiques et/ou perceptuels,généralement sous-exploitée dans les systèmes de reconnaissance. L'approcheSBA intègre de manière explicite la durée des ancrages dans la prise de décisionSBA (cf. équation 1.11). Cependant, la durée est un phénomène complexe etsubjectif comme le souligne les travaux de recherche en psycho-acoustique[Zwicker and H., 1990]. Nous avons proposé d'aller au-delà de l'intégrationd'informations temporelles dans la fusion en menant des investigations sur ladynamique des ancrages (cf. �gure 1.12). L'étude de cette dynamique reposesur la caractérisation du rythme.

Le rythme possède la particularité d'être dé�ni par l'alternance ou la ré-pétition d'événements espacés dans le temps. La nature de ces événements

Page 52: "Traitement du signal social et robotique personnelle: Signaux actes ...

38 Caractérisation de signaux de parole

CHAPITRE 4. RECONNAISSANCE PROSODIQUE DE LA PAROLE AF F ECTIVE ACTEE

Fig. 1.12: Principe de caractérisation dynamique des composantes prosodiques

incluant le rythme de la parole (�gure extraite de [Ringeval, 2011])

est souvent diverse. Le chapitre 3 sera l'occasion de revenir sur l'étude durythme appliqué à des signaux biologiques (rythme cardiaque, respiration oubien encore la marche) dans un contexte de robotique interactive. La com-posante rythmique du signal de parole est indéniable [Cummins, 2002, 2008;Tilsen and Johnson, 2008]. Pellegrino [2011] indique que le rythme est associéà l'organisation temporelle de la parole, et résulte de l'interaction de :

� La nature des constituants considérés (ici les ancrages),� L'alternance entre des constituants plus ou moins proéminents,� Le modèle de régularité pour le regroupement des constituants dans des

Page 53: "Traitement du signal social et robotique personnelle: Signaux actes ...

1.4. Informations non-verbales 39

unités plus longues.En partant de la notion d'ancrages, nous avons proposé plusieurs méthodesmodélisant l'interaction entre nature, alternance et durée des ancrages.

Méthodes conventionnelles

Les méthodes conventionnelles exploitent la distribution des durées dessegments vocaliques et intervocaliques. Ramus et al. [1999] ont proposé unemesure rythmique basée sur le pourcentage d'intervalles vocaliques (%V) etl'écart-type des intervalles consonantiques (∆C). La variabilité temporelle depaires d'intervalles phonétiques successifs est le fondement des mesures glo-bales proposées par [Grabe and Low, 2002] : rPVI et nPVI.

Plusieurs autres méthodes conventionnelles sont passées en revue dans lathèse de Fabien Ringeval. Leurs caractéristiques sont regroupées �gure 1.9. Lesmétriques proposées dans la littérature n'intègrent pas la notion d'interactionentre la nature et la durée des ancrages car trop globales (statistiques surl'ensemble du tour de parole). Un des paradoxes des mesures globales estqu'inverser l'ordre temporel des événements ne change pas les résultats.

Tab. 1.9: Résumé des caractéristiques des métriques conventionnelles du rythme

de la parole (extrait de [Ringeval, 2011])

CHAPITRE 4. RECONNAISSANCE PROSODIQUE DE LA PAROLE AF F ECTIVE ACTEE

94

Table 4.1 Résumé des caractéristiques des métriques conventionnelles du rythme de la parole.

Métr ique Paramètre Calcul Domaine !"#$$%&'#(&)*

Avantage(s) Inconvénient(s)

+,-./0 pourcent V

et delta C

proportion et

écart-type des

intervalles voca-

liques et conso-

nantiques

phénomènes de

réduction

mesure globale

calcul très

simple à mettre

!"#$%&'!, néces-

site au min. 2

unités pour % V

dépend du dé-

bit, ne prend pas

en compte les

phénomènes

locaux

Varco coefficient

de varia-

tion

rapport de

()*+,'--type sur la

moyenne des

intervalles

phénomènes de

réduction

mesure globale

prend en compte

les moments

statistiques

.)/'.'!#0#!-#1

mêmes incon-

vénients que

% V et /0

!" périodicité

moyenne

écart-type de la

distribution sta-

tistique circulaire

des intervalles

phénomènes de

compensation

mesure globale

fait ressortir des

irrégularités dans

les intervalles de

durée

de même que

% V et /0,

nécessite au

min. 3 unités

RR rhythm

ratio

rapport de durée

entre deux inter-

valles consécutifs

phénomènes de

variations dans

les intervalles

mesure locale

étudie les en-

chainements à

court terme des

intervalles

dépend du dé-

bit, nécessite au

min. 3 unités

rPV I raw pair-

wise varia-

bility index

différence abso-

lue entre deux

intervalle cons-

écutifs

de même que

RR mesure locale

de même que

RR

de même que

RR

nPV I normalized

pairwise

variability

index

de même que

pour rPVI mais

avec une norma-

lisation au débit

de même que

RR mesure locale

de même que

RR, prend en

compte le débit

nécessite au

min. 3 unités

processus cognitifs de la parole pour le Japonais ; notons que cette horloge est sujette à la con-

troverse, cf. sous-section 1.2. Une de leurs récentes études [BRA06]39, conduite sur les phé-

nomènes de compensation des mores en relation avec les intervalles de durée séparant les

attaques des syllabes voisées du Japonais, les ont amené à considérer ces unités comme des

cibles importantes pour une horloge servant de référence, ou un mécanisme de planification

de la parole. Le phénomène de compensation temporelle a été évalué au moyen de mesures

2-,-32-34%!2#+3'+%(,3'!25#6"#272-89!#:!'9!--,"-#.)3.!"-3;3!'#automatiquement les attaques des

27((,<!2#&/32*!2#2%'#%"#23=",(#.!#:,'/(!#,#-/%-#.),</'.#*-*#.*&!(/::* (filtrage du signal ), cf.

Fig. 4.5. Une fois ces segments identifiés, une onde sinusoïdale a ensuite été générée avec une

période fixée à la valeur moyenne des intervalles séparant les segments. Leur position respec-

tive dans le temps correspond ainsi à une valeur de phase dans la sinusoïde générée. La pério-

dicité des intervalles séparant les segments est quantifiée par la moyenne des n écarts de phase

#$ issus de la projection des données dans un espace de représentation circulaire [23], cf. Fig.

4.6. Cette mesure éq%3&,%-#>#+!((!#.!#()*+,'--type. Elle a notamment permis de montrer que :

(i) les durées des segments de parole reliés à la more en Japonais dépendent de la durée des

autres segments et que ?33@#+!2#+/9:!"2,-3/"2#.*A/%!',3!"-#")39:/'-!#4%!(#/2+3((,-!%'#,.,:-,-3;#

qui supposerait une isochronie relativement bruitée dans les attaques des syllabes.

39

!"#$"#%&'()#*+#,"#-"#./&+0#123'4+56)547#8/9*:#/4;*+#<*&5/(5=5+)#54#>'<'4*;*?0#('4;#<&/="#16th ICPhS,

Saarbrücken, Germany, Aug. 6-10 2006, pp. 337@342.

Page 54: "Traitement du signal social et robotique personnelle: Signaux actes ...

40 Caractérisation de signaux de parole

Contributions à la caractérisation du rythme

Le rythme de la parole est le re�et de la structure temporelle des an-crages. La thèse de Fabien Ringeval a porté sur le développement de modèlesdu rythme. Quatre modèles ont été proposés : (1) caractéristiques spectrales(entropie, fréquence moyenne et barycentre) de la transformée de Fourier del'enveloppe rythmique du signal de parole "p-centre" [Tilsen and Johnson,2008], (2) estimation de l'amplitude et de la fréquence instantanée des inter-valles entre les ancrages à l'aide de la transformée d'Hilbert-Huang (THH),(3) calcul dérivé du PVI pour quanti�er le changement dans le coe�cient devariation (Varco) et (4) caractérisation de la dynamique et de la nature desancrages par la distance de Hotelling.

Le tableau 1.10 décrit les modèles étudiés quali�és de non-conventionnelscar allant au-delà de l'information globale extraite par les métriques de [Ramuset al., 1999] et [Grabe and Low, 2002].

Tab. 1.10: Résumé des caractéristiques des métriques non-conventionnelles du

rythme de la parole (extrait de [Ringeval, 2011])

2. MODELISATIONS PROSODIQUES DE LA PAROLE AF F ECTIVE

99

Table 4.2 Résumé des caractéristiques des métriques non-conventionnelles du rythme de la parole.

Métr ique Calcul Domaine !"#$$%&'#(&)*

Avantages Inconvénients

Mesure de sonorité

divergence de Kullback-

Leibler sur des coeffi-

cients spectraux et entre

des trames consécutives

variations à court

terme dans le

spectre du signal

de parole

ne nécessite pas de

segmentation en

voyelle / consonne

ignore le con-

texte de pro-

duction, dépend

du cadre seg-

mental

Analyse basses f ré-quences de Fourier

entropie, barycentre et

fréquence moyenne

spectrale calculés sur la

TF du « p-centre »

variations à long

terme dans

!"#$%!&'()*+)(+

signal « p-centre »

de même que pré-

cédemment, prend

en compte les as-

pects en perception

du rythme

ne prend pas en

compte les

phénomènes

locaux

F réquence et amplitude instantanées

THH sur des signaux

créés par des intervalles

de durée séparant une

unité donnée

enveloppe et fré-

quence instant-

#,-*.+)"(,*+(,&'-+

donnée

fournit beaucoup

de valeurs pour

)-/0&0*+!"*,1*!2%%*+

et la fréquence du

rythme

nécessite au

min. 3 unités,

estimation cou-

teuse en temps

de calcul

Variabilité prosodique

calcul du rPVI sur le

coefficient de variation

)"un LLD prosodique et

normalisation au débit

variations dans la

)&.%*0.&2,+)"(,+

LLD à travers des

%#&0*.+)"(,&'-.+

consécutives

intègre les infor-

$#'&2,.+)"(,+334

prosodique, prend

en compte le débit

nécessite au

min. 3 unités et

la présence

)"(,+334+%0o-

sodique

Distance prosodique

distance de Hotteling à

travers les LLDs et entre

)*.+%#&0*.+)"(,&'-.+/2n-

sécutives, normalisation

au débit et inclut les

corrélations des LLDs

variations dans la

distribution des

LLDs à travers des

%#&0*.+)"(,&'-.+

consécutives

intègre les infor-

mations de tous les

LLDs prosodiques,

prend en compte le

débit et les inter-

corrélations

de même que

précédemment

et peut requérir

la présence de

plusieurs LLDs

selon la config.

représenter les processus de %*0/*%'&2,+)(+05'6$*7+82$$*+!#+920$*+)"2,)*+)*+/*+.&:,#!+*.'+

plutôt stationnaire, nous pouvons exploiter la transformée de Fourier pour estimer les valeurs

)"*,'02%&*;+ )*+ <#05/*,'0* *'+ !#+ 90-=(*,/*+$25*,,*+ )*+ !"*,1*!2%%*+ 05'6$&=(*+ )(+ .&:,#!, cf.

Fig. 4.8 [26]. Ces paramètres permettent de décrire de façon globale, la structure rythmique

contenue dans un signal de parole à travers la courbe décrivant les valeurs du « p-centre », cf.

chapitre 2, sous-section 2.2.2.

F réquence et amplitude instantanées Nous avons proposé dans [RIN09]55 )"('&!&.*0+!#+'0#,.920$-*+)">&!<*0'-Huang (THH) pour

extraire les composantes rythmiques de la parole [HUA98]56. Des signaux SUI (Speech Unit Intervals) ont pour cela été générés avec les intervalles de durée séparant les segments consé-

/('&9.+*'+&..(.+)"un même ancrage acoustique, cf. Fig. 4.9. Puisque le nombre de segment dis-

ponible par phrase est relativement 9#&<!*+?.2(1*,'+*,+)*..2(.+)"(,*+)&@#&,*A;+,2(.+#12,.+)B+

sur-échantillonner les signaux SUI avant de calculer la THH. Nous avons notamment utilisé

des splines cubiques avec une fréquence )"-/6#,'&!!2,,#:*+ F e égale à 32Hz. Nous avons

55

F. Ringeval et M. Chetouani;+ C>&!<*0'-Huang transform for non-!&,*#0+ /6#0#/'*0&@#'&2,+ 29+ .%**/6+ 065'6$D;+

dans proc. NOLISP, Vic, Spain, Jun. 25-27 2009. 56

N. Huang, Z. Shen, S. Long, et al. E+CF6*+*$%&0&/#!+$2)*+)*/2$%2.&'&2,+#,)+>&!<*0'+.%*/'0($+920+,2,!&,*#0+and nonstationary time .*0&*.+#,#!5.&.D;+)#,.+%02/7+R. Soc. London, ser. A, vol. 454, pp. 903G995, Mar. 1998.

Analyse basse fréquence de l'enveloppe rythmique Cette méthoderepose sur l'analyse fréquentielle de l'enveloppe rythmique extraite par la mé-thode proposée par Tilsen and Johnson [2008] (cf. section 1.4.1). L'analyse

Page 55: "Traitement du signal social et robotique personnelle: Signaux actes ...

1.4. Informations non-verbales 41

consiste à extraire des informations globales du spectre : entropie, barycentreet fréquence moyenne (cf. �gure 1.13). L'objet étant d'analyser la variabilitéde l'enveloppe rythmique du signal de parole.CHAPITRE 4. RECONNAISSANCE PROSODIQUE DE LA PAROLE AF F ECTIVE ACTEE

100

!

!"#$%&'( ! "# )*$ +%,%&)*'!

-.$/0("#$( ! *(

1

(&)*1')*()* !

*$+23("0(,4%/(""( ! *(

1

(&)*1'&)*%'()*% !

[26]

!

!

!

!

!

!

!!

"#$%!&%' Figure du haut !"#$%&'(")*+,-$./0"1'##0"2)3./0&40#"$##/0"56/&"#$%&'("50"7')8(0 ; Figure du

bas : spectre fréquentiel du signal rythmique.

choisi cette valeur 78/)"./60((0"#8$+"0&"'448)5"'904 le plus faible intervalle de durée qui puisse

être présent dans nos données, ce qui est le cas des ancrages phonétiques et 58&+"(6'-7($+/50"

fréquentielle varie de 1Hz à 16Hz [DRU94]57. La valeur de Fe que nous avons choisi corres-

pond donc au double du plus grand écartement fréquentiel pouvant être observé entre deux

segments consécutifs, i.e., 16Hz. La THH permet alors de fournir des données fiables sur les

signaux SUI générés à partir des 78$&+#"56'&4)'%0s acoustiques étudiés dans cette thèse, cf.

4,'7$+)0":;"<8+8&#"./6/ne plus grande valeur de Fe risquerai+"56'778)+0)"50s artefacts en rai-

#8&"56/&" #/)-échantillonnage trop important des #$%&'/=">?@A"56'/+'&+"7(/#"./0 des erreurs

apparaissent déjà avec une valeur de F e fixée à 32Hz, cf. Fréquence instantanée, Fig. 4.9.

La première étape de la THH consiste en une décomposition par mode empirique (EMD).

La méthode EMD est une approche conduite par les données, et dans laquelle une série de

valeurs -&.' est décomposée en un ensemble fini 568#4$(('+$8&#"$&5$9$5/0((0#"4')'4+3)$#+$./0#"

appelées fonctions à mode intrinsèque (IMFs) [HUA98]. Les IMFs sont extraites à travers une

représentation locale du signal -&.', qui est considéré comme étant issu de ('"#8--0"56/&0"

composante oscillante /&.' B partie hautes fréquences B et 56une tendance locale 0&.' B par-

tie basses fréquences. Les IMFs sont itérativement obtenues par un processus de tamisage

C/#./6D" 40" ./0" 50/=" conditions soient satisfaites : (i) une moyenne nulle et (ii) un nombre

$50&+$./0"560=+)0-'"0+"50"7'##'%0#"7')"E3)8A"8/"/&0"5$223)0&40"50"/&;"F0"#$%&'("-&.' est alors

représenté par la somme de N IMFs /1 et des composantes résiduelles finales 21 [27].

G/$#./6/&" &8-1)0" +)87" $-78)+'&+" 56$+3)'+$8&#" 70/+" 48&5/$)0" D" /&0" #/)-décomposition du

signal, Flandrin et al. ont proposé un nouveau critère pour stopper le processus de tamisage

$&4(/+" 5'&#" (6HIJ" KL@FMNO58;"P0" 50)&$0)" 0#+" '(8)#" $+3)3" +'&+" ./6/&0" 28&4+$8&" 5639'(/'+$8&"!

reste en-50##8/#"56/&" #0/$(""1 pour une fraction (1-#Q"50" ('"5/)30" +8+'(0" 0+" 0&"50##8/#"56/&

deuxième seuil "2 78/)"('"2)'4+$8&"+0-78)0((0")0#+'&+0;"F'"28&4+$8&"5639'(/'+$8&"! est définie

par le rapport entre la moyenne 0&.' et la composante oscillante /&.'. Cette approche permet

56'##/)0)"50"2'R8&"%(81'(0, de petites fluctuations dans la moyenne tout en tenant compte des

57

L;"J)/((-'&A"S;"I;"T0#+0&"0+"L;"G(8-7A"UH2204+"82"+0-78)'("0&90(870"#-0')$&%"8&"#7004,")0407+$8&VA"5'&#"J. of the Acous. Soc. of Amer., vol. 95, pp. 1053B1064, 1994.

58 W;"L$($&%A"G;"T('&5)$&"0+"G;"W8&R'(9X#A"UY&"0-7$)$4'("-850"5048-78#$+$8&"'&5"$+#"'(%8)$+,-#VA"5'&#"7)84;"6th IEEE-EURASIP W. on NSIP, Grado, Italy, Jun. 8-11, 2003.

Fig. 1.13: Analyse basses fréquences du rythme : enveloppe rythmique et sa trans-

formée de Fourier

Fréquence et amplitude instantanées Cette méthode est inspirée durythme cardiaque généralement appelé signal R-R en référence à la durée del'intervalle entre les ondes R du signal ECG. Nous avons proposé de générer unsignal, appelé SUI (Speech Unit Interval), avec les intervalles de durée sépa-rant les segments consécutifs et issus d'un même ancrage acoustique (voyelle,consonne, "p-centre"...). Pour un tour de parole donné, le nombre de segmentsétant généralement faible (<10), nous avons procédé à un ré-échantillonagedes signaux SUI (Fe=32Hz) en prenant en compte les données de la littératuresur le débit syllabique notamment (variant de 1Hz à 16Hz)3. Les détails tech-niques sont présentés dans [Ringeval, 2011; Ringeval and Chetouani, 2009].

Le caractère non-stationnaire des signaux SUI, dû à la variabilité pho-nétique et rythmique, rend la tâche d'estimation de paramètres instantanésdi�cile. Nous avons opté pour des méthodes avancées de traitement du signalen exploitant la transformée d'Hilbert-Huang. La première étape de la THHconsiste en une décomposition en mode empirique. Il s'agit de décomposerle signal en un ensemble �ni d'oscillations individuelles appelées modes in-trinsèques (IMFs). Les IMFs sont des signaux à bandes de fréquences limitéespermettant ainsi lors de la seconde étape de la THH l'application de la trans-

3Des expériences de re-synthèse de signaux permettent d'évaluer les erreurs d'échan-

tillonnage (cf. [Ringeval, 2011])

Page 56: "Traitement du signal social et robotique personnelle: Signaux actes ...

42 Caractérisation de signaux de parole

formée d'Hilbert (TH). L'amplitude et la fréquence instantanées sont ainsiestimées pour former une analyse temps-fréquence adaptative du signal SUI.

Variabilité prosodique Nous avons proposé d'étendre la métrique PVI(Pairwise Variability Index) [Grabe and Low, 2002] dans laquelle nous rem-plaçons la mesure d'intervalle de durée par celle de la dispersion relative dedescripteurs prosodiques. En exploitant comme descripteur le coe�cient de va-riation cv = σ

µ(de la fréquence fondamentale ou de l'énergie), nous obtenons

la métrique suivante :

P − PV I =1

N − 1

N−1∑k=1

dkdk+1Ik

dk + dk+1 + Ik

|cvk− cvk+1

| (1.15)

Avec dk durée de l'ancrage k et Ik intervalle entre les ancrages k et k + 1.Une des particularités de cette métrique est d'être nulle si les dispersions

(coe�cient de variation) mesurées sur deux segments consécutifs sont iden-tiques. Dans le cas contraire, la di�érence est pondérée par la durée des an-crages et l'intervalle entre ces ancrages. La métrique caractérise une certaineforme de proéminence qui peut, en fonction des informations traitées, traduiredes changements de fréquence fondamentale ou d'énergie.

Distance prosodique La motivation principale de cette métrique est laprise en compte explicite de l'interaction entre la fréquence fondamentale,l'énergie et la durée des ancrages. La métrique repose sur la distance de Ho-telling (T 2) (HD). L'idée étant de mesurer la distance entre deux ancrages,chacun étant modélisé par une seule Gaussienne, par un calcul similaire àla distance de Mahalanobis. La distance de Hotelling intègre une normalisa-tion par la durée des deux ancrages analysés. L'approche consistant à ne pascomparer des caractéristiques mais des modèles s'est révélée pertinente dansd'autres tâches en TAP comme par exemple la segmentation de locuteursoù il s'agit de déterminer des zones homogènes de parole a�ectées à un seullocuteur.

Il est ainsi possible de déterminer la ressemblance entre deux segmentsconsécutifs (caractéristiques f0 et/ou énergie) :

HDij =didj

di + dj

[(µi − µj)

T Σ−1i∪j(µi − µj)

](1.16)

Avec i∪ j l'union des données issues de deux ancrages consécutifs i et j, di etdj la durée respective de ces ancrages, et Σ−1

i∪j la matrice de covariance interneestimée sur les deux ancrages.

Page 57: "Traitement du signal social et robotique personnelle: Signaux actes ...

1.4. Informations non-verbales 43

La métrique proposée dans [Ringeval, 2011] peut intègrer des informationsliées à l'intervalle Ik entre les ancrages :

PHDij = k[(µi − µj)

T Σ−1i∪j(µi − µj)

](1.17)

avec k =didjIk

di+dj+Ik

A l'aide de la distance de Hotelling, il est possible de déterminer la dis-tance entre deux ancrages en prenant en compte l'interaction entre la fré-quence fondamentale et l'énergie. Cette interaction est ici modélisée par letype de matrice de covariance (diagonale ou pleine). La distance de Hotellingest basée sur une comparaison de modèles permettant l'intégration d'autrescomposantes de la prosodie comme la qualité vocale. Elle se place dans uneperspective multi-dimensionnelle de caractérisation du rythme.

Caractérisation des émotions Nous avons mené, durant la thèse de Fa-bien Ringeval, un grand nombre d'expériences sur des bases de données va-riées. La �gure 1.14(a) présente les contributions des composantes prosodiquesdans le score de reconnaissance d'émotion (base de donnée Berlin en cross-validation strati�ée). La composante rythmique regroupe toutes les métriquesprécédemment mentionnées. Le rythme joue un rôle complémentaire mais nonnécessairement prépondérant dans la caractérisation des émotions. Le pitchétant le support dominant du message a�ectif.

Les métriques introduites dans la thèse de Fabien Ringeval, et quali�éesde non-conventionnelles, contribuent signi�cativement plus que les méthodestraditionnelles (%V,∆C VarCo, PVI...) au score de reconnaissance globale(�gure 1.14(b)). Un élément qui nous semble encore plus intéressant, et quenous continuerons sûrement à investiguer par la suite, est l'espace de carac-téristiques formé par les métriques rythmiques. La �gure 1.15 présente les es-paces formés par les métriques conventionnelles (%V,∆C), mixtes (%V,Fmoy

4)et non-conventionnelles (Fmoy,A-PHD5). Les métriques non-conventionnellespermettent non-seulement de séparer les émotions, mais aussi de dé�nir uncontinuum de valeurs entre les catégories d'émotions. Le continuum ainsi ob-tenu est à mettre en regard avec celui de la roue de Plutchik (espace de proxi-mité perceptuelle des émotions). Les métriques proposées o�rent un cadrepertinent et novateur pour la caractérisation d'émotions notamment dansla perspective d'analyse non pas de catégories individuelles et prototypiques(Joie, Peur...) mais de descriptions dimensionnelle et continue des émotions.Ce dernier point forme le dé� actuel du traitement automatique des émotions[Schuller et al., 2011].

4Fréquence moyenne de l'enveloppe rythmique "p-centre"5Distance de Hotelling avec matrice de covariance diagonale

Page 58: "Traitement du signal social et robotique personnelle: Signaux actes ...

44 Caractérisation de signaux de parole

(a) Contribution des composantes prosodiques (poids de fusion) selon les ancrages

(b) Contribution des composantes prosodiques (poids de fusion) selon les ancrages

Fig. 1.14: Contribution des métriques du rythme

1.5 Emotions chez les enfants atteints de

troubles de la communication

Nous présentons dans cette section une application sur des données natu-relles dans un contexte de diagnostic di�érentiel d'enfants atteints de troublesdu langage. Il s'agit d'une collaboration initiée en 2006 avec le département dePsychiatrie de l'Enfant et de l'Adolescent de l'hôpital de la Pitié-Salpêtrière(dirigé par David Cohen) et celui de l'hôpital Necker-Enfants Malades (dirigépar Bernard Golse). Nous avons été confronté à plusieurs di�cultés qui, aprèsle recul que nous avons, sont dues à un manque de connaissance réciproquedes deux mondes que sont, la psychiatrie (recherche clinique) et l'ingénierie.Depuis nous avons fait un bout de chemin ensemble et avons même créé en-semble un groupe de recherche inter-disciplinaire au sein de l'ISIR nommé

Page 59: "Traitement du signal social et robotique personnelle: Signaux actes ...

1.5. Emotions chez les enfants atteints de troubles de lacommunication 45

CHAPITRE 4. RECONNAISSANCE PROSODIQUE DE LA PAROLE AF F ECTIVE ACTEE

122

(a) (b)

(c) (d)

!"#$%&$'& Variations des mesures issues des modèles du rythme conventionnels (a), mixtes (b) et non-conventionnels (c) selon les !"#$%&'()*+,-$.&#(&/*0+1"+2&*(#(&/+,)+3"+!'&(4+,"/*+3-)*2"!)+,)*+para-

mètres en détermine les valeurs moyennes, tandis que la hauteur et la largeur correspondent aux va-

3)5'*+,-$!"'#-type ; (d) roue des émotions de Plutchik [PLU80]69.

5. Conclusion Nous avons présenté différentes théories du rythme dan*+ 3-(/#'&,5!#(&/+ ,)+ !)+ !6"2(#').

Cette première partie a montré que le rythme véhicule des phénomènes complexes dont leur

caractérisation ne peut reposer sur des mesures simples telles que le débit, puisque ce dernier

)/+)*#+#&5#+*(.23).)/#+75-5/)+!&.2&*"/#)0+Comme les phénomènes du rythme peuvent être à

3-&'(%(/)+,)s émotions procurées par la musique, /&5*+"8&/*+2'&2&*$+9!&..)+,-"5#')*+"5#)5'*+

3-&/#+:"(#+"52"'"8"/#;+,)+:"(')+3)+3()/+)/#')+3)*+2'&2'($#$*+,)+3"+.5*(75)+)#+,)+celles de la pa-

role. En effet, le rythme apparaît clairement comme sous-modélisé dans les systèmes issus de

3-$#"#+,)+3-"'#+)/+')!&//"(**"/!)+,-$.&#(&/*. Nous avons donc développé des métriques non-conventionnelles pour capturer les phénomènes du rythme de la parole. Différentes techniques

ont alors été exploitées : (i) les mesures spectrales *5'+3-)nveloppe estimée par la méthode de

Tilsen, (ii) !"#$%#!&''# et la fréquence instantanées calculées au moyen de la THH, (iii) les

69

R. Plutchik, Emotion: A Psychoevolutionary Synthesis, dans Harper & Row, New York, 1980.

Fig. 1.15: Variations des mesures issues des modèles du rythme conventionnels

(a), mixtes (b) et non conventionnels (c) selon les catégories d'émotions ; (d) roue

des émotions de Plutchik

IMI2S (Intégration Multimodale, Interaction et Signal Social). La pratiquequi s'est révélée e�cace dans nos travaux interdisciplinaires a été de formerdes "binômes" de jeunes chercheurs (ingénierie + recherche clinique), il nes'agit donc pas de former un chercheur aux deux disciplines mais de favoriserdes enrichissements mutuels. Comme nous le verrons dans le reste du docu-ment, nous (David Cohen et moi-même) avons promu cette approche de larecherche, et, avec toute l'humilité requise pour cette entreprise, contribué ànos domaines de recherche respectifs.

Les travaux présentés dans cette section ont pour objectifs : (1) de quan-ti�er de manière objective les caractéristiques prosodiques et émotionnellesles productions verbales d'enfants atteints de troubles de la communication,(2) d'appliquer et surtout d'enrichir les méthodes de caractérisation en lesconfrontant à des données naturelles et ceci en collaboration avec des clini-ciens (orthophonistes, psychologues).

Les troubles envahissant du développement (TED) sont souvent considéréscomme formant un spectre de dé�cits rendant di�cile le diagnostic. Un des

Page 60: "Traitement du signal social et robotique personnelle: Signaux actes ...

46 Caractérisation de signaux de parole

dé�s réside dans l'objectivation des troubles et surtout dans une dé�nitionplus �ne des catégories. En l'absence de critères spéci�ques, les troubles en-vahissant du développement non spéci�és (TED-NOS) forment une catégoriede diagnostic par défaut. Nous avons entrepris d'enrichir les connaissances surle spectre autistique par un travail interdisciplinaire portant sur le langage,la prosodie et les émotions. Les sections suivantes décrivent brièvement lestravaux réalisés et publiés dans les deux domaines de recherche : traitementautomatique de la parole [Ringeval et al., 2011] et recherche clinique [Demouyet al., 2011].

1.5.1 Fonctionnalité grammaticale de la prosodie

Les systèmes de caractérisation du message a�ectif dans un signal de pa-role exploite tout particulièrement la composante prosodique. L'incapacité àexploiter les fonctionnalités de la prosodie (grammaticale, a�ective ou encorepragmatique) pour communiquer, est une caractéristique centrale des indivi-dus atteints de trouble du langage, de la communication et de l'interaction so-ciale. Avant même de concevoir un système d'objectivation des émotions chezles enfants atteints de troubles de la communication, il nous a paru impératifd'évaluer et de comprendre les caractéristiques prosodiques de ces enfants.

La collaboration avec les services de psychiatrie s'est concrétisée par leco-encadrement de Julie Demouy pendant son mémoire d'orthophonie (2009-2010). Les travaux ont porté sur la dé�nition d'une épreuve permettant (1)l'évaluation des enfants par les orthophonistes, (2) la collecte et l'analyseautomatique des données et ceci dans l'objectif de caractériser dans un premiertemps la fonctionnalité grammaticale de la prosodie (accent lexical, frontièrede phrase).

Recrutement Les recrutements ont été réalisés par nos collègues pédo-psychiatres dans deux départements de psychiatrie de l'Enfant et de l'Ado-lescent : Hôpital La Pitié Salpêtrière / UPMC, Hôpital Necker / UniversitéRené Descartes. Les caractéristiques de ces enfants sont décrites en détail dans[Ringeval, 2011; Ringeval et al., 2011; Demouy et al., 2011], nous ne rappelonsici que les catégories diagnostiques des 35 sujets monolingues (Français) âgésde 6 à 18 ans :

� Troubles autistiques (TA) : 12 sujets ; 10 G - 2 F� Troubles envahissants du développement-non spéci�és (TED-NOS) : 10sujets ; 9 G - 1 F

� Troubles spéci�ques du langage (TSL) 13 sujets ; 10 G - 3 FAinsi qu'un groupe contrôle (Développement typique) composé de 70 sujetsmonolingues (Français) appariés en âge et en genre (ratio : 2 DT / 1 TC)

Page 61: "Traitement du signal social et robotique personnelle: Signaux actes ...

1.5. Emotions chez les enfants atteints de troubles de lacommunication 47

et recrutés dans le lycée privée Hermitage (Maisons-La�tte, Hauts-de-Seine).Les sujets ont reçu une évaluation6 portant sur le langage et la communication(cf. [Demouy et al., 2011]).

Epreuve d'imitation de contours intonatifs Il s'agit d'une tâchecontrainte consistant à demander à l'enfant de répéter 26 phrases (présen-tées dans un ordre aléatoire) représentant di�érents types de modalité (e.g.déclarative, interrogative...) et quatre types de pro�l intonatif (cf. �gure 1.16).Le corpus contient 7 heures d'enregistrement pour environ 3000 phrases (cf.tableau 1.11).

Fig. 1.16: Pro�ls intonatifs selon le contour du pitch

Tab. 1.11: Quantité de phrases disponibles selon les groupes d'analyse de la tâche

d'imitation des contours intonatifsIntonation DT TA TED-NOS TSL

Descendante 580 95 71 103

Tombante 578 94 76 104

Flottante 291 48 40 52

Montante 432 70 60 78

Toutes 1881 307 247 337

Système automatique de reconnaissance des contours intonatifs

Une analyse de l'état de l'art en reconnaissance de l'intonation [Ringeval et al.,

6Evaluation menée par Julie Demouy en collaboration avec les services cliniques

Page 62: "Traitement du signal social et robotique personnelle: Signaux actes ...

48 Caractérisation de signaux de parole

2011], montre que les trois facteurs importants pour la conception d'un sys-tème e�cace sont : (1) les échelles temporelles d'analyse (e.g. tour de parole,contenu phonétique...), (2) les descripteurs prosodiques et/ou acoustiques sé-lectionnés et (3) la stratégie de reconnaissance (e.g. fusion d'informations,sélection de caractéristiques...).

Le système de reconnaissance développé se propose d'analyser des descrip-teurs bas niveau de la prosodie (f0, énergie, ∆, ∆∆) par deux approches :

� Statique : application de fonctionnelles (statistiques) aux descripteurssur un tour de parole7 pour former un super-vecteur de dimension 162.La classi�cation en catégories intonatives s'e�ectue par des classi�eurstypes SVM ou k-ppv.

� Dynamique : modélisation directe des descripteurs par un modèle deMarkov Caché.

L'approche statique o�re une modélisation globale de la prosodie alors quel'approche dynamique, en considérant une suite d'états, impose une structureprécise de la prosodie8. L'analyse de la fusion des approches permet d'étudierplus �nement les caractéristiques prosodiques des groupes pathologiques (Q-statistics [Kuncheva, 2004]9).

Un des objectifs de ces travaux est la proposition de marqueurs baséssur le langage et la prosodie pour le diagnostique. De ce fait, les scores eneux-mêmes ne nous intéressent que partiellement. Le point essentiel est ladi�érenciation entre les groupes étudiés. Nous avons proposé une méthodologiepour l'apprentissage et le test de systèmes reconnaissance dans le contexte dudiagnostique di�érentiel. La méthodologie, présentée �gure 1.17, consiste àconsidérer les performances "cibles" comme étant celles du groupe contrôle(développement typique) : apprentissage sur les données du groupe contrôleet test sur les données des groupes pathologiques.

Les performances du système de reconnaissance des intonations produitespar le groupe contrôle (Développement Typique) sont présentées tableau 1.12.Les intonations les moins ambigües (cf. �gure 1.16) obtiennent les meilleursscores (montante et descendante). Le résultat le plus pertinent réside dans lacomplémentarité, variable selon la modalité, des approches statique et dyna-mique, motivant ainsi les approches di�érenciées.

D'autres résultats sont présentés dans [Ringeval et al., 2011]. Nous nousconcentrons ici que sur les contributions des deux approches étudiées selon les

7Phrase prononcée par l'enfant8L'approche dynamique a été développée dans le cadre d'une collaboration avec le labo-

ratoire d'acoustique de la parole de Budapest (Klara Vicsi). Plusieurs échanges étudiants

ont eu lieu, et notamment j'ai encadré György Szaszak (post-doctorant) pendant son séjour

à l'ISIR en 20099−1 ≥ Q ≥ 1, Q = 0 classi�eur indépendant, Q > 0 reconnaissance d'objets identiques

Page 63: "Traitement du signal social et robotique personnelle: Signaux actes ...

1.5. Emotions chez les enfants atteints de troubles de lacommunication 49CHAPITRE 5. EMOTIONS ET TROUBLES DE LA COMMUNICATION

150

F ig. 5.9 Stratégies de reconnaissance du contour intonatif.

partitions de test des données des sujets TC ont donc été traitées 10 fois, i.e., avec chaque

!"#$%$%&'( )*"!prentissage des DT. L'ensemble des paramètres discriminants qui ont été

identifiés (approche statique) par la méthode de reconnaissance bottom-up sur les DT a été

utilisé pour caractériser les contours produits par les TC. Le poids optimal pour la fusion des

classifieurs a, quant à lui, été estimé pour chaque groupe, i.e., DT, TA, TED-NOS et TSL.

Cela permet de faire ressortir )*+,-'$.-//-0()%11+#-'2-0(-'$#-(les groupes dans la contribution

des deux systèmes de reconnaissance du contour intonatif : statique et dynamique .

3.3. Résultats expérimentaux

Les analyses -11-2$.+-0(0.#(/*+!#-.,-(!"#$#%&%#'()!*+),'(%'-.+)#(%'(&%#/+ ont été divisées

en deux étapes : (i) une analyse statistique de la durée des phrases et (ii) une utilisation des

systèmes de reconnaissance qui ont été décrits dans les paragraphes précédents. Les scores de

reconnaissance obtenus par les enfants à DT sont considérés comme des valeurs cibles pour

les sujets atteints de TC. Notons que la stratégie de reconnaissance proposée exploite les

caractéristiques des sujets DT pour reconnaître /*%'$&'"$%&'(des sujets pathologiques, cf. Fig.

5.93(4'()5".$#-0($-#6-07(/-(8%"%0(%'$#&).%$(!"#(/-0(-'1"'$0(9(:;()"'0(/"($<2=-()*%6%$"$%&'("(+$+(

inclus dans la configuration du système de reconnaissance. Tout écart significatif par rapport

à ce biais sera considéré dans cette étude comme lié à une déficience dans les compétences

prosodiques grammaticales des sujets étudiés, ou du moins, à une carence dans les capacités à

imiter un contour intonatif. >&$&'0(?.-(/"(0$#"$+@%-()-(#-2&''"%00"'2-(-6!/&A+-(6&'$#-(?.*.'

apprentissage des modèles sur les données des enfants à DT influence, a priori, les scores de

reconnaissance sur les intonations produites par les sujets atteints de TC ; comparé notamment

à un apprentissage des modèles qui aurait été effectué sur leurs propres données. Cependant,

et de façon a posteriori, cette 2&'1%@.#"$%&'( '*"( !"0(6&'$#+( )-( réelles différences dans les

performances -'(#-2&''"%00"'2-()-(/*%'$&'"$%&'(2&6!"#+(9()-0(modèles appris sur les données

des sujets à DT.

Une méthode non-paramétrique a été utilisée pour effectuer la comparaison statistique

des données entre les @#&.!-0( )*enfants, i.e., une p-valeur a été estimée par la méthode de

Fig. 1.17: Stratégie de reconnaissance des contours intonatifs

Tab. 1.12: Performances en reconnaissance de l'intonation (%) : modélisation sta-

tique, dynamique et sur la fusion des deux pour les sujets DTIntonation Statique Dynamique Fusion Qstat,dyn

Descendante 61 55 64 0.17

Tombante 55 48 55 0.38

Flottante 49 71 72 0.67

Montante 93 95 95 0.27

Toutes 67 64 70 0.42

di�érents groupes étudiés. Le tableau 1.13 montre que l'approche dynamiquedevient majoritaire pour la plupart des groupes pathologiques montrant ainsila nécessité d'une modélisation plus �ne pour ces groupes.

Tab. 1.13: Analyse des contributions des approches statique et dynamique dans

la caractérisation de l'intonation chez les enfantsMesure DT TA TED-NOS TSL

Qstat,dyn 0.42 0.65 0.45 0.55

A noter que le groupe TED-NOS semble se situer au "milieu" d'un conti-nuum entre les enfants à développement typique et les enfants atteints detroubles autistiques. Ce résultat est jugé majeur dans la quali�cation et lediagnostic des TED-NOS car souvent fait par défaut. Des méthodologies detraitement du signal et de reconnaissance des formes ont donc été exploitéespour la caractérisation objective de l'intonation et permettent ainsi la pro-position de marqueurs di�érentiels entre des groupes pathologiques et o�rentune voie vers l'individualisation de la prise en charge [Demouy et al., 2011].

Page 64: "Traitement du signal social et robotique personnelle: Signaux actes ...

50 Caractérisation de signaux de parole

1.5.2 Fonctionnalité émotionnelle

Epreuve de production de parole a�ective spontanée La deuxièmeépreuve du protocole porte sur l'évaluation de la capacité des enfants à pro-duire spontanément des phrases en exploitant les dimensions a�ectives de laprosodie. Cette épreuve a été conçue en collaboration avec le service de Psy-chiatrie de l'Enfant et de l'Adolescent de l'hôpital de la Pitié-Salpétriére, sousl'impulsion de notre collègue Monique Plaza (CR CNRS Psychologie, ISIR).La tâche consiste en un récit d'une histoire imagée contenant des stimuli af-fectifs catégorisés, par l'équipe clinique (orthophoniste et psychologue), enquatre niveaux de valence émotionnelle : positive, neutre, négative et ambiva-lent. Le tableau 1.14 regroupe les données collectées (≈10h) et transformées engroupe de sou�e (élimination manuelle par Fabien Ringeval de faux-départs,d'hésitations, de bruits issus de l'environnement, de parole non liée à la tâche).

Tab. 1.14: Quantité de groupes de sou�e disponible pour l'analyse de la tâche de

production de parole spontanée a�ectiveValence DT TA TED-NOS TSL

Positive 597 99 118 184

Neutre 926 151 126 238

Négative 2050 339 283 535

Toutes 3943 652 586 1048

Système de reconnaissance Les caractéristiques prosodiques utiliséescouvrent : (1) l'intonation, (2) l'intensité, (3) la qualité vocale et (4) le rythme.L'analyse �ne des données et des résultats est faîte dans la thèse de FabienRingeval. L'idée de ce travail étant de proposer des métriques pour le diagnos-tique di�érentiel, nous avons fait le choix de ne présenter dans ce documentque les résultats liés aux modèles non-conventionnels du rythme. La �gure1.18 présente les espaces de caractéristiques formés par les approches mixtes(∆C, Fréquence IMF). Un des résultats majeurs est qu'une fois encore lesméthodes proposées s'avèrent être des marqueurs pertinents. Les sujets avectroubles du langage (TA et TSL) montrent des valeurs très proches entreles émotions, ce qui suggère un absence de traitements dédiés aux émotions.Les résultats obtenus pour le groupe contrôle (DT) re�ète une maîtrise de lacomposante dimensionnelle de l'a�ect. Les sujets TED-NOS ont tendance àsurjouer les émotions (écart entre "Neutre" et les valences positives et néga-tives). Ces résultats, au moins pour les sujets TED-NOS, sont en cohérenceavec les investigations menées par nos collègues en recherche clinique [Xavieret al., 2011].

Page 65: "Traitement du signal social et robotique personnelle: Signaux actes ...

1.6. Apprentissage pour la caractérisation de signaux de parole ensituation réaliste 51

Fig. 1.18: Espace des caractéristiques formé par les métriques rythmiques

1.6 Apprentissage pour la caractérisation de si-

gnaux de parole en situation réaliste

Dans le cadre du projet Motherese10, en collaboration avec le service depsychiatrie de l'Enfant et de l'Adolescent de la Pitié-Salpétriere (David Cohen)et de l'université de Pise (Filippo Muratori), nous avons proposé un détecteurde parole émotionnelle dans des situations naturelles et spontanées.

La composante émotionnelle analysée est un registre de parole spéci�queproduit par la mère durant l'interaction avec son enfant. Ce registre, appelémamanais ou motherese, a indéniablement une valence émotionnelle positive.Une des hypothèses du projet porte sur le rôle régulateur du motherese dansl'interaction et notamment chez les enfants atteints de troubles autistiques.

D'un point de vue encadrement, une partie de la thèse d'Ammar Mahdhouia porté sur le développement d'un détecteur robuste du motherese. CatherineSaint-Georges, qui a e�ectué une thèse de sciences entre l'ISIR et le service depsychiatrie de l'enfant et de l'adolescent, a contribué aux recherches liées à ladé�nition du motherese et son implication dans l'interaction mère-enfant.

10Financé par la Fondation de France

Page 66: "Traitement du signal social et robotique personnelle: Signaux actes ...

52 Caractérisation de signaux de parole

1.6.1 Motherese

Le motherese ou mamanais est un registre de parole universel utilisé nonseulement par les mères mais aussi par les pères et potentiellement tout adulteen interaction avec un bébé [Fernald and Kuhl, 1987]. Il se caractérise pardes modi�cations des composantes linguistique (e.g. simpli�cation du voca-bulaire et la syntaxe), phonétique (e.g. durée des voyelles, hyper-articulation)et para-linguistique (prosodie). Notre travail a porté sur cette dernière com-posante. Dans une perspective interdisciplinaire, nous nous sommes intéressésaux caractéristiques acoustiques et prosodiques du motherese ainsi que sonimpact dans l'interaction sociale. On pourra ainsi retrouver dans la thèse deCatherine Saint-Georges [Saint-Georges, 2011] une description détaillée dumotherese. Nous avons récemment réalisé une revue de la littérature sur lemotherese [Saint-Georges et al., 2011a] montrant les dimensions interactive etémotionnelle du mamanais. La réponse de l'enfant à ce signal social est jugéêtre un marqueur de la dynamique de l'interaction, et de ce fait impacte ledéveloppement de l'enfant. Le Chapitre 2 synthétise nos travaux de recherchesur la dynamique de la communication humaine. D'un point de traitement dusignal social, le motherese est à rapprocher des émotions sociales notammentcar sa production a pour vocation de créer un e�et chez le partenaire (ici lebébé). A noter que d'un point de vue de la terminologie, on retrouve cettedistinction car le motherese est également appelé infant-directed speech (pa-role adressée à l'enfant) et a contrario on parle de parole adressée à l'adulte(adult-directed speech). Les prochaines sections ont pour objet la descriptionde l'approche originale de caractérisation et de détection du motherese en si-tuation naturelle, présentée dans la thèse d'Ammar Mahdhaoui [Mahdhaoui,2010].

1.6.2 Classi�cation de données naturelles et spontanées

La classi�cation de données naturelles et spontanées est une tâche com-plexe car les états émotionnels sont quali�és de non-prototypiques (contraire-ment aux émotions actées) [Schuller et al., 2011]. Ces états émotionnels sontgénéralement produits dans des situations et scénarios spéci�ques comme c'estla cas du motherese.

Films familiaux Notre étude porte sur des données réelles d'interactionentre des parents et leurs enfants. Il s'agit d'enregistrement de parents s'adres-sant, en italien, à leurs enfants issus de �lms familiaux. L'analyse de ces �lmsest une méthode exploitée dans les recherches sur le développement de l'en-fant car elle permet d'obtenir des informations sur les premiers mois et an-

Page 67: "Traitement du signal social et robotique personnelle: Signaux actes ...

1.6. Apprentissage pour la caractérisation de signaux de parole ensituation réaliste 53

nées des bébés qui deviendront autistes. L'ensemble des �lms familiaux ontété gracieusement fournis par Filippo Muratori de l'université de Pise (StellaMaris Scienti�c Institute). Plus d'informations sur les �lms familiaux sont dis-ponibles dans [Saint-Georges et al., 2011b]. D'un point de vue signal, ils secaractérisent par la présence de bruit : mouvement de la caméra, qualité mé-diocre (la plupart des enregistrements ont été réalisé avant 2000), situationsdiverses (e.g. jeu, bain), bruits domestiques... L'aspect longitudinal de l'étudea pour e�et d'augmenter les intervalles de temps entre les données (cf. �gure1.19).

! " #$

%$

!$$

!%$

"$$

"%$

&'()*+,-,.-/,0,/1(,

.*02(,-+3,4,0&5,/

-

-

.*02(,-+3,4,0&5,/-+,-.*.!0*16,(,/,

.*02(,-+3,4,0&5,/-+,-0*16,(,/,

.*02(,-1*175-+3,4,0&5,/

Fig. 1.19: Distribution des données selon les trois semestres étudiés

Catherine Saint-Georges et Raquel Cassel11 ont, sous notre direction, sé-lectionné et annoté plus d'un millier de segments de parole en deux catégo-ries : motherese et non-motherese (cf. �gure 1.20). Cette dernière catégoriecorrespond à la situation où les parents s'adressent aux enfants avec des pro-ductions verbales non-a�ectives (à rapprocher de l'adult-directed speech). La�délité inter-juge est bonne (kappa = 0.82, intervalle de con�ance à 95% CI :[0.75-0.90]).

Classi�cation D'un point de vue théorique, la distinction entre les deux ca-tégories étudiées (motherese et non-motherese) devraient pouvoir se faire enexploitant uniquement les informations liées à la prosodie. Le contexte d'ac-quisition des données engendre des sources de variabilité importante (bruit,intervalle entre les enregistrements). Le système mis en ÷uvre est décrit dansles publications suivantes [Mahdhaoui et al., 2008, 2011]. Il s'agit d'un systèmecombinant caractérisations acoustique (MFCC) et prosodique (statistiques ap-pliquées à la f0 et à l'énergie) exploitées ensuite par des classi�eurs (GMM et

11Doctorante participant au projet

Page 68: "Traitement du signal social et robotique personnelle: Signaux actes ...

54 Caractérisation de signaux de parole

Fig. 1.20: Exemple d'annotation du motherese

k-nn). Une caractérisation multi-ancrage est employée : segmentale (fenêtresd'analyse de 30ms) et supra-segmentale (zones voisées). Les résultats expéri-mentaux en détection de motherese montre la pertinence de la combinaisondes ancrages (cf. �gure 1.21).

Cet algorithme est actuellement utilisé par l'équipe clinique (thèses de Ca-therine Saint-Georges et de Raquel Cassel) pour la détection du motheresedans des les �lms familiaux. Des limitations évidentes sont apparues : (1)comme la plupart des approches supervisées, les performances du système dé-pendent fortement de la qualité et de la quantité des données d'apprentissageet (2) l'annotation manuelle de parole émotionnelle est une tâche subjectivein�uençant la fonction de prédiction du classi�eur. Nous avons proposé de trai-ter simultanément ces deux limitations en proposant un cadre semi-superviséde la détection du motherese.

1.6.3 Problématique de l'apprentissage semi-supervisé

L'apprentissage semi-supervisé propose un cadre formel permettant de ren-forcer les règles de catégorisations des classi�eurs supervisés en combinantapprentissage et prédiction sur des données étiquetées et non-étiquetées. Les

Page 69: "Traitement du signal social et robotique personnelle: Signaux actes ...

1.6. Apprentissage pour la caractérisation de signaux de parole ensituation réaliste 55

con!guration of GMM and k!nn with segmental andsupra!segmental features and further shows that the GMMclassi!er trained with prosody features outperformed theother classi!ers in terms of accuracy.

Fusion of best system

In this study the performance of the classi!er was quotedusing class sensitivities, predictivities and overall accuracy,and the optimal classi!ers were determined by employingROC graphs to show the trade!off between the hit andfalse positive rates. A ROC curve represents the trade!offbetween the false acceptance rate (FAR) and the falserejection rate as the classi!er output threshold value isvaried. Two quantitative measures of veri!cation perfor-mance, the equal error rate (EER) and the area under theROC curve (AUC), were calculated. All calculations wereconducted with Matlab (version 6). For best con!gurationdata, results were given with the 95% CIs that were

estimated using Cornuéjols et al. (2002) method. It shouldbe noted that while EER represents the performance of aclassi!er at only one operating threshold, the AUCrepresents the overall performance of the classi!er overthe entire range of thresholds. Hence, we employed AUCand not EER to compare the veri!cation performance oftwo classi!ers and their combination. However, the resultshown in Table 2 motivated an investigation of the fusionof both features and classi!ers following the statisticalapproach described in the previous section. Improvementby the combination of features and classi!ers is known tobe ef!cient (Kuncheva, 2004). However, caution should beused, because the fusion of best con!gurations does notalways give better results; the ef!ciency will depend on thenature of the errors produced by the classi!ers (indepen-dent versus dependent) (Kuncheva, 2004). Table 1 and theprevious section show that six different fusion schemescould be investigated [Combination 1 (Comb1) toCombination 6 (Comb6)]. For each of them, we optimizedparameter classi!ers (K value for k!nn and M value forGMM, respectively) and weighting ! (Equation 6)parameters of the fusion. In Figure 2, we can see thatfor the k!nn classi!er, the best scores (0.8113/0.812) wereobtained with an important contribution of the segmentalfeatures (!= 0.8), which is in agreement with the resultsobtained without the fusion (Table 2). The best GMMresults (0.932/0.932) are obtained with a weighting factorequal to 0.6, revealing a balance between the two features.Table 3 summarizes the best results in terms of accuracyas well as the positive predictive value (PPV) and negativepredictive value (NPV) for each classi!er fusion (topsection) and cross!classi!er fusion (bottom section).

Table 2 Accuracy of optimal con!gurations for GMM andk!nn classi!ers according to segmental and supra!segmental features

Segmental Supra!segmental

k!nn 72.5% (K= 11) 61% (K=7)GMM 78% (M=15) 82% (M= 16)

Note: GMM, Gaussian Mixture Model; k!nn, k!nearestneighbours; M, number of Gaussians for the GMMclassi!er; K, number of neighbours for the k!nn classi!er.

Figure 2 ROC curves for Combination 1 (Comb1) and Combination 2 (Comb2). Combination 1 =Pknn,seg!Pknn,supra;Combination 2 =Pgmm,seg !Pgmm,supra; !=weighting coefficient used in the equation fusion for each combination.

Computerized home video detection for motherese Mahdhaoui et al.

Int. J. Methods Psychiatr. Res. 20(1): e6–e18 (2011). DOI: 10.1002/mprCopyright © 2011 John Wiley & Sons, Ltde12

Fig. 1.21: Courbes ROC décrivant les performances de détection du motherese :

Comb1 (Classi�eur k-nn), Comb2 (Classi�eur GMM)

algorithmes les plus utilisés font appel aux méthodes génératives (EM : Ex-pectation Maximization), transductives (minimisation de l'erreur commise surdes données non étiquetées) et celles d'apprentissage comme le self-training etle co-training.

Le self-training est une des premières méthodes d'apprentissage semi-supervisé. Un classi�eur, entraîné sur quelques données étiquetées, est uti-lisé en prédiction sur des données non-étiquetées pour élargir son ensembled'apprentissage. A chaque itération de l'algorithme, les n exemples préditsavec la meilleure con�ance sont ajoutés à la base d'apprentissage, et ce jus-qu'à ce que la base de données non-étiquetées deviennent vide. L'algorithmede co-apprentissage (co-training) [Blum and Mitchell, 1998] est généralementconsidéré comme une extension du self-training. Il considère au moins deuxclassi�eurs h1 et h2 qui se di�érencient par les modèles choisis (GMM, k-nn...)ou encore par les caractéristiques (acoustique ou prosodique pour la parole). Leprincipe de l'algorithme, rappelé table 1.15, repose sur l'élargissement mutuelde l'ensemble d'apprentissage. Ces techniques d'apprentissage ont été appli-quées avec succès au traitement du langage naturel, de documents ou encorede classi�cation de pages web. L'application au traitement de la parole af-fective n'est pas simple car, comme nous l'avons vu, la grande majorité desapproches de reconnaissance exploitent plusieurs descripteurs (acoustiques,prosodiques). Ces descripteurs sont combinés à di�érents niveaux (espace descaractéristiques, des décisions...). Dans [Mahdhaoui and Chetouani, 2011],nous avons proposé un algorithme adapté à ces cas de �gure et exploitantune caractérisation multiple du signal de parole.

Page 70: "Traitement du signal social et robotique personnelle: Signaux actes ...

56 Caractérisation de signaux de parole

Tab. 1.15: Algorithme de co-apprentissageEntrée

Ensemble L des données étiquetéesEnsemble U des données non étiquetées

Tant que U 6= ∅Apprendre un classi�eur h1 sur l'ensemble L

Apprendre un classi�eur h2 sur l'ensemble L

Etiqueter aléatoirement un nombre p des exemples de l'ensemble U en utilisant le classi�eur h1

Etiqueter aléatoirement un nombre p des exemples de l'ensemble U en utilisant le classi�eur h2

Ajouter l'ensemble T des exemples labelisées par h1 et h2 à l'ensemble L

Supprimer T de U

Fin

1.6.4 Co-apprentissage multi-vues

Le co-apprentissage multi-vues consiste à combiner les prédictions issuesde di�érents classi�eurs (probabilité a posteriori) a�n d'obtenir une prédictionunique pour chaque exemple de test (c.f. table 1.16). La méthode proposéeest une nouvelle forme de co-apprentissage exploitant simultanément fusiond'informations et apprentissage semi-supervisé. Le principe repose sur l'idéeque plusieurs vues d'un même objet peuvent être utilisées pour renforcer lesrègles de prédiction. La thèse d'Ammar Mahdhaoui a porté sur la dé�nitionde cet algorithme qui a donné lieu à la publication suivante [Mahdhaoui andChetouani, 2011].

Un des éléments importants de l'algorithme est l'étape d'estimation de lacon�ance de la classi�cation d'un exemple donné (c.f. table 1.16). Cette étaperepose sur l'estimation de la marge de classi�cation directement inspirée desmachines à vecteur support. Elle est donnée par l'équation suivante :

margej =1

v

∑vk=1 ωk × hk(Cj|zk

i )∑vk=1 ωk

(1.18)

Avec hk(Cj|zj) l'estimation de probabilité a posteriori d'appartenance del'exemple zj à la la classe Cj par la vue k. v est le nombre de vues (extracteurde caractéristiques + classi�eur) utilisé par l'algorithme (e.g. MCC+GMM,Statistiques sur la f0 + k-ppv,...). ωk est le poids associé à la vue k.

La marge peut être interprétée comme une mesure de con�ance dans laprédiction. Il est ainsi possible de sélectionner les exemples catégorisés avecla plus grande con�ance (identiquement à ce qui est fait avec les algorithmesde co-training). L'avantage majeur de la méthode est la vision intégrative del'ensemble des vues en fusionnant les prédictions de l'ensemble des classi�eurs.Cette fusion est dynamique car le poids associé à chaque vue est ré-évalué par :

ωk =

∑size(T )i=1 hk(z

ki )∑v

k=1

∑size(T )i=1 hk(zk

i )(1.19)

Page 71: "Traitement du signal social et robotique personnelle: Signaux actes ...

1.6. Apprentissage pour la caractérisation de signaux de parole ensituation réaliste 57

Il s'agit ainsi de favoriser les vues améliorant la catégorisation au sens de lamarge. Les conditions d'arrêt sont identiques à celles du co-apprentissage (cf.table 1.15) et portent sur le nombre d'exemple de la base non-étiquetée.

Tab. 1.16: Algorithme de co-apprentissage automatique pour la classi�cation du

mothereseEntrée

Ensemble L de m exemples étiquetésL={(l11, ..., lv1, y1), ..., (l

1m, ..., lvm, ym)} avec yi = {1, 2} (problème bi-classe)

Ensemble U de n exemples non étiquetésU={(x1

1, ..., xv1), ..., (x

1n, ..., x

vn)}

v = nombre de vueInitialisation

ωk (poids des classi�eurs)= 1/v pour tous les classi�eursTant que U 6= ∅A. Classi�er tous les exemples de la base de test U

Pour k = 1, 2, ..., v

1. Apprendre le classi�eur hk sur l'ensemble L

2. Etiqueter les exemples de l'ensemble U en utilisant le classi�eur hk

3. Estimer la probabilité d'appartenance de chaque exemple xi de U à la classe Cj,p(Cj|xi) =

∑vk=1 ωk × hk(Cj|xk

i )

4. Etiqueter l'ensemble des données de la base UFin pour

B. Mettre à jour la base d'apprentissage L et la base de test U

Uj = {z1, ..., znj} sont les ensembles d'exemples classi�és Cj

Estimer la marge des exemples de la base Uj

Prendre Tj exemples de Uj prédits avec une con�ance supérieure à un seuilAjouter l'ensemble T à L et le supprimer de U

C. Mettre à jour le poids de chaque classi�eur

ωk =Psize(T )

i=1 hk(zki )Pv

k=1

Psize(T )i=1 hk(zk

i )

Fin Tant que

1.6.5 Résultats

L'algorithme a été évalué en exploitant 9 vues : MFCC, descripteurs pro-sodiques, perceptuels ainsi que di�érents classi�eurs (k-nn, GMM et SVM).Les résultats expérimentaux sont décrits en détail dans [Mahdhaoui and Che-touani, 2011].

Le protocole d'évaluation des approches semi-supervisées consiste à fairevarier la quantité de données en apprentissage et de toujours tester un jeu dedonnées di�érent mais �xe (500 exemples de test). La �gure 1.22 reprend lesrésultats �naux de [Mahdhaoui and Chetouani, 2011] en comparant une ap-proche supervisée et des méthodes semi-supervisées : self-training, co-training

Page 72: "Traitement du signal social et robotique personnelle: Signaux actes ...

58 Caractérisation de signaux de parole

et multi-view co-training (méthode proposée dans la thèse d'Ammar Mahd-haoui). Une comparaison entre les méthodes semi-supervisées montre l'intérêtde l'apport de la fusion d'informations dans le processus même d'apprentis-sage (multi-view co-training vs co-training et self-training). Par ailleurs, leco-apprentissage multi-vue se révèle plus performant que la méthode super-visée (étiquetage manuelle des données d'apprentissage). Une des raisons estle renforcement des règles de prédiction réalisé par les composantes coopé-rative et itérative de l'algorithme de co-apprentissage. Le co-apprentissagemulti-vues o�re un cadre élégant et intéressant pour le traitement de donnéessubjectives.

10 20 30 40 50 60 70 80 90 10045

50

55

60

65

70

75

80

Number of Annotations

Acc

urac

y

proposed co−training methodsupervised method (GMM−MFCC)self−training method (GMM−MFCC)standard co−training method using the two best classifierstandard co−training method using all classifiers

Fig. 1.22: Performance en classi�cation avec di�érente quantité de données éti-

quetées en apprentissage

1.7 Discussion générale

Les travaux présentés dans ce chapitre nous ont permis de mettre en placeune approche complète de la caractérisation de signaux de parole, depuis l'ex-traction de caractéristiques jusqu'à la reconnaissance de composantes sociales.Pour autant, ce travail n'est pas encore achevé. L'identi�cation d'unités d'ana-lyse de la parole émotionnelle reste un problème ouvert. L'unité optimale pourla classi�cation d'une émotion donnée varie selon l'individu et le contexte :de segments voisés à des syllabes voire des segments non phonétiques dé�nispar la proéminence acoustique, prosodique ou rythmique. Une meilleure com-préhension de la nature de ces segments permettrait de mieux appréhenderle traitement automatique des émotions et plus généralement une meilleuremodélisation de l'a�ect. Des investigations plus poussées sur des corpus réa-

Page 73: "Traitement du signal social et robotique personnelle: Signaux actes ...

1.7. Discussion générale 59

listes associées à des caractérisations dimensionnelles sont nécessaires. Nousavons entamé avec Fabien Ringeval, durant son post-doctorat à l'Université deMunich avec Bjorn Schuller, l'étude de ces unités. Les résultats préliminairesmontrent l'intérêt des unités proposées dans la caractérisation dimensionnellede données spontanées (corpus de la campagne AVEC12).

La convergence de l'analyse des unités émotionnelles avec les algorithmesd'apprentissage o�re des perspectives intéressantes à l'image des "ememe".L'apprentissage semi-supervisé multi-vues autorise renforcement des lois deprédiction et compréhension du rôle des unités dans ce renforcement. Un volettrès peu investigué est l'exploitation d'unités d'analyse dans un apprentissageincrémental permettant une prise de décision bien avant la �n de la productionverbale du locuteur.

12http://sspnet.eu/avec2011/

Page 74: "Traitement du signal social et robotique personnelle: Signaux actes ...
Page 75: "Traitement du signal social et robotique personnelle: Signaux actes ...

Chapitre 2

Dynamique de la communication

humaine

2.1 Contexte

La communication face-à-face est un processus dynamique basé surl'échange et l'interprétation de signaux sociaux [Morency, 2010]. La maî-trise de cette dynamique impacte les tours de parole, l'engagement, l'attentionconjointe... Sa modélisation est identi�ée comme un verrou majeur du traite-ment du signal social et de la robotique personnelle. Les approches proposéesportent sur l'analyse de l'in�uence mutuelle des participants l'un sur l'autre.Une interaction réussie se caractérise par une adaptation dynamique des com-portements des interactants.

Les travaux présentés dans ce chapitre portent sur la caractérisation decette adaptation appelée synchronie interactionnelle. Cet axe de recherchetrouve son ancrage scienti�que dans la fouille de la réalité (reality mining)[Pentland, 2008] et a pour objectif le développement d'outils d'analyse et dedétection de la synchronie (et de la dyssynchronie) dans les interactions pourune meilleure compréhension de la communication humaine. Les applicationsvisées portent sur le diagnostique di�érentiel (comparaison de catégories diag-nostiques dans les situations interactives) et le développement de systèmesinteractifs dotés d'intelligence sociale (cf. Chapitre 3).

2.2 Synchronie interactionnelle

La dé�nition même de la synchronie interactionnelle est un tâche com-plexe, car elle est, elle même, déterminée à partir de signaux riches et ambi-gus (gestes, tour de parole, regard...). Les termes utilisés dans la littératuresont multiples : mimétisme (mimicry), résonance sociale, e�et caméleon, etc...L'attention conjointe, l'empathie, la théorie de l'esprit, l'engagement ou bienencore la pragmatique (e.g. tour de parole) sont des compétences proches etsouvent nécessaires pour l'apparition de la synchronie interactionnelle.

Un des axes majeurs de nos activités de recherche portent sur l'étudeet la compréhension de la synchronie interpersonnelle en proposant des mé-

Page 76: "Traitement du signal social et robotique personnelle: Signaux actes ...

62 Dynamique de la communication humaine

thodes de détection, de caractérisation et de prédiction de ce phénomène. Lesthèses de Catherine Saint-Georges [Saint-Georges, 2011] et d'Ammar Mahd-haoui [Mahdhaoui, 2010] ont permis de mettre en évidence l'importance dela synchronie dans l'identi�cation de signes précoces de l'autisme sur la based'une caractérisation automatique des interactions mère-bébé dans les �lmsfamiliaux (cf. section 2.3). Ces deux thèses ont été réalisées dans le cadre duprojet Motherese1, en collaboration avec l'université de Pise. Actuellement,Emilie Delaherche poursuit une thèse, sous mon encadrement depuis 2010,sur la modélisation de la dynamique de l'interaction dans le cadre du projetMULTI-STIM2 (cf. section 2.4). Ce projet a pour objectif le développement deméthodes automatiques d'analyse �ne de l'interaction dans une perspective dediagnostique di�érentiel (TA, TED-NOS cf. section 1.5). Les méthodes misesen ÷uvre seront également déployées dans des systèmes robotiques (cf. projetMICHELANGELO3).

Nous avons donc abordé la question de la caractérisation de la synchroniesous di�érents angles donnant lieu à la proposition d'une approche multi-disciplinaire combinant méthodes computationnelles, traitement du signal so-cial, psychologie développementale et psychiatrie [Delaherche et al., 2011].Les sections suivantes précisent les dé�nitions et les fonctions allouées à lasynchronie interactionnelle. Nous introduirons également la problématique etprésenterons le positionnement scienti�que de nos contributions.

2.2.1 Dé�nitions

Bernieri and Rosenthal [1991] dé�nissent la synchronie interactionnellecomme : "the degree to which the behaviours in an interaction are non-random,

patterned, or synchronized in both form and timing". La coordination socialese caractérise par (1) la correspondance de comportements et (2) la dynamiquedes échanges.

La correspondance de comportements se matérialise par une similitudedans les actions, gestes ou postures. On parle alors d'imitation, de congruenceou de l'e�et caméléon. La synchronie est généralement associée à une coordi-nation temporelle : adaptation et rythme des comportements (non nécessai-rement identique). La synchronie interactionnelle a également des bases céré-brales [Tognoli et al., 2007; Dumas et al., 2010; Guionnet et al., 2011]. Dumaset al. [2010] ont, par exemple, montré la présence d'une corrélation entre lasynchronie interactionnelle et l'émergence d'une synchronisation entre les ac-tivités cérébrales des partenaires dans une tâche d'imitation (mouvement de

1Soutenu par la Fondation de France2Projet Emergence UPMC 20093STREP FP7-ICT-2011-7, ICT for Health, Ageing Well débutant le 01/10/2011

Page 77: "Traitement du signal social et robotique personnelle: Signaux actes ...

2.2. Synchronie interactionnelle 63

la main).Selon Harrist and Waugh [2002], l'émergence de la synchronie requiert les

conditions suivantes : (1) le maintien de l'engagement ("tracking each other"),(2) coordination temporelle des niveaux d'activité (posture, mouvement ducorps, expressions faciales), (3) contingence ; (4) harmonie (le partenaire per-çoit l'état de l'autre et s'adapte en conséquence). L'émergence de la synchronieest conditionnée à l'échange d'informations [Oullier et al., 2008].

2.2.2 Implications dans le développement de l'enfant

La psychologie développementale a largement contribué à la compréhen-sion de la synchronie. Feldman [2007] quali�e la synchronie comme la co-occurence de comportements, d'états a�ectifs et de rythmes biologiques entreparents et bébé. La synchronie commence dès la vie prénatale et continueaprès la naissance à travers l'interaction.

La synchronie interactionelle [Delaherche et al., 2011] joue un rôle dans :(1) l'amélioration de la présence sociale, (2) l'augmentation du lien social parla prise de conscience du rythme des interactions, (3) l'attachement sécurisantdont le défaut impacte directement le développement de l'enfant (e.g. cas desmères en dépression), et (4) l'acquisition du langage par exposition à la languede l'interaction [Kuhl, 2004; Goldstein et al., 2003].

A contrario, un défaut de synchronie impacte négativement l'interaction.Murray and Trevarthen [1985] ont mené une expérience consistant à intro-duire un déphasage, dans un double circuit audio-vidéo, dans les interactionsmère-bébé. Le bébé reçoit, en di�éré, l'enregistrement de la mère. En com-paraison à une interaction directe, les auteurs ont montré que les bébés de 6semaines sont perturbés par le délai de transmission du comportement mater-nel. Cette perturbation est expliquée par la capacité des bébés à détecter ladyssynchronie. Nadel et al. [1999] ont proposé un schéma expérimental com-plémentaire (direct/déphasé/direct) et ont pu relever un désintéressement dubébé en situation déphasée, et un regain d'intérêt lorsque l'interaction devientsynchrone.

2.2.3 Implications dans les interactions sociales chez

l'adulte

En ce qui concerne l'interaction chez les adultes, la synchronie interaction-nelle contribue à la régularité de l'interaction. Chartrand and Bargh [1999] ontmontré l'existence d'un lien entre la perception de la régularité d'une interac-tion et le degré d'imitation des interactants. De même Lakens [2010] a relevé

Page 78: "Traitement du signal social et robotique personnelle: Signaux actes ...

64 Dynamique de la communication humaine

l'existence d'une relation entre la perception des di�érences de mouvement etla perception de l'entativité (émergence d'une unité sociale).

Dans un domaine proche de nos préoccupations, Ramseyer and Tschacher[2011] ont exploité des méthodes computationnelles (quantité de mouvement,test statistique) pour caractériser la synchronie non-verbale entre un patientet un thérapeute durant des séances de psycho-thérapies. Les résultats decette étude montrent que la synchronie a été plus importante dans les séancesjugées, par les patients, comme présentant une richesse et une e�cacité accruesdes échanges. La coordination entre les interactants permet de juger de lacohésion d'un groupe [Hung and Gatica-Perez, 2010] et est un indicateur dela participation de chaque individu (e.g. rôle dans l'interaction) [Vinciarelli,2009].

2.2.4 Implications pour la robotique interactive

En s'inspirant de la psychologie développementale et plus particulièrementdu motherese (cf. section 1.6.1) et du motionese (gestes et actions adressés àl'enfant), Rolf et al. [2009] ont proposé un modèle de détection de synchro-nie exploitant des informations multimodales. Ce modèle est utilisé pour lacaractérisation des phases d'apprentissage sociale à l'image de l'interactionparent-bébé. Les auteurs cherchent à doter le robot iCub4 de capacités dedétection de la synchronie et d'apprentissage social, l'autorisant ainsi à se fo-caliser sur les phases d'apprentissage pendant l'interaction avec un partenairehumain. [Prepin and Gaussier, 2010] ont proposé une architecture robotiqueoù la synchronie avec le partenaire humain joue le rôle de signal de renforce-ment, pour l'apprentissage de tâches (e.g. mouvement des bras du robot).

Michalowski et al. [2007] ont conçu le robot Keepon5 dont le mode decommunication est basée sur la synchronie. Ce robot ne possède que trèspeu de degrés de liberté. La synchronie (ou la dyssinchronie) joue le rôlede régulateur de l'engagement avec des partenaires (enfants autistes). Dansun autre contexte, Prepin and Pelachaud [2011] proposent de modéliser lasynchronie pour la caractérisation des échanges entre un agent virtuel et sonpartenaire humain dans des tâches de dialogue.

2.2.5 Caractérisation automatique de la synchronie

La détection, la caractérisation et l'évaluation de la synchronie sont pro-blématiques du fait de la variété des facteurs impliqués dans son émergence.L'étude et l'analyse de la synchronie permettent d'a�ner nos connaissances

4http ://www.icub.org/5http ://beatbots.net/

Page 79: "Traitement du signal social et robotique personnelle: Signaux actes ...

2.2. Synchronie interactionnelle 65

sur les mécanismes régissant la communication humaine et notamment sacomposante dynamique.

Problématique L'étude de la synchronie par des méthodes non-computationnelles vont de la micro-analyse de comportements à la perceptionglobale de la synchronie. Les méthodes d'annotation se proposent d'évaluerde manière �ne et locale les comportements des interactants. Il peut s'agirde micro-comportements tels que les mouvements de la tête, des yeux, dutronc... mais également de macro-comportements tels que le contact visuelou tactile... Les méthodes d'annotation de comportements fournissent desinformations riches. Elles sont généralement exploitées en psycho-pathologiepour une meilleure compréhension des modes d'interaction (e.g. autisme). Lescontraintes liées à l'annotation sont multiples : nécessité de plusieurs annota-teurs (le plus souvent préalablement formés aux grilles de cotation utilisées),�délité inter-juge et validation des grilles, temps nécessaire (annotation etanalyse), multitude de données... Les méthodes basées sur un jugement globalde l'interaction o�rent une alternative. Elles sont également cohérentes avecle fait que la synchronie interpersonnelle n'est pas perçue par un unique si-gnal mais par l'ensemble des signaux verbaux et non-verbaux échangés durantl'interaction (intégration multi-modale).

Le développement de méthodes computationnelles pour la caractérisationde la synchronie est un domaine en plein essor. On distingue généralement lesméthodes partant de données déjà annotées (e.g. rire, pleur, tour de parole) decelles exploitant directement les signaux (e.g quantité de mouvement, pause).Messinger et al. [2010] caractérisent la dynamique des interactions mères-bébéspar la modélisation des séquence de comportements annotés : probabilitésp(bi, mi, bi−1, bi−1) estimées par maximum de vraisemblance. Les di�cultésrésident dans (1) le caractère souvent hiérarchique des comportements et (2)la variabilité du nombre et du type de comportements à traiter [Magnusson,2000].

Les méthodes exploitant directement les signaux sociaux sans annotationsont multiples (voir [Delaherche et al., 2011] pour une revue de la littérature)et une formalisation de la problématique montre que les étapes requises sontgénéralement les suivantes :

1. Extraction de caractéristiques (souvent uni-modale) : quanti�cation demouvement, suivi de points caractéristiques (e.g. bras, tête), posture.

2. Mesures : corrélation, cohérence (syntonie), analyse par quanti�cationrécurrente, déphasage.

3. Test de signi�cativité : surrogate data, bootstrap.

4a. Paramètres : niveau de synchronie, décalage temporel, leader...

Page 80: "Traitement du signal social et robotique personnelle: Signaux actes ...

66 Dynamique de la communication humaine

4b. Représentation de la synchronie : cartes de corrélation, graphes de ré-currence...

Positionnement scienti�que Une formalisation générique du conceptde synchronie interactionnelle requiert une modélisation dynamique, multi-modale et contextualisée des signaux non-verbaux.

Mes contributions, dans ce domaine, portent sur des étapes fondamentalesde la caractérisation :

- Indices non-verbaux : Deux approches sont proposées pour l'estimationde l'intensité de la liaison entre les signaux échangés par les interactants.Une première exploite des signaux sociaux préalablement annotés. Lacaractérisation de la dynamique des séquences d'échange est basée surdes modèles n-grammes dé�nissant des schémas interactifs (interactivepatterns). Une seconde méthode cherche à prendre en compte la naturedes signaux échangés. Elle est basée sur l'extraction et la corrélationd'indices non-verbaux (prosodie, rythme de la parole, pause, quantitéde mouvement, geste....).

- Intégration multimodale : L'exploitation de la multi-modalité est évi-demment requise en traitement du signal social mais soulève plusieursproblèmes. La liaison entre les modalités (cross-modalité) est di�cile àcaractériser. Notre démarche a consisté à prendre en compte de manièreexplicite la cross-modalité. Les propriétés mathématiques de la factori-sation en matrices non-négatives autorisent une modélisation intégrativeet organisationnelle des schémas interactifs. Nous avons proposé une for-malisation sous forme de matrice de synchronie permettant d'exploiterun ensemble d'outils statistiques de mesure de l'intensité de liaison (e.g.corrélation, synchronie).

- Interprétation des résultats : Il s'agit de produire des représentationsexplicitant les échanges entre les partenaires. La propriété de non-négativité et le caractère parcimonieux de la factorisation en matricesnon-négatives se sont révélés pertinents dans cette tâche : décomposi-tion des schémas interactifs sur la base de stratégies de communication,activation de ces stratégies... En considérant la matrice de synchroniecomme une matrice de similarité, nous avons pu introduire une repré-sentation en dendrogramme facilitant l'interprétation par des personnesnon-expertes.

- Caractérisation continue du niveau de synchronie : Si les signaux émo-tionnels commencent a être caractérisés de manière continue (espacedimensionnel), ce n'est que très rarement le cas de la synchronie, de ladominance ou encore de la cohésion. Le passage de catégories discrètes(faible ou forte synchronie) à un espace continu est un verrou majeur de

Page 81: "Traitement du signal social et robotique personnelle: Signaux actes ...

2.3. Modélisation intégrative de la synchronie 67

la modélisation. Nous avons proposé quelques solutions à cette problé-matique.

Les travaux présentés dans ce chapitre ont été réalisés dans le cadre deprojets collaboratifs : Fondation de France, MULTI-STIM, Action EuropéenneCOST 2102 Cross-Modal Analysis of Verbal and Non-Verbal Communication(Prof. Anna Esposito).

2.3 Modélisation intégrative de la synchronie

Les thèses de Catherine Saint-Georges et d'Ammar Mahdhadoui portentsur la dynamique des interactions dans le cadre du projet Motherese. Il s'agitencore une fois d'un binôme favorisant les échanges et les recherches interdis-ciplinaires. Les thèses de Catherine Saint-Georges (école doctorale Cerveau,Cognition et Comportement) et d'Ammar Mahdhaoui (ED Sciences Méca-niques, Acoustique, Electronique et Robotique) ont porté sur l'analyse et lamodélisation de la synchronie parent-bébé mais avec des volets di�érents.Cette approche interdisciplinaire nous a permis de proposer des méthodescomputationnelles innovantes et e�caces dans un cadre applicatif enrichis-sant : la compréhension des interactions atypiques.

2.3.1 Signes précoces de l'autisme : étude de �lms fami-

liaux

Les investigations sur les signes précoces utilisent principalement (1) desquestionnaires rétrospectifs renseignés par les parents, (2) des études pros-pectives et (3) l'étude des �lms familaux. Nos recherches exploitent des infor-mations extraites de �lms familiaux car ils présentent l'avantage d'être éco-logique : étude des interactions parent-bébé dans un environnement natureldans des conditions spontanées et sans aucun dispositif expérimental.

Dans une revue complète et critique des études portant sur les �lms fami-liaux, nous avons pu identi�er un ensemble de signes précoces [Saint-Georgeset al., 2010]. La �gure 2.1 résume les résultats de cette étude. Un premier résul-tat réside dans l'importance de la dynamique développementale dans l'appa-rition des signes (long-terme). La majorité des signes concernent l'interactionsociale (e.g. contact visuel, expressions faciales, attention conjointe). Cathe-rine Saint-Georges a également étudié la concordance des résultats obtenusavec ceux issus de méthodes prospectives [Saint-Georges, 2011].

Les études sur les signes précoces de l'autisme se concentrent majoritaire-ment sur l'enfant et que très rarement sur son environnement immédiat. Lanature de l'interaction, les sollicitations et les réponses du partenaire, n'est

Page 82: "Traitement du signal social et robotique personnelle: Signaux actes ...

68 Dynamique de la communication humaine

9

l’évitement actif de la relation et du regard) pourraient signer l’échec de la mise en place de la relation (Muratori & Maestro, 2007) et de l’entrée dans le langage. De plus l’attention apparaît instable et on retrouve plus nettement une hypotonie et une hypoactivité, ainsi qu’un manque de jeu social et symbolique.

0 24 mois18126

INTER

SUBJECTIVITE

COMMUNICATION

ACTIVITE

COMPORTEMENTS

SOCIAUX

Manque de réponse au prénom (N=4)2

Manque de gestes communicatifs (N=5)1

Manque de communication vocale(N=4)

Moins de pointage (N=3)6

Manque d’autres comportements

intersubjectifs (showing, attention

conjointe) (N=5)

Manque

d’intersubjectivité

(N=2)

Manque d’activité

(N=1)

Moindre développement

cognitif (N=2)

Pauvreté des interactions (N=3)3 Isolement (N=3)

Manque d’expression faciale (++ positive) (N=5)5

Manque de regard aux visages (N=3)

Moindre quantité et/ou qualité du contact visuel (N=5)4

9

Figure 1. Signes précoces d’autisme en fonction de l’âge et des principaux axes de développement issus de l’étude des films familiaux Les signes reconnus pour être spécifiques de l’autisme, comparé au retard de développement, apparaissent en gras. N indique le nombre d’études rapportant l’item correspondant.1 Significatif au 2e semestre dans 1 étude; 2 significatif dans les derniers mois de la 1e année dans 3 études; 3 significatif au 1er semestre dans 1 étude; 4 significatif au 2e semestre dans 2 études; 5 significatif dans les derniers mois de la première année dans 2 études; 6 significatif au 2e semestre dans 1 étude.

Quels sont les signes dont la spécificité vis-à-vis de l’autisme est attestée ?

Fig. 2.1: Signes précoces d'autisme en fonction de l'âge et des principaux axes de

développement [Saint-Georges, 2011]

En gras : les signes reconnus pour être spéci�ques de l'autisme (comparé au retard

mental). N indique le nombre d'étude.

pas explicitement prise en compte dans les analyses proposées alors qu'ellejoue un rôle fondamental dans le développement de l'enfant (e.g. acquisitiondu langage [Kuhl, 2004], l'apprentissage [Meltzo� et al., 2009]). L'étude de lasynchronie des comportements mère-bébé permet l'accès à ces informations[Feldman, 2007], et donc à une compréhension plus �ne des mécanismes régis-sant les interactions.

2.3.2 Modélisation computationnelle de la synchronie

En partant des données annotées par nos collègues de l'université de Pise[Muratori et al., 2011], nous avons proposé, dans la thèse d'Ammar Mahd-haoui, une modélisation de la synchronie dans les �lms familiaux (cf. �gure2.2). Le corpus utilisé est détaillé dans [Saint-Georges et al., 2011b]. Nousrappelons succinctement la composition des catégories diagnostiques :

� Groupe 1 (AD) : 15 enfants diagnostiqués autistes (10 garçons / 5 �lles).� Groupe 2 (ID) : 12 enfants avec retard mental (7 / 5 ).� Groupe 3 (TD) : 15 enfants avec un développement typique (9 / 6 ).La base de données est composée d'un total de 42 �lms (d'une durée mini-

male de 10 minutes) répartis sur les 3 premiers semestres de vie des enfants.Les comportements du bébé et de la mère ont été annotés par l'université dePise suivant la grille ICBS (Infant Caregiver Behavior Scale) (détaillée dans

Page 83: "Traitement du signal social et robotique personnelle: Signaux actes ...

2.3. Modélisation intégrative de la synchronie 69

temps

temps

CB

IB

CB CB CB CB

IB IB

CB

IB

<3s

CB

Interactions multimodales

Analyse quantitative

Modèle d’interaction (n-gram)

Codage(tf-idf)

Regroupement des signaux (NMF)

Analyse statistique

Analyse statistique

Film

s Fam

iliaux

Fig. 2.2: Analyse automatique de l'interaction parent-bébé

{CG→BB} schémas interactifs du caregiver (CG) vers le bébé.

[Saint-Georges et al., 2011b]). Cette grille est composée de 29 étiquettes fai-sant référence à la capacité du bébé (BB) à engager des interactions (e.g.s'orienter vers une personne, sourire, vocalisation...) et 8 étiquettes décrivantles sollicitations et stimulations du parent (CG)6 (e.g. toucher, vocalisation).

L'approche proposée dans la thèse d'Ammar Mahdhaoui est inspirée del'analyse automatique de documents (�gure 2.2). Elle vise à exploiter l'en-semble des signaux annotés pour caractériser la synchronie interactionnelle.

Extraction et caractérisation de schémas (patterns) interactifs

La première étape de toute étude sur la synchronie repose sur l'extractionde schémas interactifs ("méta-signaux"). Pour ce faire, nous avons considéréque l'impact d'un comportement d'un interactant sur son partenaire était li-mité dans le temps. Un fenêtrage des vidéos permet d'obtenir des segmentstemporels où les séquences de comportements ({CG→BB} et {BB→CG})prennent du sens. Feldman [2007] relève également l'importance d'une ana-lyse temporelle à horizon �nie. Une étude de la littérature sur la synchro-nie parent-bébé permet de �xer la durée des fenêtres à 3s7[Feldman, 2007].Nous obtenons alors un ensemble de méta-comportements appelés schémasinteractifs. Par exemple, le schéma interactif 'Touch#Vsim' signi�e que le pa-rent a communiqué un signal 'touching" et que l'enfant a répondu par une'vocalisation simple' dans une fenêtre de 3s.

6ou tout autre partenaire adulte7Nous retrouverons une durée similaire dans une étude liée à la robotique interactive (cf.

Chapitre 3)

Page 84: "Traitement du signal social et robotique personnelle: Signaux actes ...

70 Dynamique de la communication humaine

Les schémas interactifs forment un nouvel espace de méta-comportementso�rant une nouvelle perspective d'analyse de l'interaction. D'un point de vuemathématique, toutes les combinaisons de comportements dé�nis dans la grilleICBS sont possibles (CG × BB comportements = 8 × 29). Cependant, nostravaux portent sur des interactions humaines régies par des règles de com-munication, limitant de ce fait la combinatoire.

L'estimation de l'intensité de liaison entre les comportements des inter-actions est la seconde étape de notre modélisation (cf. �gure 2.2). Notreapproche a consisté à estimer des n-grammes (modèles de Markov d'ordren). Pour un modèle 3-gram, nous obtenons l'estimation de la probabilitéd'apparition du comportement i en fonction des comportements précédents(compi−1, compi−2) : P (compi|compi−2, compi−1). Dans le cadre de notre col-laboration avec des cliniciens, nous nous sommes restreints à des bi-grammespour des raisons de simpli�cation des interprétations (nécessaire dans notrephase de conception de modèles). La modélisation par bi-gramme autoriseune représentation graphique de l'interaction [Saint-Georges et al., 2011b].L'estimation des modèles n-grammes repose sur le critère de maximum devraisemblance.

Une première validation de cette approche a consisté à mener une étudecomparative des bi-grammes obtenus (méta-comportements) selon di�érentsgroupes et semestres (S1 :0-6 mois, S2 :6-12 mois, S1 :12-18 mois). Des mo-dèles linéaires généralisés mixtes (GLMM) ont été utilisés avec, après analysedes schémas interactifs, des lois de quasi-Poisson (détails disponibles dans[Saint-Georges et al., 2011b; Saint-Georges, 2011; Mahdhaoui, 2010]). Cetteétude permet d'obtenir des résultats sous une forme directement interprétablepar des cliniciens (signi�cativité), avec l'avantage de proposer une analyseinteractive et développementale.

Intégration d'informations par factorisation de matrices non-

négatives

La modélisation par n-grammes et les analyses par GLMM fournissent desindications utiles sur la dynamique et la pertinence de chacun des schémasinteractifs. L'in�uence mutuelle des signaux sociaux échangés n'est pas expli-citement modélisée. Une modélisation intégrative permet d'étudier les liaisonsentre ces schémas interactifs. Une autre motivation de l'approche intégrativeréside dans la nécessité de pouvoir estimer tous les n-grammes. Or, un schémainteractif n'apparaissant pas dans la base d'apprentissage peut apparaître dansla base de test. Les méthodes de lissage permettent en partie de pallier à ceproblème. Cependant, un groupe pathologique peut justement être caractérisépar la présence ou l'absence de certains schémas interactifs et là les méthodes

Page 85: "Traitement du signal social et robotique personnelle: Signaux actes ...

2.3. Modélisation intégrative de la synchronie 71

de lissage ne sont plus adaptées (atténuation des di�érences). La modélisationpar n-gramme se révèle assez peu représentative de la dynamique de l'inter-action parent-enfant (développementale) pour dans une découverte de signesprécoces.

Nous avons proposé de résumer ces schémas interactifs en estimant desclusters de schémas interactifs. L'analyse par semestre et par groupe se faitalors, non pas sur les schémas eux-mêmes, mais via ces clusters. Cette ap-proche permet de modéliser les liaisons existantes entre les schémas inter-actifs. L'augmentation du niveau d'abstraction permet une comparaison destructures de l'interaction : nature et nombre di�érents de clusters. Plusieursapproches de clustering peuvent alors être utilisées : k-moyennes [Mahdhaoui,2010], réseaux de neurones... Nous avons opté pour une représentation per-mettant la modélisation et l'interprétation des liaisons.

Matrices non-négatives La présence et l'absence de certains compor-tements humains dans une scène interactive informent sur la nature et lecontexte des échanges. En exprimant les scènes interactives sous la forme dematrices non-négatives, notre objectif est d'exploiter des méthodes de dé-composition pour extraire des informations sémantiques de plus haut-niveau(clusters de comportements interactifs). Les matrices non-négatives ont été ap-pliquées avec succès à de nombreux domaines (séparation de sources, recherched'informations, biologie...). La factorisation de matrices non-négatives est per-tinente pour l'interprétation de comportements sociaux [Wu et al., 2008].

La factorisation en matrices non-négatives [Lee and Seung, 1999] est uneméthode d'extraction de caractéristiques impliquant la décomposition d'unematrice non-négative V (dimension n × m) en deux matrices non-négativesW (n× k) et H (k ×m) :

V ≈ WH (2.1)

Le rang k de la factorisation représente le nombre de facteurs latents((n + m)k < nm) et est généralement interprété comme le nombre de clusters(groupes de schémas interactifs). Les lignes ou les colonnes des matrices (Het W) sont des indicateurs du degré d'appartenance à un cluster donné.

La contrainte de non-négativité est pertinente dans l'analyse de comporte-ments humains autorisant ainsi uniquement des combinaisons additives et nonsoustractives comme c'est potentiellement le cas de l'analyse en composantesprincipales. En introduction de ce manuscrit, nous avons rappelé les travauxde Eagle and Pentland [2009] sur les comportements humains, la méthode pro-posée se situe dans la même lignée (reality mining). La représentation obtenuepar factorisation de matrices non-négatives permet de former un dictionnairede schémas interactifs (basis vectors). Nous considérons la représentation ob-

Page 86: "Traitement du signal social et robotique personnelle: Signaux actes ...

72 Dynamique de la communication humaine

tenue comme une extension des Eigenbehaviors de Eagle and Pentland [2009].La factorisation en matrices non-négatives est un processus d'optimisation

dont les éléments importants sont les algorithmes et les critères utilisés (e.g.multiplicatif, norme de Frobenius, divergence...), l'optimisation du rang k etl'initialisation. Les contraintes de parcimonie ne sont explicites pas dans lesalgorithmes généralement utilisées mais peuvent aisément être introduites sousforme d'optimisation sous contraintes. Plusieurs stratégies sont actuellementproposées dans la littérature, les détails de nos travaux sont présentés dans[Mahdhaoui, 2010; Saint-Georges et al., 2011b].

Représentation des schémas interactifs Un point sur lequel nous sou-haitons revenir dans ce manuscrit concerne le pré-traitement des données. Ils'agit de proposer une représentation e�cace des di�érents schémas interactifs(n-grammmes). Nous avons exploité une approche très largement utilisée enanalyse de document : tf-idf (term frequency - inverse document frequency).Notons que cette représentation s'est généralisée à toutes les modélisationsà base de dictionnaire (e.g. bag-of-words) pour la reconnaissance d'objets,d'actions, de sons...

La représentation tf-idf consiste en l'application d'une fonction de pon-dération statistique qui permet d'évaluer l'importance d'un schéma interactifspéci�que pour une scène d'interaction donnée. L'idée principale est qu'unschéma interactif qui survient fréquemment dans les scènes peut ne pas êtrediscriminant et devrait donc avoir un poids moins important qu'un schémapeu fréquent. Le poids dépend du nombre d'occurrences du schéma interactifdans la scène et il varie en fonction de sa fréquence dans l'ensemble du corpus.Pour un schéma interactif ti dans la scène dj, nous estimons tfij :

tfij =nij∑l nlj

(2.2)

Avec nij nombre d'occurrences du schéma interactif (n-gram) ti dans la scènedj, le dénominateur introduit une normalisation par rapport aux occurrencesde l'ensemble des schémas interactifs de la scène.

La fréquence inverse (idf ) est une mesure de l'importance générale d'unschéma interactif (mesure d'informativité). Elle est dé�nie comme le loga-rithme de l'inverse de la proportion de scènes qui contiennent ce schéma in-teractif :

idfi = log|D|

|{d : ti ∈ d}|(2.3)

Où |D| représente le nombre total de scènes dans le corpus et {d : ti ∈ d}| lenombre de scènes où le schéma interactif ti apparaît. La représentation �naleest obtenue en pondérant ces deux mesures : (tf − idf)ij = tfij × idfi.

Page 87: "Traitement du signal social et robotique personnelle: Signaux actes ...

2.3. Modélisation intégrative de la synchronie 73

Groupes de schémas interactifs A l'issue de la factorisation en matricesnon-négatives, les schémas interactifs sont organisés en un nombre k de clus-ters pour chaque semestre et chaque groupe étudiés. La structure de cetteorganisation est fondamentale dans notre travail car elle fournit des indica-tions sur l'évolution des interactions parents-bébés selon les semestres et lesgroupes. Les critères d'optimisation du nombre de clusters, proposés dansla littérature, ont des objectifs variés : parcimonie, séparation des clusters,sémantique... Nous avons opté pour une méthode simple basée sur la maximi-sation de l'homogénéité et de la séparabilité des clusters [Mahdhaoui, 2010;Saint-Georges et al., 2011b].

L'originalité de notre approche de caractérisation de la synchronie résidedans la comparaison de clusters de schémas interactifs. L'information mu-tuelle normalisée (Normalized Mutual Information) est une métrique adaptéeà cette comparaison [Strehl and Ghosh, 2002]. L'information mutuelle norma-lisée entre deux résultats de clustering di�érents y1 et y2 permet de mesurerla corrélation entre deux regroupements :

NMI(y1, y2) =

∑ki=1

∑kj=1 n1,2

i,j log

(n×n1,2

i,j

n1i×n2

j

)√(∑k

i=1 n1i log

n1i

n

) (∑kj=1 n2

j logn2

j

n

) (2.4)

où n1i est le nombre de schémas interactifs appartenant au cluster ci en utili-

sant le clustering y1, n2j est le nombre de schémas interactifs appartenant au

cluster cj en utilisant le clustering y2 et n1,2i,j est le nombre de schémas inter-

actifs appartenant au cluster ci en utilisant le clustering y1 et au cluster cj enutilisant le clustering y2.

Lorsque NMI(y1, y2) = 1, les résultats de clustering, et donc l'organisationdes schémas interactifs, sont considérés comme identique.

2.3.3 Interprétation des résultats

Apport des schémas interactifs

La �gure 2.3 regroupe les résultats de l'analyse des interactions synchronesdes bébés autistes (ceux des enfants typiques et avec retard mental sont dé-crits dans [Mahdhaoui, 2010; Saint-Georges et al., 2011b]). Nous avons re-porté les schémas interactifs (n-gram) pour les deux conditions : ({CG→BB}et {BB→CG}) selon les trois semestres de vie des enfants. Un modèle linéairegénéralisé mixte permet d'étudier la signi�cativité statistique des comporte-ments d'un semestre à l'autre.

Page 88: "Traitement du signal social et robotique personnelle: Signaux actes ...

74 Dynamique de la communication humaine

Fig. 2.3: Représentation développementale des principaux modes d'interaction du

bébé à devenir autistique [Saint-Georges, 2011]

En haut : sens adulte→ bébé / En bas : sens bébé→ adulte. S1, 2, 3 : Semestres 1,

2, 3. Entre parenthèses : % du comportement au sein de l'ensemble des interactions

du groupe pour ce semestre. Les �èches indiquent la stabilité (→) ou les variations

signi�catives par rapport au semestre précédent : en hausse (↗) ou en baisse (↘)

(*p< 0.05 ; **p<0.01 ; ***p<0.001). La couleur rouge indique une di�érence signi-

�cative du groupe autiste comparé au groupe typique ; un comportement en rouge

traduit une di�erence dans la comparaison transversale entre les 2 groupes à un

semestre donné ; une �èche en rouge traduit une di�érence dans la progression déve-

loppementale (la direction de la �èche di�ère entre les 2 groupes). La comparaison

avec le groupe typique est décrite dans [Saint-Georges et al., 2011b].

L'objet de ce manuscrit n'est pas de décrire les résultats cliniques de cetteétude. Néanmoins, il est important de relever que la caractérisation de la syn-chronie apporte un nouveau point de vue et surtout o�re de nouvelles perspec-tives dans la recherche de signes précoces de l'autisme. Les études tradition-nelles ne prennent pas en compte de manière explicite le rôle de l'interactant(le parent). Notre modélisation a pu montrer que lorsque l'interaction est ini-tiée par les bébés autistes, les parents répondent normalement et s'adaptent

Page 89: "Traitement du signal social et robotique personnelle: Signaux actes ...

2.3. Modélisation intégrative de la synchronie 75

à lui par une hyperstimulation dès le premier semestre. De plus, les parentsde bébés autistes maintiennent des modalités de stimulation (e.g. toucher)qui devraient normalement, dans le développement typique, être abandonnéesaux second et troisième semestres pour laisser place à une communication plusélaborée (e.g. production de mots, regard).

Apport de l'intégration par matrices non-négatives

L'analyse par factorisation en matrices non-négatives permet de structurerles schémas interactifs précédemment décrits. Nous avons comparé les struc-turations produites par la factorisation selon les di�érents semestres. Notre ré-férence reste le groupe de bébés typiques (TD) que nous comparons aux bébésautistes (AD) et avec retard mental (ID). La �gure 2.4 présente les résultatsobtenus. La méthodologie mise en ÷uvre montre clairement le caractère nonlinéaire et déviant du développement des bébés autistes par rapport aux bébéstypiques. Le développement des bébés avec retard mental semble se stabilisertout en étant di�érent de celui des bébés autistes. Ce résultat est en accordavec les connaissances sur l'autisme : le caractère déviant de développementest la principale di�érence entre les enfants avec retard mental et les enfantsautistes.

A�n de démontrer l'utilité de notre approche, nous avons étudié le re-tard de développement (ID) en mesurant l'information mutuelle normaliséeentre le semestre 2 du groupe TD et le semestre 3 du groupe ID. Le résultat(NMI(S2TD, S3ID) = 0.52) indique une plus forte ressemblance entre ces se-mestres (comparée à NMI(S3TD, S3ID) = 0.47). La di�érence s'explique parun retard dans l'acquisition des compétences liées à l'interaction sociale. Deplus amples discussions et analyses sont reportées dans la thèse de CatherineSaint-Georges avec des implications directes pour le dépistage de l'autisme[Saint-Georges, 2011].

2.3.4 Limites des méthodes basées sur l'annotation de

comportements

Une �délité inter-juge raisonnable requiert l'implication d'annotateurs ex-perts tout en étant consommatrice de temps. Il faut néanmoins signaler qu'enpsycho-pathologie, par manque de systèmes automatiques et par tradition,un grand nombre de base de données sont déjà annotées (exemple des �lmsfamiliaux).

D'un point de vue traitement du signal social, l'idée même d'annoter descomportements est à remettre en cause. L'annotation revient à restreindre lessignaux sociaux analysés et à les formuler sous forme de dictionnaire. L'ap-

Page 90: "Traitement du signal social et robotique personnelle: Signaux actes ...

76 Dynamique de la communication humaine

Fig. 2.4: Représentation développementale des principaux modes d'interaction du

bébé à devenir autistique [Saint-Georges, 2011]

parition, dans une scène interactive, d'un comportement non préalablementdé�ni ne peut être facilement intégré à la modélisation. L'exploitation de mo-dèles thématiques combinant approches supervisées et non-supervisées est unesolution possible à ce problème (e.g. Latent Dirichlet Analysis) [Farrahi andGatica-Perez, Aug. 2010].

Une limitation majeure de l'approche est la non prise en compte de lanature des signaux sociaux. En e�et, les gestes, les vocalisations ou encoreles sourires sont produits par des personnes di�érentes dans des contextesvariés. Il est néanmoins possible de coupler l'annotation et la caractérisationde signaux sociaux. Dans la thèse d'Ammar Mahdhaoui, nous avons proposéde prendre en compte la nature des vocalisations de la mère : détection dumotherese (cf. section 1.6). Cette combinaison de détection de signaux deparole et annotation permet d'a�ner la modélisation. Par exemple, nous avonspu montrer que la nature des hyperstimulations vocales (regulation-up) desparents de bébés autistes est à rapprocher du motherese [Saint-Georges, 2011].

2.4 Coordination multi-modale : du signal à

l'interprétation

Dans le cadre de la thèse d'Emilie Delaherche (projet MULTI-STIM), nousavons investigué une voie di�érente pour la caractérisation automatique de lasynchronie interactionnelle. Nous sommes partis du constat que les humains

Page 91: "Traitement du signal social et robotique personnelle: Signaux actes ...

2.4. Coordination multi-modale : du signal à l'interprétation 77

sont des juges e�caces et �ables de la coordination sociale [Lakens, 2010;Cappella, 1997] et ceci même dans des conditions dégradées. Un des objectifsde la thèse d'Emilie Delaherche est de proposer des méthodes innovantes dedétection, de caractérisation et de prédiction du niveau de synchronie dansles interactions (humain-humain et homme-robot) en exploitant la nature dessignaux échangés.

Les indices utilisés par les humains pour évaluer l'harmonie et la coor-dination d'interactants sont multiples. Un des dé�s majeurs du traitementdu signal social réside dans l'identi�cation et la détection automatique d'in-dices non-verbaux permettant d'inférer les états et les comportements desinteractants. La majorité des travaux exploite des informations de bas-niveauextraites du �ux audiovisuel pour la caractérisation d'informations de plushaut-niveau. Par exemple, Hung and Gatica-Perez [2010] ont montré qu'il estpossible d'estimer la cohésion des participants à une réunion par un ensembled'indices verbaux : pauses entre les tours de parole individuels, mouvementpendant les tours de parole, la synchronie... La reconnaissance de rôle et ladétection de la dominance sont largement étudiées par la communauté. Lesapproches proposées exploitent des informations liées à l'activité vocale del'interactant, la proximité des interventions ou encore la quantité de mouve-ment lors des interventions [Vinciarelli, 2009; Worgan and Moore, 2011; Hunget al., 2011; Varni et al., 2009].

Une des innovations de notre approche réside dans la dé�nition d'unnouvel espace de représentation explicite de la synchronie. Contrairementaux approches proposées dans la littérature [Ramseyer and Tschacher, 2011],nous nous sommes attachés à exploiter des signaux mutli-modaux en portantune attention particulière à l'intensité des liaisons entre ce signaux (cross-modalité). A noter que cette représentation explicite de la synchronie est encohérence avec des travaux récent en neurosciences prônant un point de vueinteractif de la caractérisation des activités cérébrales [Dumas et al., 2010].

2.4.1 Synchronie et intégration multi-modale

Les grandes étapes de conception d'un système de caractérisation automa-tique de la synchronie ont été rappelées section 2.2.5. Le système développédans le cadre de la thèse d'Emilie Delaherche reprend ces étapes et est décrit�gure 2.5.

Le système a été appliqué à la caractérisation de l'interaction entre unthérapeute et des enfants typiques ou atteints de trouble envahissant du déve-loppement. La situation interactive est une tâche de collaboration consistant àreconstituer un clown à partir de formes en polystyrène. La tâche nécessite deséchanges réussis de signaux verbaux et non-verbaux pendant la manipulation

Page 92: "Traitement du signal social et robotique personnelle: Signaux actes ...

78 Dynamique de la communication humaine

!!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!"#$%&'()'*+&%+"&,'-.'-$%'/-01$232"-435'0-6&5)

!

!!"#$%&!"##$%&'(!)$*!'+,!-$%.&,((!$)!'+,!($%&./!0'!1(!,2'*"#',.!1&!

.3(/! 4&,*56! 1(! #$78%',.! "(! '+,! "9,*"5,.! (:%"*,! 9"-%,! $)! '+,!

("78-,(! 1&! "! ;1&.$;! (15&"-/! 0'! +"(! <,,&! 8*,91$%(-6! %(,.! )$*!

(6&#+*$&6! "((,((7,&'! =>?@A! 1&',&'1$&! $*! ,7$'1$&! *,#$5&1'1$&/!

"#$%&!"&.!'(')*+!;,*,!,2'*"#',.!;1'+!B*""'!C$$-/!

'()*+#D! B1'#+! "&.! ,&,*56! ),"'%*,(! #"**6! &$! 1&)$*7"'1$&! 1&! '+,!

"<(,&#,! $)! (8,,#+/! E,9,*'+,-,((A! 8"%(,(! #$&'"1&! #%,(! $&! '+,!

1&',*"#'1$&"-!('"',!F&,2'!'%*&!8-"&&1&5A!1&)$*7"'1$&!8*$#,((1&5!"&.!

#$77%&1#"'1$&! <*,"G.$;&H/! C+$%5+A! ;,! .,#1.,.! '$! .,(15&! "!

<1&"*6! ),"'%*,! '$! "##$%&'! )$*! '+,(,! 8"%(,(I! 1'! '"G,(! '+,! 9"-%,! >!

;+,&! &$&,! $)! '+,! 8"*'&,*(! ;"(! (8,"G1&5! "&.! J! $'+,*;1(,/! K&!

"%.1$!;1&.$;!;"(! #$&(1.,*,.! "(! (1-,&'! 1)! '+,! "%.1$! ,&,*56!;"(!

<,-$;! "! 8*,.,)1&,.! '+*,(+$-.! "&.! 1'(! .%*"'1$&! ;"(! -"*5,*! '+"&!

LJJ7(/! K(! )1--,.! 8"%(,(! FM%+NA! M%+7N///H! #$&'"1&! #$78"*"'19,-6!

,:%19"-,&'! "%.1$! ,&,*56! "(! 1&)$*7"'19,! (8,,#+A! &$',! '+1(! ),"'%*,!

$&-6!"##$%&'(!)$*!,78'6!8"%(,(/!!

',-.)/0.1 #"#$%&! ;"(! $<'"1&,.! <6! "88-61&5! "! (,'! $)! 8,*#,8'%"-!

)1-',*(!'$!'+,!"%.1$!(15&"-/!C+,!7,'+$.!1(!)%--6!.,(#*1<,.!1&!=?@/!0'!

;"(! $*151&"--6! .,(15&,.! <6! O%771&(! '$! .,',#'! '+,! 8P#,&',*(! 1&!

(8,,#+/!C+,!*,(%-'1&5!(15&"-!8*,(,&'(!'+,!,9$-%'1$&!$)!'+,!9$#"-1#!

,&,*56!$)!'+,!(8,"G,*/!C+,!8,"G(!$)!'+1(!(15&"-!',&.!'$!<,!'+,!7$('!

("-1,&'! 7$7,&'(! 1&! (8,,#+/! Q,! 1&',&.! '$! 1&9,('15"',! 1)! '+$(,!

("-1,&'! 8$1&'(! #$1&#1.,! ;1'+! ($7,! <,+"91$%*"-! *,(8$&(,! 1&! '+,!

-1(',&,*R(!"''1'%.,/!

,-.-,! /#0'123'4$5)'62S$*!,"#+!(8,"G,*A!"!*,51$&!$)!1&',*,('!;"(!(,-,#',.!1&!'+,!91.,$/!

Q,!,2'*"#',.!'+,!)$--$;1&5!),"'%*,(!)$*!,"#+!*,51$&!$)!1&',*,('D!

'2-30-"1 #"#$%&! 42!5! 1(! .,)1&,.! "(! '+,! &%7<,*! $)! 812,-(! 1&!

7$9,7,&'! <,';,,&! '+,! #%**,&'! 91.,$! )*"7,! "&.! "! *,),*,&#,!

17"5,/!Q,! #$78%',.! '+,! .1)),*,&#,! <,';,,&! '+$(,! ';$! 17"5,(/!

S$*!,"#+!812,-A!1)!'+,!.1)),*,&#,!;"(!"<$9,!"!8*,.,)1&,.!'+*,(+$-.A!

'+,! 812,-! ;"(! *,5"*.,.! "(! M1&!7$9,7,&'N/! C+,! *,),*,&#,! 17"5,!

;"(!%8."',.!")',*!,"#+!1',*"'1$&!"(!"!;,15+'1&5!(%7!$)!'+,!#%**,&'!

)*"7,!F;,15+'!!!T!J/>H!"&.!'+,!8*,91$%(!*,),*,&#,!17"5,!F;,15+'!

>P!H/! B*,#1$%(-6! ('%.1,.! '$! "((,((! 1&',*"#'1$&"-! (6&#+*$&6! =>U@A!

7$'1$&!,&,*56!1&)$*7(!"<$%'!"!(+"*,.!.6&"71#(!<,';,,&!'+,!';$!

8"*'&,*(!7$9,7,&'!$*!"!-1(',&,*R(!#$$*.1&"'1&5!+1(!7$9,7,&'!;1'+!

'+,!(8,"G,*R(!(8,,#+/!

P2-30-"1 60+3-$&1 07)%#1 428952 =>@! 1(! .,)1&,.! "(! '+,! &%7<,*! $)!

812,-(!1&!7$9,7,&'!"#*$((!E!91.,$!)*"7,(!FET?LH/!C+1(!),"'%*,!1(!

.,*19,.! )*$7! 71$#1(2 8(')*+-2 K! ;,15+'! F<,';,,&! J! "&.! >H! 1(!

"((15&,.! '$! ,"#+! 812,-! "##$*.1&5! '$! '+,! *,#,&'&,((! $)! 1'(!

7$9,7,&'/!C+%(A! '+,!812,-(! M1&!7$9,7,&'N! 1&! '+,!#%**,&'! )*"7,!

$)!'+,!91.,$!"*,!519,&!"&!178$*'"&'!;,15+'A!'+,!$&,(!1&!7$9,7,&'!

1&!'+,!8*,91$%(!)*"7,!"!(7"--,*!;,15+'A!,'#/!C+1(!),"'%*,!519,(!"&!

1&',*,('1&5! 1.,"! $)! '+,! '*"V,#'$*6! $)!7$9,7,&'! .%*1&5! E! )*"7,(!

"&.!#$&(,:%,&'-6!$&!#$78-,',!5,('%*,(/!Q,!7"6!.,',#'!;1'+!'+1(!

),"'%*,!"!-$$(,!(6&#+*$&6!<,';,,&!'+,!';$!8"*'&,*R(!7$9,7,&'(/2

'2#)"1 :#/-.03&2 =U@/! W$'1$&! ,&,*56! 7,"(%*,(! '+,! "7$%&'! $)!

7$9,7,&'! <,';,,&! ';$! 91.,$! )*"7,(! <%'! #"&R'! .1(#*171&"',!

<,';,,&!"! -"*5,! *,51$&!7$91&5!(-$;-6!$*!"!(7"--! *,51$&!7$91&5!

:%1#G-6/! X$A!;,! #$78%',.! "&! "..1'1$&"-! ),"'%*,! '$!7,"(%*,!+$;!

)"('!"!8,*($&!1(!7$91&5/!C+,!9,-$#1'6!F.1*,#'1$&!"&.!7"5&1'%.,H!$)!

,"#+!812,-!;"(!#$78%',.2<6! '+,!Y%#"(!"&.!Z"&".,!$8'1#"-! )-$;!

7,'+$.!=>>@/!C+,&!7,"&!9,-$#1'6!;"(!$<'"1&,.!<6!"9,*"51&5!'+,!

9,-$#1'6!7"5&1'%.,!$)!"--!812,-(!1&!'+,!*,51$&!$)!1&',*,('/!

P8)";+<13$)=#.3-$&-2Q+,&!;,!#$78%',!7$'1$&!,&,*56!$*!9,-$#1'6A!

;,!#$&(1.,*! '+,!$9,*"--!7$9,7,&'!1&!'+,!91.,$D!5,('%*,A!-,"&1&5A!

+,".!&$.(///!Q,!.,#1.,.! '$! "..!"! -"('! ),"'%*,! '$! )$#%(!$&!+"&.(R!

5,('%*,(/! ["&.(\! '*"#G1&5! ;"(! #$78%',.! ;1'+! '+,! #$%8-,.!

O"7(+1)'! FO$&'1&%$%(-6! "."8'"'19,! 7,"&(+1)'H! "-5$*1'+7! =]@/!K'!

-"('A! ;,! #$78*,((,.! 9! "&.! +! O"*',(1"&! #$$*.1&"',(! '$! '+,! 8$-"*!

#$$*.1&"', +:;9:<) /!!

E$',!'+"'!"%.1$!"&.!91.,$!),"'%*,(!;,*,!*,(#"-,.!F71&17%7!9"-%,!

(%<'*"#'1$&! "&.! *"&5,! .191(1$&H! '$! 7"G,! "--! '+,! ,-,7,&'(! -1,!

<,';,,&!J!"&.!>/!!

Q,!$<'"1&,.!>]!),"'%*,(!)$*!,"#+!;1&.$;!$)!1&',*"#'1$&!F]!"%.1$!

),"'%*,(! <,-$&51&5! '$! $&,! 8"*'&,*! $*! '+,! $'+,*! "##$*.1&5! '$! '+,!

(,#'1$&! $)! '+,! 91.,$A! L! 91(%"-! ),"'%*,(! )$*! .,7$&('*"'$*! "&.! L!

91(%"-!),"'%*,(!)$*!,28,*17,&',*H/!

7)(! 8&39$%&9'-.'9:4/;%-4:'

,-=-.! >1))'?4$#1(2%1'33#%#'($2O$**,-"'1$&! #$,))1#1,&'! ,('17"',(! '+,! -1&,"*! *,-"'1$&(+18! <,';,,&!

';$!*"&.$7!9"*1"<-,(!9!"&.!+-!!

=

(

(

=

(

(

(

(

(

9+

@+A+@9A9

@+@A+9A9

<)

!!

!

""

""!

0'! 1(! &$*7"-1^,.! <,';,,&! =P>I! >@/! C+,! (15&! $)! '+,! #$**,-"'1$&!

#$,))1#1,&'!1&.1#"',(!'+,!.1*,#'1$&!$)!"(($#1"'1$&!<,';,,&!9!"&.!+!/!

C+$%5+A! 1'! 1(!8$(1'19,!;+,&!<$'+!9"*1"<-,(! 1&#*,"(,(! "'! '+,! ("7,!

'17,! "&.! &,5"'19,! ;+,&! $&,! 9"*1"<-,! 1&#*,"(,(! ;+1-,! '+,! $'+,*!

49

Fig. 2.5: Di�érentes étapes du système de caractérisation automatique de la syn-

chronie [Delaherche and Chetouani, 2010]

d'objets. Elle est déclinée sous di�érentes formes (cf. �gure 2.6) : collaborationpar échange de signaux verbaux et non-verbaux (parole, regard, expressionsfaciales) et imitation (en plus des signaux de communication, possibilité devoir ce que fait le partenaire). 21 enfants ont participé à cette étude (âge dé-veloppemental : 4-6 ans) : 14 enfants typiques et 7 enfants atteints de troublesdu développement.

6.1.3 Matériel

Les interactions ont été filmées à l’aide d’une caméra Canon MV800, positionné au-dessus des participants. La fréquence d’échantillonnage audio est de 32 kHz et la fréquenced’échantillonnage video est de 25 images par seconde. Des bracelets de couleur (orange etvert) sont positionnés au bras des deux personnes afin de faciliter le suivi de leurs mains. Lesdonnées audio ont été annotées dans l’outil Anvil (Kipp, 2001) afin de délimiter les tours deparole des deux participants. Une video a finalement été écartée car le démonstrateur avaitmal compris les consignes. La durée totale des 7 interactions est de 35 minutes environ. Ladurée moyenne d’une interaction est de 4min57s.

Table 6.1 – Pièces du puzzle

(a) Pièces du clownPièce CouleurJambe droite BleueJambe gauche BleueTronc RougeMain droite GriseMain gauche GriseTête JauneChapeau Vert

(b) Pièces parasitesPièce CouleurPatte droite BleuePatte gauche BleueTronc GrisTête JauneYeux Bleu

Figure 6.1 – Installation de l’expérience

39

(a) Echange d'informations verbale

et non-verbale

(b) Imitation

Fig. 2.6: Con�gurations expérimentales

Page 93: "Traitement du signal social et robotique personnelle: Signaux actes ...

2.4. Coordination multi-modale : du signal à l'interprétation 79

Extraction de paramètres

La majorité des travaux se focalisent sur l'information visuelle [Ramseyerand Tschacher, 2011; Sun et al., 2011]. Une des originalités de notre approcheest de traiter explicitement la cross-modalité. Pour chaque locuteur, nous noussommes intéressés à la prosodie (f0 et énergie), aux pauses et à l'énergie vo-calique (proéminence rythmique section 1.4.1). La quantité de mouvement etla trajectoire des mains des interactants sont les indices visuels utilisés (avecdi�érentes zones d'intérêts et/ou échelles temporelles). Les détails techniquessont décrits dans [Delaherche and Chetouani, 2010].

Mesures de la synchronie

La mesure la plus largement employée est la corrélation (coe�cient decorrélation) [Ramseyer and Tschacher, 2011]. Nous avons introduit la cohé-rence, qui mesure le degré de liaison entre deux signaux dans le domainefréquentiel, a�n de caractériser la syntonie. D'un point de vue interaction, lasyntonie traduit une harmonie des échanges sans nécessairement une ressem-blance (synchronie, imitation). La cohérence est un outil statistique comparantle contenu fréquentiel des signaux échangés. Il est ainsi possible de mesurerune liaison entre les signaux produits par les interactants sur des bandes defréquence spéci�ques (même fréquence de mouvements). La corrélation et lacohérence ont l'avantage de proposer une représentation continue. Cependant,un des problèmes majeurs de ces outils statistiques reste l'estimation qui n'estqu'empirique et qui dépend donc du nombre d'échantillon utilisé.

D'autres mesures, inspirées des travaux en synchronie dans les signauxEEG [Dauwels et al., 2010], ont été utilisées : l'information mutuelle, l'inter-dépendance non linéaire. Les performances se sont révélées moins bonnes etles résultats sont plus di�cilement interprétables (stage de master d'EmilieDelaherche). La robustesse et la �abilité de l'estimation sont directement liéesau nombre d'échantillons qui, du fait de l'analyse sur horizon �nie (fenêtresde quelques secondes), est relativement faible.

Evaluation de la signi�cativité des mesures

Bernieri [1988] a proposé un paradigme pertinent pour l'évaluation subjec-tive de la synchronie interactionelle. Dans un contexte d'interaction parent-bébé, plusieurs situations sont présentées à des juges sur des écrans séparés :(1) interaction entre une mère et son propre enfant, (2) interaction entre uneune mère et un enfant inconnu et (3) une situation arti�cielle crée par la pro-jection de �lms de mères et d'enfants issus d'interactions di�érentes. L'idée

Page 94: "Traitement du signal social et robotique personnelle: Signaux actes ...

80 Dynamique de la communication humaine

étant de proposer un niveau de référence de la synchronie en exploitant despseudo-interactions.

D'un point de vue computationnel, le paradigme des pseudo-interactionsse traduit par la génération de N nouvelles interactions en permutant lesséquences de l'interaction originale (surrogate data). Une méthode de boots-trap permet alors de comparer les scores de synchronie obtenus dans les deuxsituations et de conclure sur le niveau de synchronie (z-test) [Ramseyer andTschacher, 2011; Delaherche and Chetouani, 2010]. A noter que comme la ma-jorité des méthodes de boostrapping, le nombre d'échantillons générés impactedirectement les résultats (plus il est faible moins bonne est la modélisation sta-tistique).

La permutation peut se faire sur les données brutes via des fenêtres dedurée de quelques secondes ou sur le jeu de paramètres extraits (espace descaractéristiques). Nos expérimentations montrent, qu'en fonction du caractèrerépétitif ou non de la tâche, les résultats sont discordants. Pour une tâche ré-pétitive, la ressemblance entre des fenêtres di�érentes de quelques secondesest possible réduisant ainsi le nombre de fenêtres jugées comme synchrone.Prendre une décision binaire sur la base d'un test statistique n'informe passu�samment sur la nature de la synchronie. Une caractérisation dimension-nelle (continue) permettrait de mieux appréhender le rôle de la synchroniedans l'interaction sociale.

Paramètres et représentation de la synchronie

En s'inspirant des travaux de [Feldman, 2003, 2007] sur l'interactionparent-bébé, nous avons proposé les paramètres suivants :

� L'orientation de la synchronie qui correspond à l'identi�cation du leaderde l'interaction ("relation cause à e�et").

� Le délai entre les deux partenaires dé�nit le temps moyen pour qu'unchangement dans le comportement de l'un des partenaires entraîne uneréaction chez son partenaire.

� Le degré de synchronie correspond au nombre de fenêtres jugées commesynchrone (obtenu à partir du paradigme des pseudo-interactions).

Dans le cadre de la thèse d'Emilie Delaherche, nous avons étudié l'inté-gration multi-modale en analysant le niveau de synchronie entre les di�érentssignaux échangés. Pour ce faire, nous estimons une matrice de corrélationRxy décrite �gure 2.7(a). Dans un cadre général, et en utilisant d'autres me-sures d'intensité de liaison (cohérence, information mutuelle...), la matrice desynchronie réalise une intégration multi-modale qu'il est possible d'estimerde manière dynamique et/ou incrémentale. La hiérarchie entre les intensitésde liaison est obtenue en transformant la matrice de synchronie en matrice

Page 95: "Traitement du signal social et robotique personnelle: Signaux actes ...

2.4. Coordination multi-modale : du signal à l'interprétation 81

de similarité (Dxy = 1 − Rxy). Un dendrogramme permet alors la visuali-sation cette hiérarchie (�gure 2.7(b)). Les méthodes spectrales de clusteringpermettent également d'étudier la structure des matrices de similarité. Cestravaux, non publiés, ne sont pas présentés dans ce document.

(a) Matrice de synchronie estimée à partir d'une interaction

(b) Dendrogramme correspondant

Fig. 2.7: Paramètres de la synchronie interactionnelle

Page 96: "Traitement du signal social et robotique personnelle: Signaux actes ...

82 Dynamique de la communication humaine

2.4.2 Des indices non-verbaux au degré de coordination

Dans une formalisation de l'analyse automatique de comportements so-ciaux humains, Vinciarelli et al. [2009] ont identi�és des étapes génériques :(1) enregistrement de la scène, (2) détection des personnes, (3) extractiond'indices comportementaux à partir du �ux audio-visuel et interprétation deces indices en terme de signaux sociaux, (4) caractérisation d'informationscontextuelles et interprétation de comportements sociaux. De nombreux ver-rous sont identi�és pour chacune de ces étapes. Nos travaux se concentrentsur les étapes 3 et 4. Les prochaines sections présentent l'analyse automatiquedu niveau de coordination dans une tâche d'imitation entre un thérapeute etun enfant (cf. �gure 2.6(b)). La démarche est décrite �gure 2.8 et nécessite lacaractérisation et la classi�cation de signaux sociaux.

Extraction d'indices comportementaux

Interprétation de signaux sociaux

Comportementssociaux

Flux multimodal

Interprétation du contexte

Fig. 2.8: Principe de reconnaissance de signaux sociaux

Signaux sociaux corrélés au degré de coordination

Un questionnaire a été conçu pour l'évaluation de la perception de la coor-dination et la régularité de l'interaction sur la base des travaux de [Bernieri,1988]. Les détails de ce questionnaire sont décrits dans [Delaherche and Che-touani, 2011a]. Il vise à évaluer, selon une échelle de Likert (1 à 6), les mou-vements simultanés, le rythme, la régularité et la ressemblance des actions.Le degré de coordination perçu a été évalué par 17 juges. L'accord inter-jugeest plus important pour les degrés extrêmes : "faible coordination" et "fortecoordination" (cf. �gure 2.9). Ce type de courbe en C est caractéristique del'évaluation par des humains de comportements subjectifs. Hung and Gatica-Perez [2010] obtiennent une courbe similaire dans une étude portant sur lacohésion sociale dans un meeting. Le recours au jugement par des annota-teurs montre que la coordination et la synchronie interactionnelle ne suiventpas une loi tout-ou-rien et doivent être caractérisées dans un espace continu

Page 97: "Traitement du signal social et robotique personnelle: Signaux actes ...

2.4. Coordination multi-modale : du signal à l'interprétation 83

(dimensionnel). De plus, les faibles scores inter-juge sont caractéristiques del'évaluation subjective dans les approches dimensionnelles [Gunes et al., 2011].

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.81

1.5

2

2.5

3

3.5

4

4.5

5

5.5

6

Mean weighted kappa

Mea

n ev

alua

tion

scor

e

item1item2item3item4

Fig. 2.9: Degré de coordination perçu par de juges en fonction de l'accord inter-

juge (mean weighted kappa), mesuré sur l'ensemble des dyades et des items du

questionnaire [Delaherche and Chetouani, 2011a]

Un des objectifs de nos travaux est d'identi�er et de détecter les in-dices qui peuvent être utilisés pour la mesure automatique du degré decoordination. Nous avons proposé plusieurs catégories d'indices extraitssemi-automatiquement8 (décrites en détail dans [Delaherche and Chetouani,2011a]) :

- Le tour de parole : durée et ratio des pauses sur l'ensemble de l'interac-tion, durée et ratio d'un tour de parole, taux de recouvrement de toursde parole des interactants.

- Les actes de dialogue : catégorisation des sollicitations du thérapeute(type de questions, répétition), catégorisation des réponses de l'enfant(adéquate, inattendue, inadéquate)9.

Les indices extraits automatiquement concernent :

- Le tour de rôle gestuel : en exploitant le suivi des mains des interactants,l'idée est d'extraire un ensemble de caractéristiques décrivant les phasesactives et passives [Delaherche and Chetouani, 2011a].

- La synchronie dans les mouvements : nous avons repris la caractérisationproposée section 2.4.1 mais en la restreignant aux informations visuelles(quantité de mouvement).

8Annotation manuelle puis extraction de statistiques9Travail réalisé dans le cadre d'un mémoire de deux étudiantes en orthophonie, encadrées

par Monique Plaza

Page 98: "Traitement du signal social et robotique personnelle: Signaux actes ...

84 Dynamique de la communication humaine

Résultats et interprétations L'étude a consisté à corréler les di�érentsindices extraits avec les scores des questionnaires. Les résultats détaillés sontprésentés dans [Delaherche and Chetouani, 2011a]. Ne sont repris, dans cedocument, que les résultats majeurs.

Les indices caractérisant la durée des pauses sont corrélés positivement audegré de coordination. Les interactions jugées comme faiblement coordonnéestendent à contenir plus d'interventions du thérapeute, avec plus de questions(catégorielles et ouvertes) traduisant la nécessité de stimuler des réponses.Pour les enfants, plus les interventions sont courtes plus la coordination estimportante : les échanges sont alors e�caces. Les enfants typiques produisentdes phrases courtes (backchannels) alors que les enfants atteints de troublesenvahissant du développement présentent des écholalies et des disgressions.

La durée des pauses gestuelles du thérapeute est corrélée négativementau degré de coordination : le thérapeute doit attendre l'enfant. Une variationuniforme de la durée des pauses (rythme) est jugée comme un signe de bonnecoordination. Des variations importantes traduisent des di�cultés locales dansl'accomplissement de consignes. L'attention de l'enfant à l'égard des consignesest mesurée par le taux de recouvrement d'activité gestuelle.

Contrairement aux attentes, plusieurs mesures de synchronie se sont mon-trées négativement corrélées au degré de coordination. A�n d'étudier plusprécisément ce résultat, une analyse du délai de synchronie a été entreprise(augmentation du délai entre les fenêtres traitées [Delaherche and Chetouani,2011a]). Les résultats ont montré un changement de tendance de la corrélation.Une première justi�cation réside dans le caractère complexe de la tâche néces-sitant un temps de réalisation variable en fonction des capacités de l'enfant.Cette variabilité n'in�uence que très peu les évaluateurs dans la perceptionqu'ils ont du degré de coordination. Le questionnaire repose sur une évaluationglobale alors que la méthode proposée section 2.4.1 repose sur une analyse �nede l'interaction. Une des di�cultés de la caractérisation de la synchronie résidedans la dé�nition de la fenêtre d'analyse. Une seconde justi�cation se trouvedans les stratégies suivies par les enfants pour manipuler les objets. Les pa-ramètres extraits sont globaux (quantité de mouvement, tracking des mains)ne sont pas assez précis pour caractériser des informations de haut-niveau :di�érents mouvements pour la réalisation d'une même tâche. La connaissancede l'objet manipulé est une source d'informations clairement manquante dansnotre analyse automatique du degré de synchronie dans la tâche d'imitation.

Prédiction du degré de coordination

L'évaluation automatique de la synchronie interactionelle suscite un inté-rêt croissant de la communauté scienti�que avec des applications allant de

Page 99: "Traitement du signal social et robotique personnelle: Signaux actes ...

2.4. Coordination multi-modale : du signal à l'interprétation 85

l'analyse de réunion [Hung and Gatica-Perez, 2010] à la conception d'agentsconversationnels animés [Swartout et al., 2006; Prepin and Pelachaud, 2011].Sun et al. [2011] analysent le degré de mimétisme dans des dyades en utilisantla corrélation entre des indices visuels (quantité de mouvement, saillance...).

Très peu de travaux se proposent de prédire automatiquement le degré decoordination, d'imitation ou encore de synchronie interactionelle. On retrouvepartiellement ces ambitions dans l'analyse automatique de réunion [Hung andGatica-Perez, 2010; Vinciarelli, 2009] mais pas de manière explicite. Prepinand Gaussier [2010] proposent une architecture neuronale permettant de dé-tecter la synchronie entre les comportements du robot et de l'humain. Lasynchronie est ensuite utilisée comme signal de renforcement pour la modi�-cation des comportements du robot.

Le recours au jugement par des humains montre que la synchronie est unphénomène continu. La prédiction dans un espace continu est un des dé�smajeurs du traitement du signal social. Comme c'est le cas pour les émotions[Gunes and Pantic, 2010; Gunes et al., 2011], une meilleure connaissance desphénomènes est une étape nécessaire pour la modélisation dimensionnelle designaux sociaux. Notre ambition est de proposer une caractérisation continueet cohérente de la synchronie interactionnelle.

Du discret au continu La catégorisation de signaux sociaux en classe dis-crète a le mérite de "faciliter" la classi�cation par l'exploitation de méthodestraditionnelles. La dé�nition de catégories discrètes se fait en ne retenantque les exemples considérés comme certain (score inter-juge important). Parexemple, Hung and Gatica-Perez [2010] proposent un seuil sur le score inter-juge (mean weighted kappa > 0.3) pour ne conserver que des interactionsmarquées par de forte ou faible cohésions. Une approche similaire a été pro-posée dans [Delaherche and Chetouani, 2011b].

Nous souhaitons revenir, dans ce manuscrit, sur une modélisation permet-tant la prédiction continue du degré de coordination. Les étapes requises sontles suivantes :

1. Apprentissage d'un classi�eur SVM sur les données extrêmes par sé-lection des interactions marquées par une forte ou faible coordination(problème bi-classe)

2. Modélisation probabiliste : estimation d'une sigmoïde en sortie du clas-si�eur SVM.

3. Estimation du degré de coordination des interactions non sélectionnées(classe de coordination intermédiaire) : probabilité estimée par SVM.

La procédure leave-one-out cross-validation est utilisée pour l'évaluation desperformances. L'approche dimensionnelle n'est pas compatible avec l'estima-

Page 100: "Traitement du signal social et robotique personnelle: Signaux actes ...

86 Dynamique de la communication humaine

tion de score de classi�cation : la notion de catégorie discrète n'existe plus.L'erreur quadratique moyenne (MSE, Mean Squared Error) est la métrique laplus utilisée. Notre choix s'est porté sur la corrélation qui permet de comparerdes données non nécessairement homogènes (probabilité et degré perçu). Lescaractéristiques des métriques d'évaluation des systèmes de prédiction dansdes espaces dimensionnels restent encore mal connues, et la dé�nition d'unemétrique générique reste un problème ouvert [Gunes et al., 2011].

Les résultats de prédiction sur les données collectées dans le cadre de latâche d'imitation avec une évaluation par corrélation (�gure 2.6(b)) sont pré-sentés table 2.1. Les caractéristiques utilisées sont celles décrites section 2.4.2et concernent la gestuelle, les tours de parole et la synchronie de l'enfant(Chi) et du thérapeute (The) [Delaherche and Chetouani, 2011a,b]. Le nombrede gestes réalisés par l'enfant ou le thérapeute sont des paramètres intéres-sants car ils permettent une caractérisation continue du degré de coordination(r = 0.9). Les durées de production verbale de l'enfant caractérisent correcte-ment les di�érents degrés de coordination (r = 0.68).

Tab. 2.1: Corrélation entre la sortie du classi�eur (probabilité) et le score d'éva-

luation du degré de coordination.

Caractéristique r

Gest_Chi_nb 0.9∗∗∗

Gest_The_nb 0.76∗∗∗

Spe_Chi_dur_range 0.68∗∗∗

Spe_Chi_dur_max 0.66∗∗

Spe_Chi_dur_std 0.65∗∗

Cor_Hands_win5_lag0_ratio 0.59∗∗

Spe_Chi_dur_mean 0.59∗∗

Spe_Pau_dur_ratio 0.58∗∗

Spe_Pau_dur_mean 0.58∗∗

Cor_Glob_win5_lag1_ratio 0.56∗∗

Spe_Pau_dur_med 0.56∗∗

Spe_Chi_dur_med 0.56∗∗

Coh_Post_win1_lag2_ratio 0.54∗

Spe_Chi_dur_ratio 0.51∗

Gest_The_pau_dur_range 0.44∗

Gest_The_pau_dur_max 0.44∗

∗ p<0.05∗∗ p<0.01∗∗∗ p<0.001

Les expérimentations reportées dans ce manuscrit et détaillées dans [De-

Page 101: "Traitement du signal social et robotique personnelle: Signaux actes ...

2.5. Discussion générale 87

laherche and Chetouani, 2011b] montrent qu'il est possible de prédire de ma-nière satisfaisante les di�érents degrés de coordination. Cette caractérisationdimensionnelle n'est cependant pas possible pour l'ensemble des paramètres :Gest_The_pau_dur_max = 0.44 (cf. table 2.1)

2.4.3 Limites des méthodes basées uniquement sur des

informations de bas-niveau

L'exploitation de signaux imposent la mise en ÷uvre d'un ensemble de trai-tements allant de la segmentation de la parole et du locuteur à l'estimationde quantité de mouvement. Dans la majorité des situations, les acquisitionssont réalisées dans des conditions précises. Même dans le cas de données spon-tanées (interaction thérapeute-enfant), le paradigme expérimental permet delimiter les déplacements des interactants et de ce fait autorise une prise devue unique. Le traitement de données non contrôlées, comme celles issues des�lms familiaux, par des méthodes de traitement du signal est une tâche com-plexe. L'introduction de capteurs de nouvelle génération, comme la Kinect,est une solution à prendre en considération. Nous travaillons d'ailleurs sur cepoint. La robotique, caractérisée par des capteurs mis en mouvement, o�redes perspectives intéressantes en permettant de focaliser la perception.

Le développement de méthodes automatiques d'analyse de comportementshumains reposent sur la caractérisation d'indices non-verbaux. La détectionmême de ces indices est problématique car ces indices sont distribués sur desmodalités di�érentes. Les modélisations intégratives doivent nécessairementprendre en compte la diversité des dynamiques temporelles de ces indices

La prédiction dans un espace dimensionnel de signaux sociaux est un dé�majeur du traitement du signal social. La méthode proposée est basée surun classi�eur discriminant (SVM) utilisé par la suite en régression. Une desperspectives de ce travail est de mettre en ÷uvre des méthodes d'apprentissageadaptées et réalisant une régression explicite [Nicolaou et al., 2011].

2.5 Discussion générale

Ce chapitre a permis d'apporter les bases à l'étude de la dynamique de lacommunication humaine. Les méthodes d'analyse proposées ont permis d'étu-dier la synchronie interactionnelle en exploitant des informations de bas ethaut-niveau. Nous avons discuté les avantages et les limites de chacune de cesapproches. Une méthode intermédiaire basée sur l'apprentissage d'un diction-naire de comportements, à partir des signaux échangés, semble pertinente.En e�et, exploiter directement les signaux autorise une caractérisation �ne et

Page 102: "Traitement du signal social et robotique personnelle: Signaux actes ...

88 Dynamique de la communication humaine

surtout la prise en compte de la nature des signaux.L'apprentissage de modèles re�étant la dynamique de la communication

humaine reste problématique du fait de la subjectivité des comportements.Cette problématique se retrouve, par exemple dans l'évaluation de la dépres-sion ou de la douleur. L'évaluation est généralement réalisée par des méthodessubjectives : recueil d'informations verbales auprès du patient, échelle visuelle,hétéro-évaluation... L'identi�cation de métriques de la subjectivité est un dé�majeur de l'analyse automatique de comportement humain. Les méthodesmises en ÷uvre doivent explicitement prendre en compte les scores de juge-ment [Chittaranjan et al., 2011].

Le cadre inter-disciplinaire de nos travaux de recherche contribue grande-ment à la compréhension et à l'analyse du rôle de la synchronie interaction-nelle. Ce cadre, que nous avons cherché à promouvoir, apporte des perspec-tives nouvelles pour les méthodes de traitement automatique. A l'instar dusocial learning [Meltzo� et al., 2009], une formalisation inter-disciplinaire dessignaux sociaux autoriserait une avancée importante dans un grand nombrede domaines allant du traitement du signal social aux sciences cognitives enpassant par la psychologie avec des applications importantes en clinique.

Page 103: "Traitement du signal social et robotique personnelle: Signaux actes ...

Chapitre 3

Intelligence sociale pour la

robotique personnelle

3.1 Contexte

Doter les robots "d'intelligence" est un des dé�s majeurs de la robotiquecognitive dont l'objet principal est de répondre à un certain nombre de ques-tions liées à la perception (e.g. reconnaissance d'objets), la localisation (e.g. oùsuis-je ?), la navigation (e.g. où aller ?), la manipulation (e.g. comment prendrecet objet ?), au contrôle / la plani�cation (e.g. que dois-je faire maintenant ?),l'apprentissage (e.g. puis-je mieux faire ?), à l'interaction (e.g. comment com-muniquer), etc... Investiguer ces questions fondamentales est nécessaire pourle développement de la robotique personnelle. Le septième programme-cadrede la communauté Européenne1 identi�e la robotique cognitive comme unaxe structurant de plusieurs domaines de recherche allant du signal à l'intel-ligence arti�cielle en passant par l'automatique, le contrôle, l'apprentissage...Ces recherches sont souvent menées dans un cadre inter-disciplinaire (e.g. neu-rosciences, sciences cognitives).

La diversité des travaux menés en robotique cognitive montrent les di�-cultés importantes à doter les systèmes d'autonomie et de fonctionnalités dehaut-niveau. Nos travaux en robotique cognitive se fondent sur la dé�nitionproposée par Simon Haykin : Cognitive Dynamic System. Il s'agit d'une gé-néralisation des modèles adaptatifs en traitement du signal. Simon Haykinpropose la dé�nition suivante : "A Cognitive Dynamic System is a system

that processes information over the course of time by performing the following

functions :

� Sense the environment ;

� Learn from the environment and adapt to its statistical variations ;

� Build a predictive model of prescribed aspects of the environment

� And thereby develop rules of behaviour for the execution of prescribed

tasks, in the face of environmental uncertainties, e�ciently and reliably

in a cost-e�ective manner."

1http://cordis.europa.eu/fp7/ict/cognition/home_en.html

Page 104: "Traitement du signal social et robotique personnelle: Signaux actes ...

90 Intelligence sociale pour la robotique personnelle

Les applications visées sont multiples : radio cognitive (e.g. allocation dy-namique de fréquence), recherche d'informations sémantiques... et la robotiquecognitive.

Les capacités requises pour le développement de systèmes cognitifs sont(1) la capture et la détection de signaux, (2) la perception (pertinence d'unereprésentation), (3) la plani�cation (prévoir et simuler le futur), (4) la décision(choisir une action) et (4) l'action (in�uencer le monde). On retrouve ainsi lesboucles traditionnelles de la robotique perception-(décision)-action.

Le robot a vocation à partager son espace, la tâche à réaliser et la décisionavec l'humain. Les di�érentes capacités du robot doivent être dé�nies avec laprise en compte explicite de la présence de l'humain dans la boucle interactive(e.g. perception, plani�cation, navigation...). Nos travaux se situent dans cecontexte et visent à doter les robots d'intelligence sociale tout en nous focali-sons sur l'aspect dynamique de l'interaction. L'intelligence sociale requiert lareconnaissance et la gestion de signaux sociaux (e.g. tour de parole, attentionmutuelle...). Cet axe de recherche se situe dans la prolongation de nos travauxsur la caractérisation de l'interaction sociale (Chapitres 1 et 2). La robotique,par son caractère contrôlable, o�re la possibilité de développer de nouvellesméthodes d'investigation [Meltzo� et al., 2010]. De plus, de par nos applica-tions en santé, notre ambition est de développer des systèmes interactifs pourl'assistance de personnes dé�cientes.

3.2 Dynamique de l'interaction Homme-Robot

Un des verrous majeurs de la robotique interactive est la prise en compteexplicite de l'humain dans la boucle interactive. La réalisation d'une tâcherepose sur la capacité des deux interactants (l'homme et le robot) à collaborer(e.g. partage de la décision) et à communiquer. Le degré de partage de latâche permet de di�érencier les approches utilisées en robotique interactive.La téléopération se caractérise par un faible degré de partage, les décisionssont prises par l'humain mais en contre-partie sa charge cognitive est ac-crue. La robotique autonome implique peu d'interventions de l'humain maisrequiert souvent une modélisation avancée de la tâche (perception, plani�ca-tion, contrôle). L'autonomie ajustable, qui autorise un transfert dynamique depouvoir de décision entre le robot et l'humain, o�re un cadre intéressant pourl'étude de la dynamique de l'interaction homme-robot. La réhabilitation phy-sique et la commande de drones sont des situations nécessitant une autonomieajustable.

La coopération se dé�nit comme une action simultanée dans un objectifcommun. La coordination entre les partenaires n'est pas une condition néces-

Page 105: "Traitement du signal social et robotique personnelle: Signaux actes ...

3.2. Dynamique de l'interaction Homme-Robot 91

saire à la réalisation d'une tâche. Chapitre 2, nous avons pu voir que la percep-tion du degré de coordination n'est pas liée au succès de la tâche. Klein et al.[2004] identi�ent 10 challenges pour le développement d'une équipe humain-agent : (1) établissement d'un contrat de base, (2) modélisation des actionset intentions des autres interactants, (3) prédictibilité des comportements, (4)directabilité (modi�cation des actions en fonction des informations reçues),(5) expression d'intentions et d'états internes par des signaux (e.g. comporte-ments, actions), (6) observation et interprétation de signaux, (7) négociationdes buts, (8) collaboration explicite dans les mécanismes d'autonomie et deplani�cation, (9) gestion de l'attention et (10) contrôle des coûts de la coordi-nation. Les axes de recherche proposés dans la littérature visent à traiter unou plusieurs de ces dé�s. Les approches proposées trouvent leurs fondementsdans la théorie de l'intention jointe, les plans partagés... Ces approches ontété appliquées avec succès en robotique interactive sur la base de modèles dedialogue et/ou de plani�cation [Rich et al., 2001; Clodic et al., 2009].

Une coopération e�cace, qui ne peut se faire sans communiquer et carac-tériser les signaux échangés, est un dé� majeur de la robotique interactive. Depar nos compétences en traitement du signal social, nous nous sommes inté-ressés à la détection d'événements et d'actions subjectifs requis pour le succèsd'une coopération. Ce chapitre présente nos contributions en robotique inter-active et, plus précisément, sur les mécanismes permettant d'engager et demaintenir des interactions en exploitant la caractérisation de signaux sociaux.Les sections suivantes précisent la nature des signaux sociaux étudiés ainsique la problématique liée à la caractérisation automatique de l'engagement.

3.2.1 Dé�nitions

L'engagement est dé�ni comme le processus qui permet à des partenairesd'établir, de maintenir et de mettre �n à des interactions [Sidner et al., 2004].Dans [Le Maitre and Chetouani, 2011], nous avons passé en revue les indicessociaux de l'engagement.

Le contact visuel (eye-contact) est généralement considéré comme le si-gnal social le plus révélateur du degré d'engagement dans la communication[Couture-Beil et al., 2010; Rich et al., 2010; Sidner et al., 2004; Castellanoet al., 2009; Ishii et al., 2011]. Une analyse détaillée du rôle du regard dansl'interaction est proposée dans [Kendon, 1967]. L'étude montre l'importancedu contexte dans l'interprétation de cet indice social (e.g. regard associé à laparole, regard pendant le tour de parole d'autrui...). Le contact visuel est unsignal prédicteur du changement de tour de parole [Nakano and Ishii, 2010;Ishii et al., 2011; Duncan, 1972; Goodwin, 1986], de l'attention [Argyle andCook, 1976], de l'agrément [Go�man, 1963]. Un travail intéressant, proposé

Page 106: "Traitement du signal social et robotique personnelle: Signaux actes ...

92 Intelligence sociale pour la robotique personnelle

par Shimada et al. [2011], montre l'intérêt du contact visuel dans l'acceptabi-lité des robots.

Peters et al. [2009] ont proposé un modèle de l'engagement basé sur uneboucle action-cognition-perception, qui permet de di�érencier plusieurs as-pects de l'engagement : perception (e.g. détection d'indices sociaux), cogni-tion (e.g. état interne : motivation), action (e.g. expression de l'intérêt). Unedimension subjective est introduite pour traduire l'expérience ressentie par lesindividus. L'engagement n'est pas un processus simple dont la caractérisation,la détection et la compréhension restent des problème ouverts et nécessairesà traiter pour la conception de robots interactifs.

3.2.2 Caractérisation automatique de l'engagement

Les mécanismes permettant d'établir une interaction sont multiples et dé-pendent du contexte. En complément à l'étude de la synchronie interaction-nelle, l'analyse et la caractérisation de l'engagement ont pour objectif le déve-loppement de systèmes robotiques dotés de capacités avancées de coopérationet de coordination autorisant ainsi d'envisager des interactions de longue durée(e.g. de quelques heures à plusieurs mois).

Problématique La di�culté de la caractérisation automatique de la direc-tion du regard motive la recherche d'autres indices sociaux. Go�man [1963] aproposé le concept de "face engagement" décrivant l'emploi du contact visuel,du regard et de la dynamique de la tête dans l'établissement et la régulationdes interactions. La détection automatique de l'engagement se traduit alorspar : (1) la détection de visage et (2) la classi�cation d'expressions facialesou de gestes de la tête. Plusieurs systèmes de détection de l'engagement sontainsi proposés dans la littérature [Mutlu et al., 2009; Rich et al., 2010; Ishiiet al., 2011].

D'autres indices peuvent être employés pour la caractérisation automa-tique de l'engagement. Castellano et al. [2009] ont proposé de combiner lecontact visuel et le sourire, dans un scénario de jeu, comme indicateur dudegré d'engagement. Cette caractérisation est enrichie par des informationscontextuelles comme l'état du jeu et le comportement du robot (expressionsfaciales). La posture et la quantité de mouvement [Sanghvi et al., 2011], laproxémie [Shi et al., 2011; Michalowski et al., 2006] sont autant d'indicesnon-verbaux pertinents dans la caractérisation du degré d'engagement. Mo-wer et al. [2007] ont proposé une voie alternative en exploitant des signauxphysiologiques (température et conductivité de la peau) dans l'estimation del'engagement à partir d'informations implicites.

Page 107: "Traitement du signal social et robotique personnelle: Signaux actes ...

3.2. Dynamique de l'interaction Homme-Robot 93

Positionnement La caractérisation de l'engagement est nécessaire à ungrand nombre de situation interactive. Ce besoin est accentué lors d'inter-action avec des personnes dé�cientes. L'engagement est également un témoinde la qualité de l'interaction exploitable pour l'amélioration des interfaces.

Nos travaux ont porté sur l'étude des signaux non-verbaux permettantd'établir et de réguler l'interaction :

� Détection de l'intention et de l'émotion du locuteur : La prosodie estconsidérée comme le support de l'intention et de l'émotion. Notre ap-proche de caractérisation a consisté à reprendre nos algorithmes de clas-si�cation du mamanais (parole adréssée à un bébé) et de les appliquer àla catégorisation de la parole adressée à un robot (robot-directed speech).

� Dynamique de l'engagement : Dans une expérience visant à dévelop-per des agents sensitifs, nous avons proposé l'introduction d'un modèledynamique de la communication permettant de soutenir l'échange designaux sociaux. Ce modèle statistique est inspiré de la communicationphatique.

� Caractérisation continue du degré d'engagement : Dans le cadre d'inter-action avec des personnes âgées, atteintes ou non de troubles cognitifs lé-gers, le robot a besoin de continuellement évaluer le degré d'engagementde son partenaire dans une tâche donnée. En s'inspirant des travaux liésà l'évaluation de la coopération homme-robot, nous avons introduit unemétrique de l'engagement pouvant être reliée à la charge cognitive del'utilisateur.

� Robotique d'assistance : Il s'agit de proposer des systèmes innovantspour l'aide au handicap en exploitant des signaux sociaux et notammentl'engagement. Nous avons également enrichi la caractérisation de l'étatde l'utilisateur par l'analyse de signaux physiologiques o�rant ainsi unevoie alternative d'interaction avec le robot.

Il est important de signaler que nos travaux sur la caractérisation de laparole a�ective (Chapitre 1) trouvent bien évidemment leur place dans larobotique interactive. Une partie de ces travaux sont actuellement portés surdes systèmes robotiques (projets FP7 MICHELANGELO et FUI PRAMAD2).Par souci de concision, nous ne présentons pas ces travaux qui, d'un point devue méthodologique, sont proches de ceux décrits Chapitre 1.

Les contributions, présentées dans ce chapitre, ont été réalisées dans lecadre de projets soutenus par l'ANR (TecSan'09 ROBADOM et dans unemoindre mesure ANR MIRAS) ou de collaborations (école d'été eNTERFA-CE'08, Action Européenne COST 2102). Les méthodes décrites sont, pour laplupart, intégrées dans des systèmes robotiques d'assistance et testées dansdes conditions naturelles : interaction avec des patients atteints de di�érentespathologies, mise en ÷uvre dans des services cliniques.

Page 108: "Traitement du signal social et robotique personnelle: Signaux actes ...

94 Intelligence sociale pour la robotique personnelle

3.3 Supports non-verbaux de la dynamique

d'une interaction

3.3.1 Communication phatique

La dynamique est nécessaire à toute communication tout en étant un té-moin de la qualité de l'interaction (chapitre 2). Cette dynamique n'est que trèspeu présente dans les systèmes robotiques entraînant des interactions souventconsidérées comme laborieuses. Le manque d'expressivité des intentions et/ouétats internes du robot est une des causes majeures de la rupture de la boucleinteractive.

La boucle interactive est entretenue par la communication phatique peut-être verbale ou non-verbale : vocalisations (e.g. "hum-hum", oui), reformula-tions ou demandes de clari�cation, mouvements de tête (e.g. hochement),gestes, mimiques faciales (e.g. sourire), regard... On parle alors de "back-

channel" [Allwood et al., 1992] par opposition au"main-channel" qui faitl'objet de la plupart des e�orts de recherche en robotique interactive. La dyna-mique crée par la production de "back-channel" par l'auditeur est di�érentede celle des tours de parole. En e�et, les "back-channel" visent à soutenirl'émetteur dans la transmission du message.

La génération automatique et e�cace de signaux multi-modaux de "back-channel", généralement associée à des systèmes de dialogue, est une étape re-quise pour le déploiement d'agents (virtuels ou robots) communicants [Wredeet al., 2010; Morency, 2010; Schroder et al., 2011; Vinciarelli et al., 2011].

3.3.2 Modélisation de la communication

Les travaux présentés dans cette section ont été réalisés pendant l'écoled'été eNTERFACE'082. J'ai été le principal investigateur du projet "Mu-litmodal Communication with Robots and Virtual Agents" avec comme co-investigateurs : Thierry Dutoit (Université de Mons, Belgique), Jean-ClaudeMartin (LIMSI) et Catherine Pelachaud (Institut Telecom). Le principe decette école est réunir autour d'un projet des chercheurs con�rmés et desétudiants venant de plusieurs universités sur une durée de 4 semaines. J'aidonc eu l'occasion de co-encadrer plusieurs étudiants : Samer Al Moubayed(KTH), Malek Baklouti (Thales), Ammar Mahdhaoui (UPMC), Stanislav On-das (Technical University of Kosice, Slovaquie), Jérôme Urbain (Mons) et Yil-maz Mehmet (Koc University, Turquie).

2http://enterface08.limsi.fr/static/projects/7/e08-project7.pdf

Page 109: "Traitement du signal social et robotique personnelle: Signaux actes ...

3.3. Supports non-verbaux de la dynamique d'une interaction 95

Description du projet

Nous avons opté pour un cadre expérimental initialement dé�ni pour étu-dier la communication humaine [McNeill, 1992] : quasi-monologue d'un lo-cuteur racontant une histoire et un auditeur exprimant son engagement pardes indices non-verbaux. Nous avons proposé de développer une plateformecommune à des agents virtuels et des robots permettant la régulation de l'in-teraction. Le robot (ou l'agent) analyse des signaux de communication : pro-sodie, geste, expression faciale (sourire) et tactile. Après interprétation de cessignaux, le robot/agent doit être capable de produire des signaux non-verbauxpour exprimer son engagement dans l'interaction ("back-channel").

L'application visée est le développement d'un auditeur sensitif (active lis-tening) : l'humain raconte une histoire et le robot est capable de montrer sonintérêt et son engagement pendant le récit (a�n de ne pas rompre la boucleinteractive).Une base de données a été collectée dans di�érentes langues (an-glais, arabe, français, slovaque et turque). L'annotation s'est focalisée sur cer-tains signaux sociaux : sourire, gestuelle de la tête (hochement), proéminenceacoustique (changement rapide de la voix pendant le discours). La base dedonnées est décrite dans [Al Moubayed et al., 2009].

Modélisation statistique de l'interaction

La démarche suivie est similaire à celle proposée section 2.3. A partir del'annotation de situations interactives (humain-humain), nous avons estimédes modèles bi-gramme permettant d'identi�er des structures de l'interaction :

"If some signal (eg. head-nod | pause | pitch accent) is received, then the

listener sends some feedback_signal with probability X."

Certaines de ces structures on été étudiées dans la littérature [Ward andTsukahara, 2000; Maatman et al., 2005]. Notre approche a consisté à con�rmerla présence de ces structures dans nos modèles par signi�cativité d'un n-gramdonné. Une autre contribution a consisté à proposer de nouvelles structuresgérant la multi-modalité :

� Mono-modal signal⇒mono-modal feedback : head_nod is received, thenthe listener sends head_nod_medium.

� Mono-modal signal⇒ multi-modal feedback : smile is received, then the

listener sends head_nod and smile.� Multi-modal signal ⇒ mono-modal feedback : head_activity_high and

pitch_prominence are received, then the listener sends head_nod_fast.� Multi-modal signal ⇒ multi-modal feedback : pitch_prominence and

smile are received, then the listener sends head_nod and smile.Les n-grammes autorisent une modélisation guidée par les données. Notresystème de prédiction apprend les séquences d'événements produits par le

Page 110: "Traitement du signal social et robotique personnelle: Signaux actes ...

96 Intelligence sociale pour la robotique personnelle

locuteur (e.g. head_activity_high and pitch_prominence) amenant l'auditeurà émettre un "back-channel". Comme nous l'avons signalé chapitre 2, unedes limites de cette approche réside dans sa dépendance à l'annotation (choixdes étiquettes et qualité de l'annotation). Pour traiter de ce problème dans lecadre de la modélisation de l'interaction de la dynamique des "back-channels",il est possible d'exploiter des méthodes d'adaptation non-supervisée de n-grammes (adaptation en ligne au comportement du partenaire humain). Parailleurs, une méthode intégrative permettrait de mieux quali�er l'importancedes comportements (section 2.3)

Détection automatique de signaux sociaux

Les signaux sociaux étudiés sont le sourire, la quantité de mouvementde la tête, la gestuelle de la tête (e.g. "head_nod, head_shake") ainsi quela proéminence acoustique. La détection des indices extraits du visage a étéréalisée par Malek Baklouti (Thales) sous mon encadrement. Les techniquesmises en ÷uvre font appel à la détection et le suivi de points caractéristiquesdu visage [Al Moubayed et al., 2009]. Un détecteur d'activité vocale, adaptéau contexte temps-réel, a également été développé pour la caractérisationdes pauses. Dans ce manuscrit, nous ne revenons que sur la détection deproéminence dé�nie comme un changement brusque du rythme de la parole.Cette rupture du rythme de narration nécessite l'attention de l'auditeur sousla forme d'un feedback. La détection de ces événements repose sur la distancede Hotelling (cf. section 1.4.2, équation 1.17). Une modèlisation gaussienne desparamètres prosodiques du locuteur, estimée en ligne, autorise une détectionindividualisée d'événements prosodiques proéminents [Al Moubayed et al.,2009].

Les algorithmes développés durant l'école d'été ont été mis à la disposi-tion de la communauté scienti�que. Dans le cadre d'une collaboration avecles partenaires du projet Emotirob3, coordonné par Dominique Duhaut (Uni-versité de Bretagne Sud), Sébastien Saint-Aimé a pu intégrer la détection deproéminence dans son système d'interaction Homme-Robot.

Génération de signaux non-verbaux

Le principe du modèle de génération de signaux non-verbaux est décrit�gure 3.1. La prédiction de "back-channel" repose sur les modèles de Markovcachés préalablement appris sur la base de données humain-humain. Les pro-babilités émises par les modèles sont analysées (e.g. lissage temporel) a�n deprendre une décision discrète sur le type de "back-channel" à émettre. Une

3http://www-valoria.univ-ubs.fr/emotirob/

Page 111: "Traitement du signal social et robotique personnelle: Signaux actes ...

3.4. Caractérisation du degré d'engagement 97

fois la décision prise, l'algorithme désactive l'ensemble des modèles, pendantquelques secondes, a�n de ne pas générer plusieurs "back-channels".

L'architecture mise en ÷uvre est indépendante de la plateforme interactive(e.g. Aibo, GRETA). La �exibilité de notre architecture repose sur la transmis-sion aux agents (robotique ou virtuel) des informations de haut-niveau décritesvia le langage de contrôle BML (Behavior Markup Language) [Vilhjálmssonet al., 2007]. Nous avons, pour cela dé�ni, des comportements réactifs (e.g.mouvement de tête) adaptés à chaque plateforme. Son évaluation est décritedans [Al Moubayed et al., 2009]. A noter que la �exibilité de notre architecturea permis un déploiement rapide sur plusieurs plateformes (Aibo, Emotirob)pendant l'exposition "Villes Européennes des Sciences" en Novembre 2008 auGrand Palais (Paris).

Fig. 3.1: Principe du modèle de génération de feedback non-verbaux

3.4 Caractérisation du degré d'engagement

3.4.1 Détection de l'interlocuteur

Une étape importante du développement d'un système interactif est l'iden-ti�cation de l'interlocuteur. La détection de visage et/ou la localisation desources sonores sont les stratégies généralement suivies. Nous avons déve-loppé, dans le cadre du projet ANR ROBADOM, un algorithme de détectionde l'interlocuteur exploitant la synchronie audio-visuelle. Le principe de la dé-tection, décrit �gure 3.2, repose sur la (1) détection de partenaires potentiels("on-view") et (2) la détection de visage parlant par corrélation des caracté-ristiques audiovisuelles (MFCC et DCT de la zone de la bouche)("on-talk").

Page 112: "Traitement du signal social et robotique personnelle: Signaux actes ...

98 Intelligence sociale pour la robotique personnelle

Un suivi de l'interlocuteur par �ltrage particulaire permet de garder le contactavec l'interlocuteur [Chetouani et al., 2010] (cf. �gure 3.3).

Approach• We propose to automatically characterize «on-view» and «on-talk»

states

• This strategy requires:

• Detection of all potential partners

• Multi-modal fusion with audio features

Potential partners detection

On-talk detection Addressee detectionVideo

Audio

mardi 5 juillet 2011

(a) Détection de l'interlocuteur

(b) Exemple de détection

Fig. 3.2: Principe de détection de l'interlocuteur : on-view + on-talk

La détection de l'interlocuteur basée sur la cascade "on-view vs o�-view"

puis "on-talk vs o�-talk" est souvent trop simpliste. Il est en e�et possiblede dialoguer avec un interlocuteur non-visible et inversement de voir un in-dividu sans intention d'entreprendre une interaction. Modéliser la dynamiquedes états "on-view vs o�-view" et "on-talk vs o�-talk" est requis. Oppermannet al. [2001] soulignent l'importance de la détection du registre "o�-talk" pourl'amélioration des performances des systèmes de reconnaissance de la parole,pertinence du dialogue... Cependant sa détection n'est pas une tâche aisée.Par exemple, lorsqu'un interlocuteur se met à lire des instructions, les infor-mations lexicales s'avèrent non discriminantes. Le contexte permet de leverles ambiguïtés de détection [Batliner et al., 2007; Lunsford et al., 2005].

Par exemple, dans la situation interactive du projet ROBADOM, décrite�gure 3.4, le patient change continuellement d'interlocuteur : ordinateur (exer-cice de stimulation cognitive), robot. Cependant, ce changement d'interlocu-teur ne traduit pas nécessairement un désengagement de la tâche.

Les utilisateurs du dispositif expérimental de stimulation cognitive sont despatients atteints de troubles cognitifs légers (Mild Cognitive Impairments). Lastimulation cognitive est identi�ée comme une des méthodologies permettant

Page 113: "Traitement du signal social et robotique personnelle: Signaux actes ...

3.4. Caractérisation du degré d'engagement 99

Fig. 3.3: Maintien du contact visuel : Implementation sur le robot Jazz

Fig. 3.4: Situation triadique : cas de l'interaction patient - exercice de stimulation

- thérapeute/robot (projet ROBADOM [Chetouani et al., 2010])

d'atténuer le déclin, chez les personnes âgées, de certaines fonctions cognitives(e.g. mémoire, attention)[Yanguas et al., 2008]. La diminution de l'attention etl'augmentation de la charge cognitive ont pour conséquence de réduire le de-gré d'engagement du patient dans les exercices de stimulation cognitive. Suiteà l'étude de ces situations interactives, sous la forme de dialogue (magiciend'Oz), nous avons constaté une augmentation d'auto-verbalisations (self-talk)des patients atteints de troubles cognitifs légers. Ce dialogue interne est consi-déré comme un indicateur du degré d'engagement du patient dans la tâche.

Un des dé�s de la robotique sociale est de proposer des systèmes interactifscapables d'évaluer le degré d'engagement et de proposer des actions (verbaleset/ou non-verbales) permettant d'améliorer l'engagement. La section suivanteprésente nos contributions dans la caractérisation de l'engagement via le self-talk.

Page 114: "Traitement du signal social et robotique personnelle: Signaux actes ...

100 Intelligence sociale pour la robotique personnelle

3.4.2 Du self-talk à une métrique de l'engagement

Le self-talk est un dialogue interne ou parole privée (self-directed speech)[Diaz and Berk, 1992]. Il se di�érencie de la parole adressée directement à l'in-terlocuteur, en l'occurrence le robot ou l'ordinateur, que l'on quali�e de parolesociale car explicitement adressée à autrui (system/robot directed speech).Le self-talk est un indicateur de l'auto-régulation de comportements due àla tâche (di�cultés et performances) [Lunsford et al., 2005; Fernyhough andFradley, 2005; Vygotsky, 1986]. Lunsford et al. [2005] ont étudié les indices au-diovisuels du self-talk et concluent par l'importance des informations contex-tuelles (e.g. regard, activité de l'utilisateur).

Dans le cadre de la thèse de Jade Le Maitre, nous avons proposé d'évaluer ledegré d'engagement des personnes âgées dans des situations interactives par lacaractérisation du self-talk [Le Maitre and Chetouani, 2011]. Les applicationsvisées sont la conception d'interfaces dotées d'intelligence sociale autorisantainsi une amélioration de l'acceptabilité des systèmes d'assistance (en colla-boration avec le laboratoire LUSAGE, AP-HP Broca, dirigé par Anne-SophieRigaud). Les investigations sur les comportements d'auto-régulation o�rentde nouvelles perspectives de compréhension des stratégies individuelles d'in-teraction.

Corpus audiovisuel

Un corpus audiovisuel a été constitué sur la base du protocole de stimu-lation cognitive (cf. �gure 3.4). La constitution de ce corpus a été réalisée ausein du service de Gérontologie de l'Hôpital Broca avec des patients âgés de66 à 88 ans dont certains sont atteints de troubles cognitifs légers.

Le corpus est décrit dans [Le Maitre and Chetouani, 2011]. L'annotationest audiovisuelle et reprend le protocole dé�ni dans [Lunsford et al., 2005]consistant à analyser le regard et la production verbale de l'utilisateur. Letableau décrit la distribution des productions verbales selon les 8 patients.La durée des productions varie de 1 à 2.5s. Il est également intéressant denoter que, pour une même tâche de dialogue, les patients ont des stratégiestrès di�érentes : quantité de verbalisation, ratio entre les registres de parole.Les patients MCI (3 et 7) produisent plus d'auto-verbalisations. Nous avonsproposé d'évaluer automatiquement les stratégies individuelles des patientsa�n d'estimer un degré d'engagement dans la tâche.

Détection du self-talk

Hacker et al. [2006] ont montré la pertinence d'une caractérisation pro-sodique pour la discrimination entre les registres on-talk et o�-talk. De plus,

Page 115: "Traitement du signal social et robotique personnelle: Signaux actes ...

3.4. Caractérisation du degré d'engagement 101

Tab. 3.1: Quantité d'auto-verbalisation et de parole adressée au système

Patients 1 2 3 4 5 6 7 8 Total

Self-Talk 10 1 106 14 30 37 58 49 315

System Directed Speech 19 7 85 2 6 20 37 55 231

notre expérience dans la caractérisation de registre de parole adressée à unbébé (infant-directed speech) (section 1.4) ou un robot montre que la proso-die joue un rôle fondamental dans l'expression de ces actes de dialogue. Nousavons opté le pour une caractérisation du rythme : analyse basse fréquencede l'enveloppe rythmique (cf. section 1.4). La caractérisation rythmique estmotivée (1) par l'analyse des registres de parole recueillis (on-talk et self-talk)et (2) par les résultats obtenus par [Hacker et al., 2006] montrant l'importancede la durée dans la distinction entre ces deux registres de parole.

Le tableau 3.2 présente les résultats obtenus. Parmi les résultats impor-tants, on notera que la caractérisation de l'énergie du signal est plus discrimi-nante que celle de la fréquence fondamentale (pitch). La raison principale decette di�érence réside dans le fait que le self-talk est produit pour soi-mêmeet donc avec une énergie souvent plus faible. Le rythme apporte un gain nonnégligeable et notamment lorsqu'il est associé au classi�eur SVM (cf. table3.2). Les scores obtenus avec cette dernière con�guration permettent d'envi-sager l'utilisation de la détection automatique du self-talk dans un systèmed'évaluation de l'engagement.

Tab. 3.2: Scores de reconnaissance (10 folds cross-validation)

Caractéristiques Decision Tree k-NN SVM

Pitch 49.8% 53.35% 52.16%

Energie 55.54 54.29% 59.51%

Rythme 52.78% 56.58% 56.97%

Pitch 57.42% 59.28% 64.31%

+ Energie

Pitch 55.46% 58.20% 71.62%

+ Energie

+ Rythme

Métrique de l'engagement

La �gure 3.5 décrit le principe de l'évaluation du niveau d'engagementdans la tâche de dialogue (cf. �gure 3.4). Notre approche exploite le fait quela production self-talk est un indicateur de la charge cognitive du patient.

Page 116: "Traitement du signal social et robotique personnelle: Signaux actes ...

102 Intelligence sociale pour la robotique personnelle

Fig. 3.5: Description du système proposé pour l'évaluation du degré d'engagement

En nous inspirant des travaux de [Olsen and Goodrich, 2003] sur les mé-triques en interaction Homme-Robot, nous avons proposé dans [Le Maitreand Chetouani, 2011] de caractériser "l'e�ort d'interaction" de l'humain (IE :Interaction E�ort). L'IE est une mesure sans unité traduisant l'e�ort consa-cré par l'utilisateur à l'interaction. L'estimation de la mesure n'est pas aiséecar elle requiert des techniques avancées d'évaluation de l'interaction e�ective(e.g. eye-tracker et/ou activité cérébrale). L'originalité de notre travail estde considérer (1) la parole adressée au robot (on-talk) associée à un contactvisuel (on-view) comme une interaction e�ective et (2) la production de self-talk comme un indicateur de la charge cognitive liée à la di�culté de la tâche.L'estimation de l'e�ort d'interaction est donnée par :

IE =SDS

SDS + ST(3.1)

Avec SDS la durée de parole adressée au robot et ST la durée des auto-verbalisations (self-talk).

Le numérateur caractérise l'interaction e�ective alors que le numérateurest un indicateur de la production verbale de l'utilisateur. IE est une mesuresans unité (0 ≤ IE ≤ 1). Une interaction sera considérée comme e�cace si ellene nécessite pas de comportements d'auto-régulation (IE ≈ 1). L'IE permetde mesurer la qualité de l'interaction que nous quali�ons, au moins pour cettetâche, comme une indication du degré d'engagement du patient. Les compor-tements d'auto-régulation permettent, dans certains cas, aux patients d'amé-liorer leurs performances [Fernyhough and Fradley, 2005; Vygotsky, 1986].

Nous avons étudié le degré d'engagement de plusieurs personnes âgées dansla tâche triadique (cf. �gure 3.4). Nous présentons table 3.3 les résultats decette expérience selon une annotation manuelle et une détection automatiquedu self-talk. La mesure IE traduit le niveau d'engagement des patients dansla tâche. Par exemple, les patients 4 et 5 n'ont que très peu interagis avec lerobot tout en présentant de nombreux comportements d'auto-régulation (cf.tableau 3.1). Il en résulte un degré d'engagement très faible (≤ 0.2).

Les di�érences relevées entre l'annotation manuelle et la détection de self-

Page 117: "Traitement du signal social et robotique personnelle: Signaux actes ...

3.5. Robotique d'assistance 103

talk sont dues (1) aux performances obtenues par le détecteur de self-talk

(table 3.2) et (2) à la détection automatique de l'activité vocale qui, malgréson adaptation au contexte robotique [Al Moubayed et al., 2009], s'avère nonsu�samment performante dans la détection de sons à énergie très variable.Néanmoins, nous retrouvons les mêmes tendances à savoir une valeur élevéede la mesure IE pour un engagement important. De par la dé�nition de lamétrique IE (équation 3.1), le nombre de verbalisation impacte directementl'estimation : plus il est faible moins bonne est l'estimation du degré d'enga-gement (sous-estimation pour le patient 4). La métrique IE n'a pas vocationà être une mesure générique de l'engagement. Elle est uniquement adaptée àdes situations de dialogue avec des personnes âgées.

Nous pouvons, cependant, noter que la métrique IE permet d'obtenir destendances qui s'avèrent utiles pour la compréhension des comportements in-dividuels. Ces niveaux d'engagement seront par la suite utilisés pour la modi-�cation du comportement du robot : production de comportements verbauxet/ou non-verbaux. Cette étape est actuellement étudiée avec les partenairesdu projet ROBADOM.

Tab. 3.3: Estimation de l'e�ort d'interaction (degré d'engagement)

Patients 1 2 3 4 5 6 7 8

Annotation 0.5 0.83 0.45 0.13 0.20 0.43 0.42 0.57

Détection du Self-talk 0.62 0.78 0.53 0.08 0.26 0.46 0.38 0.63

3.5 Robotique d'assistance

Nos contributions en intelligence sociale s'appuient sur des domaines d'ap-plication liées à l'assistance de personnes dé�cientes, fournissant ainsi un ter-rain d'expérimentation riche pour le développement de nouveaux modèlesd'interaction. Une autre motivation de ce champ d'application est l'impactsociétal, pressenti ou avéré, de la robotique d'assistance [Feil-Seifer and Ma-taric, 2005; Tapus et al., 2007; Broekens et al., 2009].

Les sections suivantes illustrent quelques réalisations et expérimentationsmenées dans des projets collaboratifs visant à développer des robots d'assis-tance.

3.5.1 Interface multi-modale

Les sections 3.5 et 3.4 ont souligné l'importance de la caractérisation designaux sociaux pour l'établissement, le maintien et d'évaluation de l'engage-ment dans une tâche donnée. Dans le cadre de la robotique d'assistance pour

Page 118: "Traitement du signal social et robotique personnelle: Signaux actes ...

104 Intelligence sociale pour la robotique personnelle

des personnes âgées, il est primordial de prendre en compte le déclin cognitifqui concerne l'attention, de la mémoire, etc. ... Ce déclin a�ecte l'engagementdans des tâches complexes. Les robots sociaux ont vocation à aider les patientsen proposant des encouragements, indications, etc. ... [Tapus et al., 2007]. Etl'optimisation des signaux échangés (nature et dynamique) est indispensablepour l'amélioration de l'acceptabilité et de l'e�et des robots d'assistance.

Dans le cadre d'une collaboration avec la société Robosoft, formalisée sousla forme d'un co-encadrement de la thèse de Consuelo Granata, nous avonsproposé d'améliorer l'engagement des personnes âgées dans des tâches inter-actives via la conception d'une nouvelle interface multi-modale. Le principede l'interface est décrit �gure 3.6(a). Notre idée repose sur l'exploitation dela cross-modalité : support visuel du �ux audio. Dans [Granata et al., 2010],nous avons proposé un système permettant à l'utilisateur d'interagir soit avecla parole soit avec l'écran tactile. La synthèse de la parole est associée à untexte ou à une représentation graphique créant ainsi un support visuel dumessage. Une étude a permis d'identi�er et d'évaluer les préférences des uti-lisateurs âgés atteints ou non de troubles cognitifs légers. Le système déployépar la société Robosoft sur des robots de service est présenté �gure 3.6(b).

(a) Support visuel de la modalité auditive (b) Exemple d'interface

Fig. 3.6: Principe de l'interface multi-modale déployée dans un robot de service

pour personnes âgées

3.5.2 Engagement dans une interaction physique

L'engagement dans une tâche ne se caractérise pas seulement par des si-gnaux verbaux et non-verbaux. Plusieurs situations interactives, impliquantdes patients (le plus souvent âgés), nécessitent l'analyse d'indices implicites del'engagement : double tâche (charge cognitive), pathologies rendant la com-munication di�cile ou impossible (e.g. stades avancées d'Alzheimer)... Mower

Page 119: "Traitement du signal social et robotique personnelle: Signaux actes ...

3.5. Robotique d'assistance 105

et al. [2007] exploitent des signaux physiologiques (conductivité de la peau)pour prédire l'intention des utilisateurs de mettre �n à un exercice.

Un des intérêts de la robotique est d'o�rir une interface à la fois cognitiveet physique. Il est ainsi possible, via une interaction physique (e.g. toucher,manipulation), d'interagir avec le robot. Dans le cadre du co-encadrementde la thèse de Cong Zong avec Xavier Clady, nous avons travaillé sur l'esti-mation de l'état d'un patient manipulant un déambulateur robotisé (�gure3.7(a)) (Projet ANR MIRAS). L'idée étant de percevoir, de manière continue,les déplacements et les intentions de l'utilisateur via la mesure de signauxphysiologiques (e.g. rythme cardiaque) et de la dynamique de la marche.

Le degré d'engagement d'un patient manipulant un déambulateur est es-timé par l'indice de coût physiologique de la marche (ICP, Physiological CostIndex). L'ICP est un outil simple et couramment utilisé en clinique, non invasifet fonctionnel pour mesurer l'énergie dépensée pendant la marche. Il consisteà mesurer la variation de la fréquence cardiaque au repos et après un testde marche rapportée à la vitesse du déplacement. À l'aide des capteurs quiseront installés sur le robot, nous pourrons mesurer et analyser en temps réel,l'indice de coût physiologique de la marche. Cependant plusieurs di�cultésont été identi�ées :

� La variation de la fréquence cardiaque chez le sujet âgé est très impor-tante et aura pour conséquence de limiter l'interprétation et la robustessede l'analyse par l'ICP.

� L'ICP est calibré pour un test de marche standard sur une distance �xequi n'est pas forcément compatible avec l'utilisation non contrainte d'undéambulateur.

Le caractère intégratif de la robotique impose de traiter en parallèle lesproblématiques. Nous avons développé un système de caractérisation non-linéaire et adaptative de signaux physiologiques. La caractérisation des phasesde la marche, pendant la manipulation du déambulateur, est une étape requisepour l'estimation de l'indice de coût physiologique. Ces travaux s'inscriventdans le développement de systèmes d'aide à la mobilité : Personal Aids forMobility [Lacey and MacNamara, 2000; Spenko and Dubowsky, 2006]. L'enjeuétant de doter ces robots de fonctionnalité avancée de perception de l'humain(incluant l'état physiologique) a�n de proposer un ensemble de service : aideà la navigation, monitoring physiologique...

3.5.2.1 Signaux physiologiques

Les signaux physiologiques permettent d'accéder à l'état interne de l'uti-lisateur et sont des indicateurs de son engagement [Mower et al., 2007] et deson état émotionnel [Kim and André, 2008]. De par la nature très hétérogène

Page 120: "Traitement du signal social et robotique personnelle: Signaux actes ...

106 Intelligence sociale pour la robotique personnelle

(a) Déambulateur robotisé (b) Plateforme d'acquisi-

tion

(c) Exemple de synthèse

Fig. 3.7: Illustrations de travaux exploitant des signaux physiologiques

des signaux (�gure 3.8), les traitements appliqués à ces signaux font souventappel à des méthodes avancées de traitement du signal. L'originalité de notreapproche est d'exploiter les composantes rythmiques des signaux physiolo-giques [Cong and Chetouani, 2009]. La caractérisation du rythme basée sur latransformée d'Hilbert-Huang (THH) (section 1.4.2) a été adaptée au traite-ment de signaux physiologiques. La décomposition modale empirique (EMD :Empirical Mode Decomposition) décompose le signal physiologique en compo-santes modulées en amplitude et fréquence (modes intrinsèques IMF). Notreapproche a consisté à exploiter cette décomposition adaptative et non-linéairepour la détection de composantes oscillantes induites par les émotions. Cetteapproche introduit une étape de �ssion dans les traitements (�gure 3.8).

Fig. 3.8: Caractérisation de signaux physiologiques basée sur la �ssion de données

Page 121: "Traitement du signal social et robotique personnelle: Signaux actes ...

3.5. Robotique d'assistance 107

Dans [Cong and Chetouani, 2009], nous présentons un système de classi-�cation exploitant la �ssion des signaux physiologiques : rythme cardiaque,respiration, conductivité de la peau et l'activité électrique des muscles. Nousavons exploité la base de données de l'Université d'Augsburg [Kim and An-dré, 2008]. Les résultats de classi�cation par SVM sont présentés table 3.4.Le système baseline exploite des statistiques appliquées directement aux si-gnaux physiologiques [Kim and André, 2008]. L'approche fusion consiste àestimer une fréquence moyenne du signal à partir de l'ensemble des modesintrinsèques. L'approche �ssion sélectionne les modes pertinents à la recon-naissance d'émotions. Cette dernière approche obtient le meilleur score touten permettant une réduction de la dimension du vecteur caractéristique (cf.table 3.4).

La base de données de l'Université d'Augsburg [Kim and André, 2008]o�re un cadre limité et surtout di�érent des applications visées (personnesâgées manipulant un déambulateur). La �nalisation de la conception du robot-déambulateur (�gure 3.7(a)) permettra d'inclure les capteurs nécessaires àl'acquisition de signaux physiologiques : rythme cardiaque et conductivitéde la peau (mesures par contact). La société Robosoft est en charge de laconception de ce dispositif et devrait être disponible pour la �n de la thèse deCong Zong (printemps 2012).

Tab. 3.4: Scores de classi�cation à partir de quatre signaux physiologiques

BaselineHHT-based

Approche 'Fission' Approche 'Fusion'

(32 paramètres) (28 param.) (24 param.)

Exploitation de71% 76% 62%

quatre signaux

3.5.2.2 Caractérisation de la marche

La marche se décompose en quatre phases : (1) tonus postural, (2) ini-tiation du premier pas, (3) mouvement et (4) terminaison. Le dispositif misen ÷uvre, capteurs infra-rouge (IR) positionnés au niveau des jambes du pa-tient (cf. �gure 3.7(b)), a pour objectif la caractérisation des phases d'appui(stance) et oscillante (swing) de la marche.

Six patients âgés de 77 à 90 ans, atteints de di�érents troubles physiques(incluant des chuteurs), ont utilisé le déambulateur équipé du dispositif demesure [Cong et al., 2010] (Hôpitaux Charles-Foix et Henri Mondor). Nousavons évalué les performances de caractérisation lors d'un test de marche de10m. Les résultats, présentés table 3.5, sont en cohérence avec ceux obtenus

Page 122: "Traitement du signal social et robotique personnelle: Signaux actes ...

108 Intelligence sociale pour la robotique personnelle

avec un accéléromètre (capteur largement utilisé pour la caractérisation de lamarche).

Tab. 3.5: Estimation de paramètres temporels de la marche

Patients 1 2 3 4 5 6

Stance time (s)1.09 1.03 0.55 1.84 1.31 1.12

(68%) (70%) (65%) (78%) (67%) (68%)

Swing time (s)0.52 0.43 0.30 0.53 0.65 0.53

(32%) (30%) (35%) (22%) (33%) (32%)

Cadence (steps/min) 74.7 83.5 142.8 50.7 61.2 72.1

La caractérisation de la marche durant une utilisation quotidienne du dé-ambulateur requiert de segmenter les phases de marche homogène. L'enjeuétant de décomposer les utilisations en action élémentaire. La caractérisationde la marche, pendant ces actions élémentaires, combinée à la caractérisationde signaux physiologiques ouvrent la voie à l'estimation de l'indice de coûtphysiologique. Dans [Cong et al., 2010], nous avons présenté un algorithmede segmentation de signaux issus des capteurs IR. L'algorithme compare desfenêtres adjacentes par des métriques de similarité (rapport de vraisemblancegénéralisé (GLR) et la divergence de Kullback-Leibler). Dans une tâche dedétection de changement de vitesse, l'utilisation de capteurs IR s'avère moinsperformante que l'accéléromètre. Ce dernier est directement porté par le pa-tient permettant une caractérisation plus �dèle des mouvements.

Une approche basée modèle a été proposée, en collaboration avec XavierClady et Philippe Bidaud, dans le cadre de la thèse de Cong Zong. L'idée re-pose sur l'estimation des paramètres du modèle Human36 [Wieber et al., 2008].La capture du mouvement (Codamotion) permet de reconstruire parfaitementce modèle et de l'utiliser par la suite dans la prédiction de la trajectoire ducentre de masse qui est un indicateur de la stabilité de l'humain pendant lamarche (cf. �gure 3.9). La position des jambes, estimée par les capteurs IR, estcombinée à une modélisation des membres supérieurs par une caméra 3D (cf.�gure 3.7(b)). Un exemple de synthèse du modèle par le système de captureembarqué est présenté �gure 3.7(c). La méthode mise en ÷uvre permet d'ob-tenir une prédiction de la trajectoire du centre de masse. Comme le montre la�gure 3.9, les caractéristiques du cycle de la marche sont conservées : rythmeet complexité [Cong et al., 2011]. L'approche basée modèle permet d'accéderplus �nement à la dynamique de la marche.

Page 123: "Traitement du signal social et robotique personnelle: Signaux actes ...

3.6. Discussion générale 109

Fig. 3.9: Trajectoire du centre de masse

3.6 Discussion générale

Nos contributions en intelligence sociale pour la robotique personnelleconcernent l'estimation de l'intention et de l'engagement de l'utilisateur. Lestravaux présentés dans ce chapitre concernent la caractérisation de ces actessociaux en exploitant des signaux multi-modaux (parole, visage, geste, signauxphysiologiques et marche). Cette caractérisation s'appuie sur des modèles dé-veloppés dans le contexte de l'analyse du signal de parole (Chapitre 1) et dela dynamique de la communication (Chapitre 2).

L'engagement est un phénomène complexe impliquant des signaux de com-munication, l'empathie, les liens sociaux... Il est considéré comme un indica-teur du déroulement de l'interaction. Les di�cultés rencontrées dans sa carac-térisation sont le re�et de ses diverses formes de manifestation : de l'acte dedialogue à la synchronie en passant par des signaux implicites (e.g. signauxphysiologiques).

En robotique interactive, nous pouvons identi�er trois grands champs àtraiter pour la conception de robots personnels dotés d'intelligence sociale :(1) la caractérisation d'indices verbaux et non-verbaux de l'engagement, (2)la génération de comportements du robot exprimant l'engagement, et (3) l'ap-prentissage de modèles de la dynamique de l'interaction. La dé�nition d'in-dices génériques permettant d'établir et de maintenir le contrat de base d'uneinteraction (humain-humain et humain-robot) reste un problème ouvert. Uneconvergence avec la linguistique, la pragmatique, les sciences cognitives, lapsychologie, et les neurosciences est indéniablement une des voies à suivre.L'analyse de phénomènes sociaux tels que l'engagement ou la synchronie passeaussi par l'étude de situations interactives très diverses à l'image des expé-

Page 124: "Traitement du signal social et robotique personnelle: Signaux actes ...

110 Intelligence sociale pour la robotique personnelle

riences menées dans ce manuscrit.Les comportements verbaux et non-verbaux générés par le robot jouent un

rôle fondamental dans l'interaction. "L'embodiment" (incarnation) du robotimpacte l'acceptabilité et l'interaction. Dans le cadre du projet ROBADOM,nous menons une étude sur l'acceptabilité par des personnes âgées de systèmesrobotiques. La conception de dispositif interactif améliorant l'engagement etplus généralement l'interaction doivent combiner plusieurs technologies (e.g.tablette, expressions faciales)[Bidaud et al., 2010]. La synthèse d'actions so-ciales requiert la dé�nition d'un dictionnaire �ni de comportements multi-modaux. La diversité des plateformes robotiques imposent une individualisa-tion de ce dictionnaire. Notons que les travaux de normalisation de synthèse decomportements (e.g. Behavior Markup Language) o�rent �exibilité et facilitéd'utilisation.

La gestion de la temporalité des comportements constitue un axe derecherche à investiguer. Les approches guidées par les données (humain-humain vers humain-robot) requièrent le développement de modèles d'appren-tissage avancé. Les modèles génératifs (HMM) présentés dans ce chapitre nesont clairement pas su�sant. Les modèles discriminants tels que les champsconditionnels aléatoires (Hidden Conditional Random Fields) introduisent lescontraintes nécessaires pour une caractérisation �ne de la dynamique de l'in-teraction à partir de sources hétérogènes et dynamiques. L'approche intégra-tive o�erte par la factorisation en matrices non-négatives doit pouvoir êtreexploitée sur des séquences de comportements (Chapitre 2).

Ces axes de recherche poseront les bases de la conception de systèmesinteractifs dotés de capacité de coopération et plus généralement d'intelligencesociale.

Page 125: "Traitement du signal social et robotique personnelle: Signaux actes ...

Projet de recherche

Notre projet de recherche s'articule autour de trois axes : (1) la dyna-mique de la communication, (2) l'intelligence sociale et les interfaces et (3)la convergence entre le traitement du signal social et les sciences cognitives,la psychologie, la psychiatrie et les neurosciences. Ces axes de recherche fontécho aux thématiques du groupe IMI2S (Intégration Multi-modale, Interac-tion et Signal Social) que nous avons proposé de créer au sein de l'équipeInterfaces et Interactions durant le processus de restructuration de l'ISIR. Anotre connaissance, il s'agit d'une démarche unique visant à faire convergertraitement du signal social, robotique interactive, psychologie et psychiatrie.

Dynamique de la communication

Le traitement du signal social a pour objet l'analyse de signaux échan-gés avec l'humain et, comme les travaux présentés dans ce manuscrit ont pul'illustrer, la dynamique de ces échanges est fondamentale. Or, une dé�nitionobjective de cette dynamique reste un problème ouvert. D'un point de vuetraitement du signal, la composante dynamique de la communication n'estpas directement observable. Son étude ne se fait que via des signaux de com-munication et des comportements individuels. Nous détaillons par la suitel'axe de recherche portant sur la dynamique de la communication. Cet axe eststructuré autour de trois questions jugées fondamentales.

Quelle(s) caractérisation(s) ?

La caractérisation des signaux sociaux, souvent multi-modaux, est uneétape cruciale à la compréhension de l'interaction. Nous voyons apparaîtredes modèles permettant une caractérisation dimensionnelle mais actuellementdédiés à des signaux émotionnels mono-modaux. La dynamique de la commu-nication humaine s'exprime sous des formes très diverses : exploitation de si-gnaux multi-modaux (e.g. geste + parole), des échelles temporelles di�érentes,échanges déséquilibrés de signaux entre des partenaires... Par conséquent, unedé�nition objective de la dynamique est imprécise. Les faibles accords inter-jugers lors d'évaluations subjectives de la dynamique interactionnelle (e.g.cohésion, synchronie) rendent compte de cette di�culté.

Notre expérience de l'analyse de la dynamique de la communication dansdes contextes variés fait émerger quelques récurrences permettant de struc-turer une activité de recherche sur la caractérisation. Les analyses mises en

Page 126: "Traitement du signal social et robotique personnelle: Signaux actes ...

112 Projet de recherche

÷uvres sou�rent d'une sous-caractérisation du contexte. La di�culté résidedans le fait que les informations contextuelles d'un signal social donné dé-pendent d'autres signaux sociaux. Par exemple, le langage est intrinsèquementlié à la dynamique de la communication sans en être la composante exclusive.Le regard permet de lever grand nombre d'ambiguïté tout en étant lui-mêmein�uencé par le contexte (e.g. tâche, intentions des partenaires). Dans le cadredu projet MULTI-STIM, nous avons récemment étendu la caractérisation dela synchronie interactionnelle décrite Chapitre 2 en proposant un paradigmede manipulation d'objets sur ordinateur. Ce paradigme permet l'étude, viaun eye-tracker, de la direction du regard ainsi qu'une identi�cation précisedes objets manipulés. Ces informations étaient clairement requises dans notretravail et sont en cours d'intégration à notre système de caractérisation.

Les dé�s de la caractérisation de la dynamique de la communication ré-sident dans (1) la capacité à étudier simultanément des signaux sociaux trèsdi�érents (e.g. nature, échelles temporelles, rôle) et (2) la proposition de mo-dèles intégratifs pour une analyse inter-modale.

Quel(s) modèle(s) ?

De par le dé�cit de dé�nition objective, la modélisation de la dynamiquen'est pas aisée. Une représentation intégrative à l'image des matrices de syn-chronie ou encore des matrices non-négatives semble une voie pertinente quenous continuerons à explorer. L'exploitation de ces représentations intégra-tives requièrent l'étude de propriétés mathématiques permettant une décom-position pertinente et cohérente avec l'objectif d'analyse de la dynamique dela communication. Les algorithmes de factorisation en matrices non-négativeso�rent des possibilités en modélisation de comportements sociaux. La di�-culté réside dans l'identi�cation d'indicateurs �dèles des comportements ainsique leurs intégrations dans des critères d'optimisation des décompositions.Nos travaux sur l'analyse de signaux sociaux devraient permettre l'identi�ca-tion d'indicateurs bas-niveau. Les pistes envisagées incluent la proposition demodèles discriminants dès l'étape de modélisation de la dynamique.

La subjectivité des phénomènes sociaux étudiés doit être explicitement in-cluse dans les modélisations. Proposer des algorithmes d'apprentissage semi-supervisé généralisés à des signaux multi-modaux est identi�ée comme uneétape nécessaire. Nous avons pour l'instant étudié des algorithmes de co-apprentissage reposant sur la coopération de classi�eurs pendant la phased'apprentissage. Une formalisation commune avec les modèles intégratifs pré-cédemment évoqués permettrait de traiter simultanément des aspects subjec-tifs et intermodaux décrivant les informations contextuelles. Ces dernières sontrequises à la compréhension et à l'interprétation de la dynamique de la com-

Page 127: "Traitement du signal social et robotique personnelle: Signaux actes ...

Projet de recherche 113

munication. Un des axes structurant du groupe IMI2S récemment constituéà l'ISIR porte sur l'intermodalité. Dans ce cadre, nous menons actuellementdes recherches sur la modélisation des stratégies employées par des patientsjeunes et âgés atteints ou non de pathologie pour reconnaître des émotionsdont le support est audiovisuel. Les stratégies intermodales sont étudiées sousl'angle de vue de la fusion d'informations (métriques de complémentarité declassi�eurs)

L'évaluation des modèles proposés est une tâche complexe mais impor-tante. La constitution de bases de données dans des contextes réalistes et spon-tanés autorise des études intéressantes tout en soulevant des questionnementssur l'annotation, les conditions d'acquisition... Néanmoins, la disponibilité detelles bases de données permet la comparaison rigoureuse des algorithmes pro-posés par tout un chacun. Tout en e�ectuant cet e�ort de comparaison, noussouhaitons également proposer de nouvelles bases avec des paradigmes plusriches (e.g. manipulation d'objets, actes de communication, long-terme). Larecherche clinique o�re un cadre expérimental rigoureux et adapté à cette am-bition mais requiert une mobilisation importante de personnes et de moyens.

Le groupe IMI2S, de par sa constitution interdisciplinaire, permettra detraiter la problématique de l'évaluation des modèles de la dynamique de lacommunication. D'un point de vue général, nous pensons qu'un projet derecherche portant sur la dynamique interactionnelle doit combiner : (1) ca-ractérisation des signaux de communication (2) modélisation intégrative (3)modélisation du contexte tout en se focalisant sur l'interdépendance de cescomposantes.

Comment soutenir la dynamique ?

Les recherches sur la dynamique de la communication ont non seulementcomme objectif la dé�nition d'indicateurs de l'interaction mais égalementla proposition de méthodologies permettant de soutenir cette dynamique.Comme nous l'avons illustré à plusieurs reprises dans ce manuscrit, un dé-faut de synchronie tend à rompre l'interaction sociale (e.g. autisme, robotiquepersonnelle). Les algorithmes favorisant le maintien de l'engagement et plusgénéralement de l'interaction sont développés pour des situations interactivesprécises sur la base d'agents virtuels ou robotiques.

Le maintien de cette dynamique repose sur la capacité à analyser les si-gnaux sociaux du partenaire et à produire des réponses adéquates. Les modèlesdécrits précédemment ont vocation à être utilisés dans ce contexte interactif.Le dé� réside dans le passage d'un mode de communication archaïque (e.g. ba-ckchannels d'un auditeur actif) à une communication plus élaborée. Le projetFP7 Michelangelo o�re un cadre expérimental adapté à cette ambition car il

Page 128: "Traitement du signal social et robotique personnelle: Signaux actes ...

114 Projet de recherche

vise à développer ,dans des situations d'attention conjointe (e.g. triade théra-peute/parent - enfant - robot), un paradigme de bio-feedback permettant auxintervenants de prendre conscience de la qualité de l'interaction. L'analyse designaux sociaux permettra d'identi�er et de caractériser des indicateurs deséchanges qui seront par la suite exploités pour prédire des comportements durobot. La confrontation de notre approche basée sur des signaux non-verbauxà celle basée sur des signaux physiologiques (e.g. EEG) est envisagée. Cesétapes seront, bien évidemment, réalisées dans un contexte inter-disciplinaire.

Interfaces et intelligence sociale

Le robot comme outil d'expérimentation en traitement du signal socialmais également comme dispositif d'assistance sont les fondements de notreancrage en robotique. Du fait du caractère intégratif de la robotique, l'intel-ligence sociale ne s'exprimera pleinement que dans des projets d'envergureimpliquant la perception de l'environnement, la navigation, la manipulationd'objets.... La modi�cation des modes de communication (e.g. réseaux so-ciaux, mondes virtuels et réels) impose non seulement une adaptation maiségalement une anticipation des recherches dans le domaine de l'interactionsociale.

Projets intégratifs

Outre les projets MULTI-STIM et ROBADOM, nous sommes impliquésdans le projet FUI PRAMAD2 : Plateforme Robotique d'Assistance et deMaintien à Domicile du programme FUI 11 (Fonds unique interministériel).Ce projet, coordonné par la société Orange, vise à développer des solutionsrobotiques simples, robustes et communicantes (dimension internet) au do-micile de personnes âgées pour des interactions à long-terme (plusieurs se-maines). PRAMAD2 regroupe des acteurs scienti�ques et industriels de do-maines complémentaires : usage, robotique mobile, perception de l'environne-ment, intelligence ambiante, jeux sérieux. Nos contributions porteront sur ledéveloppement de systèmes intégrés d'interaction sociale (caractérisation del'engagement) qui seront combinés à un système de dialogue pour l'assistancedans les activités quotidiennes (e.g. rappel de médicaments) et la stimulationcognitive. Un volet non encore traité dans nos travaux portera sur l'exploita-tion de la mobilité du robot. Le mouvement de l'humain et/ou du robot est unsignal social très peu utilisé par la communauté traitement du signal social.Son association à des informations de posture o�rira la possibilité d'étudierla proxémie et son impact dans l'engagement. Le déploiement de robots au

Page 129: "Traitement du signal social et robotique personnelle: Signaux actes ...

Projet de recherche 115

domicile soulève des questions nouvelles. Les interactions Homme-Robot nedurent généralement que quelques minutes et le passage à une interaction deplusieurs semaines est un dé� majeur. La robustesse des algorithmes et dessystèmes est bien évidement une dimension à prendre en compte. Les compor-tements journaliers et/ou hebdomadaires sont des sources d'informations dontla caractérisation (capteurs et algorithmes) est à préciser. Dans le cadre duprojet ROBADOM, nous avons mené une expérience consistant à demanderà des patients âgés de porter une montre actimétrique (e.g. accéléromètre)pendant deux semaines. Un modèle inspiré de la décomposition de matricesnon-négatives développée pour l'étude des �lms familiaux permet de structu-rer les activités des patients. La régularité extraite sera par la suite exploitéepar le robot en vue d'une personnalisation des interventions.

Nos e�orts de collaboration et d'intégration dans des projets d'envergureseront également accompagnés par la mise en ÷uvre d'un volet expérimental àl'ISIR via les plateformes Robotex à l'ISIR et les salles expérimentales (servicede psychiatrie de l'enfant et de l'adolescent de l'hôpital de la Pitié-Salpêtrière,salle interaction de l'ISIR).

Convergence réalité virtuelle - robotique

Nos travaux ont porté sur l'interaction sociale avec des agents virtuelset robotiques. Nous voyons apparaître dans la communauté de l'interactionune volonté de convergence des mondes virtuels et réels. L'immersion ou latéléprésence sont des exemples de situations interactives qui vont tendre àse développer avec des problématiques d'interaction sociale spéci�ques. Nousavons a priori à disposition les éléments nécessaires pour l'étude de ces nou-veaux paradigmes expérimentaux. Nous avons récemment initié une collabo-ration avec le groupe MAP (Manipuler, Analyser et Percevoir les échellesmicro et nanoscopiques), de l'ISIR, portant sur la détection d'intentions et lacaractérisation de l'engagement d'un opérateur humain lors de manipulationd'objets virtuels (e.g. des molécules). Cette collaboration se traduit par leco-encadrement d'une thèse dirigée par Stéphane Régnier.

L'haptique fait souvent o�ce de mode de perception entre les mondesvirtuels et réels. L'environnement scienti�que de l'ISIR, équipe interactiondirigée par Vincent Hayward, favorise l'introduction de l'haptique dans nosmodèles. Un des objectifs est d'exploiter cette modalité pour l'évaluation desintentions et du degré d'engagement des partenaires humains. De plus, lacomposante active des dispositifs haptiques développés à l'ISIR permettraitde recréer des boucles interactives avec une contribution de notre part sur lacomposante sociale.

Page 130: "Traitement du signal social et robotique personnelle: Signaux actes ...

116 Projet de recherche

De l'investigation clinique aux sciences sociales

computationnelles

Les applications présentées dans ce manuscrit ont pu démontrer la perti-nence du traitement du signal social pour la recherche clinique. L'ambitionde la fouille de la réalité (reality mining) est d'o�rir à long-terme des ou-tils d'investigation similaires à l'imagerie biomédicale. En d'autres termes,sommes-nous capables de �lmer des interactions et de produire un ensembled'indicateurs sociaux re�étant �dèlement la dynamique sociale ? Plusieurs ini-tiatives mondiales tendent vers cet objectif comme celles de Je� Cohn au MITpour les expressions faciales ou encore Andrew Meltzo� à l'université de Wa-shington pour l'apprentissage social. Pour ce faire, nos e�orts porteront sur(1) la conception de modèles robustes, précis et interprétables et (2) la collectede données réalistes avec un grand nombre de patients avec des capteurs va-riés (incluant l'exploitation d'objets communicants). Par exemple, de par nostravaux, il est maintenant envisageable d'évaluer des patients en productiond'émotions et plus uniquement sur la base de leurs capacités à reconnaître desstimuli.

Passer d'une modélisation individuelle à une modélisation de groupe (prin-cipalement une dyade dans nos travaux) requiert le développement de nou-veaux modèles. Les recherches menées en psychologie, en psychiatrie et ensciences sociales doivent également enrichir ces modèles. On retrouve une pro-blématique similaire mais souvent traitée à des échelles humaines et tem-porelles plus importantes dans un domaine émergent : les sciences socialescomputationnelles. Les algorithmes proposés doivent prendre en compte lesdimensions dynamique et intégratives des signaux échangés. Un dialogue fer-tile s'initie actuellement entre les neurosciences, la psychologie, la robotiqueet l'apprentissage arti�ciel auquel nous souhaitons pleinement contribuer.

Page 131: "Traitement du signal social et robotique personnelle: Signaux actes ...

Curriculum vitæ

Page 132: "Traitement du signal social et robotique personnelle: Signaux actes ...

Notice Individuelle

Mohamed CHETOUANI

Maître de Conférences

Section 61 du Conseil National des Universités :

Génie Informatique, Automatique et Traitement du Signal

Institut des Systèmes Intelligents et de Robotique (ISIR)

UPMC - CNRS

UMR 7222

4 Place Jussieu

75252 Paris Cedex

- Synthèse de la carrière p. 1

- Activités scienti�que p. 1

- Activités d'enseignements p. 5

- Responsabilités collectives p. 6

- Animation de la recherche p. 6

- Description des activités de recherche p. 8

- Liste classée de publications p. 11

118 Curriculum vitæ

Page 133: "Traitement du signal social et robotique personnelle: Signaux actes ...

Mohamed CHETOUANIInstitut des Systèmes Intelligents et de

Robotique UMR 72224 place Jussieu, 75252 Paris Cedex

Tél. : 01-44-27-63-08E-mail : [email protected]

Né le 04/11/1978Nationalité FrançaiseMarié, 2 enfants

Parcours professionnel

2001�2004 Doctorant - Allocataire à l'Université Pierre et Marie Curie2001�2004 Moniteur à l'Université Paris-Est Créteil Val de Marne (ex-Paris 12)2005 Quali�cation aux fonctions de Maître de Conférences sections 27 et 61

2004�2005 ATER à l'Université Pierre et Marie CurieAvril-Mai 2005 Chercheur invité à l'Université de Stirling (Ecosse) : Department of Computing

Science & Mathematics (Prof. Amir Hussain), �nancement : Faculty ResearchGrant 2005 (Université de Stirling).

Juillet 2005 Chercheur invité à l'Université Polytechnique de Mataro (Barcelone) : SignalProcessing Group. (Prof. Marcos Faundez-Zanuy), �nancement par lÍaction Eu-ropéenne COST 277 (Non-Linear Speech Processing) : short-term mission grant.

Depuis sept. 2005 Maître de Conférences, 61ème section à l'Université Pierre et Marie CurieDepuis sept. 2007 Enseignant au Département Universitaire d'Enseignement et de Formation en

Orthophonie (DUEFO), Faculté de Médecine Pierre et Marie CurieDepuis sept. 2008 Responsable du Groupe Perception Arti�cielle et Handicap de l'ISIR (7

permanents)

Formation

Juin 1998 D.U.T. Génie Electrique et Informatique Industrielle, Option Automa-

tismes et Systèmes mention Bien ( 1er ) IUT de l'Université Paris XIIIJuin 1999 Licence d'Ingénierie électrique mention Assez-Bien ( 1er ) Institut Galilée de

l'Université Paris XIIIJuin 2000 Maîtrise EEA (Electronique Electrotechnique Automatique), option Au-

tomatique et Informatique Industrielle mention Bien ( 1er ) UniversitéPierre et Marie Curie

Juin 2001 DEA Robotique et Systèmes Intelligents, option Contrôle des Systèmes

Mécaniques mention Bien ( 1er ) Université Pierre et Marie Curie

Thèse

Thèse de Doctorat, intitulée � Codage neuro-prédictif pour l'extraction de caractéristiques de signaux deparole. �, soutenue le 14 Décembre 2004 au Laboratoire des Instruments et Systèmes, mention très honorable.

� Directeur scienti�que : Prof. J.L. Zarader Section 61 Université Pierre et Marie Curie (UPMC).� Jury : Prof. M. Milgram ( Président ) - Dr. F. Bimbot ( Rapporteur ) - Prof. M. Najim ( Rapporteur )- Dr B. Gas - Dr J.F. Bonastre

Activités scienti�ques

Equipe de Recherche

Groupe Perception Arti�cielle et HandicapResponsable scienti�que du groupe (7 permanents)

1

Curriculum vitæ 119

Page 134: "Traitement du signal social et robotique personnelle: Signaux actes ...

Thèmes de Recherche

� Méthodologies statistiques : traitement du signal, extraction de caractéristiques, reconnaissance desformes et apprentissage

� Traitement du signal social : détection, analyse, fusion et reconnaissance de signaux,� Interaction Homme-Robot,� Interface ingénierie - psychologie et sciences cognitives.

Responsable de projets de recherche

� Projet Emotion, Prosodie et Autisme (2006-2011) : Fondation France Telecom.� Projet Mamanais (Motherese) (2007-2011) : Fondation de France. Programme Autisme. Respon-sable Clinique : David Cohen (Chef du Département de Psychiatrie de l'Enfant et de l'Adolescent duGroupe Hospitalier de la Pitié-Salpétriére).

� Projet Child-Computer Interaction (2008-2010) : Exploiting prosody. Programme Hubert-Curien(PHC). Echange de doctorants, post-doctorants avec le laboratoire LSA de Budapest (Laboratory ofSpeech Acoustics).

� Projet MULTI-STIM (2010-2013) : Systèmes intelligents de stimulation multisensorielle pour lesenfants avec trouble complexe et multiple du développement. Programme Emergence de l'UPMC.

Coordinateur scienti�que pour le laboratoire

� Action Européenne COST 2102 (2006-2011) : Cross-Modal Analysis of Verbal and Non-Verbal Com-munication. Action coordonnée par le Pr. Anna Esposito (Italie).

� Projet ROBADOM (2009-2012) : Impact d'un robot "majordome" à domicile sur l'état psychoa�ectifet cognitif de personnes âgées ayant des troubles cognitifs légers. Projet coordonné par le Pr. Anne-Sophie Rigaud (Hôpital Broca). Programme ANR Technologies de la Santé.

� Projet FUI PRAMAD2 (2011-2014) : Plateforme Robotique d'Assistance et de Maintien à Domicile.Programme FUI 11 (Fonds unique interministériel). Projet coordonné par la société Orange, débutantle 01/10/2011.

� Projet FP7 ICT-2011-7 MICHELANGELO (2011-2014) : Patient-centric model for remote ma-nagement, treatment and rehabilitation of autistic children, ICT for Health, Ageing Well. Projet coor-donné par la société FIMI (Italie), débutant le 01/10/2011.

Participation à des projets de recherche

� Action Européenne COST 277 (2001-2005) : Non-Linear Speech Processing. Action coordonnée parle Pr. Marcos Faundez-Zanuy.

� Projet MIRAS (2008-2012) : Multimodal Interactive Robot for Assistance in Strolling. Projet coor-donné par la société ROBOSOFT. Programme ANR Technologies de la santé.

Activités d'encadrement

Titulaire de la PIR (Prime d'investissement en recherche) depuis le 1/10/2009

• Thèses soutenues (3) :� F. Ringeval, � Ancrages et modèles dynamiques de la prosodie : application à la reconnaissance desémotions actées et spontanées �, allocataire-moniteur, thèse commencée en octobre 2006 et soutenuele 4 avril 2011, co-encadrement à 90 % avec Jean-Luc Zarader. Rapporteurs : Hervé Glotin et YannisStylianou. Examinateurs : Olivier Adam, Bjoern Schuller, David Cohen, Jean-Luc Zarader. Actuel-lement Post-doctorant dans le groupe DIVA (Document, Image and Voice Analysis), Université deFribourg (Suisse).

� A. Mahdhaoui , � Analyse de signaux sociaux pour la modélisation de l'interaction face à face �,allocation sur contingent du président, thèse commencée en octobre 2007 et soutenue le 14 décembre2010, co-encadrement à 90 % avec Jean-Luc Zarader. Rapporteurs : Laurent Besacier et AlessandroVinciarelli. Examinateurs : Maurice Milgram, Jean-Claude Martin, David Cohen, Jean-Luc Zarader.

2

120 Curriculum vitæ

Page 135: "Traitement du signal social et robotique personnelle: Signaux actes ...

Actuellement Post-doctorant chez Orange Labs, Grenoble (France).

� C. Saint-Georges, Docteur en psychiatrie, �Dynamique, synchronie, réciprocité et mamanais dansles interactions des bébés autistes à travers les �lms familiaux �, thèse de sciences, thèse commencéeen octobre 2007 et soutenue le 30 septembre 2011 ; co-encadrement à 40% avec David Cohen. Rap-porteurs : Nicolas Georgie�, Colwyn Trevarthen. Examinateurs : Marie-Christine Laznik, PhilippeMazet, Fillipo Muratori, Jacqueline Nadel, David Cohen.

• Co-encadrements de thèses en cours (6) :� C. Zong,� Caractérisation et modélisation de signaux physiologiques pour l'interaction homme-robot �, ANR MIRAS, thèse commencée en décembre 2008 et soutenance prévue en janvier 2012(congé de maternité), co-encadrement à 30 % avec Xavier Clady (60%) et Philippe Bidaud.

� C. Granata, � Interaction multi-modale pour la robotique d'assistance �, thèse CIFRE avec la so-ciété ROBOSOFT, thèse commencée en octobre 2008 et soutenance prévue en janvier 2012, co-encadrement à 30 % avec Xavier Clady (60%) et Philippe Bidaud.

� E. Delaherche, � Modélisation de la dynamique de l'interaction centrée humain : application àl'autisme �, projet MULTI-STIM, thèse commencée en octobre 2010, co-encadrement à 90% avecPhilippe Bidaud.

� J. Le Maître, � Traitement de signaux sociaux pour l'interaction homme-robot �, projet ROBA-DOM, thèse commencée en octobre 2010, co-encadrement à 90% avec Philippe Bidaud.

� A. Parnandi, �Machine learning and social signal processing for human-robot interaction �, projetMICHELANGELO, thèse commencée en octobre 2011, co-encadrement à 90% avec Philippe Bidaud.

� L. Cohen, � Interactions multimodales avec une scène de manipulation virtuelle et/ou réelle �, col-laboration avec le groupe MAP de l'ISIR, thèse commencée en octobre 2011, co-encadrement à 40%avec Stéphane Régnier (30%) et Sinan Haliyo.

• Encadrement d'ingénieur :� N. Melchior, � ingénieur d'études en interaction-homme robot �, projet PRAMAD2 à partir du01/10/2011.

• Encadrements de mémoire, stagiaires :- Co-encadrement (30%) d'un mémoire d'orthophonie (2009) : Caractéristiques prosodiques des enfantset adolescents, autistes, dysharmoniques, dysphasiques et sans pathologie. Dirigé par David Cohen,co-encadré par : Laurence Robel (Hôpital Necker-Enfants Malades), Mohamed Chetouani, MoniquePlaza et Dominique Chauvin (Hôpital de la Pitié-Salpétriere).

- 17 stagiaires de DEA/Master 2, école d'ingénieurs (4 à 6 mois).- 6 stagiaires de Master 1 et 2, projets école d'ingénieurs(1 à 2 mois temps plein).

3

Curriculum vitæ 121

Page 136: "Traitement du signal social et robotique personnelle: Signaux actes ...

Publications

Type de publication Nombre Nom des publications

Revues internationales 12 Pattern Recognition, IEEE Trans. on Audio Speechand Language Processing, Speech Communication,Plos One, Cognitive Computation, Research in AustimSpectrum Disorders, International Journal of Methodsin Psychiatric Research.

Revues nationales 1 Traitement du signal

Ouvrages collectifs 2 Numéro spécial dans Speech Communication, SpringerLNAI

Chapitre 7 "Understanding Parent-Infant Behaviors Using Non-negative Matrix Factorization," "Automatic Mothe-rese Detection for Face-to-Face Interaction Analysis","Maximising audiovisual correlation with automaticlip tracking and vowel based segmentation", "Exploi-ting a vowel based approach for acted emotion recog-nition", " Nonlinear predictive models : Overview andpossibilities in speaker recognition", "Nonlinear speechenhancement : An introductory overview", "Non-linearspeech feature extraction for phoneme classi�cationand speaker recognition."

Conférences internationales 49 ICPR, ICASSP, MLSP, ICRA, RO-MAN, ACM Mul-timedia, ICMI, ICORR, ICANN, IJCNN ...

Conférences invitées 5 Training schools, NOLISP, IEEE Technical meeting.Congrès nationaux et divers 9 JEP, JNRR, RFIA, GRETSI, RJCP ..

Brevet 1 Demande de brevet No 10 54317 du 02 juin 2010.

4

122 Curriculum vitæ

Page 137: "Traitement du signal social et robotique personnelle: Signaux actes ...

Activités d'enseignements

ATER puis Maître de conférences a�ecté à l'UFR d'Ingénierie de l'Université Pierre et Marie Curie pourun volume horaire depuis 2004 de 1461 heures équivalents TD

Moniteur a�ecté à l'UFR Sciences et Technologies de l'Université Paris-Est Créteil Val de Marne (ex-Paris 12) pour un volume de 192h TD de 2001 à 2004.

J'ai assuré di�érents enseignements autour du traitement du signal, des signaux et systèmes continus etdiscrets, de l'automatique, de la reconnaissance des formes, de l'apprentissage, des méthodes connexionnistes,de l'informatique industrielle, de l'architecture des ordinateurs, des réseaux locaux industriels ... Le volumehoraire est décomposé dans les tableaux suivants.

Cours 788 heures eq. TD 1er cycle 763 heures eq. TDTD 271 heures eq. TD 2éme cycle 479 heures eq. TDTP 732 heures eq. TD 3éme cycle 548 heures eq. TD

Responsabilités pédagogiques :

� Responsables de plusieurs UEs : Signaux et systèmes continus et discrets (L3 60 à 100 étudiants), Inter-action et communication verbale (M2 15-20 étudiants), Reconnaissance des formes (M2 15 étudiants),Analyse et codage des signaux (M2 10 étudiants), Physique pour les orthophonistes (150 étudiants).

Investissement pédagogique :

Depuis mon recrutement, j'ai pris en charge des cours liés au traitement du signal et à la reconnaissancedes formes. La pédagogie mise en oeuvre combine une logique de formation d'ingénieur et une logique deformation par la recherche. Par exemple, dans le cadre des enseignements en reconnaissance des formes, jepropose d'étudier des algorithmes de l'état de l'art dans un contexte applicatif réaliste (e.g. détection devisage). Pour les enseignements relevant de la licence, mon approche consiste à regrouper, dans la mesuredu possible, les enseignements théoriques et pratiques dans une même semaine d'enseignement. Le cours designaux et systèmes a ainsi lieu en début de semaine suivi de travaux dirigés et pratiques les jours suivants.Ce cycle est complété par un bilan des notions la semaine qui suit.

L'adaptation au niveau de compétences est un des éléments de ma pédagogie. Depuis 2008, je suis encharge du cours de physique pour les étudiants de 1ère année en orthophonie. La diversité de ces étudiants,et pour certains leur méconnaissance complète de notions mathématiques, imposent une pédagogie basée surla démonstration audiovisuelle des phénomènes (e.g. applet, synthèse de sons pour l'analyse de Fourier).

Fig. 1 � Exemple de projet de robotique interactive

Depuis 2009, j'ai conçu un cours inédit pour le master sciences de l'ingénieur portant sur l'interactionsociale. Ce cours est décliné en deux versions : Francophone (Master et école d'ingénieur) et Anglophone

5

Curriculum vitæ 123

Page 138: "Traitement du signal social et robotique personnelle: Signaux actes ...

(Master International). Les thématiques traitées portent sur l'analyse, la prédiction et la synthèse de si-gnaux sociaux avec un volet spéci�que à la robotique interactive. Une pédagogie par projets est développéepermettant de placer les étudiants dans une logique d'apprentissage collaboratif. Les projets portent sur ledéveloppement et l'implémentation d'un scénario interactif proposé par les étudiants eux-mêmes. La �gure 1présente un exemple de projet : reconnaissance de locuteurs et de mots pour l'interaction homme-robot. Lesuccès chez les étudiants des projets de robotique interactive se justi�ent par le caractère intégratif requis :traitement du signal, de l'image, synthèse et contrôle comportements de haut-niveau (e.g. URBI) et éva-luation des performances. Les étudiants produisent un rapport de synthèse, une vidéo de l'interaction ainsiqu'une présentation.

Résumé des responsabilités scienti�ques, collectives et administratives

� Responsable scienti�que (depuis 2008) du Groupe Perception Arti�cielle et Handicap du Laboratoire(7 permanents)

� Membre élu du conseil de laboratoire de l'ISIR� Membre élu titulaire (depuis 2006) de la commission de spécialistes, puis comité de sélection en section61 de l'Université Pierre et Marie Curie.

� Membre extérieur nommé des comités de sélection en section 61 de l'Université Paris-Est Créteil Valde Marne (depuis 2009) et de l'Université d'Evry Val-D'Essonne (de puis 2010).

� Co-animateur du groupe de travail GT5 Interactions personnes / systèmes robotiques du GDR Robo-tique (CNRS) avec Rachid Alami (LAAS).

Animation de la recherche et rayonnement

Echanges internationaux :

� Chercheur invité à l'Université de Stirling (Ecosse) : Department of Computing Science & Mathematics(Prof. Amir Hussain), titulaire du "Faculty Research Grant 2005" (Université de Stirling), avril-mai2005.

� Chercheur invité à l'Université Polytechnique de Mataro (Barcelone) : Signal Processing Group. (Prof.Marcos Faundez-Zanuy), �nancement par lÍaction Européenne COST 277 (Non-Linear Speech Proces-sing) : short-term mission grant, juillet 2005.

� Participation à des actions européennes COST 277 (Non-linear Speech Processing) et COST 2102(Cross-modal Analysis of Verbal and Non-Verbal Communication).

� Responsable du projet "Multimodal communication with robots and virtual agents" au workshop/écoled'été eNTERFACE'08. Co-responsables : Thierry Dutoit, Catherine Pelachaud et Jean-Claude Martin.

� Collaboration avec l'Université de Pise : accès à la plus grande base de données de �lms familiaux.Analyse développementale de l'interaction parent-enfant (autiste, retard mental, typique).

Organisation de colloques, conférences, journées d'études :

� Organisateur et Président du comité de programme du workshop NOLISP'07 : "ISCA Tutorial andResearch Workshop on Non-Linear Speech Processing" du 22 au 25 Mai 2007 à Paris.

� Organisateur du projet "Multimodal communication with robots and virtual agents" au workshop/écoled'été eNTERFACE'08 : 6 étudiants européens + 3 permanents

� Co-organisateur du workshop ANNPR'08 : "International Workshop on Arti�cial Neural Networks inPattern Recognition" du 2 au 4 Juillet 2008 (Paris).

� Exposition grand public (14 − 16 Novembre 2008) : La Ville Européenne des Sciences : stand "LePalais des robots. Robot mon ami".

6

124 Curriculum vitæ

Page 139: "Traitement du signal social et robotique personnelle: Signaux actes ...

� Co-organisateur avec le Prof. David Cohen de l'atelier de ré�exion prospective PIRSTEC (Prospectiveinterdisciplinaire en réseau pour les sciences et technologies cognitives) : "Autisme et Prosodie : Quellesimplications possibles ?", 2 Octobre 2009, Hôpital de la Pitie-Salpetriere.

� Organisateur du workshop on Learning for Human-Robot Interaction Modeling, RSS 2010 (Robotics :Science and Systems), Zaragoza, Espagne, 27 Juin, 2010.

� Organisateurs de plusieurs journées d'études pour le GT5 Interactions Personnes / Systèmes Robotiquesdu GDR Robotique et de sessions spéciales pour les JNRRs : Interaction cognitive (2009), Robotiquecognitive (2011).

� Co-organisateur avec Rachid Alami (LAAS) de la 1ère édition des Journées Nationales de la RobotiqueInteractive (JNRI 2011) à Paris.

� Organisation d'un symposium sur le traitement automatique de signaux sociaux et la robotique in-teractive dans le champ de la psychiatrie dans le congrès international IACAPAP 2012 (InternationalAssociation for Child and Adolescent Psychiatry and Allied Professions).

Expertises :

� Expert pour l'ANR (en moyenne deux dossiers par an depuis 2008 pour l'ANR Blanc et pour les ANRsthématiques CONTINT et TecSan).

� Expert pour le Natural Sciences and Engineering Research Council (2010).� Expert extérieur nommé par l'Université de Stirling (Ecosse) pour l'évaluation de projets, de candidatsen 2009.

� Membre du comité scienti�que du programme PIR Longévité et Vieillissement (Programme interdisci-plinaire) depuis 2010.

Responsabilités éditoriales :

� Membre (fondateur) du comité d'édition de la revue : Cognitive Computation (Springer). Indexationdans ISI.Thompson Reuters accepté.

� Editeur du numéro spécial de Speech Communication : "Special Issue on Non-Linear and Non-ConventionalSpeech Processing", publié en 2009.

� Editeur associé de la conférence RO-MAN 2011.� Membre du comité scienti�que des conférences suivantes : ICANN'05, WNSP'05 (Workshop on Non-Linear Speech Processing), ICEIS'06 (IEEE International Conference on Engineering in Intelligent Sys-tems), NOLISP'07, NNAM'07 (International Conference on Neural Networks and Associative Memo-ries), International Workshop on Verbal and Nonverbal Communication Behaviours (2007), ICPR'08,ICPR'10 (International Conference on Pattern Recognition), WCCI'08 (World Congress on Computa-tional Intelligence), COST 2102 Training schools, JNRR, NOLISP 2011.

� Président de session : NOLISP'05 (Speech Enhancement), ICANN'05 (Non-Linear Predictive ModelsFor Speech Processing, Sound and Speech Recognition), NOLISP'09 (Non-conventional features).

� Relecteur pour des revues internationales : IEEE Transactions on Audio and Speech Processing (2articles), Speech Communication (Special Issue on Non-Conventional and Non-Linear Speech Proces-sing), Neurocomputing (4 articles), Pattern Recognition (10 articles), Journal of Acoustical Society ofAmerica (1 article).

� Relecteur pour de nombreuses conférences : NOLISP, WNSP, ICNSC, ICEIS, ICANN, ISNN, EU-SIPCO, WCCI, ICPR, HRI, RO-MAN, ICRA.

� Relecteur de livres, chapitres pour Springer.

Participation à un jury de thèse (extérieur à l'UPMC) :

� Mr. Sébastien SAINT-AIME "Conception et réalisation d'un robot compagnon expressif basé sur unmodèle calculatoire des émotions", soutenue le 9 Juillet 2010, jury : Prof. Jacques Tisseau (Président),Prof. Pascal Estraillier (Rapporteur), Dr. Rachid Alami (Rapporteur), Prof. Dominique Duhaut, Dr.Brigitte Le-Pévédic.

7

Curriculum vitæ 125

Page 140: "Traitement du signal social et robotique personnelle: Signaux actes ...

Activités de recherche

Description des activités

Mes activités portent sur l'analyse, la caractérisation, la reconnaissance, la modélisation de signaux et decomportements sociaux. La richesse et la complexité des signaux de communication et des comportementsimposent des caractérisations et des modélisations non-linèaires, adaptatives et contextualisées (personne, en-vironnement, tâche, état cognitif/a�ectif...). Le traitement du signal multi-modal et les techniques d'appren-tissage statistique apportent des solutions pertinentes pour la caractérisation des interactions. Les champsd'applications visés sont la robotique interactive, l'assistance aux personnes dé�cientes, la modélisation etl'objectivation en sciences cognitives et notamment en pathologies (autisme, Alzheimer, troubles cognitifslégers).

L'analyse automatique des signaux sociaux en lien avec la psychologie est un domaine de rechercheémergent appelé Social Signal Processing. En prenant appui sur les collaborations étroites menées avec despsychiatres et des psychologues du service de Psychiatrie de l'Enfant et de l'Adolescent de l'hôpital de laPitié-Salpétriére, j'ai proposé un domaine spéci�que du traitement de signaux sociaux atypiques. Cet axe derecherche se traduit par plusieurs éléments factuels :

� Co-encadrements de doctorants/étudiants en psychologie (C. Saint-Georges, J. Demouy) et en ingénie-rie (A. Mahdhaoui, F. Ringeval, E. Delaherche) : binômes travaillant en étroite collaboration.

� La demande d'intégration acceptée à l'ISIR de chercheurs du service de psychiatrie de l'enfant et del'adolescent : Prof. D. Cohen (PU-PH), Dr. M. Plaza (CR CNRS), Dr. Chaby (Mcf Paris 5).

� La mise en oeuvre d'une salle expérimentale ainsi que des locaux de recherche dans le service clinique.� Organisations de plusieurs journées multi-disciplinaires (Pirstec, IACAPAP 2012).� Projets de recherche : Emotion, Prosodie et Autisme, Mamanais, Multi-STIM ainsi qu'un rayonnementet des collaborations avec d'autres équipes hospitalières (Broca pour ROBADOM).

� Visites et séminaires de chercheurs étrangers : Prof Anna Esposito (responsable de l'action EuropéenneCOST 2102 sur l'analyse cross-modale de la communication verbale et non-verbale) pendant 2 mois,Dr. Alessandro Vinciarelli (responsable du réseau d'excellence SSPNet Social Signal Processing) entant que rapporteurs de thèse d'Ammar Mahdhaoui ainsi qu'une visite de l'équipe de recherche.

� Invitations dans des écoles d'été (cf. publications).� Intégration dans l'association SSPNet (Social Signal Processing Association) nouvellement crée.� Transfert industriel (FUI PRAMAD2).� Proposition de création du groupe IMI2S (Intégration Multi-modale, Interaction et Signal Social) ausein de l'ISIR lors de la phase de re-structuration du laboratoire.

Dans ce cadre, mes contributions sont décomposées en 3 classes de domaine :� Analyse et caractérisation de signaux sociaux : contribution à la détection, la caractérisation ainsi que lareconnaissance de l'état de l'interlocuteur : identité, état cognitif/a�ectif/pathologique ; modèles non-linèaires et non-gaussiens pour les signaux de parole ; ancrages acoustiques des états a�ectifs/cognitifs ;fusion d'informations et apprentissages supervisé, non-supervisé et semi-supervisé pour la reconnais-sance d'événements.

� Apprentissage pour la modélisation de comportements interactifs : caractérisation et reconnaissancede signaux et de comportements de régulation, d'engagement, de synchronie dans une interaction ;modélisation à court et long-terme de comportements ; caractérisation du contexte ;

� Robotique cognitive, interactive et sociale : interface ingénierie/sciences cognitives ; intelligence sociale ;assistance aux personnes dé�cientes ; plateforme robotique de stimulations de comportements chez lespersonnes atteintes de troubles cognitifs ;

8

126 Curriculum vitæ

Page 141: "Traitement du signal social et robotique personnelle: Signaux actes ...

CHAPITRE 4. RECONNAISSANCE PROSODIQUE DE LA PAROLE AF F ECTIVE ACTEE

122

(a) (b)

(c) (d)

!"#$%&$'& Variations des mesures issues des modèles conventionnels (a) et non-conventionnels (b) et

(c) du rythme selon les !"#$%&'()*+,-$.&#(&/*0+1"+2&*(#(&/+,)+3"+!'&(4+,"/*+3-)*2"!)+,)*+,5'$)*+)/+,é-

termine les valeurs moyennes, tandis que la hauteur et la largeur correspondent aux vale5'*+,-$!"'#-

type ; (d) roue des émotions de Plutchik [PLU80]69.

5. Conclusion Nous avons présenté différentes théories du rythme dan*+ 3-(/#'&,5!#(&/+ ,)+ !)+ !6"2(#').

Cette première partie a montré que le rythme véhicule des phénomènes complexes dont leur

caractérisation ne peut reposer sur des mesures simples telles que le débit, puisque ce dernier

)/+)*#+#&5#+*(.23).)/#+75-5/)+!&.2&*"/#)0+Comme les phénomènes du rythme peuvent être à

3-&'(%(/)+,)s émotions procurées par la musique, /&5*+"8&/*+2'&2&*$+9!&..)+,-"5#')*+"5#)5'*+

3-&/#+:"(#+"52"'"8"/#;+,)+:"(')+3)+3()/+)/#')+3)*+2'&2'($#$*+,)+3"+.5*(75)+)#+,)+celles de la pa-

role. En effet, le rythme apparaît clairement comme sous-modélisé dans les systèmes issus de

3-$#"#+,)+3-"'#+)/+')!&//"(**"/!)+,-$.&#(&/*. Nous avons donc développé des métriques non-conventionnelles pour capturer les phénomènes du rythme de la parole. Différentes techniques

ont alors été exploitées : (i) les mesures spectrales *5'+3-)/8)3&22)+)*#(.$)+2"'+3"+.$#6&,)+,)+Tilsen, (ii) !"#$%#!&''# et la fréquence instantanées calculées au moyen de la THH, (iii) les

69

R. Plutchik, Emotion: A Psychoevolutionary Synthesis, dans Harper & Row, New York, 1980.

(a)

100Chapitre 3. Classification semi-supervisée de signaux émotionnels

!"

!#

!$

%!"#$$%&'(%)*+,&)%&'-

&!"#$$%&'($#$(%)*+,&)%&'-

.//0&$)*''12&

.//0&$)*''12&

.//0&$)*''12&

3&')

3&')

'(&')(45&$'&674&("&'() &8&6/4&'("&(& /0%"*)'(19&:(41(

!"#$$"%&"'()*+#,*("'-,&'$."*/"!0$"'1"/':41''*;*&,0'

!'-

<

<

<

<

=,'*#$("&'(/0#717*4*)%'(

>(/#')&0*#0*?%:*'*#$

@41''*;*&,0 $AB

?&':0*/)&,0($AB

@41''*;*&,0 $AC

?&':0*/)&,0($AC

@41''*;*&,0 $A$

?&':0*/)&,0($A$3&')

Fig. 3.5 – Architecture du système de co-apprentissage avec fusion de données

apprentissage ne permet pas la fusion de caractéristiques, les di!érents classi-fieurs sont indépendants. Par conséquent, afin de bénéficier de la complémen-tarité de di!érents descripteurs et classifieurs, nous proposons un algorithmequi permet de prendre en compte l’ensemble des points de vue et d’obtenirune prédiction unique par objet.

3.5.2 Co-apprentissage automatique pour la classifica-tion du motherese

Dans le cadre du co-apprentissage automatique de type multi-vue, nousavons proposé une nouvelle méthode de co-apprentissage (cf. figure 3.5). Ils’agit d’un algorithme de classification qui consiste à combiner les prédictionsissues de di!érents classifieurs (les probabilités à posteriori) afin d’obtenir uneprédiction unique pour chaque exemple de test. La méthode proposée est unenouvelle forme de co-apprentissage automatique, elle est plus appropriée auxproblèmes impliquant à la fois la classification semi-supervisée et la fusionde données. Cet algorithme est conçu pour améliorer les performances declassification grâce à la combinaison de données non étiquetées.

(b)

Fig. 2 � Illustration des recherches dans le domaine de la caractérisation (a) Dynamique des ancragesacoustiques pour l'analyse et la reconnaissance des émotions, (b)

Apprentissage semi-supervisé multi-vues de type co-training pour le renforcement de lois deprédiction/classi�cation de signaux sociaux.

(a)

!"

"

time

time

Home

Movies

Multimodal

interactions

tf-idf

codification

Non Negative

Matrix factorisation

Interaction

Modelling

(n-gram)

!"#$%&&'

"&&(%#$')

Markov

diagrams

Statistical

analysis

GLMM

Normalized

Mutual

Information

F igure 2. Analysis of parent-infant interaction: general principals

{CG!""} ensemble of interactive patterns from caregiver (CG) to baby (BB)

#""!$%&'()*(+,-('./'0)1(234105('6311(2)*'/2.+',3,7'8""9'1.'432(:05(2'8$%9

GLMM=Generalized Linear Mixed Model

(b)

Fig. 3 � Illustration des recherches dans le domaine de la modélisation (a) Modèle non-supervisé et multi-modal d'évaluation du niveau de synchronie dans une dyade, (b)Modèle de comportements interactifs mére-bébé (3 éme semestre de vie d'un enfant autiste) basé sur uneanalyse par modèles de Markov cachés et décomposition en matrices non-négatives de �lms familiaux.

(a) (b)

Fig. 4 � Illustration des recherches dans le domaine de la robotique interactive (a) Plateforme de robotiquepour le dialogue multimodal, la stimulation multi-sensorielle (MULTI-STIM), (b)

Expérience de storytelling : robot et agent virtuel exploitant en temps-réel uniquement des signauxnon-verbaux (prosodie, proéminence acoustique, mouvements de la tête).

9

Curriculum vitæ 127

Page 142: "Traitement du signal social et robotique personnelle: Signaux actes ...

Ces contributions sont réalisées avec une perspective développementale (du jeune enfant à la personneâgée). De plus, elles se traduisent par un volet expérimental important. Nous avons ainsi développé uneexpertise dans la constitution et l'analyse de bases de données réalistes :

� Prosodie et autisme (memoire de J. Demouy, thèse de F. Ringeval) : 38 enfants avec pathologie (autisme,troubles envahissant du développement non spéci�é, dysphasique) + 70 enfants typiques interagissantchacun dans des tâches visant à évaluer leurs caractéristiques prosodiques ainsi que leurs états émotifs.

� Synchronie (thèse de E. Delaherche) : 14 enfants avec pathologie (autisme) + 30 enfants typiquescollaborant avec un thérapeute dans une tâche naturaliste (e.g. puzzle)

� Engagement social (thèse de J. Le Maître) : 8 patients atteints de troubles cognitifs légers (personnesâgées de 70 à 95 ans) dans des tâches de robotique interactive (magicien d'Oz, systèmes de détectionautomatique).

� Assistance aux personnes dé�cientes (thèse de C. Granata) : 30 personnes âgées (>70 ans) exploitantle système de dialogue multi-modal.

� Robotique ludique (Exposition au grand palais) : >100 personnes interagissant avec le robot Emoti-ROB (développé par Valoria) exploitant un système d'analyse automatique de la prosodie développésous la direction de l'ISIR. Version préliminaire développée en open source dans le cadre du projeteNTERFACE'08.

� Base de données eNTERFACE08_STEAD (Story TElling Audio-visual Database) : 22 sessions (dyades)d'interaction en 5 langues di�érentes (Anglais, Français, Slovaque, Arabe) incluant des interactions avecun agent conversationnel et un robot) distribuée librement dans le cadre du projet eNTERFACE'08.

10

128 Curriculum vitæ

Page 143: "Traitement du signal social et robotique personnelle: Signaux actes ...

Liste des publications

Le nom des personnes ayant travaillé sous ma (co-)direction sont soulignés� Directions d'ouvrages :

1. Chetouani M., Hussain A., Gas B., Milgram M., Zarader J.-L. editor(s).Advances in NonlinearSpeech Processing LNAI 4885, Springer Verlag, ISBN : 978-3-540-77346-7.

2. Chetouani M., Faundez-Zanuy M., Hussain A., Gas B., Zarader J.L., Paliwal, K. (2009). GuestEditorial : Special issue on non-linear and non-conventional speech processing. Speech Communi-cation. Page 713, 2009.

� Revues internationales :

1. Gas B., Zarader J.L., Chavy C., Chetouani M.- Discriminant neural predictive coding appliedto phoneme recognition. Neurocomputing. Vol 56 pages 141-166, 2004.

2. Monte-Moreno E., Chetouani M., Faundez-Zanuy M., Sole-Casals, J. - Maximum LikelihoodLinear Programming Data Fusion for Speaker Recognition. Speech Communication. Vol 51 No 9pages 820-830, 2009.

3. Chetouani M. Faundez-Zanuy M., Gas B., Zarader J.L.- Investigation on LP-Residual Repre-sentations For Speaker Identi�cation. Pattern Recognition. Vol 42 No 3 pages 487-494, 2009.

4. Charbuillet C., Gas B., Chetouani M., Zarader J.-L - Optimizing feature complementarity byevolution strategy : Application to automatic speaker veri�cation. Speech Communication. Vol 51No 9 pages 724-731, 2009.

5. Chetouani M., Mahdhaoui A., Ringeval F.- Time-scale feature extractions for emotional speechcharacterization. Cognitive Computation, Springer, publisher. Vol 1 No 2 pages 194-201, 2009.

6. Wu Y-H., Faucounau V., Granata C., Boesp�ug S., Riguet M., Pino M., Chetouani M., RigaudA.S. - Personal service robot for the elderly in home : A preliminary experiment of human-robotinteraction. Gerontechnology. Vol 9 No 2 Pages 260, 2010.

7. Saint-Georges C., Cassel R.S., Cohen D., Chetouani M., Laznik M-C., Maestro S., Muratori F.- What studies of family home movies can teach us about autistic infants : A literature review.Research in Autism Spectrum Disorders. Vol 4 No 3, pages 355-366, 2010.

8. Mahdhaoui A., Chetouani M., Cassel R.S., Saint-Georges C., Parlato E., Laznik M.C., ApicellaF., Muratori F., Maestro S., Cohen D. -Computerized home video detection for motherese may helpto study impaired interaction between infants who become autistic and their parents. InternationalJournal of Methods in Psychiatric Research, vol. 20, Issue 1, pages e6-e18, 2011.

9. Ringeval F., Demouy J., Szaszak G., Chetouani M., Robel L., Xavier J., Cohen D., Plaza, M.- Automatic intonation recognition for the prosodic assessment of language impaired children.IEEE Transactions on Audio, Speech and Language Processing, Vol. 19, No. 5, pages 1328-1342,2011.

10. Demouy J., Plaza M., Xavier J., Ringeval F., Chetouani M., Périsse D., Chauvin D., Viaux S.,Golse B., Cohen D., Robel L. - Di�erential language markers of pathology in Autism, PervasiveDevelopmental Disorders Not Otherwise Speci�ed and Speci�c Language Impairment. Researchin Autism Spectrum Disorders, Vol. 5, Issue 4, pages 1402-1412, 2011.

11. Mahdhaoui A.,Chetouani M. - Supervised and semi-supervised infant-directed speech classi�ca-tion for parent-infant interaction analysis. Speech Communication, Vol. 53, No. 9, pages 1149-1161,2011.

12. Saint-Georges C., Mahdhaoui A., Chetouani M., Laznik M.C., Apicella F., Muratori P., Maes-tro S., Muratori F., Cohen D. (2011) - Do parents recognize autistic deviant behavior long beforediagnosis ? taking into account interaction using computational methods. Plos ONE, Vol. 6, No.7 : e22393, 2011.

11

Curriculum vitæ 129

Page 144: "Traitement du signal social et robotique personnelle: Signaux actes ...

� Revue nationale :

1. Gas, B., Chetouani M., Zarader J.L.- Extraction de caractéristiques non linèaire et discrimi-nante : application à la classi�cation de phonèmes. Traitement du signal. Vol 24, 2007.

� Chapitres de livre :

1. Chetouani M., Faundez-Zanuy M., Gas B., Zarader J.L.- Non-linear speech feature extractionfor phoneme classi�cation and speaker recognition. Nonlinear speech modelling and applications,Springer Verlag, publisher, pages 340-350, 2005.

2. Hussain A., Chetouani M., Squartini S., Bastari A., Piazza F. - Nonlinear speech enhancement :An introductory overview. Progress in Nonlinear Speech Processing, Springer Verlag, publisher,pages 217-248, 2007.

3. Faundez-Zanuy M., Chetouani M. - Nonlinear predictive models : Overview and possibilities inspeaker recognition. Progress in Nonlinear Speech Processing, Springer Verlag, publisher, pages170-189, 2007.

4. Ringeval F., Chetouani M. - Exploiting a vowel based approach for acted emotion recognition.Verbal and Nonverbal Features of Human-Human and Human-Machine Interaction. Selected pa-pers from COST Action 2102 International Workshop, Springer Verlag, publisher. Vol LNAI 5042pages 243-254, 2008.

5. Abel A., Hussain A., Nguyen Q., Ringeval F., Chetouani M., Milgram M.- Maximising audio-visual correlation with automatic lip tracking and vowel based segmentation, BioIDMultiComm2009. Vol LNCS 5707 pages 65-72, 2009.

6. Mahdhaoui A.,Chetouani M., Zong C., Cassel R.S., Saint-Georges C., Laznik M-C., Maestro S.,Apicella F., Muratori F., Cohen D.- Automatic Motherese Detection for Face-to-Face InteractionAnalysis, Multimodal Signals : Cognitive and Algorithmic Issues, Springer Verlag, publisher. VolLNAI 5398 pages 248-255, 2009.

7. Mahdhaoui A., Chetouani M. - Understanding Parent-Infant Behaviors Using Non-negativeMatrix Factorization. Toward Autonomous, Adaptive, and Context-Aware Multimodal Interfaces,Springer Verlag, publisher. Vol LNCS 6456 pages 436-447, 2011.

� Communications invitées :

1. Chetouani M., Gas B., Zarader J.L. - Learning Vector Quantization and Neural PredictiveCoding for Nonlinear Speech Feature Extraction. EUropean SIgnal Processing COnference 2004(EUSIPCO'04). Vienne, Autriche, 2004.

2. Chetouani M. - Non-linear predictive modelling for future speech processing applications. IEEEUKRI IAS Chapter sponsored Seminar & Technical Meeting. Stirling, 2005.

3. Hussain A., Chetouani M., Squartini S., Bastari A., Piazza F. - Up-to-date Review of Non-Linear Speech Enhancement. NOn LInear Speech Processing (NOLISP 05). Barcelone, Espagne,2005.

4. Chetouani M. - Human-centered multi-modal signal processing. 3rd COST 2102 InternationalTraining school on Toward Autonomous, Adaptive, and Context-Aware Multimodal Interfaces :Theoretical and Practical Issues, 2010.

5. Chetouani M. - Statistical methods for the characterization of impaired social interactions. 4thCOST 2102 International Training School on Cognitive Behaviourial Systems, 2011.

� Communications avec actes (conférences internationales) :

1. Gas, B., Zarader J.L., Chavy C.,Chetouani M. - Discriminant Features Extraction by PredictiveNeural Networks. International Conference on Signal, Speech and Image Processing (SSIP) pages1831-1835, 2001.

2. Chetouani M., Gas B., Zarader J.L. - The modular neural predictive coding architecture. Inte-national CONference onInformation Processing (ICONIP'02). Singapour, 2002.

12

130 Curriculum vitæ

Page 145: "Traitement du signal social et robotique personnelle: Signaux actes ...

3. Chetouani M., Gas B., Zarader J.L., - Extraction de caractéristiques par codage neuro-prédictif.Journées d'Etude sur la Parole (JEP'02). Nancy, France, 2002.

4. Chetouani M., Gas B., Zarader J.L. - Neural predictive coding for speech : the DFE-NPC. Eu-ropean Symposium on Arti�cial Neural Networks (ESANN�02), pages 275-280. Bruges, Belgique,2002.

5. Chetouani M., Gas B., Zarader J.L., Chavy C. - Discriminative training for neural predictivecoding applied to speech features extraction. Intenational Joint Conference on Neural Networks(IJCNN'02). Vol 1 pages 852-857. Honolulu, Hawai,USA, 2002.

6. Chetouani M., Gas B., Zarader J.L. - Cooperative modular Neural Predictive Coding. NeuralNetworks for Signal Processing (NNSP'03). Toulouse, France, 2003.

7. Chetouani M., Gas B., Zarader J.L. - Maximization of the modelisation error ratio. Non-LIinearSpeech Processing (NOLISP�03). Le Croisic, France, 2003.

8. Chetouani M., Gas B., Zarader J.L., - Modular neural predictive coding for discriminativefeature extraction. Intenational Conference on Speech and Signal Processing (ICASSP'03). HongKong, Chine, 2003.

9. Chetouani M., Faundez-Zanuy M., Gas B., Zarader J.L., - Non-Linear Speech Feature Extractionfor Phoneme Classi�cation and Speaker Recognition. International Summer School Neural NetsE.R. Caianiello IX Course as a Tutorial Workshop on Nonlinear Speech Processing : Algorithmsand Analysis. Vietri sul Mare (Salerno), Italie, 2004.

10. Chetouani M., Gas B., Zarader J.L. - Classi�eur à prototypes et codage neuro-prédictif pourl'extraction non linéaire de caractéristiques pour la classi�cation de phonèmes. Journées d'étudessur la Parole (JEP 04). Rabat, Maroc, 2004.

11. Chetouani M., Faundez-Zanuy M., Gas B., Zarader J.L., A New Nonlinear Feature Extrac-tion Algorithm for Speaker Veri�cation. International Conference on Spoken Langage Processing(ICSLP 04). Iles Jeju, Corée, 2004.

12. Chetouani M., Faundez-Zanuy M., Gas B., Zarader J.L., A New Nonlinear speaker paramete-rization algorithm for speaker identi�cation. Speaker Odyssey 2004. Toledo, Espagne, 2004.

13. Gas B.,Chetouani M., Zarader J.L., Charbuillet C. - Predictive Kohonen map for speech featuresextraction. ICANN'05 (International conference on arti�cial neural networks). Warsaw, Pologne,2005.

14. Chetouani M., Hussain A., Gas, B., Faundez-Zanuy M. - Non-Linear predictive models forspeech processing. ICANN'05 (International conference on arti�cial neural networks). Warsaw,Pologne, 2005.

15. Gas B., Chetouani M., Zarader J.L., Feiz F. - The predictive self-organizing map : applicationto speech features extraction. WSOM'05 (Workshop on self-organizing map). Paris, France, 2005.

16. Chetouani M., Hussain A., Gas, B., Zarader J.L. - New sub-band processing framework usingnon-linear predictive models for speech feature extraction. ISCA Tutorial and Research Workshopon NOn LInear Speech Processing (NOLISP 05). Barcelone, Espagne, 2005.

17. Charbuillet C., Gas B.,Chetouani M., Zarader J.L. - New approach for speech feature extractionbased on genetic algorithm. Non LInear Speech Processing Workshop (WNLSP 05). Crête, Grèce,2005.

18. Charbuillet C., Gas B., Chetouani M., Zarader J.L. - Application d'un algorithme génétique àla synthèse d'un prétraitement non linèaire pour la segmentation et le regroupement du locuteur.JEP'06 (Journées d'Etudes sur la Parole). Dinard, France, 2006.

19. Charbuillet C., Gas B., Chetouani M., Zarader J.L. - Filter Bank Design for Speaker DiarizationBased on Genetic Algorithms. ICASSP'06 (IEEE International Conference on Acoustics, Speechand Signal Processing). Toulouse, France, 2006.

13

Curriculum vitæ 131

Page 146: "Traitement du signal social et robotique personnelle: Signaux actes ...

20. Chetouani M., Hussain A., Gas, B., Zarader J.L. - Non-Linear Predictors based on the Func-tionally Expanded Neural Network for Speech Feature Extraction. ICEIS'06 (IEEE InternationalConference on Engineering in Intelligent Systems). Islamabad, Pakistan, 2006.

21. Charbuillet C., Gas B.,Chetouani M., Zarader J.L. - Multi Filter banks approach for speaker ve-ri�cation based on genetic algorithm. ISCA Tutorial on Nonlinear Speech Processing NOLISP'07.Paris, France, 2007.

22. Chetouani M. - Interaction with autistic infants. International Workshop on Verbal and Non-verbal Communication Behaviours. Vietri-Sul-Mare, Italie, 2007.

23. Charbuillet C., Gas B., Chetouani M., Zarader J.L. - Complementary features for speaker ve-ri�cation based on genetic algorithms. ICASSP'07 (IEEE International Conference on Acoustics,Speech and Signal Processing). Honolulu, Hawaii, USA, 2007.

24. Al Moubayed S., Baklouti M., Chetouani M., Dutoit, T., Mahdhaoui A., Martin J-C, Ondas S.,Pelachaud C., Urbain J., Yilmaz M. - Multimodal Feedback from Robots and Agents in a Storytel-ling Experiment. eINTERFACE'08 Proceedings of the 4th International Summer on Multi-ModalInterfaces, August 4-29,2008, Paris-Orsay, France. Pages 43-55, 2008.

25. Ringeval F., Sztaho D., Chetouani M., Vicsi K. - Automatic prosodic disorders analysis forimpaired communication children. 1st Workshop on Child, Computer and Interaction - WOCCI,IEEE International Conference on Multimodal Interfaces, 2008.

26. Ringeval F., Chetouani M. - A vowel based approach for acted emotion recognition. Interspeech2008. Pages 2763-2766, 2008.

27. Mahdhaoui A., Chetouani M., Zong C. - Motherese Detection Based On Segmental and Supra-Segmental Features. IAPR International Conference on Pattern Recognition, ICPR 2008. TampaFlorida, USA, 2008.

28. Mahdhaoui A., Chetouani M. - Automatic motherese detection for Parent-Infant Interaction.Speech and face to face communication, workshop dedicated to the memory of Christian Benoit.Grenoble, France, 2008.

29. Ringeval F., Chetouani M. - Une approche basée voyelle pour la reconnaissance d'émotionsactées. JEP'08 (Journées d'Etudes sur la Parole). Avignon, France, 2008.

30. Dahmani H., Selouani S.A, Chetouani M., Doghmane N. - Prosody Modelling of Speech Apha-sia : Case Study of Algerian Patients. International Conference on Information & CommunicationTechnologies : from Theory to Applications. Damascus, Syria, 2008.

31. Zong C., Chetouani M. - Hilbert-Huang transform based physiological signals analysis for emo-tion recognition. IEEE Symposium on Signal Processing and Information Technology (ISSPIT'09),2009.

32. Mahdhaoui A., Ringeval F., Chetouani M. - Emotional speech characterization based on multi-features fusion for face-to-face interaction. International Conference on Signals, Circuits and Sys-tems (SCS09), 2009.

33. Chetouani M. (2009). Mutlisensory Signal Processing for Emotion Recognition. Workshop on�Current Challenges and Future Perspectives of Emotional Humanoid Robotics�, IEEE Interna-tional Conference on Robotics and Automation (ICRA'09), 2009.

34. Mahdhaoui A., Chetouani M., Cassel R.S., Saint-Georges C., Laznik M-C., Apicella F., Mu-ratori F., Maestro S., Cohen D. - Home video segmentation for motherese may help to detectimpaired interaction between infants. Innovative Research In Autism (IRIA2009), 2009.

35. Mahdhaoui A., Chetouani M. - A new approach for motherese detection using a semi-supervisedalgorithm. IEEE Workshop on Machine Learning for Signal Processing (MLSP'09), 2009.

36. Mahdhaoui A., Chetouani M., Kessous L. - Time-Frequency Features Extraction for InfantDirected Speech Discrimination. ISCA Tutorial and Research Workshop on Non-Linear SpeechProcessing (NOLISP09), 2009.

14

132 Curriculum vitæ

Page 147: "Traitement du signal social et robotique personnelle: Signaux actes ...

37. Ringeval F., Chetouani M. - Hilbert-Huang transform for non-linear characterization of speechrhythm. ISCA Tutorial and Research Workshop on Non-Linear Speech Processing (NOLISP09),2009.

38. Al Moubayed S., Baklouti M., Chetouani M., Dutoit, T., Mahdhaoui A., Martin J-C, Ondas S.,Pelachaud C., Urbain J., Yilmaz M. - Generating Robot/Agent Backchannels During a Storytel-ling Experiment. IEEE International Conference on Robotics and Automation (ICRA'09), Japan,2009.

39. Riviello M. T., Chetouani M., Cohen D., Esposito A. - On the perception of emotional voices : Across-cultural comparison among American, French and Italian subjects. COST 2102 InternationalConference on Analysis of Verbal and Nonverbal Communication and Enactment : The ProcessingIssues, 2010.

40. Zong, C., Chetouani M., Tapus A. - Automatic Gait Characterization for a Mobility AssistanceSystem. International Conference on Control, Automation, Robotics and Vision (ICARCV 2010),2010.

41. Delaherche E., Chetouani M. - Multimodal coordination : exploring relevant features and mea-sures. Second International Workshop on Social Signal Processing, ACM Multimedia, 2010.

42. Chetouani M., Wu Y., Jost C., Le Pevedic B., Fassert C., Cristiancho-Lacroix V., Lassiaille S.,Granata, C., Tapus, A., Duhaut, D., Rigaud A.S.- Cognitive Services for Elderly People : TheRobadom project. ECCE 2010 Workshop : Robots that Care, European Conference on CognitiveErgonomics, 2010.

43. Granata C., Chetouani M., Tapus A., Bidaud P., Dupourque V. - Voice and Graphical basedInterfaces for Interaction with a Robot Dedicated to Elderly and People with Cognitive Disorders.19th IEEE International Symposium in Robot and Human Interactive Communication (Ro-Man2010), 2010.

44. Mahdhaoui A., Chetouani M. - Emotional Speech Classi�cation Based On Multi View Charac-terization. IAPR International Conference on Pattern Recognition (ICPR), 2010.

45. Riviello M. T., Chetouani M., Cohen D., Esposito A. - Inferring emotional information fromvocal and visual cues : A cross-cultural comparison. COST 2102 Final Conference in conjunctionwith the 4th Training school on Cognitive Behaviourial Systems, 2011.

46. Wu Y-H,Chetouani M., Cristancho-Lacroix V., Le Maître J., Jost C., Le Pevedic B., Duhaut D.,Granata C., Rigaud A.S. - ROBADOM : The Impact of a Domestic Robot on Psychological andCognitive State of the Elderly with Mild Cognitive Impairment. 5th CRI (Companion RoboticsInstitute) Workshop AAL User-Centric Companion Robotics Experimentoria, Supporting Socio-ethically Intelligent Assistive Technologies Adoption, 2011.

47. Zong C., Clady C., Chetouani M. - An Embedded Human Motion Capture System for AnAssistive Walking Robot, International Conference on Rehabilitation Robotics (ICORR), 2011.

48. Delaherche E., Chetouani M. - Characterization of coordination in an imitation task : humanevaluation and automatically computable cues. 13th International Conference on Multimodal In-teraction (ICMI), 2011.

49. Delaherche E., Chetouani M. - Automatic recognition of coordination level in an imitation task.ACM International Conference on Multimedia, Third International Workshop on Social SignalProcessing, 2011.

� Communications dans des conférences et groupes de travail nationaux :

1. Chetouani M., Gas B., Zarader J.L., - Une architecture modulaire pour l'extraction de carac-téristiques en reconnaissance de phonèmes. 19éme Colloque du GRETSI. Paris, France, 2003.

2. Chetouani M., Gas B., Zarader J.L., - Stratégies pour l'extraction de caractéristiques en re-connaissance de phonèmes. RJC'03, Réseau de jeunes chercheurs en parole. Grenoble, France,2003.

15

Curriculum vitæ 133

Page 148: "Traitement du signal social et robotique personnelle: Signaux actes ...

3. Chetouani M., Gas B., Zarader J.L., - Coopération entre codeurs neuro-prédictifs pour l'extrac-tion de caractéristiques en reconnaissance de phonèmes. RFIA'04 (Reconnaissance des Formes etIntelligence Arti�cielle). Toulouse, France, 2004.

4. Gas B., Charbuillet C., Chetouani M., Zarader J.L.- Paramétres NPC pour la segmentationet le regroupement de locuteurs dans un �ux audio. Workshop sur l'Evaluation de Systèmes deTranscription enrichie d'Emissions Radiophoniques (ESTER), 2005.

5. Ketchazo C., Chetouani M. - Extraction de caractéristiques dans les signaux de parole patho-logique. Journées de Phonétique Clinique. Grenoble, France, 2007.

6. Charbuillet C., Gas B., Chetouani M., Zarader J.L. - Combinaison de codeurs par algorithmegénétique : Application à la véri�cation de locuteur. GRETSI'07. Troyes, France.

7. Dahmani H., Selouani S.A, Chetouani M., Doghmane N. -Ressources linguistiques pour l'as-sistance aux aphasiques d'une région de l'est algérien. Réseau de jeunes chercheurs en parole,RJCP'07. Paris, France, 2007.

8. Ringeval F., Chetouani M., Zarader J.L. - Analyse et identi�cation automatique des troubles dela parole chez les enfants autistes. Réseau de jeunes chercheurs en parole, RJCP'07. Paris, France.

9. Chetouani M., Interaction cognitive, Journées Nationales de Recherche en Robotique (JNRR'09),2009.

� Brevet :

1. Bidaud Ph., Bouzit M., Chetouani M. - Support d'écran interactif. Demande de brevet N�1054317 du 02 juin 2010, étendu à l'Europe, Amérique du Nord et Japon.

� Publications soumises :

1. Delaherche, E., Chetouani M., Mahdhaoui A., Saint-Georges C., Viaux S., Cohen D., Evalua-tiono�nterpersonal synchrony : multidisciplinary approaches - IEEE Transactions on A�ectiveComputing.

2. Le Maître J., Chetouani M. - Self-talk discrimination in Human-Robot Interaction SituationsFor Engagement Characterization - International Journal of Social Robotics (en révision).

3. Cassel R., Saint-Georges C., Mahdhaoui A., Chetouani M., Laznik M.C., Muratori F., AdrienJ.-L., Cohen D. - Course of maternal prosodic incitation (motherese) during early development inautism : an exploratory home movie study - Interaction Studies (en révision).

16

134 Curriculum vitæ

Page 149: "Traitement du signal social et robotique personnelle: Signaux actes ...

Sélection d'articles

Page 150: "Traitement du signal social et robotique personnelle: Signaux actes ...

136 Sélection d'articles

Pattern recognition

Travaux initiés lors d'une visite (printemps 2005) à l'université de Mataro(Marcos Faundez-Zanuy) dans le cadre de l'action Européenne COST 277Non-Linear Speech Processing.

Page 151: "Traitement du signal social et robotique personnelle: Signaux actes ...

Pattern Recognition 42 (2009) 487 -- 494

Contents lists available at ScienceDirect

Pattern Recognition

journal homepage: www.e lsev ier .com/ locate /pr

Investigation on LP-residual representations for speaker identification

M. Chetouania,∗, M. Faundez-Zanuyb, B. Gasa, J.L. ZaraderaaUniversité Pierre et Marie Curie (UPMC), 4 Place Jussieu, 75252 Paris Cedex 05, FrancebEscola Universitària Politècnica de Mataró, Barcelona, Spain

A R T I C L E I N F O A B S T R A C T

Article history:Received 9 February 2007Received in revised form 23 May 2008Accepted 5 August 2008

Keywords:Feature extractionSpeaker identificationLP-residueNon-linear speech processing

Feature extraction is an essential and important step for speaker recognition systems. In this paper,we propose to improve these systems by exploiting both conventional features such as mel frequencycepstral coding (MFCC), linear predictive cepstral coding (LPCC) and non-conventional ones. The methodexploits information present in the linear predictive (LP) residual signal. The features extracted fromthe LP-residue are then combined to the MFCC or the LPCC. We investigate two approaches termed astemporal and frequential representations. The first one consists of an auto-regressive (AR) modelling ofthe signal followed by a cepstral transformation in a similar way to the LPC–LPCC transformation. In orderto take into account the non-linear nature of the speech signals we used two estimation methods basedon second and third-order statistics. They are, respectively, termed as R-SOS-LPCC (residual plus second-order statistic based estimation of the AR model plus cepstral transformation) and R-HOS-LPCC (higherorder). Concerning the frequential approach, we exploit a filter bank method called the power differenceof spectra in sub-band (PDSS) which measures the spectral flatness over the sub-bands. The resultingfeatures are named R-PDSS. The analysis of these proposed schemes are done over a speaker identifica-tion problem with two different databases. The first one is the Gaudi database and contains 49 speakers.The main interest lies in the controlled acquisition conditions: mismatch between the microphones andthe interval sessions. The second database is the well-known NTIMIT corpus with 630 speakers. Theperformances of the features are confirmed over this larger corpus. In addition, we propose to comparetraditional features and residual ones by the fusion of recognizers (feature extractor + classifier). The re-sults show that residual features carry speaker-dependent features and the combination with the LPCC orthe MFCC shows global improvements in terms of robustness under different mismatches. A comparisonbetween the residual features under the opinion fusion framework gives us useful information about thepotential of both temporal and frequential representations.

© 2008 Elsevier Ltd. All rights reserved.

1. Introduction

During the last decades, significant efforts have beenmade for thedesign of efficient features for the improvement of speaker recogni-tion systems. As a result, several features have been proposed. Forinstance, Jang et al. [1] proposed an approach based on speech sig-nal decomposition by using the independent component analysis(ICA). It mainly consists of an optimisation of basis functions for sta-tistical independent feature extraction. The resulting features, sim-ilar to Gabor wavelets, increase the speaker identification rate by7.7% compared to the discrete cosine transform (DCT) for a subsetof TIMIT. Following the speech production model (i.e. source–filtermodel), some authors attempt to extract features known as speaker-dependent such as glottal information [2]. Mary et al. [3] used the

∗ Corresponding author.E-mail address: [email protected] (M. Chetouani).

0031-3203/$ - see front matter © 2008 Elsevier Ltd. All rights reserved.doi:10.1016/j.patcog.2008.08.008

potential of auto-associative neural networks for capturing short-segment (10–30ms) and sub-segmental (1–5ms) features extractedfrom linear predictive (LP) analysis. This leads to the modelling ofnot only traditional spectral features but also source and phase mod-elling. The results on speaker identification show good performancesin case of combination of these features. Despite these investigations,state-of-art systems are mostly based on the mel cepstral frequencycoding (MFCC) or the linear predictive cepstral coding (LPCC). In-deed, these short-term features have proven their efficiency in termsof performances and are adapted for the Gaussian mixture models(GMMs).

In this contribution, we propose to use additional features withthe traditional ones (MFCC and LPCC) for the improvement of recog-nition rates. These features are based on the LP-residual signal. Thepaper investigates different representations for the design of a use-ful framework for conventional speaker recognition systems. Indeed,in the case of LPCC based systems, the extraction of LP-residual fea-tures does not need too much computation.

Sélection d'articles 137

Page 152: "Traitement du signal social et robotique personnelle: Signaux actes ...

488 M. Chetouani et al. / Pattern Recognition 42 (2009) 487 -- 494

Related works on LP-residual analysis are reported in Section 2.Section 3 presents two different representations based on temporaland frequential models, respectively. The proposed representationsare tested on two different databases described in Section 4. Thefirst one is the Gaudi database [4] which allows to control the per-formances under different conditions: interval between the sessionsand the microphones mismatch. The second one is the well-knownNTIMIT corpus which has been intensely used in speaker recognitioneven if there is no mismatch between the sessions. Both databasesare used for speaker identification. The results of the experimentsare discussed in Section 5. Finally, we give conclusions and futureplans for the proposed work.

2. Related works and problem

Concerning the speech production, it is generally assumed thatthe signals are the result of the excitation of the vocal tract. Underthe framework of the LP analysis, the vocal tract is associated to thefilter (linear predictive coding, LPC) and the excitation to the residualsignal. The LP analysis consists in the estimation of LPC coefficientsby minimising the prediction error. The predicted sample s resultsfrom a linear combination of the p past samples [5]:

s(n) = −p∑

k=1

aks(n − k) (1)

The LPC coefficients ak are related to the vocal tract and may alsopartly capture speaker-dependent information. Indeed, derived fea-tures from these coefficients, namely the LPCC, are intensely used inspeaker recognition tasks. The parameter p (filter order) plays a ma-jor role in speech recognition tasks and the best scores are obtainedwith 12th order whereas in speaker recognition the most used orderis 16.

Under the traditional LP analysis, the residual is obtained by theerror between the current and the predicted samples:

r(n) = s(n) − s(n) (2)

Theoretically, the residual is uncorrelated to the speech signal and itis related to the excitation which is speaker-dependent. These fea-tures are known as source features. However, recent works on non-linear speech processing have shown that the source-filter model isnot suitable for the speech productionmodelling [6,7]. Different phe-nomena that occur during the production are non-linear and chaotic.From these investigations on non-linear processing, one can assumethat there is a dependency between the speech signal and the resid-ual.

Several investigations have been carried out to use this residualfor the improvement of speaker recognition systems [3,8–12]. Theve-naz and Hugli [8] exploit the theoretical orthogonality between thefilter (i.e. the LPC coefficients) model and the residue model. Theirresults confirm the complement nature of these representations forspeaker verification. As we mentioned previously, neural networkshave also been tested for the characterisation of the LP residual [3].In Ref. [11], auto-associative neural networks are used for the char-acterisation of the linear residue. They show that speaker recognitionsystems can attain efficient rates by using only residual features.

For an efficient design, the methods should take into accountthe nature of the residual. In the case of an original speech signal,several investigations have been carried out [6,7,13–15]. The differ-ent phenomena (turbulence, chaos, etc.) [13] occurring during theproduction, mainly due to physiological reasons, cause the presenceof non-linearities in the speech signals. These non-linearities havebeen characterised by statistical tests such as higher-order statisticsand signal distribution confirm the non-linear and non-gaussian as-sumptions [7,16]. Consequently, several representations attempting

to model the speech signals have been investigated (for more detailssee Ref. [17]). As far as the temporal models are concerned, we pre-viously proposed to extend the auto-regressive (AR) model used inthe LPC analysis (cf. Eq. (1)) by predictive neural networks [18,19].

Given the predicted samples s(n), the residual r is obtained bysubtracting the original signal s to the predicted one (cf. Eq. (2)). Theresidual should contain all the information that is not modelled bythe filter (cf. Eq. (1)). The filter coefficients estimation is based onsecond-order analysis (i.e. covariance, auto-correlation) which can-not model non-gaussian processes. One can postulate that the resid-ual has not only to be modelled by higher-order statistics but also bysecond-order statistics due to the lack of efficiency of the estimation(p order, algorithm, noise, etc.). From these considerations, severalways can be followed to model the residual. Non-linear modelling isone of the solutions used in several applications [11,20,21] due to thenon-linear nature of the residual [18,22]. The results show the po-tential and confirm the presence of non-linearities. For instance, aninteresting work done by Thyssen et al. [21] suggest the presence ofnon-linearities in the residual since several series of LPC analysis arerequired to remove all linear information from the residual. Howeverone has to be careful with this approach because, it has been noticedby Kubin [7], adaptive methods can lead to nearly Gaussian residualsignals. Other solutions can be used such as wavelet transform as inwavelet octave coefficients of residues (WOCOR) features [12].

In this contribution, we propose to exploit the fact that the residueconveys all information that are not modelled by the LPC filter (cf.Eq. (1)). Unlike to previously proposed methods mainly based onmachine learning [10,20] or signal processing [12], the approach em-ployed in this paper is based on the combination of temporal (sec-ond and higher-order statistics for AR models) and frequential (fil-ter banks) models. These investigations aim to show the potential ofresidual speech signal processing for speaker recognition tasks. Thefeatures extracted from the residual can be used as complementaryones with the LPCC or even with the MFCC.

3. Proposed representations for the LP-residue

The previous sections have shown the importance of residual sig-nals for speaker recognition tasks. The efficiency of this additionalfeature is totally related to a suitable representation. In this contri-bution, we investigate two different approaches termed as temporaland frequential ones.

3.1. Temporal approach

The temporal approach is based on an ARmodel of the LP-residue:

r(n) = −�∑

k=1

�kr(n − k) (3)

where r and �, respectively, represent the LP-residue and the filterorder, respectively. To be efficient for speech applications, cepstralderived features have to be computed. The �k coefficients are trans-formed into cepstral ones �k in a similar manner as the LPC–LPCCtransformation.

For the feature extraction process, two methods are investigated:second and higher-order statistics. The first one basically consists ofa LPC analysis of the residual r followed by a cepstral derivation, re-sulting in LPCC equivalent features. The features obtained are notedR-SOS-LPCC features in order to make a difference from the well-known LPCC features. LP cepstral models of the residue have beenalready tested on speaker recognition [23] leading to some improve-ments. In contrast to what is done in [23] where LP analysis of theresidual is combined to the MFCC by a linear discriminant analysis,the residual models are considered as additional features (as the �

138 Sélection d'articles

Page 153: "Traitement du signal social et robotique personnelle: Signaux actes ...

M. Chetouani et al. / Pattern Recognition 42 (2009) 487 -- 494 489

R-HOS-LPCC

coefficients

Inverse filtering

Speech

signal

Second-orderanalysis

LP analysis

Third-orderanalysis

R-SOS-LPCC

coefficients

Residualsignal

Fig. 1. Temporal processing applied to the residual signal r.

x [n]V (1)

V (2)

V (M)

∏Hi

Hi

S (k)

S (k)

K = Li

K = Li

1Ni

1Ni

1-

⎛⎜⎝ ⎛

⎜⎝

...

...

...

...

Fig. 2. Principle of the power difference of spectra in sub-band (PDSS) applied to the residual signal r.

coefficients). The next method is also based on an AR model (Eq. (3))but with the estimation of higher-order statistics.

The traditional LPC analysis is based on second-order statistics [5]such as the covariance and auto-correlation methods. The LPC coef-ficients (Eq. (1)) are obtained by the resolution of the Yulke–Walkerequations [5] defined as a function of the coefficients ak and theauto-correlation R (i.e. second-order statistic). A natural extension tothis procedure consists of the definition of equivalent Yulke–Walkerequations but with higher-statistics such as third-order or fourth-order moments. In speech recognition, Paliwal et al. [24] appliedsimilar ideas for the estimation of an AR model. They used a con-strained third-order cumulant approach, noted C, resulting in equiv-alent Yulke–Walker equations:

p∑k=0

akCk(i, j) = 0 (4)

with 1� i�p, 0� j� i.The third-order cumulant of signal s is defined as

Ck(i, j) =M∑

m=p+1

sm−ksm−ism−j (5)

where M is the analysis window size which is equivalent to the oneused for the auto-correlation in the LPC computation.

Following this formulation, a traditional recursion algorithm isused for the estimation of AR coefficients [24]. Derived cepstral fea-tures, similar procedure as the LPC–LPCC transformation, are appliedto noisy speech recognition. The results show that at low SNR (20dB)the cumulant estimation outperforms the auto-correlation one butit is not the case for higher SNRs.

In this contribution, we use similar models but, rather than ap-plying them to the signal s (Eq. (1)), we apply them to the residual

r (Eq. (3)). They are named R-HOS-LPCC. Fig. 1 represents the tem-poral analyses compared in this paper.

3.2. Frequential approach

Unlike the previous approach, in this section, we describe fre-quential processing of the residual signal r (Eq. (2)). This approachwas originally proposed by Hayakawa et al. [25] and was called thepower difference of spectra in sub-band (PDSS). They tested it on aspeaker identification problem. The R-PDSS features gave a rate of66.9% and the combination with LPCC features gave 99% (99.8% forthe LPCC alone).

The R-PDSS features are obtained by the following steps (cf.Fig. 2):

• Calculate the LP-residual r.• Fast Fourier transform of the residual using zero padding in order

to increase the frequency resolution: S = |fft(residue)|2.• Group the power spectrum into M sub-bands.• Calculate the ratio of the geometric to the arithmetic mean of the

power spectrum of the ith sub-band and subtract from 1:

R − PDSS(i) = 1 −(∏Hi

k=LiS(k))1/Ni

1/Ni∑Hi

k=LiS(k)

(6)

where Ni =Hi − Li + 1 is the number of frequency samples in the ithsub-band. Li and Hi are, respectively, the lower and upper frequencylimits of the ith sub-band. The same bandwidth is used for all thesub-bands.

Cepstrum analysis of the residual has been also investigated inspeech recognition [26]: filter bank analysis of the one-sided auto-correlation of the residual r plus a cepstral transformation. The fea-tures obtained named as residual cepstrum (RCEP) present some

Sélection d'articles 139

Page 154: "Traitement du signal social et robotique personnelle: Signaux actes ...

490 M. Chetouani et al. / Pattern Recognition 42 (2009) 487 -- 494

linguistic information and in combination to the LPCC, improves therecognition rates. This result and the previous arguments (cf. Section2) concerning the source-filter model are interesting because theyprove that linguistic and speaker information are present in both thefeatures: LPCC and residual. The rest of this contribution is dedicatedto the experiments and the discussion on the proposed features.

4. Experimental conditions

This section is dedicated to the description of the used corpusand the different tasks that we addressed for the evaluation of theproposed feature extraction schemes. These features are obviouslycompared to the most used methods such as the MFCC and the LPCC.The dimension of feature vectors is set to 16 for both the traditionaland residual ones (cf. Section 3, � = M = 16).

4.1. Databases

4.1.1. GaudiThe Gaudi database [4,27] was originally designed in order to

measure the performances under different controlled conditions:language, interval session and microphone. The corpus is composedof:

• 49 speakers;• four sessions with different tasks: isolated numbers, connected

numbers, text reading, conversational speech, etc.);• for each session, the utterances have been acquired in two lan-

guages (Catalan and Spanish) and simultaneously with differentmicrophones as described in Table 1.

In this contribution, the training protocol consists of using one textreading of an average duration of 1min using session 1 and MIC1.Consequently, the training session is always done with M1. Con-cerning the tests, we use nine phonologically balanced utterances(Spanish) identical for all the speakers through the sessions (3–5 s):M1–M6. We focus on the first three sessions with different micro-phones (cf. Table 2). The number of tests is 49 × 9 = 441 for eachsession and the average score is estimated on 49×9×6=2646 tests.

The speech signal has been down-sampled to 8kHz (producing atelephonic bandwidth), pre-emphasised by a first-order filter whosetransfer function isH(z)=1−0.95z−1 and normalised between−1,+1(for cumulant estimation). A 30ms Hamming window is used, andthe overlapping between adjacent frames is 2

3 . A parameterised vec-tor of 16th order was computed for each feature extraction method.

Table 1The microphones used for the Gaudi database

MIC1 SONY ECM 66B Lapel unidirectional electret (≈ 10 cm from the speaker)MIC2 AKG D40S Dynamic cardoid (≈ 30 cm from the speaker)MIC3 AKG C420 Head-mounted (low-cost microphone)

Table 2Different sessions and microphones

Ref. Session Microphone

M1 1 MIC1M2 1 MIC2M3 2 MIC1M4 2 MIC2M5 3 MIC1M6 3 MIC3

4.1.2. NTIMITThe NTIMIT database [28] is a telephonic version of the TIMIT

corpus including local and long distance calls. The database contains630 speakers (438 male and 192 female) and each of them haveuttered 10 sentences:

• Two different sentences SA1 and SA2. They are the same acrossthe 630 speakers and they have an average duration of 2.9 s.

• Eight sentences different across the speakers: three SI (averageduration of 2.9 s) and five SX sentences (average duration of 3.2 s).

Contrary to the Gaudi database (cf. Section 4.1.1), NTIMIT containsonly single session recordings with a fixed handset. However thisdatabase has been largely used for speaker recognition applications[29–31]. In spite of these successful applications, results on thisdatabase are useful because they can be compared easily. Lot of train-ing and test protocols have been defined for NTIMIT [29–31]. In thisarticle, we use the protocol called “long training–short test” initiallyproposed by Bimbot et al. [29] which consists of:

• “long training”: the five SX sentences are concatenated as a singlereference pattern for each speaker. As a result, the “long training”pattern average duration is 14.4 s.

• “short test”: SA and SI sentences are tested separately resulting in630 × 5 = 3150 tests (with an average duration of 3.2 s).

The training duration is less than the one used for the Gaudiprotocol but with more utterances for test and consequently theobtained results have a higher statistical significance [29].

The speech signal is recorded through a high quality microphoneand is sampled at 16kHz but with a bandwidth of 300–3400Hz(telephone bandwidth). A 31.5ms Hamming window is used at aframe rate of 10ms.

4.2. Speaker identification method

For the evaluation of feature schemes, we test them on thespeaker identification problem using both the databases: Gaudi (cf.Section 4.1.1) and NTIMIT (cf. Section 4.1.2).

The speaker models have been designed by a simple second-order statistic method. A covariance matrix (C) is computed for eachspeaker and the arithmetic-harmonic sphericity measure [32] is ap-plied for comparison:

�(Cj,Ctest) = log(tr(CtestC−1j ) tr(CjC

−1test)) − 2 log(P) (7)

where tr is the trace of the matrix, P is the dimension of featurevector (P = 16). The number of parameters for each speaker modelis P2 + P/2 (the covariance matrix is symmetric).

5. Results and discussions

5.1. Mismatch identification

Mismatch conditions due to acquisition or interval sessions se-riously decrease the recognition rates of speaker recognition sys-tems. As previously described in the experimental section (cf. Section4.1.1), the Gaudi database is used for speaker identification undercontrolled conditions.

Table 3 presents the speaker identification rates for the differ-ent conditions. Baseline results are represented by both the MFCCand the LPCC features. For no mismatch, training and test on M1,best results are achieved by the MFCC. However, if we add to theLPCC features residual information (R-SOS-LPCC, R-HOS-LPCC andR-PDSS), improvements are obtained but the number of features is

140 Sélection d'articles

Page 155: "Traitement du signal social et robotique personnelle: Signaux actes ...

M. Chetouani et al. / Pattern Recognition 42 (2009) 487 -- 494 491

Table 3Correct speaker identification rates for mismatch training (with M1) and test for temporal, frequential and mixed methods

Feature extraction M1 M2 M3 M4 M5 M6 Average

Temporal LPCC 94.78 73.7 74.60 66.213 55.33 52.15 69.46R-SOS-LPCC 87.98 63.72 60.32 59.18 44.45 43.99 59.94R-HOS-LPCC 83.45 55.33 57.14 50.79 42.40 33.10 53.70LPCC + R-SOS-LPCC 97.5 81.86 79.82 71.43 56.92 62.81 75.05LPCC + R-HOS-LPCC 97.96 80.04 80.04 70.521 58.05 59.64 74.37

Frequential MFCC 97.50 76.64 78.23 72.34 57.59 62.36 74.11R-PDSS 82.09 59.86 62.36 60.99 45.35 42.18 58.80

Mixed LPCC + R-PDSS 99.77 82.54 85.26 83.22 66.43 67.35 80.76

also increased from P(16) to 2 × P(32) resulting in more computa-tion. Looking to the performances of the residual information, tem-poral and frequential representations (cf. Section 3) alone give nonnegligible results: more than 80% of correct speaker identification.

Concerning the mismatch conditions, as it can be expected, forall the features the identification rates decrease. However, the lossof performances differs according to the mismatch: interval sessionand/or microphone (cf. Section 4.1.1). The impact of the acquisitionis more important than the interval session impact. When the mi-crophone changes for the same session, for instance M2, the per-formances are degraded and the rates are more or less equivalentto the interval session mismatch with the same microphone M3(cf. Table 3). For conventional features, MFCC features give the bestresults for these different conditions. The speaker-dependent infor-mation contained in the residual are also non negligible even if theconditions differ seriously. Moreover, when the residual features areadded to the LPCC as complementary features, the robustness un-der the different mismatches is clearly improved resulting in betteridentification rates than the LPCC or the MFCC alone.

The tests carried for M5 and M6 mismatches (long interval,microphone, cf. Section 4.1.1) are mostly equivalent for all the fea-tures (cf. Table 3). These tests are interesting because they give in-formation about the robustness of the features for real applications.However, for all the features except MFCC, the performance slightlydecreases. Once again, the robustness is improved by using resid-ual information and the conventional LPCC resulting in at leastequivalent MFCC results or even better.

In order to compare the performances of these features under thedifferentmismatches, we compute the average speaker identificationrate for each feature (cf. Table 3) through the conditions M1–M6 andthey are presented in Table 3. For conventional features, the bestresults are achieved by the MFCC. For the residual information, theperformances of the R-SOS-LPCC and R-PDSS are mostly equivalentand are better than the higher-order statistic based features namelythe R-HOS-LPCC. As it has been previously mentioned (cf. Section2), after an LPC analysis, linear information are still present in theLP-residue.

Concerning the additional features, the LPCC plus the residual in-formation improve the recognition rates. The average performancesshow that temporal methods are mostly equivalent. This means thatlinear and non-linear information, respectively, modelled by R-SOS-LPCC and R-HOS-LPCC, carry speaker-dependent information and arecomplementary to the LPCC. It can be explained by two main re-marks:

• Due to the imperfect LPC analysis, the LP-residue still carriesGaussian information modelled by the R-SOS-LPCC and features(cf. Section 2).

• The R-HOS-LPCC model allows to model non-gaussian distribu-tions but it is limited by the fact that it is only a third-order basedmodel (cf. Section 3).

Table 4Correct speaker identification rates for the NTIMIT database

MFCC 27.3LPCC 24.6R-SOS-LPCC 8.22R-HOS-LPCC 5.08R-PDSS 8.73

In order to overcome these limitations, non-linear models havebeen directly applied to the speech signal such as predictive neuralnetworks [9,19] resulting in improvements of the speaker identi-fication rates. Those models are inspired by the LPC analysis sincethey are a direct extension of them. For instance in the neuralpredictive coding (NPC) scheme [19], the neural weights are usedas features. Furthermore, this model can be initialised by the LPCanalysis.

5.2. Large database

The previous Gaudi database shows that residual information car-ries speaker-dependent information and it is true for all types ofmodels (temporal or frequential). In this section, we propose to con-firm these results by doing training and test on a larger databasesuch as the NTIMIT (cf. Section 4.1.2).

Table 4 presents the speaker identification rates for the wholeNTIMIT database (630 speakers) with respect to the feature extrac-tion methods. Baseline results (MFCC and LPCC) are the best onesand are more-or-less equivalent, for the same “long training–shorttest”, to the results obtained in Ref. [29]. One can notice that with adifferent protocol or classifier (i.e. GMMs, support vector machines),better results can be expected as noted in Refs. [29–31].

The results of the residual models for the whole NTMIT databaseconfirm the presence of speaker-dependent information but as it canbe expected that they are worse than the traditional features (MFCCand LPCC). Concerning the temporal models, the linear model R-SOS-LPCC gives the best results. We previously noticed similar behaviourwhich can be justified by the lack of efficiency of the LPCC analysisand the used non-gaussian model based on third-order statistics (cf.Section 5.1). The speaker identification rates given by the R-PDSSmethod are higher than for the temporal representations.

For the Gaudi database (cf. Section 5.1), we show that residualmodels can be used as complementary features for a global improve-ment of the recognition rates. Rather than doing that, we propose,in the next section, the fusion of these features in order to evaluatethis complementarity.

5.3. Opinion fusion

Information fusion is an important and effective stage for globalimprovements of the recognition rates. In this subsection, our pur-pose is to evaluate and to compare the features. We combine the

Sélection d'articles 141

Page 156: "Traitement du signal social et robotique personnelle: Signaux actes ...

492 M. Chetouani et al. / Pattern Recognition 42 (2009) 487 -- 494

Table 5Experimental results for different combinations (temporal)

Feature extraction Temporal Frequential

R-SOS-LPCC R-HOS-LPCC R-PDSS MFCC

Temporal LPCC 28.06 26.19 28.09 31.75R-SOS-LPCC 12.54 14.92 34.98R-HOS-LPCC 12.06 33.33

Table 6Experimental results for different combinations (frequential)

Feature extraction Temporal Frequential

LPCC R-SOS-LPCC R-HOS-LPCC R-PDSS

Frequential MFCC 31.75 34.98 33.33 33.33

R-PDSS 28.09 14.92 12.06

Table 7Selected combination factor � for the results shown in Tables 5 and 6

LPCC R-SOS-LPCC R-HOS-LPCC R-PDSS

MFCC 0.91 0.83 0.72 0.66LPCC 0.57 0.58 0.51R-SOS-LPCC 0.28 0.29R-HOS-LPCC 0.46

The indicated factors give the best scores (following Eq. (9)).

output of the recognizers (i.e. covariance matrix cf. Section 4.2) forall the features (i.e. conventional and non-conventional ones). Thisscheme is known as opinion fusion [33,34].

The opinion fusion procedure mainly consists in the followingsteps:

(1) Distance normalisation [35]:

o′i = 1

1 + e−ki(8)

with k = oi − (mi − 2�i)/2�i. oi is the opinion of the classifieri. o′

i ∈ [0, 1] is the normalised opinion, mi,�i are the mean andthe standard deviation of the opinions of classifier i using thegenuine speakers (intra-distances).

(2) Weighted sum combination with trained rule [34,35]:

O = �o1 + (1 − �)o2 (9)

where o1, o2 are scores (distances) provided by each classifier.� is a weighting or combination factor. A high value of � im-plies a high importance of recognizer 1 (feature extractor plusclassifier).

The fusion scores with the different features are presented inTables 5 and 6 and the scores without fusion have been reported inTable 4. One can expect that the fusion of the best scores such as theMFCC and LPCC should give the best results. But, in Tables 5 and 6,the best scores are obtained by the MFCC/R-SOS-LPCC couple andmoreover, the fusion of the MFCC and all the residual features arebetter than the MFCC–LPCC fusion. This result shows that the com-bination of MFCC and residual features is efficient for a global im-provement. The combination factor � gives useful information aboutthe contribution of each method (cf. Table 7). Even if the R-SOS-LPCCgives better scores, the MFCC contribution (� = 0.83) is higher thanthe other ones R-HOS-LPCC (� = 0.72) and R-PDSS (� = 0.66). Onecan also notice that the robustness of the LPCC (cf. Table 4) is clearlyimproved by the proposed schemes (cf. Tables 5 and 6). Regarding

the combination factors (cf. Table 7), the contributions of both LPCCand residual features are mostly of the same orders.

Concerning the fusion of residual features between them, it al-lows improvements but the attained scores are clearly less thanthe MFCC and LPCC alone (cf. Tables 4–6). However, these experi-ments have also been carried out in order to compare the residualmodels between them. R-SOS-LPCC/R-HOS-LPCC fusion is interestingbecause it compares two predictive models based on second andthird-order statistics, respectively (cf. Section 3). For a combinationfactor of � = 0.28, it seems that the second-order statistic basedmodel (i.e R-SOS-LPCC) carries less speaker-dependent informationthan the third-order one (R-HOS-LPCC) which seems to be in contra-diction with the results obtained in Table 4. However, R-SOS-LPCC/R-PDSS fusion gives better results with a same behaviour which meansthat the speaker-dependent information is not present in the simi-lar way in all the features. These results show that the exploitationof the complementarity between the features can be improved bysuitable representations.

Finally for temporal/frequential fusion, the best scores are ob-tained with a small contribution of the R-SOS-LPCC. A more impor-tant contribution by the R-HOS-LPCC is needed (cf. Table 7) but aworse score is obtained for the temporal/frequential fusion.

The results obtained using fusion show that the performancesand the robustness of the traditional features (MFCC and LPCC) areimproved by the residual ones. And, as one can expect, the contribu-tion of the conventional features are higher than the residual ones.Concerning the combination of residual features, the best scores areobtained by the fusion of the second-order model (R-SOS-LPCC) andthe frequential one (R-PDSS).

6. Conclusions

In this paper, we proposed to extract features from the LP-residualfor the improvement of speaker identification systems. Several mod-els have been investigated based on temporal and frequential ap-proaches. The temporal models are based on an auto-regressive (AR)filter and the coefficients of this model are estimated by second (SOS)or higher-order (HOSs) statistics. The SOS basedmodel is obtained bythe application of a traditional LPC analysis to the residue followedby a cepstral transformation of the LPC coefficients. The resulting fea-tures are termed R-SOS-LPCC features. Following the same schemeand the recent works on non-linear speech processing, we proposedto use higher-order statistics for the improvement of the modellingresulting in features called R-HOS-LPCC features. Concerning the fre-quential approach, a filter bank is investigated termed as the powerdifference of spectra in sub-band (PDSS) which can be interpreted

142 Sélection d'articles

Page 157: "Traitement du signal social et robotique personnelle: Signaux actes ...

M. Chetouani et al. / Pattern Recognition 42 (2009) 487 -- 494 493

as a sub-band version of the spectral flatness measure. The key ideais to extract frequential information from the LP-residue.

These temporal and frequential approaches are evaluated in aspeaker identification task. Firstly, we evaluated the robustness ofthe features (R-SOS-LPCC, R-HOS-LPCC and R-PDSS) with controlledconditions: interval between the sessions, microphones. The ob-tained results show that residual information improve the speakeridentification scores (at least 7% better than the LPCC alone). TheR-HOS-LPCC features give worse results than the R-SOS-LPCC andit has been partly justified by the presence of linear informationin the LP-residue and the modelling limitation of the R-HOS-LPCC(third-order based). The best speaker identification rates have beenattained by the combination of the LPCC and the R-PDSS features.Secondly, the different features have been tested on the well-knownNTIMIT database following the “long training–short test” protocol.The results on this larger corpus confirm that the LP-residue carriesspeaker-dependent information. In order to evaluate the potential ofthe residual features for the global improvement of speaker recog-nition systems, we proposed to compare the recognizers (featureextractor + classifier) by the opinion fusion framework. Once againthe robustness of the LPCC is clearly improved by the combinationwith residual features. And we can notice that the residual featurescan also be used with the MFCC, which initially gives best scoresalone, for a global improvement. We also focused on the fusion of theresidual features between them in order to evaluate their respectiveperformances showing that temporal (R-SOS-LPCC and R-HOS-LPCC)and frequential (R-PDSS) features convey complementary informa-tion due to the different extraction schemes: AR model and bankfilter.

This investigation on LP-residue gives us useful information aboutthe properties of the signal. Clearly, speaker-dependent informationare present and they have to be used with conventional features suchas the MFCC or the LPCC. Moreover, the robustness over the recog-nition conditions (interval sessions, microphones and telephone) isimproved. However, one can notice that this last point can be sig-nificantly improved by the use of robust methods such as cepstralmean subtraction (CMS). Concerning the future works, the limita-tion of the R-HOS-LPCC model mainly due to its estimation (third-order statistic) should be investigated. It can be done by the use ofmore higher-orders (i.e. fourth) or an association of them. It can alsobe done by non-linear models such as neural networks such as theNPC scheme [36]. Furthermore, in this contribution, we used the LP-residue but other strategies can be followed as the analysis of theNLP-residue (non-linear) as done in Ref. [9].

Acknowledgements

A part of this research was carried out during a visit at theEscola Universitària Politècnica de Mataró, Barcelona, Spain, and wasfunded by the European COST action. This work has been supportedby FEDER and MEC, TEC2006-13141-C03-02/TCM.

References

[1] G.J. Jang, T.L. Lee, Y.H. Oh, Learning statistically efficient features for speakerrecognition, Neurocomputing 49 (2002) 329–348.

[2] R.E. Slyh, E.G. Hansen, T.R. Anderson, Glottal modeling and closed-phaseanalysis for speaker recognition, in: Proceedings of the ISCA Tutorial andResearch Workshop on Speaker and Language Recognition (Odyssey'04), 2004,pp. 315–322.

[3] L. Mary, K. Sri Rama Murty, S.R. Mahadeva Prasanna, B. Yegnanaraya, Featuresfor speaker and language identification, in: Proceedings of the ISCA Tutorialand Research Workshop on Speaker and Language Recognition (Odyssey'04),2004, pp. 323–328.

[4] J. Ortega, et al., Ahumada: a large speech corpus in Spanish for speakeridentification and verification, in: Proceedings of the IEEE ICASSP'98, vol. 2,1998, pp. 773–775.

[5] B.S. Atal, S.L. Hanauer, Speech analysis and synthesis by linear prediction ofspeech wave, J. Acoust. Soc. Am. 50 (1971) 637–655.

[6] M. Faundez-Zanuy, G. Kubin, W.B. Kleijn, P. Maragos, S. McLaughlin, A.Esposito, A. Hussain, J. Schoentgen, Nonlinear speech processing: overview andapplications, Control Intelligent Syst. 30 (1) (2002) 1–10.

[7] G. Kubin, Nonlinear processing of speech, in: W.B. Kleijn, K.K. Paliwal (Eds.),Speech Coding and Synthesis, 1995, pp. 557–610.

[8] P. Thevenaz, H. Hugli, Usefulness of the LPC-residue in text-independent speakerverification, Speech Commun. 17 (1–2) (1995) 145–157.

[9] M. Faundez, D. Rodriguez, Speaker recognition using residual signal of linearand nonlinear prediction models, ICSLP 2 (1998) 121–124.

[10] B. Yegnanaraya, K.S. Reddy, S.P. Kishore, Source and system features for speakerrecognition using AANN models, in: Proceedings of the IEEE ICASSP, 2001,pp. 409–412.

[11] S.R. Mahadeva Prasanna, C.S. Gupta, B. Yegnanaraya, Extraction of speaker-specific excitation from linear prediction residual of speech, Speech Commun.48 (2006) 1243–1261.

[12] N. Zheng, T. Lee, P.C. Ching, Integration of complementary acoustic features forspeaker recognition, IEEE Signal Process. Lett., 2006.

[13] A. Esposito, M. Marinaro, Some notes on nonlinearities of speech, in: G. Chollet,et al. (Eds.), Nonlinear Speech Modeling, Lecture Notes in Artificial Intelligence,vol. 3445, 2005, pp. 1–4.

[14] S. McLaughlin, S. Hovell, A. Lowry, Identification of nonlinearities in vowelgeneration, in: Proceedings of the EUSIPCO, 1988, pp. 1133–1136.

[15] H. Teager, S. Teager, Evidence for nonlinear sound production mechanisms inthe vocal tract, in: Proceedings of the NATO ASI on Speech Production andSpeech Modeling, vol. II, 1989, pp. 241–261.

[16] S. Gazor, W. Zhang, Speech probability distribution, IEEE Signal Process. Lett.10 (7) (2003) 204–207.

[17] G. Chollet, A. Esposito, M. Faundez-Zanuy, M. Marinaro, Nonlinear speechmodeling and applications, in: Lecture Notes in Artificial Intelligence, vol. 3445,2005.

[18] M. Faundez, D. Rodriguez, Speaker recognition by means of a combination oflinear and nonlinear predictive models, in: Proceedings of the IEEE ICASSP'99,1999.

[19] M. Chetouani, M. Faundez-Zanuy, B. Gas, J.L. Zarader, A new nonlinear speakerparameterization algorithm for speaker identification, in: Proceedings of theISCA Tutorial and Research Workshop on Speaker and Language Recognition(Odyssey'04), 2004, pp. 309–314.

[20] E. Rank, G. Kubin, Nonlinear synthesis of vowels in the LP residual domainwith a regularized RBF network, in: Proceedings of the IWANN, vol. 2085(II),2001, pp. 746–753.

[21] J. Thyssen, H. Nielsen, S.D. Hansen, Non-linearities short-term prediction inspeech coding, in: Proceedings of the IEEE ICASSP'94, vol. 1, 1994, pp. 185–188.

[22] C. Tao, J. Mu, X. Xu, G. Du, Chaotic characteristics of speech signal and its LPCresidual, Acoust. Sci. Technol. 25 (1) (2004) 50–53.

[23] S.H. Chen, H.C. Wang, Improvement of speaker recognition by combiningresidual and prosodic features with acoustic features, in: Proceedings of theIEEE ICASSP'04, vol. 1, 2004, pp. 93–96.

[24] K.K. Paliwal, M.M. Sondhi, Recognition of noisy speech using cumulant-basedlinear prediction analysis, in: Proceedings of the IEEE ICASSP'91, vol. 1, 1991,pp. 429–432.

[25] S. Hayakawa, K. Takeda, F. Itakura, Speaker identification using harmonicstructure of LP-residual spectrum, in: Audio Video Biometric PersonalAuthentification, Lecture Notes in Computer Science, vol. 1206, Springer, Berlin,1997, pp. 253–260.

[26] J. He, L. Liu, G. Palm, On the use of residual cepstrum in speech recognition,in: Proceedings of the IEEE ICASSP'96, vol. 1, 1991, pp. 5–8.

[27] A. Satue-Villar, M. Faundez-Zanuy, On the relevance of language in speakerrecognition, in: Proceedings of the EUROSPEECH'99, vol. 3, 1999, pp. 1231–1234.

[28] C. Jankowski, A. Kalyanswamy, S. Basson, J. Spitz, NTIMIT: a phoneticallybalanced, continuous speech, telephone bandwidth speech database, in:Proceedings of the IEEE ICASSP, vol. 1, 1990, pp. 109–112.

[29] F. Bimbot, I. Magrin-Chagnolleau, L. Mathan, Second-order statistical measuresfor text-independent speaker identification, Speech Commun. 17 (1995)177–192.

[30] D.A. Reynolds, Speaker identification and verification using Gaussian mixturespeaker models, Speech Commun. 17 (1995) 91–108.

[31] L. Besacier, J.F. Bonastre, Subband architecture for automatic speakerrecognition, Signal Process. 80 (2000) 1245–1259.

[32] F. Bimbot, L. Mathan, Text-free speaker recognition using an arithmetic-harmonic sphericity measure, in: Proceedings of the EUROSPEECH'91, 1999,pp. 169–172.

[33] J. Kittler, M. Hatef, R.P.W. Duin, J. Matas, On combining classifiers, IEEE Trans.Pattern Anal. Mach. Intell. 20 (3) (1998) 226–239.

[34] M. Faundez-Zanuy, Data fusion in biometrics, IEEE Aerosp. Electron. Syst. Mag.20 (1) (2005) 34–38.

[35] C. Sanderson, Information fusion and person verification using speech and faceinformation, IDIAP Research Report 02-33, 1–37, September 2002.

[36] M. Chetouani, M. Faundez-Zanuy, B. Gas, J.L. Zarader, Non-linear speech featureextraction for phoneme classification and speaker recognition, in: G. Cholletet al. (Eds.), Nonlinear Speech Modeling, Lecture Notes in Artificial Intelligence,vol. 3445, 2005, pp. 344–350.

Sélection d'articles 143

Page 158: "Traitement du signal social et robotique personnelle: Signaux actes ...

494 M. Chetouani et al. / Pattern Recognition 42 (2009) 487 -- 494

About the Author—M. CHETOUANI received the M.S. degree in Robotics and Intelligent Systems from the University Pierre and Marie Curie (UPMC), Paris, 2001. He receivedthe Ph.D. degree in Speech Signal Processing from the same university in 2004. In 2005, he was an invited Visiting Research Fellow at the Department of Computer Scienceand Mathematics of the University of Stirling, UK. He was also an invited researcher at the Signal Processing Group of Escola Universitaria Politecnica de Mataro, Barcelona,Spain. He is currently an Associate Professor in Signal Processing and Pattern Recognition at the UPMC. His research activities, carried out at the Institute of IntelligentSystems and Robotics, cover the areas of non-linear speech processing, feature extraction and pattern classification for speech, speaker and language recognition. He is amember of different scientific societies (ISCA, AFCP and ISIS). He has also served as chairman, reviewer and member of scientific committees of several journals, conferencesand workshops.

144 Sélection d'articles

Page 159: "Traitement du signal social et robotique personnelle: Signaux actes ...

Sélection d'articles 145

Cognitive Computation

Travaux réalisés dans le cadre des thèses de Fabien Ringeval et d'AmmarMahdhaoui.

Page 160: "Traitement du signal social et robotique personnelle: Signaux actes ...

Time-Scale Feature Extractions for Emotional SpeechCharacterization

Applied to Human Centered Interaction Analysis

Mohamed Chetouani Æ Ammar Mahdhaoui ÆFabien Ringeval

Published online: 22 April 2009

� Springer Science+Business Media, LLC 2009

Abstract Emotional speech characterization is an

important issue for the understanding of interaction. This

article discusses the time-scale analysis problem in feature

extraction for emotional speech processing. We describe a

computational framework for combining segmental and

supra-segmental features for emotional speech detection.

The statistical fusion is based on the estimation of local

a posteriori class probabilities and the overall decision

employs weighting factors directly related to the duration

of the individual speech segments. This strategy is applied

to a real-world application: detection of Italian motherese

in authentic and longitudinal parent–infant interaction at

home. The results suggest that short- and long-term infor-

mation, respectively, represented by the short-term spec-

trum and the prosody parameters (fundamental frequency

and energy) provide a robust and efficient time-scale

analysis. A similar fusion methodology is also investigated

by the use of a phonetic-specific characterization process.

This strategy is motivated by the fact that there are varia-

tions across emotional states at the phoneme level. A time-

scale based on both vowels and consonants is proposed and

it provides a relevant and discriminant feature space for

acted emotion recognition. The experimental results on two

different databases Berlin (German) and Aholab (Basque)

show that the best performance are obtained by our pho-

neme-dependent approach. These findings demonstrate the

relevance of taking into account phoneme dependency

(vowels/consonants) for emotional speech characterization.

Keywords Emotional speech � Time-scales analysis �Feature extraction � Statistical fusion �Data-driven approach

Introduction

In the past few years, many attempts have been made to

exploit computational models for human interaction anal-

ysis. This interaction can be directed towards other Human

partners but also to machines (computers, virtual agents, or

robots). Computational models aim to characterize signals

emitted by human beings during interaction. Various

frameworks are currently being used to analyze and to

understand the interaction. One of them comes from cog-

nitive psychology and focuses on emotion [1]. The key idea

of this concept, also termed as affective computing, is that

people perceive other’s emotions through stereotyped sig-

nals (facial expressions, prosody, gestures, etc.). Another

framework, coming from linguistic field, aims at under-

standing the meaning of these signals. Indeed, humans

employ different strategies in order to convey the same

message using multi-modal signals such as specific words,

tone of voice, gesture, or more generally body language [2,

3]. Recently, a new framework has been introduced for the

study of interaction termed as Social Signal Processing

(SSP) [4] which focuses on the analysis of social signals by

measuring the amplitude, frequency, and timing of pros-

ody, facial movement, and gesture. SSP is different from

the previously mentioned frameworks in the sense that it

consists of non-linguistic and unconscious signals. More

specifically, SSP aims to predict human behaviors or atti-

tudes (agreement, interest, attention, etc.) by the analysis of

non-verbal signals and it is considered as a separate

channel of communication.

M. Chetouani (&) � A. Mahdhaoui � F. Ringeval

Institut des Systemes Intelligents et Robotique (ISIR), Universite

Pierre et Marie Curie-Paris6 (UPMC), 4 Place Jussieu, 75252

Paris Cedex, France

e-mail: [email protected]

123

Cogn Comput (2009) 1:194–201

DOI 10.1007/s12559-009-9016-9

146 Sélection d'articles

Page 161: "Traitement du signal social et robotique personnelle: Signaux actes ...

Most of the frameworks proposed in the literature for the

understanding of interaction are based on the analysis of

verbal and non-verbal signals [1, 3, 5]. The verbal com-

ponent has been extensively investigated by the speech

processing community. Non-verbal signals are expressed in

a different way among the modalities. In [5], five different

non-verbal behavioral cues have been defined: physical

appearance, gestures and postures, face and eyes behaviors,

vocal behavior, and space and environment behaviors. The

combination of different codes make it possible to convey

various information such as emotion, intention but are also

useful for managing interaction, and/or sending relational

messages (dominance, persuasion, embarrassment, etc.).

In this article, we focus on the analysis of a specific class

of non-verbal behaviors which accompanies the verbal

message termed as vocal behaviors in [5]. They allow to

group empty speech pauses (silences), non-verbal vocal-

izations (i.e., filled pauses, laughters, cries, etc.), speaking

styles (i.e., emotion, intention, etc.), and also turn-taking

patterns. Even if these behaviors do not always have lexical

meanings, they play a major role during natural interac-

tions. Many efforts have been taken to extract features with

no clear consensus on the most efficient ones [4, 6].

However, the prosody channel, characterized by the fun-

damental frequency (f0), the energy and the duration of

sounds, has various functions in human communication

since it serves to convey linguistic information, but also

para-linguistic (e.g., speakers state), and non-linguistic

information (e.g., age) [7, 8].

The remainder of this article presents various strategies

for the fusion of time-scale features in order to study

interactions. Section ‘‘Units for Emotional Speech Char-

acterization’’ reports previous works in the literature

associated with time-scale with a focus on unit selection

problem for emotion recognition. Section ‘‘Combining

Frame-Level and Segment-Based Approach for Intention

Recognition in Infant-Directed Speech’’ describes the sta-

tistical framework for the fusion of frame and segment

level features for infant-directed speech discrimination.

Section ‘‘Data-Driven Approach for Time-Scale Feature

Extraction’’ highlights the relevance of the pseudo-pho-

netic strategy for emotion recognition and provides results

and discussion for time-scale analysis.

Units for Emotional Speech Characterization

The characterization scheme can be divided in two main

steps: feature extraction and pattern classification. Regard-

ing the first step, most methods are based on statistical

measures of pitch, energy, and duration [6]. These statistical

features (e.g., mean, range, max, min, etc.) have also been

found to be related to human perception of emotions [9–11].

These features are usually termed as supra-segmental in

contrast to segmental features (short-term) such as the Mel

Frequency Cepstral Coefficients (MFCC) intensively used in

speech processing. The classification step employs tradi-

tional machine learning and pattern recognition techniques

such as distance based (nearest neighbor k-nn), decision

trees, Gaussian Mixture Models (GMM), Support Vector

Machines (SVM), and fusion of different methods [12].

One particular aspect of the speech emotion recognition

process is the use of both static features (statistics) and

static classifiers (e.g., k-nn or SVM). Indeed, the standard

unit is the speaker turn level [12–14] which consists in the

characterization of a whole sentence by a large number of

features. This approach assumes that the emotional state is

not changing during the speaker turn level. Even if the turn

level approach has proven its efficiency, other units have

been investigated for the exploitation of dynamical aspects

of emotion. The methods can be divided into two groups:

machine learning and data-driven methods.

Machine Learning Based Units

This approach employs machine learning techniques such as

Hidden Markov Models [13]. Speech and speaker recognition

techniques: short-term features and statistical modeling

(GMM, HMM) have been successfully combined with a

traditional turn based level approach [15]. In [16], a time-

scale is identified by a the extraction of short-term feature

extraction (25 ms windows, MFCC) and the use of statistical

modeling (HMM). The time-scale is called by the authors

chunk level. Once the HMM are trained (one for each emotion

class), a Viterbi segmentation is applied resulting in specific

sub-turn units that depend on emotion changes. Tested on

emotion recognition tasks, the chunk level approach outper-

forms syllable based segmentation. This was mainly due to

the fact that the proposed approach produces longer segments

than the syllable segmentation method.

Data-Driven Units

The second approach aims at exploiting various knowledge

about speech signals for the definition of units. For

instance, voiced segments are known to convey more rel-

evant information about emotion and focusing on these

segments has been proven to be efficient [1, 12]. Various

methods have been investigated for combining different

levels [12, 14–17]. In [12], the Segment Based Approach

(SBA) proposes to divide the whole utterance (turn level)

on N voiced segments and then to characterize each voiced

segments. The utterance based approach consists of the

computation of statistical features (F0, energy, spectral

shape) on the whole utterance while the SBA aims at

describing more precisely each voiced segment. From this

Cogn Comput (2009) 1:194–201 195

123

Sélection d'articles 147

Page 162: "Traitement du signal social et robotique personnelle: Signaux actes ...

local description an estimation of a posteriori class prob-

abilities is done and the whole decision consists in merging

the probabilities.

The SBA technique has been applied to emotion rec-

ognition for different well-known corpora and it outper-

forms the traditional utterance based feature extraction

technique with k-nn classifiers (best classifier for these

databases [12]): BabyEars 61.5% vs. 68.7% (SBA), Kismet

82.2% vs. 86.6% (SBA). However, with the same frame-

work, different corpora (Berlin and Danish), and various

classifiers (k-nn, SVM) different results have been

achieved. For the Berlin corpus, SBA provides similar

performance for both k-nn and SVM but it is outperformed

by the traditional utterance level approach: k-nn 67.7% vs.

59.0% (SBA), SVM 75.5% vs. 65.5% (SBA). Once again

the performance is correlated with the length of the utter-

ance: SBA provides better results for short sentences

(BabyEars, Kismet) while the turn level is more suited for

longer ones (Berlin). Additionally, it should be noted that

the performance also depends on the employed classifier as

it has been found for the Danish corpus for instance: k-nn

49.7% vs. 55.6% (SBA), SVM 63.5% vs. 56.8%.

Data-Fusion Approach

The above experiments highlight the need of investigations

into sub-units for emotional speech processing. In this

article, we propose to address this problem by data-fusion

of features extracted from different time-scales. The

investigations are carried out in two phases:

– no assumption on the sub-unit (see. ‘‘Combining frame-

level and segment-based Approach for Intention Recog-

nition in infant-directed Speech’’) Section : the idea is to

exploit speaker recognition techniques which are mainly

based on frame-level modeling (all the frames are

exploited for the characterization) as it is done in [16, 18].

– data-driven approach (see ‘‘Data-Driven Approach for

Time-Scale Feature Extraction’’) : speech signals are

characterized by prominent segments such as vowels

which are then employed as sub-units.

The next sections present the two phases applied to

different applications: motherese detection and traditional

emotion recognition tasks.

Combining Frame-Level and Segment-Based Approach

for Intention Recognition in Infant-Directed Speech

Expanded Intonation Contours

Communication of intentions is one of the major functions

of interaction that uses both linguistic (syntax, semantic)

and para-linguistic (prosody) elements. In the literature,

communication of intentions with infants has received

substantial attention [19, 20]. The main reason is that

infants are not yet linguistically competent and the com-

munication of intentions is done by prosody. More spe-

cifically, the communication is done by the parents by a

specific register termed as infant-directed speech or

motherese [21–23].

From an acoustic point of view, motherese has a clear

signature (high pitch, exaggerated intonation contours).

The phonemes, and especially the vowels, are more clearly

articulated. Motherese has been shown to be preferred by

infants over adult-directed speech and might assist infants

in learning speech sounds. The exaggerated patterns

facilitate the discrimination between the phonemes or

sounds. Similarly to what happens with infants, several

works have investigated modifications of speech registers

when talking to animals [24], foreigners [20], or robots

[25–27]. The important conclusion from this literature is

the existence of common prosodic characteristics usually

termed as expanded intonation contours (or Fernald’s

prototypical contours) [19, 22] due to their exaggerated

contours: modulations of the fundamental frequency (F0)

(mean, range).

Investigations on the characterization of these expanded

contours have identified five categories [19]: rising, falling,

flat, bell-shaped, and complex contours of the F0. These

categories are used for the communication of intents such

as attention, prohibition, approval, or comfort. For

instance, rising contours aim at eliciting attention and

encouraging a response while bell-shaped contours aim at

maintaining attention. Consequently, adults convey inten-

tional messages to infants by the use of these expanded

contours. Among the most characterized speaker’s inten-

tions, one can cite: approval, attention, and prohibition.

The classification of intention from speech signals offers an

interesting application to the time-scale problem. Two

approaches can be investigated: the use of only prosodic

description of expanded intonation contours (voiced seg-

ments) or to also extract frame-level segments.

Motherese Detection

In order to study these intentional messages and more

specifically the influence on engagement in an ecological

environment, we followed a method usually employed for

the study of infant development: home movies analysis.

For more than 30 years, interest has been growing about

family home movie of autistic infants. Typically develop-

ing infants gaze at people, turn toward voices and express

interest in communication and especially to infant-directed

speech. In contrast, infants who become autistic are char-

acterized by the presence of abnormalities in reciprocal

196 Cogn Comput (2009) 1:194–201

123

148 Sélection d'articles

Page 163: "Traitement du signal social et robotique personnelle: Signaux actes ...

social interactions and in patterns of communications [28].

Recently, researchers in autism pathology and researchers

in early social interactions highlighted the importance of

infant-directed speech for infants who will become autistic

[29, 30]. First manual investigations [31] have shown a

positive impact on the interaction and specially on the

engagement: a response (vocalization, facial expression,

gesture, etc.) by the infant to the production of infant-

directed speech by the parents.

The study of home movies is very important for future

research, but the use of this kind of database makes the

study very difficult and long. The manual annotation of

these films is very costly in time and including automatic

detection of relevant events will be of great benefit to the

longitudinal study. For the analysis of the role of infant-

directed speech during interaction, we developed an auto-

matic motherese detection system [30, 32]. The speech

corpus used in these experiments is a collection of natural

and spontaneous interactions usually used for child devel-

opment research (home movies). The corpus consists of

recordings in Italian of some mothers and fathers as they

addressed their infants. The recordings are not carried out

by professionals resulting in adverse conditions (noise,

camera, microphones, etc.). We focus on one home video

totaling 3 h of data describing the first year of an infant.

Verbal interactions of the mother have been carefully

annotated by two psycholinguists on two categories

(j = 0.69) : motherese and normal directed speech. From

this manual annotation, we extracted 100 utterances for

each class. The utterances are typically between 0.5 s and

4 s in length. For all the experiments in this paper a 10-fold

cross-validation method is employed.

System Description

As a starting-point, and following the definition of moth-

erese [21], we characterized the verbal interactions by the

extraction of supra-segmental features (prosody). To

evaluate the impact of frame-level feature extraction, seg-

mental features are also employed. Consequently, the

utterances are characterized by both segmental (short-time

spectrum) and supra-segmental (statistics of fundamental

frequency, energy) features. These features aim at repre-

senting the verbal information for the next classification

stage based on machine learning techniques. Figure 1

shows a schematic overview of the final system [30, 32]

which is described in more detail in the following

paragraphs.

Supra-Segmental Characterization

The supra-segmental characterization follows the Segment

Based Approach (see ‘‘Units for Emotional Speech

Characterization’’). Previous works on SBA [12] have

shown to be more suited for short sentences as is usually

the case in our corpus. The features consist of statistical

measures (mean, variance and range) of both the funda-

mental frequency (F0) and the short-time energy estimated

from voiced segments. An utterance Ux is segmented into

N voiced segments (Fxi) obtained by F0 extraction. Local

estimation of a posteriori probabilities is carried out for

each segment. The utterance classification combines the N

local estimations:

PðCmjUxÞ ¼XN

xi¼1

PðCmjFxiÞ � lengthðFxiÞ ð1Þ

where Cm represents the class membership.

The duration of the segments is introduced as weights of

a posteriori probabilities: importance of the measured

voiced segment (length(Fxi)) with respect to the length of

the utterance. The estimation has been carried out for

various classifiers in [30, 32] and GMMs have been found

to give good performance (number of parameters versus

performance).

Segmental Characterization

For the computation of segmental features, a 20 ms win-

dow is used, and the overlapping between adjacent frames

is 1/2. Mel Frequency Cepstrum Coefficients (MFCC) of

order 16 were computed. We exploit traditional speaker

recognition techniques [33]. For the whole utterance Ux,

a posteriori probabilities are estimated resulting in the

estimation of Pseg(Cm|Ux). The estimation can be carried

out for different time-scales: voiced, unvoiced, and whole-

sentence.

To evaluate the system performance we used the

receiver operating characteristic (ROC) methodology [34].

A ROC curve represents the tradeoff between the true

positives (TPR = true positive rate) and false positives

(FPR = false positive rate) as the classifier output threshold

value is varied. A quantitative measure, the area under

ROC curve (AUC), is computed and it represents the

overall performance of the classifier over the entire range

of thresholds. The results for different time-scales are

presented in Table 1. As can be expected voiced segments

provide better results than unvoiced ones. However, the

Segmental Feature Extraction

Supra-Segmental feature extraction

Signal

Classifier

Classifier

Fusion

Fig. 1 Motherese classification system: fusion of features extracted

from different time-scales

Cogn Comput (2009) 1:194–201 197

123

Sélection d'articles 149

Page 164: "Traitement du signal social et robotique personnelle: Signaux actes ...

best results are obtained by using the whole-sentence as is

usually done in speaker recognition showing that authentic

emotional speech recognition is still an open issue com-

pared to acted speech.

Fusion of Time-Scales

The segmental and supra-segmental characterizations pro-

vide different temporal information and a combination of

them should improve the accuracy of the detector. Many

decision techniques can be employed [35, 36] but we

investigated a simple weighted sum of likelihoods from the

different classifiers:

Cl ¼ k � log PsegðCmjUxÞ� �

þ ð1� kÞ � log PsupraðCmjUxÞ� �

ð2Þ

with l = 1 (motherese) or 2 (normal directed speech). kdenotes the weighting coefficient.

For the GMM classifier, the likelihoods can be easily

computed from a posteriori probabilities (Pseg(Cm|Ux),

Psupra(Cm|Ux))[37]. The weighting factor k is automatically

optimized in order to obtain the best results on the training

part of the database. Since we employed a 10-fold cross-

validation methodology, we present the means of the

weighting factors.

Figure 2 presents the obtained ROC curves for seg-

mental and supra-segmental features and the best combi-

nation (k = 0.6). The weighting factor reveals a balance

between the two different time-scales.

The above experiment results clearly show that even if

motherese is defined as the modulation of supra-segmental

features, using this basic definition does not produce effi-

cient results (supra-segmental models). Real-world appli-

cations, such as analysis of home movies with authentic

interactions and with a noisy environment, require the

combination of the initial definition (supra-segmental fea-

tures) with short-term features such as the MFCC as details

of the short-term spectrum. Once again, for an efficient

characterization, one should employ several features from

different time-scales.

In this section we used short- and long-term features

extracted from the short-term spectrum (MFCC) and from

the evolution of supra-segmental features (statistics of F0,

energy). By definition, the last set of features are extracted

only from the voiced segments. Consequently all the

voiced segments are processed identically even if very

well-known distinctions exist between them (e.g., vowels

versus consonants).

Data-Driven Approach for Time-Scale Feature

Extraction

Nature of the Segments

The last section showed the relevance of combining frame

and turn level approaches for emotional speech processing.

One of the main limitations of this method relies on the fact

that no sub-units are clearly identified: all the frames are

exploited as it is usually done in speech and speaker rec-

ognition tasks. In this section, we propose to extract the

frame levels on specific units defined here by taking into

account the nature of the segments: vowel or consonant.

Several investigations have been carried out on the relation

of the nature of phonemes and emotional/affective states

[17, 38–41]. All these works highlight the dependency

between emotional states and the produced phonemes. In

addition, vowel sounds seem to convey more emotional

information than voiced consonant sounds [40]. These

results motivate the need of different time-scale analysis

for emotional speech processing.

We recently proposed a new feature extraction scheme

aiming at exploiting the nature of phonemes [41]. The

approach, described in Fig. 3, uses a first segmentation

phase by the help of the Divergence Forward Backward

(DFB) algorithm [42]. The resulting stationary segments

are then classified as vowels by a criterion based on a

spectral structure measure. This process is language inde-

pendent and does not aim at the exact identification of

Table 1 Infant-directed speech discrimination performance of dif-

ferent time-scales for segmental features

Time-scale Area under the ROC

Voiced 0.78

Unvoiced 0.55

Whole sentence 0.93

Fig. 2 ROC curve for segmental and supra-segmental systems

198 Cogn Comput (2009) 1:194–201

123

150 Sélection d'articles

Page 165: "Traitement du signal social et robotique personnelle: Signaux actes ...

phonemes as this could be done by a phonetic alignment.

As a result, the obtained segments are termed as pseudo-

phonetic units. This method has been introduced for

automatic language identification [43] and consists in

characterizing pseudo-syllables which have been defined

by gathering the consonants preceding the detected vowels

(CnV structure). The study of these pseudo-syllables made

possible the characterization of two main groups of lan-

guage described in the literature: stressed (English, Ger-

man) and syllabic (French and Spanish). We recently

evaluated this segmentation system for both emotional and

non-emotional speech with an average vowel error rate of

23.29% [41].

Corpora

We evaluate a time-scale analysis by using transcripted

emotional databases: Berlin and Aholab. The Berlin corpus

[44] is commonly used for emotion recognition. Ten

utterances (five short and five long) that could be used in

everyday communication have been emotionally colored

by 10 gender equilibrated native German actors, with high

quality recording equipment (anechoic chamber). A total of

535 sentences marked as minimum 60% natural and min-

imum 80% recognizable by 20 listeners in a perception test

have been kept and phonetically labeled in a narrow tran-

scription. The Berlin corpus has a lexicon of 59 phonemes

(24 vowels and 35 consonants). The Aholab corpus [45] is

composed of 702 sentences coming from a set of different

sources: Basque newspapers, texts from several novels and

others. From all these corpora (over 580,000 sentences), a

reduced set of sentences have been extracted keeping the

original frequency of the diphonemes as far as was possi-

ble. Then, a lexical balance has been processed to get the

702 sentences. Concerning the emotions, two gender

equilibrated professional speakers acted out the sentences

in a semi-professional studio. The Aholab corpus has a

lexicon of 35 phonemes (5 vowels and 30 consonants).

Classification With the Vowel–Consonant Time-Scale

The vowel–consonant time-scale is now exploited for

emotion recognition problem by the use of the automatic

pseudo-phonetic characterization (Fig. 3). We followed a

segment-based approach (SBA) (equation 1) similar to what

has been done for infant-directed speech discrimination (see

‘‘Combining Frame-Level and Segment-Based Approach

for Intention Recognition in Infant-Directed Speech’’). But

here the segments are categorized as vowels and consonants.

The utterance decision is made by the fusion of the local

a posteriori class probabilities. This approach can be viewed

as a segment dependent based approach:

Ei ¼ arg maxi

kVowPðCijVowÞ þ kConsPðCijConsÞf g ð3Þ

where P(Ci|Vow) and P(Ci|Cons) denote the local a poste-

riori class probabilities respectively estimated from vowel

and consonant segments. kVow and kCons represent the

weighting factors for the fusion process. Different strate-

gies have been employed for the estimation of the

weighting factors [41]: static and adaptative (depending on

the vowel–consonant duration ratio). Here, we report

results for the static fusion process and the optimization is

done on training data (as previously described in Sec-

tion ‘‘Combining Frame-Level and Segment-Based

Approach for Intention Recognition in Infant-Directed

Speech’’).

The segment dependent approach has been used for

classification [41] and we report the results for only seg-

mental characterization (MFCC) and with a k-nn classifier

for different times-scales. Table 2 presents the obtained

classification scores for both Berlin and Aholab databases.

Obviously, the extraction of segmental features from

voiced segments gives better results than unvoiced ones

and the fusion of them does not improve the performance.

Similar results have been also found for the communicative

intent classification (see ‘‘Combining Frame-Level and

Segment-Based Approach for Intention Recognition in

Infant-Directed Speech’’) but the main difference relies on

the impact of taking all the frames (voiced and unvoiced)

for authentic and noisy data as it is the case for the

motherese application (see Table 1).

By using the transcription, we extracted the same fea-

tures but from vowel and consonant segments. Promising

Fig. 3 Pseudo-phonetic approach: feature extraction, classification

and fusion

Cogn Comput (2009) 1:194–201 199

123

Sélection d'articles 151

Page 166: "Traitement du signal social et robotique personnelle: Signaux actes ...

results are obtained by the vowel time-scale for emotional

speech processing: for the Berlin corpus, we obtained

76.90% for the vowel time-scale and 69.66% for the con-

sonant time-scale. And by using the automatic and non

perfect segmentation procedure (Fig. 3), we, respectively,

obtain 73.20% for vowels and 65.60% for consonants. In

addition, we also investigated the fusion of these dependent

segment levels and the best results are still obtained by the

transcription (78.51%) but the pseudo-phonetic approach

(77.80%) is more efficient than the initial voiced segment

(73.80%).

The classification results can be correlated to the number

of speakers in the databases (Berlin: 10 versus Aholab: 2).

The Aholab corpus presents less confusions between

durations than the Berlin corpus and consequently the

results are better.

Conclusion and Perspectives

This article presents a method for the combination of time-

scale features: segmental (acoustic)/supra-segmental fea-

tures (prosody) and also vowel/consonant phonemes. The

cases studies provided (authentic and longitudinal interac-

tions, acted corpus) illustrate the usefulness of combining

different time-scale feature extractions for emotional

speech classification. The advantages of this approach are

the increase in robustness and also the integration of per-

ceptual knowledge related to emotional sounds. The liter-

ature has shown the relative prominence of vowel sounds

in the perception of emotions [9–11] and the reported

framework makes it possible to employ this phenomenon.

Our future works will be devoted to the characterization

of another important phenomenon such as the rhythm. The

role of rhythm in the perception of sounds is very important

[46] and it has been shown to be efficient for language

identification [43, 47]. Most of the models proposed in the

literature for the extraction of rhythmic features require the

definition of a rhythmic unit (e.g., vowels, syllable) and a

metric (inter, intra units)[48, 49]. A first application of

these models to emotional speech processing reveals

promising results [41].

References

1. Picard R. Affective computing. Cambridge, MA: MIT Press;

1997.

2. Argyle M. Bodily communication. 2nd edn. Madison: Interna-

tional Universities Press; 1988.

3. Kendon A, Harris RM, Key MR. Organization of behavior in face

to face interactions. The Hague: Mouton; 1975.

4. Pentland A. Social signal processing. IEEE Signal Process Mag.

2007;24(4):108–11.

5. Vinciarelli A, Pantic M, Bourlard H, Pentland A. Social signals,

their function, and automatic analysis: a survey. In: IEEE inter-

national conference on multimodal interfaces (ICMI’08). 2008. p.

61–8.

6. Schuller B, Batliner A, Seppi D, Steidl S, Vogt T, Wagner J, et al.

The relevance of feature type for the automatic classification of

emotional user states: low level descriptors and functionals. In:

Proceedings of interspeech; 2007. p. 2253–6.

7. Keller E. The Analysis of voice quality in speech processing. In:

Chollet G, Esposito A, Faundez-Zanuy M, et al. editors. Lecture

notes in computer science, vol. 3445/2005. New York: Springer;

2005. p. 54–73.

8. Campbell N. On the use of nonverbal speech sounds in human

communication. In: Esposito A, et al. editors. Verbal and non-

verbal communicational behaviours, LNAI 4775. Berlin, Hei-

delberg: Springer; 2007. p. 117–128.

9. Williams CE, Stevens KN. Emotions and speech: some acoustic

correlates. J Acoust Soc Am. 1972;52:1238–50.

10. Sherer KR. Vocal affect expression: a review and a model for

future research. Psychol Bull. 1986;99(2):143–65.

11. Murray IR, Amott JL. Toward the simulation of emotion in

synthetic speech: a review of the literature on human vocal

emotion. J Acoust Soc Am. 1993;93(2):1097–108.

12. Shami M, Verhelst W. An evaluation of the robustness of existing

supervised machine learning approaches to the classification of

emotions, speech. Speech Commun. 2007;49(3):201–12.

13. Schuller B, Rigoll G, Lang M. Hidden Markov model-based

speech emotion recognition. In: Proceedings of ICASSP’03, vol.

2. 2003. p. 1–4.

14. Lee Z, Zhao Y. Recognizing emotions in speech using short-term

and long-term features. In: Proceedings ICSLP 98; 1998. p.

2255–58.

15. Vlasenko B, Schuller B, Wendemuth A, Rigoll G. Frame vs. turn-

level: emotion recognition from speech considering static and

dynamic processing. Affect Comput Intell Interact. 2007;139–47.

16. Schuller B, Vlasenko B, Minguez R, Rigoll G, Wendemuth A.

Comparing one and two-stage acoustic modeling in the recog-

nition of emotion in speech. In: Proceedings of IEEE automatic

speech recognition and understanding workshop (ASRU 2007),

9–13 Dec 2007, Kyoto, Japan; 2007. p. 596–600.

17. Jiang DN, Cai L-H. Speech emotion classification with the

combination of statistic features and temporal features. In: Pro-

ceedings of ICME 2004 IEEE, Taipei, Taiwan; 2004. p. 1967–71.

18. Kim S, Georgiou P, Lee S, Narayanan S. Real-time emotion

detection system using speech: multi-modal fusion of different

timescale features. In: IEEE international workshop on multi-

media signal processing; 2007.

Table 2 Segmental based emotion recognition rates for different

time-scales

Time-scale Berlin (%) Aholab (%)

Voiced 73.80 99.08

Unvoiced 49.00 87.35

Static fusion 73.80 99.83

Vowels (transcription) 76.90 99.46

Consonants (transcription) 69.66 97.60

Static fusion 78.51 99.47

Vowels (detected) 73.20 98.47

Consonants (detected) 65.60 98.25

Static fusion 77.80 99.59

200 Cogn Comput (2009) 1:194–201

123

152 Sélection d'articles

Page 167: "Traitement du signal social et robotique personnelle: Signaux actes ...

19. Fernald A, Simon T. Expanded intonation contours in mother’s

speech to newborns. Dev Psychol.1987;20(1):104–13.

20. Uther M, Knoll MA, Burnham D. Do you speak E-NG-L-I-SH? A

comparison of foreigner- and infant directed speech. Speech

Commun. 2007;49:2–7.

21. Fernald A, Kuhl P. Acoustic determinants of infant preference for

Motherese speech. Infant Behav Dev. 1987;10:279–93.

22. Fernald A. Intonation and communication intent in mothers

speech to infants: is the melody the message? Child Dev.

1989;60:1497–510.

23. Slaney M, McRoberts G. Baby ears: a recognition system for

affective vocalizations. Speech Commun. 2003;39(3–4):367–84.

24. Burnham D, Kitamura C, Vollmer-Conna U. What’s new,

Pussycat? On talking to babies and animals. Science.

2002;296:1435.

25. Varchavskaia P, Fitzpatrick P, Breazeal C. Characterizing and

processing robot-directed speech. In: Proceedings of the IEEE/

RAS international conference on humanoid robots. Tokyo, Japan,

22–24 Nov 2001.

26. Batliner A, Biersack S, Steidl S. The prosody of pet robot

directed speech: evidence from children. In: Proceedings of

speech prosody; 2006. p. 1–4.

27. Breazeal C, Aryananda L. Recognition of affective communicative

intent in robot-directed speech. Auton Robots. 2002;12:83–104.

28. Maestroa S, et al. Early behavioral development in autistic chil-

dren: the first 2 years of life through home movies. Psychopa-

thology. 2001;34:147–52.

29. Muratori F, Maestro S. Autism as a downstream effect of primary

difficulties in intersubjectivity interacting with abnormal develop-

ment of brain connectivity. Int J Dialog Sci Fall. 2007;2(1):93–118.

30. Mahdhaoui A, Chetouani M, Zong C, Cassel RS, Saint-Georges

C, Laznik M-C, et al. Automatic Motherese detection for face-to-

face interaction analysis. In: Anna Esposito, et al. editors. Mul-

timodal signals: cognitive and algorithmic issues. Berlin:

Springer; 2009. p. 248–55.

31. Laznik MC, Maestro S, Muratori F, Parlato E. Les interactions

sonores entre les bebes devenus autistes et leur parents. In:

Castarde MF, Konopczynski G, editors. Au commencement tait

la voix. Ramonville Saint-Agne: Eres; 2005. p. 171–81.

32. Mahdhaoui A, Chetouani M, Zong C. Motherese detection based

on segmental and supra-segmental features. In: IAPR interna-

tional conference on pattern recognition, ICPR 2008; 2008.

33. Chetouani M, Faundez-Zanuy M, Gas B, Zarader JL. Investiga-

tion on LP-residual representations for speaker identification.

Pattern Recogn. 2009;42(3):487–94.

34. Duda RO, Hart PE, Stork DG. Pattern classification. 2nd edn.

New York: Wiley; 2000.

35. Kuncheva I. Combining pattern classifiers: methods and algo-

rithms. Wiley-Interscience; 2004.

36. Monte-Moreno E, Chetouani M, Faundez-Zanuy M, Sole-Casals

J. Maximum likelihood linear programming data fusion for

speaker recognition. Speech Commun; 2009 (in press).

37. Reynolds D. Speaker identification and verification using

Gaussian mixture speaker models. Speech Commun.

1995;17:91108.

38. Leinonen L, Hiltunen T, Linnankoski I, Laakso MJ. Expression

or emotional–motivational connotations with a one-word utter-

ance. J Acoust Soc Am. 1997;102(3):1853–63.

39. Pereira C, Watson C. Some acoustic characteristics of emotion.

In: International conference on spoken language processing

(ICSLP98); 1998. p. 927–30.

40. Lee CM, Yildirim S, Bulut M, Kazemzadeh A, Busso C, Deng Z,

Lee S, Narayanan S. Effects of emotion on different phoneme

classes. J Acoust Soc Am. 2004;116:2481.

41. Ringeval F, Chetouani M. A vowel based approach for acted

emotion recognition. In: Proceedings of interspeech’08; 2008.

42. Andr-Obrecht R. A new statistical approach for automatic speech

segmentation. IEEE Trans ASSP. 1988;36(1):29–40.

43. Rouas JL, Farinas J, Pellegrino F, Andr-Obrecht R. Rhythmic

unit extraction and modelling for automatic language identifica-

tion. Speech Commun. 2005;47(4):436–56.

44. Burkhardt F. et al. A database of German emotional speech. In:

Proceedings of Interspeech; 2005. p. 1517–20.

45. Saratxaga I, Navas E, Hernaez I, Luengo I. Designing and

recording an emotional speech database for corpus based syn-

thesis in Basque. In: Proceedings of LREC; 2006. p. 2126–9.

46. Keller E, Port R. Speech timing: Approaches to speech rhythm.

Special session on timing. In: Proceedings of the international

congress of phonetic sciences; 2007. p. 327–29.

47. Tincoff R, Hauser M, Tsao F, Spaepen G, Ramus F, Mehler J.

The role of speech rhythm in language discrimination: further

tests with a nonhuman primate. Dev Sci. 2005;8(1):26–35.

48. Ramus F, Nespor M, Mehler J. Correlates of linguistic rhythm in

the speech signal. Cognition. 1999;73(3):265–92.

49. Grabe E, Low EL. Durational variability in speech and the

rhythm class hypothesis. Papers in Laboratory Phonology 7,

Mouton; 2002.

Cogn Comput (2009) 1:194–201 201

123

Sélection d'articles 153

Page 168: "Traitement du signal social et robotique personnelle: Signaux actes ...

154 Sélection d'articles

IEEE Transactions on Audio, Speech and Lan-

guage Processing

Travaux réalisés dans le cadre de la thèse de Fabien Ringeval, du mé-moire d'orthophonie de Julie Demouy et de la visite de György Szaszak (post-doctorant au laboratoire d'acoustique de la parole, Budapest, Hongrie).

Page 169: "Traitement du signal social et robotique personnelle: Signaux actes ...

1328 IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, VOL. 19, NO. 5, JULY 2011

Automatic Intonation Recognition for the ProsodicAssessment of Language-Impaired Children

Fabien Ringeval, Julie Demouy, György Szaszák, Mohamed Chetouani, Laurence Robel, Jean Xavier,David Cohen, and Monique Plaza

Abstract—This study presents a preliminary investigation intothe automatic assessment of language-impaired children’s (LIC)prosodic skills in one grammatical aspect: sentence modalities.Three types of language impairments were studied: autism dis-order (AD), pervasive developmental disorder-not otherwisespecified (PDD-NOS), and specific language impairment (SLI).A control group of typically developing (TD) children that wasboth age and gender matched with LIC was used for the analysis.All of the children were asked to imitate sentences that provideddifferent types of intonation (e.g., descending and rising contours).An automatic system was then used to assess LIC’s prosodicskills by comparing the intonation recognition scores with thoseobtained by the control group. The results showed that all LIChave difficulties in reproducing intonation contours because theyachieved significantly lower recognition scores than TD childrenon almost all studied intonations . Regarding the“Rising” intonation, only SLI children had high recognitionscores similar to TD children, which suggests a more pronouncedpragmatic impairment in AD and PDD-NOS children. The auto-matic approach used in this study to assess LIC’s prosodic skillsconfirms the clinical descriptions of the subjects’ communicationimpairments.

Index Terms—Automatic intonation recognition, prosodic skillsassessment, social communication impairments.

I. INTRODUCTION

S PEECH is a complex waveform that conveys a lot ofuseful information for interpersonal communication and

human–machine interaction. Indeed, a speaker not only pro-

Manuscript received April 17, 2010; revised August 15, 2010 and October15, 2010; accepted October 18, 2010. Date of publication October 28, 2010;date of current version May 13, 2011. This work was supported in part by theFrench Ministry of Research and Superior Teaching and by the Hubert–Curienpartnership between France (EGIDE www.egide.asso.fr) and Hungary (TéT,OMFB-00364/2008). The associate editor coordinating the review of this man-uscript and approving it for publication was Prof. Renato De Mori.

F. Ringeval and M. Chetouani are with the Institute of Intelligent Systemsand Robotics, University Pierre and Marie Curie, 75005 Paris, France (e-mail:[email protected]; [email protected]).

J. Demouy and J. Xavier are with the Department of Child and AdolescentPsychiatry, Hôpital de la Pitié-Salpêtrière, University Pierre and Marie Curie,75013 Paris, France (e-mail: [email protected]; [email protected]).

G. Szaszák is with the Department for Telecommunication and Media Infor-matics, Budapest University of Technology and Economics, H-1117 Budapest,Hungary (e-mail: [email protected]).

L. Robel is with the Department of Child and Adolescent Psychiatry, HôpitalNecker-Enfants Malades, 75015 Paris, France (e-mail: [email protected]).

D. Cohen and M. Plaza are with the Department of Child and AdolescentPsychiatry, Hôpital de la Pitié-Salpêtrière, University Pierre and Marie Curie,75013 Paris, France, and also with the Institute of Intelligent Systems andRobotics, University Pierre and Marie Curie, 75005 Paris, France (e-mail:[email protected]; [email protected]).

Color versions of one or more of the figures in this paper are available onlineat http://ieeexplore.ieee.org.

Digital Object Identifier 10.1109/TASL.2010.2090147

duces a raw message composed of textual information whenhe or she speaks but also transmits a wide set of informationthat modulates and enhances the meaning of the producedmessage [1]. This additional information is conveyed in speechby prosody and can be directly (e.g., through sentence modalityor word focus) or indirectly (e.g., idiosyncrasy) linked to themessage. To properly communicate, knowledge of the pre-es-tablished codes that are being used is also required. Indeed, therichness of social interactions shared by two speakers throughspeech strongly depends on their ability to use a full range ofpre-established codes. These codes link acoustic speech real-ization and both linguistic- and social-related meanings. Theacquisition and correct use of such codes in speech thus playan essential role in the inter-subjective development and socialinteraction abilities of children. This crucial step of speechacquisition relies on cognition and is supposed to be functionalin the early stages of a child’s life [2].

A. Prosody

Prosody is defined as the supra-segmental properties of thespeech signal that modulate and enhance its meaning. It aims toconstruct discourse through expressive language at several com-munication levels, i.e., grammatical, pragmatic, and affectiveprosody [3]. Grammatical prosody is used to signal syntacticinformation within sentences [4]. Stress is used to signal, forexample, whether a token is being used as a noun (convict) or averb (convict). Pitch contours signal the ends of utterances anddenote whether they are, for example, questions (rising pitch)or statements (falling pitch). Pragmatic prosody conveys thespeaker’s intentions or the hierarchy of information within theutterance [3] and results in optional changes in the way an utter-ance is expressed [5]. Thus, it carries social information beyondthat conveyed by the syntax of the sentence. Affective prosodyserves a more global function than those served by the prior twoforms. It conveys a speaker’s general state of feeling [6] and in-cludes associated changes in register when talking to differentlisteners (e.g., peers, young children or people of higher socialstatus) [3].

Because prosodic deficits contribute to language, commu-nication and social interaction disorders and lead to socialisolation, the atypical prosody in individuals with commu-nication disorders became a research topic. It appears thatprosodic awareness underpins language skills, and a deficiencyin prosody may affect both language development and socialinteraction.

1558-7916/$26.00 © 2010 IEEE

Sélection d'articles 155

Page 170: "Traitement du signal social et robotique personnelle: Signaux actes ...

RINGEVAL et al.: AUTOMATIC INTONATION RECOGNITION FOR THE PROSODIC ASSESSMENT OF LANGUAGE IMPAIRED CHILDREN 1329

B. Prosodic Disorders in Language-Impaired Children

Most children presenting speech impairments have limitedsocial interactions, which contributes to social isolation. A de-velopmental language disorder may be secondary to hearingloss or acquired brain injury and may occur without specificcause [7]. In this case, international classifications distinguishspecific language impairment (SLI), on one hand, and languageimpairment symptomatic of a developmental disorder (e.g., Per-vasive Developmental Disorders-PDD) on the other. The formercan affect both expressive and receptive language and is definedas a “pure” language impairment [8]. The latter, PDD, is char-acterized by severe deficits and pervasive impairment in sev-eral areas of development such as reciprocal social interactions,communication skills and stereotyped behaviors, interests, andactivities [9]. Three main disorders have been described [7]: 1)autistic disorder (AD), which manifests as early onset languageimpairment quite similar to that of SLI [10] and symptoms inall areas that characterize PDD; 2) Asperger’s Syndrome, whichdoes not evince language delay; and 3) pervasive developmentaldisorder-not otherwise specified (PDD-NOS), which is char-acterized by social, communicative and/or stereotypic impair-ments that are less severe than in AD and appear later in life.

Language-impaired children (LIC) may also show prosodicdisorders: AD children often sound differently than their peers,which adds a barrier to social integration [11]. Furthermore,the prosodic communication barrier is often persistent whileother language skills improve [12]. Such disorders notably af-fect acoustic features such as pitch, loudness, voice quality, andspeech timing (i.e., rhythm).

The characteristics of the described LIC prosodic disordersare various and seem to be connected with the type of languageimpairment.

Specific Language Impairment: Intonation has been studiedvery little in children with SLI [13]. Some researchers hypoth-esized that intonation provides reliable cues to grammaticalstructure by referring to the theory of phonological bootstrap-ping [14], which claims that prosodic processing of spokenlanguage allows children to identify and then acquire gram-matical structures as inputs. Consequently, difficulties in theprocessing of prosodic feature such as intonation and rhythmmay generate language difficulties [15]. While some studiesconcluded that SLI patients do not have significant intonationdeficits and that intonation is independent of both morphosyn-tactic and segmental phonological impairments [16]–[18],some others have shown small but significant deficits [13], [19],[20]. With regards to intonation contours production, Wells andPeppé [13] found that SLI children produced less congruentcontours than typically developing children. The authors hy-pothesized that SLI children understand the pragmatic contextbut fail to select the corresponding contour. On the topic ofintonation imitation tasks, the results seem contradictory.Van der Meulen et al. [21] and Wells and Peppé [13] foundthat SLI children were less able to imitate prosodic features.Several interpretations were proposed: 1) the weakness wasdue to the task itself rather than to a true prosodic impairment[21]; 2) a failure in working memory was more involved thanprosodic skills [21]; and 3) deficits in intonation production

at the phonetic level were sufficient to explain the failure toimitate prosodic features [13]. Conversely, Snow [17] reportedthat children with SLI showed a typical use of falling tonesand Marshall et al. [18] did not find any difference in theability to imitate intonation contours between SLI and typicallydeveloping children.

Pervasive Developmental Disorders: Abnormal prosody wasidentified as a core feature of individuals with autism [22]. Theobserved prosodic differences include monotonic or machine-like intonation, aberrant stress patterns, deficits in pitch and in-tensity control and a “concerned” voice quality. These inap-propriate patterns related to communication/sociability ratingstend to persist over time even while other language skills im-prove [23]. Many studies have tried to define the prosodic fea-tures in Autism Spectrum Disorder (ASD) patients (for a re-view see [13]). With regards to intonation contours productionand intonation contours imitation tasks, the results are contra-dictory. In a reading-aloud task, Fosnot and Jun [24] found thatAD children did not distinguish questions and statements; all ut-terances sounded like statements. In an imitation condition task,AD children performed better. The authors concluded that ADsubjects can produce intonation contours although they do notuse them or understand their communicative value. They alsoobserved a correlation between intonation imitation skills andautism severity, which suggests that the ability to reproduce in-tonation contours could be an index of autism severity. Paul etal. [3] found no difference between AD and TD children in theuse of intonation to distinguish questions and statements. Peppéand McCann [25] observed a tendency for AD subjects to uttera sentence that sounds like a question when a statement was ap-propriate. Le Normand et al. [26] found that children with ADproduced more words with flat contours than typically devel-oping children. Paul et al. [27] documented the abilities to re-produce stress in a nonsense syllable imitation task of an ASDgroup that included members with high-functioning autism, As-perger’s syndrome and PDD-NOS. Perceptual ratings and in-strumental measures revealed small but significant differencesbetween ASD and typical speakers.

Most studies have aimed to determine whether AD or SLIchildren’s prosodic skills differed from those of typicallydeveloping children. They rarely sought to determine whetherthe prosodic skills differed between diagnostic categories. Wemust note that whereas AD diagnostic criteria are quite clear,PDD-NOS is mostly diagnosed by default [28]; its criteria arerelatively vague, and it is statistically the largest diagnosedcategory [29].

Language researchers and clinicians share the challengingobjective of evaluating LIC prosodic skills by using appropriatetests. They aim to determine the LIC prosodic characteristicsto improve diagnosis and enhance children’s social interactionabilities by adapting remediation protocols to the type of dis-order. In this study, we used automated methods to assess oneaspect of the grammatical prosodic functions: sentence modal-ities (cf. Section I-A).

C. Prosody Assessment Procedures

Existing prosody assessment procedures such as the Amer-ican ones [3], [30], the British PROP [31], the Swedish one [20],

156 Sélection d'articles

Page 171: "Traitement du signal social et robotique personnelle: Signaux actes ...

1330 IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, VOL. 19, NO. 5, JULY 2011

and the PEPS-C [32] require expert judgments to evaluate thechild’s prosodic skills. For example, prosody can be evaluatedby recording a speech sample and agreeing on the transcribedcommunicative functions and prosody forms. This method,based on various protocols, requires an expert transcription.As the speech is unconstrained during the recording of thechild, the sample necessarily involves various forms of prosodybetween the speakers, which complicates the acoustic dataanalysis. Thus, most of the prosodic communication levels (i.e.,grammatical, pragmatic and affective, cf. Section I-A) are as-sessed using the PEPS-C with a constrained speech framework.The program delivers pictures on a laptop screen both as stimulifor expressive utterances (output) and as response choices toacoustic stimuli played by the computer (input). For the inputassessment, there are only two possible responses for eachproposed item to avoid undue demand on auditory memory.As mentioned by the authors, this feature creates a bias thatis hopefully reduced by the relatively large number of itemsavailable for each task. For the output assessment, the examinerhas to judge whether the sentences produced by the childrencan be matched with the prosodic stimuli of each task. Scoringoptions given to the tester are categorized into two or threepossibilities to score the imitation such as “good/fair/poor” or“right/wrong.” As the number of available items for judgingthe production of prosody is particularly low, this proceduredoes not require a high level of expertise. However, we mightwonder whether the richness of prosody can be evaluated (orcategorized) in such a discrete way. Alternatively, using manymore evaluation items could make it difficult for the tester tochoose the most relevant ones.

Some recent studies have proposed automatic systems to as-sess prosody production [33], speech disorders [34] or evenearly literacy [35] in children. Multiple challenges will be facedby such systems in characterizing the prosodic variability ofLIC. Whereas acoustic characteristics extracted by many au-tomatic speech recognition (ASR) systems are segmental (i.e.,computed over a time-fixed sliding window that is typically 32ms with an overlap ratio of 1/2), prosodic features are extractedin a supra-segmental framework (i.e., computed over varioustime scales). Speech prosody concerns many perceptual features(e.g., pitch, loudness, voice quality, and rhythm) that are all in-cluded in the speech waveform. Moreover, these acoustic corre-lates of prosody present high variability due to a set of contex-tual (e.g., disturbances due to the recording environment) andspeaker’s idiosyncratic variables (e.g., affect [36] and speakingstyle [37]). Acoustic, lexical, and linguistic characteristics of so-licited and spontaneous children’s speech were also correlatedwith age and gender [38].

As characterizing speech prosody is difficult, six design prin-ciples were defined in [33]: 1) highly constraining methods toreduce unwanted prosodic variability due to assessment proce-dure contextual factors; 2) a “prosodic minimal pairs” designfor one task to study prosodic contrast; 3) robust acoustic fea-tures to ideally detect automatically the speaker’s turns, pitcherrors and mispronunciations; 4) fusion of relevant features tofind the importance of each on the other in these disorders; 5)both global and dynamical features to catch specific contrastsof prosody; and 6) parameter-free techniques in which the algo-

rithms either are based on established facts about prosody (e.g.,the phrase-final lengthening phenomenon) or are developed inexploratory analyses of a separate data set whose characteristicsare quite different from the main data in terms of speakers.

The system proposed by van Santen et al. [33] assessesprosody on grammatical (lexical stress and phrase boundary),pragmatic (focus and style), and affective functions. Scoresare evaluated by both humans and a machine through spectral,fundamental frequency and temporal information. In almostall tasks, it was found that the automated scores correlatedwith the mean human judgments approximately as well as thejudges’ individual scores. Similar results were found with thesystem termed PEAKS [34] wherein speech recognition toolsbased on hidden Markov models (HMMs) were used to assessspeech and voice disorders in subjects with conditions such asa removed larynx and cleft lip or palate. Therefore, automaticassessments of both speech and prosodic disorders are able toperform as well as human judges specifically when the systemtends to include the requirements mentioned by [33].

D. Aims of This Study

Our main objective was to propose an automatic procedureto assess LIC prosodic skills. This procedure must differen-tiate LIC patients from TD children using prosodic impairment,which is a known clinical characteristic of LIC (cf. Section I-B).It should also overcome the difficulties created by categorizingthe evaluations and by human judging bias (cf. Section I-C). Themotives of these needs were twofold: 1) the acoustic correlatesof prosody are perceptually much too complex to be fully cat-egorized into items by humans; and 2) these features cannot bereliably judged by humans who have subjective opinions [39]in as much as inter-judge variability is also problematic. In-deed, biases and inconsistencies in perceptual judgment weredocumented [40], and the relevant features for characterizingprosody in speech were defined [41], [42]. However, despiteprogress in extracting a wide set of prosodic features, there isno clear consensus today about the most efficient features.

In the present study, we focused on the French language andon one aspect of the prosodic grammatical functions: sentencemodalities (cf. Section I-A). As the correspondences between“prosody” and “sentence-type” are language specific, the into-nation itself was classified in the present work. We aimed tocompare the performances among different children’s groups(e.g., TD, AD, PDD-NOS and SLI) in a proposed intonationimitation task by using automated approaches.

Imitation tasks are commonly achieved by LIC patients evenwith autism [43]. In a patient, this ability can be used to testthe prosodic field without any limitations due to their languagedisability. Imitation tasks introduce bias in the data because theproduced speech is not natural and spontaneous. Consequently,the intonation contours that were reproduced by subjects maynot correspond with the original ones. However, all subjectswere confronted with the same task of a single protocol of datarecording (cf. Section V-B). Moreover, the prosodic patterns thatserved to characterize the intonation contours were collectedfrom TD children (cf. Section III-D). In other words, the biasintroduced by TD children in the proposed task was included inthe system’s configuration. In this paper, any significant devia-

Sélection d'articles 157

Page 172: "Traitement du signal social et robotique personnelle: Signaux actes ...

RINGEVAL et al.: AUTOMATIC INTONATION RECOGNITION FOR THE PROSODIC ASSESSMENT OF LANGUAGE IMPAIRED CHILDREN 1331

tion from this bias will be considered to be related to grammat-ical prosodic skill impairments, i.e., intonation contours imita-tion deficiencies.

The methodological novelty brought by this study lies in thecombination of static and dynamic approaches to automaticallycharacterize the intonation contours. The static approach corre-sponds to a typical state-of-the-art system: statistical measureswere computed on pitch and energy features, and a decision wasmade on a sentence. The dynamic approach was based on hiddenMarkov models wherein a given intonation contour is describedby a set of prosodic states [44].

The following section presents previous works that accom-plished intonation contours recognition. Systems that were usedin this study are described in Section III. The recruitment and theclinical evaluation of the subjects are presented in Section IV.The material used for the experiments is given in Section V. Re-sults are provided in Section VI while Section VII is devoted toa discussion, and Section VIII contains our conclusions.

II. RELATED WORKS IN INTONATION RECOGNITION

The automatic characterization of prosody was intensivelystudied during the last decade for several purposes suchas emotion, speaker, and speech recognition [45]–[47] andinfant-directed speech, question, dysfluency, and certainty de-tection [48]–[51]. The performance achieved by these systemsis clearly degraded when they deal with spontaneous speech orcertain specific voice cases (e.g., due to the age of a child [52] ora pathology [53]). The approaches used for automatically pro-cessing prosody must deal with three key questions: 1) the timescale to define the extraction locus of features (e.g., speakerturn and specific acoustic or phonetic containers such as voicedsegments or vowels) [54]; 2) the set of prosodic descriptorsused for characterizing prosody (e.g., low-level descriptors orlanguage models); and 3) the choice of a recognition schemefor automatic decisions on the a priori classes of the prosodicfeatures. Fusion techniques were proposed to face this apparentcomplexity [55], [56]. A fusion can be achieved on the threekey points mentioned above, e.g., unit-based (vowel/consonant)fusion [57], features-based (acoustic/prosodic) fusion [58], andclassifier-based fusion [59].

Methods that are used to characterize the intonation should bebased on pitch features because the categories they must identifyare defined by the pitch contour. However, systems found in theliterature have shown that the inclusion of other types of infor-mation such as energy and duration is necessary to achieve goodperformance [60], [61]. Furthermore, detection of motherese,i.e., the specific language characterized by high pitch values andvariability that is used by a mother when speaking to her child,requires others types of features than those derived from pitchto reach satisfactory recognition scores [59].

Narayanan et al. proposed a system that used features derivedfrom the Rise-Fall-Connection (RFC) model of pitch with an

-gram prosodic language model for four-way pitch accent la-beling [60]. RFC analysis considers a prosodic event as beingcomprised of two parts: a rise component followed by a fallcomponent. Each component is described by two parameters:amplitude and duration. In addition, the peak value of pitch forthe event and its position within the utterance is recorded in

Fig. 1. Scheme of the intonation recognition system.

the RFC model. A recognition score of 56.4% was achievedby this system on the Boston University Radio News Corpus(BURNC), which includes 3 hours of read speech (radio quality)produced by six adults.

Rosenberg et al. compared the discriminative usefulness ofunits such as vowels, syllables, and word levels in the analysisof acoustic indicators of pitch accent [61]. Features were de-rived from pitch, energy, and duration through a set of statis-tical measures (e.g., max, min, mean, and standard deviation)and normalized to speakers by a z-score. By using logistic re-gression models, word level was found to provide the best scoreon the BURNC corpus with a recognition rate of 82.9%.

In a system proposed by Szaszák et al. [44], an HMM-basedclassifier was developed with the aim of evaluating intonationproduction in a speech training application for hearing impairedchildren. This system was used to classify five intonation classesand was compared to subjective test results. The automatic clas-sifier provided a recognition rate of 51.9%, whereas humansachieved 69.4%. A part of this work was reused in this study as aso-called “dynamic pitch contour classifier” (cf. Section III-B).

III. INTONATION CONTOURS RECOGNITION

The processing stream proposed in this study includes stepsof prosodic information extraction and classification (Fig. 1).However, even if the data collection phase is realized up-stream(cf. Section V-B), the methods used for characterizing the in-tonation correspond to a recognition system. As the intonationcontours analyzed in this study were provided by the imitationof prerecorded sentences, the speaker turn unit was used as adata input for the recognition system. This unit refers to the mo-ment where a child imitates one sentence. Therefore, this studydoes not deal with read or spontaneous speech but rather with

158 Sélection d'articles

Page 173: "Traitement du signal social et robotique personnelle: Signaux actes ...

1332 IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, VOL. 19, NO. 5, JULY 2011

constrained speech where spontaneity may be found accordingto the child.

During the features extraction step, both pitch and energyfeatures, i.e., low-level descriptors (LLDs), were extracted fromthe speech by using the Snack toolkit [62]. The fundamentalfrequency was calculated by the ESPS method with a framerate of 10 ms. Pre-processing steps included an anti-octavejump filter to reduce pitch estimation errors. Furthermore, pitchwas linearly extrapolated on unvoiced segments (no longer than250 ms, empirically) and smoothed by an 11-point averagingfilter. Energy was also smoothed with the same filter. Pitch andenergy features were then normalized to reduce inter-speakerand recording-condition variability. Fundamental frequencyvalues were divided by the average value of all voiced frames,and energy was normalized to 0 dB. Finally, both first-order andsecond-order derivates ( and ) were computed from thepitch and energy features so that a given intonation contour wasdescribed by six prosodic LLDs, as a basis for the followingcharacterization steps.

Intonation contours were then separately characterized byboth static and dynamic approaches (cf. Fig. 1). Before theclassification step, the static approach requires the extractionof LLD statistical measures, whereas the dynamic approach isoptimized to directly process the prosodic LLDs. As these twoapproaches were processing prosody in distinctive ways, we as-sumed that they were providing complementary descriptions ofthe intonation contours. Output probabilities returned by eachsystem were thus fused to get a final label of the recognizedintonation. A ten-fold cross-validation scheme was used forthe experiments to reduce the influence of data splitting in boththe learning and testing phases [63]. The folds were stratified,i.e., intonation contours were equally distributed in the learningdata sets to insure that misrepresented intonation contours werenot disadvantaged during the experiments.

A. Static Classification of the Intonation Contour

This approach is a typical system for classifying prosodicinformation by making an intonation decision on a sen-tence using LLD statistical measures concatenated into asuper-vector. Prosodic features, e.g., pitch, energy and theirderivates ( and ), were characterized by a set of 27 statis-tical measures (Table I) such that 162 features in total composedthe super-vector that was used to describe the intonation in thestatic approach. The set of statistical measures included notonly traditional ones such as maximum, minimum, the four firststatistical moments, and quartiles but also perturbation-relatedcoefficients (e.g., jitter and shimmer), RFC derived features(e.g., the relative positions of the minimum and maximumvalues) and features issued from question detection systems(e.g., the proportion/mean of rising/descending values) [49].

The ability of these features to discriminate and characterizethe intonation contours was evaluated by the RELIEF-F algo-rithm [64] in a ten-fold cross-validation framework. RELIEF-Fwas based on the computation of both a priori and a posteriorientropy of the features according to the intonation contours.This algorithm was used to initialize a sequential forward selec-tion (SFS) approach for the classification step. Ranked featureswere sequentially inserted in the prosodic features super-vector,

TABLE ISET OF STATISTICAL MEASURES USED FOR STATIC MODELING OF PROSODY

and we only kept those that created an improvement in the clas-sification task. This procedure has permitted us to identify therelevant prosodic features for intonation contour characteriza-tion. However, the classification task was done 162 times, i.e.,the number of extracted features in total. A -nearest-neigh-bors algorithm was used to classify the features ( was set tothree); the -nn classifier estimates the maximum likelihood ona posteriori probabilities of recognizing an intonation contour

( intonation classes) on a tested sentence bysearching the labels (issued from a learning phase) that con-tain the closest set of prosodic features to those issued from thetested sentence . The recognized intonation was obtainedby an function on the estimates of the a posteriori prob-abilities (1) [63]:

(1)

B. Dynamic Classification of the Intonation Contour

The dynamic pitch contour classifier used hidden Markovmodels (HMMs) to characterize the intonation contours byusing prosodic LLDs provided by the feature extraction steps.This system was analogous to an ASR system; however, thefeatures were based on pitch and energy, and the prosodiccontours were thus modeled instead of phoneme spectra or

Sélection d'articles 159

Page 174: "Traitement du signal social et robotique personnelle: Signaux actes ...

RINGEVAL et al.: AUTOMATIC INTONATION RECOGNITION FOR THE PROSODIC ASSESSMENT OF LANGUAGE IMPAIRED CHILDREN 1333

Fig. 2. Principle of HMM prosodic modeling of pitch values extracted from a sentence.

cepstra. The dynamic description of intonation requires a deter-mination of both the location and the duration of the intonationunits that represent different states in the prosodic contours(Fig. 2). Statistical distributions of the LLDs were estimated byGaussian mixture models (GMMs) as mixtures of up to eightGaussian components. Observation vectors (prosodic states inFig. 2) were six-dimensional, i.e., equal to the number of LLDs.Because some sentences were conveying intonation with muchshorter duration than others, both a fixed and a varying numberof states was used according to sentence duration to set theHMMs for the experiments. A fixed number of 11-state modelspatterned by eight Gaussian mixtures were found to yield thebest recognition performance in empirical optimization forHungarian. In this case, the same configuration was appliedto French because the intonations we wished to characterizewere identical to those studied in [44]. Additionally, a silencemodel was used to set the HMM’s configuration states forthe beginning and the ending of a sentence. The recognizedintonation was obtained by an function on thea posteriori probabilities (2)

(2)

The estimation of was decomposed in the samemanner as in speech recognition; according to Bayes’ rule,

specifies the prosodic probability of observationsextracted from a tested sentence , where is the proba-bility associated with the intonation contours and is theprobability associated with the sentences.

C. Fusion of the Classifiers

Because the static and dynamic classifiers provide differentinformation by using distinct processes to characterize the in-

tonation, a combination of the two should improve recognitionperformance. Although many sophisticated decision techniquesdo exist to fuse them [55], [56], we used a weighted sum of thea posteriori probabilities:

(3)

This approach is suitable because it provides the contributionof each classifier used in the fusion. In (3), the label of thefinal recognized intonation contour is attributed to a sentence

by weighting the a posteriori probabilities provided by bothstatic and dynamic based classifiers by a factor

. To assess the similarity between these two classifiers, wecalculated the statistic [50]:

(4)

where is the number of times both classifiers are wrong,is the number of times both classifiers are correct, is

the number of times when the first classifier is correct and thesecond is wrong and is the number of times when the firstclassifier is wrong and the second classifier is correct. Thestatistic takes values between [ 1; 1] and the closer the valueis to 0, the more dissimilar the classifiers are. For example,

represents total dissimilarity between the twoclassifiers. The statistic was used to evaluate how comple-mentarity the audio and visual information is for dysfluency de-tection in a child’s spontaneous speech [50].

D. Recognition Strategies

Recognition systems were first used on the control group datato define the target scores for the intonation contours. To achievethis goal, TD children’s sentences were stratified according to

160 Sélection d'articles

Page 175: "Traitement du signal social et robotique personnelle: Signaux actes ...

1334 IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, VOL. 19, NO. 5, JULY 2011

Fig. 3. Strategies for intonation contours recognition.

the intonation in a ten-fold cross-validated fashion and the aposteriori probabilities provided by both static and dynamic in-tonation classifiers were fused according to (3). LIC prosodicabilities were then analyzed by testing the intonation contourswhereas those produced by the control group were learned bythe recognition system (Fig. 3).

The TD children’s recognition scheme was thus cross-vali-dated with those of LIC: testing folds of each LIC group wereall processed with the ten learning folds that were used to clas-sify the TD children’s intonation contours. Each testing foldprovided by data from the LIC was thus processed ten times.For comparison, the relevant features set that was obtained forTD children by the static classifier was used to classify the LICintonation contours. However, the optimal weights for fusionof both static and dynamic classifiers were estimated for eachgroup separately, i.e., TD, AD, PDD-NOS, and SLI.

IV. RECRUITMENT AND CLINICAL EVALUATIONS OF SUBJECTS

A. Subjects

Thirty-five monolingual French-speaking subjects aged 6 to18 years old were recruited in two university departments ofchild and adolescent psychiatry located in Paris, France (Univer-sité Pierre et Marie Curie/Pitié-Salpêtière Hospital and Univer-sité René Descartes/Necker Hospital). They consulted for pa-tients with PDD and SLI, which were diagnosed as AD, PDD-NOS, or SLI according to the DSM-IV criteria [8]. Socio-de-mographic and clinical characteristics of the subjects are sum-marized in Table II.

To investigate whether prosodic skills differed from those ofTD children, a monolingual control group matched forchronological age (mean age years; standard deviation

years) with a ratio of 2 TD to 1 LIC child was recruitedin elementary, secondary, and high schools. None of the TDsubjects had a history of speech, language, hearing, or generallearning problems.

AD and PDD-NOS groups were assigned from patients’scores on the Autism Diagnostic Interview-Revised [66]and the Child Autism Rating Scale [67]. The psychiatricassessments and parental interviews were conducted by fourchild-psychiatrists specialized in autism. Of note, all PDD-NOSalso fulfilled diagnostic criteria for Multiple Complex Devel-opmental Disorder [68], [69], a research diagnosis used to limit

TABLE IISOCIODEMOGRAPHIC AND CLINICAL CHARACTERISTICS OF SUBJECTS

Statistics are given in the following style: Mean ;AD: autism disorder; PDD-NOS: pervasive developmentaldisorder-not otherwise specified; SLI: specific language impairment;SD: standard deviation; ADI-R: autism diagnostic interview-revised [66];CARS: child autism rating scale [67].

PDD-NOS heterogeneity and improve its stability overtime[70]. SLI subjects were administered a formal diagnosis ofSLI by speech pathologists and child psychiatrists specializedin language impairments. They all fulfilled criteria for MixedPhonologic–Syntactic Disorder according to Rapin and Allen’sclassification of Developmental Dysphasia [9]. This syndromeincludes poor articulation skills, ungrammatical utterances andcomprehension skills better than language production althoughinadequate overall for their age. All LIC subjects received apsychometric assessment for which they obtained PerformanceIntellectual Quotient scores above 70, which meant that noneof the subjects showed mental retardation.

B. Basic Language Skills of Pathologic Subjects

To compare basic language skills between pathologicalgroups, all subjects were administered an oral language assess-ment using three tasks from the ELO Battery [71]: 1) ReceptiveVocabulary; 2) Expressive Vocabulary; and 3) Word Repetition.ELO is dedicated to children 3–11 years old. Although manysubjects of our study were older than 11, their oral languagedifficulties did not allow the use of other tests because of animportant floor-effect. Consequently, we adjusted the scoringsystem and determined the severity levels. We determined foreach subject the corresponding age for each score and calcu-lated the discrepancy between “verbal age” and “chronologicalage.” The difference was converted into severity levels usinga five-level Likert-scale with 0 standing for the expected levelat that chronological age, 1 standing for a 1-year deviationfrom the expected level at that chronological age, 2 for 2-yearsdeviation, 3 for 3-years deviation, and 4 standing for 4 or moreyears of deviation.

Receptive Vocabulary: This task containing 20 items requiresword comprehension. The examiner gives the patient a picturebooklet and tells him or her: “Show me the picture in which thereis a .” The subject has to select from among four pictures theone corresponding to the uttered word. Each correct identifica-tion gives one point, and the maximum score is 20.

Expressive Vocabulary: This task containing 50 items callsfor the naming of pictures. The examiner gives the patient abooklet comprised of object pictures and asks him or her “Whatis this?” followed by “What is he/she doing?” for the final tenpictures, which show actions. Each correct answer gives one

Sélection d'articles 161

Page 176: "Traitement du signal social et robotique personnelle: Signaux actes ...

RINGEVAL et al.: AUTOMATIC INTONATION RECOGNITION FOR THE PROSODIC ASSESSMENT OF LANGUAGE IMPAIRED CHILDREN 1335

TABLE IIIBASIC LANGUAGE SKILLS OF PATHOLOGIC SUBJECTS

Statistics are given in the following style: Mean ;AD: autism disorder; PDD-NOS: pervasive developmental disorder-nototherwise specified; SLI: specific language impairment.

point and the maximum score for objects is 20 for children from3 to 6, 32 for children from 6 to 8, and 50 for children over 9.

Word Repetition: This task is comprised of 2 series of 16words and requires verbal encoding and decoding. The first se-ries contains disyllabic words with few consonant groups. Thesecond contains longer words with many consonant groups,which allows the observation of any phonological disorders.The examiner says “Now, you are going to repeat exactly whatI say. Listen carefully, I won’t repeat.” Then, the patient repeatsthe 32 words, and the maximum score is 32.

As expected given clinical performance skills in oral com-munication, no significant differences were found in vocabularytasks depending on the groups’ mean severity levels (Table III):

for the receptive task and for the expressivetask. All three groups showed an equivalent delay of 1 to 2 yearsrelative to their chronological ages. The three groups were simi-larly impaired in the word repetition task, which requires phono-logical skills. The average delay was 3 years relative to theirchronological ages .

V. DATABASE DESIGN

A. Speech Materials

Our main goal was to compare the children’s abilities to re-produce different types of intonation contours. In order to fa-cilitate reproducibility and to avoid undue cognitive demand,the sentences were phonetically easy and relatively short. Ac-cording to French prosody, 26 sentences representing differentmodalities (Table IV) and four types of intonations (Fig. 4)were defined for the imitation task. Sentences were recorded bymeans of the Wavesurfer speech analysis tool [72]. This tool wasalso used to validate that the intonation contour of the sentencesmatched the patterns of each intonation category (Fig. 4) Thereader will have to be careful with the English translations ofthe sentences given in Table IV as they may provide differentintonation contours due to French prosodic dependencies.

B. Recording the Sentences

Children were recorded in their usual environment, i.e., theclinic for LIC and elementary school/high school for the controlgroup. A middle quality microphone (Logitech USB Desktop)plugged to a laptop running Audacity software was used for therecordings. In order to limit the perception of the intonationgroups among the subjects, sentences were randomly playedwith an order that was fixed prior to the recordings. During theimitation task, subjects were asked to repeat exactly the sen-tences they had heard even if they did not catch one or several

TABLE IVSPEECH MATERIAL FOR THE INTONATION IMITATION TASK

words. If the prosodic contours of the sentences were too exag-geratedly reproduced or the children showed difficulties, thenthe sentences were replayed a couple of times.

To ensure that clean speech was analyzed in this study, therecorded data were carefully controlled. Indeed, the reproducedsentences must as much as possible not include false-starts, rep-etitions, noises from the environment or speech not related tothe task. All of these perturbations were found in the record-ings. As they might influence the decision taken on the sentenceswhen characterizing their intonation, sentences reproduced bythe children were thus manually segmented and post-processed.Noisy sentences were only kept when they presented false-startsor repetitions that could be suppressed without changing theintonation contour of the sentence. All others noisy sentenceswere rejected so that from a total of 2813 recorded sentences,2772 sentences equivalent to 1 hour of speech in total were keptfor analysis (Table V).

162 Sélection d'articles

Page 177: "Traitement du signal social et robotique personnelle: Signaux actes ...

1336 IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, VOL. 19, NO. 5, JULY 2011

Fig. 4. Groups of intonation according to the prosodic contour: (a) “Descending pitch,” (b) “Falling pitch,” (c) “Floating pitch” and (d) “Rising pitch.” (a): “That’sRémy whom will be content.,” (b): “As I’m happy!,” (c): “Anna will come with you.,” (d): “Really?” Estimated pitch values are shown as solid lines while theprosodic prototypes are shown as dashed lines.

TABLE VQUANTITY OF ANALYZED SENTENCES

REF: speech material; TD: typically developing; AD: autism disorder;PDD: pervasive developmental disorders not-otherwise specified;SLI: specific language impairment.

TABLE VISENTENCE DURATION STATISTICS OF TYPICALLY DEVELOPING CHILDREN

Statistics for sentence duration (in s,) are given in the following style:Mean ; REF: reference sentences; TD: typically

developing.

VI. RESULTS

Experiments conducted to study the children’s prosodicabilities in the proposed intonation imitation task were dividedinto two main steps. The first step was composed of a durationanalysis of the reproduced sentences by means of statisticalmeasures such as mean and standard deviation values. In thesecond step, we used the classification approaches describedin Section III to automatically characterize the intonation. Therecognition scores of TD children are seen as targets to whichwe can compare the LIC. Any significant deviation from themean TD children’s score will be thus considered to be relevantto grammatical prosodic skill impairments, i.e., intonation con-tours imitation deficiencies. A non-parametric method was usedto make a statistical comparison between children’s groups, i.e.,a p-value was estimated by the Kruskal–Wallis method. Thep-value corresponds to the probability that the compared datahave issued from the same population; is commonly

TABLE VIISTATIC, DYNAMIC AND FUSION INTONATION RECOGNITION PERFORMANCES

FOR TYPICALLY DEVELOPING CHILDREN

Performances are given as percentage of recognitionfrom a stratified ten-fold cross-validation basedapproach.

used as an alternative hypothesis where there is less than 5% ofchance that the data have issued from an identical population.

A. Typically Developing Children

Sentence Duration: Results showed that the patterns of sen-tence duration were conserved for all intonation groups whenthe sentences were reproduced by TD children . Con-sequently, the TD children’s imitations of the intonation con-tours have conserved the duration patterns of the original sen-tences (Table VI).

Intonation Recognition: Recognition scores on TD chil-dren’s intonation contours are given in Table VII. For compar-ison, we calculated the performance of a naïve classifier, whichalways attributes the label of the most represented intonation,e.g., “Descending,” to a given sentence. The statistics (cf.Section III-C) were computed for each intonation to evaluatethe similarity between classifiers during the classification task.

The naïve recognition rate of the four intonations studied inthis paper was 31%. The proposed system raises this to 70%,i.e., more than twice the chance score, for 73 TD subjects aged6 to 18. This recognition rate is equal to the average value ofscores that were obtained by other authors on the same type oftask, i.e., intonation contours recognition, but on adult speechdata and for only six speakers [60], [61]. Indeed, the age ef-fect on the performance of speech processing systems has beenshown to be a serious disturbing factor especially when dealingwith young children [52]. Surprisingly, the static and dynamicclassifiers were similar for the “Floating” intonation even whenthe dynamic recognition score was clearly higher than the static

Sélection d'articles 163

Page 178: "Traitement du signal social et robotique personnelle: Signaux actes ...

RINGEVAL et al.: AUTOMATIC INTONATION RECOGNITION FOR THE PROSODIC ASSESSMENT OF LANGUAGE IMPAIRED CHILDREN 1337

Fig. 5. Fusion recognition scores as function of weight alpha attributed to bothstatic and dynamic classifier .

TABLE VIIICONFUSION MATRIX OF THE INTONATION RECOGNITION FOR

TYPICALLY DEVELOPING CHILDREN

Tested intonations are given in rows while recognized ones are given incolumns. Diagonal values from top-left to bottom-right thus correspond tosentences that were correctly recognized by the system while all others aremiscategorized.

one (Table VII). However, because this intonation contains thesmallest set of sentences (cf. Table IV), a small dissimilaritybetween classifiers was sufficient to improve the recognitionperformance. The concept of exploiting the complementarityof the classifiers used to characterize the intonation contours(cf. Section III-C) was validated as some contours were betterrecognized by either the static or dynamic approach. Whereasboth “Rising” and “Floating” intonations were very well rec-ognized by the system, “Descending” and “Falling” intonationsprovided the lowest recognition performances. The low recog-nition score of the “Falling” intonation may be explained bythe fact that this intonation was represented by sentences thatcontained too many ambiguous modalities (e.g., question/order/counseling etc.) compared with the others.

The best recognition scores provided by the fusion of thetwo classifiers were principally conveyed by the static approachrather than by the dynamic one (Fig. 5).

As the “Floating” intonation had a descending trend, it wasconfused with the “Descending” and “Falling” intonations butnever with “Rising” (Table VIII). The “Rising” intonation ap-peared to be very specific because it was very well-recognizedand was only confused with “Falling.” Confusions with respectto the “Falling” intonation group were numerous as shown bythe scores, and were principally conveyed by both the “De-scending” and “Floating” intonations.

TABLE IXRELEVANT PROSODIC FEATURES SET IDENTIFIED BY STATIC RECOGNITION

R: raw data (i.e., static descriptor), : first-order derivate, : second-orderderivate ( , and are both dynamic descriptor).

The set of relevant prosodic features that was provided bythe SFS method, which was used for the static-based intona-tion classification (cf. Section III-A), is mostly constituted ofboth and derivates (Table IX): 26 of the 27 relevant fea-tures were issued from these measures. Features extracted frompitch are more numerous than those from energy, which may bedue to the fact that we exclusively focused on the pitch contourwhen recording the sentences (cf. Section V-A). About half ofthe features set include measures issued from typical questiondetection systems, i.e., values or differences between values atonset/target/offset and relative positions of extrema in the sen-tence. The others are composed of traditional statistical mea-sures of prosody (e.g., quartiles, slope, and standard deviationvalues). All 27 relevant features provided by the SFS methodduring static classification were statistically significant for char-acterizing the four types of intonation contours .

B. Language-Impaired Children

Sentence Duration: All intonations that were reproduced byLIC appeared to be strongly different from those of TD chil-dren when comparing sentence duration : the dura-tion was lengthened by 30% for the three first intonations andby more than 60% for the “Rising” contour (Table X). More-over, the group composed of SLI children produced significantlylonger sentences than all other groups of children except for thecase of “Rising” intonation.

Intonation Recognition: The contributions from the two clas-sification approaches that were used to characterize the into-nation contours were similar among all pathologic groups butdifferent from that for TD children: static, ; dynamic,

(Fig. 6). The dynamic approach was thus foundto be more efficient than the static one for comparing the LIC’sintonation features with those of TD children.

The statistics between the classifiers were higher for LICthan TD children so that even after recognizing that dynamicprocessing was most suitable for LIC, both the static and

164 Sélection d'articles

Page 179: "Traitement du signal social et robotique personnelle: Signaux actes ...

1338 IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, VOL. 19, NO. 5, JULY 2011

TABLE XSENTENCE DURATION STATISTICS OF THE GROUPS

Statistics for sentence duration (in s,) are given in the following style:; : alternative hypothesis is

true when comparing data between child groups, i.e., T, A, P, and S;REF: reference sentences; TD (T): typically developing; AD (A): autismdisorder; PDD (P): pervasive developmental disorders not otherwise specified;SLI (S): specific language impairment.

Fig. 6. Fusion recognition scores as function of weight alpha attributed to bothstatic and dynamic classifier .

TABLE XIQ STATISTICS BETWEEN STATIC AND DYNAMIC CLASSIFIERS

dynamic intonation recognition methods had less dissimilaritythan for TD children (Table XI).

LIC recognition scores were close to those of TD childrenand similar between LIC groups for the “Descending” into-nation while all other intonations were significantly different

between TD children and LIC (Table XII). How-ever, the system had very high recognition rates for the “Rising”intonation for SLI and TD children whereas it performed signif-icantly worse for both AD and PDD-NOS . Althoughsome differences were found between LIC groups for this into-nation, the LIC global mean scores only showed dissimilaritywith TD.

The misjudgments made by the recognition system for LICwere approximately similar to those seen for TD children(Tables XIII–XV). For all LIC, the “Floating” intonation wassimilarly confused with “Descending” and “Falling” and wasnever confused with “Rising.” However, the “Rising” intonation

TABLE XIIFUSION INTONATION RECOGNITION PERFORMANCES

Performances are given as percentage of recognition; :alternative hypothesis is true when comparing data from child groups,i.e., T, A, P, and S; TD (T): typically developing; AD (A): autism disorder;PDD (P): pervasive developmental disorders not-otherwise specified;SLI (S): specific language impairment.

TABLE XIIICONFUSION MATRIX OF THE INTONATION RECOGNITION FOR

AUTISTIC DIAGNOSED CHILDREN

Tested intonations are given in rows while recognized ones are given incolumns. Diagonal values from top-left to bottom-right thus correspond tosentences that were correctly recognized by the system while all others aremiscategorized.

TABLE XIVCONFUSION MATRIX OF THE INTONATION RECOGNITION FOR

PERVASIVE-DEVELOPMENTAL-DISORDER DIAGNOSED CHILDREN

Tested intonations are given in rows while recognized ones are given incolumns. Diagonal values from top-left to bottom-right thus correspond tosentences that were correctly recognized by the system while all others aremiscategorized.

TABLE XVCONFUSION MATRIX OF THE INTONATION RECOGNITION FOR SPECIFIC

LANGUAGE IMPAIRMENT DIAGNOSED CHILDREN

Tested intonations are given in rows while recognized ones are given incolumns. Diagonal values from top-left to bottom-right thus correspond tosentences that were correctly recognized by the system while all others aremiscategorized.

was rarely confused when two other intonations were tested.This intonation appeared to be very different from the otherthree but not for the TD group in which more errors were foundwhen the “Falling” intonation was tested.

VII. DISCUSSION

This study investigated the feasibility of using an auto-matic recognition system to compare prosodic abilities of LIC(Tables II and III) to those of TD children in an intonation

Sélection d'articles 165

Page 180: "Traitement du signal social et robotique personnelle: Signaux actes ...

RINGEVAL et al.: AUTOMATIC INTONATION RECOGNITION FOR THE PROSODIC ASSESSMENT OF LANGUAGE IMPAIRED CHILDREN 1339

imitation task. A set of 26 sentences, including statements andquestions (Table IV) over four intonation types (Fig. 4), wasused for the intonation imitation task. We manually collected2772 sentences from recordings of children. Two differentapproaches were then fused to characterize the intonationcontours through prosodic LLD: static (statistical measures)and dynamic (HMM features). The system performed wellfor TD children excepted in the case of the “Falling” into-nation, which had a recognition rate of only 55%. This lowscore may be due to the fact that too many ambiguous speechmodalities were included in the “Falling” intonation group(e.g., question/order/counseling etc.). The static recognitionapproach provided a list of 27 features that almost representeddynamic descriptors, i.e., delta and delta-delta. This approachwas contributed more than the dynamic approach (i.e., HMM)to the fusion.

Concerning LIC (AD, PDD-NOS, and SLI), the assessmentof basic language skills [71] showed that 1) there was no signif-icant difference among the groups’ mean severity levels and 2)all three groups presented a similar delay when compared to TDchildren. In the intonation imitation task, the sentence durationof all LIC subjects was significantly longer than for TD chil-dren. The sentence lengthening phenomenon added about 30%for the first three intonations and more than 60% for the “Rising”intonation. Therefore, all LIC subjects presented difficulties inimitating intonation contours with respect to duration especiallyfor the “Rising” intonation (short questions). This result corre-lates with the hypothesis that rising tones may be more difficultto produce than falling tones in children [16]. It also correlateswith the results of some clinical studies for SLI [13], [19]–[21],AD [24]–[26], and PDD-NOS [27] children although some con-tradictory results were found for SLI [18].

The best approach to recognize LIC intonation was clearlybased on a dynamic characterization of prosody, i.e., usingHMM. On the contrary, the best fusion approach favored staticcharacterization of prosody for TD children. Although scoresof the LIC’s intonation contours recognition were similar tothose of TD children for the “Descending” sentences group,i.e., statements in this study, these scores have not yet beenachieved in the same way. This difference showed that LICreproduced statement sentences similar to TD children, butthey all tended to use prosodic contour transitions rather thanstatistically specific features to convey the modality.

All other tested intonations were significantly differentbetween TD children and LIC . LIC demonstratedmore difficulties in the imitation of prosodic contours thanTD children except for the “Descending” intonation, i.e.,statements in this study. However, SLI and TD children hadvery high recognition rates for the “Rising” intonation whereasboth AD and PDD-NOS performed significantly worse. Thisresult is coherent with studies that showed PDD children havemore difficulties at imitating questions than statements [24] aswell as short and long prosodic items [25], [27]. As pragmaticprosody was strongly conveyed by the “Rising” intonation dueto the short questions, it is not surprising that such intonationrecognition differences were found between SLI and the PDDs.Indeed, both AD and PDD-NOS show pragmatic deficitsin communication, whereas SLI only expose pure language

impairments. Moreover, Snow hypothesized [16] that risingpitch requires more effort in physiological speech productionthan falling tones and that some assumptions could be maderegarding the child’s ability or intention to match the adult’sspeech. Because the “Rising” intonation included very shortsentences (half the duration) compared with others, whichinvolves low working memory load, SLI children were notdisadvantaged compared to PDDs as was found in [13].

Whereas some significant differences were found in the LIC’sgroups with the “Rising” intonation, the global mean recogni-tion scores did not show any dissimilarity between children. AllLIC subjects showed similar difficulties in the administered in-tonation imitation task as compared to TD children, whereasdifferences between SLI and both AD and PDD-NOS only ap-peared on the “Rising” intonation; the latter is probably linked todeficits in the pragmatic prosody abilities of AD and PDD-NOS.

The automatic approach used in this study to assess LICprosodic skills in an intonation imitation task confirms theclinical descriptions of the subjects’ communication impair-ments. Consequently, it may be a useful tool to adapt prosodyremediation protocols to improve both LIC’s social communi-cation and interaction abilities. The proposed technology couldbe thus integrated into a fully automated system that wouldbe exploited by speech therapists. Data acquisition could bemanually acquired by the clinician while reference data, i.e.,provided by TD children, would have already been collectedand made available to teach the prosodic models required bythe classifiers. However, because intonation contours and theassociated sentences proposed in this study are language de-pendent, they eventually must be adapted to intonation studiesin other languages than French.

Future research with examine the affective prosody of LICand TD children. Emotions were elicited during a story-tellingtask with an illustrated book that contains various emotionalsituations. Automatic systems will serve to characterize andcompare the elicited emotional prosodic particulars of LIC andTD children. Investigations will focus on several questions:1) can LIC understand depicted emotions and convey relevantprosodic features for emotional story-telling; 2) do TD childrenand LIC groups achieve similarly in the task; and 3) are theresome types of prosodic features that are preferred to conveyemotional prosody (e.g., rhythm, intonation, or voice quality)?

VIII. CONCLUSION

This study addressed the feasibility of designing a system thatautomatically assesses a child’s grammatical prosodic skills,i.e., intonation contours imitation. This task is traditionally ad-ministered by speech therapists, but we proposed the use of au-tomatic methods to characterize the intonation. We have com-pared the performance of such a system on groups of children,i.e., TD and LIC (e.g., AD, PDD-NOS, and SLI).

The records on which this study was conducted include theinformation based on both perception and production of the in-tonation contour. The administered task was very simple be-cause it was based on the imitation of sentences conveying dif-ferent types of modality through the intonation contour. Con-sequently, the basic skills of the subjects in the perception andthe reproduction of prosody were analyzed together. The results

166 Sélection d'articles

Page 181: "Traitement du signal social et robotique personnelle: Signaux actes ...

1340 IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, VOL. 19, NO. 5, JULY 2011

conveyed by this study have shown that the LIC have the abilityto imitate the “Descending” intonation contours similar to TD.Both groups got close scores given by the automatic intonationrecognition system. LIC did not yet achieve those scores as theTD children. Indeed, a dynamic modeling of prosody has led tosuperior performance on the intonation recognition of all LIC’sgroups, while a static modeling of prosody has provided a bettercontribution for TD children. Moreover, the sentence durationof all LIC subjects was significantly longer than the TD subjects(the sentence lengthening phenomenon was about 30% for firstthree intonations and more than 60% for the “Rising” intonationthat conveys pragmatic). In addition, this intonation has not ledto degradations in the performances of the SLI subjects unliketo PDDs as they are known to have pragmatic deficiencies inprosody.

The literature has shown that a separate analysis of theprosodic skills of LIC in the production and the perceptionof the intonation leads to contradictory results; [16]–[18]versus [13]–[15] and [19]–[21] for SLI children, and [3] versus[24]–[27] for the PDDs. Consequently, we used a simple tech-nique to collect data for this study. The data collected duringthe imitation task include both perception and production of theintonation contours, and the results obtained by the automaticanalysis of the data have permitted to obtain those descriptionsthat are associated with the clinical diagnosis of the LIC. Asthe system proposed in this study is based on the automaticprocessing of speech, its interest for the diagnosis of LICthrough prosody is thus fully justified. Moreover, this systemcould be integrated into software, such as the SPECO [73],that would be exploited by speech therapists to use prosodicremediation protocols adapted to the subjects. It would thusserve to improve both the LIC’s social communication andinteraction abilities.

REFERENCES

[1] S. Ananthakrishnan and S. Narayanan, “Unsupervised adaptation ofcategorical prosody models for prosody labeling and speech recogni-tion,” IEEE Trans. Audio, Speech Lang. Process., vol. 17, no. 1, pp.138–149, Jan. 2009.

[2] P. K. Kuhl, “Early language acquisition: Cracking the speech code,”Nature Rev. Neurosci., vol. 5, pp. 831–843, Nov. 2004.

[3] R. Paul, A. Augustyn, A. Klin, and F. R. Volkmar, “Perception andproduction of prosody by speakers with autism spectrum disorders,” J.Autism Develop. Disorders, vol. 35, no. 2, pp. 205–220, Apr. 2005.

[4] P. Warren, “Parsing and prosody: An introduction,” Lang. CognitiveProcess., Psychol. Press, vol. 11, pp. 1–16, 1996.

[5] D. Van Lancker, D. Canter, and D. Terbeek, “Disambiguation ofditropic sentences: Acoustic and phonetic cues,” J. Speech Hear. Res.,vol. 24, no. 3, pp. 330–335, Sep. 1981.

[6] E. Winner, The Point of Words: Children’s Understanding of Metaphorand Irony. Cambridge, MA: Harvard Univ. Press, 1988.

[7] D. Bolinger, Intonation and Its Uses: Melody in Grammar and Dis-course. Stanford, CA: Stanford Univ. Press, Aug. 1989.

[8] Diagnostic and Statistical Manual of Mental Disorders, 4thed. Washington, DC: American Psychiatric Assoc., 1994.

[9] I. Rapin and D. A. Allen, “Developmental language: Nosological con-sideration,” in Neuropsychology of Language, Reading and Spelling,V. Kvik, Ed. New York: Academic Press, 1983.

[10] L. Wing and J. Gould, “Severe impairments of social interaction andassociated abnormalities in children: Epidemiology and classification,”J. Autism Develop. Disorders, vol. 9, no. 1, pp. 21–29, Mar. 1979.

[11] D. A. Allen and I. Rapin, “Autistic children are also dysphasic,” inNeurobiology of Infantile Autism, H. Naruse and E. M. Ornitz, Eds.Amsterdam, The Netherlands: Excerpta Medica, 1992, pp. 157–168.

[12] J. McCann and S. Peppé, “Prosody in autism: A critical review,” Int. J.Lang. Commun. Disorders, vol. 38, no. 4, pp. 325–350, May 2003.

[13] B. Wells and S. Peppé, “Intonation abilities of children with speech andlanguage impairments,” J. Speech, Lang. Hear. Res., vol. 46, pp. 5–20,Feb. 2003.

[14] J. Morgan and K. Demuth, Signal to Syntax: Bootstrapping FromSpeech to Grammar in Early Acquisition. Mahwah, NJ: Erlbaum,1996.

[15] S. Weinert, “Sprach- und Gedächtnisprobleme dysphasisch-sprachgestörter Kinder: Sind rhytmisch-prosodische Defizite eineUrsache?,” in [Language and Short-Term Memory Problems of Specif-ically Language Impaired Children: Are Rhythmic Prosodic Deficits aCause?] Rhytmus Ein interdisziplinäres Handbuch, K. Müller and G.Aschersleben, Eds. Bern, Switzerland: Huber, 2000, pp. 255–283.

[16] D. Snow, “Children’s imitations of intonation contours: Are risingtones more difficult than falling tones?,” J. Speech, Lang. Hear. Res.,vol. 41, pp. 576–587, Jun. 1998.

[17] D. Snow, “Prosodic markers of syntactic boundaries in the speech of4-year-old children with normal and disordered language develop-ment,” J. Speech, Lang. Hear. Res., vol. 41, pp. 1158–1170, Oct. 1998.

[18] C. R. Marshall, S. Harcourt Brown, F. Ramus, and H. J. K Van derLely, “The link between prosody and language skills in children withSLI and/or dyslexia,” Int. J. Lang. Commun. Disorders, vol. 44, no. 4,pp. 466–488, Jul. 2009.

[19] P. Hargrove and C. P. Sheran, “The use of stress by language impairedchildren,” J. Commun. Disorders, vol. 22, no. 5, pp. 361–373, Oct.1989.

[20] C. Samuelsson, C. Scocco, and U. Nettelbladt, “Towards assessmentof prosodic abilities in Swedish children with language impairment,”Logopedics Phoniatrics Vocology, vol. 28, no. 4, pp. 156–166, Oct.2003.

[21] S. Van der Meulen and P. Janssen, “Prosodic abilities in children withSpecific Language Impairment,” J. Commun. Disorders, vol. 30, pp.155–170, May–Jun. 1997.

[22] L. Kanner, “Autistic disturbances of affective contact,” Nervous Child,vol. 2, pp. 217–250, 1943.

[23] R. Paul, L. Shriberg, J. Mc Sweeny, D. Ciccheti, A. Klin, and F.Volkmar, “Brief report: Relations between prosodic performance andcommunication and socialization ratings in high functioning speakerswith autism spectrum disorders,” J. Autism Develop. Disorders, vol.35, no. 6, pp. 861–869, Dec. 2005.

[24] S. Fosnot and S. Jun, “Prosodic characteristics in children withstuttering or autism during reading and imitation,” in Proc. 14thAnnu. Congr. Phonetic Sci., San Francisco, CA., Aug. 1–7, 1999, pp.103–115.

[25] J. McCann, S. Peppé, F. Gibbon, A. O’Hare, and M. Rutherford,“Prosody and its relationship to language in school-aged children withhigh functioning autism,” Int. J. Lang. Commun. Disorders, vol. 47,no. 6, pp. 682–702, Nov. 2007.

[26] M. T. Le Normand, S. Boushaba, and A. Lacheret-Dujour, “Prosodicdisturbances in autistic children speaking French,” in Proc. SpeechProsody, Campinas, Brazil, May 6–9, 2008, pp. 195–198.

[27] R. Paul, N. Bianchi, A. Agustyn, A. Klin, and F. Volkmar, “Productionof syllable stress in speakers with autism spectrum disorders,” Researchin Autism Spectrum Disorders, vol. 2, pp. 110–124, Jan.–Mar. 2008.

[28] F. Volkmar, Handbook of Autism and Pervasive Develop. Disorders.Hoboken, NJ: Wiley, 2005.

[29] E. Fombonne, “Epidemiological surveys of autism and other pervasivedevelopmental disorders: An update,” J. Autism Develop. Disorders,vol. 33, no. 4, Aug. 2003.

[30] L. D. Schriberg, J. Kwiatkowski, and C. Rasmussen, The Prosody-Voice Screening Profile. Tuscon, AZ: Communication Skill Builders,1990.

[31] D. Crystal, Profiling Linguist. Disability. London, U.K.: EdwardArnold, 1982.

[32] P. Martínez-Castilla and S. Peppé, “Developing a test of prosodicability for speakers of Iberian-Spanish,” Speech Commun., vol. 50, no.11–12, pp. 900–915, Mar. 2008.

[33] J. P. H. van Santen, E. T. Prud’hommeaux, and L. M. Black, “Auto-mated assessment of prosody production,” Speech Commun., vol. 51,no. 11, pp. 1082–1097, Nov. 2009.

[34] A. Maier, T. Haderlein, U. Eysholdt, F. Rosanowski, A. Batliner, M.Schuster, and E. Nöth, “PEAKS—A system for the automatic evalua-tion of voice and speech disorder,” Speech Commun., vol. 51, no. 5, pp.425–437, May 2009.

[35] M. Black, J. Tepperman, A. Kazemzadeh, S. Lee, and S. Narayanan,“Automatic pronunciation verification of English letter-names for earlyliteracy assessment of preliterate children,” in Proc. ICASSP, Taipei,Taiwan, Apr. 19–24, 2009, pp. 4861–4864.

Sélection d'articles 167

Page 182: "Traitement du signal social et robotique personnelle: Signaux actes ...

RINGEVAL et al.: AUTOMATIC INTONATION RECOGNITION FOR THE PROSODIC ASSESSMENT OF LANGUAGE IMPAIRED CHILDREN 1341

[36] C. Min Lee and S. Narayanan, “Toward detecting emotions in spokendialogs,” IEEE Trans. Speech Audio Process., vol. 13, no. 2, pp.293–303, Mar. 2005.

[37] G. P. M. Laan, “The contribution of intonation, segmental dura-tions, and spectral features to the perception of a spontaneous andread speaking style,” Speech Commun., vol. 22, pp. 43–65, Mar.1997.

[38] A. Potamianos and S. Narayanan, “A review of the acoustic and lin-guistic properties of children’s speech,” in Proc. IEEE 9th WorkshopMultimedia Signal Process., Chania, Greece, Oct. 23, 2007, pp. 22–25.

[39] R. D. Kent, “Hearing and believing: Some limits to theauditory-percep-tual assessment of speech and voice disorders,” Amer. J. Speech-Lang.Pathol., vol. 5, no. 3, pp. 7–23, Aug. 1996.

[40] A. Tversky, “Intransitivity of preferences,” Psychol. Rev., vol. 76, pp.31–48, Jan. 1969.

[41] A. Pentland, “Social signal processing,” IEEE Signal Process. Mag.,vol. 24, no. 4, pp. 108–111, Jul. 2007.

[42] B. Schuller, A. Batliner, D. Seppi, S. Steidl, T. Vogt, J. Wagner, L.Devillers, L. Vidrascu, N. Amir, L. Kessous, and V. Aharonson, “Therelevance of feature type for the automatic classification of emotionaluser states: Low level descriptors and functionals,” in Proc. InterspeechICSLP, Antwerp, Belgium, Aug. 27–31, 2007, pp. 2253–2256.

[43] J. Nadel, “Imitation and imitation recognition: Functional use in pre-verbal infants and nonverbal children with autism,” in The ImitativeMind: Development, Evolution and Brain Bases, A. N. Meltzoff andW. Prinz, Eds. Cambridge, MA: Cambridge Univ. Press, 2002, pp.2–14.

[44] G. Szaszák, D. Sztahó, and K. Vicsi, “Automatic intonation classifica-tion for speech training systems,” in Proc. Interspeech, Brighton, U.K.,Sep. 6–10, 2009, pp. 1899–1902.

[45] D. Ververidis and C. Kotropoulos, “Emotional speech recognition: Re-sources, features and methods,” Speech Commun., vol. 48, no. 9, pp.1162–1181, Sep. 2006.

[46] A. G. Adami, “Modeling prosodic differences for speaker recognition,”Speech Commun., vol. 49, no. 4, pp. 1162–1181, Apr. 2007.

[47] D. H. Milone and A. J. Rubio, “Prosodic and accentual informationfor automatic speech recognition,” IEEE Trans. Speech Audio Process.,vol. 11, no. 4, pp. 321–333, Jul. 2003.

[48] A. Mahdhaoui, M. Chetouani, C. Zong, R. S. Cassel, C. Saint-Georges,M.-C. Laznik, S. Maestro, F. Apicella, F. Muratori, and D. Cohen, “Au-tomatic motherese detection for face-to-face interaction analysis,” Mul-timodal Signals: Cognitive and Algorithmic Issues, vol. LNAI 5398,pp. 248–255, Feb. 2009, Springer-Verlag.

[49] V.-M. Quang, L. Besacier, and E. Castelli, “Automatic questiondetection: Prosodic-lexical features and crosslingual experiments,” inProc. Interspeech ICSLP, Antwerp, Belgium, Aug. 27–31, 2007, pp.2257–2260.

[50] S. Yildirim and S. Narayanan, “Automatic detection of disfluencyboundaries in spontaneous speech of children using audio-visualinformation,” IEEE Trans. Audio Speech Lang. Process., vol. 17, no.1, pp. 2–12, Jan. 2009.

[51] H. Pon-Barry and S. Shieber, “The importance of sub-utteranceprosody in predicting level of certainty,” in Proc. Human Lang. Tech.Conf., Poznan, Poland, May 31–Jun. 5 2009, pp. 105–108.

[52] D. Elenius and M. Blomberg, “Comparing speech recognition foradults and children,” in Proc. FONETIK, Stockholm, Sweden, May26–28, 2004, pp. 105–108.

[53] J.-F. Bonastre, C. Fredouille, A. Ghio, A. Giovanni, G. Pouchoulin,J. Révis, B. Teston, and P. Yu, “Complementary approaches for voicedisorder assessment,” in Proc. Interspeech ICSLP, Antwerp, Belgium,Aug. 27–31, 2007, pp. 1194–1197.

[54] M. Chetouani, A. Mahdhaoui, and F. Ringeval, “Time-scalefeature ex-tractions for emotional speech characterization,” Cognitive Comp., vol.1, no. 2, pp. 194–201, 2009, Springer.

[55] L. I. Kuncheva, Combining Pattern Classifiers: Methods and Algo-rithms. Hoboken, NJ: Wiley, 2004.

[56] E. Monte-Moreno, M. Chetouani, M. Faundez-Zanuy, and J.Sole-Casals, “Maximum likelihood linear programming data fu-sion for speaker recognition,” Speech Commun., vol. 51, no. 9, pp.820–830, Sep. 2009.

[57] F. Ringeval and M. Chetouani, “A vowel based approach for actedemotion recognition,” in Proc. Interspeech, Brisbane, Australia, Sep.22–26, 2008, pp. 2763–2766.

[58] A. Mahdhaoui, F. Ringeval, and M. Chetounani, “Emotional speechcharacterization based on multi-features fusion for face-to-face com-munication,” in Proc. Int. Conf. SCS, Jerba, Tunisia, Nov. 6–8,2009.

[59] A. Mahdhaoui, M. Chetouani, and C. Zong, “Motherese detectionbased on segmental and supra-segmental features,” in Proc. Int. Conf.Pattern Recogn., Tampa, FL., Dec. 8–11, 2008.

[60] S. Ananthakrishnan and S. Narayanan, “Fine-grained pitch accent andboundary tones labeling with parametric f0 features,” in Proc. IEEE Int.Conf. Acoust., Speech, Signal Process., Las Vegas, NV, Mar. 30–Apr.4 2008, pp. 4545–4548.

[61] A. Rosenberg and J. Hirschberg, “Detecting pitch accents at the word,syllable and vowel level,” in Proc. Human Lang. Tech.: 2009 Annu.Conf. North Amer. Chapter Assoc. for Comput. Ling., Boulder, CO,May 31–Jun. 5 2009, pp. 81–84.

[62] Snack Sound Toolkit [Online]. Available: http://www.speech.kth.se/snack/

[63] R.-O. Duda, P.-E. Hart, and D.-G. Stork, Pattern Classification, 2nded. New York: Wiley, 2000.

[64] M. Robnik and I. Konenko, “Theoretical and empirical analysis of Re-liefF and RReliefF,” Mach. Learn. J., vol. 53, pp. 23–69, Oct.–Nov.2003.

[65] L. Kuncheva and C. Whitaker, “Measure of diversity in classifier en-sembles,” Mach. Learn., vol. 51, no. 2, pp. 181–207, May 2003.

[66] C. Lord, M. Rutter, and A. Le Couteur, “Autism diagnostic interview-revised: A revision version of a diagnostic interview for caregivers ofindividuals with possible pervasive developmental disorders,” J. AutismDevelop. Disorders, vol. 24, no. 5, pp. 659–685, 1994.

[67] E. Schopler, R. Reichler, R. Devellis, and K. Daly, “Toward objec-tive classification of childhood autism: Childhood Autism Rating Scale(CARS),” J. Autism Develop. Disorders, vol. 10, no. 1, pp. 91–103,1980.

[68] R. Van der Gaag, J. Buitelaar, E. Van den Ban, M. Bezemer, L. Njio,and H. Van Engeland, “A controlled multivariate chart review of mul-tiple complex developmental disorder,” J. Amer. Acad. Child Adolesc.Psychiatry, vol. 34, pp. 1096–1106, 1995.

[69] J. Buitelaar and R. Van der Gaag, “Diagnostic rules for children withPDD-NOS and multiple complex developmental disorder,” J. ChildPsychol. Psychiatry, vol. 39, pp. 91–919, 1998.

[70] E. Rondeau, L. Klein, A. Masse, N. Bodeau, D. Cohen, and J. M. Guilé,“Is pervasive developmental disorder not otherwise specified less stablethan autistic disorder?,” J. Autism Develop. Disorder, 2010, to be pub-lished.

[71] A. Khomsi, Evaluation du Langage Oral. Paris, France: ECPA, 2001.[72] K. Sjölander and J. Beskow, “WaveSurfer—An open source speech

tool,” in Proc. 6th ICSLP, Beijing, China, Oct. 2000, vol. 4, pp.464–467 [Online]. Available: http://www.speech.kth.se/wavesurfer/

[73] K. Vicsi, A Multimedia Multilingual Teaching and Training Systemfor Speech Handicapped Children Univ. of Technol. and Eco-nomics, Dept. of Telecommunications and Telematics, Final AnnualReport, Speech Corrector, SPECO-977126 [Online]. Available:http://alpha.tmit.bme.hu/speech/speco/index.html, 09.1998–08.2001

Fabien Ringeval received the B.S. degree inelectrics, electronic and informatics engineeringfrom the National Technologic Institute (IUT) ofChartres, Chartres, France, in 2003, and the M.S.degree in speech and image signal processing fromthe University Pierre and Marie Curie (UPMC),Paris, France, in 2006.

He has been with the Institute of IntelligentSystems and Robotics, UPMC, since 2006. Heis currently a Teaching and Research Assistantwith this institute. His research interests concern

automatic speech processing, i.e., the automatic characterization of both theverbal (e.g., intonation recognition) and the nonverbal communication (e.g.,emotion recognition). He is a member of the French Association of SpokenCommunication (AFCP), of the International Speech Communication Associ-ation (ISCA) and of the Workgroup on Information, Signal, Image and Vision(GDR-ISIS).

Julie Demouy received the degree of Speech and Language Therapist from theSchool of Medicine of Paris, University Pierre and Marie Curie (UPMC), Paris,France, in 2009.

She is currently with the University Department of Child and Adolescent Psy-chiatry at La Pitié Salpêtrière Hospital, Paris.

168 Sélection d'articles

Page 183: "Traitement du signal social et robotique personnelle: Signaux actes ...

1342 IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, VOL. 19, NO. 5, JULY 2011

György Szaszák received the M.S. degree in elec-trical engineering from the Budapest Universityfor Technology and Economics (BUTE), Budapest,Hungary, 2002 and the Ph.D. degree from Laboratoryof Speech Acoustics, Department of Telecommu-nications and Media Informatics, BUTE in 2009.His Ph.D. dissertation addresses the exploitation ofprosody in speech recognition systems with a focuson the agglutinating languages.

He has been with the Laboratory of SpeechAcoustics, Department of Telecommunications and

Media Informatics, BUTE, since 2002. His main research topics are relatedto speech recognition, prosody and databases, and both the verbal and thenonverbal communication.

Dr. Szaszák is a member of the International Speech Communication Asso-ciation (ISCA).

Mohamed Chetouani received the M.S. degree inrobotics and intelligent systems from the UniversityPierre and Marie Curie (UPMC), Paris, France, 2001and the Ph.D. degree in speech signal processingfrom UPMC in 2004.

In 2005, he was an invited Visiting ResearchFellow at the Department of Computer Science andMathematics, University of Stirling, Stirling, U.K.He was also an invited Researcher at the SignalProcessing Group, Escola Universitaria Politecnicade Mataro, Barcelona, Spain. He is currently an

Associate Professor in Signal Processing and Pattern Recognition at theUPMC. His research activities cover the areas of nonlinear speech processing,feature extraction, and pattern classification for speech, speaker, and languagerecognition.

Dr. Chetouani is a member of different scientific societies (e.g., ISCA, AFCP,ISIS). He has also served as chairman, reviewer, and member of scientific com-mittees of several journals, conferences, and workshops.

Laurence Robel received the M.D. and Ph.D. de-grees in both molecular neuropharmacology and de-velopmental biology from the University Pierre andMarie Curie (UPMC), Paris, France.

She is currently coordinating the autism andlearning disorders clinics for young children in theDepartment of Child and Adolescent Psychiatry,Hôpital Necker-Enfants Malades, Paris, France, as aChild Psychiatrist.

Jean Xavier received the Ph.D. degree in psychologyfrom the University Paris Diderot, Paris, France, in2008.

He is specialized in child and adolescent psychi-atry and was certified in 2000. He is an M.D. in theDepartment of Child and Adolescent Psychiatry,Department of Child and Adolescent Psychiatry,Hôpital de la Pitié-Salpêtrière, Paris, France, and ishead of an outpatient child unit dedicated to PDDincluding autism. He also works in the field oflearning disabilities.

Dr. Xavier is a member of the French Society of Child and AdolescentPsychiatry.

David Cohen received the M.S. degree in neuro-sciences from the University Pierre and Marie Curie(UPMC), Paris, France, and the Ecole NormaleSupérieure, Paris, in 1987, and the M.D. degree fromthe Hôpital Necker-Enfants Malades, Paris, France,in 1992.

He specialized in child and adolescent psychiatryand was certified in 1993. His first field of researchwas severe mood disorders in adolescent, topic ofhis Ph.D. degree in neurosciences (2002). He isProfessor at the UPMC and head of the Department

of Child and Adolescent Psychiatry, La Salpêtrière hospital, Paris. His groupruns research programs in the field of autism and other pervasive develop-mental disorders, severe mood disorder in adolescents, and childhood onsetschizophrenia and catatonia.

Dr. Cohen is a member of the International Association of Child and Ado-lescent Psychiatry and Allied Disciplines, the European College of Neuro-Psy-chopharmacology, the European Society of Child and Adolescent Psychiatry,and the International Society of Adolescent Psychiatry.

Monique Plaza received the Ph.D. degree in psy-chology from the University Paris Ouest Nanterre LaDéfence, Nanterre, France, in 1984.

She is a Researcher in the National Center forScientific Research (CNRS), Paris, France. She de-velops research topics about intermodal processingduring the life span, and in developmental, neuro-logical, and psychiatric pathologies. In childhood,she studies specific (oral and written) languagedifficulties, PDD, and PDD-NOS. In adulthood, sheworks with patients suffering from Grade II gliomas

(benign cerebral tumors), which the slow development allows the brain tocompensate for the dysfunction generated by the tumor infiltration. Workingin an interdisciplinary frame, she is specifically interested in brain modelsemphasizing plasticity and connectivity mechanisms and thus participatesin studies using fMRI and cerebral stimulation during awake surgery. Shedevelops psychological models emphasizing the interactions between cognitivefunctions and the interfacing between emotion and cognition. As a clinicalresearcher, she is interested in the practical applications of theoretical studies(diagnosis and remediation).

Sélection d'articles 169

Page 184: "Traitement du signal social et robotique personnelle: Signaux actes ...

170 Sélection d'articles

Speech Communication

Travaux réalisés dans le cadre de la thèse d'Ammar Mahdhaoui.

Page 185: "Traitement du signal social et robotique personnelle: Signaux actes ...

Supervised and semi-supervised infant-directed speech classificationfor parent-infant interaction analysis

Ammar Mahdhaoui ⇑, Mohamed Chetouani

Univ Paris 06, F-75005, Paris, France CNRS, UMR 7222, ISIR, Institut des Systemes Intelligents et de Robotique, F-75005, Paris, France

Available online 14 May 2011

Abstract

This paper describes the development of an infant-directed speech discrimination system for parent–infant interaction analysis. Dif-ferent feature sets for emotion recognition were investigated using two classification techniques: supervised and semi-supervised. Theclassification experiments were carried out with short pre-segmented adult-directed speech and infant-directed speech segments extractedfrom real-life family home movies (with durations typically between 0.5 s and 4 s). The experimental results show that in the case ofsupervised learning, spectral features play a major role in the infant-directed speech discrimination. However, a major difficulty of usingnatural corpora is that the annotation process is time-consuming, and the expression of emotion is much more complex than in actedspeech. Furthermore, interlabeler agreement and annotation label confidences are important issues to address. To overcome these prob-lems, we propose a new semi-supervised approach based on the standard co-training algorithm exploiting labelled and unlabelled data. Itoffers a framework to take advantage of supervised classifiers trained by different features. The proposed dynamic weighted co-trainingapproach combines various features and classifiers usually used in emotion recognition in order to learn from different views. Our exper-iments demonstrate the validity and effectiveness of this method for a real-life corpus such as home movies.� 2011 Elsevier B.V. All rights reserved.

Keywords: Infant-directed speech; Emotion recognition; Face-to-face interaction; Data fusion; Semi-supervised learning

1. Introduction

Parent–infant interactions play a major role in the devel-opment of the cognitive, perceptual and motor skills ofinfants, and this role is emphasised for developmental dis-orders. Typically developing infants gaze at people, turntoward voices and express interest in communication. Incontrast, infants who will later become autistic are charac-terised by the presence of abnormalities in reciprocal socialinteractions and by a restricted, stereotyped and repetitiverepertoire of behaviours, interests and activities (autismpathology is defined by ICD 10: International classificationof diseases and related health problems1 and DSM IV:

Diagnostic and statistical manual of mental disorders2)(Association, 1994). The quality of parent-infant interac-tion depends on a reciprocal process, an active dialoguebetween parent and child based on the infant’s early com-petencies and the mother’s (or father’s) stimulations. Inaddition, the infant’s development depends on social inter-action with a caregiver who serves the infant’s needs foremotional attachment.

Researchers in language acquisition and researchers inearly social interactions have identified an important pecu-liarity that affects both the language and social develop-ment of infants; i.e., the way adults speak to infants. Thespecial kind of speech that is directed towards infants,called infant-directed speech or “motherese” is a simplifiedlanguage/dialect/register (Fernald and Kuhl, 1987) that hasrecently been shown to be crucial for engaging interactions

0167-6393/$ - see front matter � 2011 Elsevier B.V. All rights reserved.

doi:10.1016/j.specom.2011.05.005

⇑ Corresponding author. Tel.: +33 6 70 20 12 92; fax: +33 1 44 27 44 38.E-mail addresses: [email protected] (A. Mahdhaoui),

[email protected] (M. Chetouani).URL: http://people.isir.upmc.fr/mahdhaoui (A. Mahdhaoui).

1 http://www.who.int/classifications/icd/en/. 2 http://www.psych.org/mainmenu/research/dsmiv.aspx.

www.elsevier.com/locate/specom

Available online at www.sciencedirect.com

Speech Communication 53 (2011) 1149–1161

Sélection d'articles 171

Page 186: "Traitement du signal social et robotique personnelle: Signaux actes ...

between parents and infant and very important for lan-guage acquisition (Kuhl, 2004). Moreover, this speech reg-ister has been shown to be preferred by infants over adult-directed speech (Cooper and Aslin, 1990) and might assistinfants in learning speech sounds (Fernald, 1985). From anacoustic point of view, infant-directed speech has a clearsignature (high pitch, exaggerated intonation contours)(Fernald, 1985; Grieser and Kuhl, 1988). The phonemes,and especially the vowels, are more clearly articulated(Burnham et al., 2002).

The importance of infant-directed speech has also beenhighlighted by recent research on autism (Muratori andMaestro, 2007; Mahdhaoui et al., 2011; Mahdhaouiet al., 2009). Manual investigations (i.e., manual annota-tions) (Laznik et al., 2005), of parent-infant interactionsin home movies have shown that most positive sequences(i.e., multimodal responses of the infant: vocalisation, gaze,facial expression) were induced by infant-directed speech.To study more specifically the influence on engagement inan ecological environment, we followed a method usuallyemployed for the study of infant development: home movieanalysis (C.Saint-Georges et al., 2010).

The study of home movies is very important for futureresearch, but the use of this kind of database makes thework very difficult and time-consuming. The manual anno-tation of these films is very costly, and the automatic detec-tion of relevant events would be of great benefit tolongitudinal studies. For the analysis of the role ofinfant-directed speech during interaction, we developedan automatic infant-directed speech detection system(Mahdhaoui et al., 2009; Mahdhaoui et al., 2008;Chetouani et al., 2009), to enable emotion classification.

Motherese or infant-directed speech has been highlystudied by psychological community. However, in ourknowledge there are no studies of infant-directed speech,in real-life interaction, employing machine learning tech-niques. In the literature, researchers in affective computingand in emotion recognition have studied infant-directedspeech from acted databases (Slaney and McRoberts,2003); the speech samples were recorded in laboratory.Recently, Inouea et al. (2011) have developed a novelapproach to discriminate between infant-directed speechand adult-directed speech by using mel-frequency cepstrumcoefficient and a hidden Markov model-based speech dis-crimination algorithm. The average discrimination accu-racy of the proposed algorithm is 84.34%, but still inlaboratory conditions (acted data). Paralinguistic charac-teristics of motherese motivate several researchers toemploy recognition systems intially developped for emo-tion processing (Slaney and McRoberts, 2003; Shami andVerhelst, 2007).

In this paper, we implemented a traditional supervisedmethod. We tested different machine learning techniques,both statistical and parametric, with different featureextraction methods (time/frequency domains). The GMMclassifier with cepstral MFCC (Mel-frequency cepstral cod-ing) features was found to be most efficient.

However, the supervised methods still have some signif-icant limitations. Large amounts of labelled data are usu-ally required, which is difficult in real-life applications;manual annotation of data are very costly and time con-suming. Therefore, we investigate a semi-supervisedapproach that does not require a large amount of anno-tated data for training. This method combines labelledand unlabelled utterances to learn to discriminate betweeninfant-directed speech and adult-directed speech.

In the area of classification, many semi-supervised learn-ing algorithms have been proposed, one of which is the co-training approach (Blum and Mitchell, 1998). Most appli-cations of co-training algorithm have been devoted to textclassification (Nigam et al., 2000; Zhu et al., 2003) and webpage categorisation (Blum and Mitchell, 1998; Zhou et al.,2005). However, there are a few studies related to semi-supervised learning for emotional speech recognition. Theco-training algorithm proposed by Blum and Mitchell(1998) is a prominent achievement in semi-supervisedlearning. It initially defines two classifiers on distinct attri-bute views of a small set of labelled data. Either of theviews is required to be conditionally independent to theother and sufficient for learning a classification system.Then, iteratively the predictions of each classifier on unla-belled examples are selected to increase the training dataset. This co-training algorithm and its variations (Goldmanand Zhou, 2000) have been applied in many areas becauseof their theoretical justifications and experimental success.

In this study, we propose a semi-supervised algorithmbased on multi-view characterisation, which combines theclassification results of different views to obtain a singleestimate for each observation. The proposed algorithm isa novel form of co-training, which is more suitable forproblems involving both classification and data fusion.Algorithmically, the proposed co-training algorithm isquite similar to other co-training methods available in theliterature. However, a number of novel improvements,using different feature sets and dynamic weighting classifierfusion, have been incorporated to make the proposed algo-rithm more suitable for multi-view classification problems.

The paper is organised as follows. Section 2 presents thelongitudinal speech corpus. Section 3 presents the differentfeature extraction methods. Sections 4 and 5 present thesupervised and the semi-supervised methods. Section 6 pre-sents the details of the proposed method of semi-supervisedclassification of emotional speech with multi-view features.Section 7 reports experimental comparisons of supervisedand semi-supervised methods on a discrimination task. Inthe last section, some concluding remarks and the directionfor future works are presented.

2. Home movie: speech corpus

The speech corpus used in our study contains real par-ent/child interactions and consists of recordings of Italianmothers as they addressed their infants. It is a collectionof natural and spontaneous interactions. This corpus

1150 A. Mahdhaoui, M. Chetouani / Speech Communication 53 (2011) 1149–1161

172 Sélection d'articles

Page 187: "Traitement du signal social et robotique personnelle: Signaux actes ...

contains expressions of non-linguistic communication(affective intent) conveyed by a parent to a preverbal child.

We decided to focus on the analysis of home movies(real-life data) as it enables longitudinal study (months oryears) and gives information about the early behavioursof autistic infants long before the diagnosis was made byclinicians. However, this large corpus makes it inconve-nient for people to review. Additionally, the recordingswere not made by professionals (they were made by par-ents), resulting in adverse conditions (noise and cameraand microphones limitations, etc). In addition, the record-ings were made randomly in diverse conditions and situa-tions (interaction situation, dinner, birthday, bath, etc.),and only parents and other family members (e.g., grand-parent, uncle) are present during the recordings.

All sequences were extracted from the Pisa home moviesdatabase, which includes home movies from the first 18months of life for three groups of children (typically devel-oping, autistic, mentally retarded) (Maestro et al., 2005).

The home movies were recorded by the parents them-selves. Each family uses his personal camera with onlyone microphone. Due to the naturalness of home movies(uncontrolled conditions: TV, many speakers, etc.), wemanually selected a set of videos with at least understand-able audio data. The verbal interactions of the infant’smother were carefully annotated by two psycholinguists,independently, into two categories: infant-directed speechand adult-directed speech. To estimate the agreementbetween the two annotators, we computed the Cohen’skappa (Cohen, 1960) as a measure of the intercoder agree-ment. Cohen’s kappa agreement is given by the followingequation:

kappa ¼ pðaÞ � pðeÞ1� pðeÞ ; ð1Þ

where p(a) is the observed probability of agreementbetween two annotators, and p(e) is the theoretical proba-bility of chance agreement, using the annotated sample ofdata to calculate the probabilities of each annotator. Wefound a Cohen’s kappa equal to 0.82 (CI for ConfidenceInterval: [95%CI: 0.75–0.90]), measured on 500 samples,which corresponds to good agreement between the twoannotators.

From this manual annotation, we randomly extracted250 utterances for each category. The utterances are typi-cally between 0.5 s and 4 s in length. Fig. 1 shows a distri-bution of infant-directed speech and adult-directed speechutterances from 3 periods of the child’s life (0–6 months,6–12 months and 12–18 months). The total duration ofutterances is about 15 min. Fig. 2 shows the duration distri-bution of infant-directed speech and adult-directed speechutterances. It shows that there is no significant differencebetween the durations of infant-directed speech andadult-directed speech utterances.

We randomly divided the database into two parts: unla-belled data U (400 utterances balanced between mothereseand adult-directed speech) and labelled data L

(100 utterances balanced between motherese and adult-direc-ted speech).

3. Emotional speech characterisation

Feature extraction is an important stage in emotion rec-ognition, and it has been shown that emotional speech canbe characterised by a large number of features (acoustics,voice quality, prosodic, phonetic, lexical) (Schuller et al.,2007). However, researchers on speech characterisationand feature extraction show that is difficult to have a con-sensus for emotional speech characterisation.

In this study, we computed temporal and frequentialfeatures, which are usually investigated in emotion recogni-tion (Truong and van Leeuwen, 2007; Shami and Verhelst,2007). Moreover, different statistics are applied, resulting in16 cepstral (f1), 70 prosodic (f2, f3, f4 and f5) and 96 per-ceptive features (f6, f7, f8 and f9), all of which have beenshown to be the most efficient (Truong and van Leeuwen,2007; Kessous et al., 2007; Mahdhaoui et al., 2008). Weobtained 9 different feature vectors with different dimen-sions, which are presented in Table 1.

3.1. Cepstral features

Cepstral features such as MFCC are often successfullyused in speech and emotion recognition. The short-termcepstral signatures of both infant-directed speech andadult-directed speech are characterised by 16 MFCC fea-tures (often used for emotion recognition) and areextracted each 20 ms, so the number of the resulting featurevectors is variable and depends on the length of the utter-ance (Frame-level).

3.2. Prosodic features

Several studies have shown the relevance of both thefundamental frequency (F0) and energy features for emo-tion recognition applications (Truong and van Leeuwen,2007). F0 and energy were estimated every 20 ms (Boersma

Fig. 1. Distribution of infant-directed speech and adult-directed speechutterances during 3 periods of infant development.

A. Mahdhaoui, M. Chetouani / Speech Communication 53 (2011) 1149–1161 1151

Sélection d'articles 173

Page 188: "Traitement du signal social et robotique personnelle: Signaux actes ...

and Weenink, 2005), and we computed 3 statistics for eachvoiced segment (segment-based method) (Shami andKamel, 2005): the mean, variance and range, for both F0and short-time energy, resulting in a 6-dimensional vector.

In addition, 32 statistical features, presented in Table 2,are extracted from the pitch contour and the loudness con-tour. Three other features are also extracted from thesecontours with a histogram and by considering the maxi-mum, the bin index of the maximum and the centre valueof the corresponding bin. These 3 features are relevantfor pitch and energy contour characterisation.

3.3. Perceptive features

Infant-directed speech and adult-directed speech soundperceptually different, (Cooper et al., 1997), and in thiswork bark filters spectral representation are employed toinvestigate these perceptual differences.

The features based on the bark scale are considered toprovide more information by characterising the humanauditory system (Zwicker, 1961; Esposito and Marinaro,2005). We extracted the bark time/frequency representa-tion using an analysis window duration of 15 ms and a timestep of 5 ms with filters equally spaced by 1 bark (first filtercentred on first bark critical band) (Zwicker and Fastl,1999). This computation on the full spectrum results in29 filter bands. This representation can be described as adiscrete perceptive representation of the energy spectrum,which can be qualified as a perceptive spectrogram. Wethen extracted statistical features from this representationeither along the time axis or along the frequency axis, asshown in Fig. 3. We also considered the average of energyof the bands (a perceptive Long Term Average Spectrum)and extracted statistical features from it. Thirty-two statis-tical features were used and applied (a) along the time axis(Approach TL), (b) along the frequency axes (ApproachSL) and (c) on the average perceptive spectrum to obtaina first set of 32 features (Approach MV).

a) Approach TL (for ‘Time Line’) Fig. 3. a.: (step 1)extracting 32 features on the spectral vector of eachtime frame, then (step 2) averaging the values foreach of 32 features along the time axis to obtain a sec-ond set of 32 features.

b) Approach SL (‘for Spectral Line’) Fig. 3. b.: (step 1)extracting 32 features along the time axis for eachspectral band and (step 2) averaging the 32 featuresalong the frequency axis to obtain a third set of 32features.

c) Approach MV (for ‘Mean Values’): (step 1) averagingthe energy values of the bark spectral bands along thetime axis to obtain a long term average spectrumusing 29 bark bands and (step 2) extracting the 32 sta-tistical features from this average spectrum.

Fig. 2. Duration distribution of infant-directed speech and adult-directed speech utterances.

Table 1Different features sets.

f1 16 MFCCsf2 Pitch(Min,Max,Range) + Energy(Min,Max,Range)f3 35 statistics on the pitchf4 35 statistics on the energyf5 35 statistics on the pitch + 35 statistics on the energyf6 Bark TL + SL + MV(96 statistics)f7 Bark TL (32 statistics)f8 Bark SL (32 statistics)f9 Bark MV (32 statistics)

Table 232 statistics.

Maximum, minimum and mean valueStandard deviationVarianceSkewnessKurtosisInterquartile rangeMean absolute deviation (MAD)MAD based on medians,i.e. MEDIAN(ABS(X-MEDIAN(X)))First and second coeficients of linear regression,First, second and third coefficients of quadratic regression9 quantiles corresponding to the following cumulative probability

values: 0.025, 0.125,0.25, 0.375, 0.50, 0.625, 0.75, 0.875, 0.975Quantile for cumulative probability values 1% and 9% and

interquantile range betweenthis two valuesAbsolute and sign of time interval between maximum and minimum

appearances

1152 A. Mahdhaoui, M. Chetouani / Speech Communication 53 (2011) 1149–1161

174 Sélection d'articles

Page 189: "Traitement du signal social et robotique personnelle: Signaux actes ...

The 32 statistical features, presented in Table 2, werecomputed to model the dynamic variations of the barkspectral perceptive representation.

4. Supervised classification

The supervised classification assumes that there isalready an existing categorisation of the data. In this clas-sification form, the training data D are presented by anensemble X of feature vectors and their correspondinglabels Y:

D ¼ fðxi; yiÞjx 2 X ; y 2 Y gni¼1: ð2Þ

Supervised classification consists of two steps: featureextraction and pattern classification. The features extrac-tion step consists of characterising the data. After theextraction of features, supervised classification is used tocategorise the data into classes corresponding to user-defined training classes. This can be implemented usingstandard machine learning methods. In this study, four dif-ferent classifiers, Gaussian mixture models (GMM)(Reynolds, 1995), k-nearest neighbour (k-NN) (Dudaet al., 2000) classifiers), SVM (Chang and Lin, 2001; Vap-nik, 1995) and Neural networks (MLP) (Eibe and Witten,1999), were investigated.

In our work, all the classifiers were adapted to provide aposterior probability to maintain a statistical classificationframework.

4.1. Gaussian mixture models

A Gaussian mixture model is a statistics based model formodelling a statistical distribution of Gaussian ProbabilityDensity Function (PDF). A Gaussian mixture density is aweighted sum of M component densities (Reynolds, 1995)given by:

pðxjCmÞ ¼XM

i¼1

xigðli ;RiÞðxÞ; ð3Þ

where p(xjCm) is the probability density function of classCm evaluated at x. Due to the binary classification task,

we define C1 as the “infant-directed speech” class and C2

as “adult-directed speech”. The vector x is a d-dimensionalvector, g(l,R)(x) are the component densities, and xi are themixture weights. Each component density is a d-variateGaussian function:

gðl;RÞðxÞ ¼1

ð2pÞd=2ffiffiffiffiffiffiffiffiffiffiffiffiffiffidetðRÞ

p e�1=2ðx�lÞT R�1ððx�lÞÞ ð4Þ

with mean vector li and covariance matrix Ri. The mixtureweights xi satisfy the following constraint:

XM

i¼1

xi ¼ 1: ð5Þ

The feature vector x is then modelled by the following pos-terior probability:

P gmmðCmjxÞ ¼pðxjCmÞP ðCmÞ

pðxÞ ; ð6Þ

where P(Cm) is the prior probability for class Cm, assumingequal prior probabilities, and p(x) is the overall PDF eval-uated at x.

4.2. k-nearest neighbours

The k-NN classifier (Duda et al., 2000) is a non-para-metric technique that classifies the input vector with thelabel of the majority of the k-nearest neighbours (proto-types). To maintain a common framework with the statis-tical classifiers, we estimate the posterior probability that agiven feature vector x belongs to class Cm using k-NN esti-mation (Duda et al., 2000):

P knnðCmjxÞ ¼km

k; ð7Þ

where km denotes the number of prototypes that belong tothe class Cm among the k nearest neighbours.

4.3. Support vector machines

The support vector machine (SVM) is the optimal mar-gin linear discriminant trained from a sample of l

(a) (b)Fig. 3. Method for extraction of bark-based features: along time axis (a) and along frequency axis (b).

A. Mahdhaoui, M. Chetouani / Speech Communication 53 (2011) 1149–1161 1153

Sélection d'articles 175

Page 190: "Traitement du signal social et robotique personnelle: Signaux actes ...

independent and identically distributed instances:

(x1,y1), . . ., (xl,yl), where xi is the d-dimensional inputand yi 2 {�1,+1} its label in a two-class problem isyi = +1 if is a positive (+) example, and yi = �1 if xi is anegative example.

The basic idea behind SVM is to solve the followingmodel:

min1

2kxk2xþ C

Xl

i¼1

ni ð8Þ

8i; yiðxxi þ bÞP 1� ni ð9Þ

which is a C-soft margin algorithm where x and b are theweight coefficients and bias term of the separating hyper-plane, C is a predefined positive real number and ni areslack variables (Vapnik, 1998). The first term of the objec-tive function given in (8) ensures the regularisation by min-imising the norm of the weight coefficients. The secondterm tries to minimise the classification errors by introduc-ing slack variables to allow some classification errors andthen minimising them. The constraint given in (9) is theseparation inequality, which tries to locate each instanceon the correct side of the separating hyperplane. Once xand b are optimised, during the test, the discrimination isused to estimate the labels:

y ¼ signðxxþ bÞ ð10Þand we choose the positive class if y ¼ þ1 and the negativeclass if y ¼ �1. This model is generalised to learn nonlineardiscriminants with kernel functions to map x to a newspace and learning a linear discriminant there.

The standard SVM does not provide posterior probabil-ities. However, to maintain a common framework withother classifiers, the output of a classifier (SVM) shouldbe a posterior probability to enable post-processing. Con-sequently, to map the SVM outputs into probabilities, aspresented in Platt (1999), we must first train an SVM,and then train the parameters of an additional sigmoidfunction. In our work, we used LIBSVM (Chang andLin, 2001) with posterior probabilities outputs Psvm(Cmjx).

4.4. Neural network

The Neural Network structure used in this paper wasthe Multilayer Perceptron (MLP). An MLP is a networkof simple neurons called perceptrons. The perceptron com-putes a single output from multiple real-valued inputs byforming a linear combination according to its input weightsand then possibly transforming the output by some nonlin-ear activation function. Mathematically this can be writtenas:

y ¼ uXn

i¼1

xixi þ b

!¼ uðwT xþ bÞ ð11Þ

where w denotes the vector of weights, x is the vector ofinputs, b is the bias and u is the activation function.

It is proved in Bishop (1995) that for various parameteroptimisation strategies (such as gradient descent) with min-imisation of the Mean Square Error function or Cross-Entropy Error function and the back-propagation tech-nique used to compute derivatives of the error functionwith respect to each of the free parameters, the trained net-work estimates the posterior probabilities of class member-ship Pmlp(Cmjx) directly.

5. Semi-Supervised classification

Supervised methods require a large number of labelledutterances to enable efficient learning in real emotionalspeech classification systems. However, the manual annota-tion of data is very costly and time consuming, so an exten-sive manual annotation of all the home movies isunrealistic. Therefore, a learning algorithm with only afew labelled data is required; i.e., a semi-supervised learn-ing algorithm. In this section, we briefly describe two tech-niques for semi-supervised learning, namely, self-trainingand co-training. Self-training and co-training algorithmsallow a classifier to start with a few labelled examples toproduce an initial weak classifier and later to combinelabelled and unlabelled data to improve the performance.In the following, let us assume that we have a set L (usuallysmall) of labelled data, and a set U (usually large) of unla-belled data.

5.1. Self-training

The definition of self-training can be found in differentforms in the literature; however, we adopted the definitionof Nigam and Ghani (2000). In this method, we need onlyone classifier and then only one feature set. For several iter-ations, the classifier labels the unlabelled data and convertsthe most confidently predicted examples of each class into alabelled training example.

Table 3 shows the pseudo-code for a typical self-trainingalgorithm. The self-training starts with a set of labelleddata L, and builds a classifier h, which is then applied tothe set of unlabelled data U. Only the n best classified utter-ances are added to the labelled set. The classifier is thenretrained on the new set of labelled examples, and the

Table 3Self-training algorithm.

Given:

a set L of Labelled examplesa set U of Unlabelled examplesa number n of examples to be added to L in each iteraction

Loop:

Use L to train the classifier h

Allow h to label U

Let T be the n examples in U on which h makes the most confidentpredictionsAdd T to L

Remove T from U

End

1154 A. Mahdhaoui, M. Chetouani / Speech Communication 53 (2011) 1149–1161

176 Sélection d'articles

Page 191: "Traitement du signal social et robotique personnelle: Signaux actes ...

process continues for several iterations. Notice that onlyone classifier is required, with no split of the features.

5.2. Co-training

The co-training algorithm proposed in Blum and Mitch-ell (1998) is a prominent achievement in semi-supervisedlearning. This algorithm and the related multi-view learn-ing methods (Brefeld et al., 2006) assume that various clas-sifiers are trained over multiple feature views of the samelabelled examples. These classifiers are encouraged to makethe same prediction on any unlabelled example.

As shown in Table 4, the method initially defines twoclassifiers (h1 and h2) on distinct attribute views of a smallset of labelled data (L). Either of the views is required to beconditionally independent of the other and sufficient forlearning a classification system. Then, iteratively, each clas-sifier’s predictions on the unlabelled examples are selectedto increase the training data set. For each classifier, the

unlabelled examples classified with the highest confidenceare added to the labelled data set L, so that the two classi-fiers can contribute to increase the data set L. Both classi-fiers are re-trained on this augmented data set, and theprocess is repeated a given number of times. The rationalebehind co-training is that one given classifier may assigncorrect labels to certain examples, while it may be difficultfor others to do so. Therefore, each classifier can increasethe training set by adding examples that are very informa-tive for the other classifier.

This method can be generalised to be used with a largenumber of views. Fig. 4 shows the general architecture ofa generalised co-training method based on multi-view char-acterisation. It considers v different views. For each itera-tion, we select an ensemble of pi positive examples and ni

negative examples that are classified with the highest confi-dence. Then, we add the ensemble T ¼

Pvi¼1pi þ ni to the

labelled data set L.These semi-supervised algorithms and their variations

(Goldman and Zhou, 2000) have been applied in manyapplication areas because of their theoretical justificationsand experimental success.

6. Co-training algorithm based on multi viewcharacterisation

Many researchers have shown that multiple-view algo-rithms are superior to single-view method in solvingmachine learning problems (Blum and Mitchell, 1998;Muslea et al., 2000; Zhang and Sun, 2010). Different featuresets and classifiers (views) can be employed to characterizespeech signals, and each of them may yield different

Table 4Co-training algorithm.

Given:

a set L of Labelled examplesa set U of Unlabelled examples

Loop:

Use L to train each classifier h1

Use L to train each classifier h2

Allow h1 to label p1 positive and n1 negative examples from U

Allow h2 to label p2 positive and n2 negative examples from U

Add these self-labelled examples to L

Remove these self-labelled examples from U

End

Fig. 4. Standard existing co-training algorithm based on multi-view characterization.

A. Mahdhaoui, M. Chetouani / Speech Communication 53 (2011) 1149–1161 1155

Sélection d'articles 177

Page 192: "Traitement du signal social et robotique personnelle: Signaux actes ...

prediction results. Therefore, the best solution is to use mul-tiple-characterisation (views = feature + classifier) togetherto predict the common class variable. Thus, the generalisedco-training algorithm shown in Fig. 4 uses different views forclassification. In the multi-view approach, the labelled dataare represented by x1

1; . . . ; xv1; y1

� �; . . . ;

�x1

m; . . . ; xvm; ym

� �g,

where v is the number of views and yi are the correspondinglabels, m is the number of labels.

However, the standard co-training algorithm does notallow the fusion of different views in the same frameworkto produce only one prediction per utterance. It takes theprediction of each classifier separately. To overcome thisproblem, we propose a co-training procedure that itera-tively trains a base classifier within each view and then com-bines the classification results to obtain a single estimate foreach observation. The proposed algorithm is a novel formof co-training, which is more suitable for problems involv-ing both semi-supervised classification and data fusion.

The goal of the proposed co-training method is to incor-porate all the information available from the different viewsto accurately predict the class variable. Each group of fea-tures provides its own perspective, and the performanceimprovements are obtained through the synergy between

the different views. The co-training framework is based onthe cooperation of different classifiers for the improvementof classification rates. Each of them gives an individual pre-diction weighted by its classification confidence value. Thisproblem has a strong similarity to data fusion, whichinvolves incorporating several disparate groups of viewsinto a common framework for modelling data.

This algorithm is designed to improve the performanceof a learning machine with a few labelled utterances anda large number of cheap unlabelled utterances.

Given a set L of labelled utterances, a set U of unlabelledutterances, and a set of different feature views Vi, the algo-rithm works as described in Table 5 and Fig. 5. First, to ini-tialise the algorithm, we found the best feature set for eachclassifier, as presented in Table 8. Second, we set all of theinitial weights equally so that xk = 1/v, where v is the num-ber of views (9 in our case). Third, while the unlabelleddatabase U is not empty, we repeat the following:

� Classification: to classify all the unlabelled utterances,the class of each utterance is obtained using a decisionfunction. In our case we compute the maximum likeli-hood; otherwise we can use other decision functions.

Table 5The proposed co-training algorithm.

Given:

a set Lof m Labelled examples fðl11; . . . ; lv

1; y1Þ; . . . ; ðl1m; . . . ; lv

m; ymÞg with labels yi = {1,2}a set U of n Unlabelled examples fðx1

1; . . . ; xv1Þ; . . . ; ðx1

n; . . . ; xvnÞg

v = number of view(classifier)Initialization:

xk(weights of classifier) = 1/v for all the viewWhile U not empty

A. Classify all the example of the test database: Do for k = 1,2, . . . ,v

1. Use L to train each classifier hk

2. Classify all examples of U by each hk

3. Calculate the probability of classification for each example xi from U, pðCjjxiÞ ¼Pv

k¼1xk � hkðCjjxki Þ

4. Labels(xi) = argmax(p(Cjjxi))End for

B. Updte the training (L) and test (U) databases:

Uj = {z1, . . . ,znj} the ensemble of example classified Cj

Do for i = 1,2, . . . ,nj

pðCjjziÞ ¼Pv

k¼1xk � hkðCjjzki ÞPv

k¼1xk;

End for

marginj ¼Pnj

1 pðCjjziÞnj

:

Take Tj from Uj the examples which has classified on Cj with a probability upper to marginj.

T ¼X

T j:

Add T to L and remove it from U

C. Upate weights: xk ¼PsizeðT Þhk ðzk

i¼1Pv

k¼1

PsizeðT Þi¼1

hk ðzki ÞEnd While

1156 A. Mahdhaoui, M. Chetouani / Speech Communication 53 (2011) 1149–1161

178 Sélection d'articles

Page 193: "Traitement du signal social et robotique personnelle: Signaux actes ...

� Update the labelled and unlabelled databases: first wetake as U1 the utterances from U classified on Class 1and U2 classified on Class 2, after that we calculate theclassification confidence for each utterance that wecalled margin. This step consists of cooperating all theclassifiers to have once prediction by combining the clas-sifiers outputs using a simple weighted sum.

pðCjjziÞ ¼Pv

k¼1xk � hkðCjjzki ÞPv

k¼1xk; ð12Þ

marginj ¼Pnj

1 pðCjjziÞnj

; ð13Þ

where zki is the feature view to be classified on the class Cj,

xk is the weight of the classifier hk, v is the number of viewsand nj is the number of segments classified on class Cj. Themargin value is in the interval [0,1]. This number can beinterpreted as a measure of confidence, as is done forSVM (Schapire and Singer, 1999). Then we take Tj to bethe utterances from Uj that were classified on Classj witha probability greater than the mean value of classificationconfidence (margin) of the Classj.� Update weights: finally, we update the weights of each

view, as described in Table 5. The new weight of eachclassifier is proportional to its contribution to the finalclassification. In other words, the weights of efficientclassifiers will be increased.

7. Experimental results

7.1. Experimental setup

Motherese detection is a binary classification problemand from given confusion matrix we have different deci-sions: true/false positive (TP,FP), and true/false negative

(TN,FN). For supervised classification, we evaluated, froma 10 folds cross validation, the accuracy rate to compare theperformances of different separate classifiers: (TP + TN)/(TP + TN + FP + FN). We optimized the parameters ofthe different classifiers; such as M component densities forGMM, k optimal number of neighbours for k-NN, optimalkernel for SVM and the number of cells for MLP.

For the semi-supervised classification, the performanceof the classification system is given for different data set.First we randomly selected an ensemble U containing 400examples and an ensemble L containing 100 examples bal-anced between motherese and adult-directed speech. Then,in order to study the implication of the quantity of super-vised learning data, we perform several experiments withdifferent number of labelled data; from 10% (10 examples)to 100% (100 examples).

Notice that for the standard co-training algorithm, firstwe compute the standard algorithm with only two classifi-ers (the two best classifiers) such as proposed in Blum andMitchell (1998) (Table 4), then we perform this algorithmusing all the classifiers as shown in the Fig. 4.

The supervised and semi-supervised classification sys-tems were performed on multi-speaker data (speaker-inde-pendent). The speech segments were randomly extractedfrom 10 home movies (10 different mothers). In addition,as shown in Fig. 1, the speech segments were extracted fromthree different periods of time (semester 1, semester 2, semes-ter 3), which will augment the data diversity since the voiceof the mothers changes from one semester to another.

7.2. Results of supervised classifiers

The performance of the different classifiers, each trainedwith different feature sets (f1, f2, . . . , f9), were evaluated onthe home movies database.

Fig. 5. Structure of the proposed co-training algorithm.

A. Mahdhaoui, M. Chetouani / Speech Communication 53 (2011) 1149–1161 1157

Sélection d'articles 179

Page 194: "Traitement du signal social et robotique personnelle: Signaux actes ...

Table 6 shows the best results of all the classifiers trainedwith different feature sets. The best result was obtainedwith GMM trained with cepstral MFCC (72.8% accuracy),and second best result was obtained with k-NN trainedwith f4 (35 statistics on energy). Therefore, Table 6 showsthat cepstral MFCC outperforms the other features.Regarding the prosodic features, best results are notobtained with a GMM classifier but with k-NN andSVM classifiers. In addition to the GMM, perceptive fea-tures provide satisfactory results using the MLP classifier.

To summarise, comparing the results of different featuresets and taking into account the different classifiers, thebest performing feature set for infant-directed speech dis-crimination appears to be the cepstral MFCC. Regardingthe classifiers, we can observe that GMMs generalise betterover different test cases than the other classifiers do.

7.3. Results of semi-supervised classifiers

The algorithm works as described in Fig. 5. To initialisethe co-training algorithm, we consider the best configura-tion of each features trained with all supervised classifiers,using 10 folds cross validation. We obtained 9 classifiers(views) h1 to h9 as described in Table 8.

The classification accuracy of the co-training algorithmusing multi-view feature sets with different number ofannotations is presented in Fig. 6 and Table 7. It can be

seen that our method can achieve efficient results ininfant-directed speech discrimination.

To further illustrate the advantage of the proposedmethod, Table 7 and Fig. 6 show a direct comparisonbetween our co-training algorithm and the standard co-training algorithm. It shows that our method performs bet-ter results, 75.8% vs. 71.5%, using 100 labelled utterances.In addition, Fig. 6 and Table 7 show that the performanceof the standard co-training algorithm that uses all the clas-sifiers is worse than the performance of the algorithm usingonly two classifiers, especially when we dispose of fewlabelled data for training. Although, the standard co-train-ing algorithm was shown promising for different classifica-tion problems, it suffers from issues of divergence, whereerrors in the newly classified data could cause the systemto run off track (Carlson, 2009). One approach to over-come this problem is combining the different predictionsgiven by the different classifiers; such as all the classifierscooperate to obtain only one prediction per utterance.The proposed co-training algorithm offers a frameworkto take advantage of co-training learning and data fusion.It combines the various features and classifiers in a co-training framework.

In addition, to illustrate the advantage of the proposedmulti-view method, especially in cases with very few anno-tations, we compare our method with the self-trainingmethod with a single view. In our study, we investigatedthe basic self-training algorithm, which replaces multipleclassifiers in the co-training procedure with the best classi-fier that employs the most efficient feature. We computedGMM with the cepstral MFCC (h1) and prosodic features(h2), and at each iteration we take only the utterance withthe best posterior probability.

Fig. 6 and Table 7 show a comparison between our co-training method and the self-training method. It can beseen that our method outperforms the self-trainingmethod, 75.8% vs. 70.3%, with 100 labelled utterances. Inaddition, the proposed co-training method gives a satisfac-tory result in the case of very few annotations, 66.8% with10 labelled utterances vs. 52.0% for the self-trainingmethod. Comparing self-training and supervised methods,Fig. 6 shows that supervised algorithm outperforms

Table 6Accuracy of separate classifier using 10 folds cross validation.

Feature set GMM k-NN SVM MLP

Cepstral feature f1 72.8 57.7 59.4 61.4

Prosodic features f2 59.5 55.7 54.7 50.2f3 54.7 55.0 50.0 50.0f4 67.0 68.5 65.5 58.5f5 62.1 65.5 65.5 54.5

Perceptive features f6 61.0 50.5 49.0 54.5f7 55.5 51.0 52.0 58.5

f8 65.0 52.0 50.5 55.5f9 58.8 50.5 50.5 64.0

Fig. 6. Classification accuracy with different numbers of annotations.

1158 A. Mahdhaoui, M. Chetouani / Speech Communication 53 (2011) 1149–1161

180 Sélection d'articles

Page 195: "Traitement du signal social et robotique personnelle: Signaux actes ...

self-training algorithm since that self-training method suf-fers from issues of divergence (hight risk of divergence)(Carlson, 2009). The self-training algorithm makes errorin the first iteration, therefore the error rate becomesimportant, and then the classifier will learn on falsely clas-sified examples. The risk of divergence is the major prob-lem of the self-training algorithm (Carlson, 2009).

In addition, to illustrate the importance of the use of thesemi-supervised method, we compared the performance ofthe proposed semi-supervised method and the best super-vised method (GMM-MFCC) using different numbers ofannotations (from 10 labelled data to 100 labelled data).Fig. 6 and Table 7 show that the proposed co-trainingmethod outperforms the supervised method especially withlimited labelled data for training (always 400 utterances fortesting), 66.8% vs. 55.0% with 10 labelled utterances.

Moreover, Fig. 8 demonstrates that the proposed co-training algorithm performs better in the first several itera-tions (93.5% accuracy in the first iteration). This result isquite reasonable because, as shown in Fig. 7, there aremany more correctly classified than falsely classified utter-ances in the first iteration (101 correctly classified utter-ances vs. 7 falsely classified utterances). However, theperformance of the classification decreases in the last itera-tions because we are retraining the system on misclassifiedutterances detected incorrectly in previous iterations.

8. Conclusion

In this article, a co-training algorithm was presented tocombine different views to predict the common class vari-able for emotional speech classification. Our goal was todevelop a motherese detector by computing multi-featuresand multi-classifiers to automatically discriminate pre-seg-mented infant-directed speech segments from manuallypre-segmented adult-directed segments, so as to enablethe study of parent-infant interactions and the investiga-tion of the influence of this kind of speech on interactionengagement. By using the more conventional features oftenused in emotion recognition, such as cepstral MFCC, andother features, including prosodic features with some sta-tistics on the pitch and energy and bark features, we wereable to automatically discriminate infant-directed speechsegments. Using classification techniques that are often

Table 7Classification accuracy with different numbers of annotations for training and 400 utterances for testing

Number of annotations for training 10 20 30 40 50 60 70 80 90 100

Proposed Co-training method 66.8 65.3 63.5 67.0 69.8 72.3 72.5 71.8 74.0 75.8Co-trainingstandard(using h1 and h4) 63.5 62.5 62.0 64.5 68.5 69.8 71.3 69.5 71.0 71.5Co-trainingstandard(using all the classifiers h1-h9) 57.0 58.5 58.5 61.0 64.0 67.0 67.3 68.0 69.0 68.5Self-training(using h1: MFCC-GMM) 52.0 50.0 50.0 54.0 55.0 62.5 61.0 65.0 69.0 70.3Self-training(using h2: prosody-GMM) 54.0 52.5 53.0 52.0 53.5 58.0 59.0 62.0 64.5 67.8Supervised method:MFCC-GMM(best configuration) 55.0 59.3 59.5 61.5 68.5 71.0 70.0 69.8 71.5 72.8

Table 8Initialization of co-training algorithm.

Classifiers(views) Combination

h1 GMM trained withf1h2 GMM trained withf2h3 k-NN trained withf3h4 k-NN trained withf4h5 SVM trained withf5h6 GMM trained withf6h7 MLP trained withf7h8 GMM trained withf8h9 MLP trained withf9

1 2 3 4 5 6 7 8 9 10 11 12 13 14 150

20

40

60

80

100

120

Iterations

Num

ber o

f tru

e an

d fa

lse

clas

sifie

d ut

tera

nces true classified utterances

false classified utterances

Fig. 7. Number of accurately and falsely classified utterances by iteration.

A. Mahdhaoui, M. Chetouani / Speech Communication 53 (2011) 1149–1161 1159

Sélection d'articles 181

Page 196: "Traitement du signal social et robotique personnelle: Signaux actes ...

used in speech/emotion recognition (GMM, k-NN, SVMand MLP) we developed different classifiers and we havetested them on real-life home movies database. Our exper-imental results show that spectral features alone containmuch useful information for discrimination because theyoutperform all other features investigated in this study.Thus, we can conclude that cepstral MFCC alone can beused effectively to discriminate infant-directed speech.

However, this method requires a large amount oflabelled data. Therefore, we investigated a semi-supervisedapproach that combines labelled and unlabelled data forclassification. The proposed semi-supervised classificationframework allows the combination of multi-features andthe dynamic penalisation of each classifier by iterativelycalculating its classification confidence. The experimentalresults demonstrate the efficiency of this method.

For our infant-directed speech classification experi-ments, we used only utterances that were already seg-mented (based on a human transcription). In otherwords, the automatic segmentation of infant-directedspeech was not investigated in this study, but it can beaddressed in a follow-up study. Automatic infant-directedspeech segmentation can be seen as a separate problem,which gives rise to other interesting questions, such ashow to define the beginning and the end of infant-directedspeech, and what kind of evaluation measures to use.

In addition, other issues remain to be investigated in thefuture. We plan to test our semi-supervised classificationmethod on larger emotional speech databases. Then it willbe interesting to investigate the complementarities of thedifferent views by analysing the evolution of weights ofeach classifier and to compare our algorithm with othersemi-supervised algorithms, especially algorithms usingmulti-view features.

Acknowledgments

The authors would like to thank Filippo Muratori andFabio Apicella from Scientific Institute Stella Maris ofUniversity of Pisa, Italy, who have provided data; familyhome movies. We would also like to extend our thanks

to David Cohen and his staff, Raquel Sofia Cassel andCatherine Saint-Georges, from the Department of Childand Adolescent Psychiatry, AP-HP, Groupe HospitalierPitie-Salpetriere, Universite Pierre et Marie Curie, ParisFrance, for their collaboration and the manual databaseannotation and data analysis. Finally, this work has beenpartially funded by La Fondation de France.

References

Association, A.P., 1994. The Diagnostic and Statistical Manual of MentalDisorders, IV, Washington, D.C.

Bishop, C., 1995. Neural Networks for Pattern Recognition. OxfordUniversity Press.

Blum, A., Mitchell, T., 1998. Combining labeled and unlabeled data withco-training. In: Conf. on Computational Learning Theory.

Boersma, P., Weenink, D., Praat, doing phonetics by computer, Tech.rep., Institute of Phonetic Sciences, University of Amsterdam, Pays-Bas., 2005. URL <www.praat.org>.

Brefeld, U., Gaertner, T., Scheffer, T., Wrobel, S., 2006. Efficient co-regularizedleast squares regression. In: Internat. Conf. on Machine Learning.

Burnham, C., Kitamura, C., Vollmer-Conna, U., 2002. What’s newpussycat: on talking to animals and babies. Science 296, 1435.

Carlson, A., 2009. Coupled semi-supervised learning, Ph.D. thesis,Carnegie Mellon University, Machine Learning Department.

C.-C. Chang, C.-J. Lin, Libsvm: a library for support vector machines, Tech.rep., Department of Computer Science, National Taiwan University, Taipei(2001). URL http://www.csie.ntu.edu.tw/cjlin/libsvm/.

Chetouani, M., Mahdhaoui, A., Ringeval, F., 2009. Time-scale featureextractions for emotional speech characterization. Cognitive Compu-tation 1, 194–201.

Cohen, J., 1960. Educational and Psychological Measurement, Ch. Acoefficient of agreement for nominal scales, p. 3746.

Cooper, R., Aslin, R., 1990. Preference for infant-directed speech in thefirst month after birth. Child Development 61, 1584–1595.

Cooper, R., Abraham, J., Berman, S., Staska, M., 1997. The developmentof infantspreference for motherese. Infant Behavior and Development20 (4), 477–488.

Duda, R., Hart, P., Stork, D., 2000. Pattern Classification, second ed.Wiley, interscience.

Eibe, F., Witten, I., 1999. Data mining: practical machine learning toolsand techniques with Java implementations. The Morgan KaufmannSeries in Data Management Systems.

Esposito, A., Marinaro, M., 2005. Nonlinear speech modeling andapplications. Springer, Berlin, Ch. Some notes on nonlinearities ofspeech, pp. 1–14.

Fernald, A., 1985. Four-month-old infants prefer to listen to motherese.Infant Behavior and Development 8, 181–195.

Fernald, A., Kuhl, P., 1987. Acoustic determinants of infant preference formotherese speech. Infant Behavior and Development 10, 279–293.

Goldman, S., Zhou, Y., 2000, Enhancing supervised learning withunlabeled data. In: Internat. Conf. on Machine Learning, pp. 327–334.

Grieser, D., Kuhl, P., 1988. Maternal speech to infants in a tonallanguage: support for universal prosodic features in motherese.Developmental Psychology 24, 14–20.

Inouea, T., Nakagawab, R., Kondoua, M., Kogac, T., Shinoharaa, K.,2011. Discrimination betweenmothersinfant-andadult-directedspeech-usinghidden Markov models. Neuroscience Research, 1–9.

Kessous, L., Amir, N., Cohen, R., 2007. Evaluation of perceptual time/frequency representations for automatic classification of expressivespeech. In: paraling.

Kuhl, P., 2004. Early language acquisition: cracking the speech code.Nature Reviews Neuroscience 5, 831–843.

Laznik, M., Maestro, S., Muratori, F., Parlato., E., 2005. Au commence-ment tait la voix, Ramonville Saint-Agne: Eres, Ch. Les interactionssonores entre les bebes devenus autistes et leur parents, pp. 81–171.

1 2 3 4 5 6 7 8 9 10 11 12 13 14 150.74

0.76

0.78

0.8

0.82

0.84

0.86

0.88

0.9

0.92

0.94

Iterations

Accu

ray

Fig. 8. Accuracy by iteration.

1160 A. Mahdhaoui, M. Chetouani / Speech Communication 53 (2011) 1149–1161

182 Sélection d'articles

Page 197: "Traitement du signal social et robotique personnelle: Signaux actes ...

Maestro, S., Muratori, F., Cavallaro, M., Pecini, C., Cesari, A., Paziente,A., Stern, D., Golse, B., Palasio-Espasa, F., 2005. How young childrentreat objects and people: an empirical study of the first year of life inautism. Child psychiatry and Human Development 35 (4), 83–396.

Mahdhaoui, A., Chetouani, M., Zong, C., 2008. Motherese detectionbased on segmental and supra-segmental features. In: Internat. Conf.on Pattern Recognition-ICPR, pp. 8–11.

Mahdhaoui, A., Chetouani, M., Zong, C., Cassel, R., Saint-Georges,M.-C., Laznik, C., Maestro, S., Apicella, F., Muratori, F., Cohen,D., 2009. Multimodal signals: cognitive and algorithmic issues.Springer, Ch. Automatic Motherese detection for face-to-faceinteraction analysis, pp. 248–55.

Mahdhaoui, A., Chetouani, M., Zong, C., Cassel, R., Saint-Georges,M.-C., Laznik, C., Maestro, S., Apicella, F., Muratori, F., Cohen,D., 2011. Computerized home video detection for motherese mayhelp to study impaired interaction between infants who becomeautistic and their parents. International Journal of Methods inPsychiatry 20 (1), e6–e18.

Muratori, F., Maestro, S., 2007. Autism as a downstream effect of primarydifficulties in intersubjectivity interacting with abnormal developmentof brain connectivity. International Journal Dialogical Science Fall 2(1), 93–118.

Muslea, I., Minton, S., Knoblock, C., 2000. Selective sampling withredundant views. In: Proc. Association for the Advancement ofArtificial Intelligence, pp. 621–626.

Nigam, K., Ghani, R. 2000. Analyzing the effectiveness and applicabilityof co-training. In: 9th Internat. Conf. on Information and KnowledgeManagement, pp. 86–93.

Nigam, K., McCallum, A., Thrun, S., Mitchell, T., 2000. Text classifica-tion from labeled and unlabeled document using em In: Internat. Conf.on Machine Learning.

Platt, J., 1999. Advances in Large Margin Classifiers. MIT Press,Cambridge, MA, Chapter: Probabilistic outputs for SVM and com-parison to regularized likelihood methods.

Reynolds, D., 1995. Speaker identifcation and verification using gaussianmixture speaker models. Speech Communication 17 (1-2), 91–108.

Saint-Georges, C., Cassel, R., Cohen, D., Chetouani, M., Laznik, M.,Maestro, S., Muratori, F., 2010. What studies of family home moviescan teach us about autistic infants: a literature review. Research inAutism Spectrum Disorders 4 (3), 355–366.

Schapire, R., Singer, Y., 1999. Improved boosting algorithms usingconfidence-rated predictions. Machine Learning 37 (3), 297–336.

Schuller, B., Batliner, A., Seppi, D., Steidl, S., Vogt, T., Wagner, J.,Devillers, L., Vidrascu, L., Amir, L., Kessous, N., Aharonson,V.,2007. The relevance of feature type for the automatic classification ofemotional user states: low level descriptors and functionals. In:Interspeech, pp. 2253–2256.

Shami, M., Kamel, M., 2005. Segment-based approach to the recognitionof emotions in speech. In: IEEE Multimedia and Expo.

Shami, M., Verhelst, W., 2007. An evaluation of the robustness of existingsupervised machine learning approaches to the classification ofemotions in speech. Speech Communication 49, 201–212.

Slaney, M., McRoberts, G., 2003. Babyears: a recognition system foraffective vocalizations. Speech Communication 39, 367–384.

Truong, K., van Leeuwen, D., 2007. Automatic discrimination betweenlaughter and speech. Speech Communication 49, 144–158.

Vapnik, V., 1995. The Nature of Statistical Learning Theory. Springer,New York.

Vapnik, V., 1998. Statistical Learning Theory. Wiley, New York.Zhang, Q., Sun, S., 2010. Multiple-view multiple-learner active learning.

Pattern Recognition 43 (9), 3113–3119.Zhou, D., Schlkopf, B., Hofmann, T., 2005. Advances in Neural

Information Processing Systems (NIPS) 17. MIT Press, Cambridge,MA, Ch. Semi-Supervised Learning on Directed Graphs, pp. 1633–1640.

Zhu, X., Lafferty, J., Ghahramani, Z., 2003. Semi-supervised learningusing gaussian fields and harmonic functions. In: Internat. Conf. onMachine Learning, pp. 912–919.

Zwicker, E., 1961. Subdivision of the audible frequency range into criticalbands. Acoustical Society of America 33 (2), 248.

Zwicker, E., Fastl, H., 1999. Psychoacoustics: Facts and Models. SpringerVerlag, Berlin.

A. Mahdhaoui, M. Chetouani / Speech Communication 53 (2011) 1149–1161 1161

Sélection d'articles 183

Page 198: "Traitement du signal social et robotique personnelle: Signaux actes ...

184 Sélection d'articles

PLOS ONE

Travaux réalisés dans le cadre des thèses de Catherine Saint-Georges etd'Ammar Mahdhaoui.

Page 199: "Traitement du signal social et robotique personnelle: Signaux actes ...

Do Parents Recognize Autistic Deviant Behavior Longbefore Diagnosis? Taking into Account Interaction UsingComputational MethodsCatherine Saint-Georges1,2, Ammar Mahdhaoui2, Mohamed Chetouani2, Raquel S. Cassel1,2, Marie-

Christine Laznik3, Fabio Apicella4, Pietro Muratori4, Sandra Maestro4, Filippo Muratori4, David Cohen1,2*

1Department of Child and Adolescent Psychiatry, AP-HP, Groupe Hospitalier Pitie-Salpetriere, Universite Pierre et Marie Curie, Paris, France, 2 Institut des Systemes

Intelligents et de Robotique, CNRS UMR 7222, Universite Pierre et Marie Curie, Paris, France, 3Department of Child and Adolescent Psychiatry, Association Sante Mentale

du 13eme, Paris, France, 4Division of Child Neurology and Psychiatry, Stella Maris Scientific Institute, University of Pisa, Calombrone, Italy

Abstract

Background: To assess whether taking into account interaction synchrony would help to better differentiate autism (AD)from intellectual disability (ID) and typical development (TD) in family home movies of infants aged less than 18 months, weused computational methods.

Methodology and Principal Findings: First, we analyzed interactive sequences extracted from home movies of childrenwith AD (N= 15), ID (N = 12), or TD (N = 15) through the Infant and Caregiver Behavior Scale (ICBS). Second, discretebehaviors between baby (BB) and Care Giver (CG) co-occurring in less than 3 seconds were selected as single interactivepatterns (or dyadic events) for analysis of the two directions of interaction (CGRBB and BBRCG) by group and semester. Todo so, we used a Markov assumption, a Generalized Linear Mixed Model, and non negative matrix factorization. Comparedto TD children, BBs with AD exhibit a growing deviant development of interactive patterns whereas those with ID rathershow an initial delay of development. Parents of AD and ID do not differ very much from parents of TD when responding totheir child. However, when initiating interaction, parents use more touching and regulation up behaviors as early as the firstsemester.

Conclusion: When studying interactive patterns, deviant autistic behaviors appear before 18 months. Parents seem to feelthe lack of interactive initiative and responsiveness of their babies and try to increasingly supply soliciting behaviors. Thuswe stress that credence should be given to parents’ intuition as they recognize, long before diagnosis, the pathologicalprocess through the interactive pattern with their child.

Citation: Saint-Georges C, Mahdhaoui A, Chetouani M, Cassel RS, Laznik M-C, et al. (2011) Do Parents Recognize Autistic Deviant Behavior Long before Diagnosis?Taking into Account Interaction Using Computational Methods. PLoS ONE 6(7): e22393. doi:10.1371/journal.pone.0022393

Editor: James G. Scott, The University of Queensland, Australia

Received February 14, 2011; Accepted June 21, 2011; Published July 27, 2011

Copyright: ! 2011 Saint-Georges et al. This is an open-access article distributed under the terms of the Creative Commons Attribution License, which permitsunrestricted use, distribution, and reproduction in any medium, provided the original author and source are credited.

Funding: This study was supported by the Fondation de France and the Universite Pierre et Marie Curie. The funders had no role in study design, data collectionand analysis, decision to publish, or preparation of the manuscript.

Competing Interests: The authors have declared that no competing interests exist.

* E-mail: [email protected]

Introduction

Early signs of autismAutism is a severe psychiatric syndrome characterized by the

presence of abnormalities in reciprocal social interactions,abnormal patterns of communication, and restricted and stereo-typed behaviours starting before age 3 [1]. Autism is now a well-defined clinical syndrome after the third year of life, andconsiderable progress in understanding its emergence in the firsttwo years of life has been achieved [2,3]. Although there havebeen significant advances in describing single or multiple earlysigns, our ability to detect autism during early age is stillchallenging. Home movies (ie., naturalistic films recorded byparents during the first years of life) and direct observations of atrisk infants are the two most important sources of information forovercoming this problem. They have both described children withautism disorder (AD) during the first 18 months as not displayingthe rigid patterns described in older children. In particular, AD

children can gaze at people, turn toward voices and expressinterest in communication as typically developing (TD) infants do[4,5]. However, in several studies, children who later develop ADshow as early as the first year less social behavior (e.g., lookingat others, especially at the face), communication skills (e.g.,responding to name), inter-subjective initiative, and emotionexpression than TD infants. In the second year, early social signsintensify; expressive and receptive language fails to develop, whilethe lack of inter-subjective skills and of emotional expressionpersists [4,5]. These insights from home movies have beenconfirmed in studies of at risk children [6,7,8,9] and in studiesusing retrospective data from parental interviews to assess earlysigns of AD (Guinchat et al., in revision). As regards specificity,signs that differentiate AD children from children with intellectualdisability (ID) are limited to the second year: fewer responses toname, fewer glances to others, lower eye contact quality andquantity, less positive facial expression and fewer inter-subjectivebehaviors (e.g., showing shared attention) [4,5]. To further

PLoS ONE | www.plosone.org 1 July 2011 | Volume 6 | Issue 7 | e22393

Sélection d'articles 185

Page 200: "Traitement du signal social et robotique personnelle: Signaux actes ...

investigate early signs in the interactive field, Muratori et al. [10]studied home movies of the first three semesters of life from AD,ID and TD children with independent scoring of both baby (BB)and caregiver (CG) behaviors and timing. AD infants displayedimpairments in ‘‘syntony’’, ‘‘maintaining social engagement’’,‘‘accepting invitation’’ and in ‘‘orienting to their name’’ (defini-tions are given in Table 1) as early as the first year of life incomparison with TD children. At semester 3, some itemsdifferentiated AD from TD while for other items AD showedsignificantly lower scores compared to ID. In addition, they noted

that AD babies received less action than ID from their CG toregulate down their arousal and mood.

Taking into account interactionOne of the main limitations of these studies is that they have

not or only poorly taken into account the importance of BB/CG synchrony and reciprocity in the early interactions [11]. Asit is of seminal importance to have more insight not only intoearly social competencies of infants who are developing autismbut also into interactive situations where they preferentially

Table 1. Infant’s and caregiver’s behaviors and meta-behaviors from the infant caregiver behavior scale (ICSB).

Meta-behavior Item Behavior Glossary

Child Behaviors (N = 29)

Behavior withobject

Orienting toward object The child directs his/her gaze towards a source of new sensory stimulation coming from an object

Gaze Following an object The child shifts his/her gaze to follow the trajectory of an object.

Explorative activity with object The child touches something by hands, mouth or other sensory-motor actions, to find out what it feels like.

Looking at object/around The child directs his/her eyes towards an object, or simply looks around.

Smiling at object The child intentionally smiles at object.

Enjoying with object The child finds pleasure and satisfaction experiencing a physical or visual contact with an object.

Seeking contact with object The child employs spontaneous and intentional movements to reach contact with an object.

Vocali-zations Simple Vocalisation The child produces sounds towards people or objects.

Crying The child starts crying after a specific/non specific event.

Orientingtoward people

Orienting toward people The child directs his/her gaze towards a source of new sensory stimulation coming from a people

Gaze Following a person The child shifts his/her gaze to follow the trajectory of another person.

Explorative activity with person The child touches a person to find out what it feels like (by hands, mouth or other sensory-motor actions).

Receptive topeople

Looking at people The child directs his/her eyes towards a human face.

Smiling at people The child intentionally smiles at a person.

Enjoying with person The child finds pleasure and satisfaction experiencing a physical or visual contact with a person.

Sintony * The child shows signs of congruous expressions to affective solicitations, to the other’s mood.

Seeking people Seeking contact with person The child employs spontaneous and intentional movements to reach contact with a person.

Soliciting The child displays a vocal or tactile action to attract the partner’s attention or to elicit another response.

Inter-subjectivebehavior

Anticipation of other’s intention The child makes anticipatory movements predicting the other’s action.

Communicative gestures The child displays use of social gestures.

Referential gaze The child shifts his/her gaze towards the caregiver to look for consultation in a specific situation.

Gaze following gaze The child shifts his/her gaze to follow the gaze of another person.

Accept Invitation The child’s behavior is attuned to the person’s solicitation within 3 seconds.

Orienting to name prompt The child assumes a gaze direction towards the person who calls him/her by the name.

Imitation The child repeats, after a short delay, another person’s action.

Pointing comprehensive/ declarative/requestive

The child a) shifts his/her gaze towards the direction pointed by a person; b) points something in order toshare an experience; c) in order to obtain an object.

Maintaining social engagement * The child takes up an active role within a two-way interaction in order to keep the other person involved.The child interacts, vocalises and maintains turn taking.

Meaningful Vocalisation The child intentionally produces sounds with a stable semantic meaning

Caregiver’s Behaviors (N = 8)

Reg-up/down Regulation up * /down Modulates the child’s arousal and mood, to either excite (reg-up) or calm (reg-down).

Touching Touching Stimulates the child requesting attention by touching him/her.

Vocalization Vocalizing/naming/behavior request Stimulates the child requesting attention by vocalizing, naming

Gesturing-showing

Gesturing/showing object Stimulates the child requesting attention by gesturing or showing him object

doi:10.1371/journal.pone.0022393.t001

Early Parental Adaptation to Their Autistic Infant

PLoS ONE | www.plosone.org 2 July 2011 | Volume 6 | Issue 7 | e22393

186 Sélection d'articles

Page 201: "Traitement du signal social et robotique personnelle: Signaux actes ...

emerge, we tried to overcome these caveats by using forprevious data [10] new engineering techniques of interactionanalysis focusing on reciprocity and synchrony between BB andCG. Recently, applying machine learning methods to exploreTD infant and mother behavior during interaction, Messingeret al. [12] showed that developmental changes were mostevident when the probability of specific behaviors wasexamined in specific interactive contexts. The aims of thecurrent study were to assess early social interactions of infantswith TD, ID and AD taking into account simultaneously: CGbehavior, BB behavior, synchrony of the interaction partners,and finally, the two directions of interaction (from CG to BBand from BB to CG). Among others, we hypothesized that (1)infants with AD should exhibit a growing deviant socialdevelopment whereas those with ID should rather show aninitial delay of development; (2) CG of babies with atypicaldevelopment should feel very early the initial pathologicalprocess and this feeling could be expressed through atypical/unusual interactive patterns.

Materials and Methods

General view of the studyThe diagram-flow of the study is summarized in Figure 1. Forty-

two children were randomly selected inside the Pisa Home Moviedatabase, with the following criteria: 15 who will be diagnosedwith AD, 12 with ID and 15 who will develop normally (step 1). Allscenes showing a situation in which social interaction could occur(i.e. all scenes with an infant and an adult) were extracted and, ifnecessary, segmented in short sequences in order to be scored (step2). CG and BB behaviors were rated independently within eachinteraction sequence according to a grid with a specific part foreach partner (step 3). An interaction database was created byextracting [CGRBB] or [BBRCG] signals occurring ‘‘simulta-neously’’, that is within a time window of 3 seconds (step 4). Acomputational model using Markov assumption of interaction wasperformed to describe the interaction (step 5). Quantitativestatistics were performed to assess and compare emergence ofinteractive patterns by time and by group (step 6). To study theseinteractive patterns with an integrative perspective, Non-negativeMatrix Factorization (NMF) were performed (step 7). Steps 1, 2,and 3 have been described in a previous report where a fulldescription is available [10]. Here we only summarize them.

Participants (Step 1)The study has been approved by the Ethical Committee of the

Stella Maris Institute/University of Pisa, Italy [13]. The PisaHome Movie data base includes three groups of children matchedfor gender and socio-economic status, with home movies (HM)running for a minimum of 10 minutes for each of the first 3semesters of life. Group 1 includes 15 children (M/F: 10/5) with adiagnosis of AD without any sign of regression confirmed with theAutism Diagnostic Interview Revised [13]. Group 2 includes 12children (M/F: 7/5) diagnosed with ID according to the DSM-IVcriteria and a Childhood Autism Rating Scale (CARS) [14] totalscore under 25. The composite IQ score was below 70 for bothAD and MR (figure 1). Group 3 includes 15 children (M/F: 9/6)with a history of typical development confirmed by nonpathological scores at the Child Behavior Check List [15].

Extraction of CG-BB interaction situations (Step 2)An editor, blind to children diagnoses, selected from among the

HM of each child all segments running for at least 40’’ where theinfant was visible and could be involved in human interaction

(standard situations). For each infant, the sequences wereorganized in three periods of 6 months of age (#6 month;6,age#12 months; .12 months). Sequences were randomlyselected by group and by semester. Preliminary t-test analysisshowed that chosen video material was comparable across groupsand for each range of age, in length and number of standardsituations.

Computer-based coding system (Step 3)The Observer 4.0H was configured for the application of the

Infant Caregiver Behavior Scale (ICBS) to the video media file-material. The ICBS (Table 1) is composed of 29 items referring tothe ability of the BB to engage in interactions and 8 itemsdescribing CG solicitation or stimulation toward the infant toobtain his attention. All target behaviors were described as Eventswhich take an instant of time. Caregiver regulation up caregiverregulation down were described as events and also states whichtake a period of time and have a distinct start and an end.Four coders were trained to use the computer-based coding

system until they achieve a satisfactory agreement (Cohen’s Kappa$0.7). The standard situations derived from the HM of the threegroups of children (AD, ID and TD) were mixed, and each onewas rated by one trained coder blind to which group theybelonged. For a continuous verification of inter-rater agreement,25% of standard situations were randomized and rated by twocoders independently. The final inter-rater reliability, calculateddirectly by the Observer, showed a satisfactory Cohen-k meanvalue ranging from 0.75 to 0.77.

Creation of the interaction database (step 4)We first created an interaction data base (Step 4) by extracting all

interactive events defined as sequences of caregiver behavior andinfant behavior co-occurring within a time window of 3 seconds. Thewhole interaction database was divided into two sets: (1) CGRBBinteractions, i.e. any child behaviors occurring within the 3 secondsfollowing any caregiver behavior (including events that occur withinthe same second); (2) BBCG interactions, i.e. any caregiver behaviorsoccurring within the 3 seconds following any child behavior (againincluding concomitant events). The 3 second window was based onavailable literature on synchrony ([11]). Interactive events thatoccurred at the same second were integrated in the two sets of theinteraction database because it was too difficult to assume who wasprimary or secondary in the interaction. Extraction was performedusing Linux based script. The sequence of n interactive patterns istermed n-gram as usually done in natural language processing orgene analysis. In this study, we only focused on bi-gram modeling.Given the large number of possible types of interaction ([CG item xBB item] combinations = 8629), and the low frequency of severalitems in the data base, we created five CG meta-behaviors (Vocalsolicitation, Touching, Gestural solicitation, Regulation up, Regula-tion down) and six BBmeta-behaviors (Vocalizations, Inter-subjectivebehavior, Seeking people, Receptive to people, Orienting towardpeople, Behavior with object) by grouping ICBS items. Metabehaviors are shown in the left column of Table 1. Then we repeatedthe process of extraction to obtain finally, for each standard situation,all sequences of caregiver meta-behavior and infant meta-behavioroccurring within a time window of 3 seconds.

Characterization of infant-caregiver interactive patterns(Step 5)General principles of the analysis we used to investigate

interactive patterns by group and by time are summarized infigure 2. First, we aimed to describe infant-caregiver interaction by

Early Parental Adaptation to Their Autistic Infant

PLoS ONE | www.plosone.org 3 July 2011 | Volume 6 | Issue 7 | e22393

Sélection d'articles 187

Page 202: "Traitement du signal social et robotique personnelle: Signaux actes ...

time and by group and assess emergence of language and socialengagement by time and by group as they are core issues ofautism. For each of the two sets of the database (ie., the twodirections of interaction), assuming a Markovian process, we useda maximum likelihood estimation to estimate, by group andsemesters, the probability (relative frequency) of each interactivepattern or bi-gram (couple of CG and BB items) using metabehaviors only (665 for BBRCG and 566 for CGRBB).Grouping all the more frequent (.1%) interactive patterns (orbi-grams) allows designing Markov chains representing the parent-infant interaction. Markov diagrams were performed usingGraphviz (see http://www.graphviz.org/).

Quantitative statistics (Step 6)Statistical analyses were performed using R Software, Version

2.7 (The R Foundation for Statistical Computing). Analyses wereconducted separately on each of the two sets of the data base(CGRBB and BBRCG). We computed descriptive statistics of

each CG and BB interactive behavior and meta-behavior, bygroup and by semester. To assess by group and/or by timesignificant associations, we used a generalized linear mixed model(GLMM). Using this model, we performed a linear regression thatwas generalized to the variable distribution (here a quasi Poissondistribution) and with a random effect to take into accountpatients’ auto correlations [16]. The distribution of each itembehaviors and meta-behaviors was studied in order to computestatistics with GLMM. All BB and CG meta behaviors, 6 CG items(Gesturing, Showing object, Vocalizing, Request Behavior,Naming) and 9 BB items (Orienting to name, Exploring object,Looking at object, Looking around, Looking at People, ContactObject, Orienting to People, Simple Vocalizations, Smiling atPeople) satisfied a ‘‘quasi-Poisson’’ law. Several other itemsoccurring with a low frequency were not statistically usablebecause their distribution did not satisfy any known law. All BBand CG items and meta behavior responding to a quasi Poissondistribution were included in the model.

Figure 1. Diagram flow of the study. SES = Socio Economic Status; IQ = Intellectual quotient; CARS=Children Autism Rating Scale; CBCL =ChildBehavior Check List; SD = Standard Deviation; GLMM=Generalized Linear Mixed Model; *IQ matching only between ID and AD children and based onGriffiths Mental Developmental Scale or Wechsler Intelligent Scale.doi:10.1371/journal.pone.0022393.g001

Early Parental Adaptation to Their Autistic Infant

PLoS ONE | www.plosone.org 4 July 2011 | Volume 6 | Issue 7 | e22393

188 Sélection d'articles

Page 203: "Traitement du signal social et robotique personnelle: Signaux actes ...

We conducted two univariate analyses first with Group asindependent variable for a given semester, and then Time(semester) as independent variable within the same group. Thena multivariate analysis with both Time and Group was performed.As we knew that (1) AD and ID children would not behave betterin interaction than TD and that (2) interactive behaviors changewith time in pathological and typical children, we used a one-tailthreshold of significance (t = 1.645 for p= 0.05) for eachcalculation of p.

Computational model of infant-caregiver interaction(Step 7)Modeling and analyses done by Markov chains and GLMM

provide useful insights on dynamic and relevance of individualinteractive patterns. In order to study these interactive patternswith an integrative perspective, we proposed to employ a moreglobal approach using Non-negative Matrix Factorization (NMF)[17]. All the m interactive patterns among the n movies have beengrouped into a matrix V.NMF is an unsupervised feature extraction method involving

the decomposition of a non-negative matrix V (dimension n x m)into two non-negative matrices W (n x k) and H (k x m) bymultiplicative updates algorithm:

V&WH

The non-negativity constraints are relevant for the analysis ofhuman behaviors since they allow only additive, not subtractive,combinations (part-based representation). The rank k of thefactorization represents the number of latent factors and is usuallychosen such that (n+m)k,nm. The rank k is interpreted as thenumber of clusters resulting in groups of interactive behaviors.Indeed, rows or columns of the decomposed matrices (H and W)are usually considered to be the membership degree to a cluster.NMF has been successfully used in various applications includinginterpretation of social behaviors [18] and computational biology[19]. Most of the studies have pointed important requirements

such as the pre-processing of the data, optimization of the rank offactorization (the number of clusters) and also the initialization.Regarding the pre-processing, we used a method usually

employed in document analysis: tf-idf (term frequency-inversedocument frequency) [20]. This approach is based on the fact thata query term that occurs in many documents may not bediscriminant and consequently should be given less weight thanone that occurs in few documents. In our work, terms refer tointeractive patterns while documents refer to home movies. Thekey idea is to give more importance to an interactive pattern in agiven home movie if 1) the interactive behavior appears frequentlyin the home movie and 2) the interactive behavior does not appearfrequently in other home movies. For a given interactive behaviorti within a movie dj, we estimated the term-frequency tfij:

tfij~nijPl nlj

where nij is the number of occurrences of the consideredinteractive pattern (ti) in the movie dj, and the denominator refersto the total of occurrences of all the interactive patterns in themovie dj.The inverse document frequency is a measure of the general

importance of the interactive pattern (a measure of informative-ness) defined as the logarithm of the ratio of documents (movies) tothe number of documents containing a given term (interactivepatterns):

idfi~ logDj j

d : ti[df gj j

where |D| is the total number of movies in the database and|{d:ti M d }| is the number of movies containing the interactionpattern ti. Finally, the tf-idf representation is obtained bymultiplying the weights: (tf-idf)ij = tfij x idfi.The number of clusters is an important issue in the current work

since it will provide insights on the combination of interactivepatterns among groups and semesters. To determine the optimal k

Figure 2. Analysis of parent-infant interaction: general principals. {CGRBB} ensemble of interactive patterns from caregiver (CG) to baby(BB); {BBRCG} ensemble of interactive patterns from baby (BB) to caregiver (CG); GLMM=Generalized Linear Mixed Model.doi:10.1371/journal.pone.0022393.g002

Early Parental Adaptation to Their Autistic Infant

PLoS ONE | www.plosone.org 5 July 2011 | Volume 6 | Issue 7 | e22393

Sélection d'articles 189

Page 204: "Traitement du signal social et robotique personnelle: Signaux actes ...

Figure 3. Markov diagram of the main early interactive patterns in typical developing children according to time and interactiondirection.doi:10.1371/journal.pone.0022393.g003

Early Parental Adaptation to Their Autistic Infant

PLoS ONE | www.plosone.org 6 July 2011 | Volume 6 | Issue 7 | e22393

190 Sélection d'articles

Page 205: "Traitement du signal social et robotique personnelle: Signaux actes ...

which decomposes the samples into ‘meaningful’ clusters, weinvestigated ‘Homogeneity-Separation’ since the standard defini-tion of a good clustering is that of ‘Homogeneity-Separation’:every element in a cluster must be highly similar (homogeneous) tothe other elements in the same cluster and highly dissimilar(separation) to elements outside its own cluster.The stochastic nature of NMF requires strategies to obtain

stable and reliable results that also depend on the initializationprocess. In the current work we use a recent method proposed byBoutsidis and Gallopoulos [21] termed Nonnegative DoubleSingular Value Decomposition (NDSVD), which is based onSingular Value Decomposition (SVD) but with non-negativeconstraints. Unlike random approaches, NDSVD guaranties stableresults but not necessarily efficient ones; for this purpose multipleruns of NDSVD have been carried out.In order to understand the developmental similarity of AD

children towards TD, and ID children towards TD, we calculatedthe value of the Normalized Mutual Information (NMI) asproposed by Strehl and Ghosh [22]. The NMI of two differentclustering measures the agreement between the two clustering:

NMI(y1,y2)~

Pki~1

Pkj~1 n

1,2i,j log

n|n1,2i,j

n1i|n2

j

!

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!Pk

i~1 n1i log

n1in

" # Pki~1 n

1j log

n2in

" #s

where n1i is the number of interactive patterns belonging to cluster

ci using clustering y1, n2j is the number of interactive patterns

belonging to cluster cj, using clustering y2, and n1,2i,j is the number

of interactive patterns belonging to cluster ci, using clustering y1

and belonging to the cluster cj using y2. One should note thatNMI(y1,y1) = 1 indicating same clustering and consequently sameinteractive behaviors.

Results

Early interaction in TD children and significantdevelopmental changesFigure 3 summarizes the Markov diagram of all interactive

patterns in TD children (at the meta-behavior level) occurring witha frequency higher than 1% according to both interactiondirection [CGRBB] or [BBRCG] and semester. The diagramestimates 93.6% to 96% of the total interaction patterns accordingto semester and direction of interaction. When CG startsinteraction, he/she predominantly uses vocal solicitation at allsemesters. BB responds with vocalization (38.6%), being receptiveto people (16%) and with object behaviors (8.9%) during the firstsemester (S1). BB responds with vocalization (25.4%), with objectbehaviors (18.8%) and being receptive to people (12.4%) duringS2. BB responds with vocalization (24.6%), with object behaviors(22.9%) and intersubjective behaviors (19.1%) during S3. WhenBB starts interaction he uses preferentially vocalizations and beingreceptive to people during S1, to which CG answers withvocalizations (54.8%) and touching (12.1%). During S2, BB usesbehavior with object (28.8%), vocalizations (26.9%), beingreceptive to people (17.8%) and intersubjective behaviors(12.4%). CG answers predominantly with vocal solicitation.During S3, patterns are similar but BB intersubjective behaviors(21.9%) are much more frequent than being receptive to people(7.3%).For each interaction direction, figure 4 shows the relative

distribution of meta-behaviors by semester, and summarizes the

GLMM model in TD children. Significant developmental changesare indicated by an arrow ( or according to a significantincrease or decrease). They are as follows: BB intersubjectivebehaviors and seeking people behaviors, both as interactioninitiation [BBRCG] and response [CGRBB] increase from S1 toS2. The increase continues from S2 to S3 as response [CGRBB]for BB intersubjective meta-behavior whereas BB seeking peoplebehaviors decrease (only as response, too). However, during S3,BB intersubjective behaviors become the second child solicitationfor CG. BB behavior with object becomes the first solicitation fromthe BB as soon as S2, and also the first response of the BB at S3.CG touching behaviors decrease in both directions from S1 to S2,and from S2 to S3. CG gestural solicitation increases from S1 toS2. CG vocal solicitation is predominant in all semesters. CGregulation up/down are very low in TD children duringinteractive patterns.For the meta-behaviors that showed significant changes during

early development, we also tested the corresponding CGBBindividual items included in the model (see methods). Significantresults are as follows: BB orienting to name increases (p,0.001)from S1 to S2 and decreases from S2 to S3 (p,0.001); BB contactobject increases (p,0.05) from S1 to S2; BB exploring objectincreases (p,0.001) from S1 to S2 and again from S2 to S3(p,0.001); BB looking around (p,0.05) and BB smiling at people(p,0.05) decrease from S2 to S3. CG gesturing increases(p,0.001) from S1 to S2 and then decreases (p,0.001) from S2to S3; CG request behavior (p,0.05) and CG naming (p,0.01)increase from S1 to S2.

Early interaction in AD and ID infants compared to that inTD infantsFigure 5 and figure 6 summarize the significant developmental

changes over time (represented by an arrow) and the significantdifferences in the multivariate analysis (by group and by timecomparison) using the GLMM model in AD and ID children,respectively.Considering first child behavior, when CG starts interaction

[CGRBB], BB inter-subjective behaviors grow every semester(p,0.01) whatever the group, but they are lower for ID than TD(p,0.01) at S1. In contrast, for AD it is lower (p,0.05) globally (allsemesters combined) and tend to be significantly lower (p,0.1) atS3. When BB starts interaction [BBCG], BB inter-subjectivebehavior is again significantly lower (p,0.05) for ID than TD atS1. From S1 to S2, unlike for TD, BB inter-subjective behaviordoes not increase in both pathological groups, but only childrenwith ID exhibit a significant increase of inter-subjective behaviorfrom S2 to S3. BB orienting toward people is lower (p,0.05) inresponse at S1 for AD than TD. However, it significantly increases(p,0.01) from S1 to S2 for AD (whereas TD keep stable). OtherBB meta-behaviors (vocalizations, seeking people, being receptiveto people, behavior with object) show no significant differencesbetween groups.From a developmental point of view, AD children, unlike TD

children, show a significant increase (p,0.05) of receptivebehaviors from S1 to S2, and conversely, a much smaller increaseof seeking people behaviors (p,0.05) than TD (p,0.001). Insummary, from S1 to S2, AD children become more ‘‘open’’(receptive) and interested in an exchange (orienting toward people)but only in a passive way (not seeking people); moreover at S3, thedecrease of BB receptive behaviors is striking in AD (p,0.01)whereas this is not significant for TD children.ID children do not show any increase of BB seeking people over

time but have high rates at S1. Like TD children but unlike ADchildren, ID children don’t exhibit significant changes over time

Early Parental Adaptation to Their Autistic Infant

PLoS ONE | www.plosone.org 7 July 2011 | Volume 6 | Issue 7 | e22393

Sélection d'articles 191

Page 206: "Traitement du signal social et robotique personnelle: Signaux actes ...

either in BB receptive behaviors or in BB orienting toward people.Unlike AD and TD children, ID children exhibit a significantincrease of BB behaviors with object from S1 to S2, but whateverthe semester they stay (but not significantly) below TD and AD.Considering now CG behavior, CG vocal solicitation is always

higher for parents of TD children, but it never reaches significancebetween groups nor over time. CG gestural solicitation is lower atS1 in the two pathological groups reaching significance for parentsof ID children only in initiation [CGRBB] (p,0.05) and forparents of AD children only in response [BBRCG] (p = 0.01).However, for the three groups it increases significantly from S1 toS2 in both ways of interaction, except in response for parents of IDchildren. CG touching behavior does not change in CG of AD andID children from S1 to S2, while it decreases for parents of TDchildren (p,0.001). Then from S2 to S3, it decreases in parents ofAD children as it does for parents of TD children. However at S3,CG touching is higher for parents of AD and ID childrencompared with TD children, in initiation [CGRBB] (p,0.05) andwith a tendency (p,0.05 for ID and p,0.1 for AD) in response[BBRCG]. Finally, CG regulation-up duration is higher forparents of ID and AD children (p,0.05) at S1. Then it decreases(p,0.05) from S2 to S3 in all groups. However, at S3, it remainshigher (p,0.05) for parents of AD children.

For item behaviors included in the model (see methods), allsemesters together (in the multivariate analysis), BB orienting toname and BB exploring object appear lower in the AD group thanin TD (p,0.01 and p,0.001 respectively). With regards to the IDgroup, BB looking object, BB looking around and CG gesturingappear lower than in the TD group (p,0.05). BB exploring object,at S2 and S3, was lower for AD children (p,0.05 and p,0.01respectively). As for other developmental changes for AD children,from S1 to S2, unlike for TD, BB orienting toward people and BBsmiling to people are growing (p,0.01 and p,0.05 respectively).From S2 to S3, unlike for TD children, BB exploring object andBB looking around don’t increase, and BB looking at peopledecreases (p,0.05). From S1 to S2, CG touching increases non-significantly (while there is a significant decrease in TD group:p,0.001) and from S2 to S3, CG gesturing doesn’t decrease, andCG naming decreases (p,0.05). For other items, AD groupfollows a development similar to that of typical.

Developmental similarity between AD vs TD and ID vs TDusing Non negative Matrix FactorizationTo give a more general view of interactive patterns during

infancy, we also used non- negative matrix factorization. First, weapplied a tf-idf (term frequency-inverse document frequency) to

Figure 4. Developmental view of meta-behaviors for typical infants. Top: Care-Givers towards Babies/Down: Babies towards Care-Givers. S =Semester; See Table 1 for a brief description of cited infant’s or care-giver’s behaviors and meta-behaviors. In brackets: % of this behavior inside thewhole interactions of the group in the semester. The arrow indicates behaviors that significantly grow ( ) or decrease ( ) compared with theprevious semester (*p,0.05; **p,0.01; ***p,0.001).doi:10.1371/journal.pone.0022393.g004

Early Parental Adaptation to Their Autistic Infant

PLoS ONE | www.plosone.org 8 July 2011 | Volume 6 | Issue 7 | e22393

192 Sélection d'articles

Page 207: "Traitement du signal social et robotique personnelle: Signaux actes ...

transform the scenes annotations into a representation suitable forthe clustering task. The best solutions of behavior signals clusteringfor the ‘Homogeneity-Separation’ method yielded the followingnumber of clusters according to semester (S1, S2, S3): 11, 14 and 9for TD; 5, 11, 14 for ID; 12, 8, 10 for AD.To illustrate the developmental similarity of AD children

towards TD, and ID children towards TD, we calculatedNormalized Mutual Information (NMI) values between theclustering results of TD/AD at each semester (0.48, 0.44, 0.37for S1, S2, S3 respectively) and NMI values between the clusteringresults of TD/ID at each semester (0.48, 0.50, 0.47 for S1, S2, S3respectively). Figure 7 shows that NMI values between theclustering results of TD/AD decrease over time, whereas NMIvalues between the clustering results of TD/ID show stability overtime (see figure 7).

Discussion

As opposed to all previous home movies studies, the use ofengineering methods related to social signal processing allowedfocusing on dynamic parent«infant interaction instead of singlebehaviors of the baby or of the parent. The focus on interaction

has many advantages. First, it allows to maintain attention onantecedents and consequences of interactive behaviors; second itallows to point out significant sequences that could be able toprompt or inhibit social interaction in a naturalistic andspontaneous way; third, it could produce insights for treatmentsbased on parent-infant engagement that are now considered to bea fundamental part of many types of treatment. We discuss ourresults separately with regard to typical and atypical developmentsof interactive patterns. Throughout the discussion we put a seriesof comparisons with results described in a previous paper on thesame subjects with the objective to demonstrate the added value ofa research on autism using engineering methods which has itsfocus on interactive social sequences and not just on simple, oreven complex, behaviors.

Summarizing CG«BB interactive patterns in typicallydeveloping babiesAmong BB behaviors vocalizations are predominant from birth,

and exploring object grows significantly every semester untilbehaviors with object become the first BB meta-behavior in thesecond year. While seeking people peaks significantly at second

Figure 5. Developmental view of main interactive behaviors for infants with autism. Top: Care-Givers towards Babies/Down: Babiestowards Care-Givers. S = Semester; See Table 1 for a brief description of cited infant’s or care-giver’s behaviors and meta-behaviors. In brackets: % ofthis behavior inside the whole interactions of the group in the semester. The arrow indicates behaviors that significantly grow ( ) or decrease ( )compared with the previous semester (*p,0.05; **p,0.01; ***p,0.001). The red color indicates a significant difference when compared with TD:behavior in red color means that it differs in a group comparison (inside a given semester); arrow in red color means that the progression over timediffers from that of the TD children (meaning the arrow has not the same direction). Significant p values are given in the text.doi:10.1371/journal.pone.0022393.g005

Early Parental Adaptation to Their Autistic Infant

PLoS ONE | www.plosone.org 9 July 2011 | Volume 6 | Issue 7 | e22393

Sélection d'articles 193

Page 208: "Traitement du signal social et robotique personnelle: Signaux actes ...

semester compared with next and previous semesters, inter-subjective behavior continues to grow significantly over thesemesters. Thus in the second semester, a typical child is ratherseeking and attending to his care-giver and little by little turns toobjects, even inside the interaction (since our ‘‘filter’’ keeps onlybehaviors that are included in an interactive dynamic). Thispattern describes the typical development of shared or jointattention [23,24] and points out how this phenomenon isentangled with both the simultaneous increase of inter-subjectivityand with vocalizations.Also among CG behaviors, vocalizations are predominant from

birth. We can assume that this type of stimulation which has itsroots in animal communication is the more powerful way tostrengthen child attention and affective communication. Probablyit happens thanks to prosodic cues specific of infant directedspeech [25,26] that are the object of a parallel paper where wehave proposed a specific technological analysis of motherese [27].Moreover, vocalizations pose the basics of language acquisitionalong with gestures [28,29]. Indeed, CG gestural solicitationsincrease during the first year. In contrast, touching decreases every

semester so that as the child becomes gradually more active(seeking people) and conscious (intersubjective acts) in therelationship, parents follow suit by leaving their touching behaviorbut not their vocalizations and increasing their gestural commu-nication [30]. Indeed, the literature shows that mothers tailoredtheir communication to infants’ level of lexical-mapping develop-ment [28].

What differs in AD and ID developments of interactivepatterns?While ID infants seem to show an initial delay, they more or less

follow the developmental path of TD infants. Namely, after aninitial delay in inter-subjective behavior they increase as do TDbut a semester later. In the same way, ID children exhibit asignificant increase of behaviors with objects during the first year,moving to catch up to the TD functioning. In contrast, ADchildren seem to develop otherwise. Especially, AD children showless orienting toward people in the first semester, and thereafterthey exhibit a much smaller increase of seeking people behaviorsthan TD (whose score is multiplied by 4). As already described in a

Figure 6. Developmental view of main interactive behaviors for infants with intellectual disability (ID). Top: Care-Givers towardsBabies/Down: Babies towards Care-Givers. S = Semester; See Table 1 for a brief description of cited infant’s or care-giver’s behaviors and meta-behaviors. In brackets: % of this behavior inside the whole interactions of the group in the semester. The arrow indicates behaviors that significantlygrow ( ) or decrease ( ) compared with the previous semester (*p,0.05; **p,0.01; ***p,0.001). The red color indicates a significant differencewhen compared with TD: behavior in red color means that it differs in a group comparison (inside a given semester); arrow in red color means thatthe progression over time differs from that of the TD children (meaning the arrow has not the same direction). Significant p values of groupcomparisons are given in the text.doi:10.1371/journal.pone.0022393.g006

Early Parental Adaptation to Their Autistic Infant

PLoS ONE | www.plosone.org 10 July 2011 | Volume 6 | Issue 7 | e22393

194 Sélection d'articles

Page 209: "Traitement du signal social et robotique personnelle: Signaux actes ...

previous study [31], during the second semester there is anincrease of orienting toward people and in receptive behaviors,especially smiling to people. But this increasing pattern, from aninteractive point of view, appears to be passive, and after the firstbirthday these receptive behaviors dramatically decrease (to notethat receptive behaviors remain stable both in TD and in IDchildren). Thus, it seems that the real marker for atypical socialdevelopment is the weakness in initiating a social interaction:without the increase of social initiative the ability to be receptiveand responding to others also becomes more scarce. Moreover,inter-subjective behaviors, even if globally lower, becomespecifically lower after the first birthday.All these results are consistent with the hypothesis of a growing

deviant development in AD [1] whereas children with ID showjust a delay of social development, as illustrated in figure 7summarizing the NMI values of non negative matrix factorization.This deviant development concerns also BB exploring object,which we did not find significant in the previous paper whose focuswas on behaviors not on interaction context. Indeed, in the presentstudy exploring object appears significantly reduced in the ADgroup as soon as the second half of the first year. This means thatAD babies have less exploration of object inside the earlyinteractive context, and that, unlike for TD (and ID), exploringobject doesn’t increase for AD after the first birthday. Thus thechild does explore object but outside a real social interaction: wesuggest that this pattern could be the expression of an early (andgrowing) lack of joint attention in AD. Joint attention is known tobe deficient in older children with autism [32], and early lack ofjoint attention is correlated with a poor social interaction [33].With regards to CG behaviors there are both differences and

similarities as far as initiative and response. First of all, caregivershave toward their babies longer regulation up interaction and lessgestural solicitation. We imagine that gestural solicitation becomesreduced because it fails to get a response; as a confirmation, in theprevious paper [10] we described how CG soliciting by namedecreases as a matter of the reduced orienting to name by ADbabies. On the other hand, the high regulation up has a differentmeaning. First, CG Regulation up duration appears higher, in thefirst 6 months and in both pathological groups, only in theinteractive context (it was not significant without the filter of

interaction): that means that interactive moments are sustainedboth in AD and in ID by CG Regulation up; TD babies do notneed a large amount of these CG behavior to express theirsociality. Second, after the first birthday, regulation up remainssignificantly higher only for AD. We can hypothesize that whileparents of both AD and ID feel from the first 6 months that theirbaby needs to be more stimulated, afterwards only parents of ADare confronted with a lack of social interest in their baby as he/sheappears to enter into a clearer pathological process in the thirdsemester. Indeed, AD children showed a lack of interest in peoplefrom the first 6 months, an increase of engagement (even if morepassive) in the second semester, and then, after the first birthday,also a sharp decline of receptive meta-behaviors. Third, thisspecial pattern of CG regulation up is associated, in the secondsemester, with the fact that parents go on touching their child toobtain a response (unlike TD children, there’s no decrease oftouching). The pattern composed of higher touching and longerregulation up still remains present in the second year when parentsbecome more conscious of the difficulties to obtain a response.In contrast, parental responses to inter-subjective behaviors do

not differ from parents of TD babies. The few differences inquantity of CG responses in the first semester can be put down tolower babies’ inter-subjective behaviors as far as a parentalresponse needs a soliciting child. In sum, it seems that, exceptfeeling that their baby needs to be stimulated, parents respondglobally in the same way to their babies when he/she starts aninteraction.

Clinical implication for early detection of autismOver the past 20 years much attention has been dedicated to

behavioral indicators that will be present very early in life,certainly in infancy. Nevertheless, prospective (such as siblingsstudies) and retrospective (such has home videos studies) studieshave not yet identified a clear prodrome that is a constellation ofunfailing early warning signs indicating the development of adisease up to the time in which the clinical symptoms fulfill therequired criteria for a diagnosis [3]. Our study adds some generallines useful to reach the objective of identifying prodrome ofautism.First, our interaction data base (i.e. extracting all sequences of

caregiver behavior and infant behavior occurring within a timewindow of 3 seconds) has provided some significant findings whichare detectable only during parent-infant interaction. Thus, wepropose that the best way to study the emergence of autism shouldbe based on interaction rather than on behaviors of each part ofthe dyad. Concepts such as synchrony [11], closely-fitting match[34] and mutual adaptation could provide a great deal of help toworkers in the field of early detection of autism [35].Second, our study shows a course of autism characterized by a

decreasing atypical pattern in the second semester of life andafterwards an increasing loss of contact. This pattern, that we havenamed ‘fluctuating type of onset’ [36], does not seem unusual innon regressive autism as in our sample. This finding could be ofseminal importance for both individualization of the right windowsin screening programs (first six months of life or after the firstbirthday) and implementation of timely effective parent-infanttraining in a sensible period as the second semester of life doesappear.Third, we can confirm that much credence should be given to

parents when they entrust their concerns to professionals (as shownby retrospective parental questionnaires [37,38]). Moreover ourresearch shows that parent listening can be implemented by somespecific question and/or observation about the hyper-stimulatingstyle of parent interaction toward their baby; in fact, we suggest

Figure 7. Developmental similarity between intellectual dis-ability (ID) and typical development (TD) (red line) andbetween autism disorder (AD) and typical development (blueline) using Normalized Mutual Information (NMI) after nonnegative matrix factorization (S= semester).doi:10.1371/journal.pone.0022393.g007

Early Parental Adaptation to Their Autistic Infant

PLoS ONE | www.plosone.org 11 July 2011 | Volume 6 | Issue 7 | e22393

Sélection d'articles 195

Page 210: "Traitement du signal social et robotique personnelle: Signaux actes ...

that this particular attitude betrays the presence of an under-activebaby (lack of initiative, inability to provoke or to anticipate other’saims, hypo-activity) which need to be stimulated. Thus throughthis pattern of interaction parents seem to feel very early thatsomething is wrong in their baby - long before diagnosis.Although, even if the BB intergroup differences do not reachsignificance and then are not detectable for a stranger (i.e. thepediatrician), some dynamic changes like the significant longitu-dinal decrease of ‘‘receptive’’ meta-behavior after the first birthdayshould presumably be detectable for the child’s relatives.

Limits of this studyThe first limitation is the sample size. As we used rigorous

statistical methods taking into account the random subject effectand autocorrelation, we did not always obtain an analyzable,known distribution, and as scenes were very variable for a giveninfant (due to the great variability among scenes), some strongtendencies did not reach statistical significance; a larger samplewould probably have allowed us more analyzable and/orsignificant results. Second, the analysis currently performed withour interactive filter highlighted the interactive dynamics withoutspecifying the part played by each partner in the interaction. Thiswould require additional analysis (e.g. response rate to a givenstimulation) to determine this with accuracy and probably a largersample. And last, only behavioral aspects of the stimulations weretaken into account here, but qualitative emotional investmentshould be assessed as well, for example with the analysis of prosody(e.g., motherese); further research will focus on this question as we

recently developed an algorithmic tool to assess motherese inhome movies [27].We conclude that using engineering methods to study social

interaction in home movies has improved our understanding ofearly interactions. We can assume that, even if most BB behaviorintergroup differences do not reach statistical significance and thenare not detectable for a stranger [10], some interactive/dynamicchanges should be detectable for the child’s relatives. Here, theresults suggest that deviant autistic behaviors appear before 18months when studying interactive pattern. Furthermore, parentsof AD and ID children feel (consciously or not) the lack ofinteractive initiative and responsiveness of their babies and try toincreasingly supply soliciting behaviors. Thus we stress thatcredence should be given to parents’ feeling as they recognize,long before diagnosis, the pathological process through theinteractive pattern with their child. These findings could helpearly identification of AD by encouraging professionals to providemore attention to parents concerns and ways of coping with theirchild.

Author Contributions

Conceived and designed the experiments: DC MC FM MCL SM.Analyzed the data: CSG AM MC DC. Contributed reagents/materials/analysis tools: DC FM CSG MC. Wrote the paper: CSG AM MC RCMCL FA PM SM FM DC . Performed the clinical experiments: FA PMSM. Performed the computational experiments: AM CSG RC. Wrote thefirst draft of the manuscript: DC FM CSG MC AM.

References

1. American Psychiatric Association (1994) DSM-IV. APA Press: Washington DC.2. Zwaigenbaum L, Bryson S, Lord C, Rogers S, Carter A, et al. (2009) Clinical

assessment and management of toddlers with suspected autism spectrumdisorder: insights from studies of high-risk infants. Pediatrics 123: 1383–1391.

3. Yirmiya N, Charman T (2010) The prodrome of autism: early behavioral andbiological signs, regression, peri- and post-natal development and genetics.J Child Psychol Psychiatry 51: 432–458.

4. Palomo R, Belinchon M, Ozonoff S (2006) Autism and family home movies: acomprehensive review. J Dev Behav Pediatr 27: S59–68.

5. Saint-Georges C, Cassel RS, Cohen D, Chetouani M, Laznik M-C, et al. (2010)What Studies of Family Home Movies Can Teach Us about Autistic Infants: ALiterature Review. Research in Autism Spectrum Disorders 4: 355–366.

6. Landa R, Garrett-Mayer E (2006) Development in infants with autism spectrumdisorders: a prospective study. J Child Psychol Psychiatry 47: 629–638.

7. Landa RJ, Holman KC, Garrett-Mayer E (2007) Social and communicationdevelopment in toddlers with early and later diagnosis of autism spectrumdisorders. Arch Gen Psychiatry 64: 853–864.

8. Ozonoff S, Iosif AM, Baguio F, Cook IC, Hill MM, et al. (2010) A prospectivestudy of the emergence of early behavioral signs of autism. J Am Acad ChildAdolesc Psychiatry 49: 256–266. e251-252.

9. Zwaigenbaum L, Bryson S, Rogers T, Roberts W, Brian J, et al. (2005)Behavioral manifestations of autism in the first year of life. Int J Dev Neurosci23: 143–152.

10. Muratori F, Apicella F, Muratori P, Maestro S (2010) Intersubjective disruptionsand caregiver-infant interaction in early Autistic Disorder. Research in AutismSpectrum Disorders 5: 408–417.

11. Feldman R (2007) Parent–infant synchrony and the construction of sharedtiming; physiological precursors, developmental outcomes, and risk conditions.Journal of Child Psychology and Psychiatry 48: 329–354.

12. Messinger D, Ruvolo P, Ekas N, Fogel A Applying machine learning to infantinteraction: The development is in the details. Neural Networks in press.

13. Rutter M, Le Couteur A, Lord C, eds (2003) ADI-R: the autism diagnosticinterview-revised. Los Angeles, CA: Western Psychological Services.

14. Schopler E, Reichler RJ, Renner BR, eds (1988) The Childhood Autism RatingScale. Los Angeles: Western Psychological Services.

15. Achenbach TM, Rescorla L, eds (2000) Manual for the ASEBA Preschool Formsand Profile. Burlington, VT: ASEBA.

16. Cnann A, Laird N, Slasor P (1997) Using the general linear mixed model toanalyse unbalanced repeated measures and longitudinal data. Med 16:2349–2380.

17. Lee DD, Seung HS (1999) Learning the parts of objects by non-negative matrixfactorization. Nature. pp 788–791.

18. Wu ZL, Cheng CW, Li CH (2008) Social and semantics analysis via non-negative matrix factorization. 2008; Beijing. pp 1245–1246.

19. Devarajan K (2008) Nonnegative Matrix Factorization: An Analytical andInterpretive Tool in Computational Biology. PLoS Comput Biol 4: e1000029.

20. Salton G, Buckley C (1988) Term-weighting approaches in automatic textretrieval. Information Processing and Management 5: 513–523.

21. Boutsidis C, Gallopoulos E (2008) SVD based initialization: A head start fornonnegative matrix factorization. Pattern Recognition 41: 1350 – 1362.

22. Strehl A, Ghosh J (2002) Cluster ensembles - a knowledge reuse framework forcombining multiple partitions. Machine Learning Research. pp 583–617.

23. Striano T, Stahl D (2005) Sensitivity to triadic attention in early infancy. Dev Sci8: 333–343.

24. Kawai M, Namba K, Yato Y, Negayama K, Sogon S, et al. (2010)Developmental Trends in Mother-Infant Interaction from 4-Months to 42-Months: Using an Observation Technique. Journal of Epidemiology 20:S427–S434.

25. Kuhl PK (2001) Speech, language, and developmental change; Lacerda F,VonHofsten C, Heimann M, editors. Mahwah: Lawrence Erlbaum Assoc Publ.pp 111–133.

26. Fernald A, Kuhl P (1987) Acoustic determinants of infant preference formotherese speech. Infant Behavior and Development 10: 279–293.

27. Mahdhaoui A, Chetouani M, Zong C, Cassel RS, Saint-Georges C, et al. (2011)Automatic Motherese Detection for Face-to-Face Interaction Analysis. Interna-tional Journal of Methods in Psychiatric Research 20(1): e6–e18.

28. Gogate LJ, Bahrick LE, Watson JD (2000) A study of multimodal motherese:The role of temporal synchrony between verbal labels and gestures. ChildDevelopment 71: 878–894.

29. McGregor KK (2008) Gesture supports children’s word learning. InternationalJournal of Speech-Language Pathology 10: 112–117.

30. Brand RJ, Shallcross WL, Sabatos MG, Massie KP (2007) Fine-grained analysisof motionese: Eye gaze, object exchanges, and action units in infant-versus adult-directed action. Infancy 11: 203–214.

31. Maestro S, Muratori F, Cavallaro MC, Pecini C, Cesari A, et al. (2005) Howyoung children treat objects and people: an empirical study of the first year of lifein autism. Child Psychiatry Hum Dev 35: 383–396.

32. Colombi C, Liebal K, Tomasello M, Young G, Warneken F, et al. (2009)Examining correlates of cooperation in autism: Imitation, joint attention, andunderstanding intentions. Autism 13: 143–163.

33. Girardot AM, De Martino S, Rey V, Poinso F (2009) Etude des relations entrel’imitation, l’interaction sociale et l’attention conjointe chez les enfants autistes.Neuropsychiatrie de l’Enfance et de l’Adolescence 57: 267–274.

34. Yirmiya N, Gamliel I, Pilowsky T, Feldman R, Baron-Cohen S, et al. (2006) Thedevelopment of siblings of children with autism at 4 and 14 months: socialengagement, communication, and cognition. Journal of Child Psychology andPsychiatry 47: 511–523.

Early Parental Adaptation to Their Autistic Infant

PLoS ONE | www.plosone.org 12 July 2011 | Volume 6 | Issue 7 | e22393

196 Sélection d'articles

Page 211: "Traitement du signal social et robotique personnelle: Signaux actes ...

35. Trevarthen C, Daniel S (2005) Disorganized rhythm and synchrony: Early signsof autism and Rett syndrome. Brain & Development 27: S25–S34.

36. Maestro S, Muratori F, Barbieri F, Casella C, Cattaneo V, et al. (2001) Earlybehavioral development in autistic children: the first 2 years of life through homemovies. Psychopathology 34: 147–152.

37. Young LR, Brewer N, Pattison C (2003) Parental Identification of EarlyBehavioural Abnormalities in Children with Autistic Disorder Autism 7:125–143.

38. De Giacomo A, Fombonne E (1998) Parental recognition of developmentalabnormalities in autism. Eur Child Adolesc Psychiatry 7: 131–136.

Early Parental Adaptation to Their Autistic Infant

PLoS ONE | www.plosone.org 13 July 2011 | Volume 6 | Issue 7 | e22393

Sélection d'articles 197

Page 212: "Traitement du signal social et robotique personnelle: Signaux actes ...

198 Sélection d'articles

ICRA 2009

Travaux réalisés dans le cadre de l'école d'été eNTERFACE'08 : Multi-Modal Communication with Virtual Agents and Robots dont j'étais le prin-cipal investigateur.

Page 213: "Traitement du signal social et robotique personnelle: Signaux actes ...

Generating Robot/Agent Backchannels During a StorytellingExperiment

S. Al Moubayed, M. Baklouti, M. Chetouani, T. Dutoit, A. Mahdhaoui,J.-C. Martin, S. Ondas, C. Pelachaud, J. Urbain, M. Yilmaz

Abstract— This work presents the development of a real-time framework for the research of Multimodal Feedbackof Robots/Talking Agents in the context of Human RobotInteraction (HRI) and Human Computer Interaction (HCI). Forevaluating the framework, a Multimodal corpus is built (EN-TERFACE STEAD), and a study on the important multimodalfeatures was done for building an active Robot/Agent listener ofa storytelling experience with Humans. The experiments showthat even when building the same reactive behavior models forRobot and Talking Agents, the interpretation and the realizationof the behavior communicated is different due to the differentcommunicative channels Robots/Agents offer be it physical butless human-like in Robots, and virtual but more expressive andhuman-like in Talking agents.

I. INTRODUCTION

During the last years, several methods have been proposedfor the improvement of the interaction between humansand talking agents or robots. The key idea of their designis to develop agents/robots with various capabilities: es-tablish/maintain interaction, show/perceive emotions, dialog,display communicative gesture and gaze, exhibit distinctivepersonality or learn/develop social capabilities [1], [2]. The-ses social agents and robots aim at naturally interacting withhumans by the exploitation of these capabilities. In this paper,we have investigated one aspect of this social interaction:the engagement in the conversation [3]. The engagementprocess makes it possible to regulate the interaction betweenthe human and the agent or the robot. This process isobviously multi-modal (verbal and non-verbal) and requiresan involvement of both the partners.

This paper deals with two different interaction typesnamely Human-Robot Interaction (HRI) with the Sony AIBOrobot and Human-Computer Interaction (HCI) with an Em-bodied Conversational Agent (ECA). The term ECA has

S. Al Moubayed is with Center for Speech Technology, Royal Instituteof Technology KTH, SWEDEN [email protected]

M. Baklouti is with the Thales, [email protected]

M. Chetouani and A. Mahdhaoui are with the University Pierreand Marie Curie, FRANCE [email protected],[email protected]

T. Dutoit and J. Urbain are with the Faculte Polytechniquede Mons, BELGIUM, [email protected],[email protected]

J.-C. Martin is with the LIMSI, FRANCE [email protected]. Ondas is with the Technical University of Kosice, SLOVAKIA

[email protected]. Pelachaud is with the INRIA, FRANCE

[email protected]. Yilmaz is with the Koc University, TURKEY

[email protected]

been coined in Cassell et al. [4] and refers to human-like virtual characters that typically engage in face-to-facecommunication with the human user. We have used GRETA[5], an ECA, whose interface obeys the SAIBA (Situation,Agent, Intention, Behavior, Animation) architecture [6]. Wefocused on the design of an open-source, real-time softwareplatform for designing the feedbacks provided by the robotand the humanoid during the interaction1. The multimodalfeedback problem we considered here was limited to facialand neck movements by the agent (while the AIBO robotuses all possible body movements, given its poor facialexpressivity): we did not pay attention to arms or bodygestures.

This paper is organized as follows. In section II, wepresent the storytelling experiment used for the design of ourhuman robot/agent interaction system described in sectionIII. Section IV focuses on speech and face analysis moduleswe have developed. We then give in sections V and VI adescription of the multi-modal generation of backchannelsincluding interpretation of communicative signals and theimplemented reactive behaviors of the agent and the robot.Finally, section VII presents the details of the evaluation andcomparison in our HCI and HRI systems.

II. FACE-TO-FACE STORYTELLING EXPERIMENT

A. Data collection

In order to model the interaction between the speaker andthe listener during a storytelling experiment, we first recordedand annotated a database of human-human interaction termedeNTERFACE STEAD. This database was used for extractingfeedback rules (section II-B) but also for testing the multi-modal feature extraction system (section IV).

We followed the McNeill lab framework [7]: one par-ticipant (the speaker), has previously observed an animatedcartoon (Sylvester and Tweety), retells the story to a listenerimmediately. The narration is accompanied by spontaneouscommunicative signals (filled pauses, gestures, facial expres-sions...). 22 storytelling sessions were videotaped with dif-ferent conditions: 4 languages (Arabic, French, Turkish andSlovak). The videos have been annotated (with at least twoannotators per session) for describing simple communicativesignals of both speaker and listener: smile, head nod, headshake, eye brow and acoustic prominence.

1The database and the source code for the software developed dur-ing the project are available online from the eNTERFACE08 web site:www.enterface.net/enterface08.

2009 IEEE International Conference on Robotics and AutomationKobe International Conference CenterKobe, Japan, May 12-17, 2009

978-1-4244-2789-5/09/$25.00 ©2009 IEEE 3749

Sélection d'articles 199

Page 214: "Traitement du signal social et robotique personnelle: Signaux actes ...

TABLE IAGREEMENT AMONG ANNOTATORS

Track name Agreement (%)Speaker Face 89.3

Speaker Acoustic 84.5Listener Face 77.96

Listener Acoustic 95.97

Manual annotations of videos were evaluated by com-puting agreements using corrected kappa [8] computed inthe Anvil tool [9]. Table I presents the agreements amongannotators for each track. We can see that the best agreementis obtained for the Listener Acoustic track which is expectedsince the listener is not assumed to speak and when he/shedoes simple sounds are produced (filled pauses). Other trackshave a lower agreement such as Speaker Acoustic. Thespeaker always speaks during the session and prominentevents are less identifiable. However, the agreements mea-sures are high enough to allow us to assume that selectedcommunicative signals might be reliably detected.

B. Extracting rules from data

Based on the selected communicative signals, we havedefined some rules to trigger feedbacks. The rules are basedon [10], [11], which involved mainly only mono-modalsignals. The structure of such rules is as follows:

If some signal (eg. head-nod — pause — pitch accent) isreceived, then the listener sends some feedback signal withprobability X.

We have extended these rules by analyzing the data anno-tated from our storytelling database. We looked at correlationbetween, not only, speakers mono-modal signal and listenersfeedback, but also we studied the relation between speakersmulti-modal signals and feedback. We define multi-modalsignals as any set of overlapping signals that are emitted bythe speaker.

For each mono-modal (resp. multi-modal) signal emittedby the speaker we calculate their number of occurrences.Within the time-window of each speakers signal, we lookat co-occurring listeners signals. We compute the correlationof occurrence between each speakers signal and each listen-ers signal. This computation gives us a correlation matrixbetween speakers and listeners signals. This matrix can beinterpreted as: given a speakers signal, the probability thatthe listener would send a given signal. In our system weuse this matrix to select listeners feedback signals. When aspeakers signal is detected, we choose from the correlationmatrix, the signal (i.e. feedback) with the higher probability.

From this process, we identified a set of rules2, amongthem:

• Mono-modal signal ⇒ mono-modal feedback:head nod is received, then the listener sendshead nod medium.

2A complete list can be found at: http://www.enterface.net/enterface08

• Mono-modal signal ⇒ multi-modal feedback: smile isreceived, then the listener sends head nod and smile.

• Multi-modal signal ⇒ mono-modal feedback:head activity high and pitch prominence are received,then the listener sends head nod fast.

• Multi-modal signal ⇒ multi-modal feedback:pitch prominence and smile are received, then thelistener sends head nod and smile.

These rules are implemented in our system in order to triggerfeedbacks, the multi-modal fusion module makes it possibleto activate these rules (section V).

III. SYSTEM DESIGN

Although Human beings are all perfectly able to providenatural feedback to a speaker telling a story, explaininghow and when you do it is a complex problem. ECAs areincreasingly used in this context to study and model human-human communication as well as for performing specificautomatic communication tasks with humans.

Examples are REA [12], an early system that realizes thefull action-reaction cycle of communication by interpretingmultimodal user input and generating multimodal agent be-havior. Gandalf [13] provides real-time feedback to a humanuser based on acoustic and visual analysis. In robotics,various models have been proposed for the integration offeedbacks during interaction [2]. Recently, the importanceof feedbacks for discourse adaptation has been highlightedduring an interaction with BIRON [14].

In a conversation, all interactants are active. Listeners pro-vide information to the speaker their view and engagementin the conversation. By sending acoustic or visual feedbacksignals, listeners show if they are paying attention, under-standing or agreeing with what is being said. Taxonomiesof feedbacks, based on their meanings, have been proposed[15], [16]. The key idea of this project is to automaticallydetect the communicative signals in order to produce afeedback. Contrary to the approach proposed in [14], wefocus on non-linguistic features (prosody, prominence) butalso on head features (activity, shake, nod).

Our system is based on the architecture proposed by [5],but progressively adapted to the context of a storytelling(figure 1). We developed several modules for the detectionand the fusion of the communicative signals from both audioand video analysis. If these communicative signals match ourpre-defined rules, a feedback is triggered by the RealtimeBackChannelling module resulting on two different messages(described in section VI) conveying the same meaning.

IV. MULTI-MODAL FEATURE EXTRACTION

A. Speech Analysis

The main goal of the speech analysis component is toextract features from the speech signal that have been pre-viously identified as key moments for triggering feedbacks(cf. section II). In this study, we do not use any linguisticinformation to analyze the meaning of the utterances being

3750

200 Sélection d'articles

Page 215: "Traitement du signal social et robotique personnelle: Signaux actes ...

Speech Features Extractor

Face Feature Extraction

(event,time) (event,time)

Multimodal Fusion

AIBO BML tag

GRETA BML tag

Realtime BackChanneling

feedback signal

Fig. 1. Architecture of our interaction feedback model.

told by the speaker, but we focus on the prosodic cross-language features which may participate in the generation ofthe feedback by the listener.

1) Feature Extraction: Previous studies have shown thatpitch movements, specially at the end of the utterances, playan important role in turn taking and backchannelling duringhuman dialogue [10]. We propose in this work to use thefollowing features extracted from the speaker’s speech signal:Utterance beginning, Utterance end, Raising pitch, Fallingpitch, Connection pitch, and Pitch prominence (cf. sectionII).

To extract utterances beginning and ending, a realtimeimplementation of a Voice Activity Detector (VAD), whichis an adaptation of the SPHINX Vader functionality [18],has been developed. To extract pitch movements, we usedan implementation of the realtime fundamental frequencytracking algorithm YIN [19]. We compensate outliers andoctave jumps of the F0 by a median filter of size 5 (60msec). After extracting the pitch, the TILT model [20] isused to extract Raising pitch, Falling pitch and Connectionpitch.

These algorithms are then used as a package in PureData(PD)[17], a graphical programming environment for real-time audio processing, PD is used as an audio provider with16KHz audio sampling rate. This package sends the id ofthe features in the speech signal to the multi-modal fusionmodel whenever any of these features is detected.

2) Pitch Prominence Detection: In the literature, severaldefinitions of acoustical prominent events can be foundshowing the diversity of this notion [21], [22]. Terken [22]defines prominence as words or syllables that are perceivedas standing out from their environment. Most of the proposed

definitions are based on linguistic and/or phonetic units.We propose, in this paper, another approach using statisti-

cal models for the detection of prominence. The key idea is toassume that a prominent sound stands out from the previousmessage. For instance, during our storytelling experiment,speakers emphasize words, syllables when they want to focusthe attention of the listener on important information. Theseemphasized segments are assumed to stand out from theoverall ones, which makes them salient.

Prominent detectors are usually based on acoustic param-eters (fundamental frequency, energy, duration, spectral in-tensity) and machine learning techniques (Gaussian MixtureModels, Conditional Random Fields)[23], [24]. Unsuper-vised methods have been also investigated such as the use ofKullback-Leibler (KL) divergence as a measure of discrim-ination between prominent and non-prominent classes [25].These statistical methods provide an unsupervised frameworkadapted to our task. The KL divergence needs the estimationof two covariance matrices (Gaussian assumption):

KLij = 12 [log Σj

Σi+ tr(ΣiΣ−1

j )

+(µi − µj)T Σ−1j (µi − µj)− d] (1)

where µi, µi and Σi, Σj denote the means and the covariancematrices of i-th (past) and j-th (new event) speech segmentsrespectively. d is the dimension of the speech feature vector.An event j is defined as prominent if the distance from thepast segments (represented by the segment i) is larger thana pre-defined threshold.

One major drawback of the KL divergence approach is thatsince the new event is usually shorter, in terms of duration,than the past events, the estimation of covariance matrices isless reliable. In addition, it is well-known that duration is animportant perceptual effect for the discrimination betweensounds. Taking into account these points, we propose touse another statistical test namely the T2 Hotteling distancedefined by:

Hij =LiLj

Li + Lj[(µi − µj)T Σ−1

i∪j(µi − µj)] (2)

where i ∪ j is the union of i-th (past) and j-th (new event)segments. Li and Lj denote the length of the segments. T2

Hotteling divergence is closely related to the Mahalanobisdistance.

In this work only the fundamental frequency (F0) is usedas a feature to calculate the Hotteling distance between twosuccessive voiced segments. In this sense, a prominence isdetected when the Hotelling distance between the current andthe preceding Gaussian distributions of F0 is higher than athreshold. The decision is done by the help of a decayingdistance threshold over time: adaptation to the speaker. Sincewe estimate a statistical model of the pitch for a voicedsegment, we only estimate it when there is enough pitchsamples during the voiced segment, set to 175 msec.

B. Face Analysis

The main goal of the face analysis component (figure 2)is to provide the feedback system with some knowledge of

3751

Sélection d'articles 201

Page 216: "Traitement du signal social et robotique personnelle: Signaux actes ...

communicative signals conveyed by the head of the speaker.More specifically, detecting if the speaker is shaking thehead, smiling or showing neutral expression are the mainactivity features we are interested in. The components of thismodule are responsible for face detection, head shake andnod detection, mouth extraction, and head activity analysis.They are detailed below.

Fig. 2. Overview of the face analysis module.

1) Face Detection: The face detection algorithm thatwe used exploits Haar-like features that have been initiallyproposed by Viola & Jones [26]. It is based on a cascadeof boosted classifiers working with Haar-like features andtrained with a few hundreds of sample views of faces. Weused the trained classifier available in OpenCV. The facedetection module outputs the coordinates of existing faces inthe incoming images.

2) Smile Detection: Smile detection is performed in twosteps: mouth extraction followed by smile detection. We usea colorimetric approach for mouth extraction. A thresholdingtechnique is used after a color space conversion to the YIQspace. Once the mouth is extracted, we examine the ratiobetween the two characteristic mouth dimensions, P1P3 andP2P4 (figure 3), for smile detection. We assume that whensmiling, this ratio increases. The decision is obtained bythresholding.

Fig. 3. Smile detection: combining colorimetric and geometric approaches.

3) Head shake and nod detections: The purpose of thiscomponent is to detect if the person is shaking or noddingthe head. The idea is to analyze the motion of some fea-ture points extracted from the face along the vertical andhorizontal axes. Once the face has been detected in theimage, we extract 100 feature points using a combined cornerand edge detector defined by Harris [27]. Feature pointsare extracted in the central area of the face rectangle usingoffsets. These points are then tracked by calculating the

optical flow between a set of corresponding points in twosuccessive frames. We make use of the Lucas-Kanade [28]algorithm implementation available in the OpenCV library.

Let n be the number of feature points and Pti(xi, yi)the i-th feature point defined by its 2D screen coordinates(xi, yi). We then define the overall velocity of the head as:

V ={

Vx = 1n

∑ni=1(xi − xi−1)

Vy = 1n

∑ni=1(yi − yi−1)

(3)

Fig. 4. Feature point velocity analysis.

Figure 4 shows the velocity curves along the vertical andhorizontal axes. The sequence of movements representedis composed by one nod and two head shakes. We noticethat the velocity curves are the sum of two signals: (1) anoise movement which is a low frequency signal representingthe global head motion and (2) a high frequency signalrepresenting the head nods and head shakes.

The idea is then to use wavelet decomposition to removethe low frequency signals. More precisely, we decomposedthe signal using symlet-6 wavelet. Figure 5 shows the recon-struction of the details at the first level of the signal shownin figure 4. The head nod and shake events can be reliablyidentified by this process.

Fig. 5. Signal denoising via wavelets.

4) Head activity analysis: Analysis of recordings of thestorytelling experience has shown a correlation between thehead activity of both speaker and listener. To characterizethe head activity, we use the velocity of the feature points,defined in (3), to quantify the overall activity A:

A =∑

i∈time window

V 2x,t + V 2

y,t (4)

where the time window is set to 60 frames (30 frames/s)

3752

202 Sélection d'articles

Page 217: "Traitement du signal social et robotique personnelle: Signaux actes ...

TABLE IIQUANTIZATION OF THE HEAD ACTIVITY

Amplitude Interpretation< mean LOW ACTIVITY

< mean + standard deviation MEDIUM ACTIVITYOtherwise HIGH ACTIVITY

This measure provides information about the head activitylevels. In order to quantize head activity into levels (high,medium or low), we analyzed the head activity of all thespeakers of the eNTERFACE STEAD corpus. Assumingthat the activity of one given speaker is Gaussian, we setup different thresholds defined in table II. By using thesethresholds, the algorithm will become more sensitive to anyhead movement of a stationary speaker whereas it will raisethe thresholds for an active speaker resulting on a flexibleadaptive modeling.

V. MULTI-MODAL FUSION

The Multimodal Fusion Module works by the principle ofactivating probabilistic rules (cf. section II-B) depending onthe multimodal events it receives. When a rule is completedthen the output of the rule is sent as a message to the differentAgents/Robots connected to it as a feedback signal.

The rules in this work are extracted from the analysis of adatabase annotations and hand-written using feedback rulesdefined in the literature [10] (section II-B). The rule takes alist of input events (mono or multi modal) as output the rulesdefines one output feedback signal (mono or multi modal).The rule can be probabilistic by defining a probability ofthis rule, so in case there are more than one rule with thesame input, every rule will have a probability of execution.For realtime consideration, the rule contains a response timevariable, which defines when the output of the rule shouldbe executed after the reception of the last input signal. If notall the input signals are received, the rule will be deactivatedafter this specified period.

VI. REACTIVE BEHAVIORS

In our architecture, we aim to drive simultaneously differ-ent types of virtual and/or physical agents (figure 1). To en-sure high flexibility we are using the same control languageto drive all the agents, the Behavior Markup Language BML[6]. BML encodes multimodal behaviors independently fromthe animation parameters of the agents.

Through a mapping we transform BML tags into MPEG-4parameters for the GRETA agent and into mechanical move-ments for the AIBO robot. Various feedbacks are alreadyavailable for GRETA such as acceptance (head nod), non-acceptance (head shake) or smile. Concerning AIBO, wedeveloped similar feedbacks conveying the same meaningbut in a different way. To develop the reactive behavior ofAIBO, we used the URBI (Real-Time Behavior Interface)library [29] allowing a high-level control of the robot.

VII. ASSESSMENT AND DISCUSSION

A. Experimental setup

Evaluation research is still underway for virtual characters[30], [31] and for human-robot interaction [33]. Since thegoal of the project was to compare feedback provided by twotypes of embodiments (a virtual character and a robot) ratherthan to evaluate the multi-modal feedback rules implementedin each of these systems, we decided to have users tella story to both GRETA and AIBO at the same time. Aninstruction form was provided to the subject before thesession. Then users watched the cartoon sequence, and wereasked to tell the story to both AIBO and GRETA (figure 6).Finally, users had to answer a questionnaire. The question-naire was designed to compare both systems with respectto the realization of feedback (general comparison betweenthe two listeners, evaluation of feedback quality, perceptionof feedback signals and general comments). Sessions werevideotaped using a Canon XM1 3CCD digital camcorder.

The current evaluation aims at evaluating the relevanceof the characterization of communicative signals for theregulation of interaction. We performed here only a pretestand an anova is not possible because the number of subjectsis too small (10 users). In addition, no hypotheses have beendone on the expected results from questionnaires.

Fig. 6. The assessment set-up.

As illustrated by figure 7, 8 out of 10 users estimated thatGRETA understood better the story than AIBO. Yet, 8 outof 10 users felt that AIBO looked more interested and likedthe story more than GRETA did.

Fig. 7. Comparing the feedbacks provided by the virtual agent and therobot.

3753

Sélection d'articles 203

Page 218: "Traitement du signal social et robotique personnelle: Signaux actes ...

Further evaluations could be investigated with such asystem. Another possibility would be to have the speaker telltwo different stories one to GRETA, and then another one toAIBO. The order of the listeners should be counterbalancedacross subjects. This would avoid having the speaker switch-ing his attention between AIBO and GRETA. Perceptive testson videos combining speakers and AIBO/GRETA listenerscould also be designed to have subjects 1) compare randomfeedback with feedback generated by analyzing users behav-ior , or 2) rate if the listener has been designed to listen tothis speaker or not.

VIII. CONCLUSIONS AND FUTURE WORKSWe presented a multi-modal framework to extract and

identify Human communicative signals for the generationrobot/agent feedbacks during storytelling. We exploited face-to-face interaction analysis by highlighting communica-tive rules. A real-time feature extraction module has beenpresented allowing the characterization of communicativeevents. These events are then interpreted by a fusion pro-cess for the generation of backchannel messages for bothAIBO and GRETA. A simple evaluation was established,and results show that there is an obvious difference in theinterpretation and realization of the communicative behaviorbetween humans and agents/robots.

Our future works are devoted to the characterizationof other communicative signals using the same modalities(speech and head). Prominence detection can be improved bythe use of syllable-based analysis, which can be computedwithout linguistic information. Another important issue is todeal with the direction of gaze. This communicative signalconveys useful information during interaction and automaticanalysis (human) and generation (robot/agent) should beinvestigated.

IX. ACKNOWLEDGMENTSWe are grateful to Elisabetta Bevacqua for her advice in

the organization of our work and her help on interfacing oursoftware with GRETA. We also want to acknowledge YannisStylianou for the feedback he gave during discussions on ourproject. This project was partly funded by Region Wallonne,in the framework of the NUMEDIART research program andby the FP6 IP project CALLAS.

REFERENCES

[1] T. Fong, I. Nourbakhsh and K. Dautenhahn, A Survey of SociallyInteractive Robots, Robotics and Autonomous Systems 42(3-4), 143-166, 2003.

[2] C. Breazeal, Social Interactions in HRI: The Robot View, R. Murphyand E. Rogers (eds.), IEEE SMC Transactions, Part C, 2004

[3] C.L. Sidner, C. Lee, C.D. Kidd, N. Lesh, C. Rich, Explorations inEngagement for Humans and Robots, Artificial Intelligence, May 2005

[4] J. Cassell, J. Sullivan, S. Prevost, and E. Churchill (eds). EmbodiedConversational Agents. MIT Press, 2000.

[5] E. Bevacqua, M. Mancini, and C. Pelachaud, A listening agent ex-hibiting variable behaviour, Intelligent Virtual Agents, IVA’08, Tokyo,September 2008.

[6] H. Vilhjalmsson, N. Cantelmo, J. Cassell, N. E. Chafai, M. Kipp, S.Kopp, M. Mancini, S. Marsella, A. N. Marshall, C. Pelachaud, Z.Ruttkay, K. R. Thorisson, H. van Welbergen, R. van der Werf, TheBehavior Markup Language: Recent Developments and Challenges,Intelligent Virtual Agents, IVA’07, Paris, September 2007.

[7] D. McNeil, Hand and mind: What gestures reveal about thought,Chicago IL, The University, 1992.

[8] R. L. Brennan, D. J. Prediger: Coefficient κ: Some uses, misuses,and alternatives. In: Educational and Psychological Measurement.41,687699, 198.

[9] M. Kipp, Anvil - A Generic Annotation Tool for Multimodal Dialogue.Proceedings of the 7th European Conference on Speech Communica-tion and Technology (Eurospeech), 1367-1370, 2001.

[10] R. M. Maatman, Jonathan Gratch, Stacy Marsella, Natural Behaviorof a Listening Agent. Intelligent Virtual Agents, IVA’05, 25-36, 2005.

[11] N. Ward, W. Tsukahara, Prosodic features which cue back-channelresponses in English and Japanese. Journal of Pragmatics, 23, 1177-1207, 2000.

[12] J. Cassell, T. Bickmore, M. Billinghurst, L. Campbell, K. Chang, H.Vilhjlmsson, H. Yan, Embodiment in Conversational Interfaces: Rea.Proceedings of the CHI’99 Conference, pp. 520-527. Pittsburgh, PA,1999.

[13] J. Cassell and K. Thrisson, The Power of a Nod and a Glance:Envelope vs. Emotional Feedback in Animated Conversational Agents,Applied Artificial Intelligence, 13(3), 1999.

[14] M. Lohse, K. J. Rohlfing, B. Wrede; G. Sagerer, ”Try somethingelse!” - When users change their discursive behavior in human-robotinteraction, IEEE Conference on Robotics and Automation, Pasadena,CA, USA, 3481-3486, 2008.

[15] J. Allwood, J. Nivre, and E. Ahlsen. On the semantics and pragmaticsof linguistic feedback. Semantics, 9(1), 1993.

[16] I. Poggi. Backchannel: from humans to embodied agents. In AISB.University of Hertfordshire, Hatfield, UK, 2005.

[17] www.puredata.org[18] The CMU Sphinx open source speech recognizer

http://cmusphinx.sourceforge.net[19] De Cheveigne, A., Kawahara, H.: YIN, a fundamental frequency

estimator for speech and music. The Journal of the Acoustic Societyof the America 111. 2002.

[20] P. Taylor. The Tilt Intonation model, ICSLP 98, Sydney, Australia.1998.

[21] B.M. Streefkerk, L. C. W. Pols, L. ten Bosch, Acoustical featuresas predictors for prominence in read aloud Dutch sentences used inANNs, Proc. Eurospeech’99, Vol. 1, Budapest, 551-554, 1999.

[22] J.M.B. Terken, Fundamental frequency and perceived prominence ofaccented syllables. Journal of the Acoustical Society of America, 95(6),3662-3665, 1994.

[23] N. Obin, X. Rodet, A. Lacheret-Dujour, French prominence: a proba-bilistic framework, in International Conference on Acoustics, Speech,and Signal Processing (ICASSP08), Las Vegas, U.S.A, 2008.

[24] V. K. R. Sridhar, A. Nenkova, S. Narayanan, D. Jurafsky, Detectingprominence in conversational speech: pitch accent, givenness andfocus. In Proceedings of Speech Prosody, Campinas, Brazil. 380-388,2008.

[25] D. Wang, S. Narayanan, An Acoustic Measure for Word Prominencein Spontaneous Speech. IEEE Transactions on Audio, Speech, andLanguage Processing, Volume 15, Issue 2, 690-701, 2007.

[26] P. Viola, M.J. Jones, Robust Real-Time Face Detection, InternationalJournal of Computer Vision, 137-154, 2004.

[27] C.G. Harris, M.J. Stephens, A combined corner and edge detector,Proc. Fourth Alvey Vision Conf., Manchester, 147-151, 1988

[28] B. Lucas, T. Kanade, An Iterative Image Registration Technique withan Application to Stereo Vision, Proc. of 7th International JointConference on Artificial Intelligence (IJCAI), pp. 674-679, 1981.

[29] B. Baillie, URBI: Towards a Universal Robotic Low-Level Program-ming Language, Proc. of the IEEE/RSJ International Conference onIntelligent Robots and Systems - IROS05, 2005.

[30] D.M. Dehn, S. van Mulken, The impact of animated interface agents:a review of empirical research. International Journal of Human-Computer Studies, 52: 1-22, 2000.

[31] Z. Ruttkay, C. Pelachaud, From Brows to Trust - Evaluating EmbodiedConversational Agents, Kluwer, 2004.

[32] S. Buisine, J.-C. Martin, The effects of speech-gesture co-operation inanimated agents’ behaviour in multimedia presentations. InternationalJournal ”Interacting with Computers: The interdisciplinary journal ofHuman-Computer Interaction”. 19: 484-493, 2007.

[33] Dan R. Olsen, Michael A. Goodrich, Metrics for Evaluating Human-Robot Interactions. Performance Metrics for Intelligent Systems Work-shop held in Gaithersburg, 2003.

3754

204 Sélection d'articles

Page 219: "Traitement du signal social et robotique personnelle: Signaux actes ...

Bibliographie

S. Al Moubayed, M. Baklouti, M. Chetouani, T. Dutoit, A. Mahdhaoui, J. C.Martin, S. Ondas, C. Pelachaud, J. Urbain, and M. Yilmaz. Generatingrobot/agent backchannels during a storytelling experiment. Robotics and

Automation, 2009. ICRA '09. IEEE International Conference on, pages3749�3754, 2009. (Cité pages 7, 95, 96, 97 et 103.)

J. Allwood, J. Nivre, and E. Ahlsen. On the semantics and pragmatics oflinguistic feedback. Journal of Semantics, 9(1) :1�26, 1992. (Cité page 94.)

R. Andre-Obrecht. A new statistical approach for the automatic segmentationof continuous speech signals. Acoustics, Speech and Signal Processing, IEEETransactions on, 36(1) :29 �40, jan 1988. (Cité page 30.)

R. Andre-Obrecht and B. Jacob. Direct identi�cation vs. correlated modelsto process acoustic and articulatory informations in automatic speech re-cognition. In Acoustics, Speech, and Signal Processing, 1997. ICASSP-97.,

1997 IEEE International Conference on, volume 2, pages 999 �1002, apr1997. (Cité page 30.)

M. Argyle. Bodily communication. Methuen, 1987. (Cité page 1.)

M. Argyle and M. Cook. Gaze and Mutual Gaze. Cambridge University Press,1976. (Cité page 91.)

B. S. Atal and Suzanne L. Hanauer. Speech analysis and synthesis by linearprediction of the speech wave. The Journal of the Acoustical Society of

America, 50(2B) :637�655, 1971. (Cité pages 20 et 21.)

A. Batliner, C. Hacker, M. Kaiser, H. Mögele, and E. Nöth. Taking intoaccount the user's focus of attention with the help of audio-visual informa-tion : towards less arti�cial human-machine-communication. In Internatio-

nal Conference on Auditory-Visual Speech Processing, 2007. (Cité page 98.)

A. Batliner, D. Seppi, S. Steidl, and B. Schuller. Segmenting into adequateunits for automatic recognition of emotion-related episodes : A speech-basedapproach. Advances in Human-Computer Interaction, 2010. (Cité page 25.)

A. Batliner, S. Steidl, B. Schuller, D. Seppi, T. Vogt, J. Wagner, L. Devil-lers, L. Vidrascu, V. Aharonson, L. Kessous, and N. Amir. Whodunnit -searching for the most important feature types signalling emotion-relateduser states in speech. Comput. Speech Lang., 25 :4�28, January 2011. (Citépage 37.)

Page 220: "Traitement du signal social et robotique personnelle: Signaux actes ...

206 Bibliographie

F. Bernieri. Coordinated movement and rapport in teacher-student interac-tions. Journal of Nonverbal Behavior, 12 :120�138, 1988. (Cité pages 79et 82.)

F. Bernieri and R. Rosenthal. Interpersonal coordination : Behavior matching

and interactional synchrony. Fundamentals of nonverbal behavior. Cam-bridge University Press, 1991. (Cité page 62.)

Ph. Bidaud, M. Bouzit, and M. Chetouani. Support robotisé de dispositifmultimédia. Brevet N ◦ 10 54317 du 02 juin 2010, 2010. (Cité page 110.)

A. Blum and T. Mitchell. Combining labeled and unlabeled data with co-training. In Conference on computational learning theory, 1998. (Citépage 55.)

J. Broekens, M. Heerink, and H. Rosendal. Assistive social robots in elderlycare : a review. Gerontechnology, 8(2) :94�103, 2009. (Cité page 103.)

N. Campbell. On the use of nonverbal speech sounds in human communi-cation. In A. Esposito, M. Faundez-Zanuy, E. Keller, and M. Marinaro,editors, Verbal and Nonverbal Communication Behaviours, volume 4775 ofLecture Notes in Computer Science, pages 117�128. Springer, 2007. (Citépage 15.)

N. Campbell. Individual traits of speaking style and speech rhythm in aspoken discourse. In A. Esposito, N. Bourbakis, N. Avouris, and I. Hatzi-lygeroudis, editors, Verbal and Nonverbal Features of Human-Human and

Human-Machine Interaction, volume 5042 of Lecture Notes in Computer

Science, pages 107�120. Springer, 2008. (Cité page 6.)

N. Campbell. An audio-visual approach to measuring discourse synchrony inmultimodal conversation data. In Interspeech 2009, 2010. (Cité page 6.)

J. N. Cappella. Behavioral and judged coordination in adult informal socialinteractions : Vocal and kinesic indicators. Journal of Personality and SocialPsychology, 72(1) :119�131, 1997. (Cité page 77.)

G. Castellano, A. Pereira, I. Leite, A. Paiva, and P. W. McOwan. Detectinguser engagement with a robot companion using task and social interaction-based features. In Proceedings of the 2009 international conference on Mul-

timodal interfaces, ICMI-MLMI '09, pages 119�126, 2009. (Cité pages 91et 92.)

Page 221: "Traitement du signal social et robotique personnelle: Signaux actes ...

Bibliographie 207

C. Charbuillet, B. Gas, M. Chetouani, and J.-L Zarader. Optimizing featurecomplementarity by evolution strategy : Application to automatic speakerveri�cation. Speech Communication, 51(9) :724�731, September 2009. (Citépage 25.)

T. L Chartrand and J. A Bargh. The chameleon e�ect : the perception-behavior link and social interaction. Journal of Personality and Social Psy-

chology, 76(6) :893�910, 1999. (Cité page 63.)

M. Chetouani. Codage neuro-prédictif pour l'extraction de caractéristiques de

signaux de parole. PhD thesis, Université Pierre et Marie Curie, Décembre2004. (Cité pages 17 et 21.)

M. Chetouani, M. Faundez-Zanuy, B. Gas, and J. L. Zarader. Investigation onlp-residual representations for speaker identi�cation. Pattern Recognition,42(3) :487�494, 3 2009a. (Cité pages 19, 20, 22, 23 et 24.)

M. Chetouani, M. Faundez-Zanuy, A. Hussain, B. Gas, J. L. Zarader, andK. Paliwal. Special issue on non-linear and non-conventional speech pro-cessing (guest editorial). Speech Communication, 51(9) :713�713, 9 2009b.(Cité page 19.)

M. Chetouani, A. Hussain, B. Gas, M. Milgram, and J. L. Zarader, editors.Advances in Nonlinear Speech Processing, volume 4885 of Lecture Notes in

Computer Science. Springer, 2009c. (Cité page 19.)

M. Chetouani, A. Mahdhaoui, and F. Ringeval. Time-scale feature extractionsfor emotional speech characterization. Cognitive Computation, 1(2) :194�201, 2009d. (Cité pages 10 et 25.)

M. Chetouani, Y. Wu, C. Jost, B. LE Pevedic, C. Fassert, V. Cristiancho-Lacroix, S. Lassiaille, C. Granata, A. Tapus, D. Duhaut, and A.S. Rigaud.Cognitive services for elderly people : The robadom project. In ECCE 2010

Workshop : Robots that Care, European Conference on Cognitive Ergono-

mics 2010, 2010. (Cité pages x, 98 et 99.)

G. Chittaranjan, O. Aran, and D. Gatica-Perez. Exploiting observers' jud-gements for nonverbal group interaction analysis. In IEEE Conference on

Automatic Face and Gesture Recognition, 2011. (Cité page 88.)

C. Clavel, I. Vasilescu, L. Devillers, G. Richard, and T. Ehrette. Fear-typeemotion recognition for future audio-based surveillance systems. Speech

Communication, 50(6) :487 � 503, 2008. (Cité pages 28 et 29.)

Page 222: "Traitement du signal social et robotique personnelle: Signaux actes ...

208 Bibliographie

A. Clodic, H. Cao, S. Alili, V. Montreuil, R. Alami, and R. Chatila. Shary :A supervision system adapted to human-robot interaction. In O. Khatib,V. Kumar, and G. Pappas, editors, Experimental Robotics, volume 54, pages229�238. Springer Berlin / Heidelberg, 2009. (Cité page 91.)

J. F. Cohn. Advances in behavioral science using automated facial imageanalysis and synthesis [social sciences]. Signal Processing Magazine, IEEE,27(6) :128�133, 2010. (Cité page 8.)

Z. Cong and M. Chetouani. Hilbert-huang transform based physiological si-gnals analysis for emotion recognition. In Signal Processing and InformationTechnology (ISSPIT), 2009 IEEE International Symposium on, pages 334�339, 2009. (Cité pages 106 et 107.)

Z. Cong, M. Chetouani, and A. Tapus. Automatic gait characterizationfor a mobility assistance system. In Control Automation Robotics Vision

(ICARCV), 2010 11th International Conference on, pages 473 �478, 2010.(Cité pages 107 et 108.)

Z. Cong, X. Clady, and M. Chetouani. An embedded human motion capturesystem for an assistive walking robot. In Rehabilitation Robotics (ICORR),

2011 IEEE International Conference on, pages 1 �6, 2011. (Cité page 108.)

A. Couture-Beil, R.T. Vaughan, and G. Mori. Selecting and commandingindividual robots in a multi-robot system. In Computer and Robot Vision

(CRV), 2010 Canadian Conference on, pages 159 �166, 2010. (Cité page 91.)

F. Cummins. Speech rhythm and rhythmic taxonomy. In Speech Prosody,volume 121-126, 2002. (Cité page 38.)

F. Cummins. Rhythm as entrainment : The case of synchronous speech. Jour-nal of Phonetics, 37(1) :16�28, 2008. (Cité page 38.)

J. Curhan and A. Pentland. Thin slices of negotiation : Predicting outcomesfrom conversational dynamics within the �rst 5 minutes. Journal of AppliedPsychology, 92(3) :802�811, May 2007. (Cité page 5.)

J. Dauwels, F. Vialatte, T. Musha, and A. Cichocki. A comparative study ofsynchrony measures for the early diagnosis of alzheimer's disease based oneeg. NeuroImage, 49(1) :668 � 693, 2010. (Cité page 79.)

E. Delaherche and M. Chetouani. Multimodal coordination : exploring rele-vant features and measures. In Proceedings of the 2nd international work-

shop on Social signal processing, ACM Multimedia 2010, SSPW '10, pages47�52. ACM, 2010. (Cité pages x, 78, 79 et 80.)

Page 223: "Traitement du signal social et robotique personnelle: Signaux actes ...

Bibliographie 209

E. Delaherche and M. Chetouani. Characterization of coordination in animitation task : human evaluation and automatically computable cues. InInternational Conference on Multimodal Interaction (ICMI 2011), 2011a.(Cité pages x, 82, 83, 84 et 86.)

E. Delaherche and M. Chetouani. Automatic recognition of coordination levelin an imitation task. In Proceedings of the 3rd international workshop on

Social signal processing, ACM Multimedia 2010, 2011b. (Cité pages 85et 86.)

E. Delaherche, M. Chetouani, A. Mahdhaoui, C. Saint-Georges, S. Viaux,and D. Cohen. Evaluation of interpersonal synchrony : multidisciplinaryapproaches. Soumis, 2011. (Cité pages 62, 63 et 65.)

J. Demouy, M. Plaza, J. Xavier, F. Ringeval, M. Chetouani, D. Perisse,D. Chauvin, S. Viaux, B. Golse, D. Cohen, and L. Robel. Di�erential lan-guage markers of pathology in autism, pervasive developmental disorder nototherwise speci�ed and speci�c language impairment. Research in Autism

Spectrum Disorders, 5(4) :1402�1412, 2011. (Cité pages 46, 47 et 49.)

L. Devillers, L. Vidrascu, and L. Lamel. Challenges in real-life emotion anno-tation and machine learning based detection. Neural Networks, 18(4) :407� 422, 2005. (Cité page 17.)

R. M. Diaz and L. E. Berk, editors. Private speech : From social interaction

to self-regulation. Lawrence Erlbaum, 1992. (Cité page 100.)

R. O. Duda, P. E. Hart, and D. G. Stork. Pattern Classi�cation (2nd Edition).Wiley-Interscience, 2000. (Cité page 16.)

G. Dumas, J. Nadel, R. Soussignan, J. Martinerie, and L. Garnero. Inter-brain synchronization during social interaction. PLoS ONE, 5(8) :e12166,08 2010. (Cité pages 62 et 77.)

S. Duncan. Some signals and rules for taking speaking turns in conversations.Journal of Personality and Social Psychology, 23(2) :283 � 292, 1972. (Citépage 91.)

N. Eagle and A. Pentland. Eigenbehaviors : identifying structure in routine.Behavioral Ecology and Sociobiology, 63 :1057�1066, 2009. (Cité pages 5,71 et 72.)

K. Farrahi and D. Gatica-Perez. Probabilistic mining of socio-geographicroutines from mobile phone data. Selected Topics in Signal Processing,

IEEE Journal of, 4(4) :746�755, Aug. 2010. (Cité pages 6 et 76.)

Page 224: "Traitement du signal social et robotique personnelle: Signaux actes ...

210 Bibliographie

M. Faundez-Zanuy. Data fusion in biometrics. Aerospace and Electronic Sys-

tems Magazine, IEEE, 20(1) :34 �38, January 2005. (Cité page 10.)

M. Faundez-Zanuy. On the usefulness of linear and nonlinear prediction re-sidual signals for speaker recognition. In M. Chetouani and al., editors,Proceedings of the 2007 international conference on Advances in nonlinear

speech processing, pages 95�104. Springer, 2007. (Cité page 20.)

M. Faundez-Zanuy, U. Laine, G. Kubin, B. McLaughlin, S.and Kleijn, G. Chol-let, B. Petek, and A. Hussain. The cost-277 european action : An overview,2005. (Cité page 19.)

D. Feil-Seifer and M. J. Mataric. De�ning socially assistive robotics. Inter-

national Conference on Rehabilitation Robotics (ICORR), pages 465�468,2005. (Cité page 103.)

R. Feldman. Infant-mother and infant-father synchrony : The coregulationof positive arousal. Infant Mental Health Journal, 24(1) :1�23, 2003. ISSN1097-0355. (Cité page 80.)

R. Feldman. Parent-infant synchrony and the construction of shared timing ;physiological precursors, developmental outcomes, and risk conditions. TheJournal of Child Psychology and Psychiatry and Allied Disciplines, 48(3-4) :329�354, 2007. (Cité pages 63, 68, 69 et 80.)

A. Fernald and P. Kuhl. Acoustic determinants of infant preference for mo-therese speech. Infant Behavior and Development, 10 :279�293, 1987. (Citépage 52.)

C. Fernyhough and E. Fradley. Private speech on an executive task : relationswith task di�culty and task performance. Cognitive Development, 20(1) :103 � 120, 2005. (Cité pages 100 et 102.)

H. Fujisaki. Information, prosody, and modeling - with emphasis on tonalfeatures of speech. In Speech Prosody, 2004. (Cité pages ix et 15.)

E. Go�man. Behavior in Public Places : Notes on the Social Organization of

Gatherings. The Free Press, 1963. (Cité pages 91 et 92.)

M. H Goldstein, A. P King, and M. JWest. Social interaction shapes babbling :Testing parallels between birdsong and speech. Proceedings of the NationalAcademy of Sciences of the United States of America, 100(13) :8030�8035,2003. (Cité page 63.)

Page 225: "Traitement du signal social et robotique personnelle: Signaux actes ...

Bibliographie 211

C. Goodwin. Gestures as a resource for the organization of mutual attention.Semiotica, 62(1/2) :29�49, 1986. (Cité page 91.)

E. Grabe and E. L. Low. Durational variability in speech and the rhythmclass hypothesis. In de Gruyter, editor, Papers in Laboratory Phonology,volume 7, pages 515�546. The Hague, Mouton, 2002. (Cité pages 39, 40et 42.)

C. Granata, M. Chetouani, A. Tapus, P. Bidaud, and V. Dupourque. Voice andgraphical -based interfaces for interaction with a robot dedicated to elderlyand people with cognitive disorders. In RO-MAN, 2010 IEEE, pages 785�790, 2010. (Cité page 104.)

S. Guionnet, J. Nadel, E. Bertasi, M. Sperduti, P. Delaveau, and P. Fossati.Reciprocal imitation : Toward a neural basis of social interaction. CerebralCortex, 2011. (Cité page 62.)

H. Gunes and M. Pantic. Automatic, dimensional and continuous emotionrecognition. Int'l Journal of Synthetic Emotion, 1(1) :68�99, 2010. (Citépage 85.)

H. Gunes, B. Schuller, M. Pantic, and R. Cowie. Emotion representation,analysis and synthesis in continuous space : A survey. In Proceedings of

IEEE International Conference on Automatic Face and Gesture Recogni-

tion (FG'11), EmoSPACE 2011 - 1st International Workshop on Emotion

Synthesis, rePresentation, and Analysis in Continuous spacE, Santa Bar-bara, CA, USA, March 2011. (Cité pages 83, 85 et 86.)

C. Hacker, A. Batliner, and E. Nöth. Are you looking at me, are you talkingwith me : Multimodal classi�cation of the focus of attention. In P. Sojka,I. Kopecek, and K. Pala, editors, Text, Speech and Dialogue, volume 4188,pages 581�588. Springer Berlin / Heidelberg, 2006. (Cité pages 100 et 101.)

W. A. Harrist and R. M. Waugh. Dyadic synchrony : Its structure and functionin children's development. Developmental Review, 22(4) :555 � 592, 2002.(Cité page 63.)

H. Hermansky and S. Sharma. Temporal patterns (traps) in asr of noisyspeech. In Acoustics, Speech, and Signal Processing, 1999. ICASSP '99.

Proceedings., 1999 IEEE International Conference on, volume 1, pages 289�292, mar 1999. (Cité page 16.)

H. Hung and D. Gatica-Perez. Estimating cohesion in small groups usingaudio-visual nonverbal behavior. IEEE Transactions on Multimedia, 12(6) :563�575, 2010. (Cité pages 64, 77, 82 et 85.)

Page 226: "Traitement du signal social et robotique personnelle: Signaux actes ...

212 Bibliographie

H. Hung, Y. Huang, G. Friedland, and D. Gatica-Perez. Estimating domi-nance in multi-party meetings using speaker diarization. IEEE Transactions

on Audio, Speech and Language Processing, 19(4) :847�860, 2011. (Citépage 77.)

R. Ishii, Y. Shinohara, T. Nakano, and Nishida T. Combining multiple typesof eye-gaze information to predict user's conversational engagement. In 2nd

Workshop on Eye Gaze on Intelligent Human Machine Interaction, 2011.(Cité pages 91 et 92.)

E. Keller. The analysis of voice quality in speech processing. In G. Chollet,A. Esposito, M. Faundez-Zanuy, and M. Marinaro, editors, Summer Schoolon Neural Networks, volume 3445 of Lecture Notes in Computer Science,pages 54�73. Springer, 2004. (Cité page 15.)

A Kendon. Some functions of gaze-direction in social interaction. Acta Psy-

chologica, 26(1) :22�63, 1967. (Cité page 91.)

A. Kendon, R.M. Harris, and M.R. Key. Organization of behavior in face to

face interactions. The Hague, Mouton, 1975. (Cité pages 1 et 2.)

J. Kim and E. André. Emotion recognition based on physiological changes inlistening music. IEEE Trans.on Pattern Analysis and Machine Intelligence,30(12) :2067�2083, December 2008. (Cité pages 105 et 107.)

S. Kim, P.G. Georgiou, Sungbok Lee, and S. Narayanan. Real-time emotiondetection system using speech : Multi-modal fusion of di�erent timescalefeatures. In Multimedia Signal Processing, 2007. MMSP 2007. IEEE 9th

Workshop on, pages 48 �51, oct. 2007. (Cité page 29.)

G. Klein, D. D. Woods, J. M. Bradshaw, R. R. Ho�man, and P. Feltovich.Ten challenges for making automation a "team player" in joint human-agentactivity. IEEE Intelligent Systems, 19(6) :91�05, 2004. (Cité page 91.)

G. Kubin. Nonlinear processing of speech. In W. Kleijn and K.K. Paliwal,editors, Speech Coding and Synthesis, pages 557�610. Elsevier, 1995. (Citépage 19.)

P. Kuhl. Early language acquisition : cracking the speech code. Nature ReviewsNeuroscience, 5(11) :831�843, November 2004. (Cité pages 63 et 68.)

Ludmila I. Kuncheva. Combining Pattern Classi�ers : Methods and Algo-

rithms. Wiley-Interscience, 2004. (Cité pages 10 et 48.)

Page 227: "Traitement du signal social et robotique personnelle: Signaux actes ...

Bibliographie 213

G Lacey and S MacNamara. User involvement in the design and evaluation ofa smart mobility aid. Journal Of Rehabilitation Research And Development,37(6) :709�723, 2000. (Cité page 105.)

D. Lakens. Movement synchrony and perceived entitativity. Journal of Expe-rimental Social Psychology, 46(5) :701 � 708, 2010. (Cité pages 63 et 77.)

J. Le Maitre and M. Chetouani. Selk-talk discrimination in human robot-interaction situations for engagement characterization. Soumis, 2011. (Citépages 91, 100 et 102.)

C. M. Lee, S. Yildirim, M. Bulut, C. Busso, A. Kazemzadeh, S. Lee, and S. Na-rayanan. E�ects of emotion on di�erent phoneme classes. The Journal of

the Acoustical Society of America, 116(4) :2481�2481, 2004. (Cité pages 28et 32.)

D. D. Lee and H. S. Seung. Learning the parts of objects by non-negativematrix factorization. Nature, 401(6755) :788�791, 10 1999. (Cité page 71.)

L Leinonen, T Hiltunen, I Linnankoski, and M J Laakso. Expression oremotional-motivational connotations with a one-word utterance. J Acoust

Soc Am, 102(3) :1853�63, Sep 1997. (Cité pages 28 et 32.)

M. Little. Mathematical foundations of nonlinear, non-gaussian, and time-varying digital speech signal processing. In Nonlinear Speech Processing

NOLISP 2011, Lecture Notes in Computer Science. Springer, 2011. (Citépage 19.)

R. Lunsford, S. Oviatt, and R. Coulston. Audio-visual cues distinguishing self-from system-directed speech in younger and older adults. In Proceedings of

the 7th international conference on Multimodal interfaces, pages 167�174,2005. (Cité pages 98 et 100.)

R. M. Maatman, Jonathan Gratch, and Stacy Marsella. Natural behavior of

a listening agent, pages 25�36. Springer-Verlag, 2005. (Cité page 95.)

M. S. Magnusson. Discovering hidden time patterns in behavior : T-patternsand their detection. Behav Res Methods Instrum Comput, 32(1) :93�110,2000. (Cité page 65.)

S. R. Mahadeva Prasanna, Cheedella S. Gupta, and B. Yegnanarayana. Ex-traction of speaker-speci�c excitation information from linear prediction re-sidual of speech. Speech Communication, 48(10) :1243�1261, 10 2006. (Citépages 20, 21 et 25.)

Page 228: "Traitement du signal social et robotique personnelle: Signaux actes ...

214 Bibliographie

A. Mahdhaoui. Analyse de Signaux Sociaux pour la Modélisation de l'interac-

tion face à face. PhD thesis, Université Pierre et Marie Curie, 2010. (Citépages 52, 62, 70, 71, 72 et 73.)

A. Mahdhaoui and M. Chetouani. Supervised and semi-supervised infant-directed speech classi�cation for parent-infant interaction analysis. SpeechCommunication, 53(9-1) :1149�1161, 2011. (Cité pages 55, 56 et 57.)

A. Mahdhaoui, M. Chetouani, and Cong Zong. Motherese detection basedon segmental and supra-segmental features. In Pattern Recognition, 2008.

ICPR 2008. 19th International Conference on, pages 1 �4, dec. 2008. (Citépages 29 et 53.)

A. Mahdhaoui, M. Chetouani, R. S. Cassel, C. Saint-Georges, E. Parlato,M.-C. Laznik, F. Apicella, F. Muratori, S. Maestro, and D. Cohen. Com-puterized home video detection for motherese may help to study impairedinteraction between infants who become autistic and their parents. Inter-

national Journal of Methods in Psychiatric Research, 20(1) :e6�e18, 2011.(Cité page 53.)

D. McNeill. Hand and mind : what gestures reveal about thought. Universityof Chicago Press, 1992. (Cité page 95.)

A. N. Meltzo�, P. K. Kuhl, J. Movellan, and T. J. Sejnowski. Foundations fora new science of learning. Science, 325(5938) :284�288, 2009. (Cité pages 8,68 et 88.)

A. N. Meltzo�, R. Brooks, A. P. Shon, and R. P. N. Rao. "social" robots arepsychological agents for infants : A test of gaze following. Neural Networks,23(8-9) :966�972, 2010. (Cité pages 8 et 90.)

D. Messinger, P. Ruvolo, V. N. Ekas, and A. Fogel. Applying machine learningto infant interaction : The development is in the details. Neural Networks,23(8-9) :1004�1016, 2010. (Cité page 65.)

M. P Michalowski, S Sabanovic, and H Kozima. A dancing robot for rhythmicsocial interaction. Proceeding of the ACM IEEE international conference

on Humanrobot interaction HRI 07, page 89, 2007. (Cité page 64.)

M.P. Michalowski, S. Sabanovic, and R. Simmons. A spatial model of enga-gement for a social robot. In Advanced Motion Control, 2006. 9th IEEE

International Workshop on, pages 762 �767, 2006. (Cité page 92.)

Page 229: "Traitement du signal social et robotique personnelle: Signaux actes ...

Bibliographie 215

E. Monte-Moreno, M. Chetouani, Faundez-Zanuy ; M., and J. Sole-Casals.Maximum likelihood linear programming data fusion for speaker recogni-tion. Speech Communication, 51(9) :820�830, 2009. (Cité pages 23 et 24.)

L.-P. Morency. Modeling human communication dynamics [social sciences]. Si-gnal Processing Magazine, IEEE, 27(5) :112 �116, sept. 2010. (Cité pages 61et 94.)

L.-P. Morency, I. de Kok, and J. Gratch. Context-based recognition duringhuman interactions : automatic feature selection and encoding dictionary. InProceedings of the 10th international conference on Multimodal interfaces,pages 181�188, 2008. (Cité page 7.)

E. Mower, D.J. Feil-Seifer, M.J. Mataric, and S. Narayanan. Investigatingimplicit cues for user state estimation in human-robot interaction usingphysiological measurements. In Robot and Human interactive Communica-

tion, 2007. RO-MAN 2007. The 16th IEEE International Symposium on,pages 1125 �1130, 2007. (Cité pages 92, 104 et 105.)

F. Muratori, F. Apicella, P. Muratori, and S. Maestro. Intersubjective disrup-tions and caregiver-infant interaction in early autistic disorder. Research in

Autism Spectrum Disorders, 5(1) :408 � 417, 2011. (Cité page 68.)

L. Murray and C. Trevarthen. Emotional regulation of interactions between

two-month-olds and their mothers, pages 177�197. Ablex, 1985. (Citépage 63.)

B. Mutlu, T. Shiwa, T. Kanda, H. Ishiguro, and N. Hagita. Footing in human-robot conversations : how robots might shape participant roles using gazecues. In Proceedings of the 4th ACM/IEEE international conference on

Human robot interaction, pages 61�68, 2009. (Cité page 92.)

J. Nadel, I. Carchon, C. Kervella, D. Marcelli, and D. Reserbat-Plantey. Ex-pectancies for social contingency in 2-month-olds. Developmental Science,2(2) :164�173, 1999. (Cité page 63.)

Y. I. Nakano and R. Ishii. Estimating user's engagement from eye-gaze be-haviors in human-agent conversations. In Proceedings of the 15th interna-

tional conference on Intelligent user interfaces, pages 139�148, 2010. (Citépage 91.)

M.A. Nicolaou, H. Gunes, and M. Pantic. Output-associative rvm regressionfor dimensional and continuous emotion prediction. In Automatic Face

Gesture Recognition and Workshops (FG 2011), 2011 IEEE International

Conference on, pages 16 �23, march 2011. (Cité page 87.)

Page 230: "Traitement du signal social et robotique personnelle: Signaux actes ...

216 Bibliographie

D. Olsen and M. Goodrich. Metrics for evaluating human-robot interactions.In Proc. NIST Performance Metrics for Intelligent Systems Workshop, 2003.(Cité page 102.)

D. Oppermann, F. Schiel, S. Steininger, and N. Beringer. O�-talk, a pro-blem for human-machine-interaction ? In Proc European Conf on Speech

Communication and Technology, pages 2�5, 2001. (Cité page 98.)

J. Ortega-Garcia, J. Gonzalez-Rodriguez, and V. Marrero-Aguiar. Ahumada :A large speech corpus in spanish for speaker characterization and identi�-cation. Speech Communication, 31(2-3) :255 � 264, 2000. (Cité page 23.)

O. Oullier, G. C. de Guzman, K. J. Jantzen, J. Lagarde, and J. A. Scott Kelso.Social coordination dynamics : Measuring human bonding. Social Neuros-cience, 3(2) :178�192, 2008. (Cité page 63.)

K.K. Paliwal and M.M. Sondhi. Recognition of noisy speech using cumulant-based linear prediction analysis. In Acoustics, Speech, and Signal Processing,1991. ICASSP-91., 1991 International Conference on, pages 429 �432 vol.1,apr 1991. (Cité pages 21 et 22.)

C. Pelachaud. Modelling multimodal expression of emotion in a virtual agent.Philosophical Transactions of the Royal Society B : Biological Sciences, 364(1535) :3539�3548, 2009. (Cité page 3.)

F. Pellegrino. Rhythm. In P. Hogan, editor, The Cambridge Encyclopedia of

the Language Sciences. Cambridge University Press, 2011. (Cité page 38.)

A. Pentland. Social dynamics : Signals and behavior. In International Confe-

rence on Developmental Learning, 2004. (Cité page 3.)

A. Pentland. Social signal processing (exploratory dsp). Signal Processing

Magazine, IEEE, 24(4) :108�111, 2007. (Cité pages 1 et 3.)

A. Pentland. Honest Signals : how they shape our world. MIT Press, 2008.(Cité pages 4 et 61.)

C Pereira and CWatson. Some acoustic characteristics of emotion. In Fifth In-ternational Conference on Spoken Language Processing, 1998. (Cité pages 28et 32.)

C. Peters, G. Castellano, and S. de Freitas. An exploration of user engagementin hci. In Proceedings of the International Workshop on A�ective-Aware

Virtual Agents and Social Robots, pages 9 :1�9 :3, 2009. (Cité page 92.)

Page 231: "Traitement du signal social et robotique personnelle: Signaux actes ...

Bibliographie 217

R. W. Picard. A�ective computing. MIT Press, Cambridge, MA, USA, 1997.(Cité pages 1, 2 et 26.)

K. Prepin and P. Gaussier. How an agent can detect and use synchronyparameter of its own interaction with a human ? Development of Multimo-

dal Interfaces Active Listening and Synchrony, pages 50�65, 2010. (Citépages 64 et 85.)

K. Prepin and C. Pelachaud. Shared understanding and synchrony emer-gence : Synchrony as an indice of the exchange of meaning between dialogpartners. Third International Conference on Agents and Arti�cial Intelli-

gence ICAART2011, pages 37�39, 2011. (Cité pages 64 et 85.)

F. Ramseyer and W. Tschacher. Nonverbal synchrony in psychotherapy : Co-ordinated body movement re�ects relationship quality and outcome. Jour-nal of Consulting and Clinical Psychology, 79(3) :284 � 295, 2011. (Citépages 64, 77, 79 et 80.)

F. Ramus, M. Nespor, and J. Mehler. Correlates of linguistic rhythm in thespeech signal, 1999. (Cité pages 39 et 40.)

D. Reynolds, W. Andrews, J. Campbell, J. Navratil, B. Peskin, A. Adami, QinJin, D. Klusacek, J. Abramson, R. Mihaescu, J. Godfrey, D. Jones, and BingXiang. The supersid project : exploiting high-level information for high-accuracy speaker recognition. In Acoustics, Speech, and Signal Processing,

2003. Proceedings. (ICASSP '03). 2003 IEEE International Conference on,volume 4, april 2003. (Cité pages 18 et 25.)

C. Rich, C. L. Sidner, and N. Lesh. Collagen : Applying collaborative discoursetheory to human-computer interaction. AI Magazine, 22(4) :15�26, 2001.(Cité page 91.)

C. Rich, B. Ponsleur, A. Holroyd, and C. L. Sidner. Recognizing engagement inhuman-robot interaction. In Proceeding of the 5th ACM/IEEE international

conference on Human-robot interaction, pages 375�382, 2010. (Cité pages 91et 92.)

F. Ringeval. Ancrages et modèles dynamiques de la prosodie : application à la

reconnaissance des émotions actées et spontanées. PhD thesis, UniversitéPierre et Marie Curie, 2011. (Cité pages ix, xi, 15, 28, 29, 30, 32, 34, 38,39, 40, 41, 43 et 46.)

F. Ringeval and M. Chetouani. A vowel based approach for acted emotionrecognition. In Interspeech 2008, pages 2763�2766, 2008. (Cité page 29.)

Page 232: "Traitement du signal social et robotique personnelle: Signaux actes ...

218 Bibliographie

F. Ringeval and M. Chetouani. Hilbert-huang transform for non-linear cha-racterization of speech rhythm. In ISCA Tutorial and Research Workshop

on Non-Linear Speech Processing, 2009. (Cité page 41.)

F. Ringeval, J. Demouy, G Szaszak, M. Chetouani, L. Robel, J. Xavier, D. Co-hen, and M. Plaza. Automatic intonation recognition for the prosodic assess-ment of language-impaired children. IEEE Transactions on Audio, Speech

& Language Processing, 19(5) :1328�1342, 2011. (Cité pages 46, 47 et 48.)

M. Rolf, M. Hanheide, and K. J Rohl�ng. Attention via synchrony : Makinguse of multimodal cues in social learning. IEEE Transactions on Autono-

mous Mental Development, 1(1) :55�67, 2009. (Cité page 64.)

J.-L. Rouas, J. Farinas, F. Pellegrino, and R. André-Obrecht. Rhythmicunit extraction and modelling for automatic language identi�cation. SpeechCommunication, 47(4) :436�456, 2005. (Cité page 30.)

C. Saint-Georges. Dynamique, synchronie, réciprocité et mamanais dans les

interactions des bébés autistes à travaers les �lms familiaux. PhD thesis,Université Pierre et Marie Curie, 2011. (Cité pages x, 52, 62, 67, 68, 70, 74,75 et 76.)

C. Saint-Georges, .R Cassel, D. Cohen, M. Chetouani, M.C. Laznik, S. Maes-tro, and F. Muratori. What studies of family home movies can teach usabout autistic infants : A literature review. Research in Autism Spectrum

Disorders, 4(3) :355 � 366, 2010. (Cité page 67.)

C. Saint-Georges, M. Chetouani, R. Cassel, A. Mahdhaoui, F. Muratori, M.-C.Laznik, and D. Cohen. Motherese, an emotion and interaction based pro-cess, impacts infant's cognitive development. Soumis, 2011a. (Cité page 52.)

C. Saint-Georges, A. Mahdhaoui, M. Chetouani, M.C. Laznik, F. Apicella,P. Muratori, S. Maestro, F. Muratori, and D. Cohen. Do parents recognizeautistic deviant behavior long before diagnosis ? taking into account inter-action using computational methods. PLOS ONE, 6(7) :e22393, 07 2011b.(Cité pages 53, 68, 69, 70, 72, 73 et 74.)

J. Sanghvi, G. Castellano, I. Leite, A. Pereira, P. W. McOwan, and A. Paiva.Automatic analysis of a�ective postures and body motion to detect engage-ment with a game companion. In Proceedings of the 6th international confe-rence on Human-robot interaction, pages 305�312, 2011. (Cité page 92.)

M. Schroder, S. Pammi, H. Gunes, M. Pantic, M.F. Valstar, R. Cowie,G. McKeown, D. Heylen, M. ter Maat, F. Eyben, B. Schuller, M. Wollmer,

Page 233: "Traitement du signal social et robotique personnelle: Signaux actes ...

Bibliographie 219

E. Bevacqua, C. Pelachaud, and E. de Sevin. Come and have an emotionalworkout with sensitive arti�cial listeners ! In Automatic Face Gesture Re-

cognition and Workshops (FG 2011), 2011 IEEE International Conference

on, page 646, 2011. (Cité pages 8 et 94.)

B. Schuller, A. Batliner, D. Seppi, S. Steidl, T. Vogt, J. Wagner, L. Devillers,L. Vidrascu, N. Amir, L. Kessous, and V. Aharonson. The relevance offeature type for the automatic classi�cation of emotional user states : lowlevel descriptors and functionals. In INTERSPEECH, pages 2253�2256,2007a. (Cité pages 25 et 37.)

B. Schuller, B. Vlasenko, R. Minguez, G. Rigoll, and A. Wendemuth. Com-paring one and two-stage acoustic modeling in the recognition of emotionin speech. In Automatic Speech Recognition Understanding, 2007. ASRU.

IEEE Workshop on, pages 596 �600, dec. 2007b. (Cité pages 26, 27 et 28.)

B. Schuller, S. Steidl, and A. Batliner. The interspeech 2009 emotion challenge.In Interspeech 2009, 2009. (Cité page 37.)

B. Schuller, B. Vlasenko, F. Eyben, M. Wö andllmer, A. Stuhlsatz, A. Wende-muth, and G. Rigoll. Cross-corpus acoustic emotion recognition : Variancesand strategies. A�ective Computing, IEEE Transactions on, 1(2) :119 �131,july-dec. 2010. (Cité page 17.)

B. Schuller, A. Batliner, S. Steidl, and D. Seppi. Recognising realistic emotionsand a�ect in speech : State of the art and lessons learnt from the �rstchallenge. Speech Communication, 53(9-10) :1062 � 1087, 2011. SensingEmotion and A�ect - Facing Realism in Speech Processing. (Cité pages 25,43 et 52.)

M. Shami and W. Verhelst. An evaluation of the robustness of existing su-pervised machine learning approaches to the classi�cation of emotions inspeech. Speech Communication, 49(3) :201 � 212, 2007. (Cité pages 26, 27et 35.)

C. Shi, M. Shimada, T. Kanda, H. Ishiguro, and N. Hagita. Spatial formationmodel for initiating conversation. In Proceedings of Robotics : Science and

Systems, 2011. (Cité page 92.)

M. Shimada, Y. Yoshikawa, M. Asada, N. Saiwaki, and H. Ishiguro. E�ects ofobserving eye contact between a robot and another person. International

Journal of Social Robotics, 3 :143�154, 2011. (Cité page 92.)

Page 234: "Traitement du signal social et robotique personnelle: Signaux actes ...

220 Bibliographie

C. L. Sidner, C. D. Kidd, C. Lee, and N. Lesh. Where to look : a study ofhuman-robot engagement. In Proceedings of the 9th international confe-

rence on Intelligent user interfaces, IUI '04, pages 78�84. ACM, 2004. (Citépage 91.)

A. F. Smeaton, P. Over, and W. Kraaij. Evaluation campaigns and trec-vid. In MIR '06 : Proceedings of the 8th ACM International Workshop on

Multimedia Information Retrieval, pages 321�330, 2006. (Cité page 13.)

C. Song, Z. Qu, N. Blumm, and A.-L. Barabási. Limits of predictability inhuman mobility. Science, 327(5968) :1018�1021, 2010. (Cité page 5.)

Y. Spenko, M.and Haoyong and S. Dubowsky. Robotic personal aids for mo-bility and monitoring for the elderly. IEEE Transactions on neural systems

and rehabilitation engineering, 14(3) :344�351, 2006. (Cité page 105.)

A. Strehl and J. Ghosh. Cluster ensembles - a knowledge reuse frameworkfor combining multiple partitions. Machine Learning Research, 3 :583�617,2002. (Cité page 73.)

X. Sun, K. Truong, A. Nijholt, and M. Pantic. Automatic visual mimicryexpression analysis in interpersonal interaction. In Proceedings of IEEE Int'l

Conf. Computer Vision and Pattern Recognition (CVPR-W'11), Workshop

on CVPR for Human Behaviour Analysis, pages 40�46, Colorado Springs,USA, June 2011. (Cité pages 79 et 85.)

W. Swartout, J. Gratch, R. W. Hill, E.. Hovy, S. Marsella, J. Rickel, andD. Traum. Toward virtual humans. AI Magazine, 27 :96�108, July 2006.(Cité pages 3 et 85.)

C. Tao, J. Mu, X. Xu, and G. Du. Chaotic characteristics of speech signaland its lpc residual. Acoustical Science and Technology, 25(1) :50�53, 2004.(Cité page 20.)

A. Tapus, M.J. Mataric, and B. Scasselati. Socially assistive robotics [grandchallenges of robotics]. Robotics Automation Magazine, IEEE, 14(1) :35�42, march 2007. (Cité pages 103 et 104.)

P. Thévenaz and H. Hugli. Usefulness of the lpc-residue in text-independentspeaker veri�cation. Speech Communication, 17(1-2) :145�157, 8 1995. (Citépage 20.)

Page 235: "Traitement du signal social et robotique personnelle: Signaux actes ...

Bibliographie 221

J. Thyssen, H. Nielsen, and S.D. Hansen. Non-linear short-term prediction inspeech coding. In Acoustics, Speech, and Signal Processing, 1994. ICASSP-

94., 1994 IEEE International Conference on, volume 1, pages 185 �188, apr1994. (Cité page 20.)

S. Tilsen and K. Johnson. Low-frequency fourier analysis of speech rhythm.The Journal of the Acoustical Society of America, 124(2) :EL34�EL39, 2008.(Cité pages ix, 33, 34, 38 et 40.)

E. Tognoli, J. Lagarde, G. DeGuzman, and J. A. Scott Kelso. The phi complexas a neuromarker of human social coordination. Proceedings of the NationalAcademy of Science (PNAS), 104(19) :8190�8195, May 2007. (Cité page 62.)

G. Varni, A. Camurri, P. Coletta, and G. Volpe. Toward a real-time automatedmeasure of empathy and dominance. In CSE (4), pages 843�848, 2009. (Citépage 77.)

H. Vilhjálmsson, N. Cantelmo, J. Cassell, E. N. Chafai, M. Kipp, S. Kopp,M. Mancini, S. Marsella, A. N. Marshall, C. Pelachaud, Z. Ruttkay, K. R.Thórisson, H. Welbergen, and R. J. Werf. The behavior markup language :Recent developments and challenges. In Proc. of the 7th inter. conference

on Intelligent Virtual Agents, IVA '07, pages 99�111, 2007. (Cité page 97.)

A. Vinciarelli. Capturing order in social interactions. Signal Processing Ma-

gazine, IEEE, 26(5) :133 �152, September 2009. (Cité pages 7, 13, 14, 64,77 et 85.)

A. Vinciarelli, M. Pantic, H. Bourlard, and A. Pentland. Social signal proces-sing : state-of-the-art and future perspectives of an emerging domain. InProceeding of the 16th ACM international conference on Multimedia, pages1061�1070, 2008. (Cité page 2.)

A. Vinciarelli, M. Pantic, and H. Bourlard. Social signal processing : Surveyof an emerging domain. Image and Vision Computing, 27(12) :1743�1759,11 2009. (Cité pages ix, 3, 4 et 82.)

A. Vinciarelli, M. Pantic, D. Heylen, C. Pelachaud, I. Poggi, F. D'Errico, andM. Schroeder. Bridging the gap between social animal and unsocial ma-chine : A survey of social signal processing. IEEE Transactions on A�ective

Computing,, 2011. (Cité pages 9 et 94.)

B. Vlasenko, B. Schuller, A. Wendemuth, and G. Rigoll. Frame vs. turn-level :Emotion recognition from speech considering static and dynamic processing.In Proc. of the 2nd int. conference on A�ective Computing and Intelligent

Interaction, pages 139�147, 2007. (Cité pages 26, 29 et 35.)

Page 236: "Traitement du signal social et robotique personnelle: Signaux actes ...

222 Bibliographie

L. S. Vygotsky. Thought and Language. MIT Press, 1986. (Cité pages 100et 102.)

N. Ward and W. Tsukahara. Prosodic features which cue back-channel res-ponses in english and japanese. Journal of Pragmatics, 32(8) :1177 � 1207,2000. (Cité page 95.)

P.B. Wieber, F. Billet, L. Boissieux, and R. Pissard-Gibollet. The HuMAnStoolbox, a homogenous framework for motion capture, analysis and simula-tion. In 9th International Symposium on the 3D Analysis of Human Move-

ment, AHM 2006, June, 2006, 2008. (Cité page 108.)

S. F. Worgan and R. K. Moore. Towards the detection of social dominance indialogue. Speech Communication, In Press, 2011. (Cité page 77.)

B. Wrede, S. Kopp, K. Rohl�ng, M Lohse, and C. Muhl. Appropriate feedbackin asymmetric interactions. Journal of Pragmatics, 42(9) :2369 � 2384, 2010.(Cité page 94.)

Z-l. Wu, C.-W. Cheng, and C.-h. Li. Social and semantics analysis via non-negative matrix factorization. In Proceeding of the 17th international confe-

rence on World Wide Web, pages 1245�1246, 2008. (Cité page 71.)

J. Xavier, L. Vannezel, S. Viaux, A. Leroy, M. Plaza, S. Tordjman, C. Mille,C. Bursztejn, D. Cohen, and Guile J.M. Reliability and diagnostic e�ciencyof the diagnostic inventory for disharmony (did) in youths with pervasivedevelopmental disorder and multiple complex developmental disorder. Re-search in Autism Spectrum Disorders, 5 :1493�1499, 2011. (Cité page 50.)

J.J. Yanguas, C. Buiza, I. Etxeberria, E. Urdaneta, N. Galdona, and M.F.González. E�ectiveness of a non pharmacological cognitive intervention onelderly factorial analisys of donostia longitudinal study. Adv. Gerontol., 3 :30�41, 2008. (Cité page 99.)

B. Yegnanarayana, K. Sharat Reddy, and S.P. Kishore. Source and systemfeatures for speaker recognition using aann models. In Acoustics, Speech,

and Signal Processing, 2001. Proceedings. (ICASSP '01). 2001 IEEE Inter-

national Conference on, volume 1, pages 409 �412, 2001. (Cité page 20.)

N. Zheng, T. Lee, and P. C. Ching. Integration of complementary acousticfeatures for speaker recognition. Signal Processing Letters, IEEE, 14(3) :181 �184, march 2007. (Cité page 20.)

E. Zwicker and Fastl H. Psychoacoustics : facts and models. Springer Berlin/ Heidelberg, 1990. (Cité page 37.)