1 La permanence informationnelle : lauditeur communicant - expressions des Feeling of Thinking et...

33
1 La permanence informationnelle : l’auditeur communicant - expressions des Feeling of Thinking et autres émotions… « Quand, où, pourquoi, à qui, qui parle ? » - la communication située - Véronique Aubergé GIPSA Lab, Département Parole et Cognition – CNRS UMR 5216 Laboratoire d’Informatique de Grenoble, GETALP – CNRS UMR 5217 Atelier PIRSTEC Atelier PIRSTEC LIMSI, juin 09 LIMSI, juin 09

Transcript of 1 La permanence informationnelle : lauditeur communicant - expressions des Feeling of Thinking et...

Page 1: 1 La permanence informationnelle : lauditeur communicant - expressions des Feeling of Thinking et autres émotions… « Quand, où, pourquoi, à qui, qui parle.

1

La permanence informationnelle :l’auditeur communicant - expressions desFeeling of Thinking et autres émotions…

« Quand, où, pourquoi, à qui, qui parle ? » - la communication située -

Véronique Aubergé

GIPSA Lab, Département Parole et Cognition – CNRS UMR 5216Laboratoire d’Informatique de Grenoble, GETALP – CNRS UMR 5217

Atelier PIRSTECAtelier PIRSTECLIMSI, juin 09LIMSI, juin 09

Page 2: 1 La permanence informationnelle : lauditeur communicant - expressions des Feeling of Thinking et autres émotions… « Quand, où, pourquoi, à qui, qui parle.

2

La permanence informationnelle :l’auditeur communicant - expressions desFeeling of Thinking et autres émotions…

« Quand, où, pourquoi, à qui, qui parle ? » - la communication située -

Atelier PIRSTECAtelier PIRSTECLIMSI, juin 09LIMSI, juin 09

Véronique Aubergé

GIPSA Lab, Département Parole et Cognition – CNRS UMR 5216Laboratoire d’Informatique de Grenoble, GETALP – CNRS UMR 5217

Page 3: 1 La permanence informationnelle : lauditeur communicant - expressions des Feeling of Thinking et autres émotions… « Quand, où, pourquoi, à qui, qui parle.

3Atelier PIRSTEC - LIMSI - 11 juin 2009

Pertinence de l’expression dans sa multi-modalité

( voix, parole, langage, face, gestualité )

instanciation dans le contexte

interaction face à face continuité communicative

auditeur <=> locuteursituation

tâche

Communication « expressive » : Quand, où, pourquoi, à qui, qui

parle ?

Page 4: 1 La permanence informationnelle : lauditeur communicant - expressions des Feeling of Thinking et autres émotions… « Quand, où, pourquoi, à qui, qui parle.

4Atelier PIRSTEC - LIMSI - 11 juin 2009

Pertinence de l’expression dans sa multi-modalité

( voix, parole, langage, face, gestualité )

instanciation dans le contexte comportement => personnalité

intentions/buts - motivation - attention

variations des états mentaux - attitudinaux- émotionnels -

humeurs

=> exprimées en continu

interaction face à face continuité communicative

auditeur <=> locuteursituation

tâche

sujet

Communication « expressive » : Quand, où, pourquoi, à qui, qui

parle ?

Communication située

Page 5: 1 La permanence informationnelle : lauditeur communicant - expressions des Feeling of Thinking et autres émotions… « Quand, où, pourquoi, à qui, qui parle.

Baratinoo par l’exemple

Thierry MOUDENC+33 6 80 88 53 21Juin 2009

Serveur vocal Université Grenoble

Pertinence intrinsèque à la SPC corpus = bon prototype de « quand, où, pourquoi, à qui, qui parle ? »

Page 6: 1 La permanence informationnelle : lauditeur communicant - expressions des Feeling of Thinking et autres émotions… « Quand, où, pourquoi, à qui, qui parle.

6Atelier PIRSTEC - LIMSI - 11 juin 2009

Film "Les lascars"

Et plus encore…

Assistant vocal : mobile vocalisé pour malvoyants

"Hello", le PC à 1€ pour

les séniors

Messages fixes des SVI :

1013 / 1014 / 3900 / 3000

Diane, assistance sur

Orange.frSuivant le temps (yc respirations)

Messagerie : SMS2VOICE,

840, 3103

Annuaires : 118710, 3288,

AVME

SVI Speech Online remplacement des enregistrements

studio

OBS: @allobiz offre entreprise

accessibilité funBaratinoo

Page 7: 1 La permanence informationnelle : lauditeur communicant - expressions des Feeling of Thinking et autres émotions… « Quand, où, pourquoi, à qui, qui parle.

7Atelier PIRSTEC - LIMSI - 11 juin 2009

Baratinoo : fiche technique

• Langues supportées en technologie SPC– français, anglais, espagnol, au moins1 voix Homme et 1 voix Femme par langue

• Logiciel portable– Serveur et station de travail : Windows, Linux, Solaris– Embarqué : Windows Mobile, Symbian, Linux, iPhone OS

• Scalable– De 400MB (serveur) à moins de 10MB (mobile)

• Pleinement intégrable – MRCP, SAPI, API native C++, interface HTTP– SSML, PLS

• Protection logicielle– flexnet de Macrovision, par voix et version ; host ID, date de fin, nb process

• Maintenance – Corrective – Evolutive : 1 release par an, version actuelle 6.4

• Création de voix– Très Haute Qualité ; Célèbres ; Sur mesure ; Fun.– 2 mois maximum, engagement coût / délai / qualité

Page 8: 1 La permanence informationnelle : lauditeur communicant - expressions des Feeling of Thinking et autres émotions… « Quand, où, pourquoi, à qui, qui parle.

8Atelier PIRSTEC - LIMSI - 11 juin 2009

théorie / modèle sur « corpus vivants »

briques techno - réalisme

usage/applications - réalité

Collaborations obligatoires R&R, R&D, D&I

Page 9: 1 La permanence informationnelle : lauditeur communicant - expressions des Feeling of Thinking et autres émotions… « Quand, où, pourquoi, à qui, qui parle.

9Atelier PIRSTEC - LIMSI - 11 juin 2009

Actor Actor M1M1 / male / introvert / male / introvert

QuickTime™ et undécompresseur H.264

sont requis pour visionner cette image.

QuickTime™ et undécompresseur H.264

sont requis pour visionner cette image.

Page 10: 1 La permanence informationnelle : lauditeur communicant - expressions des Feeling of Thinking et autres émotions… « Quand, où, pourquoi, à qui, qui parle.

10Atelier PIRSTEC - LIMSI - 11 juin 2009

Correct discriminationA V AV

50% 68% 71%

“bored, irritated,”

% A V AV

M1 54,5 53,3 69,9

M2 73 63,6 77,3

F1 55,8 57,1 72,2

F2 59,6 51,3 60,4

QuickTime™ et undécompresseur H.264

sont requis pour visionner cette image.

QuickTime™ et undécompresseur H.264

sont requis pour visionner cette image.

Page 11: 1 La permanence informationnelle : lauditeur communicant - expressions des Feeling of Thinking et autres émotions… « Quand, où, pourquoi, à qui, qui parle.

11Atelier PIRSTEC - LIMSI - 11 juin 2009

Correct discriminationA V AV

50% 68% 71%

spontaneous acted

% A V AV

M1 54,5 53,3 69,9

M2 73 63,6 77,3

F1 55,8 57,1 72,2

F2 59,6 51,3 60,4

“bored, irritated,”

QuickTime™ et undécompresseur H.264

sont requis pour visionner cette image.

QuickTime™ et undécompresseur H.264

sont requis pour visionner cette image.

Page 12: 1 La permanence informationnelle : lauditeur communicant - expressions des Feeling of Thinking et autres émotions… « Quand, où, pourquoi, à qui, qui parle.

12Atelier PIRSTEC - LIMSI - 11 juin 2009

empirisme <> expérimentation [Quine, 69] :

« nous pouvons améliorer morceau par morceau notre schème conceptuel…mais nous ne pouvons pas nous en détacher et le comparer objectivement avec une réalité non conceptualisée »

corpus « prototype (s) » réels« quand, où, pourquoi, à qui, qui parle »

pas de paradoxe [Labov]

… la communication située ? … éthnométhodologie ; éthologie ;

linguistique behavioriste ; relevance theory [Sperber&Wilson] ; linguistique « floue » [Wittgenstein][Rosh]

quels indices sur signaux observés/observables ?comment s’organise la multi-modalité ?

voix, parole, langage, face, gestualité

que doit on en comprendre ?annotation : automatiques / « expertes » / naïves

états mentaux, intentionnels, socio-affectifs, émotionnels

ou attendre ? prédire la dynamique du scenario interactif

Page 13: 1 La permanence informationnelle : lauditeur communicant - expressions des Feeling of Thinking et autres émotions… « Quand, où, pourquoi, à qui, qui parle.

13Atelier PIRSTEC - LIMSI - 11 juin 2009

multi-modality / multi-processing ?

formes dynamiques ?

indices abrupts ?

formes statiques ?

motifs (récurrence d’événement) ?

Face motor control

Body motor control

Voice motor control

emotion brain representations

Control of strategies

different natures&intensity

activation level

intensity level

Page 14: 1 La permanence informationnelle : lauditeur communicant - expressions des Feeling of Thinking et autres émotions… « Quand, où, pourquoi, à qui, qui parle.

14Atelier PIRSTEC - LIMSI - 11 juin 2009

multi-modality / multi-processing ?

formes dynamiques ?

indices abrupts ?

formes statiques ?

motifs (récurrence d’événement) ?

Face motor control

Body motor control

Voice motor control

emotion brain representations

inhibition

Control of strategies

different natures&intensity

activation level

intensity level

Page 15: 1 La permanence informationnelle : lauditeur communicant - expressions des Feeling of Thinking et autres émotions… « Quand, où, pourquoi, à qui, qui parle.

15Atelier PIRSTEC - LIMSI - 11 juin 2009

multi-modality / multi-processing ?

formes dynamiques ?

indices abrupts ?

formes statiques ?

motifs (récurrence d’événement) ?

Face motor control

Body motor control

Voice motor control

emotion brain representations

inhibition

Control of strategies

different natures&intensity

activation level

intensity level

C

C

C

Page 16: 1 La permanence informationnelle : lauditeur communicant - expressions des Feeling of Thinking et autres émotions… « Quand, où, pourquoi, à qui, qui parle.

16Atelier PIRSTEC - LIMSI - 11 juin 2009

[Audibert, Aubergé, Rilliard, 2004..08]

http://www.icp.inpg.fr/EMOTION/EWiz/

E-Wizplateforme générique

logicielle & expérimentale

multi-capteurs

distribution librevideo, audio, EGG,

bio-physiotous synchronisés

Scénario Sound Teacher

- Spectre d’états mentaux et socio-affects émotions => prototypes IHM - Variabilité comportementale (induction pos&neg) 17 sujets - Variabilité langues - cultures - Discrimination spontané vs. acté (7acteurs)

Induction « naturelle » d’expressions authentiques « quand, où, pourquoi, à qui, qui parle  » réaliste / réel

[Audibert, Aubergé, Rilliard, 2008]

Capture contrôlée d’expressions spontanées par perturbation/induction

[Audibert, Aubergé, Rilliard, 2004]

Page 17: 1 La permanence informationnelle : lauditeur communicant - expressions des Feeling of Thinking et autres émotions… « Quand, où, pourquoi, à qui, qui parle.

17Atelier PIRSTEC - LIMSI - 11 juin 2009

Temps Phase annotations En minutes Introduction : Phase 1 : les voyelles du

français

2,88 - prononciation Surprise - perplexe 7,43 - perception ouverture concentrée 9,78 - commentaires amusement 10,41 - perception position Av /Ar concentrée 11,68 - commentaires Concentré 12,28 - perception arrondissement Perplexe,

concentrée 13,13 - commentaires étonnée 13,68 - perception centralisation concentrée 14,4 - commentaires idem 14,7 - résultats généraux perplexe Phase 2 : les voyelles proches de

celles du français

15,95 - perception ouverture Surprise, agacement 17,11 - commentaires blazée 17,78 - perception position Av /Ar concentration 18,7 - commentaires idem 19,2 - perception arrondissement Agacement,

concentrée 20,13 - commentaires amusement 20,45 - perception centralisation Agacement,

concentrée 21,5 - commentaires Amusemen 22,1 - prononciation Amusement,

concentrée 24,05 - résultats généraux Concentrée,

largement agacée

Temps Phase Annotation En minutes Introduction : Phase 1 : les voyelles du français Stress, intimidée - soucieuse de faire

bien 0,73 - prononciation Surprise - étonnement 5,38 - perception ouverture Ennui (longueurs), agacée - énervée 7,86 - commentaires Très surprise, flattée, amusée

Amusée compte tenu du résultat 8,81 - perception position Av /Ar déconcertée 9,61 - commentaires idem 10,58 - perception arrondissement idem 11,11 - commentaires idem 11,6 - perception centralisation rien 12,3 - commentaires Surprise du résultat et un peu

saoulée, long 12,81 - résultats généraux idem Phase 2 : les voyelles proches de celles

du français

13,61 - perception ouverture Agacée - fatiguée 14,38 - commentaires Concentrée - attentive 14,98 - perception position Av /Ar Agacée, long, j’ en ai marre ! 15,45 - commentaires idem 15,86 - perception arrondissement idem 16,5 - commentaires idem 16,98 - perception centralisation Agacée - fatiguée, 17,48 - commentaires Perturbée, perdue 17,96 - prononciation surprise 18,16 - résultats généraux Très flattée et contente Phase 3 : généralisation aux langues

du monde

20,3 - perception ouverture Déconcertée - perdue 21,03 - commentaires Stressée, déçue 21,43 - perception position Av /Ar saoulée 22,06 - commentaires idem 22,28 - perception arrondissement idem 22,71 - commentaires idem

Page 18: 1 La permanence informationnelle : lauditeur communicant - expressions des Feeling of Thinking et autres émotions… « Quand, où, pourquoi, à qui, qui parle.

18Atelier PIRSTEC - LIMSI - 11 juin 2009

Temps Phase annotations En minutes Introduction : Phase 1 : les voyelles du

français

2,88 - prononciation Surprise - perplexe 7,43 - perception ouverture concentrée 9,78 - commentaires amusement 10,41 - perception position Av /Ar concentrée 11,68 - commentaires Concentré 12,28 - perception arrondissement Perplexe,

concentrée 13,13 - commentaires étonnée 13,68 - perception centralisation concentrée 14,4 - commentaires idem 14,7 - résultats généraux perplexe Phase 2 : les voyelles proches de

celles du français

15,95 - perception ouverture Surprise, agacement 17,11 - commentaires blazée 17,78 - perception position Av /Ar concentration 18,7 - commentaires idem 19,2 - perception arrondissement Agacement,

concentrée 20,13 - commentaires amusement 20,45 - perception centralisation Agacement,

concentrée 21,5 - commentaires Amusemen 22,1 - prononciation Amusement,

concentrée 24,05 - résultats généraux Concentrée,

largement agacée

Temps Phase Annotation En minutes Introduction : Phase 1 : les voyelles du français Stress, intimidée - soucieuse de faire

bien 0,73 - prononciation Surprise - étonnement 5,38 - perception ouverture Ennui (longueurs), agacée - énervée 7,86 - commentaires Très surprise, flattée, amusée

Amusée compte tenu du résultat 8,81 - perception position Av /Ar déconcertée 9,61 - commentaires idem 10,58 - perception arrondissement idem 11,11 - commentaires idem 11,6 - perception centralisation rien 12,3 - commentaires Surprise du résultat et un peu

saoulée, long 12,81 - résultats généraux idem Phase 2 : les voyelles proches de celles

du français

13,61 - perception ouverture Agacée - fatiguée 14,38 - commentaires Concentrée - attentive 14,98 - perception position Av /Ar Agacée, long, j’ en ai marre ! 15,45 - commentaires idem 15,86 - perception arrondissement idem 16,5 - commentaires idem 16,98 - perception centralisation Agacée - fatiguée, 17,48 - commentaires Perturbée, perdue 17,96 - prononciation surprise 18,16 - résultats généraux Très flattée et contente Phase 3 : généralisation aux langues

du monde

20,3 - perception ouverture Déconcertée - perdue 21,03 - commentaires Stressée, déçue 21,43 - perception position Av /Ar saoulée 22,06 - commentaires idem 22,28 - perception arrondissement idem 22,71 - commentaires idem

Feeling of Thinking

Page 19: 1 La permanence informationnelle : lauditeur communicant - expressions des Feeling of Thinking et autres émotions… « Quand, où, pourquoi, à qui, qui parle.

19Atelier PIRSTEC - LIMSI - 11 juin 2009

Perceptual validation (naïve listeners)Perceptual validation (naïve listeners)

Labeling by Labeling by externalexternal “ “experts”experts”

statistic statistic verification of verification of

coherence coherence between between expertsexperts

Auto-annotationAuto-annotationby the speaker =>listenerby the speaker =>listener

autobiographic memoryautobiographic memory complex combinations complex combinations

more than affectsmore than affects

SpontaneousSpontaneousexpressiveexpressive

corpuscorpus

Self-labeling of the collected affects

Page 20: 1 La permanence informationnelle : lauditeur communicant - expressions des Feeling of Thinking et autres émotions… « Quand, où, pourquoi, à qui, qui parle.

20Atelier PIRSTEC - LIMSI - 11 juin 2009

Génération de parole expressive adaptative/adaptée

émotion

« pas d’émotion exprimée »

Projection d’une seule

dimensionresynthèse

Multi-dimensions :

F0, intensité, durée, qualité de

voix

[Audibert et al., 2004-09]

[Audibert, Vincent et al., 2006]

Protocoles d’évaluation perceptive

Mesure physique/perceptive des dimensions acoustiques

[Aubergé, Audibert, Rilliard, 2006]

Synthèse acoustique de la prosodie expressive

(voix/parole/langage)

=> Modèle cognitif de superposition de Gestalts

non expressive = attitude de non expressivité

=> Synthèse Par Corpus « situé »=> Contrôle « quantique » de l’interaction

=> Prépondérance de la fréquence fondamentale pour les expressions positives=> Nécessité de considérer toutes les dimensions acoustiques en génération

Page 21: 1 La permanence informationnelle : lauditeur communicant - expressions des Feeling of Thinking et autres émotions… « Quand, où, pourquoi, à qui, qui parle.

21Atelier PIRSTEC - LIMSI - 11 juin 2009

Génération de parole expressive adaptative/adaptée

émotion

« pas d’émotion exprimée »

Projection d’une seule

dimensionresynthèse

Multi-dimensions :

F0, intensité, durée, qualité de

voix

[Audibert et al., 2004-09]

[Audibert, Vincent et al., 2006]

Protocoles d’évaluation perceptive

Mesure physique/perceptive des dimensions acoustiques

[Aubergé, Audibert, Rilliard, 2006]

Synthèse acoustique de la prosodie expressive

(voix/parole/langage)

=> Modèle cognitif de superposition de Gestalts

non expressive = attitude de non expressivité

=> Synthèse Par Corpus « situé »=> Contrôle « quantique » de l’interaction

=> Prépondérance de la fréquence fondamentale pour les expressions positives=> Nécessité de considérer toutes les dimensions acoustiques en génération

repenser ce qu’estévaluer

une parole virtuelleen adéquation

à une application précise

Page 22: 1 La permanence informationnelle : lauditeur communicant - expressions des Feeling of Thinking et autres émotions… « Quand, où, pourquoi, à qui, qui parle.

22

“turn taking” changement de phase dans la continuité globale de l’interaction :

chaque sujet (humain/virtuel) est audit/locut- locut/audit

QuickTime™ et undécompresseur DV - PAL

sont requis pour visionner cette image.

Page 23: 1 La permanence informationnelle : lauditeur communicant - expressions des Feeling of Thinking et autres émotions… « Quand, où, pourquoi, à qui, qui parle.

23Atelier PIRSTEC - LIMSI - 11 juin 2009

25%, mais la distribution des réponses

n'est pas différente du

hasard

[Vanpé, 07]

Page 24: 1 La permanence informationnelle : lauditeur communicant - expressions des Feeling of Thinking et autres émotions… « Quand, où, pourquoi, à qui, qui parle.

24Atelier PIRSTEC - LIMSI - 11 juin 2009

Statique – condition entier

****

Cf. résultats du test statique : Vanpé & Aubergé, 2006

** Répartition des réponses non significativement différente du hasard, p.0.01 (Khi-2, 8 ddl)

**

Dynamique – conditions bas et haut

Dynamique – conditions bas et entier

Comparaison statique vs. Dynamique pour quelques Comparaison statique vs. Dynamique pour quelques labels intéressants – sujet Slabels intéressants – sujet S

Page 25: 1 La permanence informationnelle : lauditeur communicant - expressions des Feeling of Thinking et autres émotions… « Quand, où, pourquoi, à qui, qui parle.

25Atelier PIRSTEC - LIMSI - 11 juin 2009

7.4%

Page 26: 1 La permanence informationnelle : lauditeur communicant - expressions des Feeling of Thinking et autres émotions… « Quand, où, pourquoi, à qui, qui parle.

26Atelier PIRSTEC - LIMSI - 11 juin 2009 Cf. résultats du test statique : Vanpé & Aubergé, 2006

Comparaison statique vs. Dynamique pour quelques Comparaison statique vs. Dynamique pour quelques labels intéressants – sujet Tlabels intéressants – sujet T

Dynamique – toutes conditions

Dynamique – condition entiervs. Statique – condition haut

Dynamique –condition haut

Statique – condition entier

Statique – condition bas

Page 27: 1 La permanence informationnelle : lauditeur communicant - expressions des Feeling of Thinking et autres émotions… « Quand, où, pourquoi, à qui, qui parle.

27Atelier PIRSTEC - LIMSI - 11 juin 2009

Quels indices, ou leur absence, construisent globalement

un agent générique vs.comportementalisésituation - personnalité - culture

invariants et spécificités

bruit de bouche

grunt

onomatopée

interjection

des(sou)rires

mu

ltim

od

ali

tévoix->parole->langage

« micro-sons »

[Loyau, 07]

[Vanpé, 08]

Page 28: 1 La permanence informationnelle : lauditeur communicant - expressions des Feeling of Thinking et autres émotions… « Quand, où, pourquoi, à qui, qui parle.

28

QuickTime™ et undécompresseur DV - PAL

sont requis pour visionner cette image.

Page 29: 1 La permanence informationnelle : lauditeur communicant - expressions des Feeling of Thinking et autres émotions… « Quand, où, pourquoi, à qui, qui parle.

29Atelier PIRSTEC - LIMSI - 11 juin 2009

QuickTime™ et undécompresseur Cinepak

sont requis pour visionner cette image.

Page 30: 1 La permanence informationnelle : lauditeur communicant - expressions des Feeling of Thinking et autres émotions… « Quand, où, pourquoi, à qui, qui parle.

30Atelier PIRSTEC - LIMSI - 11 juin 2009

QuickTime™ et undécompresseur Cinepak

sont requis pour visionner cette image.

Page 31: 1 La permanence informationnelle : lauditeur communicant - expressions des Feeling of Thinking et autres émotions… « Quand, où, pourquoi, à qui, qui parle.

31Atelier PIRSTEC - LIMSI - 11 juin 2009

QuickTime™ et undécompresseur Cinepak

sont requis pour visionner cette image.

Page 32: 1 La permanence informationnelle : lauditeur communicant - expressions des Feeling of Thinking et autres émotions… « Quand, où, pourquoi, à qui, qui parle.

32Atelier PIRSTEC - LIMSI - 11 juin 2009

que déduire d’un BB sur la dynamique de l’interactionun agent virtuel doit produire/ ne pas produire des BB ? en MM ?

Page 33: 1 La permanence informationnelle : lauditeur communicant - expressions des Feeling of Thinking et autres émotions… « Quand, où, pourquoi, à qui, qui parle.

33Atelier PIRSTEC - LIMSI - 11 juin 2009

Les affects socio-culturels : corps de métier du voix à voix / face à face = langage “temps réel”

French(6 attitudesEnglish

(11 attitudes)

Japanese(12 attitudes)

cultural distance

Grépillat (1996) Morlec (1997) Aubergé (2005)

Diaferia (2002)

Arrogance-Impoliteness

Simple Politeness

Sincerity-Serious

Kyoshuku

Shochi (2004)

Surprise

Doubt

Evidence

Admiration

Seduction

Irritation

Scorn

Authority

Politeness

Mandarin

Swedish

Hungarian

Baba’1

Vietnamese(20 attitudes)

Mac Dang (2008)