Analyse exploratoire d’entrevues de groupe : quand ALCESTE, DTM, LEXICO et SATO se donnent la main

Analyse exploratoire d’entrevues de groupe : quand ALCESTE, DTM,

LEXICO et SATO se donnent la main

François Daoust

Gaëlle Dobrowolski

Monique Dufresne

Claire Gélinas-Chebat

JADT 2006 – Besançon

Analyse exploratoire d’entrevues de groupe : les jeunes français et le tabac

Claire Gélinas-ChebatFrançois Daoust

Monique DufresneKarine Gallopel

Marie- Élaine Lebel

JADT 2004 – Louvain-la-Neuve

OBJECTIFS

• 1 : Montrer comment on peut combiner plusieurs logiciels de lexicométrie (ALCESTE, DTM et LEXICO3) pour valider et compléter une analyse SATO.

• 2 : Mettre à l'épreuve des chaînes de traitement qui font appel à des passerelles de conversion développées dans le contexte du réseau ATONET.

CORPUS

• Entrevues enregistrées de neuf groupes de jeunes rencontrés à Rennes en 2000 (48 jeunes Français)

Corpus Gallopel

• Chacun des 9 groupes comprend 5 à 6 jeunes et un intervenant :

– âgés entre 15 à 25 ans

– fumeurs et non fumeurs – hommes et femmes

Entrevues semi dirigées

• 1 Discussion précédée d’une période de familiarisation avec le tabagisme

• 2 Discussion suite à l’introduction d’une brochure

ANALYSE AVEC SATO

Nature

• Analyse sémantico statistique basée sur une construction itérative d’une grille catégorielle

ANALYSE AVEC SATO

Démarche

Démarche (1)

• Comparaison de lexiques associés à des sous-textes établis selon :

– sexe

– fumeur / non-fumeur

– avant / après message anti-tabac

Démarche (2)

• Indices statistiques simples :

– Distance du Chi2

– Mesure d'écart à la moyenne (score Z)

Démarche (3)L’Algorithme de distance lexicale (basée sur

la distance du Chi2)

- évalue l’écart dans l’utilisation d’un vocabulaire donné entre deux lexiques

- peut être appliqué aux formes lexicales ou aux valeurs de propriétés

catégorielles

Approche dichotomique de comparaison de sous-textes via les lexiques respectifs

Démarche (4)

L’Algorithme de participation calcule les moyennes normalisées d’un ensemble de formes lexicales qui peuvent être définies par les propriétés catégorielles

ANALYSE AVEC SATO

Étapes

Étapes (1)

Va et vient entre les données lexicales brutes et leurs contextes d’utilisation (Kwic)

- Approche univariée : saisir la spécificité de la stratification induite par chacune des variables sociologiques

- Approche multivariée : tenir compte de l’interaction de ces variables

Étapes (2)

• Émergence d'une grille catégorielle sémantique :– apparence, arrêt, négation, concret,

danger, dépendance, soc-je*, maladie, mort, plaisir, …

– soc-ami, soc-famille, soc-gens, soc-jeune, liberté, envie, conscience, volonté, …

*(Le préfixe soc- renvoie à un ensemble de catégories

référant aux rapports sociaux identifiés par les jeunes.)

ANALYSE AVEC SATO

Résultats

Résultats (1)

Analyse de distance sur les formes lexicales brutes avant\après l’introduction de la

brochure

*Fréqtot A B explique cumul

0,07 0,14 0,02 0,44 0,44 clair *0,23 0,38 0,18 0,40 0,84 aussi *0,05 0,11 0,02 0,31 1,15 plaisir *0,06 0,11 0,02 0,31 1,46 dépendance *0,02 0,00 0,05 0,28 1,75 témoignage0,09 0,04 0,15 0,28 2,02 "0,01 0,03 0,00 0,26 2,28 3ème *0,02 0,05 0,00 0,25 2,54 doigts *0,06 0,01 0,09 0,24 2,78 risques0,02 0,05 0,00 0,24 3,02 primaire *0,37 0,45 0,25 0,24 3,25 ils *0,59 0,62 0,87 0,23 3,49 j'0,03 0,01 0,06 0,23 3,72 concret0,01 0,00 0,04 0,23 3,95 cinq0,09 0,13 0,04 0,22 4,17 santé *

Résultats (2)

Analyse de distance sur les formes de la catégorie sujet avant\après l’introduction de

la brochure

*Fréqtot A B explique cumul

0,21 0,43 0,11 31,23 31,23 apparence *0,09 0,02 0,16 13,85 45,08 Concret0,08 0,14 0,05 6,75 51,83 plaisir *0,13 0,21 0,10 6,63 58,46 dépendance *0,14 0,19 0,08 5,64 64,10 santé *0,11 0,17 0,08 5,39 69,49 éducation *0,18 0,11 0,22 5,12 74,61 Volonté0,10 0,08 0,17 4,75 79,36 Mort1,95 2,19 1,82 4,53 83,89 tabac *0,05 0,10 0,05 3,26 87,15 soc-ami *0,17 0,25 0,16 3,12 90,27 coûts *0,32 0,28 0,40 2,81 93,09 Maladie0,75 0,59 0,72 1,44 94,53 Publicité0,21 0,26 0,20 1,37 95,90 soc-famille *0,11 0,14 0,11 0,84 96,74 drogue *

Résultats (3)Analyse de distance avant\après pour les fumeurs

et les non-fumeurs (tableau III)

Fréqtot Afu Bfu explique cumul Fréqtot Afn Bfn explique cumul0,21 0,47 0,11 32,55 32,55 apparence * 0,75 0,42 0,99 15,22 15,22 publicité0,09 0,03 0,19 18,05 50,60 concret 0,21 0,38 0,10 12,52 27,74 apparence *0,11 0,20 0,06 10,15 60,75 éducation * 0,05 0,14 0,02 10,64 38,38 soc-ami *0,13 0,20 0,08 6,26 67,01 dépendance * 0,17 0,37 0,15 9,73 48,11 coûts *0,18 0,07 0,21 5,79 72,79 volonté 0,14 0,20 0,03 8,21 56,32 santé *0,08 0,15 0,06 4,85 77,64 plaisir * 0,32 0,29 0,54 6,94 63,26 maladie0,48 0,35 0,53 3,96 81,60 fumeur 0,10 0,06 0,19 5,96 69,22 mort0,17 0,15 0,25 3,77 85,37 envie 0,08 0,14 0,04 4,51 73,72 plaisir *0,75 0,71 0,51 2,70 88,07 publicité * 1,95 2,32 1,82 4,38 78,11 tabac *1,95 2,09 1,81 2,23 90,30 tabac * 0,09 0,01 0,11 4,01 82,11 concret0,21 0,28 0,20 1,79 92,08 soc-famille * 0,48 0,57 0,34 4,00 86,12 fumeur *0,10 0,09 0,15 1,74 93,83 mort 0,13 0,24 0,13 3,15 89,27 dépendance *0,14 0,18 0,12 1,60 95,43 santé * 0,11 0,19 0,11 2,32 91,59 drogue *0,22 0,18 0,12 0,99 96,42 début * 0,20 0,20 0,13 1,09 92,68 liberté *0,63 0,57 0,67 0,98 97,41 arrêt 0,05 0,08 0,04 1,05 93,73 nicotine *2,14 2,74 2,93 0,91 98,32 soc-je 2,14 2,25 2,01 0,93 94,66 soc-je *

Comparaison « avant – après » pour les fumeurs Mode propriété objet

Comparaison « avant – après » pour les non-fumeurs Mode propriété objet

Résultats (4)

Analyseur PARTICIPATION (sujet = apparence)Propriété Couverture Lexèmes Occurrences Cote Z

Fréqtot 78703/78703 (100.00%) 37/3985 (0.93%) 168/78703 (0.21%) 0.00A 23544/78703 (29.91%) 30/2087 (1.44%) 101/23544 (0.43%) 7.17B 28074/78703 (35.67%) 18/2351 (0.77%) 30/28074 (0.11%) -3.87Afu 13758/78703 (17.48%) 24/1580 (1.52%) 64/13758 (0.47%) 6.40Bfu 15923/78703 (20.23%) 13/1749 (0.74%) 18/15923 (0.11%) -2.75Anf 9786/78703 (12.43%) 19/1240 (1.53%) 37/9786 (0.38%) 3.53Bnf 11898/78703 (15.12%) 8/1425 (0.56%) 12/11898 (0.10%) -2.66Aho 14468/78703 (18.38%) 16/163 (4 0.98%) 44/14468 (0.30%) 2.36Bho 16010/78703 (20.34%) 11/1797 (0.61%) 19/16010 (0.12%) -2.60Afe 9076/78703 (11.53%) 24/1153 (2.08%) 57/9076 (0.63%) 8.56Bfe 11811/78703 (15.01%) 9/1379 (0.65%) 11/11811 (0.09%) -2.83

Résultats (5)

Analyseur PARTICIPATION (sujet = mort)

Propriété Couverture Lexèmes Occurrences Cote ZFréqtot 78703/78703 (100.00%) 9/3985 (0.23%) 80/78703 (0.10%) 0.00A 23544/78703 (29.91%) 4/2087 (0.19%) 19/235440 (0.8%) -1.01B 28074/7870335 (67%) 6/2351 (0.26%) 47/28074 (0.17%) 3.46Afu 13758/78703 (17.48%) 4/1580 (0.25%) 13/13758 (0.09%) -0.26Bfu 15923/78703 (20.23%) 6/17490.(34%) 24/15923 (0.15%) 1.94Anf 9786/7870312.(43%) 2/1240 (0.16%) 6/9786 (0.06%) -1.25Bnf 11898/78703 (15.12%) 3/1425 (0.21%) 23/11898 (0.19%) 3.14Aho 14468/78703 (18.38%) 4/1634 (0.24%) 8/14468 (0.06%) -1.75Bho 16010/78703 (20.34%) 4/1797 (0.22 %) 21/16010 (0.13%) 1.17Afe 9076/78703 (11.53%) 2/1153 (0.17%) 11/9076 (0.12%) 0.58Bfe 11811/78703 (15.01%) 5/1379 (0.36%) 26/1181 (0.22%) 4.04

ANALYSES AVEC SATO

Conclusions

Conclusions (1)

• Construction d'une grille

catégorielle transparente et respectueuse de la spécificité du contexte d'énonciation.

Conclusions (2)

• Démarche itérative combinant :– une approche inductive (qualitative) – une utilisation d'outils simples de

statistique lexicale– une approche plus sensible à la

pragmatique textuelle.

Conclusions (3)

• Production de données qualifiées (catégories) qui traduisent la démarche interprétative de l’analyste

VALIDATION

• Validation de notre démarche et de nos résultats par divers logiciels de statistique textuelle :

– ALCESTE (Reinert)

– LEXICO 3 (Salem)

– DTM (Lebart)

Chaîne de traitement (1)

Format initial des données : balises SATO (propriétés)– identification du locuteur et des

caractéristiques sociologiques

– identification des sections pré ou post «brochure».

*page=gallo02/11

*pub=brochure *locuteur=s36

*fumeur=non *sexe=h Bah, la brochure là, elle nous présente ce qui nous attend si on fume. Mais c ’est très… quoi, moi j ’ai lu ça, mais je ne sais pas je ne suis pas fumeur, donc je ne ressens peut-être pas ça de la même façon..

• Exportation par SATO en XML-TEI de diverses éditions du corpus

• Conversion de la version TEI vers les formats propriétaires ALCESTE, LEXICO et DTM

ANALYSE AVEC

ALCESTE

ALCESTE (1)

• méthode complètement automatique qui vise à faire émerger des mondes lexicaux

• s'appuie sur des régularités statistiques pour faire émerger la structure du discours à partir des énoncés(Avec SATO, nous étions partis d'hypothèses structurantes du discours pour faire parler les données)

ALCESTE (2)

•Résultats corpus Initial* : deux classes– Classe 1 (1/3 des UCE) :

• surtout les interventions exprimées après l'exposition au message antitabac (Chi2=33.82).

• plus faiblement une présence significative des UCE des non-fumeurs

*(transcription des entrevues dans leur découpage original en interventions; sont exclues les interventions des intervenants)

ALCESTE (3)

– Classe 2 (2/3 des UCE) : • surtout des interventions précédant la

présentation du message antitabac (Chi2=33.82)

• aussi, mais plus faiblement, une présence significative des UCE des fumeurs (Chi2=8.81)

ALCESTE (4)Formes représentatives de la classe n°1

Chi2 u.c.e. dans la classeFormes réduites100.00 51 cancer+ 93.85 38 image+ 83.51 31 choc+ 82.20 38 poumon+ 81.60 35 choqu+er 73.64 42 preventi+f 61.71 23 routier+ 53.58 20 temoign+23 53.47 107 voir. 50.88 19 tele 49.69 39 pub+ 46.79 22 femme+ 45.39 24 mort+ 42.83 23 mourir. 42.16 46 tabac+

Formes représentatives de la classe n°2Chi2 u.c.e. dans la classeFormes réduites102.21 446 fum+er 68.65 233 arret+er 28.50 95 commenc+er 28.44 170 fum+eur 22.54 64 essa+yer 21.46 87 envi+e 20.22 69 arrete+ 19.36 108 cigarette+ 17.11 61 paquet+ 16.34 64 volonte+ 16.04 68 prendre.

ALCESTE (5)

• CONCLUSIONS :– ALCESTE confirme que la variable

avant/après le message antitabac représente le premier élément de structuration du corpus, ce qui constitue pour nous le résultat le plus significatif.

– ALCESTE relève la présence de l’opposition fumeur/non-fumeur, deuxième variable prise en compte dans l'analyse SATO.

ALCESTE (6)

– ALCESTE a donc retrouvé ce que nous avions observé lors de la comparaison de lexiques construits sur la base d’un découpage global du corpus.

– Ce point de rencontre entre les approches ascendantes et descendantes est un outil important de validation de l’interprétation.

ANALYSE AVEC

LEXICO O

LEXICO (1)

• LEXICO : – calcule les spécificités

lexicométriques de parties d'un corpus d'après un modèle probabiliste basé sur la loi hypergéométrique (cf. Lebart, Salem 1994)

– rend possibles des analyses factorielles de correspondances (AFC) sur un corpus partitionné

LEXICO (2)

• Première approche :

– Analyse du corpus Participant* : découpage du corpus selon le profil des répondants

* ensemble des interventions de chaque participant identifié par un nom résumant son profil et suffixé par a ou b pour identifier le discours du participant avant et après le message antitabac; Élimination des participants dont le profil sociologique est incomplet

Corpus Participant : individus sur le plan des 2 premiers axes de l'AFC

LEXICO (4)

• Deuxième approche : – calcul des spécificités reportées sur la

sortie de l'analyseur DISTANCE de SATO appliqué au lexique avant et après la brochure.

LEXICO (5)Comparaison entre les spécificités et la distance du Chi2

Fréqtot avant après explique cumul 0.08 0.15 0.03 0.55 0.55 clair * (lexico 6) 0.05 0.00 0.09 0.50 1.05 brochure 0.25 0.37 0.17 0.49 1.54 aussi * (lexico 6) 0.46 0.60 0.36 0.40 1.94 t' * (lexico 5) 0.07 0.12 0.03 0.39 2.33 santé * (lexico 5) 0.77 0.95 0.64 0.39 2.72 ouais * (lexico 3) 0.02 0.04 0.00 0.32 3.03 appelle * (lexico 4) 0.05 0.01 0.09 0.31 3.35 risques (lexico -5) 0.06 0.10 0.03 0.31 3.66 dépendance * (lexico 5) 0.06 0.10 0.03 0.31 3.96 plaisir * (lexico 5) 1.65 1.88 1.49 0.30 4.26 je * (lexico 3) 0.02 0.05 0.00 0.28 4.54 doigts * (lexico 4) 0.01 0.03 0.00 0.26 4.80 odeur * (lexico 4) 0.16 0.09 0.21 0.25 5.05 elle (lexico -5) 0.11 0.06 0.15 0.24 5.30 beaucoup (lexico -3) 0.03 0.00 0.05 0.24 5.53 lire (lexico -4) 0.13 0.18 0.09 0.23 5.76 toi * (lexico 4) 0.01 0.03 0.00 0.23 5.99 3ème * (lexico 3) 0.03 0.00 0.04 0.23 6.22 témoignage 0.05 0.09 0.03 0.22 6.44 grave * (lexico 3) 0.42 0.32 0.49 0.22 6.66 ! 0.26 0.33 0.20 0.22 6.88 ben * (lexico 3) 0.08 0.04 0.11 0.21 7.09 " 0.61 0.49 0.69 0.21 7.30 - 0.44 0.34 0.51 0.21 7.50 peut (lexico -3) 0.02 0.03 0.00 0.20 7.70 caractère * (lexico 3)

LEXICO (6)

• Conclusion :– Très large recouvrement entre les formes

lexicales qui contribuent le plus à la distance et les spécificités calculées par LEXICO :

• parmi les mots manquants, il y a les ponctuations qui, apparemment, ne sont pas prises en compte par LEXICO, de même que les formes absentes dans le corpus Avant

• la mesure de spécificité de LEXICO fournit un bon complément à la DISTANCE du Chi2 par l'ajout d'un seuil statistique

ANALYSE AVEC DTM

DTM (1)

• DTM :– Outil dédié à l’analyse exploratoire de

données numériques multivariées et de données textuelles (par exemple un sondage avec questions ouvertes et fermées)

– Comptage des mots du texte brut produisant des variables représentant le nombre d’occurrences du mot

DTM (2)

• Expérimentation # 1 :– Analyse du corpus Participant : le corpus

est vu comme un ensemble de 87 individus.

• Le profil sociologique est enregistré comme autant de réponses catégorielles à des questions fermées : pub (nil, brochure), sexe (homme, femme) et fumeur (non, oui).

• Les interventions avant et après le message antitabac donnent lieu à deux questionnaires distincts.

• L'ensemble des interventions d'un individu pour chaque questionnaire constitue la réponse à une question ouverte unique.

Corpus Participant : variables catégorielles sur le plan des 2 premiers axes de l'AFC

DTM (4)

• Confirmation de l'influence du message antitabac et des variables catégorielles sur la structure du discours

DTM (5)

• Expérimentation # 2 :– Production d'un corpus artificiel

(Participant catégorisé) par substitution des catégories aux unités lexicales catégorisées

DTM (6)

– Calcul de l'AFC en croisant :•les 87 participants avec 702 variables

textuelles, soit les formes lexicales non catégorisées et catégorisées sémantiquement (propriété thème).

Cette substitution recouvre 12,26 % des occurrences.

Corpus Participant catégorisé: variables catégorielles sur le plan des 2 premiers axes de l'AFC

DTM (8)

• La projection des variables sociologiques sur le plan factoriel suit le même jeu d'oppositions

DTM (9)

• Expérimentation # 3 :

– Production d'un autre corpus artificiel (Participant réduit) par substitution des catégories à toutes les unités lexicales

DTM (10)– Calcul de l'AFC en croisant :

•les 87 participants avec 29 variables textuelles, soit l’ensemble des occurrences du corpus Initial

Les 28 catégories utiles représentent un peu plus de 12% des occurrences.

Corpus Participant réduit : variables catégorielles et lexique sur le plan des 2 premiers axes de l'AFC

DTM (12)

• Visualisation simultanée du lexique des catégories et les modalités des questions fermées: – répartition aux quatre points

cardinaux des catégories les plus excentriques : apparence, dépendance, coûts, éducation, mort et soc-ami

– concentration des catégories banales (qui constituent les référents communs du discours) au centre du plan

DTM (13)

• Outil de validation de la construction de la grille de catégories lexicales

• La visualisation des catégories sémantiques dans le plan factoriel ouvre aussi de nouvelles fenêtres d'investigation pour revenir aux contextes et affiner la grille si nécessaire

CONCLUSIONS

• Cette première utilisation combinée de logiciels d'analyse textuelle a été grandement facilitée par les protocoles d'échange de données réalisées par le réseau ATONET.

• Il est possible de créer de multiples chaînes de traitement qui permettent de reconfigurer les données et de faire appel aux points forts de chaque logiciel.

• Par la combinaison des méthodes d'analyse :– plus grande fiabilité des conclusions en

fournissant des moyens de corroborer ou d'infirmer des hypothèses et des conclusions

– aller au-delà des impressions et des commentaires descriptifs pour produire des représentations de discours sociaux susceptibles d'agir comme modèles

Merci de votre attention.

Analyse exploratoire d’entrevues de groupe : quand ALCESTE, DTM, LEXICO et SATO se donnent la main

Documents

Transcript of Analyse exploratoire d’entrevues de groupe : quand ALCESTE, DTM, LEXICO et SATO se donnent la main

Thème : LES CHOIX LEXICO - SEMANTIQUES, DANS …troisième partie, qui pratique et analyse ces théories de la traduction du Coran. L’enchaînement logique qui lie les trois chapitres,

guide des meilleures pratiques 2016 - AXTRA€¦ · 2016 . Projet IntégraTIon Québec - Guide des meilleures pratiques d’embauche, d’accueil ... d’entrevues, lecture des CV

Jpmathieu@audencia.com1 RECHERCHE EXPLORATOIRE PAR LANALYSE TEXTUELLE ALCESTE: Point de vue dun utilisateur.

Loïc Corbery (Alceste) et Georgia Scalliet (Célimène ... · Critique de l’École des femmes au Studio-Théâtre ... portée aux nues par la critique qui y voit ... Les photos

THOMAS - Lexico Paisaje - RPh 2006

PopusoiCarolina - 15MaiBT · la forte influence de l’idiome russe sur la structure lexico‐grammaticale du roumain de cette région géographique. Le bilinguisme institutionnalisé

Variation normative et normalisation de la variation … · manifestations de la variation linguistique seront examinées dans notre corpus aux niveaux phonétique, lexico-sémantique

La construction de sens à partir d’entrevues : le cas des ......bloc soviétique vers l’Argentine. Ce processus est lié au Programme de Migration Sélective mis en place dans

1 Analyse exploratoire dentrevues de groupe : quand ALCESTE, DTM, LEXICO et SATO se donnent la main François Daoust Gaëlle Dobrowolski Monique Dufresne.

suicide SUICIDES ILLUSTRES - Psycha Analyse · 2012. 9. 28. · dans la lutte contre la mort, il ramènera la reine à son époux (Euripide, Alceste). Platon* met dans la bouche de

Sempé / Goscinny Il petit d LE PETIT NICOLASfast24.ir/images/foot/1704.pdf · Mais lorsqu'il s'agit du petit Nicolas et de ses copains : Alceste, Eudes, Maixent, Agnan, Clotaire,

ALCESTE - WordPress.com

QUESTION REPONSE Durant quel conflit se déroule l'action ...s.tf1.fr/mmdia/a/39/2/3496392cjvpi.pdf · De quelle pièce de Molière Alceste et Célimène sont-ils les protagonistes

Thème : LES CHOIX LEXICO - SEMANTIQUES, DANS LA …theses.univ-oran1.dz/document/TH2506.pdf · sur la traduction du Coran, en l’occurrence la traduction de Jacques Berque, qui

Sommaire - Opéra de Lille · 2013-03-19 · D’autres œuvres suivront : Alceste , Thésée , Atys, Isis, Bellérophon (avec Thomas Corneille et Fontenelle), Proserpine , le Triomphe

Analyse lexico-sémantique et portée stylistique des ...

IRaMuTeQ : implémentation de la méthode ALCESTE …

SYLED - CLA2Tlexi-co.com/ressources/manuel-3.41.pdf · 2016. 4. 7. · L'originalité principale de la série Lexico est qu'elle permet à l'utilisateur de garder la maîtrise sur

ENTRE LEXIQUE ET GRAMMAIRE : LES …lidifra.free.fr/files/cahiers de lexico gosselin.pdf · Dans le cadre de la théorie de la grammaticalisation, on explique cette situation en postulant

Une seule lettre comme porteuse du sens - GUPEA: … · Une étude lexico-sémantique sur La Disparition de Georges Perec et sa traduction suédoise par Sture Pyk Kim Gustafsson Kandidatuppsats