20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS...

90
Bénédicte Garnier Institut National d’Etudes Démographiques (INED), F-75020 Paris, France Sciences Po, Salle Percheron 98 rue de l’Université, 75007 Paris

Transcript of 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS...

Page 1: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

Bénédicte GarnierInstitut National d’Etudes Démographiques (INED), F-75020 Paris, France

Sciences Po, Salle Percheron98 rue de l’Université, 75007 Paris

Page 2: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

• Introduction• Données• Méthodes• Outils• Conclusion

Plan de la présentation

MetSem#12 - B. Garnier

Page 3: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

• Retour d’expérience→Chercheurs (de l’Ined) pour analyser des réponses

à des questions ouvertes ou des entretiens →Statisticiens, étudiants, chargés d’études,

informaticiens

• Ce qui change, ce qui ne change pas• Nouveaux utilisateurs ? Nouveau public ? • Ré analyse de matériau qualitatif

Introduction

MetSem#12 - B. Garnier

Page 4: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

Un état des lieux

Ouvrages, pièces de théâtre, poèmes,

discours politiques

Questions ouvertes dans des enquêtes

Entretiens/focus group

Open data

Flux RSSBlogs/forum

1965 1980 1990 2000

data.gouv.fr

2010

package R tm

2018

FORTRAN SpadTAlcesteLexico

Hyperbase

TXM IraMuTeQR.TeMiS

Textes de lois

package R Xplortext

WEB

Transformation digitaleDonnées massives

Lexicométrie, analyses factorielles, classifications

quanti&quali Data vizualisation

Inventaire critique de J Jenny (1997)

MetSem#12 - B. Garnier

Page 5: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

Parution 2018

- Ouvrage de M. Bécue-Bertaut (préface de L. Lebart)Méthodes et scripts R

- Package R Xplortext(version 1.1.1) (23th January 2018)Statistical Analysis of Textual Data

par M. Bécue-Bertaut, R. Alvarez-Esteban, J.-A. Sánchez-Espigares

MetSem#12 - B. Garnier

Page 6: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

MetSem#12 - B. Garnier

Page 7: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

• Introduction• Données• Méthodes• Outils• Conclusion

Plan de la présentation

MetSem#12 - B. Garnier

Page 8: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

Réponses à une question ouverte

Cette question vient après la 1ere partie du questionnaire où l’on a pas parlé de l’environnement

Données (1)

MetSem#12 - B. Garnier

Page 9: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

Exemples de réponses à la question “Si je vous dis Environnement, qu’est ce que cela évoque pour vous?”

4700 enquêtés4596 réponses à la question ouverte

6,4 mots cités en moyenne par réponse102 738 occurrences de mots

6 447 mots distincts

MetSem#12 - B. Garnier

Page 10: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

Identifier des univers lexicaux

Exemple de plan factoriel (1-3) issu d’une analyse des correspondances

sur le Tableau Lexical Entier

Enquête Populations-Espaces de vie-Environnements (Ined, 1992)MetSem#12 - B. Garnier

Composantes de la nature

Lieu

de

vie

Vision égo centrée

Page 11: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

Collomb Ph., Guérin-Pace F. 1998. Les contours du mot « environnement » : enseignements de la statistique textuelle Espace Géographique, L’espace géographique, 41 (1), p. 41-52 (1)

MetSem#12 - B. Garnier

Page 12: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

(7e PCRD )

Enquête sur la vision de l’Europe dans le monde

En complément à l’interprétation d’une question en cartographie “Draw your limit of Europe”

Mots associés

Données (2)

MetSem#12 - B. Garnier

Page 13: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

9340 étudiants enquêtés dans 18 pays et 43 villes

• France, Belgique, Portugal, Roumanie, Hongrie, Malte Suède

• Moldavie, Russie, Turquie, Tunisie• Cameroun, Chine, Inde, Brésil,

Azebaïdjan, Egypte

EuroBroadMap, WP2 Report, C. Didelon CNRS, France

Etudiants en SHS, santé, commerce, artSc. politiques, de l’ingénieur

MetSem#12 - B. Garnier

Stratifié par pays et domaine d’étude

Page 14: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

Extrait des réponses à la question Quels sont les mots que vous associés le plus à « Europe » (Choisisez 5 mots au maximum)

8443 étudiants sur les 9343 interrogés ont cité au moins un mot40 873 mots - 4 977 mots distincts MetSem#12 - B. Garnier

Page 15: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

Motscaractéristiques

Pourcentageinterne

Pourcentageglobal

Fréquenceinterne

Fréquenceglobale

Valeur-Test

exchanges 1.31 0.09 31 34 12.118union 7.42 3.15 175 1160 10.573trade 1.27 0.17 30 62 9.030space 0.81 0.08 19 28 8.249euro 3.90 1.66 92 611 7.550common 0.97 0.15 23 55 7.369power 2.97 1.18 70 434 7.026free 1.27 0.28 30 103 7.013continent 2.67 1.05 63 387 6.714Schengen 0.81 0.13 19 46 6.636currency 0.81 0.13 19 46 6.636inequality 0.76 0.11 18 42 6.564diversity 2.16 0.78 51 287 6.522community 1.31 0.34 31 125 6.470borders 0.76 0.13 18 46 6.287identity 0.55 0.06 13 23 6.264sharing 0.47 0.04 11 16 6.226

Vocabulaire spécifique des étudiants interrogés en France(Spad)

(EuroBroadMap, 2009)Brennetot A., Emsellem K., Guérin-Pace F., Garnier B. 2013. Dire l’Europe à travers le monde.Les mots des étudiants dans l’enquête EuroBroadMap, Cybergeo

(Spad)

MetSem#12 - B. Garnier

Page 16: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

Plan 1-2(Spad)

(Spad)

(EuroBroadMap, 2009)

Azerbaidjan, Egypte, Suède en supplémentaire

MetSem#12 - B. Garnier

AFC sur le Tableau lexical croisant les mots et les modalités de la variable pays

Page 17: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

MetSem#12 - B. Garnier

Plan 3-4

(Spad) (EuroBroadMap, 2009)

Page 18: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

Retour au texte : les concordances(Spad)

MetSem#12 - B. Garnier

Page 19: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

Re-interrogation qualitative ciblée (Bonvalet, et al.). • Pour écouter les personnes parler de leur

parcours familial, résidentiel et professionnel • Appréhender la diversité et l’étendue des modes

de fonctionnement des réseaux de parenté• Apporte des éléments sur la composition du

réseau familial et amical et ses ressources• Question posée : Vous avez répondu précédemment

au questionnaire « Proches et Parents », aujourd’hui ce que nous voudrions retracer avec vous est l’histoire de votre vie, de votre parcours, notamment à travers les lieux où vous avez habité, et que vous avez fréquentés. Si vous voulez, on peut commencer par l’endroit où vous êtes nés

Caractéristiques d’ordre démographique ou sociologique caractérisant chaque interviewé (réponses au questionnaire)

Entretiens de l’enquête Proches et Parents (Ined, 1990)

19

Récits de vie

80 entretiens de 60 pages chacun (approximativement)

Données (3)

MetSem#12 - B. Garnier

Page 20: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

Bonvalet C., Maison D., Ortalda L. 1999. La place des univers familiaux, résidentiels et professionnels dans la stucture du discours : analyse textuelle des entretiens de « Proches et parents » in Bonvalet C., GotmanA., Grafmeyer Y., Bertaux-Wiame I., Le Bras H., Maison D., La famille et ses proches : l'aménagement des territoires, Travaux et documents N°143, Ined, p. 205-237

20

Dendrogramme issu de la classification Alceste

Objectif de : Mettre en évidence de

grands axes d’interprétations qui peuvent être ensuite

précisés par une analyse de contenu

classiqueMetSem#12 - B. Garnier

Page 21: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

Aide à l’interprétation : spécificités des classesClasse 1 : Agenda famille/amis

Vocabulaire spécifiqueWeek-end (108), vacances (67) dimanche (58), samedi (53), matin (53),régulier (29), manger (29), retrouver (25) après-midi (24), cinéma (18), sport(17), soir (17), repas (17), promener (18), télé (14), visiter (12), vélo (8)…Réponses spécifiques4022 - Autrement non, dimanche j'ai vu ma sœur mais elle était toute seule,autrement j'ai ma sœur Martine qui vient à peu près tous les deux jours ouautrement c’est moi qui vais là-bas. Oui, on se voit souvent quand-même.Oui, elle et puis ma sœur Josée, elle en général, pas cette semaine, mais lasemaine prochaine, en général une semaine sur deux je la vois tous les midi, ilreste le samedi et le dimanche ….4015 - Trois fois ça dépend de ce que j’ai à faire, deux ou trois fois parsemaine, en général je monte le mardi, le jeudi et le samedi. Autrement onse téléphone, c’est plus pratique ….Caractéristiques des répondantsJeunes adultes, urbains, parisiens, célibataires

MetSem#12 - B. Garnier

Page 22: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

Classe 3 : Logement patrimoine

Vocabulaire spécifiqueacheter (221), payer (134), propriétaires (110), argent (91), locataires (62), prix (59), investir (46), revendre (32), …Réponses spécifiques5569 – Donc ça fait des remboursements à, chaque prêt il y a des mensualités fixes, ça faisait pas des remboursements fixes de durée,j e en sais pas si on avait trois prêts, si c’était modulable, il me semble qu’on avait, enfin peu importe, le problème n’est pas là quoi. T’avais un tarif au départ, un autre au milieu ……1779–A partir du moment où le studio est loué, enfin les gens à qui nous les avons achetés, on payait 20, c’est-à-dire l’enregistrement et une petite partie du montant de l’appartement et 80% étaient en crédit intégral, ce qui a fait que le montant des loyers paye les remboursements. …..942 – Acheter pour revendre, pour racheter. C’était pas évident, et puis après il s’est senti trop vieux pour acheter et puis voilà quoi ! ……..Caractéristiques des répondantsAccédant à la propriété, plus de 50ans, employés, maison individuelle

MetSem#12 - B. Garnier

Page 23: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

Annonces tirées d’un site de rencontre en ligne

• Corpus meetic : Web Scrapping des profils M. Bergström, M. Bouchet-Valathttp://methodes-et-logiciels.sfds.asso.fr/wp-content/uploads/2017/10/SFdS-2017-R.TeMiS_.pdf

Données (4)

MetSem#12 - B. Garnier

Page 24: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

R.TeMiS Corpus Meetic

Vocabulaire spécifique des femmes/des hommes

MetSem#12 - B. Garnier

Page 25: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

Autres corpus traités

• M. de Saint Léger, Comment ont évolué les thématiques des 99 premiers numéros de BMS ?, Bulletin de méthodologie sociologique, 100 | 2008, 16-33.

• V. Beaudouin, Rythme et rime de l’alexandrin classique - Étude empirique des 80 000 vers du théâtre de Corneille et Racine, 2000, (Thèse)

• V. Beaudouin, Les corpus web et l’approche textométrique in Séminaire CEDITEC, 2014

• M. Becue-Bertaut, 2018 Scénario du film Casablanca, in analyse textuelle avec R

• P. Marchand, P. Ratinaud, in colloque "Comprendre les mondes sociaux 2014", Analyse lexicométrique tweets sur le #mariagepourtous, Labex Structuration des Mondes Sociaux, Toulouse, 2014 MetSem#12 - B. Garnier

Page 26: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

• https://www.data.gouv.fr/fr/• http://www.theses.fr/

→ les thèses en préparation (depuis 10 ans au maximum) : toutes disciplines et tous types d'établissements

→ les thèses soutenues depuis 1985

• …….

Et Données en lignes

MetSem#12 - B. Garnier

Page 27: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

Et toujours plus de sources de données

• Journée Variété des données SHS

• Séminaire de recherche Médialab

Animé Par l’ ICIJ (International Consortium of InvestigativeJournalists)Vers un réseau mondial de journalistes d’investigation //06/03 DataShare est une platforme open source qui permettra aux journalistes —et à terme aux autres enquêteurs travaillant pour l’intérêt général— d’indexer et partager les informations contenues dans leurs documents, accéder à des opportunités d’articles et collaborer au delà des frontières.

D’un DataSprint à un CorpusMarathon //20/03analyser les données textuelles politiques pour comprendre les idéologies politiques et leur circulation

MetSem#12 - B. Garnier

Page 28: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

Les données – Les corpus

• Justifier la méthodologie (qui répond à la problématique et au choix des données)

• Questionner, contextualiser (disponibilités/droits, sources)

• Collecter Corpus (variable textuelle) et métadonnées (variables qualitatives)

Opérations de transformation ou « nettoyage » • Encodage• Orthographe• Seuil (fréquences, nombre de lettres)• Découpage (balises) en cas de textes longs

MetSem#12 - B. Garnier

Page 29: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

• Introduction• Données• Méthodes• Outils• Conclusion

Plan de la présentation

MetSem#12 - B. Garnier

Page 30: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

Réflexion sur les logiciels d'analyse de matériau qualitatif (Ch. Lejeune, Université de Liège)

SONAL, NViVo, Atlas.ti ….

R.TeMiS, Spad ….

IrAMuTeq, Alceste ….

Cassandre, Tropes, Prospero, ….

Lejeune, Ch. 2014, Manuel d'analyse qualitative. Analyser sans compter ni classer, Louvain-La-Neuve: De Boeck

MetSem#12 - B. Garnier

Page 31: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

Outils réflexifs : les CAQDAS (Computer Assisted Qualitative Data Analysis Software)

Pour organiser ses données et faire des analyses qualitatives : post coder à partir de thèmes prédéfinis ou définis au fur et à mesure de la (des) lectures des corpus. Fenêtre d’annotation, comparable à un traitement de texte • pour surligner en couleur des passages et y attacher une

annotation (->collection) • permet de repérer des parties thématiques pour faire des

extractions sélectives

!outils d’assistance à la création de catégories (analyse) mais sans automatisation

Analyse de contenu : le chercheur définit les catégories et code (marque) le texte

MetSem#12 - B. Garnier

Page 32: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

Deux grandes familles d’applicationde la statistique textuelle

• Comparaison de textes sur la base d’une étude quantitative du vocabulaire = s’intéresser à la forme des textes en faisant abstraction de leur contenuEx : Attributions d’écrits historiques ou littéraires à un auteur, comparaison et évolution du style de différents auteurs, etc.

• Faire émerger le contenu de textes, de leur sens au-delà de leur forme Ex : Traitement des réponses à des questions ouvertes, analyse d’entretiens, interviews, discours, trajectoires, etc.

MetSem#12 - B. Garnier

Page 33: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

Statistique textuelle et Text Mining

Aujourd’hui on dispose d’un volume énorme de données sous formes de textes dont on a besoin d’extraire des connaissances ! Fouilles de texte • Reconnaître les mots, les phrases, leurs rôles grammaticaux • Sélectionner un texte/phrase type représentant ces textes• Trouver une structure

Text Mining : lexicométrie et méthodes de Data Mining (dont la statistique textuelle) (Tufféry)Web Mining : application du data mining aux données issues du web (corpus, internautes, flux)

MetSem#12 - B. Garnier

Page 34: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

Analyse lexicale : étude des distributions lexicales • Amélioration de la transcription sténographique (Estoup, 1916)• Psychobiologie du langage (Zipf, 1935)

Statistique lexicale (Yule, 1944, Guiraud 1954, Muller, 1964)• Étude comparative du vocabulaire des grands auteurs (étendue,

style, évolution, comparaison, etc.) Linguistique statistique (Herdan, 1964)

• Description statistique du fonctionnement des unités définies par le linguiste dans un ensemble de textes

Analyse des correspondances (Escofier, Benzécri, 1965) • Relations de transition reliant les points-lignes aux points-

colonnes surtout permettant une interprétation simultanée des représentations des lignes et des colonnes d’un tableau

Etapes de développement

MetSem#12 - B. Garnier

Page 35: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

• Dans les années 80, rencontre de plusieurs disciplines et domaines de recherche : la linguistique, l’analyse du discours, la statistique, l’informatique et le traitement des questions ouvertes dans les enquêtes

• Traitement « automatique » de données textuelles facilité par les nouvelles possibilités de calcul des ordinateurs qui ont permis d’appliquer les méthodes statistiques multidimensionnelles à des textes

Historique de la statistique textuelle

MetSem#12 - B. Garnier

Page 36: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

Jean-Paul Benzécri

MetSem#12 - B. Garnier

Page 37: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

Organiser les données (ici dans un tableau)

(corpus EuroBroadMap)

MetSem#12 - B. Garnier

Ici les 9340 réponses des étudiants

Page 38: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

Du texte au tableau : numérisation du corpus

Adresse des formes graphiques Réponse

221 15 (euro)

27 (european)

2 (union)

222 17 (france)

18 (germany)

40 (italy)

8 (belgium)

9 (spain)

i 27

(european) 2

(union) 15

(euro) 12

(mobility) 58

(schengen)

k

MetSem#12 - B. Garnier

Page 39: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

Les mots du corpus : choisir l’unité textuelle

MetSem#12 - B. Garnier

Page 40: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

• Lemmatisation = rattacher un ou plusieurs mots à une forme dite racine (Lebart, Salem, 1994)

Lemmatiser : → convertir les formes verales à l’infinitif→ Les substantifs au singulier→ Les adjectifs au masculin singulier

• Stemmatisation :→ regrouper les formes graphiques de même racine

Divise les spécialistes et se justifie davantage pour des corpus de taille importante (ex :entretiens) dont le vocabulaire est riche et varié et dont l’interprétation gagne à êtreaffinée• Facilitée avec des logiciels ou des dictionnaires permettant de différencier les types

de mots (articles, prépositions, mots-outils, noms propres, verbes,…) Par exemple dans le cas du package tm de R→ différencie les chiffres, mots-outils→ rattache les « mots » à leur racine

A utiliser avec prudence avec les logiciels• La lecture des plans factoriels ou des concordances permet de valider/invalider des choix

de regroupement de mots

L’opération de « lemmatisation »

MetSem#12 - B. Garnier

Page 41: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

Réduire le vocabulaire ! la taille du corpus

(IraMuTeQ)

Analyser les mots-outils ? Que les Mots pleins ? Les différentier selon leur catégories grammaticales (cf Benezecri, Lebart)

MetSem#12 - B. Garnier

Page 42: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

par ordre de fréquence pour• Repérer les mots les plus fréquemment utilisés, le registre

du vocabulaire • Déterminer le seuil d’occurrence des mots à prendre en

compte dans les analyses statistiques par ordre alphabétique pour• Trouver les mots mal orthographiés ou abréviés en vue de

les corriger• Rechercher un terme précis et observer sa fréquence

d’apparition

Lire le vocabulaire

MetSem#12 - B. Garnier

Page 43: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

Un lexique associé au corpus

Mot Fréquence Type

union 1161developed 996

development 900culture 894

of 846 Mot outileuropean 679

euro 598rich 588

freedom 451history 432

the 392 Mot outilcontinent 388countries 371

old 369democracy 366beautiful 363

world 356power 347

civilization 335high 320

technology 291racism 280

education 272wealth 262

diversity 257and 253 Mot outil

economy 253romantic 209economic 202Source : EuroBroadMap, 2009

(R.TeMiS)4977 mots distinctsPas de lemmatisation91 mots outils

Liste de motsExtrait de l’univers lexical associé à Europe

par 9340 étudiants interrogés dans 18 pays du monde

« Citez 5 mots ….. »

MetSem#12 - B. Garnier

Page 44: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

Aller au-delà du nuage de mots

(Wordle)union (1161)continent (388)romantic (209)xenophobia (91)

La taille de la police des mots dépend de leur occurrence. Plus le mot est cité dansles réponses, plus sa taille est grande : union est cité 1161 fois et romantic 209 fois

Utilisation de la variable visuelle « taille » (de police)

Michael Greenacre. The word cloud on the cover design is based on the words of all the abstracts of this CARME conference (2011), so in a certain sense it is an analysis (most frequent words, and size related to frequency) MetSem#12 - B. Garnier

Page 45: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

Recherche de correspondances entre documents et mots ! co o occurences

Ici les textes sont « courts » :Le tableau contient autant de lignes que de réponses ……

Du lexique au tableau lexicalExtrait du tableau lexical agrégé associé au corpus « EuroBroadMap »

MetSem#12 - B. Garnier

40873 occurrences4977 mots distincts

Tableau hyper creux

Page 46: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

Analyses factorielles (AFC )!!!!Plans factoriels combinaison de 2 axes (1,2), (1,3)

• Représenter les proximités entre individus sur un graphique. On cherche à interpréter/donner sens à de nouvelles variables (axes) qui sont des combinaisons des p variables initiales dont les modalités auront des valeurs de contributions plus ou moins fortes

Classifications ! Dendrogramme• Regrouper les individus en catégories/classes

homogènes en faisant le choix d’une distance Caractérisation des classes par les modalités sur/sous représentées

Observer des ressemblances ou différences

Étude axe par axe du nuage des points – on identifie les contributions les plus fortes et les qualités de représentation élevées

MetSem#12 - B. Garnier

Page 47: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

• Inertie : dispersion du nuage projeté sur un plan (ou encore somme des variances des variables étudiées)

• Part d'inertie : part de l’information portée par le tableau initial et synthétisée par un axe

• % d’information résumée sur un plan

Aides à l’interprétation de l’analyse factorielle

• Coordonnées d’un point i : abscisse sur l’axe horizontal (1) et ordonnée sur l’axe vertical(2)

• !on s’intéresse aux extrémités des axes

• Contribution d’une variable et des modalités à un axe !pour déterminer les variables/modalités qui différencient les individus

• Qualité de la représentation du point i sur l'axe Δuα : carré du cosinus de l'angle entre l’axe Fk et le point i MetSem#12 - B. Garnier

Page 48: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

• Permet de structurer l’ensemble des mots en fonction de leurrépartition dans les unités textuelles

• La représentation des résultats sous forme de plan factoriels,permet de visualiser les proximités de mots, les oppositions, lestendances, …

• Deux mots seront d’autant plus proches que leurs contextesd’utilisation se ressemblent et d’autant plus éloignés qu’ils serontrarement utilisés ensemble

Les cooccurrences de mots ainsi mises en évidence permettront derepérer des univers lexicaux et de visualiser des oppositions entreces thèmes

Analyse des Correspondances sur un Tableau Lexical Entier

MetSem#12 - B. Garnier

Page 49: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

Exemple de plan factoriel (1-2) issu d’une analyse des correspondances sur le Tableau Lexical Entierassocié au corpus « EuroBroadMap »

MetSem#12 - B. GarnierSource : EuroBroadMap, 2009

Page 50: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

Aides à l’interprétation (1)

MetSem#12 - B. Garnier

Quelques concordances du mot xenophobia

Source : EuroBroadMap, 2009

Page 51: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

Ici pas de lemmatisation

MetSem#12 - B. Garnier

Aides à l’interprétation (2)

Page 52: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

Extrait du tableau lexical agrégé associé au corpus « EuroBroadMap »

Traiter ensemble mots et des variables qualitatives le Tableau Lexical Agrégé (TLA)

(IraMuTeQ)On met en relation les « mots » et des variables qualitatives(Interprétation des profils lignes et profils colonnes)• 2 mots «proches = proximité des individus• 2 caractéristiques proches= univers lexicaux proches

MetSem#12 - B. Garnier

Tableau de contingence

Page 53: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

• Permet de structurer l’ensemble des « mots », non plus enfonction des réponses, mais des caractéristiques des locuteurs

• Le plan factoriel permet d’observer la position réciproque desmots et des caractéristiques individuelles et de faire émergerdes groupes de représentations qui s’attachent à des sous-populations

Analyse des Correspondances sur un Tableau Lexical Agrégé

MetSem#12 - B. Garnier

Page 54: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

(R.TeMiS)Source : EuroBroadMap, 2009

Plan factoriel

MetSem#12 - B. Garnier

Page 55: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

Créer de unités statistiques comparables• Utiliser les divisions naturelles des textes (ex

paragraphes) dans le cas de textes élaborés !Aujourd’hui paramétrable dans les outils

• Créer des unités de textes en fonction du nombre de mots (pleins, avec et sans les mots outils ?)

!Permet de construire la tableau lexical

Traiter des textes longsle découpage du corpus

MetSem#12 - B. Garnier

Page 56: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

mes chers compatriotes tradition présente vœux ….

Mes chers compatriotes 1 1 1 0 0 OFidèle à une belle tradition, je présente à chacune et à chacun d’entre vous mes vœux les plus chaleureux pour la nouvelle année

1 0 0 1 1 1

C’est pourquoi, j’ai pris, depuis mon élection, avec le gouvernement de Jean-Marc AYRAULT, trois décisions majeures

0 0 0 0 0 0

La première, c’est le rétablissement de nos comptes publics. Je veux désendetter la France. Un effort ……….

0 0 0 0 0 0

Tableau Lexical Entier (TLE) après découpageExtrait du tableau lexical entier associé au corpus “ Vœux Nouvel An Hollande”

Découpagedes 6 discours en 262 segments de texte

Bilan lexical1967 mots différents 9341 occurrences

MetSem#12 - B. Garnier

Page 57: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

(Méthode Reinert, 1983)• Réduction du vocabulaire par lemmatisation automatique et

choix des catégories de « mots » analysables• Découpage du corpus en parties de texte appelées unités decontexte (UC)• Construction du Tableau Lexical Entier (TLE) croisant les UC etle vocabulaire lemmatisé• Classification (CDH) opérée sur le Tableau Lexical Entier etcalcul des spécificités lexicales des classes• Interprétation et position des mondes lexicaux sur l’arbre declassification

La méthodologie Alceste (Analyse des Lexèmes Co-occurrents dans les Énoncés Simples d’un Texte)

MetSem#12 - B. Garnier

Page 58: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

Classification Descendante Hiérarchique sur Tableau Lexical Entier

• Objectif : obtenir un classement des unités de textes en fonctionde la ressemblance ou de la dissemblance des mots dansces textes et d’ordonner les textes en cernant les homologies etles oppositions (Rouré, Reinert, 1993)

• Technique itérativeinitialement toutes les unités textuelles sont regroupées en uneseule classe ;à chaque étape, on fait ressortir les deux classes les plus différentesentre elles en terme de vocabulaire commun!Les classes qui représentent des champs lexicaux homogènessont dénommées « Mondes lexicaux » (méthode Alceste)

MetSem#12 - B. Garnier

Page 59: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

En résumé

MetSem#12 - B. Garnier

Page 60: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

• Introduction• Données• Méthodes• Outils• Conclusion

Plan de la présentation

MetSem#12 - B. Garnier

Page 61: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

Un état des lieux

Ouvrages, pièces de théâtre, poèmes,

discours politiques

Questions ouvertes dans des enquêtes

Entretiens/focus group

Open data

Flux RSSBlogs/forum

1965 1980 1990 2000

data.gouv.fr

2010

package R tm

2018

FORTRAN SpadTAlcesteLexico

Hyperbase

TXM IraMuTeQR.TeMiS

Textes de lois

package R Xplortext

WEB

Transformation digitaleDonnées massives

Lexicométrie, analyses factorielles, classifications

quanti&quali Data vizualisation

Inventaire critique de J Jenny (1997)

MetSem#12 - B. Garnier

Page 62: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

Les outils

Aujourd’hui essentiellement avec R

Aujourd’huiXploretext

MetSem#12 - B. Garnier

Page 63: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

• Libre et « Gratuit » sur tout environnement /système

• Partout dans le monde - avec ou sans internet• Calculs reproductibles• Chaîne de traitement dans le même outil• Librairies/bibliothèques (packages)• Tout niveau

→Interface graphique : R Commander, R studio→Plug in (greffon)

Rhttp://www.r-project.org/

MetSem#12 - B. Garnier

Page 64: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

Installer R : www.r-project.org

MetSem#12 - B. Garnier

Page 65: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

• Comptage de mots, calcul d’associations, tableauxlexicaux (Document Term Matrix)

• Options pour rapporter des mots à leurs radicaux ouenlever des mots communs comme les articles(stemming)

• Nécessite des compétences en programmation• Est la base des outils « gratuits » comme R.TeMiS et

IRaMuteQ

Package tm (Text Mining)(Feinerer, Hornik, Meyer Wirtschaftsuniversity de Wien, in Journal of StatisticalSoftware, Mars 2008)

MetSem#12 - B. Garnier

Page 66: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

http://rtemis.hypotheses.org/

B. Garnier (Ensai 2017)

Plug in de R, dans l’interface graphique de RCommander

Page 67: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

• Permet à un débutant de s’initier à la programmation R et aux fonctions du package tm

• Du script R peut être intégré dans des routines• Le script peut être sauvegardé pour

réplication dans R Commander

R.TeMiS, outils du Text Mining

MetSem#12 - B. Garnier

Page 68: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

• Installer des packages

• Appel de package

Fenêtre R Console

MetSem#12 - B. Garnier

Page 69: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

R.TeMiS, greffon de l’interface graphique R commander

MetSem#12 - B. Garnier

Page 70: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

• Avec R.Temis ajout de lignes de commande dans la fenêtre script R de Rcommander (exemple)

Cas du nuage de mots

MetSem#12 - B. Garnier

# Appel des packageslibrary (wordcloud)library (graphics)

# Calcul de la fréquence des mots dans le corpusmotsfrqP<-colSums(as.matrix(dtm))

# Nuage de mots> wordcloud(words=names(motsfrqP),motsfrqP, min.freq=10, random.order=F,colors=c( "blue3"),random.color=F)

Page 71: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

http://www.xplortext.org

package R Xplortext (version 1.1.1) (23th January 2018)

Statistical Analysis of Textual DataMonica Bécue-Bertaut, Ramón Alvarez-Esteban, Josep-Anton Sánchez-Espigares

https://cran.r-project.org/web/packages/Xplortext/index.html

http://xplortext.unileon.es/

Depends : R (>= 3.4.0), FactoMineR(>= 1.36), ggplot2(>= 2.2.1) Imports : tm, stringr, slam, stats, graphics, gridExtra, utils

MetSem#12 - B. Garnier

Page 72: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

MetSem#12 - B. Garnier http://www.iramuteq.org/

IRaMuTeQ Interface de R pour les Analyses Multidimensionnelles de Textes et de Questionnaires

Page 73: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

De nombreuses ressources

MetSem#12 - B. Garnier

Page 74: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

- Installer R, IRaMuTeQ (et multiples packages)• Lemmatisation (paramétrable par le « rôle » de certains

mots) mais non modifiable• Tgen Sous ensemble d’occurrences d’un corpus (Salem)

!Regroupements de « mots »• Découpage et Classification de textes longs• Graphe de mots associés (graphe de similitude : Issu de l’analyse

des données relationnelles (SNA))→ Nœuds=mots→ Arêtes= relation entre les motsLa relation est (par défaut dans le paramétrage) la cooccurrence entre les mots

Utiliser IraMuteQ

MetSem#12 - B. Garnier

Page 75: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

Repérer les co occuences - identifier des thématiques6 classes issues d’une classification IraMuTeQ

Solennités

Emploi

CombatsRéformes

Essai d’interprétation --> thémes

Valeurs Democratie

On classe les parties de texte et pas les mots

Affichage des mots spécifiques des classes

MetSem#12 - B. Garnier

Page 76: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

AFC surTLA croisant « mots » et variable classe

MetSem#12 - B. Garnier (IraMuteQ)

Corpus « Vœux »

Page 77: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

Graphe de classe

MetSem#12 - B. Garnier

Corpus « Vœux Elysée »

(IraMuteQ)

Relie les mots et pas les unités de texte

Page 78: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

• en ligne Gargantext (D. Chavalarias et A. Delanoë - CNRS/EHESS – ISC-PIF/CAMS) :

https://gargantext.org/Hyperbase (L. Vanni - UMR 7320 : Bases, Corpus, Langage) : http://hyperbase.unice.fr/ TXM : http://textometrie.ens-lyon.fr/spip.php?rubrique85• payantsAlcesteSAS® (Text Analytics)SPAD

D’autres outils (non R)

MetSem#12 - B. Garnier

Page 79: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

La démarche de Sonal (analyse qualitative)

Page 80: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

Sonal : retranscrire et mettre des balises

Page 81: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

history culture economy PAR FRA SHS F 21european union common history and culture euro mondial wars PAR FRA SHS F 21wide multiple history war association PAR FRA SHS M 21western global power PAR FRA SHS F 21heart centre variety development culture BUD HUN ART F 21old union credit war tour BUD HUN ART F 21union boots fusion small tour BUD HUN ART F 21

Préparer les données pour les logiciels de ST

**** *p_FRA *v_PAR *d_SHS *s_F *age_21 history culture economy**** *p_FRA *v_PAR *d_SHS *s_F *age_21 european union common history and culture euro mondial wars **** *p_FRA *v_PAR *d_SHS *s_M *age_21 wide multiple history war association**** *p_FRA *v_PAR *d_SHS *s_F *age_21 western global power **** *p_HUN *v_BUD *d_ART *s_F *age_21 heart centre variety development culture**** *p_HUN *v_BUD *d_ART *s_F *age_21 small cold foolish leisure expensive**** *p_HUN *v_BUD *d_ART *s_F *age_21 old union credit war tour**** *p_HUN *v_BUD *d_ART *s_F *age_21 union boots fusion small tour

Mise en forme « tableur »

Mise en forme « Alceste »

Données nettoyéesTextes courts/longs

MetSem#12 - B. Garnier

Page 82: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

• Réponses à des questions ouvertes en relation avecdes caractéristiques des répondants, et l’objectif del’analyse est de savoir Qui dit quoi ? : Spad ouR.TeMiS

• Entretiens ou textes longs d’où l’on cherche à faireémerger des thématiques Alceste ou IRaMuTeq. llpermet de faire un découpage des textes longs enunités plus petites en fonction des la catégoriegrammaticale des mots (réduction rapide de la tailledu vocabulaire et l’identification automatique decatégories)

!Utiliser plusieurs outils

Les outils – Exemple de critères de choix

MetSem#12 - B. Garnier

Page 83: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

• Préparer les données selon méthode, outil →nettoyage

• Appliquer les méthodes →Lexicométrie (fréquences), Détection de co

occurences ! thématiques (classifications)

→Vocabulaire spécifique (test), Qui/quoi (AFC)

• (Re)faire des analyses Aller/retour entre « calculs automatiques » et choix de paramétrage

• Donner du sens /des pistes/interpréter

Protocole avec les logiciels

MetSem#12 - B. Garnier

Page 84: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

• Introduction• Données• Méthodes• Outils• Conclusion

Plan de la présentation

MetSem#12 - B. Garnier

Page 85: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

• Connaissances en méthodologie statistiquepour valoriser les résultats à un public non averti (éviter l’effet boite noire)

• Niveau en informatiqueEncodage/ formats de fichiers« crawler » (Hype), machine learning

• Pratique de logicielsEvolution (ex. packages R), Python

Conclusion (1)

MetSem#12 - B. Garnier

Page 86: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

• Statistique textuelle à l’honneur • Analyser des données (non structurées)

• Explorer les données autrement - sans a priori → complémentarité des méthodes (qualitative/quantitative)

• Exploration ultra-rapide des corpus mais pré connaissance du corpus irremplaçable pour faire des choix de paramétrage et interpréter les résultats produits ! utilisation conjointe de l'informatique tout-automatique et de l'intuition humaine

Conclusion (2)

MetSem#12 - B. Garnier

Page 87: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

• http://lexicometrica.univ-paris3.fr/ (actes des Journées d’Analyse des Données Textuelles)

• http://textometrie.ens-lyon.fr/• rtemis.hypotheses.org/• www.iramuteq.org/• http://jacquesjenny.com/legs-sociologique/• http://journals.openedition.org/bms/3023

Ressources (1)

MetSem#12 - B. Garnier

Page 88: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

• Bécue-Bertaut M. 2018, Analyse Textuelle avec R, Presses Universitaires de Rennes (Pratique De La Statistique), 190 p.

• Benzecri J.-P., 1973 – L’analyse des Données (tome 1 et 2). Dunod, Paris• Benzécri, J. P., 1984 – Description des textes et analyse documentaire, Cahiers de

l'analyse des données, Tome 9,no. 2 , p. 205-211• http://www.numdam.org/item?id=CAD_1984__9_2_205_0• Garnier B., Guérin-Pace F., 2010. Appliquer les méthodes de la statistique textuelle,

Ceped, les clefs pour, Paris (http://www.ceped.org/fr/publications-ressources/editions-du-ceped-1988-2012/les-clefs-pour/article/appliquer-les-methodes-de-la )

• Lebart L., Salem A. 1994. Statistique textuelle. Paris, Dunod, 342 p. http://www.dtmvic.com/

• Tufféry S. Data Mining et Statistique décisionnelle. (4e Ed) Technip• Vautier, C. (dir.) 2015. Nouvelles perspectives en sciences sociales : revue

internationale de systémique complexe et d'études relationnelles. Volume 11, numéro 1, l’analyse de données textuelles informatisée, Prise de parole

Références (1)

MetSem#12 - B. Garnier

Page 89: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

• Baril E., Guérin-Pace F. 2016, Compétences à l’écrit des adultes et événements marquants de l’enfance : le traitement de l’enquête Information et vie quotidienne à l’aide des méthodes de la statistique textuelle, Economie et statistique, N° 490

• Bastin G., Bouchet-Valat M. 2014. Media corpora, text mining, and the sociological imagination – A free software text mining approach to the framing of Julian Assange by three news agencies using R.TeMiS. Bulletin de Méthodologie Sociologique, 121 (1), p. 5-25.

• Guérin-Pace F., Saint-Julien T., 2012 - Les mots de L’Espace Géographique. Une analyse lexicale des titres et mots-clés de 1972 à 2010. L’espace géographique, 41 (1), p. 4-30

• Marchand, P. « La fabrique parlementaire du discours sur la “radicalisation” : politiques, acteurs, experts », dans N. Baygert, E. Durin, É. Maas et L. Nicolas (dir.), Communiquer (sur) la radicalité – Les Cahiers PROTAGORAS, n° 4, octobre-décembre 2017, p. 30-46.

• Marpsat, M. 2010. La méthode Alceste, Sociologie, N°1, vol. 1, https://sociologie.revues.org/130

• Reinert M. 1983, Une méthode de classification descendante hiérarchique : Application à l'analyse lexicale par contexte. Cahiers de l'Analyse des Données, 3, pp. 187-198

Références (2)

MetSem#12 - B. Garnier

Page 90: 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS Blogs/forum 1965 1980 1990 2000 data.gouv.fr 2010 package R tm 2018 FORTRAN SpadT

Merci pour votre attention

MetSem#12 - B. Garnier