20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS...
Transcript of 20180323.MetSem2018 GarnierB [Mode de compatibilité] · Entretiens/focus group Open data Flux RSS...
Bénédicte GarnierInstitut National d’Etudes Démographiques (INED), F-75020 Paris, France
Sciences Po, Salle Percheron98 rue de l’Université, 75007 Paris
• Introduction• Données• Méthodes• Outils• Conclusion
Plan de la présentation
MetSem#12 - B. Garnier
• Retour d’expérience→Chercheurs (de l’Ined) pour analyser des réponses
à des questions ouvertes ou des entretiens →Statisticiens, étudiants, chargés d’études,
informaticiens
• Ce qui change, ce qui ne change pas• Nouveaux utilisateurs ? Nouveau public ? • Ré analyse de matériau qualitatif
Introduction
MetSem#12 - B. Garnier
Un état des lieux
Ouvrages, pièces de théâtre, poèmes,
discours politiques
Questions ouvertes dans des enquêtes
Entretiens/focus group
Open data
Flux RSSBlogs/forum
1965 1980 1990 2000
data.gouv.fr
2010
package R tm
2018
FORTRAN SpadTAlcesteLexico
Hyperbase
TXM IraMuTeQR.TeMiS
Textes de lois
package R Xplortext
WEB
Transformation digitaleDonnées massives
Lexicométrie, analyses factorielles, classifications
quanti&quali Data vizualisation
Inventaire critique de J Jenny (1997)
MetSem#12 - B. Garnier
Parution 2018
- Ouvrage de M. Bécue-Bertaut (préface de L. Lebart)Méthodes et scripts R
- Package R Xplortext(version 1.1.1) (23th January 2018)Statistical Analysis of Textual Data
par M. Bécue-Bertaut, R. Alvarez-Esteban, J.-A. Sánchez-Espigares
MetSem#12 - B. Garnier
MetSem#12 - B. Garnier
• Introduction• Données• Méthodes• Outils• Conclusion
Plan de la présentation
MetSem#12 - B. Garnier
Réponses à une question ouverte
Cette question vient après la 1ere partie du questionnaire où l’on a pas parlé de l’environnement
Données (1)
MetSem#12 - B. Garnier
Exemples de réponses à la question “Si je vous dis Environnement, qu’est ce que cela évoque pour vous?”
4700 enquêtés4596 réponses à la question ouverte
6,4 mots cités en moyenne par réponse102 738 occurrences de mots
6 447 mots distincts
MetSem#12 - B. Garnier
Identifier des univers lexicaux
Exemple de plan factoriel (1-3) issu d’une analyse des correspondances
sur le Tableau Lexical Entier
Enquête Populations-Espaces de vie-Environnements (Ined, 1992)MetSem#12 - B. Garnier
Composantes de la nature
Lieu
de
vie
Vision égo centrée
Collomb Ph., Guérin-Pace F. 1998. Les contours du mot « environnement » : enseignements de la statistique textuelle Espace Géographique, L’espace géographique, 41 (1), p. 41-52 (1)
MetSem#12 - B. Garnier
(7e PCRD )
Enquête sur la vision de l’Europe dans le monde
En complément à l’interprétation d’une question en cartographie “Draw your limit of Europe”
Mots associés
Données (2)
MetSem#12 - B. Garnier
9340 étudiants enquêtés dans 18 pays et 43 villes
• France, Belgique, Portugal, Roumanie, Hongrie, Malte Suède
• Moldavie, Russie, Turquie, Tunisie• Cameroun, Chine, Inde, Brésil,
Azebaïdjan, Egypte
EuroBroadMap, WP2 Report, C. Didelon CNRS, France
Etudiants en SHS, santé, commerce, artSc. politiques, de l’ingénieur
MetSem#12 - B. Garnier
Stratifié par pays et domaine d’étude
Extrait des réponses à la question Quels sont les mots que vous associés le plus à « Europe » (Choisisez 5 mots au maximum)
8443 étudiants sur les 9343 interrogés ont cité au moins un mot40 873 mots - 4 977 mots distincts MetSem#12 - B. Garnier
Motscaractéristiques
Pourcentageinterne
Pourcentageglobal
Fréquenceinterne
Fréquenceglobale
Valeur-Test
exchanges 1.31 0.09 31 34 12.118union 7.42 3.15 175 1160 10.573trade 1.27 0.17 30 62 9.030space 0.81 0.08 19 28 8.249euro 3.90 1.66 92 611 7.550common 0.97 0.15 23 55 7.369power 2.97 1.18 70 434 7.026free 1.27 0.28 30 103 7.013continent 2.67 1.05 63 387 6.714Schengen 0.81 0.13 19 46 6.636currency 0.81 0.13 19 46 6.636inequality 0.76 0.11 18 42 6.564diversity 2.16 0.78 51 287 6.522community 1.31 0.34 31 125 6.470borders 0.76 0.13 18 46 6.287identity 0.55 0.06 13 23 6.264sharing 0.47 0.04 11 16 6.226
Vocabulaire spécifique des étudiants interrogés en France(Spad)
(EuroBroadMap, 2009)Brennetot A., Emsellem K., Guérin-Pace F., Garnier B. 2013. Dire l’Europe à travers le monde.Les mots des étudiants dans l’enquête EuroBroadMap, Cybergeo
(Spad)
MetSem#12 - B. Garnier
Plan 1-2(Spad)
(Spad)
(EuroBroadMap, 2009)
Azerbaidjan, Egypte, Suède en supplémentaire
MetSem#12 - B. Garnier
AFC sur le Tableau lexical croisant les mots et les modalités de la variable pays
MetSem#12 - B. Garnier
Plan 3-4
(Spad) (EuroBroadMap, 2009)
Retour au texte : les concordances(Spad)
MetSem#12 - B. Garnier
Re-interrogation qualitative ciblée (Bonvalet, et al.). • Pour écouter les personnes parler de leur
parcours familial, résidentiel et professionnel • Appréhender la diversité et l’étendue des modes
de fonctionnement des réseaux de parenté• Apporte des éléments sur la composition du
réseau familial et amical et ses ressources• Question posée : Vous avez répondu précédemment
au questionnaire « Proches et Parents », aujourd’hui ce que nous voudrions retracer avec vous est l’histoire de votre vie, de votre parcours, notamment à travers les lieux où vous avez habité, et que vous avez fréquentés. Si vous voulez, on peut commencer par l’endroit où vous êtes nés
Caractéristiques d’ordre démographique ou sociologique caractérisant chaque interviewé (réponses au questionnaire)
Entretiens de l’enquête Proches et Parents (Ined, 1990)
19
Récits de vie
80 entretiens de 60 pages chacun (approximativement)
Données (3)
MetSem#12 - B. Garnier
Bonvalet C., Maison D., Ortalda L. 1999. La place des univers familiaux, résidentiels et professionnels dans la stucture du discours : analyse textuelle des entretiens de « Proches et parents » in Bonvalet C., GotmanA., Grafmeyer Y., Bertaux-Wiame I., Le Bras H., Maison D., La famille et ses proches : l'aménagement des territoires, Travaux et documents N°143, Ined, p. 205-237
20
Dendrogramme issu de la classification Alceste
Objectif de : Mettre en évidence de
grands axes d’interprétations qui peuvent être ensuite
précisés par une analyse de contenu
classiqueMetSem#12 - B. Garnier
Aide à l’interprétation : spécificités des classesClasse 1 : Agenda famille/amis
Vocabulaire spécifiqueWeek-end (108), vacances (67) dimanche (58), samedi (53), matin (53),régulier (29), manger (29), retrouver (25) après-midi (24), cinéma (18), sport(17), soir (17), repas (17), promener (18), télé (14), visiter (12), vélo (8)…Réponses spécifiques4022 - Autrement non, dimanche j'ai vu ma sœur mais elle était toute seule,autrement j'ai ma sœur Martine qui vient à peu près tous les deux jours ouautrement c’est moi qui vais là-bas. Oui, on se voit souvent quand-même.Oui, elle et puis ma sœur Josée, elle en général, pas cette semaine, mais lasemaine prochaine, en général une semaine sur deux je la vois tous les midi, ilreste le samedi et le dimanche ….4015 - Trois fois ça dépend de ce que j’ai à faire, deux ou trois fois parsemaine, en général je monte le mardi, le jeudi et le samedi. Autrement onse téléphone, c’est plus pratique ….Caractéristiques des répondantsJeunes adultes, urbains, parisiens, célibataires
MetSem#12 - B. Garnier
Classe 3 : Logement patrimoine
Vocabulaire spécifiqueacheter (221), payer (134), propriétaires (110), argent (91), locataires (62), prix (59), investir (46), revendre (32), …Réponses spécifiques5569 – Donc ça fait des remboursements à, chaque prêt il y a des mensualités fixes, ça faisait pas des remboursements fixes de durée,j e en sais pas si on avait trois prêts, si c’était modulable, il me semble qu’on avait, enfin peu importe, le problème n’est pas là quoi. T’avais un tarif au départ, un autre au milieu ……1779–A partir du moment où le studio est loué, enfin les gens à qui nous les avons achetés, on payait 20, c’est-à-dire l’enregistrement et une petite partie du montant de l’appartement et 80% étaient en crédit intégral, ce qui a fait que le montant des loyers paye les remboursements. …..942 – Acheter pour revendre, pour racheter. C’était pas évident, et puis après il s’est senti trop vieux pour acheter et puis voilà quoi ! ……..Caractéristiques des répondantsAccédant à la propriété, plus de 50ans, employés, maison individuelle
MetSem#12 - B. Garnier
Annonces tirées d’un site de rencontre en ligne
• Corpus meetic : Web Scrapping des profils M. Bergström, M. Bouchet-Valathttp://methodes-et-logiciels.sfds.asso.fr/wp-content/uploads/2017/10/SFdS-2017-R.TeMiS_.pdf
Données (4)
MetSem#12 - B. Garnier
R.TeMiS Corpus Meetic
Vocabulaire spécifique des femmes/des hommes
MetSem#12 - B. Garnier
Autres corpus traités
• M. de Saint Léger, Comment ont évolué les thématiques des 99 premiers numéros de BMS ?, Bulletin de méthodologie sociologique, 100 | 2008, 16-33.
• V. Beaudouin, Rythme et rime de l’alexandrin classique - Étude empirique des 80 000 vers du théâtre de Corneille et Racine, 2000, (Thèse)
• V. Beaudouin, Les corpus web et l’approche textométrique in Séminaire CEDITEC, 2014
• M. Becue-Bertaut, 2018 Scénario du film Casablanca, in analyse textuelle avec R
• P. Marchand, P. Ratinaud, in colloque "Comprendre les mondes sociaux 2014", Analyse lexicométrique tweets sur le #mariagepourtous, Labex Structuration des Mondes Sociaux, Toulouse, 2014 MetSem#12 - B. Garnier
• https://www.data.gouv.fr/fr/• http://www.theses.fr/
→ les thèses en préparation (depuis 10 ans au maximum) : toutes disciplines et tous types d'établissements
→ les thèses soutenues depuis 1985
• …….
Et Données en lignes
MetSem#12 - B. Garnier
Et toujours plus de sources de données
• Journée Variété des données SHS
• Séminaire de recherche Médialab
Animé Par l’ ICIJ (International Consortium of InvestigativeJournalists)Vers un réseau mondial de journalistes d’investigation //06/03 DataShare est une platforme open source qui permettra aux journalistes —et à terme aux autres enquêteurs travaillant pour l’intérêt général— d’indexer et partager les informations contenues dans leurs documents, accéder à des opportunités d’articles et collaborer au delà des frontières.
D’un DataSprint à un CorpusMarathon //20/03analyser les données textuelles politiques pour comprendre les idéologies politiques et leur circulation
MetSem#12 - B. Garnier
Les données – Les corpus
• Justifier la méthodologie (qui répond à la problématique et au choix des données)
• Questionner, contextualiser (disponibilités/droits, sources)
• Collecter Corpus (variable textuelle) et métadonnées (variables qualitatives)
Opérations de transformation ou « nettoyage » • Encodage• Orthographe• Seuil (fréquences, nombre de lettres)• Découpage (balises) en cas de textes longs
MetSem#12 - B. Garnier
• Introduction• Données• Méthodes• Outils• Conclusion
Plan de la présentation
MetSem#12 - B. Garnier
Réflexion sur les logiciels d'analyse de matériau qualitatif (Ch. Lejeune, Université de Liège)
SONAL, NViVo, Atlas.ti ….
R.TeMiS, Spad ….
IrAMuTeq, Alceste ….
Cassandre, Tropes, Prospero, ….
Lejeune, Ch. 2014, Manuel d'analyse qualitative. Analyser sans compter ni classer, Louvain-La-Neuve: De Boeck
MetSem#12 - B. Garnier
Outils réflexifs : les CAQDAS (Computer Assisted Qualitative Data Analysis Software)
Pour organiser ses données et faire des analyses qualitatives : post coder à partir de thèmes prédéfinis ou définis au fur et à mesure de la (des) lectures des corpus. Fenêtre d’annotation, comparable à un traitement de texte • pour surligner en couleur des passages et y attacher une
annotation (->collection) • permet de repérer des parties thématiques pour faire des
extractions sélectives
!outils d’assistance à la création de catégories (analyse) mais sans automatisation
Analyse de contenu : le chercheur définit les catégories et code (marque) le texte
MetSem#12 - B. Garnier
Deux grandes familles d’applicationde la statistique textuelle
• Comparaison de textes sur la base d’une étude quantitative du vocabulaire = s’intéresser à la forme des textes en faisant abstraction de leur contenuEx : Attributions d’écrits historiques ou littéraires à un auteur, comparaison et évolution du style de différents auteurs, etc.
• Faire émerger le contenu de textes, de leur sens au-delà de leur forme Ex : Traitement des réponses à des questions ouvertes, analyse d’entretiens, interviews, discours, trajectoires, etc.
MetSem#12 - B. Garnier
Statistique textuelle et Text Mining
Aujourd’hui on dispose d’un volume énorme de données sous formes de textes dont on a besoin d’extraire des connaissances ! Fouilles de texte • Reconnaître les mots, les phrases, leurs rôles grammaticaux • Sélectionner un texte/phrase type représentant ces textes• Trouver une structure
Text Mining : lexicométrie et méthodes de Data Mining (dont la statistique textuelle) (Tufféry)Web Mining : application du data mining aux données issues du web (corpus, internautes, flux)
MetSem#12 - B. Garnier
Analyse lexicale : étude des distributions lexicales • Amélioration de la transcription sténographique (Estoup, 1916)• Psychobiologie du langage (Zipf, 1935)
Statistique lexicale (Yule, 1944, Guiraud 1954, Muller, 1964)• Étude comparative du vocabulaire des grands auteurs (étendue,
style, évolution, comparaison, etc.) Linguistique statistique (Herdan, 1964)
• Description statistique du fonctionnement des unités définies par le linguiste dans un ensemble de textes
Analyse des correspondances (Escofier, Benzécri, 1965) • Relations de transition reliant les points-lignes aux points-
colonnes surtout permettant une interprétation simultanée des représentations des lignes et des colonnes d’un tableau
Etapes de développement
MetSem#12 - B. Garnier
• Dans les années 80, rencontre de plusieurs disciplines et domaines de recherche : la linguistique, l’analyse du discours, la statistique, l’informatique et le traitement des questions ouvertes dans les enquêtes
• Traitement « automatique » de données textuelles facilité par les nouvelles possibilités de calcul des ordinateurs qui ont permis d’appliquer les méthodes statistiques multidimensionnelles à des textes
Historique de la statistique textuelle
MetSem#12 - B. Garnier
Jean-Paul Benzécri
MetSem#12 - B. Garnier
Organiser les données (ici dans un tableau)
(corpus EuroBroadMap)
MetSem#12 - B. Garnier
Ici les 9340 réponses des étudiants
Du texte au tableau : numérisation du corpus
Adresse des formes graphiques Réponse
221 15 (euro)
27 (european)
2 (union)
222 17 (france)
18 (germany)
40 (italy)
8 (belgium)
9 (spain)
i 27
(european) 2
(union) 15
(euro) 12
(mobility) 58
(schengen)
k
MetSem#12 - B. Garnier
Les mots du corpus : choisir l’unité textuelle
MetSem#12 - B. Garnier
• Lemmatisation = rattacher un ou plusieurs mots à une forme dite racine (Lebart, Salem, 1994)
Lemmatiser : → convertir les formes verales à l’infinitif→ Les substantifs au singulier→ Les adjectifs au masculin singulier
• Stemmatisation :→ regrouper les formes graphiques de même racine
Divise les spécialistes et se justifie davantage pour des corpus de taille importante (ex :entretiens) dont le vocabulaire est riche et varié et dont l’interprétation gagne à êtreaffinée• Facilitée avec des logiciels ou des dictionnaires permettant de différencier les types
de mots (articles, prépositions, mots-outils, noms propres, verbes,…) Par exemple dans le cas du package tm de R→ différencie les chiffres, mots-outils→ rattache les « mots » à leur racine
A utiliser avec prudence avec les logiciels• La lecture des plans factoriels ou des concordances permet de valider/invalider des choix
de regroupement de mots
L’opération de « lemmatisation »
MetSem#12 - B. Garnier
Réduire le vocabulaire ! la taille du corpus
(IraMuTeQ)
Analyser les mots-outils ? Que les Mots pleins ? Les différentier selon leur catégories grammaticales (cf Benezecri, Lebart)
MetSem#12 - B. Garnier
par ordre de fréquence pour• Repérer les mots les plus fréquemment utilisés, le registre
du vocabulaire • Déterminer le seuil d’occurrence des mots à prendre en
compte dans les analyses statistiques par ordre alphabétique pour• Trouver les mots mal orthographiés ou abréviés en vue de
les corriger• Rechercher un terme précis et observer sa fréquence
d’apparition
Lire le vocabulaire
MetSem#12 - B. Garnier
Un lexique associé au corpus
Mot Fréquence Type
union 1161developed 996
development 900culture 894
of 846 Mot outileuropean 679
euro 598rich 588
freedom 451history 432
the 392 Mot outilcontinent 388countries 371
old 369democracy 366beautiful 363
world 356power 347
civilization 335high 320
technology 291racism 280
education 272wealth 262
diversity 257and 253 Mot outil
economy 253romantic 209economic 202Source : EuroBroadMap, 2009
(R.TeMiS)4977 mots distinctsPas de lemmatisation91 mots outils
Liste de motsExtrait de l’univers lexical associé à Europe
par 9340 étudiants interrogés dans 18 pays du monde
« Citez 5 mots ….. »
MetSem#12 - B. Garnier
Aller au-delà du nuage de mots
(Wordle)union (1161)continent (388)romantic (209)xenophobia (91)
La taille de la police des mots dépend de leur occurrence. Plus le mot est cité dansles réponses, plus sa taille est grande : union est cité 1161 fois et romantic 209 fois
Utilisation de la variable visuelle « taille » (de police)
Michael Greenacre. The word cloud on the cover design is based on the words of all the abstracts of this CARME conference (2011), so in a certain sense it is an analysis (most frequent words, and size related to frequency) MetSem#12 - B. Garnier
Recherche de correspondances entre documents et mots ! co o occurences
Ici les textes sont « courts » :Le tableau contient autant de lignes que de réponses ……
Du lexique au tableau lexicalExtrait du tableau lexical agrégé associé au corpus « EuroBroadMap »
MetSem#12 - B. Garnier
40873 occurrences4977 mots distincts
Tableau hyper creux
Analyses factorielles (AFC )!!!!Plans factoriels combinaison de 2 axes (1,2), (1,3)
• Représenter les proximités entre individus sur un graphique. On cherche à interpréter/donner sens à de nouvelles variables (axes) qui sont des combinaisons des p variables initiales dont les modalités auront des valeurs de contributions plus ou moins fortes
Classifications ! Dendrogramme• Regrouper les individus en catégories/classes
homogènes en faisant le choix d’une distance Caractérisation des classes par les modalités sur/sous représentées
Observer des ressemblances ou différences
Étude axe par axe du nuage des points – on identifie les contributions les plus fortes et les qualités de représentation élevées
MetSem#12 - B. Garnier
• Inertie : dispersion du nuage projeté sur un plan (ou encore somme des variances des variables étudiées)
• Part d'inertie : part de l’information portée par le tableau initial et synthétisée par un axe
• % d’information résumée sur un plan
Aides à l’interprétation de l’analyse factorielle
• Coordonnées d’un point i : abscisse sur l’axe horizontal (1) et ordonnée sur l’axe vertical(2)
• !on s’intéresse aux extrémités des axes
• Contribution d’une variable et des modalités à un axe !pour déterminer les variables/modalités qui différencient les individus
• Qualité de la représentation du point i sur l'axe Δuα : carré du cosinus de l'angle entre l’axe Fk et le point i MetSem#12 - B. Garnier
• Permet de structurer l’ensemble des mots en fonction de leurrépartition dans les unités textuelles
• La représentation des résultats sous forme de plan factoriels,permet de visualiser les proximités de mots, les oppositions, lestendances, …
• Deux mots seront d’autant plus proches que leurs contextesd’utilisation se ressemblent et d’autant plus éloignés qu’ils serontrarement utilisés ensemble
Les cooccurrences de mots ainsi mises en évidence permettront derepérer des univers lexicaux et de visualiser des oppositions entreces thèmes
Analyse des Correspondances sur un Tableau Lexical Entier
MetSem#12 - B. Garnier
Exemple de plan factoriel (1-2) issu d’une analyse des correspondances sur le Tableau Lexical Entierassocié au corpus « EuroBroadMap »
MetSem#12 - B. GarnierSource : EuroBroadMap, 2009
Aides à l’interprétation (1)
MetSem#12 - B. Garnier
Quelques concordances du mot xenophobia
Source : EuroBroadMap, 2009
Ici pas de lemmatisation
MetSem#12 - B. Garnier
Aides à l’interprétation (2)
Extrait du tableau lexical agrégé associé au corpus « EuroBroadMap »
Traiter ensemble mots et des variables qualitatives le Tableau Lexical Agrégé (TLA)
(IraMuTeQ)On met en relation les « mots » et des variables qualitatives(Interprétation des profils lignes et profils colonnes)• 2 mots «proches = proximité des individus• 2 caractéristiques proches= univers lexicaux proches
MetSem#12 - B. Garnier
Tableau de contingence
• Permet de structurer l’ensemble des « mots », non plus enfonction des réponses, mais des caractéristiques des locuteurs
• Le plan factoriel permet d’observer la position réciproque desmots et des caractéristiques individuelles et de faire émergerdes groupes de représentations qui s’attachent à des sous-populations
Analyse des Correspondances sur un Tableau Lexical Agrégé
MetSem#12 - B. Garnier
(R.TeMiS)Source : EuroBroadMap, 2009
Plan factoriel
MetSem#12 - B. Garnier
Créer de unités statistiques comparables• Utiliser les divisions naturelles des textes (ex
paragraphes) dans le cas de textes élaborés !Aujourd’hui paramétrable dans les outils
• Créer des unités de textes en fonction du nombre de mots (pleins, avec et sans les mots outils ?)
!Permet de construire la tableau lexical
Traiter des textes longsle découpage du corpus
MetSem#12 - B. Garnier
mes chers compatriotes tradition présente vœux ….
Mes chers compatriotes 1 1 1 0 0 OFidèle à une belle tradition, je présente à chacune et à chacun d’entre vous mes vœux les plus chaleureux pour la nouvelle année
1 0 0 1 1 1
C’est pourquoi, j’ai pris, depuis mon élection, avec le gouvernement de Jean-Marc AYRAULT, trois décisions majeures
0 0 0 0 0 0
La première, c’est le rétablissement de nos comptes publics. Je veux désendetter la France. Un effort ……….
0 0 0 0 0 0
Tableau Lexical Entier (TLE) après découpageExtrait du tableau lexical entier associé au corpus “ Vœux Nouvel An Hollande”
Découpagedes 6 discours en 262 segments de texte
Bilan lexical1967 mots différents 9341 occurrences
MetSem#12 - B. Garnier
(Méthode Reinert, 1983)• Réduction du vocabulaire par lemmatisation automatique et
choix des catégories de « mots » analysables• Découpage du corpus en parties de texte appelées unités decontexte (UC)• Construction du Tableau Lexical Entier (TLE) croisant les UC etle vocabulaire lemmatisé• Classification (CDH) opérée sur le Tableau Lexical Entier etcalcul des spécificités lexicales des classes• Interprétation et position des mondes lexicaux sur l’arbre declassification
La méthodologie Alceste (Analyse des Lexèmes Co-occurrents dans les Énoncés Simples d’un Texte)
MetSem#12 - B. Garnier
Classification Descendante Hiérarchique sur Tableau Lexical Entier
• Objectif : obtenir un classement des unités de textes en fonctionde la ressemblance ou de la dissemblance des mots dansces textes et d’ordonner les textes en cernant les homologies etles oppositions (Rouré, Reinert, 1993)
• Technique itérativeinitialement toutes les unités textuelles sont regroupées en uneseule classe ;à chaque étape, on fait ressortir les deux classes les plus différentesentre elles en terme de vocabulaire commun!Les classes qui représentent des champs lexicaux homogènessont dénommées « Mondes lexicaux » (méthode Alceste)
MetSem#12 - B. Garnier
En résumé
MetSem#12 - B. Garnier
• Introduction• Données• Méthodes• Outils• Conclusion
Plan de la présentation
MetSem#12 - B. Garnier
Un état des lieux
Ouvrages, pièces de théâtre, poèmes,
discours politiques
Questions ouvertes dans des enquêtes
Entretiens/focus group
Open data
Flux RSSBlogs/forum
1965 1980 1990 2000
data.gouv.fr
2010
package R tm
2018
FORTRAN SpadTAlcesteLexico
Hyperbase
TXM IraMuTeQR.TeMiS
Textes de lois
package R Xplortext
WEB
Transformation digitaleDonnées massives
Lexicométrie, analyses factorielles, classifications
quanti&quali Data vizualisation
Inventaire critique de J Jenny (1997)
MetSem#12 - B. Garnier
Les outils
Aujourd’hui essentiellement avec R
Aujourd’huiXploretext
MetSem#12 - B. Garnier
• Libre et « Gratuit » sur tout environnement /système
• Partout dans le monde - avec ou sans internet• Calculs reproductibles• Chaîne de traitement dans le même outil• Librairies/bibliothèques (packages)• Tout niveau
→Interface graphique : R Commander, R studio→Plug in (greffon)
Rhttp://www.r-project.org/
MetSem#12 - B. Garnier
Installer R : www.r-project.org
MetSem#12 - B. Garnier
• Comptage de mots, calcul d’associations, tableauxlexicaux (Document Term Matrix)
• Options pour rapporter des mots à leurs radicaux ouenlever des mots communs comme les articles(stemming)
• Nécessite des compétences en programmation• Est la base des outils « gratuits » comme R.TeMiS et
IRaMuteQ
Package tm (Text Mining)(Feinerer, Hornik, Meyer Wirtschaftsuniversity de Wien, in Journal of StatisticalSoftware, Mars 2008)
MetSem#12 - B. Garnier
http://rtemis.hypotheses.org/
B. Garnier (Ensai 2017)
Plug in de R, dans l’interface graphique de RCommander
• Permet à un débutant de s’initier à la programmation R et aux fonctions du package tm
• Du script R peut être intégré dans des routines• Le script peut être sauvegardé pour
réplication dans R Commander
R.TeMiS, outils du Text Mining
MetSem#12 - B. Garnier
• Installer des packages
• Appel de package
Fenêtre R Console
MetSem#12 - B. Garnier
R.TeMiS, greffon de l’interface graphique R commander
MetSem#12 - B. Garnier
• Avec R.Temis ajout de lignes de commande dans la fenêtre script R de Rcommander (exemple)
Cas du nuage de mots
MetSem#12 - B. Garnier
# Appel des packageslibrary (wordcloud)library (graphics)
# Calcul de la fréquence des mots dans le corpusmotsfrqP<-colSums(as.matrix(dtm))
# Nuage de mots> wordcloud(words=names(motsfrqP),motsfrqP, min.freq=10, random.order=F,colors=c( "blue3"),random.color=F)
http://www.xplortext.org
package R Xplortext (version 1.1.1) (23th January 2018)
Statistical Analysis of Textual DataMonica Bécue-Bertaut, Ramón Alvarez-Esteban, Josep-Anton Sánchez-Espigares
https://cran.r-project.org/web/packages/Xplortext/index.html
http://xplortext.unileon.es/
Depends : R (>= 3.4.0), FactoMineR(>= 1.36), ggplot2(>= 2.2.1) Imports : tm, stringr, slam, stats, graphics, gridExtra, utils
MetSem#12 - B. Garnier
MetSem#12 - B. Garnier http://www.iramuteq.org/
IRaMuTeQ Interface de R pour les Analyses Multidimensionnelles de Textes et de Questionnaires
De nombreuses ressources
MetSem#12 - B. Garnier
- Installer R, IRaMuTeQ (et multiples packages)• Lemmatisation (paramétrable par le « rôle » de certains
mots) mais non modifiable• Tgen Sous ensemble d’occurrences d’un corpus (Salem)
!Regroupements de « mots »• Découpage et Classification de textes longs• Graphe de mots associés (graphe de similitude : Issu de l’analyse
des données relationnelles (SNA))→ Nœuds=mots→ Arêtes= relation entre les motsLa relation est (par défaut dans le paramétrage) la cooccurrence entre les mots
Utiliser IraMuteQ
MetSem#12 - B. Garnier
Repérer les co occuences - identifier des thématiques6 classes issues d’une classification IraMuTeQ
Solennités
Emploi
CombatsRéformes
Essai d’interprétation --> thémes
Valeurs Democratie
On classe les parties de texte et pas les mots
Affichage des mots spécifiques des classes
MetSem#12 - B. Garnier
AFC surTLA croisant « mots » et variable classe
MetSem#12 - B. Garnier (IraMuteQ)
Corpus « Vœux »
Graphe de classe
MetSem#12 - B. Garnier
Corpus « Vœux Elysée »
(IraMuteQ)
Relie les mots et pas les unités de texte
• en ligne Gargantext (D. Chavalarias et A. Delanoë - CNRS/EHESS – ISC-PIF/CAMS) :
https://gargantext.org/Hyperbase (L. Vanni - UMR 7320 : Bases, Corpus, Langage) : http://hyperbase.unice.fr/ TXM : http://textometrie.ens-lyon.fr/spip.php?rubrique85• payantsAlcesteSAS® (Text Analytics)SPAD
D’autres outils (non R)
MetSem#12 - B. Garnier
La démarche de Sonal (analyse qualitative)
Sonal : retranscrire et mettre des balises
history culture economy PAR FRA SHS F 21european union common history and culture euro mondial wars PAR FRA SHS F 21wide multiple history war association PAR FRA SHS M 21western global power PAR FRA SHS F 21heart centre variety development culture BUD HUN ART F 21old union credit war tour BUD HUN ART F 21union boots fusion small tour BUD HUN ART F 21
Préparer les données pour les logiciels de ST
**** *p_FRA *v_PAR *d_SHS *s_F *age_21 history culture economy**** *p_FRA *v_PAR *d_SHS *s_F *age_21 european union common history and culture euro mondial wars **** *p_FRA *v_PAR *d_SHS *s_M *age_21 wide multiple history war association**** *p_FRA *v_PAR *d_SHS *s_F *age_21 western global power **** *p_HUN *v_BUD *d_ART *s_F *age_21 heart centre variety development culture**** *p_HUN *v_BUD *d_ART *s_F *age_21 small cold foolish leisure expensive**** *p_HUN *v_BUD *d_ART *s_F *age_21 old union credit war tour**** *p_HUN *v_BUD *d_ART *s_F *age_21 union boots fusion small tour
Mise en forme « tableur »
Mise en forme « Alceste »
Données nettoyéesTextes courts/longs
MetSem#12 - B. Garnier
• Réponses à des questions ouvertes en relation avecdes caractéristiques des répondants, et l’objectif del’analyse est de savoir Qui dit quoi ? : Spad ouR.TeMiS
• Entretiens ou textes longs d’où l’on cherche à faireémerger des thématiques Alceste ou IRaMuTeq. llpermet de faire un découpage des textes longs enunités plus petites en fonction des la catégoriegrammaticale des mots (réduction rapide de la tailledu vocabulaire et l’identification automatique decatégories)
!Utiliser plusieurs outils
Les outils – Exemple de critères de choix
MetSem#12 - B. Garnier
• Préparer les données selon méthode, outil →nettoyage
• Appliquer les méthodes →Lexicométrie (fréquences), Détection de co
occurences ! thématiques (classifications)
→Vocabulaire spécifique (test), Qui/quoi (AFC)
• (Re)faire des analyses Aller/retour entre « calculs automatiques » et choix de paramétrage
• Donner du sens /des pistes/interpréter
Protocole avec les logiciels
MetSem#12 - B. Garnier
• Introduction• Données• Méthodes• Outils• Conclusion
Plan de la présentation
MetSem#12 - B. Garnier
• Connaissances en méthodologie statistiquepour valoriser les résultats à un public non averti (éviter l’effet boite noire)
• Niveau en informatiqueEncodage/ formats de fichiers« crawler » (Hype), machine learning
• Pratique de logicielsEvolution (ex. packages R), Python
Conclusion (1)
MetSem#12 - B. Garnier
• Statistique textuelle à l’honneur • Analyser des données (non structurées)
• Explorer les données autrement - sans a priori → complémentarité des méthodes (qualitative/quantitative)
• Exploration ultra-rapide des corpus mais pré connaissance du corpus irremplaçable pour faire des choix de paramétrage et interpréter les résultats produits ! utilisation conjointe de l'informatique tout-automatique et de l'intuition humaine
Conclusion (2)
MetSem#12 - B. Garnier
• http://lexicometrica.univ-paris3.fr/ (actes des Journées d’Analyse des Données Textuelles)
• http://textometrie.ens-lyon.fr/• rtemis.hypotheses.org/• www.iramuteq.org/• http://jacquesjenny.com/legs-sociologique/• http://journals.openedition.org/bms/3023
Ressources (1)
MetSem#12 - B. Garnier
• Bécue-Bertaut M. 2018, Analyse Textuelle avec R, Presses Universitaires de Rennes (Pratique De La Statistique), 190 p.
• Benzecri J.-P., 1973 – L’analyse des Données (tome 1 et 2). Dunod, Paris• Benzécri, J. P., 1984 – Description des textes et analyse documentaire, Cahiers de
l'analyse des données, Tome 9,no. 2 , p. 205-211• http://www.numdam.org/item?id=CAD_1984__9_2_205_0• Garnier B., Guérin-Pace F., 2010. Appliquer les méthodes de la statistique textuelle,
Ceped, les clefs pour, Paris (http://www.ceped.org/fr/publications-ressources/editions-du-ceped-1988-2012/les-clefs-pour/article/appliquer-les-methodes-de-la )
• Lebart L., Salem A. 1994. Statistique textuelle. Paris, Dunod, 342 p. http://www.dtmvic.com/
• Tufféry S. Data Mining et Statistique décisionnelle. (4e Ed) Technip• Vautier, C. (dir.) 2015. Nouvelles perspectives en sciences sociales : revue
internationale de systémique complexe et d'études relationnelles. Volume 11, numéro 1, l’analyse de données textuelles informatisée, Prise de parole
Références (1)
MetSem#12 - B. Garnier
• Baril E., Guérin-Pace F. 2016, Compétences à l’écrit des adultes et événements marquants de l’enfance : le traitement de l’enquête Information et vie quotidienne à l’aide des méthodes de la statistique textuelle, Economie et statistique, N° 490
• Bastin G., Bouchet-Valat M. 2014. Media corpora, text mining, and the sociological imagination – A free software text mining approach to the framing of Julian Assange by three news agencies using R.TeMiS. Bulletin de Méthodologie Sociologique, 121 (1), p. 5-25.
• Guérin-Pace F., Saint-Julien T., 2012 - Les mots de L’Espace Géographique. Une analyse lexicale des titres et mots-clés de 1972 à 2010. L’espace géographique, 41 (1), p. 4-30
• Marchand, P. « La fabrique parlementaire du discours sur la “radicalisation” : politiques, acteurs, experts », dans N. Baygert, E. Durin, É. Maas et L. Nicolas (dir.), Communiquer (sur) la radicalité – Les Cahiers PROTAGORAS, n° 4, octobre-décembre 2017, p. 30-46.
• Marpsat, M. 2010. La méthode Alceste, Sociologie, N°1, vol. 1, https://sociologie.revues.org/130
• Reinert M. 1983, Une méthode de classification descendante hiérarchique : Application à l'analyse lexicale par contexte. Cahiers de l'Analyse des Données, 3, pp. 187-198
Références (2)
MetSem#12 - B. Garnier
Merci pour votre attention
MetSem#12 - B. Garnier