Cours Sphinx Lexica

Analyse Lexicale avec Le Sphinx Manuel d'utilisation

Copyright © Sphinx Développement 1986 – 2006.

Tous droits réservés

Imprimé le 12 Septembre 2006

Le Sphinx Développement Parc Altaïs 74650 Chavanod Téléphone : 04 50 69 82 98 Fax : 04 50 69 82 78 e-mail : [email protected] Web : www.lesphinx.eu

2

Avant propos Ce manuel accompagne la nouvelle version du Sphinx que vous venez d'acquérir : Le Sphinx V5. Nous vous en félicitons.

Ce logiciel s’appuie très fortement sur les interfaces et les protocoles de Windows. Vous retrouverez ainsi les habitudes que vous avez déjà acquises par l’expérience de ce système (gestion des fichiers, menus, dialogues, listes déroulantes, raccourcis…). Nous nous sommes efforcés de toujours respecter ces conventions bien établies. C’est pour cela que vous parviendrez très facilement à l’utiliser.

Vous serez également guidé par votre connaissance du travail des enquêtes, des études et de la statistique. Nous utilisons le langage de ces métiers et avons structuré le logiciel par rapport aux grandes étapes d’une étude : questionnaire, saisie, dépouillement, analyse… Notre souci constant est de faciliter votre compréhension devant l’écran. A cette fin, de nombreux commentaires sont affichés pour vous aider à vous situer et à comprendre les menus, boutons de commande, options… Pour les opérations les plus complexes, vous êtes pris en charge par un assistant. Enfin, lorsque le sens d’un article ou d’un bouton vous échappe, il vous suffira d’essayer pour comprendre très vite son utilité.

Pour toutes ces raisons, vous n’aurez aucune difficulté à vous servir de votre logiciel et peut-être pourrez-vous même vous passer du manuel. Mais vous risquez alors de le sous-utiliser ou de vous compliquer inutilement la vie. En effet, toutes les possibilités qu'il offre ne sont pas également visibles ni toujours très compréhensibles au premier abord et vous risquez de passer à côté de fonctions très utiles.

Le premier objectif de ce manuel est de vous faire découvrir tout ce que vous pourrez faire avec le logiciel. A cette fin, il est organisé en doubles pages développant une tâche, une fonction, un résultat que vous pourrez entreprendre ou réaliser.

La partie de droite vous montre le logiciel, ses écrans, ses menus, ses dialogues et les états (tableaux, graphiques) qu’il permet de produire.

La partie de gauche situe ce que fait le logiciel en terme de finalité, d’utilité et de méthodes mises en œuvre. Vous y trouverez également une explication détaillée des modes opératoires.

Si vous êtes déjà utilisateur du Sphinx, vous pourrez rapidement identifier les nombreuses nouveautés et vous retrouverez facilement vos habitudes.

Si vous découvrez ce logiciel, vous comprendrez facilement son organisation et son système de fonctionnement. La visite guidée que nous vous proposons en tout début du manuel vous accompagnera dans vos premiers pas. En vous reportant ensuite au manuel vous apprendrez à vous en servir complètement et deviendrez des experts.

En vous souhaitant un bon travail.

Yves Baulac, Jean Moscarola

Sphinx V5 Analyse des données qualitatives avec le Sphinx : les fondements 3

Sommaire

Analyse des données qualitatives avec le Sphinx : les fondements ........... 5 1. Les études « quali » .................................. 6 2. L’acquisition des données textuelles ........ 2 3. Produire des extraits ou faire du

verbatim .................................................... 3 4. Faire de l’analyse de contenu ................... 3 5. Analyse de données textuelles et

approximation lexicale............................... 2 6. Privilégier une approche ou les

combiner ? ................................................ 3

Le traitement simple des questions textes .................................. ... 5 1. Etudier les textes ....................................... 6 2. Faire du verbatim ...................................... 8 3. Tableau de réponses ouvertes ............... 10 4. Analyse de contenu simple, en cours

de lecture ................................................ 12 5. Analyse de contenu avec code-book ...... 14

L'analyse lexicale en bref ...................... 2 1. Les interfaces ............................................ 3 2. Du texte aux formes graphiques -

l’approximation lexicale ............................. 1 3. Du texte aux structures linguistiques :

la statistique lexicale ................................. 3 4. L’atelier lexical en bref .............................. 5 5. Le panneau lexical : produire des

lexiques ..................................................... 7 6. Le panneau lexical : segments

répétés et lexiques relatifs ........................ 9 7. Le panneau lexical : du bilan aux

réponses caractéristiques ....................... 11

La construction des lexiques .............. 14 1. Caractères séparateurs et

environnement ......................................... 15 2. Rechercher et marquer des éléments

dans le lexique ......................................... 17 3. Réduire les lexiques ................................ 19 4. Groupements automatiques .................... 21 5. La gestion des dictionnaires .................... 23 6. Les différents types de dictionnaires ....... 25 7. Analyse thématique ................................. 27 8. Lexique des expressions** ........................ 2 9. Rechercher les segments répétés** .......... 4

Navigation lexicale et recherche de contexte ....................................... ...... 7 1. Du lexique au corpus : la navigation

lexicale ....................................................... 8 2. Situer un mot dans son contexte

textuel ...................................................... 10 3. Les lexiques relatifs** .............................. 12 4. Production d'extraits ................................ 14 5. Résumé des différentes manières de

produire des extraits ................................ 16

Analyse syntaxique et lemmatisation ..................................... .. 19 1. La lemmatisation ...................................... 20 2. Lancer la lemmatisation ........................... 22 3. Analyser un texte lemmatisé ................... 24 4. Modifier le corpus .................................... 26

La statistique lexicale .......................... 29 1. Les indicateurs lexicaux .......................... 30 2. Bilan lexical .............................................. 32 3. Construire un tableau lexical ................... 34 4. Listes des mots spécifiques ..................... 36 5. Sélections dans un tableau lexical ou

dans des listes de mots spécifiques ........ 38 6. L'indice de spécificité ............................... 40 7. Comparer à un lexique de référence ....... 42

4

Codification automatique des textes ............................................ ......... 45 1. Créer de nouvelles variables

d’origine lexicale ...................................... 46 2. Codification lexicale ................................ 48 3. Mesures lexicales .................................... 50 4. Modification du contenu d'une

variable texte ........................................... 52 5. Fractionner une variable texte ................ 54

Ouvrir un fichier de données textuelles ........................................ ...... 57 1. Du corpus textuel à la base de

données .................................................. 58 2. Ouvrir un texte à analyser ....................... 60 3. Texte balisé ............................................... 1 4. Préparer et ouvrir un fichier

d'entretiens semi-directifs ......................... 3 5. Texte annoté ............................................. 5 6. Exemples de textes annotés ..................... 7 7. Macro commandes pour la

préparation des textes............................... 9

Etudes de cas ..................................... .. 11 1. Analyse des réclamations clients –

Marque Hextra ........................................ 12 2. Identification du territoire de

communication d’une marque ................. 14 3. Cas « Ovale » ........................................... 1 4. Le rêve des Français ................................. 2 5. Les mots qui touchent : analyse

textuelle des « tubes » de la chanson française. ................................................... 2

Bibliographie ..................................... ..... 5


Analyse des données qualitatives avec le Sphinx : les fondements

6

1. Les études « quali »

Les situations de recherche Les « études quali » se définissent bien souvent par opposition aux « études quanti ». On indique ainsi que les informations étudiées proviennent de sources multiples documents, écrits ou discours et qu’elles sont analysées sans recourir au calcul. Comme nous le verrons cette simplification et abusive même si elle définit assez bien les situations de recherche dans lesquelles on a recours aux approches qualitatives. Les enquêtes : recueillir des informations nouvelle s. Le qualitatif apparaît avec la présence de questions ouvertes dans les questionnaires. Celles-ci échappent aux analyses statistiques qui font l’efficacité des dépouillements classiques et sont trop souvent tout simplement oubliées au moment de l’analyse. Avec les guides d’entretien, les interviews non directives, les entretiens de groupe, la conversation remplace le questionnaire. Le recueil des informations et leur analyse deviennent bien plus difficile (il faut enregistrer, retranscrire….) et implique tout un savoir faire bien spécifique. Il s’agît là de privilégier l’écoute plutôt que le questionnement, la compréhension et l’analyse en profondeur plutôt que le dénombrement. Les documents : exploiter les informations existant es Avant de lancer l’enquête on a bien sûr étudié la bibliographie sur le sujet et les documents qui peuvent nous renseigner. Comme le font les historiens la quête porte alors sur les traces qui renvoient au domaine étudié (documents juridiques, transactionnels, commerciaux, comptes rendus, annonces et communications de toute sorte…). L’information recueillie peut être très abondante et hétérogène et pose les mêmes difficultés de compréhension et d’analyse. L’évolution des technologies de l’information et Internet notamment, bouleverse l’accès aux données que nous venons d’évoquer. Les enquêtes via le web simplifient considérablement la collecte des réponses aux questions ouvertes, les interviews par mail ou par dialogue électronique (chat) offrent de nouvelles opportunités…

Les bases de données bibliographiques, les moteurs de recherches permettent au chercheur de récupérer très facilement références et publications. En généralisant le format numérique les outils de traitement de texte rendent potentiellement accessibles toutes sortes de fichiers et archives électroniques. Ces évolutions mettent à disposition du chercheur un matériau considérable et posent de nouveau problèmes : comment traiter des informations dont l’abondance peut très vite décourager et dont la complexité pose des problèmes spécifiques pour lesquelles la statistique n’offre pas de réponse immédiate.

Les méthodes Ceci nous conduit à une autre caractéristique des études « quali ». Le terme renvoie à l’approche traditionnelle des textes par lecture et annotation sans autres instruments que le stylo le papier dans la tradition des études littéraire et de la critique. Le travail du chercheur consiste à rendre compte des textes étudiés en citant des extraits et en produisant un nouveau texte compréhensif et démonstratif dont, pour faire bref, la qualité ne tient qu’au talent de lecteur et d’écrivain du chercheur. Avec l’analyse de contenu ou analyse thématique, le classeur et le stylo de couleur s’ajoutent à la panoplie des instruments de recherche. Le travail de lecture devient plus systématique, le système de compréhension s’explicite en une grille qui guide le classement des citations et le repérage par couleurs ou annotations des passages du texte. Cet effort de méthode débouche naturellement sur le dénombrement des thèmes, si on admet que la répétition ou la fréquence peuvent également faire sens et que l’argument du décompte renforce la démonstration. L’appellation « quali » évoque ainsi le travail artisanal prudemment démarqué des méthodes scientifiques et de la statistique, mais l’approche des textes a aussi de tout temps été marquée par la fascination pour le chiffre ou le recours au comptage. Dans la tradition de la kabbale, de l’ exégèse et dans le travail des moines copistes les chiffres et les nombres guident vers les significations cachées ou permettent de contrôler l’exactitude des manuscrits. Des études sur la bible aux concordances de Saint Augustin le texte analysé est mis en fragments puis en cartes perforées… Les premières analyses par ordinateurs ont été effectuées en


1945 par IBM qui pour reconstituer les concordances de Saint Augustin. Devenu donnée textuelle, le texte échappe à la tradition « quali » et se trouve aussi concerné par les problématiques « quanti » comme l’ont montrés des travaux sur l’étude de l’attribution des œuvres littéraires et l’usage déjà très ancien des techniques informatique par les services de renseignements… En banalisant ces méthodes et en les rendant accessibles, les évolutions technologiques ajoutent l’ordinateur, le moteur de recherche et le logiciel d’analyse de données textuelle à la boite à outil du chercheur.

La spécificité des données textuelles et les voies d’analyse assistée par ordinateur.

Réponses aux questions ouvertes dans les enquêtes, interviews ou entretiens de groupe, revue bibliographique,

étude de documents, ces corpus ont en commun d’être essentiellement formés de données textuelles. Elles ont la complexité et l’ambiguïté de la langue. Leur sens n’est pas fixé a priori comme c’est le cas pour les données quanti pour lesquelles les unités de mesures (variables numériques) et les états observés (variables nominales) sont fixés par un accord tacite de compréhension entre le répondant et l’enquêteur. La signification des données textuelles est à découvrir dans le sens des mots des phrases et de l’organisation du discours. Chacun de ces niveaux (lexique, syntaxe, rhétorique) apporte une contribution au sens dégagé par la lecture. Cette propriété justifie la méfiance de ceux qui pensent qu’on ne peut pas faire l’économie d’une lecture humaine et qu’une machine ne peut pas comprendre un texte. Toutefois sans pour autant souscrire à la prétention des tenants de l’intelligence artificielle nous pouvons accepter que l’ordinateur et sa puissance de calcul apportent une aide pour l’approche des corpus textuels et notamment lorsque ceux-ci sont de très grande taille.

2

Nous montrerons dans ce qui suit que l’ordinateur peut être utilisé comme un auxiliaire pour rendre plus systématique les approches classiques et augmenter la productivité du chercheur et la qualité de ses résultats. - En effet, les fonctions de recherche peuvent considérablement accélérer le travail traditionnel nécessité par l’usage de la citation ou la production de verbatim - Pour l’analyse de contenu, la construction d’une grille thématique et la codification du corpus peuvent se faire en utilisant les ressources de l’informatique. Le travail de conception devient ainsi plus explicite et rigoureux et on gagne en souplesse et productivité pour la lecture et la codification Mais il peut aussi être mis en œuvre d’une manière beaucoup plus automatique en fournissant, à partir du repérage des formes graphiques qui composent le texte, des indications sur son contenu. - L’analyse de contenu peut ainsi être automatisée en construisant les listes de mots ou dictionnaires correspondant aux différentes catégories de la grille thématique. La fréquence avec laquelle ces éléments se trouvent dans le texte sert d’indicateurs pour mesurer la présence et l’intensité de ces catégories. On peut parler ici de sémiométrie puisque l’usage des dictionnaires permet de « mesurer » les significations ainsi repérées dans le texte - L’analyse lexicale offre une autre voie. Elle consiste, sans aucun a priori sur le texte à utiliser la redondance des données de langue et la statistique pour substituer à la lecture du texte celle d’éléments lexicaux qui en sont extraits : listes des mots les plus fréquents (mots clés), cartes visualisant la manières dont les mots se trouvent associés (zones thématiques) ou l’effets des circonstances ou des contextes (mots spécifiques) Ces approches sont particulièrement bien adaptées au traitement de très gros corpus. Plus le corpus est volumineux, plus on gagne de temps et plus les régularités et effets statistiques sont significatifs.

Outils et stratégies d’analyse Tout ceci ne peut bien sûr se faire qu’avec l’aide de logiciels adaptés. L’offre est désormais assez abondante,

mais quel logiciel choisir ? Tout dépend du type d’analyse envisagée et de degré de spécialisation des fonctions proposées. On peut distinguer 3 grandes classes de logiciels - Les logiciels de recherche. Ils permettent de retrouver dans le texte des passages en fonction du contenu ou du contexte et mettent en œuvre des procédures plus ou moins sophistiquées pour produire du verbatim (Lexico, WordMapper, Diction, Sphinx Lexica…) - Les logiciels d’analyse thématique et de contenu : ils aident au repérage, à la codification et à l’organisation des idées du texte, ainsi qu’à leur analyse et à leur synthèse (Nud’ist, Atlas ti, Modalisa, Sphinx Lexica…) - Les logiciels d’analyse de données textuelles : ils abordent le texte par le biais de la statistique (Spad T, Alceste, Hyperbase, Sphinx Lexica, …) Ces logiciels sont plus ou moins spécialisés sur leur fonction principale. Alceste par exemple est très spécialisé, Modalisa l’est beaucoup moins. Dans ce qui suit nous nous réfèrerons principalement à Sphinx Lexica qui est un outil très généraliste bien qu’à premier abord il semble s’adresser plus spécifiquement au traitement d’enquête. Quelque soit l’outil, le chercheur a un rôle essentiel. C’est lui qui pilote le logiciel et c’est lui qui lance sélectionne les citations et le verbatim, élabore la grille thématique lit et code le texte, c’est enfin lui, qui seul est capable d’interpréter et de donner sens aux résultats des statistiques lexicales. Pour cela il lui faudra maîtriser le passage obligé de l’acquisition des données et de l’intégration du corpus dans le logiciel et selon ces choix produire du verbatim, mener une analyse thématique de contenu, ou faire de l’analyse de données textuelles. Les techniques avec lesquelles il devra se familiariser reposent également sur une bonne connaissance des propriétés de la langue des textes et discours qu’elle permet de construire. Quelques connaissances utiles sur les propriétés de la langue, des textes et des idées….

2

2. L’acquisition des données textuelles La première chose à faire consiste à mettre le texte sous une forme utilisable par le logiciel. Cela implique non seulement de l’avoir sous une forme numérique en le saisissant dans un traitement de texte ou en le recopiant depuis Internet par, mais aussi à le découper en distinguant les différents éléments qui le composent, bref le mettre sous la forme d’une « table de données ». Tout dépend alors des circonstances.

Les questionnaires S’il s’agît d’étudier les réponses aux questions ouvertes d’une enquête par questionnaire faite avec le logiciel, les texte est acquis au moment de la saisie des questionnaires pour le ‘enquêtes papier crayon’ ou directement entré par le répondant lorsqu’il répond à une enquête internet.

Les interviews non directives Pour les interviews non directives le travail est plus complexe car il faut d’abord «mettre le texte dans Sphinx». La méthode la plus simple consiste à le retranscrire dans un questionnaire Sphinx composé des éléments suivants : 1- Des questions d’identité pour enregistrer le nom et les caractéristiques de l’interviewé 2- Une question pour noter le texte de la question et une autre pour le texte de la réponse Pour une interview on saisira ainsi autant d’observations que d’échange question réponse auquel il a donné lieu. Il faudra en outre pour chaque nouveau couple répéter les questions d’identité. Si les interviews ont déjà été saisies dans un traitement de texte on importe directement dans Sphinx le fichier qui les contient. Ce travail nécessite le respect des consignes suivantes : 1/ le fichier à importer doit être enregistré au format texte . Les fichiers de Word ne sont reconnus que s’ils ont été enregistrés sous se format. 2/ afin de distinguer le texte des questions et des réponses et indiquer quand on passe d’une interview à une autre, il faut ajouter des repères dans le texte. Ces repères doivent

respecter des règles qui permettront à l’ordinateur de les reconnaître et de les interpréter. Si seul le texte des réponses a été saisi il suffit d’ajouter en début le nom de la première interview puis celui de la deuxième et ainsi de suite pour repérer le passage d’une interview à l’autre. On appelle ces indications des jalons .

Les bases de données et l’utilisation des balises

Le texte à analyser peut également provenir d’une d’une application informatique : logiciels de messagerie, banque documentaires… dans ce cas les données sont structurées par des balises : indications placées au début de chaque élément qui définissent la nature du texte consécutif. Par exemple pour une base de données bibliographique : Titre : les Misérables Auteur : Victor Hugo Editeur : Hachette Résumé : Histoire de Jean Valjean et Cosette…. Titre : les Sequestrés d’Altona Auteur : Jean Paul Sartre Editeur : Seuil Résumé :…

Analyse d’une collection de documents quelconques

C’est le cas par exemple lorsque les données à analyser sont composées d’articles de presse ou d’autre sources documentaires constituant le corpus de l’étude. C’est à l’analyste d’ajouter dans le fichier texte où il a rassemblé tous ces éléments les annotations qui permettront d’indiquer qu’on passe d’un article à un autre ou d’une source à une autre. L’ordinateur pourra alors construire une table dans laquelle sera notée le nom de l’article ou de la source d’une part et le contenu d’autre part. Si les différents textes sont longs on peut en outre décider de les fragmentés paragraphes ou phrases.


Analyse de sites web ou une page de liens

Le logiciel permet d’aspirer directement le contenu de sites ou de pages sélectionnées par un moteur de recherche. Cette possibilité ne permet malheureusement pas d’accéder aux contenus des sites dynamiques. Dans ce cas il faut procéder manuellement en parcourant le site et recopiant le texte dans un questionnaire conçu à cet effet.

3. Produire des extraits ou faire du verbatim Faire du verbatim (ou des citations) est la méthode la plus utilisée dans les études qualitatives. Ces citations peuvent être choisies en lisant le texte ou sélectionnées de manière systématique selon le contexte ou selon le contenu.

Verbatim par contexte Savoir qui dit quoi ou sélectionner les citations selon les circonstances ou tout autre information contenue dans les réponses aux questions fermées. Ce type de sélection peut être plus ou moins complexes : on peut n’utiliser qu’un seul critère, par exemple ce que disent les femmes ou en combiner plusieurs en s’intéressant aux femmes de moins de 30 ans et diplômées.. Dans les enquêtes de satisfaction le contexte pertinent sera plutôt tous ceux ou celles qui déclarent être insatisfaits, l’identité apparaissant comme la signature de chaque citation…

Verbatim selon le contenu Sélectionner les citations en fonction de ce qui est dit. Cette approche privilégie le contenu qui peut être repéré automatiquement par la présence dans le texte d’un ou plusieurs mots ou par un travail de codification préalable (voir analyse de contenu)

Les 2 approches par le contexte et par le contenu peuvent bien sûr être combinées pour restituer le texte par fragments relatifs aux différents angles de vue ou problématiques de l’étude.

4. Faire de l’analyse de contenu Cette méthode consiste à lire l’ensemble du corpus en repérant les thèmes ou idées qu’il contient pour ensuite produire du verbatim par thèmes et / ou mener une analyse statistique des thèmes. Les étapes du travail sont les suivantes. Illustrons-les sur le cas de l’analyse des questions ouvertes dans les questionnaires.

Définir la grille des thèmes Elle organise la description des idées susceptibles d’être présentes dans le texte. Par exemple pour analyser les réponses à la question : « Si vous gagniez au loto, que feriez vous ? » on distingue : - les actions : consommer, investir, donner… - les personnes concernées : moi, mes proches, les gens… - la tonalité de la réponse : neutre, sceptique, humour….

Ajouter au questionnaire les variables thématiques Elles décrivent les thèmes et leurs catégories (modalités). Pour les implémenter, on va modifier le questionnaire et ajouter les questions correspondant à la grille Créer le code-book C’est l’interface dans laquelle les idées du texte seront codées. Elle se présente comme un formulaire qui présente la réponse texte à analyser et les « questions » de la grille thématique. On peut rajouter une nouvelle variable texte pour recopier les expressions savoureuses et les retrouver plus facilement.

2

Analyser la fréquence des thèmes et faire du verbat im Une fois toutes les réponses lues et codées, l’analyse s’achève par l’étude statistique des thèmes et leur illustration par le verbatim qui leur correspond. Toutes les ressources statistiques sont alors disponibles pour confronter les thèmes entre eux ou les croiser avec les autres variables de l’enquête. Si la grille thématique est pertinente les résultats seront à coup sûr intéressants.

5. Analyse de données textuelles et approximation lexicale Cette approche s’impose lorsque le corpus est très volumineux. Elle permet de gagner beaucoup de temps mais requiert un savoir faire spécifique autant pour bien maîtriser les méthodes mises en œuvre que pour en interpréter les résultats.

Approcher le texte par le lexique

L’idée est simple : prendre connaissance du texte à partir de des mots les plus fréquemment utilisés. L’informatique et la statistique permettent de faire cela très vite quelque soit la taille du corpus. Plus il est volumineux, meilleurs sont les résultats. Il faut ensuite pouvoir se faire une idée du texte à partir d’une simple liste de mots classés par fréquences décroissantes et bien choisir cette liste. L’exemple ci-dessous donne les différents lexiques tirés de l’étude sur le rêve des français.

Les mots outils sont révélateurs de l’énonciation, ici la fréquence des je et j est vraiment remarquable. Il faut descendre plus bas pour trouver les premiers mots pleins, ou les supprimer (Lexique sans mots outils). La lemmatisation ramène chaque mot à sa forme racine : l’infinitif des verbes, le masculin singulier des noms et adjectifs. Enfin, présenter le lexique par catégories grammaticales permet de focaliser l’attention sur les objets (substantifs), les actions (verbes) et évaluations (adjectifs). On peut enfin chercher à grouper les termes du lexique en utilisant des dictionnaires de termes équivalents pour encore réduire la variété lexicale et mieux approcher les différentes idées du texte et leur importance.

Segments répétés et cartes d’association lexicales

Les lexiques donnent très rapidement un aperçu du texte analysé mais ils peuvent aussi conduire à des interprétations erronées. Il faut donc vérifier et resituer chaque mots dans son contexte en revenant au texte (verbatim) ou d’une manière plus synthétique en cherchant les segments répétés et en produisant des cartes d’associations lexicales.

Les « segments répétés » (séquences de mots répétés à l’identique) renvoient les rigidités du texte, les formules toutes faites ou la langue de bois. Il permettent aussi de soulever bien des ambiguïtés (arrêter de travailler) et révèlent les leitmotivs du corpus.

2

Les cartes d’association lexicales D'une manière moins rigide que les segments répétés la statistique des associations lexicales (via l’analyse factorielle des correspondances multiples) donne une idée de la propension à associer les mots les uns aux autres ou au contraire à ne pas les faire coexister dans une même expression. Ainsi, la carte ci dessous laisse apparaître dans les constellations proches ou distinctes les réseaux sémantiques, modèles cognitifs ou configurations mentales qui dans leur répétition structurent le discours. Ici on peut opposer les évocations généreuses à droite, à celles de l'utilitarisme à gauche.... La lecture de ces cartes conduit à identifier les thématiques du corpus. Elles ont l'avantage d'être produites sans biais cognitifs et de réduire très significativement la masse d'information qui devient ainsi partageable.... et discutable.

Influence des contextes : bilans lexicaux, tableaux croisés et vocabulaires spécifiques

Comment ont répondu les différentes catégories de personnes interrogées ? C’est ce que permet d’établir un bilan lexical du type de celui-ci : Le corpus est à 56% formé de réponses de femmes soit 9 857 mots sur un total de 17 743. Leurs réponses sont en moyennes plus longues que celle des hommes, mais la catégorie la plus prolixe est les commerçants artisan. Les mots utilisés sont ils les mêmes suivant l’identité de celui qui parle, les circonstances ou toute autre information qui situe le texte analysé ? On peut le savoir en croisant par exemple les réponses à une question fermée avec les mots les plus couramment utilisés. Les femmes sont proportionnellement plus nombreuses à utiliser « donner », les hommes se distinguent par l’usage de « travailler » et « investir »… Plus directement on peut sélectionner la liste des mots sur représentés dans telle ou telle catégorie et obtenir ainsi les mots spécifiques qui les caractérisent. Ces

listes peuvent être cartographiées pour mettre en évidence des zones de langages. Les jeunes se distinguent par un vocabulaire utilitariste (voiture, appartement, meuble) à la différence des plus âgés qui privilégient l’aide et le don….

Intensités lexicales et lexicométrie On peut aussi orienter la recherche par rapport à ce qu’on pense trouver. Comme on le ferait en lisant tout le texte pour repérer les idées qui s’y trouvent on confie cette tâche à l’ordinateur. Pour cela on dresse des listes de termes exprimant les idées que l’on cherche à repérer. Ces listes appelées dictionnaire permettent de calculer le nombre de fois où l’un des termes se trouve dans la réponse analysée. L’intensité lexicale est calculée comme le rapport entre ce nombre et le nombre total de mots de la réponse. Le poids de l’idée correspondante est « mesuré » par se rapport ou intensité lexicale. Cet usage de données lexicales pour mesurer l’importance d’une idée permet de parler de lexicométrie. Ainsi, à partir d’une expression libre on mesure l’importance des éléments du modèle pour ensuite poursuivre les analyses comme si ces mesures étaient établies en recueillant des opinions sur des échelles. Le calcul des intensités lexicales permet de mettre en évidence les différences de réaction selon la catégorie de français. Comment procéder dans la partie classique de Sphinx ? Lemmatiser : Panneau de commande : Créer les variables lexicale ou dans l’Atelier Bouton Lemmatiser. Calculer les lexiques : Panneau de commande ou dans l’atelier bouton Réduire Regrouper Supprimer pour agir sur les mots marqués dans le lexique. Segments répétés : Panneau de commande, ou dans l’atelier article Expression du menu Lexique puis bouton Segments Cartes d’associations lexicales. Dans l’atelier : 1/ Sélectionner les mots à considérés dans la fenêtre du lexique


2/ Créer une variable codant la présence de ces mots : Recoder, Fermé sur les mots marqués du lexique. Nommer la nouvelle variable 3/ Lancer l’analyse factorielle des correspondances multiples à partir de la variable qui vient d’être crée : Menu Approfondir (menus déroulants du haut de l’écran), Analyse factorielle des correspondances multiples. 4/ Pour construire une typologie des thèmes : bouton Typologie et définir interactivement les classes Bilan lexicaux : Panneau de commande, Bilan par catégories ou tableau de bord en croisant une variable texte avec l’option de calcul Nombre de mots avec une autre variable fermée. Choisir les indicateurs (moyenne, somme, part…) dans l’onglet Tableau . Tableaux croisés lexicaux : Panneau de commande ou atelier lexical menu Vues, article Tableau lexical. Bouton Croiser pour sélectionner la variable à croiser avec le texte. Mots spécifiques : Panneau de commande ou dans l’atelier 1/ calculer la liste article Mots spécifiques du menu Vue puis bouton Croiser pour choisir la variable et Select. Pour fixer les seuils de spécificités et de fréquence. 2/ produire la liste des réponses caractéristiques de chaque catégorie (verbatim des réponses contenant le plus de mots spécifiques) : bouton Réponses caractéristiques. Intensités lexicales. La définition des dictionnaires peut se faire dans un traitement de texte ou en sélectionnant les mots dans l’atelier lexical. La procédure la plus rapide consiste à utiliser une thématique (ensemble de dictionnaires correspondant chacun à un thème) : atelier lexical, bouton Recoder et Analyse thématique. Sélectionner les fichiers des dictionnaires ou ouvrir une thématique existante puis Recoder. Pour chaque dictionnaire de la thématique une variable numérique contenant l’intensité lexicale de la réponse ou du fragment est crée. Ces variables peuvent être utilisées pour créer une typologie : Menu Approfondir, Classification automatique.

Comment procéder dans les tableau de bord multimédia ? La lemmatisation et la définition des variables d’origine lexicales dont le calcul des intensités lexicale et le calcul des doivent se faire dans la partie classique et l’atelier lexical. Il en également ainsi pour le calcul de mots spécifiques. Calcul des lexiques : Choisir l’option Mise en classe des mots dans l’onglet Calcul. Le bouton Dictionnaire permet de supprimer les mots outils et, ou de restreindre le lexique à une liste ou au contenu d’un dictionnaire. Dans le même onglet les articles du menu Simplifier permettent de contrôler la longueur de la liste en fixant le nombre de lignes ou la fréquence minimum. Tableau croisés et cartes lexicales. Une variable texte présentée comme un lexique (mise en classes des mots) peut être croisée avec n’importe quelle autre variable avec la possibilité d’utiliser des représentations cartographiées des tableaux croisés ainsi obtenus (Carte dans onglet Graphique ou raccourcis montrer la carte ). Ceci permet notamment de caractériser les réponses selon les différentes catégories de répondant. Dans le tableau de groupe ci-dessus caractérisant les réponses par sexe et CSP, la variable texte et calculée selon l’option Nombre de mots de l’onglet Calcul et dans l’onglet Tableau, moyenne somme et effectif ont été sélectionnés.

6. Privilégier une approche ou les combiner ? Les approches que nous venons d’évoquer sont très différentes. Le verbatim est de loin la pratique la plus courante et la plus simple à mettre en œuvre. L’analyse de contenu par recodification présente l’avantage de reposer sur une thématique qui en elle-même est déjà une contribution à la compréhension du texte. La codification permet de préciser avec la rigueur de la statistique comment cette thématique s’applique et de mettre en évidence les interdépendances entre thèmes et de rechercher des explications contextuelles.

4

D’autre par le vebatim associé à chaque catégorie de codification permet d’illustrer de manière concrète les idées générales et peut être d’en affecter la compréhension en leur donnant plus de vigueur ou de pertinence. Cependant ces 2 méthodes souffrent également de la subjectivité qui fatalement accompagne leur mise en œuvre dans le choix final de telle ou telle citation et dans la décision de coder de telle ou telle manière. L’usage des outils informatiques et statistiques permet de mieux contrôler ces biais subjectifs grâce à la formalisation et aux possibilités de recoupement. Enfin malgré ses nombreux avantages l’analyse de contenu est très consommatrice de temps et de ce fait très coûteuse pour l’analyse des gros corpus. L’analyse des données textuelle offre une voie bien différente et beaucoup plus technique. Elle présente l’avantage d’une réelle objectivité dans la production de substituts lexicaux (listes, cartes…). Bien que la subjectivité intervienne à nouveau au moment de la lecture et de l’interprétation elle bénéficie ainsi d’un crédit de scientificité que les autres approches n’ont pas. D’autre part, en détournant le regard du sens de surface vers l’interprétation des actes de langage (tout ce que le choix des mots révèle dans les répétitions ou les absences) ce procédé crée les conditions d’une distance critique et créatrice. Au risque bien sûr d’importants contre sens dont il faut se prémunir par des précautions élémentaires. - ces méthodes ne sont applicables que sur de très gros corpus, là ou les grands nombre et la statistique peuvent légitiment faire sens - un patient retour au texte reste absolument indispensable pour contrôler les interprétations rapidement acquises par ces techniques. A nouveau le verbatim s’impose - enfin certains aspects des contenus sont très difficiles à appréhender notamment pour tout ce qui concerne les évaluations ou les jugements. Il est facile de voir qu’il est question de travail ou de prix mais beaucoup plus difficile d’établir si le travail ou les prix sont évoqués positivement ou négativement. Les formes lexicales de l’évaluation et du jugement sont en effet très variées et complexes à appréhender… (pas trop, trop, trop peu ….). L’analyse lexicale doit être déconseillée pour traiter les réponses ouvertes dans des enquêtes sur un petit nombre de répondants (moins de 200). L’analyse de

contenu prendra moins de temps et les résultats en seront à coup sûr probants. Il est en revanche des situations où seule, compte tenu du temps ou des budgets disponible, l’analyse des données textuelles est envisageable. C’était par le exemple le cas pour l’analyse des 45000 pages du débat national sur l’avenir de l’école. Mais le plus souvent ces méthodes gagent à être mises en œuvre de manière complémentaire. Dans un premier temps l’analyse lexicale utilisée de manière exploratoire permet de rapidement prendre connaissance du corpus et dans les cas heureux de faire jaillir des pistes d’interprétation qu’on n’aurait peut être jamais empruntées autrement. C’est ainsi que la thématique émergente du texte peut être complétée par les problématiques, modèles et systèmes d’interprétation généraux qui permettront de construire ensuite une grille thématique plus pertinente. Enfin le travail méthodique d’analyse de contenu et de codage permettra si le corpus n’est pas trop volumineux de rigoureusement catégoriser les idées présentent dans le texte. Sinon il faudra lire le lexique pour le ventiler dans les dictionnaires qui permettront, par le calcul des intensités lexicales, d’automatiser le codage des idées présentes dans le texte. Enfin, après l’exposé des résultats statistiques, le texte reprendra ses droits grâce aux citations et verabtim qui ajouteront aux chiffres, le pouvoir du sens singulier des phrases ou des paroles.

Sphinx V5 Le traitement simple des questions textes 5

Le traitement simple des questions textes

6

1. Etudier les textes

Le Sphinx permet d’analyser les textes des questions ouvertes. Lexica ajoute à cette possibilité celle d’ouvrir n’importe quel autre texte en offrant un stade supplémentaire Etudier des Textes (menu Stade ).

Intéressons-nous ici au traitement des questions ouvertes. Il peut faire l’objet de 4 approches différentes : • Le verbatim : extraire un sous-ensemble de réponses

en fonction de leur contenu ou de leur contexte. • La présentation en tableau : dresser un tableau de

fréquence des réponses identiques et/ou des mots contenus dans les réponses en les croisant éventuellement avec une autre variable fermée.

• L’analyse de contenu : lire et interpréter les réponses pour les codifier dans une nouvelle variable.

• L’analyse lexicale : mettre en œuvre les techniques d’analyse lexicale dans l’environnement spécifique de l’atelier lexical (Plus² et Lexica uniquement) ou en lançant les procédures standards de Lexica.

Ces possibilités sont offertes à partir de l’article Etudier les textes du menu Recoder ou en cliquant sur le bouton Etudier les textes apparaissant au bas de la fenêtre de dépouillement des questions textes (Dépouiller / Dépouillement automatique ).

Verbatim

Cette fonction permet de sélectionner des extraits en fonction de leur contexte (selon les réponses à une autre variable) ou de leur contenu (vocabulaire de la réponse).

Ces extraits peuvent être présentés sous forme de liste organisée par catégories de réponses.

L’inclusion de ces extraits dans un rapport permet de rendre compte de l’enquête par une illustration raisonnée.

Tableaux de réponses

On peut présenter les réponses dans des tableaux. Cette présentation est bien adaptée dans le cas de réponses très répétitives qu’on pourra croiser avec d’autres variables caractérisant les répondants.

On peut également dresser le tableau des mots présents dans les réponses et ainsi opérer une recodification automatique en fonction du vocabulaire.

Analyse de contenu

Dans cet environnement, on lit les réponses et on code leur contenu dans une nouvelle variable décrivant les principaux thèmes évoqués dans les réponses.

Cette thématique peut être enrichie en cours de lecture par l’ajout de nouvelles modalités. Ce travail est facilité par la possibilité de voir les réponses selon les mots qu’elles contiennent.

Procédure et atelier lexical

Plus² et Lexica donnent accès à un environnement spécifique aux fonctions avancées d’analyse lexicale.


Analyse de contenu : lire et interpréter

Verbatim : citer, extraire, ill ustrer

Tableau de réponses et de

mots : dénombrer,

recoder, croiser

8

2. Faire du verbatim

La manière la plus simple de traiter les questions ouvertes consiste à restituer les réponses dans leur intégralité ou d'une manière raisonnée en opérant des sélections par rapport au contexte ou au contenu.

On pourra produire des listes de réponses : • classées selon l'identité des répondants ; • restreintes à tel ou tel profil (les satisfaits, les

mécontents...) ; • contenant tel ou tel mot.

Les étapes consistent à choisir la variable, à définir les conditions de l'extraction, et à transférer les citations ainsi obtenues.

Sélectionner une variable texte

Allez pour cela dans la fonction Etudier les textes du menu Recoder . Choisissez votre variable. En sélectionnant ensuite Extraits (Verbatim) , vous obtenez un dialogue dans lequel vous pouvez fixer les conditions de recherche et de présentation des extraits. •

Présenter les extraits en les classant

La case à cocher Trier selon permet de choisir la variable par rapport à laquelle on veut classer les citations. Dans l’exemple proposé ci-contre, on a choisi le Sexe. Les réponses des hommes seront d’abord présentées, puis ce sont celles des femmes.

Définir un profil de recherche

En cochant la case Réduire à un profil , on peut fixer les conditions auxquelles doivent répondre les extraits.

En définissant une sélection selon une ou plusieurs autres variables, on limite les extraits à des conditions de contexte (identité, comportement, opinion...).

On peut également filtrer selon le contenu. On définit dans le profil la condition que la variable analysée contienne tel ou tel mot. On peut en énumérer plusieurs. Ci-contre, on cherche les réponses contenant le mot amis (Plaisir de manger = amis).

Contrôler les résultats et les éditer

Les résultats de la recherche s'affichent dans une fenêtre. Le bouton Options permet si nécessaire de changer les conditions.

Avec le bouton Transférer , on peut Imprimer ou Inclure dans le rapport...

Produire des listes

L'article Produire des listes du menu Dépouiller offre une autre manière de faire du verbatim, mais dans cet environnement, on peut mettre dans les extraits le contenu de plusieurs variables en les présentant sous des formats listes ou fiches (Voir Produire des listes ).


Présenter les réponses en les classant

Sélectionner les réponses en les limitant à un profil

Sélectionner selon le contexte

Sélectionner selon le contenu

Imprimer ou inclure dans le rapport

Faire du Verbatim

10

3. Tableau de réponses ouvertes

La manière la plus simple et la plus rapide d’étudier une question ouverte est d’en dresser la liste en regroupant les réponses identiques ou en dénombrant les mots qu’elle contient. On obtient des tableaux de ce type à partir de Recoder / Etudier les textes ou en sélectionnant une question ouverte dans le menu Analyser / Tableau à plat . Dans le panneau lexical (Lexica uniquement), on accède aussi à ce type de tableau par le bouton Tableau de fragments.

Tableau des réponses et tableau des mots

Le tableau dresse la liste des réponses en affichant les effectifs et les pourcentages de chaque élément. Les boutons Mots et Réponses permettent de passer de la liste des mots à celle des réponses. Dans la liste des réponses, seules les réponses identiques sont dénombrées. Dans la liste des mots, on décompte le nombre de fois où chaque mot apparaît. Les mots outils1 sont systématiquement ignorés.

Ces tableaux peuvent être imprimés, copiés ou inclus dans un rapport (bouton Transférer ) de façon intégrale ou seulement pour les lignes sélectionnées (clic ).

Le bouton Ordonner permet de changer la présentation des lignes du tableau. Caractériser donne le détail des effectifs composant chaque ligne. Il est particulièrement intéressant dans le cas des listes de mots.

Analyser selon le contexte

Le bouton Croiser permet d’étudier les réponses aux questions ouvertes selon leur contexte : qui dit quoi ? Il suffit de choisir la variable selon laquelle on veut ventiler les réponses ou le vocabulaire. On revient à la liste non ventilée en décochant la case Croiser le tableau avec la variable accessible dans le bouton Croiser.

1 Ces mots sont définis par le dictionnaire des mots outils présent dans le répertoire dictionnaires « motoutils.dic ».

Recoder une variable texte

On peut créer une nouvelle variable définie à partir des éléments sélectionnés dans la liste des mots. Le bouton Recoder propose les choix suivants pour la nouvelle variable : • Fermée : les modalités de la nouvelle variable

indiquent la présence ou l’absence des mots sélectionnés dans la réponse.

• Ouverte numérique : la nouvelle variable enregistre le nombre de mots sélectionnés dans la réponse. Elle les dénombre tous si aucun n’est sélectionné. On obtient alors la longueur de la réponse (sans les mots outils). C’est un indicateur très utile.

• Ouverte texte : la nouvelle variable est une variable texte dont les éléments sont réduits aux mots sélectionnés dans la liste. On fabrique ainsi des textes expurgés ou réduits à des séquences remarquables.

Analyser un tableau de textes

Le bouton Analyser renvoie à l’environnement d’analyse des tableaux à plat ou croisés. On accède ainsi aux fonctions graphiques et statistiques classiques. On revient avec le bouton Liste .


Produire la liste des réponses

Produire la liste des mots

Croiser

Analyser

Sélectionner

Recoder

12

4. Analyse de contenu simple, en cours de lecture

L’analyse de contenu est un travail long qui peut être fastidieux. L’environnement de travail proposé permet de le rendre plus facile et plus rapide. Les thèmes peuvent être enrichis en cours d’analyse par l’ajout de modalités, par la possibilité de passer d’une réponse à l’autre en fonction de son contenu (navigation lexicale), et par l’affichage du contenu d’autres questions pour améliorer la qualité de la lecture.

Reprendre un travail en cours ou créer une nouvelle variable

Après avoir sélectionné Analyse de contenu dans l’article Etudier les textes du menu Recoder , on choisit de reprendre un travail en cours en sélectionnant la variable dans laquelle on a commencé la codification.

Si vous commencez votre recodage, il faut définir la variable dans laquelle vous souhaitez coder le contenu : une variable dont vous choisissez le type. Il s’agit le plus souvent d’une variable fermée dont les modalités se rapportent aux thèmes les plus fréquents, mais elle peut être aussi codée si on dispose d’un thésaurus ou d’un dictionnaire de thèmes, ou de type numérique pour donner une note à la réponse.

Elaborer la grille thématique et coder les réponses

Dans le cas de la codification dans une variable fermée, le bouton Changer les modalités permet de modifier la liste des thèmes en nommant les modalités, en créant de nouveaux thèmes ou en réorganisant leur liste (Ajouter , Supprimer , Monter , Descendre dans la liste des modalités), et ceci à tout moment.

Si on dispose d’une thématique déjà définie et très longue, on a tout intérêt à la rentrer dans un dictionnaire de codes éventuellement structuré. En associant cette liste à une variable code, on gagnera beaucoup de temps.

La codification

On code le contenu de la réponse en cours d’analyse en cochant la case correspondante ou en sélectionnant une ou plusieurs modalités dans la liste déroulante. Si vous avez plus de 10 modalités, les boutons Listes et Boutons vous permettent de choisir le mode d’affichage qui vous convient le mieux.

Le passage à la réponse suivante (flèches de navigation ou retour chariot) valide les réponses préalablement recodées. Le bouton Revenir vous ramène à l’état initial de la variable (avant validation de la dernière réponse).

Lexique et navigation lexicale

Vous pouvez faire apparaître la liste de tous les mots (lexique) contenus dans la variable analysée en déplaçant la séparation des deux parties de votre écran sur la droite. En sélectionnant un ou plusieurs mots dans cette liste, vous pourrez, avec les flèches de navigation, passer en revue les réponses contenant ces mots. Si vous cherchez un mot particulier, tapez-le rapidement au clavier, le curseur du lexique se positionnera dessus.

Vous pouvez également limiter la navigation à certains types de réponses en définissant leur profil (vous accédez à ce dialogue avec le bouton N° situé en bas à gauche de la fenêtre d’analyse de contenu).


Réponses en liste

Tirer pour cacher ou montrer le

lexique

Tirer pour agrandir ou réduire la fenêtre

Naviguer entre des réponses

Illustrer par une autre variable

Créer une nouvelle variable

Reprendre un travail en cours

14

5. Analyse de contenu avec code-book

Celle-ci doit s’effectuer dans l’environnement multimédia du Sphinx. Il s’agit de créer plusieurs questions pour recoder les réponses sur plusieurs dimensions : le thème, le sous-thème, la tonalité, les acteurs évoqués par exemple… On peut également prévoir une nouvelle question texte pour y recopier les "perles" ou les réponses particulièrement intéressantes.

On commence par la création de nouvelles questions dans l’élaboration du questionnaire. On prépare ensuite un environnement personnalisé d’analyse de contenu dans les formulaires multimédia. L’analyse de contenu s’effectue depuis le menu Consulter/Modifier de l'environnement multimédia.

2

L'analyse lexicale en bref

Sphinx V5 L'analyse lexicale en bref 3

1. Les interfaces

Pour aller plus loin dans l’analyse lexicale, Plus² et Lexica donnent accès à un environnement spécifique : l’atelier lexical (Etudier les textes / Atelier lexical / Panneau de commandes ). Celui-ci permet de : • Calculer différentes formes de lexiques (réduits,

regroupés par racine, relatifs à un dictionnaire….) ; • Sélectionner des mots pour retrouver toutes les

réponses qui les contiennent, produire des extraits ou des associations de termes ;

• Repérer les expressions du texte et les segments répétés ;

• Produire des tableaux lexicaux, des listes de mots spécifiques (relatifs aux modalités d’une autre variable), et des réponses caractéristiques ;

• Transformer une variable texte en produisant un nouveau texte expurgé, fragmenté ou lemmatisé ;

• Coder automatiquement le texte en fonction de son contenu lexical.

Toutes ces fonctions dotent le Sphinx Lexica d’un très puissant outil d’analyse. Pour en simplifier l’usage, quelques procédures standards ont été isolées. On peut les lancer à partir du panneau lexical disponible à partir du stade Etudier des Textes ou à partir de la fonction Etudier les textes .

On obtient ainsi directement les résultats attendus sans avoir à en spécifier la procédure dans l’atelier lexical. Néanmoins, celui-ci sera très utile pour affiner les résultats et réaliser les opérations plus complexes qu’il autorise.

L’atelier lexical

Cet écran est composé de 4 grandes parties : • A droite : une fenêtre présente différentes vues du

corpus ; • A gauche : on peut voir le lexique des mots ou des

expressions. En cliquant dans le lexique, on fait défiler les contenus correspondants dans la fenêtre de droite (navigation lexicale).

• Le bandeau du haut contient un ensemble de boutons de commande contrôlant le calcul et la présentation du lexique, la mise en forme du corpus, sa présentation, et sa codification dans de nouvelles variables.

• Les indications du bas de l’écran donnent des statistiques générales sur le texte étudié.

Le panneau de commandes lexicales

L’étude des textes fait l’objet de procédures mettant en œuvre des commandes complexes qui ont été en partie automatisées et que l’on peut ainsi directement exécuter sans passer par l’atelier lexical : • la production de différentes formes de lexiques

(réduits, lemmatisés2, stemmatisés3 selon la forme grammaticale), la recherche d’associations lexicales (segments répétés, lexiques relatifs, co-occurrences…).

• la mise en évidence des effets de contexte (indicateurs d’énonciation, tableaux lexicaux, listes de mots spécifiques, réponses caractéristiques…).

Enfin, ce panneau permet d’ouvrir n’importe quel texte présent sous forme de fichier texte.

2 chaque forme est ramenée à sa racine grammaticale (infinitif, singulier…) 3 chaque forme est ramenée à ses x premiers caractères

2. Du texte aux formes graphiques - l’approximation lexicale

L’analyse lexicale ignore la syntaxe de la phrase et donne la priorité aux mots. L’informatique permet en effet très facilement de dresser la liste des formes graphiques contenues dans un texte et d’en faire la statistique. C’est ce qu’on appelle extraire le lexique du texte.

Une forme graphique est une suite de caractères ne comportant pas de séparateurs (blanc, apostrophe, caractères de ponctuation). Dans ce qui suit, on utilisera l’appellation mot, en l’appliquant en fait à la réalité d’une forme graphique.

En assimilant ainsi les mots aux formes graphiques, on peut donner une approximation utile du contenu du texte par le seul examen des formes les plus fréquentes. Comme on le fait en survolant le lexique d’un livre pour avoir une idée de son contenu.

Cette assimilation peut être trompeuse du fait des polysémies (la forme «avions» dans la phrase «Nous avions de beaux avions») et des significations composées (pas mal = bien).

L’analyse lexicale repose ainsi sur une approximation, source d’erreurs, qu’on cherche à compenser par : • Un retour aisé au texte grâce à la navigation lexicale qui

permet de situer le mot dans son contexte. La phrase est le contexte le plus naturel et nous verrons plus loin comment jouer sur l’étendue de ce contexte.

• La recherche des segments répétés pour restituer les locutions et les expressions répétées dont chaque élément pris isolément peut induire un contre sens comme par exemple le trop de trop cher, le beau de pas beau...

• Une intelligence artificielle du texte consistant, par le procédé de l’analyse syntaxique automatique, à soulever l’ambiguïté des formes graphiques. Dans l’exemple ci-dessus, en repérant la fonction de verbe de la première forme avions, on distingue les significations avoir et aéroplane. C’est ce qu’on appelle la lemmatisation . A l’inverse, les synonymes (mots différents ayant la même signification) ou les mots composés, peuvent être gérés par des dictionnaires de mots équivalents ou d’expressions.

En combinant ces différentes fonctions, le Sphinx autorise une approche rapide des textes : • Calcul du lexique pour comprimer le texte ; • Navigation lexicale pour revenir au texte ; • Dictionnaires, segments répétés, et lemmatisation pour

une intelligence du texte.

On peut ainsi réduire l’effort de lecture en produisant un matériau moins volumineux que le texte initial. Mais ce n’est là qu’une manière d’approcher son contenu. On y trouvera un gain de temps qui peut être considérable et une prise de distance que la lecture naturelle interdit.

2

Corpus texte

Lexique

Corpus texte

Lexique

Navigation lexicale

Verbatim

Corpus texte

Lexique réduit et structuré

Navigation lexicale

Lemmatisation

Dictionnaire Verbatim

Segments répétés

Corpus texte

lemmatisé et solidarisé

Nouvelle vision du texte

Calculer le lexique

Interpreter

Sélectionner

L’approximation lexicale sommaire : Réduire le texte au début du lexique : l’examen des mots les plus fréquents donne une idée du contenu.

L’approximation lexicale contrôlée : Réduire le texte à son lexique et contrôler par la navigation lexicale le bien fondé des interprétations faites à partir du lexique.

L’approximation lexicale sélective : Travailler sur un lexique réduit après avoir éliminé les mots outils et solidarisé les segments. Concentrer l’attention sur l’examen des noms, verbes, adjectifs (utilisation de dictionnaires et de la lemmatisation).


3. Du texte aux structures linguistiques : la statistique lexicale

La statistique lexicale et l’analyse des données textuelles permettent d’aller plus loin que la simple approximation déduite de l’examen du lexique ou de ses dérivés.

En dénombrant les associations de termes entre eux ou avec d’autres variables, on est conduit à un autre type de «lecture» totalement objective et susceptible de révéler les structures que la quantification du texte peut mettre à jour. On peut ainsi transformer le texte en le décrivant par des variables statistiques classiques (codification automatique, mesures lexicales...) ou en le recomposant sous forme de nouveaux textes (textes expurgés, réduits à leurs formes lemmatisées...).

L’atelier lexical offre à cet égard de nombreuses possibilités pour mettre à jour les particularités lexicales des textes étudiés et prolonger leur analyse en utilisant toutes les techniques d’analyse de données du Sphinx.

Recherche des spécificités lexicales

Etablir la statistique des mots du texte selon une variable externe non textuelle. Rechercher les spécificités lexicales selon ces contextes, et les visualiser sous forme de cartes cognitives. Produire les phrases les plus caractéristiques de chaque contexte.

Codification et mesures lexicales

Décrire le texte par une ou plusieurs variables nominales codant la présence, dans les réponses, d’un ensemble de mots sélectionnés dans le lexique. Cette codification peut être enrichie de toutes les possibilités offertes par l’usage de dictionnaires thématiques, la lemmatisation, la recherche des segments répétés…

Caractériser l’énonciation (longueurs de réponses, de phrases, fréquence d’usage des embrayeurs...) ou les énoncés (intensités lexicales de termes ou champs sémantiques...) en créant de nouvelles variables numériques pondérant, pour chaque fragment, l’importance de tel ou tel trait linguistique ou sémantique...

Intégration de l'analyse de données

Appliquer les méthodes de l’analyse multivariée sur des variables d’origine lexicale considérées entre elles ou en relation avec d’autres variables de contexte. En intégrant ainsi l’analyse de données classiques avec l’analyse des données textuelles, on peut mettre à jour les structures internes des textes étudiés (analyse des co-occurrences) ou leur dépendance par rapport à des données de contexte (analyse des spécificités).

4

Corpus texte

Lexique réduit etstructuré

Navigation lexicaleDictionnaire

Variablede contexte

Tableaulexical

StructuresStat.

Lemmatisation Segments répétés

Corpus textelemmatisé et solidarisé

Phrasescaractéristiques

Listes demotsspécifiques

Corpus texte

Lexique réduit etstructuré

Navigation lexicaleDictionnaire

Variablesfermées surles mots du

lexique

Mesureslexicales :intensitésbanalités

Verbatim

StructuresStat.

Variablede contexte

Lemmatisation Segments répétés

Corpus textelemmatisé et solidarisé

Mettre à jour les structures linguistiques

Intégrer les méthodes


4. L’atelier lexical en bref

On accède à l’atelier lexical à partir du panneau lexical ou par l’article Etudier des textes du menu Recoder . Cet écran concentre l’ensemble des outils proposés par le Sphinx. Il permet d’effectuer 4 grands types de tâches appliquées au corpus de la variable sélectionnée : produire des lexiques, naviguer entre le lexique et le corpus, établir des statistiques, transformer le texte et créer de nouvelles variables.

Production de lexiques

Le lexique des mots ou liste des formes graphiques s’affiche dans la fenêtre de gauche.

Il dépend des caractères séparateurs retenus (bouton Apparier ). Son contenu et sa présentation sont affectés par les boutons Supprimer , Réduire , Regrouper , Compter et Classer . On peut ainsi éliminer ou regrouper des éléments et choisir l’ordre de leur présentation ainsi que les indicateurs statistiques les caractérisant (nombre d’occurrences ou nombre de réponses / fragments concernés).

Le lexique des expressions (Lexica uniquement) prend la place du lexique des mots. On sélectionne pour cela Expressions dans le menu déroulant Lexique . Dans la fenêtre qui apparaît, on peut chercher les locutions et les segments répétés.

Navigation lexicale

La navigation lexicale permet de faire apparaître, dans la fenêtre du corpus, les fragments de texte contenant les mots marqués dans le lexique. On passe d’un fragment à l’autre avec les flèches situées sous la fenêtre à droite. Les règles de navigation peuvent être modifiées par le menu déroulant Aller à .

Un double clic dans la fenêtre du lexique fait apparaître le contexte du mot sélectionné (concordances ou lexiques relatifs). L’étendue du contexte est paramétrable avec le bouton Apparier . On revient par la touche Esc .

Le bouton Marquer permet de sélectionner des éléments du lexique selon leurs propriétés, et les boutons 0 <> @ servent à annuler la sélection, à l’inverser ou à tout sélectionner. Grâce au bouton Illustrer , on fait apparaître une autre variable illustrative dans la fenêtre du corpus.

Statistiques lexicales

Les caractéristiques statistiques du corpus du lexique et de chaque observation / fragment sont affichées sous les fenêtres correspondantes (taille, richesse, longueur moyenne, banalité, % de lecture).

Avec le bouton Compter , on choisit les indicateurs statistiques du lexique. Comparer permet de le confronter à un lexique de référence.

Dans le menu déroulant Vues (Lexica uniquement), les articles Bilan lexical , Tableau lexical et Mots spécifiques donnent accès aux statistiques résultant du croisement avec une autre variable.

Transformation du texte et création de nouvelles variables

Les boutons Modifier et Remplacer permettent d’effectuer directement des transformations dans le texte du corpus. Avec Lemmatiser , on peut créer une nouvelle variable dans laquelle chaque mot est remplacé par sa forme racine.

Recoder donne accès aux nombreuses possibilités de création de nouvelles variables : nominales, numériques, textes.

La barre d'outils

Toutes les fonctions qui viennent rapidement d'être évoquées se lancent à partir de la barre d'outils. Les fonctions suivantes ne sont disponibles que dans Lexica : rechercher des expressions et des segments répétés, analyser l'environnement d'un mot, construire des bilans, des tableaux lexicaux ou des listes de mots spécifiques, lemmatiser.

Revenir à l'atelier lexical ou le quitter

La touche Esc permet de revenir à l'écran principal de l'atelier ou d'en sortir.

Le panneau de commandes lexicales**

Les procédures de recherche les plus courantes ont été automatisées et sont accessibles depuis le panneau de commandes lexicales. On peut ainsi rapidement établir des résultats qui seront ensuite affinés dans l'atelier.

6

L’atelier lexical

Lexique Corpus

Statistiques lexicales

Barre d’outils de Plus²


5. Le panneau lexical : produire des lexiques

Une manière rapide de prendre connaissance d’un corpus consiste à dresser la liste des mots qu’il contient. La procédure Lexiques du panneau lexical permet d’aller plus loin que les tableaux de réponses ouvertes.

Formes graphiques et mots

La machine peut identifier les formes graphiques composant votre texte : suite de caractères sans blanc ou signes de ponctuation. Malheureusement, un mot se présente en général sous différentes formes graphiques (singulier, pluriel, flexion des verbes…), ce qui réduit la qualité des listes construites sur le seul repérage de ces formes.

Pour surmonter cet inconvénient, le Sphinx peut faire une analyse syntaxique et remplacer chaque forme par son lemme (masculin singulier pour les noms et adjectifs, infinitif pour les verbes…).

Vous avez également la possibilité de regrouper les mots construits sur la même racine (suite des x premières lettres).

Bien qu’approximatif, ce procédé permet de regrouper dans un même item différentes formes exprimant la même idée (#famil pour famille, familier, familial…).

Sélectionner un type de lexique

Cliquez sur Lexiques , un dialogue vous propose de construire la liste des formes graphiques qui composent votre texte en appliquant les options suivantes : • Ignorer les mots outils : ces mots sont pauvres pour

qualifier l’énoncé mais ils peuvent être révélateurs de l’énonciation.

• Ignorer les nombres. • Regrouper par racine : on indique le nombre de lettres

définissant la racine. Les mots commençant ainsi seront regroupés.

• Utiliser le lexique lemmatisé : le lexique est dressé à partir d’une forme lemmatisée du texte. L’analyse syntaxique est lancée automatiquement et une nouvelle variable (Nom_L) est créée. Vous pourrez alors l’utiliser à tout moment pour la suite de vos analyses.

• Nombre maximum et Fréquence minimale permettent de limiter la longueur de la liste.

Verbes, Noms, Adjectifs

En dressant la liste des verbes, noms, adjectifs, vous désignez les actions, les objets et les évaluations du discours. Vous pouvez y ajouter la liste des noms propres et des mots grammaticaux… Cette liste est construite à partir d’une forme du texte où les statuts grammaticaux sont repérés (Nom_LC).

Poursuivre dans l’atelier lexical

Vous pouvez sortir les résultats avec le bouton Transférer , mais vous pouvez aussi enrichir vos résultats dans l’atelier lexical en opérant des regroupements manuels ou des regroupements par dictionnaires (Regrouper ) sur le texte original ou sur ses formes lemmatisées (Nom_L et Nom_LC).

8

Lexique lemmatisé

Lexique des racines

Lexique réduit

Calculer les lexiques

Trouver les formes grammaticales


6. Le panneau lexical : segments répétés et lexiques relatifs

Trouver les segments répétés

On appelle Segment répété toute séquence de formes graphiques répétées à l’identique dans le texte. Ils révèlent les expressions, les formules toutes faites, la langue de bois.

En les recherchant dans le texte lemmatisé, on fait ressortir encore plus fortement les répétitions et les leitmotivs.

En cliquant sur le bouton Segments répétés , vous avez le choix de lancer la recherche sur le texte original ou sur le texte lemmatisé (Utiliser le texte lemmatisé ), sur le texte qui contient ou non les mots outils (Ignorer les mots outils ).

Vous pouvez enfin limiter la recherche aux segments d’une fréquence minimale.

La liste des segments apparaît dans une fenêtre que vous pouvez imprimer ou inclure dans votre rapport (Bouton Transférer ).

Vous pouvez affiner vos recherches dans l’atelier lexical (Vue Expressions , bouton Segments ).

Vous pourrez ainsi limiter la recherche aux segments contenant des mots choisis par vous ou appliquer la recherche sur des formes modifiées du texte.

Les mots dans leur contexte

Le lexique sort le vocabulaire de son contexte. Afin de préciser le sens des mots, vous pouvez produire la liste des phrases ou réponses dans lesquelles ils sont employés.

Ces listes peuvent être longues, les lexiques relatifs donnant la fréquence des mots avec lesquels le mot étudié est utilisé.

Elles font ressortir bien plus rapidement le contexte en donnant des indications très précises (fréquence d’utilisation à gauche et à droite…).

Avec Lexiques relatifs , vous entrez le mot que vous voulez étudier puis sélectionnez : • Lexiques relatifs pour voir la fréquence des termes à

gauche et à droite du mot recherché (mot pivot) ; • Concordance pour obtenir tous les passages contenant

le mot.

Les résultats de la recherche apparaissent dans une fenêtre qui vous donne accès à des options permettant d’affiner les résultats : enlever les mots outils (Réduire ), modifier la définition de l’environnement du mot (réponse, phrase, groupe) avec le bouton Apparier .

10

Segments répétés

Lexiques relatifs et concordances


7. Le panneau lexical : du bilan aux réponses caractéristiques

Vous pouvez apprécier l’influence des locuteurs en mettant en évidence les différences qui caractérisent leur texte. C’est l’objet des bilans lexicaux, des tableaux de caractéristiques, des listes de mots spécifiques et des réponses caractéristiques.

Bilan lexical

Le bilan lexical rassemble les principaux indicateurs caractéristiques de l’énonciation : nombre de mots, longueur des fragments, richesse lexicale, spécialisation lexicale… Ces indicateurs sont calculés pour les modalités d’une variable et permettent ainsi de comparer différents locuteurs. La production du bilan est automatique : vous n’avez qu’à indiquer la variable selon laquelle vous voulez l’établir.

Tableaux lexicaux

Un tableau lexical ventile l’utilisation des mots selon les modalités d’une variable de contexte. Vous avez également la possibilité de limiter la liste aux mots exclusifs, aux mots communs ou aux mots sur-représentés ou sous-représentés dans chaque catégorie. A cet effet, choisissez dans le dialogue les mots que vous souhaitez inclure dans la liste : Inclure les mots exclusifs d’une catégorie , Inclure les mots communs à plusieurs catégories …

Vous pouvez enfin limiter le tableau aux mots ayant des effectifs minimums (Seuil de fréquence ).

Mots spécifiques

Un mot est spécifique d’une catégorie s’il est sur-représenté dans cette catégorie. On utilise le rapport des fréquences (observées / théoriques) comme indicateur de spécificité. Le mot est d’autant plus sur-représenté (resp. sous-représenté) que ce rapport est supérieur (resp. inférieur) à 1. Il est infini pour les mots exclusifs qu’on repère avec une étoile.

Choisissez d’abord une variable de contexte puis le bouton Restrictions vous permettra de fixer les conditions de recherche : se limiter aux mots exclusifs ou aux mots communs… (Inclure les mots exclusifs, Inclure les mots communs à toutes les catégories, Inclure les mots communs à certaines catégories ).

Pour filtrer les mots selon leur spécificité, on coche la case Seuil de spécificité en donnant une valeur au seuil. Ne cocher Positive que pour limiter la liste aux mots sur-représentés. Vous pouvez enfin vous limiter aux n mots les plus spécifiques par catégorie en cochant Limiter à .

Le résultat dresse, par catégorie, la liste des mots répondant aux conditions. Ils sont classés par ordre de spécificité ou de fréquence. En regard apparaît la fréquence et/ou l’indice de spécificité. Ces options sont modifiables dans l’atelier : Compter (faire afficher ou non la fréquence et l’indice) et Classer (définir l’ordre des listes).

Réponses caractéristiques

Cette fonction repose sur la sélection de mots spécifiques mais donne comme résultat une liste de réponses sélectionnées en fonction du nombre de mots spécifiques qu’elles contiennent et de leur indice de spécificité moyen.

12

Bilan lexical

Tableau lexical

Mots spécifiques

Réponses caractéristiques

Variable de contexte

Conditions spécifiques

14

La construction des lexiques

Sphinx V5 La construction des lexiques 15

1. Caractères séparateurs et environnement

Pour identifier les différents éléments composant un champ textuel, on définit des caractères séparateurs.

Les séparateurs de fragments ou d’observations sont définis au moment de l’intégration d’un fichier de données (Voir Ouvrir un fichier de données textuelles ).

Les séparateurs de formes graphiques permettent d’isoler les mots. Le blanc est le séparateur naturel mais on peut en retenir d’autres (‘ ()..).

Les séparateurs de phrases ou de tout autre groupe permettant de définir un sous-ensemble signifiant (proposition, unité de signification...).

Apparier

La définition de ces séparateurs conditionne la construction du lexique et la recherche de l’environnement d’un mot (concordances, lexiques relatifs). On peut modifier ces paramètres dans un dialogue ouvert par le bouton Apparier .

Celui-ci permet de modifier les séparateurs de mots (formes graphiques), groupes ou phrases, de fixer les règles à suivre pour traiter les accents et majuscules et gérer les expressions formées de mots composés.

Enfin, il permet de fixer l’environnement à prendre en considération pour examiner le contexte d’un mot.

On change les séparateurs en les frappant au clavier dans la zone qui leur est réservée.

Les modifications introduites avec Apparier sont conservées à la prochaine ouverture du logiciel, néanmoins le bouton Restaurer permet de rétablir les solutions par défaut les plus courantes.

Choisir les règles de construction du lexique

En cochant les cases Différencier les majuscules ou Différencier les lettres accentuées , on considère Maison ou maison et élève ou élevé comme des formes graphiques différentes ou non.

En jouant sur les séparateurs de mots, on fait apparaître grand-père comme un seul mot ou comme 2 mots différents. Pour supprimer ou rajouter des séparateurs, il suffit d’aller écrire dans la boîte correspondante.

Si à la saisie, on a utilisé le caractère _ comme liaison pour les mots composés sans tiret. On écrira ainsi pomme_de_terre. Mais pour que ce procédé fonctionne bien, il faudra vérifier que le caractère '_' n’est pas considéré comme un séparateur (ce qui est le cas par défaut).

Options pour la recherche des expressions

Si la case à cocher Composées de mots entiers n'est pas cochée, les séquences recherchées peuvent inclure des fragments de mots consécutifs.

Si la case à cocher Différencier les séparateurs est cochée, on ne tient pas compte des séparateurs.

16

Définir les séparateurs

Lexique

Concordances

Lexiques relatifs

Verbatim


2. Rechercher et marquer des éléments dans le lexique

Que l’on cherche à restituer les mots dans leur contexte ou à simplifier le lexique par regroupement d’éléments, le travail d’analyse lexicale consiste à repérer des mots et à les marquer.

On peut procéder manuellement en faisant défiler la liste du lexique avec les ascenseurs et en cliquant sur les mots qui nous intéressent. Selon le besoin, on classera le lexique par ordre de fréquence, par ordre alphabétique ou par ordre d’apparition (bouton Classer ).

On peut aussi procéder d’une manière automatique grâce au bouton Marquer . Il permet de trouver et marquer les éléments répondant aux conditions fixées.

Rechercher par le contenu

Activer le bouton Le mot et entrer le mot recherché ou une partie de mot. Pour trouver plusieurs mots, tapez les à la suite.

La (ou les) chaîne(s) de caractères que vous venez d’entrer sera(ont) recherchée(s) : • Dans son (leur) intégralité : bouton Mot entier . • Comme début de mot : bouton Début de mot , tous les

mots commençant par cette chaîne seront marqués. Par exemple, en tapant «voit », on marquera voiture, voitures, voiturette.

• Comme partie de mot : bouton Partie de mot , tous les mots contenant la chaîne seront marqués. Cette option est très utile pour marquer tous les verbes d’un texte lemmatisé. Ils sont marqués par la terminaison -V (chanter-V).

• Selon la conformité à un modèle : bouton Modèle , tapez par exemple *isme pour trouver tous les mots se terminant par isme.

Rechercher selon la fréquence

En fixant une plage de fréquence : activez l’option Les mots de fréquence entre et indiquez l’intervalle correspondant au nombre d’apparitions des mots à marquer. Par exemple de 1 à 10 pour marquer les mots apparaissant moins de 10 fois, de 1 à 2 pour marquer les hapax (la borne supérieure de l’intervalle n’est pas comprise). Vous pouvez indiquer une seule des deux bornes.

En limitant aux plus fréquents : cochez la case Les mots les plus fréquents, taper le nombre de mots que vous souhaitez dans la boîte en regard. Vous pourrez ainsi par exemple vous concentrer sur les 20 mots les plus fréquents.

Rechercher par dictionnaires

En sélectionnant le bouton Les mots du dictionnaire , on peut utiliser un dictionnaire pour marquer dans le lexique tous les mots qui s’y trouvent. Le bouton Dictionnaire permet de changer le dictionnaire courant pour le remplacer par le dictionnaire de son choix.

Combiner les effets du marquage

Le menu déroulant Sélection permet de combiner plusieurs recherches consécutives : • Compléter : les mots déjà marqués le restent, les

nouveaux s’ajoutent à l’ensemble. • Remplacer : les mots déjà marqués s’effacent, les

nouveaux les remplacent. • Affiner : seuls sont marqués les mots qui étaient déjà

marqués, les autres sont effacés (intersection de 2 sélections).

Enfin, les boutons 0, <>, @ permettent d’effacer toutes les marques, de les inverser ou de marquer tous les mots du lexique. Pour conserver dans le lexique un ensemble de mots sélectionnés, on les marque puis on inverse les marques pour supprimer ce qui ne nous intéresse pas.

18

En cliquant dans le lexique

En cliquant dans le corpus

Au clavier

Selon la fréquence

Par dictionnaire

Règles de recherche


3. Réduire les lexiques

C’est une phase essentielle de l’analyse lexicale. Pour analyser les mots les plus intéressants ou regrouper sous une même appellation ceux qui ont une signification commune, on peut procéder manuellement ou d’une manière automatique. L’examen manuel consiste à repérer les éléments à supprimer ou à regrouper. Les procédés automatiques reposent sur l’utilisation de dictionnaires de référence et/ou d'algorithmes morphologiques (stemmatisation) ou syntaxiques (lemmatisation).

Supprimer

On peut passer en revue tout le lexique et marquer les mots à éliminer. Le bouton Supprimer permettra de les faire disparaître.

Ignorer les mots outils

Le bouton Réduire comporte un premier automatisme en permettant d’éliminer les mots outils (selon le dictionnaire motoutil.doc fourni avec le Sphinx ), les nombres ou les mots courts (moins de x lettres ). Attention, le dictionnaire des mots outils contient des mots très intéressants à analyser comme les pronoms personnels, les négations... Pour revenir au lexique complet et les analyser, utiliser le bouton Reconstruire .

Regrouper

Le bouton Regrouper offre plusieurs choix pour remplacer plusieurs éléments par un seul : • Grouper les mots marqués dans le lexique :

sélectionnez et donnez un nom au regroupement. • Rechercher tous les mots répondant à un modèle et

les grouper. Entrez le modèle : les éléments qui y répondent seront automatiquement regroupés, par exemple, *isme pour les mots se terminant par isme.

• Grouper les mots commençant par les mêmes lettres : groupement par racine ou stemmatisation . Indiquez le nombre de caractères à retenir pour la racine. Vous pourrez contrôler la validité de chaque groupe (Voir Stemmatisation ).

• Grouper avec un dictionnaire . Choisissez un dictionnaire. En utilisant un dictionnaire de groupement ou thésaurus, vous pourrez opérer en une seule fois plusieurs groupements (Voir Gestion de dictionnaires ).

Ce même dialogue donne la possibilité de revoir les groupes (Voir Groupement automatique ). Les groupes sont conservés et retrouvés à la prochaine consultation de la variable. Défaire les groupes permet cependant d’annuler définitivement tous les regroupements.

Lemmatiser

La lemmatisation (Lemmatiser ) permet d’opérer des regroupements intelligents en utilisant les règles de la syntaxe (singulier, pluriel, formes verbales ramenées à l’infinitif). Elle présente l’avantage de réduire certaines ambiguïtés en distinguant par exemple le nom du verbe (voyage peut correspondre au nom voyage ou au verbe voyager). Il est donc conseillé d’opérer le travail de réduction sur la base du texte lemmatisé.

Exploiter le lexique réduit

Les regroupements sont conservés, mais vous pouvez créer une nouvelle variable réduite aux mots du lexique (Recoder ). Le bouton Verbatim permet de sortir les éléments sélectionnés.

20

Enlever les mots outils Lemmatiser Regrouper


4. Groupements automatiques

On gagne beaucoup de temps en procédant ainsi :

Regroupement selon un modèle

Sélectionner l’option Grouper les mots sur le modèle puis rentrez le ou les modèles recherchés. Par exemple, alim* donne tous les mots commençant par alim, *ie ceux qui se terminent par ie. La syntaxe disponible offre de très grandes possibilités.

Stemmatisation

Ce terme indique le regroupement des mots ayant la même racine. Sélectionner la case Grouper automatiquement , puis de même racine et indiquer le nombre de lettres minimum que doit contenir la racine commune.

Modifier les groupes

Il est important de pouvoir contrôler la qualité des groupements automatiques. A cet effet, le bouton Modifier interactivement les groupes permet de les revoir tous (utiliser les flèches) pour éventuellement supprimer des mots dont la signification n’est pas conforme (Enlever ). On peut également ajouter des mots en les entrant au clavier (Ajouter ). Défaire supprime le groupe. Pour renommer, entrez au clavier la nouvelle appellation. Par défaut, les groupes sont marqués d’un #. Leur nom reprend le modèle auquel il répond.

Dictionnaires

On peut également utiliser des dictionnaires. Sélectionner pour cela Grouper automatiquement et avec un dictionnaire .

Utiliser le bouton Dictionnaire pour ouvrir le dictionnaire désiré, puis faire Regrouper . Le logiciel cherche les mots du dictionnaire présents dans le lexique et les regroupe sous un même item. On peut également procéder en marquant à partir du dictionnaire (Marquer les mots du dictionnaire ).

Dictionnaire de mots et de groupements : • un dictionnaire de mot est une liste de termes ayant

une même signification ou propriété. Cette liste se présente comme une énumération.

• un dictionnaire de groupements regroupe plusieurs dictionnaires de mots. Chaque élément énumère une liste de mots équivalents. Les mots sont séparés par le signe =, et en tête de liste se trouve le nom de l’équivalent. Appliquer un dictionnaire de regroupements revient à appliquer successivement plusieurs dictionnaires de mots. Les mots d’une même ligne sont automatiquement remplacés par leur équivalent. Ces dictionnaires sont très utiles et peuvent être assimilés à des thésaurus de niveau 1.

Ci-dessous, à titre d'exemple, voici le dictionnaire correspondant à l'état du lexique de droite ci-contre :

' Dictionnaire de regroupements $ C:\Donnees\barchoc310\barchoc310.que Plaisir_de_manger_L 1 #faire*=faire=faire_la_cuisine=faire_plaisir=faire_envie=faire_attention #goûte*=goûter=goûteux #gastronomi*=gastronomie=gastronomique #avoir_*=avoir_envie=avoir_faim #quelque*=quelque_chose=quelquechose #enfant*=enfant=enfants #nature*=naturel=nature #prendre*=prendre_son_temps=prendre #vouloir*=vouloir=vouloir_dire #nourri*=nourrir=nourriture #cuisine*=cuisiner=cuisine #léger*=léger=LEGERE #restau*=restaurant=restau

Conservation des groupements

Les groupements sont automatiquement conservés. Lorsqu’on revient sur une question pour laquelle des regroupements ont été effectués, un dialogue demande si on souhaite reprendre le lexique enregistré . En répondant oui, les regroupements antérieurs seront récupérés. Si vous répondez non, ils seront perdus.

Pour conserver les regroupements, le logiciel crée automatiquement dans le répertoire de l’enquête un dictionnaire de regroupement dont le nom est celui de la variable : nom_variable.lex.

22

Grouper par racine

Grouper par modèle

Grouper par dictionnaire

Contrôler les groupements


5. La gestion des dictionnaires

Le bouton Dictionnaires (qui se trouve dans la barre d’outils et dans le dialogue Marquer ) permet de manipuler les dictionnaires. Le dictionnaire courant est le dernier dictionnaire ouvert, c'est lui qui servira au marquage.

Dans la fenêtre Gestion des dictionnaires , on peut visualiser le contenu du dictionnaire, ouvrir un autre dictionnaire, créer un nouveau dictionnaire, enrichir le dictionnaire courant, ajouter les mots du lexique dans le dictionnaire courant.

Ouvrir un dictionnaire

Les dictionnaires sont enregistrés comme des fichiers textes. Le bouton Ouvrir donne accès au dialogue Windows de gestion des fichiers. L’extension proposée par défaut est .dic. Elle n’est pas obligatoire mais permet de retrouver facilement les dictionnaires.

Créer un dictionnaire

Utiliser le bouton Nouveau , donner le nom au fichier (en remplacement du nom donné par défaut "DICO.DIC"). Cette procédure ouvre un dictionnaire vide. Vous pouvez : • Y ajouter les mots marqués dans le lexique : bouton

Ajouter . • Entrer au clavier les mots que vous désirez. Placez le

curseur à l'endroit où vous voulez insérer un nouveau mot et entrez-le au clavier.

Marquer à partir du dictionnaire

Un dictionnaire sert à marquer des mots dans le lexique. Utiliser le bouton Marquer puis sélectionner Les mots du dictionnaire (Voir le chapitre Construction de lexiques ).

L’utilisation de dictionnaires permet d’accélérer considérablement l’analyse lexicale. Il est conseillé de travailler pour cela sur un texte lemmatisé et d’utiliser des dictionnaires de formes racines pour faire des regroupements automatiques (stemmatisation).

Ajouter des mots dans le dictionnaire

Vous pouvez ajouter au dictionnaire ouvert les mots marqués dans le lexique (séquence Dictionnaire / Ajouter ). Ceci permet d’enrichir progressivement les dictionnaires d’une étude à l’autre. La procédure suivante est conseillée :

• Travailler sur un texte lemmatisé et un dictionnaire de forme racine.

• Utiliser un dictionnaire thématique pour marquer le lexique. Par exemple en cherchant les mots exprimant la satisfaction.

• Effacer les mots ainsi marqués (bouton Supprimer ) et parcourir le lexique à la recherche d’autres mots se rapportant au thème du dictionnaire.

• Ajouter ces mots au dictionnaire avec la séquence Dictionnaire / Ajouter . Ces mots viennent s’ajouter à ceux qui s’y trouvaient déjà.

• Reconstruire le lexique (boutons Réduire, Reconstruire ) pour retrouver tous les mots qui vous intéressent à partir du dictionnaire enrichi.

En répétant cette procédure d’une étude à l’autre, vous accumulerez une expertise conservée dans vos dictionnaires.

La capacité maximum d’un dictionnaire est de 6 000 mots.

24

Entrer des éléments nouveaux au clavier

Mettre dans le dictionnaire les mots marqués du lexique

Ouvrir ou créer un dictionnaire

Marquer les mots correspondants dans le

lexique

Ouvrir ou créer un dictionnaire


6. Les différents types de dictionnaires

Les dictionnaires permettent de stocker du vocabulaire de référence et peuvent ainsi considérablement accélérer l'analyse. A chaque utilisateur de créer les dictionnaires spécifiques à son domaine.

On peut les utiliser pour réduire automatiquement le lexique (dictionnaire des mots outils) ou pour rechercher dans un corpus des marqueurs lexicaux de l'énonciation ou des champs sémantiques particuliers.

Différents types de dictionnaires

Dictionnaire de mots : il comporte la liste des mots appartenant à un champ lexical particulier : les termes de l'alimentation, les pronoms personnels... Ces mots sont repérés par une seule forme graphique.

Dictionnaire d'expressions : il comporte une liste d'expressions. Une expression par ligne comportant une ou plusieurs formes graphiques.

Dictionnaire de groupements : il comporte une liste de formes graphiques équivalentes. Sur chaque ligne, on trouve le nom générique (toujours précédé de # ) suivi de la liste des formes équivalentes séparées par le signe =. Un dictionnaire de groupements peut résulter du regroupement de plusieurs dictionnaires de mots. Le contenu d'un dictionnaire de mots se trouve sur une ligne du dictionnaire de groupements.

Dictionnaire de mots outils : c'est un dictionnaire de mots. Il est utilisé pour l'opération de réduction du lexique. Il peut être modifié comme tout autre dictionnaire.

Dictionnaire de codes : ce type de dictionnaire sert à l'interprétation des codes (Voir Interpréter des codes ). Sur chaque ligne, on a la valeur du code et les différentes manières de l'interpréter.

Lexique de référence : c'est un dictionnaire de mots indiquant la fréquence de chaque mot dans un corpus de référence. Cette fréquence peut s'exprimer en valeur absolue ou en pourcentage. On utilise ce type de dictionnaire pour comparer le corpus en cours d'analyse à la référence (Voir Comparer à un lexique de référence ).

Elaborer des dictionnaires

Un dictionnaire est un fichier texte qui comporte des mots se rapportant à des thèmes et/ou ayant une signification commune (champ lexical). La création de dictionnaires peut se faire dans un traitement de textes. Il suffit de dresser les listes correspondantes en respectant la syntaxe du type de dictionnaire à élaborer.

Quelques dictionnaires simples sont fournis avec le logiciel comme l'ensemble des formes du verbe avoir, les pronoms personnels, les locutions temporelles. Le lemmatiseur met également en œuvre des dictionnaires pour la reconnaissance des formes verbales et le repérage des locutions usuelles.

Il n'y a pas de limitation à la variété des dictionnaires envisageables.

26

Différents dictionnaires

de mots d’expressions

des mots outils de groupements

Lexique de référence Dictionnaire de codes


7. Analyse thématique

Dans l’environnement de l’atelier lexical, une analyse thématique peut être actionnée en cliquant sur l’icône « Dictionnaire » Une thématique est une liste de dictionnaires, chacun étant composé de mots ou de regroupements relevant d’un même thème. Les dictionnaires ont été préparés par ailleurs en format texte. Cette opération autorise la présence d’un même mot dans plusieurs thèmes. La gestion des dictionnaires est présentée dans le chapitre 5 p. 312 (Plus²) ou 316 (Lexica) du manuel de référence.

Une nouvelle thématique est créée en ajoutant autant de dictionnaires que souhaité dans la liste, grâce au bouton « Ajouter » Au moment du recodage, le logiciel propose la sauvegarde de la thématique, qui sera dénommée avec une terminaison « .the » et qui pourra être rappelée à tout moment depuis le bouton « Ouvrir une thématique ».

En cliquant sur « Recoder », on va pouvoir créer de nouvelles variables afin d’identifier les thèmes pour chaque observation : - l’intensité lexicale de chaque thème, - le nombre d’occurrences de chaque thème, - des variables fermées sur les thèmes, avec deux options de limitation : les n thèmes les plus fréquents dans la réponse et les thèmes dont l’intensité dans la réponse est au moins égale à x.

2

8. Lexique des expressions**

Mots composés et expressions usuelles

La construction du lexique à partir des formes graphiques ignore les mots composés, locutions, ou expressions (à moins qu’elles n’aient été explicitement saisies comme telles en utilisant le séparateur _ ).

La possibilité de définir des listes ou dictionnaires d’expressions permet de les repérer dans le texte et de les identifier comme tels en introduisant un séparateur spécifique. On pourra alors générer une nouvelle variable dans laquelle les expressions apparaîtront comme une seule forme graphique.

Cette approche convient pour les mots composés ou expressions usuelles répertoriés a priori dans des dictionnaires. Les expressions ou formes d’élocution spécifiques à certains contextes ne peuvent être identifiées qu’a posteriori à partir du constat de leur répétition à l’identique. C’est ce que permet la recherche des segments répétés.

Lexique des expressions

Le lexique des expressions est rentré au clavier, constitué à partir d’un dictionnaire d’expressions ou établi par la recherche des segments répétés. Il fait l’objet d’une fenêtre particulière ouverte dans l’atelier lexical par le menu Lexique / Liste des expressions . Celui-ci ouvre une fenêtre vierge dans laquelle on peut : • entrer au clavier les expressions recherchées ; • reporter les éléments d’un dictionnaire

d’expressions ;

• lister les segments répétés trouvés dans le texte (bouton Segments ).

En regard de la liste d’expressions ainsi constituée, s’affiche le nombre d’occurrences trouvées dans le corpus. On peut alors, comme pour le lexique des mots, sélectionner des éléments et les retrouver dans le texte (navigation lexicale).

Documenter le lexique des expressions à partir d’un dictionnaire

Le bouton Dictionnaire permet d’ouvrir un dictionnaire d’expressions que l’on pourra déverser dans la fenêtre (bouton -->Liste ). Inversement, le bouton Ajouter permet d’envoyer dans le dictionnaire les expressions entrées dans la liste à partir du clavier ou du calcul des segments répétés.

Actions à partir de la liste des expressions

Comme pour le lexique des mots, on peut supprimer des expressions, les classer, regrouper des expressions équivalentes (bouton Variantes ), et les sortir dans le rapport ou à l'imprimante (Transférer ).

Solidariser dans le corpus les expressions de la liste

Le bouton Recoder permet de créer une nouvelle variable texte dans laquelle les expressions de la liste seront solidarisées par le signe _. En ouvrant cette nouvelle variable, les expressions apparaîtront comme une forme graphique. (Vérifier que le caractère _ n'est pas défini comme séparateur).

Ce bouton permet également de dresser dans une variable nominale la liste des expressions du texte.

Cas OVALE - Analyse textuelle de sites Internet – Copyright Le Sphinx Développement - 2005

4

9. Rechercher les segments répétés**

Tout texte comporte ses leitmotivs, sa langue de bois, ses petites phrases... On peut les repérer en cherchant les séquences de mots répétées exactement à l'identique. On obtient ainsi : • les locutions : très bien, à peu près... ; • les phrases ou éléments de phrases répétés à

l'identique : je ne pense pas, selon moi, il faut, • les expressions toutes faites, caractéristiques du

domaine étudié : bon repas en famille, bien manger... Cette recherche permet également de soulever de nombreuses ambiguïtés.

Rechercher les segments répétés

Pour éviter l'examen de listes trop longues, on peut cibler la recherche : • en fonction de la fréquence de répétition (bouton

Fréquence minimale ) ; • en fonction de la présence dans les segments de

mots déterminés, de mots marqués dans le lexique courant ou de mots énumérés par l’utilisateur (bouton Contenant ).

• en ignorant les segments commençant par un mot outil ou par l’un des mots énumérés par l’utilisateur (bouton Ne commençant pas par) .

Pour lancer la recherche, procédez ainsi : • sélectionnez dans le menu Lexique , la rubrique

Expressions , et activez Segments ; • fixez vos paramètres de recherche ; • par défaut, la fréquence minimum proposée est

égale à la répétition moyenne des mots du lexique ;

• ciblez votre recherche en fixant les longueurs minimales et maximales et en restreignant à certains mots ou en ignorant les segments commençant par un mot outil.

Sélectionner les segments significatifs

Les segments trouvés s’affichent dans une fenêtre dont le contenu peut être classé par ordre alphabétique ou par longueur (Trier ), imprimé ou copié (Transférer ) selon les procédures habituelles ou versé dans une liste d’expressions (--> Liste d’expressions ). Cette dernière opération permet de faire toutes les opérations autorisées dans la liste d’expressions : supprimer des segments sans intérêt, naviguer dans le corpus, retrouver le contexte d’un segment (Voir Concordances et lexiques relatifs ). On peut également créer une nouvelle variable texte solidarisant les segments, directement à partir de la fenêtre des segments (Relier ) ou depuis la liste d'expressions (Recoder, Texte modifié, Relier les mots de chaque expression ). En ouvrant cette nouvelle variable, les segments répétés seront traités comme des mots.

Segments contraints et segments de fréquence 1

Pas trop et pas trop cher sont des segments contraints. Pas trop apparaît 6 fois et pas trop cher 3 fois. Le premier est contenu dans le second. Mais leur fréquence les distingue. Ce phénomène est très fréquent et nécessite un examen attentif des segments que l’on souhaite retenir pour l’analyse.

Solidariser les segments répétés

On peut créer une nouvelle variable texte dans laquelle les segments répétés seront reliés par le caractère _ . Ils apparaîtront ainsi dans le lexique de la nouvelle variable comme une seule forme graphique. Pour effectuer cette opération, faites Recoder et choisissez Texte modifié / Relier les mots de chaque expression .

L'analyse de cette nouvelle variable permettra de produire un lexique tenant compte des segments répétés significatifs.


Rechercher les segments répétés

Définir les conditions

Editer


Ajouter au lexique des expressions

Exemple : Si vous gagniez au loto


Navigation lexicale et recherche de contexte

8

1. Du lexique au corpus : la navigation lexicale

La navigation lexicale s’apparente à la fonction d’un hyper-texte dont chaque mot serait l’objet d’un renvoi possible. On peut en effet, à partir d’un ou plusieurs mots marqués dans le lexique ou dans le texte lui-même : • retrouver toutes les réponses ou fragments de

texte contenant ce mot ou ces mots ; • afficher la valeur quelconque de l’une des autres

variables pour situer le contexte de la réponse ; • détailler toutes les données relatives à la

réponse ; • caractériser l’emploi d’un mot par la répartition de

telle ou telle variable dans la strate des observations qui le contiennent.

On a ainsi la possibilité d'opérer des sélections pour restituer des fragments de texte ou contrôler l'interprétation des termes mis en évidence dans le lexique. On peut le faire en ne voyant qu'une réponse à la fois ou en se plaçant dans une fenêtre dans laquelle tout le corpus s'affiche à la suite.

Vue par observation

L'article Observations du menu Vue ouvre une fenêtre montrant le texte d'une seule observation à la fois. On peut compléter par les données d'autres variables illustratives (Illustrer ). La hauteur de la fenêtre est modifiable en déplaçant le trait de séparation.

Sous la fenêtre, on lit les indicateurs statistiques caractérisant l'observation.

Les flèches permettent de passer d'une observation à l'autre. Si des mots sont marqués dans le lexique, la navigation se fait selon la règle choisie (Aller à : d'un mot marqué à l'autre, d'une observations contenant tous les mots marqués à la prochaine...). On peut également limiter la navigation aux seules observations répondant au profil défini par le bouton N° (Voir aussi Modification / Consultation ).

Vue du corpus entier

L'article Observations du menu Vue ouvre une fenêtre dans laquelle s'affichent à la suite toutes les observations qu'on peut faire défiler avec l'ascenseur. Pour passer d'un mot marqué à l'autre, cliquez dans la fenêtre. Un menu apparaît dont l'article Marque suivante permet de passer au prochain mot marqué.

Caractériser et détailler les observations

En cliquant sur un mot du texte, on fait apparaître un menu qui permet d'obtenir des informations complémentaires sur l'usage de ce mot : • voir l'environnement du mot dans l'ensemble des

observations qui le contiennent : concordances ou lexiques relatifs (Environnement ) ;

• identifier toutes les observations contenant ce mot en les caractérisant par rapport à une autre variable (Caractériser ) ou en consultant toutes les informations qui les concernent (Détailler ) ;

• décrire les propriétés des observations concernées en les codant dans une nouvelle variable (Décrire ).

Copier ou imprimer les éléments sélectionnés

L'article Copier du menu Edition copie le texte de l'observation courante.

Pour éditer toutes les réponses contenant un mot marqué, utiliser l’option Verbatim, dont les possibilités sont décrites dans le chapitre Produire des extraits .


Vue du corpus entier

Règles de navigation

Editer les textes sélectionnés

Vue par observation

Navigation

Variable illustrative Indicateurs statistiques

Données de contexte

10

2. Situer un mot dans son contexte textuel

On peut examiner d’une manière plus précise l’environnement d’un mot en concentrant l’analyse sur son contexte immédiat : il peut s’agir d’un groupe de mots, de la phrase ou de la réponse toute entière.

Dans le cas de réponses longues ou lorsque le texte a été découpé en paragraphes, il est préférable de se limiter à la phrase ou la proposition.

On se place dans ce mode avec l’option Environnement de la liste déroulante Vue.

On obtient le même effet en faisant un double clic sur un mot du lexique, ou en cliquant sur un mot dans le corpus. Un menu contextuel s'affiche.

Choisir l'article Environnement pour voir le contexte du mot choisi.

On étudie ainsi : • la concordance du mot étudié, c’est-à-dire

l’ensemble des éléments du texte contenant le mot. Ce procédé s’apparente à la production de verbatim ou de liste de citations centrées sur un mot particulier (Voir Consulter/Modifier et Listes structurées ) ;

• les lexiques relatifs à droite et à gauche du mot étudié.

Deux boutons permettent de passer d’une analyse à l’autre. Il convient de fixer l’étendue du contexte qu’on souhaite analyser en agissant sur le bouton Apparier.

Fixer l’étendue du contexte

Cette étendue est déterminée par des séparateurs de groupes de mots, de phrases et de réponses.

Le dialogue proposé par le bouton Apparier permet de : • spécifier des ensembles de séparateurs. Par

défaut, le Sphinx considère 3 séparateurs de phrase : « . ! ? ». On peut modifier ces ensembles au clavier ;

• choisir le niveau de contexte désiré : groupe, phrase, réponse pour fixer l’étendue du contexte à analyser autour du mot choisi. Dès qu’un des séparateurs est rencontré, on arrête l’extraction.

Voir le contexte immédiat

Lorsqu'on choisit Concordance , le contexte du mot pivot s'affiche. Deux options de présentation sont disponibles : • centrer les citations sur le mot pivot (case Mise en

forme cochée) ou les aligner à droite (case Mise en forme non cochée) ;

• faire disparaître les mots ignorés dans la construction du lexique en cochant la case Texte réduit . Par exemple pour ne pas montrer les mots outils.

On peut enfin signer la citation en affichant la valeur d’une autre variable choisie par Le bouton Illustrer .

Extraire des citations

Avec le bouton Transférer , on peut indifféremment imprimer le contenu de la fenêtre ou l'inclure dans le rapport.


Mot pivot Double clic dans le lexique

Concordance

Lexiques relatifs

Fixer l’étendue du contexte

12

3. Les lexiques relatifs**

La liste des citations illustrant l’emploi d’un mot peut être très longue. Les lexiques relatifs permettent un examen synthétique en faisant ressortir les mots avec lesquels le mot pivot est le plus fréquemment associé. Le principe consiste à construire un ou plusieurs lexiques présentant la liste des mots se trouvant à telle position par rapport au mot pivot choisi.

Le bouton-radio Lexiques relatifs ouvre la fenêtre des lexiques relatifs. Par défaut, elle présente 2 lexiques : à gauche et à droite, pour les positions 2 mots avant (-2), 1 mot avant (-1), 1 mot après (1), 2 mots après (2).

Définir le nombre et la position des lexiques relatifs

Le bouton Compter permet de modifier les lexiques relatifs en : • fixant le nombre de lexiques (boutons-radios 1, 2,

4) ; • indiquant pour chaque lexique la position par

rapport au mot pivot des mots à recenser.

Dans l'exemple ci-contre, 4 lexiques sont définis correspondant aux positions -1, +1, +1, +2 par rapport au mot pivot.

Par défaut, les lexiques sont présentés par ordre d’occurrences décroissantes. On peut compléter la statistique des occurrences relatives à une position par : • le nombre total d’occurrences du mot dans le

corpus (quelle que soit sa position) : Nombre total d’occurrences ;

• le pourcentage d’apparition du mot à la position considérée par rapport au nombre total d'apparitions dans le corpus (quelle que soit la position) : Pourcentage dans le lexique relatif . C’est un indicateur de dépendance linguistique par rapport au mot pivot.

Présenter les lexiques relatifs

Le bouton Classer permet d’afficher les lexiques relatifs par ordre alphabétique ou par ordre d’apparition des mots dans le corpus. Le bouton Réduire permet, dans ce contexte également, d’ignorer ou de rétablir les mots outils. Le bouton Transférer donne les possibilités habituelles d’inclusion dans le rapport, de copie dans le presse-papiers et d’impression.

Interpréter les lexiques relatifs

L’exemple ci-dessous donne des lexiques relatifs à l’environnement du mot France utilisé dans les deux livres de la campagne 1995 de Jacques Chirac. France y apparaît 12 fois sur un corpus total de 35 247 mots.

Environnement -1 à 3 pivot -1 à +3 - 242 mots - 283 occ pays 6 ( 6.82% ; 88) Europe 4 ( 7.14% ; 56) avenir 3 ( 11.54% ; 26) changé 3 ( 17.65% ; 17) doit 3 ( 4.05% ; 74) Français 3 ( 2.91% ; 103) monde 3 ( 6.38% ; 47) nouvelle 3 ( 15.00% ; 20) puissance 3 ( 15.79% ; 19)

Le lexique de -1 à +3 affiche les 3 indicateurs. Ils montrent notamment que les mots nouvelle, puissance, changé sont plus souvent associés à France que Europe : Europe est 4 fois dans l’environnement de France pour un total de 56 apparitions, ce qui indique une faible dépendance linguistique (7,14 %).

Lexiques relatifs et segments répétés

Le lexique relatif peut donner une idée des segments répétés, qu’il ne représente pas exactement. Il peut cependant être utile de mener une exploration préalable à partir des lexiques relatifs.


Définir les lexiques relatifs

Nombre

Positions par rapport au pivot

Indicateurs statistiques

4 lexiques avant et après

Lexique de l'environnement -2 à +2

14

4. Production d'extraits

Dans Plus² et Lexica, la production d'extraits offre de plus grandes possibilités que dans Primo. En la lançant depuis l'atelier lexical, on peut sélectionner beaucoup plus finement les extraits selon leur contenu.

Le dialogue abrégé

Celui-ci est directement disponible sans accéder forcément à l’atelier lexical, on peut générer du verbatim depuis une fonction spécifique. Choisir pour cela «Etudier les textes » dans le panneau de commandes ou dans la fonction « Recoder » puis « Verbatim » Dans ce menu, il est possible de définir des mots clés sur lesquels portera uniquement le verbatim. On peut aussi réduire cette opération à un profil d’observations donné et trier les extraits selon les modalités d’une variable choisie.Après avoir sélectionné les éléments du lexique, dont la pertinence peut être vérifiée grâce à la navigation lexicale, une action sur le bouton Verbatim ouvre un dialogue abrégé dans lequel on fixe les éléments à éditer (Mots ou Textes ). Mots pour les éléments du lexique, Textes pour les réponses ou extraits correspondants. On peut compléter éventuellement les critères de sélection en précisant les options de présentation. Les extraits ainsi sélectionnés apparaissent dans une fenêtre dont le contenu peut être imprimé grâce au bouton Transférer .

Une version plus complexe du dialogue est accessible avec depuis l’Atelier lexical . Elle offre les possibilités suivantes :

Le dialogue complet

Le dialogue étendu offre de nombreuses possibilités : • restreindre aux observations contenant des mots

marqués dans le lexique : cochez l’un des boutons Les éléments concernés ou Tous les éléments . La sélection des extraits se fait en fonction de la règle de navigation lexicale retenue ;

• fixer le contenu des extraits (cadre Contenu ) : afficher le texte de la variable étudiée et ou celui d'une autre variable ;

• afficher la valeur des mesures lexicales relatives à l’observation : nombre de mots de l’observation (M), nombre de mots marqués (MM), banalité de l’observation (fréquence moyenne des mots de la réponse), intensité des mots marqués (MM/M) ;

• mettre les mots marqués en majuscules.

Ci-contre un exemple d’affichage. Le mot manger est le mot sélectionné. Les premières indications documentent la réponse : mesures lexicales, variable illustrative.

Fixer l'étendue de l'extrait

Selon l'option sélectionnée dans Apparier , l'étendue de l'extrait est fixée à la réponse entière, à la phrase ou au groupe de mots. Quand le texte des observations est long, il est intéressant de limiter l'extrait de la phrase contenant le mot.

Structurer la présentation des extraits

Regrouper selon les modalités de la variable illustrative : ceci permet de présenter les extraits par catégorie de locuteurs.

Classer : par défaut, l'affichage se fait dans l’ordre d'apparition. On peut également choisir de les présenter selon les indicateurs suivants : Nombre de mots , Nombre de mots marqués , Banalité de la réponse (pour afficher les réponses des plus communes au plus originales), Intensité des mots marqués (pour faire ressortir l’intensité du thème correspondant aux mots sélectionnés dans le lexique).

Réduire le nombre d’extraits

Limiter aux phrases contenant un mot marqué : quand les observations contiennent plusieurs phrases, on gagne en lisibilité et pouvoir de démonstration (Voir Apparier pour jouer sur les séparateurs).

Limiter à un nombre déterminé d’extraits : enlever les réponses similaires . Deux réponses sont considérées comme similaires si elles contiennent les mêmes mots.

Les règles d’assimilation de 2 réponses sont paramétrables par le bouton Règles . On peut ainsi : • limiter la comparaison aux mots marqués ; • tenir ou ne pas tenir compte de l’ordre et du nombre

d’occurrences des mots.

Les groupes sont listés avec l'indication du nombre de réponses similaires précédé du signe #. A titre d'exemple, le texte de l'une des réponses est cité.


Dialogue abrégé

Dialogue complet

Nb de réponses similaires

16

5. Résumé des différentes manières de produire des extraits

En résumé, voici les différentes manières dans le Sphinx de sélectionner des extraits.

Sélection selon la variable

Avec Dépouiller / Produire des listes , on choisit la ou les variables dont on veut extraire le contenu en le restreignant éventuellement à un profil donné. On peut jouer sur la présentation : format liste ou table, fiches personnalisées.

Sélection en fonction du contenu

Dans l’atelier lexical, on peut faire de la Navigation lexicale à partir des mots marqués, puis Copier le contenu de la fenêtre courante. Très utile pour noter à la volée le contenu d'une observation à la fois.

Extrait de l’environnement d’un mot pivot (Environnement, Co-occurrences ou lexiques relatifs ). Permet de situer un mot dans son contexte pour en apprécier les variations sémantiques.

Verbatim permet de présenter l'ensemble des extraits relatifs aux mots marqués dans le lexique. Idéal pour faire du verbatim, pour restituer des réponses.

Cette fonction offre de nombreuses possibilités : • restreindre l'extrait à la phrase. Très utile dans le

cas de réponses longues ; • compléter par des variables illustratives ; • classer selon des indicateurs statistiques

(banalité, longueur...) ; • résumer en regroupant les réponses similaires.

Sélection en fonction du contexte

En se plaçant dans une strate (Changer de strate ) et en opérant comme ci-dessus, on limite les productions d'extraits à la strate sélectionnée.

On peut également procéder de manière plus directe : • en restreignant le contenu des Listes structurées

à la définition d’un profil (Uniquement les observations telles que ) ;

• en restreignant le Verbatim à la définition d’un profil (Réduire à un profil) ;

• en listant les réponses caractéristiques (Mots spécifiques, Réponses caractéristiques ).

Il faut enfin noter la possibilité, dans la fenêtre Caractériser les observations , de lister les réponses de chaque cellule d'un tableau ou dans l'atelier lexical celles caractérisant les effectifs utilisant tel ou tel mot (Caractériser ).


Dépouiller en produisant des listes

Atelier lexical : Verbatim

Atelier lexical : Environnement

Tableaux : Caractériser


Analyse syntaxique et lemmatisation

20

1. La lemmatisation

Principes de la lemmatisation

L’approximation du contenu d'un texte par ses seules formes graphiques élémentaires peut conduire à des contresens ou laisser planer une grande ambiguïté.

L’analyse syntaxique permet de résoudre correctement les ambiguïtés liées à la syntaxe. En appliquant les règles de la grammaire, on peut, dans la plupart des cas, distinguer verbes, substantifs, adjectifs, et leur substituer leur forme racine (singulier d’un substantif, infinitif d’un verbe par exemple), mais aussi identifier les mots composés et les locutions.

Voici un exemple illustrant ce procédé :

Corpus et lexique originaux Corpus et lexique lemmatisés

J’ai aperçu les grands avions que nous avions vus hier avec grand père

Je apercevoir_v le grand_a avion_n que nous avoir_v, voir_v hier_n avec grand_père_n

avions (2), aperçu, avec, grand, grands, hier, j, père que, les, nous, vus

apercevoir_v, avoir_v, avec, avion_n grand_a, grand_père_n, hier_n, je, que, le, nous, voir_v.

L’ambiguïté entre avions (avoir) et avions (aéroplanes) disparaît dans le corpus lemmatisé. Le statut grammatical des mots est en outre signalé par les suffixes _N, _V...

Réduire la forme graphique au mot racine

La lemmatisation permet ainsi de substituer au lexique initial un lexique beaucoup plus efficace dans la phase d’approximation lexicale. Ci-contre on peut comparer, pour un corpus de 2 378 slogans publicitaires comportant 15 610 mots, le haut du lexique original au lexique lemmatisé.

Chaque forme graphique a été remplacée par sa forme canonique ou racine : le singulier pour un substantif ou un adjectif, l’infinitif pour un verbe. Ainsi, par exemple, toutes les formes le, la l, les, une partie des du sont regroupées sous la forme racine le. Les différentes flexions du verbe être (est, sont, ...) apparaissent à l’infinitif dans le lexique lemmatisé. Les singuliers et pluriels ont été regroupés : ainsi par exemple, homme et meilleur n’apparaissent qu’une fois dans le lexique lemmatisé regroupant les effectifs des formes originales singulières et plurielles.

Résoudre les ambiguïtés sémantiques

Dans le lexique lemmatisé et réduit, on voit le mot avance cité 54 fois. Il s’agit du substantif avance (l’avance technologique) et non du verbe avancer (il avance plus vite). L’analyse syntaxique permet ainsi de résoudre les ambiguïtés sémantiques. Elle permet aussi de distinguer les mots composés et les locutions.

Identifier les formes grammaticales et les locutions

Dans l’exemple précédent, la marque du statut grammatical n’apparaît pas, car, pour des raisons de lisibilité, le tiret du suffixe grammatical a été déclaré comme séparateur de mots.

En procédant différemment, on peut faire apparaître à la suite de chaque mot son suffixe grammatical. Cela permet très rapidement de produire un lexique restreint aux Verbes (_V), aux Adjectifs (_A), aux substaNtifs (_N), aux adverBes (_B), aux mots Grammaticaux (_G).


Corpus lemmatisé avec indication des catégories

syntaxiques

Corpus lemmatisé

Lexique brut et lemmatisé : exemple des slogans publicitaires.

22

2. Lancer la lemmatisation

L’analyseur syntaxique

Le lemmatiseur intégré au Sphinx est l'analyseur syntaxique SYLEX, développé par la société Ingénia Langage Naturel. Il est constitué d’un analyseur syntaxique et d’un dictionnaire. Le dictionnaire français contient 61 400 entrées, 521 400 formes lexicales et 25 600 locutions. Une version anglaise de l’analyseur syntaxique et un dictionnaire d’anglais sont également disponibles sur demande.

La lemmatisation consiste à faire l’analyse syntaxique de la variable. Une nouvelle variable contenant la version lemmatisée du corpus sera ajoutée à la base de données. Cette variable pourra être ouverte et analysée comme n’importe quelle autre variable texte.

On accède au lemmatiseur par le bouton Lemmatiser .

Options de lemmatisation

L’analyseur syntaxique procède par étape. Il détermine le statut du mot, recherche sa forme racine et établit une nouvelle phrase composée des formes racines. Ces nouvelles phrases forment le corpus lemmatisé. Les options disponibles sont les suivantes : • Filtrer des mots grammaticaux : les mots

grammaticaux n’apparaîtront pas dans le texte lemmatisé. A la différence de la réduction du lexique par les mots outils, cette option a pour effet de faire disparaître du nouveau corpus les mots grammaticaux ;

• Repérer les locutions usuelles : elles figureront dans le nouveau corpus reliés par un tiret : pomme_de_terre ;

• Indiquer la catégorie des mots : à chaque mot sera attaché l’un des suffixes qui le caractérise : _V pour le Verbe, _N pour un Nom commun, _P pour un nom Propre, _A pour un Adjectif, _B pour un adverBe, _G pour un mot Grammatical.

• Des conditions syntaxiques supplémentaires peuvent être ajoutées en cliquant sur le bouton Grammaire complémentaire .

Faire un essai

L’analyse syntaxique met en œuvre des techniques de l’intelligence artificielle, elle peut prendre quelques minutes pour un texte très long, surtout si votre machine n’est pas très rapide. Vous pouvez vous faire une idée en ne lemmatisant qu’une partie du texte. Placez-vous sur l’observation de votre choix et cliquer sur le bouton Aperçu pour lemmatiser le fragment correspondant.

Création d’une nouvelle variable contenant le texte lemmatisé

Le bouton Lemmatiser lance la lemmatisation du corpus entier.

Le résultat s’affiche dans une fenêtre où vous pouvez contrôler et éventuellement modifier le résultat. En effet, l’analyse syntaxique n’est pas un procédé fiable à 100 %, certaines ambiguïtés ne peuvent être résolues : les fautes de frappe ou d’orthographe sont un obstacle, le texte peut contenir des mots inconnus... Si c'est nécessaire, vous pourrez directement entrer vos corrections au clavier.

Pour analyser le texte que vous avez sous les yeux, cliquer sur le bouton Etudier le texte lemmatisé . Cette action crée une nouvelle variable et vous met en position pour l'analyser.


Choisir les options de lemmatisation


Corpus d’origine

Corpus lemmatisé

Contrôler, corriger

24

3. Analyser un texte lemmatisé

Il est très souvent préférable d’effectuer l’analyse d’une variable texte sous sa forme lemmatisée. L’approximation lexicale à partir des mots les plus fréquents du corpus sera de bien meilleure qualité. C’est notamment le cas lorsqu’il s’agit d’un texte comportant une syntaxe : réponses à des questions ouvertes formulées sous forme de phrases, interviews non directives, textes rédigés ou littéraires.

Néanmoins, cela peut faire perdre certaines nuances très importantes véhiculées par des différences que la lemmatisation fait disparaître (parler de la femme ou des femmes, de finance ou de finances...).

Afficher le texte d’origine en même temps que le texte lemmatisé

Pour faciliter la navigation lexicale sur un texte lemmatisé, il est utile de faire apparaître le texte de la variable d’origine (utiliser la séquence N° / Illustrer par la variable ) dans la fenêtre d’information sur l’observation courante (si nécessaire, cliquer dans cette zone pour voir la suite du texte).

Utiliser le type grammatical des mots

Les substantifs dénomment les choses, les objets, la scène, le monde. Les noms propres évoquent les personnages, acteurs, lieux et objets personnifiés. Les verbes indiquent l’action, le mouvement, les transformations, et les adjectifs les appréciations, les évaluations, les jugements...

En travaillant sur un corpus lemmatisé doté des marques grammaticales, il est très facile par exemple de dénombrer la présence de chaque type grammatical ou de dresser des listes selon le type.

L’importance relative dans un texte de chacune de ces catégories peut apporter beaucoup d’informations, notamment pour qualifier d’éventuelles variations selon l’origine (qui répond ?) ou selon la partie (à quel moment de l’argumentation ?)...

A partir du panneau lexical, vous pouvez automatiquement obtenir la liste des mots les plus fréquents classés selon leur statut grammatical. Cette fonction automatise des opérations que vous pouvez affiner dans l'atelier lexical.

Rechercher les caractéristiques de l’énonciation

Le travail sur un texte lemmatisé facilite grandement l’étude de l’énonciation : • usage des pronoms personnels (je et j se trouvent

regroupés) ; • utilisation des adjectifs, adverbes... ; • travail sur les substantifs et les verbes pour

déceler la présence de telle ou telle caractéristique des actes de langage. Comme en PNL (Programmation Neuro Linguistique), rechercher les champs lexicaux visuels, kinesthésiques, auditifs..., les traits positifs, négatifs...


Corpus d’origine

Corpus lemmatisé

Raccourcis du panneau lexical

26

4. Modifier le corpus

On peut directement apporter des modifications dans le corpus. Le plus souvent, on le fera pour corriger des fautes de frappe ou des fautes d'orthographe. A cet égard, lorsqu'on travaille sur des textes importés, on a tout intérêt à les soumettre au préalable au correcteur orthographique.

Corriger ou annoter le texte

Le bouton Modifier permet d’écrire dans la fenêtre du corpus et de le corriger. Outre la correction des fautes de frappe, cette possibilité est très utile pour : • gérer les polysémies : par exemple dans un

corpus de slogans publicitaires, le mot aimer peut exprimer le goût ou le sentiment amoureux. On peut distinguer ces 2 formes en ajoutant par exemple une marque spécifique à l’une des significations. On ajoutera par exemple un $ lorsqu’il s’agit du sentiment ;

• faire des annotations dans le texte. On peut ainsi faire de l’analyse de contenu à la manière classique en lisant les réponses et en notant dans un langage codé (mots précédés par un caractère particulier & par exemple) les thèmes rencontrés. On retrouvera très facilement l’ensemble des thèmes marqués à partir du caractère qui les distingue, pour enfin créer une nouvelle variable fermée sur ces thèmes (Voir le bouton Recoder ).

Après chaque modification ou annotation, le texte est reconstruit et de nouveau enregistré. Pour gagner du temps, décocher la case Reconstruire immédiatement le lexique . Dans ce cas, à la fin de vos modifications, activer le bouton Rétablir pour que le lexique prenne en compte les modifications apportées.

Remplacer

Cette fonction est analogue à celle des logiciels de traitement de textes. Elle est très utile pour faire des substitutions systématiques. On y accède par le bouton Remplacer de la barre d’outils.

Reconstruire le lexique

Tant que vous n'avez pas à revenir sur le lexique à des fins d'interprétation, vous n'avez pas intérêt à cocher le bouton Reconstruire immédiatement le lexique car cela peut ralentir inutilement le travail.


Modifier le corpus

Entrer les modifications au clavier

Reconstruire le lexique ou non


La statistique lexicale

30

1. Les indicateurs lexicaux

Avec l'extraction du lexique, le logiciel calcule les indicateurs statistiques qui guident l'utilisateur dans son travail d'interprétation.

Statistiques des formes graphiques (mots)

Avec le bouton Compter , on choisit les indicateurs affichés dans le lexique en regard de chaque mot : • Nombre d’occurrences : c’est le nombre de fois

où un mot apparaît dans le corpus. On le note m i,. i est l'indice du mot.

• Nombre d’observations : c’est le nombre d’observations ou fragments contenant au moins une fois le mot. Il est noté o i. Comme un mot peut apparaître à plusieurs reprises dans une observation, on a m i >=o i.

Statistiques relatives au lexique • Taille du lexique . : c'est le nombre de mots

différents présents dans le corpus, elle donne une indication sur la richesse du vocabulaire. Elle est notée l. Cette valeur, affichée en bas à droite de la fenêtre du corpus, est calculée sans les mots outils si ceux-ci ont été ignorés et sans les mots supprimés. Les nombres de mots ignorés et supprimés figurent entre parenthèses.

• Nombre de mots marqués : ces mots sont utilisés pour le calcul du pourcentage de lecture du corpus et des intensités lexicales.

• Pourcentage de lecture du corpus : c'est le rapport entre le nombre d’occurrences cumulées des mots marqués et la taille du corpus total. PL = 100 * ΣοΣοΣοΣοm / c avec c : taille du corpus, m indice des mots marqués. Il donne une indication de la fraction du corpus, vue par les termes sélectionnés dans le lexique.

Statistiques relatives au corpus • Taille du corpus : c'est la longueur du texte, elle

donne le nombre total de formes graphiques qui le composent. c = ΣοΣοΣοΣοi . Le calcul ne tient pas compte des mots ignorés (mots outils) ou supprimés. S'il y en a, ils figurent entre parenthèses.

• Répétition moyenne : c'est le nombre de fois qu'un mot se trouve en moyenne répété dans le texte. Rep = c / l . Selon le cas, le calcul est effectué en ignorant les mots outils ou les mots supprimés. La valeur de la répétitivité calculée sur la totalité du lexique et du corpus est donnée entre parenthèses.

Statistiques relatives à l'observation

Pour chaque observation, on lit dans le cadran situé en bas de la fenêtre : • La taille de l'observation, en nombre de

caractères et de mots (r) et le nombre de mots marqués (m) qu'elle contient.

• La banalité : c'est le nombre moyen d'occurrences dans le corpus, des mots présents dans la réponse : b = (ΣοΣοΣοΣοr) / r avec (r) indice des mots de la réponse et r taille de l'observation. Elle mesure aussi la répétition moyenne des mots utilisés. Plus elle est élevée, plus la réponse est banale. La banalité est comprise entre 1 pour une observation ne contenant que des hapax et le nombre d'occurrences du mot le plus fréquent (pour le cas d'une observation qui ne contiendrait que ce mot).

• L'intensité des mots marqués : c'est le rapport entre le nombre de mots marqués et le nombre de mots de la réponse ou du fragment (100* m/r ). Cet indicateur permet d'apprécier l'intensité avec laquelle il fait référence au thème correspondant aux mots marqués dans le lexique.


Stat. globales

Stat. de l ’observation

Stat. des mots marqués

Nb. occurrences Nb. observations

pourcentage de lecture des mots

marqués

32

2. Bilan lexical

Au stade du traitement, le tableau récapitulatif des variables textes donne, pour chaque variable, la taille du corpus (nombre de mots), celle du lexique (nombre de mots différents), et la longueur moyenne d'une observation (nombre de mots moyens...). Ce tableau est très utile pour comparer la manière dont ces variables sont documentées.

Dans l'atelier lexical, on peut aller plus loin en comparant les caractéristiques lexicales de la variable étudiée selon les catégories définies par une autre variable (variable de contexte).

Lancer le bilan lexical

Après avoir éventuellement réduit et agrégé le lexique, on choisit Bilan par contexte dans le menu Vue, puis on sélectionne la variable de contexte. On peut, dans la liste des modalités de la variable choisie, désélectionner celles qui ne nous intéressent pas ou sélectionner à nouveau celles qui nous intéressent (Ctrl + clic ).

Indicateurs propres à chaque contexte

Les 2 premières séries d'indicateurs donnent des informations propres à chaque contexte : • Indications globales et de tendances : effectifs,

nombre de mots, mot le plus fréquent (cette dernière information est significative quand on a ignoré les mots outils).

• Moyenne et dispersion : longueur moyenne, nombre de mots différents, répétition, nombre de mots uniques (hapax).

Les indicateurs suivants mettent l'accent sur les points communs et différences entre contextes :

• Nombre de mots communs à toutes les catégories et nombre de mots exclusifs de chaque catégorie : par différence avec le nombre total de mots, on obtient le nombre de mots partagés (mais d'une manière partielle).

• • • • Poids relatif du corpus des différentes

catégories : ces indicateurs donnent une idée de la manière dont les zones de langage se recoupent : à l'intersection d'une ligne et d'une colonne, on lit le pourcentage de lecture du corpus de la catégorie en colonne, par le lexique qu'il a en commun avec la catégorie en ligne. Dans l'exemple ci-contre, on constate que le lexique que les employés partagent avec les cadres moyens couvre 67% du corpus des cadres moyens, alors qu'il ne couvre que 53% de celui des employés.

Cas OVALE - Analyse textuelle de sites Internet – Copyright Le Sphinx Développement - 2005 ouvriers

employés employés

cadres moyens

Bilan lexical

2/ Choisir les contextes

1 / Eventuellement réduire le lexique

Analyser les zones de langage

34

3. Construire un tableau lexical

Pour mettre en évidence les différences d'usage du vocabulaire selon l'identité des locuteurs, selon les parties d'un document, ou selon toute autre variable de contexte, on construit un tableau lexical. Ce tableau dispose en ligne les éléments lexicaux et en colonne les catégories définies par les modalités d’une variable nominale. On peut ainsi dénombrer la fréquence de chaque terme pour chaque catégorie.

Définition du tableau

Pour définir les lignes du tableau, il faut marquer dans le lexique les mots qui figureront en ligne dans le tableau puis sélectionner Tableau lexical dans le menu Vue.

Le dialogue qui apparaît permet de choisir la variable selon laquelle ventiler le lexique en cours d'analyse. On peut se limiter à certaines catégories en sélectionnant celles qui nous intéressent dans la liste des modalités. Le bouton Croiser permet de sélectionner une autre variable.

Choix des indicateurs à calculer

Le bouton Compter permet de choisir les indicateurs à afficher : • Les effectifs : c’est l’affichage par défaut. Il donne

l'effectif de chaque catégorie. La dernière colonne fait la somme des effectifs en ligne. Si toutes les modalités n'ont pas été sélectionnées, elle est différente de l'effectif sur l'ensemble du corpus.

• Les % en ligne : ils donnent une indication sur la répartition entre modalités. Cette répartition dépend évidemment de l’effectif des modalités. L'indice de spécificité permet de prendre la mesure de cet effet.

• Les indices de spécificité : l’indicateur de spécificité est le rapport entre le nombre d’utilisations observées et le nombre théorique d’utilisations tel qu’il résulterait d’un emploi proportionnel au nombre total de mots prononcés par la catégorie considérée. Les termes spécifiques d'une catégorie (sur utilisés par cette catégorie) ont un indice supérieur à 1. Les termes exclusifs sont suivis de *. Les mots sous représentés ont un indice inférieur à 1.

Modification des lignes ou colonnes du tableau lexical

A moins d’avoir des idées a priori bien arrêtées pour ne s’intéresser qu’à un petit sous-ensemble du lexique, l’analyse d’un tableau lexical conduit à examiner de grands tableaux. Il est intéressant de réduire la dimension de ces tableaux en sélectionnant les mots intéressants ou en se limitant au termes les plus significatifs par leur effectif (fréquence absolue, spécificité...).

On modifie les lignes du tableau en jouant sur les termes sélectionnés dans le lexique (utiliser la touche Esc pour revenir au lexique) ou en utilisant le bouton Sélect (Voir Sélections dans un tableau lexical ). On peut changer les colonnes en revenant sur la sélection des modalités avec le bouton Croiser . On édite avec Transférer .

Poursuivre l'analyse du tableau lexical

Le bouton Analyser transfère le tableau dans l'environnement d'analyse des tableaux croisés. On pourra approfondir l'analyse (Chi², AFC…) et illustrer les résultats par des graphiques ou des cartes situant les locuteurs par rapport au vocabulaire employé.

Retour à l'atelier lexical par le bouton Lexique.


1/ Marquer les mots dans le lexique

2/ Choisir la variable de contexte

4/ Analyser

3/ Sélectionner les mots significatifs

Tableau lexical

36

4. Listes des mots spécifiques

Un tableau lexical peut être présenté de manière plus directe en dressant, pour chaque colonne du tableau, la liste des mots utilisés par la catégorie correspondante. On peut ainsi chercher quels sont les mots qui distinguent chaque catégorie et analyser la variation des énoncés selon les parties du texte, selon les locuteurs, ou selon les catégories de répondants, c’est-à-dire selon le contexte.

Produire des listes de mots spécifiques

Pour obtenir la liste des mots spécifiques à un contexte, allez dans la liste Vue et choisir Mots spécifiques .

Comme pour un tableau lexical, choisissez la variable de contexte et / ou les modalités à retenir. Si cette variable est numérique, l'âge par exemple, commencez par définir des classes (Recoder, Mettre les numériques en classes ). Le bouton Croiser permet de changer la variable sélectionnée pour le croisement.

Présenter les listes

Le Sphinx calcule le tableau lexical et affiche directement la liste des mots propres à chaque contexte en appliquant les paramètres courants de sélection (Voir Sélections dans un tableau lexical ). On peut faire afficher les fréquences ou l'indice de spécificité en utilisant le bouton Compter qui permet également de paramétrer le calcul de l’indice de spécificité (Voir Indices de spécificité ).

Le bouton Classer permet d’afficher la liste des mots selon l'ordre du lexique courant ou par ordre décroissant des valeurs de l'indice de spécificité.

Sélectionner les termes

Outre la sélection préalable effectuée dans le lexique, le bouton Select permet d'affiner les conditions de sélection : • les mots exclusifs de chaque catégorie ; • les mots communs à toutes les catégories ; • les mots communs à certaines catégories

seulement.

Ces choix peuvent être complétés par des conditions sur les effectifs et/ou sur la spécificité (Voir Sélection dans un tableau lexical ).

En bas de la fenêtre des mots spécifiques, on peut lire le nombre total de mots retenus. On peut ainsi contrôler la sévérité des sélections.

Les boutons Analyser, Marquer, Réduire fonctionnent exactement comme dans la fenêtre du tableau lexical : Analyser pour poursuivre l'analyse en produisant des cartes d'AFC dans l'environnement d'analyse des tableaux croisés, Réduire pour éliminer les mots outils du lexique.

Marquer permet d’aller marquer dans le lexique les mots sélectionnés. Ceci est nécessaire si on veut examiner leur environnement textuel, les ajouter dans un dictionnaire ou faire toute autre opération sur ce lexique particulier.

Les réponses caractéristiques

Les réponses caractéristiques d'une catégorie sont celles qui contiennent le plus de mots spécifiques à cette catégorie. Grâce à un calcul effectué sur les indices de spécificité, on peut ainsi sortir, pour chaque catégorie, la liste des réponses qui la caractérisent le mieux.

Pour lancer la recherche des réponses caractéristiques, activez le bouton Réponses caractéristiques qui se trouve en bas à gauche de l’écran.


1/ Marquer les mots dans le lexique

2/ Choisir la variable de contexte

3/ Affiner les conditions de sélection

4/ Sortir les réponses caractéristiques

Nb. Occurrences Indice de spécificité

Liste de mots spécifiques

38

5. Sélections dans un tableau lexical ou dans des listes de mots spécifiques

La recherche des caractéristiques lexicales d'un tableau lexical ou de listes de mots spécifiques permet de mettre en évidence les zones de langage, le jargon, ou le langage commun. C'est un temps fort de l'analyse lexicale. On peut procéder de manière systématique et aveugle avec l'inconvénient de produire des tableaux et listes très longs à examiner et dont les éléments ne sont pas forcément significatifs.

Procéder d'une manière sélective

Le logiciel permet, par les actions sur le lexique et par un dialogue de sélection (Sélect ), de cibler la recherche : • Sélectionner les éléments lexicaux en fonction

de leur contenu sémantique : on travaillera de préférence sur le texte lemmatisé, ou mieux encore sur une seule catégorie syntaxique (nom, verbe...). On a tout intérêt à éliminer les mots outils ou termes vides, effectuer des regroupements, ou sélectionner les termes les plus significatifs. Ce travail s'effectue dans le lexique par les boutons Supprimer , Regrouper , Marquer .

• Filtrer par la statistique en tenant compte de 3 critères : la présence dans une seule catégorie, toutes les catégories ou certaines seulement, la fréquence et la spécificité.

Sélectionner selon le sens

La case à cocher Uniquement les mots marqués permet de faire la sélection dans le lexique. Seuls les mots marqués figureront dans le tableau ou les listes. Si aucun mot n'est marqué, le lexique entier est analysé. Le bouton Marquer réalise l'opération inverse en marquant dans le lexique les mots sélectionnés grâce à la statistique.

Choisir les zones de langage

Les 3 cases à cocher Inclure les mots exclusifs d'une catégorie , Inclure les mots communs à toutes les catégories , Inclure les mots communs à certaines catégories permettent de concentrer l'analyse sur des zones de langage particulières ; ce qui est essentiel du point de vue de la communication.

Limiter par la fréquence

La case à cocher Seuil de fréquence permet de n'examiner que les termes suffisamment fréquents dans le corpus (on peut par exemple ne retenir que les termes de fréquence supérieure à la moyenne). Cette condition peut être nuancée en l'imposant à chaque catégorie ou à une au moins.

Tenir compte de la spécificité

La spécificité indique dans quelle mesure un terme est sur-représenté ou sous-représenté dans une catégorie. L'indicateur est égal à 1 si la proportion dans laquelle il est utilisé est la même que sur l'ensemble du corpus. Si le terme est sur-employé, l’indicateur est supérieur à 1. Il est inférieur à 1 dans le cas inverse.

On peut fixer un seuil et choisir de ne tenir compte que des termes de spécificité positive (case Positive cochée). En cochant également Négative , on retient tous les termes sur-représentés (marqués +) ou sous-représentés (marqués -). Les exclusifs sont marqués d’un *.

Combiner les critères de sélection

On joue sur l'ensemble de ces critères en les combinant. On réduit indifféremment la sélection en jouant sur le seuil de spécificité ou sur la fréquence. Le nombre de mots sélectionnés peut orienter la recherche. Cette indication figure au bas de la fenêtre.


Mot sur-représenté

Mot sous-représenté

Mots exclusifs

Effectifs Indice de spécificité

Identifier les zones de langage

Limiter par la spécificité

Limiter par la fréquence

Limiter selon le sens des mots

Sélection dans le tableau lexical et la liste de mots spécifiques

Limiter par longueur de la liste

Nb. de mots retenus

40

6. L'indice de spécificité

Dans le Sphinx, les calculs de spécificité sont utilisés en différentes circonstances : rechercher des caractéristiques (Caractériser , Tableau de caractéristiques ), établir des listes de modalités spécifiques (Tableau de modalités spécifiques ). Ils obéissent toujours au même principe.

Comparer la distribution observée à une distribution de référence

Ces calculs s'apparentent aux calculs effectués pour le test du Chi2. Il s'agit de mettre en évidence des écarts à une répartition de référence. On procède en calculant un effectif théorique répondant à une hypothèse de répartition proportionnelle des éléments étudiés. L'écart à la référence est mis en évidence par le rapport entre l'effectif théorique et celui qu'on observe : • si les 2 effectifs sont identiques, le rapport est égal

à 1, la répartition est proportionnelle ; • si l'effectif réel est supérieur à l'effectif théorique,

l'élément considéré est sur-représenté et le rapport est supérieur à 1 ;

• si l'effectif réel est inférieur à l'effectif théorique, l'élément considéré est sous-représenté et le rapport est inférieur à 1.

La méthode de calcul

Si on note N le nombre total de mots dans le corpus, m le mot utilisé, c la catégorie considérée, Nm le nombre de fois où le mot m est utilisé par toutes les catégories confondues, Nc le nombre total de mots dans la catégorie c et Ncm le nombre de fois où le mot m est utilisé dans la catégorie c, l’indicateur de spécificité est égal à :

Ncm / (Nc * Nm / N)

Par défaut, cet indicateur est calculé par rapport à l'effectif total des seuls mots figurant dans le tableau. Pour que N et Nc soient calculés pour tous les mots présents dans le lexique courant il faut cocher l’option Calculé sur l’ensemble du lexique (bouton Compter ).

En général, le calcul par rapport à l'ensemble des mots du lexique a plus de pertinence. Il renvoie à la globalité du discours. En se limitant à l'ensemble des mots sélectionnés, on risque de se référer à un ensemble dénué de fondement en terme d'énonciation.

Choisir un seuil de sélection

A la différence du test du Chi2, on n'utilise pas ici de modèle probabiliste pour formuler un jugement sur la significativité de l'indicateur. Il s'agit plutôt de l'utiliser d'une manière relative pour sélectionner les écarts les plus forts. Le problème est en effet ici de trouver des moyens efficaces et pertinents pour réduire la variété lexicale et ne retenir que les éléments sur lesquels les différences sont les plus fortes.

S'il s'agit maintenant d'apprécier la significativité de ces écarts, on pourra se reporter au test du Chi2 après avoir recodé les éléments lexicaux étudiés dans une variable nominale (Voir Recoder les textes ).


Effectif théorique (hypothèse de répartition

proportionnelle)

Nb. total de tous les mots dans la catégorie (Nc)

Nb d ’occurrence du mot toutes catégories (Nm)

Nb. total d ’occurrence de tous les mots dans toutes les

catégories (N)

X =

1,09 = 9 / (33 * 27 / 108) ) Indicateur de spécificité

Effectif réel (Ncm)

Effectif théorique

=

Tableau lexical

Liste de mots spécifiques

Indicateur de spécificité

42

7. Comparer à un lexique de référence

La fonction Comparer , accessible par un des boutons de commande de l’atelier lexical, permet d’effectuer une comparaison du lexique avec un dictionnaire de référence.

Le dictionnaire de référence est un ensemble de mots assortis d’une fréquence.

Comparer le lexique du corpus étudié avec un dictionnaire de référence, c’est retrouver les mots qui sont sur-représentés ou sous-représentés dans le texte par rapport à cette référence.

Quelle référence ?

Un dictionnaire de référence peut être général, par exemple le lexique de tous les mots utilisés dans tous les articles du journal « Les Echos ». On comparera une coupure de presse à cette référence pour mesurer si elle est dans le ton.

Un dictionnaire de référence peut être thématique, par exemple les verbes modaux dans l’ensemble des discours d’une personnalité politique. On comparera l’utilisation de ces verbes entre sa dernière prestation et l’ensemble de ses discours.

Créer / enrichir un dictionnaire de référence

La syntaxe d’un dictionnaire de référence est : jaune 24 rouge 31 vert 23 bleu 94 noir 45

Chaque mot est suivi sur la même ligne de sa fréquence. Un tel dictionnaire peut être construit dans un traitement de textes à partir de valeurs obtenues par ailleurs.

Le dictionnaire peut aussi être enrichi en lui ajoutant le lexique du corpus en cours d’étude.

Ainsi, si on étudie chaque semaine le corpus d’une émission télévisée, on pourra, semaine après semaine, construire le dictionnaire de référence de cette émission et comparer le vocabulaire de l’émission en cours à l’ensemble des émissions précédentes, et ceci, sans traiter le trop volumineux corpus de l’ensemble des émissions.

Résultats de la comparaison

Chacun des mots pourra être : • dans le corpus mais pas dans la référence ; • dans la référence mais pas dans le corpus ; • sous-représenté dans le corpus ; • sur-représenté dans le corpus.

On cochera les éléments souhaités dans le dialogue des options.

Options de calcul

Le calcul qui permet de fonder la sur-représentation ou la sous-représentation est le Rapport des fréquences ou la Comparaison de fréquences .

Les fréquences servant de base au calcul peuvent aussi être calculées de deux manières : • le pourcentage d’apparition du mot par rapport à

l’ensemble des mots concernés (corpus ou référence) ; • le pourcentage d’apparition du mot par rapport à

l’ensemble des mots communs au corpus et à la référence.

Ces différents modes de calcul ont déjà été décrits dans le cadre des listes de mots spécifiques.

Limiter la comparaison

Comme dans les listes de mots spécifiques, le résultat de cette comparaison est trop volumineux et il faut limiter cette comparaison pour n’en restituer que l’essentiel.

On limitera ainsi la comparaison aux seuls mots ayant une fréquence minimale n dans le corpus étudié.

On appliquera un seuil à la comparaison pour ne restituer que les éléments vraiment sur-représentés ou sous-représentés. On ne restituera que les n mots les plus caractéristiques.


5 des couleurs référencées n’apparaissent pas dans le texte

Le mot “ rouge ” est nettement sur-représenté dans le texte. En effet, il représente 77,8 % des occurrences des couleurs dans le corpus et 20,8 % des occurrences des couleurs dans le dictionnaire de référence.

Les couleurs dans le texte ne sont qu’au nombre de trois et ne représentent que 1,32% du corpus


Codification automatique des textes

46

1. Créer de nouvelles variables d’origine lexicale

Une variable texte peut être transformée par la lemmatisation et enregistrée sous la forme d’une nouvelle variable contenant le texte lemmatisé.

Le Sphinx offre d’autres opportunités pour créer de nouvelles variables à partir du texte analysé : • Variables nominales pour repérer dans le texte

la présence d’un ou plusieurs mots définis a priori comme les modalités de la nouvelle variable : le texte est codifié automatiquement en fonction des mots marqués dans le lexique.

• Variables numériques pour enregistrer une mesure de nature lexicale effectuée sur chaque observation : le texte est quantifié.

• Variable texte pour enregistrer un texte modifié par rapport à l’original : le texte est transformé.

Toutes ces opérations donnent lieu à la création d’une nouvelle variable qui vient s’ajouter à la suite de la liste des variables et des questions.

Ces nouvelles variables seront disponibles pour toutes les analyses statistiques que le Sphinx propose par ailleurs. La possibilité de créer ainsi de nouvelles variables nominales ou numériques permet de ramener l’analyse d’un corpus textuel à des procédures statistiques classiques.

D'autre part, en transformant le texte, on peut conserver définitivement les réductions opérées à partir du lexique (éliminations, regroupements thématiques, solidarisation des expressions et segments...).

La séquence des opérations est la suivante :

Sélectionner une variable texte

L'article Etudier les textes du menu Stade et du menu Recoder permet de choisir la variable texte et vous place dans l'atelier lexical. Dans l'atelier, vous pouvez aussi directement choisir une autre variable en utilisant le bouton Autre .

Sélectionner les éléments lexicaux à prendre en considération

Dans le lexique des mots ou des expressions, on opère les réductions, suppressions ou regroupements utiles. Puis on sélectionne les éléments à partir desquels seront créées les nouvelles variables.

Sélection d'une procédure de recodification

Le bouton Recoder ouvre le dialogue dans lequel on définit le type de la nouvelle variable et les opérations à mettre en œuvre pour la créer.

Dénomination et enregistrement de la nouvelle variable

Le dialogue habituel de création d'une nouvelle variable s'affiche. La première étape consiste à donner un nom à cette variable. Pour la suite des analyses, il est utile de noter toutes les indications nécessaires afin de retrouver l’origine des nouvelles variables ainsi créées. A cet effet, utiliser le cadre prévu pour la description de la variable en notant les principales étapes qui la définissent.


Recoder selon la présence des mots marqués

Mesurer les propriétés lexicales

Transformer le texte

3/ Sélectionner le type de la nouvelle variable

4/ Nommer la nouvelle variable et la créer

1/ Sélectionner une variable texte

2/ Préparer le lexique et / ou marquer les éléments à prendre en considération

48

2. Codification lexicale

Il s'agit de codifier le texte en repérant automatiquement la présence, dans les réponses, des mots marqués dans le lexique. Cette méthode est très efficace si le lexique a été au préalable correctement mis en forme : lemmatisation ou regroupement des différentes formes d’un même mot, regroupement des synonymes ou équivalents, usage de dictionnaires thématiques pour regrouper entre eux tous les termes porteurs d’une même signification.

Sous ces conditions, on peut faire l’économie de la méthode classique d’analyse de contenu (Voir Coder des textes ) dont les inconvénients sont largement compensés par le caractère automatique et objectif de la procédure qui suit.

La démarche générale est la suivante : • préparer le lexique : analyser de préférence un

corpus lemmatisé et effectuer les groupements nécessaires ;

• marquer dans le lexique les éléments que l’on souhaite repérer dans la réponse. S’il s’agit de termes regroupés (éléments commençant par un #), la présence d’un au moins des éléments du groupe suffit pour identifier la présence du thème correspondant ;

• agir sur le bouton Recoder et choisir Variable fermée pour définir le type de variable à créer.

Création de variables oui/non

Si vous sélectionnez l’option Variable oui/non : la nouvelle variable aura deux modalités de réponses : « Oui » et « Non ». La modalité « Oui » correspond au cas où l’un des mots sélectionnés dans le lexique est présent au moins une fois dans la réponse.

Attention : le balayage des réponses se fait en suivant les règles de la navigation lexicale. Si la liste déroulante Navigation est sur l’option Obs. avec le mot actif , seules les observations contenant ce mot activeront la modalité « Oui ». Pour repérer la présence de l'un des mots, il convient donc de sélectionner l’option Obs. ayant un des mots marqués .

Par défaut, la liste des mots marqués est reprise dans le libellé de la nouvelle variable sauf si vous entrez votre propre description. L’énumération est tronquée si la liste est trop longue.

Création d’une variable fermée sur les mots du lexique

Si vous optez pour Fermée sur les mots marqués du lexique , la nouvelle variable a autant de modalités que de mots marqués dans le lexique. Au maximum 50 ; ce qui correspond à la limite des réponses aux questions fermées.

Une même réponse peut contenir plusieurs mots marqués. Ainsi la nouvelle variable est à réponses fermées multiples. Le nombre maximum de réponses possibles est a priori égal au nombre de mots sélectionnés. Il est finalement ajusté par le logiciel en fonction du nombre maximum de mots effectivement présents dans une réponse.

Le résultat du dépouillement à plat de la nouvelle variable ne correspond pas nécessairement au nombre d’occurrences affichées dans le lexique. En effet, les variables fermées sur les mots du lexique dénombrent des réponses et non des mots. Si un mot est présent plusieurs fois dans une même réponse, l’effectif des réponses n’est incrémenté que de 1.

L'effectif obtenu indique le nombre d'observations contenant au moins une fois le mot considéré.


Plaisir de manger_R2

Non- réponsemangerbonrepasamigoûtplaisirplatfaimaliment#famillerestauranttableTOTAL OBS.

Nb. cit. Fréq.

74 23,9% 107 34,5%

95 30,6% 50 16,1% 38 12,3% 24 7,7% 23 7,4% 19 6,1% 15 4,8% 14 4,5% 26 8,4% 13 4,2% 10 3,2%

310

Plaisir de manger 12

OuiNonTOTAL OBS.

Nb. cit. Fréq.

236 76,1% 74 23,9%

310 100%

Variable Oui / Non

Variable fermée sur les mots du lexique

Eléments lexicaux pris en compte

Coder les mots marqués dans le

lexique

50

3. Mesures lexicales

On cherche à caractériser les énoncés par le poids de certains mots ou l'énonciation par les caractéristiques de chaque observation. Ceci peut donner lieu aux mesures suivantes :

Indications relatives à la présence de certains mots

On cherche à mesurer l'importance dans le corpus des mots sélectionnés dans le lexique : • Nombre d’occurrences des mots marqués : calculer

le nombre de fois où ces mots apparaissent ; • Intensité lexicale des mots marqués : calculer leur

poids relatif par rapport au nombre total de mots de la réponse (100*Nb. mots marqués / Nb. total de mots).

Ces calculs peuvent s’appliquer à l’ensemble des mots marqués ou à chacun d’eux. Dans ce dernier cas, on crée autant de variables que de mots marqués.

Caractéristiques des observations

On prend en compte le lexique courant sans tenir compte des mots marqués : • Longueur de l'observation : compter le nombre de

mots utilisés ; • Banalité de l'observation : calculer le nombre moyen

de fois où les mots de la réponse sont répétés dans tout le corpus ;

• Richesse de l'observation : calculer le nombre de mots différents.

Pour construire ces indicateurs, on sélectionne l'une des mesure lexicales proposées.

Nombre d’occurrences des mots marqués

S'il n'y a pas de mots marqués, le calcul tient compte de la totalité des mots du lexique courant (sans les mots ignorés ou supprimés).

L’option Pour chaque mot permet de créer autant de variables que de mots sélectionnés. Leur nom contient celui du mot suivi de l'extension _O. Elles enregistrent le nombre de fois où le mot est présent dans l'observation.

En sélectionnant Pour l'ensemble des mots , une seule variable est créée : elle donne le nombre fois où l'un des mots marqués est présent.

Intensité lexicale des mots marqués

Cet indicateur permet de mesurer l’importance relative d’un mot ou d’un groupe de mots. Il exprime, en pourcentages, la place accordée aux thèmes ou significations que ces mots représentent. On a les mêmes options que pour le nombre d'occurrences : calculer une variable pour chaque mot (notée mot_I) ou une seule variable pour l'ensemble des mots .

Banalité de l'observation

Cet indicateur est égal au nombre de fois où les mots de l'observation apparaissent en moyenne dans tout le corpus. Cette variable permet ensuite de sélectionner les réponses les plus banales, les moins banales et de les lister... Il est préférable de calculer la banalité en ignorant les mots outils.

Nombre total de mots (longueur de l'observation)

En calculant le nombre de mots de l'observation - la longueur - (sur la base du lexique courant et sans tenir compte des mots marqués), on obtient un indicateur très utile dans l'analyse des questions ouvertes. Il est identique à celui obtenu en choisissant Nombre d’occurrences des mots marqués avec l'option Pour l'ensemble des mots et sans mots marqués dans le lexique.

Richesse de l'observation

Elle est égale au nombre de mots différents. Ce calcul ne tient pas compte des mots marqués et se fait sur la base des éléments du lexique courant.


Plaisir de manger__R

Non- réponseMoins de 1,00De 1,00 à 2,00De 2,00 à 3,00De 3,00 à 4,00De 4,00 à 5,00Plus de 5,00TOTAL OBS.

Nb. cit. Fréq.

1 0,3% 73 23,5%

104 33,5% 71 22,9% 38 12,3% 18 5,8%

5 1,6% 310 100%

Minimum = 0, Maximum = 6Somme = 458Moyenne = 1,48 Ecart-type = 1,24

manger_Obon_Orepas_Ochose_O#en_famille_Ogoût_Oplaisir_Oplat_Ofaim_Oaliment_Orestaurant_Otable_OEnsemble

Valeurmoyenne

Somme

0,37 115 0,34 105 0,17 53 0,09 29 0,08 26 0,08 24 0,08 24 0,06 20 0,05 15 0,05 14 0,04 13 0,03 10 0,12 448

Groupe des variables de

chaque mot

Une variable pour l’ensemble des mots

=100*Nb. Occurrence marquées/ Nb. total de mots Intensité

Banalité

Richesse

Longueur

Mesures lexicales

Nombre d’occurrences des mots marqués

52

4. Modification du contenu d'une variable texte

Comme on le fait quand on lemmatise un texte, il s’agit là de créer une nouvelle variable texte contenant un texte modifié. Cette possibilité permet : • d’enregistrer un nouveau texte en tenant compte

des réductions, suppressions et regroupements opérés dans le lexique des mots ou des expressions. Ceci est utile pour travailler ensuite sur des textes rectifiés ou expurgés ;

• de changer le niveau d’analyse d’un texte en fractionnant chaque observation en fragment de texte plus fin.

Texte réduit aux mots du lexique

Après avoir fait dans le lexique les modifications désirées : ignorer des mots (Réduire ), en supprimer (Supprimer ), en regrouper (Regrouper ), on exécute la séquence Recoder / Texte modifié / Texte réduit aux mots du lexique .

Dans le contenu de la nouvelle variable texte, les mots ignorés ou supprimés n'apparaîtront plus, et les éléments d'un groupement défini dans le lexique seront remplacés par le nom de ce groupement.

Si des mots sont marqués dans le lexique, eux seuls seront utilisés pour construire la nouvelle variable.

Relier les mots consécutifs

Il faut distinguer 2 cas :

• Lexique des mots : si c'est le lexique des mots qui est ouvert (menu Lexique / Mots ), marquez dans le lexique les éléments appartenant aux mots composés que vous souhaitez reconstituer, puis exécutez : la séquence Recoder / Texte modifié / Relier les mots marqués consécutifs. On crée ainsi un nouveau texte où les suites consécutives seront solidarisées par un tiret ( _ ) pour ne former qu'une seule forme graphique. C'est une manière de solidariser les mots composés. Mais il est beaucoup plus intéressant de procéder à partir du lexique des expressions.

• Lexique des expressions : lorsque le lexique des expressions est ouvert, le dialogue du bouton Recoder offre 2 possibilités : Texte réduit aux expressions (la nouvelle variable texte ne contiendra que ces expressions) ou Relier les mots de chaque expression. Dans ce dernier cas, la nouvelle variable conserve l'intégralité du texte original mais les expressions apparaîtront comme une seule forme graphique (les éléments formant l'expression sont reliés par _ : mot_composé).


Réduire aux mots du lexique

Relier les expressions

Transformer en fonction des mots

Transformer les expressions

Modifier le texte

54

5. Fractionner une variable texte

Cette option est utile quand on analyse des textes dont le découpage initial se révèle inadéquat ou quand les réponses sont longues et comportent plusieurs phrases.

Il est en effet gênant, pour certaines opérations (lecture de la fenêtre corpus, navigation lexicale, création de variables fermées sur les mots du lexique), d’avoir, au niveau de l’observation, un texte trop long ou comportant de trop nombreuses unités de significations ou de trop nombreuses phrases.

Le principe consiste alors à fractionner chaque observation en fonction des séparateurs spécifiés : retour chariot pour découper en paragraphes, point pour les phrases, autres signes de ponctuation pour les propositions, ou tout autre caractère introduit dans le texte à cette fin.

On opère ainsi un changement d'unité statistique (d'une population de paragraphes à une population de phrases...). Une nouvelle enquête est alors créée : elle comporte un nombre d’observations supérieur à la première et répond aux caractéristiques suivantes : • la nouvelle variable texte contient les fragments

résultant du découpage ; • la valeur de toutes les autres variables est reprise

à l’identique pour chaque nouvelle observation créée par éclatement de l’originale ;

• le texte des autres variables textes n’est repris qu’une seule fois dans l’observation correspondant au premier fragment du texte éclaté. Pour les autres fragments, elle est vide ;

• une variable CLEF, de type numérique, est créée automatiquement à la fin de la liste des variables. Elle contient, pour chaque nouvelle observation, la provenance de la partie fractionnée.

Pour fractionner une variable texte, procédez ainsi :

• dans le dialogue ouvert par le bouton Recoder , sélectionnez Texte modifié / Fractionner les réponses ;

• choisissez le ou les séparateurs désirés en les tapant dans la boîte Fractionner les réponses pour les séparateurs ;

• un dialogue vous avertit qu’une nouvelle enquête va être générée ;

• dans le dialogue standard de gestion de fichiers, donner un nom de répertoire pour la nouvelle enquête ;

• le logiciel procède au découpage et à la création de la nouvelle enquête dans laquelle vous vous retrouvez. C’est la nouvelle variable qui se trouve maintenant active. Vous pouvez vérifier que le nombre d’observations a changé.

Pour revenir à l’enquête d’origine, il faut l’ouvrir à nouveau.

Changement d'unité statistique

En procédant ainsi, on passe par exemple d'une population de paragraphes à une population de phrases. On change d'unité statistique.

Un cas particulier de cette opération consiste à fractionner la réponse en autant de mots qu'elle contient. Ceci est particulièrement intéressant si la réponse contient par exemple des noms de marque. Ce fractionnement s'effectue au stade de la Saisie des réponses , dans le menu Gérer et dans la fonction Changer d'unité statistique : option Autant d'unités que de fragments d'une question texte (Voir le paragraphe Changer d'unité statistique ).


Eclater

Texte initial

Texte fractionné


Ouvrir un fichier de données textuelles

58

1. Du corpus textuel à la base de données

On peut, avec le Sphinx, analyser n’importe quel corpus disponible sous la forme d’un fichier texte (ASCII) : • interviews non structurées, tables rondes, comptes

rendus de réunions, ... saisis dans un traitement de textes ;

• documents de toute nature : articles de presse, textes littéraires, pages Html, … récupérés dans un fichier texte ;

• bases de données : fichiers d’adresses, bases bibliographiques, … exportés sous forme de fichier texte.

Pour analyser ce type de données, il faut tout d’abord les intégrer dans Sphinx en créant, à partir du ou des fichiers d'origine, une base de données adéquate. C’est ce qu’on peut faire à partir du menu Fichier et de la rubrique Ouvrir un fichier de données . Mais au préalable, il faut réfléchir à la structuration du corpus.

Est-il formé naturellement d'unités élémentaires qui se répètent comme les enregistrements d'une base bibliographique ou les couples questions/réponses d'une interview ?

Peut on identifier différents sous-ensembles de textes comme les titres et les résumés d'une base bibliographique, ou les questions et les réponses dans une interview ?

Est-il structuré en catégories homogènes comme l'entretien auquel attribuer un couple de question / réponse dans un corpus regroupant plusieurs interviews où une année situant le titre et le résumé d'un ouvrage ?

La réponse à ces questions dépend de la structuration "naturelle" du corpus, mais également de la stratégie d'analyse envisagée.

Elle conduit à :

Définir les observations : selon quelles unités élémentaires découper le corpus ?

Phrases, paragraphes, pages, parties, documents, répliques, ensembles de répliques, interviews, fiches... constitueront la population à analyser. En analyse de données textuelles, on utilise souvent le mot fragment pour qualifier ces unités élémentaires, qui correspondent aux individus ou observations formant la population étudiée.

Définir les variables : selon quels points de vue structurer le corpus ?

• On peut considérer le texte relatif à une unité élémentaire comme un tout ou distinguer plusieurs sous-ensembles (la question et la réponse, le titre et le résumé...) et définir ainsi une ou plusieurs variables textes.

• On peut aussi identifier des catégories auxquelles appartiennent les unités élémentaires : le document ou la partie qui situe la phrase, le nom de la personne interviewée qui situe la question et la réponse, l'année pour le titre et le résumé. On crée pour cela des variables nominales dites variables de contexte qui situent les variables textes.

La base de données créée à partir du corpus sera organisée en fonction des indications de découpage et de structuration. Elle sera composée d’autant de fragments (lignes / observations...) que le texte contient d’unités élémentaires. Chaque fragment sera composé d’une ou plusieurs variables : textes et contextes définissant le statut des textes.

A titre d'exemple, le schéma ci-contre illustre les différentes manières de structurer le texte de 3 interviews non directives : • découper selon l'entretien : la base comporte 3

observations (les interviews), une variable texte (texte des questions ou des réponses), une variable de contexte (l'entretien). On ne peut pas faire la différence entre question et réponse ;

• découper selon la prise de parole : la base comporte 24 observations (tour de parole ou réplique), une variable texte (texte des questions ou des réponses), 2 variables de contexte : l'interview, et le statut de la variable texte (Question ou Réponse). On ne peut pas croiser question et réponse ;

• découper selon l'échange : la base comporte 12 observations (échanges question / réponse), deux variables textes (le texte de la question et le texte de la réponse), une variable de contexte (l'interview). Cette solution permet de distinguer question et réponse et de croiser leur vocabulaire.


Variables textes

Variables de contexte

Identité de l’interview

Statut du texte (question/réponse)

Questions

Texte des questions ou des réponses

Réponses

Questions

3 entretiens 24 répliques 12 échanges question/réponse

Du texte … ... aux bases de données

Réponses

60

2. Ouvrir un texte à analyser

C'est un cas particulier de l'ouverture de données externes. Vous devrez d'abord confirmer qu'il s'agit d'un texte à analyser, ouvrir ensuite le fichier, et choisir enfin à quel type de structuration il correspond.

Lancer la séquence d'ouverture

Si vous venez de démarrer le Sphinx, utilisez le bouton Fichier de données . Si vous êtes déjà en train de travailler, utilisez dans le menu Fichier , l'article Ouvrir un fichier de données . Vous pouvez également utiliser le bouton Ouvrir un texte du panneau lexical.

Dans le dialogue Ouvrir un fichier de données , choisissez l'option Un texte à analyser . Ne choisissez Des données formatées que si vos données sont présentées sous forme de tables (en provenance d'Excel ou Access par exemple).

Ouvrir le fichier

Avec le dialogue habituel de Windows, cherchez votre fichier et ouvrez-le. Une nouvelle fenêtre apparaît et vous montre le contenu du fichier. Si vous ne reconnaissez pas vos données, vous vous êtes trompé de fichier ou ce n'est pas un fichier au format texte.

L'ouverture ne se passera correctement que si le fichier n'est pas utilisé en même temps dans un autre logiciel.

Choisir le format correspondant à la structuration des données

Avant de passer à l'étape suivante, vous devez indiquer au logiciel comment il devra interpréter les indications de structuration présentes dans vos données. Deux possibilités vous sont offertes :

• la première correspond au cas où vous analysez un ou quelques textes, peu ou irrégulièrement structurés : discours, livre, rapport, pièce de théâtre, compte rendu de réunion, de table ronde, focus groups... ;

• la deuxième, au contraire, concerne des ensembles de textes régulièrement structurés : bases de données bibliographiques, sites Internet, collection de documents (coupures de presses, échanges dans une messagerie...), entretiens non directifs...

Dans le premier cas, choisir l’option Les textes sont annotés : les indications naturelles de structurations sont inexistantes ou peu nombreuses, hormis les annotations et marques introduites dans une phase préparatoire pour guider le logiciel.

Dans le deuxième cas, choisir l’option Les textes sont balisés : on trouve les traces de l'organisation des données (les balises), elles résultent de leur origine informatique (bases de données, fichiers) ou de leur mode d'élaboration (fiches de lectures, compte rendu d'entretiens...).

Le choix renvoie aussi au caractère répétitif ou non du matériau à analyser. L'option Les textes sont balisés correspond bien aux cas où la nature des données impose un découpage en unités élémentaires (la note documentaire, la fiche, la coupure de presse, le couple question / réponse). Au contraire, l’option Les textes sont annotés correspond au cas où aucun choix ne s'impose a priori.

3. Texte balisé

On obtient par exemple un texte balisé en extrayant des éléments d'une base de données ou en compilant un ensemble de messages électroniques. Ces données sont en effet structurées par les balises qui indiquent les différentes rubriques. Toutes ne sont pas forcément présentes, mais chaque information est rattachée à l'une d'elles.

A partir des balises, le logiciel peut organiser la nouvelle base de données : il repère les balises dans le texte et les soumet pour validation à l'utilisateur. Puis il crée une variable par balise, et parcourt le texte en affectant ce qui suit chaque balise à la variable correspondante. Lorsqu'il rencontre à nouveau une balise, il crée une nouvelle observation.

Définir les caractères délimitant les balises

Après avoir sélectionné l’option Les textes sont balisés , un écran vous propose de valider les caractères permettant de repérer les balises : remplir pour cela les cases Les balises commencent par , et Les balises finissent par. Le retour chariot (^p, saut à la ligne) et les deux points ( : ) sont proposés par défaut. Les blancs sont ignorés.

Le logiciel explore les données et dresse la liste de tout ce qui se trouve entre 2 caractères délimiteurs. Les ":" qui peuvent par ailleurs être présents dans le texte sont des sources d'erreur qu'il conviendra d'ignorer.

Contrôler la validité des balises trouvées

Le logiciel parcourt le texte et dresse la liste de tout ce qu'il trouve entre les caractères délimiteurs en indiquant les fréquences d'apparition.

L'écran suivant affiche cette liste ; ce qui permet de préciser les éléments à considérer comme balises et ceux qui doivent être ignorés. Utilisez la case à cocher Ne pas considérer la chaîne comme une balise pour marquer d'un x les éléments à ignorer. Dans l'exemple ci-contre, c'est le cas de médecine, économie politique ...

Une autre case à cocher permet d'indiquer si, lorsqu'une balise est absente, le contenu de la variable doit être admis à non réponse ou si on doit plutôt Conserver la valeur précédente .

Identification des variables et des observations

La validation des balises définit la structure de la table de données.

A chaque balise correspond une variable de la table (colonnes). Il y a autant de variables que de balises et autant d'observations que le nombre de fois où la balise la plus fréquente apparaît dans le texte (lignes). Une observation est définie par l'ensemble des balises (variables).

Le logiciel parcourt le texte en affectant ce qui suit une balise à la variable correspondante. La répétition d'une balise marque le passage à l'observation suivante. Pour les balises manquantes, la variable est mise à non réponse ou reprend la valeur précédente.

En fin de lecture, le logiciel affiche la liste des variables et leur donne un type par défaut. On peut le modifier en indiquant le plus approprié dans la liste.

Création de la base Sphinx

Après avoir contrôlé les variables, validez et donnez un nom à votre base. Une nouvelle enquête est créée, vous pourrez la reprendre et l’analyser comme toutes les autres.


4. Préparer et ouvrir un fichier d'entretiens semi-directifs

Les entretiens semi directifs sont insuffisamment structurés pour être saisis dans le cadre fixé a priori pour les questionnaires Sphinx, mais ils présentent un niveau de structuration qui conduit à les analyser comme des textes balisés. C'est dans cette optique qu'il convient d'organiser leur saisie.

Dans l'exemple ci-contre, on utilise des balises en début de ligne (délimiteurs « ^p » et « : ») pour : • définir la signalétique de l'entretien (Entretien, Sexe, Age,

CSP) ; • indiquer les grandes parties de l'entretien (Partie) ; • distinguer les questions et les réponses (Q, R).

Traitement des variables signalétiques

A la lecture du fichier, le logiciel repère que les balises Entretien, Sexe, Age, Csp sont en nombre inférieur aux autres. Il propose de les éliminer en les marquant comme éléments à ne pas considérer comme balise (case à cocher Ne pas considérer la chaîne comme une balise ).

Il faut changer cela en indiquant que lorsque la balise est absente, la valeur précédente doit être conservée. En effet, on souhaite ici que le couple question/observation définisse l'observation élémentaire, les autres balises renvoyant à des variables de contexte. Pour que ces variables soient bien documentées, il faut cocher la case Si la balise est absente, conserver la valeur précédente .

Traitement des parties

On procède de la même manière pour la balise Partie. Ceci implique que tout couple de question/réponse est rattaché à une partie.

On peut ainsi indiquer la structuration générale de l'entretien sans devoir nécessairement trouver toutes les parties dans tous les entretiens ni tous les couples de questions/réponses d'une même partie les uns à la suite des autres. Seuls les changements de partie doivent être signalés ; c'est ce que permet l'option Si la balise est absente, conserver la valeur précédente.

Les questions / réponses

Ces balises ne sont pas marquées, elles définissent l'observation élémentaire, c'est-à-dire que leur répétition fait passer à l'observation suivante.

Si 2 "Q" se suivent, ils appartiennent nécessairement à des observations différentes, et dans ce cas, on aura un "R" à non réponse.

Précautions à prendre au moment de la saisie

Le logiciel applique aveuglément les "règles de reconnaissance" du texte. Il faut par conséquent s'assurer qu'elles ont bien été respectées à la saisie : • les délimiteurs de balises ne doivent pas être présents

ailleurs dans le texte. Attention au " : " ou utilisez d'autres caractères( <, >, ]...) ;

• toutes les balises de contexte doivent être documentées (même si elles sont éventuellement vides).

4

Signalétique

Parties de l’interview

Questions

Réponses

Variables de contexte

Variables textes


5. Texte annoté

On utilise cette approche lorsque le ou les textes à analyser sont faiblement structurés ou pas du tout. Se pose alors la question du découpage en fragments élémentaires. La démarche la plus simple consiste à s'appuyer sur la structuration naturelle du texte. Enfin, la possibilité d'interpréter des annotations apportées dans le texte permet d'en repérer les éléments et/ou de les commenter.

Découper le texte en fragments élémentaires

Indiquez si vous souhaitez découper le texte en phrases ou en paragraphes en cochant les boutons appropriés. Le Sphinx crée un nouveau fragment à chaque caractère de ponctuation forte (Phrases ) ou retour chariot (Paragraphes ). Vous pouvez également spécifier le caractère séparateur de votre choix pour découper selon vos propres indications (Caractères séparateurs ).

Une opération un peu plus complexe vous permet de définir plusieurs caractères séparateurs dont certains serviront à structurer votre texte.

Par exemple, pour distinguer des chapitres et des sections, portez, dans votre texte, à chaque début de chapitre le caractère $, à chaque début de section, le caractère £. Pour indiquer que vous souhaitez découper votre texte en phrases et que les chapitres sont contenus dans des sections, cochez Niveaux et entrez vos caractères séparateurs sur le modèle ci contre. Les séparateurs de fragments figurent à gauche, ceux qui indiquent les chapitres et sections figurent en deuxième et troisième position (selon l'ordre d'inclusion).

Interpréter les annotations

Les annotations sont des repères ou commentaires rajoutés dans le texte. Elles sont reconnues par le logiciel et permettent de créer des variables de contexte caractérisant les fragments auxquels elles s'appliquent.

Le contenu de l'annotation peut donner lieu à une variable fermée ou ouverte texte. On peut, d'autre part, les distinguer selon leur portée : • les annotations locales de type MARQUE : un seul

fragment sera affecté par l'annotation (le fragment qui la contient) ;

• les annotations globales de type JALON : tous les fragments, jusqu'à la prochaine annotation globale, sont désormais affectés par cette annotation ;

• la syntaxe à respecter est la suivante : le contenu est défini entre crochets et précédé d'une mention précisant son type : [MT= contenu ]

M= pour MARQUE (variable fermée) MT= pour MARQUE TEXTE (variable ouverte) J= pour JALON (variable fermée) JT= pour JALON TEXTE (variable ouverte)

Le bouton Détail disponible dans l’option Annotations permet : • d’indiquer les annotations qu'on souhaite utiliser (cocher

la case correspondante) ; • de donner un nom à la variable ; • de préciser si on souhaite conserver les annotations dans

le texte ; • d’organiser la propagation de la dernière annotation

(Marque absente = Marque précédente ).

Numéroter les fragments et les parties

Le bouton Numérotation permet de numéroter les fragments et / ou de les répartir en un nombre de parties à déterminer (Indicateur de parties ).

6

Jalon

Marque Séparateur

1/ Découper

2/ Structurer

Structurer par annotations

Structurer par niveaux

Structurer par décompte des fragments

Sélectionner les annotations et définir les variables


6. Exemples de textes annotés

Selon la nature du corpus analysé et des annotations qui ont été mises, on utilisera différemment les possibilités offertes par le dialogue d'ouverture d'un Texte annoté .

Analyse de discours

On peut ramener à ce cas celui de tout texte mono bloc dans lequel aucune structuration particulière n'est mise en évidence hors mis celle de la syntaxe.

La solution la mieux appropriée consiste à : • fragmenter le texte en phrases et dénombrer les

paragraphes. Chaque phrase se trouve ainsi affectée à un paragraphe repéré par son numéro. Pour cela, sélectionner Niveaux et entrer les caractères de ponctuation forte dans la case de gauche et le retour chariot dans la case de droite ;

• découper le texte en 5 parties consécutives et de longueur égale (en nombre de fragments). On peut ainsi identifier des parties de début, de milieu et de fin du texte. Pour cela, dans le dialogue Numérotation cocher Numérotation des parties et Indicateur de partie : 5 .

La base de données obtenue comporte la variable texte et 3 variables de contexte contenant le numéro de fragment le numéro de paragraphe et de partie.

Entretien non directif

Dans ce cas, on souhaite distinguer les questions des réponses pour pouvoir analyser le texte des réponses d'une manière isolée. Dans le texte, on porte les annotations [M=Question] et [M=Réponse] au début de chaque Question / Réponse et après un retour à la ligne.

Pour identifier d'éventuelles parties, on ajoute des annotations de type jalon : [J=Introduction], [J=Partie 1]... au début de chaque partie.

Pour découper le texte, choisissez Phrases et dans le dialogue Annotations , nommez Statut la variable Marque et Partie la variable Jalon. Cochez la case Marque absente = Marque précédente (ceci permet de ne pas répéter la marque à chaque phrase).

Si vous avez plusieurs entretiens, vous pouvez faire un fichier pour chacun. Cochez alors la case Plusieurs fichiers.

La nouvelle base contiendra la variable texte et 3 variables de contexte : le statut du texte (Question, Réponse), la Partie et le document d'origine (Fichier).

En procédant ainsi, on peut définir la strate des questions, celle des réponses et se concentrer sur l'un ou l'autre des corpus. Mais on ne pourra pas rapprocher le texte d'une question de celui de la réponse qu'elle provoque. Cette stratégie convient aux entretiens non directifs. Mais si l'entretien est dirigé avec des questions qui reviennent à l'identique, il vaut mieux procéder comme pour un texte balisé. En assimilant le couple question / réponse à une observation, on pourra croiser les vocabulaires correspondants.

Pièce de théâtre

Ce cas peut se ramener au cas précédent : on fait précéder chaque réplique d'une marque Personnage : [M=Harpagon], [M=Elise]. En début de chaque Scène, on pose un Jalon [J=Acte I Scène 1]..... Pour identifier les Actes indépendamment les uns des autres, on peut utiliser un séparateur de niveau en posant par exemple des $ au début de chaque Acte.

La fragmentation peut se faire par phrases ou par répliques. Dans ce dernier cas, faire coïncider la réplique et le paragraphe ou introduisez un niveau réplique.

8

AVARE.DOC : tel qu’il nous est parvenu ACTE_V - SCENE_V ANSELME, HARPAGON, ELISE, MARIANE, FROSINE, VALERE, MAITRE_JACQUES, LE_COMMISSAIRE, SON_CLERC. HARPAGON : Oui, ils se sont donné l'un à l'autre une promesse de mariage. Cet affront vous regarde, seigneur Anselme, et c'est vous qui devez vous rendre partie contre lui et faire toutes les poursuites de la justice pour vous venger de son insolence. ANSELME : Ce n'est pas mon dessein de me faire épouser par force et de rien prétendre à un cœur qui se serait donné ; mais, pour vos intérêts, je suis prêt à les embrasser ainsi que les miens propres. HARPAGON : Voilà, monsieur, qui est un honnête commissaire, qui n'oubliera rien, à ce qu'il m'a dit, de la fonction de son office. (Au commissaire) Chargez-le comme il faut, monsieur, et rendez les choses bien criminelles.

Annotations Jalons

acte et scène liste des personnages présents

Marques nom du personnage didascalies

AVARE.TXT : après le traitement dans Word $[J=ACTE_V - SCENE_V][JT=ANSELME, HARPAGON, ELISE, MARIANE, FROSINE, VALERE, MAITRE_JACQUES, LE_COMMISSAIRE, SON_CLERC] &[M = HARPAGON] Oui, ils se sont donné l'un à l'autre une promesse de mariage. Cet affront vous regarde, seigneur Anselme, et c'est vous qui devez vous rendre partie contre lui et faire toutes les poursuites de la justice pour vous venger de son insolence. &[M = ANSELME] Ce n'est pas mon dessein de me faire épouser par force et de rien prétendre à un cœur qui se serait donné ; mais, pour vos intérêts, je suis prêt à les embrasser ainsi que les miens propres. &[M = HARPAGON] Voilà, monsieur, qui est un honnête commissaire, qui n'oubliera rien, à ce qu'il m'a dit, de la fonction de son office. [MT=Au commissaire] Chargez-le comme il faut, monsieur, et rendez les choses bien criminelles.

AVARE.QUE : le dictionnaire des variables créées

1. REPLIQUES O(texte) Hé quoi ! Charmante Elise,.... 2. DIDASCALIES O(texte) (à part) 3. QUI PARLE F(unique) HARPAGON ; CLEANTE; ... 4. ACTE_SCENE F(unique) ACTE1_SCENE1 ; .... 5. NUMERO_DANS_SCENE O(numérique) 1 2 .......... 6. NUMERO_DANS_PIECE O(numérique) 1 2 ...... 7. QUI EST SUR SCENE F(multiples;11) HARPAGON ; CLEANTE; ...


7. Macro commandes pour la préparation des textes

Préparer un texte, nous l'avons vu, c'est indiquer par des caractères la structure du texte.

Certains caractères sont des séparateurs de fragments, d'autres entourent les annotations qui illustrent le texte.

Le texte original ne présente pas en général cette structuration sous forme de caractères réservés.

Par contre la typographie, les styles, la pagination contiennent des éléments de structure.

Les traitements de textes proposent des fonctions de Rechercher / Remplacer sophistiquées qui sont très utiles pour automatiser le processus. Elles sont assez difficiles à mettre en œuvre et, pour le traitement de textes Microsoft Word (version 6 et suivantes), un ensemble de macro-commandes est disponible pour effectuer simplement les opérations les plus courantes.

Installer les macro-commandes

Pour installer les macro-commandes, lancer Word, ouvrir le fichier Sphinx.dot qui se trouve dans le répertoire Sphinx2000 puis répondre affirmativement à la demande de confirmation.

Les macro-commandes sont désormais disponibles et une barre d'outils spécifique a été créée.

Dans cette barre d'outils, le bouton-outil … lance un dialogue permettant d'opérer des transformations sur l'ensemble du texte.

Ces transformations consistent à insérer des séparateurs ou à transformer des portions du texte en annotations.

Placer des séparateurs

Pour être certain de dédier un caractère (DOLLAR '$' par exemple) à la séparation de fragments, il est prudent de supprimer préalablement les occurrences éventuelles dans le texte (Enlever les séparateurs $ & § ).

L'insertion des séparateurs peut se faire : • avant chaque page : on pourra construire un index des

mots dans le texte ;

• tous les n mots : on obtiendra des fragments de longueur identique ;

• avant le style "unstyle" : en répétant cette opération pour les styles Titre1, Titre2, Titre3, on aura un fragment pour chaque sous-partie du texte.

Repérer les annotations

Les annotations sont les portions de textes qui illustrent les fragments. Elles donneront lieu à des variables fermées et n'apparaîtront pas dans le corpus proprement dit.

Or dans le texte brut, ces annotations sont identifiables par le style (au sens de Word), par la typographie (gras, italique).

Dans le dialogue, on trouve des options pour transformer en annotation : • texte ayant le style "unstyle" • texte en "gras" • texte entre ( et ) : tous les textes entre parenthèses

seront transformés en annotations.

Recherche / remplacement avec attributs

Word permet d'effectuer des remplacements sophistiqués : • en se fondant sur les attributs (police, taille, style, …) ; • en utilisant des caractères génériques ( * @ ?).

L'utilisation de ces fonctions, bien documentées dans l'aide de Word, permet de résoudre automatiquement la plupart des cas de figures non traités directement par les macro-commandes installées par le Sphinx.

Ouvrir le fichier modifié

Avant de quitter Word et de lancer l'analyse du fichier, il faut encore l'enregistrer au format texte, qui est le seul format reconnu par le Sphinx.

10

Méthodologie

Choisir le bon type de fichier

Puis désigner le fichier “ Lexica.dot ”

Microsoft Word propose des options de recherche génériques

ou par attributs

La barre d’outils pour transformer le texte sélectionné

en annotation ou bien pour lancer le dialogue ci-dessous


Etudes de cas

12

1. Analyse des réclamations clients – Marque Hextra Contexte général et objectifs du projet :

Une multinationale du secteur de l’agro-alimentaire souhaite exploiter le texte des réclamations clients qui lui sont adressées, à des fins de suivi qualité et de recherche-développement. Plus précisément, les objectifs sont : - exploiter les réclamations consommateurs enregistrées par le centre de contacts clientèle : des données gratuites et disponibles trop souvent sous-utilisées - construire un baromètre de suivi quantitatif des principaux thèmes de réclamations - isoler dans le corpus des idées d’amélioration des produits existants ou des sources d’innovation Ressources humaines et technologiques mises en oeuvre dans ce projet :

La saisie des réclamations se fait systématiquement dans une base spécifique par deux opérateurs dédiés dans le centre de relations clientèle. L’intégration dans le Sphinx Lexica est effectuée par le chargé d’étude. Description de l'étude ou de l'application :

La démarche d’étude est la suivante : Recherche automatisée: 1. Identifier les thèmes principaux 2. Quantifier les thèmes Recherche manuelle 3. Explorer des sujets ciblés 4. Découvrir des idées Extraits des résultats : A. Identifier les thèmes principaux - Analyse des co-occurrences sur les 100 mots et expressions les plus cités - Pour une première vision synthétique faisant apparaître les thématiques principales - Technique utilisée : analyse factorielle des correspondances

B. Quantifier les thèmes - Regroupement des formes textuelles par thèmes - Manuellement ou avec un dictionnaire - Création d’une nouvelle variable fermée 2/3 des déclarations évoquent au moins un de ces thèmes 3 sujets majeurs pratiquement ex-quo Croisement avec d’autres variables de l’étude Regroupement automatique des dates de saisie par mois Croisement en fonction du mois de saisie + représentation graphique

Identifier les produits Hextra évoqués par le consommateur Repérage des produits recherchés dans le texte Regroupements de plusieurs intitulés différents par produits


C. Explorer des sujets ciblés - Exploration autour de l’allergie - Lire toutes les réponses relatives à ce thème = concordances - Mise en évidence du « lexique relatif » autour du mot clé pour identifier les thèmes d’allergie les plus fréquemment cités D. Découvrir des idées - Plusieurs stratégies de recherche envisagées - Parmi celles-ci, recherche autour du verbe « suggérer » 5 propositions émises par les consommateurs

Exemples : n° 110 Ce consommateur trouve notre Poitrine Fumée par 3 ou 4 trop épaisse pour barder une volaille ou même pour manger avec des oeufs. Nous suggère de faire des tranches de 4mm et en mettre 5 par paquet et est certain que l'on ratisserait de la clientèle n° 379 Bravo pour votre kit pizza. Cette expérienc e me permet de faire une suggestion. Pourquoi ne pas faire de pâte feuilletée comme les kit pizza , cela serait plus conforme à la plaque du four, faciliterait la découpe soit avec des ciseaux soit à la roulette n° 431 "sur l'emballage, il y a marqué ""pensez à sortir votre pâte du réfrigérateur 20 min avant utilisation"" mais c'est à l'intérieur de l'emballage et on ne peut pas le lire avant d'avoir ouvert l'emballage elle suggère de le marquer à l'extérieur" n° 439 Il est marqué 4 recettes à l'intérieur, pou rquoi ne pas les faire figurer à l'extérieur, c'est bien plus simple lorsque l'on fait ses courses pour connaître les ingrédients à acheter. Moi, je viens de rentrer de mes courses, j'ouvre la pâte, et je m'aperçois que je n'ai pas tous les ingrédients, et qu'il faut que je ressorte acheter ce qu'il me manque ! Cela m'agace et c'est pourquoi, je vous fais cette suggestion. n° 489 je suggère que soit noté sur les emballages de pâte à quel moule cela correspond

Méthodologies utilisées pour le traitement des résultats :

Un ensemble de techniques de l’analyse de données textuelles dont : - analyse de contenu, - regroupement de lexique par dictionnaire thématique, - analyse factorielle des correspondances sur les occurrences principales, - extractions sélectives de verbatims,

produits

Non réponse 281 46,9%

pâtes 157 26,2%

Knackis 76 12,7%

jambon 32 5,3%

lardon 26 4,3%

pâte_feuilletée 23 3,8%

pâte_pizza 21 3,5%

pâte_brisée 18 3,0%

cervelas 8 1,3%

Total 599

46,9%

26,2%

12,7%

5,3%

4,3%

3,8%

3,5%

3,0%

1,3%

allergies

conservation

recettes

DLC

pâtes

Knackis

jambon

lardon

pâte_feuilletée

pâte_pizza

pâte_brisée

cervelas

14

2. Identification du territoire de communication d’une marque Contexte général et objectifs du projet :

- trouver un territoire de communication pour un transporteur (nouvelle gamme de produits) face aux concurrents - peu d’information interne chez notre client et budget limité - donner une allure spectaculaire aux résultats, pour dynamiser une présentation aux forces de vente => d’où méthodologie par analyse textuelle des concurrents : leurs plaquettes papiers et leurs sites Internet Description de l'étude ou de l'application :

Objectif : trouver un territoire de communication pour un transporteur (nouvelle gamme de produits) face aux concurrents Méthodologie : Première étape : saisie complète du contenu des plaquettes (scan + OCR) + Capture des textes des pages web (automatique ou copier-coller) Deuxième étape : analyse lexicale Univers analysé : Plaquettes : ABX Logistics - Darfeuille - Exapaq - Gefco - Geodis Calberson - Jet Services - Joyau - Mory - Norbert Dentressangle Web : ABX Logistics - Darfeuille - Exapaq - Gefco - Geodis Calberson - Jet Services - Joyau - Mory - Norbert Dentressangle - Extand - Graveleau Un grand thème absent = le positionnement que le consultant va recommander à son client

Planning de mise en oeuvre : 10 jours Bénéfices et limites de l'étude ou de l'application :

Le client (transporteur) rassuré sur la pertinence des intuitions, conduisant au choix de son nouveau positionnement. La force de vente comprend le nouveau positionnement Conclusion : confirmation d’une intuition Résultats : Sur la page, ci après, représentation des co-occurrences par analyse factorielle des correspondances.

3. Cas « Ovale » Analyse comparative des sites concurrents En janvier 2004, nous avons récupéré le contenu complet des 5 sites institutionnels de Meyer, Fidel, Odense, Ovale et Onvista. Nous constatons des structures très similaires, comme nous le voyons dans le tableau ci-dessous ; avec pour toutes les entreprises étudiées, des espaces consacrés à la philosophie/culture de l’entreprise, aux produits, aux actionnaires/investisseurs, aux fournisseurs et parfois au sponsoring sportif. Une revue de presse est systématiquement disponible. Pour les cinq entreprises, il s’agit très nettement de sites dits « institutionnels ». Site Structure de premier niveau www.meyer.com Home (company/news/maps) /

Products / Locations / Contact / Jobs www.fidel.com About us / Products / News / Investor

information / Suppliers / Careers / Motorsports

www.odense.com About Odense / Products / Technology / Environment / News Releases / Events / Investors

www.ovale.com About Ovale / Activities & Technologies / Finance / Press / Join us / Suppliers / Ovale Service

www.onvista.com About Onvista / Investor relations / Newsroom / Technology / Careers

Sur le plan technique, tous les sites sont construits et développés en “PHP”, ce qui signifie qu’à partir d’une structure statique pré-définie, le contenu des pages est dynamique : il est alimenté et mis à jour régulièrement depuis un menu d’administration et une base de données. Cela signifie par ailleurs que les versions des sites en différentes langues suivent exactement la même structure et sont constituées de simples traductions. Autrement dit, il n’y a pas d’adaptation particulière au vocabulaire d’un pays donné. Méthodologie générale

Nous avons procédé à une analyse des données sur le logiciel Sphinx Lexica. Après réduction lexicale (retrait des mots outils du langage), nous constatons tout d’abord que pour quatre d’entre eux, ils sont de taille comparable (entre 30 000 et 40 000 mots), ce qui rend notre analyse statistique d’autant plus fiable et pertinente. Seul le site de Meyer est plus petit avec 10 000 mots. Ceci n’est pas très étonnant car l’entreprise ne couvre qu’une partie plus restreinte des technologies de l’équipement automobile. Pour les revues de presse, par souci d’homogénéité, nous avons sélectionné 20 articles par site, les plus récents ou ceux qui étaient présentés en premier sur la liste des articles. Bilan lexical (sur lexique réduit hors mots-outils) Hormis Meyer, le site de Fidel est le plus « riche » et le moins répétitif. Sur ce critère, Ovale est troisième sur quatre. Si l’on compare les corpus des 5 sites et leurs intersections, le site de Ovale est plus « original » par rapport à ses concurrents avec près de 15% des mots qui lui sont exclusifs contre 9,5% à Onvista. Dans les caractéristiques de son corpus, le site de Ovale ressemble plutôt à celui de Onvista (77 et 79% de recouvrement) Répétition moyenne : répétition moyenne de l’ensemble des mots du site, plus cet indicateur est haut plus le texte est répétitif. Mot exclusif : mot présent exclusivement dans le site d’une marque donnée Recouvrement des corpus : % du corpus d’une marque donnée partagée avec une autre marque

2

Ovale Fidel Odense Meyer Onvista

Nombre total de mots

37 874 31 064 31 313 10 053 39 306

Mot le plus fréquent

ovale fidel odense meyer onvista

Fréquence de ce mot

1 390 968 849 349 1 415

Nombre de mots

différents

5 820 (15,4%)

5 236 (16,9%)

4 969 (15,9%)

(2 652) (26,3%)

5 809 (14,8%)

Répétition moyenne

6,51 5,93 6,30 (3,79) 6,77

Poids des 1083 mots communs

51.1% 48.4% 55.3% 63.4% 51.8%

Nombre de mots exclusifs

2 170 (14.6%)

1 490 (11.5%)

1 464 (13.0%)

514 (9.7%)

1 842 (9.5%)

Recouvrement des corpus


Ovale * 72.5% 76.9% 77.5% 79.7% Fidel 70.5% * 75.7% 74.7% 79.1%

Odense 71.2% 70.3% * 76.2% 73.0% Meyer 58.3% 54.4% 62.8% * 58.1%

Onvista 77.3% 81.1% 77.7% 80.7% * Citations des marques Nous avons calculé la fréquence de citation de la marque sur l’ensemble du site (en excluant bien évidemment les menus). Ovale est en tête avec un peu plus de 3%, suivi de près par Onvista. Odense est la marque la moins mise en valeur avec moins de 2% de fréquence.

Nb citations marque

Corpus Fréquence marque

1. Ovale 1 202 37 874 3,17% 2. Onvista 1 168 39 306 2,97% 3. Meyer 270 10 053 2,68% 4. Fidel 724 31 064 2,33%

5. Odense 625 31 313 1,99% Total 149 610

Nous constatons dans le tableau ci-dessous que les concurrents ne se citent quasiment pas, à peine 4 citations croisées, dont 3 figurent sur le site de Onvista. Onvista Ovale Fidel Odense Meyer Ovale.com 1 0 0 0 Fidel.com 0 0 0 0 Odense.com 0 0 0 0 Meyer.com 0 0 0 0 Onvista.com 1 1 0 1 Analyse thématique des sites Nous avons défini une liste de « thèmes-clé » et avons mesuré comparativement leur présence sur chacun des cinq sites. On exclut pour l’instant le thème de l’innovation ou de la recherche, qui sera spécifiquement traité plus loin.


D'après le tableau et la carte factorielle ci-dessous : On constate que le site de Ovale, comparativement à ses concurrents, insiste principalement sur la qualité, la technique, les services et l’après-vente. On y évoque plus souvent les fournisseurs et les actionnaires. Les sites de Fidel et Onvista sont assez proches. Onvista se caractérise par une mise en avant du consommateur et du client. Par ailleurs, on y parle beaucoup de performance, de design. Sur www.fidel.com, on cite souvent la puissance. Le site de Odense fait la part belle à l’environnement, mais aussi à l’investissement et au développement. RAPPEL : Carte factorielle: représentation graphique sur deux dimensions des correspondances identifiées statistiquement entre les marques et les thèmes. Proximité signifie corrélation, éloignement signifie répulsion. Les mots placés au centre sont communs, ceux qui sont en périphérie sont très spécifiques.

Key words x Firm


product

development

environment

technology

new

customer

services

performance

suppliers

quality

power

design

technical

employees

safety

efficiency

consumer

shareholders

international

aftermarket

investment

cockpit

23.9% 25.0% 27.2% 4.7% 19.1%

26.6% 9.4% 29.4% 9.1% 25.4%

19.5% 13.3% 50.0% 3.2% 14.0%

20.4% 21.3% 22.4% 4.5% 31.4%

21.3% 15.0% 23.2% 11.7% 28.8%

15.3% 20.3% 10.4% 8.1% 46.0%

44.8% 9.5% 8.9% 4.9% 31.9%

19.1% 29.9% 9.6% 4.2% 37.3%

33.6% 8.8% 13.4% 8.5% 35.7%

34.8% 12.0% 10.1% 8.0% 35.1%

20.8% 38.9% 14.0% 3.0% 23.4%

18.7% 22.3% 11.7% 3.9% 43.5%

67.3% 9.9% 4.9% 5.3% 12.7%

21.3% 14.5% 25.5% 4.3% 34.5%

29.3% 29.8% 19.2% 5.8% 15.9%

22.2% 16.3% 24.6% 6.9% 30.0%

7.9% 18.0% 4.5% 0.0% 69.7%

42.8% 2.5% 19.5% 0.0% 35.2%

31.2% 14.2% 22.7% 13.5% 18.4%

50.8% 5.1% 1.7% 0.8% 41.5%

11.5% 4.9% 37.7% 6.6% 39.3%

19.3% 40.1% 4.4% 9.4% 26.8%

2

Key words x Firm

Ovale

Fidel

Odense

Meyer

Onvista product

development

environment

technology

new

customer

services

performance

suppliers

quality

power

design

technical

employees

safety efficiency

consumer

shareholders

international

aftermarket

investment

cockpit

Axe 1 (41.1%)

Axe 2 (32.7%)

2

Utilisation des mots de l’innovation Ovale est l’entreprise qui accorde proportionnellement le plus de place aux mots de l’innovation (innovation, innovations, innovative, research, new ou advanced technologies) dans son discours (0,47% du corpus du site), Onvista est n°2 avec 0,32%, les trois autres entreprises sont au même niveau avec une fréquence de 0,22%. Innovation x Firm (frequency)

Innovative Innovations Research Innovation New tech. Advanced tech. Total 1. Ovale 0,12% 0,10% 0,10% 0,15% 0,00% 0,01% 0,47%

2. Onvista 0,06% 0,16% 0,04% 0,05% 0,00% 0,00% 0,32%

3. Fidel 0,09% 0,02% 0,03% 0,05% 0,03% 0,01% 0,22%

3. Odense 0,03% 0,00% 0,07% 0,01% 0,05% 0,05% 0,22% 3. Meyer 0,10% 0,01% 0,08% 0,01% 0,02% 0,00% 0,22%

Total 0,08% 0,07% 0,06% 0,06% 0,02% 0,01% 0,31% Parmi ces 6 termes identifiés, comme on peut le voir sur la carte factorielle ci-après, chaque firme a ses particularités ou ses préférences : Odense se distingue très nettement par l’emploi de « new technologies » ou « advanced technologies », Onvista se concentre très nettement sur « innovations » au pluriel, Ovale et Fidel privilégient « innovation » et « innovative », Meyer utilise plus volontiers « research ». Innovation x Firm (nb. Citations)

Innovative Innovations Research Innovation New tech. Advanced tech. Total Ovale 46 36 39 55 1 2 179

Onvista 25 63 17 20 1 1 127

Fidel 28 7 9 14 9 2 69

Odense 10 0 23 3 15 17 68

Meyer 10 1 8 1 2 0 22

Total 119 107 96 93 28 22 465

Ovale

Onvista

Fidel

Odense

Meyer

Innovations

Research

Innovation

New tech.

Advanced tech.

2

Concordances autour des mots de l’innovation pour chaque marque Nous avons isolé grâce aux « lexiques relatifs » (voir définition) les mots qui concordent avec le vocabulaire de l’innovation sur les sites des cinq entreprises.

On observe que Ovale fait référence à ses récompenses en matière d’innovation, à la qualité, à son engagement et à son approche. L’innovation est présentée ici comme une culture d’entreprise. Chez Onvista, la marque est systématiquement associée à l’innovation. On parle de produits, d’applications et de solutions : un discours – là encore – très orienté vers le client. Fidel également cite souvent sa marque, mais aussi son design et associe à l’innovation des adjectifs dynamiques comme « responsive », « proving » et « successful ». Odense ne compte que peu de mots associés au thème de l’innovation, qu’il met peu en exergue sur son site, comparativement aux autres firmes. Il préfère faire référence aux « new » ou « advanced » technologies.

Lexique relatif = principaux mots situés autour d’un thème donné dans le texte, classés en fonction de leurs fréquences de concordance.

OVALE : Lexique relatif d’Innovation

pivot -2 à -1 pivot +1 à +2 114 mots-180 occ 117 mots-197 occ equipment 9 award 10 original 9 technologies 9 ovale 8 commitment 7 latest 7 quality 7 technical 6 styling 6 constant 5 approach 5 prix 5 design 4 technological 5 equip 4 automotive 4 protect 4 combines 3 silencio 4 auto 3 products 3 technology 3

tools 3 ONVISTA : Lexique relatif d’Innovation pivot -2 à -1 pivot +1 à +2 64 mots-117 occ 115 mots-198 occ onvista 19 home 6 corporate 5 solutions 6 office 5 vehicle 6 audio 4 center 5 feature 4 driving 4 story 4 fuel 4 concepts 3 high 4 deliver 3 products 4 develop 3 wireless 4 digital 3 application 3 electronics 3 continues 3 deliver 3 electronics 3 enjoyment 3 find 3 help 3 kerpen 3 quickly 3 systems 3 technologies 3

Sur les fragments de texte que nous avons isolés et qui incluent les mots de l’innovation seulement (401 fragments), nous avons identifié les mots et expressions les plus spécifiques à chacune des marques. On retrouve ici les spécificités présentées dans les paragraphes précédents. Ovale insiste sur ses équipes, ses services, l’après-vente, sa technique mais aussi son approche générale de l’innovation. Odense évoque ses efforts, ses coûts et encore le contexte environnemental. Onvista lie très fortement sa marque à ses innovations, qui sont présentées très souvent au pluriel. Onvista évoque toujours le consommateur mais aussi son ingénierie. Meyer – situé ici au centre de la carte factorielle - tient un discours beaucoup moins spécifique sur l’innovation.

2

Axe 1 (36.7%)

Axe 2 (28.2%)

innovations

research

vehicle

moreproducts

automotivecompany

market

tm

year

high

car

consumerair

consumers

group

performance

safety

todayaudio

aftermarket

design

experience

future

developed

meet

engineering

growth

help

latest

whilefeatures

international

production

range

sales

service

wiper

comfort

equip_auto

satellite_radio

air_conditioning

automakers

components

cost

create

deliver

energy

engine

ford

said

working

bass

category

continues

discover

engineers

further

manufacturingmodule

new_ways

prize

teams

technical

visteon_innovations

voice

applications

billion

cabin

concept

electrical

engine_cooling

environmental

integrated

light

offer

project

right

approach

area

best

capabilities

communications

costs

efforts

employeesexcellence

fields

four

fuel

important

manufacturers

markets

new_technologies

only

Valeo

Delphi

Denso

Behr

Visteon

2

4. Le rêve des Français

Si vous gagniez au Loto que feriez-vous ? L’analyse de cet extrait d’une étude menée par le Credoc en 1992 permet d’illustrer les méthodes d’analyse quantitatives et qualitatives disponibles dans Sphinx : Analyse quantitative : tri à plats, tris croisés, analyses multivariées et typologie Analyse qualitative : approximation lexicale, sémiométrie et analyse de contenu par code book. Le rêve des français. Echantillon total : 993 observations 1

Lexique brut

je 1182

j 653

de 613

une 566

en 464

à 412

le 385

des 362

un 362

maison 355

enfants 286

la 286

pour 280

l 257

mes 244

les 240

et 208

voiture 198

dans 194

voyage 192

ferais 182

voyages 158

ma 156

achèterais 150

aux 137

famille 122

pas 120

argent 118

Sans mots outils

maison 355

enfants 286

voiture 198

voyage 192

ferais 182

voyages 158

achèterais 150

famille 122

argent 118

acheter 115

donnerais 113

placerais 111

faire 107

reste 97

monde 95

placer 84

travailler 79

vacances 79

achète 69

voyagerais 68

immobilier 67

partie 64

vie 64

dons 62

aider 61

côté 61

appartement 58

profiter 58

Les substantifs

maison 354

voyage 310

enfant 259

voiture 194

argent 118

famille 117

monde 81

don 75

placement 71

appartement 65

reste 65

association 57

immobilier 55

partie 54

oeuvre 51

vie 49

tour 45

vacance 43

achat 41

loisir 39

besoin 36

placer 35

gens 34

ami 33

cadeau 33

plaisir 33

cancer 27

enfants 24

Les verbes

acheter 350

faire 296

placer 195

donner 187

voyager 148

aider 122

partir 91

travailler 91

profiter 81

investir 76

mettre 71

changer 63

aller 59

arrêter 58

améliorer 48

prendre 38

vivre 37

partager 36

payer 33

rester 33

épargner 32

avoir_besoin 30

pouvoir 28

dépenser 27

distribuer 26

faire_plaisir 26

garder 26

faire_le_tour 25

Lemmatisé

maison 354

acheter 350

voyage 310

faire 297

enfant 264

placer 230

voiture 194

donner 187

voyager 148

aider 122

argent 118

famille 117

partir 91

travailler 91

monde 81

profiter 81

investir 76

don 75

immobilier 74

beau 72

mettre 71

placement 71

appartement 65

reste 65

changer 63

aller 59

arrêter 58

association 57

Les lexiques

On peut se faire une idée du contenudes réponses par l'examen des termesles plus fréquemments utilisés.

Le lexique brut exprime la stimulationde l'égo (je, j) sur un mode plutôtindéfini (une, un) que défini (le la l)...

Le lexique lemmatisé (chaque termeest ramené à sa forme racine) renvoiel'essentiel du contenu

Les substantifs donnent les objetsévoqués et les verbes les actions...

On accède ainsi très rapidement aucontenu des réponses comme lesmots clé donnent celui d'un livre.

Si vous gagniez au Loto, queferiez vous ?

2

Le rêve des français. Echantillon total : 993 observations 5

Substantifs selon le sexe

Homme Femme

maison

voyage

enfant

voiture

argent

famille

monde

don

placement

appartement

association

immobilier

oeuvre

vie

tour

vacance

achat

loisir

besoin

gens

ami

cadeau

plaisir

cancer

enfants

logement

pauvre

banque

pays

126 211

104 205

84 162

82 111

43 73

48 68

41 39

30 40

38 31

23 40

21 35

31 24

18 33

25 23

27 18

22 21

14 23

19 20

13 23

14 20

11 22

13 20

10 23

7 20

9 15

8 16

15 8

11 11

13 9

p = <0.1% ; chi2 = 57.71 ; ddl = 28 (TS)

59.1% 40.9%

50% 50%

65.2% 34.8%

33.3% 66.7%

37.5% 62.5%

25.9% 74.1%

30.3% 69.7%

39.4% 60.6%

33.3% 66.7%

41.2% 58.8%

36.1% 63.9%

48.7% 51.3%

37.8% 62.2%

51.2% 48.8%

60% 40%

52.1% 47.9%

35.3% 64.7%

56.4% 43.6%

37.5% 62.5%

36.5% 63.5%

55.1% 44.9%

42.9% 57.1%

51.3% 48.8%

41.4% 58.6%

37.1% 62.9%

42.5% 57.5%

34.1% 65.9%

33.7% 66.3%

37.4% 62.6%

Verbes selon le sexe

Homme Femme

acheter

faire

placer

donner

voyager

aider

partir

travailler

prof iter

investir

mettre

changer

aller

arrêter

améliorer

prendre

vivre

partager

payer

rester

épargner

avoir_besoin

pouvoir

dépenser

distribuer

faire_plaisir

garder

faire_le_tour

essayer

135 191

116 141

91 101

57 114

70 77

40 71

34 56

53 37

43 36

46 30

26 45

29 32

30 24

33 25

19 29

20 17

17 19

10 26

11 21

19 13

13 18

10 20

9 17

15 12

9 17

8 18

9 16

13 12

14 9

p = <0.1% ; chi2 = 63.91 ; ddl = 28 (TS)

60.9% 39.1%

52% 48%

36% 64%

30.8% 69.2%

34.6% 65.4%

55.6% 44.4%

34.6% 65.4%

33.3% 66.7%

41.9% 58.1%

59.4% 40.6%

34.4% 65.6%

27.8% 72.2%

47.2% 52.8%

54.1% 45.9%

39.6% 60.4%

56.9% 43.1%

55.6% 44.4%

47.5% 52.5%

36.6% 63.4%

60.5% 39.5%

54.4% 45.6%

58.9% 41.1%

37.8% 62.2%

36.0% 64.0%

47.6% 52.4%

33.3% 66.7%

47.4% 52.6%

45.1% 54.9%

41.4% 58.6%

Les usages selon les contextes

Les analyses intrinsèques qui précèdentsont menées sans référence au contexteet au statut des locuteurs.

Elles peuvent être complétées parl'analyse des spécificités lexicales.

Par exemple les tableaux ci contremontrent que les hommes et lesfemmes ont tendance à sur utilisercertains termes.....

2


Les usages selon les contextes :zones de langage selon l'âge

p = <0.1% ; chi2 = 741.32 ; ddl = 196 (TS)

18-24

25-34

35-49

50-64

65+

maison

acheter

voyage

faire

enfant

placer

voituredonner

voyageraider

argent

famille

partir

travailler

monde

prof iter

investir

donimmobilier

beau

mettre

placement

appartement

reste

changer

aller

arrêter

associationpartie

de_côté

oeuvre

vie

améliorer

un_peu

tour

petit

vacance

achat

loisir

autour_de

prendre

ami

vivre

besoin

en_vacances

partager

gens humanitaire

cadeau

payer

Axe 1 (72.2%)

Axe 2 (13.7%)

L'analyse factorielle descorrespondances permet de généraliserla recherche des effets de contexte.Ici le choix des mots et despréoccupations apparaissent commeclairement déterminés par l'âge



- NS

+ TS

- NS

LONGUEUR

Moyenne = 8.47Médiane = 8.00Min = 0.00 Max = 19.00

RICHESSE


Longuer X Richesse

Moyenne

LONGUEUR 8.47

RICHESSE 8.22

Total 8.34

r = + 0.99 (TS)

LONGUEUR

RICHESSE

Longueur x Banalité

Moyenne

LONGUEUR 8.47

BANALITE 109.53

Total 58.92

r = - 0.25 (NS)

LONGUEUR

BANALITE

Banalité x Richesse

Moyenne

BANALITE 109.53

RICHESSE 8.22

Total 58.80

r = - 0.26 (NS)

BANALITE

RICHESSE

Longueur x Richesse x Banalité

LONGUEUR

RICHESSE

BANALITE

Axe 1 (70.3%)

Axe 2 (29.4%)

Longueur x Richesse x Banalité selon la CSP

LONGUEUR RICHESSE BANALITE

Commerçant, artisan

Employés

Cadre.Prof.Intell. Sup.

Prof.Intermédiares

Retraités

Inactifs, Autre

Ouvriers

Agriculteurs

Total

9.32

8.91

8.55

8.38

8.34

8.27

7.86

7.34

8.47

9.15

8.64

8.33

8.18

8.07

8.07

7.60

7.13

8.22

98.85

113.40

103.05

104.76

101.51

110.42

125.10

110.70

109.53

CSP / LONGUEUR p = 8.0% ; F = 1.82 (PS)CSP / RICHESSE p = 5.3% ; F = 1.99 (PS)CSP / BANALITE p = 0.7% ; F = 2.80 (TS)

BANALITE


Mesures lexicales : caractériser l'énonciation

La longueur des réponses, leur richesse (nombre demots différents) et leur banalité (fréquence moyennedans le corpus des mots utilisés par chacun) permetde caractériser les réponses.

Les réponse longues sont les plus riches, mais labanalité est indépendante de la longueur ou de larichesse.

Les inactifs, ouvriers et agriculteurs font les réponsesles plus courtes et les plus convenues (banalité).

Les nuages de point ci dessus illustrent bien la mesure du coefficient de corrélation.

Ci dessous l'ACP donne une image de ces corrélations. Longueur et richesse sont fortement liees. La banalitévarie d'une manière totalement indépendante.

2

Analyse de contenu Le code-book préparé dans Sphinx permet « d’industrialiser le travail de lecture ». Cette une approche alternative à l’analyse lexicale. Elle a le mérite de reposer sur une lecture intelligente (mais peut être biaisée) et de reposer sur une réflexion modélisatrice préalable.

2

5. Les mots qui touchent : analyse textuelle des « tubes » de la chanson française.

L'objectif de ce travail consiste donc à isoler les caractéristiques lexicales des fleurons de la chanson française. Pour traiter la question posée, nous avons constitué deux groupes de textes écrits par 20 artistes francophones. Le premier groupe est composé de 100 succès et le second inclut une centaine d'œuvres restées dans l'anonymat. Grâce au logiciel Sphinx Lexica, le travail consiste ensuite à repérer les caractéristiques de chaque auteur et surtout à établir les particularités des chansons à succès. Nous analysons les différents lexiques afin de déterminer "les mots qui touchent", nous identifions les thématiques centrales et les segments répétés les plus marquants. Les résultats conduisent à des conclusions très intéressantes.

En prolongement de cette étude lexicale, nous nous sommes intéressés à la dimension phonétique des textes, faisant l'hypothèse qu'au delà des mots proprement dits, l'importance des phonèmes choisis était prépondérante. Nous avons donc ensuite changé d'unité statistique pour nous concentrer sur les phonèmes spécifiques des textes à succès. Les issues de ce travail laissent entrevoir des perspectives de recherche tout à fait prometteuses.

Un échantillon de 200 œuvres

Nous avons constitué une base de données textuelles de 200 chansons écrites en français. Vingt artistes ont été choisis parmi les plus célèbres de la profession. Pour chaque artiste, nous avons sélectionné cinq succès et cinq chansons peu connues, ce qui constitue finalement deux échantillons, l’un comprenant 100 tubes et l’autre 100 non-tubes. Cette classification effectuée par l’auteur a donné lieu à une validation par un groupe de cinq experts : journalistes, disquaires, artistes, tous spécialistes de la chanson française. Ceux-ci - à partir de la liste alphabétique des 200 titres - ont construit leur propre classification. Pour chacun des cinq juges, le taux d’affectations différentes ne dépasse jamais 5%, ce qui est tout à fait satisfaisant.

Les textes ont été récupérés via l’Internet au sein de sites dédiés à la chanson française (les sites web de Alain Pierre et de David Baltaro, de Mikhail Foursov, de Leni "Botanaige", la French Music Database de Anthony Patrick Lee). Le corpus final compte 48669 formes pour un lexique de 5968 mots. Précisons que les refrains n’ont été saisis qu’une seule fois pour ne pas introduire de "fausses répétitions" au sein du texte.

Des auteurs aux styles très différents

Avant de tester nos hypothèses, nous nous sommes intéressés aux différences entre les artistes. Afin de comparer les styles des auteurs, nous avons utilisé quatre indicateurs usuels. La longueur de la chanson est considérée tout d’abord (N) puis nous mesurons sa richesse (V) qui indique la longueur du lexique. Ainsi, N décompte le nombre total de formes graphiques présentes dans le texte, V le nombre de formes différentes. La répétition (R) indique le nombre de fois où chaque forme du texte se trouve répétée. R=N/V. La banalité (B) calcule la fréquence moyenne de chaque forme au niveau du lexique total. De par leur construction, la longueur et la richesse sont corrélées, tout comme la répétition et la banalité.


Les artistes de la chanson française se distinguent par leurs options mélodiques mais aussi - comme on le voit sur la figure ci-dessus - par les caractéristiques de leurs textes. On retrouve sur cette carte différents types d’écriture. A droite, les auteurs de "chansons à texte", qui se caractérisent par une certaine prolixité : Brassens, Renaud, Duteil, Goldman. A l’opposé, se retrouvent des artistes préférant la chanson ludique de type "gag" dont le texte n’est qu’un prétexte pour faire sonner la musique. Correspondant à ce profil, Gainsbourg ou Polnareff sont d’ailleurs des musiciens prodiges. Sur le deuxième axe, nous repérons d’une part, des chanteurs dont les paroles sont marquées par la simplicité et l’universalité, traitant de thèmes courants voire banals : Berger, Dassin, Fugain. D’autre part, Farmer ou Clerc traitent de sujets originaux et utilisent volontiers des formes lexicales remarquables.

Les tubes : plus de répétition, moins d’originalité

Le propos de notre recherche est de tenter de mettre en évidence les composantes lexicales qui pourraient caractériser les chansons à succès, tant sur la forme que sur le fond. Les tubes sont ils plus courts, plus répétitifs ?

TUBES AUTRES

Effectif de la catégorie 100 100

Nombre total de mots 24704 23965

Longueur moyenne 247.04 239.65

Nb de mots différents 3557 3980

Nombre d'hapax 1484 1788

Répétition corpus 6.95 6.02

Fréquence maximum 655 696

Mot le plus fréquent de de

Nombre de mots exclusifs 1988 2411

Pourcentage du corpus 50.8% 49.2%

Répétition de la chanson

TUBES 2.33

AUTRES 2.15

Total 2.24 On constate que les caractéristiques textuelles des tubes sont statistiquement différentes en ce qui concerne la répétition. Les chansons à succès sont plus répétitives et

donc moins riches. Par ailleurs, les tubes emploient des formes lexicales moins originales et donc plus banales. En ce qui concerne la longueur, la différence n’est pas statistiquement significative (F=0,3 et 1-p=41%). Le segment répété : une composante du tube En isolant les segments répétés dont la fréquence est supérieure à 10 sur la totalité du corpus, on s’aperçoit que ces fragments appartiennent 2 fois sur 3 à une chanson à succès. Sur des bases de statistique textuelle (chi2 = 258,88, 1-p = 99,99%), nous pouvons donc dire que le segment répété est un élément qui semble faire partie intégrante de la chanson "performante". Favorisant la mémorisation, le principe de répétition est l’un des premiers préceptes des techniques de persuasion, couramment utilisé en publicité notamment.

5 premiers segments répétés

TUBES AUTRES TOTAL

des_petits_trous 30 0 30 Ne_me_quitte_pas 23 0 23 Y_a_pas_de_honte 23 0 23 touté_le_monde 2 16 18 Unis_vers_l_uni 18 0 18 TOTAL des segments cités au moins 10 fois

220 100 320

L’intérêt d’une implication plus personnelle de l’a rtiste L’intensité lexicale permet de mesurer le poids d’une forme au sein d’une unité statistique. Ici, nous nous intéressons au pourcentage de différents pronoms au sein des chansons. Nous lisons dans le tableau ci-dessous que l’intensité lexicale de "je" est nettement plus forte dans les tubes, alors que le poids de "tu" n’est pas statistiquement différent. Ce résultat traduit l’importance de l’implication personnelle de l’artiste dans sa communication avec son public.

Intensité de JE Intensité de TU

TUBES 2.70 0.86

AUTRES 1.83 0.69

Total 2.26 0.78

Des verbes pour le dire

4

L’étude des verbes montre un phénomène intéressant. Les verbes les plus fréquemment utilisés et donc les plus courants sont employés indifféremment dans les deux types de chansons. En revanche, certains verbes sont spécifiquement usités dans les chansons à succès. Il est difficile de les caractériser même si l’on pourrait dire qu’il s’agit de verbes artistiques (chanter, danser), communicants (parler, regarder) ou affectifs (aimer, pleurer). Dans les tableaux suivants, nous présentons les occurrences sur l’unité statistique de la chanson (94% des tubes utilisent le verbe être par exemple.

TUBES AUTRES

aimer 43 32

parler 25 12

chanter 22 12

pleurer 19 12

regarder 17 11

connaître 8 15

danser 15 7

tomber 5 15

Des rimes qui sonnent Le dernier volet de nos résultats traite des composantes phonétiques. Comme nous l’avons dit en introduction, en matière de chansons, il ne semble pas convenable de limiter notre réflexion aux seuls aspects textuels, la chanson est un exercice artistique où les mots, la musique et les sonorités entrent en synergie. Pour tester l’hypothèse selon laquelle il existerait des rimes privilégiées au sein des "tubes", nous avons tout d’abord isolé la rime finale de chaque vers, grâce à une procédure particulière du Sphinx Lexica. Nous avons ensuite travaillé sur les 50 rimes les plus fréquentes en les regroupant par phonèmes. Les résultats observés sont très significatifs. Il apparaît tout d’abord que les tubes utilisent des rimes beaucoup plus banales, ce qui confirme leur caractère répétitif. Par ailleurs, certains phonèmes sont effectivement sur-représentés dans l’échantillon des chansons à succès (chi2 = 175,75, 1-p = 99,99%). Il s’agit de phonèmes dominés par les "a", "an" et "in" notamment, ce qui représente les voyelles dites "nasales" (Warnant, 1973) qui produisent des sonorités relativement chaudes. Ces résultats valident les premières hypothèses qui pouvaient être formulées.

(extrait) TUBES AUTRES TOTAL

Rimes en a 284 198 482

Rimes en i 79 122 201

Rimes en in 114 70 184

Rimes en an 104 43 147

Rimes en our 86 39 125

Rimes en o 40 35 75

Rime en ar 32 38 70

Rimes en ou 45 23 68

Rimes en ère 32 33 65

Rime en ème 52 10 62


Bibliographie

6

BENZECRI J.P : Pratique de l’analyse des données (DUNOD 1980)

BLANCHET A. & Al : L’entretien dans les sciences sociales (DUNOD 1985)

BROSSIER G. & DUSSAIX A.M. : Enquêtes et sondages : Méthodes, modèles, applications, nouvell es approches (DUNOD 1999)

COURTES J. : Analyse sémiotique du discours ( HACHETTE SUP. 1991)

DUGAST D. : La statistique lexicale (SLATKINE 1980)

FLOCH J.M. : Sémiotique marketing et communication (PUF 1980)

GANASSALI S. : Les mots qui touchent : le marketing textuel appliqué à la chanson française (Journées d’Analyse de données textuelles, 1998).

GAVARD-PERRET M.L. MOSCAROLA J. : Enoncé ou énonciation ? deux objets différents de l’analyse lexicale en marketing. Recherche et Applications en Marketing, (1998).

GHIGLIONE R. & Al : Manuel d’analyse de contenu (ARMAND COLIN 1985)

GRANGE D. & LEBART L. : Traitement statistique des enquêtes (DUNOD 1993)

JAMBU M. : Exploration informatique statistique des données (DUNOD 1989)

LAFON P. : Dépouillement et statistique en lexicométrie (SLATKINE 1984)

LAGARDE (DE) J. : Initiation à l’analyse de données (DUNOD 1993)

LEBART L. & SALEM A. : Analyse statistique des données textuelles (DUNOD 1988)

MAINGUENEAU D. : L’analyse de discours (HACHETTE 1991)

MALARET G. : Statistiques appliquées aux sciences humaines (PUF 1991)

MOSCAROLA J. : Enquêtes et analyse de données (VUIBERT 1990)

VIARD V. : Statistiques appliquées à la gestion (ECONOMICA 1985)

WEBER R.P. : Basic content analysis (SAGE UNIVERSITY PRESS 1990)

Cours Sphinx Lexica

Documents

Transcript of Cours Sphinx Lexica