Cours Sphinx Lexica

of 155/155
Analyse Lexicale avec Le Sphinx Manuel d'utilisation Copyright © Sphinx Développement 1986 – 2006. Tous droits réservés Imprimé le 12 Septembre 2006 Le Sphinx Développement Parc Altaïs 74650 Chavanod Téléphone : 04 50 69 82 98 Fax : 04 50 69 82 78 e-mail : [email protected] Web : www.lesphinx.eu
  • date post

    13-Dec-2015
  • Category

    Documents

  • view

    60
  • download

    27

Embed Size (px)

description

Cours de Sphinx Lexica

Transcript of Cours Sphinx Lexica

  • Analyse Lexicale avec Le Sphinx Manuel d'utilisation

    Copyright Sphinx Dveloppement 1986 2006.

    Tous droits rservs

    Imprim le 12 Septembre 2006

    Le Sphinx Dveloppement

    Parc Altas 74650 Chavanod

    Tlphone : 04 50 69 82 98 Fax : 04 50 69 82 78

    e-mail : [email protected] Web : www.lesphinx.eu

  • 2

    Avant propos Ce manuel accompagne la nouvelle version du Sphinx que vous venez d'acqurir : Le Sphinx V5. Nous vous en flicitons.

    Ce logiciel sappuie trs fortement sur les interfaces et les protocoles de Windows. Vous retrouverez ainsi les habitudes que vous avez dj acquises par lexprience de ce systme (gestion des fichiers, menus, dialogues, listes droulantes, raccourcis). Nous nous sommes efforcs de toujours respecter ces conventions bien tablies. Cest pour cela que vous parviendrez trs facilement lutiliser.

    Vous serez galement guid par votre connaissance du travail des enqutes, des tudes et de la statistique. Nous utilisons le langage de ces mtiers et avons structur le logiciel par rapport aux grandes tapes dune tude : questionnaire, saisie, dpouillement, analyse Notre souci constant est de faciliter votre comprhension devant lcran. A cette fin, de nombreux commentaires sont affichs pour vous aider vous situer et comprendre les menus, boutons de commande, options Pour les oprations les plus complexes, vous tes pris en charge par un assistant. Enfin, lorsque le sens dun article ou dun bouton vous chappe, il vous suffira dessayer pour comprendre trs vite son utilit.

    Pour toutes ces raisons, vous naurez aucune difficult vous servir de votre logiciel et peut-tre pourrez-vous mme vous passer du manuel. Mais vous risquez alors de le sous-utiliser ou de vous compliquer inutilement la vie. En effet, toutes les possibilits qu'il offre ne sont pas galement visibles ni toujours trs comprhensibles au premier abord et vous risquez de passer ct de fonctions trs utiles.

    Le premier objectif de ce manuel est de vous faire dcouvrir tout ce que vous pourrez faire avec le logiciel. A cette fin, il est organis en doubles pages dveloppant une tche, une fonction, un rsultat que vous pourrez entreprendre ou raliser.

    La partie de droite vous montre le logiciel, ses crans, ses menus, ses dialogues et les tats (tableaux, graphiques) quil permet de produire.

    La partie de gauche situe ce que fait le logiciel en terme de finalit, dutilit et de mthodes mises en uvre. Vous y trouverez galement une explication dtaille des modes opratoires.

    Si vous tes dj utilisateur du Sphinx, vous pourrez rapidement identifier les nombreuses nouveauts et vous retrouverez facilement vos habitudes.

    Si vous dcouvrez ce logiciel, vous comprendrez facilement son organisation et son systme de fonctionnement. La visite guide que nous vous proposons en tout dbut du manuel vous accompagnera dans vos premiers pas. En vous reportant ensuite au manuel vous apprendrez vous en servir compltement et deviendrez des experts.

    En vous souhaitant un bon travail.

    Yves Baulac, Jean Moscarola

  • Sphinx V5 Analyse des donnes qualitatives avec le Sphinx : les fondements 3

    Sommaire Analyse des donnes qualitatives avec le Sphinx : les fondements ........... 5 1. Les tudes quali .................................. 6 2. Lacquisition des donnes textuelles ........ 2 3. Produire des extraits ou faire du

    verbatim .................................................... 3 4. Faire de lanalyse de contenu ................... 3 5. Analyse de donnes textuelles et

    approximation lexicale............................... 2 6. Privilgier une approche ou les

    combiner ? ................................................ 3

    Le traitement simple des questions textes ..................................... 5 1. Etudier les textes ....................................... 6 2. Faire du verbatim ...................................... 8 3. Tableau de rponses ouvertes ............... 10 4. Analyse de contenu simple, en cours

    de lecture ................................................ 12 5. Analyse de contenu avec code-book ...... 14

    L'analyse lexicale en bref ...................... 2 1. Les interfaces ............................................ 3 2. Du texte aux formes graphiques -

    lapproximation lexicale ............................. 1 3. Du texte aux structures linguistiques :

    la statistique lexicale ................................. 3 4. Latelier lexical en bref .............................. 5 5. Le panneau lexical : produire des

    lexiques ..................................................... 7 6. Le panneau lexical : segments

    rpts et lexiques relatifs ........................ 9 7. Le panneau lexical : du bilan aux

    rponses caractristiques ....................... 11

    La construction des lexiques .............. 14 1. Caractres sparateurs et

    environnement ......................................... 15 2. Rechercher et marquer des lments

    dans le lexique ......................................... 17 3. Rduire les lexiques ................................ 19 4. Groupements automatiques .................... 21 5. La gestion des dictionnaires .................... 23 6. Les diffrents types de dictionnaires ....... 25 7. Analyse thmatique ................................. 27 8. Lexique des expressions** ........................ 2 9. Rechercher les segments rpts** .......... 4

    Navigation lexicale et recherche de contexte ............................................. 7 1. Du lexique au corpus : la navigation

    lexicale ....................................................... 8 2. Situer un mot dans son contexte

    textuel ...................................................... 10 3. Les lexiques relatifs** .............................. 12 4. Production d'extraits ................................ 14 5. Rsum des diffrentes manires de

    produire des extraits ................................ 16

    Analyse syntaxique et lemmatisation ....................................... 19 1. La lemmatisation ...................................... 20 2. Lancer la lemmatisation ........................... 22 3. Analyser un texte lemmatis ................... 24 4. Modifier le corpus .................................... 26

    La statistique lexicale .......................... 29 1. Les indicateurs lexicaux .......................... 30 2. Bilan lexical .............................................. 32 3. Construire un tableau lexical ................... 34 4. Listes des mots spcifiques ..................... 36 5. Slections dans un tableau lexical ou

    dans des listes de mots spcifiques ........ 38 6. L'indice de spcificit ............................... 40 7. Comparer un lexique de rfrence ....... 42

  • 4

    Codification automatique des textes ..................................................... 45 1. Crer de nouvelles variables

    dorigine lexicale ...................................... 46 2. Codification lexicale ................................ 48 3. Mesures lexicales .................................... 50 4. Modification du contenu d'une

    variable texte ........................................... 52 5. Fractionner une variable texte ................ 54

    Ouvrir un fichier de donnes textuelles .............................................. 57 1. Du corpus textuel la base de

    donnes .................................................. 58 2. Ouvrir un texte analyser ....................... 60 3. Texte balis ............................................... 1 4. Prparer et ouvrir un fichier

    d'entretiens semi-directifs ......................... 3 5. Texte annot ............................................. 5 6. Exemples de textes annots ..................... 7 7. Macro commandes pour la

    prparation des textes............................... 9

    Etudes de cas ....................................... 11 1. Analyse des rclamations clients

    Marque Hextra ........................................ 12 2. Identification du territoire de

    communication dune marque ................. 14 3. Cas Ovale ........................................... 1 4. Le rve des Franais ................................. 2 5. Les mots qui touchent : analyse

    textuelle des tubes de la chanson franaise. ................................................... 2

    Bibliographie .......................................... 5

  • Sphinx V5 Analyse des donnes qualitatives avec le Sphinx : les fondements 5

    Analyse des donnes qualitatives avec le Sphinx : les fondements

  • 6

    1. Les tudes quali

    Les situations de recherche

    Les tudes quali se dfinissent bien souvent par opposition aux tudes quanti . On indique ainsi que les informations tudies proviennent de sources multiples documents, crits ou discours et quelles sont analyses sans recourir au calcul. Comme nous le verrons cette simplification et abusive mme si elle dfinit assez bien les situations de recherche dans lesquelles on a recours aux approches qualitatives.

    Les enqutes : recueillir des informations nouvelles.

    Le qualitatif apparat avec la prsence de questions ouvertes dans les questionnaires. Celles-ci chappent aux analyses statistiques qui font lefficacit des dpouillements classiques et sont trop souvent tout simplement oublies au moment de lanalyse. Avec les guides dentretien, les interviews non directives, les entretiens de groupe, la conversation remplace le questionnaire. Le recueil des informations et leur analyse deviennent bien plus difficile (il faut enregistrer, retranscrire.) et implique tout un savoir faire bien spcifique. Il sagt l de privilgier lcoute plutt que le questionnement, la comprhension et lanalyse en profondeur plutt que le dnombrement.

    Les documents : exploiter les informations existantes

    Avant de lancer lenqute on a bien sr tudi la bibliographie sur le sujet et les documents qui peuvent nous renseigner. Comme le font les historiens la qute porte alors sur les traces qui renvoient au domaine tudi (documents juridiques, transactionnels, commerciaux, comptes rendus, annonces et communications de toute sorte). Linformation recueillie peut tre trs abondante et htrogne et pose les mmes difficults de comprhension et danalyse.

    Lvolution des technologies de linformation et Internet notamment, bouleverse laccs aux donnes que nous venons dvoquer. Les enqutes via le web simplifient considrablement la collecte des rponses aux questions ouvertes, les interviews par mail ou par dialogue lectronique (chat) offrent de nouvelles opportunits

    Les bases de donnes bibliographiques, les moteurs de recherches permettent au chercheur de rcuprer trs facilement rfrences et publications. En gnralisant le format numrique les outils de traitement de texte rendent potentiellement accessibles toutes sortes de fichiers et archives lectroniques.

    Ces volutions mettent disposition du chercheur un matriau considrable et posent de nouveau problmes : comment traiter des informations dont labondance peut trs vite dcourager et dont la complexit pose des problmes spcifiques pour lesquelles la statistique noffre pas de rponse immdiate.

    Les mthodes

    Ceci nous conduit une autre caractristique des tudes quali .

    Le terme renvoie lapproche traditionnelle des textes par lecture et annotation sans autres instruments que le stylo le papier dans la tradition des tudes littraire et de la critique. Le travail du chercheur consiste rendre compte des textes tudis en citant des extraits et en produisant un nouveau texte comprhensif et dmonstratif dont, pour faire bref, la qualit ne tient quau talent de lecteur et dcrivain du chercheur.

    Avec lanalyse de contenu ou analyse thmatique, le classeur et le stylo de couleur sajoutent la panoplie des instruments de recherche. Le travail de lecture devient plus systmatique, le systme de comprhension sexplicite en une grille qui guide le classement des citations et le reprage par couleurs ou annotations des passages du texte. Cet effort de mthode dbouche naturellement sur le dnombrement des thmes, si on admet que la rptition ou la frquence peuvent galement faire sens et que largument du dcompte renforce la dmonstration.

    Lappellation quali voque ainsi le travail artisanal prudemment dmarqu des mthodes scientifiques et de la statistique, mais lapproche des textes a aussi de tout temps t marque par la fascination pour le chiffre ou le recours au comptage. Dans la tradition de la kabbale, de l exgse et dans le travail des moines copistes les chiffres et les nombres guident vers les significations caches ou permettent de contrler lexactitude des manuscrits. Des tudes sur la bible aux concordances de Saint Augustin le texte analys est mis en fragments puis en cartes perfores Les premires analyses par ordinateurs ont t effectues en

  • Sphinx V5 Analyse des donnes qualitatives avec le Sphinx : les fondements 7

    1945 par IBM qui pour reconstituer les concordances de Saint Augustin.

    Devenu donne textuelle, le texte chappe la tradition quali et se trouve aussi concern par les problmatiques quanti comme lont montrs des travaux sur ltude de lattribution des uvres littraires et lusage dj trs ancien des techniques informatique par les services de renseignements

    En banalisant ces mthodes et en les rendant accessibles, les volutions technologiques ajoutent lordinateur, le moteur de recherche et le logiciel danalyse de donnes textuelle la boite outil du chercheur.

    La spcificit des donnes textuelles et les voies danalyse assiste par ordinateur.

    Rponses aux questions ouvertes dans les enqutes, interviews ou entretiens de groupe, revue bibliographique,

    tude de documents, ces corpus ont en commun dtre essentiellement forms de donnes textuelles.

    Elles ont la complexit et lambigut de la langue. Leur sens nest pas fix a priori comme cest le cas pour les donnes quanti pour lesquelles les units de mesures (variables numriques) et les tats observs (variables nominales) sont fixs par un accord tacite de comprhension entre le rpondant et lenquteur. La signification des donnes textuelles est dcouvrir dans le sens des mots des phrases et de lorganisation du discours. Chacun de ces niveaux (lexique, syntaxe, rhtorique) apporte une contribution au sens dgag par la lecture.

    Cette proprit justifie la mfiance de ceux qui pensent quon ne peut pas faire lconomie dune lecture humaine et quune machine ne peut pas comprendre un texte. Toutefois sans pour autant souscrire la prtention des tenants de lintelligence artificielle nous pouvons accepter que lordinateur et sa puissance de calcul apportent une aide pour lapproche des corpus textuels et notamment lorsque ceux-ci sont de trs grande taille.

  • 2

    Nous montrerons dans ce qui suit que lordinateur peut tre utilis comme un auxiliaire pour rendre plus systmatique les approches classiques et augmenter la productivit du chercheur et la qualit de ses rsultats.

    - En effet, les fonctions de recherche peuvent considrablement acclrer le travail traditionnel ncessit par lusage de la citation ou la production de verbatim - Pour lanalyse de contenu, la construction dune grille thmatique et la codification du corpus peuvent se faire en utilisant les ressources de linformatique. Le travail de conception devient ainsi plus explicite et rigoureux et on gagne en souplesse et productivit pour la lecture et la codification

    Mais il peut aussi tre mis en uvre dune manire beaucoup plus automatique en fournissant, partir du reprage des formes graphiques qui composent le texte, des indications sur son contenu.

    - Lanalyse de contenu peut ainsi tre automatise en construisant les listes de mots ou dictionnaires correspondant aux diffrentes catgories de la grille thmatique. La frquence avec laquelle ces lments se trouvent dans le texte sert dindicateurs pour mesurer la prsence et lintensit de ces catgories. On peut parler ici de smiomtrie puisque lusage des dictionnaires permet de mesurer les significations ainsi repres dans le texte

    - Lanalyse lexicale offre une autre voie. Elle consiste, sans aucun a priori sur le texte utiliser la redondance des donnes de langue et la statistique pour substituer la lecture du texte celle dlments lexicaux qui en sont extraits : listes des mots les plus frquents (mots cls), cartes visualisant la manires dont les mots se trouvent associs (zones thmatiques) ou leffets des circonstances ou des contextes (mots spcifiques)

    Ces approches sont particulirement bien adaptes au traitement de trs gros corpus. Plus le corpus est volumineux, plus on gagne de temps et plus les rgularits et effets statistiques sont significatifs.

    Outils et stratgies danalyse

    Tout ceci ne peut bien sr se faire quavec laide de logiciels adapts. Loffre est dsormais assez abondante,

    mais quel logiciel choisir ? Tout dpend du type danalyse envisage et de degr de spcialisation des fonctions proposes. On peut distinguer 3 grandes classes de logiciels

    - Les logiciels de recherche. Ils permettent de retrouver dans le texte des passages en fonction du contenu ou du contexte et mettent en uvre des procdures plus ou moins sophistiques pour produire du verbatim (Lexico, WordMapper, Diction, Sphinx Lexica) - Les logiciels danalyse thmatique et de contenu : ils aident au reprage, la codification et lorganisation des ides du texte, ainsi qu leur analyse et leur synthse (Nudist, Atlas ti, Modalisa, Sphinx Lexica) - Les logiciels danalyse de donnes textuelles : ils abordent le texte par le biais de la statistique (Spad T, Alceste, Hyperbase, Sphinx Lexica, )

    Ces logiciels sont plus ou moins spcialiss sur leur fonction principale. Alceste par exemple est trs spcialis, Modalisa lest beaucoup moins. Dans ce qui suit nous nous rfrerons principalement Sphinx Lexica qui est un outil trs gnraliste bien qu premier abord il semble sadresser plus spcifiquement au traitement denqute.

    Quelque soit loutil, le chercheur a un rle essentiel. Cest lui qui pilote le logiciel et cest lui qui lance slectionne les citations et le verbatim, labore la grille thmatique lit et code le texte, cest enfin lui, qui seul est capable dinterprter et de donner sens aux rsultats des statistiques lexicales.

    Pour cela il lui faudra matriser le passage oblig de lacquisition des donnes et de lintgration du corpus dans le logiciel et selon ces choix produire du verbatim, mener une analyse thmatique de contenu, ou faire de lanalyse de donnes textuelles. Les techniques avec lesquelles il devra se familiariser reposent galement sur une bonne connaissance des proprits de la langue des textes et discours quelle permet de construire.

    Quelques connaissances utiles sur les proprits de la langue, des textes et des ides.

  • 2

    2. Lacquisition des donnes textuelles

    La premire chose faire consiste mettre le texte sous une forme utilisable par le logiciel. Cela implique non seulement de lavoir sous une forme numrique en le saisissant dans un traitement de texte ou en le recopiant depuis Internet par, mais aussi le dcouper en distinguant les diffrents lments qui le composent, bref le mettre sous la forme dune table de donnes .

    Tout dpend alors des circonstances.

    Les questionnaires

    Sil sagt dtudier les rponses aux questions ouvertes dune enqute par questionnaire faite avec le logiciel, les texte est acquis au moment de la saisie des questionnaires pour le enqutes papier crayon ou directement entr par le rpondant lorsquil rpond une enqute internet.

    Les interviews non directives

    Pour les interviews non directives le travail est plus complexe car il faut dabord mettre le texte dans Sphinx. La mthode la plus simple consiste le retranscrire dans un questionnaire Sphinx compos des lments suivants : 1- Des questions didentit pour enregistrer le nom et les caractristiques de linterview 2- Une question pour noter le texte de la question et une autre pour le texte de la rponse

    Pour une interview on saisira ainsi autant dobservations que dchange question rponse auquel il a donn lieu. Il faudra en outre pour chaque nouveau couple rpter les questions didentit.

    Si les interviews ont dj t saisies dans un traitement de texte on importe directement dans Sphinx le fichier qui les contient. Ce travail ncessite le respect des consignes suivantes :

    1/ le fichier importer doit tre enregistr au format texte. Les fichiers de Word ne sont reconnus que sils ont t enregistrs sous se format. 2/ afin de distinguer le texte des questions et des rponses et indiquer quand on passe dune interview une autre, il faut ajouter des repres dans le texte. Ces repres doivent

    respecter des rgles qui permettront lordinateur de les reconnatre et de les interprter.

    Si seul le texte des rponses a t saisi il suffit dajouter en dbut le nom de la premire interview puis celui de la deuxime et ainsi de suite pour reprer le passage dune interview lautre. On appelle ces indications des jalons.

    Les bases de donnes et lutilisation des balises

    Le texte analyser peut galement provenir dune dune application informatique : logiciels de messagerie, banque documentaires dans ce cas les donnes sont structures par des balises : indications places au dbut de chaque lment qui dfinissent la nature du texte conscutif.

    Par exemple pour une base de donnes bibliographique :

    Titre : les Misrables Auteur : Victor Hugo Editeur : Hachette Rsum : Histoire de Jean Valjean et Cosette. Titre : les Sequestrs dAltona Auteur : Jean Paul Sartre Editeur : Seuil Rsum :

    Analyse dune collection de documents quelconques

    Cest le cas par exemple lorsque les donnes analyser sont composes darticles de presse ou dautre sources documentaires constituant le corpus de ltude. Cest lanalyste dajouter dans le fichier texte o il a rassembl tous ces lments les annotations qui permettront dindiquer quon passe dun article un autre ou dune source une autre. Lordinateur pourra alors construire une table dans laquelle sera note le nom de larticle ou de la source dune part et le contenu dautre part. Si les diffrents textes sont longs on peut en outre dcider de les fragments paragraphes ou phrases.

  • Sphinx V5 Analyse des donnes qualitatives avec le Sphinx : les fondements 3

    Analyse de sites web ou une page de liens

    Le logiciel permet daspirer directement le contenu de sites ou de pages slectionnes par un moteur de recherche. Cette possibilit ne permet malheureusement pas daccder aux contenus des sites dynamiques. Dans ce cas il faut procder manuellement en parcourant le site et recopiant le texte dans un questionnaire conu cet effet.

    3. Produire des extraits ou faire du verbatim

    Faire du verbatim (ou des citations) est la mthode la plus utilise dans les tudes qualitatives. Ces citations peuvent tre choisies en lisant le texte ou slectionnes de manire systmatique selon le contexte ou selon le contenu.

    Verbatim par contexte

    Savoir qui dit quoi ou slectionner les citations selon les circonstances ou tout autre information contenue dans les rponses aux questions fermes. Ce type de slection peut tre plus ou moins complexes : on peut nutiliser quun seul critre, par exemple ce que disent les femmes ou en combiner plusieurs en sintressant aux femmes de moins de 30 ans et diplmes.. Dans les enqutes de satisfaction le contexte pertinent sera plutt tous ceux ou celles qui dclarent tre insatisfaits, lidentit apparaissant comme la signature de chaque citation

    Verbatim selon le contenu

    Slectionner les citations en fonction de ce qui est dit. Cette approche privilgie le contenu qui peut tre repr automatiquement par la prsence dans le texte dun ou plusieurs mots ou par un travail de codification pralable (voir analyse de contenu)

    Les 2 approches par le contexte et par le contenu peuvent bien sr tre combines pour restituer le texte par fragments relatifs aux diffrents angles de vue ou problmatiques de ltude.

    4. Faire de lanalyse de contenu

    Cette mthode consiste lire lensemble du corpus en reprant les thmes ou ides quil contient pour ensuite produire du verbatim par thmes et / ou mener une analyse statistique des thmes. Les tapes du travail sont les suivantes. Illustrons-les sur le cas de lanalyse des questions ouvertes dans les questionnaires.

    Dfinir la grille des thmes

    Elle organise la description des ides susceptibles dtre prsentes dans le texte. Par exemple pour analyser les rponses la question : Si vous gagniez au loto, que feriez vous ? on distingue : - les actions : consommer, investir, donner - les personnes concernes : moi, mes proches, les gens - la tonalit de la rponse : neutre, sceptique, humour.

    Ajouter au questionnaire les variables thmatiques

    Elles dcrivent les thmes et leurs catgories (modalits). Pour les implmenter, on va modifier le questionnaire et ajouter les questions correspondant la grille

    Crer le code-book

    Cest linterface dans laquelle les ides du texte seront codes. Elle se prsente comme un formulaire qui prsente la rponse texte analyser et les questions de la grille thmatique. On peut rajouter une nouvelle variable texte pour recopier les expressions savoureuses et les retrouver plus facilement.

  • 2

    Analyser la frquence des thmes et faire du verbatim

    Une fois toutes les rponses lues et codes, lanalyse sachve par ltude statistique des thmes et leur illustration par le verbatim qui leur correspond. Toutes les ressources statistiques sont alors disponibles pour confronter les thmes entre eux ou les croiser avec les autres variables de lenqute. Si la grille thmatique est pertinente les rsultats seront coup sr intressants.

    5. Analyse de donnes textuelles et approximation lexicale

    Cette approche simpose lorsque le corpus est trs volumineux. Elle permet de gagner beaucoup de temps mais requiert un savoir faire spcifique autant pour bien matriser les mthodes mises en uvre que pour en interprter les rsultats.

    Approcher le texte par le lexique

    Lide est simple : prendre connaissance du texte partir de des mots les plus frquemment utiliss. Linformatique et la statistique permettent de faire cela trs vite quelque soit la taille du corpus. Plus il est volumineux, meilleurs sont les rsultats. Il faut ensuite pouvoir se faire une ide du texte partir dune simple liste de mots classs par frquences dcroissantes et bien choisir cette liste. Lexemple ci-dessous donne les diffrents lexiques tirs de ltude sur le rve des franais.

  • Les mots outils sont rvlateurs de lnonciation, ici la frquence des je et j est vraiment remarquable. Il faut descendre plus bas pour trouver les premiers mots pleins, ou les supprimer (Lexique sans mots outils). La lemmatisation ramne chaque mot sa forme racine : linfinitif des verbes, le masculin singulier des noms et adjectifs. Enfin, prsenter le lexique par catgories grammaticales permet de focaliser lattention sur les objets (substantifs), les actions (verbes) et valuations (adjectifs).

    On peut enfin chercher grouper les termes du lexique en utilisant des dictionnaires de termes quivalents pour encore rduire la varit lexicale et mieux approcher les diffrentes ides du texte et leur importance.

    Segments rpts et cartes dassociation lexicales

    Les lexiques donnent trs rapidement un aperu du texte analys mais ils peuvent aussi conduire des interprtations errones. Il faut donc vrifier et resituer chaque mots dans son contexte en revenant au texte (verbatim) ou dune manire plus synthtique en cherchant les segments rpts et en produisant des cartes dassociations lexicales.

    Les segments rpts (squences de mots rpts lidentique) renvoient les rigidits du texte, les formules toutes faites ou la langue de bois. Il permettent aussi de soulever bien des ambiguts (arrter de travailler) et rvlent les leitmotivs du corpus.

  • 2

    Les cartes dassociation lexicales

    D'une manire moins rigide que les segments rpts la statistique des associations lexicales (via lanalyse factorielle des correspondances multiples) donne une ide de la propension associer les mots les uns aux autres ou au contraire ne pas les faire coexister dans une mme expression.

    Ainsi, la carte ci dessous laisse apparatre dans les constellations proches ou distinctes les rseaux smantiques, modles cognitifs ou configurations mentales qui dans leur rptition structurent le discours. Ici on peut opposer les vocations gnreuses droite, celles de l'utilitarisme gauche....

    La lecture de ces cartes conduit identifier les thmatiques du corpus. Elles ont l'avantage d'tre produites sans biais cognitifs et de rduire trs significativement la masse d'information qui devient ainsi partageable.... et discutable.

    Influence des contextes : bilans lexicaux, tableaux croiss et vocabulaires spcifiques

    Comment ont rpondu les diffrentes catgories de personnes interroges ? Cest ce que permet dtablir un bilan lexical du type de celui-ci :

    Le corpus est 56% form de rponses de femmes soit 9 857 mots sur un total de 17 743. Leurs rponses sont en moyennes plus longues que celle des hommes, mais la catgorie la plus prolixe est les commerants artisan.

    Les mots utiliss sont ils les mmes suivant lidentit de celui qui parle, les circonstances ou toute autre information qui situe le texte analys ? On peut le savoir en croisant par exemple les rponses une question ferme avec les mots les plus couramment utiliss.

    Les femmes sont proportionnellement plus nombreuses utiliser donner , les hommes se distinguent par lusage de travailler et investir

    Plus directement on peut slectionner la liste des mots sur reprsents dans telle ou telle catgorie et obtenir ainsi les mots spcifiques qui les caractrisent. Ces

    listes peuvent tre cartographies pour mettre en vidence des zones de langages.

    Les jeunes se distinguent par un vocabulaire utilitariste (voiture, appartement, meuble) la diffrence des plus gs qui privilgient laide et le don.

    Intensits lexicales et lexicomtrie

    On peut aussi orienter la recherche par rapport ce quon pense trouver. Comme on le ferait en lisant tout le texte pour reprer les ides qui sy trouvent on confie cette tche lordinateur. Pour cela on dresse des listes de termes exprimant les ides que lon cherche reprer. Ces listes appeles dictionnaire permettent de calculer le nombre de fois o lun des termes se trouve dans la rponse analyse. Lintensit lexicale est calcule comme le rapport entre ce nombre et le nombre total de mots de la rponse. Le poids de lide correspondante est mesur par se rapport ou intensit lexicale. Cet usage de donnes lexicales pour mesurer limportance dune ide permet de parler de lexicomtrie. Ainsi, partir dune expression libre on mesure limportance des lments du modle pour ensuite poursuivre les analyses comme si ces mesures taient tablies en recueillant des opinions sur des chelles.

    Le calcul des intensits lexicales permet de mettre en vidence les diffrences de raction selon la catgorie de franais.

    Comment procder dans la partie classique de Sphinx ?

    Lemmatiser : Panneau de commande : Crer les variables lexicale ou dans lAtelier Bouton Lemmatiser. Calculer les lexiques : Panneau de commande ou dans latelier bouton Rduire Regrouper Supprimer pour agir sur les mots marqus dans le lexique. Segments rpts : Panneau de commande, ou dans latelier article Expression du menu Lexique puis bouton Segments Cartes dassociations lexicales. Dans latelier : 1/ Slectionner les mots considrs dans la fentre du lexique

  • Sphinx V5 Analyse des donnes qualitatives avec le Sphinx : les fondements 3

    2/ Crer une variable codant la prsence de ces mots : Recoder, Ferm sur les mots marqus du lexique. Nommer la nouvelle variable 3/ Lancer lanalyse factorielle des correspondances multiples partir de la variable qui vient dtre cre : Menu Approfondir (menus droulants du haut de lcran), Analyse factorielle des correspondances multiples. 4/ Pour construire une typologie des thmes : bouton Typologie et dfinir interactivement les classes

    Bilan lexicaux : Panneau de commande, Bilan par catgories ou tableau de bord en croisant une variable texte avec loption de calcul Nombre de mots avec une autre variable ferme. Choisir les indicateurs (moyenne, somme, part) dans longlet Tableau . Tableaux croiss lexicaux : Panneau de commande ou atelier lexical menu Vues, article Tableau lexical. Bouton Croiser pour slectionner la variable croiser avec le texte.

    Mots spcifiques : Panneau de commande ou dans latelier 1/ calculer la liste article Mots spcifiques du menu Vue puis bouton Croiser pour choisir la variable et Select. Pour fixer les seuils de spcificits et de frquence. 2/ produire la liste des rponses caractristiques de chaque catgorie (verbatim des rponses contenant le plus de mots spcifiques) : bouton Rponses caractristiques.

    Intensits lexicales. La dfinition des dictionnaires peut se faire dans un traitement de texte ou en slectionnant les mots dans latelier lexical. La procdure la plus rapide consiste utiliser une thmatique (ensemble de dictionnaires correspondant chacun un thme) : atelier lexical, bouton Recoder et Analyse thmatique. Slectionner les fichiers des dictionnaires ou ouvrir une thmatique existante puis Recoder. Pour chaque dictionnaire de la thmatique une variable numrique contenant lintensit lexicale de la rponse ou du fragment est cre. Ces variables peuvent tre utilises pour crer une typologie : Menu Approfondir, Classification automatique.

    Comment procder dans les tableau de bord multimdia ?

    La lemmatisation et la dfinition des variables dorigine lexicales dont le calcul des intensits lexicale et le calcul des doivent se faire dans la partie classique et latelier lexical. Il en galement ainsi pour le calcul de mots spcifiques.

    Calcul des lexiques : Choisir loption Mise en classe des mots dans longlet Calcul. Le bouton Dictionnaire permet de supprimer les mots outils et, ou de restreindre le lexique une liste ou au contenu dun dictionnaire. Dans le mme onglet les articles du menu Simplifier permettent de contrler la longueur de la liste en fixant le nombre de lignes ou la frquence minimum.

    Tableau croiss et cartes lexicales. Une variable texte prsente comme un lexique (mise en classes des mots) peut tre croise avec nimporte quelle autre variable avec la possibilit dutiliser des reprsentations cartographies des tableaux croiss ainsi obtenus (Carte dans onglet Graphique ou raccourcis montrer la carte ). Ceci permet notamment de caractriser les rponses selon les diffrentes catgories de rpondant. Dans le tableau de groupe ci-dessus caractrisant les rponses par sexe et CSP, la variable texte et calcule selon loption Nombre de mots de longlet Calcul et dans longlet Tableau, moyenne somme et effectif ont t slectionns.

    6. Privilgier une approche ou les combiner ?

    Les approches que nous venons dvoquer sont trs diffrentes.

    Le verbatim est de loin la pratique la plus courante et la plus simple mettre en uvre.

    Lanalyse de contenu par recodification prsente lavantage de reposer sur une thmatique qui en elle-mme est dj une contribution la comprhension du texte. La codification permet de prciser avec la rigueur de la statistique comment cette thmatique sapplique et de mettre en vidence les interdpendances entre thmes et de rechercher des explications contextuelles.

  • 4

    Dautre par le vebatim associ chaque catgorie de codification permet dillustrer de manire concrte les ides gnrales et peut tre den affecter la comprhension en leur donnant plus de vigueur ou de pertinence.

    Cependant ces 2 mthodes souffrent galement de la subjectivit qui fatalement accompagne leur mise en uvre dans le choix final de telle ou telle citation et dans la dcision de coder de telle ou telle manire. Lusage des outils informatiques et statistiques permet de mieux contrler ces biais subjectifs grce la formalisation et aux possibilits de recoupement. Enfin malgr ses nombreux avantages lanalyse de contenu est trs consommatrice de temps et de ce fait trs coteuse pour lanalyse des gros corpus.

    Lanalyse des donnes textuelle offre une voie bien diffrente et beaucoup plus technique. Elle prsente lavantage dune relle objectivit dans la production de substituts lexicaux (listes, cartes). Bien que la subjectivit intervienne nouveau au moment de la lecture et de linterprtation elle bnficie ainsi dun crdit de scientificit que les autres approches nont pas. Dautre part, en dtournant le regard du sens de surface vers linterprtation des actes de langage (tout ce que le choix des mots rvle dans les rptitions ou les absences) ce procd cre les conditions dune distance critique et cratrice. Au risque bien sr dimportants contre sens dont il faut se prmunir par des prcautions lmentaires. - ces mthodes ne sont applicables que sur de trs gros corpus, l ou les grands nombre et la statistique peuvent lgitiment faire sens - un patient retour au texte reste absolument indispensable pour contrler les interprtations rapidement acquises par ces techniques. A nouveau le verbatim simpose - enfin certains aspects des contenus sont trs difficiles apprhender notamment pour tout ce qui concerne les valuations ou les jugements. Il est facile de voir quil est question de travail ou de prix mais beaucoup plus difficile dtablir si le travail ou les prix sont voqus positivement ou ngativement. Les formes lexicales de lvaluation et du jugement sont en effet trs varies et complexes apprhender (pas trop, trop, trop peu .).

    Lanalyse lexicale doit tre dconseille pour traiter les rponses ouvertes dans des enqutes sur un petit nombre de rpondants (moins de 200). Lanalyse de

    contenu prendra moins de temps et les rsultats en seront coup sr probants.

    Il est en revanche des situations o seule, compte tenu du temps ou des budgets disponible, lanalyse des donnes textuelles est envisageable. Ctait par le exemple le cas pour lanalyse des 45000 pages du dbat national sur lavenir de lcole.

    Mais le plus souvent ces mthodes gagent tre mises en uvre de manire complmentaire. Dans un premier temps lanalyse lexicale utilise de manire exploratoire permet de rapidement prendre connaissance du corpus et dans les cas heureux de faire jaillir des pistes dinterprtation quon naurait peut tre jamais empruntes autrement. Cest ainsi que la thmatique mergente du texte peut tre complte par les problmatiques, modles et systmes dinterprtation gnraux qui permettront de construire ensuite une grille thmatique plus pertinente. Enfin le travail mthodique danalyse de contenu et de codage permettra si le corpus nest pas trop volumineux de rigoureusement catgoriser les ides prsentent dans le texte. Sinon il faudra lire le lexique pour le ventiler dans les dictionnaires qui permettront, par le calcul des intensits lexicales, dautomatiser le codage des ides prsentes dans le texte.

    Enfin, aprs lexpos des rsultats statistiques, le texte reprendra ses droits grce aux citations et verabtim qui ajouteront aux chiffres, le pouvoir du sens singulier des phrases ou des paroles.

  • Sphinx V5 Le traitement simple des questions textes 5

    Le traitement simple des questions textes

  • 6

    1. Etudier les textes Le Sphinx permet danalyser les textes des questions ouvertes. Lexica ajoute cette possibilit celle douvrir nimporte quel autre texte en offrant un stade supplmentaire Etudier des Textes (menu Stade). Intressons-nous ici au traitement des questions ouvertes. Il peut faire lobjet de 4 approches diffrentes : Le verbatim : extraire un sous-ensemble de rponses

    en fonction de leur contenu ou de leur contexte. La prsentation en tableau : dresser un tableau de

    frquence des rponses identiques et/ou des mots contenus dans les rponses en les croisant ventuellement avec une autre variable ferme.

    Lanalyse de contenu : lire et interprter les rponses pour les codifier dans une nouvelle variable.

    Lanalyse lexicale : mettre en uvre les techniques danalyse lexicale dans lenvironnement spcifique de latelier lexical (Plus et Lexica uniquement) ou en lanant les procdures standards de Lexica.

    Ces possibilits sont offertes partir de larticle Etudier les textes du menu Recoder ou en cliquant sur le bouton Etudier les textes apparaissant au bas de la fentre de dpouillement des questions textes (Dpouiller/ Dpouillement automatique).

    Verbatim Cette fonction permet de slectionner des extraits en fonction de leur contexte (selon les rponses une autre variable) ou de leur contenu (vocabulaire de la rponse). Ces extraits peuvent tre prsents sous forme de liste organise par catgories de rponses.

    Linclusion de ces extraits dans un rapport permet de rendre compte de lenqute par une illustration raisonne.

    Tableaux de rponses On peut prsenter les rponses dans des tableaux. Cette prsentation est bien adapte dans le cas de rponses trs rptitives quon pourra croiser avec dautres variables caractrisant les rpondants.

    On peut galement dresser le tableau des mots prsents dans les rponses et ainsi oprer une recodification automatique en fonction du vocabulaire.

    Analyse de contenu Dans cet environnement, on lit les rponses et on code leur contenu dans une nouvelle variable dcrivant les principaux thmes voqus dans les rponses.

    Cette thmatique peut tre enrichie en cours de lecture par lajout de nouvelles modalits. Ce travail est facilit par la possibilit de voir les rponses selon les mots quelles contiennent.

    Procdure et atelier lexical Plus et Lexica donnent accs un environnement spcifique aux fonctions avances danalyse lexicale.

  • Sphinx V5 Le traitement simple des questions textes 7

    Analyse de contenu : lire et interprter

    Verbatim : citer, extraire, illustrer

    Tableau de rponses et de

    mots : dnombrer,

    recoder, croiser

  • 8

    2. Faire du verbatim La manire la plus simple de traiter les questions ouvertes consiste restituer les rponses dans leur intgralit ou d'une manire raisonne en oprant des slections par rapport au contexte ou au contenu.

    On pourra produire des listes de rponses : classes selon l'identit des rpondants ; restreintes tel ou tel profil (les satisfaits, les

    mcontents...) ; contenant tel ou tel mot.

    Les tapes consistent choisir la variable, dfinir les conditions de l'extraction, et transfrer les citations ainsi obtenues.

    Slectionner une variable texte Allez pour cela dans la fonction Etudier les textes du menu Recoder. Choisissez votre variable. En slectionnant ensuite Extraits (Verbatim), vous obtenez un dialogue dans lequel vous pouvez fixer les conditions de recherche et de prsentation des extraits.

    Prsenter les extraits en les classant La case cocher Trier selon permet de choisir la variable par rapport laquelle on veut classer les citations. Dans lexemple propos ci-contre, on a choisi le Sexe. Les rponses des hommes seront dabord prsentes, puis ce sont celles des femmes.

    Dfinir un profil de recherche En cochant la case Rduire un profil, on peut fixer les conditions auxquelles doivent rpondre les extraits.

    En dfinissant une slection selon une ou plusieurs autres variables, on limite les extraits des conditions de contexte (identit, comportement, opinion...). On peut galement filtrer selon le contenu. On dfinit dans le profil la condition que la variable analyse contienne tel ou tel mot. On peut en numrer plusieurs. Ci-contre, on cherche les rponses contenant le mot amis (Plaisir de manger = amis).

    Contrler les rsultats et les diter Les rsultats de la recherche s'affichent dans une fentre. Le bouton Options permet si ncessaire de changer les conditions.

    Avec le bouton Transfrer, on peut Imprimer ou Inclure dans le rapport...

    Produire des listes L'article Produire des listes du menu Dpouiller offre une autre manire de faire du verbatim, mais dans cet environnement, on peut mettre dans les extraits le contenu de plusieurs variables en les prsentant sous des formats listes ou fiches (Voir Produire des listes).

  • Sphinx V5 Le traitement simple des questions textes 9

    Prsenter les rponses en les classant

    Slectionner les rponses en les limitant un profil

    Slectionner selon le contexte

    Slectionner selon le contenu

    Imprimer ou inclure dans le rapport

    Faire du Verbatim

  • 10

    3. Tableau de rponses ouvertes La manire la plus simple et la plus rapide dtudier une question ouverte est den dresser la liste en regroupant les rponses identiques ou en dnombrant les mots quelle contient. On obtient des tableaux de ce type partir de Recoder / Etudier les textes ou en slectionnant une question ouverte dans le menu Analyser / Tableau plat. Dans le panneau lexical (Lexica uniquement), on accde aussi ce type de tableau par le bouton Tableau de fragments.

    Tableau des rponses et tableau des mots

    Le tableau dresse la liste des rponses en affichant les effectifs et les pourcentages de chaque lment. Les boutons Mots et Rponses permettent de passer de la liste des mots celle des rponses. Dans la liste des rponses, seules les rponses identiques sont dnombres. Dans la liste des mots, on dcompte le nombre de fois o chaque mot apparat. Les mots outils1 sont systmatiquement ignors.

    Ces tableaux peuvent tre imprims, copis ou inclus dans un rapport (bouton Transfrer) de faon intgrale ou seulement pour les lignes slectionnes (clic). Le bouton Ordonner permet de changer la prsentation des lignes du tableau. Caractriser donne le dtail des effectifs composant chaque ligne. Il est particulirement intressant dans le cas des listes de mots.

    Analyser selon le contexte Le bouton Croiser permet dtudier les rponses aux questions ouvertes selon leur contexte : qui dit quoi ? Il suffit de choisir la variable selon laquelle on veut ventiler les rponses ou le vocabulaire. On revient la liste non ventile en dcochant la case Croiser le tableau avec la variable accessible dans le bouton Croiser.

    1 Ces mots sont dfinis par le dictionnaire des mots outils prsent dans

    le rpertoire dictionnaires motoutils.dic .

    Recoder une variable texte On peut crer une nouvelle variable dfinie partir des lments slectionns dans la liste des mots. Le bouton Recoder propose les choix suivants pour la nouvelle variable : Ferme : les modalits de la nouvelle variable

    indiquent la prsence ou labsence des mots slectionns dans la rponse.

    Ouverte numrique : la nouvelle variable enregistre le nombre de mots slectionns dans la rponse. Elle les dnombre tous si aucun nest slectionn. On obtient alors la longueur de la rponse (sans les mots outils). Cest un indicateur trs utile.

    Ouverte texte : la nouvelle variable est une variable texte dont les lments sont rduits aux mots slectionns dans la liste. On fabrique ainsi des textes expurgs ou rduits des squences remarquables.

    Analyser un tableau de textes Le bouton Analyser renvoie lenvironnement danalyse des tableaux plat ou croiss. On accde ainsi aux fonctions graphiques et statistiques classiques. On revient avec le bouton Liste.

  • Sphinx V5 Le traitement simple des questions textes 11

    Produire la liste des rponses

    Produire la liste des mots

    Croiser

    Analyser

    Slectionner

    Recoder

  • 12

    4. Analyse de contenu simple, en cours de lecture Lanalyse de contenu est un travail long qui peut tre fastidieux. Lenvironnement de travail propos permet de le rendre plus facile et plus rapide. Les thmes peuvent tre enrichis en cours danalyse par lajout de modalits, par la possibilit de passer dune rponse lautre en fonction de son contenu (navigation lexicale), et par laffichage du contenu dautres questions pour amliorer la qualit de la lecture.

    Reprendre un travail en cours ou crer une nouvelle variable

    Aprs avoir slectionn Analyse de contenu dans larticle Etudier les textes du menu Recoder, on choisit de reprendre un travail en cours en slectionnant la variable dans laquelle on a commenc la codification.

    Si vous commencez votre recodage, il faut dfinir la variable dans laquelle vous souhaitez coder le contenu : une variable dont vous choisissez le type. Il sagit le plus souvent dune variable ferme dont les modalits se rapportent aux thmes les plus frquents, mais elle peut tre aussi code si on dispose dun thsaurus ou dun dictionnaire de thmes, ou de type numrique pour donner une note la rponse.

    Elaborer la grille thmatique et coder les rponses

    Dans le cas de la codification dans une variable ferme, le bouton Changer les modalits permet de modifier la liste des thmes en nommant les modalits, en crant de nouveaux thmes ou en rorganisant leur liste (Ajouter, Supprimer, Monter, Descendre dans la liste des modalits), et ceci tout moment. Si on dispose dune thmatique dj dfinie et trs longue, on a tout intrt la rentrer dans un dictionnaire de codes ventuellement structur. En associant cette liste une variable code, on gagnera beaucoup de temps.

    La codification On code le contenu de la rponse en cours danalyse en cochant la case correspondante ou en slectionnant une ou plusieurs modalits dans la liste droulante. Si vous avez plus de 10 modalits, les boutons Listes et Boutons vous permettent de choisir le mode daffichage qui vous convient le mieux.

    Le passage la rponse suivante (flches de navigation ou retour chariot) valide les rponses pralablement recodes. Le bouton Revenir vous ramne ltat initial de la variable (avant validation de la dernire rponse).

    Lexique et navigation lexicale Vous pouvez faire apparatre la liste de tous les mots (lexique) contenus dans la variable analyse en dplaant la sparation des deux parties de votre cran sur la droite. En slectionnant un ou plusieurs mots dans cette liste, vous pourrez, avec les flches de navigation, passer en revue les rponses contenant ces mots. Si vous cherchez un mot particulier, tapez-le rapidement au clavier, le curseur du lexique se positionnera dessus.

    Vous pouvez galement limiter la navigation certains types de rponses en dfinissant leur profil (vous accdez ce dialogue avec le bouton N situ en bas gauche de la fentre danalyse de contenu).

  • Sphinx V5 Le traitement simple des questions textes 13

    Rponses en liste

    Tirer pour cacher ou montrer le

    lexique

    Tirer pour agrandir ou rduire la fentre

    Naviguer entre des rponses

    Illustrer par une autre variable

    Crer une nouvelle variable

    Reprendre un travail en cours

  • 14

    5. Analyse de contenu avec code-book Celle-ci doit seffectuer dans lenvironnement multimdia du Sphinx. Il sagit de crer plusieurs questions pour recoder les rponses sur plusieurs dimensions : le thme, le sous-thme, la tonalit, les acteurs voqus par exemple On peut galement prvoir une nouvelle question texte pour y recopier les "perles" ou les rponses particulirement intressantes.

    On commence par la cration de nouvelles questions dans llaboration du questionnaire. On prpare ensuite un environnement personnalis danalyse de contenu dans les formulaires multimdia. Lanalyse de contenu seffectue depuis le menu Consulter/Modifier de l'environnement multimdia.

  • Sphinx V5 Le traitement simple des questions textes 15

  • 2

    L'analyse lexicale en bref

  • Sphinx V5 L'analyse lexicale en bref 3

    1. Les interfaces Pour aller plus loin dans lanalyse lexicale, Plus et Lexica donnent accs un environnement spcifique : latelier lexical (Etudier les textes / Atelier lexical / Panneau de commandes). Celui-ci permet de : Calculer diffrentes formes de lexiques (rduits,

    regroups par racine, relatifs un dictionnaire.) ; Slectionner des mots pour retrouver toutes les

    rponses qui les contiennent, produire des extraits ou des associations de termes ;

    Reprer les expressions du texte et les segments rpts ;

    Produire des tableaux lexicaux, des listes de mots spcifiques (relatifs aux modalits dune autre variable), et des rponses caractristiques ;

    Transformer une variable texte en produisant un nouveau texte expurg, fragment ou lemmatis ;

    Coder automatiquement le texte en fonction de son contenu lexical.

    Toutes ces fonctions dotent le Sphinx Lexica dun trs puissant outil danalyse. Pour en simplifier lusage, quelques procdures standards ont t isoles. On peut les lancer partir du panneau lexical disponible partir du stade Etudier des Textes ou partir de la fonction Etudier les textes.

    On obtient ainsi directement les rsultats attendus sans avoir en spcifier la procdure dans latelier lexical. Nanmoins, celui-ci sera trs utile pour affiner les rsultats et raliser les oprations plus complexes quil autorise.

    Latelier lexical Cet cran est compos de 4 grandes parties : A droite : une fentre prsente diffrentes vues du

    corpus ; A gauche : on peut voir le lexique des mots ou des

    expressions. En cliquant dans le lexique, on fait dfiler les contenus correspondants dans la fentre de droite (navigation lexicale).

    Le bandeau du haut contient un ensemble de boutons de commande contrlant le calcul et la prsentation du lexique, la mise en forme du corpus, sa prsentation, et sa codification dans de nouvelles variables.

    Les indications du bas de lcran donnent des statistiques gnrales sur le texte tudi.

    Le panneau de commandes lexicales Ltude des textes fait lobjet de procdures mettant en uvre des commandes complexes qui ont t en partie automatises et que lon peut ainsi directement excuter sans passer par latelier lexical : la production de diffrentes formes de lexiques

    (rduits, lemmatiss2, stemmatiss3 selon la forme grammaticale), la recherche dassociations lexicales (segments rpts, lexiques relatifs, co-occurrences).

    la mise en vidence des effets de contexte (indicateurs dnonciation, tableaux lexicaux, listes de mots spcifiques, rponses caractristiques).

    Enfin, ce panneau permet douvrir nimporte quel texte prsent sous forme de fichier texte.

    2 chaque forme est ramene sa racine grammaticale (infinitif,

    singulier) 3 chaque forme est ramene ses x premiers caractres

  • 4

  • 2. Du texte aux formes graphiques - lapproximation lexicale Lanalyse lexicale ignore la syntaxe de la phrase et donne la priorit aux mots. Linformatique permet en effet trs facilement de dresser la liste des formes graphiques contenues dans un texte et den faire la statistique. Cest ce quon appelle extraire le lexique du texte.

    Une forme graphique est une suite de caractres ne comportant pas de sparateurs (blanc, apostrophe, caractres de ponctuation). Dans ce qui suit, on utilisera lappellation mot, en lappliquant en fait la ralit dune forme graphique.

    En assimilant ainsi les mots aux formes graphiques, on peut donner une approximation utile du contenu du texte par le seul examen des formes les plus frquentes. Comme on le fait en survolant le lexique dun livre pour avoir une ide de son contenu.

    Cette assimilation peut tre trompeuse du fait des polysmies (la forme avions dans la phrase Nous avions de beaux avions) et des significations composes (pas mal = bien). Lanalyse lexicale repose ainsi sur une approximation, source derreurs, quon cherche compenser par : Un retour ais au texte grce la navigation lexicale qui

    permet de situer le mot dans son contexte. La phrase est le contexte le plus naturel et nous verrons plus loin comment jouer sur ltendue de ce contexte.

    La recherche des segments rpts pour restituer les locutions et les expressions rptes dont chaque lment pris isolment peut induire un contre sens comme par exemple le trop de trop cher, le beau de pas beau...

    Une intelligence artificielle du texte consistant, par le procd de lanalyse syntaxique automatique, soulever lambigut des formes graphiques. Dans lexemple ci-dessus, en reprant la fonction de verbe de la premire forme avions, on distingue les significations avoir et aroplane. Cest ce quon appelle la lemmatisation. A linverse, les synonymes (mots diffrents ayant la mme signification) ou les mots composs, peuvent tre grs par des dictionnaires de mots quivalents ou dexpressions.

    En combinant ces diffrentes fonctions, le Sphinx autorise une approche rapide des textes : Calcul du lexique pour comprimer le texte ; Navigation lexicale pour revenir au texte ; Dictionnaires, segments rpts, et lemmatisation pour

    une intelligence du texte.

    On peut ainsi rduire leffort de lecture en produisant un matriau moins volumineux que le texte initial. Mais ce nest l quune manire dapprocher son contenu. On y trouvera un gain de temps qui peut tre considrable et une prise de distance que la lecture naturelle interdit.

  • 2

    Corpus texte

    Lexique

    Corpus texte

    Lexique

    Navigation lexicale

    Verbatim

    Corpus texte

    Lexique rduit et structur

    Navigation lexicale

    Lemmatisation

    Dictionnaire Verbatim

    Segments rpts

    Corpus texte lemmatis et solidaris

    Nouvelle vision du texte

    Calculer le lexique

    Interpreter

    Slectionner

    Lapproximation lexicale sommaire : Rduire le texte au dbut du lexique : lexamen des mots les plus frquents donne une ide du contenu.

    Lapproximation lexicale contrle : Rduire le texte son lexique et contrler par la navigation lexicale le bien fond des interprtations faites partir du lexique.

    Lapproximation lexicale slective : Travailler sur un lexique rduit aprs avoir limin les mots outils et solidaris les segments. Concentrer lattention sur lexamen des noms, verbes, adjectifs (utilisation de dictionnaires et de la lemmatisation).

  • Sphinx V5 L'analyse lexicale en bref 3

    3. Du texte aux structures linguistiques : la statistique lexicale La statistique lexicale et lanalyse des donnes textuelles permettent daller plus loin que la simple approximation dduite de lexamen du lexique ou de ses drivs.

    En dnombrant les associations de termes entre eux ou avec dautres variables, on est conduit un autre type de lecture totalement objective et susceptible de rvler les structures que la quantification du texte peut mettre jour. On peut ainsi transformer le texte en le dcrivant par des variables statistiques classiques (codification automatique, mesures lexicales...) ou en le recomposant sous forme de nouveaux textes (textes expurgs, rduits leurs formes lemmatises...). Latelier lexical offre cet gard de nombreuses possibilits pour mettre jour les particularits lexicales des textes tudis et prolonger leur analyse en utilisant toutes les techniques danalyse de donnes du Sphinx.

    Recherche des spcificits lexicales Etablir la statistique des mots du texte selon une variable externe non textuelle. Rechercher les spcificits lexicales selon ces contextes, et les visualiser sous forme de cartes cognitives. Produire les phrases les plus caractristiques de chaque contexte.

    Codification et mesures lexicales Dcrire le texte par une ou plusieurs variables nominales codant la prsence, dans les rponses, dun ensemble de mots slectionns dans le lexique. Cette codification peut tre enrichie de toutes les possibilits offertes par lusage de dictionnaires thmatiques, la lemmatisation, la recherche des segments rpts

    Caractriser lnonciation (longueurs de rponses, de phrases, frquence dusage des embrayeurs...) ou les noncs (intensits lexicales de termes ou champs smantiques...) en crant de nouvelles variables numriques pondrant, pour chaque fragment, limportance de tel ou tel trait linguistique ou smantique...

    Intgration de l'analyse de donnes Appliquer les mthodes de lanalyse multivarie sur des variables dorigine lexicale considres entre elles ou en relation avec dautres variables de contexte. En intgrant ainsi lanalyse de donnes classiques avec lanalyse des donnes textuelles, on peut mettre jour les structures internes des textes tudis (analyse des co-occurrences) ou leur dpendance par rapport des donnes de contexte (analyse des spcificits).

  • 4

    Corpus texte

    Lexique rduit etstructur

    Navigation lexicaleDictionnaire

    Variablede contexte

    Tableaulexical

    StructuresStat.

    Lemmatisation Segments rpts

    Corpus textelemmatis et solidaris

    Phrasescaractristiques

    Listes demotsspcifiques

    Corpus texte

    Lexique rduit etstructur

    Navigation lexicaleDictionnaire

    Variablesfermes surles mots du

    lexique

    Mesureslexicales :intensitsbanalits

    Verbatim

    StructuresStat.

    Variablede contexte

    Lemmatisation Segments rpts

    Corpus textelemmatis et solidaris

    Mettre jour les structures linguistiques

    Intgrer les mthodes

  • Sphinx V5 L'analyse lexicale en bref 5

    4. Latelier lexical en bref On accde latelier lexical partir du panneau lexical ou par larticle Etudier des textes du menu Recoder. Cet cran concentre lensemble des outils proposs par le Sphinx. Il permet deffectuer 4 grands types de tches appliques au corpus de la variable slectionne : produire des lexiques, naviguer entre le lexique et le corpus, tablir des statistiques, transformer le texte et crer de nouvelles variables.

    Production de lexiques Le lexique des mots ou liste des formes graphiques saffiche dans la fentre de gauche.

    Il dpend des caractres sparateurs retenus (bouton Apparier). Son contenu et sa prsentation sont affects par les boutons Supprimer, Rduire, Regrouper, Compter et Classer. On peut ainsi liminer ou regrouper des lments et choisir lordre de leur prsentation ainsi que les indicateurs statistiques les caractrisant (nombre doccurrences ou nombre de rponses / fragments concerns). Le lexique des expressions (Lexica uniquement) prend la place du lexique des mots. On slectionne pour cela Expressions dans le menu droulant Lexique. Dans la fentre qui apparat, on peut chercher les locutions et les segments rpts.

    Navigation lexicale La navigation lexicale permet de faire apparatre, dans la fentre du corpus, les fragments de texte contenant les mots marqus dans le lexique. On passe dun fragment lautre avec les flches situes sous la fentre droite. Les rgles de navigation peuvent tre modifies par le menu droulant Aller .

    Un double clic dans la fentre du lexique fait apparatre le contexte du mot slectionn (concordances ou lexiques relatifs). Ltendue du contexte est paramtrable avec le bouton Apparier. On revient par la touche Esc.

    Le bouton Marquer permet de slectionner des lments du lexique selon leurs proprits, et les boutons 0 @ servent annuler la slection, linverser ou tout slectionner. Grce au bouton Illustrer, on fait apparatre une autre variable illustrative dans la fentre du corpus.

    Statistiques lexicales Les caractristiques statistiques du corpus du lexique et de chaque observation / fragment sont affiches sous les fentres correspondantes (taille, richesse, longueur moyenne, banalit, % de lecture). Avec le bouton Compter, on choisit les indicateurs statistiques du lexique. Comparer permet de le confronter un lexique de rfrence.

    Dans le menu droulant Vues (Lexica uniquement), les articles Bilan lexical, Tableau lexical et Mots spcifiques donnent accs aux statistiques rsultant du croisement avec une autre variable.

    Transformation du texte et cration de nouvelles variables

    Les boutons Modifier et Remplacer permettent deffectuer directement des transformations dans le texte du corpus. Avec Lemmatiser, on peut crer une nouvelle variable dans laquelle chaque mot est remplac par sa forme racine.

    Recoder donne accs aux nombreuses possibilits de cration de nouvelles variables : nominales, numriques, textes.

    La barre d'outils Toutes les fonctions qui viennent rapidement d'tre voques se lancent partir de la barre d'outils. Les fonctions suivantes ne sont disponibles que dans Lexica : rechercher des expressions et des segments rpts, analyser l'environnement d'un mot, construire des bilans, des tableaux lexicaux ou des listes de mots spcifiques, lemmatiser.

    Revenir l'atelier lexical ou le quitter La touche Esc permet de revenir l'cran principal de l'atelier ou d'en sortir.

    Le panneau de commandes lexicales** Les procdures de recherche les plus courantes ont t automatises et sont accessibles depuis le panneau de commandes lexicales. On peut ainsi rapidement tablir des rsultats qui seront ensuite affins dans l'atelier.

  • 6

    Latelier lexical

    Lexique Corpus

    Statistiques lexicales

    Barre doutils de Plus

  • Sphinx V5 L'analyse lexicale en bref 7

    5. Le panneau lexical : produire des lexiques Une manire rapide de prendre connaissance dun corpus consiste dresser la liste des mots quil contient. La procdure Lexiques du panneau lexical permet daller plus loin que les tableaux de rponses ouvertes.

    Formes graphiques et mots La machine peut identifier les formes graphiques composant votre texte : suite de caractres sans blanc ou signes de ponctuation. Malheureusement, un mot se prsente en gnral sous diffrentes formes graphiques (singulier, pluriel, flexion des verbes), ce qui rduit la qualit des listes construites sur le seul reprage de ces formes.

    Pour surmonter cet inconvnient, le Sphinx peut faire une analyse syntaxique et remplacer chaque forme par son lemme (masculin singulier pour les noms et adjectifs, infinitif pour les verbes). Vous avez galement la possibilit de regrouper les mots construits sur la mme racine (suite des x premires lettres). Bien quapproximatif, ce procd permet de regrouper dans un mme item diffrentes formes exprimant la mme ide (#famil pour famille, familier, familial).

    Slectionner un type de lexique Cliquez sur Lexiques, un dialogue vous propose de construire la liste des formes graphiques qui composent votre texte en appliquant les options suivantes : Ignorer les mots outils : ces mots sont pauvres pour

    qualifier lnonc mais ils peuvent tre rvlateurs de lnonciation.

    Ignorer les nombres. Regrouper par racine : on indique le nombre de lettres

    dfinissant la racine. Les mots commenant ainsi seront regroups.

    Utiliser le lexique lemmatis : le lexique est dress partir dune forme lemmatise du texte. Lanalyse syntaxique est lance automatiquement et une nouvelle variable (Nom_L) est cre. Vous pourrez alors lutiliser tout moment pour la suite de vos analyses.

    Nombre maximum et Frquence minimale permettent de limiter la longueur de la liste.

    Verbes, Noms, Adjectifs En dressant la liste des verbes, noms, adjectifs, vous dsignez les actions, les objets et les valuations du discours. Vous pouvez y ajouter la liste des noms propres et des mots grammaticaux Cette liste est construite partir dune forme du texte o les statuts grammaticaux sont reprs (Nom_LC).

    Poursuivre dans latelier lexical Vous pouvez sortir les rsultats avec le bouton Transfrer, mais vous pouvez aussi enrichir vos rsultats dans latelier lexical en oprant des regroupements manuels ou des regroupements par dictionnaires (Regrouper) sur le texte original ou sur ses formes lemmatises (Nom_L et Nom_LC).

  • 8

    Lexique lemmatis

    Lexique des racines

    Lexique rduit

    Calculer les lexiques

    Trouver les formes grammaticales

  • Sphinx V5 L'analyse lexicale en bref 9

    6. Le panneau lexical : segments rpts et lexiques relatifs

    Trouver les segments rpts On appelle Segment rpt toute squence de formes graphiques rptes lidentique dans le texte. Ils rvlent les expressions, les formules toutes faites, la langue de bois.

    En les recherchant dans le texte lemmatis, on fait ressortir encore plus fortement les rptitions et les leitmotivs.

    En cliquant sur le bouton Segments rpts, vous avez le choix de lancer la recherche sur le texte original ou sur le texte lemmatis (Utiliser le texte lemmatis), sur le texte qui contient ou non les mots outils (Ignorer les mots outils). Vous pouvez enfin limiter la recherche aux segments dune frquence minimale.

    La liste des segments apparat dans une fentre que vous pouvez imprimer ou inclure dans votre rapport (Bouton Transfrer). Vous pouvez affiner vos recherches dans latelier lexical (Vue Expressions, bouton Segments). Vous pourrez ainsi limiter la recherche aux segments contenant des mots choisis par vous ou appliquer la recherche sur des formes modifies du texte.

    Les mots dans leur contexte Le lexique sort le vocabulaire de son contexte. Afin de prciser le sens des mots, vous pouvez produire la liste des phrases ou rponses dans lesquelles ils sont employs.

    Ces listes peuvent tre longues, les lexiques relatifs donnant la frquence des mots avec lesquels le mot tudi est utilis.

    Elles font ressortir bien plus rapidement le contexte en donnant des indications trs prcises (frquence dutilisation gauche et droite).

    Avec Lexiques relatifs, vous entrez le mot que vous voulez tudier puis slectionnez : Lexiques relatifs pour voir la frquence des termes

    gauche et droite du mot recherch (mot pivot) ; Concordance pour obtenir tous les passages contenant

    le mot.

    Les rsultats de la recherche apparaissent dans une fentre qui vous donne accs des options permettant daffiner les rsultats : enlever les mots outils (Rduire), modifier la dfinition de lenvironnement du mot (rponse, phrase, groupe) avec le bouton Apparier.

  • 10

    Segments rpts

    Lexiques relatifs et concordances

  • Sphinx V5 L'analyse lexicale en bref 11

    7. Le panneau lexical : du bilan aux rponses caractristiques Vous pouvez apprcier linfluence des locuteurs en mettant en vidence les diffrences qui caractrisent leur texte. Cest lobjet des bilans lexicaux, des tableaux de caractristiques, des listes de mots spcifiques et des rponses caractristiques.

    Bilan lexical Le bilan lexical rassemble les principaux indicateurs caractristiques de lnonciation : nombre de mots, longueur des fragments, richesse lexicale, spcialisation lexicale Ces indicateurs sont calculs pour les modalits dune variable et permettent ainsi de comparer diffrents locuteurs. La production du bilan est automatique : vous navez qu indiquer la variable selon laquelle vous voulez ltablir.

    Tableaux lexicaux Un tableau lexical ventile lutilisation des mots selon les modalits dune variable de contexte. Vous avez galement la possibilit de limiter la liste aux mots exclusifs, aux mots communs ou aux mots sur-reprsents ou sous-reprsents dans chaque catgorie. A cet effet, choisissez dans le dialogue les mots que vous souhaitez inclure dans la liste : Inclure les mots exclusifs dune catgorie, Inclure les mots communs plusieurs catgories

    Vous pouvez enfin limiter le tableau aux mots ayant des effectifs minimums (Seuil de frquence).

    Mots spcifiques Un mot est spcifique dune catgorie sil est sur-reprsent dans cette catgorie. On utilise le rapport des frquences (observes / thoriques) comme indicateur de spcificit. Le mot est dautant plus sur-reprsent (resp. sous-reprsent) que ce rapport est suprieur (resp. infrieur) 1. Il est infini pour les mots exclusifs quon repre avec une toile.

    Choisissez dabord une variable de contexte puis le bouton Restrictions vous permettra de fixer les conditions de recherche : se limiter aux mots exclusifs ou aux mots communs (Inclure les mots exclusifs, Inclure les mots communs toutes les catgories, Inclure les mots communs certaines catgories). Pour filtrer les mots selon leur spcificit, on coche la case Seuil de spcificit en donnant une valeur au seuil. Ne cocher Positive que pour limiter la liste aux mots sur-reprsents. Vous pouvez enfin vous limiter aux n mots les plus spcifiques par catgorie en cochant Limiter .

    Le rsultat dresse, par catgorie, la liste des mots rpondant aux conditions. Ils sont classs par ordre de spcificit ou de frquence. En regard apparat la frquence et/ou lindice de spcificit. Ces options sont modifiables dans latelier : Compter (faire afficher ou non la frquence et lindice) et Classer (dfinir lordre des listes).

    Rponses caractristiques Cette fonction repose sur la slection de mots spcifiques mais donne comme rsultat une liste de rponses slectionnes en fonction du nombre de mots spcifiques quelles contiennent et de leur indice de spcificit moyen.

  • 12

    Bilan lexical

    Tableau lexical

    Mots spcifiques

    Rponses caractristiques

    Variable de contexte

    Conditions spcifiques

  • Sphinx V5 L'analyse lexicale en bref 13

  • 14

    La construction des lexiques

  • Sphinx V5 La construction des lexiques 15

    1. Caractres sparateurs et environnement Pour identifier les diffrents lments composant un champ textuel, on dfinit des caractres sparateurs.

    Les sparateurs de fragments ou dobservations sont dfinis au moment de lintgration dun fichier de donnes (Voir Ouvrir un fichier de donnes textuelles). Les sparateurs de formes graphiques permettent disoler les mots. Le blanc est le sparateur naturel mais on peut en retenir dautres ( ()..). Les sparateurs de phrases ou de tout autre groupe permettant de dfinir un sous-ensemble signifiant (proposition, unit de signification...).

    Apparier La dfinition de ces sparateurs conditionne la construction du lexique et la recherche de lenvironnement dun mot (concordances, lexiques relatifs). On peut modifier ces paramtres dans un dialogue ouvert par le bouton Apparier.

    Celui-ci permet de modifier les sparateurs de mots (formes graphiques), groupes ou phrases, de fixer les rgles suivre pour traiter les accents et majuscules et grer les expressions formes de mots composs.

    Enfin, il permet de fixer lenvironnement prendre en considration pour examiner le contexte dun mot.

    On change les sparateurs en les frappant au clavier dans la zone qui leur est rserve.

    Les modifications introduites avec Apparier sont conserves la prochaine ouverture du logiciel, nanmoins le bouton Restaurer permet de rtablir les solutions par dfaut les plus courantes.

    Choisir les rgles de construction du lexique

    En cochant les cases Diffrencier les majuscules ou Diffrencier les lettres accentues, on considre Maison ou maison et lve ou lev comme des formes graphiques diffrentes ou non.

    En jouant sur les sparateurs de mots, on fait apparatre grand-pre comme un seul mot ou comme 2 mots diffrents. Pour supprimer ou rajouter des sparateurs, il suffit daller crire dans la bote correspondante.

    Si la saisie, on a utilis le caractre _ comme liaison pour les mots composs sans tiret. On crira ainsi pomme_de_terre. Mais pour que ce procd fonctionne bien, il faudra vrifier que le caractre '_' nest pas considr comme un sparateur (ce qui est le cas par dfaut).

    Options pour la recherche des expressions

    Si la case cocher Composes de mots entiers n'est pas coche, les squences recherches peuvent inclure des fragments de mots conscutifs.

    Si la case cocher Diffrencier les sparateurs est coche, on ne tient pas compte des sparateurs.

  • 16

    Dfinir les sparateurs

    Lexique

    Concordances

    Lexiques relatifs

    Verbatim

  • Sphinx V5 La construction des lexiques 17

    2. Rechercher et marquer des lments dans le lexique Que lon cherche restituer les mots dans leur contexte ou simplifier le lexique par regroupement dlments, le travail danalyse lexicale consiste reprer des mots et les marquer.

    On peut procder manuellement en faisant dfiler la liste du lexique avec les ascenseurs et en cliquant sur les mots qui nous intressent. Selon le besoin, on classera le lexique par ordre de frquence, par ordre alphabtique ou par ordre dapparition (bouton Classer). On peut aussi procder dune manire automatique grce au bouton Marquer. Il permet de trouver et marquer les lments rpondant aux conditions fixes.

    Rechercher par le contenu Activer le bouton Le mot et entrer le mot recherch ou une partie de mot. Pour trouver plusieurs mots, tapez les la suite.

    La (ou les) chane(s) de caractres que vous venez dentrer sera(ont) recherche(s) : Dans son (leur) intgralit : bouton Mot entier. Comme dbut de mot : bouton Dbut de mot, tous les

    mots commenant par cette chane seront marqus. Par exemple, en tapant voit , on marquera voiture, voitures, voiturette.

    Comme partie de mot : bouton Partie de mot, tous les mots contenant la chane seront marqus. Cette option est trs utile pour marquer tous les verbes dun texte lemmatis. Ils sont marqus par la terminaison -V (chanter-V).

    Selon la conformit un modle : bouton Modle, tapez par exemple *isme pour trouver tous les mots se terminant par isme.

    Rechercher selon la frquence En fixant une plage de frquence : activez loption Les mots de frquence entre et indiquez lintervalle correspondant au nombre dapparitions des mots marquer. Par exemple de 1 10 pour marquer les mots apparaissant moins de 10 fois, de 1 2 pour marquer les hapax (la borne suprieure de lintervalle nest pas comprise). Vous pouvez indiquer une seule des deux bornes.

    En limitant aux plus frquents : cochez la case Les mots les plus frquents, taper le nombre de mots que vous souhaitez dans la bote en regard. Vous pourrez ainsi par exemple vous concentrer sur les 20 mots les plus frquents.

    Rechercher par dictionnaires En slectionnant le bouton Les mots du dictionnaire, on peut utiliser un dictionnaire pour marquer dans le lexique tous les mots qui sy trouvent. Le bouton Dictionnaire permet de changer le dictionnaire courant pour le remplacer par le dictionnaire de son choix.

    Combiner les effets du marquage Le menu droulant Slection permet de combiner plusieurs recherches conscutives : Complter : les mots dj marqus le restent, les

    nouveaux sajoutent lensemble. Remplacer : les mots dj marqus seffacent, les

    nouveaux les remplacent. Affiner : seuls sont marqus les mots qui taient dj

    marqus, les autres sont effacs (intersection de 2 slections).

    Enfin, les boutons 0, , @ permettent deffacer toutes les marques, de les inverser ou de marquer tous les mots du lexique. Pour conserver dans le lexique un ensemble de mots slectionns, on les marque puis on inverse les marques pour supprimer ce qui ne nous intresse pas.

  • 18

    En cliquant dans le lexique

    En cliquant dans le corpus

    Au clavier

    Selon la frquence

    Par dictionnaire

    Rgles de recherche

  • Sphinx V5 La construction des lexiques 19

    3. Rduire les lexiques Cest une phase essentielle de lanalyse lexicale. Pour analyser les mots les plus intressants ou regrouper sous une mme appellation ceux qui ont une signification commune, on peut procder manuellement ou dune manire automatique. Lexamen manuel consiste reprer les lments supprimer ou regrouper. Les procds automatiques reposent sur lutilisation de dictionnaires de rfrence et/ou d'algorithmes morphologiques (stemmatisation) ou syntaxiques (lemmatisation).

    Supprimer On peut passer en revue tout le lexique et marquer les mots liminer. Le bouton Supprimer permettra de les faire disparatre.

    Ignorer les mots outils Le bouton Rduire comporte un premier automatisme en permettant dliminer les mots outils (selon le dictionnaire motoutil.doc fourni avec le Sphinx ), les nombres ou les mots courts (moins de x lettres). Attention, le dictionnaire des mots outils contient des mots trs intressants analyser comme les pronoms personnels, les ngations... Pour revenir au lexique complet et les analyser, utiliser le bouton Reconstruire.

    Regrouper Le bouton Regrouper offre plusieurs choix pour remplacer plusieurs lments par un seul : Grouper les mots marqus dans le lexique :

    slectionnez et donnez un nom au regroupement. Rechercher tous les mots rpondant un modle et

    les grouper. Entrez le modle : les lments qui y rpondent seront automatiquement regroups, par exemple, *isme pour les mots se terminant par isme.

    Grouper les mots commenant par les mmes lettres : groupement par racine ou stemmatisation. Indiquez le nombre de caractres retenir pour la racine. Vous pourrez contrler la validit de chaque groupe (Voir Stemmatisation).

    Grouper avec un dictionnaire. Choisissez un dictionnaire. En utilisant un dictionnaire de groupement ou thsaurus, vous pourrez oprer en une seule fois plusieurs groupements (Voir Gestion de dictionnaires).

    Ce mme dialogue donne la possibilit de revoir les groupes (Voir Groupement automatique). Les groupes sont conservs et retrouvs la prochaine consultation de la variable. Dfaire les groupes permet cependant dannuler dfinitivement tous les regroupements.

    Lemmatiser La lemmatisation (Lemmatiser) permet doprer des regroupements intelligents en utilisant les rgles de la syntaxe (singulier, pluriel, formes verbales ramenes linfinitif). Elle prsente lavantage de rduire certaines ambiguts en distinguant par exemple le nom du verbe (voyage peut correspondre au nom voyage ou au verbe voyager). Il est donc conseill doprer le travail de rduction sur la base du texte lemmatis.

    Exploiter le lexique rduit Les regroupements sont conservs, mais vous pouvez crer une nouvelle variable rduite aux mots du lexique (Recoder). Le bouton Verbatim permet de sortir les lments slectionns.

  • 20

    Enlever les mots outils Lemmatiser Regrouper

  • Sphinx V5 La construction des lexiques 21

    4. Groupements automatiques On gagne beaucoup de temps en procdant ainsi :

    Regroupement selon un modle Slectionner loption Grouper les mots sur le modle puis rentrez le ou les modles recherchs. Par exemple, alim* donne tous les mots commenant par alim, *ie ceux qui se terminent par ie. La syntaxe disponible offre de trs grandes possibilits.

    Stemmatisation Ce terme indique le regroupement des mots ayant la mme racine. Slectionner la case Grouper automatiquement, puis de mme racine et indiquer le nombre de lettres minimum que doit contenir la racine commune.

    Modifier les groupes Il est important de pouvoir contrler la qualit des groupements automatiques. A cet effet, le bouton Modifier interactivement les groupes permet de les revoir tous (utiliser les flches) pour ventuellement supprimer des mots dont la signification nest pas conforme (Enlever). On peut galement ajouter des mots en les entrant au clavier (Ajouter). Dfaire supprime le groupe. Pour renommer, entrez au clavier la nouvelle appellation. Par dfaut, les groupes sont marqus dun #. Leur nom reprend le modle auquel il rpond.

    Dictionnaires On peut galement utiliser des dictionnaires. Slectionner pour cela Grouper automatiquement et avec un dictionnaire.

    Utiliser le bouton Dictionnaire pour ouvrir le dictionnaire dsir, puis faire Regrouper. Le logiciel cherche les mots du dictionnaire prsents dans le lexique et les regroupe sous un mme item. On peut galement procder en marquant partir du dictionnaire (Marquer les mots du dictionnaire). Dictionnaire de mots et de groupements : un dictionnaire de mot est une liste de termes ayant

    une mme signification ou proprit. Cette liste se prsente comme une numration.

    un dictionnaire de groupements regroupe plusieurs dictionnaires de mots. Chaque lment numre une liste de mots quivalents. Les mots sont spars par le signe =, et en tte de liste se trouve le nom de lquivalent. Appliquer un dictionnaire de regroupements revient appliquer successivement plusieurs dictionnaires de mots. Les mots dune mme ligne sont automatiquement remplacs par leur quivalent. Ces dictionnaires sont trs utiles et peuvent tre assimils des thsaurus de niveau 1.

    Ci-dessous, titre d'exemple, voici le dictionnaire correspondant l'tat du lexique de droite ci-contre :

    ' Dictionnaire de regroupements $ C:\Donnees\barchoc310\barchoc310.que Plaisir_de_manger_L 1

    #faire*=faire=faire_la_cuisine=faire_plaisir=faire_envie=faire_attention #gote*=goter=goteux #gastronomi*=gastronomie=gastronomique #avoir_*=avoir_envie=avoir_faim #quelque*=quelque_chose=quelquechose #enfant*=enfant=enfants #nature*=naturel=nature #prendre*=prendre_son_temps=prendre #vouloir*=vouloir=vouloir_dire #nourri*=nourrir=nourriture #cuisine*=cuisiner=cuisine #lger*=lger=LEGERE #restau*=restaurant=restau

    Conservation des groupements Les groupements sont automatiquement conservs. Lorsquon revient sur une question pour laquelle des regroupements ont t effectus, un dialogue demande si on souhaite reprendre le lexique enregistr. En rpondant oui, les regroupements antrieurs seront rcuprs. Si vous rpondez non, ils seront perdus.

    Pour conserver les regroupements, le logiciel cre automatiquement dans le rpertoire de lenqute un dictionnaire de regroupement dont le nom est celui de la variable : nom_variable.lex.

  • 22

    Grouper par racine

    Grouper par modle

    Grouper par dictionnaire

    Contrler les groupements

  • Sphinx V5 La construction des lexiques 23

    5. La gestion des dictionnaires Le bouton Dictionnaires (qui se trouve dans la barre doutils et dans le dialogue Marquer) permet de manipuler les dictionnaires. Le dictionnaire courant est le dernier dictionnaire ouvert, c'est lui qui servira au marquage.

    Dans la fentre Gestion des dictionnaires, on peut visualiser le contenu du dictionnaire, ouvrir un autre dictionnaire, crer un nouveau dictionnaire, enrichir le dictionnaire courant, ajouter les mots du lexique dans le dictionnaire courant.

    Ouvrir un dictionnaire Les dictionnaires sont enregistrs comme des fichiers textes. Le bouton Ouvrir donne accs au dialogue Windows de gestion des fichiers. Lextension propose par dfaut est .dic. Elle nest pas obligatoire mais permet de retrouver facilement les dictionnaires.

    Crer un dictionnaire Utiliser le bouton Nouveau, donner le nom au fichier (en remplacement du nom donn par dfaut "DICO.DIC"). Cette procdure ouvre un dictionnaire vide. Vous pouvez : Y ajouter les mots marqus dans le lexique : bouton

    Ajouter. Entrer au clavier les mots que vous dsirez. Placez le

    curseur l'endroit o vous voulez insrer un nouveau mot et entrez-le au clavier.

    Marquer partir du dictionnaire Un dictionnaire sert marquer des mots dans le lexique. Utiliser le bouton Marquer puis slectionner Les mots du dictionnaire (Voir le chapitre Construction de lexiques). Lutilisation de dictionnaires permet dacclrer considrablement lanalyse lexicale. Il est conseill de travailler pour cela sur un texte lemmatis et dutiliser des dictionnaires de formes racines pour faire des regroupements automatiques (stemmatisation).

    Ajouter des mots dans le dictionnaire Vous pouvez ajouter au dictionnaire ouvert les mots marqus dans le lexique (squence Dictionnaire / Ajouter). Ceci permet denrichir progressivement les dictionnaires dune tude lautre. La procdure suivante est conseille :

    Travailler sur un texte lemmatis et un dictionnaire de forme racine.

    Utiliser un dictionnaire thmatique pour marquer le lexique. Par exemple en cherchant les mots exprimant la satisfaction.

    Effacer les mots ainsi marqus (bouton Supprimer) et parcourir le lexique la recherche dautres mots se rapportant au thme du dictionnaire.

    Ajouter ces mots au dictionnaire avec la squence Dictionnaire / Ajouter. Ces mots viennent sajouter ceux qui sy trouvaient dj.

    Reconstruire le lexique (boutons Rduire, Reconstruire) pour retrouver tous les mots qui vous intressent partir du dictionnaire enrichi.

    En rptant cette procdure dune tude lautre, vous accumulerez une expertise conserve dans vos dictionnaires.

    La capacit maximum dun dictionnaire est de 6 000 mots.

  • 24

    Entrer des lments nouveaux au clavier

    Mettre dans le dictionnaire les mots marqus du lexique

    Ouvrir ou crer un dictionnaire

    Marquer les mots correspondants dans le

    lexique

    Ouvrir ou crer un dictionnaire

  • Sphinx V5 La construction des lexiques 25

    6. Les diffrents types de dictionnaires Les dictionnaires permettent de stocker du vocabulaire de rfrence et peuvent ainsi considrablement acclrer l'analyse. A chaque utilisateur de crer les dictionnaires spcifiques son domaine.

    On peut les utiliser pour rduire automatiquement le lexique (dictionnaire des mots outils) ou pour rechercher dans un corpus des marqueurs lexicaux de l'nonciation ou des champs sm