Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe...

178
NOUVEAU : - Bibliographie de 123 entr´ ees ; - Index d´ etaill´ e ; - Table des mati` eres ; http://lexico.ens-lsh.fr/local/weblex.html Manuel Utilisateur http://lexico.ens-lsh.fr/doc/weblex/index.html Version 4.1 (interm´ ediaire) Copyright c 1998-2002 Serge Heiden, UMR 8503 1 1 Janvier 2002, UMR8503, Lyon V 3.0 Septembre 2000, UMR8503, Lyon V 2.3 Juillet 1999, UMR8503, St Cloud V 1.0 Septembre 1998, UMR9952, St Cloud

Transcript of Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe...

Page 1: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

�NOUVEAU :

- Bibliographie de 123 entrees ;

- Index detaille;

- Table des matieres;

http://lexico.ens-lsh.fr/local/weblex.html

Manuel Utilisateurhttp://lexico.ens-lsh.fr/doc/weblex/index.html

Version 4.1(intermediaire)

Copyright c© 1998-2002 Serge Heiden, UMR 85031

1Janvier 2002, UMR8503, Lyon

V 3.0 Septembre 2000, UMR8503, Lyon

V 2.3 Juillet 1999, UMR8503, St Cloud

V 1.0 Septembre 1998, UMR9952, St Cloud

Page 2: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

2

Page 3: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

Introduction

Le logiciel assiste l’analyse de n’importe quel texteen combinant differents niveaux de lecture a l’aide :– d’une edition hypertexte la plus fidele possible a la lecture du

fac-simile de son edition d’origine ;– d’un moteur de recherche tres complet qui permet une analyse

locale et fine du contexte d’apparition de chaque mot ;– d’outils de mesure statistique contrastifs ou non qui offrent differentes

syntheses rapides et globales de l’usage de son vocabulaire et dedivers evenements textuels.

Fig. 1 – Synthese / Lecture \ RechercheTels les deux volets d’un triptyque recouvrant exactement celui central de la lec-ture, les syntheses et les recherches ne font qu’automatiser certaines operationsd’ensemble ou tres orientees de la lecture d’un texte. Les divers apports de cesoutils deviennent preponderants lorsqu’on aborde la lecture d’un corpus.

3

Page 4: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

4

Page 5: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

Sommaire

I Presentation de la methode lexicometrique 7

1 Introduction 91.1 Notion de corpus de textes . . . . . . . . . . . . . . . . . . . . . . 101.2 Notion de segmentation en formes et d’evenements . . . . . . . . 111.3 Designation du corpus de travail . . . . . . . . . . . . . . . . . . 141.4 Panorama general des outils . . . . . . . . . . . . . . . . . . . . . 141.5 Organisation du manuel . . . . . . . . . . . . . . . . . . . . . . . 17

2 Decomptes et outils de mesure 192.1 Dimensions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192.2 Gamme des frequences . . . . . . . . . . . . . . . . . . . . . . . . 202.3 Diagramme de Pareto . . . . . . . . . . . . . . . . . . . . . . . . 232.4 Histogramme des longueurs de phrase . . . . . . . . . . . . . . . 26

3 Listes 293.1 Vocabulaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293.2 Repartition ou «Rafales» . . . . . . . . . . . . . . . . . . . . . . 333.3 N-Grammes ou Segments repetes . . . . . . . . . . . . . . . . . . 363.4 Cooccurrents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413.5 Candidats Termes . . . . . . . . . . . . . . . . . . . . . . . . . . 50

4 Recherche et navigation dans le corpus 554.1 Edition du corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . 554.2 Edition en ligne du corpus . . . . . . . . . . . . . . . . . . . . . 564.3 Concordances d’une expression CQP . . . . . . . . . . . . . . . . 584.4 Syntaxe du langage d’interrogation CQP . . . . . . . . . . . . . . 594.5 Index d’une expression CQP . . . . . . . . . . . . . . . . . . . . . 684.6 Repartition d’une expression CQP . . . . . . . . . . . . . . . . . 71

5 Cooccurrences et lexicogrammes 755.1 Lexicogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . 755.2 Lexicogramme recursif . . . . . . . . . . . . . . . . . . . . . . . . 775.3 L’ensemble des lexicogrammes recursifs . . . . . . . . . . . . . . . 81

6 Mesures et Outils Contrastifs 896.1 Specificites du vocabulaire de chaque partie . . . . . . . . . . . . 896.2 Specificites, tri alphabetique . . . . . . . . . . . . . . . . . . . . . 936.3 Specificites, tri hierarchique . . . . . . . . . . . . . . . . . . . . . 93

5

Page 6: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

6 SOMMAIRE

6.4 Specificites, tri hierarchique par partie . . . . . . . . . . . . . . . 936.5 Specificite d’une ou de plusieurs expressions CQP . . . . . . . . . 936.6 Classification du vocabulaire . . . . . . . . . . . . . . . . . . . . 936.7 Classification des parties . . . . . . . . . . . . . . . . . . . . . . . 996.8 Analyse factorielle des correspondances . . . . . . . . . . . . . . . 99

II Usage pratique de Weblex 101

7 Mise en œuvre de weblex a travers un navigateur 1037.1 Structure et mise en œuvre du formulaire a Cadres . . . . . . . . 1037.2 Proprietes de la mise en œuvre sur Internet . . . . . . . . . . . . 1057.3 Usage du formulaire d’appel des calculs . . . . . . . . . . . . . . 109

8 Expressions regulieres sur les caracteres 1298.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1298.2 Syntaxe des expressions regulieres . . . . . . . . . . . . . . . . . 130

9 Manuel de reference des Expressions CQP 1339.1 Niveau 1 : expressions regulieres sur les caracteres . . . . . . . . 1339.2 Niveau 2 : valeurs de proprietes . . . . . . . . . . . . . . . . . . . 1359.3 Niveau 3 : Succession d’occurrences . . . . . . . . . . . . . . . . . 1369.4 Les differents niveaux d’expression CQP . . . . . . . . . . . . . . 138

10 Table de decodage des etiquettes morpho-syntaxiques 14110.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141

11 Guide du Comment Faire de weblex 14911.1 Integration de corpus . . . . . . . . . . . . . . . . . . . . . . . . . 14911.2 Recherche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15011.3 Synthese de liste ou de graphe . . . . . . . . . . . . . . . . . . . . 15011.4 Lecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15111.5 Synthese de cooccurrences . . . . . . . . . . . . . . . . . . . . . . 151

12 Visualisations graphiques des modeles probabilistes 153

13 Logiciels apparentes a weblex 155

Bibliographie 163

Liste des tableaux 165

Liste des figures 168

Index 174

Table des matieres 178Copyright c© 1998, 1999, 2000, 2001, 2002, 2003 Serge Heiden UMR9952, UMR8503, ENS de Fontenay/Saint-

Cloud, ENS Lettres et Sciences humaines, Lyon, Avril 2003, Reproduction interdite sans autorisation pour tout

pays.

Page 7: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

Premiere partie

Presentation de la methodelexicometrique et de ses outils

7

Page 8: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes
Page 9: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

Chapitre 1

Introduction

Ce manuel n’est pas un expose de la methode lexicometrique mise au pointau laboratoire Analyses de corpus linguistiques, usages et traitements UMR85031.L’objet de ce manuel est simplement de documenter une mise en œuvre parti-culiere - celle de Weblex sur Internet - qui fait partie d’une constellation d’outilsd’exploitation de donnees textuelles aux fonctionnalites similaires :

– Lexico2 http://www.cavi.univ-paris3.fr/Ilpga/syled/lexico.htm (A.Salem) ;

– Hyperbase : http://ancilla.unice.fr/~brunet/pub/hyperbase.html -Thief : http://134.59.31.3/~brunet/pub/THIEF/THIEF1.htm (E. Bru-net) ;

– Etc (voir la section 13 page 155 «Logiciels apparentes»).Je pense cependant qu’il est utile de vous exposer brievement notre vision de

l’analyse lexicometrique, d’une part pour esquisser grossierement l’objet, l’en-chaınement et la stratification des outils mis en œuvre dans cette methode, et,d’autre part, pour que vous puissiez rapidement vous faire une idee de l’utilitede weblex vis-a-vis de vos questionnements sur les textes et que vous puissiezcomparer notre approche aux autres outils de lexicometrie disponibles.

L’objet de weblex est de vous aider a apprehender, c’est a dire observer,compter, mesurer et comparer, l’apparition de differents types d’evenements aufil des textes. L’evenement le plus simple, et le plus utilise dans l’analyse auto-matique des textes, est l’apparition (ou l’occurrence) d’un mot (ou forme3) enun point precis d’un texte. Cet evenement et son contexte d’apparition peuventetre interpretes de diverses manieres (comme preuve du contenu informatif d’unephrase, d’un paragraphe, ou de son style, . . .) et c’est un des objets de weblexque de vous aider a le faire rapidement et sereinement a l’aide de quelquesclics de souris. D’une part, en vous aidant a caracteriser un texte donne a tra-vers les differents phenomenes qui y apparaissent - avec notamment le reperaged’evenements pouvant etre plus complexes que la simple apparition de formes

1anciennement localise a Saint-Cloud : centre de lexicologie politique (1967), unite de re-cherche Lexicologie et textes politiques (1977), laboratoire de lexicometrie et textes politiques(UMR9952) (1987)

3le terme “mot” est tres general. On lui prefere le terme “forme” (et parfois “graphie”)quand on designe la succession de caracteres qui constitue le mot (donc “forme” pour “formegraphique”). On lui prefere “occurrence” (et parfois “position” (cf section 4.4 page 59 “SyntaxeCQP”)) quand on designe l’apparition du mot en un point precis du texte. La forme fait partiedu “vocabulaire” alors que l’occurrence fait partie du “texte”

9

Page 10: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

10 CHAPITRE 1. INTRODUCTION

(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apres). D’autrepart, en vous aidant a comparer des textes entre eux a l’aide de mesures contras-tives ou de l’iteration de certains calculs sur chaque texte.

Bien sur tout cela depend de ce qu’on entend par du «texte» et commenton identifie les «formes».

1.1 Notion de corpus de textes

Dans la mise en œuvre actuelle de la methode, on lance weblex sur un corpus.Un corpus est compose, en general :

– le texte d’un roman, d’articles de presse, de discours politiques, de sloganspublicitaires, d’une these, d’un rapport technique, de pages web, . . .

– le texte d’une compilation de plusieurs romans, articles, . . .– le texte d’une portion (ou partition) de ces documents obtenue par extrac-

tion de parties selon differents criteres : auteur, date, genre, style, . . .Dans un corpus weblex il y a donc potentiellement toujours une partition (en

auteur, date, . . .) et des references dans chaque partie permettant de retrouverla position exacte d’une occurrence (donc au mot pres) dans son document d’ori-gine. La notion de partition n’est utile que pour un travail contrastif (comparerdes romans, les chapitres d’un meme roman, des genres de discours politiques adifferentes epoques, . . .), ce qui n’est bien sur pas obligatoire dans weblex maisfrequent dans l’analyse de textes. La notion de reference n’est utile que pouretablir la correspondance entre des resultats et la partie ou le document d’ori-gine. Par exemple, la reference d’une ligne de concordance peut se composerdu nom de l’auteur du document contenant la ligne, du titre, du numero dechapitre, de la page, . . .

Bien que le choix du partitionnement et du contenu des references fassentpartie integrante de la demarche lexicometrique, nous considerons dans ce ma-nuel que l’exploitation est realisee sur un corpus deja constitue. Le partition-nement et le contenu des references sont donc definis avant l’entree de weblex. Etil est de la responsabilite du chercheur d’avoir auparavant verifie la coherence dupartitionnement (homogeneite de chaque partie par rapport a l’etude, propor-tionnalite des longueurs de parties en nombre d’occurrences, . . .) dont dependla veracite (et l’interet) de certaines mesures contrastives. Ce sera l’objet d’uneversion ulterieure de weblex que d’integrer un interfacage a la constitution decorpus en prelude au travail d’analyse. Nous sommes en cours d’elaboration duformat de stockage des documents et des outils permettant les extractions-part-itionnements de corpus. Nous allons en donner un apercu avant de continuer, ala section suivante, notre presentation de la methodologie de weblex.

1.1.1 Apercu des outils d’encodage, d’extraction et de partit-ionnement de corpus

La page web Textotheque UMR8503 presente l’etat du projet (voir aussi lerapport intermediaire et la section LML du manuel du Codeur) Pour faire bref,le format de stockage repose sur la norme SGML et s’appelle LML. Il permetde coder dans les documents les elements suivants :

– la typographie d’origine (gras, italique, police, . . .)– la forme editoriale d’origine (pagination, saut de ligne, . . .)

Page 11: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

1.2. NOTION DE SEGMENTATION EN FORMES ET D’EVENEMENTS11

– la macro-structure d’origine du document (chapitre, section, paragraphe,. . .)

– une structuration propre a l’etude (locuteur, portion de texte, . . .)– le choix de la segmentation en phrases, formes, symboles, caracteres– l’annotation de tous ces elements avec des proprietes (comme le numero

d’un chapitre, la categorie morpho-syntaxique d’une forme, son lemme,. . .)

– les informations editoriales (au sens large) du document (nom de l’auteur,titre, date d’edition, nom de l’editeur, origine de la numerisation, nom descodeurs, des categoriseurs utilises, des correcteurs, . . .)

– les informations multimedia et hypertextuelles (images incluses, liens hy-pertextes HTML, . . .)

– le codage des caracteres speciaux ( c©, Y, ß, ¿, ¶,12 , . . .)Les outils en cours de mise au point permettent d’extraire le texte et les

proprietes de chaque element selon des criteres de selection dont la finesse cor-respond a l’element le plus fin du codage. Par exemple, l’extraction de toutdiscours politique ecrit entre juin 1965 et Aout 1968 et emanant d’un parti degauche (specification exogene). Ou bien l’extraction de toute phrase contenantun verbe se terminant en «ent» (specification endogene) du corpus precedent.Par contre, le format LML permettant un codage progressif, le niveau de codagele plus fin, disponible dans un corpus pour l’extraction, est variable et dependdes documents. Par exemple, la segmentation des phrases en formes peut ne pasavoir ete codee, auquel cas seule la notion de «phrase contenant tel patron dechaınes de caracteres» est disponible pour l’extraction. Le partitionnement et laconstruction des references sont realises sur la base des proprietes des elementsstructurant chaque document (date d’edition du document, numero de chapitre,. . .). Remarque : la finesse des references est independante de celle du partit-ionnement. Par exemple, on peut realiser une partition par œuvres et referencerphrase par phrase.

1.2 Notion de segmentation en formes et d’evenements

La segmentation d’un texte est l’operation de delimitation de portions de seselements de base, en gros les caracteres, en elements constituants de differentsniveaux structurels : chapitre, paragraphe, phrase, forme, ponctuation, . . .Dansl’esprit de l’encodage LML, cette segmentation est encodable semi-automatique-ment et progressivement a differents niveaux dans un document. Par contre, aumoment de la constitution d’un corpus pour weblex, la segmentation en formesdoit obligatoirement avoir eu lieu. Soit le document d’origine encode une seg-mentation, soit une procedure de segmentation automatique est utilisee. Dansle cas extreme (mais le plus courant) un document peut n’avoir aucun encodaged’informations et etre entierement segmente en phrases et en formes selon unalgorithme automatique au moment de son integration dans les bases de weblex.Dans tous les cas, weblex propose d’interpreter le texte d’un corpus comme unesuccession d’occurrences de mots.

Une occurrence est donc, dans weblex, a la fois une information du type ”detel caractere a tel caractere (ou position) dans le texte on trouve un segmentetiquete «immigre»” et a la fois l’evenement ”le mot «immigre» apparaıt icidans le texte”. Apres l’operation initiale de segmentation du texte en unites

Page 12: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

12 CHAPITRE 1. INTRODUCTION

lexicales (correspondant aux formes), ces deux points de vue sont equivalentscomme essaye de le montrer la figure 1.1.

1. Soit un extrait de texte (les «. . .» denotent la continuite du texte) ;

2. L’operation de segmentation etablit les limites entre les unites lexicales(symbolisees par le symbole «|») ;

3. Apres l’operation de segmentation on peut considerer le texte comme unesequence de positions etiquetees par la forme des unites lexicales (noteeentre «””») ;

4. La forme d’une unite lexicale n’est qu’une propriete particuliere d’uneposition.

En generalisant le mecanisme d’etiquetage, toute position est susceptibled’etre qualifiee par plusieurs proprietes (par exemple, for = forme, cat =categorie morpho-syntaxique, lem = lemme, gn = groupe syntaxique, syn =role syntaxique. . .). L’implementation actuelle de weblex permet d’encoder etd’exploiter jusqu’a 10 proprietes independantes choisies par le chercheur.

Fig. 1.1 – Succession de points de vue sur les unites lexicales.

Tous les evenements analysables avec weblex sont construits sur la base desformes initiales. Par exemple, si les documents encodent la forme ”pommes deterre” comme une unite lexicale a part entiere alors une recherche de cetteforme est possible pour en faire une concordance par exemple. Par contre, sices 15 caracteres ont ete interpretes (a travers l’encodage ou par l’algorithmeautomatique) comme 3 segments correspondants a la succession des formes«pommes», «de» et «terre» alors l’apparition de l’evenement correspondant

Page 13: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

1.2. NOTION DE SEGMENTATION EN FORMES ET D’EVENEMENTS13

a la lexie ”pommes de terre” devra s’exprimer comme l’apparition d’une suc-cession de trois formes distinctes “pommes”, “de” et “terre”4. Bien sur toutcela depend de l’homogeneite du codage (explicite et implicite) opere a traversl’ensemble des documents du corpus.

Remarque : la segmentation automatique operee par les outils dela Textotheque permet de controler la segmentation d’un certainnombre de formes composees et figees predefinies (ah oui, a partirde, ad patres, agent de la surete, Allemagne de l’Est, Assembleenationale, . . .).

Dans tous les cas, et au meme titre que la constitution du corpus, les choixde segmentation font partie integrante de la methode lexicometrique car ilsdeterminent largement les evenements qui seront reperables et analyses et les in-terpretations qui en decouleront. En ce qui concerne la segmentation des groupesde formes, les choix correspondent grossierement, aux choix de figements quisont censes etre toutes les agregations invariantes pour l’etude envisagee sur lecorpus. A l’arrivee dans weblex, les occurrences de formes sont donc predefinieset immuables. On distingue alors deux types d’outils et d’evenements corres-pondants :

– tous les outils peuvent travailler sur les formes (denombrement, statis-tiques, recherche, . . .) ;

– certains outils peuvent travailler sur des patrons de successions de formespouvant combiner des contraintes sur la morphologie de chaque forme(par exemple en lui imposant un prefixe, un suffixe, plusieurs successionsde caracteres constituants ou une combinaison de ces possibilites) et surn’importe quelle propriete (au sens LML) qui a ete attachee a l’occurrencedans l’encodage.

Par exemple, le calcul du vocabulaire (bouton ) est realise surla base de la segmentation des formes du corpus. Alors que le calcul d’un index( ) est realise sur la base d’une expression de recherche CQP (voir lasection 4.4 page 59 «Syntaxe du langage d’interrogation CQP»). Si le corpusanalyse a ete prealablement etiquete en associant a chaque mot une ou plusieursproprietes (ou etiquettes), le moteur de recherche CQP peut contraindre sarecherche aux occurrences dont les valeurs de proprietes correspondent a certainspatrons de formes. Le denombrement et les mesures bases sur le reperage d’uneexpression CQP portent donc sur des evenements plus complexes que sur lesformes seules. Par exemple :

– toutes les occurrences de formes se terminant en «ent» ;– tous les verbes ;– tous les verbes se terminant en «ent» ;– tous les verbes conjugues a la troisieme personne du pluriel ;– tous les verbes suivis d’une preposition ;– toutes les formes comprises entre un verbe se terminant en «ent» et une

preposition ;– . . . suivant le systeme de proprietes encode par le chercheur.La difference entre les distributions d’apparitions de ces differents «niveaux

d’abstraction et de contrainte» d’evenements exprimes a l’aide des expressionsCQP necessite un certain controle de la part du chercheur dans le cas de certaines

4voir aussi la section 3.1.3 “Verification de la segmentation en formes”

Page 14: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

14 CHAPITRE 1. INTRODUCTION

mesures statistiques contrastives. En effet, d’un cote plus on contraint les pro-prietes d’un groupe d’occurrences (leur forme, leur partie du discours, . . .) et leurcontexte d’apparition (une occurrence particuliere doit se trouver a leur gauchedans la meme phrase, a leur droite, . . .), plus la frequence de l’evenement corres-pondant risque d’etre faible. Et d’un autre, moins on contraint ces proprietes (endesignant un simple suffixe de forme ou une partie du discours particuliere, . . .),plus les evenements correspondants risquent d’etre nombreux. Or, les mesurescontrastives realisees dans weblex (specificites, classifications, AFC) dependantfondamentalement de la frequence des evenements, et observant une dilution desdecomptes a partir d’un certain niveau de contraintes, certaines mesures peuventparfois perdre de leur veracite dans le cas d’expressions particulieres. Precisons,toutefois, que ceci ne concerne que certaines mesures contrastives. En effet, larecherche directe d’expressions CQP, que ce soit dans le cas des concordancesou d’un index, n’est absolument pas concernee par ces considerations.

1.3 Designation du corpus de travail

weblex permet d’exploiter deux types de corpus, des corpus internes et ex-ternes.

Les corpus issus de procedures d’extraction de la Textotheque LML, sontqualifies d’internes (au laboratoire). Pour acceder aux corpus internes vous devezsimplement saisir leur nom dans le frontispice de weblex. Pour leur designationdetaillee a l’interieur du formulaire de parametres de weblex voir la section 7.3.2 page 110«Choix du corpus de travail».

Les corpus issus d’une integration en ligne par la procedure de telechargementsur Internet sont externes. Pour le telechargement de corpus voir la pageTelechargement de corpus. Pour la reutilisation d’un corpus deja telecharge vouspouvez le designer directement par son nom (n’oubliez pas le «@») dans le fron-tispice de weblex.

Attention : dans l’etat actuel experimental de la procedure detelechargement vous ne pouvez ni modifier, ni supprimer, ni protegerpar un mot de passe vos corpus externes. Une personne utilisant labonne URL d’appel de weblex sur un corpus pourra donc y avoiracces (en lecture seulement bien sur).

1.4 Panorama general des outils

Les outils de weblex s’organisent suivant deux axes fondamentaux :– la representation du texte : la maniere d’apprehender le contenu du texte,

donc le type d’evenements que l’on y repere, que l’on recense et que l’oncherche a visualiser ;

– la nature contrastive (ou non), c’est-a-dire comparative entre corpus detextes, du traitement.

1.4.1 La representation du texte

Certains outils reposent sur une representation du texte classique sous laforme d’une succession d’occurrences de formes, et d’autres proposent un acces

Page 15: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

1.4. PANORAMA GENERAL DES OUTILS 15

plus elabore base sur les expressions CQP. Nous avons deja presente ces deuxpoints de vue a la section 1.2 page 11 «Notion de segmentation en formes etd’evenements» . Pour l’exploitation maximale des expressions CQP, la dispo-nibilite de proprietes autres que la simple forme des occurrences depend, pourl’instant, d’une mise en œuvre des outils de la Textotheque LML en amont deweblex. Nous envisageons a terme au moins une categorisation en ligne des petitscorpus de francais (moderne ou non : francais du XIIIieme siecle par exemple)integree a la procedure de telechargement.

Dans le formulaire de weblex, seule la premiere serie de boutons d’appels decalculs concerne les outils d’analyse d’evenements CQP : Concordances, Index,Repartition, Specificite. Tous les autres outils ne s’appliquent qu’aux occur-rences des formes du texte. Il existe, entre ces series d’outils, un certain recou-vrement de fonctionnalite comme par exemple entre celle du calcul de l’Indexd’une expression CQP et celle du calcul de vocabulaire. Cependant, en general,les outils portant sur les formes seules tendent a realiser un traitement exhaustifdu vocabulaire de formes. La tendance actuelle de l’evolution de weblex est audeveloppement d’outils apprehendant le texte plutot a travers les expressionsCQP qui offrent un potentiel d’analyse plus abstrait. Notons cependant quetous les calculs bases sur des modeles analysant les formes du texte ne sont pastransposables a l’analyse d’expressions CQP.

1.4.2 Les outils d’analyse non contrastifs

Le logiciel weblex offre toute une palette d’outils couvrant differents niveauxd’analyse du texte d’un corpus. Ces outils se distribuent le long d’un axe oppo-sant rapidite et couverture d’analyse a precision et controle de contextes (voirla figure 1.2 page suivante). A une extremite du spectre se trouve la lecturedu corpus au fil du texte avec le confort hypertexte du format HTML et unecertaine qualite typographique essayant de reproduire au mieux l’edition dutexte d’origine, et a l’autre extremite se trouve, par exemple, la synthese glo-bale des attirances distributionnelles entre unites lexicales au sein des phrasesavec le calcul des Cooccurrents. Enfin, on distinguera les calculs explorant l’axeparadigmatique du texte de ceux caracterisant plutot son axe syntagmatique.

1.4.3 Les outils contrastifs

Les outils d’analyse statistique contrastive (specificites, classifications, AFC)ne sont applicables qu’a des corpus partitionnes. En general, les corpus parti-tionnes sont identifiables par leur nom. Par exemple, le nom des corpus parti-tionnes issus des outils d’extraction de la Textotheque LML sont composes dunom de base du corpus, de l’identificateur generique (GI) de l’element SGML al’origine de la partition, et de l’attribut de cet element sur lequel porte la parti-tion. Pour plus d’informations sur ce sujet voir la section 7.3.2 page 110 «Choixdu corpus de travail».

Les outils non contrastifs (decomptes, listes, concordances, lexicogrammes,. . .), statistiques ou non, s’appliquent a tous les corpus. Dans le cas de leurapplication a des corpus partitionnes, le calcul est tout simplement itere (ourepete) pour chaque partie, un entete annoncant le nom de la partie traitee entrechaque serie de resultats. Donc bien que ces outils ne soient pas intrinsequement

Page 16: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

16 CHAPITRE 1. INTRODUCTION

Fig. 1.2 – Panorama des outils d’analyse de weblex.

Page 17: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

1.5. ORGANISATION DU MANUEL 17

de nature contrastive entre textes, leur iteration offre en quelque sorte unepresentation contrastive de l’application de leur calcul. Par ailleurs, par un heu-reux effet de bord du mecanisme de codage des URLs (propre au protocoleHTTP de l’Internet, dont la description est hors de propos dans ce manuel),cette propriete d’iteration est transmise aux calculs accessibles par les liens hy-pertextuels places dans les resultats. Concretement, par exemple, dans un corpussimple, non partitionne, la navigation de lexicogramme en lexicogramme par-court l’espace de cooccurrence, en probabilite, de certaines formes du corpus.Alors que dans un corpus partitionne, la meme navigation parcourra simul-tanement et independamment l’espace de cooccurrence de toutes les parties.Donnant a cette navigation un aspect contrastif. Tous les calculs non contras-tifs beneficient de ce traitement.

Remarque : la mise en œuvre de weblex a partir de la procedureexperimentale de telechargement de corpus par Internet (corpus dontle nom est systematiquement de la forme nom-de-corpus@nom-de-groupe),ne permet pas de travailler sur un corpus partitionne. Il manque, eneffet, la mise en œuvre de la Textotheque LML sur Internet en amontde weblex pour pouvoir specifier des selections/extractions/partit-ions dans un corpus.

1.5 Organisation du manuel

La suite de ce manuel presente progressivement :– les decomptes globaux des differents evenements textuels reperables dans

weblex :– dimensions du corpus en occurrences, phrases, . . . ;– gamme des frequences et diagramme correspondant ;

– les listes d’evenements correspondants a classer suivant leurs proprietes :– vocabulaire : frequence, forme graphique ;– repartition a travers le corpus : regularite de la repetition ;– n-grammes : longueur, frequence ;– cooccurrents : probabilite d’apparition, cofrequence, distance moyenne ;– candidats termes : longueur, frequence ;

– les possibilites de recherche et de navigation dans le corpus :– lecture en ligne ;– exploitation du moteur de recherche d’expressions CQP qui permet d’ex-

primer des evenements textuels complexes :– concordances a contextes parametrables et classables ;– index ;– repartitions ;– cooccurrences ;

– lexicogramme : une synthese du vocabulaire specifique des contextesd’une forme donnee ;

– lexicogramme recursif : une synthese du reseau de vocabulaires specifiquesde contextes en contextes ;

– lexicogrammes recursifs : toutes les syntheses precedentes pour un vo-cabulaire donne

– les outils d’analyse contrastive :– specificite de vocabulaire

Page 18: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

18 CHAPITRE 1. INTRODUCTION

– specificite d’expressions CQP– classifications et presentations sous forme de dendrogrammes :

– du vocabulaire ;– des parties a contraster ;

– analyse factorielle des correspondances : reduction croisee des dimen-sions vocabulaire × parties afin de degager les contributions essentiellesa la classification.

Page 19: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

Chapitre 2

Decomptes et outils demesure sur l’ensemble ducorpus

2.1 Dimensions

Une des premieres operations que l’on peut effectuer sur un corpus a l’arriveedans weblex est la verification de ses dimensions. Le calcul affichepour chaque partie, si le corpus est partitionne, ou pour le corpus dans sonensemble si ce n’est pas le cas :

– le nom du corpus ou de la partie ;– le nombre total d’occurrences de formes ;– le nombre total de formes differentes (la taille du vocabulaire) ;– le nombre total de phrases (relatif au codage ou au reperage automatique

des limites de phrases suivant la ponctuation forte).Exemple de resultat sur le corpus On1 partitionne selon l’attribut title de

l’element text :C’est un bon reflexe que de comparer le nombre d’occurrences obtenu a

celui de travaux anterieurs (experiences precedentes sur le meme corpus, avecun outil different, une segmentation differente, . . .) ou a celui obtenu par uneestimation grossiere a partir d’autres dimensions (nombre de pages dans uncertain format, epaisseur du livre de poche correspondant, . . .). Cela permetd’obtenir une approximation de la conformite de l’integration du corpus dansweblex (voir aussi les sections sur le calcul de Vocabulaire 3.1 page 29 pour lesverifications de segmentation, l’acces a l’Edition du corpus 4.1 page 55 pour laverification des problemes de troncature, en examinant la premiere et la dernierepage du corpus par exemple, et l’Edition en ligne du corpus 4.2 page 56 pourl’etiquetage). Toutes les mesures statistiques seront relatives a ces dimensions.

1le corpus On correspond a un travail de these portant sur la dereferenciation du pronom“on” en francais moderne. Le texte de la partie on-text-title-lendemain correspond au ro-man “Point de lendemain” de Vivant Denon, 1777. Pour pouvoir proposer une interpretationdes zones de premiere lacune et de premier ex-aequo du diagramme de Pareto, il faudraitune presentation des questionnements, demarches et hypotheses lies au corpus support de cemanuel, le corpus On.

19

Page 20: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

20 CHAPITRE 2. DECOMPTES ET OUTILS DE MESURE

Corpus Occurrences Formes Phrases

on/text title=lendemain 7727 2080 541on/text title=barege 79601 10416 3517on/text title=ile 90480 10252 5046on/text title=duchesne 64657 7365 2219on/text title=cordelier 46052 7068 1365on/text title=pere 57301 7184 2766on/text title=religieuse 64665 7169 3275

Tab. 2.1 – Dimension des differentes parties du corpus On.

Il est bon de rester vigilant a la dimension et a l’homogeneite de chaque partieavant de lancer le calcul d’une mesure contrastive par exemple.

2.2 Gamme des frequences

Ensuite, au dela de la taille totale du vocabulaire, on peut analyser sa gammedes frequences en detail a l’aide du calcul . Le nom «Zipf» vient dudecouvreur de la loi (un professeur de linguistique de Harvard dans les annees1930, lire [123]) qui fait que pour tous les textes dans toutes les langues lagamme des frequences du vocabulaire se comporte de maniere tres reguliere(pour plus d’informations sur cette loi, voir aussi les pages Web de WentianLi [79] : http ://linkage.rockefeller.edu/wli/zipf) : en dimensions log10

× log10, la relation rang × frequence a tendance a se trouver sur un segment dedroite decroissant vers les hautes frequences2.

L’outil diagramme de Pareto 2.3 page 23 visualise graphiquement cette loi.L’outil Zipf donne le detail de cette loi pour le corpus courant en affichant la

2on retrouve la loi de Zipf dans beaucoup d’autres domaines que celui de la langue. Parexemple la relation popularite d’une page Web × nombre d’acces a une page par mois prendla meme forme3 :

Pour ceux qui estiment a juste titre que ce graphique, ainsi que celui de notre exempleon-text-title-lendemain, ne sont pas a proprement parler “lineaires” (surtout aux extremes)nous proposons une lecture demontrant l’aspect plutot log-parabolique de cette loi avec unepresentation d’autres relations obeissant a cette loi : superficie d’une ville/population,repartition de l’intensite radio des galaxies/section de la voute celeste, des langues parleesdans le monde, des gisements petroliers, des especes terrestres, . . . [73]

Page 21: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

2.2. GAMME DES FREQUENCES 21

gamme des frequences sur 6 colonnes :

ord le numero d’ordre de la frequence dans la gamme. Identique a une numero-tation des lignes de la gamme a partir de 1 ;

rang le rang de la frequence dans la gamme. Le rang se decale du numerod’ordre a chaque fois qu’il y a plus d’une forme ayant une certaine frequence.C’est cette information qui est utilisee dans le diagramme de Pareto ;

freq la frequence apparaissant dans le vocabulaire se trouvant a cette positiondans la gamme. C’est la deuxieme dimension du diagramme de Pareto ;

nfor le nombre de formes ayant cette frequence dans le vocabulaire. Quand cenombre est different de 1, le rang se decale par rapport au numero d’ordre ;

cfor le nombre de formes ayant au moins cette frequence. Equivalent au cumuldes valeurs de nfor. La derniere valeur correspond donc a la taille totaledu vocabulaire ;

cocc nombre d’occurrences dans le corpus dont les formes ont au moins cettefrequence. Equivalent au cumul des valeurs de freq. Ou autrement dit,cocc est a freq ce que cfor est a nfor. La derniere valeur est donc lenombre total d’occurrences du corpus.

La gamme des frequences du vocabulaire est donc triee selon la frequencedecroissante. La premiere ligne correspond a la forme la plus frequente dans lecorpus (souvent la forme «de» en francais moderne). La derniere ligne corres-pond aux hapax (les formes n’apparaissant qu’une seule fois dans l’ensembledu corpus). C’est le nombre naturellement important d’hapax qui justifie lefait qu’on ne presente pas les formes correspondant aux frequences dans ce ta-bleau (qui deviendrait illisible). On pourra utiliser la colonne hierarchique del’outil Vocabulaire section 3.1 page 29 pour etablir la correspondance entre lafrequence et les formes en question. Par ailleurs, ce tableau s’interprete dansson ensemble selon les proportions entre presences de frequences plutot qu’entrefrequences de formes proprement dites. On distinguera, globalement, differentsroles de formes au fur et a mesure de la descente dans la gamme : mots outils(ou grammaticaux, ou vides) tres frequents ; zone de vocabulaire mixte ; motslexicaux (ou apportant de l’information lexicale, ou pleins), dont les hapax. Lediagramme de Pareto propose, en complement, une delimitation numerique decertaines zones.

Exemple, la gamme des frequences de la premiere partie du corpus On parti-tionne selon l’attribut title de l’element text, c’est-a-dire le corpus on-text-title-lendemain,est illustre a la table 2.2 :

Tab. 2.2: Gamme des frequences du corpus on-texte-title-lendemain

ord rang freq nfor cfor cocc

1 1 278 1 1 2782 2 161 1 2 4393 3 154 1 3 5934 4 142 1 4 7355 5 140 1 5 8756 6 130 1 6 10057 7 129 1 7 1134

Page 22: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

22 CHAPITRE 2. DECOMPTES ET OUTILS DE MESURE

Tab. 2.2: Gamme des frequences du corpus on-texte-title-lendemain (suite)

ord rang freq nfor cfor cocc

8 8 115 1 8 12499 9 114 1 9 1363

10 10 90 1 10 145311 11 88 1 11 154112 12 86 3 14 179913 15 76 1 15 187514 16 75 1 16 195015 17 72 1 17 202216 18 70 1 18 209217 19 68 2 20 222818 21 65 1 21 229319 22 63 1 22 235620 23 58 1 23 241421 24 55 1 24 246922 25 54 1 25 252323 26 51 1 26 257424 27 50 1 27 262425 28 49 1 28 267326 29 48 2 30 276927 31 47 2 32 286328 33 46 1 33 290929 34 42 2 35 299330 36 41 1 36 303431 37 40 2 38 311432 39 39 2 40 319233 41 38 1 41 323034 42 37 1 42 326735 43 36 2 44 333936 45 32 1 45 337137 46 30 2 47 343138 48 29 1 48 346039 49 28 4 52 357240 53 27 1 53 359941 54 26 1 54 362542 55 25 1 55 365043 56 24 1 56 367444 57 23 1 57 369745 58 22 3 60 376346 61 21 1 61 378447 62 20 3 64 384448 65 19 1 65 386349 66 18 2 67 389950 68 17 3 70 395051 71 16 4 74 401452 75 15 4 78 4074

Page 23: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

2.3. DIAGRAMME DE PARETO 23

Tab. 2.2: Gamme des frequences du corpus on-texte-title-lendemain (suite)

ord rang freq nfor cfor cocc

53 79 14 4 82 413054 83 13 6 88 420855 89 12 4 92 425656 93 11 6 98 432257 99 10 11 109 443258 110 9 6 115 448659 116 8 11 126 457460 127 7 18 144 470061 145 6 21 165 482662 166 5 55 220 510163 221 4 67 287 536964 288 3 136 423 577765 424 2 293 716 636366 717 1 1364 2080 7727

Exemple d’interpretation d’une ligne de la gamme (13 15 76 1 151875) : la 13ieme ligne de la gamme correspond a la 13ieme frequence,par ordre d’importance, c’est-a-dire la frequence 76. Il n’y a qu’uneseule forme ayant cette frequence. Son rang n’est pas de 13 mais de 15car la frequence precedente dans la gamme, 86, etait representee par3 formes differentes. A ce rang dans la gamme, 15 formes composentle vocabulaire et 24, 3 % des occurrences du corpus ont deja ete prisesen compte (1875×100

7727 ).

2.3 Diagramme de Pareto

Le diagramme de Pareto (accessible par le bouton ) represente unesynthese de la gamme des frequences (la colonne rang en fonction de la colonnefreq de la gamme des frequences du vocabulaire section 2.2 page 20). Le nom«Pareto» vient de V. Pareto (dans les annees 1890) qui avait fait le memegenre de constatations dans le domaine de l’economie politique (par exemplepour la relation remuneration/population) que Zipf avait faites plus tard sur lalangue [93].

Dans weblex, la forme du diagramme est directement inspiree des diagrammespresentes par G.Th.Guilbaut [43].

Pour la gamme du corpus on-text-title-lendemain, on obtient le dia-gramme presente a la figure 2.1 page suivante :

On emploie des dimensions en log10 de la frequence (axe horizontal) et enlog10 du rang (axe vertical). Pour transformer la courbe, naturellement co-nique (figure 2.2(a) page 25), en un segment de droite plus simple a lire (fi-gure 2.2(b) page 25).

Le diagramme est, de plus, situe par rapport aux dimensions totales ducorpus (nombred′occurrencesT

nombredeformesV ). L’aspect saccade ou «en marches d’escalier» dudiagramme vient du fait qu’il represente des informations discretes. C’est-a-dire

Page 24: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

24 CHAPITRE 2. DECOMPTES ET OUTILS DE MESURE

Fig. 2.1 – Diagramme de Pareto du vocabulaire du corpuson-text-title-lendemain ; T = 7727, V = 2080.

qu’une frequence est un nombre entier et que toutes les frequences ne sont pasrepresentees dans le corpus. D’ou la «marche» provoquee par chaque frequence.

Les diagrammes de Pareto de weblex presentent deux informations supple-mentaires permettant de delimiter numeriquement trois zones dans la gammedes frequences :

– a partir des hautes frequences, la premiere frequence partagee par plusieursformes : le premier ex-aequo ;

– a partir des hapax, la premiere frequence qui ne soit pas representee : lapremiere lacune.

Dans la figure 2.1 la fleche etiquetee «premier ex-aequo (86, 12)» pointesur la premiere frequence (et le rang correspondant) du vocabulaire qui soit par-tagee entre deux ou plusieurs formes differentes, a partir de la frequence la pluselevee. La tendance, dans une gamme de frequence, est, qu’en general, a partir dela plus importante, chaque frequence n’est representee que par une seule formedans le vocabulaire. Le premier ex-aequo est la premiere frequence a partir dudebut de la gamme a infirmer cette tendance. Pour le corpus on-text-title-lendemain,cela se situe a la frequence 86, de rang 12. Qui correspond aux formes («en»,«nous» et «un»). Precedees dans la gamme par la forme «d’» de frequence 88et suivies de la forme «qu’» de frequence 76.

La fleche etiquetee «avant la premiere lacune (30, 46)» pointe sur lapremiere frequence (et le rang correspondant) du vocabulaire qui ne soit pasrepresentee dans le vocabulaire, en rang decroissant a partir des hapax. Latendance, dans une gamme de frequence, est, qu’en general, a partir des hapax,

Page 25: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

2.3. DIAGRAMME DE PARETO 25

(a) le diagramme en axes lineaires (en

base 10). C’est donc l’aspect “natu-rel” de cette loi5.

(b) le meme diagramme en axes bi-

logarithmiques (log10 × log10). Pluson s’eloigne de l’origine du repere(dans les deux dimensions), plus onest fortement “ecrase” suivant uneprogression exponentielle (en puis-sance de 10). D’ou l’obtention d’unedroite.

Fig. 2.2 – Representations lineaire et logarithmique du diagramme de pareto.

Page 26: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

26 CHAPITRE 2. DECOMPTES ET OUTILS DE MESURE

chaque frequence est representee par au moins une forme dans le vocabulaire.Le point «avant la premiere lacune» est la derniere frequence de cette serie.La frequence immediatement superieure dans la gamme est donc la premiere ainfirmer cette tendance. Pour le corpus on-text-title-lendemain, cela se situea la frequence 31. La derniere frequence avant cette lacune etant la frequence 30de rang 46 (attention le rang est toujours donne a partir des hautes frequences)qui correspond aux formes («De» et «moi»). Sans hypothese sur le contenudu corpus on-text-title-lendemain6, je ne me risquerai pas a donner uneinterpretation a la zone de premiere lacune ni a celle du premier ex-aequo pour cecorpus. Le diagramme de Pareto est, par nature, plus synthetique que le tableaude la gamme des frequences. On peut donc parfois l’utiliser avant l’analyse dela gamme des frequences pour degager les tendances globales de cette gamme.

2.4 Histogramme des longueurs de phrase

Au dela de la taille totale du corpus en nombre d’occurrences et de la gammede frequence de son vocabulaire, certaines mesures exploitent les limites dephrases comme contexte de denombrement. Par exemple, le calcul des cooc-currences repose sur ces limites pour determiner si deux formes apparaissentensemble ou non (ou cooccurrent). Or, la distribution des longueurs de phrasesen nombre d’occurrences influence ce calcul. L’histogramme des longueurs dephrases (accessible par le bouton ) permet parfoisd’aider le jugement de certaines tendances ou de detecter d’eventuels problemesde codage (explicite ou automatique) des limites de phrases. Par ailleurs, laforme de cette distribution peut souvent etre un renseignement sur le style d’untexte. Un histogramme represente la repartition de la population des differentesvaleurs que peut prendre une variable aleatoire particuliere. Dans le calcul deslongueurs de phrases il s’agit de representer la repartition de l’ensemble desphrases selon leur longueur en nombre d’occurrences independamment de leurordre d’apparition au fil du texte. weblex calcule et affiche deux representationsdu meme histogramme :

– l’histogramme par boıtes, qui tente de representer la courbe de densite deslongueurs de phrases. L’interet de cette representation est qu’elle ressembleaux courbes de densite habituelles utilisees en probabilite et qu’elle estrelativement intuitive. Chaque boıte correspond a une tranche de longueurde phrase : par exemple, entre 10 et 20 occurrences. La hauteur de laboıte rendant compte du nombre de phrases correspondant a ce critere.Le defaut de cette representation vient du biais opere par l’echantillonnagedes boıtes : la largeur des boıtes peut influencer fortement la forme de ladistribution ;

– l’histogramme cumule, qui represente differemment la meme information :pour chaque longueur de phrase presente dans le corpus, l’histogrammeest incremente du nombre de phrases ayant cette longueur. La courbe estdonc toujours croissante et il n’y a plus de problemes d’echantillonnage.La densite s’interprete alors par la pente de la courbe en un point donne :plus la pente est abrupte, plus le nombre de phrases ayant la longueurcorrespondante est important. Au contraire, un plateau rend compte d’un

6voir la note 1.

Page 27: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

2.4. HISTOGRAMME DES LONGUEURS DE PHRASE 27

manque d’effectif pour certaines longueurs de phrase.Pour le corpus on-text-title-lendemain nous obtenons les histogrammes

des figures 2.3 et 2.4 page suivante :

Fig. 2.3 – Histogramme par boıtes des longueurs de phrases du corpuson-text-title-lendemain (P = 541).

Dans l’histogramme par boıtes on remarque un artefact lie aux exclama-tions : ah !, eh !, comment !, le caractere « !» etant delimiteur de phrase. Eneffet, on recense 35 phrases d’une seule forme. La moyenne se situe autour de10 occurrences par phrase - ce qui correspond ici a un maximum de pente del’histogramme cumule.

Meme remarque que pour le diagramme de Pareto a propos de l’aspect «enescalier» du graphique.

Page 28: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

28 CHAPITRE 2. DECOMPTES ET OUTILS DE MESURE

Fig. 2.4 – Histogramme cumule des longueurs de phrases du corpuson-text-title-lendemain (P = 541).

Page 29: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

Chapitre 3

Listes

3.1 Vocabulaire

Apres tous ces decomptes d’ensemble il est temps de recenser en detailles formes pour elles-memes a l’aide du calcul . Dans we-blex, le vocabulaire du corpus se presente sur 5 colonnes : une colonne denumerotation des entrees (ord), suivie de 2 groupes de 2 colonnes. Le premiergroupe intitule «Liste alphabetique» presente le vocabulaire trie selon l’ordrealphabetique des formes (on dit parfois selon l’ordre lexicographique) suivi de lafrequence de la forme (freq.) dans le corpus. Le deuxieme groupe intitule «Listehierarchique» presente le vocabulaire trie selon la frequence decroissante desformes. La liste des formes est obtenue par un elagage parametrable selondifferentes options : formes outils, numeraires et hapax elagues, frequences basseselaguees ou encore patrons de formes elagues. Voir les options de restriction duvocabulaire par elagage qualitatif a la section 7.3.3 page 111, et quantitatif a lasection 7.3.4 page 112, et les parametres generaux a la section 7.3.5 page 115. Se-lon l’option choisie (voir 7.3.5 page 120 «affichage du vocabulaire»), les formesdu groupe de gauche (classement alphabetique) et celles du groupe de droite(classement hierarchique) sont des liens pointant respectivement vers le calculde la concordance du mot (voir 4.3 page 58 «Concordances», 7.3.5 page 119 «Af-fichage des concordances» et 7.3.5 page 127 «Arguments des calculs») et versle calcul du lexicogramme du mot (voir 5.1 page 75 «calcul de lexicogrammes»et 7.3.5 page 121 «tri des lexicogrammes et des couples cooccurrents»)). Deplus, la frequence de la forme dans la colonne hierarchique pointe vers le calculde l’indice de repartition de la forme (voir 3.2 page 33 «calcul de l’indice derepartition»). Chaque groupe de colonnes, dans la liste, offre un point de vuedifferent sur le vocabulaire :

– le groupe de droite classe les formes par leur frequence. Son interet est demontrer rapidement les formes les plus utilisees du corpus. Par ailleurs, lesseuils d’elagage des calculs de cooccurrence entre deux formes proches dansla gamme des frequences etant comparables, c’est dans cette colonne quenous avons place les liens hypertextuels vers le calcul du lexicogramme deformes. Calcul que l’on peut, bien sur, lancer directement du formulaire ;

– le groupe de gauche classe les formes alphabetiquement. Son interet est devous aider a retrouver rapidement la frequence d’une forme. Partant de

29

Page 30: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

30 CHAPITRE 3. LISTES

la, on s’interesse souvent, ensuite, au contexte d’apparition de la forme.C’est pourquoi nous avons place les liens hypertextuels de calcul de laconcordance de la forme dans cette colonne. Calcul que l’on peut, biensur, effectuer de maniere plus elaboree a partir du formulaire de calcul(voir 4.4 page 59 «Syntaxe et usage du langage d’interrogation du moteurde recherche CQP»).

3.1.1 Exemple de vocabulaire

Le vocabulaire du texte on-text-title-lendemain, dont les formes outilset les numeraires ont ete elagues, est presente au tableau 3.1.1.

Tab. 3.1: Vocabulaire «elague» du corpuson-text-title-lendemain2 (1857 formes).

Liste alphabetique Liste hierarchiqueord forme freq. forme freq.

1 * 3 je 1302 a-cote 1 nous 863 a-t-elle 1 on 684 a-t-il 2 j’ 475 abandon 1 Je 466 abandonnee 1 moi 307 abandonnent 1 T 298 abandonnez-vous 1 Nous 279 abattu 1 On 22

10 abord 3 Madame 2111 abuser 1 etois 2012 accelerent 1 faire 1813 accepta 1 Elle 1614 acceptai 1 fait 1515 accompagna 1 amour 1416 accord 1 comtesse 1317 accorder 2 dit 1318 accueilli 1 jamais 1319 accumuloit 1 monsieur 1320 accuser 1 air 1121 achevoit 1 dire 1122 acte 1 faut 1123 acteurs 1 lieu 1124 adieu 2 marquis 1125 admirable 1 dit-elle 1026 admirant 1 est-il 1027 admiration 2 mari 1028 admirer 2 sais 1029 adorateurs 1 bonne 930 adore 1 J’ 9

. . .1827 voisine 1 vertu 1

Page 31: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

3.1. VOCABULAIRE 31

Vocabulaire «elague» du corpus on-text-title-lendemain(suite)

Liste alphabetique Liste hierarchiqueord forme freq. forme freq.

1828 voit 1 veuille 11829 voiture 3 victoire 11830 voix 2 viennent 11831 vols 1 vif 11832 volupte 3 vint 11833 voluptueux 1 violence 11834 Votre 2 vis-a-vis 11835 voudra 1 visage 11836 voudroit 2 visiter 11837 voulez 1 vite 11838 voulez-vous 1 vıte 11839 vouliez 1 vive 11840 vouloir 2 voila-t-il 11841 voulois 4 voile 11842 vouloit 5 voiler 11843 vouloit-elle 1 voisine 11844 voulut 2 voit 11845 Vous 8 vols 11846 voyage 3 voluptueux 11847 voyant 1 voudra 11848 Voyez 1 voulez 11849 voyez 1 voulez-vous 11850 voyoit 3 vouliez 11851 vrai 7 vouloit-elle 11852 vraie 1 voyant 11853 vraiment 4 Voyez 11854 vraisemblance 1 voyez 11855 vu 3 vraie 11856 yeux 8 vraisemblance 11857 zele 1 zele 1

3.1.2 Interpretation du vocabulaire

En general, la frequence d’une forme rend compte de la force totale de sacontribution au texte (a son contenu, a son style, . . .). La gamme des frequencespermet d’evaluer la contribution d’une frequence donnee a la gamme et donc auvocabulaire. Par exemple, dans les frequences hautes de la gamme, ont trouvefacilement ce que nous avons appele des «formes outils». Par ailleurs, commel’elagage le montre, on peut decider de donner un certain role a priori a certainesformes et les ignorer. Le nom «formes outils» du formulaire recouvre essentielle-ment, par exemple, un choix d’elagage propre a une demarche et un chercheur.La liste par defaut de weblex de ce nom est donc un simple filtre empirique,denominateur commun de recherches successives realisees dans notre labora-toire (c’est-a-dire qu’elle realise automatiquement un travail d’elagage frequent

Page 32: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

32 CHAPITRE 3. LISTES

dans nos recherches). Cependant, il y a des chances qu’un mot s’y trouvant fassepartie de la problematique d’un chercheur, et il ne devrait donc pas etre ignore.Le chercheur est libre, a tout moment, de ne pas l’utiliser. Il faut donc reje-ter toute interpretation dogmatique de ce que peux signifier la liste des «motsoutils» et lui preferer la notion de service de filtrage parametrable. A terme,differentes listes parametrables devront etre accessibles dans weblex.

3.1.3 Verification de la segmentation en formes

L’examen de la liste des formes du vocabulaire est, de plus, l’occasion deverifier le resultat de la segmentation du texte en formes. En effet, vos choix desegmentation peuvent etre differents de ceux du codeur du corpus (qui a delimiteexplicitement les formes a l’aide d’un balisage LML) ou de ceux du segmenteurautomatique (qui fait partie de la procedure d’integration des corpus dans lesbases de weblex ). Ces divergences de points de vues concernent souvent :

– les choix de figements dans les compositions. Par exemple, considerer laforme «President de la Republique» en lieu et place des formes «President»suivie de «de», «la» et «Republique» ;

– une certaine interpretation du texte d’origine. Par exemple, forcer l’ex-pansion des formes «du» en une succession de deux formes : «de» suiviede «le» ;

– le comportement de certains caracteres delimiteurs (’, -, . . .). Par exemple,considerer la forme «aujourd’hui» au lieu des formes «aujourd’» suivie de«hui», voire «aujourd» et «hui» ;

– des erreurs de transcodage d’un systeme de codage des caracteres, proprea un logiciel lie a un systeme d’exploitation, a un autre. Par exemple, lachaıne «l’espace» peut se transformer, par erreur, en une chaıne «lÆespace»lors d’un transcodage Word/Windows 95TM vers ISO-Latin-1/UnixTM . Cequi, avec les regles de segmentation standard, entraıne le reperage de laforme «lÆespace» au lieu des formes «l’» suivie de «espace» ;

– une liste de cas particuliers qui n’obeissent pas aux regles generales dessegmenteurs automatiques.

Dans tous les cas, la re-segmentation du texte sera toujours realisee avantl’entree dans weblex. C’est l’objet du format LML et des programmes afferentsde vous aider a traiter ce probleme.

Remarque : la segmentation des formes est utilisee en tant que telledans tous les outils portant sur les formes, comme le calcul de voca-bulaire. Par contre, dans la mesure ou le langage de recherche d’ex-pressions CQP permet de traiter une succession de formes contenantn’importe quel caractere (ou presque), y compris l’espace « », le ti-ret «-», le guillemet «’», etc vous avez la possibilite, pour les outilsutilisant ces expressions (Concordances, Index, . . .) :– soit de «sur-segmenter» une forme en exprimant sa forme avec des

caracteres particuliers. Par exemple, l’expression ".* de .*"pourrait correspondre a l’occurrence de toutes les formes conte-nant une ou plusieurs «occurrences» de la lexie ”de” ;

– soit de «re-composer» des formes en juxtaposant leur expression.Par exemple, l’expression "pommes" "de" "terre" corresponda toutes les occurrences de successions de ces trois formes dans un

Page 33: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

3.2. REPARTITION OU «RAFALES» 33

corpus, c’est-a-dire, a la lexie ”pommes de terre”.L’outil Index permet, entre autre, de reperer ce type de formes«de-composees» ou «re-composees», et d’en etablir le vocabulairehierarchique, limitant la gene occasionnee par certains cas de seg-mentation «a priori».

3.2 Repartition ou «Rafales»La frequence d’une forme permet de la situer sur l’axe paradigmatique du

corpus dans son ensemble (voir le calcul de vocabulaire section 3.1 page 29 etde la gamme des frequences section 2.2 page 20). Pour evaluer la contributiond’une forme a l’axe syntagmatique du corpus dans son ensemble, le calcul del’indice de repartition Z des occurrences d’une forme (calcul invente par PierreLafon sous le nom de «rafales» [?]), permet de classer les formes du vocabulairede la moins bien repartie le long du texte d’un corpus a celle qui apparaıt le plusuniformement au fil du texte. Si le texte d’un corpus correspond a celui d’unemonographie (c’est-a-dire, grossierement, a celui d’un texte dont l’objectif est depresenter un recit de maniere uniforme du debut a la fin du corpus), alors, cettemesure permet d’estimer si «une forme a tendance a venir a certains endroitstres frequemment, alors qu’ailleurs elle est reparti a peu pres aleatoirement» [85]p. 100. Par exemple, elle peut donner une idee de la reponse a la question : est-ceque l’usage d’une forme est confine au debut du texte ?

L’indice de repartition permet d’evaluer la repartition de chaque forme duvocabulaire le long de l’ensemble du texte sans qu’il y ai besoin d’un partit-ionnement des differentes sections d’un document. Par contre, si vous desirezcomparer precisement la specificite de l’apparition de telle ou telle forme dansune partie du texte plutot que dans une autre, alors le «calcul des specificites»section 6.1 page 89 du vocabulaire est plus adapte pour repondre a cette ques-tion (bien qu’il necessite un partitionnement prealable du texte, necessaire a lamesure contrastive des specificites).

L’indice de repartition Z est homogene a l’ecart type de la distance,en nombre d’occurrences, entre les occurrences d’une meme forme.

Deux amenagements sont realises pour le calcul de cette mesure dans weblex :– afin de ne pas obtenir de distorsion sur la mesure de distance entre le

debut du texte et la premiere occurrence d’une forme, et entre sa derniereoccurrence et la fin du texte, les calculs sont realises comme si la fin et ledebut du texte etaient connexes. Il s’agit donc de l’ecart-type des distancesmodulo les limites du texte ;

– la mesure effectuee n’est pas precisement homogene a l’ecart type de ladistance entre occurrences d’une forme comme annonce mais plutot a celuide la distance entre phrases contenant cette forme. L’evenement recensen’est donc pas l’occurrence d’une forme mais son apparition dans unephrase : une phrase participe au calcul si elle contient la forme consideree,peu importe si elle la contient plusieurs fois. Experimentalement, cetteprecaution lisse plus les resultats qu’elle n’introduit de bruit.

Dans weblex, la repartition du vocabulaire se presente sur 4 colonnes dedonnees, suivies d’une colonne graphique optionnelle :

1. l’ordre de la forme pour l’indice ;

Page 34: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

34 CHAPITRE 3. LISTES

2. la forme ;

3. l’indice de repartition Z de cette forme ;

4. le nombre de phrases contenant la forme fp ;

5. le graphe de repartition des occurrences de la forme dans le corpus. Dansce graphe, chaque croix rouge correspond a une occurrence de la forme aufil du texte du corpus. Le nombre d’occurrences annoncees dans le grapheest celui des occurrences de formes alors que celui de la colonne fp estcelui des occurrences de phrases contenant la forme.

Les lignes sont triees sur la valeur de l’indice de repartition Z decroissant :donc de la forme la plus «en rafale» du corpus a la forme la mieux repartie.Le calcul des repartitions correspond donc a une analyse du comportement del’ensemble des formes du vocabulaire d’un corpus.

Sur le corpus on-text-title-lendemain on obtient la table 3.2 page ci-contre :

On notera, dans cet exemple, la difficulte d’interpretation de la ligne 5 cor-respondant a la forme «je» qui est tres dense en occurrences. Cette represent-ation ne rend pas bien compte de la densite des occurrences de la forme «je».Pour une analyse plus fine d’une forme donnee, nous avons concu le «calcul derepartition d’une expression CQP» 4.6 page 71 (avec histogramme cumule) quiest plus detaille. On notera, de plus, dans cet exemple de la forme «je», l’ecartentre le nombre d’occurrences annoncees dans le graphique (130) et le nombrede phrases contenant la forme «je» (108). Les croix rouges du graphique indi-queront toujours les occurrences reelles, la valeur fp n’etant utilisee que pourle calcul du modele de l’indice Z. Le nombre total d’occurrences annonce enabscisse dans les graphiques correspond au nombre total des segments bruts ducorpus : hors elagage, hors seuils, et en incluant la ponctuation. Ceci expliquel’ecart observe entre le nombre d’occurrences brut (9084) et le nombre d’occur-rences de formes annonce dans le calcul «dimensions» 2.1 page 19 (7727).

Remarque : l’affichage des graphes de repartition est optionnel (carl’ensemble des images de graphes de repartition est tres long a cal-culer et surtout a transferer). Par defaut, les graphes ne sont pasaffiches (voir la section 7.3.5 page 126 «Affichage des graphes derepartition»).

Page 35: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

3.2. REPARTITION OU «RAFALES» 35

Z decroissant

forme Z fp graphe de repartition

1 ami 6.28004 5

2 plaisir 5.01692 5

3 grotte 4.88958 4

4 cabinet 4.53862 4

5 je 4.50385 108

6 marquis 4.39294 11

7 amour 4.2772 13. . .liste limitee aux 7 premieres formes. . .

96 ordre 0.893968 3

97 trouvai 0.882987 4

98 faisoit 0.882881 5

99 sens 0.86602

100 nuit 0.860484 9101 ordres 0.827382 3 . . .102 lieu 0.771472 11103 vraiment 0.766364 4104 falloit 0.755159 4105 riviere 0.734022 3106 reproche 0.69325 3. . .liste limitee aux dernieres formes. . .264 prit −1.20481 3265 volupte −1.21407 3266 faisois −1.23105 3267 imagination −1.24162 7268 pur −1.26661 3269 oui −1.30503 4

Tab. 3.2 – Repartition du vocabulaire «elague» du corpuson-text-title-lendemain

Page 36: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

36 CHAPITRE 3. LISTES

3.3 N-Grammes ou Segments repetes

Un autre moyen d’estimer l’utilite de la segmentation courante du corpusest offert par le calcul des n-grammes ou segments repetes. Il s’agit de faire undecompte de toutes les successions de formes au fil du texte et de ne s’interesserqu’aux successions apparaissant plus d’une fois (d’ou le «repete»). La termino-logie «segments repetes» vient de Pierre Lafon & Andre Salem [70, 102, 71, 104],la terminologie n-grammes est plutot utilisee en anglais (bi-gram, tri-gram, n-grams) et le plus souvent pour les regroupements de caracteres contigus plutotque celui de mots comme ici.

Au dela de la segmentation, l’analyse des n-grammes permet surtout dereperer certains figements dans un corpus. Il s’agit donc d’un embryon d’ana-lyse de l’axe syntagmatique du corpus cherchant a recenser les regroupementscontigus longs et frequents. Dans weblex, certaines des proprietes des n-grammessont parametrables (voir 7.3.5 page 126 «Affichage des segments repetes») :

– ils ont une longueur n (en nombre d’occurrences) minimum et maximumquelconque. Attention, la longueur maximale des n-grammes conditionnefortement les temps de calcul dans l’implementation actuellement utiliseedans weblex ;

– ils ont une frequence minimale determinee par le seuil de frequence mi-nimum (voir la section 7.3.4 page 112 «Seuils d’elagage des resultats :elagage quantitatif»). Une frequence minimale inferieure a 2 sera ignoreeen silence ;

– ils se composent de la representation de l’une des proprietes des occur-rences :– sa forme (word) ;– sa partie du discours (pos) ;– son lemme (lem) ;– ou de l’une des 6 autres proprietes, de la 4ieme a la 9ieme, si elle est

definie pour le corpus.On peut donc calculer, par exemple, un index des successions de lemmes,de categories morpho-syntaxiques ou de toute autre propriete associeea chaque occurrence du texte lors de l’encodage du corpus (phonologie,semantique, . . .) ;

Aucun elagage de vocabulaire n’est pris en compte dans ce calcul. Si la proprieteanalysee est la forme, alors, on peut restreindre la liste aux seuls n-grammescontenant une expression reguliere de forme particuliere (a saisir dans le champSource A du formulaire). Enfin, un simple elagage des expansions recurrentesgauches est disponible, en attendant l’elagage complet des n-grammes contenusdans d’autres n-grammes plus longs. Dans weblex, la liste des n-grammes sepresente sur 3 colonnes :

f la frequence du n-gramme ;

segment le n-gramme considere ;

n la longueur du n-gramme.

Par defaut, la liste des n-grammes est triee :

1. d’abord par la longueur n du n-gramme (n = le nombre de formes lecomposant) ;

2. puis par sa frequence ;

Page 37: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

3.3. N-GRAMMES OU SEGMENTS REPETES 37

3. puis alphabetiquement.

Toutes ces cles de tri sont, bien sur, interchangeables pour orienter le classe-ment en fonction de votre recherche. Une autre cle de tri est disponible, il s’agitdu tri alphabetique par la gauche : le tri y est effectue comme si les formes com-posant le n-gramme avaient ete reecrites en ordre inverse (la derniere d’abord),puis triees alphabetiquement. Il s’en suit que le tri alphabetique vers la gaucheclasse les n-grammes par leur formes suffixes, alors que le tri alphabetique versla droite (appele simplement «tri alphabetique» ici) classe les n-grammes plusclassiquement par leurs formes prefixes (de maniere analogue au tri alphabetiquestandard d’une forme simple).

Dans le corpus on-text-title-lendemain on obtient 155 n-grammes delongueur 3 a 10, de frequence superieure a 2, pour l’attribut «word» (donc pourla forme des occurrences) en eliminant les expansions recurrentes gauches. Lesresultats sont presentes a la table 3.3.

Tab. 3.3: Segments repetes du corpus on-text-title-lendemain( 155 segments )

Segments de longueur 3 a 10, defrequence superieure a 2, pour l’attri-but «word»

f segment n

2 la statue de l’ amour 52 qui venoit de se passer 54 de Madame De T 44 n’ est-il pas vrai 43 a Madame De T 43 tout ce qu’ il 42 a tout ce que 42 autre chose que ce 42 avant d’ avoir pu 42 ce qu’ on a 42 ce que l’ on 42 de ce qu’ on 42 dit Mme De T 42 et le dernier de 42 Il n’ y avoit 42 je vous sais gre 42 l’ air d’ une 42 la comtesse de * 42 Madame De T que 42 me serra la main 42 on se debarrassa de 42 que je vous ai 42 que nous nous etions 42 statue de l’ amour 42 tout ce que l’ 42 venoit de se passer 4

Page 38: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

38 CHAPITRE 3. LISTES

Segments repetes du corpus on-text-title-lendemain (suite)

f segment n

17 Madame De T 37 de l’ amour 36 ce qu’ il 36 ce que je 36 Mme De T 36 que j’ etois 35 de la comtesse 35 tout ce que 34 c’ est un 34 est-il pas vrai 34 il y a 34 je ne sais 34 M De T 34 que je vous 34 que l’ on 34 que nous nous 33 ans que je 33 banc de gazon 33 dans l’ instant 33 de la nuit 33 et je suis 33 et nous nous 33 il n’ y 33 je vous ai 33 n’ y avoit 33 pres de moi 33 qu’ elle me 33 qu’ il faut 33 que j’ ai 33 que je ne 33 vous m’ avez 32 a l’ amour 32 a l’ opera 32 a l’ oreille 32 a la porte 32 a mes yeux 32 a moi d’ 32 a mon tour 32 air d’ une 32 au lieu de 32 avec la comtesse 32 avec le public 32 bien des choses 32 c’ est le 32 c’ est que 32 c’ etoit une 3

Page 39: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

3.3. N-GRAMMES OU SEGMENTS REPETES 39

Segments repetes du corpus on-text-title-lendemain (suite)

f segment n

2 ce qu’ elle 32 ce qu’ on 32 ce que j’ 32 ce que nous 32 chose que ce 32 comtesse de * 32 croire que je 32 d’ avoir pu 32 d’ un choix 32 d’ une reconciliation 32 dans l’ ordre 32 dans la nature 32 dans le jardin 32 de bonne foi 32 de bonne heure 32 de ce qui 32 de faire un 32 de l’ autre 32 de l’ habitude 32 de la grotte 32 de nos coeurs 32 de se passer 32 De T me 32 De T que 32 de toute la 32 dit en entrant 32 dit le marquis 32 elle est heureuse 32 et je me 32 et l’ air 32 faire de moi 32 faire les honneurs 32 fait entrer dans 32 il me semble 32 Il y a 32 j’ eus le 32 je l’ ai 32 je lui ai 32 je me trouvai 32 je n’ en 32 je ne me 32 je ne pouvois 32 je ne puis 32 je ne savois 32 je vous en 32 l’ air du 3

Page 40: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

40 CHAPITRE 3. LISTES

Segments repetes du corpus on-text-title-lendemain (suite)

f segment n

2 le chagrin que 32 le dernier de 32 le veux bien 32 me dit en 32 n’ as pas 32 n’ avions pas 32 n’ etoit plus 32 ne fut pas 32 nous nous etions 32 nous venons de 32 on me fit 32 ou j’ etois 32 qu’ il etoit 32 qu’ il lui 32 qu’ il ne 32 qu’ il s’ 32 qu’ on a 32 qu’ on apporte 32 qu’ on venoit 32 que ce que 32 que j’ avois 32 que je suis 32 que vous ne 32 qui se jouoient 32 rien de plus 32 se debarrassa de 32 serra la main 32 si j’ etois 32 si je ne 32 t’ a donc 32 tout ce qu’ 32 tu l’ as 32 vous sais gre 31 a tout ce 31 ce que l’ 31 l’ air d’ 31 n’ est-il pas 3

On notera les frequences 1 de «a tout ce», «ce que l’», . . .qui sont desartefacts dus a l’elagage des expansions recurrentes gauches «a tout ce que»,«ce que l’on», . . .

Veuillez noter, enfin, que l’analyse de textes traites par certains etiqueteursmorpho-syntaxiques ammene la composition de segments repetes a partir delexies pouvant comporter des espaces dans leur forme (comme dans le cas de laforme «parce que» par exemple), il faut donc en tenir compte dans la lectureet l’interpretation des listes de segmments repetes.

Page 41: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

3.4. COOCCURRENTS 41

3.4 Cooccurrents

Le calcul des «n-grammes» 3.3 page 36 permet de comparer les successionsde formes contigues du texte. Le calcul des formes cooccurrentes permet decomparer les successions de deux formes non contigues dans le texte. C’esta dire celles de la presence de deux formes espacees d’un nombre quelconqued’occurrences a l’interieur d’une meme phrase3, ou qu’elles soient dans la phrase.Contrairement a celui des n-grammes, ce calcul permet donc d’identifier des«figements» de formes non contigues, autorisant diverses insertions (c’est-a-dire avec divers mots inseres entre les formes cooccurrentes) mais surtout, demaniere plus generale, de reperer des attirances entre formes de toutes natures.

Par exemple, on peut distinguer tres grossierement :– les attirances lexicales pour les distances entre formes faibles et a ecart-

type reduit (proche du calcul des n-grammes) ;– les attirances syntaxiques pour les distances plus importantes ;– les attirances thematiques au dela ;– . . .Le type d’attirance mis en evidence par le calcul des cooccurrents depend a la

fois des choix de «tri des cooccurrents» 7.3.5 page 121, des «choix d’elagage» 7.3.4 page 112et de celui de l’espace (ou contexte) de cooccurrence (syntagme, phrase, para-graphe, . . .) pris en compte (voir la section ?? page ?? «Choix de l’espace decooccurrence».

Dans weblex, on peut decomposer le calcul des [cooccurrents] en quatrephases successives :

1. d’abord, un recensement de tous les couples de formes potentiels du corpusque l’on note A → B ;

2. ensuite, une estimation de la probabilite theorique (dont le modele estdecrit ci-apres) de la cooccurrence des formes de chaque couple ;

3. un elagage de tous les couples situes au dela de certains seuils d’elagage(en probabilite de cooccurrence par exemple) ;

4. et enfin, un affichage de la liste des couples restants. Cette liste est triee,par defaut, par ordre de probabilite de cooccurrence decroissante (c’est-a-dire du plus etonnant du point de vue de notre hypothese (c’est-a-dires’ecartant le plus de l’hypothese nulle) au moins etonnant).

3.4.1 Modelisation de la loi de probabilite

Dans l’implementation actuelle de weblex seuls les couples de formes sontpresentes : la forme A se trouve toujours a gauche de la forme B (en pro-babilite) dans le corpus. Le calcul des cooccurrences de paires (pour les ren-contres non orientees) est en cours de developpement. L’hypothese nulle de lamodelisation est qu’il y a une repartition uniforme des A et des B, etant donneesleur frequence respective fA et fB dans les P phrases du corpus.

Dans weblex, le calcul de la probabilite que deux formes A et B se rencontrentr fois dans un corpus de P phrases, etant donnees leur frequence respective fA

et fB, a ete modelise par Pierre Lafon [?] et peut s’exprimer formellement par

3voir la notion de “segmentation en phrases” section ?? page ??.

Page 42: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

42 CHAPITRE 3. LISTES

l’equation 3.14 :

Probcooc

(card{A ∈ V etB ∈ V/A → B} = r) =CfA

r × CP+fB

fB−r

CfA+fB+PfB

. (3.1)

Avec :A et B des mots du texte ;A → B denotant deux mots apparaissant ensemble dans une phrase du texte,

A apparaissant avant B dans la phrase ;V le vocabulaire (l’ensemble des mots differents du texte) ;r le nombre de rencontres de A et de B dans les phrases du texte ;P le nombre total de phrases du texte.

Cette loi de probabilite est de type hypergeometrique.

3.4.2 Calcul direct de l’indice de cooccurrence

Pour vous familiariser avec les diverses formes que peut prendre la densitede cette loi de probabilite, nous vous presentons trois exemples de visualisa-tion en ligne, et simultanee, des deux distributions de probabilite des modelesProb(R = r) et Prob(R >= r) (ou R = card{A → B}). Les formes de ces distri-butions correspondent a trois conditions experimentales differentes (c’est-a-direa diverses valeurs de fA, fB, cf et P ) illustrant la variabilite de la distributionde cette probabilite.

Ce calcul, effectue a la demande sur le serveur (si vous lisez ce manuel sur In-ternet), prend comme parametres, ajustables a votre convenance, les frequencesrespectives des deux formes cooccurrentes (fA et fB), le nombre de leurs ren-contres effectif dans le corpus (cf) et le nombre total de phrases (P ). Les gra-phiques representent :

– la loi de probabilite P (R = r′), en vert, que les formes A et B se ren-contrent exactement r′ fois ;

– le mode de la distribution : l’estimation du nombre de rencontres le plusprobable selon cette loi de probabilite ;

– la loi de probabilite cumulee P (R >= r′), en bleu, que les formes A et Bse rencontrent au moins r′ fois ;

4pour obtenir cette equation, on peut proceder grossierement de la maniere suivante :– On seme fA formes A le long du texte (ou de l’axe syntagmatique si vous preferez) ;– On seme fB formes B le long du texte sans faire attention aux A . On obtient des A et

des B entremeles ;– On seme P + 1 limites de phrases le long du texte sous la forme d’un symbole S qui

separe les occurrences de A et de B. On obtient par exemple SAABSSASBBSABS ouencore SSSABABABSBSAS, . . . ;

– Alors la probabilite qu’un (ou des) A se trouve(nt) a gauche d’un (ou de plusieurs) Bentre deux S successifs r fois est obtenue par le quotient du nombre de manieres d’obtenirce genre de configuration pour fA, fB et P fixes (nombre homogene au numerateur del’equation), par le nombre total de manieres de semer des A, B et S au fil du texte(nombre homogene au denominateur de l’equation).

L’expression Cnp peut s’exprimer

�np

�dans la litterature anglo-saxonne. On la prononce “c

n p”. Il s’agit du nombre de manieres de ranger n livres dans une bibliotheque de p places.Chaque maniere de ranger les livres est appelee une combinaison (d’ou le C).La valeur de

�np

estn×(n−1)×(n−2)×···×(n−p+1)

p×(p−1)×(p−2)×···×2×1ou encore n!

p!(n−p)!si la valeur de n! est n × (n − 1) × (n −

2) × · · · × 2 × 1.

Page 43: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

3.4. COOCCURRENTS 43

– la valeur estimee de la probabilite cumulee de P (R >= cf) { pour toutx entier compris dans l’intervalle [cf, min(fA, fB)] } ; C’est-a-dire la me-sure effectivement utilisee dans weblex et affichee dans la liste des couplescooccurrents et les lexicogrammes. Concretement on obtient cette valeuren sommant les valeurs de la probabilite Probcooc pour R = cf, R =cf + 1, R = cf + 2, . . . , R = min(fA, fB).

Les trois exemples suivants ne font que varier les parametres d’appel dumeme calcul, donc de la meme loi. Vous pouvez modifier ces parametres etcliquer sur le bouton [Calculer] pour visualiser d’autres aspects de cette loi. Leresultat du calcul sera alors affiche dans une page differente. Vous devrez doncfaire un «Retour» pour revenir a votre lecture du manuel ou essayer d’autresconditions experimentales.

Fig. 3.1 – Un aspect «normal» (ou «banal») de la loi de cooccurrence. Pa-rametres : fA = 100, fB = 100, cf = 9, P = 1000.

Attention : l’implementation actuelle de cette visualisation de la loide cooccurrence est directe et naıve, et peut prendre un temps im-portant a calculer dans le cas de frequences elevees.

3.4.3 Exploitation de la loi de probabilite de cooccurrence

La loi de probabilite de cooccurrence presentee ci-dessus met virtuellementen relation chaque forme du vocabulaire avec toutes les autres deux a deux. Biensur dans les nombreux cas ou deux formes particulieres ne se rencontrent jamaisdans le corpus, cette probabilite n’est pas definie. On pourrait se representercette relation binaire par une matrice dont chaque ligne et chaque colonne

Page 44: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

44 CHAPITRE 3. LISTES

Fig. 3.2 – Un aspect plus «poissonnien». Parametres : fA = 10, fB = 8, cf =3, P = 1000.

Fig. 3.3 – Un aspect «plus» binomial. Parametres : fA = 10, fB = 20, cf =5, P = 100.

Page 45: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

3.4. COOCCURRENTS 45

representerait une forme du vocabulaire. A l’intersection d’une ligne et d’unecolonne on representerait la probabilite de rencontre entre les deux formes cor-respondantes par un pic d’autant plus haut que leur probabilite de cooccurrencedans des phrases est faible (par rapport au modele et sans tenir compte des ren-contres qui ne sont jamais realisees dans le corpus). La figure 3.4 presente cequ’on obtient pour les 100 formes les plus frequentes du vocabulaire du corpusOn. Ce graphique represente la probabilite de cooccurrence entre les 100 formesles plus frequentes du corpus On, la forme A se trouvant a gauche de la formeB (en probabilite). Les dimensions (ou cotes) A et B representent chacune levocabulaire trie hierarchiquement (par frequence decroissante). Afin d’illustrerla correspondance de chaque ligne de la matrice avec une forme du vocabulaire,nous n’avons pu echantillonner qu’un nombre restreint de formes le long del’axe A (je, moi, M, terre, tete, Dieu. . .) pour des raisons de lisibilite (pour etreprecis, il aurait fallut afficher une forme par ligne de la matrice et une formepar colonne ce qui aurait rendu le graphique illisible). Chaque forme presentedans le schema est alignee avec la ligne qu’elle represente au debut de son pre-mier caractere. Chaque pic, situe a l’intersection d’une ligne et d’une colonne,illustre la probabilite de cooccurrence entre une forme A et une forme B. Sahauteur correspond a l’oppose du logarithme en base 10 de la probabilite, soitgrossierement a son ordre de grandeur (ou plutot a son ordre de faiblesse deplausibilite).

Fig. 3.4 – Espace de cooccurrence des 100 formes les plus frequentes du corpusOn.

Page 46: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

46 CHAPITRE 3. LISTES

Plutot que de chercher a interpreter cette matrice directement, weblex vouspropose plusieurs syntheses et differents moyens de navigation dans cet espacede cooccurrence :

– la liste des couples de formescooccurrentes affiche la liste detous les couples correspondantaux pics les plus hauts de lamatrice par ordre de hauteurdecroissante ainsi que selon di-verses cles de tri : cofrequence,distance moyenne, frequence. . .Ils’agit donc d’un point de vueglobal des attirances distribu-tionnelles - binaires - les plusfortes entre les formes du vo-cabulaire dans le corpus.En general, les figements ducorpus ont tendance a se re-

trouver dans le haut de cette liste en fonction de leur role (fonctionnelou lexical) dans les phrases. Suivant l’objectif de la recherche et afin defaciliter le depouillement et l’interpretation de cette liste, il parfois sou-haitable de re-segmenter le corpus en integrant certains figements lexicauxdirectement dans le vocabulaire. Le travail de re-segmentation est l’objetdes outils de la textotheque LML.

– le lexicogramme af-fiche la synthese d’uneligne et d’une colonnede la matrice corres-pondant a une formeparticuliere. Il s’agitdonc des formes lesplus cooccurrentes aveccette forme, a sa gauche

et a sa droite. Chaque ligne et chaque colonne est ordonnee, par defaut,par hauteur de pic decroissant et diverses autres cles de tri identiques aucalcul precedent. On peut alors explorer l’espace de rencontre propre auxformes en relation avec la forme initiale a l’aide de liens hypertextuels.Dans l’exemple de gauche par exemple, un simple clic sur la forme «trans-formation» soulignee en bleu declenche l’appel du calcul de son lexico-gramme. Le parcours successif de lexicogramme en lexicogramme explorela meme liste que precedemment (a concurrence des seuils de calcul) maissuivant une structuration induite par l’espace de rencontre propre a chaqueforme. Il s’agit donc d’un point de vue localise a chaque forme des atti-rances distributionnelles. Le lexicogramme etant notre outil d’explorationprivilegie de l’espace de cooccurrence c’est a partir de lui que nous per-mettons de declencher le calcul de la concordance des rencontres effectivesentre deux formes particulieres dans le corpus par un simple clic sur leurnombre de rencontre dans le lexicogramme (souligne en bleu) - la lecturedes concordances formant la partie controle de la methode d’analyse deslexicogrammes.

Page 47: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

3.4. COOCCURRENTS 47

– le lexicogramme recursifaffiche l’ensemble d’unparcours possible delignes-colonnes (doncde lexicogrammes) pourune certaine hauteurminimum de pics donnee.Il s’agit donc d’unreseau d’intersectionsde la matrice, soitd’un ensemble de formesmisent directementou indirectement enrelation par la pro-babilite de cooccur-rence. Une autre in-terpretation possiblede ce type de grapheest celle de la synthese

de plusieurs lexicogrammes simultanes.Theoriquement les graphes de lexicogrammes recursifs devraient representerexactement les memes informations que celles de l’ensemble des lexico-grammes : memes formes, probabilites, nombre de rencontres, . . .maissimplement sous une forme differente, c’est-a-dire plus compacte qu’unlisting de lexicogrammes successifs.Dans la pratique, les dimensions d’affichage disponibles pour les graphesetant limitees, ces derniers sont tres souvent calcules sur les bases de seuilsplus restrictifs que ceux des lexicogrammes (limites aux seules rencontresfocalisees sur une forme particuliere) qui limitent leurs dimensions d’affi-chage. La version hypertexte des graphes permet alors d’avoir acces parun simple clic sur un n œud a une version plus detaillee de son espace derencontres en produisant le lexicogramme correspondant.

Page 48: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

48 CHAPITRE 3. LISTES

– la liste de tous leslexicogrammes recursifsaffiche l’ensemble detous les parcours delexicogrammes pos-sibles non connexesdu vocabulaire (onne peut pas passerd’un parcours a unautre) d’un corpus,c’est a dire de tousles graphes de lexi-cogrammes recursifscalculables. Il s’agitdonc simplement d’uneautre representationque celle de la listeinitiale des couplesde formes cooccur-rentes. En effet, comme

pour cette liste on s’interesse dans ce calcul a l’ensemble du vocabulaire,mais contrairement a cette liste, les formes y sont disposees dans le plande maniere unique en tenant compte de leur attirance en probabilite avecles autres.

Nous presentons, dans ce chapitre traitant des syntheses sous forme delistes, que le calcul de la liste des couples de formes cooccurrentes. Le cha-pitre 5 page 75 «Cooccurrences et lexicogrammes» presentera les autres calculsexploitant la mesure de probabilite de cooccurrence.

3.4.4 Affichage de la liste des couples de formes cooccurrentes

L’affichage de la liste des cooccurrents se compose de 7 colonnes :

colonnes 1 et 2 les formes A et B qui sont en relation ;

colonnes 3 et 4 les frequences respectives de chaque forme fA et fB ;

colonne 5 la frequence cf de leurs rencontres au sein d’une phrase ;

colonne 6 p une estimation de la probabilite que ces deux formes apparaissentensemble cf fois dans le corpus ou plus etant donnes fA, fB, P et cf ;

colonne 7 la moyenne arithmetique dm des distances entre ces deux formes.

Cette liste peut etre triee jusqu’a quatre cles de tri successives selon chaquecolonne. Comme annonce dans l’introduction de cette section, ce sont les cles detris qui vont «typer» les relations de cooccurrence qui seront mises en evidence.Voir la section 7.3.5 page 121 «Tri des lexicogrammes et des couples cooccur-rents» de la documentation du formulaire pour plus de details sur les choix detri disponibles.

Pour le corpus on-text-title-lendemain, avec les seuils annonces, on ob-tient la table 3.4 page suivante.

Le contexte par defaut de la cooccurrence dans weblex est celui de la phrase,determine par le codage du corpus ou par le segmenteur automatique. En fait, ce

Page 49: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

3.4. COOCCURRENTS 49

Seuils : f 3, cf 3, p 5.0E-2, dm 1000.0

A B fA fB cf p dm

Madame T 21 29 19 1.450e − 26 1.0j’ etois 47 20 15 2.437e − 14 0.0

Mme T 6 29 6 9.613e − 09 1.0est-il vrai 10 7 5 1.177e − 08 1.0banc gazon 3 4 3 1.466e − 07 1.0Lui dis-je 3 5 3 3.646e − 07 0.0M T 4 29 4 5.306e − 06 1.0

Me dit-elle 5 10 3 4.132e − 05 0.0Nous nous 27 86 12 4.223e − 05 3.8

bonne heure 9 7 3 9.933e − 05 0.0j’ avois 47 8 5 1.161e − 04 0.2

Je vis 46 6 4 4.268e − 04 11.0je sais 130 10 7 5.762e − 04 0.9

Elle bras 16 7 3 6.143e − 04 4.3on veut 68 5 4 6.361e − 04 3.0je trouvai 130 4 4 1.325e − 03 1.0Je voulois 46 4 3 1.677e − 03 0.0Je sentis 46 4 3 1.677e − 03 0.3dit comtesse 13 13 3 2.367e − 03 9.0On fit 22 8 3 2.461e − 03 7.0dit T 13 29 4 2.598e − 03 4.0J’ etois 9 20 3 2.721e − 03 0.0j’ bonne 47 9 4 3.184e − 03 4.8

dit fait 13 15 3 3.629e − 03 17.7Je veux 46 5 3 3.943e − 03 0.7Je savois 46 5 3 3.943e − 03 5.7

savois j’ 5 47 3 4.180e − 03 12.7je crois 130 5 4 5.598e − 03 0.5

yeux moi 8 30 3 5.909e − 03 7.3croire je 8 130 5 8.192e − 03 9.0

Je je 46 130 15 1.059e − 02 12.1heure j’ 7 47 3 1.293e − 02 3.0

Madame fait 21 15 3 1.429e − 02 9.7Je j’ 46 47 8 1.485e − 02 12.1j’ croire 47 8 3 1.946e − 02 7.7

Nous amour 27 14 3 2.305e − 02 23.0On on 22 68 6 2.322e − 02 11.7je connois 130 4 3 2.407e − 02 1.3

aimable je 4 130 3 2.407e − 02 8.0Si je 7 130 4 2.811e − 02 0.5je nature 130 7 4 2.811e − 02 9.0

Un on 7 68 3 3.256e − 02 15.3T fait 29 15 3 3.335e − 02 12.7Je sais 46 10 3 3.504e − 02 2.0

avois je 8 130 4 4.775e − 02 12.2je avois 130 8 4 4.775e − 02 13.0on fit 68 8 3 4.783e − 02 1.3

Tab. 3.4 – Cooccurrences du corpus «on-text-title-lendemain»2806 couples (212 paires), 47 couples selectionnes

Page 50: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

50 CHAPITRE 3. LISTES

contexte est specifie au moment de l’integration du corpus dans les bases de we-blex. A terme, les procedures d’extraction de la textotheque LML permettronsde choisir n’importe quel contexte correspondant a un element de structura-tion du corpus : syntagme, phrase, paragraphe, section, chapitre, œuvre, etc.Le calcul de cooccurrence d’expressions CQP permettant, de plus, de faire se«rencontrer» des evenements plus complexes que les formes simples.

3.5 Candidats Termes

Si votre corpus a ete categorise a l’aide du logiciel CordialT M5 (logiciel decategorisation morpho-syntaxique de la societe Synapse S.A.), alors vous pouvezobtenir la liste hierarchique (triee par frequence decroissante) des candidatstermes composes du corpus (dont la morphologie a ete definie dans la these deBeatrice Daille [?] et dont nous reprenons les graphes de description tels quels)a l’aide du calcul . En bref, voici la liste des patrons reperes (exprimesdans le jeu d’etiquettes MULTEXT [?] (dont la documentation de reference setrouve a la section 10 page 141) et sous la forme d’expressions CQP) :

– [p4 = ”N. ∗ ”]([p4 = ”R. ∗ ”] ∗ [p4 = ”V.pa. ∗ |A. ∗ ”]+) ∗ ”a”[p4 = ”D. ∗ ”]?

([p4 = ”N. ∗ ”][p4 = ”C. ∗ ”]((”a”[p4 = ”D. ∗ ”]?)|”du”|”des”)?)?[p4 = ”N. ∗ ”]

– [p4 = ”N. ∗ ”]([p4 = ”R. ∗ ”] ∗ [p4 = ”V.pa. ∗ |A. ∗ ”]+) ∗ ”des”[p4 = ”N. ∗ ”]

– [p4 = ”N. ∗ ”]([p4 = ”R. ∗ ”] ∗ [p4 = ”V.pa. ∗ |A. ∗ ”]+) ∗ ”du”[p4 = ”N. ∗ ”]

– [p4 = ”N. ∗ ”]([p4 = ”R. ∗ ”] ∗ [p4 = ”V.pa. ∗ |A. ∗ ”]+) ∗ ”a”[p4 = ”D. ∗ ”]?

([p4 = ”N. ∗ ”][p4 = ”C. ∗ ”]((”a”[p4 = ”D. ∗ ”]?)|”au”)?)?[p4 = ”N. ∗ ”]

– [p4 = ”N. ∗ ”]”au”([p4 = ”N. ∗ ”][p4 = ”C. ∗ ”]((”a”[p4 = ”D. ∗ ”]?)|”au”)?)?[p4 = ”N. ∗ ”]

– [p4 = ”N. ∗ ”]([p4 = ”R. ∗ ”] ∗ [p4 = ”V.pa. ∗ |A. ∗ ”]+) ∗ ”du”([p4 = ”N. ∗ ”]

(”, ””du”[p4 = ”N. ∗ ”]) ∗ [p4 = ”C. ∗ ”]”du”)?[p4 = ”N. ∗ ”]

– [p4 = ”N. ∗ ”][p4 = ”R. ∗ ”] ∗ [p4 = ”V.pa. ∗ ”] ∗ [p4 = ”A. ∗ ”]((”, ”[p4 = ”A. ∗ ”])∗[p4 = ”C. ∗ ”][p4 = ”A. ∗ ”])?

– [p4 = ”N. ∗ ”][p4 = ”Va. ∗ ”&word = ”[e|e|s|e]. ∗ ”][p4 = ”R. ∗ ”]∗[p4 = ”A. ∗ ”]

– [p4 = ”N. ∗ ”]”\(”(”, ”|[p4 = ”A. ∗ ”]) + ”\)”Remarque : le calcul d’index d’expressions CQP permet de realiserle meme travail de maniere plus precise. La recherche de candidatstermes propose simplement des expressions de recherche usuelles demaniere predefinie (dependantes malgre tout de l’etiqueteur utilise).Typiquement, vous pouvez utiliser directement chaque expressionprecedente dans un calcul d’index (vous pouvez, par exemple, utiliserles fonctions de copier-coller des pages de ce manuel vers la page duformulaire de weblex pour le faire).

La liste des candidats termes se presente sur deux colonnes : la frequencedu candidat terme suivie de la ou des formes. Elle est triee selon la frequencedecroissante, puis alphabetiquement en cas d’egalite de la frequence. De maniereanalogue au calcul des segments repetes, le candidat terme lui-meme est affichesuivant les options de l’affichage d’un index. Ces options permettent6 de com-poser l’affichage du candidat terme, au choix, a l’aide de :

5a terme, weblex permettra le reperage de patrons morpho-syntaxiques exprimes dansd’autres jeux d’etiquettes morpho-syntaxiques.

6les differents composants d’un candidat terme sont separes par le caractere “/”.

Page 51: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

3.5. CANDIDATS TERMES 51

– sa forme (word) ;– sa partie du discours (p2 ou pos) ;– son lemme (p3 ou lem) ;– . . .

Par exemple, une composition de la forme seule, donnera une liste hierarchiquelexicale des candidats termes. Une composition du lemme seul, donnera une listehierarchique des candidats «lemmes» de termes.

Sur le corpus on-text-title-lendemain, en composant les candidats termesa l’aide de la seule forme, on obtient7 la table 3.5.

Tab. 3.5: Index des candidats termes du corpus lendemain

(Categorisation morpho-syntaxique par Cordial)f candidat terme

2 air du pays2 air du soir2 avant-cour du chateau2 beaute du paysage2 billet a Madame2 bonheur a quel etre2 chemin du chateau2 clarte du jour2 clef du reste2 dieu du mystere2 flamme divine2 gout du moment2 hasard du monde2 haut du plafond2 honneurs du temple2 maıtresse meme du chateau2 monsieur du veau2 murs du pavillon2 partie du temple2 promenade du matin2 propos tendres a moi2 recherches du luxe2 route du sentiment2 scene du carrosse2 securite du marquis2 terme du voyage2 theatre du monde2 traces du plaisir2 verite du portrait2 ecuyer a Madame1 air assez ironique1 amans heureux

7plus du 1/4 des resultats ont ete elagues manuellement, car Cordial ne traite pas cor-rectement certains aspects de la langue du 18ieme siecle (comme les formes aurois, avoit,commencoit, confieroit, etois, . . .).

Page 52: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

52 CHAPITRE 3. LISTES

Index des candidats termes du corpus lendemain (suite)

f candidat terme

1 amour vrai1 arbres epais1 architecture legere1 attrait seul1 attraits offenses1 autre chose1 autre des propos1 autre instant1 bien des choses1 bonheur ignore1 bosquet aerien1 boucles flottantes1 caractere au point1 caractere prude1 choc imprevu1 choix plus convenable1 choses bien etranges1 ciel pur1 corridor obscur1 coupe des couronnes1 couples heureux1 crepe transparent1 danger des impressions1 dieu des jardins

. . .1 scene aussi agreablement commencee1 scenes bien divertissantes1 silence touchant1 sinuosites multipliees1 soupcon seul1 sourire plus voluptueux1 souvenir agreable1 suites fatales1 severite des reflexions1 tournure discrete1 treillages ornes1 tyrannie des procedes1 vertu favorite1 yeux humides1 ecarts presque methodiques1 emotions muettes1 etres si etonnes1 ıle toute peuplee

X au Total

Page 53: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

3.5. CANDIDATS TERMES 53

On peut noter certains resultats surprenants. Par exemple, «billet a Ma-dame», «bonheur a quel etre», «clef du reste», «maıtresse meme du chateau»,«monsieur du veau», «propos tendres a moi», «autre chose», «autre des pro-pos», . . .Ces resultats sont lies, a la fois, aux erreurs propres au logiciel Cordialet aux limitations de ce genre de reperage dans le cadre d’une analyse morpho-syntaxique de ce type. L’analyse de ces resultats est un moyen de verifier lacoherence de l’etiquetage morpho-syntaxique (manuel ou automatique) dans lecontexte des termes.

Page 54: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

54 CHAPITRE 3. LISTES

Page 55: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

Chapitre 4

Recherche et navigation dansle corpus

4.1 Edition du corpus

Tout corpus integre a weblex peut disposer d’une edition paginee1 (donc auformat HTML). Le role de cette edition est a la fois de rendre compte le mieuxpossible du fac-simile du texte a l’origine du corpus pour rendre sa lecture au fildu texte si possible authentique et confortable (dans la mesure ou celle d’originel’etait et ou le format HTML est suffisant pour en rendre compte), mais surtoutd’offrir un contexte de concordances le plus large possible. En effet, au delad’une certaine taille de contextes de concordances, nous estimons qu’il devientpreferable de naviguer directement au fil du texte. Bien sur ceci est laisse au librearbitre du chercheur dans la mesure ou la taille de contextes des concordancesn’a pas de limite dans weblex. La lecture de l’edition permet, de plus, de verifierla qualite de son integration dans weblex.

La pagination est realisee selon les parametres de l’integration :– soit sur la base d’un encodage dans le corpus avant son integration. Par

exemple a l’aide de l’element <PB N=10> pour encoder le debut de la pagenumero 10 (voir ?? page ?? «le format LML») ;

– soit selon une segmentation automatique garantissant un nombre maxi-mum d’occurrences par page. La pagination d’origine (si elle a existe)n’est alors plus respectee. Ce type de pagination (ou de segmentationen pages) permet de controler la dimension des pages d’edition pour letelechargement. En effet, a titre d’exemple, on considere qu’une pageHTML d’une taille plus grande que 10Ko devient trop lente a telechargerpour une navigation confortable a partir de clients Internet usuels (cf. [88]).Remarque : une pagination independante de celle du fac-simile d’origine neremet pas en cause l’eventuelle utilisation des numeros de page d’originedans les references de concordances. Cela depend des choix d’integration.

L’ensemble des traits typographiques disponibles pour la mise en page enligne correspondent a l’integralite de ceux du langage HTML (voir le formatLML [?]) :

1pour des raisons de copyright ou de droits d’edition, par exemple, on peut vouloir ne paschoisir cette option au moment de l’integration du corpus dans weblex.

55

Page 56: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

56 CHAPITRE 4. RECHERCHE ET NAVIGATION DANS LE CORPUS

– paragraphes, sauts de ligne ;– police, italique, gras, couleur, . . . ;– niveaux de titres, listes, tableaux ;– . . . ;– mais aussi images, liens hypertextes, formulaires, . . .Certains corpus etiquetes peuvent disposer, de plus, d’un encodage couleur

des categories morpho-syntaxiques de chaque unite lexicale.Chaque page de l’edition en ligne est composee de :

la reference de la page en haut a droite. La reference affichee est composee ala fois de celle des concordances, qui a ete choisie au moment de l’integrationdu corpus dans weblex, et qui permet en general de se situer dans le do-cument d’origine, et du numero d’ordre de la page dans l’ensemble despages de l’edition en ligne (separe de la reference bibliographique par uncaractere «/» et qui peut, ou non, correspondre au numero de page bi-bliographique (c’est-a-dire a celui du fac-simile de l’edition d’origine)) ;

de son contenu dans la mise en page et la typographie choisies ;

de liens hypertextes (presentes en haut puis repetes en bas de la page) quipermettent d’acceder directement a la page suivante et a la page precedente ;

le numero d’ordre de la page , quant a lui editable dans un mini formu-laire (qu’il suffit d’ouvrir en cliquant sur le numero de la page), permetd’acceder directement a une page quelconque en saisissant son numeropuis en validant avec Entree (ou Return).

La commande [Edition] du formulaire donne un acces direct a la premierepage de l’edition en ligne. Cette premiere page, ou page de garde, presente letitre du corpus, son nombre total de pages et donne acces aux pages suivantespar des liens hypertextuels.

La figure 4.1 page suivante presente un exemple de page d’edition compor-tant une image et correspondant a un extrait d’un journal Le Monde date du 13Aout 1992. Cette page est la 67ieme du corpus PURIF2-ENONCE-SUP-MDEqui constitue l’extrait d’enonces (ENONCE) du journal «Le Monde» (MDE)d’un corpus d’etude (PURIF2) sur l’expression de la notion de «purificationethnique» contrastant diverses publications ou supports (SUP) [?]. Elle se com-pose d’une image et de son commentaire qui est a l’origine du reperage de la pagepar une concordance de la forme ”dessin” (mise en evidence dans l’edition) dansle corpus (voir l’exemple de la concordance correspondante figure 4.2 page 59«concordance de la forme ”dessin”»). En dehors de la mise en evidence (in-duite par l’acces direct a cette page a travers un lien hypertextuel associe aune reference d’une des lignes de la concordance), en casse grasse, de la forme”dessin” dans la page, la typographie d’origine du corpus (ici choisie par lechercheur) est respectee : italiques, gras, . . . :

4.2 Edition en ligne du corpus

L’edition en ligne [Editionp] calcule au moment de son appel une page HTMLrendant compte de toutes les informations disponibles sur les occurrences ducorpus. Il permet, par exemple, de visualiser les categories morpho-syntaxiquesassociees a chaque occurrence ainsi que les limites de phrases, qui sont exploiteesdans les expressions CQP. Dans le formulaire, le nombre de lignes affichees dans

Page 57: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

4.2. EDITION EN LIGNE DU CORPUS 57

Fig. 4.1 – 67ieme page du corpus PURIF2-ENONCE-SUP-MDE.

Page 58: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

58 CHAPITRE 4. RECHERCHE ET NAVIGATION DANS LE CORPUS

les resultats permet de restreindre le nombre de phrases generees. Il s’agit encored’un outil rudimentaire.

4.3 Concordances d’une expression CQP

Les concordances calculees automatiquement ne sauraient pretendre concur-rencer l’edition raisonnee de concordances d’une monographie avec toutes lesconnaissances et le savoir-faire du facteur de concordances qui les a produites.Les concordances de weblex, calculees automatiquement, tentent malgre tout defaire de leur mieux la ou la machine est la plus performante :

– en permettant d’exprimer une expression de recherche precise portant surune sequence d’occurrences quelconque (a comparer a la concordance glo-bale classique) melant simultanement la morphologie et les proprietes desoccurrences et pouvant les contraindre a se trouver dans un contexte par-ticulier (voir la section 4.4 page suivante «Syntaxe et usage du langaged’interrogation du moteur de recherche CQP» pour la formulation desrequetes) ;

– en offrant des tris multi-criteres des contextes de l’expression rechercheeafin d’obtenir rapidement une synthese des differents contextes d’appa-rition (a comparer a l’ordre standard des concordances classiques) (voirla section 7.3.5 page 119 «parametres de tri des concordances» dans ladocumentation du formulaire) ;

– en facilitant l’acces au contexte elargi de chaque occurrence du pivot gracea un lien hypertextuel renvoyant directement a la lecture de la page del’edition, avec une mise en evidence de la ou des occurrences du pivot ;

– en offrant un niveau de precision quelconque du reperage des expressionsrecherchees en permettant a l’integrateur du corpus de definir a sa conve-nance la reference que prendra chaque ligne de concordance ;

– en proposant une edition confortable et souple a la lecture : a l’aide de latypographie HTML, des ascenseurs, . . .

Le moteur de recherche elabore de weblex repose sur celui de l’outil CQPde l’institut IMS de l’Universite de Stuttgart [?]. CQP a ete concu par OliverChrist [?].

L’affichage des concordances comporte trois parametres (pour une descrip-tion precise des reglages voir la section 7.3.5 page 119 «Affichage des concor-dances») :

– le nombre de caracteres composant les contextes a gauche du pivot (uncontexte s’interrompra toujours sur une frontiere d’occurrence) ;

– le nombre de caracteres composant les contextes a droite du pivot ;– le type de formatage du texte des contextes et celui du pivot.Les concordances peuvent etre triees selon 4 cles de tri successives selon les 5

champs composant chaque ligne de concordance, soit respectivement de gauchea droite :Reference la reference dans le corpus de l’occurrence du texte du pivot. Cette

reference a ete construite au moment de l’integration du corpus dans we-blex. Son contenu et son format dependent des choix d’integration du cor-pus. En general ses composantes sont separees par une virgule ;

Segment le numero de page dans l’edition en ligne du corpus (separe de lareference par un caractere «/»). Page vers laquelle la reference est elle-

Page 59: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

4.4. SYNTAXE DU LANGAGE D’INTERROGATION CQP 59

meme un lien hypertextuel. La numerotation des segments est independantedes choix de construction de la reference au moment de l’integration ducorpus ;

Contexte gauche le texte situe a la gauche du pivot, aligne a droite (contrele pivot) ;

Pivot le pivot mis en evidence (en casse grasse par defaut) et centre. Le texte dupivot correspond a la suite des occurrences du corpus correspondant a larequete du moteur de recherche. Dans le cas d’expressions CQP contenantdes portions generiques, le texte du pivot est de taille variable ;

Contexte droit le texte situe a la droite du pivot, aligne a gauche (contre lepivot).

Les figures 4.2 et 4.2, (resp.) page de la presente page et de la presente page,presentent des exemples de concordances.

Fig. 4.2 – extrait d’une concordance de la forme ”dessin” dans un corpus d’ex-traits d’articles du journal Le Monde. En cliquant sur la reference MDE 13-08-92, p. 67 l’utilisateur accede directement a la page de l’edition correspondante(voir l’exemple de page d’edition ci dessus).

Concordance de la forme ”aspirations” dans le congres CFDT de1973

4.4 Syntaxe et usage du langage d’interrogation du

moteur de recherche CQP

Le langage du moteur de recherche permet d’exprimer l’apparition d’oc-currences d’evenements dont la morphologie, les proprietes et le contexte sont

Page 60: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

60 CHAPITRE 4. RECHERCHE ET NAVIGATION DANS LE CORPUS

specifies dans un filtre ecrit dans un langage original. C’est la richesse des pos-sibilites d’expression qui permet de qualifier ce filtre de «langage formel» d’in-terrogation. L’expression, dans ce langage, obeit a une syntaxe formelle qui seraintroduite progressivement dans cette section puis reprise exhaustivement dansune section de reference page 133. Mais gardez a l’esprit que cette syntaxe n’estqu’un substrat (parmi d’autres) d’un esprit d’interrogation ou de designationparticulier concu specifiquement pour la recherche d’evenements textuels. Dansla suite de ce manuel nous designerons indifferemment le filtre de recherche par«requete de recherche CQP» ou «expression d’une succession d’occurrences» ou«expression CQP». Le nom CQP est forme des initiales du nom Corpus QueryProcessor, soit litteralement «processeur de requetes de corpus».

Il est important de noter qu’a l’arrivee dans weblex les occurrences sont dejaidentifiees et donc segmentees et pre-indexees. Par ailleurs, le benefice du typage(ou de l’etiquetage de proprietes au sens large) des occurrences dans weblexdepend des operations de codage realisees sur le corpus (voir la section LML dumanuel du Codeur)). Par defaut un corpus n’est pas etiquete.

La recherche d’une expression CQP s’effectue dans la totalite du corpus pourn’importe quelle suite d’occurrences. Nous allons progressivement presenter danscette section les caracteristiques fondamentales de l’expression de la morpholo-gie des occurrences de formes dans le corpus. La generalisation a l’expressionde l’ensemble des proprietes d’une occurrence (lemme, partie du discours, pro-priete liee a une problematique de recherche, . . .) sera l’objet d’une section plusavancee.

4.4.1 Expression de la morphologie des formes des occurrencesrecherchees

La propriete fondamentale (et l’interet premier) du langage CQP est sontdouble niveau de genericite dans l’expression des requetes de recherche. Pargenericite nous entendons la possibilite de denoter partiellement l’occurrenced’un evenement. Par exemple on peut exprimer dans ce langage «je desire avoira cet endroit dans l’expression l’occurrence d’une forme se terminant par lescaracteres ’ent’». Cette expression partielle de la forme (on ne s’interesse iciqu’a sa terminaison) permettra a toutes les occurrences de formes se termi-nant en ’ent’ d’etre candidates au resultat de la recherche. Si, pour le corpusetudie, la terminaison en ’ent’ peut s’interpreter comme etant l’apparition d’unevenement particulier (ici grossierement la troisieme personne du pluriel de laconjugaison de verbes) et homogene (attention aux ambiguıtes, ici fin d’adverbeou de substantif par exemple), alors l’expression CQP exprimera l’apparitiond’evenements plus generaux que la simple apparition d’une forme particuliere.Pour justifier la pertinence de cet exemple simple il faut noter que l’expressiond’autres contraintes dans l’expression permet souvent de limiter la recherche al’apparition de l’evenement voulu malgre les recoupements possibles avec l’ap-parition d’autres evenements indesirables (en utilisant le forcage de la partie dudiscours “Verbe” par exemple). Par ailleurs ce langage permet d’exprimer desmorphologies plus contraintes a travers un prefixe, des caracteres constituants,une «racine» particuliere, etc. . .Enfin le recoupement avec l’expression simul-tanee d’autres proprietes des occurrences sert souvent a specifier plus encore larecherche. La genericite de l’expression de la propriete d’une occurrence (parexemple ici sa forme) constitue le premier niveau de genericite du langage.

Page 61: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

4.4. SYNTAXE DU LANGAGE D’INTERROGATION CQP 61

Le deuxieme niveau de genericite porte sur l’expression des contraintes ca-racterisant les occurrences elles-memes et leur nombre. Par exemple on peutexprimer dans ce langage «je desire avoir entre 1 et 3 occurrences particulieresentre telles occurrences» ou bien «eventuellement une occurrence particuliereici dans l’expression».

Nous allons maintenant introduire progressivement ces deux niveaux d’ex-pression qui s’imbriquent naturellement.

4.4.2 Premier niveau : proprietes d’une occurrence

Pour l’expression d’un mot unique le filtre correspond a la forme citeelitteralement2. Par exemple :

– pour obtenir la concordance de toutes les occurrences de la forme «im-migre» dans le texte, on saisit dans le champ Source A : immigrepour un ensemble de formes correspondants a un patron lexical unique lefiltre correspond a une expression reguliere ;

– pour obtenir la concordance de toutes les occurrences de formes ayantpour racine «immigr», on saisit dans le champ Source : immigr.*le caractere . signifie «n’importe quel caractere de l’alphabet ou autre».Le caractere * signifie «entre 0 et n occurrences de l’expression se trouvantsyntaxiquement a gauche dans le filtre (ici le point ”.”)». Donc, en tout,les caracteres i, m, m, i, g, r suivis eventuellement d’autres caracteres ;

– pour obtenir la concordance de toutes les occurrences soit de la forme ”en-vironnement”, soit ”ENVIRONNEMENT” ou ”Environnement”, on saisitdans le champ Source :”environnement|ENVIRONNEMENT|Environnement”

le caractere ’|’ denote la disjonction entre plusieurs expressions regulieres.Soit ici le choix entre les formes ”environnement”, ”ENVIRONNEMENT”ou encore ”Environnement”. Le caractere ’”’ delimite l’expression d’uneseule occurrence (voir aussi pour cet exemple la section 4.4.6 page 64 «Mo-difieurs relachant les contraintes de casse et de signes diacritiques»).

4.4.3 Deuxieme niveau : succession d’occurrences

Pour une succession de n mots, on encadre les expressions precedentes parun caractere ’”’ et on enumere les filtres de chaque mot. Par exemple :

– pour obtenir la concordance de toutes les occurrences de la lexie «immigra-tion irreguliere», on saisit dans le champ Source : ”immigration” ”irreguliere” ;

– pour les racines, on saisit Source : ”immigr.*” ”irreguli.*” .

Comme on peut s’en douter, intuitivement, le filtre ”.*” represente un mot

quelconque. Qui s’exprime aussi [] .

le filtre []* represente un nombre quelconque de mots (eventuellement nul).Par exemple :

– pour obtenir la concordance de toutes les occurrences d’une succession de«lutt-» suivi de «immigr-» eventuellement separes par quelques mots, onsaisit dans le champ Source : ”lutt.*” []* ”immigr.*” .

2pour rester homogene avec l’expression des poles de lexicogrammes.

Page 62: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

62 CHAPITRE 4. RECHERCHE ET NAVIGATION DANS LE CORPUS

Remarque 1 : Comme la segmentation du texte a deja ete realiseeavant l’entree dans weblex, on peut ou non avoir des mots composesdont les elements sont separes par des blancs. Par exemple, la re-cherche de la lexie «pomme de terre» s’exprimera ”pomme de terre”si le segmenteur a reconnu cette lexie en tant que telle ou bien”pomme” ”de” ”terre” si le segmenteur n’a pas compose les mots.

En ce qui concerne le moteur de recherche, un mot peut etre composede n’importe quel caractere qui ne soit pas un operateur d’expressionreguliere, l’espace ” ” en est un exemple.

Remarque 2 : Le deuxieme niveau de genericite du langage d’in-terrogation (celui des occurrences) entraıne naturellement une va-riation dans la longueur (en nombre d’occurrences) des evenementstextuels recenses. Ce qui peut parfois surprendre pour certains cal-culs classiques comme celui des concordances. Tous les resultats descalculs de weblex portant sur des expressions CQP (concordances,index, repartition, specificites, . . .) sont formates en consequence.Dans l’implementation actuelle de weblex le caractere separateurd’occurrences dans l’affichage des resultats d’un calcul est l’espace.

4.4.4 Expression des limites du contexte de recherche

Par defaut, la recherche des occurrences correspondant a une expression estrealisee dans l’ensemble du texte. Dans le cas de filtres generiques, par exemplecontenant des expressions de la forme []* qui peuvent «attraper» un nombrevariable d’occurrences, la partie de texte variable aura une taille maximalepredefinie et fixe (typiquement de l’ordre de 3000 occurrences maximum).

Pour limiter les expansions de recherches a une fenetre d’occurrences de taillefixe, l’operateur within permet de choisir la dimension voulue. Ceci permet delimiter l’expansion de toutes les parties generiques de filtres (terminees en *, +,. . .). Par exemple :

– les resultats de la recherche de l’expression ”lutt.*” []* ”immigr.*” within 10seront composes d’au plus 10 occurrences.

Cet operateur permet aussi de borner les recherches d’expressions aux li-mites de la macro-structure du texte du corpus. Par exemple, pour limiter lesrecherches aux contenus de phrases on peut utiliser l’operateur within s (s pour«sentence») qui contraint l’ensemble du filtre a se realiser a l’interieur d’unephrase. Par exemple :

– pour contraindre la recherche de «lutt-» suivi de «immigr-» a des occur-rences se trouvant dans la meme phrase, on saisit dans le champ Source :”lutt.*” []* ”immigr.*” within s

C’est ce type de filtre que nous utilisons pour declencher le calcul de concor-dances de couples de cooccurrents a partir des lexicogrammes.

Les outils d’extraction de corpus de la textotheque LML permettront decreer d’autres types de contextes que la phrase au moment de l’integration ducorpus dans weblex (par exemple : des limites de syntagmes, de paragraphes, desections, . . .).

Page 63: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

4.4. SYNTAXE DU LANGAGE D’INTERROGATION CQP 63

4.4.5 Expression generale de toutes les proprietes des occur-rences (forme, morpho. . .)

Le moteur de recherche CQP permet non seulement de rechercher des oc-currences dans un corpus en fonction de la morphologie de leur forme lexicale(recherche dont la presentation etait l’objet de la section precedente) mais sur-tout en fonction de la valeur de n’importe quelle propriete leur etant associee :partie du discours, lemme, propriete semantique, pragmatique, propre a deshypotheses de recherche, etc. La disponibilite de toutes ces proprietes (a partla forme systematiquement presente) depend du travail d’encodage du corpusrealise en amont de weblex.

4.4.6 Expression d’occurrence

On nomme «expression d’occurrence» une expression entre crochets (car ellene peut designer qu’une seule position dans le corpus a la fois). Cette expressionest composee de conditions sur les valeurs des proprietes de l’occurrence. Parexemple la condition ’ pos! =”verbe” ’ impose a l’occurrence candidate de nepas etre un verbe (c’est-a-dire plus prosaıquement que la valeur de la proprietepos de l’occurrence ne doit pas etre verbe). Les contraintes portant sur la valeurd’une propriete s’expriment soit avec des operateurs booleens : egalite «=»,difference «! =» ; soit avec des operateurs de comparaison d’ordre : plus grandque ou egal a «>=», etc («>», «<=», «<»). La valeur demandee (a droitedans l’expression) est une expression reguliere quelconque. Ceci offre ce quenous avons appele la genericite d’expression de premier niveau de toutes lesproprietes d’occurrences.

A l’interieur de cette expression les valeurs de proprietes sont composablesavec une disjonction «|», une conjonction «&», la negation « !» et le regroupe-ment avec les parentheses «(» . . .«)». Par exemple, l’expression :[(lem=”lutte” | lem=”combat”) & p4=”pluriel”] exprime l’apparition d’occur-

rences dont le lemme est soit «lutte» soit «combat» et dont le trait p4 a la va-leur «pluriel» (on suppose , dans cet exemple, que la propriete «p4» du corpusdenote le trait «nombre» de l’occurrence et que ses valeurs sont soit «pluriel»soit «singulier»).

Designation abregee de la forme des occurrences

D’apres la syntaxe precedente l’expression d’occurrences dont la forme com-mence, par exemple, par le caractere ’l’ devrait ressembler a quelque-chosecomme [word=”l.*”] (la propriete word encode toujours la forme des occur-rences du corpus). Dans la mesure ou la forme des occurrences est souvent ex-primee dans les expressions d’occurrences, on admet qu’une expression d’occur-rence de la forme ”l.*” soit equivalente, implicitement, a l’expression complete

[word=”l.*”] . C’est-a-dire que lorsqu’on ne precise pas de quelle propriete ondesire la valeur dans une expression il s’agit implicitement de celle de la forme.

Cette regle explicite l’ecriture de tous les exemples de la section 4.4.1 page 60«Expression de la morphologie des formes des occurrences recherchees».

Page 64: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

64 CHAPITRE 4. RECHERCHE ET NAVIGATION DANS LE CORPUS

Modifieurs usuels des conditions portant sur les valeurs de proprietes

Toute condition portant sur les valeurs d’une propriete peut etre assortied’un modifieur modulant legerement l’interpretation des valeurs desirees. Cemodifieur doit toujours etre place a la fin de la condition. Le langage CQPpropose deux modifieurs usuels tres pratiques :

– la possibilite de ne pas differencier la casse des caracteres (minuscule/maj-uscule) dans les chaınes de caracteres analysees : modifieur ’%c’- par exemple, l’expression [word=”environnement.*”%c] recherchera toutesles occurrences des formes de prefixe ”environnement” quelle que soit lacasse : environnement, environnements, Environnement, ENVIRONNE-MENTS, etc.

– la possibilite de ne pas differencier les signes diacritiques poses sur cer-taines lettres de l’alphabet : modifieur ’%d’- par exemple, l’expression [word=”e.*e”%d] recherchera toutes les oc-currences des formes commencant par une des lettres «e», «e», «e», «e»,«e» et se terminant par une des memes lettres : etre, entre, ete, etc.

Usage des patrons de valeurs de proprietes

Les valeurs de proprietes sont traitees comme des chaınes de caracteres, ellespeuvent donc etre quelconques. Il est de la responsabilite du codeur de fournirun corpus dont l’etiquetage soit coherent et de donner l’interpretation exactedes valeurs de proprietes. Le moteur de recherche ne fait aucune suppositionsur ces valeurs, ce qui permet souvent de realiser un decodage des informationsd’etiquetage dans le filtre de recherche.Par exemple, si le codage des categories grammaticales associees a chaque oc-currence commence systematiquement les valeurs de la propriete pos par v-pour tous les verbes, alors un filtre comme [pos=”v.*”] recherchera toutes lesoccurrences de verbes dans le texte. Si, de plus, on a opere un codage d’attri-buts a l’interieur meme des valeurs de proprietes - par exemple : v13s=verbe1er groupe 3ieme personne du singulier, v13p=verbe 1er groupe 3ieme per-sonne du pluriel, etc - alors les expressions regulieres permettent de realiser despseudo-recherches par attributs de valeurs de proprietes - par exemple, le filtre[pos=”v.3.”] recherchera tous les verbes conjugues a la troisieme personne (ici

le codage repose sur les valeurs possibles de certaines lettres a une positiondonnee dans l’etiquette). Bien sur ce type de recherche par destructuration a lavolee depend etroitement du travail d’encodage du corpus realise en amont.

Etiquetage par defaut

Par defaut, les corpus constitues pour weblex sont etiquetes avec une pro-priete pos codant des informations minimales sur les unites lexicales. Le seg-menteur par defaut distingue les mots («mo») de la ponctuation (faible «po»ou forte «pf») et certains noms propres («np» en fonction du codage Ma-chinal). Differents etiqueteurs morpho-syntaxiques/lemmatiseurs ont deja eteexperimentes mais leurs performances limitent pour l’instant leur usage a laphase d’encodage de corpus en LML en amont de weblex. Nous avons concul’application CorTeCs [?] pour pouvoir mettre au point l’etiquetage d’un corpus

Page 65: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

4.4. SYNTAXE DU LANGAGE D’INTERROGATION CQP 65

avant son integration a weblex.

4.4.7 Expression d’une succession d’occurrences

L’expression d’une succession d’occurrences est l’interpretation maximaled’une expression CQP. Elle est obtenue par la juxtaposition de plusieurs ex-pressions d’occurrences entre crochets ([]). Elle correspond donc a la recherchesimultanee de plusieurs occurrences obeissant a certaines contraintes.

Par exemple, l’expression[(lem=”lutte” | lem=”combat”) & p4=”pluriel”] [pos !=”verbe”]*[word=”immigr.*” & pos=”verbe”] within p

exprime l’apparition d’une succession d’occurrences du corpus composee d’uneforme dont le lemme est soit «lutte» soit «combat» ayant un trait p4 a la valeur«pluriel», suivie de 0 a n occurrences qui ne doivent pas etre un verbe, elles-memes suivies d’un verbe dont la racine est «immigr», le tout a l’interieur d’unparagraphe. (on suppose dans cet exemple que la delimitation des paragraphesa ete encodee au moment de l’integration du corpus dans weblex ).

Cette genericite d’expression de deuxieme niveau (concernant les occurrenceset non plus seulement les valeurs de proprietes d’occurrences) s’exprime a l’aided’operateurs equivalents a ceux des expressions regulieres mais portant mainte-nant non plus sur les caracteres des valeurs de proprietes mais sur les occurrencesdu corpus.

On trouve ainsi les moyens d’exprimer :– la succession d’occurrences par juxtaposition des expressions d’occurrences

[. . .] [. . .] . Exemple : [word=”[jJ]e|[nN]ous”] [pos=”verbe”]– la disjonction d’occurrences par l’operateur ’|’. Exemple :

[word=”environnement”] | [word=”milieu”]– la repetition variable d’occurrences par les operateurs «*» et «+». Exemple :

[pos != ”verbe”]*– la repetition generale d’occurrences par l’operateur d’intervalle de la forme

«n», «n,» ou «n,m» :

[. . . {n} ] pour exactement n occurrences de l’expression d’occurrenceprecedente ;

[. . . {n,} ] pour au moins n occurrences de l’expression d’occurrenceprecedente (l’operateur «*» est equivalent a l’operateur «0,» et «+»a «1,») ;

[. . . {n,m} ] pour entre n et m occurrences de l’expression d’occurrenceprecedente (l’operateur « ?» est equivalent a l’operateur «0,1»).

Exemple :[lem=”prendre”] [pos !=”verbe”]0,10 ”a” ? ”a ?.*contre- ?pied” (on desire

au maximum 10 occurrences qui ne soient pas des verbes entre une occur-rence du lemme «prendre» et celles de formes composant ”a contre-pied”selon diverses segmentations) ;

– l’eventualite d’occurrence par l’operateur « ?»– le regroupement d’occurrences par les operateurs «(» . . .«)». Exemple :

(”ville” ”de”) ? ”Paris”

Page 66: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

66 CHAPITRE 4. RECHERCHE ET NAVIGATION DANS LE CORPUS

Remarque 1 : certains operateurs portant sur les expressions d’oc-currences ont un nom et une syntaxe analogues aux operateurs por-tant sur les valeurs de proprietes d’occurrences pour des raisonsd’homogeneite. Par exemple, l’ecriture de l’expression d’occurrence"[a-z]*" qui signifie «occurrence dont la forme est composee de

0 a n caracteres minuscules» sera analogue a l’ecriture de l’expres-sion d’une succession d’occurrences [pos="adj"]* qui signifie «de0 a n occurrences d’adjectifs». Donner un nom identique a un mememecanisme dans deux univers distincts (celui des caracteres et ce-lui des occurrences) est classique et aide l’apprentissage. Mais ilfaut parfois rester vigilant lors de la lecture d’une expression CQPcomplexe quant a l’application exacte (et a l’interpretation) de sesoperateurs. Par exemple, une expression de la forme [pos="a.*"]*

signifie l’apparition de 0 a n occurrences d’une forme dont le nomde la partie du discours commence par la lettre ’a’ comme «adjec-tif», «adverbe», . . .Dans cet exemple la premiere etoile de Kleene(sur les caracteres) s’applique au caractere ’a’ et la deuxieme (surles expressions d’occurrences) s’applique a l’ensemble de l’expres-sion d’occurrence [pos=”a.*”] . Donc ces deux caracteres ’*’ bienqu’identiques a la lecture prennent une interpretation tres differenteselon leur contexte d’apparition.Voir aussi la section 9.4.1 page 138 «Homographies entre les operateursde chaque niveau d’expression».

Remarque 2 : l’espace des occurrences etant construit sur celui descaracteres, qui eux-memes composent la valeur des proprietes d’oc-currences (comme la propriete word pour la forme de l’occurrencepar exemple), la genericite d’une expression CQP peut parfois s’ex-primer de maniere equivalente soit au niveau des occurrences soitau niveau des valeurs de leurs proprietes. Par exemple, l’expression[pos=”adjectif”] | [pos=”adverbe”] exprimera la meme requete que

l’expression [pos=”adjectif|adverbe”] . Dans le premier cas l’operateurde disjonction ’|’ porte sur les possibilites d’occurrence voulues alorsque dans le deuxieme cas elle porte sur les valeurs possibles de sapropriete pos. Ces deux expressions sont formellement identiqueset l’usage d’un niveau d’expression plutot qu’un autre depend despreferences de l’utilisateur. D’un point de vue pratique il faut cepen-dant savoir que les operateurs portant sur le niveau des expressionsd’occurrences sont analyses plus efficacement (c’est-a-dire plus ra-pidement) que les operateurs portant sur le niveau des valeurs deproprietes de ces occurrences. Ce qui peut influencer les temps dereponse dans le cas de corpus de dimensions importantes.Veuillez enfin noter que dans le cas des expressions d’occurrences,le caractere espace situe entre les operateurs n’est pas interpreteet sert seulement a ameliorer la lisibilite de l’expression. Ainsi dansl’exemple precedent [pos=”adjectif”] | [pos=”adverbe”] , l’espace situeautour de la disjonction ’|’ aurait pu etre repete sans modifier l’in-terpretation de l’expression. Par contre dans le cas des expressions

Page 67: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

4.4. SYNTAXE DU LANGAGE D’INTERROGATION CQP 67

portant sur les valeurs de proprietes l’espace est un caractere in-terprete comme les autres. Donc dans l’exemple precedent une ex-pression de la forme [pos=”adjectif | adverbe”] aurait signifie unerecherche d’occurrence dont la valeur de pos soit egale a «adjectif»ou « adverbe» (notez les insertions malencontreuses du caractereespace) ce qui est different des valeurs «adjectif» ou «adverbe» .

4.4.8 Expression de contraintes entre les occurrences

Pour exprimer des contraintes entre les occurrences elles-memes en plus decelles propres aux proprietes d’occurrences seules, le langage CQP offre le moyend’etiqueter une occurrence particuliere afin de faire reference a la valeur d’une deses proprietes dans l’expression d’une autre occurrence. Par exemple, pour accor-der le nombre d’un determinant a celui d’un verbe dans une expression CQP onpourrait s’exprimer par a :[pos=”determinant”] []* [pos=verbe & p4=a.p4] within sen supposant que la propriete p4 encode le trait «nombre des occurrences». Danscet exemple on a nomme (etiquete) l’occurrence d’un determinant a en prefixantl’expression de son occurrence par a :. Puis on a fait reference a la valeur de sapropriete p4 en «ouvrant» son etiquette a la propriete p4 par l’expression a.p4.

Proprietes des references

– le nom d’une expression d’occurrence est un identificateur quelconque aspecifier devant un caractere ’:’ prefixant l’expression d’occurrence ;

– on ne peut faire reference a une valeur de propriete d’occurrence que sicette derniere a ete nommee et precede l’occurrence a contraindre ;

– dans le cas d’expressions generiques, l’etiquette d’une occurrence nonreperee n’est pas dereferencable (toute expression y faisant reference serafausse) ;

– dans le cas de repetitions (∗, +, . . . ), le nom sera attribue a la derniereoccurrence de la repetition.

Remarque : ce mecanisme est le seul moyen de relier entre ellesles differentes contraintes portant sur une occurrence donnee aveccelles d’une autre occurrence dans une expression CQP. Il offre enquelque sorte un TROISIEME NIVEAU d’expression de contraintesen reliant entre elles celles des deux niveaux precedents.

4.4.9 Expansion du resultat des recherches

Plutot que de se limiter a ne rendre compte que des occurrences corres-pondant exactement a une expression CQP donnee, les resultats de recherchespeuvent etre etendus a l’environnement entourant la requete initiale. Le resultatpeut etre soit etendu a n occurrences aux alentours des occurrences trouvees (parexemple 10 occurrences avant et 10 occurrences apres en plus des occurrencestrouvees) soit etendu a l’integralite des occurrences situees a l’interieur d’unemacro-structure particuliere contenant le resultat (par exemple l’ensemble desoccurrences composant les phrases ou les paragraphes ou les occurrences ont etetrouvees). Par exemple :

Page 68: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

68 CHAPITRE 4. RECHERCHE ET NAVIGATION DANS LE CORPUS

– l’expression [word=”immigr.*” & pos=”verbe”] expand to 30 etendra leresultat de l’expression aux 30 occurrences precedant et suivant les occur-rences specifiees par l’expression ;

– l’expression [word=”immigr.*” & pos=”verbe”] expand right to 10 etendrale resultat aux 10 occurrences suivant les occurrences specifiees par l’ex-pression ;

– l’expression [word=”immigr.*” & pos=”verbe”] expand to s etendra leresultat a l’ensemble des occurrences composant les phrases contenantl’expression.

Remarque : cet operateur particulier permet d’extraire commodementdes sous-corpus bases sur l’occurrence d’expressions CQP.

4.5 Index d’une expression CQP

Independamment de la synthese triee du contexte d’apparition d’une expres-sion CQP particuliere (cf. la section 4.3 page 58 «Concordances d’une expressionCQP»), on s’interesse souvent au simple recensement des differentes realisationsde cette expression a travers l’ensemble du corpus (c’est a dire aux differents pi-vots de la concordance correspondante). Ceci est l’objet du calcul d’index d’uneexpression CQP.

Dans weblex, la forme que peut prendre l’apparition d’une occurrence d’ex-pression CQP dans le corpus peut etre composee a l’aide de plusieurs infor-mations. La representation de cette apparition peut etre composee au choix de(voir la section 7.3.5 page 118 «Affichage d’un index d’expression CQP») :

– la forme des occurrences correspondantes ;– la categorie morpho-syntaxique de chaque occurrence ;– le lemme de chaque occurrence ;– et, a terme, une combinaison de n’importe quelles proprietes des occur-

rences couvertes par l’expression.

Dans l’implementation actuelle de weblex, les compositions de pro-prietes separent les valeurs par le caractere ’/’.

Par exemple, un index d’expression CQP represente par leurs formes seulesrend compte des syntagmes de surface recherches. Par contre, une compositionde leur categorie morpho-syntaxique rendra plutot compte des successions decategories a l’origine de ces syntagmes.

Par defaut, l’index d’une expression CQP est trie par frequence decroissantede la representation de chaque occurrence, puis alphabetiquement par la re-presentation choisie en cas d’egalite de la frequence.

Exemple : une ventilation des indexes de deux expressions CQP, [Nn]ature.*

et [Ee]nvironnement.* , a travers les differentes revues ecologiques d’un corpuscontrastant differentes publications [?]. Comme le corpus ecologie-div-title surlequel s’applique ce calcul d’index d’expressions CQP est partitionne, il s’agitde deux iterations successives, sur l’ensemble des revues, du calcul de l’indexdes occurrences de formes de chaque expression. Pour obtenir un point de vueplus synthetique de la repartition de ces deux expressions a travers les revuescorrespondantes vous pouvez consulter l’exemple de calcul de specificite de ces

Page 69: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

4.5. INDEX D’UNE EXPRESSION CQP 69

deux expressions CQP dans les memes conditions experimentales (voir la sec-tion 6.5 page 93 «Specificite d’une ou de plusieurs expressions CQP»).

Index itere des formes de l’expression [Nn]ature.*

Index des occurrences de [Nn]ature.* dans le corpus ecologie/div title=AN

271 nature177 naturel113 naturels91 naturelles50 Nature18 naturelle7 naturellement5 Naturels3 Naturel3 natures1 Naturelle1 nature-espace

740 au Total

Index des occurrences de [Nn]ature.* dans le corpus ecologie/div title=CN

311 nature111 Nature74 naturel54 naturels42 naturelles14 naturelle5 naturellement2 Naturel1 Nature-Environnement1 Naturelle1 Naturellement1 Naturelles1 Naturels

618 au Total

Index des occurrences de [Nn]ature.* dans le corpus ecologie/div title=VC

58 nature21 naturels17 naturelles13 naturel7 Nature6 naturelle2 naturellement

Page 70: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

70 CHAPITRE 4. RECHERCHE ET NAVIGATION DANS LE CORPUS

124 au Total

Index des occurrences de [Nn]ature.* dans le corpus ecologie/div title=EP

287 nature58 naturelles46 naturel26 naturels8 naturelle7 Nature2 Naturellement2 naturellement1 Naturelle

1 Naturesschutzring1 nature-jardin

439 au Total

Index itere des formes de l’expression [Ee]nvironnement.*

Index des occurrences de [Ee]nvironnement.* dans le corpus ecologie/div title=AN

1259 environnement214 Environnement48 environnementale18 environnementales11 environnemental11 environnementaux7 environnements4 environnementaliste3 environnementalistes2 environnementalisation1 Environnement-Developpement1 environnement-developpement1 environnement-sante1 environnement/developpement

1581 au Total

Index des occurrences de [Ee]nvironnement.* dans le corpus ecologie/div title=CN

497 environnement86 Environnement6 environnementalistes5 environnementaux3 environnementale3 environnementaliste2 environnemental

Page 71: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

4.6. REPARTITION D’UNE EXPRESSION CQP 71

2 environnementalisme1 Environnementaliste1 environnementales

606 au Total

Index des occurrences de [Ee]nvironnement.* dans le corpus ecologie/div title=VC

337 environnement32 Environnement12 environnementale10 environnementales3 environnementalistes3 environnementaux2 environnemental2 environnementalisme1 environnementaliste

402 au Total

Index des occurrences de [Ee]nvironnement.* dans le corpus ecologie/div title=EP

621 environnement61 environnementale47 environnementales38 environnementaux25 environnementalistes23 environnemental15 Environnement11 environnementalisme8 environnementaliste3 environnements2 environnement-developpement1 environnement-entreprise1 environnementalism

856 au Total

4.6 Repartition d’une expression CQP

Apres s’etre interesse globalement a la repartition, au fil du corpus, de l’en-semble des formes du vocabulaire (voir la section 3.2 page 33 «Repartition ou«Rafales»») et les avoir classees les unes par rapport aux autres en consequence,on pourra s’interesser localement a la repartition d’une ou de plusieurs formesparticulieres. Dans weblex nous generalisons ce service au calcul de la repartitionde plusieurs expressions CQP quelconques (rappelons qu’une forme simple estune expression CQP valide dans weblex ).

Afin de presenter les resultats de la maniere la plus precise possible nousaffichons a la fois :

Page 72: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

72 CHAPITRE 4. RECHERCHE ET NAVIGATION DANS LE CORPUS

– l’indice de repartition de l’expression ;– l’histogramme cumule des apparitions, qui inclut le graphe de repartition

sur son axe des abscisses ;– l’histogramme en boıtes des apparitions, moins precis que le precedent

mais plus accessible en premiere lecture ;

Actuellement, dans weblex, le nombre d’expressions a rechercher si-multanement est limite a 3 : les sources A, B et C du formulaire.

En exemple, les figures 4.3 et 4.4 page suivante (resp.) page de la presentepage et page page suivante presentent la repartition des formes ”Lancelot” et”Galaad” au fil d’un texte d’ancien francais (XIIIieme siecle) contant l’histoirede la quete du Graal [?].

Fig. 4.3 – Graphe de repartition des occurrences des expressions Lancelot etGalaad dans le corpus qgraalc.

Page 73: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

4.6. REPARTITION D’UNE EXPRESSION CQP 73

Fig. 4.4 – Histogramme de repartition des occurrences des expressions Lancelotet Galaad dans le corpus qgraalc.

Page 74: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

74 CHAPITRE 4. RECHERCHE ET NAVIGATION DANS LE CORPUS

Page 75: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

Chapitre 5

Cooccurrences etlexicogrammes

5.1 Lexicogramme

La notion de lexicogramme a ete introduite par Maurice Tournier en ? [?].Un lexicogramme se compose d’une forme pole et de deux colonnes correspon-dant aux formes cooccurrentes avec le pole : celles apparaissant en general asa gauche dans le corpus et celles apparaissant a sa droite. Dans ces colonnesles formes (et par la-meme le couple qu’elle forme avec le pole) sont classees,par defaut, par leur probabilite de cooccurrence croissante (donc les couples lesplus etonnants en probabilite d’abord), puis par leur cofrequence, le nombremoyen d’occurrences qui les separent, etc. Dans weblex, les classements sontparametrables pour pouvoir les adapter a une problematique donnee. La pro-babilite de cooccurrence utilisee est identique a celle du calcul presente a lasection 3.4.4 page 48 «Cooccurrents» ou le calcul compare tous les couples deformes potentiels du corpus par rapport a cette mesure. On peut interpreterle lexicogramme comme une synthese de couples cooccurrents de la liste totalefocalisee autour d’une forme particuliere appelee pole. Une autre interpretationpossible est celle de la synthese du vocabulaire des contextes de concordancesdu pole ou l’on ne represente que les formes apparaissant le plus specifiquementavec ce pole.

Attention : dans cette version de weblex, tous les calculs mettant enœuvre la mesure statistique de cooccurrence (cooccurrents, lexico-grammes, lexicogrammes recursifs) s’appliquent exclusivement auxformes du corpus. Les conditions dans lesquelles on pourrait adapterla mesure de cooccurrence a la rencontre d’expressions CQP sont al’etude.

Afin de parcourir directement l’espace de cooccurrence induit par la mesurestatistique, ou de maniere analogue pour enchaıner les syntheses de concor-dances de contexte en contexte, weblex associe a chaque forme du lexicogrammeun lien hypertextuel vers le calcul du lexicogramme de la forme cooccurrenteelle-meme. Pour un corpus donne, en parcourant l’ensemble des liens disponibleson explore l’espace de cooccurrence induit par la mesure et les seuils associes.

75

Page 76: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

76 CHAPITRE 5. COOCCURRENCES ET LEXICOGRAMMES

C’est ce type de parcours qui a motive initialement notre mise en œuvre hy-pertextuelle de weblex. Par ailleurs, de maniere analogue a l’acces systematiquedans l’edition en ligne a l’apparition d’une occurrence correspondant a une lignede concordances, a travers un lien hypertextuel symbolise par la reference de laligne, dans les colonnes d’un lexicogramme chaque cofrequence de couple formeun lien hypertextuel vers le calcul de la concordance du couple (a l’aide d’uneexpression CQP). De meme, a chaque frequence totale de forme cooccurrenteest associe un lien vers sa concordance dans l’ensemble du corpus. Les lexico-grammes forment donc une couche supplementaire a l’hypertexte construit audessus de l’edition en ligne par les concordances.

Un lexicogramme est forme :– d’une ligne annoncant les differents seuils utilises pour elaguer les resultats.

Sans cette ligne, il est souvent difficile d’interpreter le lexicogramme. Elleest composee :– du seuil de frequence minimale de la forme analysee f ;– du seuil de cofrequence minimum cf ;– du seuil de probabilite de cooccurrence maximum fixe p ;– de la distance moyenne minimum dm.La description precise de ces differents parametres se trouve a la sec-tion 7.3.4 «Seuils d’elagage des resultats : elagage quantitatif» de la docu-mentation du formulaire page page 112. En rendant plus laches ces seuils,le lexicogramme peut virtuellement afficher tous les couples potentiels as-socies au pole dans un corpus donne. Dans ce cas limite, le calcul deconcordances triees avec un contexte restreint nous semble, en general,plus approprie.

– d’un pole, centre dans la partie superieure, dont on indique la frequencetotale entre parentheses ;

– de deux colonnes des formes cooccurrentes : cooccurrents gauches situees agauche du pole en probabilite dans le corpus, et cooccurrents droits situesa sa droite. chaque colonne est composee :– de la forme cooccurrente (lien hypertexte vers le lexicogramme de la

forme) ;– de sa frequence f (lien hypertexte vers la concordance de la forme) ;– de la cofrequence de cette forme avec le pivot cf (lien vers la concordance

du couple) ;– de la probabilite p de cooccurrence de la forme avec le pivot. Rappelons

que le calcul utilise est celui d’une estimation de la probabilite que cesdeux formes apparaissent le nombre de fois qu’on constate effectivementdans le corpus et plus encore a concurrence de la frequence la plus faibledes deux formes ;

– de leur distance moyenne en nombre d’occurrences dm.

Remarques :– pour une mise en œuvre «contrastive» du parcours de lexico-

grammes on peut consulter l’exemple de la section 1.4.3 page 15 «Lesoutils contrastifs» ;

– dans l’implementation actuelle de weblex, les lexicogrammes portentuniquement sur les formes du corpus.

La figure 5.1 page suivante presente un exemple de lexicogramme : le lexi-cogramme de la forme societe dans le corpus cfdt73 :

Page 77: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

5.2. LEXICOGRAMME RECURSIF 77

Seuils : f 3, cf 3, p 5.0E-2, dm 1000.0

societe(26)

cooccurrents gauches cooccurrents droitsf cf p dm f cf p dm

transformation 14 5 4.882e-04 3.0 socialiste 16 5 9.673e-04 3.8permettre 11 3 1.859e-02 21.7classe 40 5 4.827e-02 14.4

Tab. 5.1 – Lexicogramme du pole ”societe” dans le corpus cfdt731

5.2 Lexicogramme recursif

Pour un corpus donne, l’ensemble des lexicogrammes accessibles a partird’une forme particuliere, et des liens successifs a partir d’elle, forme une re-presentation de l’espace de cooccurrence du vocabulaire induit par notre mesurestatistique de cooccurrence pour une certain nombre de seuils fixes. L’objet ducalcul du lexicogramme recursif est d’afficher cette representation sous la formed’un graphe plan. Dans ce graphe chaque sommet (ou n œud) represente uneforme et chaque arc (ou lien oriente) represente une relation de cooccurrenceattestee par la mesure et les seuils, orientee de la forme situe a gauche (en pro-babilite) vers la forme situee a sa droite dans le corpus. Les premiers graphes delexicogrammes recursifs ont ete dessines manuellement par Maurice Tournier [?].Nous leurs avons simplement donne un nom2 et nous avons affine l’algorithmeinitial en le symetrisant de sorte a obtenir un parcours identique quelle quesoit la forme d’origine du graphe (la source) en explorant systematiquement levocabulaire jusqu’a saturation complete.

Dans les graphes de weblex, que l’on construit donc a l’aide d’un simple clic,chaque arc peut etre etiquete au choix par :

– la probabilite de cooccurrence correspondante ;– la partie entiere du logarithme en base 10 de la probabilite (grossierement,

son ordre de grandeur) ;– la cofrequence (qui est sensee etre moins precise que la probabilite mais

est tout aussi utile) ;– la distance moyenne entre les sommets (qui est tout a fait independante

de la probabilite et de la cofrequence).Chaque sommet forme un lien hypertexte vers le calcul du lexicogramme de

la forme correspondant au sommet (c’est une option). Le lexicogramme recursifforme donc une nouvelle couche hypertextuelle au dessus de celle des lexico-grammes, eux-memes situes au-dessus des concordances, elles-memes situees audessus de l’edition en ligne du corpus. En 3 clics vous pouvez donc lire un passagedu corpus en relation avec un sommet du lexicogramme recursif.

Une interpretation possible du graphe du lexicogramme recursif est la re-presentation d’une synthese de l’ensemble des lexicogrammes formant une com-

2le premier nom que nous avions trouve, “lexicographe”, n’a pas eu beaucoup de succes acause de son homonymie.

Page 78: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

78 CHAPITRE 5. COOCCURRENCES ET LEXICOGRAMMES

posante connexe de l’espace de cooccurrence du vocabulaire du corpus. Le lexico-gramme formant, pour sa part une synthese des concordances ou cooccurrences.Concordances qui forment, pour leur part, un recensement classe et referenced’occurrences en contexte. La reference d’une ligne de concordance donnantacces directement a l’occurrence correspondante dans l’edition en ligne du cor-pus.

En pratique, pour ce calcul, la principale contrainte rencontree est celle dela representabilite du graphe sur un ecran ou une page d’impression. En effet,le parcours direct du reseau des lexicogrammes peut former un graphe beau-coup trop dense sans precaution. Nous proposons donc au moins quatre moyensd’intervenir sur les dimensions du graphe resultant dans weblex :

– Soit vous augmentez les seuils de sorte a reduire le nombre de formespresentent dans le graphe. Par exemple, une option du formulaire (activepar defaut) vous permet de faire rechercher automatiquement 3 le meilleurseuil en probabilite p au moment du calcul pour obtenir un graphe composed’un nombre maximum de sommets (parametrable).

– Soit vous limitez le parcours recursif en l’empechant de s’eloigner de plusde pl sommets de la forme initiale (appelee la source). C’est l’objet duparametre palier pl de la rubrique des Seuils d’elagage des resultats du for-mulaire (cf. section 7.3.4 page 112 «Seuils d’elagage des resultats : elagagequantitatif»). Dans ce cas, le graphe obtenu n’est PAS sature et vous devezdonc tenir compte de la source du graphe pour son interpretation (un lexi-cogramme recursif sature est toujours le meme quel que soit son sommetde depart, la source n’a alors pas de role particulier pour l’interpretation) ;

– Soit vous intervenez sur la distance moyenne entre sommets dans le graphe.C’est l’objet du parametre «Distance entre sommets» (cf. section 7.3.5 page 122 «Af-fichage des lexicogrammes recursifs»).

– Soit vous faites generer une representation du graphe en plusieurs pages.C’est l’objet du format d’impression «Poster». Vous pourrez alors dessinern’importe quel graphe de maniere lisible. Mais vous devrez l’imprimer auprealable, sur plusieurs pages. Chaque page formera une portion du graphe(elle portera de petites coordonnees cartesiennes situees en bas a gauche de

3l’algorithme de recherche du meilleur seuil de probabilite p utilise une methode iterativede type Raphson-Newton : le seuil converge arithmetiquement et geometriquement vers lavaleur maximalisant le nombre de sommets du lexicogramme recursif, tout en gardant cettevaleur en deca du nombre limite de sommets autorises. Le seuil de probabilite initial est de10% de cooccurrence maximum entre les sommets. Pour chaque iteration, l’algorithme procedeau calcul du lexicogramme recursif accessible a partir de la source avec le seuil de probabilitecourant. Si, pendant le parcours, il y a depassement du seuil de sommets autorise, il y a unretour arriere du pas de recherche, division de ce pas d’un ordre de grandeur et passage al’iteration suivante. Si, apres 20 iterations, aucun graphe correspondant aux criteres n’a etetrouve, alors le calcul est abandonne. Dans ce cas vous devrez contraindre plus fortementles autres seuils disponibles (cofrequence, frequence, distance, . . .) pour obtenir un grapheaffichable (un calcul de lexicogramme tient toujours compte de l’ensemble des seuils du for-mulaire). Le choix de la probabilite p comme contrainte a optimiser (on aurait put choisir pl,cf, . . .) est le plus naturel car elle correspond a la meilleure estimation des liens de proximiteentre sommets que nous ayons. Dans certains cas de distributions de frequences de formes etde rencontres dans le corpus, le “relief” de l’espace de cooccurrence, que parcours l’algorithmeiteratif, peut s’averer trop peu marque pour permettre au seul seuil de probabilite de limiterles dimensions du graphe. Ca peut aussi etre le cas quand certaines formes tres frequentesdans le corpus font partie du graphe (on doit alors les “elaguer” du vocabulaire analyse al’aide de la retention de vocabulaire, cf. section 7.3.3 page 111 “Restriction du vocabulaire :elagage qualitatif”).

Page 79: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

5.2. LEXICOGRAMME RECURSIF 79

la feuille) qu’il faudra recomposer apres massicotage des bords de feuilles(desole mais aucune imprimante PostScript ne peut imprimer sur le bordd’une page).

Le role d’un lexicogramme recursif sera plutot celui d’une synthese de plu-sieurs lexicogrammes en relation, chaque sommet representant une version cond-ensee du lexicogramme accessible par son lien hypertextuel. Le lexicogrammeetant la representation la plus detaillee des relations entre les formes du voca-bulaire (avec la liste de tous les cooccurrents bien sur).L’affichage d’un lexicogramme recursif est compose :

– de la liste des seuils d’elagage utilises.Comme pour les lexicogrammes, l’affichage d’un lexicogramme recursifcommence par enumerer les valeurs de seuils d’elagage utilisees pour laconstruction du graphe :– du seuil de probabilite de cooccurrence maximum p (souvent ajuste

automatiquement par le calcul) ;– du seuil de cofrequence minimum cf ;– du seuil de frequence minimale de la forme analysee f ;– de la distance moyenne minimum dm ;– du nombre maximum de paliers pl.

– d’une synthese du graphe annoncant :– le nombre total de sommets du graphe ;– le nombre total d’arcs du graphe ;– la liste des sommets triee par le nombre decroissant d’arcs qui leur sont

relies (le nombre d’arcs est presente entre parentheses).– du graphe sous la forme d’une image.– d’une ligne de commentaire offrant un lien hypertextuel vers un fichier

de la version PostScript du dessin du graphe a eventuellement telechargerpour obtenir un graphe plus detaille (vous aurez besoin d’une imprimantePostScript pour l’imprimer). Depuis la version 2.0 de weblex un lien versune version PDF de l’image est disponible ;

– et, en option, des commentaires detailles de l’elagage realise et eventuel-lement des iterations de recherche du meilleur seuil en probabilite.

5.2.1 A propos de la lecture des differents types de dessins

Lors de l’affichage des graphes il y a plusieurs possibilites de placementdans le plan (ou sur la page de dessin si vous preferez) des differents sommetscorrespondant aux formes du vocabulaire et des arcs les reliant representantleur relation de cooccurrence s’ils en entretiennent une. Il y a deux possibilitesdifferentes de placement des sommets et des arcs dans weblex.

La methode de placement hierarchique

La premiere methode de placement (ou de dessin), qui correspond au place-ment par defaut, tache d’obeir aux contraintes (ou regles) suivantes :

– les arcs orientent le graphe de la gauche vers la droite du dessin. Donc uneforme a gauche dans un couple (en probabilite) doit se trouver a la gauchede sa forme cooccurrente dans le graphe ;

– en considerant les arcs comme des liens de parente, chaque generation desommet doit se trouver alignee verticalement ;

Page 80: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

80 CHAPITRE 5. COOCCURRENCES ET LEXICOGRAMMES

– les arcs ne doivent pas se croiser dans la mesure du possible ;– les arcs doivent etre le plus court possible.Tous les graphes dessines avec l’option par defaut de «placement hierarchique

gauche-droite» (et la plupart de ceux presentes dans ce manuel) obeissent a cescontraintes. Ils ont le merite de traduire visuellement la majorite des contraintesnaturelles de l’espace de cooccurrence represente par le lexicogramme recursif(voir l’exemple du corpus cfdt73 en placement hierarchique gauche-droite fi-gure 5.1 page 82). Mais ils possedent deux defauts pouvant gener l’interpretation :

– d’abord, la succession visuelle des sommets et des arcs induit une in-terpretation naturellement transitive du graphe. Or, a priori, la relationde cooccurrence modelisee est fondamentalement binaire, ce n’est doncpas parce que deux sommets sont en relation qu’un troisieme le seraitavec le premier simplement parce qu’il serait lui-meme en relation avec ledeuxieme (l’orientation des arcs n’est pas prise en compte dans notre dis-cussion). Formellement, on peut exprimer cette propriete de transitivitepar : si A → B et B → C alors A → C (la «→» exprimant la relation «esten relation de cooccurrence avec»). Il faut donc rester vigilant vis-a-vis decertaines interpretations cumulant un parcours de plus d’un arc 4 ;

– ensuite, l’alignement vertical des generations de sommets est une contrainteforte qui permet d’ «eclaircir» le graphe mais reste discutable dans certainscas, car l’alignement vertical induit une interpretation par generations (paralignements), ce qui n’est pas pertinent.

La methode de placement non-hierarchique

La deuxieme methode de placement proposee dans weblex, appelee cette fois«non hierarchique», utilise d’autres contraintes pour contrecarrer ces defauts :

– l’orientation des arcs est representee mais n’est plus prise en compte dansles placements ;

– pour un sommet donne, les arcs entrants ou sortants doivent se repartirle plus uniformement possible autour de lui ;

– les arcs ne doivent pas se croiser dans la mesure du possible ;– les arcs doivent etre le plus court possible.Avec ces contraintes les defauts precedents ne sont plus observes et le graphe

se repartit uniformement autour de son centre de gravite (ou barycentre au sensdu parcours de graphe). L’interpretation visuelle de la transitivite est nettementmoins forcee et le graphe correspond mieux a l’idee originelle de Maurice Tour-nier des ondes de choc (comme celles, concentriques, creees a la surface d’unlac par le jet d’une pierre dans l’eau) se faisant echo de proche en proche apartir du «centre» du graphe comme les mots s’appellent de proche en prochea travers leur contexte d’emploi (voir le deuxieme exemple du corpus cfdt73 fi-gure 5.2 page 83 qui represente exactement le meme graphe que precedemmentmais en placement non hierarchique).Ce placement possede cependant ses propres defauts comme celui d’etre nette-ment moins concis dans le plan et celui de ne plus rendre compte par le placement

4l’objection classique d’Andre Salem a ces representations de lexicogrammes recursifs estcelle de la transitivite artificielle induite par le parcours de maniere analogue au jeu de mots :“bout de ficelle” - “selle de cheval” - “val de seine” - . . .Objection a laquelle Maurice Tournierrepond “Oui, mais le graphe peut representer parfois ce qui aurait pu etre dit, voire ce qui estdit de maniere latente et diffuse . . .”.

Page 81: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

5.3. L’ENSEMBLE DES LEXICOGRAMMES RECURSIFS 81

de la relation gauche-droite en probabilite.

5.2.2 A propos des difficultes materielles de lisibilite des des-sins

La finesse de trace disponible sur un ecran d’ordinateur actuel est de l’ordrede 100 points par pouce (1 pouce = 2,54 centimetres), soit 100 dpi (dots perinch). weblex genere des images a une densite de 85 dpi. Pour le trace de graphesde dimensions importantes la finesse de l’ecran peut ne pas offrir assez de li-sibilite pour certaines formes car le trace des caracteres est tres sensible a laresolution (un navigateur affiche toujours une image du mieux qu’il peut surun ecran). Vous devrez alors imprimer la version PostScript du graphe. Nonseulement les imprimantes PostScript offrent une bien meilleure resolution quecelle d’un ecran, typiquement de l’ordre de 400 dpi (et bien plus), mais vousavez surtout la possibilite d’utiliser des visualisateurs sur ecran de fichiers Post-Script offrant des possibilites d’aggrandissements-retrecissements (ou zoom).C’est le cas, par exemple, du logiciel GhostviewTM qui est gratuit et utilisablesur WindowsTM ou MacOSTM . Sans parler des possibilites d’edition du dessindu graphe offertes par des logiciels comme Adobe IllustratorTM .

Remarque : la version actuelle de l’image hypertextuelle du graphene fonctionne pas correctement avec des formes composees de ca-racteres accentues (c’est un bug de la bibliotheque de dessin quenous utilisons).

La figure 5.1 page suivante presente un exemple de lexicogramme recursif :Afin d’illustrer les facilites d’etiquetage et d’aide a l’interpretation des graphes

par le placement non hierarchique des sommets, la figure 5.2 page 83 presenteexactement le meme graphe dont les arcs ont ete etiquetes par la partie entieredu logarithme en base 10 de la probabilite de cooccurrence des sommets (soitl’exposant ou encore l’ordre de grandeur de la probabilite) et dont les sommetssont places sans hierarchie gauche-droite. Plus l’etiquette d’arc est importante,plus les sommets relies par l’arc sont «attires» en probabilite.

5.3 L’ensemble des lexicogrammes recursifs

De la meme maniere qu’un lexicogramme est une representation localiseeautour d’une forme pole de l’espace de cooccurrence reliant les formes du vo-cabulaire, un lexicogramme recursif est une representation d’une partie de cetespace de cooccurrence accessible a partir d’un de ses sommets. Le calcul desLexicogrammes recursifs realise le calcul de toutes les parties connexes de l’es-pace de cooccurrence pour l’ensemble du vocabulaire du corpus, a concurrenced’un certain nombre de seuils. L’algorithme utilise est le suivant :

Tant qu’il y a des formes a analyser dans le vocabulaire repeter les etapes 1a 3 :

1. prendre une forme quelconque du vocabulaire encore disponible ;

2. calculer le lexicogramme recursif accessible a partir de cette forme (aucuneforme participant a un lexicogramme recursif precedent ne peut participera ce graphe du fait de la propriete de connexite de la composante) ;

Page 82: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

82 CHAPITRE 5. COOCCURRENCES ET LEXICOGRAMMES

Lexicogramme recursif autour du pole CFDT dans le corpus cfdt73

Seuils : p 3.000e-03, r 4, f 4, dm 1000.0, pl 1000

Synthese

17 n œuds ( 17 arcs ) , socialiste (4) , CFDT (3) , droits (3) , mouvement (3) ,travailleurs (3) , France (2) , immigres (2) , pays (2) , politiques (2) , sociaux(2) , societe (2) , Tiers-Monde (1) , ouvrier (1) , participation (1) , projet (1) ,rapports (1) , transformation (1)

Fig. 5.1 – Lexicogramme recursif a partir de la forme CFDT dans le corpuscfdt73.

Page 83: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

5.3. L’ENSEMBLE DES LEXICOGRAMMES RECURSIFS 83

Pour une visualisation de ce lexicogramme recursif de meilleure qualite, imprimez la

Version PostScript de cette image.

Fig. 5.2 – Lexicogramme recursif non-hierarchique a partir de la forme CFDTdans le corpus cfdt73.

Page 84: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

84 CHAPITRE 5. COOCCURRENCES ET LEXICOGRAMMES

3. retirer du vocabulaire toutes les formes participant au graphe obtenu.

Les seuils . . .(a faire)

L’affichage de la liste des lexicogrammes recursifs peut prendre deux formes :– soit celle d’une synthese de chaque graphe obtenu, annoncant simplement

les formes participant au graphe, triee par ordre decroissant du nombrede sommets ;

– soit celle de la liste des images de chaque graphe triee par ordre decroissantdu nombre de sommets.

La figure 5.3 presente, en exemple, une synthese de l’ensemble des lexicogrammesrecursifs du corpus cfdt73.Synthese des lexicogrammes recursifs du corpus cfdt73

Seuils : p 1.000e-02, r 4, f 4, dm 20.0, pl 1000

Tri decroissant par le nombre de n œuds par lexicogramme.

– 35 (ouvrier mouvement projet culture unitaire caisse definition developpe pra-tique reflexion syndicat action fonds defense nationale professionnelle sectionsyndicale organisation securite economique sociale transformation societe so-cialiste doivent France politiques rapports sociaux droits immigres participa-tion travailleurs CFDT)

– 12 (notamment mainmise part financiers production echange grands proprietemoyens socialisation information capitalistes)

– 7 (ouvriere conscience masse syndicalisme classe lutte anticapitaliste)– 6 (confederees structures syndicales confederation organisations confronta-

tion)– 4 (democratique construction socialisme autogestionnaire)– 4 (objectifs luttes developper capacite)– 3 (decide congres confederal)– 2 (frappe force)– 2 (gouvernement francais)– 2 (national conseil)– 2 (nucleaires armes)– 2 (pays Tiers-Monde)– 2 (peuples paix)– 2 (place mise)– 2 (prise charge)– 2 (rapport forces)– 2 (seulement non)– 2 (systeme capitaliste)– 2 (travail cause)– 2 (vie aspects)

Fig. 5.3 – Exemple d’affichage sous la forme d’une synthese de l’ensemble deslexicogrammes recursifs du corpus cfdt73.

La synthese precedente est caracteristique de l’usage de weblex. Cependant,pour vous presenter les graphes eux-memes dans ce manuel nous avons contraint

Page 85: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

5.3. L’ENSEMBLE DES LEXICOGRAMMES RECURSIFS 85

un peu plus les seuils de sorte a limiter leur taille. La figure 5.4 page suivantepresente donc une nouvelle synthese correspondant a des seuils plus restrictifs (p< 1.0E-03, r >= 6, f >= 4) pour le meme corpus. Comme precedemment, tousles lexicogrammes recursifs du vocabulaire correspondant aux seuils indiquessont calcules et presentes, sans exception. On pourra noter le rearrangementdes «composantes connexes» du fait des changements de seuils.

La figure 5.5 page 87 presente les memes graphes dont les arcs ont eteetiquetes par la partie entiere du logarithme en base 10 de la probabilite decooccurrence des sommets (pour une description de ce type d’etiquettes voirla presentation precedente de l’etiquetage d’un graphe de cooccurrence recursifnon hierarchique) :

Page 86: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

86 CHAPITRE 5. COOCCURRENCES ET LEXICOGRAMMES

Synthese des lexicogrammes recursifs du corpus cfdt73

Seuils : p 1.000e-03, r 6, f 3, dm 1000.0, pl 1000

Tri decroissant par le nombre de n œuds par lexicogramme.

– 5 (ouvriere lutte masse syndicalisme classe)– 4 (democratique construction socialisme autogestionnaire)– 4 (ouvrier mouvement socialiste CFDT)– 4 (economique sociale syndicale organisation)– 3 (defense nationale caisse)– 3 (production moyens information)Voici les graphes correspondants :

Fig. 5.4 – Synthese des lexicogrammes recursifs du corpus cfdt73 accompagneedes graphes correspondants.

Page 87: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

5.3. L’ENSEMBLE DES LEXICOGRAMMES RECURSIFS 87

Fig. 5.5 – Ensemble de lexicogrammes recursifs etiquetes par l’ordre de grandeurde la probabilite de cooccurrence.

Page 88: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

88 CHAPITRE 5. COOCCURRENCES ET LEXICOGRAMMES

Page 89: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

Chapitre 6

Mesures et Outils Contrastifs

6.1 Specificites du vocabulaire de chaque partie

6.1.1 Modelisation de la loi de probabilite

Afin d’analyser la specificite d’apparition d’un evenement textuel dans unepartie du corpus plutot qu’une autre, un evenement etant defini comme l’ap-parition d’une forme graphique ou celle d’une expression CQP quelconque, onpeut progressivement estimer le nombre d’apparitions le plus vraisemblable dela maniere suivante :

– le decompte des occurrences correspondant a une expression CQP (ou uneforme graphique simple) dans chaque partie, soit la frequence, permet dese faire une premiere idee contrastive entre les parties.

– diviser cette frequence par le nombre total d’occurrences se trouvant dansla partie consideree (ou dira aussi la taille de la partie) permet d’utiliserles «frequences relatives» (comme dans le moteur Stella de la base detextes FRANTEXT par exemple). On a alors «normalise» la frequenceou encore on l’a ponderee independamment de la taille de chaque partie.Ce qui permet de comparer plus sereinement les frequences entre elles.

– on peut faire un peu plus precis que ca encore : c’est l’objet du calcul de lamesure de specificite d’une apparition dans une partie plutot qu’une autremise en œuvre dans weblex. En effet, normaliser en divisant par la taillede la partie nous fait considerer implicitement (ou non) que les frequencesrelatives sont representatives des frequences d’origine (avant la divisionpar la taille). Pour ce faire, en se trompant le moins possible en dehors detoute information complementaire, on peut considerer la frequence rela-tive comme etant le maximum de vraisemblance du nombre d’apparitiondans une partie de taille quelconque selon une loi d’apparition normale.On considere donc que la frequence relative se comporte comme le modede la distribution normale (le milieu de la cloche de Gauss, la ou c’estle plus eleve et donc le plus probable), soit la moyenne (cf. proprietesde la loi normale : moyenne, ecart-type, . . .). Dit autrement, la frequencerelative est interpretee comme la moyenne probable d’apparition par par-tie, c’est-a-dire le mode d’une apparition «normale», soit le maximum devraisemblance dans le cas d’une distribution de probabilite «banale» ou«neutre». Or, il se trouve que la probabilite d’apparition d’une forme gra-

89

Page 90: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

90 CHAPITRE 6. MESURES ET OUTILS CONTRASTIFS

phique (voire d’une expression CQP) dans une partie n’a aucune raisonde se comporter selon une loi normale. C’est-a-dire dont la distributionressemble a une belle cloche de Gauss, avec une moyenne, un ecart-type,etc. C’est ce qu’a fait remarquer Pierre Lafon dans sa these [69], en in-sistant sur la deformation de la distribution pour les petites frequences(�20 par exemple) qui ne ressemble pas du tout a une cloche de Gauss.Il a formalise cette apparition et constate qu’elle etait plutot du type hy-pergeometrique. Cette loi de probabilite est tres generale et apparaıt sousdiverses formes (nous l’avons deja rencontree lors de la modelisation dela rencontre de deux formes dans les memes phrases d’un corpus, soit laprobabilite de cooccurrence). Mais le plus souvent dans le cas qui nouspreoccupe, elle ressemble a une cloche de Gauss dissymetrique vers ladroite avec une queue s’affaissant petit a petit vers les hautes frequences.Et le mode de cette distribution, c’est a dire le maximum de vraisem-blance d’apparition que nous cherchons a estimer ne s’obtient pas par unemoyenne arithmetique mais plutot par l’equation 6.1 :

mode(card{A ∈ V |A ∈ p} = f) =(F + 1) × (t + 1)

T + 2(6.1)

Avec :

A l’evenement recense ;

V l’ensemble des evenements possibles (le vocabulaire pour les lexies) ;

p la partie consideree ;

f la frequence de l’evenement dans la partie ;

F la frequence totale de l’evenement dans le corpus ;

t le nombre total d’evenements ayant lieu dans la partie ;

T le nombre total d’evenements ayant lieu dans l’ensemble des parties.

Dans weblex, le calcul de la probabilite qu’une forme A apparaisse f fois dansune partie p de longueur t, la forme apparaissant F fois en tout dans l’ensembledu corpus dont la longueur totale est de T occurrences, a ete modelise par PierreLafon [69] et peut s’exprimer formellement par l’equation 6.21 :

Probspecif

(card{A ∈ V |A ∈ p} = f) =CF

f × CT−Ft−f

CTt

(6.2)

Le calcul exact de la mesure comparative de specificite utilisee dans we-blex est celui du calcul de la probabilite du fait que l’evenement apparaisseautant de fois qu’on l’observe effectivement dans la partie (soit freel) ou plusfrequemment encore a concurrence de la taille de la partie (en suivant laloi hypergeometrique decrite par l’equation 6.2 qui depend de f , t, F et T ).Concretement on obtient cette mesure en sommant les valeurs de la probabi-

1On peut obtenir cette equation en procedant grossierement de la maniere suivante. Si ily a CF

f manieres d’obtenir f elements parmi F et CT−Ft−f manieres de combiner les formes

restantes du corpus alors il y a CFf × CT−F

t−f manieres d’obtenir f fois la forme A dans un

echantillon de t occurrences. Le quotient de ce nombre par le nombre de manieres d’obtenir desechantillons de t occurrences parmi T (c’est-a-dire CT

t ) nous donne la probabilite recherchee.

Page 91: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

6.1. SPECIFICITES DU VOCABULAIRE DE CHAQUE PARTIE 91

lite Probspecif pour chaque frequence d’apparition possible comme le montrel’equation 6.3.

Probspecif

(card{A ∈ V |A ∈ p} ≥ f) =card{A∈V |A∈p}∑

n=f

Probspecif

(card{A ∈ V |A ∈ p} = n

(6.3)Avec :A l’evenement recense ;V l’ensemble des evenements possibles (le vocabulaire pour les lexies) ;p la partie consideree ;f la frequence de l’evenement dans la partie ;F la frequence totale de l’evenement dans le corpus ;t le nombre total d’evenements ayant lieu dans la partie ;T le nombre total d’evenements ayant lieu dans l’ensemble des parties.

6.1.2 Calcul direct de l’indice de specificite

Afin de vous familiariser avec cette loi de probabilite, nous vous proposonsde calculer directement le graphique de sa distribution en fonction de differentesvaleurs des parametres du modele.Dans le formulaire suivant choisissez :f la frequence de la forme dans la partie ;F la frequence totale de la forme dans le corpus ;t le nombre total d’occurrences de la partie ;T le nombre total d’occurrences du corpus.puis lancez le calcul du graphique de la distribution correspondante en cliquantsur le bouton [ Calculer ].f 14 , F 200 , t 500 , T 1000 [ Calculer ]

Pour ces parametres vous devriez obtenir le graphe de la figure 6.1 pagesuivante.

Le graphique represente :– la loi de probabilite Prob(f ′ = f), en vert, que la forme apparaisse exac-

tement f ′ fois dans la partie. Le jeu de parametres F , t et T determine laforme de cette courbe. Le parametre f est utilise pour la loi cumulee (cfci-dessous) ;

– le mode de la distribution : l’estimation du nombre d’apparitions dans lapartie le plus probable selon cette loi de probabilite (10 apparitions danscet exemple) ;

– la loi de probabilite cumulee Prob(f ′ ≥ f), en bleu, que la forme apparaisseau moins f fois sinon plus dans la partie ;

– la valeur estimee de la probabilite cumulee deProb(f ′(x) ≥ f) telle que ∀x ∈ IN|x ∈ [f, minF, t] C’est-a-dire la mesureeffectivement utilisee dans weblex et celle dont l’exposant est affiche dansles tableaux. Dans cet exemple la probabilite cumulee est de 13% (environ1 chance sur 8) soit le nombre 0, 13 qui se reecrit en notation a exposant13E−2. D’ou la valeur 2 de l’exposant affichee dans les listes de specificites.

Page 92: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

92 CHAPITRE 6. MESURES ET OUTILS CONTRASTIFS

Fig. 6.1 – Distribution de probabilite de specificite : card{A ∈ V |A ∈ p} = fet card{A ∈ V |A ∈ p} ≥ f . Pour : f = 14, F = 200, t = 500, T = 1000

6.1.3 Presentation des resultats

Dans weblex nous presentons la partie entiere des logarithmes en base 10(log10) des estimations de probabilite de specificite car, comme le nom hy-pergeometrique le suggere, les probabilites obtenues par les calculs varient dansun domaine exponentiel et l’ordre de grandeur de la probabilite suffit souvent ala comparer aux autres.La sur ou sous specificite est marquee par un signe (+), respectivement (−).Dans la colonne sp les signes correspondent donc a une convention d’ecritureet n’ont rien d’arithmetique (ce qui serait genant pour une probabilite). Ons’interessera alors aux faibles probabilites (donc aux valeurs de log10 impor-tantes) qui rendent compte :

– soit d’un nombre d’apparition plus faible que prevu si l’observation estinferieure au mode de la distribution theorique (c’est-a-dire si le nombred’apparitions de l’evenement dans la partie est inferieur au maximum devraisemblance estime par notre modelisation hypergeometrique de la dis-tribution (cf. l’equation 6.1 page 90)). On parlera alors de sous-specificiteou specificite negative ;

– soit d’un nombre d’apparition plus important que prevu si l’observationest superieure au mode de la distribution theorique. On parlera alors desur-specificite ou specificite positive.

a ne pas confondre avec les fortes probabilites (par exemple superieures a 5%de chance), donc aux valeurs de log10 faibles, qui indiqueront plutot la banalitede l’apparition dans la partie.

Page 93: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

6.2. SPECIFICITES, TRI ALPHABETIQUE 93

Pour les personnes interessees par la valeur exacte de la probabilite calculeeplutot qu’au classement des evenements entre eux a l’aide de cette probabilite(qui est, notre usage principal des estimations de probabilite), un formulairepermet non seulement de realiser directement le calcul de l’indice de specificiteen fonction des parametres du modele mais surtout de situer cette valeur dansla densite de probabilite (voir la section 12 page 153 «Visualisations graphiquesdes modeles probabilistes de weblex»).

6.2 Specificites, tri alphabetique

6.3 Specificites, tri hierarchique

6.4 Specificites, tri hierarchique par partie

Exemple, les tableaux ?? page ?? presentent un tri hierarchique decroissantpar partie pour le corpus ecologie : Legende :

1. ecologie-div-title-AN

2. ecologie-div-title-CN

3. ecologie-div-title-VC

4. ecologie-div-title-EP

6.5 Specificite d’une ou de plusieurs expressions CQP

La figure 6.5 page 98 presente un exemple de calcul de la specificite desexpressions [Nn]ature.* et [Ee]nvironnement.* dans les revues du corpusecologie :

Pour vous aider a interpreter plus en detail le graphique precedent vouspouvez consulter les «exemples d’indexes de [Nn]ature.*» 4.5 page 68 et[Ee]nvironnement.* ventiles sur les differentes revues correspondantes a lasection 4.5 page 68 «».

6.6 Classification du vocabulaire

La classification du vocabulaire permet de visualiser les similitudes entre ap-paritions de formes a travers les differentes parties du corpus. La succession desdifferentes frequences d’une forme donnee a travers l’ensemble des parties d’uncorpus forme un «profil» caracteristique de sa contribution a la partition. Laclassification du vocabulaire se base sur la similitude des profils de contributiondes formes pour les rapprocher visuellement dans un graphique de synthese :le dendrogramme. La difference entre un profil de forme et un autre s’exprimepar la mesure du χ2 de leur profil. Cette mesure est homogene a la somme descarres des ecarts entre les frequences d’apparition de chaque forme pour chaquepartie.

Page 94: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

94 CHAPITRE 6. MESURES ET OUTILS CONTRASTIFS

Specificites du vocabulaire de la partie n◦1 du corpus ecologie-div-titleSpecificites decroissantes

Partie 1 2 3 4T 366310 116802 84439 69076 95993

F f sp f sp f sp f sp

milieu 391 288 64+ 70 -3 10 -23 23 -25environnement 2714 1259 56+ 497 -10 337 -20 621 -5etude 200 150 36+ 17 -8 6 -11 27 -6Environnement 347 214 30+ 86 1+ 32 -7 15 -27d’ 6150 2357 27+ 1297 -4 970 -10 1526 -3Bechmann 50 50 25+ 0 -6 0 -5 0 -7amenagement 222 141 22+ 49 -1 20 -5 12 -16education 113 85 21+ 8 -6 6 -5 14 -4naturel 310 177 20+ 74 1+ 13 -14 46 -6gestion 294 170 20+ 57 -2 23 -8 44 -6elements 87 68 19+ 5 -5 5 -4 9 -4Theme 37 37 19+ 0 -5 0 -4 0 -5audit 40 39 18+ 0 -5 0 -4 1 -5AMENAGEMENT 39 38 18+ 0 -5 1 -3 0 -6l’ 10426 3711 16+ 2165 -9 1751 -8 2799 2+5 260 147 16+ 56 -1 29 -4 28 -10qualite 224 130 16+ 56 1+ 18 -6 20 -11etudes 139 92 16+ 29 -1 4 -8 14 -6impact 174 106 15+ 33 -1 8 -8 27 -4donnees 79 60 15+ 7 -4 6 -3 6 -5evaluation 71 54 14+ 0 -9 5 -3 12 -2milieux 157 95 13+ 38 1+ 14 -4 10 -10paysage 114 74 13+ 27 1+ 7 -5 6 -9formation 90 62 13+ 9 -3 8 -3 11 -4ou 1282 527 12+ 280 -1 133 -17 342 1+12 191 107 12+ 42 -1 28 -2 14 -11pollution 394 187 11+ 109 2+ 50 -4 48 -12ET 323 160 11+ 86 2+ 50 -2 27 -1615 216 115 11+ 51 1+ 31 -2 19 -11prise 196 108 11+ 36 -2 14 -6 38 -2

Tab. 6.1 – Specificites du vocabulaire de la partie n◦1 du corpusecologie-div-title

Liste limitee aux 30 premieres lignes

Page 95: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

6.6. CLASSIFICATION DU VOCABULAIRE 95

Specificites du vocabulaire de la partie n◦2 du corpus ecologie-div-titleSpecificites decroissantes

Partie 1 2 3 4T 366310 116802 84439 69076 95993

F f sp f sp f sp f sp

associations 241 43 -7 142 33+ 39 -1 17 -14Nature 175 50 -1 111 30+ 7 -9 7 -15Combat 53 0 -9 50 28+ 1 -4 2 -5Swarte 40 0 -7 40 26+ 0 -4 0 -63 359 124 1+ 173 25+ 51 -2 11 -32COMBAT 36 0 -7 35 21+ 1 -3 0 -5ecologistes 641 36 -60 251 20+ 198 13+ 156 -1defense 172 23 -8 92 18+ 32 -1 25 -4Amis 37 0 -7 32 16+ 4 -1 1 -4Lebreton 25 0 -5 25 16+ 0 -3 0 -439 46 2 -6 35 14+ 3 -2 6 -2Charbonneau 27 0 -5 25 14+ 0 -3 2 -2FFSPN 27 2 -3 25 14+ 0 -3 0 -4nature 927 271 -2 311 13+ 58 -28 287 4+journaliste 40 4 -3 31 13+ 2 -2 3 -3presidentielles 28 0 -5 25 13+ 3 -1 0 -4notre 412 97 -4 158 12+ 85 1+ 72 -5ecolo 45 0 -8 33 12+ 8 -1 4 -333 72 10 -4 43 11+ 2 -5 17 -134 61 10 -3 39 11+ 1 -5 11 -250 39 2 -5 29 11+ 3 -2 5 -251 37 1 -5 28 11+ 1 -3 7 -1Krassovsky 19 0 -4 18 11+ 1 -1 0 -3S 72 12 -3 42 10+ 18 1+ 0 -10Francais 31 0 -6 24 10+ 6 -1 1 -4Associations 23 3 -2 20 10+ 0 -3 0 -4Vingt 17 1 -2 16 10+ 0 -2 0 -3Terre 101 2 -14 50 9+ 26 2+ 23 -1faune 54 12 -2 33 9+ 4 -2 5 -3candidat 47 0 -8 30 9+ 14 2+ 3 -4

Tab. 6.2 – Specificites du vocabulaire de la partie n◦2 du corpus ecologie-div-title

Liste limitee aux 30 premieres lignes

Page 96: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

96 CHAPITRE 6. MESURES ET OUTILS CONTRASTIFS

Specificites du vocabulaire de la partie n◦3 du corpus ecologie-div-titleSpecificites decroissantes

Partie 1 2 3 4T 366310 116802 84439 69076 95993

F f sp f sp f sp f sp

2 761 134 -19 13 -66 587 266+ 27 -64CONTACT 329 0 -55 0 -38 329 239+ 0 -44VERT 353 3 -54 3 -35 345 236+ 2 -43Verts 599 1 -98 117 -2 432 176+ 49 -29au 2002 510 -10 352 -9 708 68+ 432 -7VERTS 80 0 -14 11 -2 65 33+ 4 -7septembre 54 1 -8 1 -5 51 33+ 1 -6nucleaire 260 10 -30 94 6+ 132 31+ 24 -12avril 73 1 -11 12 -1 58 29+ 2 -8mai 72 3 -9 9 -2 56 27+ 4 -6fevrier 45 1 -7 0 -6 42 27+ 2 -4Brodhag 40 0 -7 0 -5 39 27+ 1 -5janvier 62 5 -6 6 -3 50 25+ 1 -7novembre 62 2 -8 5 -3 50 25+ 5 -4Parlement 76 3 -9 14 -1 55 24+ 4 -6octobre 68 5 -6 11 -1 52 24+ 0 -91993 82 3 -10 6 -4 57 23+ 16 -11991 69 4 -7 5 -4 51 23+ 9 -3decembre 54 4 -5 2 -4 44 23+ 4 -41989 97 13 -5 16 -2 61 21+ 7 -6juin 91 4 -11 18 -1 58 21+ 11 -4mars 90 6 -9 22 1+ 57 20+ 5 -7Vert 89 2 -12 19 -1 56 20+ 12 -31990 85 15 -3 9 -3 55 20+ 6 -6europeen 95 5 -10 16 -2 58 19+ 16 -21994 49 2 -6 5 -2 38 19+ 4 -3Ø 44 7 -2 1 -4 36 19+ 0 -61992 91 5 -10 9 -3 55 18+ 22 -11988 87 6 -8 21 1+ 52 17+ 8 -5juillet 70 19 -1 4 -5 46 17+ 1 -8

Tab. 6.3 – Specificites du vocabulaire de la partie n◦3 du corpus ecologie-div-title

Liste limitee aux 30 premieres lignes

Page 97: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

6.6. CLASSIFICATION DU VOCABULAIRE 97

Specificites du vocabulaire de la partie n◦4 du corpus ecologie-div-titleSpecificites decroissantes

Partie 1 2 3 4T 366310 116802 84439 69076 95993

F f sp f sp f sp f sp

ecologique 1014 189 -21 226 -1 113 -11 486 50+histoire 126 10 -10 16 -3 10 -4 90 26+Ferry 46 0 -8 0 -6 1 -4 45 25+pensee 72 4 -8 6 -3 5 -3 57 21+Mumford 35 0 -6 0 -4 0 -4 35 21+critique 86 4 -10 10 -3 8 -2 64 20+ecologiques 563 144 -4 115 -2 58 -8 246 19+science 129 33 -2 11 -5 2 -10 83 19+mouvements 117 8 -11 8 -6 26 1+ 75 18+monde 267 35 -13 52 -2 46 -1 134 17+economie 264 45 -8 40 -4 45 -1 134 17+ecologie 977 159 -29 225 -1 222 3+ 371 16+capitalisme 40 0 -7 4 -2 1 -3 35 16+rationalite 30 1 -4 0 -4 0 -3 29 16+biodiversite 58 5 -5 4 -3 5 -2 44 15+Sud 107 3 -14 13 -3 26 2+ 65 14+Chesneaux 32 0 -6 3 -2 0 -3 29 14+entre 518 156 -1 81 -5 68 -4 213 13+ressources 314 123 3+ 27 -11 23 -9 141 13+crise 189 15 -15 38 -1 39 1+ 97 13+question 155 35 -3 21 -3 18 -2 81 12+marche 100 21 -2 9 -4 10 -2 60 12+societes 102 18 -4 14 -2 10 -3 60 12+la 10751 3135 -10 2562 2+ 1943 -2 3111 11+comme 790 257 1+ 161 -2 83 -11 289 11+soutenable 85 4 -10 6 -5 24 2+ 51 11+couts 75 13 -3 7 -3 8 -2 47 11+environnementales 76 18 -2 1 -8 10 -1 47 11+humanite 74 12 -3 7 -3 8 -2 47 11+ecologiquement 76 9 -5 9 -2 11 -1 47 11+

Tab. 6.4 – Specificites du vocabulaire de la partie n◦4 du corpus ecologie-div-title

Liste limitee aux 30 premieres lignes

Page 98: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

98 CHAPITRE 6. MESURES ET OUTILS CONTRASTIFS

Tableau des specificites des expressions : [Nn]ature.*,[Ee]nvironnement.* du corpus ecologie-div-title

Partie 1 2 3 4T 366310 116802 84439 69076 95993

F f sp f sp f sp f sp

[Nn]ature.* 1921 740 10+ 618 20+ 124 -55 439 -4[Ee]nvironnement.* 3445 1581 66+ 606 -15 402 -30 856 -2

Legende :

1. ecologie-div-title-AN

2. ecologie-div-title-CN

3. ecologie-div-title-VC

4. ecologie-div-title-EP

Tab. 6.5 – Tableau des specificites des expressions [Nn]ature.* et[Ee]nvironnement.* du corpus ecologie-div-title

Page 99: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

6.7. CLASSIFICATION DES PARTIES 99

6.7 Classification des parties

χ2 - Dendrogramme

6.8 Analyse factorielle des correspondances

ACP, AFC, Sammon, MLNN, valeurs propres / inertie, descente de gra-dient, recuit simule, projections 2D, projections 3D, nombre de dimensions /population totale.

Page 100: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

100 CHAPITRE 6. MESURES ET OUTILS CONTRASTIFS

Page 101: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

Deuxieme partie

Usage pratique de Weblex

101

Page 102: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes
Page 103: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

Chapitre 7

Mise en œuvre de weblex atravers un navigateur Internet

7.1 Structure et mise en œuvre du formulaire aCadres

Contrairement au formulaire de calcul original compose d’une unique pageInternet, la mise en œuvre de weblex a travers son formulaire «a cadres» permetd’acceder simultanement aux differentes parties fonctionnelles du formulaire lorsd’une recherche. Il s’agit donc essentiellement d’une presentation differente dumeme formulaire que celui de la version pleine page. Cette nouvelle interfacecherche a faciliter le va-et-vient permanent entre les differentes parties du for-mulaire lors du parcours et des reglages necessaires a une analyse. Apres avoirillustre la disposition des differents cadres a la figure 7.1 page suivante nouspresenterons leur fonction respective ainsi que les nouvelles fonctionnalites as-sociees au choix de l’emplacement de l’affichage des resultats.

Suivant les dimensions de la fenetre generale du navigateur chaque cadresera assorti d’ascenseurs verticaux et/ou horizontaux permettant d’acceder auxdifferentes zones non visibles de chaque cadre. Le cadre numero 4 est particulier :c’est un menu specialement concu pour pouvoir faire glisser directement le cadredes parametres (cadre numero 5) vers les differentes rubriques de parametrage.

7.1.1 Cadre numero 1 : cadre d’affichage des resultats

C’est dans ce cadre qu’a lieu l’affichage de tous les resultats des calculspar defaut. C’est la premiere difference importante avec la mise en œuvre duformulaire original : weblex peut afficher simultanement le formulaire d’appeldes calculs et les resultats obtenus.

Les resultats de calculs declenches par le suivi de liens hypertextuels integresa une page de resultats s’afficheront dans le meme cadre. L’historique de navi-gation permettra alors de revenir d’une page de resultats a l’autre par simpleRetour arriere («Back») comme dans la version precedente du formulaire.

103

Page 104: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

104CHAPITRE 7. MISE EN ŒUVRE DE WEBLEX A TRAVERS UN NAVIGATEUR

Fig. 7.1 – Vue generale de la fenetre d’un navigateur ayant charge un formulairea cadres de la version 2.0 de weblex.

Tous les cadres ont ete numerotes et teintes d’une couleur differente.

Impression

Dans certains cas (suivant le navigateur utilise et suivant le cadre qui estselectionne au moment de l’appel) l’impression d’une page de resultats seraobtenu par l’appel de l’item «Imprimer le cadre» du menu «Fichier» plutotque celui de l’item «Imprimer». Dans le cas d’Internet ExplorerTM l’impressiond’un cadre s’optient en ouvrant le menu contextuel du cadre (en cliquant adroite dans le cadre) et en selectionnant l’item «Imprimer».

Controle du lieu d’affichage des resultats

Differentes options sont maintenant disponibles pour afficher les resultatsautrement que dans le seul cadre numero 1. C’est l’objet de la nouvelle op-tion «Afficher les resultats dans» de la rubrique des parametres Generaux (sec-tion 7.3.5 page 115 «Parametres generaux»), reglables desormais dans le cadrenumero 5. Cette option permet :

( output ) d’afficher les resultats dans le cadre numero 1 (option par defaut) ;

( top ) d’afficher les resultats a la place de l’ensemble du formulaire (affichagesimilaire a la version originale du formulaire) ;

( Window 1 a 5 ) d’afficher les resultats dans differentes fenetres au choix ;

( New Window ) de toujours afficher les resultats dans une nouvelle fenetre.

Les differents moyens de manipulation des nouvelles fenetres de resultatsdependent de l’environnement du navigateur.

Page 105: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

7.2. PROPRIETES DE LA MISE EN ŒUVRE SUR INTERNET 105

Usage : les options Window 1, Window 2, . . .permettent de conser-ver divers resultats afin pour pouvoir les consulter en permanence(comme par exemple les dimensions du corpus ou la liste hierarchiquede son vocabulaire).

7.1.2 Cadre numero 2 : cadre de selection du corpus et desarguments

C’est dans ce cadre que l’on selectionne le corpus de travail et que l’onsaisie les arguments (source A et source B) de divers calculs (concordances,lexicogrammes, . . .).

7.1.3 Cadre numero 3 : cadre d’appel des calculs

Ce cadre contient les boutons d’appel des differents calculs de weblex.

7.1.4 Cadre numero 4 : menu de selection des rubriques deparametres

Le cadre des parametres (cadre numero 5) contenant le plus d’informationsnous avons concu un cadre dont le seul role est de faciliter l’acces aux differentesrubriques de parametrage. La selection de chaque item du menu situe dans lecadre numero 4 fait glisser le cadre des parametres directement vers la rubriquede parametrage correspondante de weblex : options generales, formes d’affichagedes Index, parametres d’affichage des Concordances, . . .

7.1.5 Cadre numero 5 : cadre des parametres de weblex

Ce cadre contient tous les parametres du formulaire original de weblex. Lecadre situe a sa gauche (cadre numero 4) permet d’acceder aux differentes ru-briques de parametres directement. Dans la mesure ou les entetes de rubriquesse trouvent desormais dans le menu du cadre numero 4 et pour des raisons delisibilite, les entetes de rubriques ont ete supprimees du formulaire lui-meme.

7.2 Proprietes de la mise en œuvre sur Internet

Ce manuel documente la mise en œuvre de weblex sur Internet. Ce type demise en œuvre amene certaines proprietes specifiques a ce moyen de communi-cation.

7.2.1 Enregistrement de tous les parametres de l’appel d’uncalcul dans une URL

Le logiciel ayant ete concu de sorte a pouvoir etre interroge en permanencepar n’importe quelle machine de l’Internet, l’interface de weblex a ete concue desorte a etre non modale. C’est-a-dire qu’aucune information n’est memorisee surle serveur concernant une session de travail sur un corpus particulier. Ce modede fonctionnement est similaire a celui des outils de l’ARTFL et different de celuide l’interrogation de la base FRANTEXT par exemple. Ceci entraıne que tous

Page 106: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

106CHAPITRE 7. MISE EN ŒUVRE DE WEBLEX A TRAVERS UN NAVIGATEUR

les calculs sont declenches par une simple navigation, c’est-a-dire une simpleouverture d’URL1 (soit un clic sur un lien hypertexte). Ceci entraıne que lamemorisation de l’URL correspondant a un calcul, dans un signet par exemple,permet de le relancer a tout instant et exactement dans les memes conditionssans avoir a respecifier les parametres a weblex ou a realiser certaines navigationsau prealable (acces au frontispice, . . .). C’est un moyen commode d’enregistrerune demonstration par exemple2. C’est aussi un moyen commode d’envoyer a uncollegue l’appel d’un calcul plutot que le fichier de resultats correspondant, cequi est de taille souvent beaucoup plus restreinte (car toujours limite a environ2 Ko) et qui permet de beneficier directement de l’appel de liens hypertextuelsquand le resultat en contient.

7.2.2 Visualisations multiples des resultats

La navigation sur Internet etant generalement realisee dans le cadre d’unenvironnement compose de fenetres, c’est le cas pour les systemes d’exploita-tion les plus repandus WindowsTM , UnixT M et MacOSTM , les navigateurs vousproposent souvent d’ouvrir simultanement plusieurs fenetres pour visualiser plu-sieurs pages a la fois. Vous avez la possibilite, en general, soit d’ouvrir une URLdans une nouvelle fenetre, soit d’ouvrir une nouvelle fenetre sur la page cou-rante. Dans le cadre de weblex, ces possibilites peuvent vous aider a visualisersimultanement autant de resultats de calculs que vous desirez. C’est l’environ-nement du systeme d’exploitation qui vous permettra de passer d’une fenetre aune autre ou de les disposer simultanement sur l’ecran. Par exemple, vous pou-vez garder une liste de vocabulaire dans une fenetre tout en lancant differentesconcordances dans une autre. Ou bien encore comparer plusieurs resultats decalculs non contrastifs simultanement, etc. Dans les situations ou vous savez quevous reviendrez a la page d’appel d’un calcul (dans le cas d’un lexicogramme parexemple), l’ouverture d’une URL dans une nouvelle fenetre vous permet de gar-der votre resultat courant tout en «avancant» dans une direction d’explorationparticuliere. Dans ce cas, pour le retour, plutot que de realiser un «Retour»classique dans la fenetre courante, il vous suffit de fermer la derniere fenetreouverte. Il y a toutefois un inconvenient a proceder de la sorte. En effet, l’his-torique de navigation qui vous permet les fameux «Retour» arrieres implicitesne s’applique parfois plus dans le cas de fenetres multiples. Une implementation«hors frames» nous permettrait de plus d’envisager un portage de l’interfacede weblex vers la navigation Internet purement textuelle (comme par exempledans le cas du navigateur Lynx3).

1le terme URL est un acronyme de l’expression anglaise “Uniform Ressource Locator”.Une URL est donc (pour ceux qui interpretent un peu l’anglais) la designation du lieu ouvous vous trouvez dans une navigation Internet a un instant donne, c’est-a-dire de l’adressede la page que vous etes en train de visualiser avec votre navigateur. En general, il s’agitd’une “adresse” qui est composee a la fois d’un nom de machine unique et des differents nomsde sous-repertoires a parcourir afin de pouvoir acceder au fichier a consulter. Dans le casd’acces a weblex la designation du lieu “encode” tous les parametres d’appel d’un calcul, lescalculs etant provoques par une simple navigation (la description du mecanisme d’appel d’uncalcul a distance par l’entremise du protocole HTTP de l’Internet est hors de propos dans cemanuel). Une URL est donc a la fois l’expression d’un ou et d’un comment acceder a une pagea visualiser. weblex profite simplement de cette dualite.

2Assurez vous, cependant, de la disponibilite du serveur au moment d’une presentation.3Tres populaire chez les malvoyants.

Page 107: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

7.2. PROPRIETES DE LA MISE EN ŒUVRE SUR INTERNET 107

7.2.3 Exploitation des resultats au format HTML

Tous les resultats retournes et affiches par weblex etant au format HTML,vous pouvez tous les stocker localement dans un fichier sur votre disque dur, lesconvertir (ou les importer) dans le format de votre traitement de texte favori,ou avoir acces directement aux memes donnees sous forme de tableaux (dansun tableur par exemple).

Vous pouvez bien sur directement imprimer les resultats avec votre navi-gateur en profitant de toute la richesse de la typographie HTML : mises enevidence, formatage, justification, tableaux, images, . . .En general, les navi-gateurs adaptent la mise en page au type de support (A4, portrait, paysage,. . .). Certains parametres du formulaire ont ete concus dans cette optique :par exemple permettre une justification des lignes de concordances pour despages disposees en paysage (voir la section 7.3.5 page 119 «Affichage des concor-dances»).

7.2.4 Temps de reponse

weblex etant accessible de l’Internet, il peut etre interroge a n’importe quelinstant. Les temps de reponse dependrons donc a la fois de l’affluence, c’est-a-dire du nombre de calculs demandes simultanement au serveur du laboratoirea un instant donne, mais aussi du debit de la connexion la plus lente qui voussepare du serveur pour le rapatriement des resultats. A ce jour, notre labora-toire est relie a l’Internet par une ligne au debit instantane en crete de 256Kbauds4. Ce qui donne au maximum, environ, un debit de transmission desresultats de 32Ko5 de donnees HTML6 par seconde (pour tout le monde). A

4Nous sommes passes depuis, a 5 Mbauds. Un baud equivaut a une unite d’information detransport fondamentale. Le lien qui vous relie a l’Internet utilise des unites de transport fonda-mentales pour vehiculer des unites d’informations de traitement de, et vers, votre navigateur.Un Kbaud est un Kilo-baud et equivaut a 1024 unites d’information de transport elementaires(soit a peu pres 1000 comme pour les 1000 grammes d’un Kilogramme). Le nombre 1024 vientdu calcul de 210, soit le nombre decimal (en base 10) le plus grand encodable a l’aide d’unnombre binaire (en base 2) compose de 10 bits (les machines actuelles reposent fondamentale-ment sur une technologie electronique du tout ou rien). Dit autrement, c’est surtout le nombreentier le plus proche de 1000 (le fameux kilo tres utilise sur les marches que l’on essaye deretrouver en informatique) encodable en un nombre entier de bits. Un bit est un “chiffre” enbase 2 : ou on a le choix entre les deux chiffres “0” et “1” (en comparaison avec la base 10ou on a le choix entre les dix chiffres de “0” a “9”). En base 2, la progression des multiplesde la base est donc de 0, 1, 2, 4, 8, 16, 32, . . .a 1024 alors qu’en base 10 elle est de 0, 1, 10,100, . . .a 1000. Pour simplifier, nous vous proposons simplement de considerer qu’un “Kilo”informatique est toujours un peu plus “lourd” qu’un kilo de pommes de terres (1 Mbauds ouun Mega bauds est encore bien plus lourd qu’un million de grammes de pommes de terres dufait de la progression geometrique des puissances de 2).

5un octet equivaut a une succession de 8 unites d’informations de traitement fondamentales(ou 8 bits). Dans les systemes d’exploitation actuels, on encode toujours un caractere alphanu-merique (le constituant fondamental d’un texte) a l’aide de 8 bits d’informations de traitement,soit un octet. Un Ko est un Kilo-octets et equivaut a 1024 paquets de 8 unites d’informationsde traitement elementaires. On peut considerer, grossierement, qu’il faut 10 unites de transportfondamentales pour vehiculer 8 unites d’informations de traitement fondamentales a traversun lien de communication lache (du type de celui de l’Internet) entre deux ordinateurs (les 2bits supplementaires servent, en moyenne, a controler la qualite de la transmission a chaqueextremite du lien de communication).

6les donnees HTML sont celles recues par le navigateur comme resultat des calculs deweblex. Le format des donnees HTML est un format textuel, c’est-a-dire que toutes les in-formations y sont explicitement “encodees” a l’aide de caracteres alphabetiques : a la fois lesinformations textuelles proprement dites et les informations de formatage. Chaque caractere

Page 108: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

108CHAPITRE 7. MISE EN ŒUVRE DE WEBLEX A TRAVERS UN NAVIGATEUR

titre d’exemple a ce jour, les modems personnels proposent en general un debiten crete maximal de 56 Kbauds. Meme si le fait que la terre tourne sur elle-memepermet a certaines personnes de dormir pendant que d’autres travaillent, et quela technologie de l’Internet ira surement vers le plus et peut etre vers le mieux.Nous avons concu le logiciel de sorte a ce qu’il puisse rester utilisable dans desconditions defavorables7. Un certain nombre de parametres du formulaire ontete concus dans cette optique :

– limiter les listes aux n premiers elements : on ne s’interesse souvent qu’audebut des listes triees, et toutes les listes generees par weblex disposent depossibilites de tri ;

– afficher sous forme de texte brut plutot que sous forme de tableaux : engeneral, un navigateur attend d’avoir recu l’integralite du contenu d’untableau pour pouvoir le formatter correctement puis l’afficher, dans le casd’un texte brut l’affichage a lieu au fur et a mesure de la reception desresultats ;

– integrer ou non des liens hypertextuels dans les indexes, ce qui limite laquantite d’informations transmises : par exemple, un petit vocabulaire de3000 formes contenant des liens hypertextuels sera compose au moins de3000 URL constituees chacune d’au moins 150 caracteres pour pouvoirdesigner l’appel du calcul de la concordance de chaque forme, soit environ440 Ko de donnees pour le seul appel des concordances, c’est-a-dire pourla partie non explicite des resultats.

– . . .Pour plus d’informations sur ces parametres voir la section 7.3.5 page 115 «Pa-

rametrage de l’affichage des resultats» dans la documentation du formulaire.

7.2.5 Temps de calcul limite

La navigation Internet facilite l’apprentissage et l’exploration par le cycletest � erreur. C’est notamment l’usage principal du bouton de navigation «Re-tour» (ou «Back» en anglais), et un sport que nous promouvons dans weblex.Par ailleurs certains calculs sont plus lourds que d’autres au dela de certainesdimensions de corpus (au dela de 200 000 occurrences par exemple). Le serveurde weblex limite donc le temps total d’usage de son processeur pour un calculdonne. Typiquement, les calculs lourds ne peuvent exceder 3 minutes de tempsCPU utilisateur Unix du serveur. Grossierement, cela correspond a 3 minutesreelles si vous etes seul(e) a utiliser le serveur qui est, a ce jour, un serveur Sun-Fire 280 bi-processeur sous Unix Solaris 2.8TM . C’est cette limite qui distingueles calculs trop lourds (penalisant pour les autres utilisateurs) des autres cal-culs. En cas d’interruption du calcul, weblex affichera un message d’interruptionainsi que les resultats deja calcules (si vous n’avez pas deja fait un «Retour». . .) avant de s’interrompre.

Pour les calculs «lourds», le lien hypertextuel Abandon , affiche au lance-ment des calculs et avant les resultats, a ete cree pour vous permettre d’in-terrompre volontairement un calcul (en effet helas, le serveur n’en etant pasinforme, un simple «Retour» de navigation n’a aucune incidence sur les calculs

alphanumerique etant generalement “encode” a l’aide de 8 unites d’informations de traitementfondamentales, 32Ko de donnees HTML equivaut donc a environ 32000 caracteres de donneesde formatage et de resultats.

7je n’ai pas encore essaye d’utiliser weblex a partir d’un telephone cellulaire . . .

Page 109: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

7.3. USAGE DU FORMULAIRE D’APPEL DES CALCULS 109

en cours sur le serveur). Si vous utilisez cette facilite, promue par la netiquette,veuillez remonter directement de deux pages dans votre historique de navigationsinon un simple «Retour» apres un «Abandon» ne fera que relancer le calculque vous venez d’arreter8 ! Attention : certains navigateurs «oublient» certainsde leurs etats precedents en cas de remontee directe plus «rapide» qu’une seulepage a la fois (avec le bouton «Retour»), par exemple en oubliant les para-metres que vous avez deja saisis dans le formulaire (dont les seuils d’elagagenotamment). A terme nous comptons ameliorer l’interface de weblex sur cetaspect qui se trouve aux limites de l’interface HTTP/HTML standard.

7.2.6 Choix du navigateur

L’Internet etant encore, et pour un certain temps (voire par definition), uneentite que les organismes de normalisation ont du mal a maıtriser, chaque na-vigateur Internet, qui permet la mise en œuvre de l’interface de weblex, a desparticularites qui le differencient des autres des que l’on fait appel a un mini-mum de ses fonctionnalites (vous avez deja rencontre des annonces du genre :cette page est mieux visualisee avec tel navigateur plutot que tel autre). C’est lecas des deux grandes vedettes d’aujourd’hui NetscapeT M et Internet ExplorerTM

par exemple. La premiere version du logiciel weblex et son interface ont ete va-lides a l’aide des navigateurs Netscape Communicator 4.04 [en]T M sous UnixSolaris 2.6TM et Netscape Communicator 4.03 [fr]T M et Internet Explorer 4.0TM

sous PC Windows 95TM . La version courante du logiciel est valide pour le navi-gateur Internet Explorer 5.0TM et plus sur PC Windows 2000 ProfessionnelTM .Attention : independamment du numero de version, les implementassions deNetscape correspondant a differents systemes d’exploitation n’ont pas toujoursle meme comportement pour certaines fonctionnalites, notamment l’impression. . .Bien sur vous n’etes pas oblige d’utiliser l’un de ces deux navigateurs et touteremarque concernant l’interet ou des anomalies observees lors de l’utilisation deweblex avec tel ou tel autre navigateur sont les bienvenus.

7.3 Usage du formulaire d’appel des calculs

7.3.1 Introduction

La page d’arrivee dans weblex est celle du formulaire de calcul qui permet despecifier tous les parametres de calcul et d’appeler les outils. Apres l’appel d’unoutil on pourra, suivant le cas, soit declencher un nouveau calcul a partir de lapresentation des resultats (par un lien hypertextuel) soit revenir a ce formulairepour proceder a un nouveau reglage et relancer un calcul. Le formulaire permetde specifier :

– le corpus sur lequel on desire travailler ;– les restrictions du vocabulaire auquel on s’interesse. Par exemple, il est

possible d’ignorer ou non dans les mesures : des mots appartenant a une

8En effet, un simple “Retour” relance le navigateur sur l’URL precedente. Or, dans lecas de weblex tous les parametres de lancement d’un calcul etant “encodes” dans une URL,la reouverture de l’URL precedente (provoquee par le “Retour”), qui est celle de l’appel ducalcul, relance naturellement le meme calcul (qui est relance a nouveau sur le serveur en plusdu calcul precedent. . .).

Page 110: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

110CHAPITRE 7. MISE EN ŒUVRE DE WEBLEX A TRAVERS UN NAVIGATEUR

liste fermee (mots grammaticaux), certains patrons de formes, les uniteslexicales numeriques, les hapax ;

– les seuils d’elagage dans les resultats : probabilite maximale ou frequenceminimale analysees, etc ;

– le parametrage de l’affichage des resultats : tableau/liste, troncature, for-mat, etc ;

– les mots a analyser ou rechercher.Puis de lancer les operations.L’ordre des entrees du formulaire a ete etabli afin de faciliter le va-et-

vient entre leur saisie et le lancement des operations. En revanche, l’ordrede presentation des entrees dans ce manuel correspond a l’ordre logique desdifferents choix a effectuer jusqu’au declenchement des operations.

7.3.2 Choix du corpus de travail

Suivant le lien utilise pour acceder a la page du formulaire de weblex ondispose d’un certain nombre de corpus predefinis.

L’entree Corpus du formulaire permet de selectionner le corpus de travail(voir la figure 7.2).

Fig. 7.2 – Selection d’un corpus de travail.

Le bouton rectangulaire permet d’ouvrir le menu des corpus et de choisircelui qui sera utilise par les calculs (voir la figure 7.3 page ci-contre).

Suivant l’encodage utilise pour composer le corpus, ce dernier sera soit par-titionne, soit integral.

Par exemple, dans la figure 7.3 page suivante :«cfdt73» est un corpus integral et autonome ;«duels» est un corpus integral ;«duels-LOCUTEUR-QUI» est le corpus «duels» partitionne suivant l’attri-

but QUI de l’element LOCUTEUR du corpus precedent (soit les differentsdiscours regroupes par locuteur) ;

«duels-LOCUTEUR-QUI-Mitterrand» est le corpus integral de la partiedu corpus «duels» dominee par les elements LOCUTEUR ayant pourvaleur «Mitterrand» a l’attribut QUI (soit le discours de Mitterrand) ;

«duels-TEXTE-DATE» est un partitionnement different du corpus «duels»,par la datation (attribut DATE) de chaque texte (element TEXTE) lecomposant.

Seule la nature partitionnee ou non d’un corpus affecte la maniere dont lescalculs seront realises sur un corpus :

– pour un corpus integral, les calculs s’appliquent a l’ensemble du corpus ;– pour un corpus partitionne :

Page 111: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

7.3. USAGE DU FORMULAIRE D’APPEL DES CALCULS 111

Fig. 7.3 – Un exemple de liste de corpus predefinis.

– les calculs sont appliques successivement a chaque partie considereecomme un corpus integral ;

– ou bien les calculs utilisent le partitionnement en tant que tel (parexemple, l’analyse des specificites du vocabulaire de chaque partie).

Par exemple, un calcul d’index sur le corpus «duels-LOCUTEUR-QUI» vaafficher successivement le vocabulaire utilise par chaque locuteur dans le corpus«duels».

Note : Dans les exemples precedents, la veracite des interpretationsde partitionnement repose sur notre connaissance des corpus en ques-tion : l’objet de cette section n’a en fait ete que de presenter desexemples d’interpretations de noms de corpus. Le contenu effectifd’un corpus et son partitionnement dependent du codage du corpuset des procedures de composition et d’extraction qui ont ete utiliseesavant l’appel de weblex proprement dit. Les techniques de codage uti-lisees (voir le Nouveau Machinal [?] et les procedures de compositionet d’extraction de corpus ne sont pas encore documentees.

Valeur par defaut

Le corpus selectionne par defaut est le premier de la liste des corpus dispo-nibles.

7.3.3 Restriction du vocabulaire : elagage qualitatif

Toutes les mesures et les index calcules par weblex s’appliquent au texteresultant de l’elagage (s’il reste active) de certaines formes du vocabulaire. Lafonction de cette restriction est de ne laisser apparaıtre dans les resultats queles seules unites du sous-ensemble voulu. Mais les calculs prennent toujours en

Page 112: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

112CHAPITRE 7. MISE EN ŒUVRE DE WEBLEX A TRAVERS UN NAVIGATEUR

compte la totalite du corpus. Par exemple, la distance moyenne entre mots co-occurrents calculee dans les «lexicogrammes» 5.1 page 75 tient toujours comptede la totalite des mots du corpus. Ces options ne s’appliquent pas au moteurde recherche d’expressions CQP. L’entree Restriction du vocabulaire du for-mulaire permet de parametrer cette restriction (voir la figure 7.4).

Fig. 7.4 – Les options d’elagage : cases a cocher/decocher et patron eventuel asaisir.

– La case «Precompile sans formes outils, numeraires et hapax» elagueratous les mots outils, les nombres et les hapax du vocabulaire. Cette optionoptimise les temps de calcul dans le cas d’elagages courants. On noteraque l’elagage des hapax est aussi realise par les seuils en frequence de lasection 7.3.4 «Seuils d’elagage des resultats : elagage quantitatif».

– La case «Formes outils» elaguera tous (et seulement) les mots outils. Lesmots outils sont tous les mots appartenant a une liste predefinie et fixeconnue par les calculs. Le lien «formes outils» fait afficher cette liste. Aterme cette liste doit devenir parametrable. Il est inutile de selectionnercette option si celle de la precompilation l’est deja.

– La case «Numeraires» elaguera tous (et seulement) les mots commencantpar un chiffre : les nombres, dates, heures, pourcentages, tailles, rapports,distances, . . .

– Le champ «Patron» permet de saisir une expression decrivant un patronde mot a elaguer (ou a preserver) du vocabulaire. Le lien «expressionreguliere» 8 page 129 donne acces a la description de la syntaxe et aufonctionnement des patrons.

A droite du champ «Patron», le bouton determine si la procedure d’elagagerealise une ou une des seules formes correspon-dant au patron. La retention n’est presente que pour faciliter le calcul de vo-cabulaires restreints (voir la section «Vocabulaire» 3.1 page 29). Par exemple,etablir l’index hierarchique et alphabetique de toutes les formes commencantpar la racine ”immigr” est realisable par l’appel de l’outil vocabulaire avec lesparametres d’elagage de vocabulaire et Patron : ∧immigr.∗.

Valeurs par defaut

L’elagage par defaut est l’elagage complet et precompile.

7.3.4 Seuils d’elagage des resultats : elagage quantitatif

De la meme maniere que l’on peut se desinteresser de certains mots a priori(voir la section precedente : «Restriction du vocabulaire» 7.3.3 page precedente),

Page 113: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

7.3. USAGE DU FORMULAIRE D’APPEL DES CALCULS 113

on peut se desinteresser de certains mots ou couples a posteriori a cause de (ougrace a) certaines mesures elementaires ou bien liees aux calculs. Par exemple,on peut se desinteresser de tous les couples de mots apparaissant rarement[elementaire] ou bien de couples ayant une probabilite d’apparition (au sensde notre modele de cooccurrences) trop importante [calculee]. Ces seuils nes’appliquent pas au moteur de recherche CQP.

L’entree Seuils du formulaire permet de parametrer les seuils d’elagage deresultats (voir la figure 7.5).

Fig. 7.5 – Seuils d’elagage quantitatif

– le seuil p elague les resultats en fonction de la probabilite d’apparition apriori d’un couple de mots dans le corpus. Il fixe la probabilite maximalede cooccurrence au dela de laquelle le programme n’affiche pas de resultatspour un couple. Ce seuil correspond le plus a la notion de cooccurrence quenous cherchons a modeliser et correspond donc a l’elagage le plus fin. Iln’est evidemment exploite que par les operations calculant une probabilitede cooccurrence (par exemple, ce n’est pas le cas de l’outil vocabulaire).La valeur par defaut est 0.05 ou 5.0E−2 en notation a exposant (si, etantdonne le nombre de phrases et les frequences observees de chaque formed’un couple, ce dernier a plus de 5% de chances d’apparaıtre le nombre defois qu’on l’observe effectivement dans le corpus ou plus, alors il n’est paspris en compte lors de l’affichage. La valeur de seuil 0.0001 (ou 1.0E − 4)correspond a 0.01% de chances, 0.001 (ou 1.0E − 3) a 0.1%, 0.01 (ou1.0E − 2) a 1%, 0.1 (ou 1.0E − 1) a 10% et 1.0 (ou 1.0E0) a 100%. Unseuil de 1.0 (= 100% de probabilite) ne fait plus intervenir la probabilitede cooccurrence dans l’elagage des resultats ;

– le seuil r elague les resultats en fonction du nombre d’apparitions d’uncouple de mots dans le corpus. Il fixe le nombre minimum de rencontres

Page 114: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

114CHAPITRE 7. MISE EN ŒUVRE DE WEBLEX A TRAVERS UN NAVIGATEUR

en dessous duquel le programme n’affiche pas de resultats pour un couple.Ce seuil correspond a une premiere approximation de la notion de cooc-currence mais est plus grossier que le seuil en probabilite. Sa valeur pardefaut est 3 (3 rencontres minimum).[Dans les calculs, la valeur du mode de

la distribution theorique, c’est-a-dire l’esperance maximale du nombre de ren-

contres vu la frequence de chaque mot et le nombre de phrases supplante le seuil

d’elagage par le nombre de rencontres. Par exemple, pour un couple donne si la

valeur du mode est de 5 rencontres (i.e. on estime, a priori, que le nombre de

rencontres le plus probable de ces mots dans le corpus est de 5), alors si le seuil

d’elagage en nombre de rencontres est plus petit que 5, ce dernier ne sera vir-

tuellement pas pris en compte. Bien sur chaque couple ayant un mode theorique

different il ne sert a rien de fixer le seuil d’elagage en fonction du mode d’un

couple particulier. La priorite donnee au mode theorique vient simplement de la

coherence des calculs (l’evaluation de couples apparaissant moins de fois que le

mode estime n’a pas de sens au vu de la modelisation)] ;

– le seuil f optimise les calculs en ne considerant que les mots dont la frequence

est superieure a f. Si la valeur de f est differente de 0 alors le calcul n’affiche

dans les resultats que les formes apparaissant au moins f ou r fois dans le corpus.

La valeur par defaut est 3 (les formes doivent apparaıtre au moins 3 fois dans

le corpus pour etre affichees). Le calcul de la probabilite de cooccurrence etant

realise a partir des frequences de mots, ce seuil recouvre partiellement le seuil

en probabilite, mais de maniere differente et plus grossiere ;

– le seuil dm elague les resultats en fonction de la distance moyenne separant

les mots d’un couple cooccurrent. Il fixe la valeur maximale du nombre moyen

d’occurrences situees entre deux formes cooccurrentes au dela de laquelle le

programme n’affiche pas de resultats pour un couple. La valeur par defaut est

1000.0 (au maximum les formes cooccurrentes peuvent etre espacees de 1000

mots en moyenne, i.e. on s’interesse a priori a tous les couples). Le calcul de

la distance moyenne etant totalement independant de celui de la probabilite,

ce seuil caracterise les couples cooccurrents d’une maniere tout a fait differente

du seuil en probabilite. Typiquement un seuil de distance faible peut limiter les

couples aux mots participant plutot a des lexies (e.g. cooccurrence ∼ relation

lexicale) et un seuil de distance fort inclure les mots entretenant une relation plus

eloignee (e.g. cooccurrence ∼ relation thematique). Nos calculs ne permettent

pas, pour l’instant, de fixer un seuil par une distance moyenne minimum ni par

une distance absolue plutot que moyenne qui interviendrait localement sur le

reperage d’une rencontre. L’ecart type de la distance entre mots, en travaux,

permettra d’orienter les resultats vers les figements ;

– le seuil pl limite la propagation a partir de la racine dans les lexicogrammes

recursifs. Il fixe la profondeur maximale de propagation a partir de la source

d’un lexicogramme recursif au dela de laquelle le programme n’affiche pas de

resultats. Ce seuil n’est utile que dans le cadre d’une recherche de contexte de

cooccurrence autour d’un pole particulier. La valeur par defaut est 1000 (la

propagation s’arrete au dela de 1000 arcs de la source, i.e. il n’y a virtuellement

pas de limite).

Valeurs par defaut

– la valeur par defaut du seuil p est de 5.0E− 2 = 0.05 = 5% de probabilitemaximum ;

– la valeur par defaut du seuil r est de 3 rencontres minimum ;– la valeur par defaut du seuil f est de 3 occurrences minimum ;– la valeur par defaut du seuil dm est de 1000 mots maximum ;– la valeur par defaut du seuil pl est de 1000 arcs maximum ;

Page 115: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

7.3. USAGE DU FORMULAIRE D’APPEL DES CALCULS 115

Note : le fait que deux mots soient dits «cooccurrents» ou «encooccurrence» correspond au fait que ce couple apparaıt dans leresultat des calculs. La notion de cooccurrence depend donc desseuils d’elagage des resultats de cette section. A priori tous les motsse rencontrant dans une phrase ont la possibilite d’etre cooccurrents,c’est l’ensemble des seuils qui decide si on considere tel couple ou telautre comme etant cooccurrent. Et le type d’elagage : probabiliteou distance par exemple, determine le type de la cooccurrence, enprobabilite, en distance ou les deux combinees. Il appartient ensuiteau chercheur de qualifier precisement chaque rencontre.

7.3.5 Parametrage de l’affichage des resultats

Parametres generaux

La figure 7.6 presente l’ensemble des parametres a usage courant de weblex.

Fig. 7.6 – Parametres generaux de weblex.

– Afficher les resultats dans :Depuis la mise en œuvre du formulaire a cadres vous avez la possibilite dechoisir dans quel cadre ou dans quelle fenetre apparaıtront les resultats.– la sortie «output» correspond a la sortie par defaut : les resultats sont

affiches dans «le cadre n◦1» 7.1.1 page 103. Cette sortie permet devisualiser les resultats tout en ayant acces au formulaire de weblex.

– la sortie « top» fera remplacer la totalite de la fenetre du naviga-teur par les resultats. Il n’y aura donc plus de cadres si les resultatsn’en contiennent pas. Cette sortie permet de recuperer l’ensemble de lafenetre du navigateur pour l’affichage des resultats. Vous devrez faireun «Retour» pour retourner au formulaire de weblex.

– la sortie «Window1» creera si besoin une nouvelle fenetre sur votre bu-reau appelee Window1 et y placera les resultats. Si vous changez defenetre de sortie pour les calculs suivants, vous pourrez alors consulter

Page 116: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

116CHAPITRE 7. MISE EN ŒUVRE DE WEBLEX A TRAVERS UN NAVIGATEUR

simultanement les resultats places dans cette fenetre (qui restera tou-jours disponible et qu’on pourra eventuellement iconifier de temps entemps) et d’autres resultats.

– les sorties «Window2» a «Window5» permettent de placer differentsresultats (dimensions, vocabulaire, concordances. . .) dans des fenetresindependantes de la meme maniere.

– la sortie «New window» creera systematiquement une nouvelle fenetrepour l’affichage des resultats a chaque appel d’un calcul. Donc contrai-rement aux fenetres Window1 a Window5 vous ne pourrez pas changerle contenu de ces fenetres.

– Listes sous forme de : Toutes les listes : de mots, de concordances,de couples cooccurrents, de specificites, etc. peuvent etre visualisees sousforme de , de ou encore sous forme de fichier LATEX.– L’affichage sous forme de tableau s’adapte a la largeur de l’ecran et a

celle de la page d’impression mais il est plus couteux pour le transfertet le navigateur. Ce format permet de recuperer les resultats de manieretabulee dans les traitements de texte comme WordTM ;

– L’affichage sous forme de texte preformate est moins gourmand en res-sources. De plus, contrairement a l’affichage en tableau, le navigateurpeut afficher la liste au fur et a mesure de sa reception (pour un tableau,le navigateur attend d’avoir toutes les lignes pour connaıtre la largeurmaximale des colonnes et realiser l’affichage). C’est l’option a utiliseren cas d’affichages importants ;

– L’affichage sous forme Tex n’est exploitable que si vous disposez d’unmoteur de mise en page LATEX2e. Vous devrez alors sauvegarder lesresultats sur votre machine et lancer vous-meme le moteur de paginationLATEXsur le fichier resultant. Ce format utilise le maximum des capacitesd’edition de TEXpour realiser la meilleure mise en page de tableaux degrande longueur.

Attention : seul le calcul des specificites triees par ordre hierarchiquepeut generer des sorties au format «Tex» pour l’instant.

– Afficher les : L’affichage de toutes les listes peut etre tronque a leurspremiers elements. Suivant le calcul, c’est un moyen pratique de

verifier une hypothese en limitant les temps de calcul et de transfert. Ceseuil peut s’averer indispensable pour le traitement de corpus importantsou dans le cas de transferts tres lents ;

– Afficher les commentaires : Chaque calcul est susceptible d’afficher descommentaires annexes au resultat du calcul proprement dit. Ces commen-taires peuvent permettre de diagnostiquer un probleme ou d’avoir plus dedetails sur un resultat ;

– Locale :A terme vous pourrez specifier la langue d’utilisation de weblexa l’aide du parametre «Locale». Pour l’instant seul le formatde la date figurant a la fin des sorties de resultats est influencepar le choix du locale : «fr» pour le format francais et «us»

pour le format anglais.– Propriete CQP implicite :

Page 117: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

7.3. USAGE DU FORMULAIRE D’APPEL DES CALCULS 117

Contrairement aux moteurs de recherche qui se contententd’assister l’exploration de la simple surface d’un texte, we-blex permet de rechercher des evenements textuels formes, nonseulement de la surface du texte qui definit les unites lexicales,mais aussi de diverses proprietes associees aux occurrences dechaque unite lexicale du texte. Les proprietes des occurrencesd’un texte dependent de l’enrichissement prealable du textedu corpus traite et des choix d’integration dans les bases deweblex. A ce jour, la surface des unites lexicales est acces-sible par la propriete word des expressions CQP et toutes lesautres proprietes sont accessibles par le biais de proprietes au

nom generique p2, p3, . . .p9. La semantique de chaque propriete generiquedepend des corpus et depend de l’encodeur de ces proprietes (personne ouprogramme). A terme, chaque corpus sera interrogeable a travers des pro-prietes dont le nom, choisi par l’integrateur dans les bases de weblex 9,refletera la semantique.Le moteur de recherche CQP inclut un mecanisme permettant d’exprimerimplicitement a quelle propriete d’occurrence les valeurs utilisees dans lesexpressions font reference. Ce mecanisme permet au moteur d’interpreterune expression CQP ne faisant explicitement reference a aucune proprieted’occurrence particuliere. Par exemple, a votre arrivee dans weblex uneexpression comme anti.* vous permet de rechercher toutes les occur-rences dont la forme commence par «anti» dans un texte. L’expressiontotalement «explicitee» correspondante est [word="anti.*"]. C’est lemecanisme de propriete implicite qui permet au moteur de recherche decompleter/expliciter l’expression en associant la valeur recherchee a lapropriete implicite. Dans weblex vous avez la possibilite de specifier lapropriete implicite d’une expression CQP. La propriete «word», c’est-a-dire les unites graphiques de surface du texte, est la propriete d’occur-rence implicite par defaut. Mais toutes les proprietes de p2 a p9 sontdisponibles. Par exemple, si la propriete p3 d’un corpus encode le lemmedes occurrences, et la propriete p3 est choisie comme champ CQP impli-cite, alors l’expression anti.* fera implicitement reference a l’expression[p3="anti.*"], c’est-a-dire a tous les lemmes commencant par «anti».La difference entre le retour de cette expression et celui de l’expression[word="anti.*"] dependra des choix operes dans la nomenclature deslemmes. Autre exemple, l’expression ["anti.*" & p2="A.*"] pourraitimplicitement faire reference aux lemmes commencant par «anti» quisont des adjectifs (c’est-a-dire [p3="anti.*"&p2="A.*"]).

Valeurs par defaut

– les resultats sont affiches dans le cadre n◦1 ;– les listes sont affichees sous forme de tableaux ;– les 1000 premieres lignes des listes sont affichees (i.e. a priori toutes les

9A priori il n’y a pas de limite quant au nombre total de proprietes associees a chaqueoccurrence d’un texte. La seule contrainte etant que leurs valeurs soient des chaınes de ca-racteres (notez, cependant, que l’usage des expressions regulieres CQP permet souvent, enfonction de l’encodage initial, de destructurer certaines valeurs de propriete en denotant deselements structurels situes a l’interieur de la valeur (cf. la section 4.4.6 page 64 “Usage despatrons de valeurs de proprietes”)).

Page 118: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

118CHAPITRE 7. MISE EN ŒUVRE DE WEBLEX A TRAVERS UN NAVIGATEUR

lignes des petits listings) ;– les commentaires ne sont pas affiches ;– le locale est ’fr’ (la date est ecrite en francais) ;– le champ CQP implicite est la propriete ’word’ du corpus c’est-a-dire la

forme des occurrences.

Affichage d’un index d’expression CQP

Independamment du mecanisme de gestion du nom de propriete CQP im-plicite, weblex permet de composer le resultat des indexes a partir d’une com-binaison de n’importe quelle valeur de propriete. Par exemple, un index affi-chant seulement10 la propriete ’word’ donnera une liste triee hierarchiquementde toutes les formes graphiques correspondant a l’expression. Mais l’index decette meme expression, affichant cette fois plutot la propriete p2 des occurrences(par exemple), donnera une liste hierarchique de toutes les valeurs possibles decette propriete p2 attribuees aux occurrences correspondant a l’expression. Si,par exemple, cette propriete encode la partie du discours des occurrences dutexte, alors l’index sera la synthese hierarchique des differentes parties du dis-cours utilisees dans le cadre de l’expression. Comme la figure 7.7 le montre,toutes les proprietes d’occurrences sont composables pour constituer un index.

Fig. 7.7 – Choix des proprietes composant l’index.

Une expression CQP denote une liste d’intervalles d’occurrences dans untexte Le travail fondamental du calcul de l’index d’une expression CQP estde calculer la liste des differentes successions d’occurrences correspondant auxspecifications de l’expression puis de mettre en forme cette liste. Formellementune expression CQP denotera toujours un intervalle d’occurrences d’unites lexi-cales contigues dans le texte. Le resultat d’un calcul sur une expression CQPsera alors la liste de tous les intervalles obeissant aux contraintes de l’expres-sion. Par exemple, pour l’expression CQP (1)"anti.*" la liste des successionsd’occurrences correspond a la liste des positions successives des formes com-mencant par le prefixe anti a travers l’ensemble du corpus, soit : ..."antidote"..."antidote" ..."anticipe" ... Ici chaque intervalle se reduit a un pointde l’axe syntagmatique, a une seule occurrence du texte. Pour une expressions’etendant sur plus d’une occurrence le long de l’axe syntagmatique, par exemplel’expression (2)[]* "anti.*" []* within s (toutes les phrases contenant uneforme commencant par anti), qui pourrait aussi s’exprimer par "anti.*" expandto s, on obtiendra toutes les listes de suites d’occurrences composant chaquephrase contenant une forme commencant par anti : ...[cet antidote...?]...[...un antidote.] ...[..., anticipe par ...] ...

10ceci correspond au parametrage par defaut de weblex.

Page 119: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

7.3. USAGE DU FORMULAIRE D’APPEL DES CALCULS 119

La representation d’un intervalle d’occurrences peut etre composee des di-verses proprietes de chaque occurrence Que ce soit pour l’exemple (1) ou(2), l’expression CQP denotait des contraintes sur la forme des unites lexicalescomposant le texte, sa surface. Dans ce cas l’index correspond naturellement ala liste des mots, resp. des phrases, obeissant a ces contraintes. Pour l’exemple(1) on obtient l’index :

– 2 antidote– 1 anticipe– . . .Pour l’exemple (2) on obtient l’index :– 1 cet antidote . . . ?– 1 . . .un antidote.– 1 . . ., anticipe par . . .– . . .

. . .A suivre . . .

Affichage des concordances

L’entree Concordances du formulaire permet d’intervenir sur le formatagedes concordances (voir la figure 7.8).

Fig. 7.8 – Parametrage de l’affichage des concordances.

Les concordances peuvent etre triees selon differents criteres et leur affichagecomporte deux parametres fondamentaux : le nombre de caracteres composantles contextes a gauche et a droite du pivot (la colonne centrale), et la justificationdu texte des contextes et des pivots.

Les concordances peuvent etre triees jusqu’a 4 cles de tri selon les 5 champscomposant une ligne de concordance (de gauche a droite) :Reference : La reference dans le corpus de l’occurrence du texte du pivot.

Cette reference a ete construite au moment de l’integration du corpusdans weblex. Son contenu et son format dependent des choix d’integrationdu corpus. En general ses composantes sont separees par une virgule ;

Segment : Le numero de page (apres un «/») dans l’edition en ligne du corpus.Page vers laquelle la reference est un lien hypertextuel. La numerotationdes segments est independante de toute numerotation de la reference ;

Contexte gauche : Le texte situe a gauche du pivot, aligne a droite ;Pivot : Le pivot lui-meme mis en evidence (gras par defaut) et centre. Le texte

du pivot correspond a la suite des occurrences du corpus correspondant a

Page 120: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

120CHAPITRE 7. MISE EN ŒUVRE DE WEBLEX A TRAVERS UN NAVIGATEUR

la requete du moteur de recherche. Dans le cas d’expressions generiques,le texte du pivot est de taille variable.

Contexte droit : Le texte situe a la droite du pivot, aligne a gauche.

Pour chaque cle de tri successive on peut choisir le champselon lequel on procedera au tri :– Aucun : aucune cle de tri. La cle n’est pas utilisee, c’est

donc le champ de la cle suivante qui est utilise pour or-donner ;

– Pivot : alphabetiquement en ordre croissant le texte dupivot ;

– Contexte droit : alphabetiquement en ordre croissant letexte du contexte a la droite du pivot ;

– Contexte gauche : alphabetiquement en ordre croissantle texte du contexte a la gauche du pivot ;

– Reference : alphabetiquement en ordre croissant le textede la reference ;

– Segment : numeriquement en ordre croissant le numerode segment.

La taille des contextes est parametrable independam-ment a gauche et a droite. Elle s’exprime en caracteresmais un contexte s’arretera toujours sur une limite demot. Le formatage en ligne affiche la liste desoccurrences avec une seule ligne par occurrence. Il garan-tit l’alignement des occurrences du pivot et des contextescorrespondants les uns sous les autres. Le formatage en

lignes affiche la liste des occurrences en fonc-tion de la largeur de la fenetre du navigateur. Il garantira

l’alignement des pivots tout en adaptant la disposition des contextes a gaucheet a droite, eventuellement sur plusieurs lignes. Ce format est necessaire pourl’impression quand les lignes de concordances sont trop longues. En formatage«Une» ligne, les lignes trop longues sont tronquees a l’impression. En formatage«Plusieurs» lignes, la largeur des lignes s’adaptera a la largeur du support (enportrait ou en paysage par exemple).

Valeurs par defaut– il n’y a pas de tri par defaut ;– les contextes sont composes des 40 premiers caracteres a gauche et a droite

autour du pivot ;– les contextes sont affiches sur «Plusieurs» lignes ;

Affichage du vocabulaire

Les formes du groupe de gauche et cellesdu groupe de droite d’un vocabulaire cor-respondant au classement alphabetique et hierarchiquedu vocabulaire sont, par defaut, des liens poin-

tant respectivement vers le calcul de la concordance du mot dans le corpus etvers le calcul du lexicogramme du mot. La frequence de la forme dans la colonne

Page 121: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

7.3. USAGE DU FORMULAIRE D’APPEL DES CALCULS 121

hierarchique pointe, de plus, vers le calcul de l’indice de repartition de la forme.Voir les sections 3.1 page 29 «Vocabulaire» et 3.2 page 33 «Repartition». L’op-tion d’affichage du vocabulaire permet de choisir si on desire la generation deces liens ou non. Cela permet de limiter les transferts dans le cas de listes detaille importante et d’alleger l’affichage si les liens ne sont pas utilises.

Valeur par defaut

– Les listes de vocabulaire sont generes avec des liens hypertextuels.

Tri des lexicogrammes et des couples cooccurrents

L’entree Affichage des lexicogrammes et cooccurrences du formulairepermet d’intervenir sur la maniere de trier les listes de mots cooccurrents demaniere generale (voir la figure 7.9).

Fig. 7.9 – Selection des cles de tri des listes de cooccurrents.

La liste des mots cooccurrents a gauche ou a droite d’un pole dans un lexico-gramme et la liste des mots cooccurrents dans le listing des couples de mots cooc-currents peuvent etre triees en faisant intervenir jusqu’a 4 cles de tri differentes.

Une cle de tri determine le moyen d’ordonner deux lignes quand la cleprecedente n’a pas reussi a les ordonner (sauf pour la premiere cle qui triesystematiquement les lignes sur le champ choisi). Par exemple, par defaut, laliste des mots cooccurrents a gauche du pole d’un lexicogramme est triee parla valeur de la probabilite de cooccurrence a priori. Si cette valeur est la memepour deux mots differents, la deuxieme cle les departage par la valeur du nombrede rencontres (ou cofrequence). Si la probabilite et le nombre de rencontres sontidentiques, la troisieme cle de tri les departage par la distance moyenne. Sila probabilite, le nombre de rencontres et la distance moyenne sont les memes,alors on trie les mots alphabetiquement (et les mots ne peuvent etre identiques).Les cles successives sont donc de moins en moins importantes pour la rechercheconsideree. Pour chaque cle de tri successive on peut choisir le champ selonlequel on procedera au tri :

Page 122: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

122CHAPITRE 7. MISE EN ŒUVRE DE WEBLEX A TRAVERS UN NAVIGATEUR

– Aucun : aucune cle de tri. La cle n’est pas utilisee, c’estdonc le champ de la cle suivante qui est utilise pour or-donner ;

– Forme de gauche : alphabetiquement en ordre croissantla «Forme de gauche» A dans la liste des couples de motscooccurrents ou le mot dans les lexicogrammes ;

– Forme de droite : alphabetiquement en ordre croissant la«Forme de droite» B dans la liste des couples de motscooccurrents ou le mot dans les lexicogrammes ;

– Probabilite : numeriquement en ordre croissant la Pro-babilite p ;

– Cofrequence : numeriquement en ordre decroissant lenombre de rencontres r (ou cofrequence) ;

– Distance : numeriquement en ordre croissant la Distancemoyenne dm ;

– Frequence de gauche : numeriquement en ordredecroissant la frequence fA du mot de gauche A dansla liste des couples de mots cooccurrents ou du mot dansles lexicogrammes ;

– Frequence de droite : numeriquement en ordredecroissant la frequence fB du mot de droite Bdans la liste des couples de mots cooccurrents ou du motdans les lexicogrammes ;

Note : Le type et l’ordre des cles de tri influencent largement l’in-terpretation des resultats d’un calcul : on s’interesse, en general,d’abord a ce qui vient en premier ou a ce que l’on a mis en evidence.Or, autant la comparaison de champs numeriques correspondant ades mesures (e.g. probabilite, distance, etc) permet d’ordonner lesresultats selon une certaine pertinence liee a une recherche parti-culiere, autant la comparaison alphanumerique entre mots ne sertqu’a faciliter le reperage d’un mot dans une liste sans introduire demesure (ou de critere) de pertinence entre les mots. Il s’en suit queles cles de tri seront, en general, d’abord numeriques pour classer lesresultats, puis alphabetiques pour faciliter la lecture.

Valeurs par defaut– La figure 7.9 page precedente represente les cles de tri par defaut.

Affichage des lexicogrammes recursifs

L’ensemble des parametres relatifs a la mise en forme des lexicogrammesrecursifs est presente a la figure 7.10 page ci-contre.

Disposition des sommets : weblex integre deux algorithmes de placementdes n œuds du graphe (deux outils de dessin du graphe). Le placementhierarchique dispose les sommets de sorte qu’une forme se trouvant agauche dans le texte (pour un couple) se trouve a gauche dans le graphe.Le placement non hierarchique ne s’impose pas cette contrainte ; les som-mets s’organisent alors uniformement autour du sommet «barycentre11»

11En terme de parcours de graphe.

Page 123: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

7.3. USAGE DU FORMULAIRE D’APPEL DES CALCULS 123

Fig. 7.10 – Parametres de mise en forme des lexicogrammes recursifs

Page 124: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

124CHAPITRE 7. MISE EN ŒUVRE DE WEBLEX A TRAVERS UN NAVIGATEUR

du graphe (voir la section 5.2.1 page 79 «A propos de la lecture desdifferents types de dessins») ;

Distance entre sommets : Influence l’ecart entre les sommets dans le place-ment non hierarchique pour ameliorer la lisibilite du graphe (utile environentre les valeurs 1.0 a 4.0) ;

Etiquette d’arc : Etiquetage optionnel des liens de cooccurrence entre lesformes du lexicogramme recursif avec les mesures p, dm ou r ;

Precision d’affichage : Choix du nombre de chiffres a afficher apres la virgule(les decimales) pour les etiquettes en nombre flottant.Une precision d’affichage de 0 force les etiquettes a n’etre constituees quede l’exposant du nombre flottant (utile quand l’etiquette represente uneprobabilite) ;

Contour de sommet : Choix du motif de pourtour des sommets du graphe :elliptique ou rectangulaire. La selection «Aucun» contour peut rendre pluslisibles certains lexicogrammes recursifs non hierarchiques ;

Format de sortie : weblex fournit systematiquement les lexicogrammes recursifsdans trois formats :– le format image GIF est adapte au navigateur. Ce format donne rapi-

dement une idee de la forme du graphe a l’ecran mais reste illisible dansle cas de graphes depassant plusieurs dizaines de mots ;

– le format PDF adapte a la lecture avec le logiciel gratuit Adobe AcrobatReader. Ce logiciel permet d’imprimer le graphe sur de nombreusesimprimantes et de le visualiser plus confortablement grace notammentaux possibilites de zoom avant et zoom arriere a volonte ;

– le format PostScriptT M adapte a l’impression sur les imprimantes Post-Script ; Format le plus precis pour ces imprimantes.

L’option de Format de sortie intervient seulement sur les images auformat GIF et PostScript.– le format «GIF» produit une simple image pour le navigateur. C’est le

plus rapide a calculer et le format par defaut ;– le format «PostScript» produit une image ou les caracteres accentues

du francais sont preserves. Ce format est necessaire pour obtenir lesversions Poster du graphe (en plusieurs pages) ;

– le format «MAP» genere un lexicogramme recursif hypertextuel. Celexicogramme recursif a la meme forme que celui du format GIF maisdans cette image active chaque sommet est un lien hypertexte versle «lexicogramme simple» 5.1 page 75 (mais plus detaille) de la formecorrespondant au sommet (ce lien est suivi si vous cliquez sur le som-met). Le lexicogramme simple est calcule sur la base des memes para-metres que ceux du lexicogramme recursif d’origine.

Format d’impression : Seule l’option «Poster» intervient sur l’image au for-mat PostScript. Dans ce cas, plutot que de chercher a obtenir un grapheimprimable sur une seule page, l’algorithme de placement generera unfichier PostScript de plusieurs pages. Dans ce fichier chaque page corres-pondra a une portion rectangulaire du lexicogramme recursif total. Ontrouvera en bas a gauche de chaque page les coordonnees « (x, y) » dela page, x (horizontal) et y (vertical), par rapport a l’ensemble des pagesformant le poster du graphe. L’origine du systeme de coordonnees est en

Page 125: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

7.3. USAGE DU FORMULAIRE D’APPEL DES CALCULS 125

bas a gauche du graphe. Apres impression sur une imprimante PostScriptvous devrez massicoter certains bords de pages pour pouvoir coller lespages de sorte a reconstituer le graphe dans son ensemble. Le passageoblige par certains massicotages vient des limitations techniques des im-primantes PostScript qui ne peuvent pas imprimer jusqu’au bord reel despages ;

Afficher la synthese : la synthese du lexicogramme recursif est formee de laliste des formes-sommets du graphe. Cette liste est ordonnee par le nombrede liens de cooccurrence decroissant. Chaque sommet est suivi du nombrede liens en partant ou y arrivant entre parentheses. Cette liste fournit par-fois suffisamment d’informations meme si l’image du graphe reste illisiblea l’ecran. Le tri des sommets renseigne sur les foyers de cooccurrence d’untexte ;

Propagation asymetrique : l’algorithme de propagation asymetrique de larelation de cooccurrence a partir de la source d’un lexicogramme recursifcorrespond a l’algorithme initial de constitution des graphes de cooccur-rence de Maurice Tournier [?].

. . .A suivre . . .

Ensembles de lexicogrammes recursifs

Lors de l’affichage de tous les lexicogrammes recursifs d’un corpus on s’interessera,par defaut, aux graphes composes de plus de 2 mots, c’est-a-dire aux regroupe-ments plus riches qu’un simple couple de cooccurrents. Dans certains corpus, lenombre minimum de sommets par graphe permet aussi de ne selectionner queles composantes connexes les plus importantes.

Par defaut, seule une synthese composee de la liste des formes participantaux graphes et du nombre de leurs liens afferents est affichee. Le choix d’affichage«le graphe» dessinera le graphe lui-meme mais sera beaucoup plus gourmanden temps de calcul.

Page 126: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

126CHAPITRE 7. MISE EN ŒUVRE DE WEBLEX A TRAVERS UN NAVIGATEUR

Segments repetes

Par defaut, weblex ne recherche que les segments repetes composes de 2 a 7 mots.Ce parametre est a adapter suivant la recherche consideree. Par exemple, dessegments repetes de longueur superieur a 30 mots nous ont aide a detecter desformules d’argumentation reutilisees lors de debats a l’Assemblee Nationale [?].

La propriete de composition des segments repetes doit a terme se fondre avecla fonctionnalite similaire de composition de l’index des expressions CQP (voirla section 7.3.5 page 118 «Affichage d’un index d’expression CQP»).

Dans weblex, les segments repetes peuvent etre tries, au choix, jusqu’a 3 clesde tri successives suivant :

– La longueur du segment repete en mots ;– La frequence totale du segment repete ;– L’ordre alphabetique des mots concatenes ;– L’ordre alphabetique des mots reecrits de la droite vers la gauche avant

d’etre concatenes. Cette derniere option de tri permet de ventiler les listesde segments en accordant un poids superieur aux mots de droite du seg-ment (a tete a droite), contrairement au tri alphabetique classique quiaccorde un poids superieur aux mots de gauche du segment (a tete agauche).

A ce jour, l’elagage des expansions recurrentes dans les segments repetes [102]n’est realise que dans le cas particulier des expansions recurrentes a la gauchedes segments. A terme, nous comptons elaguer toutes les expansions recurrentes.

Repartition

Par defaut les graphes de repartition ne sont pas dessines. Le choix d’affi-chage des graphes de repartition pourra etre declenche apres reglage des seuilsd’elagage adequats afin de limiter les calculs.

Page 127: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

7.3. USAGE DU FORMULAIRE D’APPEL DES CALCULS 127

Specificites

Par defaut, les tableaux de specificites globaux (portant sur l’ensemble du voca-bulaire d’un corpus) sont tries par specificite decroissante. Il peuvent etre triespar specificite croissante ou les deux successivement.

Arguments des calculs

Le champ Source A permet de saisir :– le pole des lexicogrammes ;– la source des lexicogrammes recursifs ;– le filtre de concordance, d’index et de repartition (expression CQP) ;– le patron (expression reguliere) d’element de segment repete a filtrer.Les poles de lexicogrammes et les sources de lexicogrammes recursifs sont

saisis litteralement dans le champ source. Les filtres de concordance s’exprimenteux dans un langage d’interrogation specifique au moteur de recherche (voir lasection 4.4 page 59 «Syntaxe et usage du langage d’interrogation du moteur derecherche CQP»).

A ce jour, les champs ’Source B’ et ’Source C’ sont mis en œuvre dans lescalculs :

– index d’expressions CQP ;– repartition d’expressions CQP ;– specificite d’expressions CQP.

Page 128: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

128CHAPITRE 7. MISE EN ŒUVRE DE WEBLEX A TRAVERS UN NAVIGATEUR

Page 129: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

Chapitre 8

Expressions regulieres sur lescaracteres

8.1 Introduction

Une expression reguliere est une chaıne de caracteres (c’est-a-dire une succes-sion de caracteres) speciale dont l’interpretation decrit un ensemble de chaınescomposees de caracteres habituels. Elle correspond donc a un patron de chaınesde caracteres ou de formes, de valeurs de proprietes, etc. Par exemple, l’expres-sion reguliere e.∗ peut decrire l’ensemble de toutes les formes d’un vocabulairecommencant par le caractere ”e”. Chaque forme de cet ensemble est dite «cor-respondre» a l’expression reguliere. Dans une expression reguliere, les caracteresalphanumeriques habituels valent pour eux meme et certains caracteres (appelesoperateurs) ont une interpretation speciale et expriment differentes contraintesmorphologiques que l’on impose a la composition de la forme pour qu’elle cor-responde au patron recherche. Par exemple, dans l’expression reguliere e.*le caractere ”e” exprime le fait que ce caractere alphanumerique doit se trou-ver a cette position dans la forme (i.e. au debut) et les caracteres ”.*” sontdes operateurs exprimant le fait que l’on desire eventuellement des caracteresapres le premier. Cette terminaison est exprimee par la composition des deux ca-racteres. Le caractere ”.” exprime le fait que l’on desire un caractere quelconquea cet endroit dans la chaıne et le caractere ”*” exprime que l’on desire de 0 a n(c’est-a-dire un nombre quelconque) occurrences de l’expression immediatementprecedente, c’est-a-dire ici le ”.”. Les caracteres ”.*” s’interpretent donc fina-lement comme «0 a n occurrences d’un caractere quelconque», ce qui peutaussi s’interpreter comme l’expression d’une fin de chaıne quelconque eventuel-lement vide. Pour un vocabulaire, cette expression pourrait donc correspondrea des formes comme ”ete”, ”element”, ”elements”, ”etrange”, etc. Une expres-sion reguliere composee de caracteres habituels et d’operateurs forme donc unedescription generique d’un ensemble de chaınes de caracteres.

La figure 8.1 page suivante presente quelques exemples d’expressions reguliereset les interpretations correspondantes.

129

Page 130: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

130CHAPITRE 8. EXPRESSIONS REGULIERES SUR LES CARACTERES

Expression Interpretation

anti.* toute forme commencant par ”anti”.*el toute forme se terminant par ”el”.*els ? toute forme se terminant par ”el” ou ”els”

anti.*els?toute forme commencant par leprefixe ”anti” et se terminantpar les suffixes ”el” ou ”els”

Tab. 8.1 – Exemples d’expressions regulieres simples

8.2 Syntaxe des expressions regulieres

Dans les expressions regulieres on distingue les caracteres normaux utiliseslitteralement a leur position dans l’expression (i.e. pour eux-memes) des ca-racteres speciaux ou operateurs denotant un aspect generique de l’expression(i.e. une operation sur les sous-expressions). Certains operateurs s’appliquent al’ensemble d’un groupe de caracteres (normaux ou operateurs).

8.2.1 Les caracteres normaux

Les caracteres normaux sont tous les caracteres qui ne sont pas des operateurs.Donc tous les caracteres qui ne sont pas : ., *, +, ?, {, }, (, ), |, [, ], - et ∧dans [], et \.

Dans le codage des caracteres ISO Latin 1 utilise par weblex, on peut distin-guer :

– les caracteres alphabetiques :– les minuscules a, b, . . ., z– les minuscules accentuees a, a, . . ., y– les majuscules A, B, . . ., Z– les majuscules accentuees A, A, . . .ß

– les caracteres numeriques : 0, 1, . . ., 9– les caracteres annexes, composant des lexies : /, ◦, %, ’, ‘– les caracteres de ponctuation :

– faibles : , , ;, :, =, ’, «, », ”– forts : ., !– certains caracteres separateurs : /, , \t, ” ”, §

– etc.Vous pouvez consulter la «table des caracteres ISO Latin 1» ?? page ?? pour

visualiser l’integralite des caracteres disponibles.Bien sur un caractere operateur (le caractere ’\’) vous permettra de neu-

traliser l’interpretation habituelle de tous les caracteres speciaux pour pouvoirexprimer des chaınes de caracteres les contenant.

8.2.2 Les caracteres operateurs

Les caracteres operateurs permettent d’exprimer :– le fait que l’on desire un caractere quelconque a une position donnee : le

point - . ;

Page 131: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

8.2. SYNTAXE DES EXPRESSIONS REGULIERES 131

– le fait que l’on desire (ou que l’on ne desire pas) un caractere parmi unensemble particulier de caracteres a une position donnee (i.e. on contraintles caracteres possibles) : les crochets - [ ] ;

– de repeter un nombre variable de fois la contrainte precedente (i.e. le faitque l’on desire un caractere ou une expression reguliere particuliere) : lepoint d’interrogation - ?, l’etoile de Kleene - * et le signe d’addition - + ;

– le choix entre une expression reguliere ou une autre a une position donnee :la barre verticale de disjonction - | ;

– de regrouper les elements d’une expression pour lui appliquer un autreoperateur : le parenthesage - ( ) ;

– le fait qu’un caractere operateur se trouve a une position donnee : lecaractere neutralisant d’operateur, l’anti slash - \.

Le tableau 8.2 presente une synthese de tous les operateurs disponibles etleur interpretation.

Operateur Interpretation

. n’importe quel caracterex* 0, 1, 2, . . .exemplaire(s) de x1

x+ 1, 2, 3, . . .exemplaire(s) de xx ? x est optionnelx|y x ou bien y(x) x[xy] x ou y (ensemble de caracteres)[x-z] x, y ou z (intervalle de caracteres)[∧x] n’importe quel caractere different de x\x x, meme si x est un caractere operateur

Tab. 8.2 – Operateurs des expressions regulieres

8.2.3 Exemples d’interpretation d’expressions

La figure 8.3 presente quelques exemples d’expressions regulieres et les in-terpretations correspondantes.

Expression Interpretation

[A-Z].* toute chaıne commencant par une majuscule. ∗ [∧0 − 9A − Za − zA − y].∗ toute chaıne contenant un caractere non alphanumerique.*(el|elle) toute chaıne se terminant par ”el” ou ”elle”

Tab. 8.3 – Exemples et interpretations d’expressions

Page 132: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

132CHAPITRE 8. EXPRESSIONS REGULIERES SUR LES CARACTERES

Page 133: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

Chapitre 9

Manuel de reference desExpressions CQP

On peut distinguer 3 niveaux dans les expressions CQP :

1. le niveau des caracteres ;

2. le niveau des valeurs de proprietes des occurrences ;

3. le niveau des successions d’occurrences.

Le modele de texte correspondant a ces notions d’occurrence, de proprietesd’occurrence et de valeur de propriete (les chaınes de caracteres) est celui decrita la figure 9.1 page suivante. Les niveaux 1 et 2 expriment plutot des contraintesportant sur l’axe paradigmatique, le niveau 3 correspond lui a l’axe syntagma-tique.

9.1 Niveau 1 : expressions regulieres sur les ca-racteres

Le niveau elementaire des expressions CQP exprime des contraintes sur laforme des valeurs de proprietes des occurrences du corpus : comme leur forme,leur partie du discours. . .Le langage de requete CQP utilise des expressionsregulieres analogues aux «expressions regulieres» 8 page 129 standard. Uneexpression reguliere est une chaıne de caracteres pouvant exprimer plusieurschaınes de caracteres : elle peut donc avoir une valeur generique. On y distinguedes caracteres speciaux (appeles operateurs) et des caracteres litteraux (lescaracteres habituels).

9.1.1 Litteraux

Une expression reguliere constituee de n’importe quel caractere en dehorsdes caracteres . * + ? {} () | [] \ (ainsi que - et ∧ dans les []) exprimelitteralement la chaıne recherchee. Elle n’a donc aucune valeur generique et elleest equivalente a la recherche d’une chaıne de caracteres particuliere a l’aided’un traitement de texte par exemple.

133

Page 134: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

134 CHAPITRE 9. MANUEL DE REFERENCE DES EXPRESSIONS CQP

Fig. 9.1 – Modele de texte etiquete.

Legende : - proprietes d’occurrences ; - intervalles d’occurrences ; - macro-structure du texte .A finir...

Page 135: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

9.2. NIVEAU 2 : VALEURS DE PROPRIETES 135

Par exemple : l’expression democratie permettra de rechercher toutes lesoccurrences du mot democratie dans un corpus. Attention : les caracteres es-paces sont significatifs dans une expression. Donc l’expression pomme de terre(contenant deux espaces) correspondra a l’occurrence du mot compose pommede terre. L’inclusion ou non d’espaces dans certaines formes du corpus dependde son integration dans weblex.

9.1.2 Operateurs

– Entre [] :– exprime un caractere et un seul ;– tous les caracteres speciaux sont neutralises, sauf le - d’intervalle et le∧ d’exclusion.

– Entre parentheses () : pour grouper l’application d’un operateur ;– Operateurs . * + ? {} () | [] \ (ainsi que - et ∧ dans les [])

. caractere quelconque ;

x* x de 0 a n fois ;

x+ x de 1 a n fois ;

x ? x optionnel ;

[xy] x ou y (pour les caracteres) ;

x-z de x a z (ordre alphanumerique) : x,y,z (pour les caracteres) ;

[∧xy] tout caractere different de x et de y (pour les caracteres) ;

∧ s’applique a tout ce qui est dans le crochet (mais ne correspond de toutefacon qu’a un seul caractere) ;

ab|cd ab ou cd ;

\\ neutralisation d’un operateur ;

Quelques exemples

– anti.* toute chaıne qui commence par anti ;– [A-Z].* toute chaıne qui commence par une majuscule ;– [∧0 − 9]∗ toute chaıne ne contenant pas de chiffre ;– .*(el|ele) toute chaıne se terminant pas ”el” ou ”ele” ;– .*ele? idem.

9.2 Niveau 2 : valeurs de proprietes

Ce niveau repose sur le niveau precedent en l’inserant a l’interieur de guille-mets ". . .", en associant a chaque chaıne une propriete particuliere et en posantdes contraintes entre ces proprietes.

– nom de la propriete="..." pour exprimer une valeur de propriete.On peut se passer de ces ". . ." si l’expression porte sur une seule occurrenceet sur la propriete implicite ’word’ par exemple (mais dans ce cas, il nefaut mettre ni de word= ni de []. Si on exprime le nom de la propriete acontraindre, comme word=, alors il faut les [] et les "...")

Page 136: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

136 CHAPITRE 9. MANUEL DE REFERENCE DES EXPRESSIONS CQP

9.2.1 Operateurs sur les valeurs de proprietes

= egalite ;

!= difference/negation ;

>= plus grand ou egal ;

> plus grand ;

<= plus petit ou egal ;

< plus petit.

9.2.2 Composition des valeurs de proprietes

| disjonction ;

& conjonction ;

! negation/difference (au niveau 2 et devant ())

Exemple

[(lem="leur"|lem="nos") & pos="proper" & !(accort=n)]Glose : une occurrence du lemme «leur» ou du lemme «nos» dont la propriete

«pos» (pour part-of-speech) vaut «proper» et dont la propriete «accort» n’ai pasla valeur «n».

9.2.3 Modifieurs relachant les contraintes de casse et de signesdiacritiques

Ces modifieurs se placent en fin de chaıne :– %c casse quelconque.

Par exemple : "je"%c pour je, Je, JE, jE ;– %d signe diacritique quelconque (present ou absent) : porte sur l’ensemble

de la chaıne, pas seulement sur la derniere lettre.Par exemple : "ete"%d pour ete, ete, ete, ete.

9.2.4 Gestion des espaces

Les caracteres «blancs» (dont l’espace et la tabulation) ne sont pas significa-tifs dans les expressions d’occurrence (niveau 3) et de valeurs de proprietes d’oc-currence (niveau 2), mais ils sont pris en compte dans les expressions regulieres(des qu’on est entre " ")

Par exemple : l’expression [word="age"] est equivalente a [ word="age"] mais differente de [word="age "] (notez le caractere espace juste apres ledeuxieme ”age” a l’interieur des "...").

9.3 Niveau 3 : Succession d’occurrences

Ce niveau repose sur le niveau precedent en l’inserant a l’interieur de cro-chets [...]. Chaque paire de crochets denote alors une occurrence generique.Les operateurs du niveau 3 portent en general sur une paire de crochets et sontanalogues aux operateurs du niveau 1 portant sur les caracteres. Par exemple,

Page 137: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

9.3. NIVEAU 3 : SUCCESSION D’OCCURRENCES 137

pour le niveau 1 l’expression s* exprime une succession de caracteres ’s’ even-tuellement vide (e.g. «sss. . .»), et pour le niveau 3 l’expression [lem="avoir"]*exprime une succession ou sequence d’occurrences du verbe «avoir» eventuel-lement vide (e.g. ’a eu. . .’). Il y a donc de nombreuses homographies entre lesnoms d’operateurs pour ces deux niveaux (cf section 9.4.1 page suivante «Ho-mographies entre les operateurs de chaque niveau d’expression»).

[] mot quelconque (plus rapide que ”.*” a l’execution) ;

[]* suite de 0 a n mots quelconques ;

[]+ suite de 1 a n mots quelconques ;

[xy] [] [ab] xy suivi d’un mot quelconque suivi de ab ;

[xy] | [ab] xy ou ab ;

[...]n n occurrences de [] ;

[...]n, au moins n occurrences de [] ;

[...]m,n entre m et n occurrences de [].(les quantifieurs ... n’ont pas d’equivalent pour les expressions regulieresde chaınes de caracteres) ;

[xy] [ab] ? xy suivi facultativement de ab .

9.3.1 Limitation de l’expansion des successions d’occurrences

De la meme maniere que l’on utilise souvent l’etoile de Kleene du niveau1 pour exprimer une suite quelconque de caracteres dans une chaıne commedans "anti.*" ou .* denote une finale quelconque, on utilise souvent l’etoile deKleene sur le domaine des occurrences (niveau 3) pour exprimer une certainevariation entre differentes occurrences particulieres comme dans l’expression[fonc="V"] []* [fonc="S"] ou []* pourrait denoter un nombre quelconqued’occurrences separant un verbe de son sujet antepose. Ce moyen d’expressionpose la question du nombre d’occurrences du texte pouvant correspondre a lapartie []* de l’expression. Par defaut le moteur de recherche limite le nombred’occurrences pouvant correspondre a 3000 occurrences.

Afin de contraindre la correspondance de ce type «d’expansion» a des limitesnaturelles du texte, pourvu qu’elles ai ete encodees lors de l’integration du textedans weblex, le langage d’expression offre la clause within.Cette close delimite les expansions a un nombre d’occurrences fixe ou bien a deslimites structurelles du texte.

– within 10 delimitation de la taille du texte voulu : ici 10 mots au maxi-mum ;

– within s/p/... a l’interieur de la phrase, ou du paragraphe si encode,. . .

9.3.2 Expression de contraintes entre les occurrences

Pour pouvoir faire reference a une valeur de propriete dans l’expression d’uneautre occurrence on «etiquete» la premiere occurrence et on s’y refere a l’aidede l’etiquette dans l’expression de la deuxieme.

Page 138: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

138 CHAPITRE 9. MANUEL DE REFERENCE DES EXPRESSIONS CQP

Exemple

a :[pos="det"][pos="vcj" & accort=a.accort] Glose : on veut que ac-cort pour vcj ait la meme valeur que celle de det

Ici on a etiquete par a l’occurrence denotee par l’expression [pos="det"] eton a fait reference a sa propriete accort en l’ «ouvrant» a la propriete accort(a.accort = la valeur de la propriete accor de l’occurrence a)

9.3.3 Expansion du resultat des recherches

expand (right/left) to 10/s : pour etendre la portion de texte recou-verte par une expression a une unite de texte superieure a l’intervalle d’occur-rences correspondant a l’expression.

Exemple

[lem="avoir"] expand to 3 s retournera tous les groupes de 3 phrasescontigues dont l’une contient une occurrence du verbe avoir (l’expression re-couvre chaque occurrence du verbe avoir dans le texte et l’expansion retournea chaque fois la phrase entiere contenant l’occurrence ainsi que les 2 phrasessituees de part et d’autre de cette phrase).

9.4 Interactions entre les differents niveaux d’ex-

pression CQP

9.4.1 Homographies entre les operateurs de chaque niveaud’expression

L’enjeu des expressions CQP etait d’offrir des moyens d’expression sur desobjets aux contraintes similaires : la succession, la disjonction, l’option. . .Ce quicorrespond aux objets caracteres pour le niveau 1 et aux objets occurrencespour le niveau 3. Le parti pris dans CQP a ete de nommer de maniere identiqueles operateurs aux fonctions similaires dans chaque niveau. Ceci amene natu-rellement une ambiguıte de lecture de la portee de ces operateurs et donc deleur fonction mais la structure formelle du langage d’expression CQP permettoujours de lever ces ambiguıtes pour l’interpretation. A savoir :

– les operateurs de niveau 1 sont toujours situes entre "..." ;– les operateurs de niveau 2 sont toujours situes entre [...] ;– les operateurs de niveau 3 sont toujours situes a l’exterieur de [...] et

de "...".

9.4.2 Tableau de synthese des differentes fonctions et nomsd’operateurs entre les niveaux

La figure 9.1 page ci-contre presente une synthese des fonctions et des nomsd’operateurs entre les differents niveaux d’expression CQP.

La figure 9.2 page suivante presente une synthese des ambiguıtes de lecturepotentielles pour certains operateurs entre les differents niveaux d’expressionCQP.

Page 139: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

9.4. LES DIFFERENTS NIVEAUX D’EXPRESSION CQP 139

delim. element quelc. succ. juxt./conj. regroup. disj. opt. neg.

niveau 1 ”. . .” . *, + juxt. (. . .) —, [. . .] ? ∧niveau 2 [. . .] & (. . .) — !, !=niveau 3 [] *, +, n,m juxt. (. . .) — ?

Tab. 9.1 – Homographie entre operateurs et niveaux d’expression CQP

niveau operateur [. . .] *, + (. . .) — ?

niveau 1 X X X X Xniveau 2 X X Xniveau 3 X X X X

Tab. 9.2 – Ambiguıte de lecture potentielle entre operateurs CQP

9.4.3 Remarque importante

Il existe souvent plusieurs facons de formuler une meme requete. Par exemple,les trois expressions suivantes sont equivalentes :

– [lem="lutte|combat"]on cherche une occurrence dont la propriete lem ai soit la valeur «lutte»soit la valeur «combat» ;

– [lem="lutte"|lem="combat"]on cherche une occurrence dont soit la propriete lem ai la valeur «lutte»soit la propriete lem ai la valeur «combat» ;

– [lem="lutte"]|[lem="combat"]on cherche une occurrence dont la propriete lem ai la valeur «lutte» oubien une occurrence dont la propriete lem ai la valeur «combat».

Ici l’operation denotee est la disjonction entre differents cas : soit une occur-rence de «lutte» soit une occurrence de «combat». Et bien que cette disjonctionsoit toujours exprimee a l’aide du symbole «—», ce dernier denote a chaque foisl’operateur d’un niveau d’expression different : successivement celui du premier,du deuxieme puis du troisieme niveau. Pour illustrer le travail de lecture de cestrois expressions nous pouvons les reecrire en coloriant chaque operateur de lacouleur du niveau auquel il correspond. Ceci est presente a la figure 9.3.

[ lem="lutte|combat" ]

[ lem="lutte" | lem="combat" ]

[ lem="lutte" ] | [ lem="combat" ]

Tab. 9.3 – Interpretation contextuelle du niveau d’expression de l’operateurCQP de disjonction «|». Le code des couleurs correspond a celui des tableaux 9.1et 9.2.

Page 140: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

140 CHAPITRE 9. MANUEL DE REFERENCE DES EXPRESSIONS CQP

9.4.4 Considerations pratiques

La conception du langage CQP a notamment ete orientee par des notionsde concision d’expression et de facilite de memorisation, toutes deux offertespar l’homonymie d’operateurs similaires portant sur differents types d’objets.Cependant il faut savoir que chaque niveau d’expression a un cout de traitementpar le serveur qui lui est propre. Donc bien que certaines expressions soientequivalentes au regard du langage d’expression CQP le travail a fournir pourrepondre aux requetes depend particulierement du niveau d’expression utilise.De maniere generale on peut etablir la regle suivante :

Plus le niveau d’expression d’une contrainte est eleve plus le serveursera rapide pour resoudre la contrainte et pourra accelerer la reponsea la requete.

Donc dans l’exemple precedent la reponse a la troisieme expression[lem="lutte"]|[lem="combat"] sera la plus rapide. Bien sur ces considerationsdependent de la taille du corpus recherche. Donc le choix du niveau d’expressiondepend d’un compromis entre la preference du niveau d’expression de l’utilisa-teur et des dimensions du corpus.

Remerciements Ce document s’est construit, en partie, a partir de notes deSophie Prevost (LATTICE - CNRS/ENS).

Page 141: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

Chapitre 10

Table de decodage desetiquettesmorpho-syntaxiquesMultext/Grace/Cordial

10.1 Introduction

Ces tables de decodage sont concues pour aider (ou apprendre) l’interpretationd’etiquettes morpho-syntaxiques du type Multext.

La propriete fondamentale de ces etiquettes vient de leur forme - c’est-a-direde la maniere de les ecrire. En effet, ces etiquettes ont ete concues en faisantcorrespondre systematiquement a deux zones dans l’etiquette, d’une part lapartie du discours et d’autre part la sous-categorisation specifique a cette partiedu discours. La zone partie du discours est construite en associant a une partiedu discours un seul caractere reserve. Par exemple, le caractere ’V’ est reserve al’etiquetage des verbes du texte. La zone de sous-categorisation est construite enassociant a chaque trait de sous-categorisation un seul caractere a une positionreservee. Par exemple, la partie du discours Verbe est sous-categorisee en traitstype, mode, temps, personne, nombre, genre - qui, suivant la valeur du traitprennent les valeurs respectivement de :

– pour le type : m pour principal (main), a pour auxiliaire ;– pour le mode : i, s, f, c, n, p pour resp. indicatif, subjonctif, imperatif,

conditionnel, infinitif, participe ;– pour le temps : p, i, f, s, r, m, c, e, a pour resp. present, imparfait, futur,

passe, subjonctif present, subjonctif imparfait, conditionnel, imperatif,participe passe ;

– pour la personne : 1, 2, 3 pour resp. premiere personne, deuxieme per-sonne, troisieme personne ;

– pour le nombre : s, p pour resp. singulier, pluriel ;– pour le genre : m, f pour resp. masculin, feminin.Quand un trait n’est pas precise le caractere correspondant est ’.’ pour «quel-

conque».

141

Page 142: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

142CHAPITRE 10. TABLE DE DECODAGE DES ETIQUETTES MORPHO-SYNTAXIQUES

Quand un trait n’est pas pertinent pour la partie du discours consideree et sasous-categorisation eventuelle le caractere correspondant est ’-’.

Donc, par exemple, pour interpreter l’etiquette ’Vmip3s.’ on procede en deuxtemps : D’abord on decompose en deux zones : V + mip3s. ; Puis on interprete :

– la partie du discours : V = verbe ;– la sous-categorisation : mip3s. = principal, indicatif, present, troisieme

personne, singulier, genre quelconque.Voici les 11 tables de decodage de chaque partie du discours :

N Nom (tableau 10.1 page 143) ;

V Verbe (tableau 10.2 page 143) ;

R Adverbe (tableau 10.3 page 143) ;

A Adjectif (tableau 10.4 page 144) ;

S Preposition (tableau 10.5 page 144) ;

C Conjonction (tableau 10.6 page 145) ;

D Determinant (tableau 10.7 page 146) ;

P Pronom (tableau 10.8 page 146) ;

I Interjection (tableau 10.9 page 146) ;

M Numeral (tableau 10.10 page 146) ;

Y Ponctuation (tableau 10.11 page 147).

Page 143: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

10.1. INTRODUCTION 143

PdD Type Genre Nombre

N c m s Nom commun masculin singulier tigre, menuisierp f p propre feminin pluriel Jean, Liege

Tab. 10.1 – N Nom

PdD Type Mode Temps Personne Nombre Genre

V m i p 1 s m Verbe principal indicatif present premiere singulier masculina s i 2 p f auxiliaire subjonctif imparfait deuxieme pluriel feminin

f f 3 imperatif futur troisiemec s conditionnel passen r infinitif subj. pres.p m participe subj. imp.

c conditionnele imperatifa part. passe

Tab. 10.2 – V Verbe

PdD Type Degre

R g p Adverbe general non comparatif et non negatifp c particule comparatif

n negatif (ne ou n’)

Tab. 10.3 – R Adverbe

Page 144: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

144CHAPITRE 10. TABLE DE DECODAGE DES ETIQUETTES MORPHO-SYNTAXIQUES

PdD Type Degre Genre Nombre

A f p m s Adjectif qualificatif non comparatif masculin singuliero c f p ordinal comparatif feminin plurieli indefinis possessif

Tab. 10.4 – A Adjectif

PdD Type

S p Adposition preposition a, apres, attendu, avant, avec, chez, concer-nant, contre, dans, de, depuis, derriere, des,devant, durant, en, entre, envers, excepte,hormis, hors, jusque(s), malgre, moyennant,outre, par, parmi, passe, pendant, plein, pour,pres, proche, sans, sauf, selon, sous, suivant,suppose, sur, touchant, vers, vu

Tab. 10.5 – S Preposition

Page 145: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

10.1. INTRODUCTION 145

PdD Type

C c Conjonction coordination Rapports :– addition, liaison : et, ni, puis, ensuite, alors,

aussi, bien plus, jusqu’a, comme, ainsi que,aussi bien que, de meme que, non moins que,avec ;

– alternative, disjonction : ou, soit. . .soit,soit. . .ou, tantot. . .tantot, ou bien ;

– cause : car, en effet, effectivement ;– consequence : donc, aussi, partant, alors,

ainsi, par consequent, en consequence,consequemment, par suite, c’est pourquoi ;

– explication : savoir, a savoir, c’est-a-dire,soit ;

– opposition, restriction : mais, au contraire,cependant, toutefois, neanmoins, pourtant,d’ailleurs, aussi bien, au moins, du moins,au reste, du reste, en revanche, par contre,sinon ;

– transition : or.

s subordination Rapports :– but : afin que, pour que, de peur que, . . . ;– cause : comme, parce que, puisque, attendu

que, vu que, etant donne que, . . . ;– comparaison : comme, de meme que, ainsi

que, autant que, plus que, moins que, nonmoins que, selon que, suivant que, commesi, . . . ;

– concession, opposition : bien que, quoique,alors que, tandis que, . . . ;

– condition, supposition : si, au cas ou, acondition que, pourvu que, a moins que, . . . ;

– consequence : que, de sorte que, en sorteque, de facon que, de maniere que, . . . ;

– temps : quand, lorsque, comme, avant que,alors que, des lors que, tandis que, depuisque, . . ..

Tab. 10.6 – C Conjonction

Page 146: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

146CHAPITRE 10. TABLE DE DECODAGE DES ETIQUETTES MORPHO-SYNTAXIQUES

PdD Type Personne Genre N

D a 1 m s s d Determinant article premiere masculin sd 2 f p p i adjectif demonstratif deuxieme feminin pi 3 adjectif indefini (adjectif interrogatif ?) troisiemes adjectif possessift adjectif interrogatif/exclamatif (adjectif indefini ?)

Tab. 10.7 – D Determinant

PdD Type Personne Genre Nombre Cat

P p 1 m s n Pronom personnel non reflechi premiere masculin singulier sujet (nominatif)x 2 f p a personnel reflechi deuxieme feminin pluriel COD (accusatif)d 3 d demonstratif troisieme COI (datif)i indefinis possessift interrogatifr relatif

Tab. 10.8 – P Pronom

PdD

I Interjection adieu, ah, ahi, aıe, allo (allo), bah, baste, barnique,bravo, ca, chiche, chut, crac, dame, dia, eh, euh, fi,fichtre, foin, gare, ha, haıe, hardi, he, hein, helas,hem, ho, hola, hon, hosanna, hourra, hue, hum, la,las, mince, motus, o, oh, ohe, ouais, ouf, ouiche,ouste, paf, pan, patatras, pif, pouah, pst, quoi, sa-cristi, saperlipopette, saperlotte, sapristi, st, sus, vi-vat, zest, zut, ah ! ca, a la bonne heure, bonte divine,eh bien, eh quoi, fi donc, grand Dieu, he bien, hequoi, ho ! ho, jour de Dieu, juste Ciel, la ! la, ma foi,mille bombes, mon Dieu, or ca, or sus, oui-da, parexemple, quoi donc, ta ta ta, tout beau, tout doux

Tab. 10.9 – I Interjection

PdD Type Genre Nombre

M c m s Numeral commun masculin singulierf p feminin pluriel

Tab. 10.10 – M Numeral

Page 147: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

10.1. INTRODUCTION 147

PdD Type Genre

Y p w Ponctuation ponctuation finales s autre pause

o ouvrantec fermantes autre

Tab. 10.11 – Y Ponctuation

Page 148: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

148CHAPITRE 10. TABLE DE DECODAGE DES ETIQUETTES MORPHO-SYNTAXIQUES

Page 149: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

Chapitre 11

Guide du Comment Faire deweblex

Rubriques– Integration de corpus ;– Recherche ;– Synthese de liste ou de graphe ;– Lecture ;– Synthese de cooccurrences ;– A suivre.Vous souhaitez :

11.1 Integration de corpus

1. integrer votre corpus dans weblex afin de pouvoir l’analyser ;2. partitionner votre corpus en vue de l’integrer a weblex et de beneficier

de ses traitements intrinsequement contrastifs (specificites, AFC) ainsi quede l’iteration systematique d’outils non contrastifs sur chacune de ses par-ties (index, concordance, . . .) ;

3. «re-segmenter» ou regrouper de maniere differente diverses lexiesde votre corpus afin de pouvoir les traiter automatiquement commedes unites lexicales autonomes. Comme, par exemple, certaines expres-sions figees ou mots composes non identifies par les outils d’integrationpredefinis (par exemple, agreger les lexies «pommes», «de» et «terre» enune seule unite lexicale «pommes de terre» qui participera au vocabulaireau meme titre que les formes simples et d’autres formes «composees») ;

4. sous-partitionner un corpus deja partitionne en vue de l’integrer aweblex et de beneficier de traitements contrastifs sur les sous-parties departies preexistantes ;

5. ajouter une propriete a certaines lexies (ou mots) de votre corpusafin de pouvoir y faire reference dans les expressions CQP lors de vosrecherches dans weblex ;

6. ajouter une propriete a un element quelconque de la macrostruc-ture de votre corpus (lexie, phrase, paragraphe, section, chapitre, . . .)

149

Page 150: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

150 CHAPITRE 11. GUIDE DU COMMENT FAIRE DE WEBLEX

afin de pouvoir y faire reference dans les expressions CQP lors de vos re-cherches dans weblex (comme pouvoir contraindre une occurrence a etrecelle d’une certaine partie du discours, ou etre celle d’un lemme particu-lier, . . .) ou de pouvoir beneficier de cette information dans les referencesdes resultats d’exploration (comme obtenir le numero de page de l’editionde reference du texte du corpus ou se situe l’occurrence d’une expressionCQP dans une concordance) ;

11.2 Recherche

1. rechercher un mot particulier dans le corpus pour compter le nombrede fois ou il apparaıt, pour visualiser son contexte d’apparition ou saregularite d’utilisation ;

2. rechercher une racine de mot particuliere dans le corpus et visualiserses differentes realisations ;

3. rechercher deux mots consecutifs dans le corpus ;

4. rechercher deux mots presque consecutifs dans le corpus ;

5. rechercher deux mots non consecutifs dans le corpus ;

6. rechercher deux mots non consecutifs situes a l’interieur de lameme phrase dans le corpus ;

7. rechercher un mot combinant diverses proprietes : une certaineforme, une certaine partie du discours, etc dans le corpus ;

11.3 Synthese de liste ou de graphe

1. afficher le vocabulaire des mots trouves ;

2. afficher la liste ordonnee des diverses proprietes des mots trouves ;

3. afficher le graphe de repartition au fil du texte des mots trouvesdans le corpus ;

4. afficher le graphe de conformite de la repartition des mots trouvesdans les differentes parties du corpus ;

5. connaıtre la taille totale, celle du vocabulaire et le nombre dephrases du corpus : dimensions ;

6. connaıtre le vocabulaire du corpus : vocabulaire ;

7. afficher la gamme des frequences du vocabulaire : zipf ;

8. afficher le graphe de la gamme des frequences du vocabulaire : pareto ;

9. afficher la distribution des longueurs de phrases du corpus : longueurdes phrases ;

10. afficher la liste ordonnee de conformite de la repartition des motsau fil du texte dans le corpus : repartitions ;

11. afficher le vocabulaire des unites lexicales adjacentes dans unephrase et dont la rencontre est reperee plus d’un fois dans lecorpus : segments repetes ;

Page 151: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

11.4. LECTURE 151

12. afficher la liste ordonnee de conformite des rencontres d’uniteslexicales (adjacentes ou non) a l’interieur des phrases du corpus : cooc-currents ;

13. afficher la liste des groupes de mots susceptibles de former unterme dans le corpus : Candidats Termes ;

11.4 Lecture

1. lire a l’ecran le texte du corpus : Edition ;

2. lire a l’ecran a la fois le texte et les proprietes des occurrencesdu corpus : Afficher Phrase ;

11.5 Synthese de cooccurrences

1. visualiser une synthese des mots apparaissant frequemment a gaucheou a droite d’un mot donne dans les phrases du corpus : Lexicogramme ;

2. visualiser une synthese graphique des apparitions frequentes demots les uns avec les autres dans les phrases du corpus : Lexicogrammerecursif ;

3. visualiser l’ensemble des synthese graphiques d’apparitions mu-tuelles frequentes pour tout le vocabulaire du corpus : Lexicogrammesrecursifs ;

11.5.1 Integrer votre corpus dans weblex afin de pouvoir l’ana-lyser

Il y a deux types de corpus dans weblex : les corpus internes et externes. Lescorpus internes ont ete integres en collaboration avec notre equipe de sorte aobtenir un etiquetage du texte, differentes partitions pour l’analyse contrastiveentre les parties de texte. . .. Pour pouvoir integrer votre corpus de la sorte vousdevez prendre contact avec nous. Les corpus externes sont telecharges automati-quement de votre micro-ordinateur vers le serveur de weblex. Ce type de corpusne peut pas encore beneficier d’enrichissement ni de partitions mais peut etreintegre n’importe quand. Pour plus d’informations (ref).

11.5.2 Partitionner votre corpus

Pour pouvoir partitionner votre corpus, celui-ci doit etre de type «interne»(cf. section 1.3 page 14). Les logiciels de la textotheque LML permettent departitionner un corpus etiquete en SGML. Ces outils utilisent de preferencela DTD LML mais la plupart sont capables de traiter un corpus encode dansn’importe quelle DTD SGML. Le partitionnement est realise a partir des balisesSGML et de leurs attributs. . .

A suivre. . .

Page 152: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

152 CHAPITRE 11. GUIDE DU COMMENT FAIRE DE WEBLEX

Page 153: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

Chapitre 12

Visualisations graphiques desmodeles probabilistes deweblex

Le logiciel weblex integre un outil de visualisation des modeles probabilistesmis en œuvre dans ses calculs de cooccurrences et de specificites. Cet outilcalcule automatiquement les graphes de distribution de probabilite de chaquemodele. Ces graphes remplacent les tables de distribution classiques en offrantla visualisation des distributions pour n’importe quelle valeur des parametres.Ces calculs sont accessibles par le «formulaire d’actions» ?? page ?? de weblexdont la partie concernee est presentee a la figure 12.1.

Fig. 12.1 – Formulaires de calcul des distributions de probabilite des modelesde cooccurrence et de specificite utilises par weblex.

Le premier formulaire declenche le calcul du graphe de la distribution deprobabilite de cooccurrence entre une forme A et une forme B, la forme Aapparaissant fA fois en tout dans le corpus, la forme B apparaissant fB fois entout dans le corpus, le nombre de leurs rencontres constate effectivement dansles P phrases du corpus etant de cf rencontres.Ce formulaire est documente a la section 3.4.2 page 42 «Calcul direct de l’indicede cooccurrence».

Le deuxieme formulaire declenche le calcul du graphe de la distribution deprobabilite de la specificite d’apparition d’une forme dans une partie ou elle ap-paraıt ff fois alors qu’elle apparaıt fF fois dans l’ensemble du corpus, le nombre

153

Page 154: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

154CHAPITRE 12. VISUALISATIONS GRAPHIQUES DES MODELES PROBABILISTES

d’occurrences de la partie etant de ft mots et le corpus lui-meme etant constituede fT occurrences.Ce formulaire est documente a la section «Calcul direct de l’indice de specificite» 6.1.2 page 91.

A quoi cela peut il servir ? Dans weblex les probabilites sont d’abord uti-lisees pour classer differents types d’evenements textuels. Ces classements sontrealises par les options de tri des cooccurrents, lexicogrammes, specificites, etc.Si ces tris ne sont pas mis en œuvre alors les probabilites affichees perdent unepartie de leur utilite. Dans weblex seul le calcul des lexicogrammes recursifs estdirectement influence par un seuil d’elagage en probabilite. Mais dans ce casle seuil d’elagage est tres proche des seuils d’elagage qui permettent de limiterla longueur des listes des formes cooccurrentes par exemple. La notion de seuils’apparente alors a celle de troncature de liste pour de simples raisons de contin-gence et de lisibilite. Le seuil choisi n’aura pas d’interpretation linguistique sice n’est de limiter le champ de vision que l’on peut avoir sur divers phenomenestextuels quantitatifs. Dans ce cas pourquoi prendre la peine de calculer nonseulement la probabilite d’un evenement isole mais de plus d’en representerl’ensemble de la distribution de probabilite ? il y a plusieurs raisons :

– d’abord pour situer la probabilite calculee dans sa distribution. Une va-leur proche du mode de la distribution n’a pas le meme interet qu’unevaleur un peu plus eloignee. Et l’interpretation de cet ecart change sui-vant la forme de la distribution ;

– pour tester la stabilite d’un resultat en faisant legerement varier les para-metres d’un modele ;

– pour calculer exactement la valeur d’une probabilite dans les cas ou ellen’apparaıt pas integralement dans les resultats. Comme dans le cas descalculs de specificites ou seulement l’exposant de la probabilite est affiche(et utilise) ;

– pour pouvoir calculer directement une probabilite dans les cas ou on veuttester des parametres correspondant a une situation qui n’est pas presenteou accessible par weblex ;

– pour des raisons pedagogiques pour mieux diffuser la methode lexico-metrique.

Page 155: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

Chapitre 13

Logiciels apparentes a weblex

Ces logiciels permettent soit d’extraire des informations du texte, et/ou d’enfaire des concordances et/ou d’assister a l’encodage d’informations dans le texte.

Attention : La constitution de cette liste date de debut 1999, doncde nombreux liens sont probablement devenus obsoletes depuis . . .jesuis interesse par toute correction a apporter ou toute reference man-quant a cette liste (m’envoyer un courrier).

1. Lexico* : http://www.cavi.univ-paris3.fr/Ilpga/syled/lexico.htm(A. Salem) ;

2. Hyperbase : http://ancilla.unice.fr/~brunet/pub/hyperbase.html- Thief : http://134.59.31.3/~brunet/pub/THIEF/THIEF1.htm (E. Bru-net) ;

3. Alceste (M. Reinert) ;

4. Sato : http://www.ling.uqam.ca/sato/outils/sato.htm (F. Daoust) ;

5. Saint-Chef : http://www.lexico.ens-fcl.fr/sainchef.html (M. Sekhraoui) ;

6. Pistes (P. Muller) ;

7. Spad-T : http://www.decisia.fr (DECISIA) ;

8. TACT : ftp://epas.utoronto.ca/pub/cch/tact ;

9. Xtract : http://www.cs.columbia.edu/nlp/tools.html (F. Smadja) ;

10. CobuildDirect : http://titania.cobuild.collins.co.uk/direct_info.html ;

11. WordSmith : http://www.comp.lancs.ac.uk/computing/research/ucrel/tools.html#smith ;

12. WordCruncher : http://www.comp.lancs.ac.uk/computing/research/ucrel/tools.html#wordcrunch ;

13. LMC : http://www.comp.lancs.ac.uk/computing/research/ucrel/tools.html#lmc ;

14. Xqwic : http://www.ims.uni-stuttgart.de/projekte/CorpusWorkbench/ ;

15. MonoConc : http://www.athel.com/mono.html ;

16. Conc : ftp://clr.nmsu.edu:/CLR/tools/concordances ;

17. Hum : http://www.ltg.ed.ac.uk/helpdesk/faq/Tools-html/0055.html ;

18. ILD : http://www.ltg.ed.ac.uk/helpdesk/faq/Tools-html/0055.html ;

19. LQ-Text : ftp://clr.nmsu.edu:/CLR/tools/concordances ;

20. Concord : http://www.comp.lancs.ac.uk/computing/research/ucrel/tools.html#concord ;

155

Page 156: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

156 CHAPITRE 13. LOGICIELS APPARENTES A WEBLEX

21. OCP : http://www.comp.lancs.ac.uk/computing/research/ucrel/tools.html ;

22. MicroConcord : http://www.nol.net/~athel/athel.html ;

23. Xconcord : http://crl.nmsu.edu/Tools/Software/index.html.

Page 157: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

Bibliographie

[1] C. Bastin, J.-P. Benzecri, C. Bourgarit, and P. Cazes. Pratique de L’ana-lyse Des Donnees, Tome 2 : Abrege Theorique – Etudes de Cas Modele.Dunod, Paris, 1980.

[2] Monica Becue. Les quasi–segments pour une classification automatiquedes reponses ouvertes. In JADT’93, pages 310–325, Montpellier, 1993.

[3] J.-P. Benzecri. Pratique de L’analyse Des Donnees, Tome 3 : Linguistiqueet Lexicologie. Dunod, Paris, 1981.

[4] J.-P. Benzecri and F. Benzecri. Pratique de L’analyse Des Donnees, Tome1 : Analyse Des Correspondances. Expose Elementaire. Dunod, Paris,1980.

[5] Jean-Paul Benzecri. La Place de L’a Priori, volume 17. Organum, 1972.C’est a la fois une introduction rapide a la pensee de Benzecri, un textepour decouvrir ce qu’il met sous les termes de ”statisticien philosophe”,et un excellent petit cours pour le debutant en Analyse des Donnees [le-fonen81].

[6] J.P. Benzecri. Analyse discriminante et analyse factorielle. Les Cahiersde l’Analyse des Donnees, II(4) :369406, 1977.

[7] J.P. Benzecri. L’analyse Des Donnees : La Taxinomie, volume I. Dunod,Paris, 3ieme edition, 1979. 640 pages.

[8] J.P. Benzecri. L’analyse Des Donnees : L’analyse Des Correspondances,volume II. Dunod, Paris, 3ieme edition, 1979. 616 pages.

[9] C. Bernet. Le Vocabulaire Des Tragedies de Jean Racine, Analyse Statis-tique. SlatkineChampion, Geneve, 1983.

[10] Douglas Biber. Variation Accross Speech and Writing. Cambridge Uni-versity Press, Cambridge, 1988.

[11] Douglas Biber. Co–occurrence patterns among collocations : A tool forcorpus–based lexical knowledge acquisition. Computational Linguistics,3(19) :531–8, 1993.

[12] Douglas Biber. Representativeness in corpus design. Linguistica Compu-tazionale, IX–X :377–408, 1994.

[13] Douglas Biber. Dimensions of Register Variation : A Cross–LinguisticComparison. Cambridge University Press, Cambridge, 1995.

[14] Douglas Biber and E. Finegan. An Initial Typology of English Text Types.Rodopi, Amsterdam, 1986.

[15] Douglas Biber and E. Finegan. Intra–Textual Variation Within MedicalResearch Articles, pages 201–222. Rodopi, Amsterdam, 1994.

157

Page 158: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

158 BIBLIOGRAPHIE

[16] Douglas Biber, E. Finegan, and D. Atkinson. ARCHER And its Chal-lenges : Compiling and Exploring a Representative Corpus of HitoricalEnglish Registers, pages 1–14. Rodopi, Amsterdam, 1994.

[17] Eric Brill. Transformation–based error–driven learning and natural lan-guage processing : A case study in part–of–speech tagging. ComputationalLinguistics, 4(21) :543–565, 1995.

[18] J.-P. Bronckart, D. Bain, B. Schneuwly, C. Davaud, and A. Pasquier. LeFonctionnement Des Discours : Un Modele Psychologique et Une MethodeD’analyse. Delachaux & Niestle, Lausanne, 1985.

[19] E. Brunet. Le Vocabulaire Francais de 1789 A Nos Jours, D’apres LesDonnees Du Tresor de la Langue Francaise. SlatkineChampion, Geneve-Paris, 1981.

[20] Etienne Brunet. Le Vocabulaire Francais de 1789 A Nos Jours, D’apresLes Donnees Du Tresor de la Langue Francaise. Slatkine–Champion,Geneve–Paris, 1981.

[21] L. Burnard. Text Encoding for Information Interchange—- An Introduc-tion to the Text Encoding Initiative. Oxford University Computing Ser-vices, Oxford, 1995.

[22] Lou Burnard. What is SGML and how does it help us. Computers andthe humanities, (29) :41–50, 1995.

[23] Lou Burnard and C. M. Sperberg-McQueen. La TEI simplifiee : Uneintroduction au codage des textes electroniques en vue de leur echange.Cahiers Gutenberg, (24) :23–151, 1996.

[24] Ronald Cehessat. Exercices Commentes de Statistique et InformatiqueAppliquees. Dunod, Paris.

[25] D. Chisholm and D. Robey. Encoding verse texts. Computer and theHumanities, (29) :99–111, 1995.

[26] K. W. Church and P. Hanks. Word association norms, mutual information,and lexicography. Computational Linguistics, 1(16) :22–29, 1990.

[27] R. Cover. SGML / XML web page. Technical report, 1994.[28] R. C. Cover and P. M. W. Robinson. Encoding textual criticism. Com-

puters and the Humanities, (29) :123–136, 1995.[29] Beatrice Daille. Extraction Automatique de Noms Composes Terminolo-

giques. PhD thesis, Universite Paris 7, 1994.[30] Beatrice Daille. Reperage et extraction de terminologie par une approche

mixte statistique et linguistique. TAL, 1–2(36) :101–118, 1995.[31] M. Demonet, A. Geffroy, J. Gouaze, P. Lafon, M. Mouillaud, and M. Tour-

nier. Des Tracts En Mai 68. Mesures de Vocabulaire et de Contenu. Ar-mand Colin et Presses de la Fondation Nat. des Sc. Pol., Paris, 1975.

[32] J. Dendien. La base de donnees de l’institut national de la langue francaise.In Actes Du Colloque International CNRS, Geneve, Paris, 1986. Slatkine-Champion. Nice, juin 1985.

[33] Jean Dubois, Mathee Giacomo, Louis Guespin, Christiane Marcellesi,Jean-Baptiste Marcellesi, and Jean-Pierre Mevel. Dictionnaire de Linguis-tique et Des Sciences Du Langage. Larousse–Bordas/HER, Paris, 1999.ISBN 2–03–532007–0.

Page 159: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

BIBLIOGRAPHIE 159

[34] G. Engwall. Not Chance But Choice : Criteria in Corpus Creation. OxfordUniversity Press, Oxford, 1994.

[35] Jean-Pierre Fenelon. Qu’est–Ce Que l’Analyse Des Donnees. Lefonen,Paris, 1981.

[36] C. J. Fillmore and B. Atkins. Starting Where Dictionnaries Stop : TheChallenge of Corpus Lexicography, pages 349–396. Oxford UniversityPress, Oxford, 1994.

[37] A. Geffroy, P. Lafon, and M. Tournier. L’indexation minimale, plaidoyerpour une non – lemmatisation. In Colloque sur L’analyse Des CorpusLinguistiques : ”Problemes et Methodes de L’indexation Minimale”, 1974.Strasbourg 2123 mai 1973.

[38] Annie Geffroy, Jacques Guilhaumou, James Hartley, and Andre Salem.Factor Analysis and Lexicometrics : Shifters in some Texts of the FrenchRevolution (1793–1794). The Computer in Literary and Linguistic Stu-dies. University of Wales Press, a. jones and r.f. churchhouse edition,1976.

[39] Annie Geffroy, Pierre Lafon, G. Seidel, and Maurice Tournier. Lexicome-tric Analysis of Cooccurrences. The Computer in Literary and LinguisticStudies. Edinburgh University Press, Edinburgh, a. j. aitken and r. w.bailey and n. hamilton–smith edition, 1973.

[40] R. Giordano. The TEI header and the documentation of electronic texts.Computers and the Humanities, (29) :75–85, 1995.

[41] C.F. Goldfarb. The SGML Handbook. Clarendon Press, Oxford, 1990.

[42] M. Goossens. Introduction pratique a SGML. Cahiers Gutenberg, (19) :25–58, 1995.

[43] G.Th. Guilbaud. Zipf et les frequences. Mots, (1) :97–126, 1980. 2.3

[44] J. Guilhaumou. L’historien du discours et la lexicometrie. etude d’uneserie chronologique : Le pere duchesne de hebert, juillet 1793 mars 1794.Histoire & Mesure, I(34), 1986.

[45] L. Guttman. The Quantification of a Class of Attributes : A Theoryand Method of a Scale Construction, pages 251 – 264. The Prediction ofPersonal Adjustment. SSCR, New York, p. horst edition, 1941.

[46] B. Habert and M. Tournier. La tradition chretienne du syndicalismefrancais aux prises avec le temps. evolution comparee des resolutionsconfederales (1945 - 1985). Mots, (14), 1987.

[47] Benoıt Habert. L’analyse des formes specifiques. bilan critique et propo-sitions d’utilisation. MOTS, (7) :97–124, 1983.

[48] Benoıt Habert. Etudes des formes specifiques et typologie des enonces(les resolutions generales des congres de la CFTC–CFDT de 1945 a 1979).MOTS, (11) :127–154, 1985.

[49] Benoıt Habert, Adeline Nazarenko, and Andre Salem. Les Linguistiquesde Corpus. Armand Colin, Paris, 1997. ISBN 2–200–01775–8.

[50] Benoıt Habert and Andre Salem. L’utilisation de categorisations multiplespour l’analyse quantitative de donnees textuelles. TAL, 1–2(36) :249–276,1995.

Page 160: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

160 BIBLIOGRAPHIE

[51] S. Heiden. Encodage SGML de corpus, application a l’etude d’un debatparlementaire. Mots, Carrefour ”immigration”(60), Septembre 1999. ver-sion HTML , version Word97 (Ko).

[52] S. Heiden. Manuel Utilisateur de Weblex. UMR8503, Lyon, Septembre2001.

[53] S. Heiden and P. Lafon. Cooccurrences, La CFDT de 1973 A 1992, vo-lume 1, pages 65–83. ENS Editions, Fontenay–aux–Roses, 1998.

[54] S. Heiden and M. Tournier. Lexicometrie textuelle, sens et strategie dis-cursive. In I Simposio Internacional de Analisis Del Discurso, Madrid,1998. version HTML (avec liens internes vers Weblex ), version Word–7.0–W95 (855Ko).

[55] E. Van Herwijnen. Practical SGML. Kluwer Academic Publishers, Boston,2nd edition, 1994 edition, 1991.

[56] Nancy Ide and C. M. Sperberg-McQueen. The text encoding initiative –its history, goals and future development. Computers and the Humanities,(29) :5–16, 1995.

[57] Nancy Ide and Jean Veronis. The Text Encoding Initiative : Backgroundand Context. Kluwer Academic Publishers, Dordrecht, 1995.

[58] Michel Jambu. Methodes de Base de L’analyse Des Donnees. EditionsEyrolles et France Telecom–Cnet, Paris, 1999.

[59] S. Johansson. The encoding of spoken texts. Computers and the Huma-nities, (29) :149–158, 1995.

[60] Adam Kilgarriff. Corpus similarity and homogeneity via word frequency.In EURALEX Proceedings, Gothenburg, Sweden, august 1996.

[61] Adam Kilgarriff. Using word frequency lists to measure corpus homoge-neity and similarity between corpora. Technical report, Information Tech-nology Research Institute, University of Brighton, Brighton, april 1996.

[62] Adam Kilgarriff. Which words are particularly characteristic of text : Asurvey of statistical approaches. Technical report, Information TechnologyResearch Institute, University of Brighton, Brighton, june 1996.

[63] Donald E. Knuth. The Art of Computer Programming. Addison–Wesley,1969.

[64] D. Labbe. Normes de depouillement et procedures d’analyse des textespolitiques. Technical report, CERAT, Grenoble, 1990.

[65] D. Labbe, P. Thoiron, and D. Serant. Etudes sur la Richesse et la StructureLexicales. SlatkineChampion, ParisGeneve, 1988.

[66] Dominique Labbe. Le Vocabulaire de Francois Mitterand. Presses de laFondation Nationale des Sciences Politiques, Paris, 1990.

[67] P. Lafon. Sur la variabilite de la frequence des formes dans un corpus.Mots, (1) :127165, 1980.

[68] P. Lafon. Analyse lexicometrique et recherche des cooccurrences. Mots,(3) :95148, 1981.

[69] P. Lafon. Depouillements et Statistiques En Lexicometrie. Slatkine-Champion, Paris, 1984. 6.1.1, 6.1.1

Page 161: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

BIBLIOGRAPHIE 161

[70] P. Lafon and A. Salem. L’inventaire des segments repetes d’un texte.Mots, (6) :161177, 1983. 3.3

[71] P. Lafon, A. Salem, and M. Tournier. Lexicometrie et associations syn-tagmatiques (analyse des segments repetes et des cooccurrences appliqueea un corpus de textes syndicaux). In Colloque de L’ALLC, page 5972,Geneve, Paris, 1985. ALLC, SlatkineChampion. Metz 1983. 3.3

[72] Pierre Lafon, Josette Lefevre, Andre Salem, and Maurice Tournier. LEMACHINAL : Principes D’enregistrement Informatique Des Textes. Pu-blications de l’INaLF, Paris, 1985.

[73] Jean Laherrere. Distributions de type ”fractal parabolique” dans la na-ture. Comptes Rendus de l’Academie des Sciences, 322(IIa, 7) :535–541,Avril 1996. Serie II a : Sciences de la Terre et des Planetes. 2

[74] L. Lebart. L’analyse statistique des reponses libres dans les enquetessocioeconomiques. Consommation, (1) :3962, 1982.

[75] L. Lebart, A. Morineau, and J.P. Fenelon. Traitement Des Donnees Sta-tistiques. Dunod, Paris, 1980.

[76] L. Lebart and A. Salem. Analyse Statistique Des Donnees Textuelles.Dunod, Paris, 1988.

[77] Ludovic Lebart and Jean-Pierre Fenelon. Statistique et Informatique Ap-pliquees. Dunod, Paris, 1975. ISBN 2–04–005220–8.

[78] Ludovic Lebart and Andre Salem. Statistique Textuelle. Dunod, Paris,1994.

[79] Wentian Li. Http ://linkage.rockefeller.edu/wli/zipf, 1996. 2.2[80] Dominique Maingueneau. L’analyse Du Discours : Introduction Aux Lec-

tures de L’archive. Hachette, Paris, 1991.[81] T. McEnery and A. Wilson. Corpus Linguistics. Edinburgh University

Press, Edinburgh, 1996.[82] N. Menard. Mesure de la Richesse Lexicale, Theorie et Verifications

Experimentales. SlatkineChampion, Paris, 1983.[83] C. Muller. Essai de Statistique Lexicale : L’illusion Comique de P. Cor-

neille. Klincksieck, Paris, 1964.[84] C. Muller. Etude de Statistique Lexicale. Le Vocabulaire Du Theatre de

Pierre Corneille. Larousse, Paris, 1967.[85] C. Muller. Initiation Aux Methodes de la Statistique Linguistique. La-

rousse, Paris, 1968. 3.2[86] C. Muller. Principes et Methodes de Statistique Lexicale. Hachette, Paris,

1977.[87] Jakob Nielsen. Http ://www.useit.com/alertbox/, 1996.[88] Jakob Nielsen. Http ://www.useit.com/jakob/, 1996. 4.1[89] Michael P. Oakes. Statistics for Corpus Linguistics. Edinburgh Textbooks

in Empirical Linguistics. Edingurh University Press, Edinburgh, 1998.[90] Patrick Paroubeck, Gilles Adda, Jean Mariani, and Martin Rajman. Les

procedures de mesure automatique de l’action GRACE pour l’evaluationdes assignateurs des parties du discours pour le francais. In FRANCIL’97,pages 245–252, Avignon, 1997.

Page 162: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

162 BIBLIOGRAPHIE

[91] M. Pecheux. Analyse Automatique Du Discours. Dunod, Paris, 1969.[92] D. Peschanski. Et Pourtant, Ils Tournent. Vocabulaire et Strategie Du

PCF (1934 1936). Klincksieck, Paris, 1988.[93] M. Petruszewycz. L’histoire de la loi d’Estoup-Zipf. Math. Sciences Hum.,

(44), 1973. 2.3[94] Jacqueline Picoche. Precis de Lexicologie Francaise. Nathan, 1992. ISBN

209–190–547X.[95] Jacqueline Picoche and Christiane Marchello-Nizia. Histoire de la Langue

Francaise. Nathan, Paris, 1991.[96] William H. Press, Saul A. Teukolsky, William T. Vetterling, and Brian P.

Flannery. Numerical Recipes in C. Cambridge University Press, Cam-bridge, 1992. ISBN 0–521–43108–5.

[97] L. R. Rabiner. A titorial on hidden markov models and selected applica-tions in speech recognition. 2(77) :257–86, 1989.

[98] Francois Rastier. Semantique Interpretative. PUF, Paris, 1987.[99] M. Reinert. Alceste, une methodologie d’analyse des donnees textuelles

et une application : Aurelia de gerard de nerval. Bull. de Method. Sociol.,(26) :2454, 1990.

[100] C. Fuchs (Resp.). Linguistique et Traitement Automatique Des Langues.Hachette, Paris, 1993.

[101] F. Role. Le codage informatique des apparats critiques : evaluationdes recommandations de la text encoding initiative. Cahiers Gutenberg,(24) :153–165, juin 1996.

[102] A. Salem. La typologie des segments repetes dans un corpus, fondee surl’analyse d’un tableau croisant mots et textes. Les Cahiers de l’Analysedes Donnees, IX(4) :489500, 1984. 3.3, 7.3.5

[103] A. Salem. Segments repetes et analyse statistique des donnees textuelles,etude quantitative a propos du pere duchesne de hebert. Histoire & Me-sure, I(2), 1986.

[104] A. Salem. Pratique Des Segments Repetes, Essai de Satistique Textuelle.Klincksieck, Paris, 1987. 3.3

[105] A. Salem. Methodes de la Statistique Textuelle. These d’etat, UniversiteSorbonne Nouvelle (Paris 3), 1993.

[106] M. Sekhraoui. La saisie des textes et le traitement des mots : Problemesposes, essai de solution. Technical report, Ecole des hautes etudes ensciences sociales, Paris, 1981.

[107] C. E. Shannon. The Mathematical Theory of Communications. The Uni-versity of Illinois Press, Urbana, 1949.

[108] Max Silberztein. Dictionnaires Electroniques et Analyse Automatique deTextes. Le Systeme INTEX. Informatique Linguistique. Masson, Paris,1993. ISBN 2–225–84157–8.

[109] J. Simonin-Grumbach. Pour Une Typologie Des Discours, pages 85–121.Seuil, Paris, 1975.

[110] J. Sinclair. Preliminary recommendations on corpus typology. Techni-cal report, EAGLES (Expert Advisory Group on Language EngineeringStandards), may 1996.

Page 163: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

BIBLIOGRAPHIE 163

[111] Franck Smadja. Retrieving collocations from text : Xtract. ComputationalLinguistics, 1(19) :143–177, 1993.

[112] C. Spearman. The proof and measurement of association between twothings. American Journal of Psychology, 15 :88–103, 1904.

[113] C.M. Sperberg-McQueen and L. Burnard. Guidelines for Electronic TextEncoding and Interchange. Text Encoding Initiative, Chicago and Oxford,1994.

[114] Jean-Pierre Sueur. Pour une grammaire du discours : elaboration d’unemethode ; exemples d’application. MOTS, (5) :145–185, 1982.

[115] M. Tournier. D’ou viennent les frequences de vocabulaire. Mots, (1) :189-212, 1980.

[116] M. Tournier. Texte propagandiste et cooccurrences. hypotheses etmethodes pour l’etude de la sloganisation. Mots, (11) :155187, 1985.

[117] M. Tournier. ” Lexicometria ” Seminaire de Maurice Tournier. Centedcentro de estudos de ensino a distancia, Pala’cio Ceia, Rua da EscolaPolitecnica, 147, 1200 Lisboa, Portugal, d. s. carvalho & m. fatima silvaedition, Decembre 1988. apoio da J.N.I.C.T.

[118] Michel Volle. Analyse Des Donnees. Economica, Paris, 1997.

[119] Robert-Leon Wagner. Les Vocabulaires Francais, volume I. Didier, Paris,1967.

[120] Robert-Leon Wagner. Les Vocabulaires Francais, volume II. Didier, Paris,1970.

[121] I. Warnesson, P. Parisot, C. Bedecarrax, and C. Huot. Traitements lin-guistiques et analyse des donnees pour une exploitation systematique desbanques de donnees. Revue Francaise de bibliometrie, page 21, 1993.

[122] G.U. Yule. The Statistical Study of Literary Vocabulary. Cambridge Uni-versity Press, Connecticut, 1944. Reprinted in 1968 by Archon Books,Hamden, Connecticut.

[123] G. K. Zipf. The Psychobiology of Language, an Introduction to DynamicPhilology. HoughtonMifflin, Boston, 1935. 2.2

Page 164: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

164 BIBLIOGRAPHIE

Page 165: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

Liste des tableaux

2.1 Dimension des differentes parties du corpus On. . . . . . . . . . . 202.2 Gamme des frequences du corpus on-texte-title-lendemain . . . . 21

3.1 Vocabulaire «elague» du corpus on-text-title-lendemain . . . 303.2 Repartition du vocabulaire du corpus on-text-title-lendemain 353.3 Segments repetes du corpus on-text-title-lendemain . . . . . 373.4 Cooccurrences du corpus «on-text-title-lendemain» . . . . . 493.5 Index des candidats termes du corpus lendemain . . . . . . . . . 51

5.1 Lexicogramme du pole ”societe” dans le corpus cfdt731 . . . . . . 77

6.1 Specificites du vocabulaire de la partie n◦1 du corpus ecologie . 946.2 Specificites du vocabulaire de la partie n◦2 du corpus ecologie . 956.3 Specificites du vocabulaire de la partie n◦3 du corpus ecologie . 966.4 Specificites du vocabulaire de la partie n◦4 du corpus ecologie . 976.5 Specificite des expressions [Nn]ature.* et [Ee]nvironnement.* 98

8.1 Exemples d’expressions regulieres simples . . . . . . . . . . . . . 1308.2 Operateurs des expressions regulieres . . . . . . . . . . . . . . . . 1318.3 Exemples et interpretations d’expressions . . . . . . . . . . . . . 131

9.1 Homographie entre operateurs et niveaux d’expression CQP . . . 1399.2 Ambiguıte de lecture potentielle entre operateurs CQP . . . . . . 1399.3 Interpretation contextuelle du niveau de la disjonction «|» . . . . 139

10.1 N Nom . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14310.2 V Verbe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14310.3 R Adverbe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14310.4 A Adjectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14410.5 S Preposition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14410.6 C Conjonction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14510.7 D Determinant . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14610.8 P Pronom . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14610.9 I Interjection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14610.10M Numeral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14610.11Y Ponctuation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147

165

Page 166: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

166 LISTE DES TABLEAUX

Page 167: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

Table des figures

1 Synthese / Lecture \ Recherche . . . . . . . . . . . . . . . . . . . 3

1.1 Succession de points de vue sur les unites lexicales. . . . . . . . . 121.2 Panorama des outils d’analyse de weblex. . . . . . . . . . . . . . . 16

2.1 Diagramme de Pareto du corpus on-text-title-lendemain . . 242.2 Diagrammes de pareto : aspect lineaire et logarithmique . . . . . 252.3 Histogramme par boıtes des longueurs de phrases . . . . . . . . . 272.4 Histogramme cumule des longueurs de phrases . . . . . . . . . . 28

3.1 Un aspect «normal» (ou «banal») de la loi de cooccurrence. . . . 433.2 Un aspect plus «poissonnien». . . . . . . . . . . . . . . . . . . . 443.3 Un aspect «plus» binomial. . . . . . . . . . . . . . . . . . . . . . 443.4 Espace de cooccurrence des 100 formes les plus frequentes . . . . 45

4.1 67ieme page du corpus PURIF2-ENONCE-SUP-MDE. . . . . . . 574.2 extrait d’une concordance de la forme ”dessin” . . . . . . . . . . 594.3 Graphe de repartition des occurrences de Lancelot et Galaad . . 724.4 Histogramme de repartition des occurrences de Lancelot et Galaad 73

5.1 Lexicogramme recursif a partir de la forme CFDT . . . . . . . . 825.2 Lexicogramme recursif non-hierarchique a partir de CFDT . . . . 835.3 Exemple de synthese de l’ensemble des lexicogrammes recursifs . 845.4 Synthese et graphes des lexicogrammes recursifs du corpus cfdt73 865.5 Lexicogrammes recursifs etiquetes par la probabilite . . . . . . . 87

6.1 Distribution de probabilite de specificite . . . . . . . . . . . . . . 92

7.1 Vue generale de la fenetre de weblex dans un navigateur . . . . . 1047.2 Selection d’un corpus de travail. . . . . . . . . . . . . . . . . . . . 1107.3 Un exemple de liste de corpus predefinis. . . . . . . . . . . . . . . 1117.4 Options d’elagage qualitatif . . . . . . . . . . . . . . . . . . . . . 1127.5 Seuils d’elagage quantitatif . . . . . . . . . . . . . . . . . . . . . 1137.6 Parametres generaux de weblex. . . . . . . . . . . . . . . . . . . . 1157.7 Choix des proprietes composant l’index. . . . . . . . . . . . . . . 1187.8 Parametrage de l’affichage des concordances. . . . . . . . . . . . 1197.9 Selection des cles de tri des listes de cooccurrents. . . . . . . . . 1217.10 Parametres de mise en forme des lexicogrammes recursifs . . . . 123

9.1 Modele de texte etiquete. . . . . . . . . . . . . . . . . . . . . . . 134

167

Page 168: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

168 TABLE DES FIGURES

12.1 Formulaires de calcul des modeles de cooccurrence et de specificite153

Page 169: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

Index

χ2, 93

AAdjectif, 144

accord, 67ACP, 99Adjectif

A, 144Adverbe

R, 143AFC, 99affichage

commentaires, 116concordances, 119format LATEX, 116format tableau, 116format texte brut, 108, 116index CQP, 118langue, 116liens hypertextuels, 108, 121limitation des listes, 108troncature, 116

affichage des resultatsfenetre, 115

Alceste, 155Andre Salem, 80argument des calculs, 127ascenseur, 103

bouton Back, 103, 108

CConjonction, 145

cadre, 103d’affichage des resultats, 103d’appel des calculs, 105de selection des rubriques de para-

metres, 105de selection du corpus de tra-

vail, 105des parametres, 105

calculinterruption, 108

candidat terme, 50casse, 64categorie morpho-syntaxique, 50categorisation, 15cle de tri, 37, 48classification, 93cloche de Gauss, 90CobuildDirect, 155codage, 11codage Machinal, 64coefficient du binome, 42cofrequence, 75, 76Conc, 155Concord, 155concordance, 58, 78

affichage, 119affichage ligne simple/multiples,

120impression, 120taille contextes, 120tri, 119

contextes, 119pivot, 119reference, 119segment, 119

ConjonctionC, 145

contexte, 58cooccurrence, 41

modele, visualisation, 153cooccurrents

tri, 121Cordial, 141corpus, 10, 14

externe, 14interne, 14On, 19partitionne, 15selection, 110

169

Page 170: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

170 INDEX

CorTeCs, 64couche hypertextuelle, 77couple de formes, 41CQP, 13

contraintes entre les occurrences,67

contraintes sur la succession d’oc-currences, 61

contraintes sur les proprietes d’uneoccurrence, 61

expansion a n occurrences, 67expansion aux limites de la macro-

structure, 67limites du contexte de recherche,

62modifieur, 64operateurs booleens, 63operateurs de comparaison, 63reference d’occurrence, 67

DDeterminant, 146

destructuration, 64Determinant

D, 146dendrogramme, 93densite de probabilite, 42diagramme de Pareto, 19, 23dimension, 19distance moyenne, 76donnees sous forme de tableaux, 107

edition en ligne, 55, 56, 58, 78elagage, 29, 36

de patron de formes, 112des mots outils, 112des nombres, 112precompile, 112qualitatif, 111quantitatif, 113

encodage, 11encodage couleur, 56ensemble des lexicogrammes recursifs,

81espace de cooccurrence, 17, 75etiquetage, 13etiquette morpho-syntaxique, 141etoile de Kleene, 137evenement textuel, 13, 59, 60ex-aequo, 19, 24

expansion recurrente, 36, 126exploitation des resultats, 107expression CQP, 13, 60, 133

ambiguıte, 138efficacite, 140espace, 136niveau 1 : caracteres, 133niveau 2 : proprietes, 133, 135niveau 3 : occurrences, 133, 136sequence, 137

?, 137[], 137[]*, 137[]+, 137[]{m,n}, 137[]{n,}, 137[]{n}, 137etiquette, 137disjonction, 137expand, 138expansion, 138limite expansion, 137occurrence quelconque, 137occurrences quelconques, 137option, 137reference, 137within, 137

expression d’occurrence, 63expression reguliere, 64, 129, 133

operateur, 129, 131\, 131(), 131*, 131+, 131., 130?, 131[], 131synthese, 131

syntaxe, 130

fenetre de resultats, 106figement, 32, 36, 41filtrage, 32forme, 11, 12

composee, 13figee, 13outil, 31

forme outil, 29formes cooccurrentes, 41formulaire, 15

Page 171: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

INDEX 171

usage, 109formulaire a cadres, 103frequence, 14, 21, 31, 76frequence relative, 89FRANTEXT, 89frontispice, 14

gamme des frequences, 20, 31Grace, 141graphe de repartition, 34, 71

affichage, 126guide du comment faire

guide du comment faire, 149integration de corpus, 149lecture, 151recherche, 150synthese de cooccurrences, 151synthese de liste ou de graphe,

150

hapax, 21, 29histogramme cumule, 26, 72histogramme par boıtes, 26, 72HTML, 11Hum, 155Hyperbase, 9hypothese nulle, 41

IInterjection, 146

ILD, 155image, 56impression des resultats, 107index, 68index d’une expression CQP, 68indice de repartition Z, 33inertie, 99Interjection

I, 146

Kleene, 137

lacune, 19lacune, 24langage du moteur de recherche, 59Lexico, 9lexicogramme, 75, 78

tri, 121distance moyenne, 122forme droite, 122forme gauche, 122

frequence droite, 122frequence gauche, 122probabilite, 122

lexicogramme recursif, 77etiquette d’arc, 124contour de sommet, 124disposition des sommets, 122distance entre sommets, 124format

GIF, 124hypertexte, 124PDF, 124PostScript, 124

format d’impression, 124format de sortie, 124impression poster, 124mise en forme, 122placement hierarchique, 122placement non hierarchique, 122precision d’affichage, 124propagation asymetrique, 125racine, 114synthese, 125

lexicogrammes recursifsaffichage des graphes, 125nombre de sommets, 125

lien oriente, 77liste des cooccurrents, 48LMC, 155LML, 10, 15loi binomiale, 44loi de poisson, 44loi de probabilite, 91

cumulee, 91de cooccurrence, 41, 42de specificite, 89de type hypergeometrique, 42

loi normale, 43LQ-Text, 155

MNumeral, 146

Maurice Tournier, 75, 80mesure contrastive, 14MicroConcord, 156mise en page, 55modele probabiliste

visualisation, 153mode, 90MonoConc, 155

Page 172: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

172 INDEX

moteur de recherche CQP, 13mots outils, 21Multext, 141

Nnom, 143

n-grammes, 36navigateur

choix du, 109Nom

N, 143numeraire, 29Numeral

M, 146

occurrenceintervalle, 118

occurrence, 11OCP, 156ordre alphabetique, 29ordre lexicographique, 29

PPronom, 146

pole, 75pagination, 55paire de formes, 41palier, 78partie du discours, 141partition, 10phrase, 19, 26, 41

histogramme, 26longueur, 26

Pistes, 155pivot, 58placement des sommets, 79placement hier., 79placement non hierarchique, 80Ponctuation

Y, 147position, 12, 63poster, 78Preposition

S, 144probabilite de cooccurrence, 76Pronom

P, 146propriete

destructuration, 117implicite, 117

index, 118p2, 117p3, 117word, 117

proprietes, 12

RAdverbe, 143

reference, 58references, 10repartition d’expression CQP, 71retention de vocabulaire, 112racine de lexicogramme recursif, 114rafales, 33rang, 21Raphson-Newton, 78re-composer, 32recherche d’expressions CQP, 58requete de recherche CQP, 60

SPreposition, 144

Saint-Chef, 155Sato, 155segment repete, 36

composition, 126expansion recurrente, 126longueur, 126tri, 126

alphabetique droite, 126alphabetique gauche, 126frequence, 126longueur, 126

segmentation, 11, 32, 36segmentation en forme, 11segmentation en phrases, 41seuil d’elagage

en distance moyenne, 114en frequence, 114en niveau de propagation, 114en nombre de rencontres, 113en probabilite, 113

SGML, 10, 15signe diacritique, 64sommet, 77Sophie Prevost, 140source A, 127source B, 127source C, 127sous specificite, 92

Page 173: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

INDEX 173

sous-categorisation, 141sous-corpus, 68specificite

modele, visualisation, 153tri, 127

specificite negative, 92specificite positive, 92Spad-T, 155Stella, 89sur specificite, 92sur-segmenter, 32

TACT, 155telechargement, 14temps de calcul, 36, 108temps de reponse, 107Textotheque, 14Thief, 9typographie, 55

unite lexicale, 12

VVerbe, 143

valeurs propres, 99Verbe

V, 143version PDF, 79version PostScript, 79vocabulaire, 29

liste alphabetique, 29, 120liste hierarchique, 29, 120

within, 62WordCruncher, 155WordSmith, 155

Xconcord, 156Xqwic, 155Xtract, 155

YPonctuation, 147

Zindice, 33

Zipfloi de, 20

Page 174: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

174 INDEX

Page 175: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

Table des matieres

I Presentation de la methode lexicometrique 7

1 Introduction 91.1 Notion de corpus de textes . . . . . . . . . . . . . . . . . . . . . . 10

1.1.1 Encodage, extraction et partitionnement de corpus . . . . 101.2 Notion de segmentation en formes et d’evenements . . . . . . . . 111.3 Designation du corpus de travail . . . . . . . . . . . . . . . . . . 141.4 Panorama general des outils . . . . . . . . . . . . . . . . . . . . . 14

1.4.1 La representation du texte . . . . . . . . . . . . . . . . . . 141.4.2 Les outils d’analyse non contrastifs . . . . . . . . . . . . . 151.4.3 Les outils contrastifs . . . . . . . . . . . . . . . . . . . . . 15

1.5 Organisation du manuel . . . . . . . . . . . . . . . . . . . . . . . 17

2 Decomptes et outils de mesure 192.1 Dimensions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192.2 Gamme des frequences . . . . . . . . . . . . . . . . . . . . . . . . 202.3 Diagramme de Pareto . . . . . . . . . . . . . . . . . . . . . . . . 232.4 Histogramme des longueurs de phrase . . . . . . . . . . . . . . . 26

3 Listes 293.1 Vocabulaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3.1.1 Exemple de vocabulaire . . . . . . . . . . . . . . . . . . . 303.1.2 Interpretation du vocabulaire . . . . . . . . . . . . . . . . 313.1.3 Verification de la segmentation en formes . . . . . . . . . 32

3.2 Repartition ou «Rafales» . . . . . . . . . . . . . . . . . . . . . . 333.3 N-Grammes ou Segments repetes . . . . . . . . . . . . . . . . . . 363.4 Cooccurrents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

3.4.1 Modelisation de la loi de probabilite . . . . . . . . . . . . 413.4.2 Calcul direct de l’indice de cooccurrence . . . . . . . . . . 423.4.3 Exploitation de la loi de probabilite de cooccurrence . . . 433.4.4 Affichage de la liste des couples de formes cooccurrentes . 48

3.5 Candidats Termes . . . . . . . . . . . . . . . . . . . . . . . . . . 50

4 Recherche et navigation dans le corpus 554.1 Edition du corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . 554.2 Edition en ligne du corpus . . . . . . . . . . . . . . . . . . . . . 564.3 Concordances d’une expression CQP . . . . . . . . . . . . . . . . 584.4 Syntaxe du langage d’interrogation CQP . . . . . . . . . . . . . . 59

4.4.1 Expression de la morphologie des formes des occurrences . 60

175

Page 176: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

176 TABLE DES MATIERES

4.4.2 Premier niveau : proprietes d’une occurrence . . . . . . . 614.4.3 Deuxieme niveau : succession d’occurrences . . . . . . . . 614.4.4 Expression des limites du contexte de recherche . . . . . . 624.4.5 Expression generale de toutes les proprietes d’occurrences 634.4.6 Expression d’occurrence . . . . . . . . . . . . . . . . . . . 634.4.7 Expression d’une succession d’occurrences . . . . . . . . . 654.4.8 Expression de contraintes entre les occurrences . . . . . . 674.4.9 Expansion du resultat des recherches . . . . . . . . . . . . 67

4.5 Index d’une expression CQP . . . . . . . . . . . . . . . . . . . . . 684.6 Repartition d’une expression CQP . . . . . . . . . . . . . . . . . 71

5 Cooccurrences et lexicogrammes 755.1 Lexicogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . 755.2 Lexicogramme recursif . . . . . . . . . . . . . . . . . . . . . . . . 77

5.2.1 A propos de la lecture des differents types de dessins . . . 795.2.2 A propos des difficultes materielles de lisibilite des dessins 81

5.3 L’ensemble des lexicogrammes recursifs . . . . . . . . . . . . . . . 81

6 Mesures et Outils Contrastifs 896.1 Specificites du vocabulaire de chaque partie . . . . . . . . . . . . 89

6.1.1 Modelisation de la loi de probabilite . . . . . . . . . . . . 896.1.2 Calcul direct de l’indice de specificite . . . . . . . . . . . . 916.1.3 Presentation des resultats . . . . . . . . . . . . . . . . . . 92

6.2 Specificites, tri alphabetique . . . . . . . . . . . . . . . . . . . . . 936.3 Specificites, tri hierarchique . . . . . . . . . . . . . . . . . . . . . 936.4 Specificites, tri hierarchique par partie . . . . . . . . . . . . . . . 936.5 Specificite d’une ou de plusieurs expressions CQP . . . . . . . . . 936.6 Classification du vocabulaire . . . . . . . . . . . . . . . . . . . . 936.7 Classification des parties . . . . . . . . . . . . . . . . . . . . . . . 996.8 Analyse factorielle des correspondances . . . . . . . . . . . . . . . 99

II Usage pratique de Weblex 101

7 Mise en œuvre de weblex a travers un navigateur 1037.1 Structure et mise en œuvre du formulaire a Cadres . . . . . . . . 103

7.1.1 Cadre numero 1 : affichage des resultats . . . . . . . . . . 1037.1.2 Cadre numero 2 : selection du corpus et des arguments . . 1057.1.3 Cadre numero 3 : appel des calculs . . . . . . . . . . . . . 1057.1.4 Cadre numero 4 : selection des rubriques de parametres . 1057.1.5 Cadre numero 5 : parametres de weblex . . . . . . . . . . 105

7.2 Proprietes de la mise en œuvre sur Internet . . . . . . . . . . . . 1057.2.1 Enregistrement de tous les parametres dans une URL . . 1057.2.2 Visualisations multiples des resultats . . . . . . . . . . . . 1067.2.3 Exploitation des resultats au format HTML . . . . . . . . 1077.2.4 Temps de reponse . . . . . . . . . . . . . . . . . . . . . . 1077.2.5 Temps de calcul limite . . . . . . . . . . . . . . . . . . . . 1087.2.6 Choix du navigateur . . . . . . . . . . . . . . . . . . . . . 109

7.3 Usage du formulaire d’appel des calculs . . . . . . . . . . . . . . 1097.3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . 109

Page 177: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

TABLE DES MATIERES 177

7.3.2 Choix du corpus de travail . . . . . . . . . . . . . . . . . . 1107.3.3 Restriction du vocabulaire : elagage qualitatif . . . . . . . 1117.3.4 Seuils d’elagage des resultats : elagage quantitatif . . . . . 1127.3.5 Parametrage de l’affichage des resultats . . . . . . . . . . 115

8 Expressions regulieres sur les caracteres 1298.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1298.2 Syntaxe des expressions regulieres . . . . . . . . . . . . . . . . . 130

8.2.1 Les caracteres normaux . . . . . . . . . . . . . . . . . . . 1308.2.2 Les caracteres operateurs . . . . . . . . . . . . . . . . . . 1308.2.3 Exemples d’interpretation d’expressions . . . . . . . . . . 131

9 Manuel de reference des Expressions CQP 1339.1 Niveau 1 : expressions regulieres sur les caracteres . . . . . . . . 133

9.1.1 Litteraux . . . . . . . . . . . . . . . . . . . . . . . . . . . 1339.1.2 Operateurs . . . . . . . . . . . . . . . . . . . . . . . . . . 135

9.2 Niveau 2 : valeurs de proprietes . . . . . . . . . . . . . . . . . . . 1359.2.1 Operateurs sur les valeurs de proprietes . . . . . . . . . . 1369.2.2 Composition des valeurs de proprietes . . . . . . . . . . . 1369.2.3 Modifieurs de casse et de signes diacritiques . . . . . . . . 1369.2.4 Gestion des espaces . . . . . . . . . . . . . . . . . . . . . 136

9.3 Niveau 3 : Succession d’occurrences . . . . . . . . . . . . . . . . . 1369.3.1 Limitation de l’expansion des successions d’occurrences . 1379.3.2 Expression de contraintes entre les occurrences . . . . . . 1379.3.3 Expansion du resultat des recherches . . . . . . . . . . . . 138

9.4 Les differents niveaux d’expression CQP . . . . . . . . . . . . . . 1389.4.1 Homographies entre les operateurs de chaque niveau . . . 1389.4.2 Synthese des differentes fonctions et noms d’operateurs . 1389.4.3 Remarque importante . . . . . . . . . . . . . . . . . . . . 1399.4.4 Considerations pratiques . . . . . . . . . . . . . . . . . . . 140

10 Table de decodage des etiquettes morpho-syntaxiques 14110.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141

11 Guide du Comment Faire de weblex 14911.1 Integration de corpus . . . . . . . . . . . . . . . . . . . . . . . . . 14911.2 Recherche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15011.3 Synthese de liste ou de graphe . . . . . . . . . . . . . . . . . . . . 15011.4 Lecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15111.5 Synthese de cooccurrences . . . . . . . . . . . . . . . . . . . . . . 151

11.5.1 Integrer votre corpus dans weblex . . . . . . . . . . . . . . 15111.5.2 Partitionner votre corpus . . . . . . . . . . . . . . . . . . 151

12 Visualisations graphiques des modeles probabilistes 153

13 Logiciels apparentes a weblex 155

Bibliographie 163

Liste des tableaux 165

Page 178: Manuel de Weblex 4textometrie.ens-lyon.fr/IMG/pdf/weblex.pdf(voir la section 4.4 page 59 «Syntaxe des expressions CQP» ci-apr`es). D’autre part,en vousaidant`a comparerdes textes

178 TABLE DES MATIERES

Liste des figures 168

Index 174

Table des matieres 178