Lexico3doc0

49
LEXICO 3 1 Outils de statistiques textuels Manuel d’Utilisation Equipe CLA2T Cette nouvelle version de Lexico3 a été réalisée par Cédric Lamalle et André Salem Manuel provisoire, établi par Aude Maisondieu et Andréa Kuncova

description

Outils de stastique textuel

Transcript of Lexico3doc0

  • LEXICO 3

    1

    Outils de statistiques textuels

    Manuel dUtilisationEquipe CLA2T

    Cette nouvelle version de Lexico3 a t ralise par Cdric Lamalleet Andr Salem

    Manuel provisoire, tabli par Aude Maisondieu et Andra Kuncova

    ! #"$%"%'")(*+ +

    ,-'./103204650.7%8.2#9 714:>#=?8.9 [email protected]%CD0

    EFFHG

  • LEXICO 3

    2

    Table des MatiresI- Installation

    II- Menu principal

    III- Prparation du texte

    IV- Outils de lutilisateur

    SegmentationOuverture dune baseStatistique par partieSegments rptsConcordancesCarte de paragraphesGroupe de formesMosaqueCrer une nouvelle feuilleDplacer vers une autre feuilleAjouter au rapportOptionsAideEditeurQuitter

    V- Astuces

    Glossaire pour la statistique textuelleRfrences bibliographiques

  • LEXICO 3

    3

    I-Installation

    1-Avertissement

    Cette version de Lexico3 est en test. Nous vous demandons designaler les ventuelles anomalies :Lexico2 / ILPGA19, rue des Bernardins75005 ParisFranceJoignez votre envoi : le corpus de texte sur lequel vous aurezconstat des dysfonctionnements ainsi que le fichier atrace.txt crau moment de l'exploitation (dans le rpertoire o se trouve le corpusanalys).

    Configuration requise

    Configuration minimale :Windows 3.1Processeur 386, 4Mo de mmoire vive3 Mo libres sur le disque dur

    Configuration conseille

    Windows 3.1 ou 3.11 ou Windows 95486 DX2, 8Mo de mmoire vive3 Mo libres sur le disque durLexico2 fonctionne sous Windows 95, et Windows NT 3.51 et 4.0.Nous conseillons vivement de regrouper programme et corpus sur ledisque dur.

    2-Installer le logiciel

    Pour installer LEXICO3a. Insrer le CD ROM dans votre lecteur.

  • LEXICO 3

    4

    b. Excuter le fichier SETUP.EXE qui se trouve sur ce CD-ROM.

    c. Laissez vous guider par le programme d'installationd. Le message : Lexico3 a t install signale la fin de

    l'installation.

  • LEX

    ICO

    3

    5

    II-M

    enu

    pri

    nci

    pal

    Quitt

    er

    Segm

    ents

    rp

    ts

    Cart

    e de

    par

    agra

    phes

    Ou

    ver

    ture

    dune

    base

    No

    uvel

    le b

    ase(s

    egm

    enta

    tion)

    Conco

    rdan

    ces

    Dp

    lace

    r ver

    s u

    ne

    autr

    e fe

    uill

    eA

    joute

    r au

    rap

    port

    Aid

    e

    Opt

    ions

    Edite

    ur

    Mo

    saq

    ue

    Cre

    r une

    no

    uvel

    le fe

    uill

    e

    Gro

    upe

    de

    form

    esSt

    atist

    ique

    par

    part

    ie

  • LEXICO 3

    6

    III-Prparation du texte

    1 Normes denregistrement

    La norme basse

    Lanalyse statistique dun texte se base sur lunit textuelle quest laforme pour estimer ses occurrences, dlimiter les squences de motso elle apparat et comparer ses frquences dans une partie donnedu corpus par rapport une ou plusieurs autres. Pour rendre possibleet fiable cette segmentation il est ncessaire de dfinir des normes desaisie qui assurent la cohrence du texte et de son codage.Le texte doit tre enregistr sous la forme dun fichier de texte seul(*.txt). On carte les fichiers de type document (*.doc) et autresformats crs par traitement de texte car ceux-ci intgrent au dbutde lenregistrement un en-tte renfermant diverses informations surla mise en forme notamment. Dans une tude lexicomtrique quisintresse principalement aux formes, aux phrases et leurventilation, ces donnes sur la mise en page sont superficielles et, quiplus est, elles peuvent tre une source derreurs lors de lasegmentation.

    Problmes de codage

    Traitement des majuscules, apostrophes

    On choisit de saisir le texte en minuscules pour permettre unclassement plus juste dans les listes paradigmatiques. En effet, si lonmaintient les majuscules le module de segmentation distinguera laforme simple il et la forme Il en dbut de phrase, ce qui fausserait lesfrquences dapparition.Toutefois, ces conversions ne sont pas sans risque puisquellespeuvent introduire des ambigits dans les listes qui associerontalors certains noms propres et noms communs homographes (parexemple : une barre et Raymond Barre). On peut dsambigiser cesformes en accollant au nom propre un signe de distinction (par

  • LEXICO 3

    7

    exemple : ~barre). Toutefois, ce signe ne doit alors pas figurer dansla liste des dlimiteurs.

    Ponctuations, dlimiteurs

    Afin que le programme danalyse LEXICO3 puisse reconnatre lesformes du corpus que lon segmente, on affecte un statut chaquesigne prsent dans le texte.On distinguera dune part les dlimiteurs :-_:;/.,?!*$"+=(){} ainsi que lespace. (Cette liste est donne titre indicative et peut tre modifie).Dautre part, sont appels non-dlimiteurs tous les caractres restantscontenus dans la police : a, b, c,...Toute suite de caractres non-dlimiteurs borne ses deuxextrmits par des dlimiteurs est considre comme une occurrence,une forme relever et classer.

    Cls

    On rencontre dans un texte un certain nombre de dlimitationsinhrentes telles que des dlimitations chronologiques, desdlimitations marquant un changement dauteur ou encore indiquantla squence des parties (les chapitres dun livre).Au cours dune tude lexicomtrique, on cherchera souvent comparer les frquences du vocabulaire dans une partie par rapport une autre en modifiant les dcoupages du corpus. Pour que cescomparaisons seffectuent efficacement, le texte doit comporter desbalises informatives indiquant ces dlimitations logiques sous uneforme code comprhensible par la machine.Cette mta-information doit figurer dans le fichier sans cependantrisquer dinfluer sur les comptages statistiques. On introduit donc cesdiverses marques sous formes de cls isoles du corpus par leschevrons < et >.Ces cls peuvent tre alpha-numriques. En voici un exemple : Paragraphes

    Le dcoupage du corpus peut aussi se faire selon lordre desparagraphes. Dans ce cas, on codera chaque paragraphe en ajoutant

  • LEXICO 3

    8

    devant celui-ci un caractre rserv cet effet et dclar dans la listedes dlimiteurs, par exemple : .

    2 Tutoriel : Text 1

    Dans cet extrait du corpus Text1.txt, plusieurs types de codage, misen vidence pour notre exemple par une fonte plus grande :- la clef Epg distingue 3 parties qui rendent compte de la paginationde ldition originale du Pre Duchesne- le caractre paragraphe distingue 4 paragraphes- le caractre * permet didentifier des lettres ( lorigine) enmajuscules

    Tableau 2.1 : Exemple de codage de corpus

    la grande colre du *pre *duchesne , de voir que les mouchards de*la-*fayette et tous les fripons soudoys par la liste civile, veulentrtablir les compagnies de grenadiers et de chasseurs, pour gorgerles *sans-culottes et les chasser des assembles de *section .ses bonsavis aux *lurons des *faubourgs pour qu' ils arrachent lesmoustaches postiches ces grenadiers de la vierge *marie , quiveulent rtablir la royaut.

    millions de tonnerre, nous ne mettrons donc jamais les fripons laraison?ils ont laiss tomber leurs masques et nous lesvoyons nu. serons nous encore dupes des fripons? quand je voulaisfaire la conduite de *grenoble tous les talons rouges quand jedisais, du soir au matin, que tous les ci-devant ne cesseraient de noustrahir, n' avais je pas raison, foutre? je me suis toujours plus dfi des nobles convertis que desmigrs.c' est pour nous frapper de plus prs que ces gredins sontrests au milieu de nous.ils ont fait les chiens couchants pour mieuxnous tromper.jamais, foutre, ils n' ont cess de s' entendre avec lesennemis du dehors. ce sont eux qui nous ont mis chien et chat,qui ont brouill les cartes dans les trois assembles nationales, etcorrompu les reprsentants du peuple.si nous avions eu assez d' estocpour les envoyer tous *coblentz au commencement de la

  • LEXICO 3

    9

    rvolution, nous n' aurions pas achet notre libert par des flots desang;nous aurions depuis longtemps une constitution; la paix et lebonheur rgneraient dans notre rpublique. dans le fond de mon coeur j' ai toujours dtest *philippe d'*orlans ; je le regardais comme un hypocrite qui tt ou tard nous tournerait casaque; mais comme cet infme sclrat servaitnotre cause en prodigant son or pour donner des croc en jambes *louis le tratre, je pensais, comme tous les patriotes, qu' il fallait s'en servir comme d' une chemise que l' on quitte quand elle est sale. jene le redoutais pas, car il est trop vil et trop mprisable pour croireque jamais les *sans-culottes pourraient se donner un pareil roi. jeme doutais bien, foutre, qu' au premier faux pas que le *capon ferait,il se casserait le col.un vidase qui s' tait cach au fond de cale, aucombat d' *ouessant, ne pouvait jamais devenir un chef de parti.

  • LEXICO 3

    10

    IV- Outils de l'utilisateur

    Segmentation

    1-La segmentation automatique

    Le module segmentation cre une base de donnes textuelles partird'un corpus fourni par l'utilisateur sous forme de fichier texte.

    2-Mise en oeuvre

    Depuis la console, cliquez sur l'icne du module : Nouvelle base(Segmentation).Le programme vous propose de choisir un fichier texte dans unrpertoire selon les procdures habituelles de Windows.

    Slectionnez le corpus segmenter qui est obligatoirement un fichiertexte (de type .txt).

    Figure 1: Dialogue de slection de fichier texte

  • LEXICO 3

    11

    Une bote de dialogue apparat alors qui vous permet de rgler lesparamtres de la segmentation.

    Vous pouvez ventuellement modifier la liste de dlimiteurs deforme ce qui aura une incidence sur le dcoupage des formesgraphiques. Lancez ensuite la segmentation en cliquant sur le bouton OK.

    Vrification des cls

    tape au cours de laquelle le programme vrifie la conformit ducorpus dentre aux normes dcrites plus haut. Ce module signalenotamment les cls errones :cl non ferme belle.absence de signe = absence de contenu de cl absence de type de cl

    Figure 2: Dialogue de slection des paramtres de segmentation

    Figure 3: Dialogue davertissement derreur de codage de cl

  • LEXICO 3

    12

    Des informations plus dtailles des erreurs sont fournies par lefichier de compte-rendu, atrace.txt qui indique de plus, le numrode la ligne incrimine.

    Tableau 3.4 : Compte-rendu de la segmentation

    *****COMPTE-RENDU DE LA SEGMENTATION*****Fichier -- C:\LEXICO3T\TEXTES\DUCH.TXT -- ouvert pourvrificationL 2 Cl incorrecte (espace dans contenu) : L 94 Cl incorrecte (pas de contenu) : L 5709 Cl incorrecte : Mauvais emplacement de balise de fermetureL 5845 Cl incorrecte (espace dans type) : L13277 Cl incorrecte :

  • LEXICO 3

    13

    A lissue de la segmentation, une bote de dialogue informe de la finnormale de lopration.

    3-Fichiers de sortie

    Plusieurs fichiers sont crs et enregistrs sur disque dur dans lemme rpertoire que le texte-source :Le fichier corpus.par : contient les principaux dcomptes effectuspar le programme (formes, occurrences, etc...) ainsi que le rappel descaractres dlimiteurs choisis lors de la segmentation.

    Tableau 3.6 : Exemple fichier paramtres

    Lexico2.1 PC DUCHnbetiq=0196125 196125 11023 142185 10859 6130 4953 5000000 14 8 143 00*** Rsultat de la segmentation du fichier: DUCH.TXT ***Dlimiteurs #-:;/\\.,?!*$\"' +=(){}[]nombre des occurrences : 142185nombre des formes : 10859frequence maximale : 6130nombre des hapax : 4953nombre des cls(type) : 8nombre des cls(ctnu) : 143*** Fin de la segmentation du fichier: DUCH.TXT ***

    Le fichier corpus.alp : contient un index des formesgraphiques classs par ordre alphabtique. Il n' est crque si vous avez coch la case Index Alphabtique dansla bote de dialogue du module Segmentation.

    Tableau 3.7 : Extrait de lindex alphabtique

    frq forme27 834 a

  • LEXICO 3

    14

    28 2632 29 1 abandonnant30 4 abandonne31 10 abandonn32 1 abandonnes33 3 abandonnent() () ()Le fichier corpus.dic : contient le dictionnaire des formesclasss par frquence (un enregistrement pour chaqueforme).

    Tableau 3.8 : Extrait du dictionnaire numrisfrq rang lex. forme6130 2703 de4749 6033 les4298 5909 la3773 4216 et() () ()1 10809 voudrai1 10817 vouer259 10859 !198 10860 "49 10861 $() () ()766 10873 Epg96 10874 S01() () ()97 10882 011 10883 02

    Le fichier corpus.num : contient le texte numris, cest dire sous une forme code o articles, occurrences,ponctuations, et autres lments du corpus sontrprtoris de faon compacte. Ce fichier usagestrictement interne ne peut tre consult avec un diteurde texte.

  • LEXICO 3

    15

    Le fichier atrace.txt : contient un rapport dtaill desoprations effectues par le programme (mmoirealloue, paramtres pris en compte, fichiers lus et crits,...). En cas dchec du traitement, ce fichier peut fournirdes indications permettant de situer la cause du problme.

    Tableau 3.9 : Extrait du fichier de trace (atrace.txt)*****COMPTE-RENDU DE LA SEGMENTATION*****Fichier -- C:\LEXICO2\TRAVAIL\DUCH.TXT -- ouvert pourvrificationMAXART (Maximum d' articles traits) = 50000Allocation de 4687KFichier d' initialisation = C:\LEXICO2T\TEXTES\LEXICO2.INIFichier -- C:\LEXICO2\TRAVAIL\DUCH.TXT -- ouvert poursegmentationFichier xxxx.txn ouvertDlimiteurs : .,:;!?/_-\"' ()[]{}== nbf= 11016, nhap= 5079, nbcle= 8, nbctnu= 143-- Tri lexicom. de 11016 formes-- Fin Travail DictionnaireFichier Dict : DUCH.dic :-- Fin EcriDicNum 11178 articlesFichier Texte : DUCH.num : 192083 items.Fichier Param DUCH.par :*****FIN DE LA SEGMENTATION*****

    Ouverture dune base

    En cliquant sur cette icne vous avez la possibilit douvrir destextes dj segments, il sagit des fichiers avec lextension .par.

  • LEXICO 3

    16

    Note:

    Vous pouvez galement ouvrir un texte dj segment en le glissantsur l'icne de Lexico3.

    Statistique par partie

    Pour comparer les variations dans l'usage du vocabulaire entre lesdiffrentes parties du corpus, on utilise le module "Statistique parparties" qui opre une srie de calculs statistiques. Le corpus aura tpralablement trait par le module "Segmentation".

    1-Mise en uvre du programme

    Cliquer sur licne "Statistique par partie", une bote de dialogueapparat . Elle vous permet de rgler les paramtres de la partition.

    Figure 4: Choix de la partition

  • LEXICO 3

    17

    Slectionner la forme (dictionnaire) que vous dsirez faire apparatredans le graphe, puis glisser-la sur le graphe.

    Figure 5: Graphique

  • LEXICO 3

    18

    Principales caractristiques de la partition

    Figure 6: Caractristiques de la partition

    SpcificitLanalyse des spcificits : Ce fichier (*.spf) indique la ventilationdes formes dans les parties et adjoint aux frquences remarquablesun indice de spcificit. Ce dernier sinterprte comme suit : dabordle signe + ou qui indique un sur-emploi ou un sous-emploi.

  • LEXICO 3

    19

    Figure 7: Spcificits

    A la suite de cet index par formes vient un index des spcificits,duch.spf, par partie o lon retrouve classes les spcificitspositives et ngatives. Lindice doriginalit * (astrisque) indiqueque la forme nest prsente que dans la partie courante.

    Spcificits sur une partie donne (par rapport l'ensemble)

    On slectionne une (ou plusieurs) partie(s) (clic gauche de la souris,avec majuscule ou contrle activ suivant le nombre de parties slectionn (comportement windows habituel)), et on lance les

  • LEXICO 3

    20

    spcificits. On peut ensuite ritrer les oprations de "glissement demots" sur la carte des sections via la souris.

    AFC

    CAH

    Sp ch ev

  • LEXICO 3

    21

    2-Le fichier de sortieLe fichier est un fichier .par o sont enregistrs successivementtoutes les requtes effectues lors de la dernire session dutilisation.

    Segments rpts

    Les segments rpts sont des suites de formes dont la frquence estsuprieure 2 dans le corpus.

    1-Mise en uvre du programme

    Pour crer la liste des segments rpts cliquez sur licne, une botede dialogue apparat, vous pouvez paramtrer le calcul des segmentsrpts (cf figure 5):Vous avez la possibilit de choisir les dlimiteurs de squence et lapartition.Vous pouvez fixer une frquence minimum en-dessous duquel lesformes et les segments ne seront pas retenue. Ce seuil est par dfautfix 10.Ensuite cliquez sur OK.

  • LEXICO 3

    22

    La liste des segments rpts apparat dans la partie gauche de lafentre, vous pouvez la consulter en cliquant sur longlet Segmentsrpts . (cf figure 6)

    Concordances

    Pour une forme-ple, la concordance est dfinie comme lensembledes lignes de contextes se rapportant cette forme. La concordancepermet un retour au texte qui dcrit lenvironnement immdiat de laforme, qui permet de mettre en vidence les formes que lon retrouvefrquemment autour du ple.

    Figure 8: Paramtrage du calcul de segments rpts

    Figure 9: Liste des segments rpts

  • LEXICO 3

    23

    ' occasion d ' tre utile un homme aussi intressant . quel est votrensi donc , au lieu d ' tre un homme sanguinaire , quand je faisaisant de fois accus d ' tre un homme froce , tait le meilleur des maladie de l ' adoration . un homme , tel qu ' il soit , n ' est plusil soit , n ' est plus qu ' un homme nos yeux ; tant qu ' il va droits coups ; reois nos regrets , homme pur et courageux ; longtempsnous

    Tableau : Extrait dune concordance autour de la forme-plehomme dans le corpus Duchesne.

    Les tris

    Les diffrents contextes relatifs une mme forme peuvent treordonns de trois manires diffrentes. Le tri de ces contextes peuttre effectu en fonction de :- loccurrence qui prcde la forme-ple (tri avant)- loccurrence qui suit la forme-ple (tri aprs)- lordre dans lequel les occurrences de la forme-ple apparaissentdans le texte.Le module Contextes permet de lancer plusieurs requtesdocumentaires conscutives partir dune base de donnes textuellescre par le module Segmentation.

    1-Mise en oeuvre

    Cliquer sur licne Concordance, une bote de dialogue apparat :xzy){|~}

  • LEXICO 3

    24

    LH

    : Vous pouvez choisir le nombre de caractres (espacesinclus) qui doivent apparatre avant et aprs chaque ple. Pour lemodifier aprs une premire recherche, changer la largeur et cliquersur rafrachir.(Figure5)L]UDU*M* te en appuyant sur entre.

    Il est possible deffectuer des requtes sur plusieurs formes la fois.Pour visualiser les diffrentes formes il suffit de cliquer sur lesbouton "Prcdent" et "Suivant".

    Figure 10: Bote de dialogue "Concordances"

    Figure 11: Largeur du contexte

  • LEXICO 3

    25

    2-Le fichier de sortieLe fichier conc1.html est un fichier html ou sont enregistrssuccessivement toutes les requtes effectues lors de la derniresession dutilisation de Concordances.

  • LEXICO 3

    26

    Carte des paragraphes

    On peut crer une carte des sections, la segmentation se fait partirdes dlimiteurs slectionns: paragraphes, point...

    Carte des paragraphes des mots du dictionnaire

    Slectionner la forme (dictionnaire) que vous dsirez faire apparatresur la carte des sections, puis glisser-la sur la carte (clic gauchemaintenu du segment vers le graphique).

    Figure 12: Dlimiteurs disponibles

  • LEXICO 3

    27

    Carte de groupe de mots (segments rpts)Aprs avoir activ le bouton "Segments rpts", Lexico produit un"dictionnaire" des segments dans la partie gauche. On peutmanipuler les formes contenues dans le dictionnaire et par exempleles faire glisser sur la carte (clic gauche maintenu du segment vers legraphique).

    Partitions, sections et retour au texte : le texte gomtrie variable

    On peut visualiser le texte via la carte des sections (sectionslectionne au pralable), via le dcoupage des partitionsinitialement intgr dans le codage du corpus, et le texte lui mme(fentre du bas)

  • LEXICO 3

    28

    Note

    Vous pouvez vous dplacer l'intrieur detexte soit par section (les carrs non-colors)soit par occurrence (les carrs colors).

    Pour ajouter les cartes au rapport, cliquer sur"Section".

  • LEXICO 3

    29

    Groupe de formes

    Il est possible d'effectuer des requtes sur plusieurs formes la fois,en basant les requtes sur des prfixes, des suffixes, des expressionsrgulires (type egrep/grep), ou des suites des caractres graphiques.

    1-Mise en uvre

    Entrez le nom du groupe de formes.Entrez la forme que vous dsirez rechercher.Cliquez sur rechercher.L"objet" rsultant peut ensuite tre manipul comme une forme"normale", en cliquant sur la flche rouge du groupe (clic gauchemaintenu), on "glisse" le groupe sur la carte de la partition. cf imageSi vous effectuez une nouvelle recherche, vos rsultats seconcatnent aux prcdents.

  • LEXICO 3

    30

    Mosaque

    En cliquant sur cette icne vous rorganisez plusieurs applications(fentres) sur la mme feuille.

    Crer une nouvelle feuille

    Pour viter la superposition des diffrentes applicationsen cours, vous pouvez crer de nouvelles feuilles en cliquant surl'icne.Les feuilles de travail s'empilent sur la droite de la fentre principale.Les onglets "Feuille ni" permettent de passer de l'une l'autre.

    Dplacer vers une autre feuille

    Pour dplacer une application vers une nouvelle feuille,slectionnez la, cliquez sur l'icne et slectionnez la feuille dsire.

    Ajouter au rapport

  • LEXICO 3

    31

    Toutes les fentres produites au cours d'une exploration textuellepeuvent tre intgres dans un rapport au format HTML.Pour sauvegarder l'application en cours cliquez sur "ajouter aurapport" et dans l'onglet rapport cliquez sur "enregistrer".Le rpertoire "Rapport" se cre automatiquement, il contient lefichier "Rapport.html" o vous trouverez, sous forme de lienshypertexte, toutes les donnes sauvegardes.

    OptionsCe bouton permet de fixer des seuils lors du traitement

    Figure 15: Rapport.html

  • LEXICO 3

    32

    de gros corpus, il permet aussi d'indiquer si le corpus trait a tpralablement tiquet.

    Aide

    Laide en ligne

    Aide gnrale

    Le fichier daide de Lexico3 peut tre consult tout moment partir de la console en cliquant sur licne Aide.

    Aide contextuelle

    Lors de lexcution des modules, lutilisateur peut faire apparatreune aide contextuelle en rapport avec le traitement en cours encliquant sur le bouton Aide dans la bote de dialogue active.

    Glossaire

    La dfinition de quelques notions de base en statistique textuelle estreprise dans laide en ligne.

    Editeur

    Pour visualiser un texte ou vos rsultats partir de Lexico 3, cliquezsur l'icne "Editeur" et partir de l'icne "Ouvrir" slectionnez votredocument.

  • LEXICO 3

    33

    QuitterAvant de quitter Lexico3, vrifiez que vous avez sauvegard vosdonnes dans le rapport.Pour quitter Lexico3 cliquez sur l'icne.

  • LEXICO 3

    34

    V-Astuces

    Navigation

    Slectionner/Glisser

    On slectionne une (ou plusieurs) forme(s) (clic gauche de la souris,avec majuscule ou contrle activ suivant le nombre de parties slectionn (comportement windows habituel)), et on glisse les mots.On peut ensuite ritrer les oprations de "glissement de formes"dans la fentre droite via la souris...

    Plein cran

    Pour visualise la fentre de droit en plein cran, cliquez sur la flcherouge situe entre les fentres gauche et droite.

    Dictionnaire

    Pour la lecture du dictionnaire vous pouvez choisir entre lordrelexicomtrique ou lordre lexicographique.

  • LEXICO 3

    35

    Glossaire pour la statistique textuelle

    NB : Les astrisques renvoient une entre de ce mme glossaire.Les abrviations qui suivent entre parenthses prcisent le domaineauquel s'applique plus particulirement la dfinition.

    Abrviations :ac Analyse factorielle des correspondancesacm Analyse des correspondances multiplescla Classificationsp Mthode des Spcificitssr Analyse des segments rptsling Linguistiquestat Statistiquesa Segmentation automatique

    accroissement spcifique - (sp) spcificit* calcule pour une partied'un corpus par rapport une partie antrieureanalyse factorielle (stat) - famille de mthodes statistiques d'analysemultidimensionnelle, s'appliquant des tableaux de nombres, quivisent extraire des "facteurs" rsumant approximativement parquelques sries de nombres l'ensemble des informations contenuesdans le tableau de dpart.analyse des correspondances (stat)- mthode d'analyse factorielles'appliquant l'tude de tableaux double entre composs denombres positifs. L'AC est caractrise par l'emploi d'une distance(ou mtrique) particulire dite distance du chi-2 (ou c2).caractre (sa) - signe typographique utilis pour l'encodage du textesur un support lisible par l'ordinateur.caractres dlimiteurs / non-dlimiteurs (sa) - distinction opresur l'ensemble des caractres, qui entrent dans la composition dutexte permettant aux procdures informatises de segmenter le texteen occurrences* (suite de caractres non-dlimiteurs borne sesextrmits par des caractres dlimiteurs).On distingue parmi les caractres dlimiteurs:- les caractres dlimiteurs d'occurrence (encore appels"dlimiteurs de forme") qui sont en gnral : le blanc, les signes de

  • LEXICO 3

    36

    ponctuation usuels, les signes de pranalyse ventuellement contenusdans le texte.- les caractres dlimiteurs de squence : sous-ensemble desdlimiteurs d'occurrence correspondant, en gnral, aux ponctuationsfaibles et fortes contenues dans la police des caractres.- les caractres sparateurs de phrase : (sous-ensemble desdlimiteurs de squence) qui correspondent, en gnral, aux seulesponctuations fortes.classification (stat) - technique statistique permettant de regrouperdes individus ou observations entre lesquels a t dfinie unedistance.classification hirarchique (cla) - technique particulire declassification produisant par agglomration progressive des classesayant la proprit d'tre, pour deux quelconques d'entre-elles, soitdisjointes, soit incluses.concordance (sa) - l'ensemble de lignes de contexte se rapportant une mme forme-ple.contribution absolue (ou contribution) - (ac) contribution apportepar un lment au facteur . Pour un facteur donn, la somme descontributions sur les lments de chacun des ensembles mis encorrespondance est gale 100.contribution relative (ou cosinus carr) - (ac) contribution apportepar le facteur un lment. Pour un lment donn, la somme descontributions relatives sur l'ensemble des facteurs est gale 1.cooccurrence (sa) - (une c. ) - prsence simultane, mais nonforcment contigu, dans un fragment de texte (squence, phrase,paragraphe, voisinage d'une occurrence, partie du corpus etc.) desoccurrences de deux formes donnes.corpus (ling) - ensemble limit des lments (noncs) sur lesquelsse base l'tude d'un phnomne linguistique.(lexicomtrie) ensemble de textes runis des fins de comparaison;servant de base une tude quantitative.dlimiteurs de squence - (sa) sous-ensemble des caractresdlimiteurs* de forme* correspondant aux ponctuations faibles etfortes (en gnral - le point, le point d'interrogation, le pointd'exclamation, la virgule, le point-virgule, les deux points, lesguillemets, les tirets et les parenthses).

  • LEXICO 3

    37

    dendrogramme - (cla) reprsentation graphique d'un arbre declassification hirarchique, mettant en vidence l'inclusionprogressive des classes.discours/langue - La langue est un ensemble virtuel qui ne peut treapprhend que dans son actualisation orale ou crite; "discours" estun terme commode qui recouvre les deux domaines de cetteactualisation.distance du chi-2 - distance entre profils* de frquence utilise enanalyse des correspondances* et dans certains algorithmes* declassification*.ditions de contextes (sa) - ditions de type concordanciel danslesquelles les occurrences d'une forme sont accompagnes d'unfragment de contexte pouvant contenir plusieurs lignes de texteautour de la forme-ple. La longueur de ce contexte est dfinie ennombre d'occurrences avant et aprs chaque occurrence de la forme-ple.lments d'un segment (sr) - chacune des formes correspondant auxoccurrences qui entrent dans sa composition. ex : A, B, C sontrespectivement les premier, deuxime et troisime lments dusegment ABC.lments actifs- (ac ou acm) ensemble des lments servant de baseau calcul des axes factoriels, des valeurs propres relatives ces axeset des coordonnes factorielles.lments supplmentaires (ou illustratifs)- (ac ou acm) ensembledes lments ne participant pas aux calculs des axes factoriels, pourlesquels on calcule des coordonnes factorielles qui auraient taffectes une forme ayant la mme rpartition dans le corpus maisparticipant l'analyse avec un poids ngligeable.nonc/nonciation - (ling) l'intrieur du texte un ensemble detraces qui manifestent l'acte par lequel un auteur a produit ce texte.facteur- (ac ou acm) variables artificielles construites par lestechniques d'analyse factorielle permettant de rsumer (de dcrirebrivement) les variables actives initiales.forme- (sa) ou "forme graphique" archtype correspondant auxoccurrences* identiques dans un corpus de textes, c'est--dire auxoccurrences composes strictement des mmes caractres non-dlimiteurs d'occurrence.

  • LEXICO 3

    38

    forme banale - (sp) pour une partie du corpus donne, forme neprsentant aucune spcificit ( ni positive ni ngative) dans cettepartie .forme caractristique - (d'une partie) synonyme de spcificitpositive*.forme commune - forme atteste dans chacune des parties ducorpus.forme originale- (pour une partie du corpus) forme trouvant toutesses occurrences dans cette seule partie.frquence (sa) - (d'une unit textuelle) le nombre de ses occurrencesdans le corpus.frquence d'un segment (sr) - (ou d'une polyforme) le nombre desoccurrences de ce segment, dans l'ensemble du corpus.frquence maximale (sa) - frquence de la forme la plus frquentedu corpus (en franais, le plus souvent, la prposition "de").frquence relative (sa) - la frquence d'une unit textuelle dans lecorpus ou dans l'une de ses parties, rapporte la taille du corpus(resp. de cette partie).gamme des frquences (sa) - suite note Vk, des effectifscorrespondant aux formes de frquence k, lorsque k varie de 1 lafrquence maximale.hapax - gr. hapax (legomenon), "chose dite une seule fois".(sa) forme dont la frquence est gale un dans le corpus (hapax ducorpus) ou dans une de ses parties (hapax de la partie).identification - (stat, ling, sa) reconnaissance d'un seul et mmelment travers ses multiples emplois dans des contextes et dansdes situations diffrentes.index - (sa) liste imprime constitue partir d'une rorganisationdes formes et des occurrences d'un texte, ayant pour base la formegraphique et permettant de regouper les rfrences* relatives l'ensemble des occurrences d'une mme forme.index alphabtique (sa) - index* dans lequel les formes-ples* sontclasses selon l'ordre lexicographique* (celui des dictionnaires).index hirarchique (sa) - index* dans lequel les formes-ples* sontclasses selon l'ordre lexicomtrique*.index par parties - ensemble d'index (hirarchiques oualphabtiques) raliss sparment pour chaque partie d'un corpus.lemmatisation - regroupement sous une forme canonique (engnral partir d'un dictionnaire) des occurrences du texte. En

  • LEXICO 3

    39

    franais, ce regroupement se pratique en gnral de la maniresuivante :_ les formes verbales l'infinitif,_ les substantifs au singulier,_ les adjectifs au masculin singulier,_ les formes lides la forme sanslision.lexical - (ling) qui concerne le lexique* ou le vocabulaire*.lexicomtrie ensemble de mthodes permettant d'oprer desrorganisations formelles de la squence textuelle et des analysesstatistiques portant sur le vocabulaire* d'un corpus de textes.lexique - (ling) ensemble virtuel des mots d'une langue.longueur (sa) - ( d'un corpus, d'une partie de ce corpus, d'unfragment de texte, d'une tranche, d'un segment, etc.) le nombre desoccurrences contenues dans ce corpus (resp. : partie, fragment, etc.).Synonyme de taille.On note: T la longueur du corpus; t j celle de la partie (ou tranche)numro j du corpus.longueur d'un segment (sr) - le nombre des occurrences entrantdans la composition de ce segment.occurrence (sa) - suite de caractres non-dlimiteurs borne sesextrmits par deux caractres dlimiteurs* de forme.ordre lexicographique -_ pour les formes graphiques :l'ordre selon lequel les formes sont classes dans un dictionnaire.NB : Les lettres comportant des signes diacriss sont classes aumme niveau que les mmes caractres non diacriss, le signediacritique n'intervenant que dans les cas d'homographie complte.Dans les dictionnaires, on trouve par exemple, ranges dans cetordre, les formes : mais, mas, maison, matre ._ pour les polyformes:ordre rsultant d'un tri des polyformes par ordre lexicographique surla premire composante, les polyformes commenant par une mmeforme graphique sont dpartages par un tri lexicographique sur laseconde, etc.ordre lexicomtrique (sa) -_ pour les formes graphiques :

  • LEXICO 3

    40

    ordre rsultant d'un tri des formes du corpus par ordre de frquencesdcroissantes; les formes de mme frquence sont classes par ordrelexicographique._ pour les polyformes:ordre rsultant d'un tri par ordre de longueur dcroissante dessegments, les segments de mme longueur sont dpartags par leurfrquence, les segments ayant mme longueur et mme frquencepar l'ordre lexicographique.paradigme- (ling) ensemble des termes qui peuvent figurer en unpoint de la chane parle.paradigmatique- (sa) qui concerne le regroupement en srie desunits textuelles, indpendamment de leur ordre de succession dansla chane crite.partie - (d'un corpus de textes) fragment de texte correspondant auxdivisions naturelles de ce corpus ou un regroupement de cesdernires.partition - (d'un corpus de textes) division d'un corpus en partiesconstitues par des fragments de texte conscutifs, n'ayant pasd'intersection commune et dont la runion est gale au corpus.(d'un ensemble, d'un chantillon) division d'un ensemble d'individusou d'observations en classes disjointes dont la runion est gale l'ensemble tout entier.partition longitudinale - (sa) partition d'un corpus en fonction d'unevariable qui dfinit un ordre sur l'ensemble des partiespriodisation (sa) - regroupement des parties naturelles du corpusrespectant l'ordre chronologique d'criture, d'dition ou de parutiondes textes runis dans le corpus.phrase - (sa) fragment de texte compris entre deux sparateurs* dephrase.polyforme (sr) - archtype des occurrences d'un segment; suite deformes non spares par un sparateur de squence, qui n'est pasobligatoirement atteste dans le corpus.ponctuation - Systme de signes servant indiquer les divisionsd'un texte et noter certains rapports syntaxiques et/ou conditionsd'nonciation.(sa ) caractre (ou suite de caractres) correspondant un signe deponctuation.pourcentages d'inertie - (ac ou acm) quantits proportionnelles auxvaleurs propres* dont la somme est gale 100. Notes ta.

  • LEXICO 3

    41

    profil - (stat et ac) (d'une ligne ou d'une colonne d'un tableau double entre) vecteur constitu par le rapport des effectifs contenussur cette ligne (resp. colonne) la somme des effectifs que contientla ligne (resp. la colonne).rpartition (sa) - (des occurrences d'une forme dans les parties ducorpus) nombre des parties du corpus dans lesquelles cette forme estatteste.segment - (sr) toute suite d'occurrences conscutives dans le corpuset non spares par un sparateur* de squence est un segment dutexte.segment rpt (sr) - (ou polyforme rpte) suite de forme dont lafrquence est suprieure ou gale 2 dans le corpus.segmentaire - (sr) ensemble des termes* attests dans le corpus.segmentation - opration qui consiste dlimiter des unitsminimales* dans un texte.segmentation automatique - ensemble d'oprations ralises aumoyen de procdures informatises qui aboutissent dcouper, selondes rgles prdfinies, un texte stock sur un support lisible par unordinateur en units distinctes que l'on appelle des unitsminimales*.sparateurs de phrases - (sa) sous-ensemble des caractresdlimiteurs* de squence* correspondant aux seules ponctuationsfortes (en gnral : le point, le point d'interrogation, le pointd'exclamation).squence - (sa) suite d'occurrences du texte non spares par undlimiteur* de squence.seuil - (stat) quantit arbitrairement fixe au dbut d'une expriencevisant slectionner parmi un grand nombre de rsultats, ceux pourlesquels les valeurs d'un indice numrique dpassent ce seuil (defrquence, en probabilit, etc.).sous-frquence (sa) - (d'une unit textuelle dans une partie, tranche,etc.) nombre des occurrences de cette unit dans la seule partie (resp.tranche, etc.) du corpus.sous-segments (sr) - pour un segment donn, tous les segments delongueur infrieure et compris dans ce segment sont des sous-segments. ex : AB et BC sont deux sous-segments du segment ABC.spcificit chronologique - (sp) spcificit* portant sur un groupeconnexe de parties d'un corpus muni d'une partition longitudinale*.

  • LEXICO 3

    42

    spcificit positive - (sp) pour un seuil de spcificit fix, une formei et une partie j donnes, la forme i est dite spcifique positive de lapartie j (ou forme caractristique* de cette partie) si sa sous-frquence est "anormalement leve" dans cette partie. De faon plusprcise, si la somme des probabilits calcules partir du modlehypergomtrique pour les valeurs gales ou suprieures la sous-frquence constate est infrieure au seuil fix au dpart.spcificit ngative - (sp) pour un seuil de spcificit fix, uneforme i et une partie j donnes, la forme i est dite spcifique ngativede la partie j si sa sous-frquence est anormalement faible dans cettepartie. De faon plus prcise, si la somme des probabilits calcules partir du modle hypergomtrique pour les valeurs gales ouinfrieures la sous-frquence constate est infrieure au seuil fixau dpart.stock distributionnel du vocabulaire - (d'un fragment de texte) levocabulaire* de ce fragment assorti de comptages de frquence pourchacune des formes entrant dans sa composition.syntagmatique- (sa) qui concerne le regroupement des unitstextuelles, selon leur ordre de succession dans la chane crite.syntagme- (ling) groupe de mots en squence formant une unit l'intrieur de la phrase.tableau de contingence (stat) - synonyme de tableau de frquencesou de tableau crois: tableau dont les lignes et les colonnesreprsentent respectivement les modalits de deux questions (oudeux variables nominales) , et dont le terme gnral reprsente lenombre d'individus correspondant chaque couple de modalits.tableau lexical entier (TLE) - tableau double entre dont les lignessont constitues par les ventilations* des diffrentes formes dans lesparties du corpus. Le terme gnrique k(i,j) du TLE est gal aunombre de fois que la forme i est atteste dans la partie j du corpus.Les lignes du TLE sont tries selon l'ordre lexicomtrique* desformes correspondantes.tableau des segments rpts (TSR) - tableau double entre dontles lignes sont constitues par les ventilations* des segments rptsdans les parties du corpus. Les lignes du TSR sont tries selon l'ordrelexicomtrique* des segments. (i.e. longueur dcroissante, frquencedcroissante, ordre lexicographique).tableau lexical- tableau double entre rsultant du TLE parsuppression de certaines lignes ( par exemple celles qui

  • LEXICO 3

    43

    correspondent des formes dont la frquence est infrieure un seuildonn).taille- (sa) (d'un corpus) sa longueur* mesure en occurrences (deformes simples).terme - (sr) nom gnrique s'appliquant la fois aux formes* et auxpolyformes*. Dans le premier cas on parlera de termes de longueur1. Les polyformes sont des termes de longueur 2,3, etc.termes contraints / termes libres - Un terme S1 est contraint dansun autre terme S2 de longueur suprieure si toutes ses occurrences*sont des sous-segments* de segments correspondant desoccurrences du segment S2. Si au contraire un terme possdeplusieurs expansions distinctes, qui ne sont pas forcmentrcurrentes, c'est un terme libre.units minimales (pour un type de segmentation) - units que l'on nedcompose pas en units plus petites pouvant entrer dans leurcomposition (ex : dans la segmentation en formes graphiques lesformes ne sont pas dcomposes en fonction des caractres qui lescomposent).valeur modale - (stat) valeur pour laquelle une distribution atteintson maximum.valeurs propres - (ac ou acm) quantits permettant de juger del'importance des facteurs successifs de la dcomposition factorielle.La valeur propre note la. mesure la dispersion des lments sur l'axe.a.valeurs-tests - (ac ou acm) quantits permettant d'apprcier lasignification de la position d'un lment supplmentaire* (ouillustratif) sur une axe factoriel. Brivement, si une valeur testdpasse 2 en valeur absolue, il y a 95 chances sur 100 que la positionde l'lment correspondant ne puisse tre due au hasard.variables actives - variables utilises pour dresser une typologie,soit par analyse factorielle, soit par classification. Les typologiesdpendent du choix et des poids des variables actives, qui doivent dece fait constituer un ensemble homogne.variables supplmentaires (ou illustratives) - variables utilises aposteriori pour illustrer des plans factoriels ou des classes. Unevariable supplmentaire peut-tre considre comme une variableactive munie d'un poids nul.

  • LEXICO 3

    44

    variables de type T - variable dont la frquence est peu prsproportionnelle l'allongement du texte. (ex : la frquencemaximale)variables de type V- variable dont l'accroissement a tendance diminuer avec l'allongement du texte (ex : le nombre des formes, lenombre des hapax).ventilation (sa) - (des occurrences d'une unit dans les parties ducorpus) La suite des n nombres (n = nombre de parties du corpus)constitue par la succession des sous-frquences* de cette unit danschacune des parties, prises dans l'ordre des parties.vocabulaire (sa) - ensemble des formes* attestes dans un corpus detextes.vocabulaire commun - (sa) l'ensemble des formes attestes danschacune des parties du corpus.vocabulaire de base - (sp) ensemble des formes du corpus neprsentant, pour un seuil fix, aucune spcificit (ngative oupositive) dans aucune des parties , (i.e. l'ensemble des formes quisont "banales" pour chacune des parties du corpus).vocabulaire original- (sa) (pour une partie du corpus) l'ensembledes formes* originales* pour cette partie.

    voisinage d'une occurrence - (sa) pour une occurrence donnedu texte, tout segment (suite d'occurrences conscutives, nonspares par un dlimiteur de squence) contenant cetteoccurrence.

  • LEXICO 3

    45

    Rfrences bibliographiques

    Bcue M. (1988) - Characteristic repeated segments and chainsin textual data analysis, COMPSTAT, 8th Symposium onComputational Statistics, Physica Verlag, Vienna.Becue M., Peiro R. (1993) - Les quasi-segments pour uneclassification automatique des rponses ouvertes, in Actes des2ndes Journes Internationales d'analyse des donnes textuelles,(Montpellier), ENST, Paris, p 310-325.Benzecri J.-P.(1977) - Analyse discriminante et analysefactorielle, Les Cahiers de l'Analyse des Donnes, II, n 4, p369-406.Benzcri J.-P. & coll. (1973) - La taxinomie, Vol. I ; L'analysedes correspondances, Vol. II, Dunod, Paris.Benzcri J.-P. (1982) - Histoire et prhistoire de l'analyse desdonnes, Dunod, Paris.Benzcri J.-P.& coll. (1981a) - Pratique de l'analyse desdonnes, tome 3, Linguistique & Lexicologie, Dunod , Paris.Benzcri J.-P. (1991a) - Typologies de textes grecs d'aprs lesoccurrences des formes des mots-outil, Les Cahiers de l'Analysedes Donnes, XVI, n1, p 61-86.Benzcri J.-P. (1992) - Correspondence Analysis Handbook,(Transl : T.K. Gopalan) Marcel Dekker, New York.Bernet C. (1983) - Le vocabulaire des tragdies de Jean Racine,Analyse statistique, Slatkine-Champion, Genve 1983.Bolasco S. (1992) - Sur diffrentes stratgie dans une analysedes formes textuelles : Une exprimentation partir de donnesd'enqute, Jornades Internacionals d'Analisi de Dades Textuals,UPC, Barcelona, p 69-88.Bonnafous S. (1991) - L'immigration prise aux mots. Lesimmigrs dans la presse au tournant des annes quatre-vingt,Kim, Paris.Brunet E. (1981) - Le vocabulaire franais de 1789 nos jours,d'aprs les donnes du Trsor de la langue franaise, Slatkine-Champion, Genve-Paris.Demonet M., Geffroy A., Gouaze J., Lafon P., Mouillaud M.,Tournier M. (1975) - Des tracts en Mai 68. Mesures de

  • LEXICO 3

    46

    vocabulaire et de contenu, Armand Colin et Presses de laFondation Nat. des Sc. Pol., Paris.Dendien J. (1986) - La Base de donnes de l'Institut National dela Langue Franaise, Actes du colloque international CNRS,Nice, juin 1985, 2 vol., Slatkine-Champion Genve, Paris.Geffroy A., Lafon P., Tournier M. (1974) - L'indexationminimale, Plaidoyer pour une non-lemmatisation, Colloque surl'analyse des corpus linguistiques : "Problmes et mthodes del'indexation minimale", Strasbourg 21-23 mai 1973.Gobin C., Deroubaix J. C. (1987) - Du progrs, de la rforme del'Etat, de l'austrit. Dclarations gouvernementales enBelgique, Mots, n15, p 137-170.Guilbaud G.-Th. (1980) - Zipf et les frquences, Mots N 1, p97-126.Guilhaumou J. (1986) - L'historien du discours et lalexicomtrie. Etude d'une srie chronologique : Le preDuchesne de Hbert, juillet 1793- mars 1794, Histoire &Mesure , Vol. I, n 3-4.Guiraud P. (1954) - Les caractres statistiques du vocabulaire,P.U.F., Paris.Guiraud P. (1960) - Problmes et mthodes de la statistiquelinguistique, P.U.F., Paris.Guttman L. (1941) - The quantification of a class of attributes: atheory and method of a scale construction, in The prediction ofpersonal adjustment (P. Horst, ed.), SSCR New York, p 251 -264.Habert B., Tournier M. (1987) - La tradition chrtienne dusyndicalisme franais aux prises avec le temps. Evolutioncompare des rsolutions confdrales (1945 - 1985), Mots,n14.Labb D. (1990) - Le vocabulaire de Franois Mitterrand,Presses de la Fond. Nat. des Sciences Politiques, Paris.Labb D. (1983) - Franois Mitterrand - Essai sur le discours,La pense sauvage, Grenoble.Labb D. (1990) - Normes de dpouillement et procduresd'analyse des textes politiques, CERAT, Grenoble.Labb D., Thoiron P., Serant D. (Ed.) (1988) - Etudes sur larichesse et la structure lexicales, Slatkine-Champion, Paris-Genve.

  • LEXICO 3

    47

    Lafon P. (1980) - Sur la variabilit de la frquence des formesdans un corpus, Mots N1 , p 127-165.Lafon P. (1981) - Analyse lexicomtrique et recherche descooccurrences, Mots N3 , p 95-148.Lafon P. (1981) - Dpouillements et statistiques en lexicomtrie,Slatkine-Champion, 1984, Paris.Lafon P., Salem A. (1983) - L'Inventaire des segments rptsd'un texte, Mots N6, p 161-177.Lafon P., Salem A., Tournier M. (1985) - Lexicomtrie etassociations syntagmatiques (Analyse des segments rpts etdes cooccurrences applique un corpus de textes syndicaux).Colloque de l'ALLC, Metz -1983, Slatkine-Champion, Genve,Paris, p 59-72.Lebart L. (1969) - L'Analyse statistique de la contigut,Publications de l'ISUP, XVIII- p 81 - 112.Lebart L. (1982b) - L'Analyse statistique des rponses libresdans les enqutes socio-conomiques, Consommation, n1,Dunod, p 39-62.Lebart L., Salem A. (1988) - Analyse statistique des donnestextuelles, Dunod, Paris.Lebart L., Salem A., Berry E. (1991) - Recent development in thestatistical processing of textual data, Applied Stoch. Model andData Analysis, 7, p 47-62.Menard N. (1983) - Mesure de la richesse lexicale, thorie etvrifications exprimentales, Slatkine-Champion, Paris.Muller C. (1964) - Essai de statistique lexicale : L'illusioncomique de P. Corneille, Klincksieck, Paris.Muller C. (1968) - Initiation la statistique linguistique,Larousse, Paris.Muller C. (1977) - Principes et mthodes de statistique lexicale,Hachette, Paris.Muller C.(1967) - Etude de statistique lexicale. Le vocabulairedu thtre de Pierre Corneille, Paris, Larousse.Pcheux M. (1969) - Analyse automatique du discours, Dunod,Paris.Peschanski D. (1988) - Et pourtant, ils tournent. Vocabulaire etstratgie du PCF (1934 - 1936), Klincksieck, Paris.Petruszewycz M. (1973) - L'histoire de la loi d'Estoup-Zipf,Math. Sciences Hum., n44.

  • LEXICO 3

    48

    Reinert M. (1990) - Alceste, Une mthodologie d'analyse desdonnes textuelles et une Application : Aurlia de Grard deNerval, Bull. de Mthod. Sociol. n26, p 24-54.Romeu L. (1992) - Approche du discours ditorial de Ya etArriba (1939 - 1945), Thse Paris 3.Salem A. (1984) - La typologie des segments rpts dans uncorpus, fonde sur l'analyse d'un tableau croisant mots et textes,Les Cahiers de l'Analyse des Donnes, Vol IX, n 4, p 489-500.Salem A. (1986) - Segments rpts et analyse statistique desdonnes textuelles, Etude quantitative propos du preDuchesne de Hbert, Histoire & Mesure, Vol. I- n 2, Paris, Ed.du CNRS.Salem A. (1987) - Pratique des segments rpts, Essai desatistique textuelle, Klincksieck, Paris.Salem A. (1993) - Mthodes de la statistique textuelle, Thsed'Etat, Universit Sorbonne Nouvelle (Paris 3).Sekhraoui M. (1981) - La saisie des textes et le traitement desmots : Problmes poss, essai de solution, Mmoire, Ecole deshautes tudes en sciences sociales, Paris.Tournier M. (1985a) - Sur quoi pouvons-nous compter ?Hommage Hlne Nais, Verbum.Tournier M. (1985b) - Texte propagandiste et cooccurrences.Hypothses et mthodes pour l'tude de la sloganisation, MotsN11, p 155-187.Tournier M. (1980) - D'ou viennent les frquences devocabulaire?, Mots N1, p 189-212.Van Rijckevorsel J. (1987) - The application of fuzzy coding andhorseshoes in multiple correspondances analysis, DSWO Press,Leyde.Warnesson I., Parisot P., Bedecarrax C., Huot C. (1993) -Traitements linguistiques et analyse des donnes pour uneexploitation systmatique des banques de donnes, RevueFranaise de bibliomtrie, i 21.Weil G.E., Salem A., Serfaty M. (1976) - Le livre d'Isae etl'analyse critique des sources textuelles, Revue (R.E.L.O)LASLA , N2 , Lige.Yule G.U. (1944) - The Statistical Study of Literary Vocabulary,Cambridge University Press, Reprinted in 1968 by ArchonBooks, Hamden, Connecticut.

  • LEXICO 3

    49

    Zipf G. K. (1935) - The Psychobiology of Language, anIntroduction to Dynamic Philology, Boston, Houghton-Mifflin.