Outil de statistique textuelle FALLET Justine CRUAUD Marion.

9
Outil Outil de statistique de statistique textuelle textuelle FALLET Justine FALLET Justine CRUAUD Marion CRUAUD Marion

Transcript of Outil de statistique textuelle FALLET Justine CRUAUD Marion.

Page 1: Outil de statistique textuelle FALLET Justine CRUAUD Marion.

OutilOutil de statistique de statistique textuelletextuelle

FALLET Justine FALLET Justine

CRUAUD MarionCRUAUD Marion

Page 2: Outil de statistique textuelle FALLET Justine CRUAUD Marion.

Lexico 3 = édition 2001 du logiciel Lexico dont la première version remonte à 1991

Permet le découpage de corpus afin de les analyser

Fonctionnalités :

- Segmentation

- Concordance

- Décompte portant sur les formes graphiques

- Analyse factorielle portant sur les formes et les segments répétés

Page 3: Outil de statistique textuelle FALLET Justine CRUAUD Marion.

L’analyse lexicométrique compare les décomptes réalisés à partir du repérage des occurrences d’unités lexicales dans un corpus de texte.

1) Corpus d’initiation

2) Délimiteurs, non délimiteurs

3) Minuscules, majuscules, apostrophes

4) Sections du texte

5) Clés / Balises

Page 4: Outil de statistique textuelle FALLET Justine CRUAUD Marion.

• <Auteur : Nerval>

Il est un air pour qui je donnerais tout Rossini tout Mozart tout Weber.

<Auteur : Trenet>

Y’a d’la joie ! Bonjour bonjour les hirondelles. Y’a d’la joie, dans le ciel par-dessus le toit.

<Auteur : Brassens>

La canne de Jeanne est morte eu gui l’an neuf, elle avait fait la veille merveille un œuf.

Ici, la clé auteur permet de partager le corpus en trois parties afin de les comparer entre elles.• On peut par exemple remplacer systématiquement toutes les majuscules du texte par une astérisque suivie d’une majuscule.

Exemple : Chat devient *chat

Page 5: Outil de statistique textuelle FALLET Justine CRUAUD Marion.

L’outil Concordance permet de visualiser toutes les occurrences d’une forme.

Les Segments répétés sont des suites de formes dont la fréquence est supérieure à deux dans le corpus.

L’outil Groupe de formes permet de constituer des types rassemblant des occurrences de formes graphiques différentes liées par une propriété commune (pluriel/singulier d’un même verbe, lien sémantique…)

Par exemple pour rechercher tous les mots qui se termine par « tion » le motif à utiliser est « \*tion\ ».

Page 6: Outil de statistique textuelle FALLET Justine CRUAUD Marion.
Page 7: Outil de statistique textuelle FALLET Justine CRUAUD Marion.

1) Découpage en partie

Pour réaliser une partition du corpus, on sélectionne un type de clé; les différents contenus affectés à cette clé découpent alors le corpus en autant de parties différentes.

2) Spécificités

L’analyse des spécificités permet de porter un jugement sur la fréquence de chacune des unités textuelles dans chacune des parties du corpus.

Page 8: Outil de statistique textuelle FALLET Justine CRUAUD Marion.

La Carte des sections permet une visualiser du corpus découpé en sections par la promotion d’un ou plusieurs caractères particuliers (paragraphe, point…) au statut de délimiteur de section.

2) Les fenêtres de travail

1) Carte de sections

Page 9: Outil de statistique textuelle FALLET Justine CRUAUD Marion.

La source principale est le site Lexico 3 de l’université Paris III

http://www.cavi.univ-paris3.fr/ilpga/ilpga/tal/lexicoWWW/