Outil de statistique textuelle FALLET Justine CRUAUD Marion.
-
Upload
simon-proust -
Category
Documents
-
view
105 -
download
0
Transcript of Outil de statistique textuelle FALLET Justine CRUAUD Marion.
OutilOutil de statistique de statistique textuelletextuelle
FALLET Justine FALLET Justine
CRUAUD MarionCRUAUD Marion
Lexico 3 = édition 2001 du logiciel Lexico dont la première version remonte à 1991
Permet le découpage de corpus afin de les analyser
Fonctionnalités :
- Segmentation
- Concordance
- Décompte portant sur les formes graphiques
- Analyse factorielle portant sur les formes et les segments répétés
L’analyse lexicométrique compare les décomptes réalisés à partir du repérage des occurrences d’unités lexicales dans un corpus de texte.
1) Corpus d’initiation
2) Délimiteurs, non délimiteurs
3) Minuscules, majuscules, apostrophes
4) Sections du texte
5) Clés / Balises
• <Auteur : Nerval>
Il est un air pour qui je donnerais tout Rossini tout Mozart tout Weber.
<Auteur : Trenet>
Y’a d’la joie ! Bonjour bonjour les hirondelles. Y’a d’la joie, dans le ciel par-dessus le toit.
<Auteur : Brassens>
La canne de Jeanne est morte eu gui l’an neuf, elle avait fait la veille merveille un œuf.
Ici, la clé auteur permet de partager le corpus en trois parties afin de les comparer entre elles.• On peut par exemple remplacer systématiquement toutes les majuscules du texte par une astérisque suivie d’une majuscule.
Exemple : Chat devient *chat
L’outil Concordance permet de visualiser toutes les occurrences d’une forme.
Les Segments répétés sont des suites de formes dont la fréquence est supérieure à deux dans le corpus.
L’outil Groupe de formes permet de constituer des types rassemblant des occurrences de formes graphiques différentes liées par une propriété commune (pluriel/singulier d’un même verbe, lien sémantique…)
Par exemple pour rechercher tous les mots qui se termine par « tion » le motif à utiliser est « \*tion\ ».
1) Découpage en partie
Pour réaliser une partition du corpus, on sélectionne un type de clé; les différents contenus affectés à cette clé découpent alors le corpus en autant de parties différentes.
2) Spécificités
L’analyse des spécificités permet de porter un jugement sur la fréquence de chacune des unités textuelles dans chacune des parties du corpus.
La Carte des sections permet une visualiser du corpus découpé en sections par la promotion d’un ou plusieurs caractères particuliers (paragraphe, point…) au statut de délimiteur de section.
2) Les fenêtres de travail
1) Carte de sections
La source principale est le site Lexico 3 de l’université Paris III
http://www.cavi.univ-paris3.fr/ilpga/ilpga/tal/lexicoWWW/