Post on 21-Jan-2016
description
Base de Données "Titres"
Projet "Visu"
Réalisée dans le cadre de la maîtrise IL
Objectifs
• Réaliser une base de données contenant différentes informations sur les titres des textes d'un corpus :– Forme des titres (avec différents niveaux de
détail)– Niveau de hiérarchie– Reprises (occurrences et position)
Etapes du travail• Constitution d'un corpus de départ
• Extraction des titres (Perl)
• Extraction des informations sur les titres (Perl)
• Extraction des reprises (Perl)
• Conditionnement des données extraites pour Access
• Fabrication et remplissage de la base
Corpus de départ
• Constitué de 2 textes :– L'HDR de C. Jacquemin (138120 mots)– Le chapitre E/A de P. Rigaux (6315 mots)
• Format des textes : balisage XML
Perl (1)
• Programmes pour extraire les informations des textes :– Utilisation d'expressions régulières– Utilisation des balises pour le repérage et
l'extraction des titres et de leur niveau de hiérarchie
– Repérage et extraction des reprises totales et des mots composant les titres
Perl (2)
• Stockage dans des fichiers "texte brut"
• Mise en forme des information pour automatiser le renseignement de la base de données :
Information 1 Information 2 Information 3Tab Tab etc.
• La tabulation servira à séparer les différents champs dans la table
La base de données• Composée de tables, de requêtes et de
formulaires• Les tables contiennent toutes les
informations extraites par les programmes perl
• Les enregistrements sont créés à partir des tables et servent à organiser les informations d'une ou plusieurs tables ou d'autres requêtes
• Les formulaires permettent de présenter les informations ou de faciliter l'entrée de nouvelles informations dans la base
Les tables• La base contient 11 tables :
– La table Titres qui contient 6 champs :texte niveau occurrence reprise forme N° Id
– La table Reprise qui contient 6 champs :
occurrence reprise position position chiffrée type N° Id
– La table Corpus qui contient 6 champs :
corpus texte taille type genre N° Id
– 8 tables Forme (SN, SP, SV, SAdj, Formel, >Syntagme, Phrase, PropSub) : Ex : Forme_SN :
texte occurrence type de SN N° Id
Les requêtes
• Les tables et les requêtes sont liées entre elles
• Les requêtes permettent d'organiser les informations de la base
• Exemple : Requête pour savoir combien de SN introduits par un article défini sont présents dans chaque texte du corpus
Les formulaires
• Ils permettent de mettre en forme et de présenter les informations de la table
• Ils permettent aussi de rentrer de nouvelles informations dans la table
Objectifs (ce qu'il reste à faire)
• Renseigner la "position chiffrée" dans la base pour les reprises
• Inclure dans la base les annonces de titre
• Inclure dans la base les reprises anaphoriques
• Adapter la base aux besoins du projet
• Ajouter des textes au corpus
• Analyser la base