Download - Base de Données "Titres"

Transcript
Page 1: Base de Données "Titres"

Base de Données "Titres"

Projet "Visu"

Réalisée dans le cadre de la maîtrise IL

Page 2: Base de Données "Titres"

Objectifs

• Réaliser une base de données contenant différentes informations sur les titres des textes d'un corpus :– Forme des titres (avec différents niveaux de

détail)– Niveau de hiérarchie– Reprises (occurrences et position)

Page 3: Base de Données "Titres"

Etapes du travail• Constitution d'un corpus de départ

• Extraction des titres (Perl)

• Extraction des informations sur les titres (Perl)

• Extraction des reprises (Perl)

• Conditionnement des données extraites pour Access

• Fabrication et remplissage de la base

Page 4: Base de Données "Titres"

Corpus de départ

• Constitué de 2 textes :– L'HDR de C. Jacquemin (138120 mots)– Le chapitre E/A de P. Rigaux (6315 mots)

• Format des textes : balisage XML

Page 5: Base de Données "Titres"

Perl (1)

• Programmes pour extraire les informations des textes :– Utilisation d'expressions régulières– Utilisation des balises pour le repérage et

l'extraction des titres et de leur niveau de hiérarchie

– Repérage et extraction des reprises totales et des mots composant les titres

Page 6: Base de Données "Titres"

Perl (2)

• Stockage dans des fichiers "texte brut"

• Mise en forme des information pour automatiser le renseignement de la base de données :

Information 1 Information 2 Information 3Tab Tab etc.

• La tabulation servira à séparer les différents champs dans la table

Page 7: Base de Données "Titres"

La base de données• Composée de tables, de requêtes et de

formulaires• Les tables contiennent toutes les

informations extraites par les programmes perl

• Les enregistrements sont créés à partir des tables et servent à organiser les informations d'une ou plusieurs tables ou d'autres requêtes

• Les formulaires permettent de présenter les informations ou de faciliter l'entrée de nouvelles informations dans la base

Page 8: Base de Données "Titres"

Les tables• La base contient 11 tables :

– La table Titres qui contient 6 champs :texte niveau occurrence reprise forme N° Id

– La table Reprise qui contient 6 champs :

occurrence reprise position position chiffrée type N° Id

– La table Corpus qui contient 6 champs :

corpus texte taille type genre N° Id

– 8 tables Forme (SN, SP, SV, SAdj, Formel, >Syntagme, Phrase, PropSub) : Ex : Forme_SN :

texte occurrence type de SN N° Id

Page 9: Base de Données "Titres"

Les requêtes

• Les tables et les requêtes sont liées entre elles

• Les requêtes permettent d'organiser les informations de la base

• Exemple : Requête pour savoir combien de SN introduits par un article défini sont présents dans chaque texte du corpus

Page 10: Base de Données "Titres"

Les formulaires

• Ils permettent de mettre en forme et de présenter les informations de la table

• Ils permettent aussi de rentrer de nouvelles informations dans la table

Page 11: Base de Données "Titres"

Objectifs (ce qu'il reste à faire)

• Renseigner la "position chiffrée" dans la base pour les reprises

• Inclure dans la base les annonces de titre

• Inclure dans la base les reprises anaphoriques

• Adapter la base aux besoins du projet

• Ajouter des textes au corpus

• Analyser la base