Base de Données "Titres"

11
Base de Données "Titres" Projet "Visu" Réalisée dans le cadre de la maîtrise IL

description

Base de Données "Titres". Projet "Visu" Réalisée dans le cadre de la maîtrise IL. Objectifs. Réaliser une base de données contenant différentes informations sur les titres des textes d'un corpus : Forme des titres (avec différents niveaux de détail) Niveau de hiérarchie - PowerPoint PPT Presentation

Transcript of Base de Données "Titres"

Page 1: Base de Données "Titres"

Base de Données "Titres"

Projet "Visu"

Réalisée dans le cadre de la maîtrise IL

Page 2: Base de Données "Titres"

Objectifs

• Réaliser une base de données contenant différentes informations sur les titres des textes d'un corpus :– Forme des titres (avec différents niveaux de

détail)– Niveau de hiérarchie– Reprises (occurrences et position)

Page 3: Base de Données "Titres"

Etapes du travail• Constitution d'un corpus de départ

• Extraction des titres (Perl)

• Extraction des informations sur les titres (Perl)

• Extraction des reprises (Perl)

• Conditionnement des données extraites pour Access

• Fabrication et remplissage de la base

Page 4: Base de Données "Titres"

Corpus de départ

• Constitué de 2 textes :– L'HDR de C. Jacquemin (138120 mots)– Le chapitre E/A de P. Rigaux (6315 mots)

• Format des textes : balisage XML

Page 5: Base de Données "Titres"

Perl (1)

• Programmes pour extraire les informations des textes :– Utilisation d'expressions régulières– Utilisation des balises pour le repérage et

l'extraction des titres et de leur niveau de hiérarchie

– Repérage et extraction des reprises totales et des mots composant les titres

Page 6: Base de Données "Titres"

Perl (2)

• Stockage dans des fichiers "texte brut"

• Mise en forme des information pour automatiser le renseignement de la base de données :

Information 1 Information 2 Information 3Tab Tab etc.

• La tabulation servira à séparer les différents champs dans la table

Page 7: Base de Données "Titres"

La base de données• Composée de tables, de requêtes et de

formulaires• Les tables contiennent toutes les

informations extraites par les programmes perl

• Les enregistrements sont créés à partir des tables et servent à organiser les informations d'une ou plusieurs tables ou d'autres requêtes

• Les formulaires permettent de présenter les informations ou de faciliter l'entrée de nouvelles informations dans la base

Page 8: Base de Données "Titres"

Les tables• La base contient 11 tables :

– La table Titres qui contient 6 champs :texte niveau occurrence reprise forme N° Id

– La table Reprise qui contient 6 champs :

occurrence reprise position position chiffrée type N° Id

– La table Corpus qui contient 6 champs :

corpus texte taille type genre N° Id

– 8 tables Forme (SN, SP, SV, SAdj, Formel, >Syntagme, Phrase, PropSub) : Ex : Forme_SN :

texte occurrence type de SN N° Id

Page 9: Base de Données "Titres"

Les requêtes

• Les tables et les requêtes sont liées entre elles

• Les requêtes permettent d'organiser les informations de la base

• Exemple : Requête pour savoir combien de SN introduits par un article défini sont présents dans chaque texte du corpus

Page 10: Base de Données "Titres"

Les formulaires

• Ils permettent de mettre en forme et de présenter les informations de la table

• Ils permettent aussi de rentrer de nouvelles informations dans la table

Page 11: Base de Données "Titres"

Objectifs (ce qu'il reste à faire)

• Renseigner la "position chiffrée" dans la base pour les reprises

• Inclure dans la base les annonces de titre

• Inclure dans la base les reprises anaphoriques

• Adapter la base aux besoins du projet

• Ajouter des textes au corpus

• Analyser la base