Soutenance de s tage : Informatisation de dictionnaires fulfulde-anglais-français

19
Soutenance de stage : Informatisation de dictionnaires fulfulde-anglais-français Stagiaire : Mariam BARRY Maître de Stage : Mathieu MANGEOT

description

Stagiaire : Mariam BARRY Maître de Stage : Mathieu MANGEOT. Soutenance de s tage : Informatisation de dictionnaires fulfulde-anglais-français. Introduction. Objectif : Conversion de dictionnaires éditoriaux Format pour impression (ODT) => Electronique (XML Propre) Comment ? - PowerPoint PPT Presentation

Transcript of Soutenance de s tage : Informatisation de dictionnaires fulfulde-anglais-français

Page 1: Soutenance  de s tage :  Informatisation de dictionnaires fulfulde-anglais-français

Soutenance de stage :

Informatisation de dictionnairesfulfulde-anglais-français

Stagiaire : Mariam BARRY

Maître de Stage : Mathieu MANGEOT

Page 2: Soutenance  de s tage :  Informatisation de dictionnaires fulfulde-anglais-français

IntroductionObjectif :

Conversion de dictionnaires éditoriauxFormat pour impression (ODT) => Electronique (XML Propre) Comment ?

Traitement du contenu XMLCodage de la forme (Style) => Codage de fond

(Informations)

Résultat attendu : Fichier XML Propre et Structuré avec

marquage explicite des informations

Page 3: Soutenance  de s tage :  Informatisation de dictionnaires fulfulde-anglais-français

II. Laboratoire d’accueilLIG (Laboratoire Informatique de Grenoble) • Recherche en informatique ; créé le 01/01/2007 Taille : 500 chercheurs, enseignant-chercheurs,

doctorants, personnel, Campus de Grenoble et Montbonnot

Partenaires CNRS, Grenoble INP, INRIA, UJF, UPMF, Stendhal

Equipe GETALP (Groupe d’Etude pour la Traduction Automatique et le Traitement automatisé des Langues et de la Parole) Taille : 17 permanents : 1chercheuse et 3 ingénieurs

CNRS, 13 enseignants-chercheurs.

Page 4: Soutenance  de s tage :  Informatisation de dictionnaires fulfulde-anglais-français

III. Données Un dictionnaire fulfulde => français (dico1)

Projet Soutéba (Soutien à l’éducation de base) Rédigé en se basant sur une version imprimée 4 523 Entrées et riche en informations Erreurs de mise en page, style, etc.

Un dictionnaire fulfulde <=> français et anglais (2 fichiers : dico2 et dico3) Equipe de linguistes Américains travaillant au Niger Entrées : 17 230 (ful=>ang-fra) ; 10 000 (ang=>ful) et 10 300 (fra=>ful) Propre

Fournies par : Mme Chantal Enguehard, enseignante-chercheuse au LINA

Page 5: Soutenance  de s tage :  Informatisation de dictionnaires fulfulde-anglais-français

III. Données : Extrait du dico1.odt

Page 6: Soutenance  de s tage :  Informatisation de dictionnaires fulfulde-anglais-français

IV. Travail réalisé

Page 7: Soutenance  de s tage :  Informatisation de dictionnaires fulfulde-anglais-français

4.1. Balises XML◦ Elément d’un fichier XML◦ Exemple : <NomB>Exemple</NomB> ;

<A><a>b</a></A>◦ Nom des balises ouvrantes et fermantes doivent

correspondre

Page 8: Soutenance  de s tage :  Informatisation de dictionnaires fulfulde-anglais-français

4.1. Expressions régulières◦ Suite de caractères => Chaine de caractères◦ Trouver un bloc de texte◦ Traitement automatisé (Remplacement, …)◦ Exemples : a[lou]+ , ^[st]ac , [st]ac$ , ([^<]+)◦ Les parenthèses servent à capturer une information :

Rechercher : <Test>([^<]+)</Test><Exemple>([^<]+)</Exemple>Remplacer par : <Resultat>\1 et \2</Resultat>

   <Test>Aurevoir</Test><Exemple>Merci</Exemple>

<Resultat>Aurevoir et Merci</Resultat>

Page 9: Soutenance  de s tage :  Informatisation de dictionnaires fulfulde-anglais-français

4. 2. Analyse de données Nécessitait des compétences linguistiques en

fulfuldeBilan sur dico1 :

Balise Équivalent Françaismbahdi Pluriel

tok Synonymelur Contraire, Opposécalt Variantefar Traduction

Abréviation Équivalent Fr Fréquencei. singulier/pluriel Nom 2493

g. Verbes 1709s. Adjectif 63w. Adverbe 15

wal. Adverbe 5jokk. Adverbe de liaison 4sif. Mot Composé, Expression 7l. Pronom Personnel et

Numéral4

Page 10: Soutenance  de s tage :  Informatisation de dictionnaires fulfulde-anglais-français

4. 3. Marquage explicite des informations

Version de départ : XML provenant de l'ODT

Page 11: Soutenance  de s tage :  Informatisation de dictionnaires fulfulde-anglais-français

4. 3. Marquage explicite des informations

Rech : <text:p text:style-name="Entry_20_Paragraph"> Remp : <Article> Rech : </text:p> Remp : </Article>

Rech : <text:span text:style-name=“Lexeme">([^<]+)</text:span>Remp : < Vedette>\1</Vedette>

Rech : (<Paradigm>[^<]+)</text:span><Paradigm>([^<]+</text:span>) Remp : \1\2

Rech : calt: ([^<\.]+)\. Remp : <Variante>\1</Variante> (Pareil avec tok, mbahdi, etc)

Far : Automatique : 3985 et Manuel : 485 (cas particuliers ou avec erreurs)

Page 12: Soutenance  de s tage :  Informatisation de dictionnaires fulfulde-anglais-français

4. 3. Marquage explicite des informations Version finale : fichier XML traité

Page 13: Soutenance  de s tage :  Informatisation de dictionnaires fulfulde-anglais-français

4. 4. Visualisation des données Validation XML

Nécessite une syntaxe XML correcte ! Corriger les

Feuille de style Représentation de documents XML, HTML Définir des règles (alignement, police, couleur,

marges, etc.) Fichier XML : <?xml-stylesheet type="text/css"

href="dicoNiger.css"?>

Page 14: Soutenance  de s tage :  Informatisation de dictionnaires fulfulde-anglais-français

4. 4. Visualisation des donnéesAffichage du Dico1 sur chrome avec feuille de style

Page 15: Soutenance  de s tage :  Informatisation de dictionnaires fulfulde-anglais-français

4. 5. Mise en ligne sur Jibiki• Jibiki

• Plate-forme de gestion de ressources lexicales• Programmée en Java• Accès à des ressources hétérogènes• Import et traitement de données, dictionnaires• Open source

• Import• Ressource importée au Format XML valide• Décrire le dictionnaire, sa macrostructure• Analyse des données• Disponible sur la plateforme

Page 16: Soutenance  de s tage :  Informatisation de dictionnaires fulfulde-anglais-français

4. 5. Mise en ligne sur Jibiki

C

Résultat d’une recherche sur Jibiki sur une entrée du dico1

Page 17: Soutenance  de s tage :  Informatisation de dictionnaires fulfulde-anglais-français

4. 5. Mise en ligne sur Jibiki

Résultat d’une recherche sur Jibiki sur 2 entrées du dico2

Page 18: Soutenance  de s tage :  Informatisation de dictionnaires fulfulde-anglais-français

V. ConclusionBilan Mise à disposition de Ressources électroniques

- Pour le traitement automatique des langues

Ressource précieuse

- Car cette langue est peu dotée

Apport Nécessitait des compétences en fulfulde et en informatique

Fini le travail que DILAF n’a pas pu (à cause des erreurs)

Notions de : Expressions régulières, XML, Feuille de style

Développer mon autonomie

Page 19: Soutenance  de s tage :  Informatisation de dictionnaires fulfulde-anglais-français

Merci pour votre attention !

Questions ?