CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

29
CLERC Frédéric CLERC Frédéric COMMEROT Sami COMMEROT Sami CROGUENNEC Julien CROGUENNEC Julien GARNIER Nicolas GARNIER Nicolas MIGNÉ Vincent MIGNÉ Vincent VAILLANT Laurent VAILLANT Laurent Encadreur : DUCASSÉ Mireille Encadreur : DUCASSÉ Mireille Re Re cherche cherche mantique mantique d’ d’ In In formation formation Soutenance de Janvier

description

Soutenance de Janvier. Re cherche Sé mantique d’ In formation. CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent Encadreur : DUCASSÉ Mireille. INTRODUCTION AU SUJET. blabla. Resein = recherche sémantique d’information (ie. Basée sur le sens) - PowerPoint PPT Presentation

Transcript of CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

Page 1: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

CLERC FrédéricCLERC Frédéric

COMMEROT SamiCOMMEROT Sami

CROGUENNEC JulienCROGUENNEC Julien

GARNIER NicolasGARNIER Nicolas

MIGNÉ VincentMIGNÉ Vincent

VAILLANT LaurentVAILLANT Laurent

Encadreur : DUCASSÉ MireilleEncadreur : DUCASSÉ Mireille

ReRecherche cherche SéSémantique mantique d’d’InInformationformation

Soutenance de Janvier

Page 2: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

2

Resein = recherche sémantique d’information (ie. Basée sur le sens)

Nécessité d’acquérir une représentation sémantique riche des mots.

La représentation choisie est celle des couples qualia.

Couple qualia : association d’un nom et d’un verbe qui sont liés par le sens

Ex : (magasin, vendre) (magasin, acheter) etc.

Intérêt de la récupération automatique de ces couples pour les

linguistes.

INTRODUCTION AU SUJET

blablablabla

Page 3: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

3

Fonction du prototype de recherche de Vincent Claveau :

L’acquisition automatique des couples qualia contenus dans un

texte

But du projet :

Correction des bogues du prototype

Mise en place d’une interface pour faciliter son utilisation par les

linguistes

Réalisation d’une application Web utilisant les couples qualia

PRÉSENTATION DU PROJET

blablablabla

Page 4: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

4

1- Présentation du projet

2- Le Prototype2.1- Introduction

2.2- Etiquetage

2.3- Apprentissage

2.4- Extraction

2.5- Bootstrapping

2.6- Tests et Conclusion

3- La Spécification3.1- Installation automatique

3.2- Interface du prototype

3.3- Nouveau corpus

3.4- Application Web

4- Bilan

PRÉSENTATION DU PROJET

PlanPlan

Page 5: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

5

LE PROTOTYPE

Fonctionnement Global (1/3)Fonctionnement Global (1/3)

ApprentissageProgrammation Logique

Inductive (Aleph)corpus

exemplespositifs

Expertslinguistes

exemplesnégatifs

exemple :(...) je pense aller au magasinpour acheter des disques (...)

exemples :qualia(magasin, acheter).qualia(disque, acheter)....

exemples :non_qualia(magasin, penser).non_qualia(disque, aller)....

Page 6: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

6

LE PROTOTYPE

Fonctionnement Global (2/3)Fonctionnement Global (2/3)

ApprentissageProgrammation Logique

Inductive (Aleph)

exemplespositifs

exemplesnégatifs

exemples :qualia(magasin, acheter).qualia(disque, acheter)....

exemples :non_qualia(magasin, penser).non_qualia(disque, aller)....

règles

exemple :est_qualia(Nom,Verbe) si :- distance entre Nom et Verbe < 4 mots- Verbe = verbe d’action- Nom = lieu...

Page 7: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

7

LE PROTOTYPE

Fonctionnement Global (3/3)Fonctionnement Global (3/3)

règles

exemple :est_qualia(Nom,Verbe) si :- distance entre Nom et Verbe < 4 mots- Verbe = verbe d’action- Nom = lieu...

Extraction

corpus

couplesqualia

exemples :qualia(magasin, acheter).qualia(disque, acheter).qualia(magasin, aller)....

exemple :(...) je pense aller au magasinpour acheter des disques (...)

Page 8: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

8

LE PROTOTYPEFonctionnement Global : Fonctionnement Global : RécapitulatifRécapitulatif

règles Extraction couplesqualia

ApprentissageProgrammation Logique

Inductive (Aleph)

exemplespositifs

exemplesnégatifs

Expertslinguistes

corpus

Page 9: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

9

LE PROTOTYPE

Données nécessaires en entrée Données nécessaires en entrée d’apprentissage : le Corpusd’apprentissage : le Corpus

corpus : texte ou recueil de textes relatif à un domaine spécifique

servant à

une étude linguistique.

contraintes (pour le traitement par le prototype) :

taille conséquente (au moins 100.000 mots)

en français uniquement

style non-littéraire de préférence (phrases concrètes)

termes techniques propres au domaine fréquemment utilisés

nécessité d’avoir un étiquetage syntaxique et sémantique

des mots

Page 10: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

10

LE PROTOTYPEDonnées nécessaires en entrée Données nécessaires en entrée d’apprentissage : le Corpus d’apprentissage : le Corpus étiquetéétiqueté

1385\1 TOK Le le#det_sg\ddef1385\4 TOK marché marché#noun_sg\acy1385\11 TOK du de#prep\rde1385\14 TOK disque disque#noun_pl\art1385\21 TOK devrait devoir#verb_sg\mod1385\29 TOK reculer reculer#verb_inf\acp1385\37 TOK cette ce#det_sg\ddemon1385\43 TOK année année#noun_sg\tme1385\48 PTERM_P . EOS .#sent\sent

Exemple de phrase : “Le marché du disque devrait reculer cette année.”

Problème : utilisation du logiciel payant Cordial7

Page 11: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

11

Exemples Positifs E+ (resp. Négatifs E-) : couples Nom-Verbe présents dansle corpus et certifiés par un expert linguiste comme qualia (resp. non qualia).

clauses Prolog totalement adaptées

LE PROTOTYPE

Données nécessaires en entrée Données nécessaires en entrée d’apprentissage : les Exemplesd’apprentissage : les Exemples

exemple :is_qualia(magasin,acheter) :-

phrase entière d’où est tirée l’exempleavec l’étiquetage associé à chaque mot.

format :is_qualia(N,V) :-tags(et_debut,tc_vide,ts_vide),tags(NomN,tagSyntaxiqueN,tagSemantiqueN),pred(NomN,et_debut),tags(V,tagSyntaxiqueV,tagSemantiqueV),pred(N,V),...

Pour un bon apprentissage : 3.000 ex. positifs et 3.000 négatifs pour 100.000 mots très fastidieux pour les experts linguistes solution alternative automatisée : le Bootstrapping

Page 12: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

12

LE PROTOTYPE

ApprentissageApprentissage

Page 13: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

13

LE PROTOTYPE

ExtractionExtraction

Page 14: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

14

Apprentissage(Prolog, Aleph)

Extractioncouplesqualia

règles

corpusétiqueté

E+

E-

paramètresBackgroundKnowledge

opérateur deraffinement

Bootstrapping

Nouveau schéma de fonctionnement

LE PROTOTYPE

BootstrappingBootstrapping

Page 15: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

15

Présentation du module :

- Prend en entrée un corpus étiqueté

- Extrait les ensembles positifs et négatifs

- Entièrement automatique

BootstrappingE-

E+Corpusétiqueté

LE PROTOTYPE

BootstrappingBootstrapping

Page 16: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

16

Fonctionnement du module :

- Calcul du score IM3 de chaque couple N-V

- Couples ayant le plus haut score = E+

- Couples ayant le plus bas score = E-

Le score IM3 :

- Basé sur le nombre d’occurrences du couple N-V

- La formule :)+)(+(

log3

2 caba

a

LE PROTOTYPE

BootstrappingBootstrapping

Page 17: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

17

Performance :

Tests effectués par Vincent Claveau

Tests effectués sur le corpus Matra uniquement :- Résultats équivalents avec les E+/E- extrait manuellement

LE PROTOTYPE

BootstrappingBootstrapping

Page 18: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

18

Points positifs :

- Prototype assez stable

- Fonctionne sous Linux / Solaris

- Résultats relativement bons

LE PROTOTYPE

Tests & ConclusionTests & Conclusion

Page 19: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

19

Points négatifs :

- Pour corpus de grande taille uniquement

- Pour corpus de style “non-littéraire”

- Temps d’exécution très longs (de 15 min à 7 jours)

- Certains paramètres codés “en dur”

- Prototype difficile à utiliser

- Prototype difficile à installer

LE PROTOTYPE

Tests & ConclusionTests & Conclusion

Page 20: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

20

Le prototype est un programme en ligne de commande création d'une interface et d'un assistant d'installation

Un seul corpus est disponible

recherche et création d'un nouveau corpus

Application : Spécification d'un interface Web

SPÉCIFICATIONS

IntroductionIntroduction

Page 21: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

21

Pourquoi ?

- Interface du prototype en ligne de commande et rebutante.

- Souci d'avoir un logiciel exploitable par un linguiste lambda.

- Une valeur ajoutée pour la distibution :

des fonctionnalités supplémentaires.

faciliter la manipulation des données utilisées par le prototype.

SPÉCIFICATIONS

Interface PrototypeInterface Prototype

Page 22: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

22

Conception :

- Choix d'une interface avec des onglets.

- Chacun des onglets représente un module précis du prototype.

- Scénarios d'utilisation élaborés pour chaque onglets.

SPÉCIFICATIONS

Interface PrototypeInterface Prototype

Page 23: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

23

Utilité : Tester le prototype en profondeur Avoir une utilisation personnelle pour notre projet Domaine plus intéressant par rapport aux hélicoptères

Conditions : Textes dans un bon français Phrases stéréotypées et termes techniques fréquents Contraintes par rapport à l’étiquetage

SPÉCIFICATIONS

Nouveau CorpusNouveau Corpus

Page 24: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

24

Domaine choisi : le sport

Listing des sports : Sports collectifs Sports individuels Sports mécaniques Sports de combat Sports extrêmes Autres…

Autres détails sur le Corpus

SPÉCIFICATIONS

Nouveau CorpusNouveau Corpus

Page 25: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

25

Exemples d’utilisation :

L’utilisateur entre sa requête, Exemple : magasin disque

Sa requête est traité par l’interface Web et l’utilisateur est renvoyé vers une

autre page :

SPÉCIFICATIONS

Application WebApplication Web

Page 26: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

26

Page d’aide à la recherche

On propose à l’utilisateur de compléter sa requête, avec les couples

qualia :

Requête initiale : magasin disque

Magasin : 1 – acheter

2 – servir

3 – vendre

4 – consommer

5 – ouvrir

Disque :

1 – écouter

2 – lire

3 – acheter

SPÉCIFICATIONS

Application WebApplication Web

Page 27: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

27

Résultats :

Requête initiale : magasin disque

Avec ces choix, l’utilisateur obtient une nouvelle requête :

(magasin disque) et (acheter ou vendre) et (écouter ou lire)

La nouvelle requête est directement envoyée vers la page de résultats

d’un

moteur de recherche.

SPÉCIFICATIONS

Application WebApplication Web

Page 28: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

28

But de l’interface : Aider un utilisateur dans ses recherches sur Google Lui proposer des sites plus ciblés sur sa requête Prendre en compte la généralité de certaines requêtes Avoir une application concrète pour le prototype

Conception : Stockage des couples qualia dans une base de données Classement des couples en fonction de leur pertinence

SPÉCIFICATIONS

Application WebApplication Web

Page 29: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

29

Limites du projet :

- lenteur du prototype pour récupérer les couples qualia

- couples qualia spécifiques à un domaine précis

- nécessité d’utiliser Cordial7 (logiciel sous license) au préalable

Interrogations sur l’avenir du projet :

- pertinence des couples qualia obtenus à partir de notre corpus

- validation de l’interface par les linguistes

- efficacité de l’application Web dans la recherche d’informations

BILAN

......