CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

Post on 14-Jan-2016

28 views 0 download

description

Soutenance de Janvier. Re cherche Sé mantique d’ In formation. CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent Encadreur : DUCASSÉ Mireille. INTRODUCTION AU SUJET. Recherche d’information. ReSeIn : Re cherche Sé mantique d’ In formation - PowerPoint PPT Presentation

Transcript of CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

CLERC FrédéricCLERC Frédéric

COMMEROT SamiCOMMEROT Sami

CROGUENNEC JulienCROGUENNEC Julien

GARNIER NicolasGARNIER Nicolas

MIGNÉ VincentMIGNÉ Vincent

VAILLANT LaurentVAILLANT Laurent

Encadreur : DUCASSÉ MireilleEncadreur : DUCASSÉ Mireille

ReRecherche cherche SéSémantique mantique d’d’InInformationformation

Soutenance de Janvier

2

ReSeIn : ReReSeIn : Recherche cherche SéSémantique d’mantique d’InInformationformation

But de la recherche d’information : développer des systèmes

capables de fournir à un utilisateur, qui interroge une base de

données

documentaire, les textes les plus pertinents.

Difficultés actuelles dans la recherche Internet (Google) : Ce que l’on cherche se trouve rarement dans les premières

réponses Temps souvent long avant d’obtenir ce que l’on recherche

INTRODUCTION AU SUJET

Recherche d’informationRecherche d’information

3

Exemple d’applications du traitement automatique du langage naturel : Recherche documentaire Traduction automatique

Il est nécessaire pour ces applications d’acquérir un lexique

décrivant le sens des mots qu’elles manipulent.

Représentation sémantique (ie. basée sur le sens)

Des études linguistiques ont prouvé qu’il existe un lien sémantique

fort entre les noms et les verbes

La représentation des couples qualia utilise ce lien

Le couple qualia est l’élément central du projet

INTRODUCTION AU SUJET

SémantiqueSémantique

4

Couple qualia : Fait l’objet d’études linguistiques Extrait du Lexique Génératif développé en 1995 par J. Pustejovsky Définition : association d’un nom et d’un verbe qui sont liés par le sens

Exemple : le nom livre Couple (livre,lire) : rôle de but ou de fonction Couple (livre,écrire) : rôle de création etc …

Utilité de ces couples dans la recherche d’information

Exemple : reformulation de requête

« Magasin de disques » « Vendre des disques »

avec le couple qualia (magasin,vendre)

INTRODUCTION AU SUJET

Couple qualiaCouple qualia

5

Intérêt de la récupération automatique des couples qualia pour les

linguistes

Point de départ du projet : prototype de recherche de Vincent

Claveau [IRISA,TEXMEX] permettant cette récupération

But du projet :

Correction des bogues du prototype

Mise en place d’une interface pour faciliter son utilisation par les

linguistes

Réalisation d’une application Web utilisant les couples qualia

PRÉSENTATION DU PROJET

Prototype de recherchePrototype de recherche

6

1-Introduction au sujet

2- Présentation du projet

3- Le Prototype

4- La Spécification

5- Bilan

PRÉSENTATION DU PROJET

PlanPlan

7

LE PROTOTYPE

Fonctionnement Global (1/3)Fonctionnement Global (1/3)

ApprentissageProgrammation Logique

Inductive (Aleph)corpus

exemplespositifs

Expertslinguistes

exemplesnégatifs

exemple :(...) je pense aller au magasinpour acheter des disques (...)

exemples :qualia(magasin, acheter).qualia(disque, acheter)....

exemples :non_qualia(magasin, penser).non_qualia(disque, aller)....

8

LE PROTOTYPE

Fonctionnement Global (2/3)Fonctionnement Global (2/3)

ApprentissageProgrammation Logique

Inductive (Aleph)

exemplespositifs

exemplesnégatifs

exemples :qualia(magasin, acheter).qualia(disque, acheter)....

exemples :non_qualia(magasin, penser).non_qualia(disque, aller)....

règles

exemple :est_qualia(Nom,Verbe) si :- distance entre Nom et Verbe < 4 mots- Verbe = verbe d’action- Nom = lieu...

9

LE PROTOTYPE

Fonctionnement Global (3/3)Fonctionnement Global (3/3)

règles

exemple :est_qualia(Nom,Verbe) si :- distance entre Nom et Verbe < 4 mots- Verbe = verbe d’action- Nom = lieu...

Extraction

corpus

couplesqualia

exemples :qualia(magasin, acheter).qualia(disque, acheter).qualia(magasin, vendre).qualia(album, vendre).qualia(disque, vendre)....

exemple :(...) Le magasin de disque vend bien le dernier album de Lorie (...)

10

LE PROTOTYPEFonctionnement Global : Fonctionnement Global : RécapitulatifRécapitulatif

règles Extraction couplesqualia

ApprentissageProgrammation Logique

Inductive

exemplespositifs

exemplesnégatifs

Expertslinguistes

corpus

11

LE PROTOTYPE

Données nécessaires en entrée Données nécessaires en entrée d’apprentissage : le Corpusd’apprentissage : le Corpus

corpus : texte ou recueil de textes relatif à un domaine spécifique

servant à

une étude linguistique.

contraintes (pour le traitement par le prototype) :

taille conséquente (au moins 100.000 mots)

en français uniquement

style non-littéraire de préférence (phrases concrètes)

termes techniques propres au domaine fréquemment utilisés

nécessité d’avoir un étiquetage syntaxique et sémantique

des mots

12

LE PROTOTYPEDonnées nécessaires en entrée Données nécessaires en entrée d’apprentissage : le Corpus d’apprentissage : le Corpus étiquetéétiqueté

1385\1 TOK Le le#det_sg\ddef1385\4 TOK marché marché#noun_sg\acy1385\11 TOK du de#prep\rde1385\14 TOK disque disque#noun_pl\art1385\21 TOK devrait devoir#verb_sg\mod1385\29 TOK reculer reculer#verb_inf\acp1385\37 TOK cette ce#det_sg\ddemon1385\43 TOK année année#noun_sg\tme1385\48 PTERM_P . EOS .#sent\sent

Exemple de phrase : “Le marché du disque devrait reculer cette année.”

Problème : utilisation du logiciel payant Cordial7

13

Exemples Positifs E+ (resp. Négatifs E-) : couples Nom-Verbe présents dansle corpus et certifiés par un expert linguiste comme qualia (resp. non qualia).

clauses Prolog totalement adaptées

LE PROTOTYPE

Données nécessaires en entrée Données nécessaires en entrée d’apprentissage : les Exemplesd’apprentissage : les Exemples

exemple :is_qualia(magasin,acheter) :-

phrase entière d’où est tirée l’exempleavec l’étiquetage associé à chaque mot.

format :is_qualia(N,V) :-tags(et_debut,tc_vide,ts_vide),tags(NomN,tagSyntaxiqueN,tagSemantiqueN),pred(NomN,et_debut),tags(V,tagSyntaxiqueV,tagSemantiqueV),pred(N,V),...

Pour un bon apprentissage : 3.000 ex. positifs et 3.000 négatifs pour 100.000 mots très fastidieux pour les experts linguistes solution alternative automatisée : le Bootstrapping

14

LE PROTOTYPEL’apprentissage : Approche L’apprentissage : Approche généralegénérale

Obtention de règles généralisant les exemples positifs en excluant les exemples négatifs

Utilise la programmation logique inductive, système Aleph (implémenté en Prolog)

Objectif : construire des règles permettant d’extraire automatiquement les couples qualia à partir du corpus

15

LE PROTOTYPE

L’apprentissage : SchémaL’apprentissage : Schéma

ApprentissageAleph

règles

E+

E-

BackgroundKnowledge

En entrée : E+ et E-, les exemples B, le Background knowledge, ensemble de connaissances élémentaires

En sortie : les règles

16

LE PROTOTYPE

L’apprentissageL’apprentissage

description syntaxique des différents types de mots : common_noun(W) :- plural_common_noun(W).verb(W) :- infinitive(W).

description sémantique des différents types de mots :common_noun(W) :- artefact(W).verb(W) :- action_verb(W).

prédicats d’ordre et de distance (propriétés entre les mots) :precedes(V,N) :- distance(N,V,X,_).near_verb(N,V) :- distance(N,V,_,1).

L’apprentissage : L’apprentissage : Le Background KnowledgeLe Background Knowledge

17

LE PROTOTYPE

L’apprentissage : algorithmeL’apprentissage : algorithme

1. Choix de manière aléatoire d’un exemple positif e dans E+. Si E+ est vide, arrêt.

2. Construction d’un espace de recherche H

Construction du treillis correspondant à e

┬ clause la plus générale

┴ clause la plus spécifique (e)

3. Chercher dans H la règle h qui a le score le plus élevé

fonction de score = nb de E+ couverts – nb de E- couverts

4. Retirer à E+ tous les exemples couverts par la règle h. Aller à l’étape 1.

e

is_qualia(A,B)

18

LE PROTOTYPE

Extraction des couples qualiaExtraction des couples qualia

Extraction = exécution directe des règles Prolog sur les faits

Obtention des couples qualia (Nom, Verbe) vérifiant les règles

Extractioncouplesqualia

Règles prolog générées par Aleph

(Apprentissage)

Corpus étiqueté sous forme

de faits Prolog

19

20

21

22

2323

Le prototype est un programme en ligne de commande

Création d'une interface et d'un assistant d'installation

Un seul corpus est disponible

Recherche et création d'un nouveau corpus

Utilisation concrète des couples qualia

Spécification d'une application Web

SPÉCIFICATIONS

IntroductionIntroduction

2424

But :

Convention dans le cadre d'une distribution d'un produit

Simplifier la procédure d'installation qui est contraignante

Installation possible par un linguiste sans intervention de

l'administrateur

Conception :

Une interface qui guide l'utilisateur

Un assistant pas à pas

Possibilité de voir le déroulement détaillé de l'installation

SPÉCIFICATIONS

Installation AutomatiqueInstallation Automatique

2525

Pourquoi ?

Interface du prototype en ligne de commande et

rebutante.

Souci d'avoir un logiciel exploitable par un linguiste.

Une valeur ajoutée pour la distribution :

Des fonctionnalités supplémentaires :

• Affichage du corpus

• Sauvegarde facilitée des informations

Faciliter la manipulation des données utilisées

par le protoype :

• Les fichiers d'exemples notamment.

SPÉCIFICATIONS

Interface PrototypeInterface Prototype

2626

Conception :

Choix d'une interface avec des onglets.

Chacun des onglets représente un module ou un prérequis précis du prototype.

Parties de l'interface :1 : Menu2 : Onglets3 : Bouton d'aide4 : Operation suivante

SPÉCIFICATIONS

Interface PrototypeInterface Prototype

27

Motivations :

Tester le prototype en profondeur

Avoir une utilisation personnelle

pour notre projet

Conditions :

Texte sans fautes d’orthographe

Contraintes par rapport à l’étiquetage

SPÉCIFICATIONS

Nouveau corpusNouveau corpus

28

SPÉCIFICATIONS

Nouveau corpus sur le sportNouveau corpus sur le sport

Nouveau domaine choisi : le sport

Listing des sports : Sports collectifs Sports individuels Sports mécaniques Sports de combat Sports extrêmes

Taille du corpus : 180 000 mots environ

Source : Internet

29

But de l’application : Aider un utilisateur dans ses recherches sur Google Lui proposer des sites plus ciblés sur sa requête Prendre en compte la généralité de certaines requêtes Avoir une application concrète pour le prototype

Conception : Stockage des couples qualia dans une base de données Classement des couples en fonction de leur

pertinence

SPÉCIFICATIONS

Application WebApplication Web

30

SPÉCIFICATIONS

Application Web : ExempleApplication Web : Exemple

Page d’aide à la recherche : On propose à l’utilisateur de

compléter

sa requête, avec les couples qualia

Requête initiale :

buteur France Brésil

Buteur :

1 – marquer

2 – jouer

3 – tirer

4 – gagner

5 – manquer

Résultats :

Avec ces choix, l’utilisateur obtient une nouvelle requête :

(buteur OU marquer)ET(France Brésil)

Cette nouvelle requête est directement envoyée vers la page de résultats de Google

31

Apports : Création de rapports (Latex) Test d’un logiciel Découverte de la complexité des algorithmes Utilisation concrète de Prolog

Difficultés de mise en œuvre : Lenteur du prototype pour récupérer les couples qualia Nécessité d’utiliser Cordial7 (logiciel sous licence) au préalable

Limite du Projet : Couples qualia spécifiques à un domaine précis

Interrogations sur la validation des résultats : Pertinence des couples qualia obtenus à partir de notre corpus ? Validation de l’interface par les linguistes ? Efficacité de l’application Web dans la recherche d’informations ?

BILAN

Conclusion & Interrogations Conclusion & Interrogations