Projet Lucene

9
Projet Lucene Thibault BARILLON – David BOSCHER – Mathieu CORNIC – Vincent DANIEL – Simon DOUILLET– Alexandre LEROUX – Fabien MIRGAINE – Maxime ODYE – Yanis ZERAOUI 22 avril 2011 Acquisition de Connaissances 2

description

Projet Lucene. Thibault BARILLON – David BOSCHER – Mathieu CORNIC – Vincent DANIEL – Simon DOUILLET – Alexandre LEROUX – Fabien MIRGAINE – Maxime ODYE – Yanis ZERAOUI. 22 avril 2011 Acquisition de Connaissances 2. Sommaire. I. Présentation de Lucene II. Améliorations - PowerPoint PPT Presentation

Transcript of Projet Lucene

Page 1: Projet  Lucene

Projet LuceneThibault BARILLON – David BOSCHER – Mathieu CORNIC – Vincent DANIEL –

Simon DOUILLET– Alexandre LEROUX – Fabien MIRGAINE – Maxime ODYE – Yanis ZERAOUI

22 avril 2011Acquisition de Connaissances 2

Page 2: Projet  Lucene

2

I. Présentation de LuceneII. AméliorationsGestion des synonymes Intégration des stemmers

ConclusionDémo

Sommaire

Page 3: Projet  Lucene

3

I - Présentation de Lucene

Projet open-source

développé en JAVA

Moteur de recherche pour

documents textuels

Deux phases

IndexationIndexWri

ter Analyser Document Field Director

y

RechercheIndexSearc

her Term Query Hits

1

2

Page 4: Projet  Lucene

4

I - Présentation de Lucene

CE QUE LUCENE PROPOSE :

• Indexation « intelligente » (filtre sur les mots)

• Recherche par champs (titre, auteur, contenu)

• Requêtes multiples (expressions régulières, expression booléennes, recherche de proximité

CE QU’IL MANQUE À LUCENE :

• Interface graphique• Recherche de synonymes• Mise en place de

stemmers non anglais

Page 5: Projet  Lucene

5

II – AméliorationsSynonymes (1/2) : Principe et mise en œuvre

Utiliser à l’indexation et/ou à la rechercheun dictionnaire des synonymes pour augmenter le nombre de résultats.

Base de synonymesFiltreAnalyseurLucene

RechercheSynonym

Filter

XML (V1)

WordNet (V2)

SynonymAnalyzer

Indexation

<synonyms><group>

<syn>fast</syn>

<syn>quick</syn>

<syn>rapid</syn>

</group>...

<synonyms>

Page 6: Projet  Lucene

6

RequêteDocuments

matchés (sans synonyme)

Occurrencesexactes

Documents matchés avec synonymes

Occurrences des synonymes

Test 2 72 8 121Document 4 242 7 136Company 1 9 1 66

Occurrences exactes

Occurrences des synonymes

% de mots trouvés en plus

Documents matchés (sans synonyme)

Documents matchés avec synonymes

% de documents trouvés en plus

73 725 25268 34,2% 88 121 37,5%

II – AméliorationsSynonymes (2/2) : Résultats

Requêtes simples sur quelques fichiersRequêtes complexes sur un grand nombre de fichiers

Page 7: Projet  Lucene

7

II – AméliorationsStemmers (1/2) : Principe et mise en œuvre

« La racinisation est le nom donné au procédé qui vise à transformer les flexions en leur radical ou stemme. Il cherche à rassembler les différentes variantes flexionnelle et dérivationnelle d’un mot »

StemmersFiltreAnalyseurLucene

RechercheStemmerAnalyzer

Languages

StemFilter

FrenchStemmer

EnglishStemmerIndexation

Page 8: Projet  Lucene

8

II – AméliorationsStemmers (2/2) : Résultats

Stemmatisation d’une phrase (français)

Enter query: fonctionner Searching for: fonctionner Total frequency : 00 total matching documents

Enter query: fonctionner Searching for: fonction Occurences in : /Users/vincent/Desktop/docs/TestFrench.txt2 x fonctionFrequency : 2 Total frequency : 21 total matching documents

Stemmatisation sur une collection (anglais)

Occurrences exactes

Occurrences des mots stemmatisés

% de mots trouvés en plus

Documents matchés (sans stemmatisation)

Documents matchés avec stemmatisation

% de documents trouvés en plus

73 725 39190 53,1% 88 157 78,4%

Page 9: Projet  Lucene

9

Conclusion

QUELQUES DIFFICULTÉS RENCONTRÉES

Formation à Lucene

Choix des fonctionnalit

ésOrganisation du groupe

QUELQUES IDÉES D’AMÉLIORATIONS

Correcteur d’orthograp

he

Améliorations des

expressions régulières

Recherche contextuelle