Projet Lucene
description
Transcript of Projet Lucene
Projet LuceneThibault BARILLON – David BOSCHER – Mathieu CORNIC – Vincent DANIEL –
Simon DOUILLET– Alexandre LEROUX – Fabien MIRGAINE – Maxime ODYE – Yanis ZERAOUI
22 avril 2011Acquisition de Connaissances 2
2
I. Présentation de LuceneII. AméliorationsGestion des synonymes Intégration des stemmers
ConclusionDémo
Sommaire
3
I - Présentation de Lucene
Projet open-source
développé en JAVA
Moteur de recherche pour
documents textuels
Deux phases
IndexationIndexWri
ter Analyser Document Field Director
y
RechercheIndexSearc
her Term Query Hits
1
2
4
I - Présentation de Lucene
CE QUE LUCENE PROPOSE :
• Indexation « intelligente » (filtre sur les mots)
• Recherche par champs (titre, auteur, contenu)
• Requêtes multiples (expressions régulières, expression booléennes, recherche de proximité
CE QU’IL MANQUE À LUCENE :
• Interface graphique• Recherche de synonymes• Mise en place de
stemmers non anglais
5
II – AméliorationsSynonymes (1/2) : Principe et mise en œuvre
Utiliser à l’indexation et/ou à la rechercheun dictionnaire des synonymes pour augmenter le nombre de résultats.
Base de synonymesFiltreAnalyseurLucene
RechercheSynonym
Filter
XML (V1)
WordNet (V2)
SynonymAnalyzer
Indexation
<synonyms><group>
<syn>fast</syn>
<syn>quick</syn>
<syn>rapid</syn>
</group>...
<synonyms>
6
RequêteDocuments
matchés (sans synonyme)
Occurrencesexactes
Documents matchés avec synonymes
Occurrences des synonymes
Test 2 72 8 121Document 4 242 7 136Company 1 9 1 66
Occurrences exactes
Occurrences des synonymes
% de mots trouvés en plus
Documents matchés (sans synonyme)
Documents matchés avec synonymes
% de documents trouvés en plus
73 725 25268 34,2% 88 121 37,5%
II – AméliorationsSynonymes (2/2) : Résultats
Requêtes simples sur quelques fichiersRequêtes complexes sur un grand nombre de fichiers
7
II – AméliorationsStemmers (1/2) : Principe et mise en œuvre
« La racinisation est le nom donné au procédé qui vise à transformer les flexions en leur radical ou stemme. Il cherche à rassembler les différentes variantes flexionnelle et dérivationnelle d’un mot »
StemmersFiltreAnalyseurLucene
RechercheStemmerAnalyzer
Languages
StemFilter
FrenchStemmer
EnglishStemmerIndexation
8
II – AméliorationsStemmers (2/2) : Résultats
Stemmatisation d’une phrase (français)
Enter query: fonctionner Searching for: fonctionner Total frequency : 00 total matching documents
Enter query: fonctionner Searching for: fonction Occurences in : /Users/vincent/Desktop/docs/TestFrench.txt2 x fonctionFrequency : 2 Total frequency : 21 total matching documents
Stemmatisation sur une collection (anglais)
Occurrences exactes
Occurrences des mots stemmatisés
% de mots trouvés en plus
Documents matchés (sans stemmatisation)
Documents matchés avec stemmatisation
% de documents trouvés en plus
73 725 39190 53,1% 88 157 78,4%
9
Conclusion
QUELQUES DIFFICULTÉS RENCONTRÉES
Formation à Lucene
Choix des fonctionnalit
ésOrganisation du groupe
QUELQUES IDÉES D’AMÉLIORATIONS
Correcteur d’orthograp
he
Améliorations des
expressions régulières
Recherche contextuelle