StatutLogiciel gratuit, sous license GPL Communauté dutilisateursImportante (université de Laval,...

22
Statut Logiciel gratuit, sous license GPL Communauté d’utilisateurs Importante (université de Laval, …) Quelques sites de référence utilisant le même moteur avec robot d'indexation : - Université de Laval Canada - Conseil du Trésor du Canada - La bibliothèque de l'Université de Berkeley - Direction de la Documentation Française... Nature Moteur de recherche Caractéristiques fonctionnelles Le « Moteur Automatisé de Recherche et de Classement Électronique des Liens » permet d’indexer, de référencer et de rechercher les ressources sur des sites internet présélectionnés. Il est totalement paramétrable car le code est Open Source. Caractéristiques techniques Basé sur Swish-e (Simple Web Indexing System for Humans – Enhanced) Système Windows ou Linux Travail en ligne de commande et par interface Perl. Url de téléchargement http://swish-e.org/ Url de documentation http://swish-e.org/ Fiche Veille Moteur M.A.R.C.E.L.

Transcript of StatutLogiciel gratuit, sous license GPL Communauté dutilisateursImportante (université de Laval,...

Page 1: StatutLogiciel gratuit, sous license GPL Communauté dutilisateursImportante (université de Laval, …) Quelques sites de référence utilisant le même moteur.

Statut Logiciel gratuit, sous license GPL

Communauté d’utilisateurs Importante (université de Laval, …)Quelques sites de référence utilisant le même moteur avec robot d'indexation :- Université de Laval Canada- Conseil du Trésor du Canada- La bibliothèque de l'Université de Berkeley- Direction de la Documentation Française...

Nature Moteur de recherche

Caractéristiquesfonctionnelles

Le « Moteur Automatisé de Recherche et de Classement Électronique des Liens » permet d’indexer, de référencer et de rechercher les ressources sur des sites internet présélectionnés. Il est totalement paramétrable car le code est Open Source.

Caractéristiquestechniques

Basé sur Swish-e (Simple Web Indexing System for Humans – Enhanced) Système Windows ou LinuxTravail en ligne de commande et par interface Perl.

Url de téléchargement http://swish-e.org/

Url de documentation http://swish-e.org/

Url du moteur MARCEL www.moteurmarcel.fr

FicheVeille

Moteur M.A.R.C.E.L.

Page 2: StatutLogiciel gratuit, sous license GPL Communauté dutilisateursImportante (université de Laval, …) Quelques sites de référence utilisant le même moteur.

Installation, paramétrage, tests

Niveau installateur Ingénieur expérimenté

Temps d’installation 3 jours (serveur linux, logiciel, site web)

Temps de paramétrage 30 jours pour 57 sites de l’UMVF

Programmation externe 20 jours de programmation pour les utilitaires complémentaires (mise en base de données, exploitation, mise en forme)

Rédaction 1 jour

InstallationVeille

Moteur M.A.R.C.E.L.

Page 3: StatutLogiciel gratuit, sous license GPL Communauté dutilisateursImportante (université de Laval, …) Quelques sites de référence utilisant le même moteur.

CISMEFCanal U MédecineCampus Anatomie PathologiqueCampus Biologie CellulaireCampus MicrobiologieCampus CancérologieCampus de Chirurgie Maxillo-faciale et StomatologieCampus HistologieCampus GériatrieCampus Hepato-Gastro-EntérologieCampus Médecine et Chirurugie vasculaireCampus DermatologieCampus GynécologieCampus HematologieCampus Médecine du TravailCampus NeurochirurgieCampus NeurologieCampus NutritionCampus OphtalmologieCampus ORLCollège Français des Enseignants ORL et CCFCampus Parasitologie-MycologieCampus Pédiatrie et Chirurgie PédiatriqueCampus RéanimationCampus RhumatologieCampus UrologieCampus Numérique Francophone de TunisUrgences onlineStaticmed

Université Claude Bernard - LyonUniversité Virtuelle Paris 5Université Virtuelle de Médecine du travailUniversité Paris VIFaculté de Médecine de BesançonBesancon-CardioUniversité de GrenobleUniversité Rennes 1Université de AngersUniversité de BrestUniversité de LimogesFaculté de Médecine AmiensOncoranetFaculté de Médecine de CaenFaculté de Médecine de Clermont-FerrandFaculté de Médecine de DijonFaculté Libre de Médecine de LilleFaculté de Médecine de Lille2Faculté de Médecine de MarseilleFaculté de Médecine de MontpellierFaculté de Médecine de NancyFaculté de Médecine Paris XI Kremlin BicetreFaculté de Médecine Paris XIIIFaculté de Médecine Paris OuestFaculté de Médecine de ReimsFaculté de Médecine de Rennes 1Faculté de Médecine de StrasbourgConférence Hippocrate

InstallationVeille

Moteur M.A.R.C.E.L.

Liste des sites paramétrés dans le moteur MARCEL

Page 4: StatutLogiciel gratuit, sous license GPL Communauté dutilisateursImportante (université de Laval, …) Quelques sites de référence utilisant le même moteur.

Mode opératoire

Nous avons réalisé le moteur MARCEL sous système Linux Debian.

1. Installation de base

Installation d’une configuration Linux Debian

Installation d’Apache 2

Installation php5

Installation swish-e : suivre la procédure fournie par « l’installateur de paquetage » de linux

Installation kcron : suivre la procédure fournie par « l’installateur de paquetage » de linux  

Installation des modules de conversion qui permettent en théorie d’indexer tout ce qui peut l’être : htlm, php, asp, doc, txt, pdf, ppt… : suivre la procédure fournie (exemple : xpdf pour pdf) Cette installation ne se fait qu’une fois

InstallationVeille

Moteur M.A.R.C.E.L.

Page 5: StatutLogiciel gratuit, sous license GPL Communauté dutilisateursImportante (université de Laval, …) Quelques sites de référence utilisant le même moteur.

InstallationVeille

Moteur M.A.R.C.E.L.

2. Paramétrage

Pour chacun des sites à indexer, sont créés trois fichiers de configuration :- site.conf

- site.config- Fichier autoexecutable à utiliser avec kcron pour automatiser le lancement de l’indexation selon le rythme choisi pour chaque site.

Ces fichiers sont regroupés dans des répertoires distincts.Exemple des répertoires contenants les fichiers site.conf et site.config

Page 6: StatutLogiciel gratuit, sous license GPL Communauté dutilisateursImportante (université de Laval, …) Quelques sites de référence utilisant le même moteur.

1. FICHIER SITE.CONF : pour chaque site à indexer

IndexDir spider.pl IndexName “Nom du site" IndexDescription “Description du site" IndexFile /var/www/site/index/nomdelindex.idx FilterDir /usr/local/share/doc/swish-e/examples/prog-bin/ SwishProgParameters site.config Metanames swishtitle swishdocpath FileFilter .doc /usr/bin/catdoc FileFilterMatch .ppt "/usr/bin/ppthtml" "'%p'" IndexReport 4 StoreDescription TXT* 10000 StoreDescription HTML* <body> 10000

InstallationVeille

Moteur M.A.R.C.E.L.

Page 7: StatutLogiciel gratuit, sous license GPL Communauté dutilisateursImportante (université de Laval, …) Quelques sites de référence utilisant le même moteur.

2. FICHIER SITE.CONFIG : pour chaque site à indexer

my ($filter_sub, $response_sub) = swish_filter(); @servers = ( { base_url => 'http://www.adressedusite.com/',

email => '[email protected]', use_default_config => 1, max_depth => 5, test_response => $response_sub, use_head_requests => 1, # Due to the response sub filter_content => $filter_sub, });

InstallationVeille

Moteur M.A.R.C.E.L.

Page 8: StatutLogiciel gratuit, sous license GPL Communauté dutilisateursImportante (université de Laval, …) Quelques sites de référence utilisant le même moteur.

InstallationVeille

Moteur M.A.R.C.E.L.

3. Création d’un fichier AUTOEXECUTABLE pour lancer l’indexation automatiquement avec kcron :

Cet auto-executable permettra le lancement automatique de site.config, x fois par jour ou par mois, en fonction du taux de renouvellement des ressources et de contrôle des liens cassés.

Page 9: StatutLogiciel gratuit, sous license GPL Communauté dutilisateursImportante (université de Laval, …) Quelques sites de référence utilisant le même moteur.

4. Utilisation des données par l’UMVF

Plusieurs milliers de ressources ont été obtenues sur les sites facultaires de médecine par le technicien de l’UMVF en se servant du moteur.Ces données ont été transférées à Rouen.

Cela a supposé des programmes complémentaires concernant :- l’extraction des données d’une recherche avec le moteur- l’importation de ces données dans une base de données MySQL- la réalisation d’une console d’administration de la base de donnée

A partir de cette console, il est possible de trier, rajouter des informations, supprimer des données, …

InstallationVeille

Moteur M.A.R.C.E.L.

Ce logiciel propriétaire Php a été développé pour l’umvf (20 jours). Il est couplé à une banque de données MySql. Cet ensemble a été installé sur le serveur Marcel.

Items de la base de données :Titre Url(s) Auteur(s) Site éditeur Contenu Langue(s) Pays/Ville Professionnnels Etudiants :

- Cycle(s)2; 3; - Annee(s)Externat, Résidanat et Internat de Médecine; - Diplome(s);- Module(s)Toutes spécialités médicales;

Discipline(s) Mot(s) clé(s) Type(s) de ressource Tarif Accès Format(s) Date de création (ou révision majeure) Date de mise à jour

Logiciels complémentaires

Page 10: StatutLogiciel gratuit, sous license GPL Communauté dutilisateursImportante (université de Laval, …) Quelques sites de référence utilisant le même moteur.

On recueille donc autant de fichiers index- que de robots- que de sites explorés

Ces fichiers index sont hébergés sur le serveur.

Environ 150 Mo sont nécessairespour une trentaine de sites.

VeilleMoteur M.A.R.C.E.L. Exploitation

Le robot, après avoirindexé le serveur dedocuments de Rennes1,a référencé 394291 mots en 1mn31 !

Page 11: StatutLogiciel gratuit, sous license GPL Communauté dutilisateursImportante (université de Laval, …) Quelques sites de référence utilisant le même moteur.

VeilleMoteur M.A.R.C.E.L. Exploitation

www.moteurmarcel.fr

Page 12: StatutLogiciel gratuit, sous license GPL Communauté dutilisateursImportante (université de Laval, …) Quelques sites de référence utilisant le même moteur.

VeilleMoteur M.A.R.C.E.L. Exploitation

Page type de résultats

Page 13: StatutLogiciel gratuit, sous license GPL Communauté dutilisateursImportante (université de Laval, …) Quelques sites de référence utilisant le même moteur.

terme « médecine » : - 1887 réponses - 0.009 secondes de recherche sur le serveur- 0.635 secondes pour ramener le résultat au demandeur

* test réalisé sur un ordinateur portable connecté par wifi à une connexion ADSL 10Mo

VeilleMoteur M.A.R.C.E.L. Exploitation

Un résultat parmi d’autres

Page 14: StatutLogiciel gratuit, sous license GPL Communauté dutilisateursImportante (université de Laval, …) Quelques sites de référence utilisant le même moteur.

Commentaires – intérêt pour l’umvf

Intérêt majeur : Maîtrise complète d’une solution d’indexation et de recherche, dont l’UMVF est entièrement propriétaire.

1) Technologie de moteur de recherche maîtrisée de A à Z par l’UMVF.

2) Possibilité de programmer les robots finement (on peut demander au robot de n’indexer qu’une partie d’un site, alors que nous ne maîtrisons pas les robots d’indexation dans des solutions type Google Custom Search Engine.

3) Sensibilité et Spécificité très importante des réponses (réglable).

4) Moteur puissant, fiable, évolutif en fonction des besoins et de la programmation des robots.

5) Interface entièrement paramétrable.

6)Critères de classement des résultats paramétrable : création d’un script qui recueille les requêtes les plus fréquentes sur les différents sites de l’UMVF afin de l’intégrer au script qui établie le « ranking ».

7) Indexation individualisée pour chaque site. Possibilité de créer des groupes de recherche (par faculté, par campus, par thème par exemple).

VeilleMoteur M.A.R.C.E.L.

Page 15: StatutLogiciel gratuit, sous license GPL Communauté dutilisateursImportante (université de Laval, …) Quelques sites de référence utilisant le même moteur.

Annexes techniques

VeilleMoteur M.A.R.C.E.L.

Page 16: StatutLogiciel gratuit, sous license GPL Communauté dutilisateursImportante (université de Laval, …) Quelques sites de référence utilisant le même moteur.

Fichier de configuration d’un robot d’indexation.

A noter ici la possibilité de demander au robot d’explorer certaines adresses à des niveaux plus ou moins profonds.

VeilleMoteur M.A.R.C.E.L. Annexes

Page 17: StatutLogiciel gratuit, sous license GPL Communauté dutilisateursImportante (université de Laval, …) Quelques sites de référence utilisant le même moteur.

Fichier de configuration d’un robot.

A noter la possibilité d’ignorer ou de référencer certains types de documents.

VeilleMoteur M.A.R.C.E.L. Annexes

Page 18: StatutLogiciel gratuit, sous license GPL Communauté dutilisateursImportante (université de Laval, …) Quelques sites de référence utilisant le même moteur.

Un robot en train d’indexer le campus de Rhumatologie à Lilles

VeilleMoteur M.A.R.C.E.L. Annexes

Page 19: StatutLogiciel gratuit, sous license GPL Communauté dutilisateursImportante (université de Laval, …) Quelques sites de référence utilisant le même moteur.

Le robot après avoir indexé le serveur de documents de Rennes1.

A noter qu’il a référencé 394291 mots en 1mn31 !

VeilleMoteur M.A.R.C.E.L. Annexes

Page 20: StatutLogiciel gratuit, sous license GPL Communauté dutilisateursImportante (université de Laval, …) Quelques sites de référence utilisant le même moteur.

Fréquence des mises à jour

• Une mise à jour complète prend moins de deux heures• Possibilité d’élaborer un script

- pour une mise à jour automatique- pour une mise à jour en fonction de l’arrivée de nouvelles informations

• Possibilité d’indexer tout en permettant les recherches simultanément• Le système « butine » l’ensemble de l’UMVF, ce qu’aucun humain ne peut faire aussi rapidement et

régulièrement.

VeilleMoteur M.A.R.C.E.L. Annexes

Page 21: StatutLogiciel gratuit, sous license GPL Communauté dutilisateursImportante (université de Laval, …) Quelques sites de référence utilisant le même moteur.

VeilleMoteur M.A.R.C.E.L.

Tri de l’information (1)

• Algorythme modifiable• Actuellement :

- fréquence d’apparition du mot dans le texte- RANK_TITLE 7 - RANK_HEADER 5- RANK_META 3 - RANK_COMMENTS 1

• META : SCORM +++

<html><head><title>UMVF : Universit&eacute; M&eacute;dicale Virtuelle Francophone</title><meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1"><meta name="keywords" content="UMVF, université, universite, médicale, medicale, virtuelle, francophone, université médicale, universite medicale, université médicale virtuelle, universite medicale virtuelle, université médicale virtuelle francophone, universite medicale virtuelle francophone, examen classant national, ECN, formation médicale, formation medicale, formation médicale continue, formation medicale continue, campus numérique, campus numerique, ressources numériques, ressources numeriques, campus virtuel, campus médical, campus medical, enseignement médical, enseignement medical"><meta name="description" lang="fr" content="UMVF, Université Médicale Virtuelle Francophone, utilise les outils numériques pour la formation initiale, tournée vers l’Examen Classant National, ou continue des professionnels de santé."><meta name="robots" content="all">………

Annexes

Page 22: StatutLogiciel gratuit, sous license GPL Communauté dutilisateursImportante (université de Laval, …) Quelques sites de référence utilisant le même moteur.

• Possibilité simple de retrouver facilement l’information :RENSEIGNER LE TITRE +++

<title>Faculté , Titre du document, Module… </title>• Possibilité plus complexe : Utiliser des metas

<meta name="auteur" content=“Spector" /><meta name=“SCORM" content=“123-234" />

• Adhésion des webmestres +++

VeilleMoteur M.A.R.C.E.L.

Tri de l’information (2)

Tri de l’information (3)

Le must : créer un script qui recueille les requêtes les plus fréquentes sur les différents sites de l’UMVF afin de l’intégrer au script qui établie le « ranking ».

Le moteur de recherche de l’UMVF serait assez similaire à Google !!!

Tri de l’information (4)

Le must : créer un script qui recueille les requêtes les plus fréquentes sur les différents sites de l’UMVF afin de l’intégrer au script qui établie le « ranking ».

Le moteur de recherche de l’UMVF serait assez similaire à Google !!!

On peut également créer un script qui classe les documents en fonction de l’intérêt signalé par les utilisateurs de l’adaptation d’une ressource à leurs besoins (de 1 à 4 étoiles).

Annexes