Recherche Information Web PCEM2 Informatique médicale 2011-2012 Dr Marc CUGGIA.
-
Upload
edwige-lejeune -
Category
Documents
-
view
106 -
download
0
Transcript of Recherche Information Web PCEM2 Informatique médicale 2011-2012 Dr Marc CUGGIA.
Recherche Information Web
PCEM2 Informatique médicale2011-2012
Dr Marc CUGGIA
Principe de Fonctionnement Web
Modèle Client/serveur
Document est la plus petite unité fourni par le serveur
Réponse à une requête du client
Serveur Web
Programme qui tourne sur un ordinateur (Unix le plus souvent)
Réception des requêtes
Transmet documents à d'autres ordinateurs
Client Web (navigateur)
Programme qui permet à un utilisateur de soumettre des requêtes
Visualise les documents
Hypertext
Un fichier Hypertext est un fichier de texte normal
Contient des parties de texte associé à des "liens"
- soit vers d'autres parties du document
- soit vers d'autres documents /serveurs …
Localisés sur le même ordinateur
Ou bien vers un autre document sur un autre ordinateur sur le réseau
Point de départ d'un lien vers une ressource
Recherche sur Internet
Plusieurs centaines d’outils de recherche sur des informations ciblées à partir de questions
Recherche par Sujet (annuaire) Hiérarchies (Yahoo)
WAIS, Sélection de sources Indexation plein texte
Altavista, WebCrawler, Bing, Excite,Voilà …
Recherche sur Internet
Recherche par mots clés ou thésaurus Recherche sur tous les mots > 2 caractères Serveurs indexeurs
Indexation automatique du document Soit sur demande Altavista, Webcrawler, Infoseek, Lycos, Ecila, Lokace,
yahoo,voila... Interrogation par Opérateurs logique (et, ou, sauf) Problèmes
du bruit/silence les mêmes serveurs apparaissent plusieurs fois
Interrogation Base Documentaire
Documents pertinents
Documents extraits
Base Documentsrequêtes
Systèmes Information Documentaire
Recherche d’Information
Précision :
P = Nombre de documents pertinents extraits
Nombre de documents extraits
Bruit :B = Nombre de documents non pertinents extraits
Nombre de documents extraits
B = 1 - P
Recherche d’Information
Rappel :R = Nombre de documents pertinents extraits
Nombre de documents pertinents
Silence :S = Nombre de documents pertinents non extraits
Nombre de documents pertinents
S = 1 - R
Recherche d’Information
Annuaire : Construit manuellement Listes de sites sous ensemble correspondant a des rubriques
Rubriques : Actualités Enseignement .. Informatique et internet Science et technologie Sciences humaines Santé Sport
Recherche d’Information
Annuaire : Yahoo.com ou fr Deux modes d utilisation Hiérarchique : Rubrique , sous rubrique Listes de sites centrés sur thème recherché Recherche arborescente puis séquentielle
Recherche par mot clé : On obtient Rubriques Sites avec bref descriptif
Recherche d’Information
Avantages : Navigation guidée efficace Sites sélectionnés centrés sur thème recherché Recherche arborescente puis séquentielle
Inconvénients : Taille annuaire réduite (fonction du temps humain) On ne trouve que ce qui a été classé par gestionnaire annuaire Mise a jour limitée
Les Moteurs de Recherche
Développés pour rechercher dans les serveurs Web
Principe similaire à ceux de Wais :
- Recherche des documents sur tous les mots (>2 caractères) - Indexation des documents contenant des mots (anglais le plus
souvent) - Listes des documents avec URL - Requêtes plus sophistiquées (et, ou,non) - Rapatriement des documents eux-mêmes
Moteur Recherche d’Information
Méthodes Indexation par moteur qui passe sur toutes les pages web des sites Indexe sur tous les mots > 2 caractères Indexe nouvelles pages et contenus de maniere continue Pondère les documents recherchés
Recherche: Mot ou groupe de mots Opérations Logiques (ET OU SAUF) Classement des résultats : par fréquence (apparition des mots , visites
du site …)
Opérateurs Logiques
Opérateurs Logiques (Booléens)
a ET b a b a ET b V V V V F F F V F F F F
a OU b a b a OU b V V V V F V F V V F F F
NON a a NON a V F F V
Moteur Recherche d’Information
Google Indexation par moteur qui passe sur toutes les pages web des sites Ignore les articles, adverbes …. Ignore Majuscules Minuscules Par defaut ignore les accents …
Recherche: ET logique si plusieurs mots Exclusion de mots : SAUF (-) Ou (OR) Expression entre « » Forcer à chercher un mot +
Moteur Recherche d’Information
Google Plusieurs dizaines de milliards de pages en toutes les langues Temps de réponse tres rapide (<0.5S) Sélection des pages en fonction d une requete Classement avec algoritme declassement en fonction fréquence et de la popularité d une page Ignore Majuscules Minuscules Par defaut ignore les accents …
Recherche: ET logique si plusieurs mots Exclusion de mots : SAUF (-) Ou (OR) Expression entre « » Forcer à chercher un mot +
Moteur Recherche d’Information
Choix mot clésChoisir des nomsMots les plus probables dans pages recherchéesPrécis et brefMots concretsMots importants en TêteRechercher Phrases si possible
Ex: (sanglots longs des violons )
Limites : Pas de mots dérivés (canal mais pas canaux) Limite a 32 mots Ignore la ponctuation et signes spéciaux Favorise pâges avec mots dans le même ordre Etendre recherche fichier texte (.doc .pdf ..)
Moteur Recherche d’Information
GoogleMoteur le plus dynamiqueVariante géographique (google earth)On y trouve toujours quelquechoseVariante Scientifique (scholar)Cartes et lieu donné (Google Map)
Recherche Avancée: Limiter recherche a un site donné Langue donnée Base ou ensemble fichiers restreint Dans toute la page, le titre ,adresses Période donnée Selon le type de format de fichier Etendre recherche fichier texte (.doc .pdf ..)
Moteur Recherche d’Information
Google D’abord recherche de pages contenant tous les mots (ET)
Puis un mot en moins …puis 2 …au moins un Classement des Pages Présentation résultats
Classement selon algorithme (pageRanking )
Présentation résultatsD’abord les pages les plus consultéesNombre de liens pointant sur pagePages les plus « populaires d’abord
Moteur Recherche d’Information
Avantages : Requêtes simples ou complexes Index augmentent avec web Mise a jour continue et rapide Peu de silence
Inconvénients : Difficulté Choix des mots pour interrogation Difficulté pour nouveaux sites d’émerger On ne trouve que ce qui a été classé par les robots qui indexent sites
Bruit important