Recherche Information Web PCEM2 Informatique médicale 2011-2012 Dr Marc CUGGIA.

22
Recherche Information Web PCEM2 Informatique médicale 2011-2012 Dr Marc CUGGIA

Transcript of Recherche Information Web PCEM2 Informatique médicale 2011-2012 Dr Marc CUGGIA.

Page 1: Recherche Information Web PCEM2 Informatique médicale 2011-2012 Dr Marc CUGGIA.

Recherche Information Web

PCEM2 Informatique médicale2011-2012

Dr Marc CUGGIA

Page 2: Recherche Information Web PCEM2 Informatique médicale 2011-2012 Dr Marc CUGGIA.

Principe de Fonctionnement Web

Modèle Client/serveur

Document est la plus petite unité fourni par le serveur

Réponse à une requête du client

Serveur Web

Programme qui tourne sur un ordinateur (Unix le plus souvent)

Réception des requêtes

Transmet documents à d'autres ordinateurs

Client Web (navigateur)

Programme qui permet à un utilisateur de soumettre des requêtes

Visualise les documents

Page 3: Recherche Information Web PCEM2 Informatique médicale 2011-2012 Dr Marc CUGGIA.

Hypertext

Un fichier Hypertext est un fichier de texte normal

Contient des parties de texte associé à des "liens"

- soit vers d'autres parties du document

- soit vers d'autres documents /serveurs …

Localisés sur le même ordinateur

Ou bien vers un autre document sur un autre ordinateur sur le réseau

Point de départ d'un lien vers une ressource

Page 4: Recherche Information Web PCEM2 Informatique médicale 2011-2012 Dr Marc CUGGIA.

Recherche sur Internet

Plusieurs centaines d’outils de recherche sur des informations ciblées à partir de questions

Recherche par Sujet (annuaire) Hiérarchies (Yahoo)

WAIS, Sélection de sources Indexation plein texte

Altavista, WebCrawler, Bing, Excite,Voilà …

Google

Page 5: Recherche Information Web PCEM2 Informatique médicale 2011-2012 Dr Marc CUGGIA.
Page 6: Recherche Information Web PCEM2 Informatique médicale 2011-2012 Dr Marc CUGGIA.

Recherche sur Internet

Recherche par mots clés ou thésaurus Recherche sur tous les mots > 2 caractères Serveurs indexeurs

Indexation automatique du document Soit sur demande Altavista, Webcrawler, Infoseek, Lycos, Ecila, Lokace,

yahoo,voila... Interrogation par Opérateurs logique (et, ou, sauf) Problèmes

du bruit/silence les mêmes serveurs apparaissent plusieurs fois

Page 7: Recherche Information Web PCEM2 Informatique médicale 2011-2012 Dr Marc CUGGIA.

Interrogation Base Documentaire

Documents pertinents

Documents extraits

Base Documentsrequêtes

Systèmes Information Documentaire

Page 8: Recherche Information Web PCEM2 Informatique médicale 2011-2012 Dr Marc CUGGIA.

Recherche d’Information

Précision :

P = Nombre de documents pertinents extraits

Nombre de documents extraits

Bruit :B = Nombre de documents non pertinents extraits

Nombre de documents extraits

B = 1 - P

Page 9: Recherche Information Web PCEM2 Informatique médicale 2011-2012 Dr Marc CUGGIA.

Recherche d’Information

Rappel :R = Nombre de documents pertinents extraits

Nombre de documents pertinents

Silence :S = Nombre de documents pertinents non extraits

Nombre de documents pertinents

S = 1 - R

Page 10: Recherche Information Web PCEM2 Informatique médicale 2011-2012 Dr Marc CUGGIA.
Page 11: Recherche Information Web PCEM2 Informatique médicale 2011-2012 Dr Marc CUGGIA.

Recherche d’Information

Annuaire : Construit manuellement Listes de sites sous ensemble correspondant a des rubriques

Rubriques : Actualités Enseignement .. Informatique et internet Science et technologie Sciences humaines Santé Sport

Page 12: Recherche Information Web PCEM2 Informatique médicale 2011-2012 Dr Marc CUGGIA.

Recherche d’Information

Annuaire : Yahoo.com ou fr Deux modes d utilisation Hiérarchique : Rubrique , sous rubrique Listes de sites centrés sur thème recherché Recherche arborescente puis séquentielle

Recherche par mot clé : On obtient Rubriques Sites avec bref descriptif

Page 13: Recherche Information Web PCEM2 Informatique médicale 2011-2012 Dr Marc CUGGIA.

Recherche d’Information

Avantages : Navigation guidée efficace Sites sélectionnés centrés sur thème recherché Recherche arborescente puis séquentielle

Inconvénients : Taille annuaire réduite (fonction du temps humain) On ne trouve que ce qui a été classé par gestionnaire annuaire Mise a jour limitée

Page 14: Recherche Information Web PCEM2 Informatique médicale 2011-2012 Dr Marc CUGGIA.

Les Moteurs de Recherche

Développés pour rechercher dans les serveurs Web

Principe similaire à ceux de Wais :

- Recherche des documents sur tous les mots (>2 caractères) - Indexation des documents contenant des mots (anglais le plus

souvent) - Listes des documents avec URL - Requêtes plus sophistiquées (et, ou,non) - Rapatriement des documents eux-mêmes

Page 15: Recherche Information Web PCEM2 Informatique médicale 2011-2012 Dr Marc CUGGIA.

Moteur Recherche d’Information

Méthodes Indexation par moteur qui passe sur toutes les pages web des sites Indexe sur tous les mots > 2 caractères Indexe nouvelles pages et contenus de maniere continue Pondère les documents recherchés

Recherche: Mot ou groupe de mots Opérations Logiques (ET OU SAUF) Classement des résultats : par fréquence (apparition des mots , visites

du site …)

Page 16: Recherche Information Web PCEM2 Informatique médicale 2011-2012 Dr Marc CUGGIA.

Opérateurs Logiques

Opérateurs Logiques (Booléens)

a ET b a b a ET b V V V V F F F V F F F F

a OU b a b a OU b V V V V F V F V V F F F

NON a a NON a V F F V

Page 17: Recherche Information Web PCEM2 Informatique médicale 2011-2012 Dr Marc CUGGIA.

Moteur Recherche d’Information

Google Indexation par moteur qui passe sur toutes les pages web des sites Ignore les articles, adverbes …. Ignore Majuscules Minuscules Par defaut ignore les accents …

Recherche: ET logique si plusieurs mots Exclusion de mots : SAUF (-) Ou (OR) Expression entre «  » Forcer à chercher un mot +

Page 18: Recherche Information Web PCEM2 Informatique médicale 2011-2012 Dr Marc CUGGIA.

Moteur Recherche d’Information

Google Plusieurs dizaines de milliards de pages en toutes les langues Temps de réponse tres rapide (<0.5S) Sélection des pages en fonction d une requete Classement avec algoritme declassement en fonction fréquence et de la popularité d une page Ignore Majuscules Minuscules Par defaut ignore les accents …

Recherche: ET logique si plusieurs mots Exclusion de mots : SAUF (-) Ou (OR) Expression entre «  » Forcer à chercher un mot +

Page 19: Recherche Information Web PCEM2 Informatique médicale 2011-2012 Dr Marc CUGGIA.

Moteur Recherche d’Information

Choix mot clésChoisir des nomsMots les plus probables dans pages recherchéesPrécis et brefMots concretsMots importants en TêteRechercher Phrases si possible

Ex: (sanglots longs des violons )

Limites : Pas de mots dérivés (canal mais pas canaux) Limite a 32 mots Ignore la ponctuation et signes spéciaux Favorise pâges avec mots dans le même ordre Etendre recherche fichier texte (.doc .pdf ..)

Page 20: Recherche Information Web PCEM2 Informatique médicale 2011-2012 Dr Marc CUGGIA.

Moteur Recherche d’Information

GoogleMoteur le plus dynamiqueVariante géographique (google earth)On y trouve toujours quelquechoseVariante Scientifique (scholar)Cartes et lieu donné (Google Map)

Recherche Avancée: Limiter recherche a un site donné Langue donnée Base ou ensemble fichiers restreint Dans toute la page, le titre ,adresses Période donnée Selon le type de format de fichier Etendre recherche fichier texte (.doc .pdf ..)

Page 21: Recherche Information Web PCEM2 Informatique médicale 2011-2012 Dr Marc CUGGIA.

Moteur Recherche d’Information

Google D’abord recherche de pages contenant tous les mots (ET)

Puis un mot en moins …puis 2 …au moins un Classement des Pages Présentation résultats

Classement selon algorithme (pageRanking )

Présentation résultatsD’abord les pages les plus consultéesNombre de liens pointant sur pagePages les plus « populaires d’abord

Page 22: Recherche Information Web PCEM2 Informatique médicale 2011-2012 Dr Marc CUGGIA.

Moteur Recherche d’Information

Avantages : Requêtes simples ou complexes Index augmentent avec web Mise a jour continue et rapide Peu de silence

Inconvénients : Difficulté Choix des mots pour interrogation Difficulté pour nouveaux sites d’émerger On ne trouve que ce qui a été classé par les robots qui indexent sites

Bruit important