Chapitre 3

8

Click here to load reader

description

cvbn,;

Transcript of Chapitre 3

Page 1: Chapitre 3

Chapitre 3 : Les Moteurs de Recherches (MdR)

Université Cadi Ayyad,

Septembre 2012

Introduction

Qu'est ce qu'un Moteur de Recherche (MdR) Fonctionnement d'1 MdR Les critères de tri Exemples de requêtes Quelques Exemples de MdR Fonctions supplémentaires des MdR Types particuliers de MdR Outils similaires

Qu'est ce qu'un Moteur de Recherche (MdR)

Questions Qu'est ce qu'un moteur de recherche ? programme, site web,

base de données...! Quand on lance une recherche, est ce que l'opération de

recherche s'effectue sur tout le net ou est ce qu'elle s'effectue sur une machine ?

Est-il possible de chercher des pages web en en évitant d'autres ?

Définition:MdR

Un Moteur de Recherche (MdR) est un programme permettant de retrouver des ressources (pages web, images, vidéo et autres fichiers) associées à des mots clés, sur le net.

Toutes les ressources sont proposées via des pages web.

Remarque:

Certains sites Web offrent un MdR comme principale fonction ; le site est appelé moteur de recherche (On confond alors programme et site web).

Attention:

Les MdR que nous utilisons sont syntaxiques ( on s'intéresse à la forme et non au sens).

En effet, supposons que je cherche des pages web de soutien des palestiniens. Je soumet à un MdR l'expression «soutien des palestiniens »

Page 2: Chapitre 3

Est-ce que je vais avoir seulement des pages de soutien des palestiniens ?

Non, car la recherche est syntaxique et non sémantique. Je peux avoir des pages qui contiennent le texte « le soutient des palestinien est interdit »

Fonctionnement d'1 MdRUn MdR a trois fonctions principales :

Exploration du Web à la recherche de nouvelles pages web. Indexation des pages web trouvées. Réponses aux requêtes soumises par les internautes.

Exploration du WebEL'exploration du Web à la recherche de nouvelles ressources. Cette tache est effectuée par programme appelé robot d'indexation qui suit de façon récursive tous les hyperliens qu'il trouve et récupére les ressources jugées intéressantes.

L'indexationL'indexation des ressources trouvées consiste à extraire les mots considérés comme significatifs dans celle-ci. Les mots extraits sont enregistrés dans une base de données organisée comme l'index d'un ouvrage. Les termes non significatifs s'appellent des mots vides.

Schématisation de l'indexation d'un MdR

Réponses aux requêtesLe MdR fournit des réponses aux requêtes soumises par les internautes. Il faut retenir que :

Page 3: Chapitre 3

La présentation des résultats se fait selon un tri automatique qui diffère d'un MdR à l'autre.

Le but du classement est l'affichage des 10 à 20 premières pages web qui répondent le mieux à la requête.

Rappel:

Une requête est une commande d'extraction de données dans une base de données. Elle peut utiliser des opérateurs logiques et les mots-clés comme paramètres.

Remarque:

Si, dans les premières pages, on ne trouve pas ce que l'on cherche, il faut reformuler sa question.

Les critères de triLes critères de tri varient selon le moteurs. En voici certains :

Le tri par pertinence. Le tri par popularité.

Le tri par pertinence.permet d'afficher les résultats d'une requête selon un ordre déterminé par le calcul d'un score pour chaque réponse.

La pertinence est basée sur cinq facteurs :

Le poids d'un mot dans le document : il est déterminé par sa place dans le document, il est maximum pour le titre et le début du texte. A l'intérieur il est plus important si le mot est en majuscule.

Le poids d'un mot dans la base : il est basé sur la fréquence d'occurrence pour toute la base de données.

la densité : basée sur la fréquence d'occurrence ou d'apparition dans un document par rapport à la taille du document. Si 2 documents contiennent le même nombre d'occurrence, le document le plus petit sera favorisé.

La correspondance d'expression : basée sur la similarité entre l'expression de la question et celle correspondante dans un document. Un document contenant une expression identique a celle de la question reçoit le poids le plus élevé.

La relation de proximité : basée sur la proximité des termes de la question entre eux dans le document. Les termes proches sont favorisés.

Le tri par popularité :permet d'afficher les résultats d'une requête selon un ordre déterminé par le calcul d'un score pour chaque réponse.

La popularité est basée sur deux facteurs :

La méthode basée sur la co-citation : Elle consiste à classer les pages grâce à la combinaison de plusieurs facteurs dont le

Page 4: Chapitre 3

plus important est PageRank ( Coefficient de valorisation d'une page Web).

La méthode basée sur la mesure d'audience : permet un tri de pages en fonction du nombre de visites qu' elles reçoivent.

Exemples de requêtes

Exemples de requêtes

Actions Requêtes Caractéristiques

Les pages qui contiennent l'expression "la santé publique"

"la santé publique"expression = guillemets

Les fichiers pdf qui contiennent " intégrales "

Intégrales filetype:pdf fichier = filetype

Les pages web qui contiennent “SMA“ dont l'adresse contient "ac.ma"

SMA (site : " ac.ma ") page web = site :

Les pages qui contiennent " intégrales " ou " doubles "

Intégrales doubles ou = espace

Les pages qui contiennent " intégrales " ou " doubles " sans contenir le mot " triples "

Intégrales doubles -triples

ou = espace

sans = signe moins

Les pages qui contiennent " intégrales " ou " doubles " sans contenir les mots" triples “ et " multiples "

Intégrales doubles -triples -multiples

ou = espace

sans = signe moins

Quelques Exemples de MdR

Pour chercher une information sur le Web, plusieurs MdR peuvent être utilisés, voici les plus importants :

Page 5: Chapitre 3

MdR recommandés sur FireFox

Exemple:Exemples de requêtes sur GoogleGoogle trie les pages trouvées en fonction du nombre de liens qui pointent vers elles.

Les images suivantes montrent le résultats de quelques requêtes sur le MdR "GOOGLE"

Galerie d'images montrant quelques requêtes sur Google

Fonctions supplémentaires des MdR

Le correcteur orthographique il permet de corriger les erreurs introduites dans les mots de la requête.

Le lemmatiseuril permet de réduire les mots recherchés à leur lemme et ainsi d'étendre leur portée de recherche.

Page 6: Chapitre 3

L'anti dictionnaireIl est utilisé pour supprimer à la fois dans l'index et dans les requêtes tous les mots "vides" (tels que "de", "le", "la") qui sont non discriminants et perturbent le score de recherche en introduisant du bruit.

Types particuliers de MdRMéta-moteursCe sont des MdR qui interrogent en plus de leur propre base de données celles de plusieurs MdR simultanément et donnent une synthèse.

Exemple : Ixquick, Scroogle et seek.

Multi-moteursCe sont des MdR proposant un ou plusieurs formulaires permettant d'interroger plusieurs moteurs à la fois.

Exemple : A9.com, Alpha de Yahoo! Hotbot de Lycos, ...

Outils similaires

AnnuairesLes annuaires appelés également "catalogues" recensent les meilleurs sites. Ces sites sont ensuite triés par catégorie selon un classement thématique arborescent.

A l'opposé des MdR le tri est fait par des personnes et non de façon automatique. On accède au thème recherché par une série de rubriques et sous rubriques de plus en plus précises.

Les sites invisibles Le web invisible (deep web, hidden web) est un ensemble de

documents (textes, vidéos, images...) mal indexés par les moteurs de recherche traditionnels.

Les documents constituant le Web invisible peuvent être dynamiques : Non localisables, non référencés (volontairement ou non), ou de nature non indexable (ex. : les animations Flash , javascripts.). Le web invisible est vaste puisque selon les estimations, les meilleurs moteurs n'indexent que 3 à 10% du web !

Navigation : |