Moteurs de recherche : sortir de Google

38
Approfondissement des moteurs de recherche : “SORTIR” DE GOOGLE ... Stage URFIST de Rennes 18 novembre 2008 Marie-Laure Malingre Alexandre Serres

description

 

Transcript of Moteurs de recherche : sortir de Google

Page 1: Moteurs de recherche : sortir de Google

Approfondissement des moteurs de recherche :

“SORTIR” DE GOOGLE ...

Stage URFIST de Rennes18 novembre 2008

Marie-Laure Malingre Alexandre Serres

Page 2: Moteurs de recherche : sortir de Google

© URFIST de Rennes, 2008 2

PRESENTATION du stage

Intro. : pourquoi sortir de Google ?

1/ Des ressources pour se former et s’informer

2/ Fonctionnement et typologies des moteurs de recherche

3/ Explorations de différents types de moteurs

Page 3: Moteurs de recherche : sortir de Google

© URFIST de Rennes, 2008 3

En introduction 4 raisons (au moins !) de sortir de

Google : Briser le monopole « googléen » :

Cf le Baromètre de S2M Résister à la « googlisation » des usages :

Nécessaire diversification des usages, des pratiques, des outils…

Adapter les outils aux besoins : Intérêt des outils spécialisés

Suivre l’innovation technique des moteurs :

Nombreux outils très innovants

Page 4: Moteurs de recherche : sortir de Google

© URFIST de Rennes, 2008 4

1/ Des ressources pour se former et s’informer

Difficultés de la veille sur les outils de recherche : Rapidité des innovations Surabondance des sources

Mais remèdes dans les outils eux-mêmes : Fils RSS, portail Netvibes, blogs…

Deux ressources de l’URFIST de Rennes Sélection de ressources sur les outils de rec

herche Le portail Netvibes de l’URFIST de Rennes

Page 5: Moteurs de recherche : sortir de Google

© URFIST de Rennes, 2008 5

2.1 Fonctionnement des moteurs de recherche

Source : R. Viseur, CETIC

Page 6: Moteurs de recherche : sortir de Google

© URFIST de Rennes, 2008 6

2.1 Fonctionnement… : la collecte des données

Le crawl = parcours de la toile par les moteurs pour aspirer les pages de sites

Plusieurs modalités d’exploration du web : soumission manuelle par les webmestres, référencement

payant sélection des meilleurs sites explorations aléatoires

Etendue, profondeur de la collecte : Parcours des liens (horizontaux/ verticaux) différences entre les moteurs dans l’exploration des sites importance de la taille des fichiers : nbre d’octets pris en compte

Paramétrages du robot : Nature des fichiers collectés : recul du « web invisible » Délai de prise en charge (soumission manuelle) : de 1 jour à 6

semaines Rythme de surveillance : « rafraîchissement » de l’index (de 2

à 8 semaines) Variable en fonction du type d’information

Evolution : du batch crawling au crawler incrémental

Page 7: Moteurs de recherche : sortir de Google

© URFIST de Rennes, 2008 7

2.1 Fonctionnement… : l’indexation des données

Deux grandes méthodes d'analyse dans l'indexation automatisée :

analyse linguistique : fondée sur la reconnaissance des mots

analyse statistique : fondée sur la fréquence des mots

4 niveaux d'analyse linguistique du texte intégral:

niveau morphologique : reconnaissance du mot niveau lexical : réduction du mot à sa forme

canonique > lemmatisation niveau syntaxique : utilisation de la grammaire niveau sémantique : reconnaissance des concepts

Page 8: Moteurs de recherche : sortir de Google

© URFIST de Rennes, 2008 8

2.1 Fonctionnement… : l’indexation des données

Principale méthode d’indexation automatisée : traitement statistique des mots

Indexation fondée sur calcul de fréquence d’apparition des mots dans un texte : les occurrences

Postulat : si l'indice de fréquence d'un mot est supérieur à

son indice moyen, il doit s'agir d'un mot-clé pertinent, décrivant bien le sujet du texte.

Principale méthode d’indexation sur le web

Page 9: Moteurs de recherche : sortir de Google

© URFIST de Rennes, 2008 9

2.1 Fonctionnement… : la gestion des requêtes et des résultats

Partie visible du moteur de recherche ; trois grandes fonctions :

gestion des requêtes : fonctions de recherche en mode simple et avancé,

différentes options de filtrage, affinement... gestion des résultats :

quels critères de classement ? question des critères de pertinence

gestion de la présentation des résultats :

Listes, cartographie, aperçu graphique…

Page 10: Moteurs de recherche : sortir de Google

© URFIST de Rennes, 2008 10

2.1 Fonctionnement… : la gestion des requêtes

Fonction la plus répandue : nombreuses possibilités de filtrage géographique du web : mondial, francophone linguistique : choix de la langue des ressources des types de ressources : images, audio… des ressources internet : web, forum,

messagerie, weblogs des formats : HTML, PDF, DOC, PPT, XLS, RTF… des dates : nombreuses options des champs : titre, URL, host, domaine… thématique : choix du domaine de recherche

Page 11: Moteurs de recherche : sortir de Google

© URFIST de Rennes, 2008 11

2.1 Fonctionnement… : la gestion des résultats

Enjeux du « relevance ranking », du classement des résultats selon leur pertinence

Trois grandes méthodes de classement : tri par indice de pertinence : calculs

statistiques sur la fréquence des termes…

tri par popularité : indice de popularité tri par catégorisation : calcul

dynamique de catégories

Page 12: Moteurs de recherche : sortir de Google

© URFIST de Rennes, 2008 12

2.1 Fonctionnement… la gestion des résultats : l’indice de pertinence

Principes : classement des résultats fondé sur la fréquence

d’apparition et la localisation des termes de la requête dans une page web

affichage des résultats à partir du calcul d’un score pour chaque réponse :

Ex. : Requête sur le marché des DVD en France : +marché +DVD +France

> retourne les documents contenant tous les mots de la requête >> documents contenant le plus de fois les mots de la requête

classés en premier Utilisation :

première méthode de classement utilisée sur le web, la plus répandue ;

Problèmes : détournement par le spamdexing

Page 13: Moteurs de recherche : sortir de Google

© URFIST de Rennes, 2008 13

2.1 Fonctionnement… la gestion des résultats : l’indice de popularité

Principes, origines : Utilisation de la nature hypertextuelle du web :

prise en compte des liens entre sites, considérés comme des liens de parenté sémantique

calcul de la notoriété d’un site en fonction du nombre de liens pointant vers le site

Utilisation : indice de popularité lancé par Google en 98

originalité et succès de Google et de son PageRank Avantages de l’indice de popularité :

renforcement de la pertinence réduction du spamdexing

Page 14: Moteurs de recherche : sortir de Google

© URFIST de Rennes, 2008 14

2.1 Fonctionnement… la gestion des résultats : la catégorisation automatique

Technologies plus complexes ; domaine d’innovations avancées des moteurs :

cf Exalead, Grokker, certains métamoteurs Principes :

organisation en temps réel d’un lot de résultats pour donner possibilité d’affiner ou étendre la requête

répartition des documents dans des catégories Intérêt pour la recherche :

aide à la sélection d’un mot-résultat aide à l’élimination des corrélations

inintéressantes, suggestion d’idées et de pistes nouvelles

enjeu essentiel : mise en ordre du « chaos informationnel

Page 15: Moteurs de recherche : sortir de Google

© URFIST de Rennes, 2008 15

2.2 Typologies des moteurs de recherche

Difficultés des typologies Quatre grandes catégories de critères :

L’offre des ressources : Moteurs généralistes / spécialisés

Diversité des spécialisations L’implication des internautes :

Moteurs participatifs : collaboratifs, personnalisables…

Le mode d’indexation des données : Moteurs morpho-syntaxiques, sémantiques…

La présentation des résultats : Moteurs linéaires, visuels, cartographiques…

Imbrication des critères

Page 16: Moteurs de recherche : sortir de Google

© URFIST de Rennes, 2008 16

2.2 Typologies des moteurs de recherche : l’offre des ressources

Critère : type de ressources collectées Distinction principale :

Moteurs généralistes : G., Yahoo, Exalead, Ask, Live Search…

caractéristique historique des grands moteurs : collecte et indexation de tous les types de ressources

Moteurs spécialisés : Tendance lourde des moteurs :

Modules spécialisés à l’intérieur des moteurs généralistes

Infinité des types de spécialisations Explosion du nombre d’outils

Page 17: Moteurs de recherche : sortir de Google

© URFIST de Rennes, 2008 17

2.2 Typologies… L’offre des ressources : diversité des spécialisations

Choix retenu pour l’exploration : 3 critères de spécialisations :

Selon les ressources internet : Moteurs de blogs, de forums, de listes de diffusion,

de FAQ, de wikis, de fils RSS… Selon la nature du contenu :

Moteurs scientifiques, d’actualité, de personnes, de produits…

Selon la nature du média : Moteurs d’images, de vidéos, de podcasts, de

photos.. Autres critères possibles : langue,

géographie, domaine thématique…

Page 18: Moteurs de recherche : sortir de Google

© URFIST de Rennes, 2008 18

2.2 Typologies… : l’implication des internautes

Difficultés de caractérisation du critère, très récent : Intégration des aspects « web 2.0 » dans les moteurs

Critère principal : aspect « social » des moteurs de recherche

Degré, nature, modalités… d’implication des internautes dans le moteur de recherche

Trois types présentés : Moteurs collaboratifs : Wikia Moteurs personnalisables : Yahoo Search Building Moteurs « sociaux » : Baagz

Tendance de développement des moteurs très importante : enjeux économiques, image des outils…

Page 19: Moteurs de recherche : sortir de Google

© URFIST de Rennes, 2008 19

2.2 Typologies… : l’indexation des données Critère : mode d’indexation des données Typologie possible selon les différents

niveaux d’indexation linguistique : Moteurs d’indexation :

Morphologique Lexicale Syntaxique Sémantique

Typologie difficile à utiliser en pratique Imbrication des modalités d’indexation Enjeux des moteurs sémantiques

Page 20: Moteurs de recherche : sortir de Google

© URFIST de Rennes, 2008 20

2.2 Typologies… : la présentation des résultats

Innovations les plus spectaculaires à venir : les interfaces, la présentation des données

Distinctions possibles : Moteurs linéaires, classiques Moteurs cartographiques, à clusters Moteurs visuels Moteurs parlants ? …

Page 21: Moteurs de recherche : sortir de Google

© URFIST de Rennes, 2008 21

3/ Explorations des différentes catégories de moteurs

Des moteurs pour trouver d’autres moteurs

3.1 Moteurs généralistes : Exalead, Yahoo

3.2 Moteurs « participatifs » : Yahoo Search Building, Wikia, Baagz

3.3 Moteurs spécialisés : Selon différents types de ressources

3.4 Moteurs sémantiques 3.5 Moteurs visuels,

cartographiques…

Page 22: Moteurs de recherche : sortir de Google

© URFIST de Rennes, 2008 22

3.1 Exploration des moteurs : Les moteurs généralistes Exalead

Créé par François Bourdoncle (ingénieur de l’Ecole des Mines) en 1999.

Moteur très innovant Entreprise française en plein développement

Plateforme technologique et de services pour entreprises : 2ème place en France

Moteur grand public Orientation technique :

aider l'usager dans la recherche d'information

Intégration de la serendipité Exalead partie prenante du projet Quaero

Page 23: Moteurs de recherche : sortir de Google

© URFIST de Rennes, 2008 23

3.1 Exploration des moteurs : Les moteurs généralistes Exalead

Un moteur innovant dans le traitement et la présentation des résultats : Processus de catégorisation (a posteriori) Analyse statistico-sémantique des pages de

résultats, conduisant à l’identification des mots et expressions les plus fréquents

Aperçu graphique du contenu de la page / prévisualisation

Nombreuses possibilités d'affinement de la requête : Rubriques associées Limitation par zones géographiques Différents types de fichiers Recherches spécialisées : actualité, RSS...

Page 24: Moteurs de recherche : sortir de Google

© URFIST de Rennes, 2008 24

3.1 Exploration des moteurs : Les moteurs généralistes Exalead

Récentes évolutions : Recherche dans les blogs et forums.. Filtre “visages” (module Images) :

partenariat avec LTU Technologies Partenariat avec l’INIST Nouveau module de recherche sur

Wikipedia Module de méta-recherche de vidéos Intégration des tags dans la recherche Création d'un blog (ExaBlog) de l'entreprise Création de Baagz, moteur social

Exalead comme alternative à Google ?

Page 25: Moteurs de recherche : sortir de Google

© URFIST de Rennes, 2008 25

3.1 Exploration des moteurs : Les moteurs généralistes Yahoo Search

Moteur né en février 2004, après l’annuaire et le portail

Fait partie du trio de tête des moteurs de recherche 15 à 20 milliards de pages indexées (cf. O. Andrieu) Concurrence permanente avec Google et Microsoft Propositions récentes de rachat par Microsoft … mais Yahoo rejoint en mars le projet Open Social de

Google

Politique de développement de niches de recherche

Yahoo Search et le web 2.0 personnalisation et partage avec “Mon Web 2.0” recherche sur les flux RSS …

Page 26: Moteurs de recherche : sortir de Google

© URFIST de Rennes, 2008 26

3.1 Exploration des moteurs : Les moteurs généralistes Yahoo Search

Quelques développements récents de Yahoo :

Intégration des résultats de del.icio.us Intégration de Flickr pour la recherche d’images Lancement de Yahoo Live en févier 2008, service

de diffusion de vidéos concurrent de YouTube Re-lancement de Yahoo Vidéo (« user generated

content » + contenu exclusif) Prototype de Yahoo! NewsGlobe (service

d’informations locales) Assistant de recherche Yahoo! France Enrichissement des notices de Yahoo! Recherche

par les webmestres Préparation pour le dernier trimestre 2008 du

lancement de OneConnect

Page 27: Moteurs de recherche : sortir de Google

© URFIST de Rennes, 2008 27

3.2 Moteurs «participatifs » :moteurs personnalisables

Des moteurs “sur mesure” / recherche verticale Choix par l’internaute du périmètre des recherches :

ensemble donné de sites web, thématique précise, type d’informations

Compte gratuit Système de veille

Concurrence des “3 grands” dans ce domaine : Google CSE : Google Custom Search Engine Live Search : Live Search macros Yahoo! Search Builder :

Search Monkey : pour les développeurs http://tools.search.yahoo.com/newsearch/open.html

Les Swickis d’Eurekster : http://www.eurekster.com/ Rollyo : http://www.rollyo.com/

Page 28: Moteurs de recherche : sortir de Google

© URFIST de Rennes, 2008 28

3.2 Moteurs «participatifs » :moteurs « contributifs » Principes :

Enrichissement de la recherche par les internautes

Exemples : Wikia Search :

lancé le 7 janvier 2008 par Jimmy Wales (Wikia Inc.) Alternative communautaire aux moteurs

généralistes Sur le modèle de Wikipédia Introduit la pondération des documents web par

des internautes qualifiés et la méthode d’indexation ouverte (par le biais de mini-articles)

Yoono Basé sur les recommandations des internautes

Page 29: Moteurs de recherche : sortir de Google

© URFIST de Rennes, 2008 29

3.2 Moteurs «participatifs » :moteurs « sociaux » et collaboratifs

Exemple de Baagz : Lancé par Exalead en octobre 2007

Principes : Concept du « petit sac » d’informations, du bureau en

ligne… Mixte de moteur de recherche (Exalead), de portail de

flux RSS et de réseau social Technologies web 2.0 : Ajax

Utilisations : Partage de ressources Création d’espaces personnels et/ou publics autour de

centres d’intérêt Continuum des espaces informationnels :

Sphère privée : fichiers du disque dur Web Réseaux sociaux

Page 30: Moteurs de recherche : sortir de Google

© URFIST de Rennes, 2008 30

3.3 Moteurs spécialisés :selon les ressources internet Pour trouver ou chercher dans : Des listes de diffusion : Francopholistes Des forums : Yahoo Groups Des FAQ : QueryCat Des blogs : Technorati, Sphere Des wikis : Qwika   Des fils RSS : RSSfeeds Des réseaux sociaux : YoName Des plates-formes de partage de signets :Thagoo 

Pour chercher dans les ressources web 2.0 : Un métamoteur de fils RSS : MetaRSS

Page 31: Moteurs de recherche : sortir de Google

© URFIST de Rennes, 2008 31

3.3 Moteurs spécialisés :selon la nature du contenu Pour trouver : Des informations d’actualité (dépêches, articles…) :

Wikio Des informations, des documents scientifiques :

Scirus, In-Extenso.org… Des informations sur les entreprises :

Accoona Des informations sur les produits :

Kelkoo Des informations sur des individus :

Spock, 123People Des offres d’emploi :

Moovement.fr Des sites, des villes, des organisations

géolocalisées : Geolocalisation

Page 32: Moteurs de recherche : sortir de Google

© URFIST de Rennes, 2008 32

3.3 Moteurs spécialisés :selon la nature du « média »

Pour trouver :

Des images : Les modules images des moteurs : Exalead Images, Yahoo Images … Picsearch

Des vidéos : Modules vidéos des moteurs généralistes : Exalead Vidéos Blinkx

Recherche en texte intégral sur des émissions de télé et de radio grâce à un système de reconnaissance vocale

Des podcasts : Casteropod :

Exemple de podcast de formation

Des musiques : Seeqpod

Page 33: Moteurs de recherche : sortir de Google

© URFIST de Rennes, 2008 33

3.4 Typologie des moteurs selon l’indexation

Importance de la question de l’indexation sur le web

Multiples facettes de l’indexation : Indexation linguistique, le TAL :

Différents niveaux d’indexation linguistique Indexation sociale :

Tags du web 2.0 Indexation sémantique :

Ontologies, web sémantique

Page 34: Moteurs de recherche : sortir de Google

© URFIST de Rennes, 2008 34

3.4 Typologie des moteurs selon

l’indexation : l’indexation morphologique

Niveau d ’analyse : reconnaissance de la forme des mots

Principes : Segmentation du texte en unités élémentaires : mots

(chaînes de caractères) Limites :

index volumineux ordre des mots non pris en compte indexation des différentes flexions d’un mot : verbes,

pluriel/singulier… analyse de mots isolés, pas de prise en compte des

expressions : « pomme de terre » = pomme, de, terre

Principal niveau d’indexation sur le web

Page 35: Moteurs de recherche : sortir de Google

© URFIST de Rennes, 2008 35

3.4 Typologie des moteurs selon l’indexation : l’indexation lexicale

Objet : prise en compte des variations morphologiques des mots :

la conjugaison, le genre, le nombre des mots Principe de la lemmatisation (normalisation) :

réduction des mots à leur forme canonique, à leur racine :

formes d'un verbe regroupées à l'infinitif mots au pluriel ramenés au singulier... : amiraux >

amiral + amiraux Objectif : diminution des index

Mieux développée aujourd’hui sur le web : lemmatisation sur plusieurs moteurs (Google,

Exalead…) accès aux variations morphologiques des mots

correction orthographique : Culture.fr

Page 36: Moteurs de recherche : sortir de Google

© URFIST de Rennes, 2008 36

3.4 Typologie des moteurs selon l’indexation : l’indexation syntaxique

Niveau d’analyse :

passage de la forme à la grammaire : analyse à partir de la phrase, identification des relations entre les mots...

Principes : identification des groupes nominaux, des

expressions repérage de la place des mots dans une

phrase reconnaissance des expressions contiguës ou

disjointes : dans l'expression : « Agence Française de presse »,

reconnaissance de l'expression « agence de presse » Indexation syntaxique sur le web :

encore limitée ; sauf prise en compte de l’ordre des mots, assez répandue

reconnaissance de groupes nominaux

Page 37: Moteurs de recherche : sortir de Google

© URFIST de Rennes, 2008 37

3.4 Typologie des moteurs selon l’indexation : l’indexation sémantique

Niveau d ’analyse : reconnaissance des concepts, identification du sens des

mots Principes :

sémantique lexicale : analyse du sens des mots, reconnaissance des synonymes...

sémantique grammaticale : identification et analyse des relations sémantiques entre les mots, regroupement des termes de sens proche (classes sémantiques)…

utilisation des co-occurrences pour représentation des concepts

Assez rare sur le web, présente surtout sur des corpus limités : Développement des classifications automatiques Indexation automatique des matériaux de presse Moteur sémantique : Portail Culture.fr, Collections

Page 38: Moteurs de recherche : sortir de Google

© URFIST de Rennes, 2008 38

3.5 Présentation des résultats : moteurs visuels, cartographiques

Moteurs visuels : SearchMe

Version de test d’un moteur de recherche visuel reposant sur la technologie flash

Visualisation directe par feuilletage des sites répondant à la requête (captures d’écran)

Aperçus graphiques sur Exalead Vignettes et aperçus des sites en parallèle à la liste des

résultats Moteurs cartographiques :

Grokker Regroupement visuel des résultats en un seul plan

graphique Catégories contextuelles Liens entre les sites