Approfondissement des moteurs de recherche :
“SORTIR” DE GOOGLE ...
Stage URFIST de Rennes10 mars 2009
Marie-Laure Malingre Alexandre Serres
URFIST de Rennes, 2009 2
PRESENTATION du stage
Intro. : pourquoi sortir de Google ?
1/ Des ressources pour se former et s’informer
2/ Fonctionnement et typologies des moteurs de recherche
3/ Explorations de différents types de moteurs
URFIST de Rennes, 2009 3
En introduction 4 raisons (au moins !) de sortir de
Google : Briser le monopole « googléen » :
Cf le Baromètre de S2M Résister à la « googlisation » des usages
: Nécessaire diversification des usages, des
pratiques, des outils… Adapter les outils aux besoins :
Intérêt des outils spécialisés Suivre l’innovation technique des
moteurs : Nombreux outils très innovants Google parfois surpassé par d’autres outils…
URFIST de Rennes, 2009 4
1/ Des ressources pour se former et s’informer
Difficultés de la veille sur les outils de recherche : Rapidité des innovations Surabondance des sources
Mais remèdes dans les outils eux-mêmes : Fils RSS, portail Netvibes, blogs…
Deux ressources de l’URFIST de Rennes : Sélection de ressources sur les outils de recher
che Le portail Netvibes de l’URFIST de Rennes
URFIST de Rennes, 2009 5
2.1 Fonctionnement des moteurs de recherche
Source : R. Viseur, CETIC
URFIST de Rennes, 2009 6
2.1 Fonctionnement… : la collecte des données
Le crawl = parcours de la toile par les moteurs pour aspirer les pages de sites
Plusieurs modalités d’exploration du web : soumission manuelle par les webmestres, référencement
payant sélection des meilleurs sites explorations aléatoires
Etendue, profondeur de la collecte : Parcours des liens (horizontaux/ verticaux) différences entre les moteurs dans l’exploration des sites importance de la taille des fichiers : nbre d’octets pris en compte
Paramétrages du robot : Nature des fichiers collectés : recul du « web invisible » Délai de prise en charge (soumission manuelle) : de 1 jour à 6
semaines Rythme de surveillance : « rafraîchissement » de l’index (de 2
à 8 semaines) Variable en fonction du type d’information
Evolution : du batch crawling au crawler incrémental
URFIST de Rennes, 2009 7
2.1 Fonctionnement… : l’indexation des données
Deux grandes méthodes d'analyse (combinées) dans l'indexation automatisée :
analyse linguistique : fondée sur la reconnaissance des mots
analyse statistique : fondée sur la fréquence des mots
4 niveaux d'analyse linguistique du texte intégral:
niveau morphologique : reconnaissance du mot niveau lexical : réduction du mot à sa forme
canonique > lemmatisation niveau syntaxique : utilisation de la grammaire niveau sémantique : reconnaissance des concepts
URFIST de Rennes, 2009 8
2.1 Fonctionnement… : l’indexation des données
Principale méthode d’indexation automatisée : traitement statistique des mots
Indexation fondée sur calcul de fréquence d’apparition des mots dans un texte : les occurrences
Postulat : si l'indice de fréquence d'un mot est supérieur à
son indice moyen, il doit s'agir d'un mot-clé pertinent, décrivant bien le sujet du texte.
Principale méthode d’indexation sur le web
URFIST de Rennes, 2009 9
2.1 L’indexation sémantique Niveau d ’analyse :
reconnaissance des concepts, identification du sens des mots
Principes : sémantique lexicale : analyse du sens des mots,
reconnaissance des synonymes... sémantique grammaticale : identification et analyse des
relations sémantiques entre les mots, regroupement des termes de sens proche (classes sémantiques)…
utilisation des co-occurrences pour représentation des concepts
Assez rare sur le web, présente surtout sur des corpus limités : Développement des classifications automatiques Indexation automatique des matériaux de presse Moteur sémantique : Portail Culture.fr, Collections
URFIST de Rennes, 2009 10
2.1 Fonctionnement… : la gestion des requêtes et des résultats
Partie visible du moteur de recherche ; trois grandes fonctions :
gestion des requêtes : fonctions de recherche en mode simple et avancé,
différentes options de filtrage, affinement... gestion des résultats :
quels critères de classement ? question des critères de pertinence
gestion de la présentation des résultats :
Listes, cartographie, aperçu graphique…
URFIST de Rennes, 2009 11
2.1 Fonctionnement… : la gestion des requêtes
Fonction la plus répandue : nombreuses possibilités de filtrage géographique du web : mondial, francophone linguistique : choix de la langue des ressources des types de ressources : images, audio… des ressources internet : web, forum,
messagerie, weblogs des formats : HTML, PDF, DOC, PPT, XLS, RTF… des dates : nombreuses options des champs : titre, URL, host, domaine… thématique : choix du domaine de recherche
URFIST de Rennes, 2009 12
2.1 Fonctionnement… : la gestion des résultats
Enjeux du « relevance ranking », du classement des résultats selon leur pertinence
Deux grandes méthodes, imbriquées, de classement :
tri par indice de pertinence : calculs statistiques sur la fréquence des termes…
tri par popularité : indice de popularité Troisième voie :
tri par catégorisation : calcul dynamique de catégories, ou clusters
URFIST de Rennes, 2009 13
2.1 Fonctionnement… la gestion des résultats : l’indice de pertinence
Principes : classement des résultats fondé sur la fréquence
d’apparition et la localisation des termes de la requête dans une page web
affichage des résultats à partir du calcul d’un score pour chaque réponse :
Ex. : Requête sur le marché des DVD en France : +marché +DVD +France
> retourne les documents contenant tous les mots de la requête >> documents contenant le plus de fois les mots de la requête
classés en premier Utilisation :
première méthode de classement utilisée sur le web, la plus répandue ;
Problèmes : détournement par le spamdexing
URFIST de Rennes, 2009 14
2.1 Fonctionnement… la gestion des résultats : l’indice de popularité
Principes, origines : Utilisation de la nature hypertextuelle du web :
prise en compte des liens entre sites, considérés comme des liens de parenté sémantique
calcul de la notoriété d’un site en fonction du nombre de liens pointant vers le site
Utilisation : indice de popularité lancé par Google en 98
originalité et succès de Google et de son PageRank Avantages de l’indice de popularité :
renforcement de la pertinence réduction du spamdexing
URFIST de Rennes, 2009 15
2.1 Fonctionnement… la gestion des résultats : la catégorisation automatique
Technologies plus complexes ; domaine d’innovations avancées des moteurs et métamoteurs :
cf Exalead, Grokker, certains métamoteurs (Clusty) Principes :
organisation en temps réel d’un lot de résultats pour donner possibilité d’affiner ou étendre la requête
répartition des documents dans des catégories Intérêt pour la recherche :
aide à la sélection d’un mot-résultat aide à l’élimination des corrélations
inintéressantes, suggestion d’idées et de pistes nouvelles
enjeu essentiel : mise en ordre du « chaos informationnel
URFIST de Rennes, 2009 16
2.2 Typologies des moteurs de recherche
Difficultés des typologies Trois grandes catégories de critères :
L’offre des ressources : Moteurs généralistes / spécialisés
Diversité des spécialisations L’implication des internautes :
Moteurs participatifs : collaboratifs, personnalisables…
La présentation des résultats : Moteurs linéaires, visuels, cartographiques…
Imbrication des critères Difficultés du critère de l’indexation
URFIST de Rennes, 2009 17
2.2 Typologies des moteurs de recherche : l’offre des ressources
Critère : type de ressources collectées Distinction principale :
Moteurs généralistes : G., Yahoo, Exalead, Ask, Live Search…
caractéristique historique des grands moteurs : collecte et indexation de tous les types de ressources
Moteurs spécialisés : Tendance lourde des moteurs :
Modules spécialisés à l’intérieur des moteurs généralistes
Infinité des types de spécialisations Explosion du nombre d’outils
URFIST de Rennes, 2009 18
2.2 Typologies… L’offre des ressources : diversité des spécialisations
Choix retenu pour l’exploration : 3 critères de spécialisations :
Selon les ressources internet : Moteurs de blogs, de forums, de listes de diffusion,
de FAQ, de wikis, de fils RSS… Selon la nature du contenu :
Moteurs scientifiques, d’actualité, de personnes, de produits…
Selon la nature du média : Moteurs d’images, de vidéos, de podcasts, de
photos.. Autres critères possibles : langue,
géographie, domaine thématique…
URFIST de Rennes, 2009 19
2.2 Typologies… : l’implication des internautes
Difficultés de caractérisation du critère, très récent :
Intégration des aspects « web 2.0 » dans les moteurs Critère principal : aspect « social » des moteurs
de recherche Degré, nature, modalités… d’implication des internautes
dans le moteur de recherche Deux types de moteurs présentés :
Moteurs collaboratifs : Wikia Moteurs personnalisables : Rollyo
Tendance de développement des moteurs importante : enjeux économiques, image des outils…
URFIST de Rennes, 2009 20
2.2 Typologies… : la présentation des résultats
Innovations les plus spectaculaires à venir : les interfaces, la présentation des données
Distinctions possibles : Moteurs linéaires, classiques Moteurs cartographiques, à clusters Moteurs visuels Moteurs parlants ? …
URFIST de Rennes, 2009 21
2.2 Typologies… : l’indexation des données ? Critère : mode d’indexation des données Typologie possible selon les différents
niveaux d’indexation linguistique : Moteurs d’indexation :
Morphologique Lexicale Syntaxique Sémantique
Typologie difficile à utiliser en pratique Imbrication des modalités d’indexation Enjeux des moteurs sémantiques
URFIST de Rennes, 2009 22
3/ Explorations des différentes catégories de moteurs
Des moteurs pour trouver d’autres moteurs
3.1 Moteurs généralistes : Exalead, Yahoo
3.2 Moteurs « participatifs » : Wikia
3.3 Moteurs spécialisés : Selon différents types de ressources
3.4 Moteurs sémantiques 3.5 Moteurs visuels,
cartographiques…
URFIST de Rennes, 2009 23
3.1 Exploration des moteurs : Les moteurs généralistes : Exalead
Créé par François Bourdoncle (ingénieur de l’Ecole des Mines) en 1999.
Moteur très innovant Entreprise française en plein développement
Plateforme technologique et de services pour entreprises : 2ème place en France
Moteur grand public, mais audience limitée : 1 million de visiteurs uniques / mois
Orientation technique : aider l'usager dans la recherche
d'information Intégration de la serendipité
Exalead partie prenante du projet Quaero
URFIST de Rennes, 2009 24
3.1 Exploration des moteurs : Les moteurs généralistes : Exalead
Un moteur innovant dans le traitement et la présentation des résultats : Processus de catégorisation (a posteriori) Analyse statistico-sémantique des pages de
résultats, conduisant à l’identification des mots et expressions les plus fréquents
Aperçu graphique du contenu de la page / prévisualisation
Nombreuses possibilités d'affinement de la requête : Rubriques associées Limitation par zones géographiques Différents types de fichiers Recherches spécialisées : actualité, RSS...
URFIST de Rennes, 2009 25
3.1 Exploration des moteurs : Les moteurs généralistes : Exalead
Principales innovations et applications : Affinement de la recherche dans les blogs et
forums.. Filtre “visages” (module Images) :
partenariat avec LTU Technologies ; exemple Partenariat avec l’INIST Nouveau module de recherche sur Wikipedia Module de recherche de vidéos Intégration des tags dans la recherche Création d'un blog (ExaBlog) de l'entreprise Création de Baagz, plate-forme
communautaire Offre gratuite du moteur de bureau Exalead
Desktop Offre payante de CloudView (nuage
informationnel)
URFIST de Rennes, 2009 26
3.1 Exploration des moteurs : Les moteurs généralistes Yahoo Search
Moteur né en février 2004, après l’annuaire et le portail
Fait partie du trio de tête des moteurs de recherche 15 à 20 milliards de pages indexées (cf. O. Andrieu) Concurrence permanente avec Google et Microsoft
Politique de développement de niches de recherche
Yahoo Search et le web 2.0 > Comblement du retard sur le secteur du web 2
personnalisation et partage avec “Mon Web 2.0” recherche sur les flux RSS, etc.
Double orientation stratégique de Yahoo : Intégrer à ses services des fonctions de réseau social Favoriser le développement d’applications tierces pour
ses produits = “open strategy”
URFIST de Rennes, 2009 27
3.1 Exploration des moteurs : Les moteurs généralistes Yahoo Search
Quelques développements récents de Yahoo et projets en cours
BOSS : Build your Own Search Engine / Moteurs thématiques avec « Vertical Lens »
Nouvelle page d’accueil Possibilité de créer de petits réseaux sociaux dans les services
Yahoo et mise à jour des services Lancement de Yahoo Buzz Barre d’outils Yahoo : suggestion de mots pour la requête Yahoo! Search Assist : mots clés et images (Yahoo Images) dans
les suggestions Paramétrage de Modules de résultats Version américaine de Yahoo! Glue en test > Recherche
universelle Sécurisation de la recherche avec Search Scan Projet Bloc-note Search Pad : historicisation des recherches +
commentaires Projet OneConnect/OneSearch
URFIST de Rennes, 2009 28
3.2 Moteurs «participatifs » :moteurs personnalisables Des moteurs “sur mesure” / recherche
verticale
Choix par l’internaute du périmètre des recherches : ensemble donné de sites web, thématique précise, type d’informations
Compte gratuit Système de veille
Des plateformes ouvertes / API de recherche
Création de moteurs à la demande Personnalisation dans la page de résultats (ajouts,
tri, présentation)
URFIST de Rennes, 2009 29
3.2 Moteurs «participatifs » :moteurs personnalisables Concurrence des “3 grands”:
Google CSE : Google Custom Search Engine Live Search : Live Search macros Yahoo : Interface utilisateurs Alpha
Pour les développeurs : Yahoo : Yahoo! Search Boss
Mais aussi d’autres acteurs :
Rollyo : http://www.rollyo.com/ Buildasearch : http://buildasearch.com/ Les Swickis d’Eurekster : http://www.eurekster.com/
URFIST de Rennes, 2009 30
3.2 Moteurs «participatifs » :moteurs « contributifs »
Principes : Enrichissement de la recherche par les
internautes Exemples :
Wikia Search : lancé le 7 janvier 2008 par Jimmy Wales (Wikia Inc.) Alternative communautaire aux moteurs
généralistes Sur le modèle de Wikipédia Introduit la pondération des documents web par
des internautes qualifiés et la méthode d’indexation ouverte (par le biais de mini-articles)
Yoono Basé sur les recommandations des internautes
URFIST de Rennes, 2009 31
3.3.1 Moteurs spécialisés :selon les ressources internet Pour trouver ou chercher dans : Des listes de diffusion : Francopholistes Des forums : Yahoo Groups Des FAQ : QueryCat Des blogs : Technorati, Sphere Des wikis : Qwika Des fils RSS : RSSfeeds Des réseaux sociaux : YoName Des plates-formes de partage de signets :Thagoo
Pour chercher dans les ressources web 2.0 : Un métamoteur de fils RSS : MetaRSS
URFIST de Rennes, 2009 32
3.3.2 Moteurs spécialisés selon la nature du contenu : moteurs d’actualités
Modules ou services proposés par les outils de recherche
Agrégation de multiples sources d’actualité : Presse, blogs, sites web… Revues de presse automatisées
Services gratuits : alertes…
Nombreux moteurs d’actualité : Précurseur : Google News Modules spécialisés : Yahoo News,
Concurrence aiguë, enjeux économiques importants Problèmes et conflits juridiques
URFIST de Rennes, 2009 33
3.3.2 Moteurs spécialisés selon la nature du contenu : moteurs d’actualités
Anglophones : Yahoo News Alltheweb News Rocket News Digg Topix : 2004
Agrégateur d’actualités localisées
Voir Bases
Francophones : Yahoo France
Actualités DeepIndex News Widepress
Voir Archimag
URFIST de Rennes, 2009 34
3.3.2 Moteurs spécialisés selon la nature du contenu : moteurs d’actualités Un exemple : Wikio
indexe sources de presse et blogs ; annonce 64312 blogs et sites d’actualités
indexés (dont plus de 55800 blogs) modules spécialisés sur les Actualités, les
blogs, le shopping, et « Live » : suivi de l’actualité en temps réel (de l’indexation…)
agrégation des billets et nouvelles, selon plus de 30 000 catégories
Technologie d’indexation sémantique classement des blogs « influents » par
catégories, selon le nombre de rétroliens ; voir http://www.wikio.fr/blogs/top/science
Nombreuses innovations technologiques : cf les Wikio Labs
voir notamment Backlink Factory
URFIST de Rennes, 2009 35
3.3.2 Moteurs spécialisés selon la nature du contenu : moteurs scientifiques
Moteurs spécialisés sur les ressources scientifiques
Plusieurs types, plusieurs statuts… Moteurs de recherche scientifiques :
Google Scholar : toutes disciplines Scirus : sciences exactes Academic Index : toutes disciplines CiteSeer.IST : sciences physiques et de l’ingénieur In-extenso.org : SHS
Moissonneurs OAI : OAIster : toutes disciplines Michael : culture, arts, patrimoine
URFIST de Rennes, 2009 36
3.3.2 Autres moteurs spécialisés selon la nature du contenu Pour trouver : Des informations sur les entreprises :
Accoona Des informations sur les produits :
Kelkoo Des informations sur des personnes :
Spock, 123People Des offres d’emploi :
Moovement.fr Des sites, des villes, des organisations
géolocalisées : Geolocalisation
URFIST de Rennes, 2009 37
3.3.3 Moteurs spécialisés :selon la nature du « média »
Pour trouver :
Des images : Les modules images des moteurs : Exalead Images,
Yahoo Images … Picsearch
Des vidéos : Modules vidéos des moteurs généralistes : Exalead Vidéos Blinkx
Recherche en texte intégral sur des émissions de télé et de radio grâce à un système de reconnaissance vocale
Des podcasts : Casteropod :
Exemple de podcast de formation Des musiques :
Seeqpod
URFIST de Rennes, 2009 38
3.4 Les moteurs de recherche sémantique
Emergence de nouvelles catégories de moteurs : Hakia :
Lancé en 2006 moteur de requêtes en langage naturel mélange d'analyse sémantique, d'ontologie, de
logique floue et d'intelligence artificielle Powerset :
Mai 2008 ; racheté par Microsoft en juillet 08 Recherche sémantique sur Wikipedia Analyse des phrases contenant les mots d’une
requête Propositions de nombreux mots-clés
URFIST de Rennes, 2009 39
3.5 Présentation des résultats : moteurs visuels, cartographiques
Moteurs visuels : SearchMe
Version de test d’un moteur de recherche visuel reposant sur la technologie flash
Visualisation directe par feuilletage des sites répondant à la requête (captures d’écran)
Aperçus graphiques sur Exalead Vignettes et aperçus des sites en parallèle à la liste des
résultats Moteurs cartographiques :
Grokker Regroupement visuel des résultats en un seul plan
graphique Catégories contextuelles Liens entre les sites
Top Related