1 La Recherche dInformation sur le Web De la documentation électronique de votre université aux...

Post on 03-Apr-2015

104 views 1 download

Transcript of 1 La Recherche dInformation sur le Web De la documentation électronique de votre université aux...

1

La Recherche d’Information La Recherche d’Information sur le Websur le Web

De la documentation électronique de votre université aux outils du Web

Gabriel Gallezot - Urfist Paca-c

ED avril 2008

Gallezot-at-unice.fr

29/11/07

2

Programme :Programme :

• Rappel sur la Recherche d’Information (RI)– contexte de la RI, Usage de l’info, Appropriation des outils– formulation des requêtes (des questions)– l’Indexation : notion centrale

• Panorama et utilisation des outils de recherche du web– les bases de données– Dico & co– OA & co– Outils 2.0– Moteurs– les répertoires

15.02.07

● Le contexte de la Recherche Le contexte de la Recherche d'Informationd'Information

15.02.07

Base Bibliographiques

Banques de données

Revues, ouvrages

Colloques

Site web, page perso, blog

Liste de discussion

Editeurs, agrégateurs

Archives Ouvertes

Bibliothèques

Types de documents

Formats de documents

Accès aux documents

Usage de l’informationRechercher: IR/épistémè

15.02.07 Source : Info@vis

La RI en contexte- différentes sources- différents outils- différents contextes

6

Appropriation des outilsAppropriation des outils

The Machine is Us/ing UsIntroducing the book

15.02.07

La Recherche d’InformationLa Recherche d’Information

- - Bien appréhender votre questionBien appréhender votre question

- Bien appréhender ce que vous cherchez et où vous - Bien appréhender ce que vous cherchez et où vous

le cherchezle cherchez

- Comprendre l’envers du “décor” : l’indexation- Comprendre l’envers du “décor” : l’indexation

- Bien gérer ses requêtes- Bien gérer ses requêtes

15.02.07

Quelques questionsQuelques questions

• Quels documents sont d'intérêt pour moi (ma question) ? • Est-ce que d'autres documents assez proches de mon

intérêt peuvent être également considérés ? • Les titres d'autres documents pourraient-ils déclencher des

idées valables pour ma recherche d'information ? • Comment mes mots-clés sont-ils réellement distribués

dans un des document ? • ....Trois notions à considérer : • Relevance (correspondance a ma question)• Pertinence (ce qui m'intéresse vraiment) • Serendipity (quelle chose que je ne recherchais pas mais

qui pourrait également m'intéresser)

15.02.07

Chercher une aiguille dans une botte de foin c’est :

• trouver une aiguille connue dans une botte de foin connue

• trouver une aiguille connue dans une botte de foin inconnue

• trouver une aiguille inconnue dans une botte de foin inconnue

• trouver n'importe quelle aiguille dans une botte de foin

• trouver […] [Koll, 00]Aiguille(s) et Aiguille(s) et

botte(s) de foinbotte(s) de foin

=> 3 façons de recherche l’information• « chercher de l'information sur un objet bien défini ;• chercher de l'information sur un objet incomplètement

décrit mais qui sera reconnaissable dès qu'un le rencontrera ;

• trouver de l'information de manière fortuite. » (Toms)

15.02.07

Où chercher ?

Web visibleet Web 2.0

Web invisible

P2P

• Contenu indexable,

• contenu taggé

• bases de données spécialisées

• Contenu dynamique

• Index partiel des sites

• Interdiction d’indexation

• Information contenue sur les ordinateurs individuels

• plusieurs millions d’ordinateurs inter-connectés

•10 Milliards dePages web•Forum de discussion

À partir de Source : Eric Boutin

15.02.07

La notion d’indexationLa notion d’indexation(une notion transversale et centrale)(une notion transversale et centrale)

• Indexer/classer pour retrouver (mots clés/répertoire, …)

• Les métadonnées (entête)• La structuration du document (corps)

• Classification :– Index– Thésaurus– Taxonomie– Facette– Ontologie

15.02.07

Gestion du bruit et du silenceGestion du bruit et du silence

Documents non relevants

Documents relevants Corpus

Bien gérer VOS REQUETES !Bien gérer VOS REQUETES !

15.02.07

non relevants(bruit)

relevants

Documents retrouvés

Documents non retrouvés

Relevants(silence)

non relevants

Documents retrouvés

Document non retrouvés

Optimiser sa recherche d'information

Bien gérer Bien gérer VOS REQUETES !VOS REQUETES !

15.02.07

Les opérateurs booléensLes opérateurs booléens

ExempleEnsemble A

cours tutorial

Ensemble Btutorial gratuit

Ensemble CPayant

Tutorial

Cours

gratuit

tutorial

payant

Protection

cours ou tutorial

tutorial et gratuit

cours sauf payant

cours

OR

AND

AND NOT

Les booléens sur GIRI : http://www.bibl.ulaval.ca/vitrine/giri/mod3/booleen.htm

15.02.07

Les types de rechercheLes types de recherche

• La recherche lexicale (+morphologique) : la recherche d'un mot ou d'un groupe de mots, notamment par le biais de requêtes booléennes (et, ou, etc.). Une fonction à laquelle s'ajoutent des opérateurs d'adjacence et de proximité. Tous des moteurs proposent en général ce type de possibilités.

• La recherche syntaxique : elle permet de retrouver un terme quelle que soit sa déclinaison (plurielle, conjuguée, etc.), et d'étendre la recherche aux mots synonymes ou de même racine étymologique. Cette recherche offre également des modules de recherche floue ou de phonétisation.

• La recherche statistique : lorsque la recherche s'effectue sur les mots, une analyse statistique permet de calculer la pertinence de ces mots par rapport au référentiel documentaire.

• La recherche sémantique : l'opération s'effectue à partir d'une analyse du sens de la requête, c'est-à-dire en recherchant les mots sémantiquement proches de ceux qu'elle utilise. La recherche s'appuie alors sur un dictionnaire sémantique qui, à chaque mot de la langue, associe leurs différents sens.

La combinaison des recherches sémantique, syntaxique, lexicale et statistique permet aux éditeurs de proposer des fonctions avancées : résumé de documents, classement et sélection optimisés des réponses, jusqu'aux assistants de requêtes (conçus pour permettre à l'utilisateur d'affiner sa demande en lui proposant des requêtes connexes ou enrichies)

15.02.07

Exemples d’outilsExemples d’outils(panorama)(panorama)

15.02.07

Les bases de donnéesLes bases de données

• Worldcat : (catalogues http://worldcat.org/

• Article Inist : (catalogues : http://services.inist.fr/public/fre/conslt.htm

• Images : http://cartelfr.louvre.fr, http://openclipart.org/ ou http://www.freefoto.com

• Sons : L’encyclopedie Sonore, http://e-sonore.u-paris10.fr/e-sonore/main.php?daj=search_small&sid=&ref=CAE92LEG08

• Librairies en ligne (Amazon, chapitre.com, …)

15.02.07

Dico and CoDico and Co• Wikipedia : http://fr.wikipedia.org/wiki/Accueil

• Les dictionnaires : http://www.dictionnaire-mediadico.com/ http://www.les-dictionnaires.com/

• TermScience (lexiques, dictionnaires, thesaurus) : http://www.termsciences.fr

• CNRTL : Centre National de Ressources Textuelles et (Morphologies, Lexicographie, Etymologie, Synonymie, Antonymie, Proxémie, Concordance) http://www.cnrtl.fr/lexicographie/

20

Outils du web2.0Outils du web2.0(fonction recherche uniquement)(fonction recherche uniquement)

• Signets : Del.ici.ous (http://del.icio.us/ ), digg (http://www.digg.com/ ), … :

• Ref biblio : CiteUlike (http://www.citeulike.org/ ), Bibsonomy (http://www.bibsonomy.org/ ), … :

• illustrations : Flickr (http://www.flickr.com/ ), youtube (http://www.youtube.com/ ), … :

• Présentations (PPT : http://www.slideshare.net )

21

Les outils de recherche du webLes outils de recherche du web(moteurs, annuaires et autres)(moteurs, annuaires et autres)

• Google scholar : http://scholar.google.com• Google book : http://books.google.com/• Lecdi : http://www.lecdi.net/ • In extenso : http://www.in-extenso.org/ • Exalead http://www.exalead.fr • Kvisu : http://beta.kvisu.com/ • Ixquick http://www.eu.ixquick.com/fra/ • Wayback machine http://www.archive.org/ • Wikio (blogs) : http://www.wikio.fr/blogs • Yahoo (Mindset) : http://mindset.research.yahoo.com/ • Open directory project http://www.dmoz.org/

15.02.07

Les répertoiresLes répertoires• Répertoire critique en SHS http://album.revues.org/

• Répertoire de Bases de données en SHS, CALAME : http://calame.ish-lyon.cnrs.fr/

• Répertoire de revues Open Access, DOAJ : http://www.doaj.org/• Répertoire d'Archive Ouverte, OpenDOAR : http://www.

opendoar.org/• Répertoire du patrimoine numérique :

http://www.numerique.culture.fr/mpf/pub-fr/index.html• Répertoire de ressources « academiques » : Bubl , http://bubl

.ac.uk/• Répertoire de BdD gratuites (Dadi) : http://dadi.enssib.fr/• Répertoire web2.0 : http://www.go2web20.net/

• Search engines watch : http://searchenginewatch.com/showPage

.html?page=links

15.02.07

« Mon environnement de recherche »« Mon environnement de recherche »

Quelques exemples• Mes extensions FF (“mes moteurs”, zotero,…)• Mon moteur de recherche (co-op/customsearch)• Mon portail : Ning, netvibe, Igoogle, facebook, …

24

Vos questionsVos questions

?

25

… … et en pluset en plus

15.02.07

Moteurs Moteurs (remarques)(remarques)

• Interfaçage : http://www.touchgraph.com/TGGoogleBrowser.html

• Searchmash : http://www.searchmash.com/• Comprendre la relation entre les moteurs : http://www.search-this.

com/search_engine_decoder.asp

15.02.07

Méthodologie de rechercheMéthodologie de recherche

2 guides• CERISE : http://web.ccr.jussieu.fr/urfist/cerise/

• InfoSphere : http://www.bibliotheques.uqam.ca/InfoSphere/sciences_humaines/index1.html

• Et aussi REPERE : http://repere.enssib.fr/frontOffice/afficheArticle.asp?idTheme=13

15.02.07

Stratégie de requête (exemple)Stratégie de requête (exemple)

Inurl:durand intitle « durand pierre »

Site: durand

inurl:durand 

intitle: « durand pierre »

« durand pierre »

Durand pierre

Google

Source : Eric boutin

15.02.07

Les deux aspects Les deux aspects des outils de recherchedes outils de recherche

Basede

données

Propagation electrons :

Collecte et

stockage

Fournir à L’internaute 10 à 20 réponses pertinentes

21

Source : Eric Boutin

15.02.07

Le point de départ de GoogleLe point de départ de Google

« un article scientifique tire sa légitimité de la reconnaissance par ses pairs »

Analyse de la citation : SCIEugène Garfield

DucheminBla bla blaDugenet(89) Dugenet

Bla bla blaDumoulin(79)

Article 1

Article 2

Chaque page web a un poids appelé Pagerank

PAGERANK (Google)

A B

C

Yahoo! E

F Linux.org

A better than B

A is linked to by more popularsites than B

(whatever the query is)

PAGERANK (Google)

A B

C

Yahoo! E

F Linux.org

A est meilleur que B

A reçoit des liens émanant de sites plus populaires que B

quelle que soit la requête

Source : Eric Boutin

Comprendre le ranking :http://professeurs.esiea.fr/wassner/?2007/06/03/74-l-algorithme-pagerank-comment-ca-marche