Web Invisible et Deep Web

26
WEB INVISIBLE ET DEEP WEB Antoine PY et Baptiste Buisson Cours de recherche d’information avancée

Transcript of Web Invisible et Deep Web

Page 1: Web Invisible et Deep Web

WEB INVISIBLE

ET DEEP WEB

Antoine PY et Baptiste Buisson

Cours de recherche d’information avancée

Page 2: Web Invisible et Deep Web

• Introduction sur le Web Invisible

• Les 4 niveaux d’invisibilité

• Les serveurs classiques

• L’évolution

• L’utilité

• Les outils pour explorer ce monde caché

• Comment naviguer sur le web de façon anonyme

Antoine PY et Baptiste Buisson

2

Sommaire

Page 3: Web Invisible et Deep Web

DEEP WEB WEB PROFOND WEB CACHE WEB INVISIBLE

Qu’est ce que le Web Invisible?

C’est l’ensemble des pages internet non-indexées par les

moteurs de recherche traditionnels

Antoine PY et Baptiste Buisson

3

Introduction

Page 4: Web Invisible et Deep Web

Antoine PY et Baptiste Buisson

4

Introduction

Un Web caché…

Page 5: Web Invisible et Deep Web

The opaque Web : nearly visible web

• The Opaque Web

Pages susceptibles d’être indexées mais qui ne le sont pas.

Pourquoi?

- Création de nouvelles pages (pas de détection du robot

« spider »)

- Limitation du moteur sur le nombre de page d’un site

- La page possède peu de backlinks

Antoine PY et Baptiste Buisson

5

Le Web Invisible

Les 4 niveaux d’invisibilités

Page 6: Web Invisible et Deep Web

Web invisible: la partie immergé de l’Iceberg

• The Opaque Web

• The Private Web

Pages exclues volontairement par les Webmasters

Antoine PY et Baptiste Buisson

6

Le Web Invisible

Les 4 niveaux d’invisibilités

Page 7: Web Invisible et Deep Web

Web invisible: la partie immergé de l’Iceberg

• The Opaque Web

• The Private Web

• The Proprietary Web

- Identification nécessaire (l’indexage par le robot est bloqué)

Antoine PY et Baptiste Buisson

7

Le Web Invisible

Les 4 niveaux d’invisibilités

Page 8: Web Invisible et Deep Web

Les banques de données: une partie intégrante du Web

• The Opaque Web

• The Private Web

• The Proprietary Web

• The Truly Invisible web

Toute indexation est impossible en raison des formats

inconnus, de la structure ou de la taille hors norme des informations.

Les pages générées dynamiquement ne peuvent également pas

être gérées par les moteurs de recherche.

Antoine PY et Baptiste Buisson

8

Le Web Invisible

Les 4 niveaux d’invisibilités

Page 9: Web Invisible et Deep Web

Une requête consomme autant qu’une ampoule pendant 1h

Antoine PY et Baptiste Buisson

9

Les serveurs classiques

Historique:

• Les banques de données sont apparues en 1960.

Objectif: Une volonté d’améliorer l’efficacité du web.

• Depuis 1970 des serveurs sont crées par plusieurs

sociétés privées.

Page 10: Web Invisible et Deep Web

Contenu plus qualifié, plus précis, plus vérifié et plus vaste

Antoine PY et Baptiste Buisson

10

Des informations structurées et validées

• Les bases de données hébergent une information structurée et variée.

- Références avec résumé et indexation d’articles…

- Brevets américains, européens…

- Références avec indexation de brevets

- Textes intégrals de milliers de titres de presse

- Informations marketing

Page 11: Web Invisible et Deep Web

Contenu plus qualifié, plus précis, plus vérifié et plus vaste

Antoine PY et Baptiste Buisson

11

Des ressources difficiles d’accès

• Les bases de données sont plus difficiles d’accès que

celle du web visible

- Accès réservé aux abonnées

- Accès Payant

- Connaissance des langages

Page 12: Web Invisible et Deep Web

La croissance de la taille du Web invisible s’atténue de plus en plus

En 2000: la taille du web invisible croissait plus vite que le

web visible. Ceci n’est plus d’actualité. Pourquoi?

• L’indexation de nouveaux formats de fichier

Fichier .pdf (document de qualité): publications scientifiques et

universitaires, rapports de chercheurs…

Fichier .doc, .xls, .ppt, .rtf, .ps

• Les partenariats avec des éditeurs de banques de données

Pages dynamiques

Accord signé entre l’Inst-Cnrs (17 millions de bibliographie)

avec Google

Antoine PY et Baptiste Buisson

12

L’évolution

Page 13: Web Invisible et Deep Web

Taille web visible: 167 téraoctets

Tailles web invisible: 91 000 téraoctet

• Trouver des documents supplémentaires

• Informations plus pertinentes

• Elargir son champ de recherche

Antoine PY et Baptiste Buisson

13

Utilité des recherches dans le deep web

Page 14: Web Invisible et Deep Web

Le web invisible est 544 fois plus grand que le web visible

Les informations à trouver:

- Revues éléctroniques

- Livres électroniques

- Catalogues en ligne

- Des articles

Antoine PY et Baptiste Buisson

14

Les outils

Le fonctionnement:

- Recherche par catégorie

- Possibilité de modifier sa recherche: options de recherche

Page 15: Web Invisible et Deep Web

Les informations à trouver:

- Ressources pertinentes sur

beaucoups de sujets

Antoine PY et Baptiste Buisson

15

Le fonctionnement:

- Recherche par catégorie et par mots-clés

Les outils

Page 16: Web Invisible et Deep Web

Les informations à trouver:

- Ressources pertinentes sur

beaucoups de sujets

Antoine PY et Baptiste Buisson

16

Le fonctionnement:

- Recherche par catégorie

Les outils

Page 17: Web Invisible et Deep Web

Les informations à trouver:

- Sujets académiques

- Dictatitiels sur des techniques

efficaces de recherche

d’internet

Antoine PY et Baptiste Buisson

17

Le fonctionnement:

- Recherche par mots-clés ou par sujet

Les outils

Page 18: Web Invisible et Deep Web

Les informations à trouver:

- Encyclopédies

- Atlas

- Bibliographie

Antoine PY et Baptiste Buisson

18

Le fonctionnement:

- Recherche par mots-clés

Les outils

Page 19: Web Invisible et Deep Web

Moteurs de recherche pour étudiants

Trouver du contenu sur l’ingénierie, les mathématiques et l’informatique

Types d’information:

- Nouvelles sur l’industrie

- Offres d’emploi

- Rapports techniques

- Sites web pertinents

Antoine PY et Baptiste Buisson

19

Le fonctionnement:

- Recherche par mots-clés

Les outils

Page 20: Web Invisible et Deep Web

Antoine PY et Baptiste Buisson

20

Les outils

Méta-moteur

- Nombreuses possibilités de personnalisation et de

paramétrage

- Trouver les informations les plus récentes

Page 21: Web Invisible et Deep Web

The internet behind the internet

• DeepWeb ≠ DarkWeb ≠ Darknet

DarkWeb: le côté « malsain » du DeepWeb

Darknets: réseaux privés virtuels, souvent de petites tailles

et dans le but d’échanger des fichiers,

Antoine PY et Baptiste Buisson

21

Le DarkWeb

Page 22: Web Invisible et Deep Web

The internet behind the internet

Plusieurs Outils existent:

• TOR (The Onion Router)

• Base-search.net

• D’autres moteurs de recherche spécialisés

Antoine PY et Baptiste Buisson

22

Comment y accéder?

Avec Google Chrome Avec TOR

Page 23: Web Invisible et Deep Web

The internet behind the internetAntoine PY et Baptiste Buisson

23

Les Outils

Page 24: Web Invisible et Deep Web

The internet behind the internetAntoine PY et Baptiste Buisson

24

Les Outils

Page 25: Web Invisible et Deep Web

• Béatrice Foenix-Riou : « Recherche éveillé sur Internet: mode d’emploi »

• « Web profond ». Encyclopédie en ligne. Wikipédia, s. d. http://fr.wikipedia.org/wiki/Web_profond

• « Cinq moteurs de recherche pour explorer le darknet ». Site d’information sur les nouvelles technologies. Parlons Geek, s. d.

http://www.parlonsgeek.com/cinq-moteurs-de-recherche-pour-explorer/.

• « Clearing Up Confusion – Deep Web vs. Dark Web », 27 mars 2014.

http://www.brightplanet.com/2014/03/clearing-confusion-deep-web-vs-dark-web/

• « Deep Web, Dark Web, les parties immergées d’Internet | Panoptinet », s. d.

http://www.panoptinet.com/cybersecurite-decryptee/deep-web-dark-web-les-parties-immergees-dinternet/

• Dejonckheere, Eric. « AYA.io - Recherche dans le Web profond ». Blog. AYA.io, 22 juin 2013. http://aya.io/blog/deep-web-search/.

• « La recherche d’Informations sur le Web », s. d. http://c.asselin.free.fr/french/invisible_web.htm.

• « MemoAV_WebInvisible - Memo_WebInvisible.pdf ».

http://bibliotheque.unice.fr/services-et-formations/aide-et-formation/documents/Memo_WebInvisible.pdf.

• « Rechercher l’information - Les informations du web invisible ». http://www.c2imes.org/MODULES/B2/co/I_E_partieB.html.

• Digimind, Découvrir et exploiter le web invisible pour la veille stratégique: http://www.esi.ac.ma/Dossiers/20140126070100.pdf

Antoine PY et Baptiste Buisson

25

Bibliographie

Page 26: Web Invisible et Deep Web

Merci pour votre attention

Antoine PY et Baptiste Buisson

26