Web Invisible et Deep Web
-
Upload
ei4idi -
Category
Technology
-
view
487 -
download
3
Transcript of Web Invisible et Deep Web
WEB INVISIBLE
ET DEEP WEB
Antoine PY et Baptiste Buisson
Cours de recherche d’information avancée
• Introduction sur le Web Invisible
• Les 4 niveaux d’invisibilité
• Les serveurs classiques
• L’évolution
• L’utilité
• Les outils pour explorer ce monde caché
• Comment naviguer sur le web de façon anonyme
Antoine PY et Baptiste Buisson
2
Sommaire
DEEP WEB WEB PROFOND WEB CACHE WEB INVISIBLE
Qu’est ce que le Web Invisible?
C’est l’ensemble des pages internet non-indexées par les
moteurs de recherche traditionnels
Antoine PY et Baptiste Buisson
3
Introduction
Antoine PY et Baptiste Buisson
4
Introduction
Un Web caché…
The opaque Web : nearly visible web
• The Opaque Web
Pages susceptibles d’être indexées mais qui ne le sont pas.
Pourquoi?
- Création de nouvelles pages (pas de détection du robot
« spider »)
- Limitation du moteur sur le nombre de page d’un site
- La page possède peu de backlinks
Antoine PY et Baptiste Buisson
5
Le Web Invisible
Les 4 niveaux d’invisibilités
Web invisible: la partie immergé de l’Iceberg
• The Opaque Web
• The Private Web
Pages exclues volontairement par les Webmasters
Antoine PY et Baptiste Buisson
6
Le Web Invisible
Les 4 niveaux d’invisibilités
Web invisible: la partie immergé de l’Iceberg
• The Opaque Web
• The Private Web
• The Proprietary Web
- Identification nécessaire (l’indexage par le robot est bloqué)
Antoine PY et Baptiste Buisson
7
Le Web Invisible
Les 4 niveaux d’invisibilités
Les banques de données: une partie intégrante du Web
• The Opaque Web
• The Private Web
• The Proprietary Web
• The Truly Invisible web
Toute indexation est impossible en raison des formats
inconnus, de la structure ou de la taille hors norme des informations.
Les pages générées dynamiquement ne peuvent également pas
être gérées par les moteurs de recherche.
Antoine PY et Baptiste Buisson
8
Le Web Invisible
Les 4 niveaux d’invisibilités
Une requête consomme autant qu’une ampoule pendant 1h
Antoine PY et Baptiste Buisson
9
Les serveurs classiques
Historique:
• Les banques de données sont apparues en 1960.
Objectif: Une volonté d’améliorer l’efficacité du web.
• Depuis 1970 des serveurs sont crées par plusieurs
sociétés privées.
Contenu plus qualifié, plus précis, plus vérifié et plus vaste
Antoine PY et Baptiste Buisson
10
Des informations structurées et validées
• Les bases de données hébergent une information structurée et variée.
- Références avec résumé et indexation d’articles…
- Brevets américains, européens…
- Références avec indexation de brevets
- Textes intégrals de milliers de titres de presse
- Informations marketing
Contenu plus qualifié, plus précis, plus vérifié et plus vaste
Antoine PY et Baptiste Buisson
11
Des ressources difficiles d’accès
• Les bases de données sont plus difficiles d’accès que
celle du web visible
- Accès réservé aux abonnées
- Accès Payant
- Connaissance des langages
La croissance de la taille du Web invisible s’atténue de plus en plus
En 2000: la taille du web invisible croissait plus vite que le
web visible. Ceci n’est plus d’actualité. Pourquoi?
• L’indexation de nouveaux formats de fichier
Fichier .pdf (document de qualité): publications scientifiques et
universitaires, rapports de chercheurs…
Fichier .doc, .xls, .ppt, .rtf, .ps
• Les partenariats avec des éditeurs de banques de données
Pages dynamiques
Accord signé entre l’Inst-Cnrs (17 millions de bibliographie)
avec Google
Antoine PY et Baptiste Buisson
12
L’évolution
Taille web visible: 167 téraoctets
Tailles web invisible: 91 000 téraoctet
• Trouver des documents supplémentaires
• Informations plus pertinentes
• Elargir son champ de recherche
Antoine PY et Baptiste Buisson
13
Utilité des recherches dans le deep web
Le web invisible est 544 fois plus grand que le web visible
Les informations à trouver:
- Revues éléctroniques
- Livres électroniques
- Catalogues en ligne
- Des articles
Antoine PY et Baptiste Buisson
14
Les outils
Le fonctionnement:
- Recherche par catégorie
- Possibilité de modifier sa recherche: options de recherche
Les informations à trouver:
- Ressources pertinentes sur
beaucoups de sujets
Antoine PY et Baptiste Buisson
15
Le fonctionnement:
- Recherche par catégorie et par mots-clés
Les outils
Les informations à trouver:
- Ressources pertinentes sur
beaucoups de sujets
Antoine PY et Baptiste Buisson
16
Le fonctionnement:
- Recherche par catégorie
Les outils
Les informations à trouver:
- Sujets académiques
- Dictatitiels sur des techniques
efficaces de recherche
d’internet
Antoine PY et Baptiste Buisson
17
Le fonctionnement:
- Recherche par mots-clés ou par sujet
Les outils
Les informations à trouver:
- Encyclopédies
- Atlas
- Bibliographie
Antoine PY et Baptiste Buisson
18
Le fonctionnement:
- Recherche par mots-clés
Les outils
Moteurs de recherche pour étudiants
Trouver du contenu sur l’ingénierie, les mathématiques et l’informatique
Types d’information:
- Nouvelles sur l’industrie
- Offres d’emploi
- Rapports techniques
- Sites web pertinents
Antoine PY et Baptiste Buisson
19
Le fonctionnement:
- Recherche par mots-clés
Les outils
Antoine PY et Baptiste Buisson
20
Les outils
Méta-moteur
- Nombreuses possibilités de personnalisation et de
paramétrage
- Trouver les informations les plus récentes
The internet behind the internet
• DeepWeb ≠ DarkWeb ≠ Darknet
DarkWeb: le côté « malsain » du DeepWeb
Darknets: réseaux privés virtuels, souvent de petites tailles
et dans le but d’échanger des fichiers,
Antoine PY et Baptiste Buisson
21
Le DarkWeb
The internet behind the internet
Plusieurs Outils existent:
• TOR (The Onion Router)
• Base-search.net
• D’autres moteurs de recherche spécialisés
Antoine PY et Baptiste Buisson
22
Comment y accéder?
Avec Google Chrome Avec TOR
The internet behind the internetAntoine PY et Baptiste Buisson
23
Les Outils
The internet behind the internetAntoine PY et Baptiste Buisson
24
Les Outils
• Béatrice Foenix-Riou : « Recherche éveillé sur Internet: mode d’emploi »
• « Web profond ». Encyclopédie en ligne. Wikipédia, s. d. http://fr.wikipedia.org/wiki/Web_profond
• « Cinq moteurs de recherche pour explorer le darknet ». Site d’information sur les nouvelles technologies. Parlons Geek, s. d.
http://www.parlonsgeek.com/cinq-moteurs-de-recherche-pour-explorer/.
• « Clearing Up Confusion – Deep Web vs. Dark Web », 27 mars 2014.
http://www.brightplanet.com/2014/03/clearing-confusion-deep-web-vs-dark-web/
• « Deep Web, Dark Web, les parties immergées d’Internet | Panoptinet », s. d.
http://www.panoptinet.com/cybersecurite-decryptee/deep-web-dark-web-les-parties-immergees-dinternet/
• Dejonckheere, Eric. « AYA.io - Recherche dans le Web profond ». Blog. AYA.io, 22 juin 2013. http://aya.io/blog/deep-web-search/.
• « La recherche d’Informations sur le Web », s. d. http://c.asselin.free.fr/french/invisible_web.htm.
• « MemoAV_WebInvisible - Memo_WebInvisible.pdf ».
http://bibliotheque.unice.fr/services-et-formations/aide-et-formation/documents/Memo_WebInvisible.pdf.
• « Rechercher l’information - Les informations du web invisible ». http://www.c2imes.org/MODULES/B2/co/I_E_partieB.html.
• Digimind, Découvrir et exploiter le web invisible pour la veille stratégique: http://www.esi.ac.ma/Dossiers/20140126070100.pdf
Antoine PY et Baptiste Buisson
25
Bibliographie
Merci pour votre attention
Antoine PY et Baptiste Buisson
26