Bienvenue. UNIVERSITE MOULOUD MAMMERI DE TIZI OUZOU DEPARTEMENT D’INFORMATIQUE En vue...

39
Bienvenue

Transcript of Bienvenue. UNIVERSITE MOULOUD MAMMERI DE TIZI OUZOU DEPARTEMENT D’INFORMATIQUE En vue...

  • Page 1
  • Bienvenue
  • Page 2
  • UNIVERSITE MOULOUD MAMMERI DE TIZI OUZOU DEPARTEMENT DINFORMATIQUE En vue dobtention du diplme dingnieur dtat en informatique Option Systmes dinformation avancs Travail Ralis par : M R GUENDOUL Samir Dirig par: M r HAMMACHE Arezki PROMOTION2009_2010PROMOTION2009_2010
  • Page 3
  • Thme : Ralisation dun crawler web paramtrable.
  • Page 4
  • Plan : Introduction. Recherche dinformation sur le web. Moteurs de recherche. Crawler. Solution ralise. Conclusion.
  • Page 5
  • Introduction: Recherche dinformation: La recherche d'information est un domaine historiquement li aux sciences de l'information et la bibliothconomie. La recherche informatique a permis le dveloppement doutils pour traiter linformation et tablir la reprsentation des documents linstant de leur indexation. Au sens large, la recherche d'information inclut deux aspects : l'indexation des corpus ; l'interrogation du fonds documentaire ainsi constitu.
  • Page 6
  • Le Web: (www) Cr par Tim Berners-Lee dans les anne 90. Reprsente la couche logique du rseau Internet. Cr pour changer et consulter linformation. Question : Comment accder aux informations nous intressant ? Parcourir tous les composants relis au Web. (tche ardue et lente). Comment faire ?
  • Page 7
  • Les outils de recherche sur le Web Les moteurs de recherche : lun des composants qui ont rvolutionn le web. Cr par Matthew Gray En 1993. Son travail consiste : Chercher les informations pertinentes. Les restituer lutilisateur.
  • Page 8
  • Les outils de recherche sur le Web Les annuaires: Yahoo est le premier faire son entre en 1994. Ils sont constitus par des catalogues organiss en grandes rubriques. Les rsultats sont pertinents mais beaucoup plus restreints. Les mta-moteurs: Un mta-moteur est un moteur de recherche, combinant la recherche dinformation sur plusieurs moteurs de recherche diffrents. web Crawlde, mtaCrawler, etc.
  • Page 9
  • Les moteurs de recherches: Web Liste range Reprsentation de question Anti-dictionnaire Besoin dinformations Formulation Indexeur Classement Retourne le rsultat lutilisateur Crawler Base de stockage prsentation
  • Page 10
  • Processus de moteur de recherche: www Crawler Base de stockage indexeur Anti-dictionnaire Besoin dinformations Module de recherche Liste range requte
  • Page 11
  • Le Crawler: Dfinition: Programme intelligent qui sexcute automatiquement. Parcoure et explore le Web en suivant les line hypertextes. Alimente la base de donn des moteurs de recherche. Archie: Le premier robot apparu dans le web. Cr par Alan Emtage en 1990. Tlcharger le listings dannuaire.
  • Page 12
  • Les types des Crawlers: Crawler Web : il explore tous le Web et aspire les informations correspondantes chaque URL. Crawler indexeur : parcoure, aspirant et index chaque page trouver dans le Web. Crawler chercheur: Rechercher des informations spcifique un domaine prcis par une requte. Cherche sur le web en temps rel. Remarque : Le type de Crawler quest tudi est le Crawler Web.
  • Page 13
  • Architecture Gnrale des Crawlers: Frontire Client HTTP Parseur URLs de dpart www B.D.D Entre Choisir URL Chercher Sauvegarde Fouiller Traiter Ajout dURL Scanneur
  • Page 14
  • Stratgies de parcours: Le web est un graphe dont les nuds sont des pages et les arcs sont des liens. Le crawler commence par quelque nuds est suit les arcs. Dvers Stratgies existe : Le parcours en largeur (FIFO). Le parcours en profondeur (LIFO). Le parcours suivant le degr entrant maximum (DEM). Le parcours alatoire (RANDOM).
  • Page 15
  • Le parcours en Largeur 1 234 56789 10 1 QueueTte 2132143215432165432176543218765432198765432110987654321
  • Page 16
  • Le parcours en profondeur 1 234 56789 10 1 Queue Tte 21521652136521 736521 87365214873652194873652110948736521
  • Page 17
  • Le processus de Crawler: URL Entre URLs de dpart La frontire Client HTTP Choisir URL www BDD chercher sauvegarder Parseur URL parser scanner URLs trouves URL
  • Page 18
  • Critres du Crawler: Les critres suivre : Eviter de parcourir une mme page; Choisir les documents a tlchargs; Ne pas rcolter des fichiers qui peuvent causer des dommages; Eviter de suive un parcours sans fin; Respecter les instructions dexclusion (robot.txt); Ne pas saturer les serveurs.
  • Page 19
  • Les Crawlers distribus: Problme : Immensit de Web. Limite des Crawlers mon-poste. Solution: Ncessit dune nouvelle technologie; Naissance des Crawlers Distribus.
  • Page 20
  • Architecture des Crawlers Distribus: Crawler www BDD Frontir URL Clients Serveur URL...
  • Page 21
  • Solution raliser: Un Crawler Paramtrable
  • Page 22
  • Environnement de dveloppement : La ralisation dun logiciel fiable et performant est capitale. Les outils de dveloppement: Systme dexploitation : Windows Vista. Environnement : Eclipse IDE version 3.4.1. Langage de programmation : JAVA.
  • Page 23
  • Architecture du Systme: Crawler URL document
  • Page 24
  • Architecture du Systme: Interface Utilisateur Noyau Stockage dinformations Initialiser et dmarrer le Crawler Sauvegarder les donnes Consulter les donnes
  • Page 25
  • Le Noyau: Noyau ExploreurParseurScanneurClient HTTP
  • Page 26
  • Le Client HTTP : URL Interroger le serveur www Existe? Oui Non Tlcharger le document Base De Donnes Fin Sauvegarder
  • Page 27
  • Le parseur: Analyser page Contient des liens? Extraire les liens Fille temporaire Fin Oui Non ajouter
  • Page 28
  • Le Scanneur: URLs Vrifier le Protocole Ajouter une fille temporaire Fin HTTP? Non Vrifier le lien interne? Oui Non Oui Vrifier le type existe? Non Vrifier la longueur et la profondeur dpasser? Oui Non
  • Page 29
  • Lexploreur: Frontire Client HTTP vide? Fin Oui Choisir URL Non Parseur Scanneur Ajouter les URLs la frontire Tlcharger Analyser vrifier ajouter recommencer Dbut
  • Page 30
  • Stratgies de parcours: La frontire dtermine quelle stratgie adopter. Nous avons dvelopps quatre stratgies : Parcours en Largeur : utilise une fille FIFO. Parcours en Profondeur : utilise une fille LIFO. Parcours alatoire : programme avec la fonction Random(). Parcours Delay : utilise une fille FIFO, temps de connexion limit. Pour programmer ces fille dattentes, nous avons utiliss la classe ArrayList.
  • Page 31
  • Interface graphique principale:
  • Page 32
  • Ajouter un Crawler:
  • Page 33
  • Panneau gestion Crawler: Proprits du Crawler Etat de parcours Arrter Pause Continuer Dmarrer URLs xplores Pages tlcharges
  • Page 34
  • Consulter les pages tlcharges: Consulter les URLs Explores:
  • Page 35
  • Fin de Crawler
  • Page 36
  • Test Nous avons initialis le Crawler comme suit: Stratgie : Fifo ; Nombre Urls : illimit ; Nombre Rpertoire : illimit ; Longueur Url : illimit ; Type Url : html, php, asp, pdf, doc, txt, ptt ; Url de depart : http://www.ummto.dz/ Aprs onze heur de parcours:
  • Page 37
  • Test
  • Page 38
  • Conclusion Nous avons prsent une tude dtaill sur les Crawler et la solution ralise. Nous avons conquis de nouvelles information sur la RI, et acquis une base solide sur le dveloppement et la programmation de logiciel. En guise de perspective nous proposons, dlaborer une architecture distribue pour le Crawler raliser.
  • Page 39
  • Merci pour votre attention Questions..?