Extraire des « agrégats » de documents sur le web et analyser leurs propriétés topologiques
description
Transcript of Extraire des « agrégats » de documents sur le web et analyser leurs propriétés topologiques
Extraire des « agrégats » de documents sur le web et analyser leurs propriétés
topologiques
Objectifs théoriques et expérimentaux
Identifier et classer les propriétés topologiques
des agrégats
Principes de corrélation avec l’analyse de contenu
(« propriétés sémantiques »
Produire des hypothèses pour modéliser :
* des relations contiguïté entre agrégats
* des relations de hiérarchie
* des modèles de composition internes des agrégats
* des modèles d’évolution temporelle
* des configurations sociales typiques sur le web
Une série de travaux théoriques reposent sur la modélisation du web comme un graphe dans lequel les pages et/ou les sites sont des nœuds et les liens hypertextes les arcs. Le graphe peut être orienté ou non.Le « web as a graph » a permis depuis 1997 de produire des hypothèses sur sa possible « géographie » (théorie du nœud papillon, « deep-web »), son diamètre, sa structuration topologique, sa « taille » ou l’estimation des son « taux de couverture » par les moteurs de recherche. C’est dans cette perspective que plusieurs algorithmes ont été produits, certains purement topologiques (HITS, ARC, CLEVER, SALSA), d’autres servant seulement à corréler une analyse de contenus (GOOGLE et son PageRank). De nombreuses équipes dans le monde travaillent sur le sujet avec différentes méthodes.Jon KLEINBERG, l’un des pères de la « théorie des agrégats » estime leur nombre à 100.000 en 1998.
Web de surface – les sites les plus connectés qui assurent au web son unité et ses distances réduites, les points d’entrée classiques (black list : Amazon, Microsoft, Google…)
Deep-Web – univers des bases de données difficilement accessibles via les moteurs classiques.
Agrégatsproduits de propriétés
topologiques et sémantiques
1
2
3
Coupe géologique du webCoupe géologique du web
RessourcesCalcul de densité (obsolue et relative)Estimation du volume de ressources
Frontières externesRelations de voisinage(corrélation avec l’analyse de contenu)
HUBs (liens sortants)
Authorities (liens entrants)
Hubs et authorites ont tendance à se renforcer mutuellement. C’est un des principes énoncés par Kleinberg et sur lequel est fondé le premier algorithme de détection des agrégats, HITS.
Frontières internes(sous-agrégats)(corrélation avec l’analyse de contenu)
« Objets sociaux »Recherche d’indices de cohésion sociale : Web-RingsWebLogs, Wiki, mail et liste de diffusion…
C’est l’idée des FOCUSED-CRAWL que décrit une série d’articles récents. Plusieurs principes algorithmiques et méthodologiques sont à la base du développement de dispositifs expérimentaux qui ont pour objectif d’isoler et d’extraire des « web localities » sous forme d’agrégats que certains qualifient de « communautaires ». C’est aussi ce que Barhat et Kumar appelent le principe de « Topic Distillation ».
« Topical Locality In The Web : experiments and observations », B.-D. Davison, 2000.« Experiments In Social Data Mining : The TopicShop system », B. Amento, L. Terveen, W. Hill, 2002.« Extracting Large-Scale Knowledge Basis From The Web », R. Kumar, P. Raghavan, S. Rajagopalan, A. Tomkins, « Clustering Of Web Search Results With links Analysis », Y. Wang, M. Katsuregawa, 2000.« Focused Crawling: A New Approach To Topic-Specific Web Resource Discovery », A.-M. Van Den Berg, S. Chakrabarti, B. Dom, 2001.« Who Links To Whom: Mining Linkage Between Web Sites », K. Barhat, M. Henzinger, B.-W. Chang, M. Ruhl, 2001.« Visualizing The Evolution Of Web Ecologies », J. Pitkow, J. Mackinlay, P. Pirolli, S.-K. Card, 1998.« Trawling The Web For Emerging Cyber-Communities », R. Kumar, P. Raghavan, S. Rajagopalan, A. Tomkins, 1999.« Distributed Hypertext Resource Discovery Through Examples », S. Chakrabarti, M.-H. Van Den Berg, B.-E. Dom, 2000.« Unifying Text and Link Analysis », B. D. Davison, 2003.« Recongnizing Nepotistic Links On The Web », B. D. Davison, 2000.« DiscoWeb: Applying Link Analysis To Web Search », B. D. Davison, 1999.« Connectivity Review », F. Crimmins, 2000.« Inferring Sub-Culture Hierarchies Based On Object Diffusion On The World Wide Web », T.-G. Chiou, J. Donath, 1999.« Life, Death, and Lawfulness on the Electronic Frontier », J. Pitkow, 1997.« Monitoring The Dynamic Web To Respond To Continuous Queries », S. Pandey, K. Ramamritham, S. Chakrabarti, 2003.
Il s’agit de « stabiliser » les agrégats dans une configuration « stable » pour les extraire, les visualiser et les analyser dans le temps. L’ensemble des « filtres » topologico-sémantiques peuvent être considérés comme des formes de curseurs servant à « figer » les agrégats en une configuration précise
topologie
sémantique
1) Relations de voisinage Les agrégats entretiennent entre eux des relations de contiguïté. Elles sont à déterminer en fonction de paramètres topologiques (par ex. de variation de densité) et sémantiques (dispersion des mots-clefs). On peut faire l’hypothèse que ces relations sont de nature très différentes de ce que propose, par exemple, les catégories et sous-catégories YAHOO.
2) Relations hiérarchiques Les relations hiérarchiques entre agrégats sont pour l’heure difficiles à cerner et dépendent en grande partie du « degré de focus » des outils d’exploration. On admettre en principe l’idée de possibles clustering d’agrégats, tout comme l’idée qu’en deçà d’un certain seuil d’exploration il n’est plus possible d’extraire d’organisation spécifique tant topologique que sémantique
3) Modèles d’organisation interne On peut admettre qu’il existe des types, ou à tout le moins des degrés d’organisation interne des agrégats. Ces modèles dépendent entre autre du degré de densité hypertexte des agrégats mais aussi probablement de « schémas » communautaires plus ou moins implicites (par ex. des façons de développer des liens transversaux entre sites)
Type 1 Type 2
4) Evolution temporelle
La stabilisation des agrégats permettra d’entamer une veille temporelle de certains agrégats. L’objectif est de pouvoir identifier les étapes de l’évolution d’un agrégat, en termes de paliers successifs s’ils existent ou de scénarios-types (fusion d’agrégats proches, dissociation d’un agrégats en plusieurs, paliers d’expansion, degré de cohésion interne…). La question nous semble essentielle pour l’archivage des réseaux.
étape 1 étape 2
étape 3
5) Agrégats et configuration sociale des communautés
La question des agrégats n’est pas différenciable de celle des cyber-communautés, de leurs formes typiques d’organisation et de fonctionnement. C’est pourquoi la modélisation des agrégats doit s’accompagner d’une étude de tous les types « d’objets sociaux » auxquels ils s’associent. Il s’agirait ici d’en faire la typologie et de comprendre selon quels principes agrégats et « objets sociaux » sont complémentaires.
-mailto-liste de diffusion-Web ring-Wiki-WebLogs
Les données topologiques doivent être corrélées à une analyse de « contenu » (balises META, full-text) selon différentes méthodes. Il s’agit de comprendre comment s’organise « géographiquement » la distribution du « sens » dans la topologie des agrégats. Les méthodes de corrélation entre distribution des mots-clefs et propriétés topologiques doivent être plurielles, et surtout dynamiques lors des crawls. C’est l’un des principes fondateurs du monitoring et l’une des propriétés essentielles d’un outil d’exploration des agrégats dédié à des experts du domaine.
temps crawl graphefiltrage
profondeur 0
profondeur 3
profondeur 2
profondeur 1
Point d’entrée Déjà visité
Non désiré(blacklist)
Découvert à ce niveau
Deuxième étape : Reconstitution du graphe de site par regroupement de pages suivant un algorithme spécifique (pour l’instant regroupement par nom de domaine ex : www.utc.fr)
Première étape : Construction d’un graphe de pages en suivant les liens
graphe par page
graphe par site
Site a Site d
Site eSite b
Site fSite c
A partir de cette étape, tous les traitements sont effectués à l’échelle du site
Troisième étape :
Filtres topologiques :
Identification des « hubs » et des « authorities » par calcul du maximum et du minimum de connectivité
filtrage topologique
Hub Authority
Filtres sémantiques :
Traitement statistiques à partir des métadonnées et du full-text
Extraction des frontières et des sous-domaines "sémantiquement homogènes"
filtrage sémantique
Possède les mots clés a, b, c
Possède les mots clés d, e, f
Ne possède pas de lien sémantique
Quatrième étape : visualisation, contextualisation et manipulation
Barre de menu : elle permet le lancement et l’ouverture de crawls, d’appliquer les différents filtres et de lancer les outils
Outils : ils permettent de visualiser les données brutes de la base de données et de faire des recherches sur les mots clés
Graphe : il représente le graphe des sites. Grâce à sa fonction « locality », il permet de fixer le focus sur un nœud et d’afficher seulement son voisinage proche
Browser : il affiche la page web associée à un nœud après clic sur celui-ci dans le graphe
Schéma synthétique de la chaîne logicielle du robot Tarent