Extraire des « agrégats » de documents sur le web et analyser leurs propriétés topologiques

Extraire des « agrégats » de documents sur le web et analyser leurs propriétés

topologiques

Objectifs théoriques et expérimentaux

Identifier et classer les propriétés topologiques

des agrégats

Principes de corrélation avec l’analyse de contenu

(« propriétés sémantiques »

Produire des hypothèses pour modéliser :

* des relations contiguïté entre agrégats

* des relations de hiérarchie

* des modèles de composition internes des agrégats

* des modèles d’évolution temporelle

* des configurations sociales typiques sur le web

Une série de travaux théoriques reposent sur la modélisation du web comme un graphe dans lequel les pages et/ou les sites sont des nœuds et les liens hypertextes les arcs. Le graphe peut être orienté ou non.Le « web as a graph » a permis depuis 1997 de produire des hypothèses sur sa possible « géographie » (théorie du nœud papillon, « deep-web »), son diamètre, sa structuration topologique, sa « taille » ou l’estimation des son « taux de couverture » par les moteurs de recherche. C’est dans cette perspective que plusieurs algorithmes ont été produits, certains purement topologiques (HITS, ARC, CLEVER, SALSA), d’autres servant seulement à corréler une analyse de contenus (GOOGLE et son PageRank). De nombreuses équipes dans le monde travaillent sur le sujet avec différentes méthodes.Jon KLEINBERG, l’un des pères de la « théorie des agrégats » estime leur nombre à 100.000 en 1998.

Web de surface – les sites les plus connectés qui assurent au web son unité et ses distances réduites, les points d’entrée classiques (black list : Amazon, Microsoft, Google…)

Deep-Web – univers des bases de données difficilement accessibles via les moteurs classiques.

Agrégatsproduits de propriétés

topologiques et sémantiques

1

2

3

Coupe géologique du webCoupe géologique du web

RessourcesCalcul de densité (obsolue et relative)Estimation du volume de ressources

Frontières externesRelations de voisinage(corrélation avec l’analyse de contenu)

HUBs (liens sortants)

Authorities (liens entrants)

Hubs et authorites ont tendance à se renforcer mutuellement. C’est un des principes énoncés par Kleinberg et sur lequel est fondé le premier algorithme de détection des agrégats, HITS.

Frontières internes(sous-agrégats)(corrélation avec l’analyse de contenu)

« Objets sociaux »Recherche d’indices de cohésion sociale : Web-RingsWebLogs, Wiki, mail et liste de diffusion…

C’est l’idée des FOCUSED-CRAWL que décrit une série d’articles récents. Plusieurs principes algorithmiques et méthodologiques sont à la base du développement de dispositifs expérimentaux qui ont pour objectif d’isoler et d’extraire des « web localities » sous forme d’agrégats que certains qualifient de « communautaires ». C’est aussi ce que Barhat et Kumar appelent le principe de « Topic Distillation ».

« Topical Locality In The Web : experiments and observations », B.-D. Davison, 2000.« Experiments In Social Data Mining : The TopicShop system », B. Amento, L. Terveen, W. Hill, 2002.« Extracting Large-Scale Knowledge Basis From The Web », R. Kumar, P. Raghavan, S. Rajagopalan, A. Tomkins, « Clustering Of Web Search Results With links Analysis », Y. Wang, M. Katsuregawa, 2000.« Focused Crawling: A New Approach To Topic-Specific Web Resource Discovery », A.-M. Van Den Berg, S. Chakrabarti, B. Dom, 2001.« Who Links To Whom: Mining Linkage Between Web Sites », K. Barhat, M. Henzinger, B.-W. Chang, M. Ruhl, 2001.« Visualizing The Evolution Of Web Ecologies », J. Pitkow, J. Mackinlay, P. Pirolli, S.-K. Card, 1998.« Trawling The Web For Emerging Cyber-Communities », R. Kumar, P. Raghavan, S. Rajagopalan, A. Tomkins, 1999.« Distributed Hypertext Resource Discovery Through Examples », S. Chakrabarti, M.-H. Van Den Berg, B.-E. Dom, 2000.« Unifying Text and Link Analysis », B. D. Davison, 2003.« Recongnizing Nepotistic Links On The Web », B. D. Davison, 2000.« DiscoWeb: Applying Link Analysis To Web Search », B. D. Davison, 1999.« Connectivity Review », F. Crimmins, 2000.« Inferring Sub-Culture Hierarchies Based On Object Diffusion On The World Wide Web », T.-G. Chiou, J. Donath, 1999.« Life, Death, and Lawfulness on the Electronic Frontier », J. Pitkow, 1997.« Monitoring The Dynamic Web To Respond To Continuous Queries », S. Pandey, K. Ramamritham, S. Chakrabarti, 2003.

Il s’agit de « stabiliser » les agrégats dans une configuration « stable » pour les extraire, les visualiser et les analyser dans le temps. L’ensemble des « filtres » topologico-sémantiques peuvent être considérés comme des formes de curseurs servant à « figer » les agrégats en une configuration précise

topologie

sémantique

1) Relations de voisinage Les agrégats entretiennent entre eux des relations de contiguïté. Elles sont à déterminer en fonction de paramètres topologiques (par ex. de variation de densité) et sémantiques (dispersion des mots-clefs). On peut faire l’hypothèse que ces relations sont de nature très différentes de ce que propose, par exemple, les catégories et sous-catégories YAHOO.

2) Relations hiérarchiques Les relations hiérarchiques entre agrégats sont pour l’heure difficiles à cerner et dépendent en grande partie du « degré de focus » des outils d’exploration. On admettre en principe l’idée de possibles clustering d’agrégats, tout comme l’idée qu’en deçà d’un certain seuil d’exploration il n’est plus possible d’extraire d’organisation spécifique tant topologique que sémantique

3) Modèles d’organisation interne On peut admettre qu’il existe des types, ou à tout le moins des degrés d’organisation interne des agrégats. Ces modèles dépendent entre autre du degré de densité hypertexte des agrégats mais aussi probablement de « schémas » communautaires plus ou moins implicites (par ex. des façons de développer des liens transversaux entre sites)

Type 1 Type 2

4) Evolution temporelle

La stabilisation des agrégats permettra d’entamer une veille temporelle de certains agrégats. L’objectif est de pouvoir identifier les étapes de l’évolution d’un agrégat, en termes de paliers successifs s’ils existent ou de scénarios-types (fusion d’agrégats proches, dissociation d’un agrégats en plusieurs, paliers d’expansion, degré de cohésion interne…). La question nous semble essentielle pour l’archivage des réseaux.

étape 1 étape 2

étape 3

5) Agrégats et configuration sociale des communautés

La question des agrégats n’est pas différenciable de celle des cyber-communautés, de leurs formes typiques d’organisation et de fonctionnement. C’est pourquoi la modélisation des agrégats doit s’accompagner d’une étude de tous les types « d’objets sociaux » auxquels ils s’associent. Il s’agirait ici d’en faire la typologie et de comprendre selon quels principes agrégats et « objets sociaux » sont complémentaires.

-mailto-liste de diffusion-Web ring-Wiki-WebLogs

Les données topologiques doivent être corrélées à une analyse de « contenu » (balises META, full-text) selon différentes méthodes. Il s’agit de comprendre comment s’organise « géographiquement » la distribution du « sens » dans la topologie des agrégats. Les méthodes de corrélation entre distribution des mots-clefs et propriétés topologiques doivent être plurielles, et surtout dynamiques lors des crawls. C’est l’un des principes fondateurs du monitoring et l’une des propriétés essentielles d’un outil d’exploration des agrégats dédié à des experts du domaine.

temps crawl graphefiltrage

profondeur 0

profondeur 3

profondeur 2

profondeur 1

Point d’entrée Déjà visité

Non désiré(blacklist)

Découvert à ce niveau

Deuxième étape : Reconstitution du graphe de site par regroupement de pages suivant un algorithme spécifique (pour l’instant regroupement par nom de domaine ex : www.utc.fr)

Première étape : Construction d’un graphe de pages en suivant les liens

graphe par page

graphe par site

Site a Site d

Site eSite b

Site fSite c

A partir de cette étape, tous les traitements sont effectués à l’échelle du site

Troisième étape :

Filtres topologiques :

Identification des « hubs » et des « authorities » par calcul du maximum et du minimum de connectivité

filtrage topologique

Hub Authority

Filtres sémantiques :

Traitement statistiques à partir des métadonnées et du full-text

Extraction des frontières et des sous-domaines "sémantiquement homogènes"

filtrage sémantique

Possède les mots clés a, b, c

Possède les mots clés d, e, f

Ne possède pas de lien sémantique

Quatrième étape : visualisation, contextualisation et manipulation

Barre de menu : elle permet le lancement et l’ouverture de crawls, d’appliquer les différents filtres et de lancer les outils

Outils : ils permettent de visualiser les données brutes de la base de données et de faire des recherches sur les mots clés

Graphe : il représente le graphe des sites. Grâce à sa fonction « locality », il permet de fixer le focus sur un nœud et d’afficher seulement son voisinage proche

Browser : il affiche la page web associée à un nœud après clic sur celui-ci dans le graphe

Schéma synthétique de la chaîne logicielle du robot Tarent

Extraire des « agrégats » de documents sur le web et analyser leurs propriétés topologiques

Documents

Transcript of Extraire des « agrégats » de documents sur le web et analyser leurs propriétés topologiques