Xavier Tannier [email protected] Recherche dInformation sur le Web Extraction dInformation...

Xavier [email protected]

Recherche d’Information

sur le Web

Extraction d’Informationdans les Textes I

Rappels des épisodes précédents

Extraction d’Information dans les Textes IXavier Tannier

RI sur le Web

Recherche d'Information

3

Collections dynamiquesvs. statiques

Requête

Indexation(modèle de document)

Modèle derecherche

Évaluation


RI sur le Web

Construction de l’index : vue générale

4

TEXTERien ne sert de courir; il faut partir à point :Le lièvre et la tortue en sont un témoignage.

«Gageons, dit celle-ci, que vous n'atteindrez pointSitôt que moi ce but. - Sitôt? Êtes-vous sage ?

Repartit l'animal léger : Ma commère, il vous faut purger Avec quatre grains d'ellébore.) - Sage ou non, je parie encore."

Ainsi fut fait; et de tous deux On mit près du but les enjeux :

Savoir quoi, ce n'est pas l'affaire, Ni de quel juge l'on convint.

Notre lièvre n'avait que quatre pas à faire,J'entends de ceux qu'il fait lorsque, prêt d'être atteint,

Il s'éloigne des chiens, les renvoie aux calendes, Et leur fait arpenter les landes.

Ayant, dis-je, du temps de reste pour brouter, Pour dormir et pour écouter

D'où vient le vent, il laisse la tortue Aller son train de sénateur.

Elle part, elle s'évertue, Elle se hâte avec lenteur.

Lui cependant méprise une telle victoire, Tient la gageure à peu de gloire,

Croit qu'il y a de son honneur De partir tard. Il broute, il se repose,

Il s'amuse à toute autre chose Qu'à la gageure. A la fin, quand il vit

Que l'autre touchait presque au bout de la carrière,Il partit comme un trait; mais les élans qu'il fit

Furent vains : la tortue arriva la première."Eh bien! lui cria-t-elle, avais-je pas raison ?

De quoi vous sert votre vitesse ? Moi l'emporter! et que serait-ce Si vous portiez une maison ?"

TERMES

Rien ne sert de

courir il faut

partir à point

TERMES NORMALISÉS

rien sert

courir faut

partir point

DOCUMENTS INDEX

Le Web,

qu’est-ce que ça change ?

Extraction d’Information dans les Textes I

RI sur le WebXavier Tannier

• Environ 250 millions de sites Web• Plus de 1000 milliards de pages Web (selon Google)• Bientôt 2 milliards d'humains connectés• Beaucoup, beaucoup d'information

Qu'est-ce que le Web ?

6

25 Terabytes of Log Data – DailyThe amount of log data amassed in Facebook’s

operations is staggering. Rothschild said Facebook manages more than 25 terabytes of data per day in logging data, which he said was the equivalent of about 1,000 times the volume of mail delivered daily by the U.S. Postal Service.



Du contenu (un peu) structuré

• Des métadonnées

7

<head> <title>Xavier Tannier, page personnelle (home page)</title> <meta name="description" lang="fr" content="Page personnelle de

Xavier Tannier"/> <meta name="description" lang="en" content="Xavier Tannier Home

Page"/> <meta name="author" content="Xavier Tannier"/> <meta name="keywords" lang="fr" content="informatique,

enseignement, recherche d'information, langage naturel, TAL, moteurs de recherche"/>

…




8

• Des liens• Un complément d'information• Une dimension sociale

OpenGraph protocol




• Des indications de forme– Titres (h1, h2…)– Caractères gras, italiques, soulignés– Couleurs– Listes…

9




• Du balisage "sémantique" pour l'application de feuilles de style

10

<h1>La SNCF toujours à l’heure sur la hausse des prix</h1> <h4>décryptage</h4> <p class="sstitre">Poussé par le gouvernement, […] </p> <p class="clear"><a href="http://www.liberation.fr/economie/01022306352-reaction-sur-la-sncf-

toujours-a-l-heure-sur-la-hausse-des-prix" class="reactions" title="Réaction à l'article 'La SNCF toujours à l’heure sur la hausse des prix'">2 réactions</a></p> <p class="clear authors">Par <strong>CATHERINE MAUSSION</strong></p> <img class="" alt="Des TGV à la gare de Lyon, à Paris." src="http://q.liberation.fr/photo/id/214862/r/03/02/w/459/m/1291632570"> <p class="legende"> Des TGV à la gare de Lyon, à Paris. (© AFP Loic Venance) </p> <div class="teaseTitle"> Le nouveau secrétaire d’Etat aux Transports, […]</div> <div id="libe-access-block"> <div id="bloc-article-abonne"> <div class="bloc-article-abonne-container"> <span class="reserv">La lecture de cet article est réservée aux abonnés LIBE+. <a href="http://monlibe.liberation.fr/offres"><span class="color">Abonnez-vous</span></a> dès maintenant, à partir de 6€ par mois.</span>


RI sur le Web

Un contenu dynamique

11


RI sur le Web


12


RI sur le Web


13


RI sur le Web

Un contenu redondant

14


RI sur le Web

Un contenu souvent non informatif

15

MenusLiensIndex

Publicités



Un contenu non contrôlé

• Tout le monde peut à la fois être lecteur et producteur d'info– Ajouter son propre contenu au Web est devenu simple et gratuit– Pages persos, blogs, wikis, forums, listes de diffusion...– Les institutions et les particuliers sont a priori sur le même pied

• Le Web fourmille d'informations fausses• Les métadonnées sont peu utilisées• Les créateurs de pages peuvent modifier le contenu pour améliorer

leur classement sur les moteurs de recherche– Répétition de mots-clés dans des couleurs non visibles ou dans les

métadonnées – Spamming : pas de contenu mais une énumération de mots-clés destinés

uniquement à être visible sur les moteurs de recherche

16



Un contenu non contrôlé

• De la structure– Formulaires, menu : [HTML], [TEXTE]– Tableaux : [HTML], [TEXTE]

• Du contenu sans information– [HTML]

• Du spam– [HTML]

17



Un contenu « caché »

• « Web profond »– Les sites "non liés" (Web opaque)– Le contenu à accès limité– La plupart des pages dynamiques

La majeure partie du Web n'est pas indexée (Web profond = 500 fois le Web de surface selon BrightPlanet 2001)

Protocole sitemap de Google

18



Des besoins d’utilisateurs différents• Besoins d’information

– Accès à la connaissance sur un sujet – « Chevaliers paysans de l'an mil au lac de Paladru »– Entre 40 et 65 % des requêtes

• Besoins de navigation– Recherche d’une page précise– « Facebook », « Le Monde »– Entre 15 et 25 %

• Besoins de transaction– Recherche d’un service opéré sur le Web– « billets SNCF », « Canon EOS 550 D », « météo Argentine »– Entre 20 et 35 %

• Les frontières ne sont pas toujours claires…

19



Des enjeux importants

• Des enjeux économiques– 115 milliards d'euros générés par le Web en 2009 au Royaume-Uni– 75 % des sites sont trouvés par l’intermédiaire d’un moteur de recherche

(source : WebPosition)

• Des enjeux culturels et politiques– Une prédominance américaine sur la gouvernance et les outils– Des algorithmes de recherche et des moyens mis en œuvre secrets– Une volonté de contrôle par les pouvoirs en place

• Des enjeux éthiques– Un réseau international, mais des droits nationaux– Le plagiat est devenu monnaie courante– Attention au respect de la vie privée– L'information est très difficile à effacer !

20

Crawling



Le crawling dans le principe

Des robots (ou crawlers, spiders, ...) partent d’une liste d’URL connues (amorces)

Ils "parcourent" les sites et indexentleur contenu - Extraction des URL présentes

dans les nouveaux sites - Placement de ces URL dans la file d’attente

Ils explorent ensuite la file d’attente

22



Oui, mais…

• Une seule machine ne peut pas gérer le parcours du Web entier– Le crawling doit être distribué

• Certaines pages sont « malicieuses »– Spam– Des « pièges à robots » (intentionnels ou non)

• Et il faut gérer :– La latence et la bande passante des serveurs– Les stipulations des webmasters– Les sites miroirs et les pages dupliquées– Les règles de politesse

23



Le crawling dans la pratique

Un crawler doit :– Être poli :

• Ne pas solliciter un serveur trop souvent• Ne parcourir que les pages autorisées• Respecter les stipulations du robots.txt

– Être robuste :• Éviter les pièges et les comportements malicieux des serveurs• Passer à l’échelle convenablement

– Tâches distribuées– Conception propre à augmenter régulièrement le nombre de sites visités

• Savoir s’adapter à de nouveaux formats ou protocoles– Être pertinent :

• Parcourir les pages de « qualité » en priorité• Repasser souvent dans les endroits animés

24



La politesse du robot

• Politesse implicite : ne pas solliciter un serveur trop souvent

• Politesse explicite : le robots.txt– Un protocole permettant de choisir l’accès donné au crawler sur un site– Le site annonce les restrictions dans un fichier robots.txt à la racine. Exemple :

• Aucun robot ne doit visiter les URL du répertoire /fichiers/perso, sauf le robot nommé « lebonmoteur »

• User-agent: *Disallow: /fichiers/persoUser-agent: lebonmoteurDisallow:

– www.robotstxt.org/wc/norobots.html

25

http://www.robotstxt.org/wc/norobots.html



Les étapes du crawling

1. Choisir une URL dans la file d’attente

2. Récupérer le document correspondant

3. Analyser le document– Extraire les liens externes– Pour chaque lien externe :

• Vérifier qu’il vérifie les contraintes (robots.txt, contraintes spécifiques au moteur)

• Vérifier qu’il n’est pas déjà dans la file d’attente• Si c’est bon, l’ajouter dans la file d’attente

4. Vérifier que le contenu du document est nouveau– Si oui, ajouter à l’index

26

Priorités des URL

DNS

Normalisation des URL

Détection de doublons

Mise en cache des robots.txt



Détection de doublons

• Le Web est rempli de doublons (plagiat, éditions multiples, etc.)• Mais ce ne sont pas des doublons parfaits

– Les procédés de fingerprinting ne suffisent donc pas– Il faut mettre en œuvre des mesures de similarité



Priorités des URL : l’exemple de Mercator

• Deux contraintes en conflit– Être poli– Visiter plus souvent les pages fréquemment modifiées

• Une file avec priorité simple (FIFO) est malpolie : les pages proposent souvent des liens vers leur propre site

• Deux types de files d’attente :– T1 pour gérer les priorités– T2 pour gérer la politesse

28

Liste d’URL

m files d’attente de type

T1

n files d’attente de type

T2

choix des priorités sélection routage choix de l’URL à visiter

Mercator



Files de type T1

• Chaque URL reçoit une priorité comprise entre 1 et m.– Fréquence de visites en fonction des précédentes visites et des changements

de la page lors de ces visites– Choix spécifiques (par exemple, visiter les sites de news plus souvent)

• L’URL est ajoutée à la file d’attente correspondante– Chaque file d’attente est de type FIFO

29

Liste d’URL


T2



T1

Mercator



Passage des URL des files T1 aux files T2

• Quand une file T2 cherche une nouvelle URL, on en sélectionne une dans une file T1 – En fonction des priorités ou au hasard

• Chaque file T2 contient les URL d’un seul et même hôte – On maintient un dictionnaire reliant un hôte à la file correspondante– Chaque file doit rester non-vide !– Pour chaque hôte, on conserve également le moment te auquel il pourra être

sollicité de nouveau (heuristique fonction du dernier accès)

30

Liste d’URL



T1


T2

Mercator




T1

Choix de l’URL à visiter

31

Liste d’URL



T2

• Un thread du crawler qui cherche une nouvelle URL à visiter :– Choisit un hôte h ayant un te < maintenant

– Prend le premier élément de la file d’attente T2h correspondant à cet hôte• Si T2h est maintenant vide, sélectionner une URL u dans les files T1

– Si l’hôte de u possède déjà une file T2, l’ajouter à cette file et recommencer– Sinon utiliser T2h pour cette URL et créer une nouvelle entrée pour cet hôte

• Si T2h est non-vide, mettre à jour te

• Recommandation : utiliser 3 fois plus de files T2 que de threads– Pour garder tous les threads occupés tout en restant poli

Mercator

Le spam

32



Qu’est-ce que le spam pour un moteur de RI ?

• Un spam est une page Web qui remonte dans les résultats d’un moteur de recherche :– Pour des mots-clés précis– De façon artificielle– (Indépendamment de son contenu réel)

• Pourquoi faire du spam ?– Parce qu’être dans les premiers résultats pour certaines requêtes peut

rapporter gros– L’optimisation pour moteurs de recherche (SEO) est une activité économique

à part entière

• Pourquoi de contrer le spam ?– Parce que le spam est souvent à l’opposé de la notion de pertinence

33



Comment spammer ?

• Les premiers moteurs de recherche s’appuyaient essentiellement sur le tf.idf

• Le cloaking : présenter un contenu différent à un moteur de recherche qu’à un humain– Avec l’adresse IP ou le user-agent

• La redirection : optimiser une page pour un seul mot-clé, puis rediriger l’internaute vers la « vraie » page

34

• Comment faire du spam avec du tf.idf ?• Comment conserver une page lisible tout en

pratiquant ce type de spam ?



La lutte contre le spam• Repérer les pages qui font autorité

– Votes des utilisateurs– Votes des autres auteurs de pages (voir plus loin)

• Des limites sur les mots-clés• Analyse de liens

– Repérer les chaînes de liens suspectes– Les spammeurs font des liens vers d’autres spammeurs

• Apprentissage– Trouver des « traits » importants pour différencier un spam d’une page

honnête– Faire (un peu) d’analyse linguistique– Utiliser des ensembles d’apprentissage sur des listes connues de spams

• Etc.

35

Lesquels ?

Le PageRank

36



PageRank

• Mesure de l'importance relative objective d'une page Web :– Indice de popularité ; notion de confiance collaborative– Utilisation de la structure des liens du Web :

• Les liens sortants (forward links) • Les liens entrants (backlinks)

• Justification intuitive :– Le nombre de liens entrants d'une page est

révélateur d'une certaine importance (analogie : spéculation des futurs Prix Nobel par des comptages de citations)

– Une page ayant un lien entrant provenant d'un site lui-même important (journal en ligne, grand site, portail, etc.) est plus importante qu'une page ayant des liens entrant provenant de sites peu importants : notion récursive de l'importance d'une page

• On voit le Web comme un graphe

37



PageRank

• La probabilité pour qu'un utilisateur cliquant au hasard arrive sur une page.

• Obtenir un fort PageRank pour une page qui a de nombreux liens entrants et/ou des liens entrants provenant de pages elles-mêmes importantes :

– Bu : ensemble des pages ayant un lien entrant sur la page u– C(v) : nombre de liens sortant de la page v (chaque page diffuse son vote de

façon égale sur tous ses liens sortants)– d : facteur d'amortissement ; d vaut 0.85, donc une page n'ayant aucun lien

entrant aura un PageRank de 0.15

38

)1()(

)()( d

vC

vPRduPR

Buv

N

1

Quelle est la signification de d ? Son utilité ?



Calcul du PageRank

• Le PageRank moyen est 1 (avec 1/N, la somme des PR est 1)• Le PageRank d'une page dépend des PageRanks des pages qui

pointent vers elle :– Calcul des PageRanks sans connaître la valeur finale

de tous les PageRanks impliqués– Itérations qui approchent des valeurs finales

jusqu'à convergence– La valeur initiale n'affecte pas les valeurs finales

mais le nombre d'itérations pour atteindre la convergence (ex : prendre des valeurs initiales correspondant à la fréquentation des pages)

– Le coût pour le calcul des PageRanks est très faible relativement au temps de construction d'un index complet

39


RI sur le Web

Calcul du PageRank

40


RI sur le Web

Calcul du PageRank

41

A B

C

DValeurs relatives des PageRanks

des pages ?


RI sur le Web

Calcul du PageRank

42

A B

C

D

1,49

1,58

0,78

0,15• (20 itérations sont nécessaires pour la convergence)• La page D a une valeur minimale du PageRank

(aucun lien entrant)• La page C a de nombreux liens entrants• La page A bénéficie du lien entrant provenant de la page C

PR moyen = 1


RI sur le Web

PageRank : cas simple

43

Home0,92

Contact

Produit

Liens

Lien externe A

Lien externe B

Lien externe C

Lien externe D

0,41

0,41

0,41

0,22

0,22

0,22

0,22

0,85

0,39

0,39

0,39

0,19

0,19

0,19

0,19

Lien externe E0,19

Lien externe F0,19

Lien externe G0,19

Lien externe H0,19



PageRank : cas simple

• Rétroaction des valeurs des PageRanks pour la page Home• Plus le nombre de liens sortant de la page Links est important, plus

le partage du PageRank est diffus• Plus le nombre de pages augmente, plus des pages sans nouveaux

liens entrant perdent de l'importance• Avoir un lien vers une page

importante n'augmente pas le PR (!)

44



PageRank : la tentation du spam

• Le nombre de pages d'un site n'augmente pas le PR moyen• Une certaine organisation hiérarchique d'un site peut fortement

concentrer le PR sur la page principale • Maintenant décelable par les robots (ex : Googlebot) qui pénalisent

le site

45

Page A331,0

Page B281,6

Spam 10,39

Spam 20,39

Spam 10000,39

……………………

Autres éléments-

Utilisation de l’apprentissage automatique

46



Autres éléments pour le classement des pages

• Il n’y a pas que le tf.idf et le PageRank, loin de là…– Les mots-clés des liens– Les couleurs– La casse des mots– Les titres– Le nombre d’images– Le nombre de liens sortants– La taille de l’URL– L’URL contient une « ~ »– La date de dernière modification– La taille de la page– …

• Les gros moteurs de recherche utilisent des centaines d’éléments



Apprentissage

• On sait que tous ces éléments comptent pour estimer la pertinence d’une page– Une page contenant un mot-clé dans le titre est plus pertinente qu’une autre

contenant le mot-clé dans le contenu– Une page contenant un mot-clé en rouge est plus pertinente qu’une autre

contenant le mot-clé en noir

• Mais à quel point ?– Une page contenant un mot-clé dans le titre vs. une page

contenant 8 mots-clés dans le contenu ?– Une page contenant deux mots-clés en rouge vs. une page

contenant 1 mot-clé dans le titre et un autre en gras ?– etc.

• De plus, ces éléments sont interdépendants

48



Apprentissage : exemple

• Présence du mot-clé dans le titre (T) ou dans le corps (C) du document.

– On postule :

• Problème : comment estimer la valeur de g ? À partir d’exemples annotés manuellement !

49

Pourquoi ?

Exemple DocId Requête Pertinence E1 12 billet 1 1 OKE2 32 bateau 0 1 KOE3 32 Ecosse 0 1 OKE4 256 billet 0 0 KOE5 1352 billet 1 1 OKE6 4582 bateau 0 1 OKE7 9510 billet 1 0 KO




• Pour chaque exemple, l’erreur quadratique est

• L’erreur totale est donc l’erreur quadratique moyenne

• Il faut donc choisir un g qui minimise cette erreur

50




• Estimation de g en fonction de :– nb d’exemples avec , , – nb d’exemples avec , , – nb d’exemples avec , , – nb d’exemples avec , , – etc.

• L’erreur totale est donc

Quelle est la meilleure valeur possible de g ?

51



Généralisation

• Beaucoup plus de traits différents

• Des traits non-booléens – Taille du document– Texte en gras souligné…– etc.– On peut alors traiter (par exemple) avec la variance et l’espérance des

données exemples (classification bayésienne)

• Des combinaisons non-linéaires• Des jugements de pertinence gradués• etc.

52



« Learning to rank »• En RI moderne on ne veut pas séparer les documents entre

pertinents et non pertinents, mais les classer entre eux• On fait donc de la classification par paires de résultats• Classes :

– Est meilleur que– Est moins bon que

• Puis on ordonne.• De nombreuses méthodes de classification sont employées :

– Support Vector Machine– Boosting– Réseaux de neurones– Modèle de régression linéaire– etc.

53

L’importance de l’interface

54



Les interfaces utilisateur (1/6)

• Interfaces utilisateurs généralement dénudées• Accès à une recherche avancée et à des paramètres• Présentation d'extraits de résultats (snippets)• Présentation de résultats commerciaux ("sponsorisés")• Exemple: Altavista

55




• Présentation de résultats visuels• Utilisation de termes associés et d'annuaires• Exemple: Exalead

56




• Support pour des requêtes exprimées en langue– Focus sur l'utilisateur et non sur le fonctionnement interne du moteur de recherche

• Exemple : AskJeeves

57




• Aide à la formulation des requêtes durant la saisie– Par exemple, guidage par des suites de mots et le nombre de documents qui les contiennent

• Exemple: Google Suggest (et maintenant Google Instant)

58




• Présentation des résultats sous forme graphique (cartes...)– Aide à la navigation et à la reformulation de sa requête

• Exemple : KartOO

59




• Étiquetage "sémantique"

60



Le Web, un réseau public• Un réseau international, mais des droits nationaux

– En Chine, des sites effacés des résultats de recherche– En France également

• Le plagiat est devenu monnaie courante• Attention au respect de la vie privée

– Documents mis à disposition sur la toile– Informations recueillies sur les internautes

(formulaires ou informations sur les visiteurs)

• L'information est très difficile à effacer !– Google cache– Wayback machine– Listes de diffusion– Blogs, Facebook, …

61



Des moteurs de recherche opaques (1/2)

• Toutes les étapes de la recherche sont des secrets industriels– Comme pour toutes les activités à but commercial– Mais l'information et la connaissance sont des "marchandises" particulières– Le projet Nutch tente de promouvoir un moteur de recherche libre– Les réseaux tissés par les géants du Web peuvent poser question

(sans tomber dans la paranoïa).

62

Nécessité de varier ses sources d'information

http://lucene.apache.org/nutch/docs/fr/



Des moteurs de recherche opaques (2/2)

• Rien ne permet de vérifier que les critères de classement des documents par rapport à la requête sont équitables

– Séparation des liens commerciaux et des liens de recherche ?– Affinités particulières entre moteurs et sites commerciaux ; ex : Google et Yahoo avec Amazon, Voilà avec eBay et PriceMinister. – Google possède YouTube, cela influe-t-il sur le rang des liens YouTube ?

• Toutes les requêtes (logs) sont conservées– Tous dans l'illégalité vis-à-vis de la législation européenne (13 mois pour Yahoo, 9 mois pour Google, 18 mois pour Bing)– cf. demande des logs de Google et Yahoo par le gouvernement américain– Google, Yahoo et Microsoft veulent mettre les logs à disposition de la communauté scientifique (problèmes de droit)– Grâce aux comptes, les résultats (et les publicités) sont personnalisés

63


RI sur le Web

Quelques moteurs de recherche

64

et bien d'autres, sans compter les méta-moteurs...

http://c.asselin.free.fr/french/metamoteurs.htm

Xavier Tannier [email protected] Recherche dInformation sur le Web Extraction dInformation...

Documents

Transcript of Xavier Tannier [email protected] Recherche dInformation sur le Web Extraction dInformation...