Filtrage de l’Information

55
Filtrage de l’Information Filtrage de l’Information Lynda AIT MEHEDINE, Lynda AIT MEHEDINE, Abdejlil KHATTABI Abdejlil KHATTABI et Sanaa EL AOUMARI et Sanaa EL AOUMARI Jian-Yun Nie Jian-Yun Nie: Cours IFT6255 Université de Montréal

description

Filtrage de l’Information. Lynda AIT MEHEDINE, Abdejlil KHATTABI et Sanaa EL AOUMARI Jian-Yun Nie : Cours IFT6255 Université de Montréal. Plan de la présentation. Introduction TREC et le filtrage d’information Définition du filtrage d’information - PowerPoint PPT Presentation

Transcript of Filtrage de l’Information

Page 1: Filtrage de l’Information

Filtrage de l’InformationFiltrage de l’Information

Lynda AIT MEHEDINE,Lynda AIT MEHEDINE, Abdejlil KHATTABI Abdejlil KHATTABI

et Sanaa EL AOUMARIet Sanaa EL AOUMARI

Jian-Yun NieJian-Yun Nie: Cours IFT6255

Université de Montréal

Page 2: Filtrage de l’Information

Plan de la présentation Plan de la présentation

IntroductionTREC et le filtrage d’informationDéfinition du filtrage d’informationFiltrage d'information et Recherche

d'information  Comparaison entre recherche

d’information et filtrage d’informationCaractéristiques d'un système de

filtrage – Le filtrage par contenu – Le filtrage par collaboration – Les agents

Page 3: Filtrage de l’Information

Plan de la présentation - Plan de la présentation - suitesuite

Evaluation des systèmes de filtrage d’information– Les métriques de la recherche d’information • Précision et rappel :

– Métriques TREC pour le filtrage d’information :• Notion d’utilité • Métrique orientée vers la précision 

Concepts Avancés De FiltrageQuelques systèmes de filtrageConclusion

Page 4: Filtrage de l’Information

IntroductionIntroduction

Avec la très grande masse d'informations devenue disponible sur l’Internet. Il est devenu primordial aujourd'hui de consacrer une partie considérable de notre temps à l'extraction de l'information pertinente

Au lieu de laisser l'utilisateur dépenser son temps à chercher l'information dont il a besoin, la tendance actuelle est de concevoir des mécanismes qui permettent de lui faciliter la tâche en lui faisant parvenir continuellement l'information qui l'intéresse.

Recherche et filtrage d'information visent à modéliser, concevoir et mettre en application des systèmes capables de traiter un flux d'informations au fur et à mesure de leur arrivée pour en sélectionner et de diffuser seulement les informations pertinentes

Page 5: Filtrage de l’Information

IntroductionIntroduction

le filtrage de l'information est un nom donné à une variété de processus dont le but est de faire parvenir, à partir de larges volumes d'informations générées dynamiquement, les informations aux personnes qui en ont besoin.

Les domaines d'application du filtrage de l'information sont assez variés, et d'une grande importance économique, parmi eux : mailing list, Usenet News, filtrage des e-mails, filtrage dans les webs.

Les conférences TREC ont joué un rôle important dans le développement du domaine de la recherche d’information automatisée.

Page 6: Filtrage de l’Information

TREC et le filtrage TREC et le filtrage d’informationd’information

dans le domaine de la recherche d’information les principes directeurs de ces conférences sont les suivants :– Définir les principaux domaines et sous domaine

de la Ri– Fournir des données de références normalisées,

dans le but de comparer les performances de système de RI, grâce a des métriques communes

– Faciliter l’échange entre équipe participantes, issues aussi bien de l industrie que du domaine public(universités, entités gouvernementales, laboratoires etc..)

Page 7: Filtrage de l’Information

TREC et le filtrage TREC et le filtrage d’informationd’information

Le premier atelier sur le filtrage de l’information haute performance(High Performance Information Filtering) a vu le jour en 1991 il a été sponsorise par Bellcore et le Sig sur les systèmes d’information bureautique(office information System).

au cours de cet atelier environ quarante publications examineront le domaine du filtrage a partir de plusieurs perspectives différentes :

•De la sélection de l’information•A la modélisation de l’utilisateur

Page 8: Filtrage de l’Information

TREC et le filtrage TREC et le filtrage d’informationd’information

•En passant par les domaines d’applications, les détails techniques et logiciels ainsi que des considérations sur la confidentialité et des études de cas.

Le filtrage d’information ne connut que des débuts très hésitants, ne se focalisant que sur un des aspects de l’activité :Le filtrage a partir du contenu.

D’autres types de filtrages ont été évoques au cours du développement du domaine, tel que le filtrage collaboratif, ou social, prenant en compte les avis des utilisateurs sur la qualité informative des documents consultes.

Page 9: Filtrage de l’Information

TREC et le filtrage TREC et le filtrage d’informationd’information

Dans les premières édition de TREC, le filtrage d’information n’ était considère que comme une recherche exploratoire.

Le filtrage d’information proprement dit n'est apparu qu'a la quatrième édition de TREC.Cette édition est l’occasion de distinguer entre routage d’information et filtrage d’information.  

Page 10: Filtrage de l’Information

Définition du filtrage Définition du filtrage d’informationd’information

Le filtrage est un processus qui consiste à extraire les informations pertinentes et de qualité à partir d’une imposante masse d’informations.

Page 11: Filtrage de l’Information

Définition du filtrage Définition du filtrage d’informationd’information

L'élément essentiel du filtrage est le modèle de l'utilisateur, qui permet de sélectionner quelles sont les informations à transmettre à l'utilisateur et de savoir comment le faire.

Le filtrage de l'information se présente comme une aide à l'extraction de l'information pertinente: concevoir des mécanismes destinés à faire parvenir à l'utilisateur l'information qui l'intéresse directement.

Page 12: Filtrage de l’Information

Définition du filtrage Définition du filtrage d’informationd’information

C’est aussi un processus visant à extraire au sein d'un important volume d'informations générées dynamiquement, les documents susceptibles de correspondre aux besoins et intérêts de l'utilisateur, après que celui-ci ait défini ses centres d'intérêt. Le filtrage intègre aussi les opérations d'exploitation et de présentation des résultats. Les informations, sont extraites de sources différentes et évoluent dans le temps.

L'outil de filtrage permet ainsi de repérer et identifier exclusivement les documents relatifs aux centres d'intérêt indiqués par l'utilisateur.

Page 13: Filtrage de l’Information

La distinction entre la recherche d'information et le filtrage d'information n'est souvent pas claire.

Un système de recherche d'information a pour fonction de guider l'utilisateur à retrouver les documents qui lui permettent de répondre à ses besoins

D'une part, l'utilisateur soumet une requête au système

D'autre part, les sources d'informations sont une collection de textes représentés sous forme de bases de données et souvent indexés en un ensemble de mots clés

Ces derniers sont comparés à la requête de l'utilisateur pour aboutir à un ensemble de documents répondant à sa requête.

Filtrage d'information et Filtrage d'information et recherche d'information recherche d'information 

Page 14: Filtrage de l’Information

Filtrage d'information et Filtrage d'information et recherche d'informationrecherche d'information

Page 15: Filtrage de l’Information

Filtrage d'information et Filtrage d'information et recherche d'informationrecherche d'information

La 2éme figure schématise un modèle de filtrage d'information.

Il débute avec des individus ou groupe d'individus qui ont des intérêts relativement stables à long terme : profils

La source d'informations provient des producteurs de textes (exemple : journaux)

Ces derniers doivent distribuer ces informations aux personnes intéressées

Cette opération est réalisée en comparant les textes aux profils des différents individus.

Page 16: Filtrage de l’Information

Comparaison entre les Comparaison entre les Processus de Recherche et de Processus de Recherche et de

Filtrage d'InformationFiltrage d'Information

En comparant les 2 figures, nous constatons une analogie entre les processus de filtrage et de recherche d'information.

Les principales différences sont résumées comme suit :

Page 17: Filtrage de l’Information

Comparaison entre les Comparaison entre les Processus de Recherche et de Processus de Recherche et de

Filtrage d'InformationFiltrage d'Information

–La recherche d'information assure la collection et l'organisation des documents

–Le filtrage de l'information assure la distribution des documents aux personnes qui en ont besoin

Page 18: Filtrage de l’Information

Comparaison entre les Comparaison entre les Processus de Recherche et de Processus de Recherche et de

Filtrage d'InformationFiltrage d'Information

– Un système de recherche d'information établit une sélection de documents à partir d'une base de données statique – Le filtrage est une sélection et/ou souvent une élimination d'information à partir d'une source d'information dynamique

Page 19: Filtrage de l’Information

Comparaison entre les Comparaison entre les Processus de Recherche et de Processus de Recherche et de

Filtrage d'InformationFiltrage d'Information

–Un système de recherche d'information est utilisé par une seule personne à un moment donné (une requête à la fois)

– Par contre un système de filtrage est un processus itératif (multiples parcours) pouvant être utilisé par une ou plusieurs personnes avec des intérêts à long terme

Page 20: Filtrage de l’Information

Comparaison entre les Comparaison entre les Processus de Recherche et de Processus de Recherche et de

Filtrage d'InformationFiltrage d'Information

– Le filtrage de l'information est généralement appliqué à des flux arrivants de nouvelles données

– Tandis que dans la recherche d'information les modifications dans la base de données ne sont pas fréquentes et la recherche n'est pas limitée aux nouveaux documents

Page 21: Filtrage de l’Information

Comparaison entre les Comparaison entre les Processus de Recherche et de Processus de Recherche et de

Filtrage d'InformationFiltrage d'Information

– La recherche d'information implique le processus de collecte (Finding) de l'information dans la base de données.

– Le filtrage de l'information entraîne le processus de déplacement (Removing) de l'information du flux de données

Page 22: Filtrage de l’Information

Comparaison entre les Comparaison entre les Processus de Recherche et de Processus de Recherche et de

Filtrage d'InformationFiltrage d'Information

Contrairement aux requêtes, les profiles sont souvent des spécifications correctes des intérêts des utilisateurs

Ceci vient du fait qu'ils représentent généralement des intérêts à long terme pendant que les requêtes dans la recherche d'information reflètent des intérêts à court terme pouvant être satisfaits par la recherche.

Page 23: Filtrage de l’Information

Tableau recapitulativeTableau recapitulative

Recherche d'information

Filtrage de l'information

collection et organisation de documents

diffusion de documents à l'utilisateur selon ses besoins

sélection de documents à partir d'une base de données statiques

sélection et/ou élimination d'information à partir d'une source d'information dynamique

pas de limitation aux nouveaux documents

nouvelles données, principe de mise à jour à partir du profil

satisfaction immédiate d'un besoin d'information

intérêts à long terme de l'utilisateur

Page 24: Filtrage de l’Information

Caractéristiques d'un système Caractéristiques d'un système de filtragede filtrage

Les principales caractéristiques d'un système de filtrage sont les suivantes :

– Il est destiné à des informations peu ou pas structurées contrairement aux bases de données qui utilisent des documents très structurés

A noter que La notion de structure ne concerne pas seulement le format que doit avoir le document, mais aussi son contenu

Il est aussi facile, par exemple de définir une base de donnée pour des documents complexes, tel que des articles de journaux, mais le contenu du texte, figures et tableaux de ce type de documents reste mal défini

Page 25: Filtrage de l’Information

Caractéristiques d'un système Caractéristiques d'un système de filtragede filtrage

– Il diffuse en général des informations textuelles, mais peut également gérer d'autres types d'information tel que image ou son.

– A noter que ce genre d'information est très mal géré par les systèmes de recherche conventionnelle du fait de la complexité de la représentation de leur contenu.

Page 26: Filtrage de l’Information

Caractéristiques d'un système Caractéristiques d'un système de filtragede filtrage

– Le filtrage concerne un flux d'information en provenance d'une ou plusieurs sources extérieures (ex news) ou adressé directement à l'utilisateur (ex. email)

– Le filtrage doit prendre en compte le profil de l'usager qui spécifie au système ses caractéristiques

Page 27: Filtrage de l’Information

Le filtrage par contenu Le filtrage par contenu

La plus ancienne approcheBut : établir une corrélation entre les

ressources que les usagers consultentFonctionnement : le système analyse le

contenu des ressources, puis effectue des recommandations

Avantages :– Approprié pour du matériel textuel– Facilite l'entrée d’un nouvel item dans le

système

Page 28: Filtrage de l’Information

Le filtrage par contenuLe filtrage par contenu

Désavantages :– Difficulté d'extraire le contenu ou les

attributs de certains formats de fichiers

– Peu apte à recommander des items dissemblables

– Aucun aspect collaboratif dans cette approche

Page 29: Filtrage de l’Information

Le filtrage par Le filtrage par collaborationcollaboration

Approche plus récenteBut : établir une corrélation entre les

usagers (leurs profils)Postulat : l'usager apprécie des

items semblables à ceux que des usagers comparables apprécient aussi

Approche subjective : basée sur des jugements de valeur

Page 30: Filtrage de l’Information

Le filtrage par Le filtrage par collaborationcollaboration

Individus = intermédiaires entre les sources d'information

Avantages :– Capacité de recommander des items

dissemblables – Utilisation pour des formats variés de

ressources– Capacité de représenter des concepts

abstraits comme les goûts ou les intérêts

Page 31: Filtrage de l’Information

Le filtrage par Le filtrage par collaborationcollaboration

Désavantages :– L'ajout de nouveaux items est

problématique: doit avoir été évalué avant d'être suggéré

– Nécessite un nombre suffisant d'évaluations et d'usagers

– Problème de dispersion des scores– Difficulté à gérer les profils atypiques

Page 32: Filtrage de l’Information

Les agentsLes agents

Un agent est un système capable, dans une situation donnée, de prendre une décision et d'agir automatiquement sans intervention humaine.

Actuellement, on essaie d'intégrer ces agents dans le domaine du filtrage et de la recherche d'information.

Dans les prototypes existants, ces agents observent le comportement de l'usager et constituent ainsi une base de données sur l'usager à partir de laquelle ils pourront agir.

Page 33: Filtrage de l’Information

Les agentsLes agents

Pour la gestion d'informations structurées, le principe est le suivant:– A partir d'une équation de recherche

préalablement établie par l'usager, l'agent sélectionne les documents qui sont susceptibles de répondre à sa requête, les présente à l'usager avec des commentaires et des suggestions, en les classant par ordre de pertinence. Dans un premier temps, il observe le comportement de l'usager afin d'ajuster son équation, puis il décide de lui adresser ou non tel où tel document.

Cybion a annoncé en janvier 2001 la mise en ligne de son dernier site : "AgentLand", le premier portail sur les agents intelligents.

Page 34: Filtrage de l’Information

Evolution du filtrage Evolution du filtrage d’informationd’information

Avec la croissance d’Internet et des autres réseaux d’informations, la recherche dans le domaine du filtrage automatique d’information s’est développée ces dernières années.

USENET News et courrier électronique sont les domaines les plus populaires de la recherche.

La croissance du World Wide Web a fait de lui un domaine intéressant qui a attiré la recherche scientifique

Et ceci même si le problème de la collection de l’information semble le rendre un domaine plus difficile pour mener une recherche fondamentale sur des techniques de filtrage d’information.

Page 35: Filtrage de l’Information

Evolution du filtrage Evolution du filtrage d’informationd’information

Une des premières formes de filtrage de l'information électronique a été la DSI : Diffusion Sélective de l'Information

DSI consiste à envoyer à intervalle régulier correspondant en général aux mises à jour de la base de données, l'ensemble des références nouvelles répondant à une requête préalablement enregistrée

Bien que largement utilisée, la DSI n'est pas sans défaut. Elle peut être difficile à implémenter telle quelle sur les systèmes de messagerie, et ceci étant donné le grand volume d'information qui circule dans l'Internet et la diversité des sources

Page 36: Filtrage de l’Information

Evolution du filtrage Evolution du filtrage d’informationd’information

Toutes les recherches actuelles sont orientées vers des systèmes automatiques dits "intelligents".

Pour des raisons pratiques, en particulier un minimum de structuration des documents, les premiers travaux concernaient surtout les News. Les recherches actuelles sont plutôt orientées vers les services WWW.

Un autre domaine qui a attiré l’intérêt de la recherche c’est la conférence annuelle de récupération des textes TREC (Text Retreival Conference) dans lequel une collection standard des textes est utilisée et une méthodologie d’évaluation soigneusement contrôlée est imposée.

Page 37: Filtrage de l’Information

Evolution du filtrage Evolution du filtrage d’informationd’information

Dans TREC, la tâche de filtrage de l’information est notifiée en tant que cheminement « routing », ajoutant une confusion de la terminologie dans ce domaine

En effet, TREC a récemment adopté une voie de filtrage « feltering » qui suit une méthodologie d’évaluation différente, mais reste conforme à la définition du filtrage.

Les systèmes commerciaux qui filtrent des articles d’Internet et d’autres sources d’informations deviennent aussi disponibles. Des techniques de filtrages seront probablement appliquées dans d’autres domaines tels que les images, son et vidéo

Page 38: Filtrage de l’Information

Evaluation des systèmes de Evaluation des systèmes de filtrage d’informationfiltrage d’information

Nous allons présenter les métriques utilisées en Ri et Fi dans le cadre de TREC pour l’évaluation des systèmes:–Les métriques de Recherche d’information

–Les métriques de filtrage d’information 

Page 39: Filtrage de l’Information

Evaluation des systèmes de Evaluation des systèmes de filtrage d’informationfiltrage d’information

Les métriques de la recherche d’information:

La majorité des métriques utilisée en RI,supposent la constitution d’un ensemble de

réponses de références, a comparer avec les réponses des systèmes évalues

Page 40: Filtrage de l’Information

Evaluation des systèmes de Evaluation des systèmes de filtrage d’informationfiltrage d’information

Les métriques Précision et Rappel se définissent comme suit :

Précision= # documents pertinents retrouves/Nbre documents retrouvés.Rappel=# documents pertinents retrouves/Nbre documents pertinents dans la base

Le taux de Rappel mesure la capacité des systèmes évalués a couvrir le problème, alors que le taux de précision mesure la qualité des réponses fournies

Page 41: Filtrage de l’Information

Evaluation des systèmes de Evaluation des systèmes de filtrage d’informationfiltrage d’information

Métriques TREC pour le filtrage d’information :

Les métriques TREC s’inspirent des métriques que l’on vient de présenter c’est a dire celle des systèmes de recherche d’information.

Notion d’utilité  (TREC-3): Cette notion introduite au cours de TREC marquera les vrais débuts du filtrage d’information

Page 42: Filtrage de l’Information

Evaluation des systèmes de Evaluation des systèmes de filtrage d’informationfiltrage d’information

Pour toute expérience Ri, évaluer la capacité des systèmes de filtrage reviens a évaluer la formule suivante qui sert a trier un ensemble de documents en deux catégories A et B :– Ui=Uai*Ai+Ubi*Bi.

• Ai =nombre de documents pertinents trouvés par le système.

• Bi= nombre de documents non pertinents.• Les constantes Uai et Ubi correspondent a la

valeur d’utilité donnée par un utilisateur .

Page 43: Filtrage de l’Information

Evaluation des systèmes de Evaluation des systèmes de filtrage d’informationfiltrage d’information

TREC–4 a fixé trois valeurs pour ces constantes, correspondants a trois scénarios différents :– Un scénario ou on favorise la qualité des

réponses(un poids maximal sur la précision).

– Un scénario dit équilibré ou les poids sur les documents de type A et B sont égaux.

– Un scénario ou c’est la quantité de réponse qui est recherchée.

Page 44: Filtrage de l’Information

Evaluation des systèmes de Evaluation des systèmes de filtrage d’information filtrage d’information 

Propriétés de cette métrique : • La mesure d’utilité n’est pas

normalisée.  • La comparaison de l’efficacité d’un

même système sur plusieurs requêtes différentes n’est pas facile, seule la comparaison entre systèmes pour une même expérience est possible.

Page 45: Filtrage de l’Information

Evaluation des systèmes de Evaluation des systèmes de filtrage d’informationfiltrage d’information

D’autres métriques pour le filtrage d ’information ont vu le jour tel que :

ASP=Précision*Rappel. Les deux métriques utilité et ASP sontutilisées conjointement afin de fournir

des indicateurs de performance pour

chaque système.

Page 46: Filtrage de l’Information

Evaluation des systèmes de Evaluation des systèmes de filtrage d’information filtrage d’information 

Métrique orientée vers la précision :– Ces métriques ont vu le jour au niveau

de la 9eme édition de TREC. T9P=Nombre de documents

pertinents sélectionnés/Max(Cible, Nombre de documents sélectionnes)

Page 47: Filtrage de l’Information

Evaluation des systèmes de Evaluation des systèmes de filtrage d’information filtrage d’information 

Avec une cible fixe a 50 pour TREC-9

Le principe de cette mesure repose sur l’idée de cible ou but a atteindre( c’est a dire un effectif de 50)pour chaque système en terme de nombres de documents pertinents, une pénalité est attribuée dans les cas ou la cible n’est pas atteinte.

Page 48: Filtrage de l’Information

Concepts Avancés De Concepts Avancés De FiltrageFiltrage

La première étape dans la création d'un système de filtrage est de déterminer et représenter les intérêts d'un lecteur

demander à l'utilisateur une liste de mots clés qu'il jugent intéressant.

une pondération pour chaque mots qui détermine le niveau d 'intérêt associer avec les mots

D'autres méthodes tentent d'observer les articles qu'un utilisateur décide de lire, d'analyser leur contenu.

Page 49: Filtrage de l’Information

Concepts Avancés De Concepts Avancés De FiltrationFiltration

Toutes ses informations(mots clés et poids….) seront stockées dans un profile utilisateur.

Des études ont montrées qu'on peut aboutir à de meilleurs résultats en combinant toute ses méthodes.

Page 50: Filtrage de l’Information

Quelques systèmeQuelques systèmess de de filtragefiltrage

POESIA est un projet de logiciel de filtrage libre – Le marché principal de POESIA est

composé des institutions d'enseignement, telles que les écoles et les bibliothèques. Chaque système POESIA fonctionne sur un PC Linux séparant le réseau de l'école de l'Internet mais mettant en commun les données de filtrage.

 PRINCIP est un système multilingue pour détecter les documents racistes sur Internet.

Page 51: Filtrage de l’Information

Quelques systèmeQuelques systèmess de de filtragefiltrage

SCOFI est un système intelligent d'authentification par carte à puce

Les cartes à puce contiendront les détails des élèves et lorsqu'elles seront introduites dans l'ordinateur, un code PIN sera demandé pour accéder à certains sites Web, le niveau d'accès étant spécifique à chaque utilisateur pour proceder au filtrage adequat.

L'objectif est de produire un environnement sur Internet pour les enfants entre 8 et 14 ans.

Page 52: Filtrage de l’Information

ConclusionConclusion

Difficile d'obtenir une image claire de la façon dont l'information que nous obtiendrons des médias du futur différera de l'information que nous obtenons des outils actuels.

Noam. Chomsky : il y a des genres particuliers

d'information que l'on ne pourra jamais trouver.

Page 53: Filtrage de l’Information

ConclusionConclusion

des systèmes plus complexes et plus réalisables seront développés bientôt.

La question qui se posent combien de personnes feront confiance aux ordinateurs pour leur dire ce qu'ils veulent savoir vraiment et est ce que les systèmes de filtrages du futur vont satisfaire les besoins des utilisateurs plus que les systèmes qui existent actuellement ?

Page 54: Filtrage de l’Information

ReferencesReferences

www.slis.ualberta.ca/cais2000/favier.htm www.limsi.fr/Individu/gael/ManuscritThese/HTML/node54.html www.uhb.fr/urfist/filtrfonct.html www.unesco.org/webworld/public_domain/tunis97/com_08/com_08.html www.inria.fr/valorisation/rencontres/web-semantique

/panorama/filtrage.fr.html www.ee.umd.edu/medlab/filter/filter.html www.ils.unc.edu/~losee/minim.html www.business.com/directory/internet_and_online/email/anti-spam/

filtering/ is.gseis.ucla.edu/impact/s94/students/paul/paul_final.html www.adbs.fr/site/web3/sitespro/lardy/chap5.htm antonio.balvet1.free.fr/Manuscrit_V1.0.1-03-01-03.pdf www.ida.liu.se/labs/iislab/courses/IRIF/IRIF_introduktion.html#HDR4

solutions.journaldunet.com/00janv/000119alaxis.shtml www.unesco.org/webworld/public_domain/tunis97/com_08/com_08.html www.uhb.fr/urfist/filtrfonct.html

Page 55: Filtrage de l’Information

Merci de votre Merci de votre attention !attention !