La veille documentaire · Séminaire sur la veille documentaire 21 Quelques outils de cartographie...

30
Session 5 Traitement et diffusion des résultats de la veille Par Ahmed Bachr Février 2008

Transcript of La veille documentaire · Séminaire sur la veille documentaire 21 Quelques outils de cartographie...

Page 1: La veille documentaire · Séminaire sur la veille documentaire 21 Quelques outils de cartographie TagCrowd : outil de navigation et de visualisation des sites du Web 2.0 qui exploite

Session 5Traitement et diffusion des résultats de la

veille

Par Ahmed Bachr

Février 2008

Page 2: La veille documentaire · Séminaire sur la veille documentaire 21 Quelques outils de cartographie TagCrowd : outil de navigation et de visualisation des sites du Web 2.0 qui exploite

Séminaire sur la veille documentaire

Session 1 : Veille et méthodologie de veille

Session 2 : Utiliser les outils de recherche

Session 3 : Réaliser une veille manuelle

Session 4 : Automatiser une cellule de veille

Session 5 : traitement et diffusion de l’information de veille

2

Session 5 : Traitement et diffusion des résultats de la veille

Page 3: La veille documentaire · Séminaire sur la veille documentaire 21 Quelques outils de cartographie TagCrowd : outil de navigation et de visualisation des sites du Web 2.0 qui exploite

Plan Avant de commencer…1.Classification de l’information2.Résumé de texte automatique3.Traduction de texte automatique 4. Cartographie de l’information5. Analyse sémantique du texte6. Livrables de veille

Séminaire sur la veille documentaire

3

Session 5 : Traitement et diffusion des résultats de la veille

Page 4: La veille documentaire · Séminaire sur la veille documentaire 21 Quelques outils de cartographie TagCrowd : outil de navigation et de visualisation des sites du Web 2.0 qui exploite

Avant de commencer…

Séminaire sur la veille documentaire

4

Identification des besoins

Identification des sources (sourcing)

Collecte de l’information

Méthode pull (bookmarks, navigation)Méthode push (alertes email, RSS)

Analyse traitement

Diffusion

Veille manuelle =

Session 5 : Traitement et diffusion des résultats de la veille

Page 5: La veille documentaire · Séminaire sur la veille documentaire 21 Quelques outils de cartographie TagCrowd : outil de navigation et de visualisation des sites du Web 2.0 qui exploite

1.Classification de l’informationFace à l’accroissement de l’information disponible en

ligne, la catégorisation automatique de textes s’impose de plus en plus comme une technologie clé dans la gestion de la connaissance, tant interne qu’externe, au sein des organisations.

La catégorisation automatique de textes est un domaine scientifique et technique complexe qui requiert des technologies avancées en matière d’intelligence artificielle et de traitement du langage.

Séminaire sur la veille documentaire

5

Session 5 : Traitement et diffusion des résultats de la veille

Page 6: La veille documentaire · Séminaire sur la veille documentaire 21 Quelques outils de cartographie TagCrowd : outil de navigation et de visualisation des sites du Web 2.0 qui exploite

1. Classification de l’information : clustering, catégorisation

La catégorisation automatique de textes consiste à classer de manière automatisée un corpus documentaire suivant certains critères (le sujet, le style, …).

Elle connaît, depuis une douzaine d’années, un fort regain d’intérêt. Cela s’explique essentiellement par la croissance exponentielle des documents numériques disponibles et par la nécessité de les organiser de façon rapide.

Séminaire sur la veille documentaire

6

Session 5 : Traitement et diffusion des résultats de la veille

Page 7: La veille documentaire · Séminaire sur la veille documentaire 21 Quelques outils de cartographie TagCrowd : outil de navigation et de visualisation des sites du Web 2.0 qui exploite

1. Classification de l’information : clustering, catégorisation

Pour les domaines qui génèrent d’importants flux d’information, il devient difficile d’envisager un système de veille stratégique n’intégrant pas un module de catégorisation automatique.

Ainsi, en automatisant la classification du texte, la catégorisation libère des tâches de validation de l’information à faible valeur ajoutée et fortement consommatrice de temps. Tout cela au profit de la phase d’analyse à même d’optimiser le projet de veille.

Séminaire sur la veille documentaire

7

Session 5 : Traitement et diffusion des résultats de la veille

Page 8: La veille documentaire · Séminaire sur la veille documentaire 21 Quelques outils de cartographie TagCrowd : outil de navigation et de visualisation des sites du Web 2.0 qui exploite

1. Classification de l’information

Séminaire sur la veille documentaire

8

Session 5 : Traitement et diffusion des résultats de la veille

Clusty est un moteur développé par l'équipe de Vivisimo spécialisée dans la fourniture de solution de clustering (catégorisation automatique des résultats par thématiques).

Page 9: La veille documentaire · Séminaire sur la veille documentaire 21 Quelques outils de cartographie TagCrowd : outil de navigation et de visualisation des sites du Web 2.0 qui exploite

1. Classification de l’information

Séminaire sur la veille documentaire

9

Session 5 : Traitement et diffusion des résultats de la veille

Page 10: La veille documentaire · Séminaire sur la veille documentaire 21 Quelques outils de cartographie TagCrowd : outil de navigation et de visualisation des sites du Web 2.0 qui exploite

1.Classification de l’information

Séminaire sur la veille documentaire

10

Option « All »

Session 5 : Traitement et diffusion des résultats de la veille

Page 11: La veille documentaire · Séminaire sur la veille documentaire 21 Quelques outils de cartographie TagCrowd : outil de navigation et de visualisation des sites du Web 2.0 qui exploite

2. Résumé de texte automatique

Séminaire sur la veille documentaire

11

Le résumé automatique permet d’extraire « à la volée » les phrases essentielles d’un texte ou d’une page web, représentant le sens général du document.

Utilisation d’algorithmes basés sur des calculs statistiques et des données linguistiques. Identification des concepts clés d'un texte et extraction des phrases les plus marquantes.

Cette technique donne actuellement d’assez bons résultats en permettant de gagner un temps appréciable quand il s’agit d’étudier le contenu de nombreux documents.

Moins de temps à lire, sans toutefois manquer l'information essentielle.

Session 5 : Traitement et diffusion des résultats de la veille

Page 12: La veille documentaire · Séminaire sur la veille documentaire 21 Quelques outils de cartographie TagCrowd : outil de navigation et de visualisation des sites du Web 2.0 qui exploite

2. Résumé de texte automatique

Séminaire sur la veille documentaire

12

Il existe de nombreux outils de résumé :

• Faciles à utiliser• Permettent d'augmenter de façon

substantielle productivité et efficacité • Résumés concis de documents ou de pages

Web• Paramétrage du résumé

Session 5 : Traitement et diffusion des résultats de la veille

Page 13: La veille documentaire · Séminaire sur la veille documentaire 21 Quelques outils de cartographie TagCrowd : outil de navigation et de visualisation des sites du Web 2.0 qui exploite

2. Résumé de texte automatique

Séminaire sur la veille documentaire

13

Les fonctionnalités :

• Éventail de formats de textes supportés (html, pdf, txt, doc, rtf, …)

• Enregistrement des résumés dans différents formats

• Intégrable à différents navigateurs et clients de messagerie

• Obtention de résumés à la volée dans l’application tierce

Session 5 : Traitement et diffusion des résultats de la veille

Page 14: La veille documentaire · Séminaire sur la veille documentaire 21 Quelques outils de cartographie TagCrowd : outil de navigation et de visualisation des sites du Web 2.0 qui exploite

2. Résumé de texte automatique

Séminaire sur la veille documentaire

14

Les produits existants :

• Copernic Summarizer. Voir bref « tour animé » sur http://www.copernic.com/fr/products/summarizer/index.html

• Pertinence summarizer. Plusieurs langues. Écrit en Java

• Open Text Summarizer est un outil open source de résumé de texte automatique. http://libots.sourceforge.net/

• Sinope summarizer. http://www.sinope.info/en/Download

Session 5 : Traitement et diffusion des résultats de la veille

Page 15: La veille documentaire · Séminaire sur la veille documentaire 21 Quelques outils de cartographie TagCrowd : outil de navigation et de visualisation des sites du Web 2.0 qui exploite

2. Résumé de texte automatique

Outil Pertinence Summarizer

Séminaire sur la veille documentaire

15

Session 5 : Traitement et diffusion des résultats de la veille

Page 16: La veille documentaire · Séminaire sur la veille documentaire 21 Quelques outils de cartographie TagCrowd : outil de navigation et de visualisation des sites du Web 2.0 qui exploite

3. Traduction de texte automatique

Séminaire sur la veille documentaire

16

Les technologies de la langue, et notamment les logiciels de traduction automatique, représentent des outils essentiels dans les systèmes de veille. Les logiciels de traduction automatique ne remplaceront jamais un traducteur humain et vouloir les exploiter dans ce sens ne peut mener qu'à des déceptions. Toutefois, les outils actuels peuvent apporter une aide réelle pour des usages centrés sur la compréhension de langues peu ou mal connues de l'utilisateur. Les progrès réalisés dans les domaines de la linguistique et de l'informatique permettent aujourd'hui d'utiliser, sur de simples postes de travail, des logiciels performants qui permettent d'obtenir en « premier jet » l'accès à un texte en langue étrangère.

Session 5 : Traitement et diffusion des résultats de la veille

Page 17: La veille documentaire · Séminaire sur la veille documentaire 21 Quelques outils de cartographie TagCrowd : outil de navigation et de visualisation des sites du Web 2.0 qui exploite

3. Traduction de texte automatique

Séminaire sur la veille documentaire

17

Quelques logiciels de traduction automatique :

BILINGUA Ingénierie Linguistique : http://www.bilingua.com/

GLOBALINK : http://www.bmsoftware.com/globalinkpowertranslator6.htm

SOFTISSIMO : http://www.softissimo.com/

SYNAPSE : http://www.synapse-fr.com/

SYSTRAN : http://www.systran.co.uk/

Session 5 : Traitement et diffusion des résultats de la veille

Page 18: La veille documentaire · Séminaire sur la veille documentaire 21 Quelques outils de cartographie TagCrowd : outil de navigation et de visualisation des sites du Web 2.0 qui exploite

4. Cartographie de l’information :

Séminaire sur la veille documentaire

18

Présentation d’un corpus documentaire (ex. les résultats d’un moteur) sous forme d'une carte reliant entre eux les concepts voisins de la thématique de recherche.

Session 5 : Traitement et diffusion des résultats de la veille

Page 19: La veille documentaire · Séminaire sur la veille documentaire 21 Quelques outils de cartographie TagCrowd : outil de navigation et de visualisation des sites du Web 2.0 qui exploite

4. Cartographie de l’information :

Séminaire sur la veille documentaire

19

Quelques outils de cartographie

Newzingo cartographie l’actualité en scrutant en permanence les actualités de Google en anglais. Il en extrait les faits majeurs sous forme de « tags » et les présente en nuage de mots dans lequel la taille de chaque nouvelle est proportionnelle à son poids relatif dans les faits collectés. Plus un mot est présent dans le flux analysé, plus il est de taille importante. Un clic sur un tag permet d’accéder aux articles détaillés correspondant.

Session 5 : Traitement et diffusion des résultats de la veille

Page 20: La veille documentaire · Séminaire sur la veille documentaire 21 Quelques outils de cartographie TagCrowd : outil de navigation et de visualisation des sites du Web 2.0 qui exploite

4. Cartographie de l’information :

Séminaire sur la veille documentaire

20

Quelques outils de cartographie

Quintura, moteur visuel et textuel. Il représentent graphiquement le résultat des recherches. Quintura présente une fenêtre de résultats en deux sections : à gauche un nuage contextuel comprend les termes de la requête et des concepts déduits de la recherche, à droite, la liste classique des résultats.

Session 5 : Traitement et diffusion des résultats de la veille

Page 21: La veille documentaire · Séminaire sur la veille documentaire 21 Quelques outils de cartographie TagCrowd : outil de navigation et de visualisation des sites du Web 2.0 qui exploite

4. Cartographie de l’information :

Séminaire sur la veille documentaire

21

Quelques outils de cartographie

TagCrowd : outil de navigation et de visualisation des sites du Web 2.0 qui exploite les tags générés par les utilisateurs.

Session 5 : Traitement et diffusion des résultats de la veille

Page 22: La veille documentaire · Séminaire sur la veille documentaire 21 Quelques outils de cartographie TagCrowd : outil de navigation et de visualisation des sites du Web 2.0 qui exploite

5. Analyse sémantique du texte : text mining

Séminaire sur la veille documentaire

22

Au vu du flot d'informations numériques que nous connaissons aujourd'hui , l’accès aux données textuelles utiles est devenu un vrai casse-tête.

Le Text Mining répond, en parti, à cette problématique

Son objectif est de donner du sens à des informations non structurées et de faciliter la prise de décision

Session 5 : Traitement et diffusion des résultats de la veille

Page 23: La veille documentaire · Séminaire sur la veille documentaire 21 Quelques outils de cartographie TagCrowd : outil de navigation et de visualisation des sites du Web 2.0 qui exploite

5. Analyse sémantique du texte : text mining

Séminaire sur la veille documentaire

23

Le Text Mining est un processus permettant d'analyser le texte pour extraire les informations pertinentes en vue d'une réutilisation bénéfique pour des buts précis.

Des outils logiciels s'appuyant sur des méthodes (linguistiques, réseaux neuronaux, statistiques, …) traduites dans des algorithmes spécialisés vont permettre de « comprendre » artificiellement le texte dans le but d’en extraire une quantité d'information limitée mais pertinente en vue du gain de temps et donc de productivité.

Session 5 : Traitement et diffusion des résultats de la veille

Page 24: La veille documentaire · Séminaire sur la veille documentaire 21 Quelques outils de cartographie TagCrowd : outil de navigation et de visualisation des sites du Web 2.0 qui exploite

5. Analyse sémantique du texte : text mining

Séminaire sur la veille documentaire

24

Critères de sélection d’un logiciel de text mining dans le cadre d’une veille

Nombre de formats de documents supportés en entrée (en plus des documents bureautiques traditionnels, il faut aussi pouvoir gérer le SGML, le SML et le HTML)

Quantité de langues gérées nativement Acquisition des flux HTTPS et RSS par défaut

Session 5 : Traitement et diffusion des résultats de la veille

Page 25: La veille documentaire · Séminaire sur la veille documentaire 21 Quelques outils de cartographie TagCrowd : outil de navigation et de visualisation des sites du Web 2.0 qui exploite

5. Analyse sémantique du texte : text mining

Séminaire sur la veille documentaire

25

Quelques exemples d'utilisation du Text Mining

Analyse de clientèle : étude des réclamations des clients, raisons des changements de comportements de consommation, analyse de l'image de l'entrepriseVeille technologique et stratégique : sur les produits et les tendances d'un marché, sur la concurrence, sur la qualité des prestations fourniesAnalyse de la presse, synthèse d'articlesQuestions ouvertes, sondage, enquête d'opinion et de satisfactionRoutage et analyse d'email Filtrage de documents, (anti-spam)

Session 5 : Traitement et diffusion des résultats de la veille

Page 26: La veille documentaire · Séminaire sur la veille documentaire 21 Quelques outils de cartographie TagCrowd : outil de navigation et de visualisation des sites du Web 2.0 qui exploite

6. Livrables de veille

Séminaire sur la veille documentaire

26

Définition : Les livrables de veille sont des documents émis périodiquement ou à la demande qui font la synthèse des recherches ponctuelles ou régulières sur des thèmes ou sur des concurrents selon les besoins d'un groupe d’utilisateurs.

Session 5 : Traitement et diffusion des résultats de la veille

Page 27: La veille documentaire · Séminaire sur la veille documentaire 21 Quelques outils de cartographie TagCrowd : outil de navigation et de visualisation des sites du Web 2.0 qui exploite

6. Livrables de veille

Séminaire sur la veille documentaire

27

Rapports de veille

Newsletters

Portail

Dossiers de synthèse

Identification d’experts

Indicateurs

Tableaux de bord

Rapports d’étonnement

Flash infos

Revue de presse

Session 5 : Traitement et diffusion des résultats de la veille

Page 28: La veille documentaire · Séminaire sur la veille documentaire 21 Quelques outils de cartographie TagCrowd : outil de navigation et de visualisation des sites du Web 2.0 qui exploite

Séminaire sur la veille documentaire

28

6. Livrables de veille

Bulletin sous forme d’une page Web dynamique

Session 5 : Traitement et diffusion des résultats de la veille

Page 29: La veille documentaire · Séminaire sur la veille documentaire 21 Quelques outils de cartographie TagCrowd : outil de navigation et de visualisation des sites du Web 2.0 qui exploite

Séminaire sur la veille documentaire

29

6. Livrables de veille

Bulletin au format pdf

Session 5 : Traitement et diffusion des résultats de la veille

Page 30: La veille documentaire · Séminaire sur la veille documentaire 21 Quelques outils de cartographie TagCrowd : outil de navigation et de visualisation des sites du Web 2.0 qui exploite

Séminaire sur la veille documentaire

30

Merci pour votre attention