Session 5Traitement et diffusion des résultats de la
veille
Par Ahmed Bachr
Février 2008
Séminaire sur la veille documentaire
Session 1 : Veille et méthodologie de veille
Session 2 : Utiliser les outils de recherche
Session 3 : Réaliser une veille manuelle
Session 4 : Automatiser une cellule de veille
Session 5 : traitement et diffusion de l’information de veille
2
Session 5 : Traitement et diffusion des résultats de la veille
Plan Avant de commencer…1.Classification de l’information2.Résumé de texte automatique3.Traduction de texte automatique 4. Cartographie de l’information5. Analyse sémantique du texte6. Livrables de veille
Séminaire sur la veille documentaire
3
Session 5 : Traitement et diffusion des résultats de la veille
Avant de commencer…
Séminaire sur la veille documentaire
4
Identification des besoins
Identification des sources (sourcing)
Collecte de l’information
Méthode pull (bookmarks, navigation)Méthode push (alertes email, RSS)
Analyse traitement
Diffusion
Veille manuelle =
Session 5 : Traitement et diffusion des résultats de la veille
1.Classification de l’informationFace à l’accroissement de l’information disponible en
ligne, la catégorisation automatique de textes s’impose de plus en plus comme une technologie clé dans la gestion de la connaissance, tant interne qu’externe, au sein des organisations.
La catégorisation automatique de textes est un domaine scientifique et technique complexe qui requiert des technologies avancées en matière d’intelligence artificielle et de traitement du langage.
Séminaire sur la veille documentaire
5
Session 5 : Traitement et diffusion des résultats de la veille
1. Classification de l’information : clustering, catégorisation
La catégorisation automatique de textes consiste à classer de manière automatisée un corpus documentaire suivant certains critères (le sujet, le style, …).
Elle connaît, depuis une douzaine d’années, un fort regain d’intérêt. Cela s’explique essentiellement par la croissance exponentielle des documents numériques disponibles et par la nécessité de les organiser de façon rapide.
Séminaire sur la veille documentaire
6
Session 5 : Traitement et diffusion des résultats de la veille
1. Classification de l’information : clustering, catégorisation
Pour les domaines qui génèrent d’importants flux d’information, il devient difficile d’envisager un système de veille stratégique n’intégrant pas un module de catégorisation automatique.
Ainsi, en automatisant la classification du texte, la catégorisation libère des tâches de validation de l’information à faible valeur ajoutée et fortement consommatrice de temps. Tout cela au profit de la phase d’analyse à même d’optimiser le projet de veille.
Séminaire sur la veille documentaire
7
Session 5 : Traitement et diffusion des résultats de la veille
1. Classification de l’information
Séminaire sur la veille documentaire
8
Session 5 : Traitement et diffusion des résultats de la veille
Clusty est un moteur développé par l'équipe de Vivisimo spécialisée dans la fourniture de solution de clustering (catégorisation automatique des résultats par thématiques).
1. Classification de l’information
Séminaire sur la veille documentaire
9
Session 5 : Traitement et diffusion des résultats de la veille
1.Classification de l’information
Séminaire sur la veille documentaire
10
Option « All »
Session 5 : Traitement et diffusion des résultats de la veille
2. Résumé de texte automatique
Séminaire sur la veille documentaire
11
Le résumé automatique permet d’extraire « à la volée » les phrases essentielles d’un texte ou d’une page web, représentant le sens général du document.
Utilisation d’algorithmes basés sur des calculs statistiques et des données linguistiques. Identification des concepts clés d'un texte et extraction des phrases les plus marquantes.
Cette technique donne actuellement d’assez bons résultats en permettant de gagner un temps appréciable quand il s’agit d’étudier le contenu de nombreux documents.
Moins de temps à lire, sans toutefois manquer l'information essentielle.
Session 5 : Traitement et diffusion des résultats de la veille
2. Résumé de texte automatique
Séminaire sur la veille documentaire
12
Il existe de nombreux outils de résumé :
• Faciles à utiliser• Permettent d'augmenter de façon
substantielle productivité et efficacité • Résumés concis de documents ou de pages
Web• Paramétrage du résumé
Session 5 : Traitement et diffusion des résultats de la veille
2. Résumé de texte automatique
Séminaire sur la veille documentaire
13
Les fonctionnalités :
• Éventail de formats de textes supportés (html, pdf, txt, doc, rtf, …)
• Enregistrement des résumés dans différents formats
• Intégrable à différents navigateurs et clients de messagerie
• Obtention de résumés à la volée dans l’application tierce
Session 5 : Traitement et diffusion des résultats de la veille
2. Résumé de texte automatique
Séminaire sur la veille documentaire
14
Les produits existants :
• Copernic Summarizer. Voir bref « tour animé » sur http://www.copernic.com/fr/products/summarizer/index.html
• Pertinence summarizer. Plusieurs langues. Écrit en Java
• Open Text Summarizer est un outil open source de résumé de texte automatique. http://libots.sourceforge.net/
• Sinope summarizer. http://www.sinope.info/en/Download
Session 5 : Traitement et diffusion des résultats de la veille
2. Résumé de texte automatique
Outil Pertinence Summarizer
Séminaire sur la veille documentaire
15
Session 5 : Traitement et diffusion des résultats de la veille
3. Traduction de texte automatique
Séminaire sur la veille documentaire
16
Les technologies de la langue, et notamment les logiciels de traduction automatique, représentent des outils essentiels dans les systèmes de veille. Les logiciels de traduction automatique ne remplaceront jamais un traducteur humain et vouloir les exploiter dans ce sens ne peut mener qu'à des déceptions. Toutefois, les outils actuels peuvent apporter une aide réelle pour des usages centrés sur la compréhension de langues peu ou mal connues de l'utilisateur. Les progrès réalisés dans les domaines de la linguistique et de l'informatique permettent aujourd'hui d'utiliser, sur de simples postes de travail, des logiciels performants qui permettent d'obtenir en « premier jet » l'accès à un texte en langue étrangère.
Session 5 : Traitement et diffusion des résultats de la veille
3. Traduction de texte automatique
Séminaire sur la veille documentaire
17
Quelques logiciels de traduction automatique :
BILINGUA Ingénierie Linguistique : http://www.bilingua.com/
GLOBALINK : http://www.bmsoftware.com/globalinkpowertranslator6.htm
SOFTISSIMO : http://www.softissimo.com/
SYNAPSE : http://www.synapse-fr.com/
SYSTRAN : http://www.systran.co.uk/
Session 5 : Traitement et diffusion des résultats de la veille
4. Cartographie de l’information :
Séminaire sur la veille documentaire
18
Présentation d’un corpus documentaire (ex. les résultats d’un moteur) sous forme d'une carte reliant entre eux les concepts voisins de la thématique de recherche.
Session 5 : Traitement et diffusion des résultats de la veille
4. Cartographie de l’information :
Séminaire sur la veille documentaire
19
Quelques outils de cartographie
Newzingo cartographie l’actualité en scrutant en permanence les actualités de Google en anglais. Il en extrait les faits majeurs sous forme de « tags » et les présente en nuage de mots dans lequel la taille de chaque nouvelle est proportionnelle à son poids relatif dans les faits collectés. Plus un mot est présent dans le flux analysé, plus il est de taille importante. Un clic sur un tag permet d’accéder aux articles détaillés correspondant.
Session 5 : Traitement et diffusion des résultats de la veille
4. Cartographie de l’information :
Séminaire sur la veille documentaire
20
Quelques outils de cartographie
Quintura, moteur visuel et textuel. Il représentent graphiquement le résultat des recherches. Quintura présente une fenêtre de résultats en deux sections : à gauche un nuage contextuel comprend les termes de la requête et des concepts déduits de la recherche, à droite, la liste classique des résultats.
Session 5 : Traitement et diffusion des résultats de la veille
4. Cartographie de l’information :
Séminaire sur la veille documentaire
21
Quelques outils de cartographie
TagCrowd : outil de navigation et de visualisation des sites du Web 2.0 qui exploite les tags générés par les utilisateurs.
Session 5 : Traitement et diffusion des résultats de la veille
5. Analyse sémantique du texte : text mining
Séminaire sur la veille documentaire
22
Au vu du flot d'informations numériques que nous connaissons aujourd'hui , l’accès aux données textuelles utiles est devenu un vrai casse-tête.
Le Text Mining répond, en parti, à cette problématique
Son objectif est de donner du sens à des informations non structurées et de faciliter la prise de décision
Session 5 : Traitement et diffusion des résultats de la veille
5. Analyse sémantique du texte : text mining
Séminaire sur la veille documentaire
23
Le Text Mining est un processus permettant d'analyser le texte pour extraire les informations pertinentes en vue d'une réutilisation bénéfique pour des buts précis.
Des outils logiciels s'appuyant sur des méthodes (linguistiques, réseaux neuronaux, statistiques, …) traduites dans des algorithmes spécialisés vont permettre de « comprendre » artificiellement le texte dans le but d’en extraire une quantité d'information limitée mais pertinente en vue du gain de temps et donc de productivité.
Session 5 : Traitement et diffusion des résultats de la veille
5. Analyse sémantique du texte : text mining
Séminaire sur la veille documentaire
24
Critères de sélection d’un logiciel de text mining dans le cadre d’une veille
Nombre de formats de documents supportés en entrée (en plus des documents bureautiques traditionnels, il faut aussi pouvoir gérer le SGML, le SML et le HTML)
Quantité de langues gérées nativement Acquisition des flux HTTPS et RSS par défaut
Session 5 : Traitement et diffusion des résultats de la veille
5. Analyse sémantique du texte : text mining
Séminaire sur la veille documentaire
25
Quelques exemples d'utilisation du Text Mining
Analyse de clientèle : étude des réclamations des clients, raisons des changements de comportements de consommation, analyse de l'image de l'entrepriseVeille technologique et stratégique : sur les produits et les tendances d'un marché, sur la concurrence, sur la qualité des prestations fourniesAnalyse de la presse, synthèse d'articlesQuestions ouvertes, sondage, enquête d'opinion et de satisfactionRoutage et analyse d'email Filtrage de documents, (anti-spam)
Session 5 : Traitement et diffusion des résultats de la veille
6. Livrables de veille
Séminaire sur la veille documentaire
26
Définition : Les livrables de veille sont des documents émis périodiquement ou à la demande qui font la synthèse des recherches ponctuelles ou régulières sur des thèmes ou sur des concurrents selon les besoins d'un groupe d’utilisateurs.
Session 5 : Traitement et diffusion des résultats de la veille
6. Livrables de veille
Séminaire sur la veille documentaire
27
Rapports de veille
Newsletters
Portail
Dossiers de synthèse
Identification d’experts
Indicateurs
Tableaux de bord
Rapports d’étonnement
Flash infos
Revue de presse
Session 5 : Traitement et diffusion des résultats de la veille
Séminaire sur la veille documentaire
28
6. Livrables de veille
Bulletin sous forme d’une page Web dynamique
Session 5 : Traitement et diffusion des résultats de la veille
Séminaire sur la veille documentaire
29
6. Livrables de veille
Bulletin au format pdf
Session 5 : Traitement et diffusion des résultats de la veille
Séminaire sur la veille documentaire
30
Merci pour votre attention
Top Related