Web Intelligence et Information Stratégique sur le Web

24
François Pouilloux directeur R&D [email protected] http://www.ixxo.fr http://www.squido.fr Web Intelligence et information stratégique sur le Web retour d’expérience et perspectives d’application dans Squido présenté dans le cadre du Forum Web Intelligence & Usages organisé par le projet Web Intelligence du cluster ISLE de la Région Rhône-Alpes jeudi 4 février 2010

description

La "Web Intelligence" au secours des entreprises en quête d’information stratégique sur le Web : retour d’expérience et perspectives d’application dans un service logiciel professionnel Après une brève introduction de notre perception du concept de web intelligence, nous tentons d’illustrer le potentiel de technologies de web intelligence à travers quelques cas d'utilisation de Squido. Ces exemples concrets nous amènent à exposer les verrous scientifiques et les enjeux de recherche auxquels Ixxo se trouve confrontée pour répondre aux attentes de ses clients.

Transcript of Web Intelligence et Information Stratégique sur le Web

Page 1: Web Intelligence et Information Stratégique sur le Web

François Pouilloux

directeur R&D

[email protected]://www.ixxo.frhttp://www.squido.fr

Web Intelligence et information stratégique sur le Web

retour d’expérience et perspectives d’application dans Squido

présenté dans le cadre du Forum Web Intelligence & Usages

organisé par le projet Web Intelligence du cluster ISLE de la Région Rhône-Alpes

jeudi 4 février 2010

Page 2: Web Intelligence et Information Stratégique sur le Web

© ixxo 2010 2

Sommaire

Web Intelligence : quelques faits et chiffres

Quelques mots sur Squido

Usages en situation

Verrous et enjeux scientifiques

Page 3: Web Intelligence et Information Stratégique sur le Web

© ixxo 2010 3

Web intelligence : première définition

Yao/Zhong/Liu/Ohsuga, COMPSAC 2000,

Taiwan

› "Web Intelligence (WI) exploits Artificial

Intelligence (AI) and advanced

Information Technology (IT) on the Web

and Internet."

› "the term should be considered an

umbrella or a label of a new branch of

research centered on the Web"

Web + IA +TIC = domaine de recherche

(sources : Wikipedia & COMPSAC 2000 proceedings)

Page 4: Web Intelligence et Information Stratégique sur le Web

© ixxo 2010 4

Vers des applications industrielles

Web intelligence Research Group at University of Chile

› "Web Intelligence can be understood as a new direction to scientific research and

development that explores the fundamental and practical applications of Artificial

Intelligence (AI) and Information Technologies (IT) in the next generation of products,

services, systems and activities based on the Web"

Page 5: Web Intelligence et Information Stratégique sur le Web

© ixxo 2010 5

Mais un concept encore peu populaire

Page 6: Web Intelligence et Information Stratégique sur le Web

© ixxo 2010 6

Positionnement technologique (tentative !)

Information Technology

Artificial Intelligence

cloud & grid

computing

web

mining

semantic

web

web

information retrieval

web

intelligence

Page 7: Web Intelligence et Information Stratégique sur le Web

© ixxo 2010 7

Squido en bref

Page 8: Web Intelligence et Information Stratégique sur le Web

© ixxo 2010 8

Squido en bref

recherche d'information avancée sur le web pour les professionnels

› commercialisation en mode SaaS

› multisecteur

› de la TPE au grand groupe international

Page 9: Web Intelligence et Information Stratégique sur le Web

© ixxo 2010 9

Positionnement Squido vs Web Intelligence

Page 10: Web Intelligence et Information Stratégique sur le Web

© ixxo 2010 10

Cas d'utilisation Squido

Page 11: Web Intelligence et Information Stratégique sur le Web

© ixxo 2010 11

Exemple : contrôle des terres arables

(en partenariat avec Areion Group)

Page 12: Web Intelligence et Information Stratégique sur le Web

© ixxo 2010 12

Exemple : Nutricosmetics Worldwide (1/4)

Demande d'information (original)

– "La beauté à travers la nutrition"

• ingrédients innovants

• produits packagés remarquables

• acteurs et relations

– Beauty: "body shape", "weight control", "weight maintenance", satiety, "energy expenditure",

"burn calorie", "calorie burner", "fat burner", "burn fat", cellulite,… mais aussi skin, hydration,

wrinkles, hair, dandruff, nails, Anti-Ageing, healthy ageing, Brightening/Illuminating,

Moisturising/Hydrating, Slimming, "Reduces the Appearance of Pores", "Reduces Fine Lines",

Plumping, Anti-Acne

– Oral supplements, food supplement, Dietary Supplements, ce que l'on trouve comme formule en

parapharmacie en France par exemple : poudre, capsule, gélule, one shot, … (traduire)

– "nutritional beauty supplements" or "beauty nutritional supplements" or "beauty supplements" or

nutricosmetics or "oral cosmetics" or "nutritional supplements" or "oral supplements" or "oral skin

care products" or "oral hair car product"

Page 13: Web Intelligence et Information Stratégique sur le Web

© ixxo 2010 13

Exemple : Nutricosmetics Worldwide (2/4)

Analyse de la demande

› Langues : EN, FR

› Périmètre géographique : mondial

› Objectif : trouver des acteurs et produits inconnus

› Forme : "sac de termes"

– sous-jacente

• thesaurus sectoriel,

• voire ontologie

Page 14: Web Intelligence et Information Stratégique sur le Web

© ixxo 2010 14

Exemple : Nutricosmetics Worldwide (3/4)

Métriques

› collecte

– 40 collectes, 50 sources

– 2 millions de pages traitées

› restitution

– 175 documents très pertinents

– carte conceptuelle

Page 15: Web Intelligence et Information Stratégique sur le Web

© ixxo 2010 15

Exemple : Nutricosmetics Worldwide (4/4)

Résultat

Page 16: Web Intelligence et Information Stratégique sur le Web

© ixxo 2010 16

Leçons apprises

difficile d'imposer un formalisme de requête

› "temps de cerveau disponible" limité

› requête sommaire et incomplète

› ∃ (souvent) une ontologie métier sous-jacente

la matière du web est brute

› mal formée ("parsing exceptions" >= dizaines de milliers par jour)

› "bruit sémantique"

volumétrie

› la combinaison topical crawl/IR est efficace

› reste quelques centaines de documents...

restitution

› les visualisations simples et synthétiques sont plébiscitées

– niveau carte conceptuelle suffisant en général

› besoin d'outils d'analyse

– ontologies ?

les solutions proposées doivent être translingues

Page 17: Web Intelligence et Information Stratégique sur le Web

© ixxo 2010 17

Verrous & enjeux pour notre secteur

Page 18: Web Intelligence et Information Stratégique sur le Web

© ixxo 2010 18

Améliorer la demande de recherche d'information

Mieux comprendre la requête

› modéliser

› classer

Pour faire des propositions...

› focaliser/étendre

› appliquer un modèle de recherche

› quelle interface ?

"échantillon" très petit

utiliser des outils sémantiques ?

Page 19: Web Intelligence et Information Stratégique sur le Web

© ixxo 2010 19

Isoler des "objets sémantiques" à grande échelle

Objectif

› matériau indispensable pour construire des ontologies ad hoc

– entités nommées, relations, propriétés

Méthode

› annoter automatiquement des pages web

› techniques classiques d'apprentissage à base de modèles

Problèmes spécifiques

› Résilience

– rappel : le web est un matériau brut

› Volumétrie

– millions de pages

– traitement et stockage

› Domaine ouvert

– comment obtenir des modèles adaptés sans gros effort préalable ?

Page 20: Web Intelligence et Information Stratégique sur le Web

© ixxo 2010 20

Construire automatiquement des visualisations simples

Objectif

› synthétiser l'information contenue dans quelques centaine de pages web

Méthode

› utiliser une ontologie ad hoc construite à partir du corpus présélectionné

Problèmes spécifiques

› trouver le bon niveau de détail

› diminuer le bruit

› faire apparaître les motifs fréquents/rares

› éliminer les redondances

› traiter les contradictions

Page 21: Web Intelligence et Information Stratégique sur le Web

© ixxo 2010 21

Pour les entreprises, les technologies sémantiques restent complexes

comment donner une connaissance initiale au système ?

› ontologies existantes ?

– généralistes, par domaine, communautaires ?

comment construire des connaissances ad hoc ?

comment les aligner ?

Page 22: Web Intelligence et Information Stratégique sur le Web

© ixxo 2010 22

Perspectives - Que disent les experts ?

Dr. Leo Obrst

› responsable du groupe "Information

Semantics" chez MITRE

› co-animateur de la communauté Ontolog

› membre du conseil exécutif de l'International

Association for Ontology and its Applications

MITRE corporation

› entreprise publique US

› bailleurs : DoD, FAA, IRS, Homeland Security

› 7000 chercheurs & ingénieurs, 65% Masters

ou PhD

› 1958 – MIT Lincoln laboratories

"State-of-art for next 100 years will be semi-automation"What is an ontology? - A Briefing on the Range of Semantic Models

2006 - Ontolog Invited Speaker Presentation

Page 23: Web Intelligence et Information Stratégique sur le Web

© ixxo 2010 23

Vers "des machines qui pensent"

Page 24: Web Intelligence et Information Stratégique sur le Web

© ixxo 2010 24

Nous ne sommes pas seuls sur ce long chemin !

De nombreuses institutions de recherche travaillent sur les ontologies appliquées

› W3C Semantic Web Activity

› The International Association for Ontology and its Applications

› Ontolog

› comités techniques du consortium OASIS

› NESSI Semantic technologies working group

› et de multiples équipes scientifiques à travers le monde…

› …dont bien sûr quelques équipes du projet Web Intelligence ;-)