Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

58
Antidot™ Pour un véritable accès unifié à l’information I-EXPO 18 MAI 2011

description

Toute organisation subit les limites de son système d’information : entrepôts de données cloisonnés, données hétérogènes, documents non structurés, thésaurus incomplets, taxonomies incohérentes… Les utilisateurs en souffrent et attendent un véritable « accès unifié à l’information » : trouver l’information par les concepts plutôt que la chercher par les mots, naviguer aisément dans l’information, mieux l’exploiter en collaborant. L’entreprise doit évoluer vers un « espace informationnel enrichi », servant différents usages selon le profil ou la mission de chaque collaborateur. La vision innovante d'Antidot permet d’aller bien au-delà de ce que permettent les approchent traditionnelles comme la « recherche fédérée » ou encore les « search based applications » car Antidot Information Factory et Antidot Finder Suite permettent de modéliser l’information, de capter, normaliser, décrire et agréger des données puis d’en inférer des informations nouvelles, facilement accessibles. Intégrant nativement les technologies du web sémantique, Antidot apporte les solutions les plus en pointe dans le domaine et démontre à travers une réalisation emblématique - le projet ISIDORE du CNRS TGE Adonis - comment capter, remodeler et rendre accessible une information à forte valeur ajoutée.

Transcript of Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Page 1: Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Confidentiel Antidot™

1

Pour un véritable accès unifié à l’information

I-EXPO 18 MAI 2011

Page 2: Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Confidentiel Antidot™

2

Société ANTIDOT

Editeur de logiciels depuis 1999 | Paris, Lyon, Aix-en-Provence

Solution de recherche et d’accès à l’information e-Commerce | Portails | Média | Entreprises

Produits - SaaS ou licence AIF : chaine de captation et de valorisation des

données AFS : moteur de recherche sémantique à facettes ACS : services collaboratifs

Page 4: Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Confidentiel Antidot™

4

Plan

Les limites de la « recherche fédérée » de documents

Le problème

#&!

Page 5: Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Confidentiel Antidot™

5

Plan

Penser l’accès à l’information dans un espace unifié

Le problème

#&!

La réponse

?

Page 6: Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Confidentiel Antidot™

6

Plan

Capter, Penser, Valoriser, Exposer l’information

Le problème

#&!

La réponse

?

La solution

Page 7: Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Confidentiel Antidot™

7

Plan

Un exemple

Le projet Isidore

(TGE AdonisCNRS)

Le problème

#&!

La réponse

?

La solution

Page 8: Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Confidentiel Antidot™

8

LE PROBLÈMELes limites de la recherche fédérée

Page 9: Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Confidentiel Antidot™

9

Les difficultés de la recherche fédérée

Des données hétérogènesDes silos de données cloisonnés

Des référentiels épars et incomplets Une terminologie subjective

Page 10: Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Confidentiel Antidot™

10

Le moteur de recherche : un outil miracle ?

Page 11: Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Confidentiel Antidot™

11

Les limites de la recherche fédérée

Recette de cuisine de la recherche fédérée

Indexez ServezCollectez

Page 12: Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Confidentiel Antidot™

12

Au mieux, une juxtaposition de docs

L’utilisateur n’est pas acteur de sa recherche.

Page 13: Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Confidentiel Antidot™

13

LA REPONSE ANTIDOTPenser l’accès à l’information dans un espace unifié et enrichi

Page 14: Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Confidentiel Antidot™

14

Modéliser, lier et annoter les informations

Créer une cohérence et de l’informationpar la mise en relation des différents silos

Page 15: Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Confidentiel Antidot™

15

Modéliser, lier et annoter les informations

Utiliser la nature des données sources

a pour sujetfait référence à

a pour sujet

auteurparticipant

auteur émetteur

destinataire

fait référence à

une personne

Fiche produit

CR de réunion

Courriel page Web

cite inclut

Page 16: Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Confidentiel Antidot™

16

S’appuyer sur les technologies du Web Sémantique

Un cadre d’interopérabilité pour mettre à disposition,consulter, lier et partager des données

Un protocole Un « langage »Un principeUn mécanisme d’identification

HTTP RDFL’hypertexteURL / URI

Page 17: Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Confidentiel Antidot™

17

Un espace unifié d’information

Agilité ne rime pas avec stabilité

Modifier les silos existants n’est pas possible

Dupliquer les données est une folie

Et pourtant

Il faut rendre les données malléables et dynamiques

Les données enrichies doivent être accessibles

Page 18: Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Confidentiel Antidot™

18

Créer de la valeur pour les utilisateurs

Page 19: Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Confidentiel Antidot™

19

LA SOLUTION ANTIDOTCapter, penser, valoriser, exposer l’information

Page 20: Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Confidentiel Antidot™

20

Capter, Valoriser, Enrichir et Exposer l’information

Page 21: Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Confidentiel Antidot™

21

Antidot Information Factory

AIF : un outil industriel et évolutif

Une chaîne de captation

et de traitement

Un cadre de développement

Un modèle d’Unité Documentaire

Page 22: Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Confidentiel Antidot™

22

AIF : une chaîne de traitement

Créer des chaînes de traitement de données par assemblage de modules

Sources de données

Module connecteur

Modules de transformation et enrichissement

Page 23: Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Confidentiel Antidot™

23

AIF : des briques à assembler

Déjà plus de 50 modules prêts à l’emploi en standard

Connecteurs Traitements XML

Text-miningTraitements RDF

Page 24: Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Confidentiel Antidot™

24

AIF : un cadre de développement

Un cadre de développement pour construire des modules50+ filtres prêts à l’emploi Un environnement d’exécution

Page 25: Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Confidentiel Antidot™

25

AIF : un modèle d’unité documentaire

Le document est composite est dynamique évolue dans le temps est un objet géré

de façon unifiée

Page 26: Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Confidentiel Antidot™

26

AIF : exposition des données

AIF rend accessibles les contenus enrichis via un Content Repository

API Web

Linked Data

Page 27: Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Confidentiel Antidot™

27

AIF : traite des « flux multi-documents »

AIF travaille en flux indépendamment du stockage des données

EnrichissementCaptation

Classification

Sémantisation

NormalisationAnnotation

Indexation Moteur de recherche AFS

Entrepôt RDF (Linked Data)

Content Repository

SGBDR

Page 28: Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Confidentiel Antidot™

28

Trouver rapidement l’information

Page 29: Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Confidentiel Antidot™

29

AFS : recherche sémantique

Recherche plein texte avec fonctions linguistiques : extension automatique suggestion orthographique suggestion de concepts expressions contextuelles

Page 30: Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Confidentiel Antidot™

30

AFS : suggestion intelligente

Autocomplétion intelligente pendant la saisie de la requête

Page 31: Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Confidentiel Antidot™

31

AFS : recherche avancée

Recherche multicritères avancéeRecherche géographique

Page 32: Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Confidentiel Antidot™

32

AFS : recherche à facettes

Recherche à facettes

Page 33: Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Confidentiel Antidot™

33

AFS : regroupement de résultats

Clusterisation : regroupement des résultats selon une taxonomie, des propriétés, …

Page 34: Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Confidentiel Antidot™

34

AFS : intégration

Toutes les API accessibles en REST

Formats de sortie SI ou Web : XML, JSON

Compatible OpenSearch

Adapté aux architectures SOA et aux projets SBA

Page 35: Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Confidentiel Antidot™

35

Annoter et Partager l’information pour mieux Collaborer

Page 36: Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Confidentiel Antidot™

36

ACS : la recherche collaborative

CapitaliserEnregistrer Requêtes Réponses

Organiser Dossiers Tags

Page 37: Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Confidentiel Antidot™

37

UN EXEMPLE PROBANTLe projet Isidore

Page 38: Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Confidentiel Antidot™

38

Le très grand équipement Adonis (CNRS)

Le Très grand équipement du CNRS pour les Sciences Humaines et Sociales

Adonis : accès unifié aux données et documents numériques des sciences humaines et sociales

Isidore : point d’accès unifié à des données enrichies

Page 39: Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Confidentiel Antidot™

39

Principe du projet

Un projet classique en apparence

Collecter Traiter Diffuser

Page 40: Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Confidentiel Antidot™

40

Les particularités du projet

Collecter des données hétérogènes primaires, secondaires annuaires, bases de données, référentiels

Points durs : diversité, volumétrie

Exploiter les métadonnéeset le texte intégral

Page 41: Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Confidentiel Antidot™

41

Les particularités du projet

Traiter

Normaliser les données

(qualité, forme, alignement)

Enrichir(classification, URI pérenne, vignettes,

extraction…)

Page 42: Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Confidentiel Antidot™

42

Les particularités du projet

Diffuser dans le Web de données

Se préparer auLinked/Open

Data

Permettre l’émergence de nouveaux outils

exploitant les données

Rendre accessible

à l’écosystème les données

enrichies

Page 43: Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Confidentiel Antidot™

43

Sites Web (sitemap)

Entrepôts OAI

Calenda

Sources de données

Flux RSS

Vue générale de la chaîne « PaF » Isidore

Des sources multiples et des traitements ad-hoc Sites Web

collecte par sitemap extraction des données RDFa

Flux RSS capitalisation « illimitée »

Entrepôts de publications : articles, revues, thèses, … captation structurée : OAI-PMH, OAI-ORE extraction des métadonnées : DC

Diverses sources structurées annuaires de personnes, ressources, sources conférences, séminaires, …

Page 44: Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Confidentiel Antidot™

44

Sites Web (sitemap)

Entrepôts OAI

Calenda

Sources de données

Flux RSS

ConnecteursModules Pipes&Filters

spécifiques aux sources

Vue générale de la chaîne « PaF » Isidore

Fichiers XML de configuration des connecteurs AFS et des modules de normalisation

Référentiels SKOS

Modules Pipes&Filters communs

Liens pérennes Annotation

Page 45: Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Confidentiel Antidot™

45

Chaîne de collecte et de traitement

Une chaîne dédiée à la normalisation : 12 filtres

Récupération de chaque ressource listée dans le SitemapExtraction du RDFaSérialisation du RDFaPassage dans un format pivotNormalisation de la dateNormalisation de l’auteurRécupération Handle et imagetteAjout des informations sources/documentSérialisation du XML pivot

Page 46: Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Confidentiel Antidot™

46

Chaine d’enrichissement

Une chaîne dédiée à l’enrichissement : 14 filtres

Classification sur la taxonomie HALClassification sur la taxonomie Sujets Calenda Classification sur la taxonomie Temps CalendaClassification sur la taxonomie Géo CalendaAlignement des types de documentAlignement des dates sur Thésaurus W (SIAF)Alignement des langues sur LexvoEnrichissement des auteurs sur HALExtraction des sujets sur Rameau, Pactols, GeonamesFusion des annotations

Page 47: Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Confidentiel Antidot™

47

La classification automatique

Le moteur utilise les documents déjà classés pour apprendre

Puis utilise la base d’indicateurs statistiques pour classifier les 900 000 documents du corpus

Page 48: Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Confidentiel Antidot™

48

Normalisation sur les référentiels

frFR

francais

Français

français

eneng

EN

anglais

english

Français

Anglais

Page 49: Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Confidentiel Antidot™

49

Annotation (tagging)

Une ressource documentaire

Mots clefs

Est décrit par

Un thésaurusConcept

Organise

Pour lier le mot-clé

au concept

Chaîne de caractèresEst exprimé par

Étiquette

Est décrit par

Le moteur effectue unecomparaison morphologique

Chaîne de caractères

Est exprimé par

Est décrit par

Page 50: Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Confidentiel Antidot™

50

Les quatre principes du Web de données ou Linked Data

Source : http://www.w3.org/2009/Talks/0204-ted-tbl/#%281%29

http://dbpedia.org/resource/French_National_Centre_for_Scientific_Research

Utiliser des URIs Utiliser des URIsaccessibles via HTTP

Donner l’accès aux données utiles en utilisant les standards SPARQL et RDF

Exprimer l’URI des objets liés

Page 51: Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Confidentiel Antidot™

51

Utiliser des URIs

Chaque ressource reçoit dans Isidore un identifiant unique et stabledélivré par le CCSD selon le système Handle

http://www.rechercheisidore.fr/resource/ 10670.1/qydusc

Résolveur Identifiant Handle

Page 52: Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Confidentiel Antidot™

52

Des URIS HTTP

Pour chaque URI, Isidore est capable de renvoyer le format le mieux adapté à l’émetteur de la requête : la négociation de contenu

http://www.rechercheisidore.fr/resource/10670.1/qydusc

http://halshs.archives-ouvertes.fr/halshs-00004902/en/

Page 53: Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Confidentiel Antidot™

53

Des URIS HTTP

http://www.rechercheisidore.fr/resource/10670.1/qydusc

http://www.rechercheisidore.fr/data/10670.1/qydusc.n3

Pour chaque URI, Isidore est capable de renvoyer le format le mieux adapté à l’émetteur de la requête : la négociation de contenu

Page 54: Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Confidentiel Antidot™

54

Des URIS HTTP

http://www.rechercheisidore.fr/resource/10670.1/qydusc

http://www.rechercheisidore.fr/data/10670.1/qydusc.n3

Pour chaque URI, Isidore est capable de renvoyer le format le mieux adapté à l’émetteur de la requête : la négociation de contenu

http://halshs.archives-ouvertes.fr/halshs-00004902/en/

Page 55: Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Confidentiel Antidot™

55

Exprimer l’URI des objets liés

ISIDORE

RéférentielDisciplinesHAL-SHS

RéférentielAuteursHAL-SHS

RéférentielOrganisation

HAL-SHS

RéférentielCatégories

Calenda

RéférentielPactols

RéférentielGeonames Référentiel

RameauRéférentiel

Lexvo

RéférentielThésaurus W

SIAF

Page 56: Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Confidentiel Antidot™

56

Rendre accessible les enrichissements

pour mettre en place une boucle de rétro-action

Page 57: Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Confidentiel Antidot™

57

Architecture fonctionnelle globale

Sources de données

Web : sites, flux

Entrepôts OAI

Applications,Web Services

Collecte, traitement, indexation Diffusion Applications

Applications de gestion de la plateforme Isidore

Configuration des sources

(appli dédiée)

Gestion des référentiels

(ITM)

Back Office moteur

(BO-AFS) Entrepôts RDFSparQL endpoint

Service de recherche AFSCa

pter

Nor

mal

iser

,

dédo

ublo

nner

Anno

ter,

filtr

er

indexation

générationdu RDF

UI de démo

rechercheisidore

Page 58: Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Confidentiel Antidot™

58

MERCI DE VOTRE ATTENTION !

DES QUESTIONS ?