Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information
-
Upload
antidot -
Category
Technology
-
view
1.557 -
download
0
description
Transcript of Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information
Confidentiel Antidot™
1
Pour un véritable accès unifié à l’information
I-EXPO 18 MAI 2011
Confidentiel Antidot™
2
Société ANTIDOT
Editeur de logiciels depuis 1999 | Paris, Lyon, Aix-en-Provence
Solution de recherche et d’accès à l’information e-Commerce | Portails | Média | Entreprises
Produits - SaaS ou licence AIF : chaine de captation et de valorisation des
données AFS : moteur de recherche sémantique à facettes ACS : services collaboratifs
Confidentiel Antidot™
3
Parmi nos clients
Média
Santé
Entreprises E-commerce
Institutions
Confidentiel Antidot™
4
Plan
Les limites de la « recherche fédérée » de documents
Le problème
#&!
Confidentiel Antidot™
5
Plan
Penser l’accès à l’information dans un espace unifié
Le problème
#&!
La réponse
?
Confidentiel Antidot™
6
Plan
Capter, Penser, Valoriser, Exposer l’information
Le problème
#&!
La réponse
?
La solution
Confidentiel Antidot™
7
Plan
Un exemple
Le projet Isidore
(TGE AdonisCNRS)
Le problème
#&!
La réponse
?
La solution
Confidentiel Antidot™
8
LE PROBLÈMELes limites de la recherche fédérée
Confidentiel Antidot™
9
Les difficultés de la recherche fédérée
Des données hétérogènesDes silos de données cloisonnés
Des référentiels épars et incomplets Une terminologie subjective
Confidentiel Antidot™
10
Le moteur de recherche : un outil miracle ?
Confidentiel Antidot™
11
Les limites de la recherche fédérée
Recette de cuisine de la recherche fédérée
Indexez ServezCollectez
Confidentiel Antidot™
12
Au mieux, une juxtaposition de docs
L’utilisateur n’est pas acteur de sa recherche.
Confidentiel Antidot™
13
LA REPONSE ANTIDOTPenser l’accès à l’information dans un espace unifié et enrichi
Confidentiel Antidot™
14
Modéliser, lier et annoter les informations
Créer une cohérence et de l’informationpar la mise en relation des différents silos
Confidentiel Antidot™
15
Modéliser, lier et annoter les informations
Utiliser la nature des données sources
a pour sujetfait référence à
a pour sujet
auteurparticipant
auteur émetteur
destinataire
fait référence à
une personne
Fiche produit
CR de réunion
Courriel page Web
cite inclut
Confidentiel Antidot™
16
S’appuyer sur les technologies du Web Sémantique
Un cadre d’interopérabilité pour mettre à disposition,consulter, lier et partager des données
Un protocole Un « langage »Un principeUn mécanisme d’identification
HTTP RDFL’hypertexteURL / URI
Confidentiel Antidot™
17
Un espace unifié d’information
Agilité ne rime pas avec stabilité
Modifier les silos existants n’est pas possible
Dupliquer les données est une folie
Et pourtant
Il faut rendre les données malléables et dynamiques
Les données enrichies doivent être accessibles
Confidentiel Antidot™
18
Créer de la valeur pour les utilisateurs
Confidentiel Antidot™
19
LA SOLUTION ANTIDOTCapter, penser, valoriser, exposer l’information
Confidentiel Antidot™
20
Capter, Valoriser, Enrichir et Exposer l’information
Confidentiel Antidot™
21
Antidot Information Factory
AIF : un outil industriel et évolutif
Une chaîne de captation
et de traitement
Un cadre de développement
Un modèle d’Unité Documentaire
Confidentiel Antidot™
22
AIF : une chaîne de traitement
Créer des chaînes de traitement de données par assemblage de modules
Sources de données
Module connecteur
Modules de transformation et enrichissement
Confidentiel Antidot™
23
AIF : des briques à assembler
Déjà plus de 50 modules prêts à l’emploi en standard
Connecteurs Traitements XML
Text-miningTraitements RDF
Confidentiel Antidot™
24
AIF : un cadre de développement
Un cadre de développement pour construire des modules50+ filtres prêts à l’emploi Un environnement d’exécution
Confidentiel Antidot™
25
AIF : un modèle d’unité documentaire
Le document est composite est dynamique évolue dans le temps est un objet géré
de façon unifiée
Confidentiel Antidot™
26
AIF : exposition des données
AIF rend accessibles les contenus enrichis via un Content Repository
API Web
Linked Data
Confidentiel Antidot™
27
AIF : traite des « flux multi-documents »
AIF travaille en flux indépendamment du stockage des données
EnrichissementCaptation
Classification
Sémantisation
NormalisationAnnotation
Indexation Moteur de recherche AFS
Entrepôt RDF (Linked Data)
Content Repository
SGBDR
Confidentiel Antidot™
28
Trouver rapidement l’information
Confidentiel Antidot™
29
AFS : recherche sémantique
Recherche plein texte avec fonctions linguistiques : extension automatique suggestion orthographique suggestion de concepts expressions contextuelles
Confidentiel Antidot™
30
AFS : suggestion intelligente
Autocomplétion intelligente pendant la saisie de la requête
Confidentiel Antidot™
31
AFS : recherche avancée
Recherche multicritères avancéeRecherche géographique
Confidentiel Antidot™
32
AFS : recherche à facettes
Recherche à facettes
Confidentiel Antidot™
33
AFS : regroupement de résultats
Clusterisation : regroupement des résultats selon une taxonomie, des propriétés, …
Confidentiel Antidot™
34
AFS : intégration
Toutes les API accessibles en REST
Formats de sortie SI ou Web : XML, JSON
Compatible OpenSearch
Adapté aux architectures SOA et aux projets SBA
Confidentiel Antidot™
35
Annoter et Partager l’information pour mieux Collaborer
Confidentiel Antidot™
36
ACS : la recherche collaborative
CapitaliserEnregistrer Requêtes Réponses
Organiser Dossiers Tags
Confidentiel Antidot™
37
UN EXEMPLE PROBANTLe projet Isidore
Confidentiel Antidot™
38
Le très grand équipement Adonis (CNRS)
Le Très grand équipement du CNRS pour les Sciences Humaines et Sociales
Adonis : accès unifié aux données et documents numériques des sciences humaines et sociales
Isidore : point d’accès unifié à des données enrichies
Confidentiel Antidot™
39
Principe du projet
Un projet classique en apparence
Collecter Traiter Diffuser
Confidentiel Antidot™
40
Les particularités du projet
Collecter des données hétérogènes primaires, secondaires annuaires, bases de données, référentiels
Points durs : diversité, volumétrie
Exploiter les métadonnéeset le texte intégral
Confidentiel Antidot™
41
Les particularités du projet
Traiter
Normaliser les données
(qualité, forme, alignement)
Enrichir(classification, URI pérenne, vignettes,
extraction…)
Confidentiel Antidot™
42
Les particularités du projet
Diffuser dans le Web de données
Se préparer auLinked/Open
Data
Permettre l’émergence de nouveaux outils
exploitant les données
Rendre accessible
à l’écosystème les données
enrichies
Confidentiel Antidot™
43
Sites Web (sitemap)
Entrepôts OAI
Calenda
Sources de données
Flux RSS
Vue générale de la chaîne « PaF » Isidore
Des sources multiples et des traitements ad-hoc Sites Web
collecte par sitemap extraction des données RDFa
Flux RSS capitalisation « illimitée »
Entrepôts de publications : articles, revues, thèses, … captation structurée : OAI-PMH, OAI-ORE extraction des métadonnées : DC
Diverses sources structurées annuaires de personnes, ressources, sources conférences, séminaires, …
Confidentiel Antidot™
44
Sites Web (sitemap)
Entrepôts OAI
Calenda
Sources de données
Flux RSS
ConnecteursModules Pipes&Filters
spécifiques aux sources
…
…
…
…
Vue générale de la chaîne « PaF » Isidore
Fichiers XML de configuration des connecteurs AFS et des modules de normalisation
Référentiels SKOS
Modules Pipes&Filters communs
Liens pérennes Annotation
…
Confidentiel Antidot™
45
Chaîne de collecte et de traitement
Une chaîne dédiée à la normalisation : 12 filtres
Récupération de chaque ressource listée dans le SitemapExtraction du RDFaSérialisation du RDFaPassage dans un format pivotNormalisation de la dateNormalisation de l’auteurRécupération Handle et imagetteAjout des informations sources/documentSérialisation du XML pivot
Confidentiel Antidot™
46
Chaine d’enrichissement
Une chaîne dédiée à l’enrichissement : 14 filtres
Classification sur la taxonomie HALClassification sur la taxonomie Sujets Calenda Classification sur la taxonomie Temps CalendaClassification sur la taxonomie Géo CalendaAlignement des types de documentAlignement des dates sur Thésaurus W (SIAF)Alignement des langues sur LexvoEnrichissement des auteurs sur HALExtraction des sujets sur Rameau, Pactols, GeonamesFusion des annotations
Confidentiel Antidot™
47
La classification automatique
Le moteur utilise les documents déjà classés pour apprendre
Puis utilise la base d’indicateurs statistiques pour classifier les 900 000 documents du corpus
Confidentiel Antidot™
48
Normalisation sur les référentiels
frFR
francais
Français
français
eneng
EN
anglais
english
Français
Anglais
Confidentiel Antidot™
49
Annotation (tagging)
Une ressource documentaire
Mots clefs
Est décrit par
Un thésaurusConcept
Organise
Pour lier le mot-clé
au concept
Chaîne de caractèresEst exprimé par
Étiquette
Est décrit par
Le moteur effectue unecomparaison morphologique
Chaîne de caractères
Est exprimé par
Est décrit par
Confidentiel Antidot™
50
Les quatre principes du Web de données ou Linked Data
Source : http://www.w3.org/2009/Talks/0204-ted-tbl/#%281%29
http://dbpedia.org/resource/French_National_Centre_for_Scientific_Research
Utiliser des URIs Utiliser des URIsaccessibles via HTTP
Donner l’accès aux données utiles en utilisant les standards SPARQL et RDF
Exprimer l’URI des objets liés
Confidentiel Antidot™
51
Utiliser des URIs
Chaque ressource reçoit dans Isidore un identifiant unique et stabledélivré par le CCSD selon le système Handle
http://www.rechercheisidore.fr/resource/ 10670.1/qydusc
Résolveur Identifiant Handle
Confidentiel Antidot™
52
Des URIS HTTP
Pour chaque URI, Isidore est capable de renvoyer le format le mieux adapté à l’émetteur de la requête : la négociation de contenu
http://www.rechercheisidore.fr/resource/10670.1/qydusc
http://halshs.archives-ouvertes.fr/halshs-00004902/en/
Confidentiel Antidot™
53
Des URIS HTTP
http://www.rechercheisidore.fr/resource/10670.1/qydusc
http://www.rechercheisidore.fr/data/10670.1/qydusc.n3
Pour chaque URI, Isidore est capable de renvoyer le format le mieux adapté à l’émetteur de la requête : la négociation de contenu
Confidentiel Antidot™
54
Des URIS HTTP
http://www.rechercheisidore.fr/resource/10670.1/qydusc
http://www.rechercheisidore.fr/data/10670.1/qydusc.n3
Pour chaque URI, Isidore est capable de renvoyer le format le mieux adapté à l’émetteur de la requête : la négociation de contenu
http://halshs.archives-ouvertes.fr/halshs-00004902/en/
Confidentiel Antidot™
55
Exprimer l’URI des objets liés
ISIDORE
RéférentielDisciplinesHAL-SHS
RéférentielAuteursHAL-SHS
RéférentielOrganisation
HAL-SHS
RéférentielCatégories
Calenda
RéférentielPactols
RéférentielGeonames Référentiel
RameauRéférentiel
Lexvo
RéférentielThésaurus W
SIAF
Confidentiel Antidot™
56
Rendre accessible les enrichissements
pour mettre en place une boucle de rétro-action
Confidentiel Antidot™
57
Architecture fonctionnelle globale
Sources de données
Web : sites, flux
Entrepôts OAI
Applications,Web Services
Collecte, traitement, indexation Diffusion Applications
Applications de gestion de la plateforme Isidore
Configuration des sources
(appli dédiée)
Gestion des référentiels
(ITM)
Back Office moteur
(BO-AFS) Entrepôts RDFSparQL endpoint
Service de recherche AFSCa
pter
Nor
mal
iser
,
dédo
ublo
nner
Anno
ter,
filtr
er
indexation
générationdu RDF
UI de démo
rechercheisidore
Confidentiel Antidot™
58
MERCI DE VOTRE ATTENTION !
DES QUESTIONS ?