Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales...

Post on 04-Apr-2015

104 views 0 download

Transcript of Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales...

Isidore

Accès unifié aux données et documents numériques des sciences humaines et sociales

Valpré – 7 décembre 2010

Nadine

ENJEUX

3

LE PROJET – LES ENJEUX

Enjeux stratégiques

Un point d’accès aux données numériquesdes SHS

Un socle : une infrastructure applicative

Un outil : des usages multiples

4

LE PROJET – LES ENJEUX

Enjeux technologiques

Des besoins « forts » en traitement des données

Prendre en comptela diversité

Un outil industriel et évolutif

5

LE PROJET – LES ENJEUX

Enjeux organisationnels

Une maîtrise d’œuvre plurielle publique-privée

Méthode agile

6

MÉTHODE PROJET

Plateforme d’intégration Frontaux (proxy)Démonstrateur

Gestion des référentiels

Enrichissement des données

Moteur de recherche

Intégration et IHM

UN PROJET CLASSIQUE ?

8

PRINCIPE DU PROJET

Un projet classique en apparence

Collecter Traiter Diffuser

9

VISION DE LA VALORISATION DE L’INFORMATION

Contenu

Texte …

Captation / Captation / ExtractionExtractionCaptation / Captation / ExtractionExtraction AnnotationAnnotationAnnotationAnnotation InférenceInférenceInférenceInférence

Bases Bases d’indexationd’indexation

Bases Bases d’indexationd’indexation

RDFRDFEndpoint SparQLEndpoint SparQL

RDFRDFEndpoint SparQLEndpoint SparQL

Publication

Publication

Publication

Publication

WebWeb

2.02.0

3.03.0xhtml+RDFaxhtml+RDFaLinked DataLinked Data

robotsrobots

10

LES PARTICULARITÉS DU PROJET

Collecter des données hétérogènes primaires, secondaires annuaires, bases de données, référentiels

Points durs : diversité, volumétrie

Exploiter les métadonnéeset le texte intégral

11

LES PARTICULARITÉS DU PROJET

Traiter

Normaliser les données

(qualité, forme, alignement)

Enrichir(classification, URI pérenne, vignettes,

extraction…)

12

LES PARTICULARITÉS DU PROJET

Diffuser avec le moteur de recherche recherches plein texte, multicritères et à facettes autocomplétion, correction orthographique traitements linguistiques avancés

13

LES PARTICULARITÉS DU PROJET

Diffuser dans le Web de données

Se préparer auLinked/Open

Data

Permettre l’émergence de nouveaux outils

exploitant les données

Rendre accessible

à l’écosystème les données

enrichies

14

ARCHITECTURE FONCTIONNELLE GLOBALE

Sources de données

Web : sites, flux

Entrepôts OAI

Applications,Web Services

Collecte, traitement, indexation Diffusion Applications

Applications de gestion de la plateforme Isidore

Configuration des

sources (appli

dédiée)

Gestion des référentiels

(ITM)

Back Office moteur

(BO-AFS) Entrepôts RDFSparQL endpoint

Service de recherche AFSCa

pter

Nor

mal

iser

,

dédo

ublo

nner

Anno

ter,

filtr

er

indexation

générationdu RDF

UI de démo

rechercheisidore

COLLECTERTRANSFORMER

ENRICHIR

INDEXERGENERER

ADMINISTRER

Moteur de recherche

Web des données

COLLECTER, TRANSFORMER, ENRICHIR

16

LA RÉPONSE

AFS-PaF : Pipes and Filters industrialise la chaîne de captation et de

traitement des données introduit un modèle d’Unité Documentaire

évolutif et souple fournit un cadre de développement et de

configuration de haut niveau

17

CHAINES DE TRAITEMENT

Créer des chaines de traitement par assemblage de modules

Sources de données

Module connecteur

Modules de transformation et enrichissement

18

DES FILTRES

Un framework qui permet de construire des modules 50+ filtres prêts à l’emploi Un environnement d’exécution

19

LE DOCUMENT

Le document est composite est dynamique évolue dans le temps est un objet à gérer à accéder de façon

unifiée

20

LE DOCUMENT

Document Manager abstrait le stockage et l’accès aux documents : stockage « cloud » créer / lire / écrire les couches

PAF ISIDORE PRINCIPES GÉNÉRAUX

22

Sites Web (sitemap)

Entrepôts OAI

Calenda

Sources de données

Flux RSS

ConnecteursModules Pipes&Filters

spécifiques aux sources

VUE GÉNÉRALE DE LA CHAÎNE « PAF » ISIDORE

Fichiers XML de configuration des connecteurs AFS et des modules de normalisation

Référentiels SKOS

Modules Pipes&Filters communs

Liens pérennes Annotation

Des sources multiples et des traitements ad-hoc Sites Web

collecte par sitemap extraction des données RDFa

Flux RSS capitalisation « illimitée »

Entrepôts de publications : articles, revues, thèses, … captation structurée : OAI-PMH, OAI-ORE extraction des métadonnées : DC

Diverses sources structurées annuaires de personnes, ressources, sources conférences, séminaires, …

CHAÎNE DE COLLECTE ET DE TRAITEMENT

Une chaîne dédiée à la normalisation : 12 filtres

Récupération de chaque ressource listée dans le SitemapExtraction du RDFaSérialisation du RDFaPassage dans un format pivotNormalisation de la dateNormalisation de l’auteurRécupération Handle et imagetteAjout des informations sources/documentSérialisation du XML pivot

24

CHAINE D’ENRICHISSEMENT

Une chaîne dédiée à l’enrichissement : 14 filtres

Classification sur la taxonomie HALClassification sur la taxonomie Sujets Calenda Classification sur la taxonomie Temps CalendaClassification sur la taxonomie Géo CalendaAlignement des types de documentAlignement des dates sur Thésaurus W (SIAF)Alignement des langues sur LexvoEnrichissement des auteurs sur HALExtraction des sujets sur Rameau, Pactols, GeonamesFusion des annotations

PAF ISIDOREFOCUS SUR CERTAINS POINTS

26

MAINTENABILITÉ - EXEMPLE

Configuration des sources Isidore(application dédiée)

Interface UtilisateurFichiers XML de définition des

sources

745 sources de données

PaF des sources

PaF des données

Moteur de recherche dans les sources

27

LA CLASSIFICATION AUTOMATIQUE

Classification par entrainement le moteur utilise les documents déjà classés pour

apprendre

puis utilise la base d’indicateurs statistiques pour catégoriser les 900 000 documents du corpus

28

L’ALIGNEMENT

Alignement des contenus sur des référentiels

fr

FR

francais

Français

français

en

eng

EN

anglais

english

Français

Anglais

29

L’EXTRACTION Extraction sur des référentiels

Une ressource documentaire

Mots clefs

Est décrit par

Un thésaurusConcept

Organise

Pour lier le mot-clé

au concept

Chaîne de caractèresEst exprimé par

Étiquette

Est décrit par

Le moteur effectue unecomparaison morphologique

Chaîne de caractères

Est exprimé par

Est décrit par

A noter qu’un algorithme permet de limiter le nombre d’annotations par

contextualisation

30

ARCHITECTURE FONCTIONNELLE GLOBALE

Sources de données

Web : sites, flux

Entrepôts OAI

Applications,Web Services

Collecte, traitement, indexation Diffusion Applications

Applications de gestion de la plateforme Isidore

Configuration des

sources (appli

dédiée)

Gestion des référentiels

(ITM)

Back Office moteur

(BO-AFS) Entrepôts RDFSparQL endpoint

Service de recherche AFSCa

pter

Nor

mal

iser

,

dédo

ublo

nner

Anno

ter,

filtr

er

indexation

générationdu RDF

UI de démo

rechercheisidore

INDEXERGENERER

Moteur de recherche

Web des données

GÉNÉRER, DIFFUSER

32

PUBLICATION DU RDF

Les données et enrichissements sont exportés en RDF en bout de chaine

Les triplets générés sont exploités pour retour vers les sources sous forme normalisée pour traiter des requêtes complexes pour une exposition dans le Web de données

Corpus

Génération

Fichiers de triplets

Entrepôt RDFChargement de l’entrepôt

33

NÉGOCIATION DE CONTENU

AFS et SPARQL sont des Web Service techniques Ils sont enrobés dans une couche métier

un Web Service applicatif qui permet la négociation de contenu

Description XML

Description RDF

Document

34

FAVORISER L’UTILISATION

Pas de code spécifique de la « configuration » : XSL et SPARQL au plus limiter les coûts de développement / test disposer d’une solution simple à faire évoluer

35

UNE AIDE À L’INTÉGRATION

ARCHITECTURE

37

ARCHITECTURE FONCTIONNELLE GLOBALE

Sources de données

Web : sites, flux

Entrepôts OAI

Applications,Web Services

Collecte, traitement, indexation Diffuser Applications

Applications de gestion de la plateforme Isidore

Configuration des

sources (appli

dédiée)

Gestion des référentiels

(ITM)

Back Office moteur

(BO-AFS) Entrepôts RDFSparQL endpoint

Service de recherche AFSCa

pter

Nor

mal

iser

,

dédo

ublo

nner

Anno

ter,

filtr

er

indexation

générationdu RDF

UI de démo

rechercheisidore

38

ARCHITECTURE LOGIQUE

39

ARCHITECTURE PHYSIQUE

6 serveurs : haute disponibilité 2 frontaux : Web Services 2 répondeurs, 1 indexeur 1 triplestore et back-office

MERCI DE VOTRE ATTENTION