Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales...

40
Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010

Transcript of Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales...

Page 1: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010.

Isidore

Accès unifié aux données et documents numériques des sciences humaines et sociales

Valpré – 7 décembre 2010

Nadine
Page 2: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010.

ENJEUX

Page 3: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010.

3

LE PROJET – LES ENJEUX

Enjeux stratégiques

Un point d’accès aux données numériquesdes SHS

Un socle : une infrastructure applicative

Un outil : des usages multiples

Page 4: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010.

4

LE PROJET – LES ENJEUX

Enjeux technologiques

Des besoins « forts » en traitement des données

Prendre en comptela diversité

Un outil industriel et évolutif

Page 5: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010.

5

LE PROJET – LES ENJEUX

Enjeux organisationnels

Une maîtrise d’œuvre plurielle publique-privée

Méthode agile

Page 6: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010.

6

MÉTHODE PROJET

Plateforme d’intégration Frontaux (proxy)Démonstrateur

Gestion des référentiels

Enrichissement des données

Moteur de recherche

Intégration et IHM

Page 7: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010.

UN PROJET CLASSIQUE ?

Page 8: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010.

8

PRINCIPE DU PROJET

Un projet classique en apparence

Collecter Traiter Diffuser

Page 9: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010.

9

VISION DE LA VALORISATION DE L’INFORMATION

Contenu

Texte …

Captation / Captation / ExtractionExtractionCaptation / Captation / ExtractionExtraction AnnotationAnnotationAnnotationAnnotation InférenceInférenceInférenceInférence

Bases Bases d’indexationd’indexation

Bases Bases d’indexationd’indexation

RDFRDFEndpoint SparQLEndpoint SparQL

RDFRDFEndpoint SparQLEndpoint SparQL

Publication

Publication

Publication

Publication

WebWeb

2.02.0

3.03.0xhtml+RDFaxhtml+RDFaLinked DataLinked Data

robotsrobots

Page 10: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010.

10

LES PARTICULARITÉS DU PROJET

Collecter des données hétérogènes primaires, secondaires annuaires, bases de données, référentiels

Points durs : diversité, volumétrie

Exploiter les métadonnéeset le texte intégral

Page 11: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010.

11

LES PARTICULARITÉS DU PROJET

Traiter

Normaliser les données

(qualité, forme, alignement)

Enrichir(classification, URI pérenne, vignettes,

extraction…)

Page 12: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010.

12

LES PARTICULARITÉS DU PROJET

Diffuser avec le moteur de recherche recherches plein texte, multicritères et à facettes autocomplétion, correction orthographique traitements linguistiques avancés

Page 13: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010.

13

LES PARTICULARITÉS DU PROJET

Diffuser dans le Web de données

Se préparer auLinked/Open

Data

Permettre l’émergence de nouveaux outils

exploitant les données

Rendre accessible

à l’écosystème les données

enrichies

Page 14: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010.

14

ARCHITECTURE FONCTIONNELLE GLOBALE

Sources de données

Web : sites, flux

Entrepôts OAI

Applications,Web Services

Collecte, traitement, indexation Diffusion Applications

Applications de gestion de la plateforme Isidore

Configuration des

sources (appli

dédiée)

Gestion des référentiels

(ITM)

Back Office moteur

(BO-AFS) Entrepôts RDFSparQL endpoint

Service de recherche AFSCa

pter

Nor

mal

iser

,

dédo

ublo

nner

Anno

ter,

filtr

er

indexation

générationdu RDF

UI de démo

rechercheisidore

COLLECTERTRANSFORMER

ENRICHIR

INDEXERGENERER

ADMINISTRER

Moteur de recherche

Web des données

Page 15: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010.

COLLECTER, TRANSFORMER, ENRICHIR

Page 16: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010.

16

LA RÉPONSE

AFS-PaF : Pipes and Filters industrialise la chaîne de captation et de

traitement des données introduit un modèle d’Unité Documentaire

évolutif et souple fournit un cadre de développement et de

configuration de haut niveau

Page 17: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010.

17

CHAINES DE TRAITEMENT

Créer des chaines de traitement par assemblage de modules

Sources de données

Module connecteur

Modules de transformation et enrichissement

Page 18: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010.

18

DES FILTRES

Un framework qui permet de construire des modules 50+ filtres prêts à l’emploi Un environnement d’exécution

Page 19: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010.

19

LE DOCUMENT

Le document est composite est dynamique évolue dans le temps est un objet à gérer à accéder de façon

unifiée

Page 20: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010.

20

LE DOCUMENT

Document Manager abstrait le stockage et l’accès aux documents : stockage « cloud » créer / lire / écrire les couches

Page 21: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010.

PAF ISIDORE PRINCIPES GÉNÉRAUX

Page 22: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010.

22

Sites Web (sitemap)

Entrepôts OAI

Calenda

Sources de données

Flux RSS

ConnecteursModules Pipes&Filters

spécifiques aux sources

VUE GÉNÉRALE DE LA CHAÎNE « PAF » ISIDORE

Fichiers XML de configuration des connecteurs AFS et des modules de normalisation

Référentiels SKOS

Modules Pipes&Filters communs

Liens pérennes Annotation

Des sources multiples et des traitements ad-hoc Sites Web

collecte par sitemap extraction des données RDFa

Flux RSS capitalisation « illimitée »

Entrepôts de publications : articles, revues, thèses, … captation structurée : OAI-PMH, OAI-ORE extraction des métadonnées : DC

Diverses sources structurées annuaires de personnes, ressources, sources conférences, séminaires, …

Page 23: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010.

CHAÎNE DE COLLECTE ET DE TRAITEMENT

Une chaîne dédiée à la normalisation : 12 filtres

Récupération de chaque ressource listée dans le SitemapExtraction du RDFaSérialisation du RDFaPassage dans un format pivotNormalisation de la dateNormalisation de l’auteurRécupération Handle et imagetteAjout des informations sources/documentSérialisation du XML pivot

Page 24: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010.

24

CHAINE D’ENRICHISSEMENT

Une chaîne dédiée à l’enrichissement : 14 filtres

Classification sur la taxonomie HALClassification sur la taxonomie Sujets Calenda Classification sur la taxonomie Temps CalendaClassification sur la taxonomie Géo CalendaAlignement des types de documentAlignement des dates sur Thésaurus W (SIAF)Alignement des langues sur LexvoEnrichissement des auteurs sur HALExtraction des sujets sur Rameau, Pactols, GeonamesFusion des annotations

Page 25: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010.

PAF ISIDOREFOCUS SUR CERTAINS POINTS

Page 26: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010.

26

MAINTENABILITÉ - EXEMPLE

Configuration des sources Isidore(application dédiée)

Interface UtilisateurFichiers XML de définition des

sources

745 sources de données

PaF des sources

PaF des données

Moteur de recherche dans les sources

Page 27: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010.

27

LA CLASSIFICATION AUTOMATIQUE

Classification par entrainement le moteur utilise les documents déjà classés pour

apprendre

puis utilise la base d’indicateurs statistiques pour catégoriser les 900 000 documents du corpus

Page 28: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010.

28

L’ALIGNEMENT

Alignement des contenus sur des référentiels

fr

FR

francais

Français

français

en

eng

EN

anglais

english

Français

Anglais

Page 29: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010.

29

L’EXTRACTION Extraction sur des référentiels

Une ressource documentaire

Mots clefs

Est décrit par

Un thésaurusConcept

Organise

Pour lier le mot-clé

au concept

Chaîne de caractèresEst exprimé par

Étiquette

Est décrit par

Le moteur effectue unecomparaison morphologique

Chaîne de caractères

Est exprimé par

Est décrit par

A noter qu’un algorithme permet de limiter le nombre d’annotations par

contextualisation

Page 30: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010.

30

ARCHITECTURE FONCTIONNELLE GLOBALE

Sources de données

Web : sites, flux

Entrepôts OAI

Applications,Web Services

Collecte, traitement, indexation Diffusion Applications

Applications de gestion de la plateforme Isidore

Configuration des

sources (appli

dédiée)

Gestion des référentiels

(ITM)

Back Office moteur

(BO-AFS) Entrepôts RDFSparQL endpoint

Service de recherche AFSCa

pter

Nor

mal

iser

,

dédo

ublo

nner

Anno

ter,

filtr

er

indexation

générationdu RDF

UI de démo

rechercheisidore

INDEXERGENERER

Moteur de recherche

Web des données

Page 31: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010.

GÉNÉRER, DIFFUSER

Page 32: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010.

32

PUBLICATION DU RDF

Les données et enrichissements sont exportés en RDF en bout de chaine

Les triplets générés sont exploités pour retour vers les sources sous forme normalisée pour traiter des requêtes complexes pour une exposition dans le Web de données

Corpus

Génération

Fichiers de triplets

Entrepôt RDFChargement de l’entrepôt

Page 33: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010.

33

NÉGOCIATION DE CONTENU

AFS et SPARQL sont des Web Service techniques Ils sont enrobés dans une couche métier

un Web Service applicatif qui permet la négociation de contenu

Description XML

Description RDF

Document

Page 34: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010.

34

FAVORISER L’UTILISATION

Pas de code spécifique de la « configuration » : XSL et SPARQL au plus limiter les coûts de développement / test disposer d’une solution simple à faire évoluer

Page 35: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010.

35

UNE AIDE À L’INTÉGRATION

Page 36: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010.

ARCHITECTURE

Page 37: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010.

37

ARCHITECTURE FONCTIONNELLE GLOBALE

Sources de données

Web : sites, flux

Entrepôts OAI

Applications,Web Services

Collecte, traitement, indexation Diffuser Applications

Applications de gestion de la plateforme Isidore

Configuration des

sources (appli

dédiée)

Gestion des référentiels

(ITM)

Back Office moteur

(BO-AFS) Entrepôts RDFSparQL endpoint

Service de recherche AFSCa

pter

Nor

mal

iser

,

dédo

ublo

nner

Anno

ter,

filtr

er

indexation

générationdu RDF

UI de démo

rechercheisidore

Page 38: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010.

38

ARCHITECTURE LOGIQUE

Page 39: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010.

39

ARCHITECTURE PHYSIQUE

6 serveurs : haute disponibilité 2 frontaux : Web Services 2 répondeurs, 1 indexeur 1 triplestore et back-office

Page 40: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010.

MERCI DE VOTRE ATTENTION