Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales...

Isidore

Accès unifié aux données et documents numériques des sciences humaines et sociales

Valpré – 7 décembre 2010

ENJEUX

LE PROJET – LES ENJEUX

Enjeux stratégiques

Un point d’accès aux données numériquesdes SHS

Un socle : une infrastructure applicative

Un outil : des usages multiples

Enjeux technologiques

Des besoins « forts » en traitement des données

Prendre en comptela diversité

Un outil industriel et évolutif

Enjeux organisationnels

Une maîtrise d’œuvre plurielle publique-privée

Méthode agile

MÉTHODE PROJET

Plateforme d’intégration Frontaux (proxy)Démonstrateur

Gestion des référentiels

Enrichissement des données

Moteur de recherche

Intégration et IHM

UN PROJET CLASSIQUE ?

PRINCIPE DU PROJET

Un projet classique en apparence

Collecter Traiter Diffuser

VISION DE LA VALORISATION DE L’INFORMATION

Contenu

Texte …

Captation / Captation / ExtractionExtractionCaptation / Captation / ExtractionExtraction AnnotationAnnotationAnnotationAnnotation InférenceInférenceInférenceInférence

Bases Bases d’indexationd’indexation

RDFRDFEndpoint SparQLEndpoint SparQL

Publication

WebWeb

2.02.0

3.03.0xhtml+RDFaxhtml+RDFaLinked DataLinked Data

robotsrobots

LES PARTICULARITÉS DU PROJET

Collecter des données hétérogènes primaires, secondaires annuaires, bases de données, référentiels

Points durs : diversité, volumétrie

Exploiter les métadonnéeset le texte intégral

Traiter

Normaliser les données

(qualité, forme, alignement)

Enrichir(classification, URI pérenne, vignettes,

extraction…)

Diffuser avec le moteur de recherche recherches plein texte, multicritères et à facettes autocomplétion, correction orthographique traitements linguistiques avancés

Diffuser dans le Web de données

Se préparer auLinked/Open

Permettre l’émergence de nouveaux outils

exploitant les données

Rendre accessible

à l’écosystème les données

enrichies

ARCHITECTURE FONCTIONNELLE GLOBALE

Sources de données

Web : sites, flux

Entrepôts OAI

Applications,Web Services

Collecte, traitement, indexation Diffusion Applications

Applications de gestion de la plateforme Isidore

Configuration des

sources (appli

dédiée)

Back Office moteur

(BO-AFS) Entrepôts RDFSparQL endpoint

Service de recherche AFSCa

indexation

générationdu RDF

UI de démo

rechercheisidore

COLLECTERTRANSFORMER

ENRICHIR

INDEXERGENERER

ADMINISTRER

Moteur de recherche

Web des données

COLLECTER, TRANSFORMER, ENRICHIR

LA RÉPONSE

AFS-PaF : Pipes and Filters industrialise la chaîne de captation et de

traitement des données introduit un modèle d’Unité Documentaire

évolutif et souple fournit un cadre de développement et de

configuration de haut niveau

CHAINES DE TRAITEMENT

Créer des chaines de traitement par assemblage de modules

Sources de données

Module connecteur

Modules de transformation et enrichissement

DES FILTRES

Un framework qui permet de construire des modules 50+ filtres prêts à l’emploi Un environnement d’exécution

LE DOCUMENT

Le document est composite est dynamique évolue dans le temps est un objet à gérer à accéder de façon

unifiée

LE DOCUMENT

Document Manager abstrait le stockage et l’accès aux documents : stockage « cloud » créer / lire / écrire les couches

PAF ISIDORE PRINCIPES GÉNÉRAUX

Sites Web (sitemap)

Entrepôts OAI

Calenda

Sources de données

Flux RSS

ConnecteursModules Pipes&Filters

spécifiques aux sources

VUE GÉNÉRALE DE LA CHAÎNE « PAF » ISIDORE

Fichiers XML de configuration des connecteurs AFS et des modules de normalisation

Référentiels SKOS

Modules Pipes&Filters communs

Liens pérennes Annotation

Des sources multiples et des traitements ad-hoc Sites Web

collecte par sitemap extraction des données RDFa

Flux RSS capitalisation « illimitée »

Entrepôts de publications : articles, revues, thèses, … captation structurée : OAI-PMH, OAI-ORE extraction des métadonnées : DC

Diverses sources structurées annuaires de personnes, ressources, sources conférences, séminaires, …

CHAÎNE DE COLLECTE ET DE TRAITEMENT

Une chaîne dédiée à la normalisation : 12 filtres

Récupération de chaque ressource listée dans le SitemapExtraction du RDFaSérialisation du RDFaPassage dans un format pivotNormalisation de la dateNormalisation de l’auteurRécupération Handle et imagetteAjout des informations sources/documentSérialisation du XML pivot

CHAINE D’ENRICHISSEMENT

Une chaîne dédiée à l’enrichissement : 14 filtres

Classification sur la taxonomie HALClassification sur la taxonomie Sujets Calenda Classification sur la taxonomie Temps CalendaClassification sur la taxonomie Géo CalendaAlignement des types de documentAlignement des dates sur Thésaurus W (SIAF)Alignement des langues sur LexvoEnrichissement des auteurs sur HALExtraction des sujets sur Rameau, Pactols, GeonamesFusion des annotations

PAF ISIDOREFOCUS SUR CERTAINS POINTS

MAINTENABILITÉ - EXEMPLE

Configuration des sources Isidore(application dédiée)

Interface UtilisateurFichiers XML de définition des

sources

745 sources de données

PaF des sources

PaF des données

Moteur de recherche dans les sources

LA CLASSIFICATION AUTOMATIQUE

Classification par entrainement le moteur utilise les documents déjà classés pour

apprendre

puis utilise la base d’indicateurs statistiques pour catégoriser les 900 000 documents du corpus

L’ALIGNEMENT

Alignement des contenus sur des référentiels

francais

Français

français

anglais

english

Français

Anglais

L’EXTRACTION Extraction sur des référentiels

Une ressource documentaire

Mots clefs

Est décrit par

Un thésaurusConcept

Organise

Pour lier le mot-clé

au concept

Chaîne de caractèresEst exprimé par

Étiquette

Est décrit par

Le moteur effectue unecomparaison morphologique

Chaîne de caractères

Est exprimé par

Est décrit par

A noter qu’un algorithme permet de limiter le nombre d’annotations par

contextualisation

Sources de données

Web : sites, flux

Entrepôts OAI

Collecte, traitement, indexation Diffusion Applications

Configuration des

sources (appli

dédiée)

Back Office moteur

indexation

générationdu RDF

UI de démo

rechercheisidore

INDEXERGENERER

Moteur de recherche

Web des données

GÉNÉRER, DIFFUSER

PUBLICATION DU RDF

Les données et enrichissements sont exportés en RDF en bout de chaine

Les triplets générés sont exploités pour retour vers les sources sous forme normalisée pour traiter des requêtes complexes pour une exposition dans le Web de données

Corpus

Génération

Fichiers de triplets

Entrepôt RDFChargement de l’entrepôt

NÉGOCIATION DE CONTENU

AFS et SPARQL sont des Web Service techniques Ils sont enrobés dans une couche métier

un Web Service applicatif qui permet la négociation de contenu

Description XML

Description RDF

Document

FAVORISER L’UTILISATION

Pas de code spécifique de la « configuration » : XSL et SPARQL au plus limiter les coûts de développement / test disposer d’une solution simple à faire évoluer

UNE AIDE À L’INTÉGRATION

ARCHITECTURE

Sources de données

Web : sites, flux

Entrepôts OAI

Collecte, traitement, indexation Diffuser Applications

Configuration des

sources (appli

dédiée)

Back Office moteur

indexation

générationdu RDF

UI de démo

rechercheisidore

ARCHITECTURE LOGIQUE

ARCHITECTURE PHYSIQUE

6 serveurs : haute disponibilité 2 frontaux : Web Services 2 répondeurs, 1 indexeur 1 triplestore et back-office

MERCI DE VOTRE ATTENTION

Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales...

Documents

Transcript of Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales...

COUR SUPRÊME DU CANADA RÉFÉRENCE Isidore Garon ltée Tremblay… · 2006-01-27 · COUR SUPRÊME DU CANADA RÉFÉRENCE : Isidore Garon ltée c. Tremblay; Fillion et Frères (1976)

Église de Saint-Isidore Dorchester Diaporama: Rolland Bouffard Archives: 2008.

Le Processus Unifié

Documation 2011 : de la recherche fédérée à l'accès unifié

201312_Enquête VIDAL ISIDORE Résultats

ISIDORE DE SÉVILLE ET LES MATHÉMATIQUES · 2019. 6. 24. · ISIDORE DE SÉVILLE ET LES MATHÉMATIQUES Dans sa vaste encyclopédie, les Étymologies, Isidore de Séville donne une

Isidore de Séville (saint, 0560?-0636) · avec Isidore de Séville (saint, 0560?-0636) comme Auteur du texte Documents sur Isidore de Séville (saint, 0560?-0636) (32 ressources

L'accès unifié à l'information: retour d'expérience Locarchives

Église de Saint-Isidore Dorchester

Point 5 de l’ordre du jour unifié - World Intellectual …€¦ · Web viewPoint 5 de l’ordre du jour unifié Déclarations générales Les délégations ou représentants des

NUTRITION ET VIH Par Isidore SINDABARIRA,MSc Nutritionniste.

Processus unifié de développement orienté objet de logiciels : Utilisation du langage de modélisation unifié (UML : Unified Modeling Language ) Jean-Marc.

La pépinière de Valpré recherche son stagiaire de ... · La pépinière de Valpré recherche son stagiaire de développement Vous souhaitez participer au développement d’une

INNOVATION DANS lES pROCESSUS … · est proposée dans le « processus unifié rationnel », une méthodologie basée sur le langage de modélisation unifié (UML) : En termes simples,

St. Isidore Parish, Stow, MA St. Isidore Parish, …...Second Sunday of Easter Church of St. Isidore in Stow April 12, 2015 Parish Rectory Telephone 978 897-2710 Faith Formation Office

FLUO (FUTUR LABORATOIRE UNIFIÉ D’ORSAY ...wpsist.lal.in2p3.fr/refondation-labos/wp-content/uploads/...1 FLUO (FUTUR LABORATOIRE UNIFIÉ D’ORSAY) : SCIENCE, TECHNIQUE, STRUCTURE

Processus Unifié développement de logicielsofiane.am.free.fr/perso/UMLenPratique.pdfProcessus Unifié de développement de logiciel 2 Cours GLPOO de Michel Futtersack Plan 1.SUP

Cat isidore penven 2014

ANTIDOT - Cas client ISIDORE

Festus Chez Isidore de Seville