Projet pilote sur les données ouvertes et liées à BAnQ ... · Organisme en charge : BAnQ...
Embed Size (px)
Transcript of Projet pilote sur les données ouvertes et liées à BAnQ ... · Organisme en charge : BAnQ...

Projet pilote sur les données ouvertes et liées à BAnQ :
retour sur l’expérience
Jean-François Gauvin
Direction générale des technologies et des télécommunications
Marie-Chantal L’Ecuyer-Coelho
Direction du traitement documentaire des collections patrimoniales

Contexte du projet
Plan culturel numérique du Québec
● Ministère de la Culture et des
Communications
● Depuis 2014
● Objectif : Aider les acteurs du milieu culturel
à opérer une transformation vers le
numérique
2

Contexte du projet
Mesure 6
Organisme en charge : BAnQ
Objectifs :
● Aider le réseau de la culture à
s’approprier les technologies du
Web sémantique afin de maximiser
la présence des données culturelles
québécoises dans le Web
● Intégrer les données québécoise
dans le Web sémantique
francophone, en s’appuyant sur la
réalisation d’un projet pilote
3
Défis :
● Identification de la portée du projet
● Courbe d’apprentissage abrupte pour tous les acteurs impliqués

Chronologie du projet
4
Arrivée du
consultant
(Polytechnique)
Août 2017
à janvier 2018
Choix liés à la
modélisation
Nettoyage des données
Fin du contrat
du consultant
Janvier 2018
à avril 2018
Conversion des
données
Scripts Python
Requêtes SPARQL
Triplestore
Réconciliation (début)
Création du
sous-graphe +
décision liée
aux autorités
Avril 2018
à juillet 2018
Réconciliation (suite)
Début de la réflexion
liée à la visualisation
Erreurs suite à la
modélisation
Création d’un sous-
graphe
CPI
2018 :)
Juillet 2018
à aujourd’hui
Travail sur le sous-
graphe
Travail sur les autorités
Outils de visualisation
GraphDB
Documentation

Choix du jeu de données : Projet Relations
France-Québec depuis 1760
Site Web réalisé par BAnQ il y a 10 ans à partir de notices
bibliographiques issues des catalogues de la BnF et de BAnQ,
qui vise à mettre en lumière la richesse des échanges entre la
France et le Québec depuis la Conquête
Comprend :
● Chronique : présentation chronologique des moments
marquants de l’histoire des relations France-Québec.
Organisé par types de relations (sociales, politiques,
économiques, intellectuelles ou culturelles)
● Inventaire bibliographique des documents : organisé selon
une typologie précisant la nature de la collaboration 5

Choix du jeu de données : Projet Relations
France-Québec depuis 1760
● Publication sur les relations entre la France et le Québec = a
● Auteur québécois publié en France = b
● Coéditions et association(s) d'éditeurs et/ou d'imprimeurs = c
● Éditions d'ouvrages français au Québec (1939-1947) = d
● ...
6
Typologie

Choix du jeu de données : Projet Relations
France-Québec depuis 1760
Intérêt des données RFQ
● Promotion de la collaboration au sein de
la francophonie : RFQ réalisé en
partenariat avec la BnF et le Centre de
recherche Lionel-Groulx (CRLG)
● Occasion de revitaliser le projet
● Jeu de données unique en soi
● Jeu de données variés, incluant différents
types d’objets culturels collectionnés par
les institutions patrimoniales
● Intérêt de la typologie RFQ dans le
contexte des DOL
● Possibilité de création de liens à l’interne
et à l’externe 7

Modélisation
● Choix des ontologies pour la conversion
○ Données bibliographiques :
BIBFRAME
○ Données autorités :
MADS RDF + SKOS
● Choix des sources de données externes pertinentes pour
la réconciliation
○ VIAF
○ LC
○ BNF
○ DNB
○ ISNI
8
○ IDRef
○ Wikidata
○ DBpedia

Extraction et analyse des données du RFQ
Jeu de données initial :
● 59 996 notices bibliographiques produites
majoritairement avant 2012
● Répartition par source
9
5%
18%
77%

Extraction et analyse des données du RFQ
Quelques constatations :
● Plusieurs types de documents : textuels,
visuels, cartographiques, musicaux, etc.
● Large éventail de sujets couverts
● Notices très hétérogènes (AFNOR,
ISBD/RCAA2, standards maison)
● Niveau de granularité et segmentation
des données variables selon la source et
la date de création des notices
10
Nécessité de produire un sous-graphe

Sous-graphe : 630 notices
Critères de sélection :
● Provenance : BAnQ et BnF
● Formats (numérisés)
● Normes (ajout de 95 notices
RDA)
Jeu de données du projet pilote
11
Enrichissement :
● 342 notices d’autorités correspondant aux p.a.a.
des notices bibliographiques

Nettoyage des données
Étape chronophage mais essentielle!
12
=LDR 00608nam a22001933n 4500
=001 0003559820
=005 20080410180759.0
=008 080410\1997\\\\\\\\\\\\\\\\\\\\\\\\fre\\
[ … ]
=082 \\$a840
=083 \\$aa
=100 1\$aSylvestre, Guy
=245 10$aPanorama des lettres canadiennes-françaises , par Guy
Sylvestre,...
=260 \\$aQuébec :$bMinistère des affaires culturelles,$c1964
=300 \\$aIn-8° (23 cm), 79 p., portr., couv. ill. [Don 3058-64]
=500 \\$aCollection Art, vie et sciences au Canada français. 1
P.A.A. : $aSylvestre, Guy,$d1918-2010

Conversion des données bibliographiques
Convertisseur LC (https://github.com/lcnetdev/marc2bibframe2)
● Script XSLT 1.0 qui applique les spécifications de conversion
définies par LC (http://www.loc.gov/bibframe/mtbf/) pour
transformer des fichiers MARCXML en triplets RDF sérialisés
selon la syntaxe RDF/XML
● Ontologies : BIBFRAME 2.0, MADS/RDF et le BIBFRAME
Extension Vocabulary
● Permet de définir la racine des URI
http://data.banq.qc.ca/ressource/rfq/0002885533#Work
Script modifié pour ajouter la typologie RFQ
13

14
bf: Classification
http://data.banq.qc.ca/ClassificationRfq
http://data.banq.qc.ca/RFQtype/a
http://data.banq.qc.ca/RFQtype/b
http://data.banq.qc.ca/RFQtype/c
http://data.banq.qc.ca/RFQtype/e
http://data.banq.qc.ca/RFQtype/d
http://data.banq.qc.ca/RFQtype/f
http://data.banq.qc.ca/RFQtype/g
http://data.banq.qc.ca/RFQtype/h
http://data.banq.qc.ca/RFQtype/j http://data.banq.qc.ca/RFQtype/y
http://data.banq.qc.ca/RFQtype/i
Conversion des données bibliographiques
Classe
Sousclasse
Individus

Conversion des données d’autorité
● MADS/RDF
● Pas de convertisseur offert en libre accès par LC
● Convertisseurs disponibles via GitHub :
○ Jindřich Mynarz MARC_A_to_RDF (XSLT)
○ Scriptoteket mc2skos (Python)
○ Kevin Ford marcauth-2-madsrdf (XQuery)
● Outil retenu : Script XQuery de Kevin Ford
Permet la conversion des données en SKOS, MADS/RDF
ou en SKOS + MADS/RDF
15
RDF

Réconciliation
Données d’autorité
● Script Python pour injecter les URI de DBPedia
● Injection des URI de VIAF (clusters) ainsi que des URI de la
DNB, BnF, LC, ISNI et de IdRef
(madsrdf:hasExactExternalAuthority)
Données bibliographiques
● Script Python pour injecter des URI au niveau de l’instance
vers les manifestations correspondantes sur data.bnf.fr
● Injection des URI du convertisseur marcauth-2-madsrdf
(owl:sameAs)
Accès sujet: RVM n’est pas disponible sous forme de DOL
https://rvmweb.bibl.ulaval.ca/modele-d-affaires-du-rvm 16

Expérimenter avec un logiciel de visualisation
17

Noeuds vides
18

Expérience acquise et suite du projet
● Déploiement des URI
● Mise à jour et adaptations
des convertisseurs
● Conversion de l’ensemble
des notices RFQ
● Cellule d’innovation
● Création d’un service de
requête SPARQL
et de l’interface publique
data.banq.qc.ca
● Rapport final
● Retrait de l’ancienne
interface 19
● Nouveaux outils :
MARCNext, LODRefine,
OpenRefine, GraphDB,
Protégé
● SPARQL
● Modélisation
● Réflexion : nouveaux usages
et services
● Compréhension plus
approfondie des fondements
du Web sémantique
Les acquis Pour le futur

20
Merci !
Questions?