Visibilité et web de données

11
Visibilité et web de données Réflexions autour du projet Agnès Simon Sébastien Peyrard Bibliothèque nationale de France SemWeb.pro 2014

description

C’est le paradoxe des bibliothèques : l’intérêt des internautes pour leurs ressources numérisées ne cesse d’augmenter, comme en témoigne l’accroissement de la fréquentation de la bibliothèque numérique Gallica ; cependant, ces ressources, ainsi que les contenus de nos catalogues, ne sont pas ou peu accessibles depuis les moteurs de recherche du web. Aussi nos missions de médiation et de diffusion culturelle doivent-elles aujourd’hui être repensées sous l’angle du marketing du web : comment faciliter l’accès à nos ressources, toucher de nouveaux publics, favoriser les découvertes heureuses sur le web ? La visibilité des ressources de la Bibliothèque nationale sur le web est devenue une question stratégique, en particulier à travers le service http://data.bnf.fr, qui repose sur les standards du web sémantique. Trois ans après son ouverture, le site http://data.bnf.fr compte plus de 130 000 visiteurs uniques par mois, dont 80% viennent des moteurs de recherche du web, et 60% rebondissent vers les catalogues et autres bases de la BnF. Un exemple d’utilisation : un internaute cherchant« Satires, Nicolas Boileau » sur le web, trouve la page http://data.bnf.fr/12050177/nicolas_boileau_les_satires/, laquelle fournit un point d’accès unique et fiable aux nombreuses déclinaisons de cette œuvre dans les collections de la BnF, numérisées ou non, adapté aux moteurs de recherche et au parcours des internautes. À la lumière de cette expérience, nous nous interrogeons sur les rapports entre web sémantique et visibilité dans les résultats de recherche des moteurs de recherche. Au-delà de l’exposition des données en RDF ou de l’intégration de schema.org, dont nous mesurons mal l’impact effectif sur le référencement du site, trois facteurs nous paraissent essentiels: la valeur ajoutée intrinsèque des contenus, l’organisation de la masse et l’inscription dans un réseau. http://data.bnf.fr crée en effet des pages web avec du contenu et des informations à forte compétitivité par sa qualité ou sa rareté, dans le contexte d’une offre culturelle pléthorique sur le web. Deuxièmement, il organise la masse d’informations publiées par la BnF (près de 20 millions de notices de catalogues et de référentiels d’auteurs, œuvres, thèmes, ou lieux, 3 millions de documents numérisés), en s’appuyant sur des traitements automatiques d’alignement et de regroupement des informations. Enfin, l’inscription de ces ressources dans un réseau global, en s’appuyant sur des alignements à des jeux de données extérieurs, permet de développer les liens sortants et, dans une certaine mesure, de favoriser les liens entrants.

Transcript of Visibilité et web de données

Page 1: Visibilité et web de données

Visibilité et web de donnéesRéflexions autour du projet

Agnès SimonSébastien Peyrard

Bibliothèque nationale de France

SemWeb.pro 2014

Page 2: Visibilité et web de données

Connaissez-vous data.bnf.fr ?

Page 3: Visibilité et web de données

Enjeu

Des contenus à valeur ajoutéeque la BnF souhaite diffuser sur le web.

180 000 visites/mois (octobre 2014)

Page 4: Visibilité et web de données

Référencement naturel

Des pages HTML Des URI stables et pérennes Un peu de sémantique

<div itemscope="itemscope" itemtype="http://schema.org/Book" xmlns:v="http://rdf.data-vocabulary.org/#" typeof="v:Work"><div class="ctxtoolbar"></div><h1><strong><span itemprop="name">L'attaque du moulin</span>

Page 5: Visibilité et web de données

Le web sémantique dans tout ça ?

Organiser la masse

Développer les liens, en interne et avec l'extérieur

Page 6: Visibilité et web de données

Organiser la masse

Toutes les contributions d'un même auteur Toutes les éditions d'une même oeuvre

http://data.bnf.fr/ark:/12148/cb13893514m

http://data.bnf.fr/ark:/12148/cb13911746t

Edition

Auteur

Oeuvre

Page 7: Visibilité et web de données

Alignements et clustering

Page 8: Visibilité et web de données

Alignements et clustering : travaux en cours

Alignement simple Bibliothèque Nazca « Commence par » et

lien auteur

Perspectives : Alignements avancés :

algorithmes prédictifs (nuages de mots)

Clustering : algorithmes Minhashing, Meanshift

Page 9: Visibilité et web de données

Créer des liens, créer des services

« Auteurs nés en 1515 »

Page 10: Visibilité et web de données

Développer les liens

Des liens vers le web …et les institutions

culturelles

Politique d’identifiants (ISNI)

Favoriser la réutilisation des données

Page 11: Visibilité et web de données

Merci de votre attention

agnes[POINT]simon[at]bnf.frsebastien[POINT]peyrard[at]bnf.fr