1 science big data

Post on 12-Aug-2015

181 views 2 download

Transcript of 1 science big data

1SCIENCE - PRODUIT

PROBLÈMES DES BIBLIOTHÈQUES UNIVERSITAIRES

Budgets des bibliothèques de plus en plus restreints

Big deals et hausse annuelle des coûts d’abonnement

Murs de paiement (Pay walls) fréquemment rencontrés lors de recherche d’articles

Expérience usager archaïque ou surchargée

LE LIBRE ACCÈS (OA)

Libre accès = Open Access (OA)GoldGreenHybrid

Rapport fait par Science-Métrix pour la Commission Européenne afin d’ évaluer l’évolution de la disponibilité des articles scientifiques en libre accès (2014)

Résultat: plus de 50% des articles scientifiques publiés dans des revues avec comité de lecture sont libres d’accès

SOLUTIONS ACTUELLES

Google Scholar et les autres solutions actuelles de recherche d’articles en libres accès ne garantissent pas que les résultats obtenus sont:

Des articles scientifiques

Libres d’accès

Publiés dans une revue avec comité de

lecture

1SCIENCE

1science c’est donc:

Tous les articles scientifiques en libre accès et publiés dans des revues avec comité de lecture, en un seul endroit

Une option abordable et une expansion de la collection des bibliothèques

Une expérience usager simple et puissante

1SCIENCE

Mais surtout beaucoup, beaucoup de données:

ArticlesMetadonnéesRéférences et CitationsAnalytics

Données impliquant déduplication et « désambiguation » afin de garantir la qualité et l’exactitude des résultats

1SCIENCE – BIG DATA

DONNÉES - CARACTÉRISTIQUES

Sans bornes

Semi-structurées

Dupliquées

Taille inconnue

Type Volume Taille

Articles ≈300M (10M x 30) TBD

Meta / Text ≈300M (10M x 10f x 3v) Titre: ≈3GBAbs: ≈30GB

PDFs ≈20M (10M x 2f) ≈40TB (20M x 2MB)

Auteurs ≈50M (10M x 5) TBD

Graph ≈350M sommets (300M + 50M)≈500M arcs (10M x 50M)

TBD

DONNÉES - ESTIMATIONS

Type Volume Taille

Articles ≈70M (13M dédup) 1.2TB

Références ≈2G (70M x 30) TBD

DONNÉES - RÉALITÉ

DONNÉES - TRAITEMENT

MASHUP

DONNÉES - TRAITEMENT

http://en.wikipedia.org/wiki/DIKW_Pyramid

DONNÉES - TRAITEMENT

Acq

uis

itio

n

Extr

act

ion

Deduplic

ati

on

Qualifi

cati

on

Dis

am

big

uati

on

Enri

chm

en

t

Know

led

ge

Deci

sion

Information KnowledgeData

DÉFIS TECHNOLOGIQUES

Volumétrie des données

Qualité des données

Interopérabilité

Distribution

Mathieu LampronVP Produit

Mathieu.Lampron@1science.org

@MathieuLampron

Sébastien MailhotDirecteur du développement logicielSebastien.Mailhot@1science.org

@sebalas