Download - 1 science big data

Transcript
Page 1: 1 science big data
Page 2: 1 science big data

1SCIENCE - PRODUIT

Page 3: 1 science big data

PROBLÈMES DES BIBLIOTHÈQUES UNIVERSITAIRES

Budgets des bibliothèques de plus en plus restreints

Big deals et hausse annuelle des coûts d’abonnement

Murs de paiement (Pay walls) fréquemment rencontrés lors de recherche d’articles

Expérience usager archaïque ou surchargée

Page 4: 1 science big data

LE LIBRE ACCÈS (OA)

Libre accès = Open Access (OA)GoldGreenHybrid

Rapport fait par Science-Métrix pour la Commission Européenne afin d’ évaluer l’évolution de la disponibilité des articles scientifiques en libre accès (2014)

Résultat: plus de 50% des articles scientifiques publiés dans des revues avec comité de lecture sont libres d’accès

Page 5: 1 science big data

SOLUTIONS ACTUELLES

Google Scholar et les autres solutions actuelles de recherche d’articles en libres accès ne garantissent pas que les résultats obtenus sont:

Des articles scientifiques

Libres d’accès

Publiés dans une revue avec comité de

lecture

Page 6: 1 science big data

1SCIENCE

1science c’est donc:

Tous les articles scientifiques en libre accès et publiés dans des revues avec comité de lecture, en un seul endroit

Une option abordable et une expansion de la collection des bibliothèques

Une expérience usager simple et puissante

Page 7: 1 science big data

1SCIENCE

Mais surtout beaucoup, beaucoup de données:

ArticlesMetadonnéesRéférences et CitationsAnalytics

Données impliquant déduplication et « désambiguation » afin de garantir la qualité et l’exactitude des résultats

Page 8: 1 science big data

1SCIENCE – BIG DATA

Page 9: 1 science big data
Page 10: 1 science big data
Page 11: 1 science big data

DONNÉES - CARACTÉRISTIQUES

Sans bornes

Semi-structurées

Dupliquées

Taille inconnue

Page 12: 1 science big data

Type Volume Taille

Articles ≈300M (10M x 30) TBD

Meta / Text ≈300M (10M x 10f x 3v) Titre: ≈3GBAbs: ≈30GB

PDFs ≈20M (10M x 2f) ≈40TB (20M x 2MB)

Auteurs ≈50M (10M x 5) TBD

Graph ≈350M sommets (300M + 50M)≈500M arcs (10M x 50M)

TBD

DONNÉES - ESTIMATIONS

Page 13: 1 science big data

Type Volume Taille

Articles ≈70M (13M dédup) 1.2TB

Références ≈2G (70M x 30) TBD

DONNÉES - RÉALITÉ

Page 14: 1 science big data

DONNÉES - TRAITEMENT

MASHUP

Page 15: 1 science big data

DONNÉES - TRAITEMENT

http://en.wikipedia.org/wiki/DIKW_Pyramid

Page 16: 1 science big data

DONNÉES - TRAITEMENT

Acq

uis

itio

n

Extr

act

ion

Deduplic

ati

on

Qualifi

cati

on

Dis

am

big

uati

on

Enri

chm

en

t

Know

led

ge

Deci

sion

Information KnowledgeData

Page 17: 1 science big data

DÉFIS TECHNOLOGIQUES

Volumétrie des données

Qualité des données

Interopérabilité

Distribution

Page 18: 1 science big data

Mathieu LampronVP Produit

[email protected]

@MathieuLampron

Sébastien MailhotDirecteur du développement [email protected]

@sebalas