Gestion des gros volumes de données dans les...

40
Énergies renouvelables | Production éco-responsable | Transports innovants | Procédés éco-efficients | Ressources durables © 2014 - IFP Energies nouvelles Sébastien Schneider, direction Mécatronique et Numérique, IFPEN Lyon – 15 janvier 2016, Workshop Per3S Gestion des gros volumes de données dans les logiciels géosciences à IFPEN Sébastien Schneider, IFPEN Lyon

Transcript of Gestion des gros volumes de données dans les...

Énergies renouvelables | Production éco-responsable | Transports innovants | Procédés éco-efficients | Ressources durables

© 2

014 -

IF

P E

nerg

ies n

ouvelle

s

Sébastien Schneider, direction Mécatronique et Numérique, IFPEN Lyon – 15 janvier 2016, Workshop Per3S

Gestion des gros volumes de données dans les logiciels

géosciences à IFPEN

Sébastien Schneider,

IFPEN Lyon

© 2

014 -

IF

P E

nerg

ies n

ouvelle

s

E&P dans l’industrie O&G

2

© 2

014 -

IF

P E

nerg

ies n

ouvelle

s

Exploration & Production

3

© 2

014 -

IF

P E

nerg

ies n

ouvelle

s

E&P: le cycle de vie de l’information

4

© 2

014 -

IF

P E

nerg

ies n

ouvelle

s

La modélisation géologique

Donner du sens, de la valeur aux données

Nécessite des traitements informatiques « lourds »

Interprétation

Sismique, géologique

Caractérisation

Tests de puits

Géostatistique

Simulation

À l’échelle bassin et réservoir

Ces traitements, ces logiciels s’appuient sur un

modèle de données

© 2

014 -

IF

P E

nerg

ies n

ouvelle

s

Données géosciences: quelques caractéristiques

Données d’acquisition

Sources

Campagnes sismiques

Forages, exploration,

production

Typologie

Cube sismique régulier

Données mesurées aux puits

Données Incertaines

© 2

014 -

IF

P E

nerg

ies n

ouvelle

s

Interprétation sismique

http://www.searchanddiscovery.com/documents/duerto/images/figure2_7.htm

© 2

014 -

IF

P E

nerg

ies n

ouvelle

s

Volume des données

Nombre de lignes: Ny=5 000 000

Nombre de traces par ligne: Nx=5 000 000

Nombre de d'échantillons temps par trace : Nt=1000

Encombrement d'un cube sismique:

Ny*Nt*Nx * 4 octets 100 Go !!!

Nombre de cube : de quelques uns à plusieurs

dizaines (monitoring 4D, réservoirs fracturés, ondes

converties, …)

© 2

014 -

IF

P E

nerg

ies n

ouvelle

s

Modélisation de Bassin

© 2

014 -

IF

P E

nerg

ies n

ouvelle

s

Volume des données

Maillage dynamique de 10 Millions de cellules

Sur 100 pas de temps

=> 1 milliards d’éléments géométriques

Contenant une 10 aines de propriétés physiques

=> 10 milliards de valeurs pour une étude bassin

© 2

014 -

IF

P E

nerg

ies n

ouvelle

s

Modélisation de Réservoir

© 2

014 -

IF

P E

nerg

ies n

ouvelle

s

Données de puits

© 2

014 -

IF

P E

nerg

ies n

ouvelle

s

Volume des données

Maillage statique de 1 Millions de cellules

Simulation sur 50 ans avec des résultats par mois => 600 résultats.

Une dizaines de propriétés calculées

6 milliards de valeurs

Etude de sensibilité pour le calage: une centaine de run

=> 600 milliards de valeurs à analyser

© 2

014 -

IF

P E

nerg

ies n

ouvelle

s

STOCKAGE

EXPLOITATION

© 2

014 -

IF

P E

nerg

ies n

ouvelle

s

Le modèle de données géosciences

Problématique du stockage et de l’accès à la donnée

Accès fichiers vs base de données

Des besoins variés liés à l’exploitation des données

Exploration arborescente

Visualisation

Calcul

© 2

014 -

IF

P E

nerg

ies n

ouvelle

s

Une plateforme d’intégration (OpenFlow)

© 2

014 -

IF

P E

nerg

ies n

ouvelle

s

Architecture de la plateforme OpenFlow

© 2

014 -

IF

P E

nerg

ies n

ouvelle

s

OpenFlow Persistence API

Développement d’un mécanisme propriétaire

Basé sur la spécification JDO

Et sur un méta-modèle relationnel statique

Simplification des évolutions du MDD et des

migrations

NODE LINK ATTRIBUTE

node_id

from_node_id, to_node_id

© 2

014 -

IF

P E

nerg

ies n

ouvelle

s

Les traitements

Les algorithmes, les traitements numériques et

scientifiques reposent sur des hypothèses, des

scénarios

Le modèle de données doit intégrer ces notions,

savoir gérer des incertitudes, l’histoire des données

© 2

014 -

IF

P E

nerg

ies n

ouvelle

s

Les échanges

Les données subissent des traitements métier

différents, elles s’échangent entre applications,

experts, ingénieurs

Le modèle de données doit supporter un spectre

métier large et favoriser ces échanges

© 2

014 -

IF

P E

nerg

ies n

ouvelle

s

Améliorer les performances

Objectifs

Alléger la taille dans le SGBDR tout en maintenant la cohérence des

données entre SGBDR et stockage externe

stockage hors SGBDR en local = cache niveau 2 temporaire sur disque

local

stockage hors SGBDR en distant = stockage persistant base

patrimoniale

Améliorer les performances d’accès en lecture et écriture

notamment en utilisant du stockage temporaire local

Solutions génériques étudiées en complément d’OPA

Fichier binaire plat (HDF5, NetCDF, ...)

Bases Non SQL (MongoDB, Cassandra, HDFS)

Solution hybride par composition de fichiers + bases

© 2

014 -

IF

P E

nerg

ies n

ouvelle

s

Une autre solution: la compression

© 2

014 -

IF

P E

nerg

ies n

ouvelle

s

Les nouveaux usages

De nouveaux usages, de nouveaux supports

Big Data, Cloud Computing, agilité, mobilité

Penser « API First »

Le modèle est central, son utilisation est multiple

L’exprimer en terme de services plutôt que structures

© 2

014 -

IF

P E

nerg

ies n

ouvelle

s

Pour conclure

L’importance de la modélisation des données dans

des applications géosciences

Le modèle de données peut-il résister au temps, aux

volumes, aux évolutions technologiques (nouvelles

informations, nouveaux usages)

On doit forcément intégrer l’existant quand on

démarre de nouveaux produits

Énergies renouvelables | Production éco-responsable | Transports innovants | Procédés éco-efficients | Ressources durables

© 2

014 -

IF

P E

nerg

ies n

ouvelle

s

www.ifpenergiesnouvelles.fr

Énergies renouvelables | Production éco-responsable | Transports innovants | Procédés éco-efficients | Ressources durables

© 2

014 -

IF

P E

nerg

ies n

ouvelle

s

Modélisation des réservoirs: un travail pluridisciplinaire

Les géosciences partagent une même connaissance

de la Terre

Mais le modèle dépend du métier:

La géophysique découvre les structures

L’analyse pétrophysique caractérise la roche et les fluides

qu’elle contient

L’analyse géologique caractérise la formation, la situe dans le

temps géologique et aide à définir la complétion des puits

Le gisement prédit l’évolution dans le temps des mouvements

de fluides (production, pression, montée du niveau d’eau)

La prise de décision nécessite l’intégration de toutes

ces données

© 2

014 -

IF

P E

nerg

ies n

ouvelle

s

Données géosciences: le cycle de vie

Un cycle de vie qui s’étale sur plusieurs décennies

Acquisition: collecte, QC, stockage

Traitement / Interprétation: édition, calculs, création de

nouvelles données

Modélisation / Simulation: utilisation, valorisation, partage,

échange

Monitoring / Optimisation: valorisation, analyse

Gouvernance de la donnée: stockage, archivage

© 2

014 -

IF

P E

nerg

ies n

ouvelle

s

Time 1 Time 2

4D SEISMIC DATA : impedance maps

Données géosciences: quelques caractéristiques (2)

Volumétrie

En croissance: sismique 4D, sismique HR, historique de

production, données de production (capteurs aux puits), …

Utilisation

Construction d’un modèle numérique 3D

Chaque traitement produit de nouvelles informations

© 2

014 -

IF

P E

nerg

ies n

ouvelle

s

Une plateforme d’intégration

Environnement riche et intégré dont les avantages

doivent être

Intégration

Productivité

Extensibilité, ouverture qui répond à la demande de

sauvegarde de la propriété intellectuelle

Import Export des données patrimoniales et venant de

logiciels concurrents

© 2

014 -

IF

P E

nerg

ies n

ouvelle

s

La standardisation

Oui au modèle standardisé et partagé

Un standard permet l’échange des données

Entre métiers

Entre partenaires

Entre logiciels concurrents

La technologie pousse dans ce sens

WebServices, XML, Cloud

Des initiatives

Modèle PPDM

POSC/Epicentre

Energistics

© 2

014 -

IF

P E

nerg

ies n

ouvelle

s

OpenFlow: le composant de communication

© 2

014 -

IF

P E

nerg

ies n

ouvelle

s

Modélisation des données: les défis

Les défis face

Aux traitements, algorithmes

Aux échanges et workflows

Aux évolutions, à la mise à jour

A la performance

Aux nouvelles utilisations

Mobilité

Web

Cloud

Big Data

© 2

014 -

IF

P E

nerg

ies n

ouvelle

s

Le modèle de données géosciences

Identification des entités logiques et des dépendances

entre ces entités

Structure et sémantique de l’information

Pas de modèle unique

Dépend du point de vue

Dépend de l’utilisation souhaitée

© 2

014 -

IF

P E

nerg

ies n

ouvelle

s

Pourquoi le choix RDBMS ?

Les propriétés du système transactionnel nous assure

la sécurité dans tous les transferts de données

Atomicity

Consistency

Isolation

Durability

Permet la gestion des accès concurrents

L’inconvénient sont les performances pour les gros

volumes de données homogènes

© 2

014 -

IF

P E

nerg

ies n

ouvelle

s

L’évolution

Les données vivent, elles s’enrichissent de nouvelles

informations au cours du temps

La durée de vie d’un champs est longue !

Le modèle de données doit s’adapter, savoir se mettre

à jour, évoluer

© 2

014 -

IF

P E

nerg

ies n

ouvelle

s

L’importance du « legacy »

Comment intégrer l’existant quand on développe de

nouvelles applications

Quelles solutions pour « Entrepôt de données » ?

Faut-il ajouter de la connaissance dans les modèles,

les données ?

Comment éviter de léguer des dettes technologiques ?

© 2

014 -

IF

P E

nerg

ies n

ouvelle

s

OpenFlow WebServices

WebServices are able to transfer

grids

structural : horizons and faults

wells and logs

fracture data

© 2

014 -

IF

P E

nerg

ies n

ouvelle

s

Génération automatique du code de communication

Thanks to Eclipse Modeling Framework Tools (Acceleo)

© 2

014 -

IF

P E

nerg

ies n

ouvelle

s

Génération automatique d’IHM

© 2

014 -

IF

P E

nerg

ies n

ouvelle

s

OpenFlow: un atelier de modélisation