SAS Forum Soft Computing Théâtre

14
Soft Computing 55, quai de Grenelle 75015 Paris tél. +33 (0)1 73 00 55 00 www.softcomputing.com Hadoop SAS®Visual Analytics Usages cibles des utilisateurs SAS Paris, 5/11/2013

Transcript of SAS Forum Soft Computing Théâtre

Page 1: SAS Forum Soft Computing Théâtre

Soft Computing – 55, quai de Grenelle – 75015 Paris – tél. +33 (0)1 73 00 55 00 – www.softcomputing.com

Hadoop

SAS®Visual Analytics

Usages cibles des utilisateurs SAS

Paris, 5/11/2013

Page 2: SAS Forum Soft Computing Théâtre

www.softcomputing.com Reproduction interdite sans l’accord écrit de Soft Computing 07/11/2013 2

Thème

• Le Big Data offre la capacité de traiter des volumes de données conséquents à l’aide d’architectures techniques nouvelles, comment les utilisateurs traditionnels (datamanager, datasteward, dataminers) accèderont et traiteront les données dans ces nouvelles architectures ?

• La démonstration s’appuiera sur les interfaces SAS de connexion aux données issues du Big Data pour illustrer les nouvelles pratiques des utilisateurs de SAS. Cette démonstration aura notamment pour but d’alimenter le débat autour de la mutation des pratiques des utilisateurs SAS dans ces nouveaux environnements techniques, quelles seront les nouvelles compétences à acquérir ? quelles compétences pour quels profils ?

Page 3: SAS Forum Soft Computing Théâtre

www.softcomputing.com Reproduction interdite sans l’accord écrit de Soft Computing 07/11/2013 3

Des systèmes d’information décisionnels en pleine mutation

Des faiblesses

•Les coûts

•Les délais

•La qualité des données

•La satisfaction utilisateur

Des nouvelles contraintes

•La volumétrie

•Le réglementaire

•La garantie du niveau de service

Des anciennes croyances

•Séparation TP et AP

•J+1

•MOLAP

•Datamart physique

Des nouveaux besoins

•L’autonomie des utilisateurs

•La mobilité

•Données exogènes et non structurées

Système décisionnel historique Système décisionnel nouvelle génération

La Business Intelligence

Agile

Le Dataviz

Les Appliances

Hadoop

Le In-memory

Page 4: SAS Forum Soft Computing Théâtre

www.softcomputing.com Reproduction interdite sans l’accord écrit de Soft Computing 07/11/2013 4

Big Data : Architecture applicative avec intégration Hadoop

•In-memory technology

2 axes technologiques :

•Distributed computing

Page 5: SAS Forum Soft Computing Théâtre

www.softcomputing.com Reproduction interdite sans l’accord écrit de Soft Computing 07/11/2013 5

3 types d’utilisateurs

Datamanager

•“Data management is the development and execution of architectures, policies, practices and procedures in order to manage the information lifecycle needs of an enterprise in an effective manner. ” Source TechTarget

Data steward

•“Data stewardship is the management and oversight of an organization's data assets to help provide business users with high-quality data that is easily accessible in a consistent manner.” Source TechTarget

Dataminer

•“Data mining is sorting through data to identify patterns and establish relationships.” Source TechTarget

Page 6: SAS Forum Soft Computing Théâtre

www.softcomputing.com Reproduction interdite sans l’accord écrit de Soft Computing 07/11/2013 6

Architecture fonctionnelle autour de SAS®Visual Analytics (mode Cluster Hadoop)

Sources internes

Cré

ation e

t publication d

es

rapport

s

Sources externes

Sharepoint Outlook

Add-In for Microsoft

Offide, SAS for Mobile

Requête

SAS

In-memory

Visualisation des rapports

Exploration dans les données

Datamanager

Datasteward

Business User

Exploration Administration

HDFS

SAS distribué

Exploration dans les données + Mining

Dataminer

Extraction, Chargement,

Transformation

Page 7: SAS Forum Soft Computing Théâtre

www.softcomputing.com Reproduction interdite sans l’accord écrit de Soft Computing 07/11/2013 7

Architecture applicative SAS®Visual Analytics

Données sources

SAS Visual Data Builder: •Facilité d’utilisation •Fonctionnalités en datamagement plus limitées

SASDIS + SASEG: •Fournit les fonctionnalités en datamanagement max •Nécessite des compétences expertes

LASR Server

SAS Visual Analytics Designer SAS Visual Analytics Explorer

Données internes Données externes

SAS Visual Analytics Viewer

!

Datamanager

Datasteward

Business User

Dataminer

SAS Visual

Analytics

Administration

Page 8: SAS Forum Soft Computing Théâtre

www.softcomputing.com Reproduction interdite sans l’accord écrit de Soft Computing 07/11/2013 8

Databuilder: Les problématiques liées à SAS® Visual Analytics

• Le chargement des données

– Accès aux données autorisées par l’administrateur SAS « Master »

– Accès aux données de fichiers externes

– Chargement de données « In-memory » par une requête

• La modélisation des données

– Pas de création de cubes

– Eviter le plus possible les pré-aggrégations

– Grain au détail maximum de degrés de liberté sur la navigation

– Bien appréhender la contrainte :

• Une exploration une table

• Un rapport une table

Modéliser en conséquence (jointure, concaténation de tables, …)

!

Page 9: SAS Forum Soft Computing Théâtre

www.softcomputing.com Reproduction interdite sans l’accord écrit de Soft Computing 07/11/2013 9

Outils SAS pour le datamager dans un contexte Big Data

• Dans SAS Data Integration Studio :

– Utilisation de transformations spécifiques aux traitements de données

sous Hadoop :

• Chargement de fichiers Hadoop

• Template de transformations en langage natif Hadoop

• Ecriture de fichiers sur la couche Hadoop

– Possibilité de charger les données sur la couche In-memory

Page 10: SAS Forum Soft Computing Théâtre

www.softcomputing.com Reproduction interdite sans l’accord écrit de Soft Computing 07/11/2013 10

Outils SAS pour le datamager dans un contexte Big Data

• Dans Sas Entreprise Guide ou SAS Data Integration Studio => coding SAS

– Utilisation du connecteur SAS Connect To Hadoop

• Librairies SAS connecté à une base de données HIVE (Implicit Pass-Through)

• PROC SQL connecté à une base de données HIVE (Explicit Pass-Through)

– User Defined Function (ex : les fonctions SAS_PUT, SAS_ZACORR dans Teradata)

– Nouvelle procédure <=> nouveau langage de développement SAS

• PROC DS2

– Possibilité de charger les données sur la couche In-memory

• PROC IMSTAT

Page 11: SAS Forum Soft Computing Théâtre

www.softcomputing.com Reproduction interdite sans l’accord écrit de Soft Computing 07/11/2013 11

Focus langage DS2 : le langage de nouvelle génération

• DS2, une alternative à l’étape DATA

• Permet d’optimiser le datamanagement en environnement high-performance avec traitements parallélisés

• Nouvelle technologie / Etape DATA

• Syntaxe familière aux utilisateurs de SAS/AF (des méthodes : init, term and run)

• Proche de l’étape DATA, en partageant les fonctionnalités les plus usitées (boucle implicite, retain, set, …)

• Evolutif en associant à l’environnement du développeur de nouveaux packages (comme la PROC FCMP)

• Exécutable aussi bien dans une session SAS Bases traditionnelle que via un connecteur « In-database » associé au module SAS®Embedded Process

Page 12: SAS Forum Soft Computing Théâtre

www.softcomputing.com Reproduction interdite sans l’accord écrit de Soft Computing 07/11/2013 12

« Hello World » Comparaison

En JAVA

proc ds2; data _null_; method init(); dcl varchar(16) str; str = 'Hello World!'; put str; end; enddata; run;

En DS2

En C++

Une syntaxe, proche de l’étape DATA, qui reste éloignée des langages de programmation orientés objet

Page 13: SAS Forum Soft Computing Théâtre

www.softcomputing.com Reproduction interdite sans l’accord écrit de Soft Computing 07/11/2013 14

Outils SAS pour le Dataminer dans un contexte Big Data

• SAS Visual Analytics Explorer

– Permet d’explorer la donnée et d’effectuer des analyses rapides :

• Corrélation

• Régressions

• Séries temporelles, …

• SAS Entreprise Miner

– Permet la création de modèles statistiques

– Utilisation des procédures statistiques bénéficiant du mode distribué :

• HPDMDB Summarize data

• HPDS2 Parallel execution of DS2:

• HPFOREST Random forest

• HPLOGISTIC Logistic regression

• HPNEURAL Neural network modeling

• HPSAMPLE Sampling and data partitioning

• …

Page 14: SAS Forum Soft Computing Théâtre

www.softcomputing.com Reproduction interdite sans l’accord écrit de Soft Computing 07/11/2013 15

Conclusion : Quelles compétences pour quels profils ?

En environnement SAS traditionnel

En environnement distribué ou/et In-memory

Langages SAS, SAS MP/Connect SQL Pass-through

FCMP - DS2 User Define Function HIVE, PIG

Infomaps

SAS®Visual Data Builder SAS®Visual Analytics Explorer

SAS Entreprise Miner Langage SAS

SAS Entreprise Miner (transformation code EM en DS2) SAS®Visual Analytics Explorer High-performance procedure User Define Function