PASW Modeler 13.0 功能與應用說明會 講議(1)

57
最佳資料採礦工具平台 PASW PASW Modeler 13.0 Modeler 13.0 中文版 中文版 SPSS Taiwan-宏德國際 -功能與應用說明 主講人:James

Transcript of PASW Modeler 13.0 功能與應用說明會 講議(1)

Page 1: PASW Modeler 13.0 功能與應用說明會 講議(1)

最佳資料採礦工具平台

PASWPASW Modeler 13.0 Modeler 13.0 中文版中文版

SPSS Taiwan-宏德國際

-功能與應用說明

主講人:James

Page 2: PASW Modeler 13.0 功能與應用說明會 講議(1)

Agenda為何需要進行資料採礦?何謂資料採礦?最佳資料採礦工具平台PASW Modeler13.0功能特色綜覽§ 容易使用-直覺化視覺化工作流程§ 提供廣泛的資料採礦功能,支援完整的資料採礦程序 (CRISP-

DM )§ 具備優越的執行效能與可擴充性

應用範例展示Q&A

Page 3: PASW Modeler 13.0 功能與應用說明會 講議(1)

New Naming

SPSS Taiwan-宏德國際

Page 4: PASW Modeler 13.0 功能與應用說明會 講議(1)

PASW(Predictive Analytics Software)

PASW系列產品家族資料蒐集PASW Data Collection(原SPSS Dimension系列產品)

PASW Data Collection幫助您快速輕鬆地進行問卷設計、資料蒐集到基本統計分析等工作,並可與PASW統計分析模組產品做進一步分析整合應用

統計引擎PASW Statistics 17.0 中文版(原SPSS Statistics 系列產品)

PASW Statistics 是最專業的統計分析引擎,它除了保有原來「真正統計、真正容易」的產品特色外,同時與一般資訊系統完美的結合,並新增了多項前所末見的嶄新功能。

資料採礦PASW Modeler(原SPSS Clementine 系列產品)

資料採礦能夠讓您發覺資料間的關係和趨勢,開創新的商機,讓您將企業運作得更完善。所以最佳資料採礦平台PASW Modeler 將是您唯一的選擇

協同部署PASW Predictive Enterprise Services(原SPSS PES 系列產品)

PASW PES 能幫助您快速輕鬆地利用統計和資料採礦等進階技術分析既有的資料,進而塑造預測模型,加上最適化的決策,可以趨使您的企業/組織進行創新和讓猜測的商業決策消失。

Page 5: PASW Modeler 13.0 功能與應用說明會 講議(1)

PASW Statistics

PASW Modeler

PASW Text Analytics

PASW Data Collection

PASW Collaboration and Deployment Services

SPSS Statistics

SPSS Clementine

SPSS Text Mining for Clementine

Dimensions

SPSS Predictive Enterprise Services

Current and New Product Names

SPSS Statistics

SPSS Clementine

SPSS Text Mining for Clementine

Dimensions

SPSS Predictive Enterprise Services

Page 6: PASW Modeler 13.0 功能與應用說明會 講議(1)

為何需要進行資料採礦?

SPSS Taiwan-宏德國際

Page 7: PASW Modeler 13.0 功能與應用說明會 講議(1)

SPSS Taiwan –宏德國際SPSS Taiwan –宏德國際

面對大量的資料…

§企業組織日常營運活動日趨頻繁,所累積資料成長快速…

•組織內部營運:-客戶基本資料-客戶交易資料-客戶抱怨資料-產品資料-行銷活動資料-財務資料-存貨資料-網站瀏覽記錄資料-…

•外部環境:-人口資料-地理資料-交通資料-氣象資料-就業資料-…

DataData

Page 8: PASW Modeler 13.0 功能與應用說明會 講議(1)

SPSS Taiwan –宏德國際SPSS Taiwan –宏德國際

§面對這些龐大資料,通常利用下列方式分析:

§查詢:查詢符合條件的資料記錄,例如查詢某貨品的出貨日

期及數量、某客戶的今天購買產品項目與金額等…。

§Reporting:將資料有系統的彙總,並用文字加於描述,但只是表面數字的。如:業績報表、產品銷售月報表等。

§ OLAP:以多維度顯示資料的比例及表面特徵。例如某產品在某地區某時間點的銷售量多少

如何了解如此龐大的資料

Page 9: PASW Modeler 13.0 功能與應用說明會 講議(1)

SPSS Taiwan –宏德國際SPSS Taiwan –宏德國際

這些資訊都只是呈現結果,能進一步從資料中挖掘更多有用的資訊嗎?

n 某產品銷售業績不好,但不好的原因為何?

§ 產品銷售組合之關聯(Association)為何?

§ 高利潤產品組合(bear-pizza-beans)的客戶群有何特徵?

但…資訊夠了嗎?

Page 10: PASW Modeler 13.0 功能與應用說明會 講議(1)

SPSS Taiwan –宏德國際SPSS Taiwan –宏德國際

所以…我們需要

Ø發掘「隱藏的、過去未知的、且有用的資訊」

Ø找出事件發生的原因

Ø找出事件的關聯性

Ø預測未來會發生什麼事

Ø…

資料採礦Data

Mining

DataDataààInformationInformationààKnowledgeKnowledge

Page 11: PASW Modeler 13.0 功能與應用說明會 講議(1)

何謂資料採礦?

SPSS Taiwan-宏德國際

Page 12: PASW Modeler 13.0 功能與應用說明會 講議(1)

資料採礦定義

§從大量資料中挖掘出隱藏、前所未知且有意義的資訊,如特徵(Pattern)、趨勢(Trend)、相關性(Relationship)….等,進而利用它們創造更高價值。

-Data Driven, not Model Driven

-循環性的分析流程

-利用統計、機械學習、基因演算法…等技術

-利用IT技術整合資訊系統及所建立的模型,提供相關

員即時使用,可大幅提昇政府/企業的經營績效

SPSS Taiwan –宏德國際SPSS Taiwan –宏德國際

意想不到

Page 13: PASW Modeler 13.0 功能與應用說明會 講議(1)

資料採礦流程

SPSS Taiwan –宏德國際SPSS Taiwan –宏德國際

Page 14: PASW Modeler 13.0 功能與應用說明會 講議(1)

跨產業的資料採礦標準流程CRISP-DM

跨產業資料採礦標準流程(CRISP-DM)

Page 15: PASW Modeler 13.0 功能與應用說明會 講議(1)

跨產業的資料採礦標準流程CRISP-DM

§ Cross-Industry Standard Process for Data Mining

商業理解 資料理解 資料準備 塑模 評估 部署

決定商業目標背景商業目標商業成功要件

評估狀況資源清單需求、假設、限設風險及偶發狀況術語成本與獲利

決定資料採礦目標資料採礦目標資料採礦成功要件

產出計畫方案專案計畫工具與技術初步計估

蒐集初始資料初始資料蒐集報告

敘述資料資料敘述報告

探索資料資料探索報告

確認資料品質資料品質報告

資料集資料集敘述

選擇資料納入/排除的理由

清理資料資料清理報告

建構資料衍生特徵產生記錄

整合資料融合資料

格式化資料重新格式化資料

選擇模型技術模型技術模型假設

規劃測試測試規劃

建立模型參數設定模型模型描述

模型選擇模型評估重新調整參數設

評估結果評估資料採礦結果商業成功要件核可模型

檢視流程流程檢視

決定下一步驟可能行動決策列表

計劃部署部署計劃

計劃監督與維護監督與維護計劃

產生結案報告結案報告結案簡報

檢視專案經驗傳承文件

Page 16: PASW Modeler 13.0 功能與應用說明會 講議(1)

資料採礦應用

SPSS Taiwan-宏德國際

Page 17: PASW Modeler 13.0 功能與應用說明會 講議(1)

SPSS Taiwan –宏德國際SPSS Taiwan –宏德國際

資料採礦應用

§ 市場區隔– 購買同樣產品的客戶具有哪些共同特性。

§ 客戶流失– 預測哪些客戶最有可能流失而成為對手競爭者的客戶

§ 詐欺偵測– 辨識哪些交易或理賠案件可能是詐欺事件。

§ 風險管理 - 信用卡及貸款信用評等、詐騙/偽卡盜刷偵測。

§ 直效行銷 – 預測並建立潛在客戶的郵寄名單以獲得取最高的回應率。

§ 互動式行銷 – 預測每一個別客戶在瀏覽網站時,最感興趣及最想看到的內容為何。

§ 購物籃分析/交叉銷售 – 客戶會同一時間購買哪些服務或商品組合。

Page 18: PASW Modeler 13.0 功能與應用說明會 講議(1)

SPSS Taiwan –宏德國際SPSS Taiwan –宏德國際

資料採礦實例

§ SPSS Inc. 幫助 BBC 發展一個模型,用以預測一個新的電視節目在某特定時段的收視率為何。§ Neural Network模型的預測準確率相當於一個BBC資深製作人的預測。

§ 英國百貨零售商Safeway利用資料採礦發現到該公司前25%高消費的客戶群經常購買某一特定的乳酪品,而該產品是在銷售排名200名以外。

§ Bell Atlantic將機器學習(Machine Learning)的規則,應用在解決客戶的「電話問題」;公司必須指定什麼樣的技術人員去解決問題,此系統為公司減少不正確性的決定,因而節省1000多萬美元。

Page 19: PASW Modeler 13.0 功能與應用說明會 講議(1)

SPSS Taiwan –宏德國際SPSS Taiwan –宏德國際

怎樣才能做好資料採礦?

擁有一個擁有一個最好的最好的資料採礦工具平台!資料採礦工具平台!

§操作介面容易使用、迅速完成所要的採礦工作

§支持完整的資料採礦標準流程,每階段都有廣泛

完整的功能

§優異的執行效能

§可完整結合各種形式的資料

料進行分析

§可整合其他軟體能力

Modeler 13中文版

Page 20: PASW Modeler 13.0 功能與應用說明會 講議(1)

SPSS Taiwan –宏德國際SPSS Taiwan –宏德國際

最受歡迎的資料採礦工具-PASW Modeler

Page 21: PASW Modeler 13.0 功能與應用說明會 講議(1)

最佳資料採礦工具平台PASW Modeler13.0功能特色綜覽容易使用-直覺化視覺化工作流程(workflow)提供廣泛的資料採礦功能,支援完整的資料採礦程序 (CRISP-DM )具備優越的執行效能與可擴充性

Page 22: PASW Modeler 13.0 功能與應用說明會 講議(1)

最佳資料採礦工具平台PASW Modeler13.0功能特色綜覽容易使用-直覺化視覺化工作流程(workflow)提供廣泛的資料採礦功能,支援完整的資料採礦程序 (CRISP-DM )具備優越的執行效能與可擴充性

Page 23: PASW Modeler 13.0 功能與應用說明會 講議(1)

操作介面

串流工作區

操作管理區

專案管理區

節點調色板

Page 24: PASW Modeler 13.0 功能與應用說明會 講議(1)

Windows 操作環境、輕鬆上手

§ 運用滑鼠拖拉點選即可完成複雜的資料採礦的工作

§ 配合基本Windows 功能,如複製、貼上、右鍵功能表、鍵盤快捷鍵等,讓串流的繪製更方便

Page 25: PASW Modeler 13.0 功能與應用說明會 講議(1)

直覺化與視覺化的工作串流

使用者在工作區可設計符合所需的工作串流

- no programming

Page 26: PASW Modeler 13.0 功能與應用說明會 講議(1)

最佳資料採礦工具平台PASW Modeler13.0功能特色綜覽容易使用-直覺化視覺化工作流程(workflow)提供廣泛的資料採礦功能,支援完整的資料採礦程序 (CRISP-DM )具備優越的執行效能與可擴充性

Page 27: PASW Modeler 13.0 功能與應用說明會 講議(1)

PASW Modeler支援完整資料採礦流程§ CRISP-DM的六個階段

§ PASW Modeler 提供CRISP-DM各階段完整的對應功能

部署部署評估評估塑模塑模資料準備資料準備資料理解資料理解商業理解商業理解

Page 28: PASW Modeler 13.0 功能與應用說明會 講議(1)

(l)商業理解§ 著重在商業問題描述、商業背景、計畫目標、資源的需求、制定專案方針等相關問題

§ PASW Modeler提供了與相關文件檔案連結功能,以方便進行專案管理工作,讓分析人員可隨時查閱專案主題並追蹤專案進度

Page 29: PASW Modeler 13.0 功能與應用說明會 講議(1)

EnterpriseDataSources

Marketing

Attitudinal

Interaction

Web

Call-center

Operational

Customer Contact Channels

Website

Email

Phone

Mail

Branch

ATM

Agent

Mobile…

Behavioral data- Orders- Transactions- Payment history- Usage history

Descriptive data- Attributes- Characteristics- Self-declared info- (Geo)demographics

Attitudinal data- Opinions- Preferences- Needs & Desires

Interaction data- Offers- Results- Context- Click streams- Notes

The 360o View of the Customer

§PASW Modeler’s breadth of data access is a unique strength – true “360º view”

Page 30: PASW Modeler 13.0 功能與應用說明會 講議(1)

(II)資料理解-可讀取多種資料格式

§結構性資料的讀取

§ 用ODBC的方式和多種資料庫連結

§ 非固定欄寬文字檔

§ 固定欄寬文字檔

§ SPSS檔案

§ SAS的檔案

§ Excel檔案

§ 使用者輸入

Page 31: PASW Modeler 13.0 功能與應用說明會 講議(1)

(II)資料理解-可讀取多種資料格式

§文字資料(Text Mining)-客訴、文件、電子郵件、部落格、…

§網路資料(Web Mining)-網路行為資料(log file)

§調查資料-Dimensions檔案

Page 32: PASW Modeler 13.0 功能與應用說明會 講議(1)

(II)資料理解-完善的資料探索與檢視

§資料呈現

§各式報表與統計量

§資料品質檢視、清理與轉換

§檢視資料欄位間的相關

§ PASW Statistics 輸出節點

Page 33: PASW Modeler 13.0 功能與應用說明會 講議(1)

(II)資料理解-完善的資料探索與檢視§ 2D & 3D 散佈圖

§ 長條圖

§ 長方圖

§ 連結分析

§ 折線圖 & 時間序列圖

§ 圖形的互動

§§ GraphboardGraphboard

Page 34: PASW Modeler 13.0 功能與應用說明會 講議(1)

(III)資料準備階段– Data ProblemData may contains problems like:§ Redundant§ Missing Values§ Outliers§ Values not consistent with policy or common senseà Data Cleaning & Data Transformation

SPSS Taiwan –宏德國際SPSS Taiwan –宏德國際

Page 35: PASW Modeler 13.0 功能與應用說明會 講議(1)

(III)資料準備階段-- Actions

§ Select Data Set (Tables, Records, Attributes)

§ Data Cleaning

§ Derived Attributes

§ Merged Data

§ Sampling、Binning、Data Partition

SPSS Taiwan –宏德國際SPSS Taiwan –宏德國際

Data preparation step is by far the most time-consuming part of the DM

Page 36: PASW Modeler 13.0 功能與應用說明會 講議(1)

(III)資料準備-完整的資料處理能力

§選取或抽樣

§整合、排序、合併、附加

§重複資料的處理

§資料平衡

Page 37: PASW Modeler 13.0 功能與應用說明會 講議(1)

(III)資料準備-完整的資料處理能力

§欄位重新命名、修改

§衍生新變數, 資料填補欄位匿名

§資料類型設立、資料分割

§重新分類與數值變數的分組

§資料重新架構

§時間序列準備

§ PASW Statistics 資料轉換

§自動化資料準備

Page 38: PASW Modeler 13.0 功能與應用說明會 講議(1)

(IV)塑模-豐富的塑模方法§ 分類及估計模型方法

§ 關聯規則模型方法

§ 分群模型

§ 自動建模(automated modeling)

Page 39: PASW Modeler 13.0 功能與應用說明會 講議(1)

PASW Modeler 13.0 產品模組

§ PASW Modeler 13.0 Base module

• PASW Modeler 13.0 Classification module

• PASW Modeler 13.0 Segmentation module

• PASW Modeler 13.0 Association module

Page 40: PASW Modeler 13.0 功能與應用說明會 講議(1)

§ 評估圖:增益(Gains)圖、回應(Response)圖、提昇(Lift)圖、獲利(Profit)圖、投資報酬率(ROI)圖

§ 分析節點:可以對不同建模方法的正確預測率進行比較,但只用於監督式模型

§ 矩陣:利用卡方檢定來了解兩個類別欄位是否有關聯

(V)評估-視覺化模型評估

+70%

Page 41: PASW Modeler 13.0 功能與應用說明會 講議(1)

有效的目標行銷…

% of people 100%0%

% o

f ret

urn

100%

20%

20%

50%

50%

20%

70%

ROI

預測分析模型明顯提升行銷回應率

傳統的行銷活動: 郵寄20% 將得到實際會回應20%

預測的行銷活動: 郵寄20%將得到實際會回應70%

Page 42: PASW Modeler 13.0 功能與應用說明會 講議(1)

(VI)部署-彈性化的部署能力依需求將資料採礦的結果輸出成一份報告或存成各式檔案

§ 製作報告(Word、Power Point、HTML、文字檔),可定義好報告格式,製作成日報、週報等

§ 把資料採礦的結果存回至資料庫或資料檔

§ 資料庫

§ SPSS檔案、SAS檔案、Excel(2007)

§ 一般文字檔

§ 對例行性或耗時性的工作,可透過Batch方式進行部署

Page 43: PASW Modeler 13.0 功能與應用說明會 講議(1)

PASW Modeler Server_Batch模式評分

§透過Batch的方式進行資料準備、建模、評分與分析結果遞送或儲存

§ Batch的方式適合執行:§ 執行耗時的建模程序

§ 依排程執行串流(例如:在夜間執行,再將結果儲存)

§ 針對大量資料進行資料前處理

§ 執行例行性的工作(例如:月報、週報…)

§ 執行串流以作為其他處理程序的一部分(例如:作為評分引擎…)

Page 44: PASW Modeler 13.0 功能與應用說明會 講議(1)

(VI)部署-彈性化的部署能力_Batch

PASW Modeler Server_Batch -自動化部署模式§ 透過修改Batch處理模式啟動PASW Modeler的命令列所提供參數。這些参數可以是Modeler中使用的簡單參數,也可以是節點屬性(參數用於修改節點設定)

§ 例如,要選不同月份的資料進行評分,再將結果儲存到檔案:

§ 在 Select node中的選取不同的月份以決定所選取的資料:

§ Month == '$P-mth'

Page 45: PASW Modeler 13.0 功能與應用說明會 講議(1)

(VI)部署-彈性化的部署能力_PMML

§ PMML(Predictive Model Markup Language)-將資料採礦所建立的模型匯出成PMML格式,供外部開發程式使用(目前支援V3.2)

Page 46: PASW Modeler 13.0 功能與應用說明會 講議(1)

(VI)部署-彈性化的部署能力_MSP

Modeler Solution Publisher -即時最佳化決策§ 透過單一節點即可完成部署,將PASW Modeler串流所進行的資料採礦工作打包(packaged)成套件輸出(Image 檔和 Parameter 檔)

§ 可透過外部Runtime引擎或嵌入到外部應用程式中(提供API供其他外部程式語言呼叫,如C++、C#、Delphi、Java、VB、VB.NET…等)。

§ 可將資料採礦解決方案整合到資訊系統,資訊人員毋須撰寫繁雜的演算法(例如:用java, SQL…) ,便可讓資料採礦達到自動化之目的。

i

Page 47: PASW Modeler 13.0 功能與應用說明會 講議(1)

MSP與PMML的比較§ 與簡單地匯出模型(作為PMML)相比,使用Modeler Solution

Publisher提供了更強的性能,因為您能夠通過它發佈和部署完整的Modeler串流。

Page 48: PASW Modeler 13.0 功能與應用說明會 講議(1)

Modeler Solution Publisher 運作概念

step 1 – ‘Publish’from Clementine

Database

step 2 – a scoring request is made to Runtime Engine

step 4 – The results are passed back to the front office app

部署Modeler的資料採礦串流工作到一獨立資訊平台

ModelerModelerRuntimeRuntimeEngineEngine

step 3 - The Runtime Engine

fetches the pim/par file and

the data

發佈串流

執行串流

Page 49: PASW Modeler 13.0 功能與應用說明會 講議(1)

最佳資料採礦工具平台PASW Modeler13.0功能特色綜覽容易使用-直覺化視覺化工作流程(workflow)提供廣泛的資料採礦功能,支援完整的資料採礦程序 (CRISP-DM )具備優越的執行效能與可擴充性

Page 50: PASW Modeler 13.0 功能與應用說明會 講議(1)

優越的執行效能

§ PASW Modeler Server可結合資料庫的運算能力--與資料庫整合的Database Pushback§ In-Database Mining§ In-Database Scoring--自動將資料採礦運作轉成SQL語法§ 資料準備§ 評分§ 資料庫所提供的演算法

--可進行 in-database mining的資料庫§ Microsoft SQL server§ Oracle§ IBM DB2

Page 51: PASW Modeler 13.0 功能與應用說明會 講議(1)

Database Support Levels

5151

Tier Database ODBC driver

1 DB2 UDB for Windows/UNIX version 9.1, 9.5 SPSS OEM 5.3 DB2 Wire Protocol *1

1 SQL Server 2000SQL Server ODBC driver version 2000.85.1117.000 for Windows 32-bit and 2000.86.1830.00 for Windows 64-bit SPSS OEM 5.3 SQL Server Wire Protocol *1

1 SQL Server 2005 SQL Native Client driver version 2005.90.3042.00 SPSS OEM 5.3 SQL Server Wire Protocol *1

1 SQL Server 2008 SPSS OEM 5.3 SQL Server Wire Protocol *1

1 Oracle 10G (10.2), 11g (11.0) SPSS OEM 5.3 Oracle Wire Protocol *1

1 Teradata V2R6, V12 Teradata ODBC driver version 12.00.00.00

2 Netezza Performance Server 4.0 Netezza ODBC Driver version 4.05.00.7731*2

2 DB2/400 V5R4, V6R1 SPSS OEM 5.3 DB2 Wire Protocol *1

2 Sybase IQ 12.7 Sybase IQ ODBC driver version 9.00.02.1023

2 HP Neoview 2.0 HP ODBC 2.0 version 3.51.230.30 on WindowsHP Neoview ODBC Driver R2.3.2 on HP-UX

3 MySQL AB Enterprise Edition 5.0, 5.1 SPSS OEM 5.3 MySQL Wire Protocol *1

Page 52: PASW Modeler 13.0 功能與應用說明會 講議(1)

優越的執行效能

§每個節點都可以設定快取(cache)

§調整記憶體,避免資料過大造成當機

§節點支援多執行緒(multi-thread)處理

Page 53: PASW Modeler 13.0 功能與應用說明會 講議(1)

PASW Modeler Server 13.0架構

§ 使用平行處理最佳化執行效能

§ In-database Modeling能力充分利用現存資料庫系統§ SSL加密與密碼保護所有機密模型資料§ Batch自動化部署功能

5353

在資料庫內執行運算(資料處理、 建模、評分)

SQL

在強大的伺服器內執行剩下的運算

不需要的資料不必通過網路(減少您網路資源的負擔)

利用用戶端處理器來作結果檢視

Tables Results

SDL

於Client安裝Batch

SSL加密

In-database Modeling/scoring

Page 54: PASW Modeler 13.0 功能與應用說明會 講議(1)

PASW Modeler 13.0的開放與擴展性§ 具有開放性架構易與其他程式軟體接軌的介面§ 與資料庫整合,存取所有支援ODBC的資料庫§ 與SPSS其他產品接軌如PASW Data Collection、PASW

Collaboration and Deployment Services、 PASW Statistics§ 透過SPSS MSP把資料採礦流程包裝為元件和資訊系統整合§ 進階使用者能自由加入自己撰寫的演算法(CLEF)

PASW Modeler

TransactionData

PASW Collaboration and Deployment Services的分析模型管理

PASW Statistics統計模組的統計驗證能力

PASW Data Collection產品的問卷調查資料

in-database miningin-database scoring

利用MSP與資訊系統結合

利用CLEF加入自己的演算法

Page 55: PASW Modeler 13.0 功能與應用說明會 講議(1)

保險業-客戶流失預警模型-如何透過資料採礦的技術預防

客戶流失?

應用範例說明

Page 56: PASW Modeler 13.0 功能與應用說明會 講議(1)

Questions

Page 57: PASW Modeler 13.0 功能與應用說明會 講議(1)

PASW Modeler 13.0 中文版

Achieve Your Goals withAchieve Your Goals withDeep, Predictive InsightDeep, Predictive Insight

Thanks you!Thanks you!§ James§ SPSS Taiwan Corp.§ TEL: 02-2577-1100§ [email protected]§ http://www.sinter.com.tw/spss