プロセスデータ解析学7 - Process Systems Engineering: 京都 ......44//?24 標本U...

24
1/ プロセスデータ解析学7 ~主成分回帰~ ~多変量統計的プロセス管理~ 担当:長谷部伸治 金尚弘 20151127日(金)

Transcript of プロセスデータ解析学7 - Process Systems Engineering: 京都 ......44//?24 標本U...

Page 1: プロセスデータ解析学7 - Process Systems Engineering: 京都 ......44//?24 標本U を利用して主成分分析を行う.ただし,U の各列は標 準化されているとする.以下の問いに答えよ.

1/?

プロセスデータ解析学7

~主成分回帰~~多変量統計的プロセス管理~

担当:長谷部伸治

金尚弘

2015年11月27日(金)

Page 2: プロセスデータ解析学7 - Process Systems Engineering: 京都 ......44//?24 標本U を利用して主成分分析を行う.ただし,U の各列は標 準化されているとする.以下の問いに答えよ.

2/?2/24

主成分分析

少数の変数でもともとのデータを表現するための方法

主成分はもともとの変数の線形結合

主成分得点の分散が最大となるように結合係数を決定

ラグランジュ未定乗数法を利用

最適化問題は固有値問題に帰着

寄与率,累積寄与率

主成分がもともとのデータを再現している割合

前回の内容

Page 3: プロセスデータ解析学7 - Process Systems Engineering: 京都 ......44//?24 標本U を利用して主成分分析を行う.ただし,U の各列は標 準化されているとする.以下の問いに答えよ.

3/?3/24前回の内容とアンケート結果

番号 内容 ○ △ × 合計

1 表紙 02 前回の復習 18 2 0 203 今回の内容 20 3 0 234 主成分分析の概要 24 4 0 285 主成分の求め方(2変数) 1 23 5 0 286 主成分の求め方(2変数) 2 18 9 1 287 主成分の求め方(2変数) 3 19 9 0 288 主成分の求め方(2変数) 4 23 5 0 289 主成分の求め方(2変数) 5 22 6 0 2810 主成分の求め方(2変数) 6 16 12 0 2811 主成分の求め方(2変数) 7 11 16 1 2812 主成分の求め方(2変数) 8 19 7 2 2813 主成分の求め方(2変数) 9 18 10 0 2814 主成分の求め方(2変数) 10 11 17 0 2815 主成分の求め方(2変数) 11 7 19 2 28

番号 内容 ○ △ × 合計

16 寄与率と累積寄与率 14 11 3 2817 主成分の求め方(p変数) 1 24 4 0 2818 主成分の求め方(p変数) 2 23 5 0 2819 主成分の求め方(p変数) 3 15 11 2 2820 主成分の求め方(p変数) 4 11 14 3 2821 主成分の求め方(p変数) 5 10 15 3 2822 主成分の求め方(p変数) 6 7 18 3 2823 主成分の求め方(p変数) 7 5 21 2 2824 まとめ 17 6 1 24

Page 4: プロセスデータ解析学7 - Process Systems Engineering: 京都 ......44//?24 標本U を利用して主成分分析を行う.ただし,U の各列は標 準化されているとする.以下の問いに答えよ.

4/?4/24

標本 U を利用して主成分分析を行う.ただし,U の各列は標準化されているとする.以下の問いに答えよ.

復習クイズ

1. 第1主成分得点ベクトル z1 を標本 U と第1主成分に対応する結合係数ベクトル a1 を利用して表せ.

2. 第1主成分得点の分散をU と a1 で表せ.

3. a1 を決定するための問題が U の相関係数行列 R の固有値問題となることを示せ.ただし,a1’a1 = 1とする.

11 12 1

21

1

p

n np

u u u

u

u u

U

11

21

1

1n

z

z

z

z

11

12

1

1p

a

a

a

a

Page 5: プロセスデータ解析学7 - Process Systems Engineering: 京都 ......44//?24 標本U を利用して主成分分析を行う.ただし,U の各列は標 準化されているとする.以下の問いに答えよ.

5/?5/24

第1主成分得点z1の分散の行列ベクトル表現

解答 1

11 11 12 12 1 111

11 21 12 22 1 221

1

11 1 12 2 11

1 11 12 111 12

221 22

11 12 1

1 2

p p

p p

n n p npn

p p

p

p

npn n

a u a u a uz

a u a u a uz

a u a u a uz

u u u uu u

uu ua a a

uu u

z

11

21 12

1 1

1

n np p

a

u a

u u a

Ua (9.39)

Page 6: プロセスデータ解析学7 - Process Systems Engineering: 京都 ......44//?24 標本U を利用して主成分分析を行う.ただし,U の各列は標 準化されているとする.以下の問いに答えよ.

6/?6/24

第1主成分得点z1の行列ベクトル表現

解答 2

1

2

1 1

1

2

1

1

1 1

1 1

1 1

1 1

1

1

1

1

1

1

1

1

1

1

n

z i

i

n

i

i

V z zn

zn

n

n

n

z z

Ua Ua

a U U a

a Ra

AB B A (3.4)

(9.40)

11

21 2

1 1 21 1 111

1

1

n

n i

i

n

z

zz z z z

z

z z

Page 7: プロセスデータ解析学7 - Process Systems Engineering: 京都 ......44//?24 標本U を利用して主成分分析を行う.ただし,U の各列は標 準化されているとする.以下の問いに答えよ.

7/?7/24

結合係数ベクトル a1 を決めるための最適化問題は下記のようになる.

解答 3

max1 1 1zV a Ra

a1

s.t. 1 1 1 a a

ラグランジュ関数

1 1 1 1 1 1, 1f a a Ra a a

11 1

1

2 2 0f

Ra aa

1 1Ra a

(9.43)

(9.45) 固有値問題

Page 8: プロセスデータ解析学7 - Process Systems Engineering: 京都 ......44//?24 標本U を利用して主成分分析を行う.ただし,U の各列は標 準化されているとする.以下の問いに答えよ.

8/?8/24

主成分回帰(PCR: Principal Component Regression)

多変量統計的プロセス管理(MSPC: Multivariate Statistical Process Control)

MSPCの目的

MSPCのための数学的準備

主成分を利用した相関係数行列 R と元データの復元

MSPCのアルゴリズムと意味合い

本日の内容

Page 9: プロセスデータ解析学7 - Process Systems Engineering: 京都 ......44//?24 標本U を利用して主成分分析を行う.ただし,U の各列は標 準化されているとする.以下の問いに答えよ.

9/?

主成分回帰(PCR)(これ以降は x も標準化されているとする)

Page 10: プロセスデータ解析学7 - Process Systems Engineering: 京都 ......44//?24 標本U を利用して主成分分析を行う.ただし,U の各列は標 準化されているとする.以下の問いに答えよ.

10/?10/24

主成分回帰は主成分得点を利用して回帰分析を行う方法である.

多重共線性の問題を回避できる.

主成分回帰(PCR)

PCR

PCR PCR,

1

ˆp

p

p

ipzy

MLR

MLR MLR,

1

ˆp

p

p

ipxy

重回帰分析(MLR: Multiple Linear Regression)

主成分分析(PCR: Principal Component Regression)

βPCRは重回帰分析の場合と同様に求めることができる

1

T T

MLRˆ

β X X X y

1

T T

PCRˆ

β Z Z Z y

Page 11: プロセスデータ解析学7 - Process Systems Engineering: 京都 ......44//?24 標本U を利用して主成分分析を行う.ただし,U の各列は標 準化されているとする.以下の問いに答えよ.

11/?11/24

適切に主成分数を選び,主成分回帰を行うことにより重回帰分析に比べて安定的に回帰係数を求めることができる.

重回帰分析(MLR)と主成分回帰(PCR)の比較

y x1 x2 x3

10 1.8 4.1 8.0

6 4.0 8.2 1.9

12 5.9 2.1 6.0

8 8.1 5.9 0.0

MLR 1.55 0.52 2.18

PCR 1 -0.26 -0.25 0.36

PCR 2 0.23 -0.75 0.36

PCR 3 1.55 0.52 2.18

y x1 x2 x3

10 2.0 4.0 8.0

6 4.0 8.1 2.1

12 6.1 2.1 6.1

8 7.8 6.1 0.0

MLR 0.17 -0.84 0.22

PCR 1 -0.25 -0.26 0.36

PCR 2 0.23 -0.75 0.36

PCR 3 0.17 -0.84 0.22

*標準偏回帰係数を示している

Page 12: プロセスデータ解析学7 - Process Systems Engineering: 京都 ......44//?24 標本U を利用して主成分分析を行う.ただし,U の各列は標 準化されているとする.以下の問いに答えよ.

12/?12/24PCRを利用すると回帰係数が安定する理由

1y x1 2x x

例題

1 2ˆ 100 99y x x

1 2ˆ 30 31y x x

のような推定式が出てくるかも知れない.

重回帰分析を使うと,標本データによっては

主成分を1つ利用して主成分回帰を使うと,

PCR 1

PCR 1 2

ˆ

1

2

y z

x x

となり,標本データによらず

PCR

1

2

に近い値が求まる.

Page 13: プロセスデータ解析学7 - Process Systems Engineering: 京都 ......44//?24 標本U を利用して主成分分析を行う.ただし,U の各列は標 準化されているとする.以下の問いに答えよ.

13/?

多変量統計的プロセス管理

(MSPC)

Page 14: プロセスデータ解析学7 - Process Systems Engineering: 京都 ......44//?24 標本U を利用して主成分分析を行う.ただし,U の各列は標 準化されているとする.以下の問いに答えよ.

14/?14/24

SPCでは,プロセスで得られる変数を統計的に評価して,プロセスが正常か否かを判断することが目的とされる.

統計的プロセス管理(SPC)

異常!

時間

変数

Walter Andrew Shewhart

Shewhart 管理図:ある変数が,事前に決めた範囲から逸脱すると異常と見なす.

Page 15: プロセスデータ解析学7 - Process Systems Engineering: 京都 ......44//?24 標本U を利用して主成分分析を行う.ただし,U の各列は標 準化されているとする.以下の問いに答えよ.

15/?15/24

MSPCでは,変数間の関係を考慮(PCAなどを利用する)した上で状態の判断を行う.

多変量統計的プロセス管理(MSPC)の目的

異常!

変数

変数

MSPC

異常!

異常!

変数間の関係を考慮しない方法

変数

異常!

異常!

変数

Page 16: プロセスデータ解析学7 - Process Systems Engineering: 京都 ......44//?24 標本U を利用して主成分分析を行う.ただし,U の各列は標 準化されているとする.以下の問いに答えよ.

16/?16/24

相関係数行列 R はその固有値と固有ベクトルを利用して下記のようにスペクトル分解できる.

MSPCのための数学(相関係数行列 R の復元 1)

スペクトル分解

1 1 1 2 2 2 p p p R a a a a a a (3.36)

x1

x2x3

1 1 0

1 1 0

0 0 1

R

x1 x2 x3

x1

x2

x3

x1 と x2 は同じで,x3 とは無相関

Page 17: プロセスデータ解析学7 - Process Systems Engineering: 京都 ......44//?24 標本U を利用して主成分分析を行う.ただし,U の各列は標 準化されているとする.以下の問いに答えよ.

17/?17/24MSPCのための数学(相関係数行列 R の復元 2)

2つの主成分で3変数の相関係数行列を再現できる.

1 1 0

1 1 0

0 0 1

0.5 0

2 0.5 0.5 0.5 0 1 0 0 0 1

0 1

1 1 0 0 0 0

1 1 0 0 0 0

0 0 0 0 0 1

R 固有値:2, 1, 0

第1主成分による近似(寄与率2/3)

第2主成分による近似(寄与率1/3)

Page 18: プロセスデータ解析学7 - Process Systems Engineering: 京都 ......44//?24 標本U を利用して主成分分析を行う.ただし,U の各列は標 準化されているとする.以下の問いに答えよ.

18/?18/24

主成分得点と主成分を利用した元データ X の復元イメージ

MSPCのための数学(元データ X の復元 1)

11 12 1

21

1

p

n np

x x x

x

x x

X

11 12 1

21

1n n

p

p

z z z

z

z z

Z

圧縮

復元

11 12 1

21

1

ˆ ˆ ˆ

ˆˆ

ˆ ˆ

p

n np

x x x

x

x x

X

Page 19: プロセスデータ解析学7 - Process Systems Engineering: 京都 ......44//?24 標本U を利用して主成分分析を行う.ただし,U の各列は標 準化されているとする.以下の問いに答えよ.

19/?19/24MSPCのための数学(元データ X の復元 2)

x2

2次元データを1つの主成分から復元する例

z11 から と を復元する.(z11 と や の関係を求める.)

11x̂ 12x̂

11x̂ 12x̂

Page 20: プロセスデータ解析学7 - Process Systems Engineering: 京都 ......44//?24 標本U を利用して主成分分析を行う.ただし,U の各列は標 準化されているとする.以下の問いに答えよ.

20/?20/24MSPCのための数学(元データ X の復元 3)

11z

11x̂

x1

z1

z11と の関係を求める(主成分数が1の場合)

x2

11x̂

1111ˆ coszx

11 11 cos cosx xz z

11

1

1 11

2

1[1 0]a

za

x a

幾何学的関係

内積

11 11 1111 11 11cosx̂ axz z z z

上式を合わせると下記が導かれる.

についても同様にもとめることができる.12x̂

Page 21: プロセスデータ解析学7 - Process Systems Engineering: 京都 ......44//?24 標本U を利用して主成分分析を行う.ただし,U の各列は標 準化されているとする.以下の問いに答えよ.

21/?21/24

主成分数が2以上のときのデータの復元方法

MSPCのための数学(元データ X の復元 4)

ix

1z

2z

ˆix

1 2

11 21 1 1

12 2

1

1 2ˆ

p

p

p pp

pi

p

k k k

a a a k

a k

a a k

zx

Ak

z z

k を xi と の二乗誤差の和が最小に

なるように求める(最小二乗法)と

ˆix

Page 22: プロセスデータ解析学7 - Process Systems Engineering: 京都 ......44//?24 標本U を利用して主成分分析を行う.ただし,U の各列は標 準化されているとする.以下の問いに答えよ.

22/?22/24MSPCのための数学(元データ X の復元 5)

ˆii Ak Azx

1

iA A A

k x となる.

Aの各列(各主成分)の分散は1で,各列は互いに無相関なのでA’Aは単位行列である.

また,主成分得点の定義より,A’xi = ziであるので

ik z となる.

よって,

となる.

復元できなかった情報(残差) Qi を下記のように定義する.

ˆ ˆ( ) '( )i i i i iQ x x x x

Page 23: プロセスデータ解析学7 - Process Systems Engineering: 京都 ......44//?24 標本U を利用して主成分分析を行う.ただし,U の各列は標 準化されているとする.以下の問いに答えよ.

23/?23/24

PCAにもとづくMSPCでは,以下の2つの指標が閾値以上であるサンプルを異常と判定する.

MSPCによる異常検出方法

Hotelling T2 統計量

Q 統計量

2

1

pij

i

j j

zT

変数

変数

MSPC(主成分数2)

iQ

2

iT の等高線

ˆ ˆ( ) '( )i i i i iQ x x x x

変数

変数

Page 24: プロセスデータ解析学7 - Process Systems Engineering: 京都 ......44//?24 標本U を利用して主成分分析を行う.ただし,U の各列は標 準化されているとする.以下の問いに答えよ.

24/?24/24

主成分回帰

主成分を利用して重回帰分析を行う.

安定した回帰係数を求めることができる.

多変量統計的プロセス管理(MSPC)

変数間の関係性に着目して異常検出を行う.

主成分分析による情報損失量を計算する必要がある.

主成分を利用した相関行列の復元方法

主成分を利用した元データの復元方法

まとめ