プロセスデータ解析学7 - Process Systems Engineering: 京都 ......44//?24 標本U...
Transcript of プロセスデータ解析学7 - Process Systems Engineering: 京都 ......44//?24 標本U...
1/?
プロセスデータ解析学7
~主成分回帰~~多変量統計的プロセス管理~
担当:長谷部伸治
金尚弘
2015年11月27日(金)
2/?2/24
主成分分析
少数の変数でもともとのデータを表現するための方法
主成分はもともとの変数の線形結合
主成分得点の分散が最大となるように結合係数を決定
ラグランジュ未定乗数法を利用
最適化問題は固有値問題に帰着
寄与率,累積寄与率
主成分がもともとのデータを再現している割合
前回の内容
3/?3/24前回の内容とアンケート結果
番号 内容 ○ △ × 合計
1 表紙 02 前回の復習 18 2 0 203 今回の内容 20 3 0 234 主成分分析の概要 24 4 0 285 主成分の求め方(2変数) 1 23 5 0 286 主成分の求め方(2変数) 2 18 9 1 287 主成分の求め方(2変数) 3 19 9 0 288 主成分の求め方(2変数) 4 23 5 0 289 主成分の求め方(2変数) 5 22 6 0 2810 主成分の求め方(2変数) 6 16 12 0 2811 主成分の求め方(2変数) 7 11 16 1 2812 主成分の求め方(2変数) 8 19 7 2 2813 主成分の求め方(2変数) 9 18 10 0 2814 主成分の求め方(2変数) 10 11 17 0 2815 主成分の求め方(2変数) 11 7 19 2 28
番号 内容 ○ △ × 合計
16 寄与率と累積寄与率 14 11 3 2817 主成分の求め方(p変数) 1 24 4 0 2818 主成分の求め方(p変数) 2 23 5 0 2819 主成分の求め方(p変数) 3 15 11 2 2820 主成分の求め方(p変数) 4 11 14 3 2821 主成分の求め方(p変数) 5 10 15 3 2822 主成分の求め方(p変数) 6 7 18 3 2823 主成分の求め方(p変数) 7 5 21 2 2824 まとめ 17 6 1 24
4/?4/24
標本 U を利用して主成分分析を行う.ただし,U の各列は標準化されているとする.以下の問いに答えよ.
復習クイズ
1. 第1主成分得点ベクトル z1 を標本 U と第1主成分に対応する結合係数ベクトル a1 を利用して表せ.
2. 第1主成分得点の分散をU と a1 で表せ.
3. a1 を決定するための問題が U の相関係数行列 R の固有値問題となることを示せ.ただし,a1’a1 = 1とする.
11 12 1
21
1
p
n np
u u u
u
u u
U
11
21
1
1n
z
z
z
z
11
12
1
1p
a
a
a
a
5/?5/24
第1主成分得点z1の分散の行列ベクトル表現
解答 1
11 11 12 12 1 111
11 21 12 22 1 221
1
11 1 12 2 11
1 11 12 111 12
221 22
11 12 1
1 2
p p
p p
n n p npn
p p
p
p
npn n
a u a u a uz
a u a u a uz
a u a u a uz
u u u uu u
uu ua a a
uu u
z
11
21 12
1 1
1
n np p
a
u a
u u a
Ua (9.39)
6/?6/24
第1主成分得点z1の行列ベクトル表現
解答 2
1
2
1 1
1
2
1
1
1 1
1 1
1 1
1 1
1
1
1
1
1
1
1
1
1
1
n
z i
i
n
i
i
V z zn
zn
n
n
n
z z
Ua Ua
a U U a
a Ra
AB B A (3.4)
(9.40)
11
21 2
1 1 21 1 111
1
1
n
n i
i
n
z
zz z z z
z
z z
7/?7/24
結合係数ベクトル a1 を決めるための最適化問題は下記のようになる.
解答 3
max1 1 1zV a Ra
a1
s.t. 1 1 1 a a
ラグランジュ関数
1 1 1 1 1 1, 1f a a Ra a a
11 1
1
2 2 0f
Ra aa
1 1Ra a
(9.43)
(9.45) 固有値問題
8/?8/24
主成分回帰(PCR: Principal Component Regression)
多変量統計的プロセス管理(MSPC: Multivariate Statistical Process Control)
MSPCの目的
MSPCのための数学的準備
主成分を利用した相関係数行列 R と元データの復元
MSPCのアルゴリズムと意味合い
本日の内容
9/?
主成分回帰(PCR)(これ以降は x も標準化されているとする)
10/?10/24
主成分回帰は主成分得点を利用して回帰分析を行う方法である.
多重共線性の問題を回避できる.
主成分回帰(PCR)
PCR
PCR PCR,
1
ˆp
p
p
ipzy
MLR
MLR MLR,
1
ˆp
p
p
ipxy
重回帰分析(MLR: Multiple Linear Regression)
主成分分析(PCR: Principal Component Regression)
βPCRは重回帰分析の場合と同様に求めることができる
1
T T
MLRˆ
β X X X y
1
T T
PCRˆ
β Z Z Z y
11/?11/24
適切に主成分数を選び,主成分回帰を行うことにより重回帰分析に比べて安定的に回帰係数を求めることができる.
重回帰分析(MLR)と主成分回帰(PCR)の比較
y x1 x2 x3
10 1.8 4.1 8.0
6 4.0 8.2 1.9
12 5.9 2.1 6.0
8 8.1 5.9 0.0
MLR 1.55 0.52 2.18
PCR 1 -0.26 -0.25 0.36
PCR 2 0.23 -0.75 0.36
PCR 3 1.55 0.52 2.18
y x1 x2 x3
10 2.0 4.0 8.0
6 4.0 8.1 2.1
12 6.1 2.1 6.1
8 7.8 6.1 0.0
MLR 0.17 -0.84 0.22
PCR 1 -0.25 -0.26 0.36
PCR 2 0.23 -0.75 0.36
PCR 3 0.17 -0.84 0.22
*標準偏回帰係数を示している
12/?12/24PCRを利用すると回帰係数が安定する理由
1y x1 2x x
例題
1 2ˆ 100 99y x x
1 2ˆ 30 31y x x
のような推定式が出てくるかも知れない.
重回帰分析を使うと,標本データによっては
主成分を1つ利用して主成分回帰を使うと,
PCR 1
PCR 1 2
ˆ
1
2
y z
x x
となり,標本データによらず
PCR
1
2
に近い値が求まる.
13/?
多変量統計的プロセス管理
(MSPC)
14/?14/24
SPCでは,プロセスで得られる変数を統計的に評価して,プロセスが正常か否かを判断することが目的とされる.
統計的プロセス管理(SPC)
異常!
時間
変数
Walter Andrew Shewhart
Shewhart 管理図:ある変数が,事前に決めた範囲から逸脱すると異常と見なす.
15/?15/24
MSPCでは,変数間の関係を考慮(PCAなどを利用する)した上で状態の判断を行う.
多変量統計的プロセス管理(MSPC)の目的
異常!
変数
変数
MSPC
異常!
異常!
変数間の関係を考慮しない方法
変数
異常!
異常!
変数
16/?16/24
相関係数行列 R はその固有値と固有ベクトルを利用して下記のようにスペクトル分解できる.
MSPCのための数学(相関係数行列 R の復元 1)
スペクトル分解
1 1 1 2 2 2 p p p R a a a a a a (3.36)
x1
x2x3
1 1 0
1 1 0
0 0 1
R
x1 x2 x3
x1
x2
x3
x1 と x2 は同じで,x3 とは無相関
17/?17/24MSPCのための数学(相関係数行列 R の復元 2)
2つの主成分で3変数の相関係数行列を再現できる.
1 1 0
1 1 0
0 0 1
0.5 0
2 0.5 0.5 0.5 0 1 0 0 0 1
0 1
1 1 0 0 0 0
1 1 0 0 0 0
0 0 0 0 0 1
R 固有値:2, 1, 0
第1主成分による近似(寄与率2/3)
第2主成分による近似(寄与率1/3)
18/?18/24
主成分得点と主成分を利用した元データ X の復元イメージ
MSPCのための数学(元データ X の復元 1)
11 12 1
21
1
p
n np
x x x
x
x x
X
11 12 1
21
1n n
p
p
z z z
z
z z
Z
圧縮
復元
11 12 1
21
1
ˆ ˆ ˆ
ˆˆ
ˆ ˆ
p
n np
x x x
x
x x
X
19/?19/24MSPCのための数学(元データ X の復元 2)
x2
2次元データを1つの主成分から復元する例
z11 から と を復元する.(z11 と や の関係を求める.)
11x̂ 12x̂
11x̂ 12x̂
20/?20/24MSPCのための数学(元データ X の復元 3)
11z
11x̂
x1
z1
z11と の関係を求める(主成分数が1の場合)
x2
11x̂
1111ˆ coszx
11 11 cos cosx xz z
11
1
1 11
2
1[1 0]a
za
x a
幾何学的関係
内積
11 11 1111 11 11cosx̂ axz z z z
上式を合わせると下記が導かれる.
についても同様にもとめることができる.12x̂
21/?21/24
主成分数が2以上のときのデータの復元方法
MSPCのための数学(元データ X の復元 4)
ix
1z
2z
ˆix
1 2
11 21 1 1
12 2
1
1 2ˆ
p
p
p pp
pi
p
k k k
a a a k
a k
a a k
zx
Ak
z z
k を xi と の二乗誤差の和が最小に
なるように求める(最小二乗法)と
ˆix
22/?22/24MSPCのための数学(元データ X の復元 5)
ˆii Ak Azx
1
iA A A
k x となる.
Aの各列(各主成分)の分散は1で,各列は互いに無相関なのでA’Aは単位行列である.
また,主成分得点の定義より,A’xi = ziであるので
ik z となる.
よって,
となる.
復元できなかった情報(残差) Qi を下記のように定義する.
ˆ ˆ( ) '( )i i i i iQ x x x x
23/?23/24
PCAにもとづくMSPCでは,以下の2つの指標が閾値以上であるサンプルを異常と判定する.
MSPCによる異常検出方法
Hotelling T2 統計量
Q 統計量
2
1
pij
i
j j
zT
変数
変数
MSPC(主成分数2)
iQ
2
iT の等高線
ˆ ˆ( ) '( )i i i i iQ x x x x
変数
変数
24/?24/24
主成分回帰
主成分を利用して重回帰分析を行う.
安定した回帰係数を求めることができる.
多変量統計的プロセス管理(MSPC)
変数間の関係性に着目して異常検出を行う.
主成分分析による情報損失量を計算する必要がある.
主成分を利用した相関行列の復元方法
主成分を利用した元データの復元方法
まとめ