深層学習の進化と深化sita/forum/article/2019/...2019/03/08  · 2010年代頃のCV業界...

54
2019/03/07 IEICE IT/ISEC/WBS 研究会 電気通信⼤学 ⼤学院情報理⼯学研究科 電気通信⼤学 ⼈⼯知能先端研究センター 電気通信⼤学 脳科学ライフサポートセンター 庄野 逸: [email protected] 1 深層学習の進化と深化

Transcript of 深層学習の進化と深化sita/forum/article/2019/...2019/03/08  · 2010年代頃のCV業界...

Page 1: 深層学習の進化と深化sita/forum/article/2019/...2019/03/08  · 2010年代頃のCV業界 部分特徴から組み合わせ特徴へ 15 p Bag of Words からの脱却 p 部分特徴の組み合わせ特徴量へ(Felzenswalb+10,

2019/03/07 IEICE IT/ISEC/WBS 研究会

電気通信⼤学 ⼤学院情報理⼯学研究科電気通信⼤学 ⼈⼯知能先端研究センター

電気通信⼤学 脳科学ライフサポートセンター

庄野 逸: [email protected]

1

深層学習の進化と深化

Page 2: 深層学習の進化と深化sita/forum/article/2019/...2019/03/08  · 2010年代頃のCV業界 部分特徴から組み合わせ特徴へ 15 p Bag of Words からの脱却 p 部分特徴の組み合わせ特徴量へ(Felzenswalb+10,

2019/03/08 IT/ISEC/WBS 研究会@電通⼤

⾃⼰紹介

2

p ⽒名: 庄野 逸 (しょうの はやる)p 連絡先 [email protected] 略歴

l ⼤阪⼤学 基礎⼯学部⽣物⼯学科: 1992 〜 2000ネオコグニトロン,選択的注意機構モデルの研究

l 奈良⼥⼦⼤学 ⼤学院⼈間科学研究科: 2001〜2002情報統計⼒学,最適化

l ⼭⼝⼤学 ⼯学部知能情報⼯学科: 2002〜2008医⽤画像処理,パターン認識,情報統計⼒学,機械学習

l 電気通信⼤学 情報通信⼯学科: 2008〜脳科学ライフサポートセンター,⼈⼯知能先端研究センター医⽤画像処理,機械学習,ディープラーニング

Page 3: 深層学習の進化と深化sita/forum/article/2019/...2019/03/08  · 2010年代頃のCV業界 部分特徴から組み合わせ特徴へ 15 p Bag of Words からの脱却 p 部分特徴の組み合わせ特徴量へ(Felzenswalb+10,

2019/03/08 IT/ISEC/WBS 研究会@電通⼤

ディープラーニング(深層学習)とは︖

3

p 神経回路(ニューラルネット)モデルを⽤いた機械学習(AI)技術

l 脳の働きを模した構造と学習⽅式

l 深い階層構造を持つことが特徴p 第3次AIブームの中核技術p 画像処理,⾳声処理,テキスト処理などの分野で

無類の強さを発揮中

Neocognitron/CNN [Fukushima 80]

Input RecognitionIt’ s “5”

Page 4: 深層学習の進化と深化sita/forum/article/2019/...2019/03/08  · 2010年代頃のCV業界 部分特徴から組み合わせ特徴へ 15 p Bag of Words からの脱却 p 部分特徴の組み合わせ特徴量へ(Felzenswalb+10,

2019/03/08 IT/ISEC/WBS 研究会@電通⼤

InternetGoogle

FacebookTwitter

私⾒的なAI年表とその周辺

4

201020001990198019701960

第1期

第2期 第3期(たぶん)

inspired from 岡谷貴之(東北大),麻生英樹(産総研),岡田真人(東大)

今ココ

脳型AI

第5世代コンピュータ“エキスパートシステム”“知識工学”1982~92

Watson(IBM)記号処理的AI オントロジーsemantic web

deep net Neocognitron(Fukushima 80)

Back Prop.(Rumelhart+ 86)

Conv. net(LeCun+ 89)

Deep learning(Hinton+ 06)

Perceptron(Rosenblatt 57)

“Linear Separable” (Minski & Papert 68)

SVM(Vapnik 95)

知識獲得の難しさ

理論的な限界カーネル法の勃興 特徴表現の難しさ

繁栄と挫折の繰り返しで3度めのリベンジ中

ダートマス会議(56)

Page 5: 深層学習の進化と深化sita/forum/article/2019/...2019/03/08  · 2010年代頃のCV業界 部分特徴から組み合わせ特徴へ 15 p Bag of Words からの脱却 p 部分特徴の組み合わせ特徴量へ(Felzenswalb+10,

2019/03/08 IT/ISEC/WBS 研究会@電通⼤

ディープラーニングの枠組み機械学習とニューラルネット

Page 6: 深層学習の進化と深化sita/forum/article/2019/...2019/03/08  · 2010年代頃のCV業界 部分特徴から組み合わせ特徴へ 15 p Bag of Words からの脱却 p 部分特徴の組み合わせ特徴量へ(Felzenswalb+10,

2019/03/08 IT/ISEC/WBS 研究会@電通⼤

統計的機械学習の枠組み

p 機械学習の枠組みを識別問題を例に考えてみるl ⼊出⼒をマッピングする関数がほしい

ただし関数の具体的な形はわからない.l ユーザーが持っているのは(⼤量の)⼊出⼒データl 正解データ(先⽣)との⽐較結果を学習機械内部の

パラメータに反映

‘7’ です

学習機械(⽣徒)

‘5’ ‘4’ ‘0’先⽣

‘9’ ⽐較ラベル →画像 →

Page 7: 深層学習の進化と深化sita/forum/article/2019/...2019/03/08  · 2010年代頃のCV業界 部分特徴から組み合わせ特徴へ 15 p Bag of Words からの脱却 p 部分特徴の組み合わせ特徴量へ(Felzenswalb+10,

2019/03/08 IT/ISEC/WBS 研究会@電通⼤

ニューラルネットの計算枠組みp ニューラルネットは機械学習の⼀つの例p ユニットは積和演算と⾮線形変調の組みで構成

l パラメータはユニット間の辺の “重み”‘5’ ‘4’ ‘0’

��

���

‘9’

‘7’ ���

-2

4

3

2

y = f( 3 x (-2) + 2 x (4) )= 2

ユニットの計算

Page 8: 深層学習の進化と深化sita/forum/article/2019/...2019/03/08  · 2010年代頃のCV業界 部分特徴から組み合わせ特徴へ 15 p Bag of Words からの脱却 p 部分特徴の組み合わせ特徴量へ(Felzenswalb+10,

2019/03/08 IT/ISEC/WBS 研究会@電通⼤

p 浅いネットワークl ⼊出⼒は直接接続

l 線形分離課題のみl 学習は⽐較的楽

ニューラルネットの “浅さ深さ” とは︖

p 深いネットワークl ⼊出⼒の間に媒介する

データ表現が⼊る

l 任意の関数を近似可能l 学習は難しい

過学習,勾配消失

input

output

input

outputoutput

input

SVM, Logistic reg. etcMLP, CNN etc

Page 9: 深層学習の進化と深化sita/forum/article/2019/...2019/03/08  · 2010年代頃のCV業界 部分特徴から組み合わせ特徴へ 15 p Bag of Words からの脱却 p 部分特徴の組み合わせ特徴量へ(Felzenswalb+10,

2019/03/08 IT/ISEC/WBS 研究会@電通⼤

ネットワークアーキテクチャ構成の変遷

9

第1世代(1980〜)

第2世代(1990〜)

第3世代

http://www.asimovinstitute.org/neural-network-zoo/

Page 10: 深層学習の進化と深化sita/forum/article/2019/...2019/03/08  · 2010年代頃のCV業界 部分特徴から組み合わせ特徴へ 15 p Bag of Words からの脱却 p 部分特徴の組み合わせ特徴量へ(Felzenswalb+10,

2019/03/08 IT/ISEC/WBS 研究会@電通⼤

ニューラルネットの学習とはp “学習” はパラメータ w の調整p ⼊出⼒のマッピングが正しくなるように “先⽣” と

機械(⽣徒)が同⼀の答えを出すように調整p 先⽣の答えと⽣徒の答えの差異→コスト関数 E(w)

‘5’ ‘4’ ‘0’��

���

‘9’

‘7’ ���

E(w) ⼩さくする wを求めたい

E(w) =12

X

n

ktn � y(xn; w)k2<latexit sha1_base64="fCfB0L/sv0TKmchgBrTZ53gRo1s=">AAAEP3ichVNNaxNRFL3p+FHrR1PdCG4GQ6UuDG+CoChCUQQ3Qr+SFjo1zEzexKHzxcxLbJzOH/APuHCl4EJc+gvEjX/ARba6EBFEqCCCC897SRrbkPQNk3ffPffce+ZMxo59LxWMdQtT2rHjJ05On5o5febsudni3PlaGrUSh1edyI+SDdtKue+FvCo84fONOOFWYPt83d6+J/H1Nk9SLwrXRCfmW4HVDD3XcyyBVL348P6CWeNO9iS/qt/RTTexnMzIs0qum2krqIe6uatwkSO+pqu4k/c4O8jd1gd0c/dRpV4ssTJTSx8NjH5Qov5aiuYKAZnUoIgcalFAnEISiH2yKMW1SQYxipHbogy5BJGncE45zYDbQhVHhYXsNn6bOG32syHOsmeq2A6m+LgTMHWaZ5/YG7bHPrK37Bv7O7ZXpnpILR3sdo/L4/rss4urv49kBdgFPR6yJmoW5NJNpdWD9lhl5FM4PX776fO91Vsr89kV9op9h/6XrMs+4AnC9i/n9TJfeTFBj/St58Uk39bgt5zvwqfwv+mT+u7sVw96N4C42GvYHSqhZ4aTrfxv7DspTzoQieeHmPJNN1ElfZDcgY8JouwAOo5pQdd4pkRHmW1gA7W+ygoVWZjTVBmpd6hYB5pARRP9hYqHleiNr8E4/N8fDWqVssHKxvL10uLd/ncxTZfoMi1gyg1apAe0RFX4+I669Jm+aO+1r9oP7WevdKrQ51ygA0v78w+0k/ah</latexit><latexit sha1_base64="fCfB0L/sv0TKmchgBrTZ53gRo1s=">AAAEP3ichVNNaxNRFL3p+FHrR1PdCG4GQ6UuDG+CoChCUQQ3Qr+SFjo1zEzexKHzxcxLbJzOH/APuHCl4EJc+gvEjX/ARba6EBFEqCCCC897SRrbkPQNk3ffPffce+ZMxo59LxWMdQtT2rHjJ05On5o5febsudni3PlaGrUSh1edyI+SDdtKue+FvCo84fONOOFWYPt83d6+J/H1Nk9SLwrXRCfmW4HVDD3XcyyBVL348P6CWeNO9iS/qt/RTTexnMzIs0qum2krqIe6uatwkSO+pqu4k/c4O8jd1gd0c/dRpV4ssTJTSx8NjH5Qov5aiuYKAZnUoIgcalFAnEISiH2yKMW1SQYxipHbogy5BJGncE45zYDbQhVHhYXsNn6bOG32syHOsmeq2A6m+LgTMHWaZ5/YG7bHPrK37Bv7O7ZXpnpILR3sdo/L4/rss4urv49kBdgFPR6yJmoW5NJNpdWD9lhl5FM4PX776fO91Vsr89kV9op9h/6XrMs+4AnC9i/n9TJfeTFBj/St58Uk39bgt5zvwqfwv+mT+u7sVw96N4C42GvYHSqhZ4aTrfxv7DspTzoQieeHmPJNN1ElfZDcgY8JouwAOo5pQdd4pkRHmW1gA7W+ygoVWZjTVBmpd6hYB5pARRP9hYqHleiNr8E4/N8fDWqVssHKxvL10uLd/ncxTZfoMi1gyg1apAe0RFX4+I669Jm+aO+1r9oP7WevdKrQ51ygA0v78w+0k/ah</latexit><latexit sha1_base64="fCfB0L/sv0TKmchgBrTZ53gRo1s=">AAAEP3ichVNNaxNRFL3p+FHrR1PdCG4GQ6UuDG+CoChCUQQ3Qr+SFjo1zEzexKHzxcxLbJzOH/APuHCl4EJc+gvEjX/ARba6EBFEqCCCC897SRrbkPQNk3ffPffce+ZMxo59LxWMdQtT2rHjJ05On5o5febsudni3PlaGrUSh1edyI+SDdtKue+FvCo84fONOOFWYPt83d6+J/H1Nk9SLwrXRCfmW4HVDD3XcyyBVL348P6CWeNO9iS/qt/RTTexnMzIs0qum2krqIe6uatwkSO+pqu4k/c4O8jd1gd0c/dRpV4ssTJTSx8NjH5Qov5aiuYKAZnUoIgcalFAnEISiH2yKMW1SQYxipHbogy5BJGncE45zYDbQhVHhYXsNn6bOG32syHOsmeq2A6m+LgTMHWaZ5/YG7bHPrK37Bv7O7ZXpnpILR3sdo/L4/rss4urv49kBdgFPR6yJmoW5NJNpdWD9lhl5FM4PX776fO91Vsr89kV9op9h/6XrMs+4AnC9i/n9TJfeTFBj/St58Uk39bgt5zvwqfwv+mT+u7sVw96N4C42GvYHSqhZ4aTrfxv7DspTzoQieeHmPJNN1ElfZDcgY8JouwAOo5pQdd4pkRHmW1gA7W+ygoVWZjTVBmpd6hYB5pARRP9hYqHleiNr8E4/N8fDWqVssHKxvL10uLd/ncxTZfoMi1gyg1apAe0RFX4+I669Jm+aO+1r9oP7WevdKrQ51ygA0v78w+0k/ah</latexit><latexit sha1_base64="fCfB0L/sv0TKmchgBrTZ53gRo1s=">AAAEP3ichVNNaxNRFL3p+FHrR1PdCG4GQ6UuDG+CoChCUQQ3Qr+SFjo1zEzexKHzxcxLbJzOH/APuHCl4EJc+gvEjX/ARba6EBFEqCCCC897SRrbkPQNk3ffPffce+ZMxo59LxWMdQtT2rHjJ05On5o5febsudni3PlaGrUSh1edyI+SDdtKue+FvCo84fONOOFWYPt83d6+J/H1Nk9SLwrXRCfmW4HVDD3XcyyBVL348P6CWeNO9iS/qt/RTTexnMzIs0qum2krqIe6uatwkSO+pqu4k/c4O8jd1gd0c/dRpV4ssTJTSx8NjH5Qov5aiuYKAZnUoIgcalFAnEISiH2yKMW1SQYxipHbogy5BJGncE45zYDbQhVHhYXsNn6bOG32syHOsmeq2A6m+LgTMHWaZ5/YG7bHPrK37Bv7O7ZXpnpILR3sdo/L4/rss4urv49kBdgFPR6yJmoW5NJNpdWD9lhl5FM4PX776fO91Vsr89kV9op9h/6XrMs+4AnC9i/n9TJfeTFBj/St58Uk39bgt5zvwqfwv+mT+u7sVw96N4C42GvYHSqhZ4aTrfxv7DspTzoQieeHmPJNN1ElfZDcgY8JouwAOo5pQdd4pkRHmW1gA7W+ygoVWZjTVBmpd6hYB5pARRP9hYqHleiNr8E4/N8fDWqVssHKxvL10uLd/ncxTZfoMi1gyg1apAe0RFX4+I669Jm+aO+1r9oP7WevdKrQ51ygA0v78w+0k/ah</latexit>

コスト関数の例

先⽣の答え 機械の答え

Page 11: 深層学習の進化と深化sita/forum/article/2019/...2019/03/08  · 2010年代頃のCV業界 部分特徴から組み合わせ特徴へ 15 p Bag of Words からの脱却 p 部分特徴の組み合わせ特徴量へ(Felzenswalb+10,

2019/03/08 IT/ISEC/WBS 研究会@電通⼤

勾配法を⽤いた学習p “学習” はパラメータ w の調整p コスト関数 E(w) を最⼩化するために “勾配” を使う

E(w)

w

‘5’ ‘4’ ‘0’��

���

‘9’

‘7’ ���

wt+1 = wt � ⌘@E(w)@w

<latexit sha1_base64="l3HkA4GVrtmeQJCcdXD4O9pBgis=">AAAET3ichVNNaxNRFL1porb1o6luBDeDoVIRwxsRLAWhKILLfiUtdGJ4M3lJh05mhpmX2DrMH/APuHCl4EL8Gd24deGiP6G4M0I3Ip73MmlsQuIbJu++c++598yZjB16biwZO8nN5AuXLl+ZnZu/eu36jYXi4s1qHHQiR1ScwAuiXZvHwnN9UZGu9MRuGAnetj2xYx88V/mdrohiN/C35VEoam3e8t2m63AJqF6sWVXhJK/TV4klxaFM5AMzTY2nxigM8KFhCckNqxlxJ7FCHkmXe8aL5az0fjoEMyitF0uszPQyxgMzC0qUrfVgMdcmixoUkEMdapMgnyRijzjFuPbIJEYhsBolwCJErs4LSmke3A6qBCo40AP8tnDay1AfZ9Uz1mwHUzzcEZgGLbHv7DPrsa/sCztlvyf2SnQPpeUIu93nirC+8Pb21tl/WW3skvaHrKmaJTVpRWt1oT3UiHoKp8/vvnnX21rdXErusY/sB/R/YCfsGE/gd385nzbE5vspepRvfS+m+bYNv9X8Jnzy/5k+re/hefWgdwOZJvYqdodK6JngZGv/G+dOqpOBjMqnI0z1pluoUj4o7sDHCFFyITuJyaFrMlNlx5ld5AZqPY1KHXHMaWlE6R0qNpCNoKKF/lLHw0r0xtdgjv73x4Pqo7LJyubG49Las+y7mKU7dJeWMeUJrdFLWqcKfDymU/pJvfy3/Fn+TyErncllwS26sApzfwE2MP1d</latexit><latexit sha1_base64="l3HkA4GVrtmeQJCcdXD4O9pBgis=">AAAET3ichVNNaxNRFL1porb1o6luBDeDoVIRwxsRLAWhKILLfiUtdGJ4M3lJh05mhpmX2DrMH/APuHCl4EL8Gd24deGiP6G4M0I3Ip73MmlsQuIbJu++c++598yZjB16biwZO8nN5AuXLl+ZnZu/eu36jYXi4s1qHHQiR1ScwAuiXZvHwnN9UZGu9MRuGAnetj2xYx88V/mdrohiN/C35VEoam3e8t2m63AJqF6sWVXhJK/TV4klxaFM5AMzTY2nxigM8KFhCckNqxlxJ7FCHkmXe8aL5az0fjoEMyitF0uszPQyxgMzC0qUrfVgMdcmixoUkEMdapMgnyRijzjFuPbIJEYhsBolwCJErs4LSmke3A6qBCo40AP8tnDay1AfZ9Uz1mwHUzzcEZgGLbHv7DPrsa/sCztlvyf2SnQPpeUIu93nirC+8Pb21tl/WW3skvaHrKmaJTVpRWt1oT3UiHoKp8/vvnnX21rdXErusY/sB/R/YCfsGE/gd385nzbE5vspepRvfS+m+bYNv9X8Jnzy/5k+re/hefWgdwOZJvYqdodK6JngZGv/G+dOqpOBjMqnI0z1pluoUj4o7sDHCFFyITuJyaFrMlNlx5ld5AZqPY1KHXHMaWlE6R0qNpCNoKKF/lLHw0r0xtdgjv73x4Pqo7LJyubG49Las+y7mKU7dJeWMeUJrdFLWqcKfDymU/pJvfy3/Fn+TyErncllwS26sApzfwE2MP1d</latexit><latexit sha1_base64="l3HkA4GVrtmeQJCcdXD4O9pBgis=">AAAET3ichVNNaxNRFL1porb1o6luBDeDoVIRwxsRLAWhKILLfiUtdGJ4M3lJh05mhpmX2DrMH/APuHCl4EL8Gd24deGiP6G4M0I3Ip73MmlsQuIbJu++c++598yZjB16biwZO8nN5AuXLl+ZnZu/eu36jYXi4s1qHHQiR1ScwAuiXZvHwnN9UZGu9MRuGAnetj2xYx88V/mdrohiN/C35VEoam3e8t2m63AJqF6sWVXhJK/TV4klxaFM5AMzTY2nxigM8KFhCckNqxlxJ7FCHkmXe8aL5az0fjoEMyitF0uszPQyxgMzC0qUrfVgMdcmixoUkEMdapMgnyRijzjFuPbIJEYhsBolwCJErs4LSmke3A6qBCo40AP8tnDay1AfZ9Uz1mwHUzzcEZgGLbHv7DPrsa/sCztlvyf2SnQPpeUIu93nirC+8Pb21tl/WW3skvaHrKmaJTVpRWt1oT3UiHoKp8/vvnnX21rdXErusY/sB/R/YCfsGE/gd385nzbE5vspepRvfS+m+bYNv9X8Jnzy/5k+re/hefWgdwOZJvYqdodK6JngZGv/G+dOqpOBjMqnI0z1pluoUj4o7sDHCFFyITuJyaFrMlNlx5ld5AZqPY1KHXHMaWlE6R0qNpCNoKKF/lLHw0r0xtdgjv73x4Pqo7LJyubG49Las+y7mKU7dJeWMeUJrdFLWqcKfDymU/pJvfy3/Fn+TyErncllwS26sApzfwE2MP1d</latexit><latexit sha1_base64="l3HkA4GVrtmeQJCcdXD4O9pBgis=">AAAET3ichVNNaxNRFL1porb1o6luBDeDoVIRwxsRLAWhKILLfiUtdGJ4M3lJh05mhpmX2DrMH/APuHCl4EL8Gd24deGiP6G4M0I3Ip73MmlsQuIbJu++c++598yZjB16biwZO8nN5AuXLl+ZnZu/eu36jYXi4s1qHHQiR1ScwAuiXZvHwnN9UZGu9MRuGAnetj2xYx88V/mdrohiN/C35VEoam3e8t2m63AJqF6sWVXhJK/TV4klxaFM5AMzTY2nxigM8KFhCckNqxlxJ7FCHkmXe8aL5az0fjoEMyitF0uszPQyxgMzC0qUrfVgMdcmixoUkEMdapMgnyRijzjFuPbIJEYhsBolwCJErs4LSmke3A6qBCo40AP8tnDay1AfZ9Uz1mwHUzzcEZgGLbHv7DPrsa/sCztlvyf2SnQPpeUIu93nirC+8Pb21tl/WW3skvaHrKmaJTVpRWt1oT3UiHoKp8/vvnnX21rdXErusY/sB/R/YCfsGE/gd385nzbE5vspepRvfS+m+bYNv9X8Jnzy/5k+re/hefWgdwOZJvYqdodK6JngZGv/G+dOqpOBjMqnI0z1pluoUj4o7sDHCFFyITuJyaFrMlNlx5ld5AZqPY1KHXHMaWlE6R0qNpCNoKKF/lLHw0r0xtdgjv73x4Pqo7LJyubG49Las+y7mKU7dJeWMeUJrdFLWqcKfDymU/pJvfy3/Fn+TyErncllwS26sApzfwE2MP1d</latexit>

勾配法のパラメータ更新則

Page 12: 深層学習の進化と深化sita/forum/article/2019/...2019/03/08  · 2010年代頃のCV業界 部分特徴から組み合わせ特徴へ 15 p Bag of Words からの脱却 p 部分特徴の組み合わせ特徴量へ(Felzenswalb+10,

2019/03/08 IT/ISEC/WBS 研究会@電通⼤

p 過学習l データ数 ≪ パラメータ数のとき

未知の状況に対応できない⽣徒が⽣成されやすい…

p 勾配消失l 深いネットワークの場合,⼊⼒に近い側の

パラメータ調整がうまくいかない→ だったら浅いネットワークでええやん…

‘7’ です未学習データ

深いモデルの学習における困難

‘5’ ‘4’ ‘0’

学習機械 ‘9’ です学習済みデータ

Page 13: 深層学習の進化と深化sita/forum/article/2019/...2019/03/08  · 2010年代頃のCV業界 部分特徴から組み合わせ特徴へ 15 p Bag of Words からの脱却 p 部分特徴の組み合わせ特徴量へ(Felzenswalb+10,

2019/03/08 IT/ISEC/WBS 研究会@電通⼤

ディープラーニング以前の画像認識課題解法

13

p 浅いネットワークによる問題解決p 2010年ころまでの主流p 画像特性(エッジ特徴等)の特徴量構築+機械学習

Feature Detector(Haar, SIFT, HOG…)ハンドデザイン

Machine Learning (SVM, Boosting...)

Input

OutputLeopardCat

Pixel

Feature

特徴抽出器設計の難しさが顕在化誤差低減率が 1 [%/years]

Page 14: 深層学習の進化と深化sita/forum/article/2019/...2019/03/08  · 2010年代頃のCV業界 部分特徴から組み合わせ特徴へ 15 p Bag of Words からの脱却 p 部分特徴の組み合わせ特徴量へ(Felzenswalb+10,

2019/03/08 IT/ISEC/WBS 研究会@電通⼤

顔認識タスクの思考実験 (1)

p 浅いニューラルネットによる顔認識タスク“福笑い” を例に考えてみる

input

output

https://happylilac.net/fukuwarai2.html

Face Non-Face Non-Face?

Face Non-Face

⽬がない パーツは揃っている Bag-of-Words モデル

浅いネットワークでは特徴抽出に⼯夫が必要パーツの Bag of Words モデルでは性能限界がある

Page 15: 深層学習の進化と深化sita/forum/article/2019/...2019/03/08  · 2010年代頃のCV業界 部分特徴から組み合わせ特徴へ 15 p Bag of Words からの脱却 p 部分特徴の組み合わせ特徴量へ(Felzenswalb+10,

2019/03/08 IT/ISEC/WBS 研究会@電通⼤

2010年代頃のCV業界部分特徴から組み合わせ特徴へ

15

p Bag of Words からの脱却p 部分特徴の組み合わせ特徴量へ (Felzenswalb+10, Divvala+12)

p ハンドメイドな特徴量はしんどい→機械学習による表現獲得

(Felzenswalb+10)

Page 16: 深層学習の進化と深化sita/forum/article/2019/...2019/03/08  · 2010年代頃のCV業界 部分特徴から組み合わせ特徴へ 15 p Bag of Words からの脱却 p 部分特徴の組み合わせ特徴量へ(Felzenswalb+10,

2019/03/08 IT/ISEC/WBS 研究会@電通⼤

Computer Vision 業界でのディープラーニング

16

p Computer Vision 業界での特徴抽出の変遷l 従来の機械学習(2000〜2012)

(ハンドデザインの)特徴抽出+学習可能な識別器l ディープラーニング以降(2012〜)

特徴表現の学習+学習可能な識別器

Feature extractor(SIFT, HOG, etc)

Classifier(SVM, Log.Reg, etc) “car”

Feature extractorFeedforward NN

Classifier(SVM, Log.Reg, etc) “car”

2012〜

Page 17: 深層学習の進化と深化sita/forum/article/2019/...2019/03/08  · 2010年代頃のCV業界 部分特徴から組み合わせ特徴へ 15 p Bag of Words からの脱却 p 部分特徴の組み合わせ特徴量へ(Felzenswalb+10,

2019/03/08 IT/ISEC/WBS 研究会@電通⼤

ディープラーニングのメカニズムCNN を例に

Page 18: 深層学習の進化と深化sita/forum/article/2019/...2019/03/08  · 2010年代頃のCV業界 部分特徴から組み合わせ特徴へ 15 p Bag of Words からの脱却 p 部分特徴の組み合わせ特徴量へ(Felzenswalb+10,

2019/03/08 IT/ISEC/WBS 研究会@電通⼤

CNNモデル概観

18

p ⽣物の視覚系を模倣した深層学習モデルl 畳み込み演算を主体とした特徴抽出系を持つ

p 特徴抽出部と識別部の結合重みを学習で決めるp 画像処理分野では,既にデファクトスタンダード

(AlexNet, VGGNet, ResNetなど)[Krizhevsky+12][Simonyan+15][He+16]

Feature representation Classification

conv1

pool1 pool2

conv2 conv3 conv4 conv5

pool5 loss(categorical)

fc6 fc7

Page 19: 深層学習の進化と深化sita/forum/article/2019/...2019/03/08  · 2010年代頃のCV業界 部分特徴から組み合わせ特徴へ 15 p Bag of Words からの脱却 p 部分特徴の組み合わせ特徴量へ(Felzenswalb+10,

2019/03/08 IT/ISEC/WBS 研究会@電通⼤

視覚野(Ventral pathway)の性質

19

p 視覚野: 階層構造を持ち,階層ごとに視覚課題を解決p 初期視覚野: 狭い受容野,単純な特徴抽出

単純型細胞,複雑型細胞の存在p ⾼次視覚野: 広い受容野,中程度に複雑な特徴に選択的

[Felleman+91, DiCarlo+12, Kruger+13]

In summary, in this paper we want to argue that deephierarchies are an appropriate concept to achieve a general,robust, and versatile computer vision system. Even moreimportantly, we want to present relevant insights about thehierarchical organization of the primate visual system forcomputer vision scientists in an accessible way. We areaware that some of our abstractions are rather crude fromthe neurophysiological point of view and that we have leftout important details of the processes occurring at thedifferent levels,2 but we hope that such abstractions and theholistic picture given in this paper will help to fosterproductive exchange between the two fields.

The paper is organized as follows: In Section 2, we willtouch upon the aspects of the primate visual system that arerelevant to understand and model the processing hierarchy.The hierarchy in the primate vision system is then outlinedfrom two perspectives. In the horizontal perspective (Sec-tions 3, 4, 5, and 6), we give a description of processing inthe different areas indicated in Fig. 2. In Section 7, we give avertical perspective on the processing of different visualmodalities across the different areas. In Section 8, we thendraw conclusions for the modeling and learning of artificialvisual systems with deep hierarchical structures.

2 RELEVANT ASPECTS OF THE STRUCTURE OF THE

VISUAL CORTEX

In Section 2.1, we provide a basic overview of the deephierarchy in the primate visual system. In Section 2.2, we

also give an intuition of basic (mostly biological) terms usedin the following sections. Most data we present in thefollowing were obtained from macaque monkeys becausemost neurophysiological knowledge stems from investiga-tions on these.

While the primate brain consists of approximately100 cortical areas, the human brain probably contains asmany as 150 areas.3 There is a general consensus that theprimary sensory and motor areas in the monkey arehomologous to the corresponding areas in the human brain.Furthermore, several other cortical areas in the monkey havean identified homologue in the human (e.g., MT/MST,Anterior Intraparietal Area (AIP)). These areas can be viewedas landmarks that can be used to relate other cortical areas inthe human to the known areas in the monkey.

It should be mentioned that a visual cortical area consistsof six layers which do not correspond to the layers inartificial deep models. In general, layer 4 is the input layer,where the inputs from earlier stages arrive. The layersabove layer 4 (layers 2 and 3) typically send feedforwardconnections to downstream visual areas (e.g., from V1 toV2), whereas layers 5 and 6 send feedback projections toupstream areas or structures (e.g., from V1 to the LGN andthe Superior Colliculus—see also Section 3.2). At higherstages in the visual hierarchy, the connectivity is almostalways bidirectional. At present, detailed knowledge about

KRUGER ET AL.: DEEP HIERARCHIES IN THE PRIMATE VISUAL CORTEX: WHAT CAN WE LEARN FOR COMPUTER VISION? 1849

Fig. 2. Simplified hierarchical structure of the primate’s visual cortex and approximate area locations (summarized from [44]). Box and font sizes arerelative to the area size.

2. For example, a heterogeneity of computations has been reported,including summation, rectification, normalization [19], averaging, multi-plication, max-selection, winner-take all [149], and many others [89]. This isof great interest for addressing how neurons are interconnected and thesubject of much discussion but is out of the scope of the present paper.

3. A region in the cerebral cortex can be considered to be an area basedon four criteria: 1) cyto- and myeloarchitecture (the microscopic structure,cell types, appearance of the different layers, and so on), 2) the anatomicalconnectivity with other cortical and subcortical areas, 3) retinotopicorganization, and 4) functional properties of the neurons. In far extrastriatecortex, where retinotopic organization is weak or absent, the specificfunctional properties of the neurons are an important characteristic todistinguish a region from the neighboring regions.

V1

V2V4

PITCIT

Ventral PathwayAIT

TEO

TE

V1

V2

V3 VP

V4 MT VA/V4

PIT

AIT/CIT 8 TF

LIP MST DPL VIP

7a

V3A

V1

V4

V2

IT

Small receptive fieldEdge, Line segmentdetector

Large receptive fieldFace, Complex featuredetector

?

?

In summary, in this paper we want to argue that deephierarchies are an appropriate concept to achieve a general,robust, and versatile computer vision system. Even moreimportantly, we want to present relevant insights about thehierarchical organization of the primate visual system forcomputer vision scientists in an accessible way. We areaware that some of our abstractions are rather crude fromthe neurophysiological point of view and that we have leftout important details of the processes occurring at thedifferent levels,2 but we hope that such abstractions and theholistic picture given in this paper will help to fosterproductive exchange between the two fields.

The paper is organized as follows: In Section 2, we willtouch upon the aspects of the primate visual system that arerelevant to understand and model the processing hierarchy.The hierarchy in the primate vision system is then outlinedfrom two perspectives. In the horizontal perspective (Sec-tions 3, 4, 5, and 6), we give a description of processing inthe different areas indicated in Fig. 2. In Section 7, we give avertical perspective on the processing of different visualmodalities across the different areas. In Section 8, we thendraw conclusions for the modeling and learning of artificialvisual systems with deep hierarchical structures.

2 RELEVANT ASPECTS OF THE STRUCTURE OF THE

VISUAL CORTEX

In Section 2.1, we provide a basic overview of the deephierarchy in the primate visual system. In Section 2.2, we

also give an intuition of basic (mostly biological) terms usedin the following sections. Most data we present in thefollowing were obtained from macaque monkeys becausemost neurophysiological knowledge stems from investiga-tions on these.

While the primate brain consists of approximately100 cortical areas, the human brain probably contains asmany as 150 areas.3 There is a general consensus that theprimary sensory and motor areas in the monkey arehomologous to the corresponding areas in the human brain.Furthermore, several other cortical areas in the monkey havean identified homologue in the human (e.g., MT/MST,Anterior Intraparietal Area (AIP)). These areas can be viewedas landmarks that can be used to relate other cortical areas inthe human to the known areas in the monkey.

It should be mentioned that a visual cortical area consistsof six layers which do not correspond to the layers inartificial deep models. In general, layer 4 is the input layer,where the inputs from earlier stages arrive. The layersabove layer 4 (layers 2 and 3) typically send feedforwardconnections to downstream visual areas (e.g., from V1 toV2), whereas layers 5 and 6 send feedback projections toupstream areas or structures (e.g., from V1 to the LGN andthe Superior Colliculus—see also Section 3.2). At higherstages in the visual hierarchy, the connectivity is almostalways bidirectional. At present, detailed knowledge about

KRUGER ET AL.: DEEP HIERARCHIES IN THE PRIMATE VISUAL CORTEX: WHAT CAN WE LEARN FOR COMPUTER VISION? 1849

Fig. 2. Simplified hierarchical structure of the primate’s visual cortex and approximate area locations (summarized from [44]). Box and font sizes arerelative to the area size.

2. For example, a heterogeneity of computations has been reported,including summation, rectification, normalization [19], averaging, multi-plication, max-selection, winner-take all [149], and many others [89]. This isof great interest for addressing how neurons are interconnected and thesubject of much discussion but is out of the scope of the present paper.

3. A region in the cerebral cortex can be considered to be an area basedon four criteria: 1) cyto- and myeloarchitecture (the microscopic structure,cell types, appearance of the different layers, and so on), 2) the anatomicalconnectivity with other cortical and subcortical areas, 3) retinotopicorganization, and 4) functional properties of the neurons. In far extrastriatecortex, where retinotopic organization is weak or absent, the specificfunctional properties of the neurons are an important characteristic todistinguish a region from the neighboring regions.

Page 20: 深層学習の進化と深化sita/forum/article/2019/...2019/03/08  · 2010年代頃のCV業界 部分特徴から組み合わせ特徴へ 15 p Bag of Words からの脱却 p 部分特徴の組み合わせ特徴量へ(Felzenswalb+10,

2019/03/08 IT/ISEC/WBS 研究会@電通⼤

http://ohzawa-lab.bpe.es.osaka-u.ac.jp/resources/text/KisokouKoukai2009/Ohzawa2009Koukai04.pdf

初期視覚野 (V1野) の受容野

20

p 1個の細胞の観えている範囲(受容野)は狭い→ 情報処理範囲の制限扱う表現を限定する

p 視覚野中の局所的な“エッジ” や “線分” 成分に反応

p 単純型細胞(simple cell)と複雑型細胞(complex cell)に⼤きく分けられる

2

ĉƻ�8ƙĵ�ǷPMC48�Ɖ7 5G�¹bp{d

QǬ´&C(�":-F�ɑɆ�KŽ3�MŘƞĉQǷ

PMƙĵ;G�x]f�:Ɣɀ4;�LC*R�Řƞĉ

8; 150ɇɅ:Řƞĉƻ��Lj9KN3�C(�500ɇ

ĝ:ŘľɃ�K 150ɇɅ:ƻ�870-:4(�K�¬

K�:Ɣɀ�ż�Û8ɑɆ4á03�C(�

� 6:J�7ƔɀƂɧ�á03�M:�Q¸Ư(M-

F8;��ĝ�ĝ:ƞĉľɃ�1CL�Ʌ�Ʌ:ƞĉƻ

��ǜ�ƔɀQƏľ8ljMȦɠ��LC(��1:ȣƓ

8ɘĦ7Ɂɂ;ĝ�:ľɃ:ŰɜɕQljM"54(�A

5R6 180ǻ8þ�ī$Qś1ȃȴĝǒ:Řɕ5�7L�

ĝ�:ŘÅľɃ8503:Řɕ;�Ƣ�8�MJ�8Æ

ǻ8&3 1~ƥǻ:ö�Ƞ�8ĜKN3�C(�":J�

7�ĝ�:ƞĉľɃ�ĤōČ8Ǔ&3ÌŰƨQś1ɰ�

5,:ĄQŰɜɕ5ğ=C(�Űɜɕ;ŘÅľɃ850

3;��P<¿»8½�N-ƈ$7ǃ4�M5��"5�4�C(�ŘÅľɃ:Űɜɕ:Ą;�ɑ

Ɇ�KĴŝ:Ȕɰ�C4:ÀǠ¾4�ȆǧDz7��Qś03�C(�Űɜɕ:ĄQĔN<�,:ľ

Ƀ�¶DžǤ8ÔCNM6:J�7Ą8ĽGɯ ȝ¦(M:��ɚlj4�C(�

� -5�<�Řƞĉƻ�:�Ʌ�Ʌ;ɑɆ8�MƞĉƶľɃ5��ůɳ:ľɃ�KŽ3�ŘƊ5�

�Ȕ:Ǥƛȯȵ8�MƞĉÂ:ľɃ8bp{dQ·&317�LC(��"NK:ƞĉƶľɃ:Ű

ɜɕ;ȋŻ:Ȅƛ£ă:ĮdžQ&3�C(�":-F�ƈ$7Ǥƛȯȵ8ɍM�Ĥ:d�jnQ�

ȄŜ8,:ŲL8�Mo�pkƕ:ȯȵ8��ōČQǯŠ(M5ĽGɯ ȝ¦&C(�ŘƊ:ľɃ

GA5R6Ȅɝ:ŰɜɕQś03�C(�Ĥ�Ǥƛȯȵ5��^ƕ:ŲȽȯȵ8éB(Ħ±;è8

Ȃ :4�Űɜɕƽǒ8�ɝ8ɍM�ĤQƋŪ&3G�ľɃ;��03ȝ¦&C*R�1CL�Ó

�Ą4`�n�dn�ɯ ȫ�3�7�5�ɑɆ:ľɃ;ɯ ȝ¦&C*R�

����¦: v v:~¯'t3"C?:� ��+7��·�¥:§:¨­��

� ǖȔ4Ľƃ8ŘƊ�K:ƞĉƙĵQŰ!ŭMɰ�Q�ŝŘÅɕ(V1)5ğ=C(�":ɰɕ8�M

ľɃ;�ɑɆHŘƊ4;Ħ±Dz.0-Ó�ōČ8;�CLȝ¦&C*R�V1 :ƞĉľɃ; 1960

Ȑĸ�ľɃ8J03�7MȆǮ:Æǻ4Ǫ Ƙ=-ƺƕ:ĤH�ǫƺƕ:ɍ�:ò»8J ȝ¦(

M"5��Ģ8s�|�ƐQŰƐ(MHubel5Wiesel5��ȋơ:°Èū8JLțĔ$NC&-�

":țĔǼƃ�K 1980Ȑ"OC4;�V1:ƞĉľɃ;ƺHWjcò»�Űɜɕ8ȍM5ȝ¦

(M�ƺ:ĒŽÙ�H�WjcĒŽÙ�5&3Ýȓ&3�M:4;7��5ǐ :ēìū�İ�C

&-�

� &�&�ĚŁ;":İ�;ęɉ8;ƫ& 7�0-5$N3�C(�,N; V1ľɃ:Űɜɕ:

� ��n�fq:�r~¯:�³²�

Page 21: 深層学習の進化と深化sita/forum/article/2019/...2019/03/08  · 2010年代頃のCV業界 部分特徴から組み合わせ特徴へ 15 p Bag of Words からの脱却 p 部分特徴の組み合わせ特徴量へ(Felzenswalb+10,

2019/03/08 IT/ISEC/WBS 研究会@電通⼤

初期視覚野の性質

21

p 線分やエッジなどの成分に反応l Simple cell: ⽅位,位相に敏感l Complex cell: 位相には許容的

V1

V2V4

PITCIT

Ventral PathwayAIT

TEO

TE

V1

V4

V2

IT

Small receptive fieldEdge, Line segmentdetector

Large receptive fieldFace, Complex featuredetector

?

?

Page 22: 深層学習の進化と深化sita/forum/article/2019/...2019/03/08  · 2010年代頃のCV業界 部分特徴から組み合わせ特徴へ 15 p Bag of Words からの脱却 p 部分特徴の組み合わせ特徴量へ(Felzenswalb+10,

2019/03/08 IT/ISEC/WBS 研究会@電通⼤

Hubel-Wiesel の階層仮説

22

p 単純型細胞の出⼒合成で,複雑型細胞は説明可能(Hubel & Wiesel 59)

Page 23: 深層学習の進化と深化sita/forum/article/2019/...2019/03/08  · 2010年代頃のCV業界 部分特徴から組み合わせ特徴へ 15 p Bag of Words からの脱却 p 部分特徴の組み合わせ特徴量へ(Felzenswalb+10,

2019/03/08 IT/ISEC/WBS 研究会@電通⼤

初期視覚野細胞の配置

p レチノトピーl 受容野が近い細胞は近隣に配置→秩序だった構造l 似たような特性をもつ細胞は近隣に配置されやすい

[本武 +17]

視覚刺激提⽰位置

初期視覚野の対応位置

光計測による応答特性

Page 24: 深層学習の進化と深化sita/forum/article/2019/...2019/03/08  · 2010年代頃のCV業界 部分特徴から組み合わせ特徴へ 15 p Bag of Words からの脱却 p 部分特徴の組み合わせ特徴量へ(Felzenswalb+10,

2019/03/08 IT/ISEC/WBS 研究会@電通⼤

⽣理学的な知⾒まとめ

24

https://grey.colorado.edu/CompCogNeuro/index.php/CCNBook/Perception

単純特徴 抽象特徴

単純型/複雑型細胞レチノトピー

機能

ハードウェアの実態

狭い受容野 広い受容野

Page 25: 深層学習の進化と深化sita/forum/article/2019/...2019/03/08  · 2010年代頃のCV業界 部分特徴から組み合わせ特徴へ 15 p Bag of Words からの脱却 p 部分特徴の組み合わせ特徴量へ(Felzenswalb+10,

2019/03/08 IT/ISEC/WBS 研究会@電通⼤

受容野構造

K

受容野構造のNNへの導⼊

25

p 受容野構造の導⼊→局所的な結合構造p 異なる受容野位置で同じ反応特性のものを集める

→重み共有構造(畳み込み演算で記述可)

全結合型

N

NL L

特徴マップ表現K

Page 26: 深層学習の進化と深化sita/forum/article/2019/...2019/03/08  · 2010年代頃のCV業界 部分特徴から組み合わせ特徴へ 15 p Bag of Words からの脱却 p 部分特徴の組み合わせ特徴量へ(Felzenswalb+10,

2019/03/08 IT/ISEC/WBS 研究会@電通⼤

CNNの動作原理

26

p 局所特徴抽出(畳み込み)+変形に対する不変性(プーリング)

S-cell (Conv.) Layer C-cell (Pool) Layer

Preferred feature

+ReLU 変調 +Sigmoid 変調

Page 27: 深層学習の進化と深化sita/forum/article/2019/...2019/03/08  · 2010年代頃のCV業界 部分特徴から組み合わせ特徴へ 15 p Bag of Words からの脱却 p 部分特徴の組み合わせ特徴量へ(Felzenswalb+10,

2019/03/08 IT/ISEC/WBS 研究会@電通⼤

CNNの動作イメージ(1)

27

p 局所特徴抽出(畳み込み)+変形に対する不変性(プーリング)

発明と発見のデジタル博物館よりhttp://dbnst.nii.ac.jp/pro/detail/498

Page 28: 深層学習の進化と深化sita/forum/article/2019/...2019/03/08  · 2010年代頃のCV業界 部分特徴から組み合わせ特徴へ 15 p Bag of Words からの脱却 p 部分特徴の組み合わせ特徴量へ(Felzenswalb+10,

2019/03/08 IT/ISEC/WBS 研究会@電通⼤

CNNの動作イメージ(2)p 局所特徴抽出(畳み込み)+変形に対する不変性(プーリング)

S-cell Layer(Conv. Layer)

C-cell Layer(Pool. Layer)

S-cell Layer(Conv. Layer)

C-cell Layer(Pool. Layer)

S-cell Layer(Conv. Layer)

C-cell Layer(Pool. Layer)

S-cell Layer(Conv. Layer)

C-cell Layer(Pool. Layer)

S-cell Layer(Conv. Layer)

C-cell Layer(Pool. Layer)

S-cell Layer(Conv. Layer)

C-cell Layer(Pool. Layer)

Page 29: 深層学習の進化と深化sita/forum/article/2019/...2019/03/08  · 2010年代頃のCV業界 部分特徴から組み合わせ特徴へ 15 p Bag of Words からの脱却 p 部分特徴の組み合わせ特徴量へ(Felzenswalb+10,

2019/03/08 IT/ISEC/WBS 研究会@電通⼤

顔認識タスクの思考実験 (2)

p CNN による顔認識タスク“福笑い” を例に考えてみる

https://happylilac.net/fukuwarai2.html

特徴の組み合わせの位置関係を保持しながら新たな特徴を抽出していく

Page 30: 深層学習の進化と深化sita/forum/article/2019/...2019/03/08  · 2010年代頃のCV業界 部分特徴から組み合わせ特徴へ 15 p Bag of Words からの脱却 p 部分特徴の組み合わせ特徴量へ(Felzenswalb+10,

2019/03/08 IT/ISEC/WBS 研究会@電通⼤

conv + pool

CNN 応⽤事例: ⼀般物体認識

30

p AlexNet: ILSVRC 2012 の勝者l ビルディングブロック: Conv + Pool が基本

p 1000 カテゴリ × 約1000枚の訓練画像

Krizhevsky et al. NIPS 2012

SIFT + FVs: 0.26 test err.DCNN: 0.16 test err.

Page 31: 深層学習の進化と深化sita/forum/article/2019/...2019/03/08  · 2010年代頃のCV業界 部分特徴から組み合わせ特徴へ 15 p Bag of Words からの脱却 p 部分特徴の組み合わせ特徴量へ(Felzenswalb+10,

2019/03/08 IT/ISEC/WBS 研究会@電通⼤

ディープラーニングの進化と深化

Page 32: 深層学習の進化と深化sita/forum/article/2019/...2019/03/08  · 2010年代頃のCV業界 部分特徴から組み合わせ特徴へ 15 p Bag of Words からの脱却 p 部分特徴の組み合わせ特徴量へ(Felzenswalb+10,

2019/03/08 IT/ISEC/WBS 研究会@電通⼤

28.00 26.00

16.0012.00

7.30 6.70 3.60 3.00 2.30 5.100

7.5

15

22.5

30

2010 2011 2012 2013 2014 2014 2015 2016 2017 Human

ILSVRC Classification Error rate

CNNの進化

32

p コンピュータビジョンの領域での進化p ILSVRC データを⽤いたベンチマーク

l ⼈間の識別精度を超えて進化p より複雑に,より深く進化

SENetResNet

Deep Learning era

AlexNet

ZFNet

VGG

SIFT+Fisher

GooglLeNetより深い階層へ

Page 33: 深層学習の進化と深化sita/forum/article/2019/...2019/03/08  · 2010年代頃のCV業界 部分特徴から組み合わせ特徴へ 15 p Bag of Words からの脱却 p 部分特徴の組み合わせ特徴量へ(Felzenswalb+10,

2019/03/08 IT/ISEC/WBS 研究会@電通⼤

VGGNet の概要

p VGG [Simonyan+14] 2014 ILSVRC 2nd winnerp ビルディングブロックは

conv + conv + poolp ⽐較的⼩さい受容野(3x3)で構成して学習を促進

http://www.robots.ox.ac.uk/~vgg/research/very_deep/

Page 34: 深層学習の進化と深化sita/forum/article/2019/...2019/03/08  · 2010年代頃のCV業界 部分特徴から組み合わせ特徴へ 15 p Bag of Words からの脱却 p 部分特徴の組み合わせ特徴量へ(Felzenswalb+10,

2019/03/08 IT/ISEC/WBS 研究会@電通⼤

GoogLeNet の概要

p GoogLeNet [Szgedy+14], 2014 ILSVRC winnerp Inception Module による構成構成

マルチスケールな受容野を持つ Conv 層とPooling 層の組み合わせ

p 計算量削減のため 1x1 conv 層で圧縮

Fei-Fei Li & Justin Johnson & Serena Yeung Lecture 9 - May 1, 2018Fei-Fei Li & Justin Johnson & Serena Yeung Lecture 9 - May 1, 201853

Inception module with dimension reduction

Case Study: GoogLeNet[Szegedy et al., 2014]

Naive Inception module

1x1 conv “bottleneck” layers

Fei-Fei Li & Justin Johnson & Serena Yeung Lecture 9 - May 1, 2018Fei-Fei Li & Justin Johnson & Serena Yeung Lecture 9 - May 1, 201853

Inception module with dimension reduction

Case Study: GoogLeNet[Szegedy et al., 2014]

Naive Inception module

1x1 conv “bottleneck” layers

Naïve Inception moduleCompressed Inception module

Inception module

Page 35: 深層学習の進化と深化sita/forum/article/2019/...2019/03/08  · 2010年代頃のCV業界 部分特徴から組み合わせ特徴へ 15 p Bag of Words からの脱却 p 部分特徴の組み合わせ特徴量へ(Felzenswalb+10,

2019/03/08 IT/ISEC/WBS 研究会@電通⼤

ResNet の概要

p ResNet [He+15], 2015 ILSVRC winnerl 線形応答ユニットとその差分(residual) を

分けてネットワーク構成→スキップコネクション

l 勾配消失が少なく,⾮常に深い階層(152層) で学習が可能

Fei-Fei Li & Justin Johnson & Serena Yeung Lecture 9 - May 1, 2018Fei-Fei Li & Justin Johnson & Serena Yeung Lecture 9 - May 1, 201864

Case Study: ResNet[He et al., 2015]

Very deep networks using residual connections

- 152-layer model for ImageNet- ILSVRC’15 classification winner

(3.57% top 5 error)- Swept all classification and

detection competitions in ILSVRC’15 and COCO’15!

..

.

relu

Residual block

Xidentity

F(x) + x

F(x)

relu

X

Fei-Fei Li & Justin Johnson & Serena Yeung Lecture 9 - May 1, 2018Fei-Fei Li & Justin Johnson & Serena Yeung Lecture 9 - May 1, 201864

Case Study: ResNet[He et al., 2015]

Very deep networks using residual connections

- 152-layer model for ImageNet- ILSVRC’15 classification winner

(3.57% top 5 error)- Swept all classification and

detection competitions in ILSVRC’15 and COCO’15!

..

.

relu

Residual block

Xidentity

F(x) + x

F(x)

relu

X

Page 36: 深層学習の進化と深化sita/forum/article/2019/...2019/03/08  · 2010年代頃のCV業界 部分特徴から組み合わせ特徴へ 15 p Bag of Words からの脱却 p 部分特徴の組み合わせ特徴量へ(Felzenswalb+10,

2019/03/08 IT/ISEC/WBS 研究会@電通⼤

医⽤画像認識課題への応⽤

Page 37: 深層学習の進化と深化sita/forum/article/2019/...2019/03/08  · 2010年代頃のCV業界 部分特徴から組み合わせ特徴へ 15 p Bag of Words からの脱却 p 部分特徴の組み合わせ特徴量へ(Felzenswalb+10,

2019/03/08 IT/ISEC/WBS 研究会@電通⼤

びまん性肺疾患とその肺CT画像概観

37

p 肺広範囲に病巣が広がる疾患の総称l 肺の線維化を引き起こすことによる呼吸不全

p 早期発⾒,加療が重要p Diffuse Lung Disease (DLD) パターンから分類したい

l 形状ではなく陰影パターン(テクスチャ)の識別

Normal Lungs IIP Lungs (HCM, GGO)

Page 38: 深層学習の進化と深化sita/forum/article/2019/...2019/03/08  · 2010年代頃のCV業界 部分特徴から組み合わせ特徴へ 15 p Bag of Words からの脱却 p 部分特徴の組み合わせ特徴量へ(Felzenswalb+10,

2019/03/08 IT/ISEC/WBS 研究会@電通⼤

パターン認識技術によるCADシステム

38

p DLD ROI (region of interest) パターン判別機構の確⽴p 従来⼿法: 局所特徴量と識別器の組みあわせ

[Gangeh+10][Sorensen+10][Xu+11]

p ⼤規模データセットは獲得しにくい症例数で102 オーダーが限度

CT img.

ROI (input)

Class candidate(output) “NOR” “CON” “GGO” “HCM” “NOD” “EMP”

Page 39: 深層学習の進化と深化sita/forum/article/2019/...2019/03/08  · 2010年代頃のCV業界 部分特徴から組み合わせ特徴へ 15 p Bag of Words からの脱却 p 部分特徴の組み合わせ特徴量へ(Felzenswalb+10,

2019/03/08 IT/ISEC/WBS 研究会@電通⼤

びまん性肺疾患データセット

39

Training Evaluation

Conolication(CON) 143(13patients) 26(14patients)

GGO 609(14patients) 46(14patients)

Reticular(RET) 210(8patients) 66(9patients)

Honeycomb(HCM) 282(10patients) 73(9patients)

Emphysema(EMP) 4406(10patients) 296(11patients)

Nodular(NOD) 762(9patients) 65(10patients)

Normal(NOR) 5371(11patients) 355(11patients)

Total 11783 927大阪大学医学部病院から提供

ROI サイズ = 32x32 [pixels] ~ 16 x 16 [mm2]

頑張ってROIサンプルを取り出しても 1.1×104個程度

Page 40: 深層学習の進化と深化sita/forum/article/2019/...2019/03/08  · 2010年代頃のCV業界 部分特徴から組み合わせ特徴へ 15 p Bag of Words からの脱却 p 部分特徴の組み合わせ特徴量へ(Felzenswalb+10,

2019/03/08 IT/ISEC/WBS 研究会@電通⼤

LeCun+95 Fukushima+98Fukushima+13 Krizhevsky+12 Simonyan+15 Ours

[Krizhevsky+12]

Data type Handwritten digits(MNIST)

Handwritten digits(ETL-1)

Natural images (ImageNet)

Natural images (ImageNet) DLD ROI

DB size 6×104 1.0×104 1.2×106 1.2×106 1.1×104

#layers 6 13 13 19 13

#weights 1.0×105 6.9×105 1.3×107 1.4×107 1.3×107

深層学習のパラメータ数とデータ数

40

p ⼀般に NN を訓練するには⼗分な数の学習データが必要

l モデルとしての複雑度が⾼い⾃由パラメータ 107 オーダー

l 深層モデルを⼗分に学習させるには⾃由パラメータの1/10 の学習データ必要[Bengio+14]

p 学習データセットをどのように確保するのか︖

Page 41: 深層学習の進化と深化sita/forum/article/2019/...2019/03/08  · 2010年代頃のCV業界 部分特徴から組み合わせ特徴へ 15 p Bag of Words からの脱却 p 部分特徴の組み合わせ特徴量へ(Felzenswalb+10,

2019/03/08 IT/ISEC/WBS 研究会@電通⼤

転移学習

p 転移学習 (Transfer Learning)l ⽬的とは違う問題で得た知識を転⽤するテクニック

p DCNNにおける転移学習l 特徴抽出の性能向上のため特徴抽出層を転⽤

識別層は新たに初期化しネットワーク全体を再学習

再学習

転用

特徴抽出層 識別層付替え

特徴抽出層 識別層固定再学習

特徴抽出層転用

特徴抽出層 識別層付替え識別層

Fine Tuning Feature-Extraction

Page 42: 深層学習の進化と深化sita/forum/article/2019/...2019/03/08  · 2010年代頃のCV業界 部分特徴から組み合わせ特徴へ 15 p Bag of Words からの脱却 p 部分特徴の組み合わせ特徴量へ(Felzenswalb+10,

2019/03/08 IT/ISEC/WBS 研究会@電通⼤

⼩規模 DB で DCNN を学習させるには︖

42

p 仮定したこと:[Shouno+15]l 画像は何らかの共通構造を持っていて,DCNN はそ

の構造を表現できそうl ⾃然画像はDLDパターンの構造表現に役⽴つかも

(特殊な画像は⼤⼈になってから学習)

Natural Images forfeature representation

“bicycle”

Teacher

Page 43: 深層学習の進化と深化sita/forum/article/2019/...2019/03/08  · 2010年代頃のCV業界 部分特徴から組み合わせ特徴へ 15 p Bag of Words からの脱却 p 部分特徴の組み合わせ特徴量へ(Felzenswalb+10,

2019/03/08 IT/ISEC/WBS 研究会@電通⼤

⼩規模 DB で DCNN を学習させるには︖

43

p 仮定したこと:[Shouno+15]l 画像は何らかの共通構造を持っていて,DCNN はそ

の構造を表現できそうl ⾃然画像はDLDパターンの構造表現に役⽴つかも

(特殊な画像は⼤⼈になってから学習)

DLD ROIs forfeature representation

“Honeycomb”Teacher

識別器部分を交換

Page 44: 深層学習の進化と深化sita/forum/article/2019/...2019/03/08  · 2010年代頃のCV業界 部分特徴から組み合わせ特徴へ 15 p Bag of Words からの脱却 p 部分特徴の組み合わせ特徴量へ(Felzenswalb+10,

2019/03/08 IT/ISEC/WBS 研究会@電通⼤

転移元は⾃然画像(だけ)でよいのか︖

p ⾃然画像を⽤いた転移学習[Shouno+15], [Gao+16]

l ⾃然画像を Source とした転移学習によってびまん性配疾患陰影の識別を⾏い,性能向上を図る

l Source と Target が⼤きく異なっているので本当に良いかは疑問 [Azizpour+16]

p 2段階転移学習

モノの⾒⽅を⾃然画像によって予め学習

1st stage Adaptation

専⾨性の⾼い知識獲得

Scopeを絞った特徴表現の学習

2nd stage

Page 45: 深層学習の進化と深化sita/forum/article/2019/...2019/03/08  · 2010年代頃のCV業界 部分特徴から組み合わせ特徴へ 15 p Bag of Words からの脱却 p 部分特徴の組み合わせ特徴量へ(Felzenswalb+10,

2019/03/08 IT/ISEC/WBS 研究会@電通⼤

Source Domain の選択

p ⾃然画像: ISLVRC2012 datasetl ⼤規模画像データセット ImageNet のサブセット

l ⼀般物体 1,000 クラスの写真: 1.2×106

p テクスチャ画像: CUReT databasel Utrecht Univ. が提供するテクスチャ画像セット

l 61クラスの材料表⾯写真 1.4×104 枚

Tiger cat Pot-au-feu Camping tent Bulldog

Page 46: 深層学習の進化と深化sita/forum/article/2019/...2019/03/08  · 2010年代頃のCV業界 部分特徴から組み合わせ特徴へ 15 p Bag of Words からの脱却 p 部分特徴の組み合わせ特徴量へ(Felzenswalb+10,

2019/03/08 IT/ISEC/WBS 研究会@電通⼤

⽐較対象

p 学習過程の異なる4つのモデルの⽐較(1) CT画像のみで学習(2) テクスチャ画像 → CT画像(3) ⾃然画像 → CT画像(4) ⾃然画像→テクスチャ画像→CT画像

転移学習なし

1段階転移学習

2段階転移学習

CT画像

計 12,888枚

肺断⾯の胸部X線CT

(※識別対象)

⾃然画像

計 1,200,000枚

ILSVRC2012

テクスチャ画像

計 14,406枚

CUReT texture DB

Page 47: 深層学習の進化と深化sita/forum/article/2019/...2019/03/08  · 2010年代頃のCV業界 部分特徴から組み合わせ特徴へ 15 p Bag of Words からの脱却 p 部分特徴の組み合わせ特徴量へ(Felzenswalb+10,

2019/03/08 IT/ISEC/WBS 研究会@電通⼤

識別性能評価

p 2段階転移学習(4)は全ての性能指標で最も⾼い性能p テクスチャ画像からの転移(2) は,(1) よりも性能悪化

転移学習 なし(1)

テクスチャ(2)

⾃然画像(3)

2段階(4)

Accuracy 0.9277 0.9201 0.9558 0.9601

Recall 0.9583 0.9412 0.9484 0.9739

Precision 0.9590 0.9417 0.9471 0.9719

F1-Score 0.9583 0.9411 0.9470 0.9724

Source domain選択の重要性を⽰唆

Page 48: 深層学習の進化と深化sita/forum/article/2019/...2019/03/08  · 2010年代頃のCV業界 部分特徴から組み合わせ特徴へ 15 p Bag of Words からの脱却 p 部分特徴の組み合わせ特徴量へ(Felzenswalb+10,

2019/03/08 IT/ISEC/WBS 研究会@電通⼤

頑健性評価

p 学習データ数をコントロールし,性能劣化の度合いを調べる

20%

40%

100%

⽐較

学習データ

(1) (2) (3) (4)

80%

40%

100%

Accuracy

20%

ü (4) は最も頑健ü 減少⽐が⼤きいと(1) が逆転

Page 49: 深層学習の進化と深化sita/forum/article/2019/...2019/03/08  · 2010年代頃のCV業界 部分特徴から組み合わせ特徴へ 15 p Bag of Words からの脱却 p 部分特徴の組み合わせ特徴量へ(Felzenswalb+10,

2019/03/08 IT/ISEC/WBS 研究会@電通⼤

特徴可視化による解釈

p 転移学習によって識別性能が向上する理由の探索l 識別ブロックに⼊⼒される特徴表現の変化に着⽬l 転移元ドメインによる特徴表現の変化を観察し,

CNNにおける転移学習のメカニズムの解釈を試みる

Page 50: 深層学習の進化と深化sita/forum/article/2019/...2019/03/08  · 2010年代頃のCV業界 部分特徴から組み合わせ特徴へ 15 p Bag of Words からの脱却 p 部分特徴の組み合わせ特徴量へ(Felzenswalb+10,

2019/03/08 IT/ISEC/WBS 研究会@電通⼤

DeSaliNet

p [Mahendaran+16] による特徴表現の可視化l どの⼊⼒成分が特徴表

現に寄与するかを⼊⼒空間の画像として再現

l CNNを⼀つの合成関数とし,要素ごとの(近似)逆変換で復元

𝑓 = 𝑔* ∘ 𝑔, ∘ ⋯ ∘ 𝑔.⇕

𝑓0 = 𝑔.0 ∘ ⋯ ∘ 𝑔,

0 ∘ 𝑔*0

Page 51: 深層学習の進化と深化sita/forum/article/2019/...2019/03/08  · 2010年代頃のCV業界 部分特徴から組み合わせ特徴へ 15 p Bag of Words からの脱却 p 部分特徴の組み合わせ特徴量へ(Felzenswalb+10,

2019/03/08 IT/ISEC/WBS 研究会@電通⼤

DeSaliNet による可視化結果

p ⾃然画像からの転移(3) は⼊⼒のエッジ構造に反応p テクスチャを学習したモデル(2) は模様に活性p (4) は双⽅の特徴に活性を⽰す

⼊⼒ (1) (2)(3) (4)

Page 52: 深層学習の進化と深化sita/forum/article/2019/...2019/03/08  · 2010年代頃のCV業界 部分特徴から組み合わせ特徴へ 15 p Bag of Words からの脱却 p 部分特徴の組み合わせ特徴量へ(Felzenswalb+10,

2019/03/08 IT/ISEC/WBS 研究会@電通⼤

まとめ

Page 53: 深層学習の進化と深化sita/forum/article/2019/...2019/03/08  · 2010年代頃のCV業界 部分特徴から組み合わせ特徴へ 15 p Bag of Words からの脱却 p 部分特徴の組み合わせ特徴量へ(Felzenswalb+10,

2019/03/08 IT/ISEC/WBS 研究会@電通⼤

まとめ︓その1

p 深層学習は現代AIの中核技術

l 深層学習とは第3世代のニューラルネット技術.CNN は,画像処理におけるデファクトスタンダード

l CNN は視覚システムからヒントを得ており,ブロック構造はV1野のモデル化.基本構造として,CNNは畳み込みフィルタをパラメータとし,局所的な特徴の組み合わせを統合し,徐々に⼤域的な特徴を抽出していく.

l 特定のタスクの枠組みにおいて,深層学習は無類の強さを発揮する.ただし演繹的な推論をしているわけではなく,⼊出⼒関係のマッピングをデータから獲得する枠組みであることには注意が必要.

l 深層化とブロックの複雑化により,現在も性能は向上中

Page 54: 深層学習の進化と深化sita/forum/article/2019/...2019/03/08  · 2010年代頃のCV業界 部分特徴から組み合わせ特徴へ 15 p Bag of Words からの脱却 p 部分特徴の組み合わせ特徴量へ(Felzenswalb+10,

2019/03/08 IT/ISEC/WBS 研究会@電通⼤

まとめ: その2

p 医⽤画像タスクにおいてボトルネックは取得データ数.⼗分な性能を発揮するには⼗分なデータセットを⽤意する必要がある.先端領域に進むほどデータ取得⽅法の確⽴が重要な課題になる.l ⼀つの解決⼿法として転移学習による解決⼿法を紹介

した.l 特に,説明はできないけど,その道のプロが “観たらわ

かる” 的な課題には,有効かもしれない.