4 ma motif - Kyoto Ugoto.kuicr.kyoto-u.ac.jp/lecture/4_ma_motif.pdfマルチプルアライメント...

49
2016年度「バイオインフォマティクス」 講義予定表 1. 配列アライメント(五斗) 2. データベースサーチ(五斗) 3. 機能・構造予測(五斗) 4. 配列モチーフ・隠れマルコフモデル(五斗) 5. アセンブリとマッピング(Blanc-Mathieu) 6. 分子進化(緒方) 7. 分子系統解析(緒方) 8. 分子系統解析【演習】(Blanc-Mathieu) 9. 遺伝子予測(緒方) 10. 機能アノテーション・比較ゲノム(緒方) 11. システムズバイオロジー(五斗) 12. メタゲノム解析(緒方) 13. メタゲノム解析(緒方) http://goto.kuicr.kyoto-u.ac.jp/lecture/bioinfo.html 1

Transcript of 4 ma motif - Kyoto Ugoto.kuicr.kyoto-u.ac.jp/lecture/4_ma_motif.pdfマルチプルアライメント...

Page 1: 4 ma motif - Kyoto Ugoto.kuicr.kyoto-u.ac.jp/lecture/4_ma_motif.pdfマルチプルアライメント 3 マルチプルアライメントとは ! 多数の配列を並べて同時に比較

2016年度「バイオインフォマティクス」講義予定表

1.  配列アライメント(五斗) 2.  データベースサーチ(五斗) 3.  機能・構造予測(五斗) 4.  配列モチーフ・隠れマルコフモデル(五斗) 5.  アセンブリとマッピング(Blanc-Mathieu) 6.  分子進化(緒方) 7.  分子系統解析(緒方) 8.  分子系統解析【演習】(Blanc-Mathieu) 9.  遺伝子予測(緒方) 10. 機能アノテーション・比較ゲノム(緒方) 11. システムズバイオロジー(五斗) 12. メタゲノム解析(緒方) 13. メタゲノム解析(緒方)

http://goto.kuicr.kyoto-u.ac.jp/lecture/bioinfo.html 1

Page 2: 4 ma motif - Kyoto Ugoto.kuicr.kyoto-u.ac.jp/lecture/4_ma_motif.pdfマルチプルアライメント 3 マルチプルアライメントとは ! 多数の配列を並べて同時に比較

本日のトピック

2

マルチプルアライメント n  多数の配列を並べて同時に比較

配列モチーフ:パターン表現 n  共通の機能を持つ遺伝子で保存されている領域

配列モチーフ:プロファイル表現

Page 3: 4 ma motif - Kyoto Ugoto.kuicr.kyoto-u.ac.jp/lecture/4_ma_motif.pdfマルチプルアライメント 3 マルチプルアライメントとは ! 多数の配列を並べて同時に比較

マルチプルアライメント

3

マルチプルアライメントとは n  多数の配列を並べて同時に比較 マルチプルアライメントが利用される局面 n  特定配列グループの機能的に重要な部位の同定

w ファミリー共通のモチーフ探索 n  配列相互の進化的関連の解析

w 系統樹解析 n  その他

w  RNAやタンパク質の高次構造予測 w 相同遺伝子のフラグメントからPCRプライマーを設計 進化的な関係があることが予め分かっている 多数の配列間の関係を調べる方法�

Page 4: 4 ma motif - Kyoto Ugoto.kuicr.kyoto-u.ac.jp/lecture/4_ma_motif.pdfマルチプルアライメント 3 マルチプルアライメントとは ! 多数の配列を並べて同時に比較

マルチプルアライメントの例

4

E.coli EEVCARQIDAVLKT----------------QGAAAFEGAVIAYEPVWAIGTGKSATPAQA H.influenzae EEVCARQIDAVINA----------------LGVEAFNGAVIAYEPIWAIGTGKSATPAQA X.fastidiosa EAILRAQLEPVLSL----------------VGSAGFARAVVAYEPIWAIGTGRTATPDQA Buchnera EQVIQRQLNLILKN----------------LGTSAFKNIIIAYEPIWAIGTGVSADPEHV S.aureus NDVVGEQVKKAVAG----------------LSEDQLKSVVIAYEPIWAIGTGKSSTSEDA A.thaliana MDVVAAQTKAIADR----------------VTN--WSNVVIAYEPVWAIGTGKVASPAQA H.pylori FKAVKEFLSEQLEN----------------IDLN-YPNLVVAYEPIWAIGTKKSASLEDI T.whipplei LSRFRSVLSHLKAISDKKHSIGYALGSKTHFLDSDQLHMLVAYEPSSAINSGNCANSGDI . ::**** **.: : . E.coli QAVHKFIRDHIAKVDAN-IAEQVIIQYGGSVNASNAAELFAQPDIDGALVGGASLKADAF H.influenzae QAVHAFIRGHIAAKSQA-VAEQVIIQYGGSVNDANAAELFTQPDIDGALVGGASLKAPAF X.fastidiosa QAVHAFIRGEVAKADAR-IADSLPILYGGSVKPDNASELFSQPDVDGGLVGGASLVAEDF Buchnera QLIHVFIKNYILKYSSI-NRNDIIIQYGGSINHTNVKKFIEQPDINGLLIGNSSLSAKEF S.aureus NEMCAFVRQTIADLSSKEVSEATRIQYGGSVKPNNIKEYMAQTDIDGALVGGASLK---V A.thaliana QEVHDELRKWLAKNVSADVAATTRIIYGGSVNGGNCKELGGQADVDGFLVGGASLKP-EF H.pylori YLTHGFLKQILN--------QKTPLLYGGSVNTQNAKEILGIDSVDGLLIGSASWELENF T.whipplei VRMAAAIKDIVN----------VRVLYGGGVNLFNASAVFNEDLLDGILVGRASLNASDF :: : : ***.:: * ::* *:* :* .

トリオースリン酸イソメラーゼ(TIM)の一部

Page 5: 4 ma motif - Kyoto Ugoto.kuicr.kyoto-u.ac.jp/lecture/4_ma_motif.pdfマルチプルアライメント 3 マルチプルアライメントとは ! 多数の配列を並べて同時に比較

FASTA のアライメントでは

5

10 20 30 40 50 60 eco:b3 MRHPLVMGNWKLNGSRHMVHELVSNL-----RKELAGVAGCAVAIAPPEMYIDMAKREAEGSHIMLGAQN :: :.. ::::.: . . ....:. : ::. .: :: :: . . . .:.: .: :::: sav:SA MRTPIIAGNWKMNKTVQEAKDFVNALPTLPDSKEVESVI-CAPAIQLDALTTAVKEGKAQGLEI--GAQN 10 20 30 40 50 60 70 80 90 100 110 120 130 eco:b3 VDLNLSGAFTGETSAAMLKDIGAQYIIIGHSERRTYHKESDELIAKKFAVLKEQGLTPVLCIGETEAENE . .. .:::::::: . : :.:..:..::::::: .:.:: : :: .. ..:.::..:.:::. : : sav:SA TYFEDNGAFTGETSPVALADLGVKYVVIGHSERRELFHETDEEINKKAHAIFKHGMTPIICVGETDEERE 70 80 90 100 110 120 130 140 150 160 170 180 190 200 eco:b3 AGKTEEVCARQIDAVLKTQGAAAFEGAVIAYEPVWAIGTGKSATPAQAQAVHKFIRDHIAKVDAN-IAEQ .::...: ..:. .. . ....::::::.::::::::.: .:. . :.:. :: .... ..: sav:SA SGKANDVVGEQVKKAVAGLSEDQLKSVVIAYEPIWAIGTGKSSTSEDANEMCAFVRQTIADLSSKEVSEA 140 150 160 170 180 190 200 210 220 230 240 250 eco:b3 VIIQYGGSVNASNAAELFAQPDIDGALVGGASLKADAFAVIVKAAEAAKQA . :::::::. .: : .:: :::::::::::::.. :. ....:. sav:SA TRIQYGGSVKPNNIKEYMAQTDIDGALVGGASLKVEDFVQLLEGAK 210 220 230 240 250

大腸菌 (eco) と黄色ブドウ球菌 (sav) の TIM

Page 6: 4 ma motif - Kyoto Ugoto.kuicr.kyoto-u.ac.jp/lecture/4_ma_motif.pdfマルチプルアライメント 3 マルチプルアライメントとは ! 多数の配列を並べて同時に比較

マルチプルアライメント法

6

ダイナミックプログラミングの多次元化 n  n本の配列であれば、n次元空間でDPをかける

w 時間的空間的制約が厳しい 累進法 (Progressive method) n  逐次的にアライメントの数を増やす n  例:ClustalW http://www.genome.jp/tools/clustalw 反復改善法 (Iterative method) n  2つのグループに分けてグループ間のアライメント n  乱数でグループ分けをし直してアライメントし、評価値を改善していく

n  例:PRRN http://www.genome.jp/tools/prrn/

Page 7: 4 ma motif - Kyoto Ugoto.kuicr.kyoto-u.ac.jp/lecture/4_ma_motif.pdfマルチプルアライメント 3 マルチプルアライメントとは ! 多数の配列を並べて同時に比較

累進法

7

すべての組み合わせのペアについて、ペアワイズアライメントで距離行列を作成する。 距離行列からガイドツリーを作成する。 n  配列の類似度をもとにクラスタ解析 ガイドツリーの枝の順番にアライメントを行う  → ツリーベース法ともいう。 n  近いものから順にペアワイズアライメント n  配列と配列,配列とグループ,グループとグループ n  評価関数はグループ間でのすべての配列ペアの類似度の総和 高速だが最初に発生したエラーは残ってしまう

Page 8: 4 ma motif - Kyoto Ugoto.kuicr.kyoto-u.ac.jp/lecture/4_ma_motif.pdfマルチプルアライメント 3 マルチプルアライメントとは ! 多数の配列を並べて同時に比較

距離行列とクラスタ解析

8

階層型クラスタリング n  近いものから順に組み合わせる方法。

n  近さの基準の例 w  最短距離法:クラスタ間の距離に要素間の距離のうち最短のものを使う

w  最長距離法:クラスタ間の距離に要素間の距離のうち最長のものを使う

w  UPGMA:クラスタ間の距離に要素間の距離の平均を使う

w  近隣結合法:全体の距離が最短になるような組み合わせを使う

距離行列の例:  A, B, C, D, E 5本のアミノ酸配列すべての組み合わせで  配列の近さを計算(例えばスコアの逆数を使う)

Page 9: 4 ma motif - Kyoto Ugoto.kuicr.kyoto-u.ac.jp/lecture/4_ma_motif.pdfマルチプルアライメント 3 マルチプルアライメントとは ! 多数の配列を並べて同時に比較

�� A,B� C� D,E�

A,B� �� �� ��

C� 3� �� ��

D,E� 5� 2� ��

最短距離法

9

A  B  C  D  E 1 1

2 3

A B C D EAB 1C 3 3D 5 5 2E 6 7 5 1

Page 10: 4 ma motif - Kyoto Ugoto.kuicr.kyoto-u.ac.jp/lecture/4_ma_motif.pdfマルチプルアライメント 3 マルチプルアライメントとは ! 多数の配列を並べて同時に比較

�� A,B� C� D,E�

A,B� �� �� ��

C� 3� �� ��

D,E� 7� 5� ��

最長距離法

10

A B C D E

1 1

7 3

A B C D EAB 1C 3 3D 5 5 2E 6 7 5 1

ガイドツリー

Page 11: 4 ma motif - Kyoto Ugoto.kuicr.kyoto-u.ac.jp/lecture/4_ma_motif.pdfマルチプルアライメント 3 マルチプルアライメントとは ! 多数の配列を並べて同時に比較

ガイドツリーに基づいて段階的にアライメント

11

LRRARTASA LRGARAAAE

LRR-ARTASAL-RGARAAAE

DWRGRTASGLWRDGRGALQ LWRGGRGAAQ

LWRDGRGALQLWRGGRGAAQ

LWRDGRGALQLWRGGRGAAQDWR-GRTASG

Page 12: 4 ma motif - Kyoto Ugoto.kuicr.kyoto-u.ac.jp/lecture/4_ma_motif.pdfマルチプルアライメント 3 マルチプルアライメントとは ! 多数の配列を並べて同時に比較

クラスタ間のアライメント

12

L W R D G R G A L QL W R G G R G A A QD W R - G R T A S G

L R R - A R T A S A

L - R G A R A A A E

DP で計算する

4 * S(L,L) + 2 * S(L,D)

スコア関数  クラスタ間のアミノ酸スコアの組み合わせ  (Sum of Pairs)

ClustalWでは Sum of Pairs を重み付きで計算する

Page 13: 4 ma motif - Kyoto Ugoto.kuicr.kyoto-u.ac.jp/lecture/4_ma_motif.pdfマルチプルアライメント 3 マルチプルアライメントとは ! 多数の配列を並べて同時に比較

アライメントスコア

13

全体のスコアは各列のスコアの和で計算する ∑S(mi)

各列のスコア計算 SP (Sum of Pairs) スコア S(mi)=∑k<l s(mi

k,mil) (mi

k = i列, k行目の文字)

最小エントロピースコア S(mi) = -∑cia log pia���(cia= i 列における a の出現回数,� pia = i 列における a の生起確率)

Page 14: 4 ma motif - Kyoto Ugoto.kuicr.kyoto-u.ac.jp/lecture/4_ma_motif.pdfマルチプルアライメント 3 マルチプルアライメントとは ! 多数の配列を並べて同時に比較

練習問題 4-1

14

クラスタ間のアライメント

BLOSUM50 BLOck SUbstitution Matrices

Ala 1Arg -5 7Asn -5 -1 7Asp -5 -2 2 8Cys -5 -4 -2 -4 13Gln -5 1 0 0 -3 7Glu -5 0 0 2 -3 2 6Gly -5 -3 0 -1 -3 -2 -3 8His -5 0 1 -1 -3 1 0 -2 10Ile -5 -4 -3 -4 -2 -3 -4 -4 -4 5Leu -5 -3 -4 -4 -2 -2 -3 -4 -3 2 5Lys -5 3 0 -1 -3 2 1 -2 0 -3 -3 6Met -5 -2 -2 -4 -2 0 -2 -3 -1 2 3 -2 7Phe -5 -3 -4 -5 -2 -4 -3 -4 -1 0 1 -4 0 8Pro -5 -3 -2 -1 -4 -1 -1 -2 -2 -3 -4 -1 -3 -4 10Ser -5 -1 1 0 -1 0 -1 0 -1 -3 -3 0 -2 -3 -1 5Thr -5 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 2 5Trp -5 -3 -4 -5 -5 -1 -3 -3 -3 -3 -2 -3 -1 1 -4 -4 -3 15Tyr -5 -1 -2 -3 -3 -1 -2 -3 2 -1 -1 -2 0 4 -3 -2 -2 2 8Val -5 -3 -3 -4 -1 -3 -3 -4 -4 4 1 -3 1 -1 -3 -2 0 -3 -1 5 A R N D C Q E G H I L K M F P S T W Y V

Page 15: 4 ma motif - Kyoto Ugoto.kuicr.kyoto-u.ac.jp/lecture/4_ma_motif.pdfマルチプルアライメント 3 マルチプルアライメントとは ! 多数の配列を並べて同時に比較

反復改善法

15

複数配列をランダムに二つのグループに分け,グループ間のアライメントを行う グループの再結合を行い,新たなランダム分割を行う 評価関数の値 (Weighted Sum of Pairs) が一定値に収束するまで繰り返す PRRN では Doubly Nested Randamized iterative method を用いる n  DNR: 二重反復改善法 n  アライメント→系統樹→重みづけ→反復改善法 多少時間はかかるが累進法よりも良い結果が得られることが多い

Page 16: 4 ma motif - Kyoto Ugoto.kuicr.kyoto-u.ac.jp/lecture/4_ma_motif.pdfマルチプルアライメント 3 マルチプルアライメントとは ! 多数の配列を並べて同時に比較

その他のマルチプルアライメントプログラム

16

MAFFT n  フーリエ変換を用いて高速化。 n  累進法と反復改善法の両方に対応。 n  http://www.genome.jp/tools/mafft/ T-COFFEE n  累進法 n  http://tcoffee.vital-it.ch/cgi-bin/Tcoffee/tcoffee_cgi/index.cgi ProbCons n  反復改善法 n  http://probcons.stanford.edu/ MUSCLE n  累進法+反復改善法

Page 17: 4 ma motif - Kyoto Ugoto.kuicr.kyoto-u.ac.jp/lecture/4_ma_motif.pdfマルチプルアライメント 3 マルチプルアライメントとは ! 多数の配列を並べて同時に比較

本日のトピック

17

マルチプルアライメント n  多数の配列を並べて同時に比較

配列モチーフ:パターン表現 n  共通の機能を持つ遺伝子で保存されている領域

配列モチーフ:プロファイル表現

Page 18: 4 ma motif - Kyoto Ugoto.kuicr.kyoto-u.ac.jp/lecture/4_ma_motif.pdfマルチプルアライメント 3 マルチプルアライメントとは ! 多数の配列を並べて同時に比較

配列モチーフ

18

機能ドメイン(機能部位) n  機能的,構造的に重要な部位 は進化の過程で保存される傾向がある

n  進化的に保存された ドメイン

配列モチーフ n  機能ドメイン中の特徴的な 保存配列パターン n  マルチプルアライメント から抽出

配列モチーフの表現方法 n  パターン n  プロファイル

Page 19: 4 ma motif - Kyoto Ugoto.kuicr.kyoto-u.ac.jp/lecture/4_ma_motif.pdfマルチプルアライメント 3 マルチプルアライメントとは ! 多数の配列を並べて同時に比較

機能ドメインの例

19

タンパク質 n  ペプチド鎖切断部位 n  リン酸や糖鎖などの修飾部位 n  シグナル配列 n  DNA結合部位、リガンド結合部位

RNA n  スプライス部位:GU/AGルール n  翻訳開始点

DNA n  複製開始点 n  プロモーター

ENCODE�

Page 20: 4 ma motif - Kyoto Ugoto.kuicr.kyoto-u.ac.jp/lecture/4_ma_motif.pdfマルチプルアライメント 3 マルチプルアライメントとは ! 多数の配列を並べて同時に比較

機能ドメインの例

20

亜鉛フィンガー DNA 結合部位 n  PROSITE パターンの例�n  C-x(2,4)-C-x(3)-[LIVMFYWC]-x(8)-H-x(3,5)-H.

http://www.genome.jp/dbget-bin/www_bget?prosdoc:PDOC00028

Page 21: 4 ma motif - Kyoto Ugoto.kuicr.kyoto-u.ac.jp/lecture/4_ma_motif.pdfマルチプルアライメント 3 マルチプルアライメントとは ! 多数の配列を並べて同時に比較

ドメインからモチーフの抽出

21

E.coli EEVCARQIDAVLKT----------------QGAAAFEGAVIAYEPVWAIGTGKSATPAQAH.influenzae EEVCARQIDAVINA----------------LGVEAFNGAVIAYEPIWAIGTGKSATPAQAX.fastidiosa EAILRAQLEPVLSL----------------VGSAGFARAVVAYEPIWAIGTGRTATPDQABuchnera EQVIQRQLNLILKN----------------LGTSAFKNIIIAYEPIWAIGTGVSADPEHVS.aureus NDVVGEQVKKAVAG----------------LSEDQLKSVVIAYEPIWAIGTGKSSTSEDAA.thaliana MDVVAAQTKAIADR----------------VTN--WSNVVIAYEPVWAIGTGKVASPAQAH.pylori FKAVKEFLSEQLEN----------------IDLN-YPNLVVAYEPIWAIGTKKSASLEDIT.whipplei LSRFRSVLSHLKAISDKKHSIGYALGSKTHFLDSDQLHMLVAYEPSSAINSGNCANSGDI . ::**** **.: : .

E.coli QAVHKFIRDHIAKVDAN-IAEQVIIQYGGSVNASNAAELFAQPDIDGALVGGASLKADAFH.influenzae QAVHAFIRGHIAAKSQA-VAEQVIIQYGGSVNDANAAELFTQPDIDGALVGGASLKAPAFX.fastidiosa QAVHAFIRGEVAKADAR-IADSLPILYGGSVKPDNASELFSQPDVDGGLVGGASLVAEDFBuchnera QLIHVFIKNYILKYSSI-NRNDIIIQYGGSINHTNVKKFIEQPDINGLLIGNSSLSAKEFS.aureus NEMCAFVRQTIADLSSKEVSEATRIQYGGSVKPNNIKEYMAQTDIDGALVGGASLK---VA.thaliana QEVHDELRKWLAKNVSADVAATTRIIYGGSVNGGNCKELGGQADVDGFLVGGASLKP-EFH.pylori YLTHGFLKQILN--------QKTPLLYGGSVNTQNAKEILGIDSVDGLLIGSASWELENFT.whipplei VRMAAAIKDIVN----------VRVLYGGGVNLFNASAVFNEDLLDGILVGRASLNASDF :: : : ***.:: * ::* *:* :* .

Triose phosphate isomerase (TIM) の活性部位 マルチプルアライメント

A-Y-E-P-[IVS]-[WS]-A-I-[GN]-[TS]-[GK] �配列パターン

データベースに登録されている配列パターンは[AVG]-[YLV]-E-P-[LIVMEPKST]-[WYEAS]-[SAL]-[IV]-[GN]-[TEKDVS]-[GKNAD]

�http://www.genome.jp/dbget-bin/www_bget?prosite:PS00171

Page 22: 4 ma motif - Kyoto Ugoto.kuicr.kyoto-u.ac.jp/lecture/4_ma_motif.pdfマルチプルアライメント 3 マルチプルアライメントとは ! 多数の配列を並べて同時に比較

配列パターン

22

保存配列をアミノ酸のパターンとして表現 n  正規表現による表現方法

w 文字列の集合を一つの文字列で表現する方法 n  例

w  [AV]-Y-E-P-[LIVM]-W-[SA]-I-G-T-[GK]w  C-x(2,4)-C-x(3)-[LIVMFYWC]-x(8)-H-x(3,5)-H

n  x: 任意のアミノ酸 n  x(2,4): 任意のアミノ酸が2~4個続く n  []: この中のアミノ酸のどれか n  {}: この中のアミノ酸以外のどれか

見た目に分かりやすいが、アミノ酸の出現頻度情報は失われてしまう

Page 23: 4 ma motif - Kyoto Ugoto.kuicr.kyoto-u.ac.jp/lecture/4_ma_motif.pdfマルチプルアライメント 3 マルチプルアライメントとは ! 多数の配列を並べて同時に比較

練習問題 4-2

23

マルチプルアライメントからのモチーフ(パターン)抽出

Page 24: 4 ma motif - Kyoto Ugoto.kuicr.kyoto-u.ac.jp/lecture/4_ma_motif.pdfマルチプルアライメント 3 マルチプルアライメントとは ! 多数の配列を並べて同時に比較

PROSITE でのパターン表現

24

POSITIVE: 機能部位に当該パターンを持つ配列の数 FALSE_POS: 機能部位を持たないが、パターンを持つ配列の数 FALSE_NEG: 機能部位を持つが、パターンを持たない配列の数�

n 機能部位の説明 n パターン n パターンを持つ配列のID

n 機能部位を持つ配列のID

n 短いパターンは偽陽性(False positive) の問題がある

Page 25: 4 ma motif - Kyoto Ugoto.kuicr.kyoto-u.ac.jp/lecture/4_ma_motif.pdfマルチプルアライメント 3 マルチプルアライメントとは ! 多数の配列を並べて同時に比較

PROSITE でのパターン表現

25

疑陽性が多いパターンは、SKIP-FLAG で区別できるようにしている

Page 26: 4 ma motif - Kyoto Ugoto.kuicr.kyoto-u.ac.jp/lecture/4_ma_motif.pdfマルチプルアライメント 3 マルチプルアライメントとは ! 多数の配列を並べて同時に比較

本日のトピック

26

マルチプルアライメント n  多数の配列を並べて同時に比較

配列モチーフ:パターン表現 n  共通の機能を持つ遺伝子で保存されている領域

配列モチーフ:プロファイル表現

Page 27: 4 ma motif - Kyoto Ugoto.kuicr.kyoto-u.ac.jp/lecture/4_ma_motif.pdfマルチプルアライメント 3 マルチプルアライメントとは ! 多数の配列を並べて同時に比較

頻度情報の導入

27

E.coli EEVCARQIDAVLKT----------------QGAAAFEGAVIAYEPVWAIGTGKSATPAQAH.influenzae EEVCARQIDAVINA----------------LGVEAFNGAVIAYEPIWAIGTGKSATPAQAX.fastidiosa EAILRAQLEPVLSL----------------VGSAGFARAVVAYEPIWAIGTGRTATPDQABuchnera EQVIQRQLNLILKN----------------LGTSAFKNIIIAYEPIWAIGTGVSADPEHVS.aureus NDVVGEQVKKAVAG----------------LSEDQLKSVVIAYEPIWAIGTGKSSTSEDAA.thaliana MDVVAAQTKAIADR----------------VTN--WSNVVIAYEPVWAIGTGKVASPAQAH.pylori FKAVKEFLSEQLEN----------------IDLN-YPNLVVAYEPIWAIGTKKSASLEDIT.whipplei LSRFRSVLSHLKAISDKKHSIGYALGSKTHFLDSDQLHMLVAYEPSSAINSGNCANSGDI . ::**** **.: : .

E.coli QAVHKFIRDHIAKVDAN-IAEQVIIQYGGSVNASNAAELFAQPDIDGALVGGASLKADAFH.influenzae QAVHAFIRGHIAAKSQA-VAEQVIIQYGGSVNDANAAELFTQPDIDGALVGGASLKAPAFX.fastidiosa QAVHAFIRGEVAKADAR-IADSLPILYGGSVKPDNASELFSQPDVDGGLVGGASLVAEDFBuchnera QLIHVFIKNYILKYSSI-NRNDIIIQYGGSINHTNVKKFIEQPDINGLLIGNSSLSAKEFS.aureus NEMCAFVRQTIADLSSKEVSEATRIQYGGSVKPNNIKEYMAQTDIDGALVGGASLK---VA.thaliana QEVHDELRKWLAKNVSADVAATTRIIYGGSVNGGNCKELGGQADVDGFLVGGASLKP-EFH.pylori YLTHGFLKQILN--------QKTPLLYGGSVNTQNAKEILGIDSVDGLLIGSASWELENFT.whipplei VRMAAAIKDIVN----------VRVLYGGGVNLFNASAVFNEDLLDGILVGRASLNASDF :: : : ***.:: * ::* *:* :* .

Triose phosphate isomerase (TIM) の活性部位

V: 2/8 I: 5/8 S: 1/8 + pseudocount

A-Y-E-P-[IVS]-[WS]-A-I-[GN]-[TS]-[GK] �

Page 28: 4 ma motif - Kyoto Ugoto.kuicr.kyoto-u.ac.jp/lecture/4_ma_motif.pdfマルチプルアライメント 3 マルチプルアライメントとは ! 多数の配列を並べて同時に比較

配列プロファイル

28

マルチプルアライメントの各残基位置のアミノ酸出現頻度をカウント Pseudocount などを導入して正規化 表現方法 n  位置特異的スコアマトリックス(PSSM: Position Specific Score Matrix または SSSM: Site Specific Score Matrix)

n  隠れマルコフモデル n  ブロック

Page 29: 4 ma motif - Kyoto Ugoto.kuicr.kyoto-u.ac.jp/lecture/4_ma_motif.pdfマルチプルアライメント 3 マルチプルアライメントとは ! 多数の配列を並べて同時に比較

配列プロファイル:位置特異的スコアマトリックス

29

位置 i におけるアミノ酸 j の出現頻度

n  n(i,j) : 位置 i においてアミノ酸 j が出現した個数 n  N : アライメントに含まれる配列の本数

位置 i におけるアミノ酸 j のスコア

n  P(j) : アライメントを構築している配列全体またはデータベース全体から得られるアミノ酸組成

Page 30: 4 ma motif - Kyoto Ugoto.kuicr.kyoto-u.ac.jp/lecture/4_ma_motif.pdfマルチプルアライメント 3 マルチプルアライメントとは ! 多数の配列を並べて同時に比較

配列プロファイル:位置特異的スコアマトリックス

30

PROSITE Profile

SY: コンセンサス M: マトリックス

SY�位置1 2 3 4 :

Page 31: 4 ma motif - Kyoto Ugoto.kuicr.kyoto-u.ac.jp/lecture/4_ma_motif.pdfマルチプルアライメント 3 マルチプルアライメントとは ! 多数の配列を並べて同時に比較

配列プロファイル:隠れマルコフモデル

31

m0 m1 m2 m3 m4 m5

i0 i1 i2 i3 i4

d1 d2 d3 d4

隠れマルコフモデル(HMM: Hidden Markov Model)  1次のマルコフモデル+隠れ状態確率  プロファイルの長さを決めてモデル化

マッチ状態

挿入状態

欠失状態

Page 32: 4 ma motif - Kyoto Ugoto.kuicr.kyoto-u.ac.jp/lecture/4_ma_motif.pdfマルチプルアライメント 3 マルチプルアライメントとは ! 多数の配列を並べて同時に比較

配列プロファイル:隠れマルコフモデル

32

隠れマルコフモデル ≒ 有限オートマトン+確率 ・状態とその間をつなぐ遷移確率がある。 ・状態から出力される記号は確率的に決まる。

出力記号集合Σ 状態集合 S={1,2,…,n} 遷移確率(状態 k → 状態 l )ak,l 出力確率 ek(b)

3

2

1

0.4

0.6 A: 0.2 B: 0.8

0.3

0.5

0.7 0.5

A: 0.1 B: 0.9

A: 0.9 B: 0.1

Page 33: 4 ma motif - Kyoto Ugoto.kuicr.kyoto-u.ac.jp/lecture/4_ma_motif.pdfマルチプルアライメント 3 マルチプルアライメントとは ! 多数の配列を並べて同時に比較

配列プロファイル:隠れマルコフモデル

33

隠れマルコフモデルのアルゴリズム

Viterbi アルゴリズム 出力記号列から状態列を推定 BABBABBが観測された時どの経路を通った可能性が一番高いか?

3

2

1

0.4

0.6 A: 0.2 B: 0.8

0.3

0.5

0.7 0.5

A: 0.1 B: 0.9

A: 0.9 B: 0.1

BABBABB� 1312312

Page 34: 4 ma motif - Kyoto Ugoto.kuicr.kyoto-u.ac.jp/lecture/4_ma_motif.pdfマルチプルアライメント 3 マルチプルアライメントとは ! 多数の配列を並べて同時に比較

隠れマルコフモデルの Viterbi アルゴリズム

34

3

2

1

0.4

0.6 A: 0.2 B: 0.8

0.3

0.5

0.7 0.5

A: 0.1 B: 0.9

A: 0.9 B: 0.1

BABBABB� 1312312

v(l,i) の定義:状態 l において、配列x1,x2,…xi が観測されている時の最大確率

今、BABBABB が観測されたとして、v(3,2) は状態3の時点で BA が観測されている最大確率

Page 35: 4 ma motif - Kyoto Ugoto.kuicr.kyoto-u.ac.jp/lecture/4_ma_motif.pdfマルチプルアライメント 3 マルチプルアライメントとは ! 多数の配列を並べて同時に比較

隠れマルコフモデルの Viterbi アルゴリズム

35

k1

l

el(xi)

v(l,i) を与える直前の状態を kmax、そこまでの確率を pmax とすると、

v(l,i) = pmax × akmax,l × el(xi) 各々の k に対して、ak,l は一定

k2

kmax

k4

v(l,i)�

ekmax(xi-1) akmax,l�

pmax = v(kmax,i-1)�

状態 l につながる直前の状態 k�

Page 36: 4 ma motif - Kyoto Ugoto.kuicr.kyoto-u.ac.jp/lecture/4_ma_motif.pdfマルチプルアライメント 3 マルチプルアライメントとは ! 多数の配列を並べて同時に比較

隠れマルコフモデルの Viterbi アルゴリズム

36

v(l,i) を与える直前の状態を kmax、そこまでの確率を pmax とすると、

v(l,i) = pmax × akmax,l × el(xi) 各々の k に対して、ak,l は一定

v(l, i) =0 if i = 0 and l ≠ 01 if i = 0 and l = 0el (xi )maxk (v(k, i−1)× ak,l )

$

%&

'&

各状態 l と i 番目について、最大スコア v(l,i) と方角 ptr(l,i) を記録しておく(ダイナミックプログラミング)。�

Page 37: 4 ma motif - Kyoto Ugoto.kuicr.kyoto-u.ac.jp/lecture/4_ma_motif.pdfマルチプルアライメント 3 マルチプルアライメントとは ! 多数の配列を並べて同時に比較

隠れマルコフモデルの Viterbi アルゴリズム

37

3

2

1

0.4

0.6 A: 0.2 B: 0.8

0.3

0.5

0.7 0.5

A: 0.1 B: 0.9

A: 0.9 B: 0.1

BABB� ? 0

1.0

Page 38: 4 ma motif - Kyoto Ugoto.kuicr.kyoto-u.ac.jp/lecture/4_ma_motif.pdfマルチプルアライメント 3 マルチプルアライメントとは ! 多数の配列を並べて同時に比較

Viterbi のテーブル v(l,i)

38

0 � 1 � 2 � 3 � 4 �

0 1 �

1 � 0.8� 0.1728� 0.046656�

2 � 0.032� 0.1944� 0.062208�

3 � 0.432� 0.0224� 0.013608�

状態 l

配列の i�番目

0 � 1 � 2 � 3 � 4 �

0 1 � 0 � 3 � 2 �

2 � 1 � 3 � 1 �

3 � 1 � 2 � 2 �

状態 l

配列の i�番目Viterbi のテーブル ptr(l,i)

Page 39: 4 ma motif - Kyoto Ugoto.kuicr.kyoto-u.ac.jp/lecture/4_ma_motif.pdfマルチプルアライメント 3 マルチプルアライメントとは ! 多数の配列を並べて同時に比較

隠れマルコフモデルの Viterbi アルゴリズム

39

3

2

1

0.4

0.6 A: 0.2 B: 0.8

0.3

0.5

0.7 0.5

A: 0.1 B: 0.9

A: 0.9 B: 0.1

BABB� 1312 0

1.0

0 � 1 � 2 � 3 � 4 �

0 1 �

1 � 0.8� 0.1728� 0.046656�

2 � 0.032� 0.1944� 0.062208�

3 � 0.432� 0.0224� 0.013608�

状態 l

配列の i�番目

Page 40: 4 ma motif - Kyoto Ugoto.kuicr.kyoto-u.ac.jp/lecture/4_ma_motif.pdfマルチプルアライメント 3 マルチプルアライメントとは ! 多数の配列を並べて同時に比較

練習問題 4-3

40

Viterbi アルゴリズムを用いた配列とHMMの適合評価

Page 41: 4 ma motif - Kyoto Ugoto.kuicr.kyoto-u.ac.jp/lecture/4_ma_motif.pdfマルチプルアライメント 3 マルチプルアライメントとは ! 多数の配列を並べて同時に比較

配列プロファイル:隠れマルコフモデル

41

隠れマルコフモデルのアルゴリズム

Baum-Welch アルゴリズム EM (Expectation-Maximization) アルゴリズム 出力記号列からパラメータを推定 学習

3

2

1

0.4

0.6 A: 0.2 B: 0.8

0.3

0.5

0.7 0.5

A: 0.1 B: 0.9

A: 0.9 B: 0.1 3

2 1

BABBABB BBAABBABB ABBABBB BABAABB�

Page 42: 4 ma motif - Kyoto Ugoto.kuicr.kyoto-u.ac.jp/lecture/4_ma_motif.pdfマルチプルアライメント 3 マルチプルアライメントとは ! 多数の配列を並べて同時に比較

配列プロファイル:隠れマルコフモデル

42

m0 m1 m2 m3 m4 m5

i0 i1 i2 i3 i4

d1 d2 d3 d4

プロファイル HMM   ファミリーごとにプロファイルの長さを決めてモデル化

マッチ状態

挿入状態

欠失状態

Page 43: 4 ma motif - Kyoto Ugoto.kuicr.kyoto-u.ac.jp/lecture/4_ma_motif.pdfマルチプルアライメント 3 マルチプルアライメントとは ! 多数の配列を並べて同時に比較

配列プロファイル:隠れマルコフモデル

43

隠れマルコフモデルによるプロファイル作成とモチーフ検索

ファミリー1 (マルチプル  アライメント1)�

HMM1�EM

問い合わせ配列�

Viterbi

スコア1: 20.0

ファミリー2 (マルチプル  アライメント2)�

HMM2�EM Viterbi

スコア2: 18.5

Page 44: 4 ma motif - Kyoto Ugoto.kuicr.kyoto-u.ac.jp/lecture/4_ma_motif.pdfマルチプルアライメント 3 マルチプルアライメントとは ! 多数の配列を並べて同時に比較

配列モチーフデータベース

44

配列モチーフの表現方法による分類 n  配列パターン

w PROSITE Pattern n  配列プロファイル:位置特異的スコアマトリックス

w PROSITE Profile, NCBI-CDD n  配列プロファイル:隠れマルコフモデル

w PFAM n  その他

w BLOCKS, PRODOM n  統合

w InterPro(, NCBI-CDD)

Page 45: 4 ma motif - Kyoto Ugoto.kuicr.kyoto-u.ac.jp/lecture/4_ma_motif.pdfマルチプルアライメント 3 マルチプルアライメントとは ! 多数の配列を並べて同時に比較

PFAM での配列プロファイル表現

45

Page 46: 4 ma motif - Kyoto Ugoto.kuicr.kyoto-u.ac.jp/lecture/4_ma_motif.pdfマルチプルアライメント 3 マルチプルアライメントとは ! 多数の配列を並べて同時に比較

InterPro による配列モチーフデータベースの統合

46

Page 47: 4 ma motif - Kyoto Ugoto.kuicr.kyoto-u.ac.jp/lecture/4_ma_motif.pdfマルチプルアライメント 3 マルチプルアライメントとは ! 多数の配列を並べて同時に比較

InterPro による配列モチーフデータベースの統合

47

Page 48: 4 ma motif - Kyoto Ugoto.kuicr.kyoto-u.ac.jp/lecture/4_ma_motif.pdfマルチプルアライメント 3 マルチプルアライメントとは ! 多数の配列を並べて同時に比較

ホモロジー検索とモチーフ検索

48

配列データベース モチーフ辞書 知識獲得

質問配列 質問配列

類似配列 生物学的 意味解釈

専門知識

専門知識

ホモロジー検索

モチーフ検索

Page 49: 4 ma motif - Kyoto Ugoto.kuicr.kyoto-u.ac.jp/lecture/4_ma_motif.pdfマルチプルアライメント 3 マルチプルアライメントとは ! 多数の配列を並べて同時に比較

関連ウェブサイト

49

モチーフデータベース n  キーワード検索

w  http://www.genome.jp/dbget-bin/www_bfind?motifdic w  http://www.ebi.ac.uk/interpro/

n  塩基配列 w 転写因子結合サイトなど:EPD, TransFac, JASPER

モチーフ検索 n  http://www.genome.jp/tools/motif/

w 質問配列が既知のモチーフを持つか w 質問モチーフを持つ配列を配列データベースから探す w マルチプルアライメントからプロファイルを作る

n  PSI-BLAST: Position Specific Iterated BLAST w  http://www.ncbi.nlm.nih.gov/BLAST/