局所配列・大域配列

大域的配列

2つの配列の全体を比較し、たがいに類似している領域を可能なかぎり長く、そしてギャップをできるだけ短くするように整列させるもの。Neeedleman-Wunschのアルゴリズムが基本。Needleman-Wunschのアルゴリズムは、動的計画法によってあらかじめ与えられた一致・不一致、ギャップのスコアを元に整列配列のスコアを計算し、もっとも高いスコアになるように2本の配列をペアワイズで整列させるアルゴリズム。整列のすべての可能性を探索し、その中から最適な整列を得ることができる。


$ needle

Needleman-Wunsch global alignment of two sequences
Input sequence: refseqp:NP_203124
Second sequence(s): refseqp:NP_001018443
Gap opening penalty [10.0]:    #Enter
Gap extension penalty [0.5]:   #Enter
Output alignment [np_203124.needle]:  #Enter

#生成したファイル"np_203124.needle"をのぞいてみる♪♪

$ cat np_203124.needle
########################################
# Program: needle
# Rundate: Sun 13 Feb 2011 01:05:46
# Commandline: needle
#    -asequence refseqp:NP_203124
#    -bsequence refseqp:NP_001018443
# Align_format: srspair
# Report_file: np_203124.needle
########################################

#=======================================
#
# Aligned_sequences: 2
# 1: NP_203124
# 2: NP_001018443
# Matrix: EBLOSUM62
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 345
# Identity:     204/345 (59.1%)
# Similarity:   241/345 (69.9%)
# Gaps:          38/345 (11.0%)
# Score: 1040.0
#
#
#=======================================

NP_203124          1 MDCVGWPPGRKWHLEKNTSCGGSSGICASYVTQMADDQGCIEEQGVEDS-     49
                                              :|......:..:...:||.  :||
NP_001018443       1 -------------------------MCRVDKEALTSENEVLEED--QDSY     23

NP_203124         50 ANEDSVDAKPDRSSFVPSLFSKKKKN---VTMRSIKTTRDRV--PTYQYN     94
                     ..||..||||||.... .||...|||   :..:....:..|:  ||:||.
NP_001018443      24 GEEDVTDAKPDRKGRF-RLFGNFKKNDGKLQEKGESESHYRIVSPTFQYK     72

NP_203124         95 MNFEKLGKCIIINNKNFDKVTGMGVRNGTDKDAEALFKCFRSLGFDVIVY    144
                     |:.:::||||||||||||:.|||.||||||:||..|||||:||||||.||
NP_001018443      73 MSHQRVGKCIIINNKNFDEKTGMNVRNGTDRDAGELFKCFKSLGFDVAVY    122

NP_203124        145 NDCSCAKMQDLLKKASEEDHTNAACFACILLSHGEENVIYGKDGVTPIKD    194
                     ||.:|..|:.|||..|||||::::||||||||||||.:|||.||..|||.
NP_001018443     123 NDQTCRNMERLLKAVSEEDHSDSSCFACILLSHGEEGMIYGTDGAMPIKT    172

NP_203124        195 LTAHFRGDRCKTLLEKPKLFFIQACRGTELDDGIQADSGPIND---TDAN    241
                     :|:.|:||.||:|:.||||||||||||:|.|||:|.||||.||   ||||
NP_001018443     173 MTSLFKGDVCKSLVGKPKLFFIQACRGSEFDDGVQTDSGPPNDTIETDAN    222

NP_203124        242 PRYKIPVEADFLFAYSTVPGYYSWRSPGRGSWFVQALCSILEEHGKDLEI    291
                     ||:||||||||||||||||||||||:||||||||||||::|.|.||.|||
NP_001018443     223 PRHKIPVEADFLFAYSTVPGYYSWRNPGRGSWFVQALCNVLSEFGKQLEI    272

NP_203124        292 MQILTRVNDRVARHFESQSDDPHFHEKKQIPCVVSMLTKELYFSQ    336
                     ||||||||..||..|||.|:||.|.||||||||||||||||||:
NP_001018443     273 MQILTRVNYMVATSFESWSEDPRFSEKKQIPCVVSMLTKELYFN-    316


#---------------------------------------
#---------------------------------------



次に、局所的整列をさせてみる。
局所的整列とは、配列の局所的に類似している領域を探し、整列させるもの、局所整列をさせるためにはSmith-Watermanのアルゴリズムが基本になる。これは上のNeedleman-Wunschのアルゴリズムの特殊な形である。Smith-Watermanのアルゴリズムでは局所的な類似性を見て整列させたいので、スコアがマイナスになるとその時点でスコアを0にしてしまう。Needleman-Wunschのアルゴリズムではは率の端から端までを整列させたが、Smith-Watermanのアルゴリズムでは、もっともスコアが高い部分から整列させる。



$ water
Smith-Waterman local alignment of sequences
Input sequence: refseqp:NP_203124
Second sequence(s): refseqp:NP_001018443
Gap opening penalty [10.0]:      #Enter
Gap extension penalty [0.5]:     #Enter
Output alignment [np_203124.water]:  #Enter


#できたファイルをのぞいてみる。

$ cat np_203124.water
########################################
# Program: needle
# Rundate: Sun 13 Feb 2011 01:05:46
# Commandline: needle
#    -asequence refseqp:NP_203124
#    -bsequence refseqp:NP_001018443
# Align_format: srspair
# Report_file: np_203124.needle
########################################

#=======================================
#
# Aligned_sequences: 2
# 1: NP_203124
# 2: NP_001018443
# Matrix: EBLOSUM62
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 345
# Identity:     204/345 (59.1%)
# Similarity:   241/345 (69.9%)
# Gaps:          38/345 (11.0%)
# Score: 1040.0
#
#
#=======================================

NP_203124          1 MDCVGWPPGRKWHLEKNTSCGGSSGICASYVTQMADDQGCIEEQGVEDS-     49
                                              :|......:..:...:||.  :||
NP_001018443       1 -------------------------MCRVDKEALTSENEVLEED--QDSY     23

NP_203124         50 ANEDSVDAKPDRSSFVPSLFSKKKKN---VTMRSIKTTRDRV--PTYQYN     94
                     ..||..||||||.... .||...|||   :..:....:..|:  ||:||.
NP_001018443      24 GEEDVTDAKPDRKGRF-RLFGNFKKNDGKLQEKGESESHYRIVSPTFQYK     72

NP_203124         95 MNFEKLGKCIIINNKNFDKVTGMGVRNGTDKDAEALFKCFRSLGFDVIVY    144
                     |:.:::||||||||||||:.|||.||||||:||..|||||:||||||.||
NP_001018443      73 MSHQRVGKCIIINNKNFDEKTGMNVRNGTDRDAGELFKCFKSLGFDVAVY    122

NP_203124        145 NDCSCAKMQDLLKKASEEDHTNAACFACILLSHGEENVIYGKDGVTPIKD    194
                     ||.:|..|:.|||..|||||::::||||||||||||.:|||.||..|||.
NP_001018443     123 NDQTCRNMERLLKAVSEEDHSDSSCFACILLSHGEEGMIYGTDGAMPIKT    172

NP_203124        195 LTAHFRGDRCKTLLEKPKLFFIQACRGTELDDGIQADSGPIND---TDAN    241
                     :|:.|:||.||:|:.||||||||||||:|.|||:|.||||.||   ||||
NP_001018443     173 MTSLFKGDVCKSLVGKPKLFFIQACRGSEFDDGVQTDSGPPNDTIETDAN    222

NP_203124        242 PRYKIPVEADFLFAYSTVPGYYSWRSPGRGSWFVQALCSILEEHGKDLEI    291
                     ||:||||||||||||||||||||||:||||||||||||::|.|.||.|||
NP_001018443     223 PRHKIPVEADFLFAYSTVPGYYSWRNPGRGSWFVQALCNVLSEFGKQLEI    272

NP_203124        292 MQILTRVNDRVARHFESQSDDPHFHEKKQIPCVVSMLTKELYFSQ    336
                     ||||||||..||..|||.|:||.|.||||||||||||||||||:
NP_001018443     273 MQILTRVNYMVATSFESWSEDPRFSEKKQIPCVVSMLTKELYFN-    316


#---------------------------------------
#---------------------------------------






今回のアライメントでは結果が一緒であったが、一般的に、waterでやると、無理して配列しないため、アライメントの対処から外れてしむ配列が生じがちである。
今回は、vertebrate同士の比較的近いアミノ酸配列に対してのアライメントだったからよかったけどね。