algorithm
bioinformatics
alignment

バイオインフォマティクス-ゲノム配列から機能解析へ-第5章多重配列アラインメント(5.4まで)-

More than 3 years have passed since last update.


イントロダクション-多重配列アラインメントとは-

・3つ以上の配列に対して、同じ文字が1つの列にできるだけ多く集まる最適な並べ方を探る

・アラインメントの難しさは配列間の類似度によって変わる(類似度が低いと難しい)


5.1,5.2 多重配列アラインメントの利用

多重配列アラインメントによって配列のアラインメントの関連性を明らかにし、それによって機能的・進化的な関係があるかどうかを調べることが可能

また、多重配列アラインメントにより判明した似た配列同士を並べ、それを調べることで系統解析を行うこともできる


5.3大域的および局所的多重配列アラインメン卜

・多重配列アラインメントには配列の全域を含む大域的アラインメントと一部領域からなる局所的アラインメントが存在

・保守的な配列は進化の過程で保存されることが多いので大域を用いると良い

・一方大事なところのみ保存され、その他の領域は別の新しい機能に変化するケースは局所的を利用すると良い


5.4大域的多重配列アラインメン卜-近似法の種類-

ペアワイズアラインメントでのアラインメント方法をそのまま用いると計算量が多いので、近似法と組み合わせてアラインメントを行うと良い。以下に主な近似法を示す

累進法: 最も似た配列どうしのアラインメントから始めて, あまり似ていない配列を順に加えていく方法

反復改善法: まず初期アラインメントを求め、その結果を用いて徐々に改良を繰り返す方法


5.4.2 MSAプログラム

2つの配列におけるダイナミックプログラミング法は、その時点までの最適のアラインメントに対応するスコアを要素とする2次元行列を作成することでアラインメントを行っていたが、それを多重配列アラインメント用に拡張したものがMSAプログラムである

しかしながらこれは近似法を導入していないため計算量が多く、限られた数の配列しか一度にアラインメントできない

これを改良した改良版MSAは、多重配列アラインメントは各1対の配列問のペアワイズアラインメントを内包するという事から多重配列アラインメントの最適解の取りうる範囲を予想し、それ以外の部分は計算を行わないことで計算量を抑える仕組みになっている


5.4.2 MSAでのアラインメント評価方法

・多重配列アラインメントから導けるペアワイズアラインメントのスコアの和を全体のスコアとする(SPスコア)

・タンパク質配列での重み付けはPAM250配列とギャップペナルティで行う

・ある2 配列の組が全体のアラインメントにどの程度寄与したかを測る目安として ε値を用いる

 →ε値は大きいほど多重配列アラインメントへの寄与が小さい

・δ はεの総和として定義され、配列間の相異の程度を表す。よく似た配列ではεもδも小さくなる


5.4.3多重配列アラインメントのよさを測る尺度

SPスコアを算出する際に、多重配列アラインメントに向いていないオッズ表(BLOSSUM62等)が存在する

評価尺度を算出する方法は多く存在するので、各アラインメントにあったものを選ぶことが重要


5.4.4累進法による多重配列アラインメント

累進法とは、DP法を計算の核とし,最も類縁性の高い配列の組から始め, より遠縁の配列または配列のグループを次々にこれにつけ加えていくことにより多重配列アラインメントを完成させる方法

累進法を用いたプログラムの代表例

・CLUSTALW

実際の進化の様子を反映した現実的なアラインメントを得られる。系統樹の作成・表示もできる。

・PILEUP

広く利用されているが、CLUSTALWに比べ見劣りする面あり

・T-COFFEE

CLUSTALWより既知アラインメントを再現するのに優れるが、遅い。


5.4.4 累進法の問題点

・最終結果が初期のペアワイズアラインメントに決定的に依存する

→最初のアラインメントが遠いと間違いが増え、それがその後のアラインメントに伝搬

・ある配列の集合にふさわしい置換行列やギャップペナルティをどう選択すればよいか


5.4.5反復演算を用いた多重配列アラインメント

反復改善法とは、配列をグループに分割し再び大域的アラインメントとして再構築する過程を繰り返すことにより, 累進法の問題点を回避しようとする方法


5.4.7多重配列アラインメントのためのその他のプログラム

配列間の間の類似性を求めた後、配列を類縁性の高いグループに分割したり、系統樹として分類する際にいろいろなやり方が存在する

以下に4つのおおまかな方法と、それを用いたプログラムを示す

1.グループへの分割を行う際にグループごとにコンセンサスを作成し、次にグループ間のアラインメントを実行

→MULTAL

2.系統樹を用いる際は配列をその間の距離に従って順序付ける

→CLUSTALW,MS-DOS

3.すべての組み合わせの配列対間で一連のドッドマトリックスを作成し、それを掛けあわせることでノイズを減らし配列アラインメントの基点のモチーフを見つけ出す

4.多重配列アラインメントと系統樹作成を同時に行う。これによって系統分析を用いて多重配列アラインメントを改良できる

→TREEALIGN


5.4.8大域的多重配列アラインメントプログラムの性能

・最近のプログラム比較によるとT-COFFEEが反復改善法を若干上回った

・配列の一致度が低い場合はDIALIGNの制度が高く、一致度が高い場合はT-COFFEEが最良

・CLUSTALWは配列の一致度が高い大域的アラインメントのときのみ他のプログラムと同等の精度


まとめ

・多重配列アラインメントはペアワイズアラインメントよりも計算量が大幅に増える

近似法を組み合わせることで計算量を減らす

・近似法をどれにするかによって実行性能が異なり、アラインメントする配列に合ったプログラムを選ぶことが重要