#3.4 配列アラインメントにおけるスコア行列とギャップペナルティの使用方法
・一致、不一致、置換、挿入、欠失に対するスコアを含むスコア化システムの選択によってアラインメントに影響が出る
・DNA配列やタンパク質配列間の挿入、欠失を計上する方法が必要
#3.4.1 アミノ酸置換行列
・アミノ酸置換行列とは?
・アミノ酸置換の相対頻度をスコア化し行列であらわしたもの
・アミノ酸を行列上部と側面に配列
・行列上のそれぞれの位置をスコアで埋める
・スコアはどうやって決める?
・あるアミノ酸が他のアミノ酸と対をなす頻度を反映
・アミノ酸A→Bに変わる確率はB→Aに変わる逆の確率と仮定
・置換の可能性は2つのアミノ酸の出現率の席とそれらの化学的、物理的類似性に依存
#3.4.2 Dayhoffのアミノ酸置換行列(PAM行列)
・PAM行列
特徴:比較的短い進化時間の間に観察されるアミノ酸置換をさらに長い進化時間の間に観察されるアミノ酸に外挿できる
それぞれのアミノ酸がその他のアミノ酸に変化し、合計で1%の変化の割合になるときの相対的な割合を示すPAM1行列を作成し、N乗することで遷移行列が得られる
#3.4.3 ブロックアミノ酸置換行列(BLOSUM)
・BLOSUM
特徴:大きなデータセットに基づいた作製法でより発散した配列群から始めてより遠縁の配列中にみつかる置換からスコア行列を作る
・ブロックとは?
・BLOSUMの行列の値を決定するためのもの
・多数のアミノ酸パターンに基づく
・類縁タンパク質の500以上のタンパク質ファミリーのシグネチャーとしての機能をはたす
#3.4.4 PAMとBLOSUMアミノ酸置換行列の比較
PAM
<進化モデルに基づく>
進化的な起源の跡をたどるように設計
BLOSUM
<データベースに基づく>
保存されたドメインを見つけるように設計
#3.4.5 核酸のPAMスコア行列
核酸スコア行列
DNA配列のアラインメントを評価するもの
核酸のスコア行列の選択に関して
・非常によく似た配列を比較するならPAM値の低い行列を用いるのがよい
・偏りのあるモデルは、遠縁の配列をアラインメントする際に一律の変異モデルよりも得られる情報がかなり多くなるので、この目的に使用される
・長い進化距離におけるスコア行列で、アラインメントで同じオッズスコアを達成するためにはより長い配列が必要
#3.4.6 ギャップペナルティ
アラインメントの末端のギャップは重要な構成要素
ギャップペナルティの選択について
・相同でほぼ同じ長さ→端のギャップペナルティは含める
・相同性が不明、違う長さ→端のギャップペナルティは含めない
・一方の配列が他方に含まれると予想→短い方の端にギャップペナルティを含める