リバースコンプリメントを取得したい!
マルチプルアライメントを行う際、個体によってリバースコンプリメントを用意する必要がありますよね。
相補配列をマニュアルで確認して・・・それを逆に書いて・・・
そんなのやってられるか!!!
さて、今回はFASTA形式からリバースコンプリメントをワンラインで取得する方法を紹介します。
seqkit
で解決!
ここでも出ました。seqkit
です。
以下コマンドで完了です。
seqkit seq -pr input.fasta > output.fasta
-p
:相補配列を表示
-r
:配列を逆転
どういう場合にリバースコンプリメントを用意するの?
以下の説明は自身の備忘録も兼ねてます。
知っている人は飛ばしてください。
そもそも2本鎖DNAのFASTAは一方のDNA鎖の配列が記載されている。
当たり前の話ですよね.ですが諸学者の落とし穴でもあります.
例えば、遺伝子gene1というものがあったとします。
2本鎖DNAの場合、α鎖かβ鎖のどちらが読まれるかわかりません。
シーケンサーによって、gene1は以下の4パターンで解読されます。
>gene1_α #一方の
aaaggtgcctgacg
>gene1_α_reverce
gcagtccgtggaaa
>gene1_β
tttccacggactgc
>gene1_β_reverce
cgtcaggcaccttt
無茶苦茶ですよね.
アライメントする時に, 自分の比較したい遺伝子配列が,正の向きにあるのか確認しておく必要があります.
マッピングなどでも同様です.適宜リバースコンプリメントの取得が必要となるでしょう.
# 終わりに
リバースコンプリメントの概念を理解することは,ゲノム解析における成長段階の一つだと思う.