バイオインフォマティクス解析について、たくさんの種類があるのでメモとしてまとめます。
書籍は講談社サイエンティフィックの「よくわかるバイオインフォマティクス入門」が分かりやすいと思います。
ツールの使い方は「次世代シークエンサーDRY解析教本」やDBCLSの統合TVが参考になると思います。
また、バイオインフォマティクス学会はバイオインフォマティクス技術者認定試験を毎年行っています。
以下に解析の種類を①シークエンス解析と②立体構造・相互作用予測の2つに分けてまとめます。
#シークエンス解析
DNAやRNAの配列解析で、NGSが用いられる。
配列断片を繋げて復元するアセンブリと、リファレンス配列へマッピングして比較するアライメントの2つがある。
de novo解析はアセンブリ、他の解析ではアライメントを行う。
ゲノム解析
主にタンパク質のコードするエクソン領域のみを解析するエクソーム解析が行われる。
変異解析によって疾患原因遺伝子などを見つけることが出来る。
一塩基変異(SNP/SNV)を検出できる。
ゲノム全体のSNPの頻度と形質の関連を調べる解析がGWAS(Genome Wide Association Study)。
トランスクリプトーム解析
主にRNA-seqによる遺伝子発現の定量化が行われる。
最近は1細胞ごとに単離して行うscRNA-seqが盛んになっている。
1細胞解析によってデータ量は大幅に増え、システム生物学へとつながっていく。
他には、転写開始点(TSS)を解析できるTSS-seqやCAGE-seqもある。
エピゲノム解析
遺伝子の発現制御を解析する。
ChIP-seq・・・ヒストン修飾の解析。他のタンパク質にも可能
BS-seq・・・DNAのメチル化の解析。BSはBisulfiteの略
ATAC-Seq・・・クロマチンアクセシビリティの解析。
Hi-C法・・・クロマチン構造の解析。
##メタゲノム解析
細菌叢など、微生物群集において行われる手法。
分離培養することなく、環境サンプルをそのままシークエンスする。
サンプルの細胞の系統組成などを得ることが出来る。
##de novo解析
アセンブリによる解析。
リファレンス配列が決定されていない生物種での配列決定に用いられる。
ゲノムアセンブリ、トランスクリプトームアセンブリなど。
#立体構造・相互作用予測
生体分子の構造はX線結晶構造解析やクライオ電子顕微鏡で観察されますが、配列情報を基にした立体構造予測も行われる。
立体構造というとタンパク質のイメージが強いですが、クロマチンやncRNAも立体構造を形成する。
立体構造だけでなく相互作用の予測も行われていて、機械学習の手法が用いられる。
##クロマチン
クロマチンはDNAとヒストンが結びついたもの。
クロマチン構造は遺伝子の発現制御において重要。
3C(Chromosome Conformation Capture)が基礎的な技術で、
現在はNGSを用いるHi-C法などによって行われる。(エピゲノム解析でもある。)
DNAのコンタクトマップが生成され、TADs(Topologically Associated Domains)という領域が見られる。
##ncRNA(non cording RNA)
ncRNAはmRNA以外のRNAで、様々な機能を持つ。
物理化学的な手法などが用いられる。
##タンパク質
タンパク質はシークエンスが出来ないため、電気泳動や質量分析が用いて測定される。
データベースに基づく手法や物理化学的な手法が用いられる。分子動力学シミュレーションなど
現在はデータベースがwwPDBにまとめられている。
立体構造や相互作用の予測は創薬などに応用される。