はじめに
本稿では、IGV (Integrative Genomics Viewer) を用いて、生シーケンスデータ (.fastq) をリファレンスゲノムにマッピングしたファイル、Bamファイルを直感的に確認する方法について解説する。
ワークフロー
- IGVをインストール
- samtoolsを用いてBamファイルのソートおよびインデックスの作成
- IGVを用いてBamファイルを確認
1.IGVのインストール
まず初めに、お使いのパソコンにIGVをインストールする。公式サイト(https://software.broadinstitute.org/software/igv/download 2022年8月22日アクセス)から、ご自分のPCにあったバージョンをダウンロードする。筆者はMacBook Pro (14インチ、2021) を使用しているが、「IGV MacOS App Java included」 をダウンロードした。
ダウンロードが終了したら、zipファイルを展開し、アプリケーションを起動し、確認する。
2. samtoolsを用いてBamファイルのソートおよびインデックスの作成
2-1 samtoolsのインストール
もしご自身のパソコンに導入済みでなければ、samtoolsをインストールするところからはじめる。
ターミナルを開き、下記コマンドを実行する。
brew install samtools
もしHomebrewすら導入していない場合は、下記、筆者の過去記事を参照して、インストールしておくこと。
https://qiita.com/shyu_manabe/items/682e6c73b368b0fe02ba
2-2 Bamファイルのソートおよびインデックスの作成
IGVでBamファイルを開くだけでは、中身を確認することはできない。あらかじめBamファイルを染色体順にソート、およびインデックス付けをする必要がある。IGVで確認したいファイルの名前を「filename.bam」として、下記のコマンドを実行する。
samtools sort filename.bam -o filename_sort.bam
出力ファイル名 (-oの後) は各自の好みで構わないが、元のファイル名の拡張子の前に "_sort" をつけた名前にすることを推奨する。
続いて、下記コマンドでインデックス付けを行う。
samtools index filename_sort.bam
上記を実行すると、「filename_sort.bam.bai」というファイルが生成されるので、それが確認できればOK。
3.IGVを用いてBamファイルを確認
最後に、手順2で作成したファイルをもとに、IGVでデータを確認する。
3-1 IGVの起動とリファレンスゲノムのダウンロード
IGVを起動すると、下図のような画面が表示される。
左上のプルダウンをクリックすると、下図のようにリファレンスゲノムの一覧が表示されるので、各自のデータを取得した動物種のリファレンスゲノムを選択し、「OK」を押す (バージョンに注意)。
3-2 IGVでbamファイルを開く
IGVの「File」から、手順2で作成したファイルの中で、「filename_sort.bam」を開くと、リファレンスゲノム上にマッピングされたリードを視覚的に確認することができる。ファイルを開いて何もしないと、対象生物種のゲノム全てが表示されてしまっているので、下図の検索ボックスのところに、遺伝子名やゲノム上の位置情報を入力すると、皆様がお望みの情報が確認できるはずだ (下図ではなんのファイルも開いていないため、空白になっているが)。
おわりに
本稿では、IGVを用いて、マッピング済みシーケンスファイルを視覚化する方法を解説した。RNA-Seqなどの例においては、実際にBamファイルを直接確認する機会は少ないが、本稿で解説した方法で、生に近いデータを自分の目で確認することは、データの妥当性・正当性を確認するために必要であると、筆者は考える。