次世代シーケンサーのデータ解析でよく出てくる SAM/BAM ファイルの取り扱いには Samtools が便利ですが、このツールを使ってステータスも見ることができます。今回はこのステータスでは何が得られるのか、軽くまとめてみたいと思います。データ解析している人が見ているデータにはこんなのがあるだと知っていただければ幸いです。
SAM/BAMファイルとは
次世代シーケンサーで取得したシーケンスリード配列はゲノムのどこから得られたデータなのかを計算(マッピング)した結果を表現するファイルフォーマットがSAMファイルです。BAMは簡単に言えばSAMファイルを圧縮して軽量にし、コンピュータが扱いしやすくした形式です。
ステータスの出力方法
コマンドは次のようになります。
$ samtools stats sample.bam
マッピング結果はSAMで得られることが多いですが、BAMに変換、且つ、ソートする必要があります。
出力内容
#(シャープ)で始まる行と、大文字2~3文字から始まり空白で区切られた行があります。
前者は後者の内容を説明しており、grep~ の部分のコマンドでこのパートが抽出できるとあります。
ちなみに空白はタブ文字ですので、抽出してExcelに読み込めばきれいに表示できます。
~中略~
SNで始まるパート
ステータスの最初の方にあるSNで始まる行のみ、#(シャープ)で始まる行ではなく2列目に3列目の数値の名称(キー)が書いてあります。このパートはサマリーであり重要な集計値が載っているので細かく見ていこうと思います。
2列目の名称だけ取り出しましたが、ほぼそのままの意味が書いてありわかりやすいです。4列目に補足がある行もあります。
すごく細かく分析されているので重要なところを上げてみます。
- raw total sequences
- マッピングの計算に使われたシーケンスリードの数
- reads mapped
- マップできたシーケンスリードの数
- reads unmapped
- マップできなかったシーケンスリードの数
- non-primary alignments
- トップヒット以外のマッピング結果(マルチトップヒットがあった場合は、1つを除いて non-primary となる)
- insert size average
- ペアエンドシーケンスのマッピング結果から計算されたフラグメントサイズ平均
- insert size standard deviation
- 前項の標準偏差
- inward oriented pairs
- ペアエンドシーケンスのマップされた方向の位置関係がforward/reverseであるペア数
- outward oriented pairs
- 同じく位置関係がreverse/forwardであるペア数
- pairs with other orientation
- 同じく位置関係がforward/reverse、reverse/forward以外であるペア数
- pairs on different chromosomes
- 同じく位置関係でChromosomeが異なるペア数