LoginSignup
1
0

More than 1 year has passed since last update.

マッピングファイルのステータスを読み解く

Posted at

次世代シーケンサーのデータ解析でよく出てくる SAM/BAM ファイルの取り扱いには Samtools が便利ですが、このツールを使ってステータスも見ることができます。今回はこのステータスでは何が得られるのか、軽くまとめてみたいと思います。データ解析している人が見ているデータにはこんなのがあるだと知っていただければ幸いです。

SAM/BAMファイルとは

次世代シーケンサーで取得したシーケンスリード配列はゲノムのどこから得られたデータなのかを計算(マッピング)した結果を表現するファイルフォーマットがSAMファイルです。BAMは簡単に言えばSAMファイルを圧縮して軽量にし、コンピュータが扱いしやすくした形式です。

ステータスの出力方法

コマンドは次のようになります。

$ samtools stats sample.bam 

マッピング結果はSAMで得られることが多いですが、BAMに変換、且つ、ソートする必要があります。

出力内容

#(シャープ)で始まる行と、大文字2~3文字から始まり空白で区切られた行があります。
前者は後者の内容を説明しており、grep~ の部分のコマンドでこのパートが抽出できるとあります。
ちなみに空白はタブ文字ですので、抽出してExcelに読み込めばきれいに表示できます。
image.png
~中略~
image.png

SNで始まるパート

ステータスの最初の方にあるSNで始まる行のみ、#(シャープ)で始まる行ではなく2列目に3列目の数値の名称(キー)が書いてあります。このパートはサマリーであり重要な集計値が載っているので細かく見ていこうと思います。

2列目の名称だけ取り出しましたが、ほぼそのままの意味が書いてありわかりやすいです。4列目に補足がある行もあります。
image.png

すごく細かく分析されているので重要なところを上げてみます。

raw total sequences
マッピングの計算に使われたシーケンスリードの数
reads mapped
マップできたシーケンスリードの数
reads unmapped
マップできなかったシーケンスリードの数
non-primary alignments
トップヒット以外のマッピング結果(マルチトップヒットがあった場合は、1つを除いて non-primary となる)
insert size average
ペアエンドシーケンスのマッピング結果から計算されたフラグメントサイズ平均
insert size standard deviation
前項の標準偏差
inward oriented pairs
ペアエンドシーケンスのマップされた方向の位置関係がforward/reverseであるペア数
outward oriented pairs
同じく位置関係がreverse/forwardであるペア数
pairs with other orientation
同じく位置関係がforward/reverse、reverse/forward以外であるペア数
pairs on different chromosomes
同じく位置関係でChromosomeが異なるペア数
1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0