Bowtie2を使って、参照塩基配列と一致した配列を抽出、一致しなかった配列を抽出する
bowtie2のインストール
bowtie2は次のサイトからダウンロードできます。
次の例は~/research/に保存する手順です。
$ cd ~/research/
$ wget http://sourceforge.net/projects/bowtie-bio/files/bowtie2/2.2.2/bowtie2-2.2.2-linux-x86_64.zip
$ unzip bowtie2-2.2.2-linux-x86_64.zip
実行できるようPATHを通します。
$ export PATH=~/research/bowtie2-2.2.2/:$PATH >> ~/.bashrc
$ source ~/.bashrc
bowtie2を実行するとUsageが出力されます。
参照配列を準備
ヒトゲノムを参照用に使う場合、次のサイトから取得できます。
$ cd ~/research/
$ wget ftp://ftp.ccb.jhu.edu/pub/data/bowtie2_indexes/hg19.zip
$ unzip hg19.zip -d indexes/
自分で用意したい場合はbowtie2-build
コマンドでfastaファイルからindexを作成できます。
$ bowtie2-build reference.fasta ~/research/indexes/reference.fasta
マッピング
targetがpaired readsの場合:
-x <prefix>
: reference fastaのindexのprefix(xxx.1.bt2,xxx.2.bt2などのxxxの部分)
--un-conc <filename>
: 一致しなかった配列をファイルに出力
--al-conc <filename>
: 一致した配列をファイルに出力
-1 <filename>
: target fastqの1
のついたファイルを指定
-2 <filename>
: target fastqの2
のついたファイルを指定
paired readsの場合はオプションで--un-concと--al-concを使う必要があります。
(私はここにはまりました)
$ bowtie2 -p 2 --un-conc target_nohg19.fastq --al-conc target_hg19.fastq -x ~/research/indexes/hg19 -1 target_1.fastq -2 target_2.fastq > /dev/null 2> target.log
$ cat target.log
実行後、次のファイルが出力されます。
target_nohg19.1.fastq
target_nohg19.2.fastq
target_hg19.1.fastq
target_hg19.2.fastq
さらに、画面には総read数、一致したread数とパーセント、一致しなかったread数とパーセントが表示されます。
(標準エラーに出力されるので、リダイレクトでlogファイルに残すようにします)
targetがnon-paired readsの場合:
$ bowtie2 -p 2 --un target_nohg19.fastq --al target_hg19.fastq -x ~/research/indexes/hg19 target.fastq > /dev/null 2> target.log
$ cat target.log