RNA-SeqのマッピングツールであるSTARのインストールから使い方まで紹介します。
STARはかなりメモリを食うので、humanやmouseのマッピングをする場合はメモリが32GB以上(?)あることを確認した上で実行してください。無い場合はHisat2やKallisto等他のマッピングツールを検討した方が良いかもしれません。
##STARのインストール
gcc c++が入っている必要があります。
Macの場合はXcode、UbuntuやCentOSの場合はapt-getやyumなどでgcc-c++をインストールして下さい。
STARのソースコードをダウンロードします。
MacとLinaxはコンパイル済みの状態のものが/STAR/binにありますので、使用しているOSに合わせてパスを通しておきます。
##リファレンスゲノムの取得
illumina iGenomeからのダウンロードをお勧めします。
ここでは、マウスのゲノムはMus musculus UCSC mm10
ヒトのゲノムはHomo sapiens UCSC hg38をダウンロードしています。
ファイル容量が非常に大きいので注意して下さい。
#mm10のダウンロード
wget ftp://igenome:G3nom3s4u@ussd-ftp.illumina.com/Mus_musculus/UCSC/mm10/Mus_musculus_UCSC_mm10.tar.gz
##解凍
tar xvf Mus_musculus_UCSC_mm10.tar.gz
#hg38のダウンロード
wget ftp://igenome:G3nom3s4u@ussd-ftp.illumina.com/Homo_sapiens/UCSC/hg38/Homo_sapiens_UCSC_hg38.tar.gz
##解凍
tar xvf Homo_sapiens_UCSC_hg38.tar.gz
##インデックスの作成
リファレンスゲノムをダウンロードしたら、STAR用のindexを作成する必要があります。
#STARでindexの作成
STAR \
--runThreadN 12 \ #マシンのスペックに応じて変更して下さい
--runMode genomeGenerate \
--genomeDir /path/to/genomeDir \#生成したインデックスの保存先
--genomeFastaFiles /path-to-ref/Mus_musculus/UCSC/mm10/Sequence/WholeGenomeFasta/genome.fa \
--sjdbGTFfile /path-to-ref/Mus_musculus/UCSC/mm10/Annotation/Genes/genes.gtf
##実行
シングルエンドの場合
STAR --runThreadN 12 \ #マシンのスペックに応じて変更して下さい
--outSAMtype BAM SortedByCoordinate \
--quantMode TranscriptomeSAM GeneCounts \ #このオプションを使うと遺伝子ごとのカウントファイルを生成してくれます
--genomeDir PATH-TO-STAR-INDEX \ #genomeGenerateで生成したインデックスのパス
--readFilesIN PATH-TO-FASTQ #fastqのパス
ペアエンドの場合
STAR --runThreadN 12 \ #マシンのスペックに応じて変更して下さい
--outSAMtype BAM SortedByCoordinate \
--quantMode TranscriptomeSAM GeneCounts \ #このオプションを使うと遺伝子ごとのカウントファイルを生成してくれます
--genomeDir PATH-TO-STAR-INDEX \ #genomeGenerateで生成したインデックスのパス
--readFilesIN PATH-TO-FASTQ_R1 PATH-TO-FASTQ_R2 #fastqのパス
##例
pasta-dumpの項でダウンロードした、SRP052999のfastqファイルをマッピングしてみます。
cd SRP052999 ; \ #fastqのあるディレクトリにChange Directory
for srr_id in SRR1781884 SRR1781885 SRR1781886 SRR1781887 SRR1781888 SRR1781889 SRR1781890 SRR1781891 ; \
do \
STAR --runThreadN 12 \
--outSAMtype BAM SortedByCoordinate \
--quantMode TranscriptomeSAM GeneCounts \
--genomeDir PATH-TO-STAR-INDEX \
--readFilesIN ${srr_id}.fastq #fastqのパス
done