本記事では、Shortread RNA-Seq解析に使用するリファレンスゲノムの取得方法について説明します。
利用OS:Linux
Linux OS で lftp コマンドを使ってリファレンスゲノムをダウンロードする方法を説明します。lftp は Linux 環境で動作する非常に強力なファイル転送プログラムです。これを使って FTP サーバーからデータを直接ダウンロードすることができます。
まず、lftp がシステムにインストールされていない場合は、以下のコマンドでインストールできます
sudo apt-get install lftp # Debian/Ubuntu 系
sudo yum install lftp # RedHat/CentOS 系
リファレンスゲノムのダウンロード
lftp を使って、例えば Ensembl の FTP サイトからヒトのリファレンスゲノム (GRCh38) をダウンロードする方法は以下の通りです。
FTP サーバーに接続します
lftp ftp.ensembl.org/pub/
適切なディレクトリに移動します
cd release-111/fasta/homo_sapiens/dna
このパスは、NCBI のデータベース構造や目的のゲノムによって異なる場合があるため、事前に FTP サイトをブラウザで確認することが重要です。
ファイルリストを表示し、ダウンロードしたいファイルを選択します
ls
ファイルをダウンロードします
get Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz
ここでは例として、ヒトのリファレンス配列である.fastaを取得します
FTP セッションを終了します:
quit