1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

The Cancer Genome Atlas(TCGA)からRNA-seqデータを一括ダウンロード

Posted at

PictBio HP「解析メモ」 と同一内容です。
元記事:2021/7/30 公開 The Cancer Genome Atlas(TCGA)からRNA-seqデータを一括ダウンロードする

The Cancer Genome Atlas(TCGA)では膨大ながん関連遺伝子発現データや腫瘍画像データが公開されており、日々がん研究に役立てられています。

今回は、The Cancer Genome AtlasからRNA-seqの発現量データをLinuxコマンドで一括ダウンロードする方法を説明します。
まずはThe Cancer Genome Atlasのサイトにアクセスして、下段にある「Access TCGA Data」から 検索ページに飛びます。
TCGA.png
図1、The Cancer Genome Atlasのトップページ

検索窓に「LUAD」(=Lung Adenocarcinoma、肺腺癌)と入力すると、登録されているLUAD関連サンプルの候補が表示されます。今回はTCGA-LUADを選択して検索します。
TCGA検索画面.png
図2、TCGAの検索ページとLUADの入力した結果

検索するとTCGA-LUAD関連データ一覧が表示されるので、このうち右側の「Files」をクリックします。
TCGA-LUAD検索結果.png
図3、TCGA-LUAD関連データ一覧と、Filesボタン

左側のメニューにおいて「Experimental Strategy」で「RNA-seq」、「Workflow Type」で「FPKM」にチェックを入れると、RNA-seqの補正済み発現量カウントデータ(FPKM)のみに表示が自動で切り替わります。
TCGA-LUADのFiles一覧.PNG
図4、項目選択前
TCGA-LUADのRNA-SeqとFPKMを選択後画面.PNG
図5、「RNA-Seq」と「FPKM」を選択後の画面

選択されているファイルをダウンロードするためには「Add all files to Cart」ボタンを押し、画面右上のCartに追加されることを確認します。
Add_all_files_to_the_Cart選択画面.PNG
図6、カートに追加する画面

右上のカートボタンを押して、カートの中身を確認します。
カートからダウンロード.PNG
図7、カートの中身とダウンロードボタン

カートにある「Download」→「Cart」ボタンから直接ダウンロードすることも可能です。今回はファイル数が多いので、手元のPCではなく直接Linuxサーバー(CentOSなど)に一括ダウンロードすることを考えます。

まずは図7にある「Download」→「Manifest」ボタンからManifestファイルをダウンロードしておきます。今回はダウンロードしたManifestファイル名を「gdc_sample_sheet_LUAD_htseq_fpkm.tsv」とします。このファイルの情報に基づいて後のダウンロードが行われるので、このファイルをLinuxサーバー側にscpコマンドなどで転送しておきます。

次にLinuxサーバーにgdc-clientツールをダウンロードします。

にアクセスし、下段にある Linux用Binaryをダウンロードします。

$ wget https://gdc.cancer.gov/files/public/file/gdc-client_v1.6.1_Ubuntu_x64.zip

ダウンロードしたzipフォルダーを解凍するとgdc-clientができるので、実行権限が無ければchmodで実行権限を与えます。

$ unzip gdc-client_v1.6.1_Ubuntu_x64.zip
$ chmod +x gdc-client

gdb-clientに先ほど転送しておいたManifestファイル-mで指定すればダウンロードが開始されます。-dで指定されるダウンロード先フォルダーはmkdirコマンドで事前に作成しておく必要があります。

$ ./gdb-client download -m gdc_sample_sheet_LUAD_htseq_fpkm.tsv  -d download_dir/

データが大きくダウンロードには時間がかかるので、nohup [コマンド] & を付けて実行することが推奨されます。

$ nohup ./gdc-client download -m gdc_sample_sheet_LUAD_htseq_fpkm.tsv  -d download_dir/ &
1
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?