3
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

NITech-KatolabAdvent Calendar 2024

Day 10

ほぼ自分用:GDC Portal(がんの公共データベース)の使い方

Last updated at Posted at 2024-12-09

はじめに

自分ががんの研究をしているので、その際に使う(使おうと思っている)公共データベースの使い方について、自分用のメモもかねて書いていこうと思います。いろんなデータ、特に遺伝子系の情報、解析ツールがそろっているので、もしそういうデータに興味があれば使ってみてください。超ざっくり説明かつ間違いがあるかもしれませんが悪しからず。

GDC Data Portalとは

GDC Data Portal(Genomic Data Commons Data Portal)は、アメリカ国立衛生研究所(NIH)が主導するがんゲノムプロジェクトの一環として、さまざまながん種に関するゲノム、エピゲノム、トランスクリプトーム、変異情報などのデータを集約・公開しているウェブベースのプラットフォームです。

ざっくりとした機能

まずは、以下のURLにアクセスします。
https://portal.gdc.cancer.gov/
そうするとこのような画面になると思います。

何かサイトを日本語に翻訳するとエラー出るので注意

image.png

そして、上のタブを切り替えることによって、様々な情報を閲覧することができます。

image.png

  • Analysis Center:保管されているデータを用いてデータ解析をすることができます。
  • Project:保管されているデータをプロジェクトごとに確認できます。
  • Cohort Builder:コホートを管理します。
  • Repository:コホート内に存在するデータを確認できます。

Analysis Center

image.png

①コホート選択
解析するコホート(対象とするデータ集団)を選択します。コホートの作り方については後述。
②分析項目
ここで項目を選んでいろいろ分析できます。遺伝子発現データのクラスタリングや異なるコホート間の特徴を比較したりなどができます。なんかログイン?しなきゃ使えないものもあるんですけど、普通に使えるものもあります。具体的にどういう分析ができるかについては今回は省きます(自分が詳しくないだけ…)。

Project

image.png
このページでは、保管されているデータをプロジェクトごとにして調べることができます。①のところから、調べたいプロジェクトのデータを選択することができます。そして各プロジェクトごとに項目がついており、以下の項目があります。

  • disease type:どのような症例が含まれているか(腫瘍のタイプ)
  • primary type:腫瘍の発生部位
  • program:各データが関連付けられているプログラム名
  • Cases:症例数
  • Experimental Strategy:データの取得や解析に使用された実験的アプローチや手法
    そしてプロジェクトを選択すると、
    image.png
    このような画面となり、「Save New Cohort」を選択することで、このプロジェクトのデータを先ほど紹介したコホートとして保存することができる。

Cohort Builder

image.png
こんな感じで、作成したコホートをもとに、条件を変更してコホートを組み替えることができます。

Repository

コホート内に含まれるファイルを確認することができます。
image.png

データの入手方法

さて、ではここからどのようにデータを入手するかなんですが、まずは入手したいデータを探しましょう!
Projectのページを開きます。そして今回は例として乳がんのデータを取得しようと思うので、Primary siteからBreastを選択します。
image.png
そして出てきたデータから今回はTCGA-BRCAを取得します。
image.png
次にSave New Cohortで新しいコホートを作成します。
image.png
名前はTCGA-BRCAにしましょう。
image.png

ではRepositoryから欲しいデータを選択しましょう。
今回は遺伝子発現データを入手しようと思います。
image.png
まず①を選択して先ほど作成したTCGA-BRCAにしましょう。そして②でData TypeからGene Expression Quantification を選択します。そうすると、条件に合うファイルが出てくるので必要なものをカートに入れます。すべて入手したい場合は③のAdd All Files to Cartを選択し、すべてのファイルをカートに入れます。
その後カートから選んだファイルをダウンロードすることができます。

さらに臨床情報を入手するには
image.png
①を押して出てくる場所の②のClinicalから入手することができます。

最後に

今回はGDC Portalの使い方について紹介しました。使い方っていうほどのものでもないかもしれませんが、未来の自分と誰かのためになればいいなと思います。てか書いてて思ったけどほんとに自分用のメモだわ、今後遺伝子データを扱いたい人とか現れるんだろうか…

補足

データセットの入手について、なんかR言語を用いて入手する方法とかもあるみたい。あと今回臨床データの中に欲しかった分子サブタイプの情報がなかったんだが、どこから入手するんだ。わかったら今後更新するかも、詳しい人いたら教えてくれると助かります。

3
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?