はじめに
自分ががんの研究をしているので、その際に使う(使おうと思っている)公共データベースの使い方について、自分用のメモもかねて書いていこうと思います。いろんなデータ、特に遺伝子系の情報、解析ツールがそろっているので、もしそういうデータに興味があれば使ってみてください。超ざっくり説明かつ間違いがあるかもしれませんが悪しからず。
GDC Data Portalとは
GDC Data Portal(Genomic Data Commons Data Portal)は、アメリカ国立衛生研究所(NIH)が主導するがんゲノムプロジェクトの一環として、さまざまながん種に関するゲノム、エピゲノム、トランスクリプトーム、変異情報などのデータを集約・公開しているウェブベースのプラットフォームです。
ざっくりとした機能
まずは、以下のURLにアクセスします。
https://portal.gdc.cancer.gov/
そうするとこのような画面になると思います。
何かサイトを日本語に翻訳するとエラー出るので注意
そして、上のタブを切り替えることによって、様々な情報を閲覧することができます。
- Analysis Center:保管されているデータを用いてデータ解析をすることができます。
- Project:保管されているデータをプロジェクトごとに確認できます。
- Cohort Builder:コホートを管理します。
- Repository:コホート内に存在するデータを確認できます。
Analysis Center
- ①コホート選択
- 解析するコホート(対象とするデータ集団)を選択します。コホートの作り方については後述。
- ②分析項目
- ここで項目を選んでいろいろ分析できます。遺伝子発現データのクラスタリングや異なるコホート間の特徴を比較したりなどができます。なんかログイン?しなきゃ使えないものもあるんですけど、普通に使えるものもあります。具体的にどういう分析ができるかについては今回は省きます(自分が詳しくないだけ…)。
- disease type:どのような症例が含まれているか(腫瘍のタイプ)
- primary type:腫瘍の発生部位
- program:各データが関連付けられているプログラム名
- Cases:症例数
- Experimental Strategy:データの取得や解析に使用された実験的アプローチや手法
そしてプロジェクトを選択すると、
このような画面となり、「Save New Cohort」を選択することで、このプロジェクトのデータを先ほど紹介したコホートとして保存することができる。
Project
このページでは、保管されているデータをプロジェクトごとにして調べることができます。①のところから、調べたいプロジェクトのデータを選択することができます。そして各プロジェクトごとに項目がついており、以下の項目があります。
Cohort Builder
こんな感じで、作成したコホートをもとに、条件を変更してコホートを組み替えることができます。
Repository
データの入手方法
さて、ではここからどのようにデータを入手するかなんですが、まずは入手したいデータを探しましょう!
Projectのページを開きます。そして今回は例として乳がんのデータを取得しようと思うので、Primary siteからBreastを選択します。
そして出てきたデータから今回はTCGA-BRCAを取得します。
次にSave New Cohortで新しいコホートを作成します。
名前はTCGA-BRCAにしましょう。
ではRepositoryから欲しいデータを選択しましょう。
今回は遺伝子発現データを入手しようと思います。
まず①を選択して先ほど作成したTCGA-BRCAにしましょう。そして②でData TypeからGene Expression Quantification を選択します。そうすると、条件に合うファイルが出てくるので必要なものをカートに入れます。すべて入手したい場合は③のAdd All Files to Cartを選択し、すべてのファイルをカートに入れます。
その後カートから選んだファイルをダウンロードすることができます。
さらに臨床情報を入手するには
①を押して出てくる場所の②のClinicalから入手することができます。
最後に
今回はGDC Portalの使い方について紹介しました。使い方っていうほどのものでもないかもしれませんが、未来の自分と誰かのためになればいいなと思います。てか書いてて思ったけどほんとに自分用のメモだわ、今後遺伝子データを扱いたい人とか現れるんだろうか…
補足
データセットの入手について、なんかR言語を用いて入手する方法とかもあるみたい。あと今回臨床データの中に欲しかった分子サブタイプの情報がなかったんだが、どこから入手するんだ。わかったら今後更新するかも、詳しい人いたら教えてくれると助かります。