はじめに
このページの内容は、がんのゲノムデータを触りたい・知りたいと思いはじめた一部の人にとっては、めちゃくちゃ役に立つであろう情報が書かれています。もしかしてこのページは自分のために書かれたんじゃないか?と感じた人はぜひ最後まで読んでください。当然そうじゃない人もいると思いますが、そういう人も一応読んでくれると嬉しいです。
具体的な方法については、あまり丁寧には書かれていないので、プルリクエストや質問などありましたらコメント欄にお願いします。
前処理済みのTCGAデータを求めて
がんの遺伝子情報を自由に観察してみたいと思う人は少なからずいると思います。がんの遺伝子情報といえば、TCGAです。しかしながらTCGAのデータをダウンロードする時は申請が必要であったり、自分でバイオインフォマティクス処理をするには容量が膨大です。そこで、すでに前処理されたデータが求められます。
有名なサイトは2つあります。一つはスローンケタリングがんセンターのcBioPortalです。もう1つはカリフォルニア大学サンタクルーズ校のUCSC Xenaです。これらのサービスは非常に素晴らしいUIを提供しているため、ブラウザからボタンをクリックするだけでも必要な情報の大半は手に入れることができます。
これらのサービスはそれぞれWebAPIを提供しています。特にcBioPortalの提供するWebAPIは非常に素晴らしく使いやすいです。私はこのAPIが好きで結構使っていました。
しかし、実は、そのような本家のWebAPIを使用せずとも、実はGitHubで前処理済みのデータが公開されているのです。こちらがcBioPortalのデータのリポジトリです。ここにタブ区切りテキストファイルが保存されています。
(ここまでTCGAデータベースに気が付き、さらにcBioPortalで前処理済みデータが入手できることに気がついた人は、CSVを使う前にMySQLを使おうとするかもしれませんが、個人的にはMySQLのデータベースから直接データを取得するのは案外煩雑で難しいと感じました。それをやるぐらいなら、自分専用のcBioPortalインスタンスを立ち上げて利用者にとってわかりやすいようにまとめられたWebAPIを叩く方が簡単だと思います。cBioPortalはそれ自体がオープンソースのWebアプリケーションであり、誰でもcbioportal.orgとほとんどおなじように動作する自分専用のインスタンスをデプロイすることができるのです。(その方法もDockerを使って本家のマニュアル通りに進めるだけなので、いずれ気が向いたら記事にしようと思います。)
ところが、これが普通のGitコマンドでは取得できません。git-lfsというコマンドを使用します。Git LFSはGitHubが中心となって開発しているラージファイル(画像・音声・映像等)を扱うためのコマンドだそうです。
このコマンドを利用することで、上記のDataHubのリポジトリからTCGAの前処理済みのタブ区切りテキストファイルを取得することができます。あとはこれを好きなプログラミング言語で処理すれば、さまざまな事が可能になると思います。
2020年9月7日追記
UCSC XenaもTCGAのデータを公開しています。
https://xenabrowser.net/datapages/
おしまい そして お願い
上記のような情報は、最期までネタがわかってみれば、な〜んだ、とう感じで簡単で何ら難しいところはないのですが、意外とWebを検索していても見つからない知識だったりしますので、この情報をすごく喜ぶ人も要るのも想像されます。実際、私はこれを知るまでえらい遠回りをしてしまいました。これが欲しかったけど、たどり着けなかった初心者の方も沢山要るだろうなと想像します。要するに知ってるかどうかだけの問題です。もちろん、cBioPortalのグループが前処理したTCGAのデータが完全に正しいとうわけではありませんので、もっと生データから詳しい情報を知りたいんだ、自分で前処理する!という気の強い人は、それはそれで頼もしく思います。
前処理済みのTCGAデータがどこで手に入るかとか、そういうちいちゃなノウハウは、公開してもあまりメリットがなく、むしろデメリットの方はありそうな感じで、しかもターゲット層が薄いため、どうしても溜め込みがちなのですが、こんな風にコードが1行もない散文であってもQiitaは許してくれると思うし(まあ一応プログラミングの話題なのでね)必要としている人もいると思ったので公開しました。
これを読んで良かったな、と思った人は、ぜひ各人のお持ちのノウハウを、人助けだと思って、ブログとかQiitaとかに書いてもらえると嬉しいです。どこかにあなたの持ってる情報を求めている人がきっといます。
この記事は以上です。