Help us understand the problem. What is going on with this article?

GEOの発現データを使いこなす(2)

More than 3 years have passed since last update.
この記事は、http://d.hatena.ne.jp/fukuit/20151101/1446341605 からの転載です。

Seriesの方を使う例も挙げておく。

Seriesを使いこなす。

論文を書いたときに、マイクロアレイの発現データを寄託しておくよう求められるが、その寄託先の一つがGEOであり、その実験ごとのまとめがSeriesである。

Webブラウザでの作業

GEOの画面でSeriesをクリックする。
20151101103027.png

一覧が表示される。
20151101103028.png

Expression Profilinig by arrayと、Homo Sapiensをクリックして、絞り込みを行う。
20151101103029.png

例として、breastを検索すると、958 sampleも登録されている。
20151101103031.png

GSE2034に予後のデータがあるっぽいので、これを選択。
20151101103032.png

画面の下の方に、登録されているデータの実体がある。
20151101103034.png

SOFT Formatted FileとSeries Matrixファイルをダウンロードしておく。
20151101103036.png
20151101103233.png
ちなみに、gzipで圧縮されているので、これを解凍する。Windowsならば、Lhaplus辺りを使えばいい。CygwinやMingWのgzipを使いこなせる人は、もちろんどうぞ。

以降はExcelでの作業

SOFTファイルは、用いられたarrayのアノテーションファイルである。このファイルがないと、どのプローブにどんなIDが付与されているのか?が分からないので、解析ができない。

Series Matrixファイルは、解析済の発現量が記載されている。このファイルがあれば、目的の遺伝子の発現量を取り出すことができるが、そのためには、SOFTファイルを参照して、目的の遺伝子には、どのようなIDが振られたprobeが設定されているか?を知る必要がある。

SOFTファイルもSeries Matrixファイルもテキストファイルなので、Excelで開くことができるが、注意点はExcelの「ソレっぽい表記は日付と自動判断する機能」を使わないようにすること、である。遺伝子名(GENE SYMBOL)には、OCT4、DEC1のようなものがあり、Excelはこれをそれぞれ10月4日、12月1日に自動変換する。まだ、これらは推測可能だから良い。問題なのは、MARCH1遺伝子もMARC1遺伝子も双方とも3月1日に変換してしまうので、どっちがどっちだか分からなくなってしまうのである。なので、これは要注意。

20151101110251.png

このGSE2034のSOFTファイルの場合、23247行目以降がmicroarrayのアノテーション情報であり、K列にGENE SYMBOLが入っているので、ソコを注意する。
20151101110252.png
20151101110253.png
20151101110254.png

ExcelでSOFTファイルを開いたら、例えば関心のある遺伝子HIF1AをGENE SYMBOLの列で検索すると、IDが200989_atであることが分かった。
20151101110614.png

このID: 200989_atをメモっておいて、次はSeries MatrixファイルをExcelで開く。

そして、一列目ID_REFが"200989_at"になっているものを検索する。
20151101110920.png
この行が、GSE2034におけるHIF1Aの発現だ。

このデータを使うと、再発有無の違いでHIF1Aの発現量がどうだったか?を調べることもできる。

さて、以上の行為をGEOのGEO2RのWeb画面上で実施することもできる。例えば、以下のようなグラフを描画するとか。
20151101111545.png

GEO2R

GSE2034の画面の下の方に「Analyze with GEO2R」というリンクがある。これをクリックする。

20151101120008.png

すると、GEO2Rの画面が開く。

これはGEO上でRを使って解析してくれて、その結果を戻してくれる便利機能だ。
20151101120009.png

この画面で「Samples」をクリックすると、サンプルの一覧が表示される。Groupsをクリックして、自分でグループ名を定義したうえで、各サンプルにグループを割り当てる。
20151101120010.png
20151101120011.png

「Profile Graph」のタブをクリックして、そこに例えばさっきのHIF1A遺伝子プローブのID「200989_at」を入力する。
20151101120012.png

「Set」ボタンを押すと、グループ別に色分けされて、発現量のグラフが表示される。複数プローブに対応していないのが残念だが、複数のプローブを同時に表示したグラフを描画したいのであれば、上述のようにSeries Matrixファイルをダウンロードして自前でExcelでやればいい。
20151101120013.png

また、上記の処理を実行するのに使ったRのscriptを見ることもできる。
20151101120014.png

いや、ホントに「PCにちょっと詳しいだけのBioInformaticsの人」とか、失業モンですよ。

fukuit
最近、事務系の職場に異動したので、職業プログラマではなくなりました。
Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away