More than 5 years have passed since last update.

GEOの発現データを使いこなす(2)

Posted at 2016-09-03

この記事は、http://d.hatena.ne.jp/fukuit/20151101/1446341605 からの転載です。

Seriesの方を使う例も挙げておく。

Seriesを使いこなす。

論文を書いたときに、マイクロアレイの発現データを寄託しておくよう求められるが、その寄託先の一つがGEOであり、その実験ごとのまとめがSeriesである。

Webブラウザでの作業

GEOの画面でSeriesをクリックする。

一覧が表示される。

Expression Profilinig by arrayと、Homo Sapiensをクリックして、絞り込みを行う。

例として、breastを検索すると、958 sampleも登録されている。

GSE2034に予後のデータがあるっぽいので、これを選択。

画面の下の方に、登録されているデータの実体がある。

SOFT Formatted FileとSeries Matrixファイルをダウンロードしておく。

ちなみに、gzipで圧縮されているので、これを解凍する。Windowsならば、Lhaplus辺りを使えばいい。CygwinやMingWのgzipを使いこなせる人は、もちろんどうぞ。

以降はExcelでの作業

SOFTファイルは、用いられたarrayのアノテーションファイルである。このファイルがないと、どのプローブにどんなIDが付与されているのか？が分からないので、解析ができない。

Series Matrixファイルは、解析済の発現量が記載されている。このファイルがあれば、目的の遺伝子の発現量を取り出すことができるが、そのためには、SOFTファイルを参照して、目的の遺伝子には、どのようなIDが振られたprobeが設定されているか？を知る必要がある。

SOFTファイルもSeries Matrixファイルもテキストファイルなので、Excelで開くことができるが、注意点はExcelの「ソレっぽい表記は日付と自動判断する機能」を使わないようにすること、である。遺伝子名(GENE SYMBOL)には、OCT4、DEC1のようなものがあり、Excelはこれをそれぞれ10月4日、12月1日に自動変換する。まだ、これらは推測可能だから良い。問題なのは、MARCH1遺伝子もMARC1遺伝子も双方とも3月1日に変換してしまうので、どっちがどっちだか分からなくなってしまうのである。なので、これは要注意。