データは共有される。
研究論文と言えば、引用から始まると言っても過言ではないほど、先行研究が重要視される。学問は先人の知識の積み重ねであることから、このプロセスが当たり前となっている。ただ、この際、生物学においては他者が作ったデータを覗くことはできない。多くの場合、論文のデータを信じて読み、自分の仮説を立てる。もちろん、自分の研究領域と近ければ、再現してみるということも可能であろうし、実際にやってみるわけであるが、やってみる人は限りなく少ないのではないだろうか。
これもまた研究の当たり前になっている。しかし、大規模並列シーケンサー (Massivlely parallele sequencing) の登場により、この再現というポイントは大きく変わりつつあるように思う。というのも、データがデジタルデータであり、公共データベースに登録されるので、「解析」だけは再現できるのである。つまり、データの確からしさ、考察の正しさを解析からは検証できる。もちろんサンプル回収、DNA抽出まで含めた実験プロセスの完全再現というわけではないが、データの検証という意味では手軽で無料でできるという意味で大きな価値があると考えている。
データには未考察部分が残る。
もちろん再現性のためだけに手を動かすというのは少しめんどくさいので、実際に再解析をやる理由として大きいのは未発見を報告済みデータから導き出すということにあるだろう。そう、大規模並列シーケンサーは極めて膨大なデータを作り上げるので、実際のところ1つのプロジェクトで使われるデータ (の割合) というのは100%ではない。
例えば、発現解析データがあるとして、特定の処理で発現が増えた減ったの議論をしている論文があるとしよう。3連の実験とは言え、余程大きな変化でなければ、多くの遺伝子はノイズの中に取り込まれてしまう。1つの研究だけでは、どうしても議論し切れない謎が残るのが配列解析ではよくあることである。発現解析データだけでなく、例えば16S rRNA amplicon sequencingのデータがあるとして、Top85%くらいは信頼できる感じがあるが、残りの15%はノイズなのか、本当にいるのかよく分からない。簡単にできる解析というのは、取得されるビッグデータの中の大きな傾向を取り上げているに過ぎず、細かいところ (中-小サイズの影響も含む) までは確からしいのかよく分からないわけである。
他の研究を組み合わせて、信頼できるかどうか考える
このような経緯で、バイオデータには「それっぽいけど本当に起きてることなのかよく分からん」ということが含まれる。実験をしてみれば、結果が確からしいかどうかは分かるが、忙しい研究者にとって曖昧な予測による実験は避けたいところである (かもしれない)。そんな時にできることが、研究を組み合わせて解析するメタ解析である。メタ解析では似たような研究を集めてきて、論文に記載されていないようなことも検証していくことができる。大規模並列シーケンサーを研究者が動かすのは何かしら理由があるので、その理由から外れるデータも多くの場合未開拓である。それをとりあえず無料で検証できるというのがデータをいい感じに使う方法ではなかろうか。
メタ解析、難しいやつもあるけど難しくないやつもある
メタ解析というとガチプロバイオインフォマティシャンしか出来なさそうな感じがするが、簡単なコード or ノーコードでもできるというのが現代である。例えば、発現解析を例にメタ解析をしてみるとしよう。DEE2というサイトに行くと、RNA-Seqの解析済みデータが手に入るのだが、それを集めてきてiDEPにかければ、一切コードを書くことなく、多くの論文で見るようなRNA-Seq解析を実現できる。
参考: 統合TV-DEE2 (Digital Expression Explorer 2 を使って解析済みRNA-seqデータを取得する)
参考2: 統合TV-iDEP
もう少しコードが書けるようであれば、ikraなどを検討しても良いかもしれない。ikraはRNA-Seqの発現解析パイプラインであり、わずかなコードと準備でメタ解析を実現してくれるツールである。
参考: Github-ikra
発現解析を例に取ったが、多くの解析でキャラクターフリーで解析できることは可能になっており、Galaxyのような統合バイオインフォマティクスプラットフォームまであるくらいである。
データ駆動型研究は合成生物学でいけばモデリング
合成生物学、中でも学部生向けのコンペティションであるiGEMでは、作った遺伝子サーキットに対して結果を予測するモデリングというプロセスを行うことを推奨している。例えば、Aという酵素を発現させるとして、ミカエリス-メンテン式を使えば、Aがその基質aを分解する速度をざっくりグラフにできる。もちろん、これは完全に正解を出すわけではないが、メタ解析が行うのは、この作業に極めて近しいと考える。データが示すところから、これっぽいを導き出して、それを実験で確かめる。データ駆動型研究はいわば、コンピュータ内での実験であり、プレリミナリーデータくらいの価値はあるのである。
バイオデータを集めて見やすくしたやつがバイオデータベース
バイオデータを解析することで、オリジナル研究の目的外の宝物を見つける可能性があるということをここまでで解説してきた。計算資源も限られ、人員も限られている中で興味のある全てのバイオデータを解析することは難しい。そこで、使えるのがバイオデータベースである。例えば、発現解析を考えてみる。Expression Atlasを使えば、どこの細胞でどんな遺伝子が発現されているかの傾向を理解できる。ClinVarのようなバリアントデータベースを使えば、興味のある疾患に関連するバリアントをリスト化できるし、どのバリアントがタンパク質に影響を引き起こしそうかの推定もできそうだ。
調べることにコーディングは使える
メタ解析でも、バイオデータベースでも全部自分で調べるというのは少しめんどくさい。情報量が過大すぎるからである。多くのバイオデータベースや公共レポジトリでは、APIやCLIなどが利用可能になっており、簡単なコーディングができれば、データの取得を自動化できる。バイオインフォマティクスっぽいことをしなくても、バイオインフォマティクスは可能な一方で、どのくらい処理したいのか、どのように処理したいのかに応じて、必要度合いが変わってくる。
総括
ウェット"も"メタ解析"も"上手にやって、ウェットに生かして行こう。(自戒)
宣伝
たくさんのバイオデータとバイオデータベースの活用法はこちらの本にあります。
https://www.yodosha.co.jp/yodobook/book/9784758104067/
その他
こちらの記事はKyoto.bioinfo (アドベントカレンダー) の一環として作成しました。