AdventCalendar
bioinformatics

Statistical search on the Semantic Web

More than 3 years have passed since last update.


すごく大雑把なSemantic Webの説明

Semantic Webでは従来のHTML型の階層構造のwebページをやめて、RDF(主語<ノード> → 述語<エッジ> → 目的語<ノード>)というグラフ構造の形式でデータを全て表現する。

Protein X → activates → Protein Y(PPIデータベース(仮))

Gene X → is transcripted to → Protein X(転写データベース(仮))

といった、Protein Xに関する異なる情報が別々のデータベースに登録されていたとしても、グラフなので以下のように容易にマージできる。

Gene X → is transcripted to → Protein X → activates → Protein Y

これにより別々に開発されているバイオデータベースを統合できるため、知識を集積化できると考えられている。

指定された先は、webページだけではないため、Semantic WebはデータのWebと呼ばれる。

URLアドレスはURIと呼ばれる。

オントロジーはOWLという書き方をする。

各アクセスできるデータベースのことをSPARQL End Pointという。

各データベースへの横断的な問い合わせは、SPARQLという言語を用いる。


Semenatic Web × データ解析

RDFによって、自分の興味があるデータを一挙に取得できたとして、そのデータで何をしたいのか、これまでのデータ解析ではできない何が実現できるのか、というのがその次の話としてあると思うのだが、それを言っている論文はまだそれほど多くない。

今後人工知能・機械学習などとからめて話される話題だと思うが、現状でそういった視点の論文が無いかと探していた時に、一つ面白そうと思ったのが、

Statistical search on the Semantic Web, Bioinformatics, 24(7), 1002-1010, 2008

という論文だった。


Statistical search on the Semantic Webの概要

Semantic Webによって、あるタームに関連した情報が大量に取得される。

その中でも特に関係性が強いものだけにフォーカスしたい。

そこで、Fisherの正確確率検定のp値を算出し、p値の小さいものだけを使うという方法を考えた。

この考え方を、Genotype - Phenotype間の相関を見る"GWAS"(Genome Wide Association Study)になぞらえ"SWAS"(Semantic Web Association Study)と名付けた。

また、それを実装した問い合わせ言語をGRASQL(General and Rapid Association Study Query Language)というものを実装し、この言語を内部で走らせて、あるキーワードと関係する遺伝子名を返すPosMedというシステムを別途開発した。

驚いたのは、2008年で既にこんなこと言ってたという点。BioHackathonで、Semantic Webをとりあげられ、各データベースの連携が試み始められたのが、2010年らしい(?)ことを考えると、かなり先取った論文だなという印象を受けた。

これを開発した人がたまたま同じ建物内にいたため聞いてみたところ、結果にノイズが多いらしいが(関係ないものもかなり有意になって検出される)、個人的に試みとして面白いなと思った。


参考