Rummageneとは
Rummageneは遺伝子セットを入力して、PMCの論文内にある遺伝子セット(Supplementary_tableなど)を検索できるWebツールです。
またPubMed Central (PMC)はNBCIが管理する生物学のジャーナルのオンラインアーカイブです。オープンアクセスですので、自由に閲覧が可能です。
一般に、遺伝子セットから直接論文を検索することは難しいです。また、ある論文とどの程度遺伝子が類似しているのか、その$P$値はいくらか計算するには膨大な手間がかかります。
Rummageneは500万本以上の論文を読み込んでおり、遺伝子セットからPMC内の論文に収録された遺伝子の類似度や$P$値を計算することができます。また論文単位ではなく、論文内のSupplementary data単位での類似度も計算してくれます。Rummageneは論文をタームとするEnrichment解析だと思ってよいでしょう。
注意
プレリリース版がある場合、二重に遺伝子セットを抽出してしまう場合があるそうです。(2023/10/23 確認)
Rummageneの使い方
Rummageneにアクセスすると、下の画像のような画面が出てきます。
オレンジ色の枠のところに、改行区切りで遺伝子を入力しましょう。遺伝子はEntrez gene symbolにしましょう(ABCA1など)。もしくは、緑色のボタンからテキストファイルで遺伝子を入力することができます。
遺伝子を入れ終わったら、水色のSUBMITボタンを押して解析を始めましょう。今回はexampleの遺伝子セットを入力しました。しばらく待機した後、下の画像のような結果が出てきます。
それぞれ論文のIDとタイトル、ヒットした表や$P$値などが記されています。Paper行にあるPMC……をクリックすれば、論文のページに飛べます。Supporting Table行のファイル名を押せば遺伝子表をダウンロードできます。ほかにもOverlapをクリックすれば重複した遺伝子を得られるなど、このページだけで完結できて便利です。
また補正$P$値の順に並んでおり、遺伝子セットがより似ている順に並んでいると思ってよいでしょう。$P$値はフィッシャーの正確確率検定で計算され、BH法で補正されています。
また表の右上にある検索を使えば論文のタイトルで結果にフィルターをかけることができます。例えば、新型コロナウイルス関連について知りたいとき、[ COVID-19 ]と検索すれば、
COVID-19がタイトルに含まれる論文のみ表示されました。Rummageneでは大量のタームが手に入るので、適宜検索して結果を絞りましょう。
その他のRummageneで出来ること
サイト右上にあるAboutに行くと、GraphQL API経由でWeb APIが公開されています。大量の解析結果をダウンロードしたいときは、APIを使いましょう。
またAboutの左にあるDownloadからはRummageneのデータセットがgmt形式で配布されています。ファイルのサイズはかなり大きいですが、GSEAやclusterProfilerなど外部ツールでRummageneを利用できます。
参考文献
Daniel J. B. Clarke, Giacomo B. Marino, Eden Z. Deng, Zhuorui Xie, John Erol Evangelista, Avi Ma’ayan.
Rummagene: Mining Gene Sets from Supporting Materials of PMC Publications
bioRxiv 2023.10.03.560783; doi: https://doi.org/10.1101/2023.10.03.560783