世の中にはたくさんの生物系DBがあります。それぞれどんな時に活用できるのか、著者の実例をご紹介いたします。参考になりますと幸いです。
NCBI
ゲノムや遺伝子の情報など、様々なジャンルに特化したDBを持つ総合DBです。DDBJ、EBIを含めた3つは各国主導のもと活動が盛んで、また連携をとっているため大量のデータが集まっています。
キーワードに対して何の情報が存在するのかを確認する
求める情報がどの個別DBにあるかわからずともキーワードで横断検索できるので、例えば「ゲノム配列がDBに登録されているか」といったことがわかります。
例)「metagenome」で検索
https://www.ncbi.nlm.nih.gov/search/all/?term=metagenome
metagenomeはTaxonomyにもあるんです。
DDBJ
シーケンスデータのダウンロード
DRAでは公開されているシーケンスデータを様々な条件で絞り込んで、ダウンロードできます。解析を試してみたい、論文に使われたデータを実際に見てみたい、こんな条件でシーケンスがされた事例があるのか、といったときに便利です。
例)Humanのシーケンスデータ
https://ddbj.nig.ac.jp/DRASearch/query?organism=Homo%20sapiens
Ensembl
リファレンス収集
種別ページに関連情報が集まっており、変異解析を行う際など、全てのデータに簡単にアクセスできます。また、ゲノムリファレンスを基準に集められているため、ダウンロードしたアノテーション情報を使って間違ったゲノム位置の情報を参照してしまう、といったミスも防げます。
例)Humanのページ
https://ensembl.org/Homo_sapiens/Info/Index
植物はサブドメインのページがあります。
https://plants.ensembl.org/
対応表を作成1
BioMartを使って対応表が作れます。Gene IDに対するProtein IDを見たり、GO term を付けたりできます。Ensemblのバージョン、生物種を選択してしばらく待つと、Attributesなど設定が可能な内容が出てきます。
UCSC
WEB上でゲノムデータ描写
Genome Browserでリファレンスを準備する必要なく閲覧できます。アノテーション情報が豊富で、個別に表示/非表示切り替えができます。さらに自身の持っているデータを使ってトラックの追加も可能です。
対応表を作成2
Table BrowserでBioMartのように表の作成が可能です。それぞれカラム列に選べる情報が異なるので、ほしい情報に合わせてどちらを使うかを選びます。