Big Collaborations to generate Big Data to answer Big Questions
2018年に出されたとある論文から引っ張ってきた1節です。IT化が進んだ結果、現在世界の様々な生物の情報をまとめたデータベースが誕生しています。こうした今までではできなかったような壮大な研究のアプローチやアイデアの実現を可能にしました。こうしたオープンデータをメインに用い、より大きな課題に応える研究は増えていくものと予測します。特に現在は散財しているオープンデータを上手く繋げ、アイデアによって大きな問に答えるような研究は求められているのではないのでしょうか?
その上で、本ノートでは生態学及びその周辺分野にいる人が自らの研究に取り込めそうな便利なオープンデータをまとめていきたいと考えています。このノートで紹介するデータベースには、全世界的なデータベース(英語)と、日本国内限定のデータベースのふたつがあります。日本国内限定のデータベースには名前の後にJPをつけていきます。
当ノートではできるだけ根拠ある考えを示したいと考えていますが、誰かから小耳に挟んだようなソースが不確かな情報もあります。その場合は曖昧な情報である旨を記したいと考えていますが、確固たるソースの有無どちらにせよ内容の正確性は保証していません。
生物の分布
生物がどこに出現したかの情報が蓄積されているデータベースの紹介です。
GBIF
世界中の生物の在データ(ポイントデータ)を、CSV形式で手に入れる事ができるオープンデータです。2020年9月7日現在、16億件の記録が集積されています。各データは博物館の標本データから研究者や市民による観察データによって収集されています。また、「維管束植物のデータ」、「ここからあっちまでの地理的範囲の中にあるデータ」といった具合に細かいフィルターをかけてデータをダウンロードする事できる、各ダウンロードごとにユニークURLがつき自由に再現できる、GBIFを引用した論文を簡単に探すことができる、などなど痒い所に手が届くようなサイト設計になっていて使いやすいです。
その反面、在データ自体には「分類群的・地理的・時間的」なバイアスが複合的にかかっており、バイアス処理などが必要です。今度、また自分が施している処理をまとめてみたいと思います。
IUCN
各種生物種の分布データをSHP形式ないしCSV形式でダウンロードできる。GBIFデータと違い、ポリゴン(範囲が明示されたデータ形式)で配布されている。ポリゴンデータなら在不在がわかるんじゃね?って思うかもしれませんが、IUCNでのポリゴンデータはEOO(Extent of Occurrence)という在データの範囲を示す物であってAOH(Area of Habitat)という在不在データを示した物ではないことに注意が必要です。また、GBIFと比べた際に種数も少なくなります。しかし、個人的には一つ一つのデータの質はGBIFよりもいいのではないかと感じています。そういえばIUCNもGBIFもどちらも割と似ていて使えそうだよーって言っている論文(引用5)が去年出ていました。
植生調査 (JP)
日本の維管束植物の正確な分布データが分かります。SHPファイル形式。容量が膨大すぎて使い切れていませんが、他の研究者の方から結構使えるのではないかという評判を小耳に挟みます。
gis.biodic.go.jp
GenBank
GenBankとは塩基配列データを蓄積・配布しているデータベースです。似たようなものとしては欧州版(EMBL)、日本版(DDBJ)があります。ごちゃごちゃした素敵な生物の分類屋さんやバイオインフォマティクス系の人がよく使うツールなんじゃないのでしょうか? 結構生態学との関連性は低いように思われます。かく言う自分も利用したことがないので、データの操作性やサイトとしての性能はわかりません。
しかし、最近集団遺伝学や生物地理学でGenBankを使った研究を見受けます。特に衝撃的だったのが2016年Scienceの論文です。GenBankを用いた事で世界の生物の遺伝的多様性の地理的パターンを発見・報告しました。今までのバイオインフォマティクスに囚われない新しい塩基配列データベース利用方法です。GenBankと生態学を繋げる重要な論文だと思いました。確かに生物の在不在だけではなく遺伝データも用いて研究を進めれば解像度も高くなりそうです。
きっと大量の遺伝子データを上手く利用するのは大変ですが(論文の著者らもそれを指摘していました)、それらを上手く繋げたら価値のあるとても大きな問に答える事ができるようになるのではないのでしょうか。また、現在植物に関してはアメリカ大陸限定でSSRを系統地理に使う用として公開するデータベースがあります(引用8)。
National Center for Biotechnology Information
www.ncbi.nlm.nih.gov
その他
この他にもS-NetみたいなGBIFの亜種みたいなデータベースや、地域限定の在不在データベース等が存在しています。例えば自然史発祥の国、イギリスにおいては10 kmグリッドベースに植物の出現がまとめられています。
環境要因
任意のある緯度経度地点の環境情報を知る事ができるデータベースの紹介です。「」の中には知ることができる環境情報を収納しています。
WorldClim2 「降水量・平均気温・標高」
カリフォルニア大学デービス校のロバート作成ツール。全世界の気候情報(年平均気温、降水量、年変動、など)をメッシュごとに配布しています。世界中って凄くないですか?しかも、30秒(≒ 1 km)スケールという仔細なスケールで配布されています。また、古代の気候からIPCCの各シナリオに合わせた将来の推定気候値も出してくれます。そんな汎用性により生態ニッチモデリングの論文では非常によくみかける有用ツール。ファイルを配布はGeoTiff形式。標高データも同解像度で配布しています。なお、Rから直接簡単に利用できるようにパッケージも整えられています。
USGS 「標高」
いくつかのモデルやプロジェクトに沿った標高数値モデルをダウンロードできます。NASAによるSRTM (Space Shuttle Radar Topography Mission)が現在世界で最も正確な標高数値モデルと言われており、30mグリッドスケールでの標高が分かります。この他にもNASAとJAXAによるASTER(Advanced Spaceborne Thermal Emission and Reflection Radiometer)の数値標高モデルも使うことが可能です。後者はSRTMと比べて険しい山間部で強いらしいです。
また、標高を知りたい個体が1000個体以下とかならば、Rの{elevator}とかを使ったほうが早いし楽。
メッシュ2010 (JP)「降水量・平均気温」
WorldClimの日本版。SHP形式で配布。気象庁が作成し、国土交通省の国土数値情報で配布されている気候データ。ほんとかどうかは知らないけど、日本に特化しているんだからWorldClimよりは精度がいいんじゃないかっていう話を聞きます。しかし、なぜか小笠原諸島が範囲に入っていません。あと古代気候や未来の気候もわかりません。
日本語だから使いやすいのと、メッシュコードが付随しているから他のデータセットとの統合等が簡単and時間がかからない点が嬉しい。
国土数値情報ダウンロードサービス
nlftp.mlit.go.jp
標高・傾斜度 5次メッシュ (JP) 「標高・斜度」
250 mグリッドスケールで各セルの「平均・最大・最小」標高や「平均・最大・最小・向き」斜度と言った情報が得られるオープンデータ。SHP形式で配布。これもメッシュコードがついているため、他のデータとの結合が楽。気候メッシュ2010と結合する場合は
-
「標高・傾斜度 3次メッシュ」と「メッシュ2010」を結合し、「結合①」を作成
-
「結合①」に標高・傾斜度 5次メッシュを結合し、3次メッシュと5次メッシュの標高差を加味して平均気温を補正するといい感じになると思いましたが、その差は小さかったです(豆知識)。
国土数値情報 | 標高・傾斜度5次メッシュデータ
nlftp.mlit.go.jp
その他
国交省の国土数値情報データでは、日本各地の様々な環境情報を得ることができて便利です。
国土数値情報ダウンロードサービス
nlftp.mlit.go.jp
また、世界の各種環境要因データベースはたくさんあるみたいです。下記サイトでは分類ごとに様々なデータベースに繋がるリンクが貼ってあり、便利です。
解析データ共有
各調査の解析データ・観察データを一般公開したデータベースの紹介になります。GenBankなんかも本来はこっちで紹介するべきデータベースだったかもしれません。
TRY
研究室に溜まっている植物の形質データを集めてまとめ、公開したデータベース。1億件以上の形質情報が集まっています。たまにとんでもない計測データが含まれていることがありますが、ざっくりとしたエラー判定(ズレの程度)を示してくれます。
群集生態といった研究の枠組みにおいて、多種に形質情報を付与しようとするとかなり多くの形質にNAが付与されたり、1種一つの形質に複数の形質値が付与されたりと、その後の解析を泣かせててきます。。
ILTER / JaLTER (JP)
ILTER (International Long Term Ecological Research Network: 国際長期生態学研究ネットワーク)
様々な観測サイトにおける様々な生物学的データが収集・配布されているデータベース。ILTERが世界的なネットワークで、JaLTERはその日本支部というイメージです。毎木調査、リター調査、昆虫相、トラップ、水収支などと様々なデータタイプがあります。しかし、データごとにフォーマットが違っており、同じ毎木調査でも列名が大きく異なるなど扱いづらいです。たまにPDFのみのデータが落ちており、びっくりします。大量のデータを縦断的に集めるには向いていないというのが個人的な印象です
ILTER: www.ilter.network
JaLTER: http://www.jalter.org/
モニタリングサイト1000 (JP)
環境省主体のモニタリング。約1000箇所に観測サイトを設置し、長期モニタリングを実行しています。結構いろいろな植生でいろいろな調査をやっているみたいです。それぞれの調査ごとに測定項目や提出フォーマットが定められ統一されているため、その後の結合といった解析処理がやりやすいです。
その他
data.worldのウェブサイトでは各調査データが単発で載っていたりします。練習用には適しているかもしれません。
最後に
ここまでたくさんのデータベースを紹介しましたが、もっとたくさんデータベースが存在しています。ご自分で探してみてください。
今度更新する際は、GBIFのデータベースとメッシュ2010のデータベースの結合をRで行う方法などについて述べたいと思います。
引用・参考文献
-
Funk, V. A. (2018). Collections-based science in the 21st Century. Journal of Systematics and Evolution, 56(3), 175–193. https://doi.org/10.1111/jse.12315
-
Meyer, C., Weigelt, P., & Kreft, H. (2016). Multidimensional biases, gaps and uncertainties in global plant occurrence information. Ecology Letters, Vol. 19, pp. 992–1006.
-
Brooks, T. M., Pimm, S. L., Akçakaya, H. R., Buchanan, G. M., Butchart, S. H. M., Foden, W., … Rondinini, C. (2019). Measuring Terrestrial Area of Habitat (AOH) and Its Utility for the IUCN Red List. Trends in Ecology and Evolution, Vol. 34, pp. 977–986.
-
Mapping Standards and Data Quality for the IUCN Red List Categories and Criteria. (2018).
-
Alhajeri, B. H., & Fourcade, Y. (2019). High correlation between species‐level environmental data estimates extracted from IUCN expert range maps and from GBIF occurrence data. Journal of Biogeography, 46(7), jbi.13619.
-
Miraldo, A., Li, S., Borregaard, M. K., Flórez-Rodríguez, A., Gopalakrishnan, S., Rizvanovic, M., … Nogués-Bravo, D. (2016). An Anthropocene map of genetic diversity. Science, 353(6307), 1532–1535.
-
Kattge, J., Díaz, S., Lavorel, S., Prentice, I. C., Leadley, P., Bönisch, G., … Wirth, C. (2011). TRY - a global database of plant traits. Global Change Biology, 17(9), 2905–2935.
-
Lawrence, E. R., Benavente, J. N., Matte, J. M., Marin, K., Wells, Z. R. R., Bernos, T. A., … Fraser, D. J. (2019). Geo-referenced population-specific microsatellite data across American continents, the MacroPopGen Database. Scientific Data, 6(1), 1–9.