1. はじめに
ICLR2023より以下の論文
[1] M. Teng, et. al. BIRD DISTRIBUTION MODELLING USING REMOTE SENSING AND CITIZEN SCIENCE DATA. ICLR2023
のまとめ
以下に注目してまとめる
- 市民観測データをどう利用するのか
- 予測モデルはどのようなものか
2. 概要
- 生物種の分布を予測するモデル
- 市民の観測データをターゲットとして利用し、入力として衛星画像(NIR)、環境データを利用する
生物種分布予測におけるタイプとしては以下のように
分布予測の対象は全領域ではなく特定のポイント(論文中でhotspotと表現)である。
3. 予測モデル
3.1 モデル全体
以下はモデル全体図。

衛星画像とはResNet系に入力し、それとは別に緯度経度をencoderに入力する。両者はconcateしてMLPし、推論する。
3.2 生物観測データ、環境データの取得
各hotspotにおける生物観測データ、環境データ(気候データと土壌データ)を取得する
こんな感じか?

3.3 衛星画像・環境データのmodel(ResNet-18)
モデルの一部はResNet-18を用いる。このモデルへのinputとして
- 衛星画像(NIR)
- 環境データ(気候データ、土壌データ)
を利用する。よってNeural Netに入力できるよう、衛星画像はhotspotを中心に切り取り、気候は画像化して1channelに、土壌も画像化して1channelとし、計3channelとする。
以下はResNet-18への入力のイメージ。
3.4 緯度経度のencoder
以下のような[2]に記載されたencoderと同一のものを用いている。
外観すると、緯度経度をsin, cosでwarpし、それをresidualなMLPに送っている。
3.5 生物の範囲情報を利用
生物種によっては「この範囲に生存する」という情報があるので、(推論時?学習時?)に存在しない範囲にはmaskをかけて確立0とする。
3.6 soft-masking
ablation studyで効果が無いようなので略。
loss
binary cross entropy とする。$y_h^s$ をホットスポット h、生物種 s における生存の有無、$\hat{y}_h^s$ をその推論確立として、
\begin{eqnarray}
\mathcal{L}_{CE} &=& \frac{1}{N_h} \sum_h f(n_h) \mathcal{L}_{h} \\
&=& \frac{1}{N_h} \sum_h \sum_{s(species)} f(n_h) \left( -y_h^s \log (\hat{y}_h^s) - (1-y_h^s) \log (1-\hat{y}_h^s) \right) \\
\end{eqnarray}
とする。$f(n_h)$ は観測者が多いホットスポットほどより重要とするための重み関数。
メトリクス
MSE, MAE, Top-k, Top-30, Top-10で評価する。
後者2つは観測者数の多い30種、または10種で推論値の確率の高いものとを比較してaccuracyを求める(?)
3番目はホットスポットによっては生物種が少ない点を考慮して、ホットスポットで観測された k 種のみとする場合。
結果
以下は各要素ごとの5つのメトリクス値。
要点をまとめると
- 衛星画像のみより環境変数のみの方がおおよそ精度が良い
- 衛星画像+環境変数の方がいずれか単体より精度が良い
- これにRM(生物種の範囲データ)を加えたものは最も精度が良い
- 緯度経度情報を加えても精度が上がったとは言い難い
- 観測者数によるhotspotごとのlossへの重み付けは効果が微妙
というところか。
感想
市民の撮影したデータを使う手法ということで興味を持って読んでみたが、それをtargetとして利用しているだけのようだ。
そうすると、そのような手法自体が有効かどうかの判定がほしいが、他の手法との比較がなされていない。
一方で、衛星画像の使い方やそれに環境変数のスカラーを加える手法など、学ぶ点は多い。
reference
[2] Oisin Mac Aodha, Elijah Cole, and Pietro Perona. Presence-only geographical priors for fine- grained image classification. In Proceedings of the IEEE/CVF Internatio。nal Conference on Com- puter Vision, pp. 9596–9606, 2019.



