はじめに
10年ほど前に Animal Cells and Systems で発表された以下の論文のまとめ
[1] Jihyang Jung, Yo Shimizu, Kenji Omasa, et. al. "Developing and testing a habitat suitability
index model for Korean water deer (Hydropotes inermis argyropus) and its potential for landscape management decisions in Korea"
概要
- 韓国におけるキバノロ(korean water deer)の保全・農作物被害低減のため、生息地適性指数(HSI)モデルを作成した
- 水域・湿地からの距離、林冠被覆、傾斜、道路や市街地からの距離、土地利用などの環境変数(SIv1〜SIv9)を整備し、それらを説明変数として用いた後退ステップ法のロジスティック回帰を行った
water deerはこんな感じでツノの代わりに牙が生えている珍しいシカ。

以下の図の右側のように、対象内各地点の属性があるので、これを用いてその地点の出没確率を出すモデルを作りたい。
目標
目標はHSI modelを作成し、以下のような出没マップを求めること。
説明変数
用いた説明変数は過去の研究から以下の9つとしている。
| 記号(SIvn) | 変数名 | 意味 |
|---|---|---|
| SIv1 | Distance to water area | 水域までの距離 |
| SIv2 | Canopy cover | 林冠被覆(樹冠の被覆率) |
| SIv3 | Distance to wetlands | 湿地までの距離 |
| SIv4 | Slope | 傾斜(斜面のきつさ) |
| SIv5 | Distance to urbanized areas | 市街地までの距離 |
| SIv6 | Distance to roads | 道路までの距離 |
| SIv7 | Land use | 土地利用(地目) |
| SIv8 | Aspect | 斜面方位(向き) |
| SIv9 | Elevation | 標高 |
これらは以下のように値によって 0〜1に正規化されている。
HSI model
後退ステップ法のロジスティック回帰で回帰式を求めている。
targetの作成
キバノロが見つかった地点を発生確率1、他のあらゆる地点をランダムに選んで発生確率0とし、それらが同数になるようにtargetを設定している。
論文中に出没地点に対してカーネルをかけるなどの記述も見られるが、カーネルは可視化の際に利用しているだけか?学習のtargetとしては{0, 1}の気がする。
1回のロジスティック回帰
${\bf \beta}$ を各 $ {\rm SIvn}$ の係数として
\begin{eqnarray}
x_i^\top \beta &=& \beta_0 + \beta_1 \cdot x_1 + \beta_2 \cdot x_2 + \cdots + \beta_n \cdot x_n \\
&=& \beta_0 + \beta_1 \cdot {\rm SIv1} + \beta_2 \cdot {\rm SIv2} + \cdots + \beta_n \cdot {\rm SIvn}
\end{eqnarray}
と多項式を作り、以下のシグモイド関数をキバノロの発生確率とする。
p_i = P(y_i=1 \mid x_i) = \sigma(x_i^\top \beta)
= \frac{1}{1+\exp(-x_i^\top \beta)}
以下の対数尤度を最大化させる。
\ell(\beta)
= \sum_{i=1}^{N}\left[
y_i\log p_i + (1-y_i)\log(1-p_i)
\right]
\quad
具体的な最適化方法は論文中に見当たらず。Newton法系?
backwardなロジスティック回帰
後退ステップなロジスティック回帰なので、最適化させた後に不要な説明変数を1つずつ省いていったか?
最終的に ${\rm SIv8}$ (aspect) と ${\rm SIv9}$ (elevation)が省かれている。
以下が後退ステップなロジスティック回帰で最適化させた結果の回帰式(HSI model)。
{\rm ln} {Y/(1 - Y)} = 0.268 \cdot {\rm SIv1} + 0.5015 \cdot {\rm SIv2} + 1.550 \cdot {\rm SIv3} + 1.988 \cdot {\rm SIv4} + 0.695 \cdot {\rm SIv5} + 1.118 \cdot {\rm SIv6} + 0.011 \cdot {\rm SIv7} - 2.627
モデルの精度
Cox & Snell R²:0.089
Nagelkerke R²:0.121
p値:0.289
非生息地を当てる率:85.3%
生息地を当てる率:33.9%
感想
(samplingに関して)
- 非観測地点に比べて観測地点は圧倒的に少ないが、targetのクラスごとの数を同じとするなど samplingの工夫などで対応している点が面白い
- 今回のキバノロは山の奥地などでも満遍なく観測されているため、このような手法でも高精度になると考えられる。一方で熊のように観測される地点のほとんどが山と民家との接点付近の場合、非出没例として山の内部を選択しないなどの工夫が必要になりそう
(モデルの解像度に関して)
- 今回のHSI modelは景観・土地管理の意思決定に活かすというかなりマクロな政策のための分析であるため、マップの解像度や説明変数もそれに応じたマクロなものとなっている
- これを例えば熊の出没に利用する場合には、説明変数をよりミクロなものとする必要があるだろうか
- あるいは直近の出没情報を受けてマップが更新されるような動的なものとする必要があるか?


