はじめに
クリギングはGPRに似た空間解析手法です。Xでそれなりに関連ポストがある割にはQiitaでの関連記事が10件ほどしかなかったので、いくつかの章に分けてまとめていきたいと思います。
クリギングとは
クリギングは、地球統計学の分野から進歩した空間解析手法です。鉱山技師のD.Krigeによる、ボーリングデータから鉱物の分布を推定する研究が起源です。推定にあたり共分散関数を用いることや、ベイズ的な手法であることから、しばしばGPR(ガウス課程回帰)と関連付けられることがあります。 MLPシリーズ:ガウス課程と機械学習(名著です。是非読んでみてください。)ではガウス過程の適用として紹介されています。しかし、GPRは数理分野で進歩してかなり有名になった回帰手法であり、クリギングとは別々に進歩していったため圧倒的にGPRの方が有名です。陽がしばらく当たらなかったクリギングですが、昨今のデータサイエンスの発展により、関連論文の数は徐々に増えつつあります。
クリギングの大まかな流れ
等方性、異方性の確認
一次元方向なら良いのですが、二次元や三次元の空間を考えるとき、ある方向による観測値の寄与が、他の方向でも同じである場合は等方性、違う場合は異方性と言います。まだわかりづらいと思うので例を出します。例えば土の分布を考える時、緯度経度でベクトルを考えると、どの方向でも大して条件は変わらないので等方性ということができます。しかし、深さも考えると、ベクトルごとに分布の条件が変わってきます。これが異方性です。このように、目的変数に対して方向ごとの条件が等価であるかそうでないのかを最初に考える必要があります。
バリオグラム雲、経験バリオグラムの作成
バリオグラム雲とは、各観測値ごとのユーグリッド距離を横軸に、半分散と呼ばれる指標を縦軸に置いたときの散布図です。この散布図から、経験バリオグラムと呼ばれる、各エリアの期待値をプロットした散布図を求めます。
理論バリオグラムの選定、共分散関数の設定
先ほどのプロセスで求まった経験バリオグラムから、理論バリオグラムと呼ばれる回帰モデルをいくつか用意して、ハイパーパラメータを求め、それぞれのMSEを求めます。MSEが最小となる理論バリオグラムから、共分散関数を求めることができます。
クリギングの種類を設定
単純クリギング、普通クリギングや普遍クリギングなど、クリギングには様々な種類があります。目的変数の期待値がわかる時は単純クリギングを用います。普通クリギングは、期待値が空間によらず一定であることがわかるものの、期待値そのものはわからない時に用います。最後に普遍クリギングは、期待値と空間が簡単に回帰できるような関係の時に用いられます。明らかなトレンドがあるのに普通クリギングを行なってしまった場合、理論バリオグラムのハイパーパラメータが大きく変わってしまうので、観測データと空間をよく観察して決定することが重要です。
さいごに
次回は共分散関数の設定までを記事にしていきたいと思います。
参考文献
講談社、持橋大地ら、MLPシリーズ:ガウス課程と機械学習
コロナ社、阪田義隆、クリギング入門(こちらも名著です!)