こんにちは、しゅれぬこ(@syurenuko)です。
この記事を書いている2021年3月現在、データ分析コンペプラットフォーム「Solafune」にて、「夜間光データから土地価格を予測」という非常にChallengingな内容のコンペが開催されています。
ざっくりどういうコンペか説明しますと、PlaceID(匿名化された地域ID)、Year(年)、MeanLight(その地域の平均光量)、SumLight(合計光量)の4つが与えられて、未知のテストデータのAverageLandPrice(土地価格)を予測せよといった内容です。
土地価格が決まる要因として、都市部に近い、開発が進んでいて将来性が見込めるなどの様々なものがありますが、このコンペでは夜間光からいかに正確に土地価格を予測できるのかを競います。
夜間光はその土地の経済活動と密接な関係にあるため(都市部では光は強く、地方や自然が多い地域では光は弱くなる)、経済指標として活用したり、経済動向を分析・予測するといった活用事例があるとのこと。
え、じゃあ夜間光データを使って土地価格以外にも何か予測してみよう!
と思い付いてしまったので、各国の経済状況の指標であるGDP(国内総生産)の推定ができないか試してみました。
もちろん使えるデータは「夜間光データから得られる情報のみ」です。
果たしてどれくらいの精度が得られるのか検証です!
###実行環境
Google Colabratory
今回の記事で使ったコードは全て私のGitHub上で公開しています。
###参考記事&データ出典
記事作成にあたり、以下の記事を参考にさせていただきました。
[【入門】Pythonによる人工衛星データ解析(Google Colab環境)]
(https://qiita.com/takubb/items/97b2e4ed91cf417c4a66)
Python&R: 総合データサイトDatahubの使用法, R
使用したデータサイト
Version 4 DMSP-OLS Nighttime Lights Time Series
【DataHub】Country, Regional and World GDP (Gross Domestic Product)
国土数値情報(国土交通省)
機械学習で使用したデータセットはDMSP-OLS衛星の夜間光画像(2009
年)、DataHub.ioのGDPデータ(2009年)から独自に作成しました。
#1. 夜間光データを観察してみる
まずは衛星画像から夜間光データがどのようなものなのか観察してみます。
夜間光コンペの出典が”DMSP-OLS”ということで、ここのデータセットの衛星データを使いました。
各国の夜間光、光量の分布を可視化してみます。
・日本
・ドイツ
・中国
・イギリス
綺麗ですね(小並感)
都市部に光が集中していることがよくわかると思います。
DMSP-OLS衛星には以下の特徴があります
- 解像度が1kmメッシュ
- 1kmメッシュごとに光量0~63の離散値を取る
- 63段階の光の明るさは必ずしも比例していない(63以上は飽和していて正確に反映できていない)
- 雲の影響で光を上手く検知できていない可能性がある
夜景で有名な函館市の夜間光を可視化してみました。
1k㎡のピクセルで光量が可視化されていることがよくわかると思います
#2. 特徴量生成
GDPを推定するにあたり、有効であると思われる特徴量を作成していきます。
夜間光データ縛りということで特徴量を捻り出すのが大変そうです...
ということで以下の特徴量を作成しました。
GDPとの相関も確認していきます。(図の圧倒的にGDPが高い国はアメリカです)
-
SumLight(合計光量)
光量の合計値です。合計光量が多いとその分経済活動が活発であると考えられるため、推定に寄与する特徴量になりそうです。実際にGDPとの関係を可視化すると合計光量が増えるに従ってGDPが増加する相関が確認できます。
-
MeanLight(平均光量)
その国の面積の1㎢のピクセルあたり、平均してどれだけの光量をとっているのかの数値です。必ずしも平均光量の数値が高いからといってGDPも高いとは限らないことがわかります。経済活動が活発なGDPが高い国でも、光量も上から下までバラつきがあり国土面積がある程度あると平均光量はそこまで高くならない、ということでしょうか。
-
Area(面積)
その国の面積です。面積が大きい分それに比例して経済活動の総量も増えるのでは、という仮説を立てて特徴量作成しました。(今回は1~63の光が検出された部分の合計を面積としたので実際の国土面積とは異なります。)確認してみると面積とGDPにはある程度の相関がありそうです。
-
Counts_63(最大光量である光量63の個数)
先ほどDMSP-OLS衛星の特徴で述べましたが、63段階の光は完全に比例していないため、飽和状態の可能性がある光量63に関しては別に考える必要があります。(例えば光量100相当の光であっても上限の光量63になっている)そこで光量63を取るエリアに関しては「特に経済活動が活発である」とみなし、この1k㎡のエリアがいくつあるのかカウントします。
-
Percentage_63(光量63の割合)
「Counts_63」からの流れで、全体のうちの光量63の割合です。光量63の割合が高いからといってGDPが高いことにはならないようです。
-
Variation(光量のばらつき(変動係数))
光が検出された1k㎡のエリアは1~63の値を取りますが、国によってこの63段階の光量のばらつきがどの程度なのか調べてみます(標準偏差だと面積のスケールによって値が左右されてしまうので、変動係数を用いてばらつきを調べます)
光量max付近の数値を出してる国があったので、Modeで降順ソートして調べたらこの国々でした。
マカオ、香港、シンガポールなど国土面積が狭く、経済活動が活発な国が目立ちますね。
シンガポールに至っては全体の86%が光量63...
推定に効くのか微妙なのもありましたが、パッと思いついた特徴量はこれくらいですね...
とりあえずこれで学習を回してみましょう!
#3. トレーニングデータとテストデータに分割する
トレーニングデータ(機械学習で学習するデータ)とテストデータ(GDPの推定に使うデータ)に分割していきたいと思います。
GDPですがばらつきがかなり大きかったため、GDPの外れ値(第一四分位数ー1.5×四分位範囲以下 or 第三四分位数+1.5×四分位範囲以上)を取る国は今回の検証では対象外としました。外れ値除去の結果残った171の国のデータを使っていきます
ということでtrain_test_split(test_size=0.25)でトレーニングデータ128個、テストデータ43個に分割しました。
機械学習モデルから推定されたGDPと実際のテストデータのGDPの値を比べて、夜間光データからどれくらい正確に推定できているのかを調べます。
#4. LightGBMで学習してみる
予測に当たって使用する機械学習モデルに、線形回帰やランダムフォレスト、NNなどがありますが、今回はKaggleなどの機械学習コンペの上位解法でもよく使われるGBDT系の機械学習アルゴリズム、”LihghtGBM”を使ってGDPを推定してみたいと思います。
k分割交差検証(n_split=5)で学習させます。
(データ数が少ないので学習に1秒ほどしかかかりませんでした笑)
SumLight(合計光量)が最も推定に寄与しているという結果になりました。
#5.推定されたGDPと実際のGDPの値を比べてみる
では推定されたGDPと実際のGDPを比べてみましょう。散布図を作成し、両者の値が一致している赤い直線上からどれくらい外れているのか見てみます。決定係数(1に近いほど正確に推定できている)も確認してみます。
~結果~
ほぼ正確に推定できている国もありますが、GDPが高めの国は結構ブレが大きいですね...
特徴量取捨選択するなどし、改めて学習させて一番良い結果が出たのが下図です。
散布図がさっきとほとんど変わっていないように見えますが、GDP低めの国が赤線上付近に若干のまとまりを見せたのでわずかに改善しました。
決定係数0.61...決して悪い数字ではないとは思いますが微妙です。
結論ですが、
**「夜間光データはGDPの推定に全く寄与しないわけではないけれども、精度を求めようとするとそれだけでは物足りない部分あるなぁ...」**って感じですね。
しかし、「夜間光データのみ」から作ったモデルにしてはそれなりの精度を出すことができたのではないでしょうか?
今回は夜間光データのみでしたが、他の情報(人口など)を入れてみたり、対数変換を適用したり、他の機械学習モデルを用いることで更なる精度向上を見込めると思います。
ただここまでやっておいて今更なんだという話ですが、GDPの場合だとデータ数が少なすぎるので、推定精度向上のために機械学習であれこれ試してみるデータとしては不向きな気がします。市町村レベルとかの細かいデータにしてデータ数を確保し、市町村の財政力指数を夜間光データから推定するなどにしてもよかったかもしれません。(気になった方はやってみてください)
#6. 終わりに ~衛星データの可能性~
非常に簡単なモデルでしたが、各国のGDPを大まかに推定することができるモデルを作成することができました。他にも夜間光の増減から翌年のGDPを推定するなどという時系列的な扱いをしてみても面白いかもしれません。まだまだ使い道はたくさんあると思います。
最後に衛星データの可能性について。
衛星データを用いることで夜間光に限らず包括的に地球上を観察することができます。分解能もかなり向上しており、目的用途に合うセンサも様々なものがあるため、衛星という超マクロな視点により大きなブレイクスルーが起きるかもしれません。衛星は周回して地球を回っているので、ある地域の時系列変化なども簡単に比べることができますし、何より地理的制限がないため地球上どこでも観察可能なのが最大の魅力です。
国内でも民間ロケット打ち上げの試みがあるなど、今世界中で宇宙ビジネスが盛り上がりを見せています。将来的に衛星を宇宙に飛ばす金銭的技術的ハードルが下がったら、細かいニーズに合わせた衛星を飛ばし、得られたデータを提供するビジネスが展開される...かも?
非常に将来が楽しみな分野だと個人的に感じています。
この記事が夜間光データを始めとする衛星データの可能性を少しでも伝えられたら嬉しいです。