KCCS APIサービスの過去気象予報を利用した太陽光発電量予測について、過去の記事で一般的に日射量と太陽光発電量に相関関係があるといわれているため日射量をつかって予測する、とのべました。
今回は、一般的にいわれている太陽光発電量と日射量の相関関係がある説は正しいのか、Google CloudのAutoML Tablesをつかって検証してみたいと思います。
###データ作成
まずは、上記の記事を参考として、1時間ごとの過去気象予報と発電量のデータを作成します。
####項目一覧
項目名 | 内容 |
---|---|
timestamp | 対象日時 |
pv | 1時間の発電量 |
wind_speed | 風速(m/s) |
wind_direction | 風向(360度) |
temperature | 気温(℃) |
humidity | 相対湿度(%) |
rain | 降雨量(mm/h) |
total_cloud | 全雲量(%) |
upper_cloud | 上層雲量(%) |
middle_cloud | 中層雲量(%) |
lower_cloud | 下層雲量(%) |
isolation | 日射量(W/m^2) |
altitude | 南中高度 |
angle | 南中角度 |
###AutoML Tablesでのトレーニング
上記ファイルをAutoML Tablesでトレーニングしてみます。
ターゲット列(目的変数)に「pv」を設定し、その他は特徴量とします。
###トレーニング完了後
####精度
トレーニングが完了すると、精度が表示されます。
r^2※1をみると、精度は良さそうです。
※1: r2乗(r^2)は、ラベルと予測値間のピアソン相関係数の2乗です。この範囲は 0~1 で、値が高いほど高品質のモデルであることを示します。
####特徴量の重要度
トレーニングが完了すると、特徴量の重要度が出力されます。
###考察
やはり、日射量が最も相関があることがわかります。
南中高度も相関がありそうですが、昼間に発電することを考えると、擬似相関ともいえるのでは、と考えました。
風速が他の特徴量と比較して高いことが想定外でした。
こちらの原因を探ってみるのも面白いのかな、と思いました。
逆に、降雨量がほとんど相関がない、というのも想定外でした。
降雨量をそのまま特徴量として使うのは適切ではないのかもしれません。
AutoML Tablesは、どの特徴量が有効なのか分からないとき、そもそも、これらの特徴量を使ってどの程度、精度が高いモデルを作れるのかをみる時に有効かと思います。