ごきげんようQiita。
何年か前にこんなブログを作ってスギ花粉の飛散量をなんとか予測できないか、と考えておりました。
この記事はその続きになります。
とは言っても前のブログをそのままここにコピペするのも芸がないので、ざっくりダイジェストを載せておきます。
花粉飛散予測モデル作成ダイジェスト
- 一般的に、翌年の花粉飛散量は前年夏季の日照量、気温、降水量によって決定すると言われている
- なんか違うっぽい、日照量と気温はかなり相関あるからどっちかで良いのでは
- そもそも『夏季』っていつのこと?
- 7月と8月は間違いなく『夏季』。この2か月間は日照量と気温がものすごく正の相関を示す
- →7月と8月だけで分析をする場合、気温か日照時間のどちらかで十分
- 6月と9月はむしろ『雨期』という第五の季節で日照量と気温に相関無し
- →6月~9月で分析をする場合、気温と日照時間の両方が必要になるかも。
- ゲリラ豪雨とか最近多いけど、これ降った量全部『降水量』に入れて良いわけ?
- 直感的には入らない方が良い気がするけど、前回の結果としてはよくわからなかった
というところで、良い感じのモデルを作る前に挫折してしまって放置していたのですが、今回はそのリベンジになります。
当時書いたのが2019年でいま書いているのが2023年。この4年間の間に日本はとんでもなく暑くなり、豪雨も増えました。
……2023年の気温は全く参考にならないかも知れないですね。暑さが尋常じゃなかった。
今回のモデル改良点は?
前回の反省を踏まえ、今回はこんな感じで(技術的なことも含め)やっていきたいです。
データ入手時期と地点、入手ソースの再設定
前回花粉の飛散量データをとった環境省の『はなこさん』が令和3年でサービス終了してしまったので、他の情報サービスを頼らなくてはいけません。
候補は以下の3か所でしょうか。
ウェザーニュース様:2022-2023まで・全国
NPO法人花粉情報協会様:2020-2023まで・全国
神奈川県自然環境保全センター様:2008-2023まで・神奈川県厚木市のみ
私は神奈川県民なので、神奈川県自然環境保全センター様のデータを使っていきましょうか。スギとヒノキのデータを公開しているようです。
そしてこちらのサイトは生データのダウンロードではできずにHPからデータを拾い集めなければならないようです。せっかくなのでPythonとか使って迷惑にならない程度にミニマムスクレイピングとかをできるように頑張っていきましょう。
気象データは信頼と伝統の気象庁様から引き続きいただきます。
豪雨の扱いをどうするか?
常識的に考えて、ゲリラ豪雨などで一気にドパッと降っても山にはその雨を吸収できるキャパシティ以上の水分を吸収できません。だから川とか氾濫するんだし。
なので豪雨の場合はどこまで雨が降ったことにするかを考えなければなりません。
そう言えば前回分析したときは、豪雨フラグとしてひとつパラメータを作って行いました。
しかし結果はあまり芳しくありませんでした。
なので今回は2通りの方法で行っていきたいと考えています。
1.前回と同じく豪雨フラグを作る
2.1日の降水量である閾値を超えたらその分はマイナスする(山に吸収されずに海に流れ出たカウントにする)
以上、これから張り切っていきましょう。