最近AutoMLが流行っていますね〜!(自分の中だけかもしれませんが笑)
東京都がオープンデータとしてデータを提供しているので、また猛威をふるっているコロナ関連の分析をDataRobotさんのAutoMLを使ってしてみたいと思います。
準備
DataRobotのトライアルアカウント作成
東京都 オープンデータカタログサイトでデータセット取得
ちゃんと利用しやすいようなデータセットが提供されていることにびっくりしました!日本すごい!!
東京都 新型コロナコールセンター相談件数のCSVをダウンロード
Data Robotで予測する
データを整える
ここにアクセスして先ほどのCSVファイルをアップロード!
しばらくするとデータが読み込まれこのような表示になります。
下にスクロールして、データセットを見てみましょう。
欠損値がない、良いデータセットですね!
モデルの選定
今回は相談件数を予測したいので、ターゲット名のところに **「相談件数」**と入力します。
今回は時系列を扱うデータセットなので、時間認識モデルを選択します。
時系列モデリングと時間外検定(OTV)が本来は選択できるようですが、トライアルでは時間外検定しか選べないみたいなので、そちらを選択してスタート!
学習
こんな感じで学習が進んでいきます。きちんと測ったわけではないですが、体感3〜5分ぐらいで学習が終わります。
評価
モデルを選択すると、いろいろなモデルで学習した結果が一覧になっています。
時系列データの場合評価のスコアが出るものと出ないものがあるようです。
予測
スコアがないので、よくわかりませんが、デプロイ推奨されているRandomForest Regressor
でデータの予測を行ってみましょう。
モデルを選択すると、ブループリントが表示されます。予測を選択します。
予測するためには未来の日付を入れたCSVをアップロードすればいいのかなと思い、先ほどダウンロードした東京都のデータセットを開いて、日付と曜日と相談件数を調整して、データを作り直します。
CSVとして、保存してアップロードします。
そうすると予測が始まり、しばらくすると予測結果がダウンロードできるようになります。
ダウンロードしてみると、row_idとPredictionが書かれたCSVができていました。
日付のCSVと横並びにして、予測値をみてみましょう。
データセットの最後の方の日付を見てみると、900前後で推移しているので、外れ値ではない大体あってそうな値になっています。
7/8以降の東京のデータセットが更新され次第、またデータを見て、予測値がどのぐらい正確なのか予測してみたいと思います。
2020/07/11 10:02 追記
予測した部分のデータが出てましたが、実測値は
7/8 => 912
7/9 => 1174となり
予測
7/8 => 961
7/9 => 958
との誤差が明らかになりました!
ここ最近の東京の感染者数が過去最大となったり、マスメディアが不安を再び煽り始めたのでそれが原因で7/9が伸びているのかもしれません。
まとめ
DataRobotを使えば、MLの知識があまりなくてもデータサイエンティスト的なことができることがわかりました!
当たり前かもしれませんが、データの品質評価もしていたりしてかなりすごいな〜と思いました。(MLではデータの前処理が大事)
また機会があれば、仕事で利用してみたいと思いました!