BigQueryMLとScheduled Queryで機械学習モデル運用を自動化しよう

Last updated at 2018-12-10Posted at 2018-12-10

こんにちは、この記事はGCPアドベントカレンダー10日目です。

はじめに

今年はBigQueryGIS、BigQueryMLという大きいリリースがあり、どんどんBigQueryが便利になっていきますね。
中でもBigQueryMLは、SQLのように一連の機械学習プロセスを実行できるということで、かなり注目が集まっていると思います。

今回はBigQueryMLで構築した機械学習モデルについて、同じく今年リリースされたScheduled QueryというBigQueryの新しい機能を用いて、その後のモデル運用プロセスの一部を自動化できるのでは？というお話です。

公式Docs：
・ すべての BigQuery ML ドキュメント
・ クエリのスケジューリング

機械学習モデルを構築し終わった後、することって何？

一般的な機械学習プロセスは、以下の図のようになります。
データの下処理、モデルの構築、そしてそれが未知のデータについても適合することの検証という流れを数回繰り返し、実際に予測モデルをデプロイし予測をしていくというプロセスになります。

しかし、デプロイして終わりではありません。
その後モデルを運用していくためには、性能をモニタリングし続けることが必要です。
それは、デプロイした時には性能が十分だったモデルでも、時間の経過と共にデータの特性が変化し、新しいデータに対しての性能が不十分になってしまう可能性があるからです。

これって毎回そんなに時間は取られないけれども定期的にやってくるルーティンワークで、手動でやろうとするとすごく面倒くさそうですよね。

そこで、そんなところに時間をかけず、Scheduled Queryを使って自動化してしまいましょう！

Scheduled Queryによる自動化

今回は、BigQueryMLでモデルを構築済みの状況を想定します。
モデルの作成方法など、気になる方は公式ドキュメントを読んでみて下さい。（最初の方にリンクあります）

Scheduled Queryは、その名の通り、特定のクエリを定期的に実行し、その結果をテーブルに保存したりできるものです。
詳しい仕様などここでは述べませんので気になる方はドキュメントを読んでみて下さい。書き込み先のテーブル名の指定や、実行間隔など、設定は簡単です。

また、テーブルへの書き込み形式も設定でき、全て置き換える場合と既存のテーブルに追加する場合を選択できます。（今回は後者）

それでは、具体的に仕込むクエリを描いてみます。
例えば、こんな風にBigQueryMLのML.EVALUEATE関数を使ったコードをScheduled Queryで設定します。（下の例は3ヶ月毎の実行を想定してます。）

SELECT
  CURRENT_DATE() AS run_date,
  mean_squared_error,
  r2_score,
  ...
FROM
  ML.EVALUATE(MODEL `モデル名`,
    (
    SELECT
      ...
    FROM
      `テーブル名`
    WHERE timestamp BETWEEN CURRENT_DATE() AND DATE_ADD(CURRENT_DATE(), INTERVAL 3 MONTH)))