SPSS CADSでカテゴリ値の予測については標準の機能で劣化検知を検知する、モデルリフレッシュが可能です。
回帰などの数値予測のモデルにもこの方法を利用することができます。
更新するモデルを持つストリームの解説
以下のように「温度1-5」と「圧力1-5」を説明変数にして、「濃度」を予測するモデルを作っています。
以下のような回帰モデルになっています。とりあえず、切片が「1.304」であることに注目しておいてください。学習データが変わってモデルが更新されればこの値は変わるはずです。
ストリームプロパティの「展開」では以下を設定しています。
展開タイプ:「モデル更新」
スコアリングノード:スコアリング後のエクスポートノード。この例では「テーブル」
モデリングノード:モデルを作成したモデリングノード。この例では「濃度」
モデルナゲット:スコアリング枝のモデルナゲット。この例では「濃度」
モデルリフレッシュジョブの作成
まず、フォルダを選んで、右クリックで「新規」_「ジョブ」で作成します。
そして、名前を付けます。ここでは「濃度予測モデルリフレッシュ」としました。
ジョブ変数でFILENAMEを定義しておきます。モデルの更新に使うためのファイル名を指定します。
ストリームを配置し、ジョブステップ名は「濃度予測モデルリフレッシュ」を指定しました。
Modeler Serverとコンテンツリポジトリ―サーバー(CADSレポジトリ)のサーバーと実行ユーザーを指定します。
「タイプ」を「モデルの管理」で「更新」とし、二つのモデルナゲットを更新対象とするチェックを付けました。これはストリーム内の二つのモデルナゲットを更新するという意味です。
なお、「モデルの管理」にするとストリームにあるModelerスクリプトは作動しません。スクリプトをつかって加工したいデータがある場合は、事前のジョブステップであらかじめ加工しておくようにしてください。
「データファイル」タブに移り、
sensorhist.csvノードには「${JobVariable.FILENAME}」としてジョブ変数を指定します。
つまりモデルを再学習するために使う学習データをジョブ変数で与えることを意図しています。
モデルリフレッシュジョブの実行
設定ができたので「保存」で保存をして、「オプションありでジョブを実行」してみます。
FILENAMEに「sensornew.csv」を指定します。これは「sensornew.csv」を使ってモデルを作り直すことを意図しています。
更新されたモデルの確認
ジョブ実行が成功したら、Modelerで更新された最新バージョンのストリームを取得してみます。
確かに回帰係数が変化し、モデルが更新されました。元のモデルの切片は「1.304」でしたが、更新されたモデルでは「1.43」になっています。
サンプルストリームやデータ
- テスト環境
- Modeler 18.4
- CADS 8.4
- Windows 2019
参考情報
CADSでMLOps#4モデルリフレッシュ #SPSS - Qiita