SPSS Modelerには@OFFSETという関数があります。
@OFFSETが使いこなせるようになると特徴量生成の幅が広がります。筆者もいくつかの記事でこの関数を取り上げてきました。ただ、少しややこしく、実例がないと活用方法がわかりにくいところがありますので、改めてマーケティング系とセンサーデータ系でそれぞれの典型的な利用方法を2つの記事に分けて紹介をしたいと思います。
①売上データ編
②センサーデータ編←この記事はこちら
この記事では@OFFSET関数を使って
- 1時間前の電力差
- 機械ごとの1時間前の電力差
- 機械ごとの累積加圧量
という3つのタイプの加工を行っていきます。
■サンプル
サンプルは以下に置きました。
https://github.com/hkwd/201105OFFSET/archive/master.zip
ストリーム
iot/OFFSET_IOT1.str
データ
iot/power_time_series.csv
iot/power_time_series_by_mcd.csv
iot/press_time_series_by_mcd.csv
1.1時間前の電力差
@OFFSET関数は前後のレコードを参照するという関数です。
1時間ごとの電力データを時間でソートすれば、一行前のデータは1時間前の電力ということになります。
以下のデータをつかって計算していきます。
どの機械(機械ID)がいつ(起動時間)、どういう状態(エラーコード)、何ワット(電力)で稼働していたかが記録されています。
すでに起動時間順になっているようですが、@OFFSETではレコード順序が間違っていると誤ったデータが作られてしまいます。念のため、まずソートノードをつかって、起動時間順に電力データを並べ替えます。
- ソート項目に起動時間を設定します
- 順序は昇順のままとします
次にフィールド作成ノードをつかって、1時間前電力を参照します。
- CLEM式に@OFFSET(電力,1)を入力します。これは電力データの1行前を参照するという意味です。先ほど起動時間順でデータを並べ替えましたので、1行前とは1時間前を意味します。ですのでこれが1時間前電力になります。
プレビューをしてみると以下のように「1時間前電力」という新しい列が作られ、1時間前の電力が入っていることがわかります。
後はフィールド作成ノードで1時間前電力差を計算します。
- CLEM式に電力 - '1時間前電力'を入力します
テーブルノードを接続して、結果をみると毎日の1時間前電力差が計算されています。これを見ると5時間目で-59ワットという大きな変化がみられ、その時にエラーコード101が発生していますので、101というエラーは電力量が大きく下がったときに発生するのかもしれません。
なお、今回は@OFFSETをつかって前の行との差を求めましたが、差を求めるためだけなら、以下のように@DIFFという関数一つで求めることもできます。ただ、@OFFSETなら、比をもとめるなどの別の加工にも汎用的に使えますので、ここでは@OFFSETを紹介しています。
2.機械ごとの1時間前電力差の計算
次に少し応用編です。
以下のデータをつかって計算していきます。
「1.1時間前の電力差」と同様に、どの機械(機械ID)がいつ(起動時間)、どういう状態(エラーコード)、何ワット(電力)で稼働していたかが記録されています。先ほどのデータと違うのは毎時、機械ID100、127、229の3台の機械のデータが記録されている点です。
ここから機械IDごとに1時間前からの電力差を確認したいと思います。
まずソートノードをつかって、機械IDと起動時間順に並べ替えます。
- ソート項目に機械ID、起動時間を設定します
- 順序は昇順のままとします
結果をテーブルノードで見てみると以下のように機械IDごとに起動時間順で並べられています。
次にフィールド作成ノードをつかって、1時間前電力を参照します。
- 派生モードを「CLEM式」ではなく、「条件付き」に変更します
- Ifに「機械ID = @OFFSET(機械ID,1)」を入力します。これは前の行と機械IDが同じという条件です。
- Thenに@OFFSET(電力,1)を入力します。これは電力データの1行前を参照するという意味です。先ほど起動時間順でデータを並べ替えましたので、1行前とは1時間前を意味します。ですのでこれが1時間前電力になります。
- ElseにはNULLを意味するundefを入力します。つまり機械IDが変わった場合には機械も違いますし、1時間前の電力のデータでもないので@OFFSET(電力,1)は行わずにNULLを入れるということです。これによって機械IDごとにグルーピングして集計しています。
プレビューをしてみると以下のように「1時間前電力」という新しい列が作られ、機械IDごとに1時間前の電力が入っていることがわかります。
Ifに「機械ID = @OFFSET(機械ID,1)」を入れたことで、機械IDが切り替わる11行目や21行目では1行前の電力データを参照せずにNULLが入りました。
先ほどの「1.1時間前電力差の計算」のようにIFの条件をいれないで、CLEM式でただ前の行を参照してしまうと、例えば機械ID127の1時間目の1時間前電力に機械ID100の10時間目の電力がはいってしまい、間違ったデータになってしまいますので注意が必要です。データをグルーピングしながら処理する場合には「機械ID = @OFFSET(機械ID,1)」のようなIF条件が必要になります。
後は、1時間前電力差は先ほどの「1.1時間電力差の計算」と全く同じように計算できます。
結果は以下のようになります。
機械IDごとに毎時の1時間前電力差が算出できました。1時間目の1時間前電力と1時間前電力差は存在しないのでNULLになります。
機械ID100は―59という落ち込みがあり、エラーコード101が発生していましたが、機械ID127や229はそれほど大きな落ち込みはなく、エラーコード101も発生していないことがわかります。
3.機械ごとの累積加圧量
次は累積和の考え方で機械ごとの累積加圧量を作ってみます。
以下のデータをつかって計算していきます。
どの機械(機械ID)がいつ(起動時間)、どういう状態(エラーコード)で稼働していて、その時間に圧力を何回かけていたか(加圧)が記録されています。先ほどのデータと違うのは電力ではなく加圧回数を記録していることです。
まずソートノードをつかって、機械IDと起動時間順に並べ替えます。
- ソート項目に機械ID、起動時間を設定します
- 順序は昇順のままとします
これで、機械IDごとに起動時間順にデータが並び変えられました。
次にフィールド作成ノードをつかって、各機械の累積加圧回数を作成していきます。
- 派生モードを「CLEM式」ではなく、「カウント型」に変更します
- 増分条件に「加圧>0」を入力します。
- 増分に「加圧」を入力します。つまり加圧が発生したそれを累積和として足していくという意味です。
- リセット条件には「機械ID /= @OFFSET(機械ID,1)」を入力します。つまり機械IDが変わった場合には0にリセットしなおすという意味です。
結果は以下のように機械IDが変わると0になり、それ以降加圧が発生するたびに累積和が増えていく列ができました。
機械ID100は加圧が発生しませんでしたのですべて0です。
機械ID127は3時間後、5時間後、9時間後に加圧が発生して累積では4回発生しています。そして4回発生した時点でエラーコード202が発生していますので、この累積の加圧回数が影響したのかもしれません。
機械ID229は一回加圧が発生していますが、それ以降は発生しなかったので累積加圧和は1のままで記録されていました。
4. まとめ
このように@OFFSETは
- 前後のデータを参照することで、現在の値との差や比などの特徴量をつくる
- 直前のレコードと比較することでカテゴリをグルーピングする
- さらにグルーピングしながら、フィールド作成ノードのカウントモードで累積値をつくる
ことが可能です。
■テスト環境
Modeler 18.2.2
Windows 10 64bit