欠損したタイムスタンプのレコードを補間
秒ごとに記録された時系列データで、ある秒のレコードが抜けていることがあります。
例えば毎秒の温度センサーデータで、ある秒のセンサーが取得できなかったのでレコード自体が存在しないような場合で、以下の左のデータでは2021-12-31 23:59:59のセンサー情報が取得できなかったのでレコード自体が存在していません。これを右のデータのように2021-12-31 23:59:59で前後のデータから温度を線形補間したレコードを補間したいと思います。
この記事ではこのようにレコード自体が存在しない時系列データのレコードをSPSS ModelerのR拡張ノードを使って、補間していきます。
■サンプルストリーム
■テスト環境
Modeler 18.3
R 4.0.5
Windows 10 64bit
Rの連携のセットアップが必要です。
SPSS Modelerの拡張ノードでRを利用する
https://qiita.com/kawada2017/items/0bb68e0b577e02bb8c6a
まず補間の範囲を決めます。ここでは「レコード集計ノード」をつかって、データの最小タイムスタンプと最大タイムスタンプを求めています。
次に「拡張の変換ノード」を接続し、以下のRスクリプトを入力します。
startTS=modelerData[,1]
endTS=modelerData[,2]
modelerData<-cbind(data.frame(seq(startTS,endTS,by="sec")))
#メタデータ設定
modelerDataModel<-data.frame(X1=c(fieldName='TS',fieldLabel="",fieldStorage="timestamp",fieldMeasure="",fieldFormat="",fieldRole=""))
少し解説をします。
以下で、Modelerの1列目と2列目のデータを開始タイムスタンプ、終了タイムスタンプとして取得しています。
startTS=modelerData[,1]
endTS=modelerData[,2]
以下のseq(startTS,endTS,by="sec")でstartTSからendTSまでの秒ごとのタイムスタンプデータを生成しています。
modelerData<-cbind(data.frame(seq(startTS,endTS,by="sec")))
最後にModelerに戻すデータの列名やデータ型を指定しています。
#メタデータ設定
modelerDataModel<-modelerDataModel<-data.frame(X1=c(fieldName='TS',fieldLabel="",fieldStorage="timestamp",fieldMeasure="",fieldFormat="",fieldRole=""))
プレビューすると開始タイムスタンプと終了タイムスタンプの間のタイムスタンプデータが生成されていて、元データでは欠損していた2021-12-31 23:59:59のデータも生成されていることがわかります。
以下のように欠損していた2021-12-31 23:59:59のデータが売上がNULLで補間できました。
後は「ストリーミング時系列ノード」で線形補間を行えば完成です。「ストリーミング時系列ノード」についての詳しい情報は参考情報を参照してください。
センサーデータが存在しなかった2021-12-31 23:59:59のレコードが補間できました。
参考情報
- Rで連続する秒などのタイムスタンプのベクトルを作る - Qiita
- Rのseq関数はタイムスタンプ以外にも年月日時分秒または週毎の補間も可能です。
- SPSS Modelerで欠損した日付のレコードを補間する。売上がない日のデータ補間 - Qiita
- 欠損した日付の補間についての記事です。
- Modelerデータ加工Tips#03-欠損値に直前の値を代入または線形補間する | IBM ソリューション ブログ
- 今回は線形補間しましたが、平均など様々な補間方法を紹介しています。
- SPSS Modeler ノードリファレンス 2-10 ストリーミング時系列分析 - Qiita
- ストリーミング時系列の使い方です。