不定期な記録の時間間隔を揃えて欠損値を補間する(線形補間)
*逆引き5-9では欠損のあるケースが限られている場合の処理を紹介しています。
1.想定される利用目的
・予約数の推定
・設備IoTデータの欠損値の処理
2.サンプルストリームのダウンロード
3.サンプルストリームの説明
a1.入力するデータの1つ目です。データの記録時間がまちまちです。
a2.入力するデータの2つ目です。aの記録開始時間から、本来観測するべき粒度(ここでは分)のデータを生成しています。
線形補間のイメージ
b.[時系列グラフ]ノードを実行します。[時系列グラフ]は不定期な情報でも線形補間表示します。
今回はこの線で示した欠損区間を改めて作成することでモデル作成などに役立てます。
推定データ作成のための準備
c.[フィールド作成]ノードを編集します。1行上の人数との差を求めるため列方向に参照するオフセット関数を利用します。[@OFFSET(フィールド,1)]でフィールドの値の1行上を参照します。
[プレビュー]します。
d.[フィールド作成]ノードを編集します。1行上から何分経過しているか差分を求めます。
[プレビュー]します。
e.[フィールド作成]ノードを編集します。1分あたりに何人増えたのかを求めます。
[プレビュー]します。
f.[フィールド作成]ノードを編集します。後続の計算のために、eの値を1レコード繰り上げます。
[プレビュー]します。
本来の時間間隔のデータに実績のあるレコードを結合
g.[レコード集計]ノードを編集します。
h.[ソート]ノードを編集します。
[プレビュー]します。
欠損値を線形に補間します。
i.[フィールド作成]ノードを編集します。欠損区間にインデックスを割り当てます。
j.[フィールド作成]ノードを編集します。欠損が始まる直前に記した単位時間あたりの増加量をインデックスにかけ算して累積します。
k.[時系列グラフ]ノードを実行します。その後の伸びをイメージしやすいように少し後続期間を設けてデータが作られています。
[テーブル]ノードを実行します。
注意点
今回はタイムスタンプを利用しましたが、時間の間隔は目的に応じて設定します。場合によっては値をあらかじめ集約する必要があります。
4.参考情報
時系列の欠損値を線形補間する
SPSS Modeler ノードリファレンス目次
SPSS Modeler 逆引きストリーム集(データ加工)