欠損値を最小値/最大値で全行/カテゴリ毎に置換(欠損値の補完)
1.想定される利用目的
・顧客属性データの補完
・需要予測のための欠損値の処理
・設備IoTデータの欠損値の処理
2.サンプルストリームのダウンロード
3.サンプルストリームの説明
①全行に同じ統計量を置換する
a.入力するデータは以下の通りです。
b.[置換]ノードを編集します。欠損値(ヌル値)の場合[25.2]という値の置換えをしています。この値は
右の電卓ボタンで式ビルダを起動して選択しています。
式ビルダーの[フィールド]を[値]にしてから赤枠のボタンを押すと青枠の値の挿入ダイアログが現れます。
ここでこの時点での値の最小値が挿入できます。
[プレビュー]します。完成しましたが、この方法は元データが固定されている必要があります。
c.バッチ処理などの自動化を意識した場合には[グローバルの設定]が有効です。あらかじめ[実行]ボタンを押して統計量をセッション中のみ記憶(キャッシュ)させる方法です。
d.[置換]ノードを編集します。欠損値(ヌル値)の場合には、キャッシュされている統計量(ここでは最小値)を関数@GLOBAL_MIN(フィールド)で呼び出します。
②カテゴリ(種別)毎に統計量を置換する
f.[レコード結合]ノードを編集します。[種別]をキーにして内部結合します。
[プレビュー]します。元のテーブルにaからcまでの最大値フィールドが繋がりました。
g.[置換]ノードを編集します。値が欠損値(ヌル値)の場合には該当する最大値で置換します。
[プレビュー]します。完成しました。手動でフィールド(列)の順序を変えてありますが、[フィールド順序]で固定化して[フィルター]を利用して[値_MAX]を排除するとテーブルの置き換えが完了します。
注意点
[グローバルノード]は最初に実行する必要があります。CADSによるバッチの場合、スクリプトからそれを制御します。
bの[置換値]に@MIN(値)でも結果的に同じ結果になりますが、この関数は受け取ったレコードまでの(上方の)値の平均を意味します。
4.参考情報
[グローバルの設定]ノードの解説記事
SPSS Modeler ノードリファレンス目次
SPSS Modeler 逆引きストリーム集(データ加工)