欠損値を平均値で置換(欠損値の補完)
1.想定される利用目的
・顧客属性データの補完
・設備IoTデータの欠損値の処理
2.サンプルストリームのダウンロード
3.サンプルストリームの説明
a.入力するデータは以下の通りです。
[データ検査]ノードを利用する方法
b.[データ検査]ノードを実行します。[欠損値検査]タブを開き[欠損値の代入]を[空白およびヌル値]に。[代入方法]は[固定]をクリックして[設定値のダイアログ]から[平均値]を選択します。

[欠損値の代入]が[条件...]になった状態で[生成]メニューから[欠損値スーパーノード]を選択するとcと同じものがストリーム領域に生成されます。

c.スーパーノードの中見は以下の通りです。[データ検査]ノードで選択した時点で平均値[37.3]が埋めこまれました。

[グローバルの設定]ノードを利用する方法
e.[置換]ノードを編集します。置換条件は[ヌル値]を選択。[置換値]ではキャッシュされている統計量(ここでは平均値)を呼び出す関数@GLOBAL_MEAN(フィールド)を利用します。

式ビルダーの右にあるリストでグローバル(赤枠)を選択すると簡単に入力できます。

統計値をテーブル結合してから置換える方法
g.[テーブル結合]ノードを編集します。[レコード結合方法]は[キー]を選択しますが
実際には[キー]をブランクにしてN対Nの結合を行います。

[プレビュー]します。全てのレコード(行)に平均値の列が追加されました。

注意点
[グローバルの設定]ノードは最初に実行する必要があります。
[グローバルの設定]ノードを利用せずeの[置換値]に@MEAN(温度)でも結果的に同じ結果になりますが、この関数は受け取ったレコードまでの(上方にある)値の平均を意味します。
4.参考情報
[データ検査]ノードの解説記事
[グローバルの設定]ノードの解説記事
SPSS Modeler ノードリファレンス目次
SPSS Modeler 逆引きストリーム集(データ加工)








