欠損値を中央値で置換(欠損値の補完)
1.想定される利用目的
・顧客属性データの補完
・設備IoTデータの欠損値の処理
2.サンプルストリームのダウンロード
3.サンプルストリームの説明
a.入力するデータは以下の通りです。
[データ検査]ノードを利用する方法
b.[データ検査]ノードを編集し赤枠にチェックをして実行します。
[欠損値検査]タブを開き[欠損値の代入]を[空白およびヌル値]に。[代入方法]は[固定]をクリックして[設定値のダイアログ]から[中央値]を選択します。
[生成]メニューから[欠損値スーパーノード]を選択するとcと同じものがストリーム領域に生成されます。
c.スーパーノードの中見は以下の通りです。[データ検査]ノードで選択した時点で中央値[44.6]が埋めこまれました。
統計値をテーブル結合してから置換える方法
ストリームが最新データを受けてCADSなどで自動化されることを考慮した方法です。
d.[レコード集計]ノードを編集します。[キー]はブランクで[値]の[中央値]を選択します。
e.[テーブル結合]ノードを編集します。[レコード結合方法]は[キー]をブランクにしてN対Nの結合を行います。
注意点
中央値の計算はSQLの特性上プッシュバックが効きません。処理速度を考慮して利用を検討ください。
4.参考情報
[データ検査]ノードの解説記事
SPSS Modeler ノードリファレンス目次
SPSS Modeler 逆引きストリーム集(データ加工)