欠損値を最頻値で置換(欠損値の補完)
1.想定される利用目的
・顧客属性データの補完
・設備IoTデータの欠損値の処理
2.サンプルストリームのダウンロード
3.サンプルストリームの説明
a.入力するデータは以下の通りです。
[データ検査]ノードを利用する方法
b.[データ検査]ノードを編集し赤枠にチェックをして実行します。
[欠損値検査]タブを開き[欠損値の代入]を[空白およびヌル値]に。[代入方法]は[固定]をクリックして[設定値のダイアログ]から[最頻値]を選択します。
[生成]メニューから[欠損値スーパーノード]を選択するとcと同じものがストリーム領域に生成されます。
c.スーパーノードの中見は以下の通りです。[データ検査]ノードで選択した時点で最頻値[a]が埋めこまれました。
統計値をテーブル結合してから置換える方法
ストリームが最新データを受けてCADSなどで自動化されることを考慮した方法です。
d.[レコード集計]ノードを編集します。[キー]に[種別]を選択します。
e.[ソート]ノードを編集します。[Record_Count]を降順ソートします。
f.[サンプリング]ノードを編集します。ソート済みのため先頭レコードの1行だけ抽出します。
g.[フィルター]ノードを編集します。後続のフィールド名の重複を回避し、不要な列をフィルターします。
h.[テーブル結合]ノードを編集します。[レコード結合方法]は[[キー]をブランクにしてN対Nの結合を行います。
注意点
dの処理で欠損値が最多のレコード数になる可能性がある場合には、それを排除する処理が必要です。
4.参考情報
[データ検査]ノードの解説記事
SPSS Modeler ノードリファレンス目次
SPSS Modeler 逆引きストリーム集(データ加工)