LoginSignup
0
0

欠損値を最頻値で置換する(SPSS Modeler データ加工逆引き5-5)

Last updated at Posted at 2022-07-06

欠損値を最頻値で置換(欠損値の補完)

スクリーンショット 2022-07-06 14.05.54.png

1.想定される利用目的

・顧客属性データの補完
・設備IoTデータの欠損値の処理

2.サンプルストリームのダウンロード

3.サンプルストリームの説明

スクリーンショット 2022-07-06 14.07.12.png

a.入力するデータは以下の通りです。

スクリーンショット 2022-07-06 14.09.47.png

[データ検査]ノードを利用する方法

b.[データ検査]ノードを編集し赤枠にチェックをして実行します。
スクリーンショット 2022-07-06 14.10.02.png

[欠損値検査]タブを開き[欠損値の代入]を[空白およびヌル値]に。[代入方法]は[固定]をクリックして[設定値のダイアログ]から[最頻値]を選択します。
スクリーンショット 2022-07-06 14.14.52.png

[生成]メニューから[欠損値スーパーノード]を選択するとcと同じものがストリーム領域に生成されます。
スクリーンショット 2022-07-06 14.16.42.png

c.スーパーノードの中見は以下の通りです。[データ検査]ノードで選択した時点で最頻値[a]が埋めこまれました。
スクリーンショット 2022-07-06 14.37.47.png

[プレビュー]します。欠損値が最頻値に置き換わりました。
スクリーンショット 2022-07-06 14.38.41.png

統計値をテーブル結合してから置換える方法

ストリームが最新データを受けてCADSなどで自動化されることを考慮した方法です。

d.[レコード集計]ノードを編集します。[キー]に[種別]を選択します。
スクリーンショット 2022-07-06 14.40.00.png

[プレビュー]します。最頻値はaです。
スクリーンショット 2022-07-06 14.40.38.png

e.[ソート]ノードを編集します。[Record_Count]を降順ソートします。
スクリーンショット 2022-07-06 14.41.22.png

f.[サンプリング]ノードを編集します。ソート済みのため先頭レコードの1行だけ抽出します。
スクリーンショット 2022-07-06 14.41.40.png

g.[フィルター]ノードを編集します。後続のフィールド名の重複を回避し、不要な列をフィルターします。
スクリーンショット 2022-07-06 14.41.54.png

h.[テーブル結合]ノードを編集します。[レコード結合方法]は[[キー]をブランクにしてN対Nの結合を行います。
スクリーンショット 2022-06-29 17.33.40.png

[プレビュー]します。
スクリーンショット 2022-07-06 14.42.39.png

i.[置換]ノードで欠損値を最頻値に置換えます。
スクリーンショット 2022-07-06 14.43.00.png

[プレビュー]します。欠損値が最頻値に置き換わりました。
スクリーンショット 2022-07-06 14.43.29.png

注意点

dの処理で欠損値が最多のレコード数になる可能性がある場合には、それを排除する処理が必要です。

4.参考情報

[データ検査]ノードの解説記事

SPSS Modeler ノードリファレンス目次

SPSS Modeler 逆引きストリーム集(データ加工)

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0