LoginSignup
1
1

±3標準偏差を外れ値と定義して欠損値に置換する(SPSS Modeler データ加工逆引き5-17)

Posted at

±3標準偏差を外れ値と定義して欠損値に置換する

スクリーンショット 2024-04-12 16.26.08.png

*逆引き3-6では外れ値として削除/抽出しましたが、欠損値NULLに置き換えます。

1.想定される利用目的

・予測モデル精度向上のための前処理(異常値への対処)

2.サンプルストリームのダウンロード

3.サンプルストリームの説明

スクリーンショット 2024-04-12 17.52.11.png

a.入力するデータは以下の通りです。平均50、標準偏差10、サンプル数10,000レコードで正規分布するようにデータを発生させています。
スクリーンショット 2024-04-12 18.09.50.png

[データ検査]ノードを利用する方法

b.[データ検査]ノードを編集します。[外れ値]が3標準偏差、極値は5標準偏差で初期設定されています。
スクリーンショット 2022-07-10 13.20.44.png

[データ検査]ノードを編集します。[欠損値検査]タブで外れ値が28レコード確認できました。[アクション]を[無効]にします。
スクリーンショット 2024-04-12 17.55.47.png

[生成]メニューから[外れ値および欠損値スーパーノード]を選択します。
スクリーンショット 2024-04-12 17.56.14.png

ストリーム上のcと同じノードが自動生成されます。
スクリーンショット 2024-04-12 17.56.59.png

c.[スーパーノード]を編集します。生成した10,000レコードから正確に±3σ(シグマ)を求め、外れ値を破棄するように式が埋め込まれています。
スクリーンショット 2024-04-12 18.21.25.png

[プレビュー]をします。10,000レコードから外れ値を破棄した9,972レコードが表示されます。
スクリーンショット 2022-07-10 11.07.05.png

d.[ソート]ノードを編集します。

スクリーンショット 2024-04-12 17.57.20.png

[テーブル]を実行します。3標準偏差に該当していた28レコードがNULLに置き換わりました。
スクリーンショット 2024-04-12 17.57.52.png

[レコード集計]ノードと[レコード結合]ノードを利用する方法

e.[レコード集計]ノードを編集します。
スクリーンショット 2024-04-12 17.58.16.png

[プレビュー]します。平均と標準偏差が求められました。
スクリーンショット 2024-04-12 17.58.46.png

f.[レコード結合]ノードを編集します。キーをブランクにして元データにeの統計量を付与します。
スクリーンショット 2024-04-12 17.59.06.png

[プレビュー]します。
スクリーンショット 2024-04-12 17.59.27.png

g.[置換]ノードを編集します。3標準偏差の外側のレコードを欠損値に置換します。
スクリーンショット 2024-04-12 17.59.52.png

[プレビュー]します。
スクリーンショット 2024-04-12 18.00.25.png

h.[ソート]ノードを編集します。

スクリーンショット 2024-04-12 17.57.20.png

注意点

置換する値は用途によって選択します。例えば時系列予測を行う際には予測した機械学習した結果が理論上あり得ないマイナスになる場合はゼロに置換。何らかのマイナス計上を予測材料にする場合には欠損値にして学習に考慮しないなどが妥当です。

4.参考情報

±3標準偏差を外れ値と定義して削除/抽出する

SPSS Modeler ノードリファレンス目次

SPSS Modeler 逆引きストリーム集(データ加工)

1
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1