上位/下位1％を外れ値と定義して削除/抽出する(SPSS Modeler データ加工逆引き3-7)

Last updated at 2025-07-21Posted at 2022-07-14

上位/下位1％を外れ値と定義して削除/抽出（外れ値の処理）

・予測モデルの精度安定化のための前処理
・異常検知のためのデータ理解

a.入力するデータは以下の通りです。平均50、標準偏差10、サンプル数10,000レコードで正規分布するようにデータを発生させています。

シミュレーションノードを利用して正規分布を作成する方法は以下で解説しています。

b.[データ分割]ノードを編集します。[データ分割手段]を[分位]にして[パーセンタイル]を指定します。

[プレビュー]をします。[FIELD_TILE100]の[1]が最も値の小さい1％を[100]が最大の1%を示します。レコード数が10,000なので上位1％と下位1％にそれぞれ100レコードが該当します。

c.[グラフボード]ノードを編集します。

[グラフボード]ノードを実行します。100色の凡例がそれぞれのパーセンタイルを示します。

d.[条件抽出]ノードを編集します。外れ値のパーセンタイルを1と100と確定して破棄しています。

[プレビュー]をします。[外れ値]を破棄した9,800レコードが抽出されました。

e.[条件抽出]ノードを編集します。外れ値のパーセンタイルを1と100と確定して抽出しています。

[プレビュー]をします。[外れ値]の200レコードが抽出されました。

値が同じレコードが多数存在すると分位グループが統合されるため、分位数が指定した数にならない場合があります。