IQR(四分位範囲)の1.5倍を外れ値として削除/抽出する
1.想定される利用目的
・予測モデルの精度安定化のための前処理
・異常検知のためのデータ理解
2.サンプルストリームのダウンロード
3.サンプルストリームの説明
a.入力するデータは以下の通りです。[Cate]は箱ヒゲ図を表示させるための便宜的なグループ番号です。

[データ検査]ノードを利用する方法
b.[データ検査]ノードを編集します。外れ値を4分位から1.5倍で設定し[実行]します。

[生成]メニューからスーパーノードを生成します。cが自動生成されます。

c.ズームインして条件が[破棄]されていることを確認します。

[テーブル]を実行します。外れ値を除外した99,351レコードが抽出されました。

d.ズームインして条件が[含める]になっていることを確認します。

[テーブル]を実行します。外れ値に該当する649レコードが抽出されました。

[レコード集計]ノードと[レコード結合]ノードを利用する方法
e.[グラフボード]ノードを実行します。箱ヒゲ図の上下にプロットされた丸を外れ値と定義して削除/抽出します。

f.[レコード集計]ノードを編集します。第1四分位と第3四分位を求めます。

g.[レコード結合]ノードを編集します。全てのレコードにcで求めたふたつの値を全て付与するために[レコード結合方法]は[キー]にしながら[結合キー]はブランクにします。

h.[フィールド作成]ノードを編集します。四分位範囲を作成します。

i.[フィールド作成]ノードを編集します。外れ値フラグを作ります。

k.[条件抽出]ノードを編集します。iと同じ式で外れ値を破棄しています。

[プレビュー]します。iで作成した外れ値フラグがないものだけが抽出されています。

l.[条件抽出]ノードを編集します。kと同じ式でモードを反転し外れ値を抽出しています。

[プレビュー]します。iで作成した外れ値フラグがあるものだけが抽出されています。

注意点
今回は箱ヒゲ図で利用するIQRを外れ値として利用しましたが、標準偏差を利用する方法も一般的です。
4.参考情報
データの自動準備の外れ値処理
SPSS Modeler ノードリファレンス目次
SPSS Modeler 逆引きストリーム集(データ加工)




