IQR(四分位範囲)の1.5倍を外れ値として削除/抽出する
1.想定される利用目的
・予測モデルの精度安定化のための前処理
・異常検知のためのデータ理解
2.サンプルストリームのダウンロード
3.サンプルストリームの説明
a.入力するデータは以下の通りです。[Cate]は箱ヒゲ図を表示させるための便宜的なグループ番号です。
[データ検査]ノードを利用する方法
b.[データ検査]ノードを編集します。外れ値を4分位から1.5倍で設定し[実行]します。
[生成]メニューからスーパーノードを生成します。cが自動生成されます。
c.ズームインして条件が[破棄]されていることを確認します。
[テーブル]を実行します。外れ値を除外した99,351レコードが抽出されました。
d.ズームインして条件が[含める]になっていることを確認します。
[テーブル]を実行します。外れ値に該当する649レコードが抽出されました。
[レコード集計]ノードと[レコード結合]ノードを利用する方法
e.[グラフボード]ノードを実行します。箱ヒゲ図の上下にプロットされた丸を外れ値と定義して削除/抽出します。
f.[レコード集計]ノードを編集します。第1四分位と第3四分位を求めます。
g.[レコード結合]ノードを編集します。全てのレコードにcで求めたふたつの値を全て付与するために[レコード結合方法]は[キー]にしながら[結合キー]はブランクにします。
h.[フィールド作成]ノードを編集します。四分位範囲を作成します。
i.[フィールド作成]ノードを編集します。外れ値フラグを作ります。
k.[条件抽出]ノードを編集します。iと同じ式で外れ値を破棄しています。
[プレビュー]します。iで作成した外れ値フラグがないものだけが抽出されています。
l.[条件抽出]ノードを編集します。kと同じ式でモードを反転し外れ値を抽出しています。
[プレビュー]します。iで作成した外れ値フラグがあるものだけが抽出されています。
注意点
今回は箱ヒゲ図で利用するIQRを外れ値として利用しましたが、標準偏差を利用する方法も一般的です。
4.参考情報
データの自動準備の外れ値処理
SPSS Modeler ノードリファレンス目次
SPSS Modeler 逆引きストリーム集(データ加工)