0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

上位/下位1%を外れ値と定義して削除/抽出する(SPSS Modeler データ加工逆引き3-7)

Last updated at Posted at 2022-07-14

上位/下位1%を外れ値と定義して削除/抽出(外れ値の処理)

スクリーンショット 2022-07-10 10.39.52.png

1.想定される利用目的

・予測モデルの精度安定化のための前処理
・異常検知のためのデータ理解

2.サンプルストリームのダウンロード

3.サンプルストリームの説明

スクリーンショット 2022-07-10 10.44.40.png

a.入力するデータは以下の通りです。平均50、標準偏差10、サンプル数10,000レコードで正規分布するようにデータを発生させています。
スクリーンショット 2022-07-10 11.03.57.png

シミュレーションノードを利用して正規分布を作成する方法は以下で解説しています。

b.[データ分割]ノードを編集します。[データ分割手段]を[分位]にして[パーセンタイル]を指定します。
スクリーンショット 2022-07-11 8.51.36.png

[プレビュー]をします。[FIELD_TILE100]の[1]が最も値の小さい1%を[100]が最大の1%を示します。レコード数が10,000なので上位1%と下位1%にそれぞれ100レコードが該当します。
スクリーンショット 2022-07-11 8.53.38.png

c.[グラフボード]ノードを編集します。
スクリーンショット 2022-07-11 9.04.55.png

[グラフボード]ノードを実行します。100色の凡例がそれぞれのパーセンタイルを示します。
スクリーンショット 2022-07-11 9.05.08.png

d.[条件抽出]ノードを編集します。外れ値のパーセンタイルを1と100と確定して破棄しています。
スクリーンショット 2022-07-11 9.09.25.png

[プレビュー]をします。[外れ値]を破棄した9,800レコードが抽出されました。
スクリーンショット 2022-07-11 9.09.54.png

e.[条件抽出]ノードを編集します。外れ値のパーセンタイルを1と100と確定して抽出しています。
スクリーンショット 2022-07-11 9.10.07.png

[プレビュー]をします。[外れ値]の200レコードが抽出されました。
スクリーンショット 2022-07-11 9.11.20.png

注意点

値が同じレコードが多数存在すると分位グループが統合されるため、分位数が指定した数にならない場合があります。

4.参考情報

正規分布やワイブル分布を生成する

デシル分析(10分位)を解説した記事

SPSS Modeler ノードリファレンス目次

SPSS Modeler 逆引きストリーム集(データ加工)

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?