0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

±3標準偏差を外れ値と定義して削除/抽出する(SPSS Modeler データ加工逆引き3-6)

Last updated at Posted at 2022-07-13

±3標準偏差を外れ値と定義して削除/抽出(外れ値の処理)

スクリーンショット 2022-07-10 10.41.20.png

1.想定される利用目的

・予測モデルの精度安定化のための前処理
・異常検知のためのデータ理解

2.サンプルストリームのダウンロード

3.サンプルストリームの説明

スクリーンショット 2022-07-10 10.43.52.png

a.入力するデータは以下の通りです。平均50、標準偏差10、サンプル数10,000レコードで正規分布するようにデータを発生させています。
スクリーンショット 2022-07-10 11.03.57.png

シミュレーションノードを利用して正規分布を作成する方法は以下で解説しています。

[データ検査]ノードを利用する方法

b.[データ検査]ノードを編集します。[外れ値]が3標準偏差、極値は5標準偏差で初期設定されています。
スクリーンショット 2022-07-10 13.20.44.png

[データ検査]ノードを編集します。[欠損値検査]タブで外れ値が28レコード確認できました。[アクション]を[破棄]にします。
スクリーンショット 2022-07-10 11.05.37.png

[生成]メニューから[外れ値および欠損値スーパーノード]を選択します。ストリーム上のcと同じノードが自動生成されます。
スクリーンショット 2022-07-10 13.21.12.png

c.[スーパーノード]を編集します。生成した10,000レコードから正確に±3σ(シグマ)を求め、外れ値を破棄するように式が埋め込まれています。
スクリーンショット 2022-07-10 11.06.29.png

[プレビュー]をします。10,000レコードから外れ値を破棄した9,972レコードが表示されます。
スクリーンショット 2022-07-10 11.07.05.png

d.cで破棄した外れ値を[含める]に反転しています。
スクリーンショット 2022-07-10 11.07.25.png

[プレビュー]をします。[外れ値]に該当する28レコードが抽出されました。
スクリーンショット 2022-07-10 11.07.55.png

[グローバルの設定]ノードを利用する方法

e.[グローバルの設定]ノードを編集します。平均と標準偏差を求めて、セッション中にメモリ上にキャッシュさせます。
スクリーンショット 2022-07-10 11.08.13.png

[実行]をします。2つの統計量をグローバル値としてキャッシュしました。
スクリーンショット 2022-07-10 11.08.37.png

f.[フィールド作成]ノードを編集します。[派生]を[フラグ型]にして条件が合致するとフラグフィールドを作成します。(直接条件抽出)@￰GLOBAL_MEAN(フィールド)がキャッシュした平均を@￰GLOBAL_SDEV(フィールド)が標準偏差を呼び出します。
スクリーンショット 2022-07-10 11.08.57.png

*同じ式を[条件抽出]ノードに記述するのが本来の進め方ですが、後続でヒストグラムを求めるために[フィールド作成]ノードを使用しました。

g.[グラフボード]ノードを編集してヒストグラムを設定します。
スクリーンショット 2022-07-10 11.09.37.png

[グラフボード]ノードを実行します。外れ値は外側の赤い部分です。
スクリーンショット 2022-07-10 11.09.56.png

h.gで[プレビュー]して、[3標準偏差の外] フィールドが [0]をひとつ選んでメニューから以下のように[条件抽出ノード(AND)]を選択するとhが自動生成されます。
スクリーンショット 2022-07-10 11.10.58.png

3標準偏差の外 = 0 が抽出条件に自動記述されています。cと同じく外れ値を破棄して9,972レコードが抽出されます。
スクリーンショット 2022-07-10 11.11.28.png

i.外れ値を抽出するにはモードを反転させます。
スクリーンショット 2022-07-10 17.15.15.png

[レコード集計]ノードと[レコード結合]ノードを利用する方法

j.[レコード集計]ノードを編集します。
スクリーンショット 2022-07-10 11.14.36.png

[プレビュー]します。
スクリーンショット 2022-07-10 11.15.04.png

k.[レコード結合]で元のテーブルに[Field_Mean]と[Field_SDev]を追加します。[レコード結合方法]を[キー]にしますが、[キー]をブランクにすることでテーブル通しをN対N(総当たり)で結合します。
スクリーンショット 2022-07-10 11.15.19.png

[プレビュー]します。
スクリーンショット 2022-07-10 11.15.43.png

l.個々のレコードの値が±3標準偏差外であれば破棄します。
スクリーンショット 2022-07-10 11.16.00.png

m.l.個々のレコードの値が±3標準偏差内であれば抽出します。
スクリーンショット 2022-07-10 11.16.18.png

注意点

[シミュレーションの生成」ノード1000レコードに生成するデータを限定しているため、パラーメーターから誤差(平均は50ではなく49.977、標準偏差は10ではなく9.995)が生じています。

4.参考情報

正規分布やワイブル分布を生成する

[データの自動準備]内で外れ値を処理する

SPSS Modeler ノードリファレンス目次

SPSS Modeler 逆引きストリーム集(データ加工)

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?