LoginSignup
0
0

オーバーサンプリングで不均衡データを調整する(SPSS Modeler データ加工逆引き7-12)

Last updated at Posted at 2022-09-29

オーバーサンプリングで不均衡データを調整する(クロスバリデーション)

スクリーンショット 2022-09-04 17.03.47.png

1.想定される利用目的

・予測モデルの頑強性を確保する

2.サンプルストリームのダウンロード

3.サンプルストリームの説明

スクリーンショット 2022-09-04 17.04.24.png

a.入力するデータは以下の通りです。
スクリーンショット 2022-01-12 10.02.12.png

バランスノードを自動生成させる

b.[棒グラフ]ノードを実行します。
スクリーンショット 2022-09-04 17.06.57.png

[生成]から以下のメニューを選択します。
スクリーンショット 2022-09-04 17.08.06.png

ノードcが自動生成されるのでストリームに配置します。

c.[バランス]ノードを編集します。棒グラフの自動生成により真の値を21倍オーバーサンプリングする設定になっています。
スクリーンショット 2022-09-04 17.08.37.png

d.[棒グラフ]を実行します。
スクリーンショット 2022-09-04 17.23.23.png

モデルとの組み合わせは以下の記事を参照してください。

データ区分ノードとの組み合わせで利用する

e.[データ区分]ノードを編集します。5割を学習、5割を検証に割り当てます。
スクリーンショット 2022-09-04 17.09.17.png

f.[バランス]ノードはcから複製します。[学習のみをバランス]にチェックします。
スクリーンショット 2022-09-04 17.10.56.png

g.[棒グラフ]を実行します。検証用にはフラグ=真が増幅されておらず、本来の分布で精度を検証できるようになっています。
スクリーンショット 2022-09-04 17.10.32.png

注意事項

極端にフラグの真が少ない故障や不正のデータはサンプリングで精度が不安定になる場合がありますので交差検証の方法を注意深く検討します。

4.参考情報

[バランス]ノードを扱った記事

不均衡データの調整にアルゴリズム[SMOTE]を用いる

SPSS Modeler ノードリファレンス目次

SPSS Modeler 逆引きストリーム集(データ加工)

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0