オーバーサンプリングで不均衡データを調整する(クロスバリデーション)
1.想定される利用目的
・予測モデルの頑強性を確保する
2.サンプルストリームのダウンロード
3.サンプルストリームの説明
バランスノードを自動生成させる
ノードcが自動生成されるのでストリームに配置します。
c.[バランス]ノードを編集します。棒グラフの自動生成により真の値を21倍オーバーサンプリングする設定になっています。
モデルとの組み合わせは以下の記事を参照してください。
データ区分ノードとの組み合わせで利用する
e.[データ区分]ノードを編集します。5割を学習、5割を検証に割り当てます。
f.[バランス]ノードはcから複製します。[学習のみをバランス]にチェックします。
g.[棒グラフ]を実行します。検証用にはフラグ=真が増幅されておらず、本来の分布で精度を検証できるようになっています。
注意事項
極端にフラグの真が少ない故障や不正のデータはサンプリングで精度が不安定になる場合がありますので交差検証の方法を注意深く検討します。
4.参考情報
[バランス]ノードを扱った記事
不均衡データの調整にアルゴリズム[SMOTE]を用いる
SPSS Modeler ノードリファレンス目次
SPSS Modeler 逆引きストリーム集(データ加工)