1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

交差検証のためにデータを学習とテストに分割する(SPSS Modeler データ加工逆引き7-11)

Last updated at Posted at 2022-09-28

交差検証のためにデータを学習とテストに分割する(クロスバリデーション)

スクリーンショット 2022-09-04 16.16.15.png

1.想定される利用目的

・予測モデルの頑強性を確保する

2.サンプルストリームのダウンロード

3.サンプルストリームの説明

データ区分ノードを利用する

スクリーンショット 2022-09-04 16.16.50.png

a.入力するデータは以下の通りです。
スクリーンショット 2022-01-12 10.02.12.png

b.[データ区分]ノードを編集します。5割を学習に、残る5割を検証に割り当てます。
スクリーンショット 2022-09-04 16.23.36.png

[実行]します。このノードの後続のモデルや評価グラフ、精度分析ノードは学習と検証に自動分割します。
スクリーンショット 2022-09-04 16.24.17.png

この時点で[棒グラフ]で確認すると学習と検証がほぼ半分に分かれているのが確認できます。
スクリーンショット 2022-09-04 16.30.31.png

モデルとの組み合わせは以下の記事を参照してください。

不均衡データを想定してストリームで学習と検証に分割する

スクリーンショット 2022-09-04 16.19.51.png

c.[条件抽出]ノードを編集します。目的変数のフラグが真のデータのみを抽出します。
スクリーンショット 2022-09-04 16.24.51.png

d.[サンプリング]ノードを実行します。ランダムシードを固定して5割をサンプリングします。
スクリーンショット 2022-09-04 16.25.17.png

e.[条件抽出]ノードを編集します。フラグが真を破棄して負のデータのみ抽出します。
スクリーンショット 2022-09-04 16.26.01.png

f.[レコード追加]ノードでフラグが真の半分と負の半分を学習用に結合します。
スクリーンショット 2022-09-04 16.26.38.png

g.dをコピーして利用します。

h.[テーブル]ノードを実行します。ヘッダーの通り482レコードが選択されました。
スクリーンショット 2022-09-04 16.27.32.png

i.dの設定から[モード]を[サンプルを破棄]にして反転させます。同じランダムシードを利用しているのでdでは選ばれなかったレコードが抽出されます。
スクリーンショット 2022-09-04 16.28.47.png

検証用のデータセットです。学習データhで選ばれていない残りの518レコードが対象です。
スクリーンショット 2022-09-04 16.52.06.png

注意事項

極端にフラグの真が少ない故障や不正のデータはサンプリングで精度が不安定になる場合がありますので交差検証の方法を注意深く検討します。

4.参考情報

[交差検証]ノードを扱った記事

SPSS Modeler ノードリファレンス目次

SPSS Modeler 逆引きストリーム集(データ加工)

1
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?