1
0

More than 1 year has passed since last update.

SPSS Modeler ノードリファレンス 3-8 データ分割

Last updated at Posted at 2022-03-17

3-8 データ分割ノード[フィールド作成]

107_89データ分割.png

1.ノードの目的

数値データをグループ化します。たとえば馬力を大きい順に並び替え上位2割から下位2割までレコード(行)数が等しくなるように分割します。(5分位)

スクリーンショット 2022-03-14 14.17.03.png

2.解説動画(60秒)

3.クイックスタート

数値データ[馬力]を5分位に分割します。
*入力データは[5.参考情報]からダウンロードできます。
スクリーンショット 2022-03-14 14.24.08.png

[可変長ファイル]に[データ分割]、[ヒストグラム]と[棒グラフ]の順で接続します。
スクリーンショット 2022-03-14 14.39.00.png

[データ分割]を以下のように編集します。
スクリーンショット 2022-03-14 14.30.16.png

[プレビュー]ボタンを押します。[馬力]を5つのグループ[馬力_TILE5]に分割しています。
[馬力_TILE5]=5が最も馬力の大きい上位20%に所属しています。
スクリーンショット 2022-03-14 14.32.30.png

[ビンの値]タブを開きます。分割点(閾値)が分かります。
スクリーンショット 2022-03-14 14.36.41.png

[ヒストグラム]を編集します。
スクリーンショット 2022-03-14 14.42.07.png

[オプション]タブでビンの数を50に増やします。
スクリーンショット 2022-03-14 14.42.31.png

[ヒストグラム]を実行します。
スクリーンショット 2022-03-14 14.17.03.png

[馬力_TILE5]を[棒グラフ]で確認します。本来「N分位」はそれぞれのグループに等しいレコード(行)が所属しますが、Nで割り切れない場合や全く同じ馬力をもつレコード(行)が存在する場合には以下のように、同数にはなりません。
スクリーンショット 2022-03-14 14.45.38.png

4.Tips

いろいろな分割方法

10分位(デシル)

「上位2割の顧客が8割の収益を生み出す」2:8の法則で知られるデシル分析は10分位を利用します。
スクリーンショット 2022-03-14 14.51.07.png

デシル分析については以下の記事が詳しく説明しています。

固定幅による分割

10馬力づつで一つのグループにします。
スクリーンショット 2022-03-14 14.55.48.png

20のグループに分割されます。
スクリーンショット 2022-03-14 14.57.00.png

標準偏差による分割

プラスマイナス3標準偏差までを特定します。
スクリーンショット 2022-03-14 15.02.12.png
プラス3標準偏差に該当するレコードが存在しています。
スクリーンショット 2022-03-14 14.59.52.png

最適分割(Optimal)

予測対象が確定していて、入力する数値データを分割する際に利用します。
スクリーンショット 2022-03-14 15.05.21.png

最適分割については以下の記事が詳しく説明しています。

5.参考情報

利用データ

右クリックでリンク先を保存してください。

データ分割ノードをPythonで書き換える

ノードのヘルプ

SPSS Modeler 逆引きストリーム集(データ加工)

SPSS Modeler ノードリファレンス目次

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0