3-8 データ分割ノード[フィールド作成]
1.ノードの目的
数値データをグループ化します。たとえば馬力を大きい順に並び替え上位2割から下位2割までレコード(行)数が等しくなるように分割します。(5分位)
2.解説動画(60秒)
3.クイックスタート
数値データ[馬力]を5分位に分割します。
*入力データは[5.参考情報]からダウンロードできます。
[可変長ファイル]に[データ分割]、[ヒストグラム]と[棒グラフ]の順で接続します。
[プレビュー]ボタンを押します。[馬力]を5つのグループ[馬力_TILE5]に分割しています。
[馬力_TILE5]=5が最も馬力の大きい上位20%に所属しています。
[馬力_TILE5]を[棒グラフ]で確認します。本来「N分位」はそれぞれのグループに等しいレコード(行)が所属しますが、Nで割り切れない場合や全く同じ馬力をもつレコード(行)が存在する場合には以下のように、同数にはなりません。
4.Tips
いろいろな分割方法
10分位(デシル)
「上位2割の顧客が8割の収益を生み出す」2:8の法則で知られるデシル分析は10分位を利用します。
デシル分析については以下の記事が詳しく説明しています。
固定幅による分割
標準偏差による分割
プラスマイナス3標準偏差までを特定します。
プラス3標準偏差に該当するレコードが存在しています。
最適分割(Optimal)
予測対象が確定していて、入力する数値データを分割する際に利用します。
最適分割については以下の記事が詳しく説明しています。
5.参考情報
利用データ
右クリックでリンク先を保存してください。
データ分割ノードをPythonで書き換える
ノードのヘルプ
SPSS Modeler 逆引きストリーム集(データ加工)
SPSS Modeler ノードリファレンス目次