5-5 Coxノード[モデル作成タブ]
1.ノードの目的
最終的な状況が判定されていない打ち切りデータのフラグ型データを予測するCox比例ハザードモデルを作成します。Cox回帰とも呼ばれ、回帰分析の一種になります。
*打ち切りデータとは、たとえばメルマガ購読の解約・継続を調査したい場合、データ収集時点では一部の読者は購読を解約し、他の多くの読者は購読を継続状態で、購読継続中の読者はいつ購読を解約するか購読期間がわからないデータです。つまり、最終的な状況が判定されていないデータです。
2.解説動画(60秒)
3.クイックスタート
製品に同梱されているサンプルストリームteleco_coxreg.strを開きます。このストリームのシナリオの1つは、ある通信会社の「顧客の解約までの期間」に注目し、解約に関係する要因を調査することです。
使用するデータには、顧客の属性情報(年齢、婚姻状況、性別、世帯人数など)や商品の利用状況(無料通話、設備、長距離通話など)、そして、解約までの期間と解約状況があります。
ここでは「解約」フィールドを対象とし、それ以外は入力としています。
サンプルストリームに接続されている「解約」のCoxノードを参照します。
フィールドタブでは、[生存期間:]に、解約までの期間である「期間」フィールドを指定しています。
モデルタブでは、[方法:]で変数選択の方法として「ステップワイズ」を選択しています。
エキスパートタブでは、[モード:]は「エキスパート」で、出力のプロットでは、☑生存関数、☑ハザード関数を選択しています。
Coxノードを実行して、生成されたCoxモデルナゲットを参照します。
[方程式中の変数]テーブルの最後のステップのフィールドとExp(B)に注目します。Exp(B)は、ハザード比のことで、解約に対するリスクを表します。1を基準にして、上回れば解約リスクが上がる、下回れば解約リスクが下がることを意味します。
たとえば、コールカードの所有以外の条件はすべて同じで、コールカードを所有しない場合とする場合では解約のリスクが1.6倍になります。設備の利用以外の条件はすべて同じで、設備を利用しない場合とする場合では解約のリスクが0.15倍になります。
これらから、どの要因が解約に影響があるかが読み取れます。
生存関数プロットを参照すると、契約の期間が40ヶ月を過ぎたころから累積の契約者率が下がっていく傾向が読み取れます。
4.Tips
今回のように予測の対象が打ち切りデータの場合はCox回帰が使用できます。また、予測の対象が打ち切りデータでない場合はロジスティック回帰を使用します。
サンプルストリームには、モデルの評価、予測、予測固定客数の追跡、スコアリングの手順もありますので、5.参考情報のチュートリアルも合わせてご覧ください。
5.参考情報
チュートリアル
利用データ
SPSS Modeler 同梱のtelco.sav
ノードのヘルプ
SPSS Modelerノードのリファレンス