生存時間分析してみた
非実在性Webサイトの入会データを基に、生存時間分析っぽいことをしてみました。
https://ja.wikipedia.org/wiki/%E7%94%9F%E5%AD%98%E7%8E%87%E6%9B%B2%E7%B7%9A
データ
ある時点でサイトに入会した人が対象
退会までにかかった日数を生存時間とした。退会してない人は打ち切りとして扱った。
年齢・性別とか影響を与えていそうなセグメントの情報を一緒に採って使ったよ。
非実在性Webサイトなので、無問題だね。
方法
なんかもうよく覚えてないのでデフォルトのカプラン・マイヤー推定量を使った。
ノンパラメトリックな推定量だから、まあ前提とか考えなくていいからいっかな。
結果
なんかいくつか見てみたけど、パッと見わかりやすくておもしろげなのを挙げるね。
縦軸が生存割合で横軸が経過日数。30日後生存確率みたいに思ってもらえればいいかな。
年代ごとにみた生存時間
10代から80代までにデータを分けて生存曲線を描いてみたよ。80代?とか思うけど、入力フォーム上1930年まで選択できるから仕方がないネ。
ざっくり見た感じ登録から5日間くらいは退会者が出ていないね。逆に言うと5日過ぎたら退会していくねー。とりあえず5日で飽きるっぽい。
5日を過ぎたあたりから退会者がボロボロ出ていくねー。特に10代の生存曲線は一番下にきてるねー。特に10日過ぎたあたりからぐわっとやめてくね。10日もしたら興味を失っちゃうのかな?10代は飽きやすい。
全体的な傾きを見ると大きく傾きが変わったりはしていないね。大体一定の割合でやめて行っているね。いつ辞めるかって点において時間に依存したりはしていないみたい。
ほかの切り口
男女別とか親がいるかどうかとかでもみてみたよ。違いはあったけど、「だから?」みたいな感じなので割愛。
もうちょっと踏み込んでcox回帰とかもしてみたけど、やっぱ年齢性別とかが退会率に利いてくるねー。まあ、当然といえば当然。
感想
データ多いっていいなあ。医療系のデータ弄ってた頃はデータ数が50とかだったけど、今回50000以上あったよ。大抵の検定は大体有意になるから逆に悩むね。