Edited at

ロジスティック解析を使ったデータ分析の方法

More than 3 years have passed since last update.


概要

Wantedlyの場合、トライアルとビジネスのプランがあり、トライアルの企業が満足するとビジネス(有料)のプランを使ってもらってます

トライアルの企業が満足したかどうかは、アップグレードしたかどうかで判断することができ、アップグレードするためにはどのようなことをすればアップグレードするのか、どの数字が影響しているか調べています

例えば、応募数が多い、ソーシャルへの拡散が多い、電話でのサポートをしている、社員を登録しているなど、いろいろな数字があります

それぞれの数字がどのくらいアップグレードすることに対して影響があるか、判断する方法のひとつとして、ロジスティク解析を使った判断方法を紹介します


ロジスティック回帰とはなにか

いくつかのパラメータと、結果が0か1になるものになります

そのときに、それぞれのパラメータの何が結果にどのように影響を与えているか調べることができます

例えばパラメータが3つ(x, y, z)で、結果(result 0 1)がのときは、log(p/(1-p)) = a0 + a1 * X1 + a2 * X2 + a3 * X3になる

インプットするデータ(パラメータと結果)

[3, 1, 40, ...] => 0

[1, 4, 30, ...] => 1
[3, 4, 20, ...] => 0

アウトプットされるデータは先ほどの数式のa0, a1, a2, a3が分かる


準備

install.packages("aod")


データのインポートとどのようなデータか確認する方法


  • 今回分析のために、実際のデータでなく、適当なデータを作ってテストしています。

> 

> data <- read.table("input.txt") # space区切りの場合
> data <- read.csv("input.txt") # csv区切りの場合
> data <- read.csv("http://www.xxxx.com") # urlでもよい
> data <- read.table("input", header=T) # 1行目に列名がある場合は、headerのオプションをつける
> data <- read.table("input", skip=1) # 1行目をスキップする場合は、skipオプションをつける

> head(data) # 最初のデータを見る
V1 V2 V3 V4
1 0 1 9 6
2 1 6 28 64
3 0 2 7 8
4 0 1 3 2
5 0 1 8 5
6 0 2 7 1

> summary(data) # データがどのような分布か確認できる
V1 V2 V3 V4
Min. :0.0000 Min. : 1.00 Min. : 0.000 Min. : 0.000
1st Qu.:0.0000 1st Qu.: 1.00 1st Qu.: 1.000 1st Qu.: 0.000
Median :0.0000 Median : 1.00 Median : 2.000 Median : 3.000
Mean :0.1651 Mean : 1.42 Mean : 6.712 Mean : 8.736
3rd Qu.:0.0000 3rd Qu.: 1.00 3rd Qu.: 8.250 3rd Qu.: 8.250
Max. :1.0000 Max. :11.00 Max. :60.000 Max. :82.000

> sapply(data, sd) # それぞれの項目の標準偏差
V1 V2 V3 V4
0.3721444 1.0522753 10.5828817 14.4089242


ロジスティック解析

> mylogit <- glm(V1 ~ V2 + V3 + V4, data = mydata, family = "binomial")

> summary(mylogit)

Call:
glm(formula = V1 ~ V2 + V3 + V4, family = "binomial", data = mydata)

Deviance Residuals:
Min 1Q Median 3Q Max
-2.1410 -0.3622 -0.2913 -0.2613 2.5080

Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -3.40434 0.46586 -7.308 2.72e-13 ***
V2 0.04438 0.23737 0.187 0.851679
V3 0.12144 0.03290 3.692 0.000223 ***
V4 0.04583 0.01924 2.382 0.017212 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 189.96 on 211 degrees of freedom
Residual deviance: 113.82 on 208 degrees of freedom
AIC: 121.82

Number of Fisher Scoring iterations: 5


  • 今回の数字の場合だとV2はp値も高く、パラメータの意味はもっとも低い

  • V3とV4ではV3のほうが3倍くらい影響が大きい


さらに

e^(a0 + a1 * X1 + a2 * X2 ..)と式を変換するとよりオッズ比(p/(1-p))が分かりやすい

> exp(coef(mylogit))

(Intercept) V2 V3 V4
0.0332289 1.0453831 1.1291271 1.0468976

epiDisplayのパッケージを使うと、Wald型の信頼区間などさまざまな検定結果のデータを出力してくれる

> require("epiDisplay")

> logistic.display(mylogit)

Logistic regression predicting V1

crude OR(95%CI) adj. OR(95%CI) P(Wald's test) P(LR-test)
V2 (cont. var.) 2.14 (1.43,3.19) 1.05 (0.66,1.66) 0.852 0.849

V3 (cont. var.) 1.18 (1.12,1.25) 1.13 (1.06,1.2) < 0.001 < 0.001

V4 (cont. var.) 1.1 (1.07,1.14) 1.05 (1.01,1.09) 0.017 0.015

Log-likelihood = -56.9092
No. of observations = 212
AIC value = 121.8185


参考

* [UCLA] R Data Analysis Examples: Logit Regression http://www.ats.ucla.edu/stat/r/dae/logit.htm