決定木はデータマイニングの中でも何が影響してるのか一番分かりやすい分析手法だと思います。
例えばアクティブユーザとそうでないユーザがいて、それぞれがログイン後特定のアクションを取ったかとか、他のユーザとコミュニケーションを取ったかとかを要因1、要因2、...と並べてcsvにまとめて、Rによる処理をかませるだけで一番アクティブ度に寄与していた要因を特定する事が可能になります。
1.データを用意
例えばcsv形式で下記のようなデータを用意(data.csv)
アクティブ | 要因1 | 要因2 | ... |
---|---|---|---|
YES | YES | NO | ... |
YES | YES | YES | ... |
NO | NO | NO | ... |
... | ... | ... | ... |
2.Rによる決定木分析
# ライブラリ読み込み
library(mvpart)
# csvからデータを読み込み。header=Tは列名が存在する事を指定
data <- read.csv("data.csv", header=T)
# 決定木
tree <- rpart(アクティブ~., data=data, method="class")
# データプロット
plot(tree)
# テキストプロット
text(tree)
これだけでツリー形式の決定木が出来ます。
ツリーの上位に来るほど要因として寄与の大きい変数です。
データ分析自体は非常にカンタンですが、要因としてどんなデータを用意するかとかは色々と試行錯誤が必要。どっちかというとその辺のセンスの方が大事な気がします。
より深く学ぶ
この辺難しいけどざっと目を通しておくといいかも。
http://www1.doshisha.ac.jp/~mjin/R/18.html
http://www1.doshisha.ac.jp/~mjin/R/19.html