はじめに
今回はTableauの機能「傾向線」について少し考察と一歩踏み込んだ内容についてまとめていきたい
きっかけ
DataSaber技術課題ord5のQ4について
問4
顧客ごとの数量と利益の分布をみたとき、数量が多いときに利益が上がりやすい傾向にあるカテゴリ・地域の組み合わせはどれですか?
なお、R-2乗やP値は考慮しなくてよいです。
解答としては、これで問題ありませんがもう一歩踏み込んで考えてみて「R-2乗やP値は考慮しなくてよいです。」ここを考慮した場合どのような分析・解析結果が得られるのか見てみました。(今回はとりあえず、P値だけ)
※補足※
ここで、(昨今X上でかなり話題になっていましたが、)P値とは
統計的仮設検定における帰無仮説が正しいと仮定した場合に、今回手元にあるデータが発生する確率
意味わからない場合は、検定前に定めて有意水準(=分析者が定める基準、標準で5%と設定する場合が多い)と比べて大きいか小さいかを気にしておけばよく、小さければ最初の仮定が間違っている(=棄却)という判断をする統計学におけるデータに基づく一つの判断基準です
やってみた
結果はこちらです。
九州における家具のP値は<0.0001→ほぼ0
一方、中部における家具のP値は0.111903>0.05、有意水準を超える
単純に何も考えず傾向線を引いてもその、傾向線の引き方(線形回帰)が正しくひかれたものかは一つP値という指標を見て判断する必要がある。
ただ、今回のように見るべき次元が増えすべてカーソルを合わせて一つ一つ見るのが面倒な場合にViz上でぱっと可視化できるようにする方法をここでは説明する
これをデータとして、Tableauデータベースに追加(方法は割愛)
(自分の場合は、面倒だが一度Excelに起こし成型してから、Tableauへ読み込ませてカラム名によるマージを実施)
P値が0.05以上(棄却できない)か以下(棄却)と色分けてして表示することで分析者として適切な傾向線の引き方を提示することができる
最後に
実際の分析をする際は本当に適切な傾向線が引けているのかというところまで見てみるといいと思う。