この記事は、統計学を全く知らない初心者が「回帰分析」についてまとめてみたものになります。
※「もっとわかりやすい説明あるよ!」「そこ間違ってるよ!」とかあれば、どしどしご指摘いただけると嬉しいです。
回帰分析とは
回帰は英語でregression(リグレッション)。「繰り返すこと」というような意味がある。
統計学において「回帰」は、変数同士の関係を調査し、その関係をY=f(X)
というモデルに当てはめることを指す。
別の言い方をすると、1つの目的変数(従属変数)を1つの説明変数(独立変数)で予測することを指す。
目的変数とは、予測される側の変数のこと。説明変数とは、予測に使う側の変数のこと。
説明変数が原因で、目的変数が結果と表現することができる。
目的変数がアイスクリームの売上で、説明変数が気温、みたいな感じ。(なんか関係ありそうだよね)
回帰分析は、主にこの2つの変数(説明変数と目的変数)の関係を理解し、未知のデータに対して予測を行うために使用される分析のことである。
なぜ回帰分析が必要なの?
回帰分析は何かしらの出来事やデータがどのように関連しているかを理解し、未来の出来事を予測するのに役立つ。
用語整理
回帰分析をしていると出てくる用語について説明する。
実測値
実際に測定して得られた実データのこと。
体重計に乗って測定したデータとか。
予測値
回帰分析で算出された偏回帰係数を使い、回帰式に準じて計算された値のこと。
例えば、「体重の予測値」を求める場合、目的変数を体重として説明変数を身長と年齢にしたとき、身長と年齢の実測値と偏回帰係数から求められる体重の値を求めることになる。
残差
実測値と予測値の差のこと。
残差が小さいほど予測値と実測値の差が少ないということになるので、精度の高い回帰分析ができているということになる。
偏回帰係数
どの説明変数が目的変数に影響しているのかを知ることができるもの。
また、回帰式の中の傾きを表す係数のこと。「重み」とも呼ばれる。
p値
仮説検定(自分が設定した仮説が正しいかどうかを統計的に判定する方法)において、統計量がその値以上または以下になる確率のこと。
回帰分析結果の中のp値をみることで、どの説明変数が目的変数に影響しているのか知ることができる。
p値が低いほど、統計量がその値になる確率が低い。
決定係数
説明変数が目的変数のどれくらいを説明できるかを表す値。
0から1までの値をとります。1に近いほど、回帰式が実際のデータに当てはまっていることを表す。
回帰分析の種類
アイスクリームの売り上げを例に説明する。
単回帰分析と重回帰分析
説明変数がいくつかを考えるもの。
単回帰分析
数式で表すと
y = a + bx
となる。
方程式の切片に当たるaと、傾きのbを推測することが目標になる。
重回帰分析
数式で表すと
y = a + b1x1 + b2x2 + ・・・ + bnxn
となる。
実用例
マーケティング施策の分析
ある会社のマーケティング部門に所属しているA3は、担当製品の売上アップのための施策を考えています。
候補は以下の3つ。
- 広告費の増加
- 製品価格の見直し
- お得キャンペーンの開催
過去の会社のデータから、どの施策も効果があることはわかっています。
Aさんはそれぞれが売上にどのように影響しているか、重回帰分析を行い調べてみることにしました。
最初に決定係数を確認してみると、決定係数は0.46ですのでまずまずのモデルだと言えそうです。
またp値は全て0.05を下回っていますので、どの変数も売上に関係があると考えてよさそうです。
次に偏回帰係数をみると、広告費を1万円増やせば売上は1万6千円増え、製品価格を千円上げると売上は3千円下がってしまうようです。
キャンペーンを実施すると11万4千円の売上が上がるようです。
偏回帰係数だけをみると、一見キャンペーンの実施が良さそうに見えますが、どの施策が一番効果的か標準化偏回帰係数をみて確認しました。
標準化偏回帰係数をみると、売上に一番影響を与えているのは広告費のようです。
このことから、優先順位としては広告費を増やすことが1番重要になってきそうだと仮説を作ることができました。
参考
調べてみて
うーん、わかったようなわかってないような。。。
実際に使ってみる場面に遭遇してみないと理解できなさそうです。。。