単回帰分析
分析対象の変数(被説明変数・従属変数)を他の1つまたは複数の変数(説明変数・独立変数)により「説明し予測しようとする」統計的方法を「回帰分析」と言います。特に2変数の場合を単回帰分析、3変数以上の場合を重回帰分析と言います。
回帰分析によって、2つの変数あるいはそれ以上の変数間の因果関係を推論することが可能になります。対して相関分析では必ずしも因果関係を推論することはできません。
単回帰分析において以下のように表される式を単回帰式(回帰方程式)と言います。
y=β_0+β_1x
xは原因となる変数で「説明変数・独立変数」と呼ばれ、yは結果となる変数で「被説明変数・従属変数」と呼ばれます。単回帰分析では回帰係数(パラメーター)と呼ばれるβ0とβ1の値を求めることが目的になります。
最小2乗法
y=β0+β1xで表される単回帰式は真の理論的な回帰式でありますが、実際は測定誤差などの様々な誤差を含んでいることから、以下のような回帰式を考えます。
y=β_0+β_1x+u (u:誤差)
uは「真の回帰式から実際のデータまでのズレ」を表す誤差であり、単回帰分析では全てのデータの誤差uが小さくなるようにβ0とβ1を算出します。そのために、それぞれのデータの残差eの平方和(残差平方和)を考え、「残差平方和が最小になるようにβ0とβ1を決定する」という以下の式で表される「最小2乗法」という手法を用います。
\sum_{i=1}^{n} e_i^2=\sum_{i=1}^{n} \Bigl(y_i-(β_0+β_1x) \Bigr)^2
※誤差uは「真の回帰式と実際のデータ」との差であり、真の回帰式は未知であるため誤差は計算することはできません。一方、残差eは「推定された回帰式と実際のデータ」との差であるため、残差は計算することができます。
最小2乗法で回帰式のβ0とβ1の値を求めた結果を推定回帰式と言い、以下の形で表します。
特に最小2乗法で推定されるβ0とβ1は偏回帰係数と言い、実際のデータから算出した推定値であり、真の回帰式におけるβ0とβ1とは異なるため、ハット(^)を用いて表します。またyの推定値であるy^を「理論値・予測値」と言います。
\hat{y}=\hat{β}_0+\hat{β}_1x
偏回帰係数であるβ^0とβ^1を求める公式は以下の通りです。
\hat{β}_1=\frac{S_{xy}}{S_x^2}
\hat{β}_0=\hat{y}-\hat{β}_1\hat{x}
重回帰分析
重回帰分析において、以下のように2個以上の説明変数(独立変数)で表される式を重回帰式(回帰方程式)と言います。重回帰式の偏回帰係数も「残差平方和が最小になるようにβ0とβ1とβ2を決定する」という目的で最小2乗法で算出します。
y=β_0+β_1x+β_2x
※重回帰分析では独立変数同士の相関関係の影響を取り除くために、偏回帰係数に対して標準化を行った「標準偏回帰係数」を用います。
独立変数xが1つである単回帰式では「線形の回帰直線」、独立変数xが2つである重回帰式では下の図のような「回帰平面」、独立変数xが3つである重回帰式では「超回帰平面」がプロットされます。
画像引用:重回帰分析
決定係数
データに対する「推定回帰式の当てはまりの良さ」や「推定回帰式の精度」を表す指標を決定係数R^2と言います。-1以上1以下の範囲に相関係数rが値を取りうるのに対し、相関係数を2乗した決定係数R^2は0以上1以下の範囲に値を取ります。決定係数R^2が1に近いほど「推定回帰式の当てはまりは良い」と言うことができ、「説明変数が被説明変数をよく説明している」と言うことができます。
決定係数R^2の定義は、「実際のデータ」「推定回帰式から得られた予測値(y^_i)」「データ全体から求められる平均値」を元にした以下の3つの要素から成り立ちます。3つの要素は平方和として算出され、以下のように表せます。
- 「全変動」▶︎「実際のデータとデータ全体の平均値の差」を表す
- 「回帰変動」▶︎「推定回帰式から得られた予測値とデータ全体の平均値の差」を表す
- 「残差変動」▶︎「実際のデータと推定回帰式から得られた予測値の差」を表す
全変動=\sum_{i=1}^{n}(y_i-\bar{y})^2
回帰変動=\sum_{i=1}^{n}(\hat{y}-\bar{y})^2
残差変動=\sum_{i=1}^{n}(y_i-\hat{y})^2
また上の図から「全変動=回帰変動+残差変動」という式が成り立ちます。
\sum_{i=1}^{n}(y_i-\bar{y})^2=\sum_{i=1}^{n}(\hat{y}-\bar{y})^2+\sum_{i=1}^{n}(y_i-\hat{y})^2
決定係数R^2は、「説明変数が目的変数をどれくらい説明しているか」、つまり推定回帰式が実際のデータに限りなく近ければ良いので、「回帰変動が全変動に対してどれだけ多いか=残差変動が全変動に対してどれだけ少ないか」を表すものになります。従って決定係数R^2は以下のように回帰変動を全変動で割り、残差変動を用いて変換することで定義づけられます。
R^2=\frac{\sum_{i=1}^{n}(\hat{y}-\bar{y})^2}{\sum_{i=1}^{n}(y_i-\bar{y})^2}=1-\frac{\sum_{i=1}^{n}(y_i-\hat{y})^2}{\sum_{i=1}^{n}(y_i-\bar{y})^2}
決定係数R^2=\frac{回帰変動}{全変動}=1-\frac{残差変動}{全変動}
決定係数は説明変数xの数が増えるほど1に近づくという性質を持っているため、説明変数xの数が多い場合はこの点を補正した「自由度調整済み決定係数」という値を使うことがあります。
重相関係数
決定係数と同じように「推定回帰式の精度を表す」ものとして、重相関係数が存在します。
重回帰式において、「実際に観測された被説明変数y」と「推定回帰式によって得られた予測値y^」との相関関係に該当します。決定係数と同じように0以上1以下の範囲に値を取り、重相関係数が1に近いほど「推定回帰式の当てはまりは良い」と言うことができます。
Rによる回帰分析結果の読み方
統計検定2級にて出題されるRの回帰分析の出力結果の見方について簡単にまとめます。
lm(formula=y~x)▶︎単回帰式のモデル
Coefficients▶︎係数
Intercept▶︎切片(定数項β0)
Estimate▶︎回帰係数の推定値
Std. Error▶︎標準誤差
t value(= Estimate / Std. Error)▶︎t値・「回帰係数が0である」という帰無仮説に対するt検定の統計量
Pr(>|t|)▶︎p値・「回帰係数が0である」という帰無仮説に対するt検定のp値
Residual Standard Error▶︎残差eの標準誤差
degrees of freedom▶︎自由度・「標本数n-偏回帰係数の数(単回帰式ならn-2)」で算出
Multiple R-squared▶︎決定係数R^2
Adjusted R-squared▶︎自由度調整済み決定係数
F-statistic▶︎「切片を除く全ての回帰係数が0である」という帰無仮説に対するF検定の統計量と自由度(DF)、p値の3変数
一元配置分散分析
2標本の平均値の差はt検定で求めますが、3群(標本)以上の平均値の差は分散を元にした「分散分析」という手法によって求めます。分散分析はF分布を用い、推定のための帰無仮説H0は「各群の母平均は等しい」となり、分散分析を行うに当たって分散分析表というものを作成します。
データの値に変化を与える要素を要因、要因の中でも特に「母平均に差をもたらす」ものを因子、1つの項目に含まれる「グループ」を水準、データに含まれる因子の数を◯元配置と言います。
1つの因子からなるデータを分析する方法(グループを識別する要素が1つ)で、因子に含まれる水準間の平均値の差を見ることができる手法を「一元配置分散分析」と言い、2つの因子からなるデータを分析する方法で、各因子に含まれる水準間の平均値の差を見ることができる手法を「二元配置分散分析」と言い、3つ以上の因子からなるデータを分析する方法を「多元配置分散分析」と言います。
特に「二元配置分散分析」では、2つの要因が組み合わさることで現れる「交互作用(相乗効果)」の有無を確認することが主要な目的となります。
分散分析表
総標本数をn、群の数をr、群iの標本数をni、群iの標本をxi、xの標本平均をx¯とすると、「一元配置分散分析」では以下のような分散分析表を作成します。
画像引用:統計検定2級チートシート - Qiita
平均平方は「平方和 / 自由度」とすることで求められ、統計量Fは「要因の平均平方 / 残差の平均平方」とすることで求められます。統計量Fは自由度((d),(e))のF分布に従い、必ず「片側検定」を実施します。