線形回帰(Linear Regression)は、データの間の線形な関係をモデル化するための基本的な統計手法の一つで、特定の変数(独立変数)に基づいて他の変数(従属変数)を予測するために使用されます。特に、変数間に線形関係があると仮定できる場合に有効です。
線形回帰の基本的な考え方
線形回帰では、次のような数式でデータの関係を表します:
y = b_0 + b_1 x + \epsilon
ここで、
$・yは従属変数(目的変数)です。 $
$・xは独立変数(説明変数)です。 $
$・b_0は切片で、回帰直線がy軸と交わる点を示します。$
$・b_1は回帰係数で、独立変数 ( x ) の変化に伴う従属変数 ( y ) の変化量を表します。$
$・ \epsilon \ は誤差項で、モデルが説明できないランダムな要素を含みます。$
線形回帰の種類
1. 単回帰分析
1つの独立変数と1つの従属変数の間の関係をモデル化します。例えば、ある商品の価格と販売数の関係を予測する場合などに用いられます。
2. 重回帰分析
複数の独立変数が存在する場合の回帰分析です。例えば、住宅の価格を予測する際に、広さ、立地、築年数など複数の変数が関係する場合に用います。
回帰係数の求め方(最小二乗法)
線形回帰では、与えられたデータに最もよくフィットする回帰直線を見つけるために、最小二乗法(Ordinary Least Squares, OLS) を用います。最小二乗法では、次のように誤差の二乗和(Residual Sum of Squares, RSS)を最小化することで、最適な ( b_0 ) と ( b_1 ) を求めます。
\text{RSS} = \sum_{i=1}^{n} (y_i - (b_0 + b_1 x_i))^2
これにより、データに最もよくフィットする直線が得られます。
線形回帰モデルの評価方法
1. 決定係数
回帰モデルがデータをどの程度説明できているかを示す指標です。決定係数$( R^2 )$の値は0から1の範囲で、1に近いほどモデルがデータに適合していることを示します。
2. 平均絶対誤差(MAE)
実際の値と予測値の差の絶対値の平均で、モデルの誤差の大きさを示します。
3. 平均二乗誤差(MSE)と二乗平均平方根誤差(RMSE)
誤差の二乗平均を取ることで、外れ値の影響を受けやすくなりますが、モデルの精度を評価するのに有効です。
線形回帰の仮定
線形回帰モデルは以下の仮定の下で成り立っています:
- 線形性:独立変数と従属変数の間の関係が線形である。
- 独立性:観測値間に相互依存がない。
- 等分散性(Homoscedasticity):誤差の分散が一定である。
- 正規性:誤差項が正規分布に従う。
これらの仮定が成り立っていないと、モデルの精度や解釈が難しくなることがあります。
線形回帰の応用例
- マーケティング:広告費と売上の関係を予測する。
- 経済学:GDPと消費支出の関係を調べる。
- 金融:株価の動きを予測する。
- 医学:健康指標と病気のリスクの関係を分析する。
まとめ
線形回帰は、変数間の線形関係をシンプルにモデル化し、予測や分析に広く活用される手法です。データの背後にある関係性を明らかにするために有効ですが、仮定が成り立つことや適切な評価指標を用いることが重要です。