[Python] 回帰分析の実装 statsmodels.formula.api

Last updated at 2024-04-13Posted at 2024-04-13

はじめに

パッケージstatsmodelsを用いて各種回帰分析を実装します。この記事では、R-ライクな構文で記述できるstatsmodels.formula.apiを用います。

import pandas as pd
import numpy as np
import statsmodels.formula.api as smf

df = pd.read_csv('./Data.csv', index_col=0)

代表的な回帰分析の実装コードを示しますが、どれも基本的な構文は同じです。
(formula='目的変数 ~ 説明変数1 + 説明変数2 + 説明変数3 + ....', data=df)

最小二乗法(Ordinary least squares)による回帰分析。

model = smf.ols(formula='BW ~ height + age + sex', data=df)
result = model.fit()

一般化最小二乗法(Generalized least squares)による回帰分析。

model = smf.gls(formula='BW ~ height + age + sex', data=df)
result = model.fit()

model = smf.logit(formula='BW ~ height + age + sex', data=df)
result = model.fit()

他にも様々な回帰が実装可能で、公式ドキュメントに書かれています。

決定係数や回帰係数を含むサマリーが出力されます。

result.summary()

.predict()を用います。
下の例では、元データをそのままモデルに適用しています。

prediction = result.predict(df[['height', 'age', 'sex']])