Knowledge Tree
統計モデリング(Statistical Modeling)
│
├─ 線形モデル(Linear Models)
│ │
│ ├─ 単回帰分析
│ │ ├─ 回帰直線
│ │ ├─ 最小二乗法
│ │ ├─ 決定係数(R²)
│ │ └─ 残差分析
│ │
│ ├─ 重回帰分析
│ │ ├─ 回帰係数ベクトル
│ │ ├─ 正規方程式
│ │ ├─ 多重共線性
│ │ ├─ 変数選択
│ │ │ ├─ 前進選択法
│ │ │ ├─ 後退消去法
│ │ │ └─ ステップワイズ法
│ │ └─ モデル評価
│ │ ├─ 調整済み決定係数
│ │ ├─ AIC
│ │ └─ BIC
│ │
│ └─ 分散分析(ANOVA)
│ ├─ 一元配置分散分析
│ │ ├─ 群間変動
│ │ ├─ 群内変動
│ │ └─ F検定
│ │
│ ├─ 一元配置乱塊法
│ │ ├─ ブロック効果
│ │ └─ 誤差分散の削減
│ │
│ ├─ 二元配置分散分析
│ │ ├─ 主効果
│ │ ├─ 交互作用
│ │ └─ 完全無作為化法
│ │
│ └─ 実験計画
│ └─ 直交表
│
├─ 一般化線形モデル(GLM: Generalized Linear Models)
│ │
│ ├─ モデル構成要素
│ │ ├─ 確率分布(指数型分布族)
│ │ ├─ 線形予測子
│ │ └─ リンク関数
│ │
│ ├─ ロジスティック回帰
│ │ ├─ 二値データ
│ │ ├─ ロジット関数
│ │ └─ オッズ比
│ │
│ ├─ プロビット回帰
│ │ ├─ 正規分布リンク
│ │ └─ 潜在変数モデル
│ │
│ ├─ ポアソン回帰
│ │ ├─ カウントデータ
│ │ ├─ 対数リンク関数
│ │ └─ 過分散
│ │
│ └─ 拡張モデル
│ ├─ 負の二項回帰
│ └─ ゼロ過剰モデル
│
├─ モデル診断・評価
│ │
│ ├─ 残差分析
│ │ ├─ 標準化残差
│ │ ├─ 外れ値検出
│ │ └─ 影響度(Cook距離)
│ │
│ ├─ モデル選択
│ │ ├─ AIC
│ │ ├─ BIC
│ │ └─ 交差検証
│ │
│ └─ 適合度評価
│ ├─ 決定係数
│ ├─ 擬似決定係数
│ └─ 尤度比検定
│
├─ 正則化・高次元モデル
│ │
│ ├─ リッジ回帰
│ ├─ LASSO
│ └─ Elastic Net
│
├─ 非線形モデル・拡張
│ │
│ ├─ 非線形回帰
│ ├─ スプライン回帰
│ └─ 一般化加法モデル(GAM)
│
├─ 多変量解析との接続
│ │
│ ├─ 主成分分析(PCA)
│ ├─ 判別分析
│ └─ クラスタリング
│
└─ モデリングの実務プロセス
│
├─ 問題設定
├─ 変数設計
├─ モデル構築
├─ 推定(MLE・ベイズ)
├─ モデル評価
└─ 解釈・意思決定
統計モデリング
1. 回帰分析(線形モデル)
■ 位置づけ
線形モデルの代表例。
連続値の目的変数を説明変数で予測する。
■ モデル構造
Y = X\beta + \varepsilon,\quad \varepsilon \sim N(0,\sigma^2)
■ 目的変数(Y)
- 連続値(実数)
- 正規分布を仮定
- 分散が一定(等分散)であることが前提
■ 説明変数(X)
- 連続変数・カテゴリ変数どちらも可(ダミー変数化)
■ ユースケース
- 売上予測(ばらつきがほぼ一定の場合)
- 気温や需要などの連続量の予測
- 金融リターン(対称で分散(ばらつき)が安定している場合)
■ 使用判断のポイント
- データが対称的(正規分布に近い)
- 平均に依存せず分散がほぼ一定
- 負の値も取りうる
2. 分散分析(ANOVA:線形モデル)
■ 位置づけ
線形モデルの特殊ケース。
説明変数がすべてカテゴリ変数の回帰モデル。
■ モデル構造
Y = \mu + \alpha_i + \varepsilon
■ 目的変数(Y)
- 連続値(正規分布)
- 等分散を仮定
■ 説明変数(X)
-
カテゴリ変数(因子)
- 例:グループ、処理、条件
■ ユースケース
- 薬A/B/Cの効果比較
- 製造条件ごとの品質差の検証
- 教育手法ごとの成績比較
■ 使用判断のポイント
- グループ間の平均差を見たい
- 各群で分散がほぼ同じ
- データが対称的
3. 一般化線形モデル(GLM)
■ 位置づけ
線形モデルの拡張。
目的変数の分布と分散構造を一般化したモデル。
■ モデル構造
g(E[Y]) = X\beta
■ 目的変数(Y)
指数型分布族に従う:
| モデル | 分布 | データ | 分散構造 |
|---|---|---|---|
| ロジスティック回帰 | 二項分布 | 0/1(成功・失敗) | 平均に依存 |
| ポアソン回帰 | ポアソン分布 | カウント | 平均に比例 |
| ガンマ回帰 | ガンマ分布 | 正の連続値 | 平均の2乗に比例 |
| 正規回帰 | 正規分布 | 連続値 | 一定 |
■ 説明変数(X)
- 線形モデルと同じ(自由)
- 連続・カテゴリどちらも可
■ ユースケース
- ロジスティック回帰
購買するかしないか、合格/不合格 - ポアソン回帰
来店回数、事故件数、クリック数 - ガンマ回帰
保険金額、医療費、処理時間(右に歪み・正の値)
■ 使用判断のポイント
- データが正規分布から大きく外れる
- 分散が平均に依存して変化する
- 目的変数に制約がある(例:正のみ、整数のみ)