単回帰において信頼区間と予測区間というものがあります.それの違いの説明は感覚的なものが多いため数式化しておきます.
問題設定
\begin{align}
y|_x &\sim \mathcal{N}(f(x|w),\epsilon)\\
w &\sim \phi_1(w),\epsilon\sim\phi_2(\epsilon)
\end{align}
そして,n個の(X,Y)のデータを観測したとする.
1-αの信頼区間(A)
P_{w\sim\phi(w|X^n,Y^n)}(L(x)\leq f(x|w)\leq U(x))=1-\alpha.
1-αの予測区間(B)
P_{w\sim\phi(w,\epsilon|X^n,Y^n)}(L(x)\leq y|_x \leq U(x))=1-\alpha.
ともに事後分布による確率の範囲です.
そのため,通常の信頼区間と異なります(信頼区間と信用区間 by @making111).
何が違うのか
-
(信頼区間A)と(予測区間B)の違いはノイズ項を含めるかどうかです.
-
そのため,一つのx座標に対して複数の値を散らばりを持っている場合Aの方がBに比べて細張った形になります.
-
逆にBは長方形を代表的な平均の直線に軸を合わせて,回転させて得られる形となることが多いです.
-
意味合いとしては,信頼区間と信用区間は明確な差異がありましたが,(信頼区間A)と(予測区間B)はノイズを含めているかどうかだけの違いです.
感想
- 通常の信頼区間と言葉がかぶっているので,『モデル区間』とか『ノイズなし予測区間』とかに改名した方がわかりやすい気がしました.