こんにちは、(株)日立製作所 Lumada Data Science Lab. の中川です。普段は人工知能を制御に適用する研究に従事しています。近年、機械学習が注目される中、機械学習理論および機械学習を使った技術開発環境は急速に進歩すると共に、多くの方がデータサイエンスに関わるようになってきました。すでにデータサイエンスに携わっている方や、これからデータサイエンスに関わってみようと思っている方の中で、理論の大切さをあらためて知りたいあるいは感じたいという方がいらっしゃいましたら、それをできるだけわかりやすく伝えられたら、という思いから基本的な内容で記事を書きます。今回は、「正規分布における区間推定・検定」と「線形単回帰における区間推定・検定」の相違点についてご紹介します。
1. はじめに
”正規分布”と”線形回帰”という言葉を聞いたとき、両者の関連性が思い浮かぶでしょうか。統計学においては、データ(標本)を用いて線形回帰を求めるとき、一般にデータの分布は正規分布であることを仮定しています。データから求めた線形回帰の信頼性・妥当性を評価するとき、正規分布における区間推定・検定の考え方を適用します。どのように適用されるのかを正規分布、線形単回帰の順で説明したいと思います。
2.「正規分布における区間推定・検定」
2-1. 正規分布における信頼区間の区間推定
まず、正規分布の信頼区間の区間推定を行う場合、正規分布そのものに当てはめるのではなく、正規分布に非常に近いt分布と呼ばれる分布に当てはめて区間推定を行います。正規分布に当てはめて区間推定を行う場合は、母分散(真の分散)が既知である必要があり、一般に現実的ではありません。一方で、t分布に当てはめて区間推定を行う場合は、標本(データ)から求める分散を用いますので、正規分布の代わりに良く用いられます。
(1)式は、t分布における区間推定の式で、標本平均(データの平均値)$\bar{X}$が100・(1-$\alpha$)%の確率で収まることを指します。このように、(1)式を使えば、100・(1-$\alpha$)%の信頼区間を定量的に求めることができ、標本平均(データの平均値)$\bar{X}$の信頼度を定量的に表すことができます。
$$
\begin{align}
&\bar{X}-(t(\phi,\alpha){\cdot}s{\cdot}\sqrt{\frac{1}{n}}{;}){;}\leqq{;}\mu{;}\leqq{;}\bar{X}+(t(\phi,\alpha){\cdot}s{\cdot}\sqrt{\frac{1}{n}}{;}){\quad}・・・(1)\
&{\quad}\bar{X}:標本平均(データから求める平均)\
&{\quad}t(\phi,\alpha):自由度\phi, 信頼区間を指す値\alphaから決まるt分布の値\
&{\quad}1-\alpha:信頼係数\
&{\quad}s^2:分散(データから求める分散)\
&{\quad}n:標本数(データ数)\
&{\quad}\mu:母平均(真の平均)
\end{align}
$$
ここで、100・(1-$\alpha$)%とは、下図にありますように、例えば、$\bar{X}$を100回求めたとき、その内、95回は、(1)式が成立する範囲に$\bar{X}$が収まるという意味です。
なお、t分布は、標本数が増えるほど、正規分布に近づく性質がありますが、標本数が少ないときに、特に有用です。
2-2. 正規分布における検定
検定も区間推定と同じ理由で、t分布に当てはめて行うのが一般的です。(2)式は、t分布における検定の考え方を示した式です。一般に、$\mu$(母平均)の値を仮定して、$\bar{X}$の値から、その仮定(帰無仮説)が妥当か否かを確かめます。
$$
\mu-({;}t(\phi,\alpha){\cdot}s{\cdot}\sqrt{\frac{1}{n}}{;}){;}\leqq{;}\bar{X}{;}\leqq{;}\mu+({;}t(\phi,\alpha){\cdot}s{\cdot}\sqrt{\frac{1}{n}}{;})\hspace{0.4cm}・・・(2)
$$
$\alpha$の値は、”この程度の確率で発生すれば、仮定は正しいとしてよいだろう”とする値で、例えば、$\alpha$ = 0.05とすれば、”95%の確率で$\bar{X}$が発生すれば、仮定($\mu$の値)は正しいとしてよいだろう”と判断します(帰無仮説を採択します)。この検定を行う回数は、1回あるいは複数回としても良いですが、予想と結果が異なっていたので、検定回数を増やす、というのは好ましくありません。検定の回数は、予め決めておくのが望ましいです。
3. 線形単回帰における区間推定・検定
3-1. 線形単回帰における仮定
線形単回帰における区間推定および検定についてご紹介する前に、統計学において線形単回帰を扱う際の仮定について示しておきます。統計学では、線形単回帰に下記の仮定をおくことが一般的です。
・「$x$」と「$y$からノイズを除去した値($y$の真値)」の関係が線形である。
・$y$に入っているノイズが正規分布である。
・ノイズの分散も任意の$x$で同じ。
・$x$には、ノイズが入っていない。
上記の仮定の下、2章で紹介しました区間推定および検定を線形単回帰における母回帰($y$の真値)の区間推定および検定に適用します。
3-2. 線形単回帰の信頼区間の区間推定
3-2-1. 信頼区間の区間推定の式
(3)式は、線形単回帰における母回帰($y_k$の真値)の信頼区間の区間推定を示す式です。
$$
\begin{align}
&\hat{y}_k-(t(\phi,\alpha){\cdot}s{\cdot}\sqrt{h_{{kk}}}){;}{\leqq}{;}y_{k}{;}{\leqq}{;}\hat{y}_k-(t(\phi,\alpha){\cdot}s{\cdot}\sqrt{h_{{kk}}}){\quad}・・・・(3)\
&{\quad}\hat{y}_k=\hat{a}・x_k+\hat{b}\
&{\quad}x_k:信頼区間を評価したいy_kに対応するxの値\
&{\quad}t(\phi,\alpha):自由度\phi, 信頼区間を指す値\alphaから決まるt分布の値\
&{\quad}1-\alpha:信頼係数\
&{\quad}s^2:分散\
&{\quad}h_{kk}=1/n+{(x_k-\bar{x})^2/\Sigma_{i=1}^{n}(x_i-\bar{x})(x_i-\bar{x})}:てこ比\
\end{align}
$$
(3)式で表される線形単回帰の区間推定の式は、(1)式で示しましたt分布の区間推定を線形単回帰に拡張したもので、(3)式で示される区間に$y_k$(ノイズを除去した後の$y_k$の真値)が100・(1-$\alpha$)%の確率で収まることを指します。このように、(3)式を使えば、100・(1-$\alpha$)%の信頼区間を定量的に求めることができ、線形単回帰の信頼度を定量的に表すことができます。
一方で、(1)式と(3)式を比較しますと、良く似てますが、少し異なる点があります。(1)式では1/$n$であるところが、(3)式では、$h_{kk}$となっています。$h_{kk}$は、上に示す定義ですので、(1)式と(3)式の差は、
$$
{(x_k-\bar{x})^2/Σ(x_i-\bar{x})(x_i-\bar{x})}
$$
が、あるかないかということになります。$h_{kk}$は、てこ比と呼ばれ、線形単回帰では考慮しなければならない性質です。以下に、てこ比についても、少し触れておきます。
3-2-2. てこ比
下表は、上図のA,B,Cのデータをそれぞれ$y$軸方向に-5だけ変えたとき(平行移動したとき)、得られる線形単回帰のA,B,Cそれぞれにおける$y$の値はどのように変わるかを示しています。
A | B | C |
---|---|---|
-0.1594 | -0.0414 | -0.1594 |
得られる線形単回帰の点A,B,Cそれぞれにおける$y$の値は異なっていることがわかります。このように、_y_軸方向へのノイズは、正規分布で分散も任意の_x_で同じと仮定していますが、ある1つのデータだけ、(x_の値は変化なしで)$y$の値のみ同じ値だけ変えたとき、得られる線形単回帰線上の$y$の値は、$x$の値に応じて変わります。すなわち、下図に示してますように、ノイズの分布に対応する線形単回帰線上の$y$の値(母回帰)の分布はノイズの分布と同じではないことを意味しています。これを表したのがてこ比$h{kk}$です。このてこ比は、データ$x$の重心から$x$軸方向に離れるほど大きくなります。上表で点Bは、 データ$x$の重心であり、点Aと点Cは、重心から等距離にある点です。
なお、線形単回帰では、自由度が、$n$-2になることにも注意しましょう。これは、線形単回帰の回帰係数が2つあるため、それによって自由度が2つ制約されるためです。
3-3. 線形単回帰の回帰係数の検定
線形単回帰の検定で、一般的なのは、回帰係数$a$の値が0であるか否か検定することです。$a$=0のとき、$y$は$x$に対して相関を持たないことになり、線形単回帰を用いることの妥当性がなくなります。(4)式は、線形単回帰における回帰係数$a$の検定の考え方を示した式です。(4)式において、$a$=0として検定を行います。
$$
\begin{align}
&{\quad}a-(t(\phi,\alpha){\cdot}s{\cdot}\sqrt{\frac{1}{S_{xx}}}{;}){;}\leqq{;}\hat{a}{;}\leqq{;}a+(t(\phi,\alpha){\cdot}s{\cdot}\sqrt{\frac{1}{S_{xx}}}{;}){\quad}・・・(4)\
\mspace{1cm}\
&{\quad}S_{xx}=\sum_{i=1}^{n}(x_i-\bar{x})(x_i-\bar{x})\
\end{align}
$$
(4)式において、$S_{xx}$が現れているのは、
$$
\frac{\hat{a}-a}{s\sqrt{\frac{1}{S_{xx}}}}
$$
が、t分布にしたがうことに拠るものです。
3-4. 線形単回帰における予測区間の区間推定
線形単回帰には、信頼区間に加えて予測区間があります。信頼区間は、線形単回帰(母回帰)の信頼度を示す区間ですが、予測区間は、線形単回帰を用いて出力($y$)を予測する際のその予測値の信頼度を示す区間です。下図にありますように、(3)式で求めた出力の真値が推定値(分布)として与えられて、さらに、観測時のノイズ(正規分布)が加わると考えるとわかりやすいかもしれません。
上記の説明から、線形単回帰の予測区間の区間推定の式は、(5)式で与えられます。
$$
\hat{y}_k-(t(\phi,\alpha){\cdot}s{\cdot}\sqrt{h_{kk}+1}{;}){;}{\leqq}{;}y_{k}{;}{\leqq}{;}\hat{y}_k+(t(\phi,\alpha){\cdot}s{\cdot}\sqrt{h_{kk}+1}{;}){\quad}・・・・(5)
$$
(3)式と(5)式を比較すると、(3)式では、$\sqrt{h_{kk}}$の部分が、$\sqrt{h_{kk}+1}$となっており、観測時のノイズが考慮されていることがわかります。
4.「正規分布における区間推定・検定」と「線形単回帰における区間推定・検定」
下表に、正規分布および線形単回帰それぞれにおける区間推定と検定の式を示します。両者の相違点がご理解頂けたのではないかと思います。
5. おわりに
今回は、「正規分布における区間推定・検定」と「線形単回帰における区間推定・検定」の相違点についてご紹介しました。正規分布における区間推定・検定の考え方が線形単回帰の区間推定・検定に一部拡張されて適用されていることがおわかり頂けたとしたら幸いです。正規分布を仮定している理論・方法は、いろいろあります。また、世の中の正規分布になっている現象もあります。正規分布を仮定している理論・方法、正規分布となっている現象を探してみるのも、さらに知見が広がって、おもしろいかもしれません。
今回も、理論の大切さをあらためて知りたいあるいは感じたいという方がいらっしゃいましたら、それをできるだけわかりやすく伝えられたら、という思いから記事を書かせて頂きました。より詳しく知りたいという方は、参考文献などをご参考頂ければと思います。
参考文献
東京大学教養学部学部統計学教室編:統計学入門
永田靖:入門統計解析法
永田靖,棟近雅彦:多変量解析法入門