More than 5 years have passed since last update.

The Vision/統計・機械学習日誌～斯くして、私はデータサイエンティストになるのか～

Last updated at 2019-03-23Posted at 2019-03-23

統計学を学びはじめる　#3

Hi!

続きましてはこちら！！

相関係数(correlation coefficient)、最小二乗法(Least Squares Method)

記述統計でめちゃ重要ですね！

＜＜＜用語の整理＞＞＞

・相関(correlation):変数同士の関係性の事。
2変数データを取り扱うときには、変数の間にどんな関係性があるか、調べる必要がある。

・散布図or相関図(scatter diagram)：横軸と縦軸に関してのデータの分布を2次元平面にして表した図

ちょっと整備してこんな感じ

右上がりになってるのがわかりますね。二つの変数には正の相関があると。

ここで、見えるかして相関をとらえることはできたから、次は定量的にとらえようと試みる。
ドンぐらい相関の強さがあるのかとかを調べる、相関係数(correlation coefficient)について調べる

・共分散(covariance)：相関の正負を表す値。

s_{xy}=\dfrac {1}{n}\sum ^{n}_{i=1}\left( x_{i}-\overline {x}\right) \times \left( y_{i}-\overline {y}\right)

共分散は単位が2乗されてるから、これを両変数の標準偏差で割って、

相関係数(correlation coefficient)

r_{xy}=\dfrac {s_{xy}}{s_{x}s_{y}}=\dfrac {1}{n}\Sigma ^{n}_{i=1}\dfrac {\left( x_{i}-\overline {x}\right) }{s_{x}}\times \dfrac {\left( y_{i}-\overline {y}\right) }{s_{y}}

相関係数は-1から1の間の値をとる。

・回帰：データの関係性を数式に落とし込むこと。
ここでは、回帰直線として2つの変数の関係が"直線になるんじゃね？"って発想で考えている。

こっから、最小2乗法の説明はいるけど、たぶん日本で一番途中式の説明が丁寧だから読んでね☆

直線関係だから、線形関数である、

y=\alpha+\beta x

と予測する。観測したｙに対して、回帰直線上に存在して予測されるｙの値は

\widehat {y}

と表す。

\widehat {y_{i}}=\widehat {\alpha }+\widehat {\beta }x_{i}

ここで、ｘは実測値を使ってるから、"ｘ以外の予測値にのみハット記号＾がつく。"

マジで計算

・残差(residual)：観測と予測の差を残差という。2乗して残差平方和ができる。

残差の式は

e_{i}=y_{i}-\widehat y_{i}

だから、残差平方和は

S\left( \widehat {\alpha },\widehat {\beta }\right) =\sum ^{n}_{i=1}e^{2}_{i}=\sum ^{n}_{i=1}\left( y_{i}-\widehat y_{i}\right)^{2} =\sum ^{n}_{i=1}\left\{ y_{i}-\left( \widehat {\alpha }+\widehat {\beta }x_{i}\right) \right\} ^{2}

残差平方和の値が小さくなれば、予測がそんなに間違ってないということになる。これを小さくしていくのが目的！！

もう20人以上にこれ教えてきたな。

この、残差とか損失とか、"予測とか期待との差の大きさを小さくしていく考えた方"は統計とか、機械学習とかでめちゃ重要だから覚えとこう。でも実は、途中計算ミスって先輩に助けてもらった笑
ありがとう、先輩☆

んで、変数であるα、βを微分して最小値を求める。
求めるんだけど、ここが大変なんだよね。大学生とか。困るやつ。(俺も実際、当時はめちゃレポート苦労した)

\sum ^{n}_{i=1}\widehat {\alpha } =\widehat {\alpha } n

を意識しつつ、

\dfrac {\partial S\left( \widehat {\alpha },\widehat {\beta }\right) }{\partial \widehat {\alpha }}　　=>　　

n\widehat {\alpha }+\widehat {\beta }\sum ^{n}_{z=1}x_{i}=\sum ^{n}_{i=1}y_{i}:\left( 1\right)

\dfrac {\partial S\left( \widehat {\alpha },\widehat {\beta }\right) }{\partial \widehat {\beta }}　　=>　　

\widehat {\alpha }\sum ^{n}_{z=1}x_{i}+\widehat {\beta }\sum ^{n}_{i=1}x^{2}_{i}=\sum ^{n}_{i=1}x_{i}y_{i}:\left( 2\right)

それぞれ、α、βで微分してここまでは行けると思う。こっからどうやってα、βを求めてくか。

ここで重要なのは、前回紹介した、分散の式

\sigma ^{2}_{x}=\dfrac {1}{n}\sum x^{2}_{i}-\overline {x}^{2}

と

\overline {x}=\dfrac {1}{n}\sum ^{n}_{i=1}x_{i}

これ使う。

⑴/nより

\widehat {\alpha }+\widehat {\beta }\overline {x}=\overline {y}:\left( 3\right)

⑶をα＝～の形にして⇒⑵

\begin{aligned}\sum x_{i}y_{i}=\widehat {\beta } \sum x^{2}_{i}+\sum x_{i}\left( \overline {y}-\widehat {\beta }\overline {x}\right) \\ =\left( \sum x^{2}_{i}-\overline {x}\sum x_{i}\right) \widehat {\beta } +\overline {y}\sum x_{i}\end{aligned}

よって、

\sum x_{i}y_{i}-\overline {y}\sum x_{i}=\left( \sum x^{2}_{i}-n\overline {x}\right) \widehat {\beta }

左辺=\sum x_{i}y_{i}-n\overline {x}\overline {y}=n\left( \dfrac {1}{n}\sum x_{i}y_{i}-\overline {x}\overline {y}\right)=n\sigma _{xy}

右辺=n\left( \dfrac {1}{n}\sum x^{2}_{i}-\overline {x}^{2}\right)\widehat {\beta } =n\sigma _{x}^{2}\widehat {\beta }

\therefore \sigma _{xz}=\widehat {\beta }\sigma ^{2}_{x}:\left( 4\right)

⑶と⑷からαも求まるから、

\widehat {\alpha }=\overline {y}-\dfrac {\sigma _{xy}}{\sigma ^{2}_{x}}\overline {x}

以上より、

\therefore y-\overline {y}=\dfrac {\sigma _{xy}}{\sigma ^{2}_{x}}\left( x-\overline {x}\right)

最小二乗法の式

やっとできた笑。

今度、時間あるときPythonで実装するかｖ

本日は、こんな感じ。大学生どんどんよんでね☆

次回は、確率！

Go Beyond the limits!

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

The Vision/統計・機械学習日誌～斯くして、私はデータサイエンティストになるのか～

統計学を学びはじめる #3

＜＜＜用語の整理＞＞＞

マジで計算

統計学を学びはじめる　#3