この記事では、機械学習に用いるモデルの中でも基本的な線形回帰について説明します。機械学習についてはこの記事で説明しているのでこちらも参考にして下さい。
https://qiita.com/aogyt/items/fc1afcf5eabcc016f508
#教師あり学習アルゴリズムの仕組み
本題の線形回帰に入る前に、教師あり学習アルゴリズムに関して説明しようと思います。
教師あり学習には必ず訓練セットが必要です。例えば、
このようなデータがあるとします。このデータは学習アルゴリズムに読み込まれ、そのアルゴリズムはある関数を出力します。この関数はよく「h」と表現され、仮説関数(あるいは説明関数とも)といいます。そして、それを評価するのが目的関数です。この仮説関数と目的関数は非常に重要な概念です。といっても抽象的な概念だけでは分かりにくいので後半では具体例を見ていきます。
#線形回帰・最小二乗法とは
今回使うモデルは線形回帰です。線形回帰とは、多数のデータの特徴を線形的に(つまり直線によって)表し、未知のデータを与えられたときに推測するためのモデルのことを言います。線形回帰の中の具体的な方法の1つに最小二乗法というものがあります。
まずここにデータがあります。
そして、最終目標は
このように、データの特徴を最もよく表した直線の式を求めることです。その為には、どういう直線が「特徴を最もよく表しているのか」を評価する基準のようなものが必要です。それを今から説明します。
まず、ある1つのデータ(点)に注目します。写真でいうと緑色の点です。
この点の座標を(x,y)とします。この時、赤色の直線は「xのときのyの値はh(x)くらいじゃないかな?」と予想しています。実際の値はyなので、誤差が h(x)-y だけあることになります。
つまりこの誤差がすべての点で小さくなるように直線をとれば、それは「特徴を最もよく表している」と言えるでしょう。ということで、この誤差の総和をとって、、、と
したいところですが、ここで問題が1つ発生します。この直線の予想よりも大きいときと小さいときの誤差をそのまま足してしまうと正しい誤差を見ることが出来なくなってしまいます。もともと誤差が小さいのか、+と-で打ち消されて小さくなったのか区別がつかないからです。そこで、誤差の2乗の和で評価しようというのが、最小二乗法です。「二乗」を「最小」にする方法ということですね。
直線の式が、
という形になります。なお、(1/2m)という係数がついていますが、とりあえず今は気にしなくてもよいです。ただ、mはデータの個数を表しているということは覚えておいてください。これで線形回帰、最小二乗法について分かって頂けたかと思います。
#仮説関数と目的関数
さて、仮説関数と目的関数については最初に言いましたが、最小二乗法について説明したところでもう一度触れたいと思います。
###仮説関数
仮説関数は線形回帰で言うとそれぞれの直線の式です。
###目的関数
また、目的関数は最小二乗法の説明で出てきた、誤差を評価する関数です。
今回は目的関数が大きければ大きいほど誤差(の2乗)の総和が大きいということになるので、今回の目的は目的関数の最小値を求めること、と言い換えることが出来るでしょう。
#具体例
ではここからは実際のデータに基づいて直線を求めてみましょう。次のデータは与えられたx,yのデータです。
(x,y)=(1,1),(2,2),(3,3)に点があります。仮説関数は h(θ)=θx とします。
θ=1 のとき
x=1の誤差は0、x=2の誤差は0、x=3の時の誤差は0、これらの2乗の総和は0、これを2mで割ると 0 となります。2乗の和は必ず0以上になりますから、θ=1 のときに目的関数は最小値をとることになりそうです(自明なように見えるかもしれませんが、このようなプロセスは理解いただけたと思います)。
θ=0 のとき
x=1の誤差は1、x=2の誤差は2、x=3の時の誤差は3、これらの2乗の総和は14、これを2m(=6)で割ると
2.3 となります。
θ=3 のとき
x=1の誤差は2、x=2の誤差は4、x=6の時の誤差は3、これらの2乗の総和は56、これを2m(=6)で割ると
9.3 となります。
これを様々なθで計算をしてプロットしたものが次の図です。
横軸はθ、縦軸はJ(θ)を表しています。これこそ、目的関数のグラフです。これを見ても、θ=1 が最適であることは分かりますね。
以上のことから、 y=x はこのデータをよく表しているということが分かりました。