More than 5 years have passed since last update.

機械学習のための数学メモ #3 （分類）

機械学習

Last updated at 2017-11-03Posted at 2017-11-03

復習と頭の整理のためにメモとして書いていきます。随時、追記していきます。

分類

画像が縦長か横長か、２つの分類先に分ける二値分類について考える。

データ : 高さと横幅の部分
ラベル : 形の部分

表の内容をプロットすると次のようになる。

更に、データ数を増やしてみる。

再度、プロットすると次のようになる。

これは、次のように線を引いて分類できる。

分類の場合は、図形的に解釈するとわかりやすいから、大きさと向きを持った矢印のベクトルをイメージするといい。

先の線は、重みベクトルを法線ベクトルとする直線ということになる。
（注意）
は重みベクトルというパラメータで、法線は、ある直線に対して垂直なベクトルのこと。

ベクトル同士の内積について
実ベクトル空間の内積は各要素の積を足し上げたものだから、次の式と同じ意味ということ。

今回の縦幅と横幅を求める式は次のようになる。

= (1, 1)のとき

となり、傾き-1の直線を表すということがわかる。
（内積の式は直線のグラフを表す。）

重みベクトル = (1, 1)を書き加えると、が直線に対して垂直になっていることがわかる。

次の学習データがあるとき、

縦長か横長かを判定する関数（つまり１か-1を返す関数）は識別関数という名前がついている。

が負になるのは

のとき、つまり重みベクトル

との成す角が

の範囲内、つまり直線を挟んだ重みベクトルの反対側の範囲。

重みベクトルの更新式は、次のようになる。
これをすべての学習データに対して繰り返し処理して重みベクトルを更新していく。

は、識別関数による分類がうまくいかなかった場合。
（横幅と高さのベクトルを識別関数に通して分るいした結果と、実際のラベルyが異なっている）
それに対して、は、識別関数による分類がうまくいったということ。
つまり、

この式は、識別関数による分類に失敗した時だけ新しいパラメータに更新するよ、という式。
分類に成功した時は、そのままを代入しているので何も変わらない。

では、詳しく分類に失敗した時の更新式を見ていく。
重みベクトルは、回帰のパラメータ同様、ランダムな値で初期化するから、適当に以下のベクトルで考えてみる。

というデータがあるとき、これでパラメータを更新することを考えてみる。

お互いのベクトルはほぼ反対を向いているからとの成す角θはになって、内積は負になる。
したがって、識別関数による分類は-1となる。

つまり、になって、分類に失敗したという状態。
更新式が適用され、より、

このグラフは次のようになる。

ここで面白いのは、新しい次のはで、その新しい重みベクトルに垂直な直線（識別関数）は回転したこと。

これで

は直線を挟んで重みベクトルと同じ側に持ってくることができた。

なので、内積が正になり、による分類は１になる。
なので、分類に成功したということになる。

このように、パラメータの重みベクトルは更新されていく。
この更新をすべての学習データについて繰り返していくことがパーセプトロンの学習ということになる。

ロジスティック回帰/シグモイド関数

ロジスティック回帰は、分類を確率として考えるので、アプローチの仕方が異なる。

横長を１、縦長を０とすると、
Q. 縦長を今回−１にしなかったのは何故か？
更新式を簡潔にするための便宜上の理由。本当はどちらでもいい。

回帰の関数は、勾配降下法を使ってθを学習し、そのθを使って未知のデータに対する出力値を求めることができた。

このように、未知のデータがどのクラスに分類されるかを求める関数が必要で、次のような式になる。

ちなみに = なので、は、と書き換えることができる。

を横軸、を縦軸だとする、シグモイド関数は次のようなグラフになる。

シグモイド関数の特徴は、
のとき、

シグモイド関数は、だから、分類を確率として考える上で便利。
未知のデータが横長だとう確率は、次のように表すことができる。

の中の縦棒は、条件付き確率、つまりというデータが与えられた時に横長（）になる確率を表す。
のとき、横幅である確率は70%だということ。=>横長に分類される。
は横幅の確率が20%ということ。=> 縦長に分類される。

つまり、の結果を見て、0.5をしきい値として横長か縦長かを分類される。

つまり、
のときは、
のときは、
ということがわかる。

は、

と書き直せる。横軸を横幅（

）、縦軸が縦幅（

）のグラフを考える。 *θ*の値をここでは適当に入れて

をグラフに表すと次のようになる。

つまり、縦長だと分類される領域は次のようになる。

要するに、を境界線として、分類している。
このようにデータを分類するための直線のことを決定境界という。

今回は、パラメータθに適当な値を入れたので、上手く分類できていない。
次はそのθを求めるために、目的関数を定義して微分してパラメータの更新式を求める（ロジスティック回帰）。