More than 5 years have passed since last update.

株式会社ディー・エヌ・エー

pythonでSVM実装

Last updated at 2016-05-02Posted at 2016-04-30

はじめに

pythonでSVM（サポートベクターマシン）を実装しました．
教科書として『はじめてのパターン認識』を使いました．

本記事の構成

はじめに
SVM
- マージン最大化
- 主問題
- ラグランジュ未定乗数法
- KKT条件
- 双対問題
解の求め方
pythonでの実装
結果
おわりに
追記情報

SVM

SVMとは，最大マージンを実現する2クラス線形識別学習法です．
教科書によると，他クラスの識別は $K-1$ 個の一対多SVMで実現することが多いようです．

マージン最大化

次のようなデータ集合を考えます．データの総数を $N$ とすると，$i = 1,...,N$となります．

\begin{align}
& D_L = \bigl\{(t_i, {\boldsymbol{x}}_i)\bigr\} \\
& t_i = \{-1, +1\}
\end{align}

線形識別関数のマージンを $\kappa$ とすると，全ての学習データで次式が成り立ちます．

|\boldsymbol{w}^T{\boldsymbol{x}}_i + b| \geq \kappa

$\kappa$ で正規化したものを $\boldsymbol{w}$， $b$ と置き直し，教師との積をとることで絶対値をはずします．

t_i(\boldsymbol{w}^T{\boldsymbol{x}}_i + b) \geq 1 \tag{1}

図のようにクラス間マージンは，識別超平面に最も近いデータを $\boldsymbol{w}$ 方向に射影した長さの差として求めることができます．

$t_{i} = +1$ のクラスの中で識別超平面に最も近いデータは，$\boldsymbol{w}$ 方向に射影した長さがそのクラス内で最小となり，
$t_{i} = -1$ のクラスの中で識別超平面に最も近いデータは，$\boldsymbol{w}$ 方向に射影した長さがそのクラス内で最大となります．
クラス間マージン $\rho(\boldsymbol{w}, b)$ は次式で表されます．

\begin{align}
\rho(\boldsymbol{w}, b) &= \min_{\boldsymbol{x} \in C_{y=+1}}\frac{{\boldsymbol{w}}^T\boldsymbol{x}}{||\boldsymbol{w}||} - \max_{\boldsymbol{x} \in C_{y=-1}}\frac{{\boldsymbol{w}}^T\boldsymbol{x}}{||\boldsymbol{w}||} \\
\\
&= \frac{1-b}{||\boldsymbol{w}||} - \frac{-1-b}{||\boldsymbol{w}||} \\
\\
&= \frac{2}{||\boldsymbol{w}||} \tag{2}
\end{align}

式(2)より，$||\boldsymbol{w}||$ を最小化すれば，クラス間マージンは最大化されることが分かります．
また，クラス間マージンは識別超平面に最も近いデータだけで決まります．この識別超平面に最も近いデータのことをサポートベクターと呼びます．

主問題

式(1)の制約条件のもと，式(2)に表されるクラス間マージンを最大化することを考えます．これを主問題とします．

評価関数（最小化）

L_p(\boldsymbol{w}) = \frac{1}{2}{\boldsymbol{w}}^{T}\boldsymbol{w}

不等式制約条件

t_i(\boldsymbol{w}^T{\boldsymbol{x}}_i + b) - 1 \geq 0

ラグランジュ未定乗数法

主問題を解くためにラグランジュ未定乗数法を使います．

ラグランジュの未定乗数法（ラグランジュのみていじょうすうほう、英: method of Lagrange multiplier）とは、束縛条件のもとで最適化を行うための数学（解析学）的な方法である。いくつかの変数に対して、いくつかの関数の値を固定するという束縛条件のもとで、別のある1つの関数の極値を求めるという問題を考える。各束縛条件に対して定数（未定乗数、Lagrange multiplier）を用意し、これらを係数とする線形結合を新しい関数（未定乗数も新たな変数とする）として考えることで、束縛問題を普通の極値問題として解くことができる方法である。
wikipediaより引用

具体例

何を言っているかさっぱり分からないので，具体例を挙げて説明します．
$g(x, y) = x^2 + y^2 - 2 = 0$ の条件下で $f(x, y) = y - x$ の最大化を考えます．
これは半径 $\sqrt{2}$ の円周上の $(x, y)$ を使って，直線の切片を最大化するという問題になります．

図から，円と直線が接するとき $f(x, y)$ が制約条件のもと最大値 $2$ を取ることが分かります．
これをラグランジュ未定乗数法を使って解いてみましょう．

\begin{align}
L(x, y, \lambda) &= f(x, y) + \lambda g(x, y) \\
\\
&= y - x + \lambda(x^2 + y^2 - 2) \tag{3}
\end{align}

式(3)のラグランジュ関数を $x, y, \lambda$ で偏微分し，それぞれイコール $0$ とします．

\begin{align}
& \frac{\partial L}{\partial x} = -1 + 2\lambda x = 0 \\
& \frac{\partial L}{\partial y} = 1 + 2\lambda y = 0 \\
& \frac{\partial L}{\partial \lambda} = x^2 + y^2 - 2 = 0
\end{align}

1，2番目の式を3番目の式に代入します．

\begin{align}
& \Bigl(\frac{1}{2\lambda}\Bigr)^2 + \Bigl(-\frac{1}{2\lambda}\Bigr)^2 - 2 = 0 \\
\\
& \lambda = \pm \frac{1}{2}, x = \pm 1, y = \mp 1
\end{align}

よって，$g(x, y) = 0$ の制約条件下で $f(x, y) = y - x$ は最大値 $2$ を取ります．
この最大値について3次元で考えてみます．3次元空間では，$z = f(x, y) = y - x$ は斜面に，$g(x, y) = x^2 + y^2 - 1 = 0$ は円柱になります．
$g(x, y) = 0$ の制約条件下で $z = y - x$ の最大値を求めたいので，斜面と円柱が交わる面に関して，$z$ 座標の最大値を見つければ良いこととなります．
つまり，$x^2 + y^2 - 2 = 0$ の円を $z = y - x$ 平面に射影したときの $z$ 軸方向の最大値が求めたい値です．
これを図で表します．真横から見たとき，斜面と円柱が交わっている部分の中で，$z$ 軸方向の最大値は $2$ であることが分かり，これは計算結果と一致します．

解説

なぜラグランジュ未定乗数法で，最小値を求められるのか解説してみます．（誤りを含むかもしれません）
制約条件 $g(\boldsymbol{x}) = 0$（以下，制約面とする）のもと，評価関数 $f(\boldsymbol{x})$ が $\boldsymbol{x}^\star$ において最大値をとるとき，$\boldsymbol{\nabla}f(\boldsymbol{x})$ は制約面に対して垂直でなければなりません．
なぜなら，垂直でないと仮定すると，制約面の方向に沿って $f(\boldsymbol{x})$ をさらに大きくすることができるからです．また，$\boldsymbol{\nabla}g(\boldsymbol{x})$ も制約面に対して垂直になります．
よって $\boldsymbol{x}^\star$ において $\boldsymbol{\nabla}f, \boldsymbol{\nabla}g$ は平行なベクトルとなり，次式が成り立ちます．

\boldsymbol{\nabla}f + \lambda\boldsymbol{\nabla}g = 0 \tag{4}

ここで，ラグランジュ関数を以下のように定義します．

L(\boldsymbol{x}, \lambda) \equiv f(\boldsymbol{x}) + \lambda g(\boldsymbol{x})

ラグランジュ関数 $L(\boldsymbol{x}, \lambda)$ を $\boldsymbol{x}, \lambda$ で偏微分することで式(4)および制約条件を導くことができます．
これを解くことで停留点 $\boldsymbol{x}^\star$ が得られます．この $\boldsymbol{x}^\star$ の中に，$f(\boldsymbol{x})$ を最大化する $\boldsymbol{x}$ が存在します．

KKT条件

では，このラグランジュの未定乗数法を主問題に適用します．
ラグランジュ関数を次式のように定義します．

\tilde{L}_{p}(\boldsymbol{w}, b, \boldsymbol{\alpha}) = \frac{1}{2}{\boldsymbol{w}}^T\boldsymbol{w} - \sum_{i=1}^{N}\alpha_i(t_i(\boldsymbol{w}^T{\boldsymbol{x}}_i + b) - 1) \tag{5}

ここで，$\boldsymbol{\alpha} = {(\alpha_1, ..., \alpha_N)}^T (\alpha_i \geq 0)$ であり，$\alpha_i$ がラグランジュ未定乗数です．
この最適化問題の解 $\boldsymbol{w}_0, b_0$ は，以下のKKT条件を満たす解として得られます．

< KKT条件 >

\begin{align}
& \left.\frac{\partial \tilde{L}_p(\boldsymbol{w}, b, \boldsymbol{\alpha})}{\partial \boldsymbol{w}}\right|_{\boldsymbol{w} = \boldsymbol{w}_0} = \boldsymbol{w}_0 - \sum_{i=1}^{N}\alpha_{i}t_i{\boldsymbol{x}}_i = 0 \tag{6} \\
& \frac{\partial \tilde{L}_p(\boldsymbol{w}, b, \boldsymbol{\alpha})}{\partial b} = \sum_{i=1}^{N}\alpha_{i}t_i = 0 \tag{7} \\
& \\
& t_i(\boldsymbol{w}^T{\boldsymbol{x}}_i + b) - 1 \geq 0 \tag{8} \\
& \\
& \alpha_i \geq 0 \tag{9} \\
& \\
& \alpha_i(t_i(\boldsymbol{w}^T{\boldsymbol{x}}_i + b) - 1) = 0 \tag{10}
\end{align}

式(6),(7)はラグランジュ関数の偏微分イコール $0$，式(8)は主問題の制約条件，式(10)は相補性条件です．
式(10)の相補性条件より

t_i(\boldsymbol{w}^T\boldsymbol{x}_i + b) - 1 > 0 \Rightarrow \alpha_i = 0 \\
t_i(\boldsymbol{w}^T\boldsymbol{x}_i + b) - 1 = 0 \Rightarrow \alpha_i \geq 0

相補性条件は，サポートベクター以外のデータによる制約条件の効果はなく、サポートベクターだけで識別超平面が決定されることを示しています．
（調べてみるとKKT条件はかなり奥が深そうなので，これくらいのふんわりとした理解で次に進むことにします）

双対問題

式(5)を展開し，最適解および式(6),(7)を代入します．

\begin{align}
L_{d}(\boldsymbol{\alpha}) &= \frac{1}{2}{\boldsymbol{w}_{0}}^{T}\boldsymbol{w}_{0} - \sum_{i=1}^{N}\alpha_{i}t_{i}{\boldsymbol{w}_{0}}^{T}{\boldsymbol{x}}_{i} - b\sum_{i=1}^{N}\alpha_{i}t_{i} + \sum_{i=1}^{N}\alpha_{i} \\
&= \frac{1}{2}{\boldsymbol{w}_{0}}^{T}\boldsymbol{w}_{0} - {\boldsymbol{w}_{0}}^{T}\boldsymbol{w}_{0} - 0 + \sum_{i=1}^{N}\alpha_{i} \\
&= \sum_{i=1}^{N}\alpha_{i} - \frac{1}{2}{\boldsymbol{w}_{0}}^{T}\boldsymbol{w}_{0} \\
&= \sum_{i=1}^{N}\alpha_{i} - \frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_{i}\alpha_{j}t_{i}t_{j}{\boldsymbol{x}_i}^T{\boldsymbol{x}}_j
\end{align}

式(6)より，最適解がラグランジュ未定乗数と学習データの線形和で表されることから，$\alpha_{i}$ を求める問題に置き換えることができます．
最適なラグランジュ未定乗数は，$L_{d}(\boldsymbol{\alpha})$ を最大にする $\boldsymbol{\alpha}$ により得られます．これを主問題に対する双対問題と呼びます．
$N$ 個の $1$ を並べたベクトルを $\boldsymbol{1}$，学習データで作られた行列を $\boldsymbol{H}$，教師データベクトルを $\boldsymbol{t}$ とします．

\begin{align}
& \boldsymbol{1} = (1,...,1)^T \\
\\
& \boldsymbol{H} = (H_{ij} = {t_it_j\boldsymbol{x}_i}^T\boldsymbol{x}_j) \\
\\
& \boldsymbol{t} = (t_1,...,t_N)^T
\end{align}

評価関数（最大化）

L_{d}(\boldsymbol{\alpha}) = \boldsymbol{\alpha}^T\boldsymbol{1} - \frac{1}{2}\boldsymbol{\alpha}^T\boldsymbol{H}\boldsymbol{\alpha}

等式制約条件

\boldsymbol{\alpha}^T\boldsymbol{t} = 0

双対問題を解いて得られたラングランジュ未定乗数の最適解を $\tilde{\boldsymbol{\alpha}} = (\tilde{\alpha}_1,...,\tilde{\alpha}_N)^T$ とすると，最適解は次のように求められます．

\begin{align}
& \boldsymbol{w}_0 = \sum_{i=1}^{N}\tilde{\alpha}_{i}t_i{\boldsymbol{x}}_i \\
& b_0 = \frac{1}{t_s} - {\boldsymbol{w}_0}^T\boldsymbol{x}_s
\end{align}

$\boldsymbol{x}_s, t_s$ はサポートベクターのデータおよび教師を表します．

解の求め方

主問題を双対問題に置き換え，最適な $\tilde{\boldsymbol{\alpha}}$ を求めれば，マージン最大化は実現できることを導きました．
$L_{d}(\boldsymbol{\alpha})$ を最大にする $\boldsymbol{\alpha}$ をプログラムで求めるために最急降下法を使います．
双対問題の制約条件を満たすよう罰金項を加え，以下のように $L_{d}(\boldsymbol{\alpha})$ を再定義しました．

L_{d}(\boldsymbol{\alpha}) = \boldsymbol{\alpha}^T\boldsymbol{1} - \frac{1}{2}\boldsymbol{\alpha}^T\boldsymbol{H}\boldsymbol{\alpha} - \frac{1}{2}\beta\boldsymbol{\alpha}^T\boldsymbol{t}\boldsymbol{t}^T\boldsymbol{\alpha}

では，実際に最急降下法で $\alpha_i$ を更新します．

\begin{align}
{\alpha_i}' &= {\alpha_i} + \eta\frac{L_{d}(\boldsymbol{\alpha})}{\alpha_i}　\\
&= {\alpha_i} + \eta(1 - \sum_{j=1}^{N}\alpha_{j}t_{i}t_{j}{\boldsymbol{x}_i}^T{\boldsymbol{x}}_j - \beta\sum_{j=1}^{N}\alpha_{j}t_{i}t_j)
\end{align}

ここまで難しい計算をしてきましたが，最終的に得られる数式は美しいですね．
これで $L_{d}(\boldsymbol{\alpha})$ を最大にする $\boldsymbol{\alpha}$ は得られます．

pythonでの実装

以下のように実装しました．
$\alpha_i$ の更新が簡単にできます．また，罰金項の効果で，$\boldsymbol{\alpha}^T\boldsymbol{t} = 0$ の条件を満たすように更新が行われます．

svm.py

import numpy
from matplotlib import pyplot
import sys

def f(x, y):
	return x - y

if __name__ == '__main__':

	param = sys.argv
	
	numpy.random.seed()
	N = 30
	d = 2
	X = numpy.random.randn(N, d)
	T = numpy.array([1 if f(x, y) > 0 else - 1 for x, y in X])
	alpha = numpy.zeros(N)
	beta = 1.0
	eta_al = 0.0001 # update ratio of alpha
	eta_be = 0.1 # update ratio of beta
	itr = 1000
	
	for _itr in range(itr):
		for i in range(N):
			delta = 1 - (T[i] * X[i]).dot(alpha * T * X.T).sum() - beta * T[i] * alpha.dot(T)
			alpha[i] += eta_al * delta
		for i in range(N):
			beta += eta_be * alpha.dot(T) ** 2 / 2

	index = alpha > 0
	w = (alpha * T).T.dot(X)
	b = (T[index] - X[index].dot(w)).mean()
	
	if '-d' in param or '-s' in param:
		seq = numpy.arange(-3, 3, 0.02)
		pyplot.figure(figsize = (6, 6))
		pyplot.xlim(-3, 3)
		pyplot.ylim(-3, 3)
		pyplot.plot(seq, -(w[0] * seq + b) / w[1], 'k-')
		pyplot.plot(X[T ==  1,0], X[T ==  1,1], 'ro')
		pyplot.plot(X[T == -1,0], X[T == -1,1], 'bo')

		if '-s' in param:
			pyplot.savefig('graph.png')

		if '-d' in param:
			pyplot.show()

結果

下の図のような結果が得られました．データ点の色がクラスを表しています．
計算により求められた直線を一緒に描画したところ，それっぽい結果は得られました．

おわりに

不等式条件下でマージン最大化を目的とした主問題を設定し，これをラグランジュ未定乗数法を使うことで双対問題へ置き換え，最適な $\boldsymbol{w}_0, b_0$ を求められることが分かりました．

追記情報

2016/05/01
@skyshk さんからコメントをいただいてコードを修正しました．

142

123

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up