More than 5 years have passed since last update.

"線形分離可能"のイメージをつかむ

Last updated at 2019-08-03Posted at 2019-08-03

この記事は古川研究室 Workout_calendar 19日目の記事です。
本記事は古川研究室の学生が学習の一環として書いたものです。内容が曖昧であったり表現が多少異なったりする場合があります。

はじめに

機械学習について学んでいると、代表的なタスクのひとつ、クラス分類のところで線形分離可能という言葉が出てきました。どういうものか気になったので、イメージを掴むために例を挙げながら考えていきます。具体的には、論理回路のひとつであるAND回路(プログラミングで言うAND演算を行う素子)を例に、その出力を線形分離可能かどうか、図と数式で見ていきます。最後に簡単にプログラムの実装をして確認も行います。

定義

２つのカテゴリーに属するパターンの集合が、ある超平面によって２つのカテゴリそれぞれに分離されるとき、このパターン集合は線形分離可能であるという。[1]

超平面：n次元空間内にある(n-1)次元空間　１次元では点、２次元では直線、３次元では平面になる

分離：2つの集合が交わりを持たない　２次元の散布図をイメージするとわかりやすい

AND回路の出力の線形分離

入力と出力の関係がわかりやすいものとして、電子回路に用いられる論理回路があります。プログラミングにおいても論理演算子というものがあって同様の働きをするので、馴染みやすいのではないのでしょうか。

ここでは論理回路のひとつであるAND回路を例に、その出力が線形分離可能かどうか、図と式で見ていきましょう。

線形分離可能か図で確かめる

AND回路の出力は、次の真理値表のようになります。

真理値表：論理回路の入力と出力の関係を一覧するための図

AND回路の真理値表

$x1$、$x2$ が入力、$y$ が出力になります。真理値表を見るとわかるように、AND回路では入力が両方とも"１"のときのみ出力が"１"になります。それ以外では出力は"0"になります。今回はこの出力を線形分離によって、"0" と "1" の２クラスにわけられるか確かめます。

ちなみに、AND回路素子を図記号で表すと次のようになります。

AND回路素子の図記号

それでは、線形分離可能か調べるために、真理値表の入力と出力の関係を２次元の図にプロットしてみましょう。

２次元の図にプロットしたAND回路の出力

わかりやすくプロットできました。それではここに超平面を描きこんでみましょう。

超平面によるAND回路の出力の分離

どうやら超平面によって分離できたようです。こうなることで、線形分離可能であるということができます。

図に表すとこのようになるのですね！イメージは掴めましたでしょうか？

次は数式で確かめてみましょう。

線形分離可能か数式で確かめる

入力の集合を２つに分けて

$X^+$: $y = 1$の集合
$X^-$: $y = 0$の集合

とします。

ある入力 $x_s$($x_1,x_2$の組) に対して二次元の式を考えて

$\Phi(x) = w_0 + w_1 x_1 + w_2 x_2$

とします。このとき、

$y = 1$ にする入力が来た時に $\Phi(x_s) > 0$
$y = 0$にする入力が来た時に $\Phi(x_s) < 0$

となるように式 $\Phi(x)$ の係数 $w_0, w_1, w_2$ を求めて分離します。

ここで式 $\Phi(x)$ の各係数(パラメータ)を推定することが機械学習の分類において解くべき問題となりますが、ここでは線形分離可能かどうか確かめることが目的のため、

$w_0 = -1.5, w_1 = 1, w_2 = 1$

と定めることにします。

パラメータを式 $\Phi(x)$ に代入し、真理値表と比較して確かめてみましょう。

$(0,0)$ のとき $\Phi((0,0)) = -1.5 + 1 * 0 + 1 * 0 = -1.5 < 0$
$(1,0)$ のとき $\Phi((1,0)) = -1.5 + 1 * 1 + 1 * 0 = -0.5 < 0$
$(0,1)$ のとき $\Phi((0,1)) = -1.5 + 1 * 0 + 1 * 1 = -0.5 < 0$
$(1,1)$ のとき $\Phi((1,1)) = -1.5 + 1 * 1 + 1 * 1 = 0.5 > 0$

入力 $x_1$、$x_2$ について、どちらとも"1"の場合は式 $\Phi(x)$ の値が"0"より大きくなり、それ以外では"0"より小さくなっています。よって出力 $y$ について分離できていると言えます。従って、AND回路の出力は線形分離可能であることが数式で確かめられました。

図と数式での説明のまとめ

以上、図と式で見て、AND回路の出力は線形分離可能なことがわかりました。すぐにはイメージが固まらずとも、特に超平面については知っておくと良いと思います。数式も、図と関連付けすることでイメージを補完すると理解に繋がります。

さて、ここまで図と式を見るだけでしたが、機械学習のタスクということでもちろんプログラムで実装することもできます。最後にプログラミングで手を動かして線形分離ができることを確かめて、仕上げとしましょう。

AND回路の出力の線形分離を実装してみる

Python で線形SVMといわれる線形分離を行う手法を実装して、AND回路の出力が線形分離されることを確かめてみましょう。

ソースコード

from sklearn.datasets import make_blobs
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.svm import LinearSVC
import numpy as np
import matplotlib.pyplot as plt

# 説明変数
X = np.array([[1, 1],[1, 0],[0, 1],[0, 0]])
print(X)
# 目的変数
Y = np.array([1,0,0,0])
print(Y)

# 線形サポートベクタマシン
# 訓練データ、テストデータ(今回は同じ)
X_train=X
X_test=X
y_train=Y
y_test=Y

fig = plt.figure(figsize=(10,10),dpi=50)
# 訓練データ散布図プロット
plt.scatter(X_train[:, 0], X_train[:, 1], c=y_train.T)
# テストデータ散布図プロット
plt.scatter(X_test[:, 0], X_test[:, 1], c=y_test.T, marker='*')
# 線形サポートベクタマシン学習
clf = LinearSVC().fit(X,Y)

# データの範囲でメッシュ状に点を取る
training_x_min = X[:, 0].min() - 1
training_x_max = X[:, 0].max() + 1
training_y_min = X[:, 1].min() - 1
training_y_max = X[:, 1].max() + 1
grid_interval = 0.02
xx, yy = np.meshgrid(
    np.arange(training_x_min, training_x_max, grid_interval),
    np.arange(training_y_min, training_y_max, grid_interval),
)

# 各点を分類する
Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])

# 分類結果を表示する
Z = Z.reshape(xx.shape)
plt.contourf(xx, yy, Z, cmap=plt.cm.bone, alpha=0.2)
# グラフを表示する
plt.autoscale()
plt.grid()
plt.title("LinearSVC")
plt.show()