More than 5 years have passed since last update.

サポートベクトルマシンとその他の機械学習手法

Last updated at 2014-04-18Posted at 2014-03-27

昨日まで 2 回に渡り教師あり学習の代表例でもある線形サポートベクトルマシンについて話を進めてきました。もう一度機械学習について整理しておきましょう。

教師あり学習と教師なし学習

機械学習には大きく分けて 教師あり学習 (Supervised learning) と 教師なし学習 (Unsupervised learning) があります。ほかに強化学習というものもありますがここでは一旦他所に置いておきます。それぞれの特長は次の通りです。

関数	正解データ	目的
教師あり学習	与えられる	未知のデータに対する予測
教師なし学習	与えられない	未知のデータから規則性を発見

機械学習の手法を選択する

scikit-learn には膨大な数の機械学習アルゴリズムが実装されていますが、そもそもどの手法を選択したら良いのでしょうか。筆者は大雑把な基準としてですが以下を参考にしています。

[出展]
Machine Learning Cheat Sheet (for scikit-learn)
http://peekaboo-vision.blogspot.de/2013/01/machine-learning-cheat-sheet-for-scikit.html

実際のデータで試してみる

Kaggle に投稿されたコンペのデータを拝借して教師あり学習及び教師なし学習についての色々を試してみます。以下からログインしてデータをダウンロードしてください。

Data Science London + Scikit-learn
https://www.kaggle.com/c/data-science-london-scikit-learn/data

データ	説明
test.csv	テスト対象のデータ
train.csv	教師データ、これを基に上記のデータを分類する
trainLabels.csv	教師データの分類先のラベル

サポートベクトルマシン

サポートベクトルマシンは疎な解を持つカーネルマシンです。カーネル関数には線形内積カーネル、ガウシアンカーネル、多項式カーネル、シグモイドカーネルなどいくつかの種類があります。ここではガウシアンカーネルを利用してシンプルな二値分類をおこないます。

import numpy as np
from sklearn import svm
import codecs

# CSV データの読み込み
train_X = np.genfromtxt('train.csv', delimiter=',')
train_y = np.genfromtxt('trainLabels.csv', delimiter=',')
test_X  = np.genfromtxt('test.csv', delimiter=',')

# ガウシアンカーネルによる SVM インスタンス生成
clf = svm.SVC(kernel='rbf', C=1)

# 教師データで学習 (データに対するフィッティング)
clf.fit(train_X, train_y)

# テストデータを分類する
result = clf.predict(test_X)

# 結果をファイルに書き出す
def write_prediction(prediction, outfile):
    f = codecs.open(outfile, 'w')
    for x in prediction:
        f.write('%s\n' % (x))
write_prediction(result, 'svm.txt')

ランダムフォレスト

樹木モデルの集団学習のひとつで分類・回帰をおこなうランダムフォレストもよく使われる手法です。ブートストラップサンプリングでは学習データからの復元抽出をおこない、ランダム抽出変数から樹木モデルを生成、木構造の条件分岐を確立します。 (このことからランダムフォレストと呼ばれます)

欠損値を持つデータでも有効、説明変数が多数でも効率的にうまく動作する、説明変数の重要度を推定できる、高速で精度の高い学習と評価といった特長があります。

from sklearn.ensemble import RandomForestClassifier
clf = RandomForestClassifier()
clf.fit(train_X, train_y)
result = clf.predict(test_X)

scikit-learn を利用すると多くの手法が似たパターンで統一されているのでコードも簡潔になり非常に扱いやすいですね。

交差検定

scikit-learn には様々な機械学習アルゴリズムだけでなく、モデル選択や評価のためのアルゴリズムも実装されています。

Model selection and evaluation
http://scikit-learn.org/stable/model_selection.html

交差検定でそれぞれの機械学習アルゴリズムについての検定をおこなってみましょう。

# n_jobs パラメータには同時実行可能な CPU コアの数を指定できる、これを -1 にすると実装された全てのコアで並列計算する

clf = svm.SVC() # SVM
scores = cross_validation.cross_val_score(clf, train_X, train_y, cv=5, n_jobs=1)
print( "SVM: %(scores)s" %locals() )

clf = neighbors.KNeighborsClassifier() # k 近傍法
# 評価方法は同じ

clf = RandomForestClassifier() # ランダムフォレスト
# ...

# SVM: [ 0.89  0.92  0.95  0.93  0.89]
# KNeighbors: [ 0.865  0.9    0.91   0.915  0.895]
# RandomForest: [ 0.81   0.825  0.86   0.815  0.81 ]

グリッドサーチ

サポートベクトルマシンのカーネル関数を評価し最適なカーネル関数を導出してみましょう。このようなときはグリッドサーチが使えます。

# 検索用のパラメータを設定する
tuned_params = [
        {'C':[1,10,100,1000], 'kernel':['linear']},
        {'C':[1,10,100,1000], 'gamma':[0.001, 0.0001], 'kernel':['rbf']},
        ]
clf = GridSearchCV(svm.SVC(C=1), tuned_params, n_jobs=-1)
clf.fit(train_X, train_y, cv=5)
best = clf.best_estimator_ # 最適なカーネル関数が返る
print( "Best is %(best)s" %locals() ) 
# =>
# Best is SVC(C=100, cache_size=200, class_weight=None, coef0=0.0, degree=3,
#  gamma=0.001, kernel=rbf, max_iter=-1, probability=False,
#  random_state=None, shrinking=True, tol=0.001, verbose=False)

# ガウシアンカーネルによる SVM が返却された。

前回、前々回とあわせてまたも駆け足でサポートベクトルマシンをいじり倒しました。次回からは分類器の王道、多項分布モデルをベースとしたベイズ分類について話を進めていきます。

131

133

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up