分類
教師あり学習の分類について主にAidemyを使いながら勉強したことをメモとして書いています。
手法
▼ロジスティック回帰
■概要
- 線形分離可能なデータの境界線を学習によって見つけて分類
■特徴
- 境界線が直線になる
- 二項分類などクラスの少ないデータに用いる
- データがクラスに分類する確率を計算可能(降水確率など)
■欠点
- 線形分離可能でないと分類不可
- 高次元の疎なデータには適さない
- 境界線の汎用性が乏しい(トレーニングデータに引っ張られる)
■import方法
from sklearn.linear_model import LogisticRegression
- scikit-learnライブラリ
- linear_moduleサブモジュール
- LogisticRegression()関数
▼線形SVM
■概要
- データの境界線で分類
- 線をまっすぐ引いて分類するSVM
■特徴
- サポートベクター(他のクラスと距離が近いデータ群)
- サポートベクターからの距離が最も大きくなる位置に境界線を引く
- 一般化されやすく、データの分類予測が向上する
- 筋道が立てやすい
■欠点
- データ量が増えると予測が遅くなる傾向あり
- 線形分離可能でないと分類不可
■import方法
from sklearn.svm import LinearSVC