初めての投稿です!
不明な点、間違いがあった場合はコメントでご指摘をお願いします。人(・ω・;)
初めに
パターン認識について学習しており、各識別手法の長所・短所をざっくりとまとめてみました。
k最近傍法
<手法説明>
学習データの中からk個の学習データ(鋳型またはテンプレートと呼びます)を取り出す。鋳型と識別したいデータの距離をそれぞれ求める。距離が最も短くなった時、その鋳型が所属するクラスが識別したいデータのクラスになる。
- 長所
- 学習データの数に応じて、kの数を選択できるので適応能力は高い。
- kの数を適切に設定することで例外データの影響を受けにくくなる。 - 短所
- k個の学習データとの距離計算、距離を昇順にソートなどの処理があるため、計算時間が大きく、またメモリの消費も大きい。
線形識別関数
<手法説明>
識別境界を線形関数で表現し、識別関数の値でクラスを決定する。
- 長所
- 全ての学習データを保持することがなく、 要約して識別するので計算量が小さく、またメモリの消費量も小さい。 - 短所
- 識別境界が直線でしか表現できないため、異なるクラスのデータが混ざり合う処理対象データの場合は線形分離できないので識別能力が落ちる。
線形サポートベクトルマシン
<手法説明>
サポートベクトル(境界に最も近い学習データ)と識別境界とのマージンが最大なるように識別境界を求め、データ識別する。
- 長所
- マージンの最大化がより良いほど汎化能力が向上する。 - 短所
- 識別境界が直線でしか表現できないため、異なるクラスのデータが混ざり合う処理対象データの場合は線形分離できないので識別能力が落ちる。
非線形サポートベクトルマシン
<手法説明>
元の特徴ベクトル空間を線形分離可能な別の空間に変換してから、線形分離を行うことでデータを識別する。
- 長所
- マージンの最大化がより良いほど汎化能力が向上する。
- 識別境界が曲線で表現できるので、異なるクラスのデータが混ざり合う処理対象データの場合にも対応できる。 - 短所
- パラメータチューニングが必要が必要である。
参考文献
終わりに
もっと細かく観たら、各識別手法の長所・短所はもっとあります。計算量など各手法ごとに比較していきたいですね。
手法説明とかできるだけ要点をまとめて記そうとしましたが、自分の語彙力のなさすぎて、、、、。ρ(-ω- )ハァ
より良い記事をかけるように精進していきます。(・ω・ゞ