Edited at

パターン認識 ~各識別手法の長所・短所~

More than 1 year has passed since last update.

初めての投稿です!

不明な点、間違いがあった場合はコメントでご指摘をお願いします。人(・ω・;)


初めに

パターン認識について学習しており、各識別手法の長所・短所をざっくりとまとめてみました。


k最近傍法

<手法説明>

学習データの中からk個の学習データ(鋳型またはテンプレートと呼びます)を取り出す。鋳型と識別したいデータの距離をそれぞれ求める。距離が最も短くなった時、その鋳型が所属するクラスが識別したいデータのクラスになる。


  • 長所


    • 学習データの数に応じて、kの数を選択できるので適応能力は高い。

    • kの数を適切に設定することで例外データの影響を受けにくくなる。



  • 短所


    • k個の学習データとの距離計算、距離を昇順にソートなどの処理があるため、計算時間が大きく、またメモリの消費も大きい。




線形識別関数

<手法説明>

識別境界を線形関数で表現し、識別関数の値でクラスを決定する。


  • 長所


    • 全ての学習データを保持することがなく、 要約して識別するので計算量が小さく、またメモリの消費量も小さい。



  • 短所


    • 識別境界が直線でしか表現できないため、異なるクラスのデータが混ざり合う処理対象データの場合は線形分離できないので識別能力が落ちる。




線形サポートベクトルマシン

<手法説明>

サポートベクトル(境界に最も近い学習データ)と識別境界とのマージンが最大なるように識別境界を求め、データ識別する。


  • 長所


    • マージンの最大化がより良いほど汎化能力が向上する。



  • 短所


    • 識別境界が直線でしか表現できないため、異なるクラスのデータが混ざり合う処理対象データの場合は線形分離できないので識別能力が落ちる。




非線形サポートベクトルマシン

<手法説明>

元の特徴ベクトル空間を線形分離可能な別の空間に変換してから、線形分離を行うことでデータを識別する。


  • 長所


    • マージンの最大化がより良いほど汎化能力が向上する。

    • 識別境界が曲線で表現できるので、異なるクラスのデータが混ざり合う処理対象データの場合にも対応できる。



  • 短所


    • パラメータチューニングが必要が必要である。




参考文献

『初めてのパターン認識』 平井 有三


終わりに

もっと細かく観たら、各識別手法の長所・短所はもっとあります。計算量など各手法ごとに比較していきたいですね。

手法説明とかできるだけ要点をまとめて記そうとしましたが、自分の語彙力のなさすぎて、、、、。ρ(-ω- )ハァ

より良い記事をかけるように精進していきます。(・ω・ゞ