アルゴリズム
k近傍法(kNN)
-
教師ありの分類問題を解く機械学習の手法
-
kの値を変化させることで、同じデータで学習しても結果が変わる可能性がある。
-
kを大きくすると決定境界は滑らかになる。
-
k近傍法は怠惰学習やmemory-based learningとも呼ばれ、学習時は学習データをそのまま記録するだけで、予測時に実際の計算が行われる。そのためデータの数が多ければ多いほど予測に時間がかかる。
k平均法(k-means)
-
教師なし学習のクラスタリング(特徴の似ているデータでグループ化)を行う手法。与えられたデータをk個のクラスタに分類する。
-
k平均法のアルゴリズムは以下の通り
-
中心の初期値やkの値を変えるとクラスタリングの結果が変わる
-
似た手法に、中心の初期値を広くとるように工夫したk-means++や、クラスタの中心を更新する際に平均ではなく中央値をとるk-medoidsなどがある。両者ともk-meansより良い結果を出す場合がある。
-
最適なkの値を調べる方法としてエルボー法がある。クラスターの中心と、そのクラスターに属するデータの距離の総和に注目する。kの数を増やしていくと、ある段階で距離の総和がほとんど減少しなくなる。この時のkを最適とするのがエルボー法である。
次へ(サポートベクターマシン)