More than 5 years have passed since last update.

機械学習アルゴリズム講義課題視聴レポート (現場で潰しが効くディープラーニング講座)

Last updated at 2019-06-30Posted at 2019-06-30

教師ありの分類問題を解く機械学習の手法
新しいデータから最も近いk個のデータを求め、その中で最も多いクラスを新しいデータの予測値とする。
kの値を変化させることで、同じデータで学習しても結果が変わる可能性がある。
kを大きくすると決定境界は滑らかになる。
k近傍法は怠惰学習やmemory-based learningとも呼ばれ、学習時は学習データをそのまま記録するだけで、予測時に実際の計算が行われる。そのためデータの数が多ければ多いほど予測に時間がかかる。

教師なし学習のクラスタリング(特徴の似ているデータでグループ化)を行う手法。与えられたデータをk個のクラスタに分類する。
k平均法のアルゴリズムは以下の通り
- 1)各クラスタ中心初期値を設定する
- 2)各データ点に対して、各クラスタ中心との距離を計算し、最も距離が近いクラスタを割り当てる
- 3)各クラスタの平均ベクトル(中心)を計算し、クラスタの中心を更新する
- 4)収束するまで2～3を繰り返す
中心の初期値やkの値を変えるとクラスタリングの結果が変わる
似た手法に、中心の初期値を広くとるように工夫したk-means++や、クラスタの中心を更新する際に平均ではなく中央値をとるk-medoidsなどがある。両者ともk-meansより良い結果を出す場合がある。
最適なkの値を調べる方法としてエルボー法がある。クラスターの中心と、そのクラスターに属するデータの距離の総和に注目する。kの数を増やしていくと、ある段階で距離の総和がほとんど減少しなくなる。この時のkを最適とするのがエルボー法である。
次へ(サポートベクターマシン)

機械学習 アルゴリズム 講義課題視聴レポート (現場で潰しが効くディープラーニング講座)