機械学習
MachineLearning
AI
人工知能

k近傍法とk平均法の違いと詳細.

この記事の内容

・k近傍法とk平均法の説明
・k近傍法とk平均法の違いについて軽く説明
・k近傍法の具体的な手法の説明
・k平均法の具体的な手法の説明
・あとがき

という流れになっています.

k近傍法とk平均法とは

k近傍法(k-nearest neighbor :k-NN)とk平均法(k-means clustering)というのは名前も似てて最初は同じものだと誤解する人もいるでしょう.現に私もそう思っていました.実際には似たようなアルゴリズムの考え方ですが,若干その考え方が違います.

まずk近傍法は機械学習のアルゴリズムの一つです.最も簡単な機械学習のアルゴリズムの一つとされており,遅延学習に分類されます.

k平均法はクラスタリングのアルゴリズムの一種です.クラスリングと機械学習の用語の違いの定義を確認しましょう.

k近傍法とk平均法の違いとは.

二つとも広義的には機械学習のアルゴリズムとみなすことができますが,明確に違いを分けることによって二つの異なるアルゴリズムの違いについて理解することができます.
k近傍法とは教師あり(付き)学習の分類問題とみなすことができます.そしてk平均法はクラスタリングという手法であり,教師なし学習の分類問題とみなします.

教師あり.png

この可愛らしい絵は私が数十分かけて描いたものですが,k近傍法は教師あり学習であるので,イメージ的には答えが分かってる問題を教師が教えながら学習していきます.(実際には学習前に教師ラベルが既知です.)k平均法を代表とするクラスタリングは教師なし学習なので,ウェブのデータなど特に人がどういうデータであると定義していないようなデータであり入手も簡単ですが,教師あり学習よりも学習が難しかったり複雑である場合が多いです.

k近傍法の数学的理解

k近傍法での距離はユークリッド距離を使うことが一般的です.理由は詳しくは知りませんが,慣習的にそうということとマンハッタン距離よりも計算手間が少なく,また直感的に理解がしやすいということが挙げられると思います.

yukurid-1.png

この場合のユークリッド距離E(画像の青い線分の長さ)は次のように表されます.

Kobito.ERNJy8.png

これは三平方の定理を使えばすぐに求めることができるので問題ないと思います.

具体的な問題

メロンが野菜であるか,果物であるか,脂質であるかを分類する問題を考えます.メロン以外に複数の食材があり,メロン以外の食材の甘さと歯ごたえ,タイプが分かっているとします.(教師あり学習のため当然の前提です)甘さと歯ごたえから距離を求めることができます.

次に具体的な食材の甘さと歯ごたえの数値を表に示す.

食材 甘さ 歯ごたえ タイプ  メロンとの距離
メロン 9 6 -------- --------
レンコン 2 6 野菜 √((9-2)^2+(6-6)^2) = 7.00
キュウリ 1 9 野菜 √((9-1)^2+(6-9)^2) = 8.54
豚肉 1 2 脂質 √((9-1)^2+(6-2)^2) = 8.94
お米 2 1 脂質 √((9-2)^2+(6-1)^2) = 8.60
チョコ 10 3 脂質 √((9-10)^2+(6-3)^2) = 3.16
8 5 果物 √((9-7)^2+(6-2)^2) = 4.47
オレンジ 5 3 果物 √((9-5)^2+(6-3)^2) = 5.0

k近傍法においてkの値はインスタンスの数を意味します.ここでのインスタンスとはメロン以外の食材を表します.kが1(1-NNによる分類)の場合は最も近いインスタンス(食材)が選ばれます.表から3.16のチョコが選ばれ脂質と分類されてしまいます.チョコはノイズと考えるのが妥当でしょう.この場合,kが小さすぎるため,ノイズによって過少適合になってしまいました.ではkの値を3にするとどうなるでしょう.

答えは,果物である,桃とオレンジが加わるので結果的に果物と分類してくれます.下の図を見てもらうとわかりやすいかと思います。

k近傍法の図.png

kの選び方には諸説ありますが,より多く用いられてるのはkの総数の平方根です.
今回の問題だとkの総数は8です.
√8は約2.82なので3という数字は妥当ですね.

ここでk近傍法のメリットとデメリットについて表に示します.

メリット デメリット
単純で効果的. モデルを作らないので,特徴量がクラスとどのような関連があるかの理解が難しい.
土台となるデータの分布について前提条件を設けない. 適切なkを選択しなければならない.
高速に訓練できる 分類フェーズが遅い.
名義特徴量と欠損値のために別の処理が必要になる.

k平均法とは

k平均法(k-means clustering)とはクラスタリングの最も簡単な手法の一つであり,教師なし学習です.
k近傍法は教師あり学習だったのでデータが果物か野菜かなどのラベルが既知でしたがk平均法においてはそのようなデータを前提としない学習です.
一例として適当に集めたウェブのデータなどが該当します.

まずはイラストで理解しましょう.以下の図のように何の変哲も無い点の集合があるとします.
k-means.png

あなたはこの青い点が何を意味しているのを知りません.あなたには教師はいません.独学でデータを分類しなくてはいけません.
青い点を見ると何となく三つの塊に分類できそうです.(現実問題としてこのようなデータは考えにくいです笑)

k平均法のアプローチではまず最初に乱数でクラスタ中心を割り当てます.
現実ではクラスタ数の決め方も乱数で決めたり,試行錯誤で決めたりするかと思いますが,今回はクラスタ数を3としましょう.

k-means (1).png

すると上のように全くデタラメなクラスタに分類されます.乱数で決めるのでこのプロセスは仕方ないのです.

k-means (2).png

ここでは重心を求めています.

k-means (4).png

重心を求めたら標本xiを自分のクラスタ中心に近いクラスタに割り当てます.

k-means (5).png

標本Xの個数にもよりますが,重心を求める,標本xiを近いクラスタ中心に割り当てるというこの作業を何回が繰り返すと,上の図のようになります.

[追記]
実際の動作とコードがあった方が理解が進むと思うので作ってみました.

重心の数を9にして実際にGIF動画にして動作を描画したものが以下になります.
ezgif.com-resize (1).gif

コードは以下に置いております.
https://nbviewer.jupyter.org/github/Ooshita/ml_page/blob/master/julia/kmeans実装2.ipynb

k平均法を数式で理解

k平均法は,各クラスタの散らばり具合を最小にするようなクラスタラベル

Kobito.VT0od8.png

を標本
Kobito.461Px7.png
に割り当てます.この時に上で説明したように通常は乱数によって標本を各クラスタ中心に割り当てます.cはクラスタを意味しています.クラスタを3に設定した場合,クラスタラベルyiは1から3までのクラスタの要素ということになります.具体的には,

Kobito.qFRAUb.png

上の数式によって,クラスタyの散らばり具合を測ります.i:yi=yの意味はyi=yであるiに関する和を表しています.

Kobito.nPNOD3.png

このμyはクラスタyの中心を表しています.nyはクラスタyに属する標本数です.

Kobito.JjzSxw.png

この規準を全てのクラスター1からcに関して足し合わせたものを最小にするようにクラスタラベル
Kobito.kB0eWE.png
を決定します.

k平均法の問題点

k平均法は見てもらって分かる通り,非常に簡素な考え方で構成されており(数学が苦手な人は面を食らったかもしれませんが...ひとつひとつ意味を理解していけばさほど難しくありません.)強力なクラスタリングの手法ですが,線形分離可能なデータしか分けることができません.この問題を解決するにはカーネルトリックと言われる手法やk平均法の問題を改善したEM法を使う必要があります.

あとがき

どうでしょうか,k近傍法とk平均法の違いについて理解していただけたでしょうか?
どちらも名前が似ていますが,以外に並べて手法を説明して見ると結構違うということがわかったと思います.

数式をできるだけ使用している理由としては本当に理解するということは数式を見て分かることだと僕が思っているからです.プログラムもこの記事では一切書いていませんが,その理由はQiitaにも沢山そのような記事があったこと,なので僕は理論的に手法を説明した記事を書いてみたかったからです.

次はまた勉強が進行具合によってまた別の手法に関する記事を書けたらと思います.

何か間違いや質問などあれば遠慮せずコメント欄に書いてくださると嬉しいです.

参考書籍
Rによる機械学習

イラストで学ぶ 機械学習 最小二乗法による識別モデル学習を中心に (KS情報科学専門書)