More than 3 years have passed since last update.

【ラビットチャレンジ】要点のまとめ - 機械学習その５

Last updated at 2021-01-11Posted at 2020-06-12

1. はじめに

本記事はJDLA E資格の認定プログラム「ラビットチャレンジ」における機械学習のレポート記事である。
本記事では機械学習における「アルゴリズム（k近傍法・k-平均法）」について要点をまとめている。

【ラビットチャレンジ】要点のまとめ - 機械学習その１
 【ラビットチャレンジ】要点のまとめ - 機械学習その２
 【ラビットチャレンジ】要点のまとめ - 機械学習その３
 【ラビットチャレンジ】要点のまとめ - 機械学習その４
【ラビットチャレンジ】要点のまとめ - 機械学習その５
【ラビットチャレンジ】要点のまとめ - 機械学習その６

2. k近傍法（kNN）

2.1. k近傍法とは

k近傍法とは、分類問題のための機械学習手法。教師あり学習の一。
kNN、あるいはk Nearest Neighborとも言う。

2.2. アルゴリズム

分類するデータに関して、最近傍のデータを$k$個取得してそれらのうち最も多くのデータが所属するクラスに分類する。
$k$はハイパーパラメータであり、学習前に人が適切に値を設定しておく必要がある。
　→$k$を大きくするほど決定境界は滑らかになる。

3. ハンズオン

3.1. 課題

kNNの動作をnumpy, scikit-learn双方で確認する。

3.2. 演習結果

必要なモジュールのインポート。

乱数より分類するための（分類時に参照する）データを作成する。

上図のようなデータになっている。

「距離を計算する関数」「データを予測する関数」「結果をプロットする関数」を実装する。

numpyを用いてkNN法で検証データを分類、予測結果をプロットする。

scikit-learnのKNeighborsClassifier関数を用いてkNN法で検証データを分類、予測結果をプロットする。

numpyでの実装、scikit-learnでの実装ともに同様の結果が出ていることがわかる。

4. k-平均法（k-means）

4.1. k-平均法とは

k-平均法とはクラスタリング手法。教師なし学習の一。
与えられたデータを$k$個のクラスタに分類する。
k-meansとも言う。

4.2. アルゴリズム

k-平均法は以下のようなアルゴリズムとなっている。

各クラスタの中心の初期値を設定
各データに関して、各クラスタの中心との距離を計算し、最も距離の近いクラスタに分類する
各クラスタの中心（平均ベクトル）を計算、クラスタの再割り当てと中心の更新を行う
上記「2.」「3.」を収束するまで繰り返す

このとき、クラスタ数$k$はハイパーパラメータであり、学習前に人が適切に値を設定しておく必要がある。

問題
　各クラスタの中心の初期値が近いとうまくクラスタリングできない場合がある。
　そのため、対策として分散や確率の概念を用いて各クラスタの初期値を離して設置する「k-means++」といった手法を用いることが多い。初期値の設置での演算の分だけ時間はかかるが、精度の向上が見込まれる。

5. ハンズオン

5.1. 課題

ワインデータセットを使用してk-meansによる分類を確認する

5.2. 演習結果

必要なモジュールのインポート。ワインデータセットをロードする。

ワインデータセットの説明を表示。

ワインデータセットから説明変数および目的変数を取得し、scikit-learnのKMeans関数で学習。
model.fit_predict(X)はクラスタ化を実行し、かつ、クラスタ化の結果であるlabel配列を返すメソッド。

参考：scikit-learnで機械学習を行う（２） ―K-Means法を使って東京２３区のデータをクラスタに分けるー
　　　 scikit-learnのdatasetsにはどんなのが入っているのか調べてみた話【Linnerud, Wine編】

model.fit_predict(X)メソッドの戻り値labels（クラスタ化の結果）をDataFrame化。
目的変数から品種名を取得し、DataFrameにカラム「species」として追加する。
品種名とクラスタ化の結果でクロス集計した結果を表示すると、品種ごとにクラスタリングで分類されていることがわかる。

5.3. 課題

乱数からデータを作成してk-meansによる分類を確認する

5.4. 演習結果

必要なモジュールのインポート。

座標(-5,-5), (5, -5), (0, 5)をそれぞれ中心にしたあたりに正規分布に依る乱数を出力する。

k-meansのアルゴリズムは以下の通り。

numpyで上記アルゴリズムの通りにk-meansを実装、クラスタリングする。

「データ」「データの中心」および「各クラスタの領域」をプロットする。

scikit-learnのk-means法の関数「KMeans」を用いてクラスタリングし、numpyで実装したk-means法と同様にプロットする。

numpyで実装したk-meansとscikit-learnのk-meansで同様の結果がプロットされていることがわかる。