1章 はじめに
訓練データとテストデータ
機械学習において、膨大なデータを収集して予測モデルを訓練する際、
訓練に使うデータと、性能を評価するデータを分けておく必要がある。
訓練に使ったデータをそのまま評価データに使ってしまうと、
常に正確な結果しか返さないため、
新しいデータを使った時に予想した性能を発揮しない。
逆に、新しいデータに対して常に正しい予測を返せる状態になることを
**汎化(generalize)**という。
k-最近傍法(k-Nearest Neighbors)
クラス分類アルゴリズムの1種であるk-最近傍法は、
訓練データとk個の近傍点を指定するだけで使える教師なし学習アルゴリズムである。
新しいデータを使って予測する際に、
データに対して一番近い点を訓練データから探して
分類付けするアルゴリズムである。
ちなみに、入力データはExcel形式のような
n次元配列となる。
まとめ
scikit-learnでk-最近傍法を使うには、
KNeighborsClassifierを使う。
knn = KNeighborsClassifier(n_neighbors=1)
knn.fit(X_train, y_train)