More than 5 years have passed since last update.

最近傍点の抽出

Last updated at 2019-09-13Posted at 2019-09-12

初めに

PythonによるAIプログラミング入門という書籍で機械学習周りの技術を勉強しています。

この書籍での最近旁点の抽出に関する記述がとても分かりやすかったので、理解できたことをこの投稿に残します。

誤った解釈をしている可能性がありますので、何か誤りがございましたらコメント欄にてご指摘お願い致します。

kNN、k-nn、k最近傍法について

最近旁法

最近旁法について調べていくと、k最近傍法というワードが出てきますが、最近旁法とk最近傍法は別物です。

以降のチュートリアルの実践にて説明しますが、scikit-learnで最近旁法を提供するものとしてNearestNeighborsがあります。

NearestNeighborsはunsupervised.pyというファイルに定義されています。

Unsupervised（教師なし）なので、最近旁法自体のアルゴリズムは教師なし学習です。

公式ドキュメントでも以下の様な言及がされています。

Unsupervised learner for implementing neighbor searches.

翻訳すると近傍検索を実装するための教師なし学習器です。

k最近傍法

それに対してk最近傍法は分類を行う機能で、最近旁法を利用してk個の最近旁点を見つけ
その中で最も多いクラスに分類を行うものです。

調べるとkNN、k-nn、k最近傍法と様々な名称がありますが、いずれも同じものを指します。

scikit-learnではKNeighborsClassifierとして機能が提供され、classification.pyというファイルに定義されています。

classification（分類）なので、k最近傍法は分類を行う機能です。

公式ドキュメントでは、k最近傍法を実装する分類子という言及がされています。

また、NearestNeighborsに対して、KNeighborsClassifierは教師あり学習となります。

教師あり学習、教師なし学習について

念のため、教師の有無について少し言及します。

教師あり学習では人間が正解データをモデルに与え、それを元にモデルが学習します。
モデルは未知データを与えられた際にそのデータが正解か否かを推論します。

犬と猫の画像分類では、人間があらかじめ犬猫に分類したデータをモデルに学習させます。

人間から予め正解を教えてもらうことで、画像が犬か猫か？という問題を解決させます。

それに対して、教師なし学習では与えられたデータが正解か否かではなく
データの類似性など潜在的な本質を抽出します。

教師なし学習では、類似したデータのグループ化などが行われることがあります。

チュートリアルの実践

以降では、書籍に記載してあるチュートリアルを実践していこうと思います。

scikit-learnという機械学習ライブラリでは最近旁法として、NearestNeighborsが提供されています。

チュートリアルではNearestNeighborsを利用して、最近旁点の抽出を行います。

チュートリアルを行う際の環境は書籍に倣って、jupyter notebookを使用しています。

パッケージのインポート、グラフのインライン表示、学習データの定義

学習データは2個のカラムを持つ2次元データです、14個あります。

チュートリアルではNearestNeighborsの振る舞いを確認したいので、このデータが何を意味するかは重要ではありません。

import numpy as np 
import matplotlib.pyplot as plt
%matplotlib inline
from sklearn.neighbors import NearestNeighbors 

X = np.array([[2.1, 1.3], [1.3, 3.2], [2.9, 2.5], [2.7, 5.4], [3.8, 0.9], 
              [7.3, 2.1], [4.2, 6.5], [3.8, 3.7], [2.5, 4.1], [3.4, 1.9], 
              [5.7, 3.5], [6.1, 4.3], [5.1, 2.2], [6.2, 1.1]])

データの可視化

下記の様な図が表示されます、pltやXに関しては、plt.figureやX[:,0]などを自分の手で打っていくと理解しやすいかもしれません。

plt.figure() 
plt.title('Input data') 
plt.scatter(X[:,0], X[:,1], marker='o', s=75, color='black') 
plt.show()

モデルの学習、最近旁点の抽出

ここは非常に重要です、それぞれの変数について説明します。

項目	説明
k	最近旁点の数です、ここでは5個の最近旁点を抽出します。
test_datapoint	未知データです、このデータを中心に最近旁点を抽出します。
knn_model	モデルです、最近傍点数とアルゴリズムを指定し、学習させています。
kneighbors	入力(未知データ)からみた最近旁点を抽出します、ここでは5つの最近旁点を抽出します。
distances	float型の最近旁点の距離です。
indices	最近旁点のインデックスです、このインデックスを使用することで、学習データとの紐づけが出来ます。

indices変数は2次元のリストなので、一階層掘ってから[:k]でリストの5番目より前のデータをスライスします。

indicesはリストです、それをenumerateで項番が付いた辞書に変換して回します。

indicesは左が最も距離が類似しているのでrankは類似順ともいえます。
indexは学習データの出現位置を示します。

なので、X[index]とすれば5つの類似データを参照できるわけです。

k = 5 
test_datapoint = [4.3, 2.7] 

knn_model = NearestNeighbors(n_neighbors=k, algorithm='ball_tree').fit(X) 
distances, indices = knn_model.kneighbors([test_datapoint]) 

print("K Nearest Neighbors:") 
for rank, index in enumerate(indices[0][:k], start=1): 
    print(str(rank) + " ==>", X[index])

下記が出力されます。
上からtest_datapointに類似しているデータを参照しています。

K Nearest Neighbors:
1 ==> [5.1 2.2]
2 ==> [3.8 3.7]
3 ==> [3.4 1.9]
4 ==> [2.9 2.5]
5 ==> [5.7 3.5]

最近旁点の可視化

最後に最近旁点の可視化を行います。
最近旁点となる5つのデータは大円で囲まれます。

plt.figure() 
plt.title('Nearest neighbors') 
plt.scatter(X[:, 0], X[:, 1], marker='o', s=75, color='k') 
plt.scatter(X[indices][0][:][:, 0], X[indices][0][:][:, 1], 
            marker='o', s=250, color='k', facecolors='none') 
plt.scatter(test_datapoint[0], test_datapoint[1], 
            marker='x', s=75, color='k') 
plt.show()

チュートリアルは以上となります。

最後に

機械学習を利用した案件で最近旁法について調べていて、最近旁とk最近旁は同じものかと勘違いしていました。
なので、改めての理解、そして機械学習初心者の方は間違えやすい所かなと思い、記事にしました。

k最近旁の他にも、k最近旁回帰、k平均法、k近傍探索など色々なアルゴリズムがあるのでそれについても今後調査を進めて行きます。

最後に、機械学習を利用されたご経験がある方のご飯とかの気軽なご連絡をお待ちしています！
機械学習何がなんだかわからないので...泣

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up