More than 5 years have passed since last update.

Mini-batch-k-means とk-means

Posted at 2018-01-18

使う必要が出てきたのでMini-batch-k-meansとk-meansとの比較お勉強し、備忘録
[Béjar Alonso, Javier. "K-means vs Mini Batch K-means: a comparison." (2013).]
(https://upcommons.upc.edu/bitstream/handle/2117/23414/R13-8.pdf)

どうやらk-meanと比べると同時にデータセットを分析に使わず固定されたサイズで
部分分にやる事で大規模データへの高速化をしているようだ。

ただしPythonのScikit-learnのクラスタリングの使い分けを見ると小規模データ
への適用のときに勧められるアルゴリズムがMini-batch-k-means法になっている。
論文の最後の方にも１０未満のクラスターは２％クオリティーが落ち、２０以上のクラスターは８％クオリティーが落ちるとあり、大きなクラスタリングのときや精度を求められる際には不向きであるのかなと思ってしまう。
ただしここでいうクオリティーとは何を持って言っているのかは不明である。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up