特徴量が多くなった場合に、LSIを使って次元削減する方法。
ライブラリのインポート(fpcはRのクラスタリング用のパッケージ)
https://cran.r-project.org/web/packages/fpc/fpc.pdf
library("fpc")
特異値分解(SVD)を行う
s <- svd(doc_mat?)
str(s)
特徴量を50次元に削減
d50 <- t(s$u[,1:50]) %*% doc_mat
dist_mat <- dist(t(d50), method="euclidean", diag=FALSE, p=2)
dist_matは目的に合わせて色々使ってください
例)次元削減した文章行列を用いてDBSCANを行う
db <- dbscan(dist_mat,eps = 1.7, MinPts=5)
参考したURLだけどどうやら消された様子...
http://qiita.com/HirofumiYashima/items/076563794ca2912eef4d