業務上の理由で、Java環境でテキスト分類スクリプトを動かすことになったために、調べたことをまとめておく。
参考になった記事:
ナイーブベイズ分類器をjavaで実装してみる
基本的に上の神記事のようにすれば良い。
いくつかの補足。
Neologdをサクッと使う
最近のNeologdを使いたい場合は、こちらの記事が参考になる。
こちらのQiita記事にも書いてあった。
レポジトリを見ながら、最近のものを見つけて、 build.gradle
に以下のように書けばよい。
build.gradleの一部
repositories {
maven {
url "http://maven.codelibs.org"
}
mavenCentral()
}
dependencies {
compile group: 'org.codelibs', name: 'lucene-analyzers-kuromoji-ipadic-neologd', version: '7.6.0-20190218'
}
luceneのJapaneseAnalyzer周り
こちらのQiita記事が書かれた時からAPIの変更があった様子。
import org.apache.lucene.analysis.util.CharArraySet;
は
import org.apache.lucene.analysis.CharArraySet;
に変更する必要がある。
以上。