環境
Windows7
sbt
sample.sbt
resolvers += "ATILIKA dependencies" at "http://www.atilika.org/nexus/content/repositories/atilika"
libraryDependencies ++= Seq(
"org.atilika.kuromoji" % "kuromoji" % "0.7.7" ,
"com.typesafe" % "config" % "1.2.1"
)
コード
コードは以下の通り
sample.scala
object ExTokenizer {
def tokenize(text: String): Iterator[Token] = {
Tokenizer.builder()
.userDictionary(".\\src\\main\\resources\\userdict.txt")
.build().tokenize(text).iterator().toIterator
}
}
Main.scala
object Main {
def main(args: Array[String]): Unit = {
ExTokenizer.tokenize("銀聯売上").foreach{token =>
println(token.getSurfaceForm)
}
}
}
userdict.txt
# カスタム辞書
銀聯,銀聯,ギンレン,カスタム名詞
注意点
userdict.txt ですが、 utf-8 では上手く動きませんでした。
試しに windows-31J にしたら想定通りの動きをしてくれました。
(気づくまでに時間がかかりました。。。)