Java で NEologd の前処理 neologdn-java

  • 9
    いいね
  • 0
    コメント

ちゃお・・・†

@ragion さんの協力もあって、ついにJavaでのNEologdの前処理モジュール neologd-java をリリースしました!

これはなに?

https://github.com/neologd/mecab-ipadic-neologd/wiki/Regexp.ja

辞書データを冗長にして異表記を吸収するのにも限界がある。
辞書データを生成する際には以下で述べる正規化処理を全て適用しているため、 解析対象のテキストに対して以下の正規化処理を適用すると、辞書中の語とマッチしやすくなる。

と上記のページにあるように、MeCabで解析する前に正規化処理 (前処理) を行うことは重要です。そこで、JavaでのNEologdの前処理モジュール neologd-java を作りました。

どう使うの?

Mavenの場合

Maven Central に登録されているので pom.xmlに下記を加えます。

    <dependency>
      <groupId>io.github.ikegami-yukino</groupId>
      <artifactId>neologdn</artifactId>
      <version>0.0.1</version>
    </dependency>

そして、

package yukinoi.neologdn_example;
import io.github.ikegamiyukino.neologdn.NeologdNormalizer;


/**
 * neologdn-example
 *
 */
public class App
{
    public static void main(String[] args)
    {
        NeologdNormalizer normalizer = new NeologdNormalizer();
        String text = "   PRML  副 読 本   ";
        String normalizedText = normalizer.normalize(text);
        System.out.println(normalizedText);
    }
}

のように使います。

Contributeしたい!

以下のGitHubリポジトリで開発してます。
https://github.com/ikegami-yukino/neologdn-java

Contributions are welcome!