Help us understand the problem. What is going on with this article?

形態素解析エンジンについて検討

More than 1 year has passed since last update.

形態素解析を色々使ってみようということで
実装難度等を考慮して比較とか色々検討するメモ
形態素解析じゃ無くても良い気もする
※ めっちゃ編集中です。検討段階なのでめっちゃ編集します。

形態素解析ってなに

文を解析して形態素(単語とか)に分割する奴

詳しくは
形態素解析:wiki

要件?

・ECCUBE、wordpress等のPHPから実行出来るもの
・UNIXで動くやつ
・主な用途としては検索エンジン、関連商品やデータの抽出など
・実装コストは軽いほうが良い(エンジン自作は流石に無い)
・一杯走るだろうからリソースも気にしたい
・取り敢えず調べるけどAPI系はリクエスト数に制限があるからダメだと思う
・MeCabで良い気がするけど取り敢えず調べる

どんなものがある?

MeCab

めっちゃメジャー。実際に動作してる実績がある。
ただ重い(らしい)
辞書が自分で作れる

要root

neologd

Web上の言語資源から得た新語を追加することでカスタマイズした MeCab 用のシステム。
なのは完売とかも解析出来る。
メモリ要件が5GBとかなので辛い。

yahoo 日本語形態素解析

API
24時間で50000リクエストまで行けるって

JUMAN

JUMAN++があるから不要…?
辞書が自分で作れる

JUMAN++

MeCabより強いらしい
辞書が自分で作れる

表記揺れとか強い。googleがぐーぐるでも認識する

Tofu

MeCabより軽いらしいけどwindows用

Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
Comments
Sign up for free and join this conversation.
If you already have a Qiita account
Why do not you register as a user and use Qiita more conveniently?
You need to log in to use this function. Qiita can be used more conveniently after logging in.
You seem to be reading articles frequently this month. Qiita can be used more conveniently after logging in.
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away