形態素解析を色々使ってみようということで
実装難度等を考慮して比較とか色々検討するメモ
形態素解析じゃ無くても良い気もする
※ めっちゃ編集中です。検討段階なのでめっちゃ編集します。
形態素解析ってなに
文を解析して形態素(単語とか)に分割する奴
詳しくは
形態素解析:wiki
要件?
・ECCUBE、wordpress等のPHPから実行出来るもの
・UNIXで動くやつ
・主な用途としては検索エンジン、関連商品やデータの抽出など
・実装コストは軽いほうが良い(エンジン自作は流石に無い)
・一杯走るだろうからリソースも気にしたい
・取り敢えず調べるけどAPI系はリクエスト数に制限があるからダメだと思う
・MeCabで良い気がするけど取り敢えず調べる
どんなものがある?
MeCab
めっちゃメジャー。実際に動作してる実績がある。
ただ重い(らしい)
辞書が自分で作れる
要root
neologd
Web上の言語資源から得た新語を追加することでカスタマイズした MeCab 用のシステム。
なのは完売とかも解析出来る。
メモリ要件が5GBとかなので辛い。
yahoo 日本語形態素解析
API
24時間で50000リクエストまで行けるって
JUMAN
JUMAN++があるから不要…?
辞書が自分で作れる
JUMAN++
MeCabより強いらしい
辞書が自分で作れる
表記揺れとか強い。googleがぐーぐるでも認識する
Tofu
MeCabより軽いらしいけどwindows用