Help us understand the problem. What is going on with this article?

形態素解析エンジンについて検討

More than 3 years have passed since last update.

形態素解析を色々使ってみようということで
実装難度等を考慮して比較とか色々検討するメモ
形態素解析じゃ無くても良い気もする
※ めっちゃ編集中です。検討段階なのでめっちゃ編集します。

形態素解析ってなに

文を解析して形態素(単語とか)に分割する奴

詳しくは
形態素解析:wiki

要件?

・ECCUBE、wordpress等のPHPから実行出来るもの
・UNIXで動くやつ
・主な用途としては検索エンジン、関連商品やデータの抽出など
・実装コストは軽いほうが良い(エンジン自作は流石に無い)
・一杯走るだろうからリソースも気にしたい
・取り敢えず調べるけどAPI系はリクエスト数に制限があるからダメだと思う
・MeCabで良い気がするけど取り敢えず調べる

どんなものがある?

MeCab

めっちゃメジャー。実際に動作してる実績がある。
ただ重い(らしい)
辞書が自分で作れる

要root

neologd

Web上の言語資源から得た新語を追加することでカスタマイズした MeCab 用のシステム。
なのは完売とかも解析出来る。
メモリ要件が5GBとかなので辛い。

yahoo 日本語形態素解析

API
24時間で50000リクエストまで行けるって

JUMAN

JUMAN++があるから不要…?
辞書が自分で作れる

JUMAN++

MeCabより強いらしい
辞書が自分で作れる

表記揺れとか強い。googleがぐーぐるでも認識する

Tofu

MeCabより軽いらしいけどwindows用

futatski
C/C++/Java/PHP/Python がメインのエンジニア メインは組み込みの通信制御だったけど、 最近はほぼwebでPHPばっか書いてる
Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away