Rubyで組むプログラムに組み込めそうな自然言語処理のツールについて備忘録になります。
形態素解析
API
-
Yahoo!JAPAN 日本語形態素解析
- 24時間以内に5万リクエスト以内
- 1リクエストのサイズ100KB以内
-
gooラボ 形態素解析API
-
アプリケーションを公開する際は、以下のような形での表示が必要
<a href="http://www.goo.ne.jp/"> <img src="//u.xgoo.jp/img/sgoo.png" alt="supported by goo" title="supported by goo"> </a>
-
ソフトウェア
-
MeCab
- ポピュラーな形態素解析器
- 辞書が充実している
- IPADic
- デフォルトの辞書
-
UniDic
- 国立国語研究所によって規定された言語単位『短単位』に基づいて作成された辞書
-
mecab-ipadic-NEologd
- IPADicにWeb上の言語資源から得た新語を追加した辞書
- 毎週月, 木曜日に更新される
-
mecab-unidic-NEologd
- UniDicにWeb上の言語資源から得た新語を追加した辞書
- 毎週月, 木曜日に更新される
- IPADic
- Ruby用のバインディングが存在する
-
KyTea
- 京都大学黒橋・河原研究室にて開発されたツール
- デフォルトでは品詞推定と読み推定が可能
-
JUMAN++
- 京都大学黒橋・河原研究室にて開発されたツール
- インストール時にとても時間がかかる
- knp-utilsで高速化可能
キーフレーズ抽出
API
-
Yahoo! JAPAN キーフレーズ抽出
- 24時間以内に5万リクエスト以内
- 1リクエストのサイズ100KB以内
-
gooラボ キーワード抽出API
-
アプリケーションを公開する際は、以下のような形での表示が必要
<a href="http://www.goo.ne.jp/"> <img src="//u.xgoo.jp/img/sgoo.png" alt="supported by goo" title="supported by goo"> </a>
-
固有表現抽出
API
-
gooラボ 固有表現抽出API
-
アプリケーションを公開する際は、以下のような形での表示が必要
<a href="http://www.goo.ne.jp/"> <img src="//u.xgoo.jp/img/sgoo.png" alt="supported by goo" title="supported by goo"> </a>
-
ソフトウェア
-
JUMAN (JUMAN++) + KNP
- 京都大学黒橋・河原研究室にて開発されたツール
- インストール時にとても時間がかかる
- knp-utilsで高速化可能
Word2Vec
API
-
Word2Vec【Wikipedia x Neologd】
- Neologdを用いているため、新語に対応している