#背景
Twitterのテキスト分析に向けた形態素解析の練習。
mecabに新規辞書(NEologd)を導入して、ネットやSNS上での使用頻度が高い固有名詞を識別できるか確認。
#環境
Mac OS Catalina
Python 3.8.3
(mecab自体はインストール済)
#mecab-ipadic-neologd
##辞書インストール
以下、GitHubに記載の手順に従い、ターミナルで実行。
GitHub_mecab-ipadic-neologd
- git clone
$ git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git
- 以下を実行して、結果確認で"yes"を入力
初回インストール完了後は、同様の手順で最新版辞書に更新
$ ./bin/install-mecab-ipadic-neologd -n
##実行結果
コード
test.py
import neologdn
import MeCab
text="天気の子を見た"
neologd_tagger = MeCab.Tagger('-d /usr/local/lib/mecab/dic/mecab-ipadic-neologd')
print(neologd_tagger.parse('天気の子を見た'))
出力
天気の子 名詞,固有名詞,一般,*,*,*,天気の子,テンキノコ,テンキノコ
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
見 動詞,自立,*,*,一段,連用形,見る,ミ,ミ
た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
##mecab-IPAdicとの比較
コード
test2.py
import neologdn
import MeCab
text="天気の子を見た"
neologd_tagger = MeCab.Tagger()
print(neologd_tagger.parse('天気の子を見た'))
出力
天気 名詞,一般,*,*,*,*,天気,テンキ,テンキ
の 助詞,連体化,*,*,*,*,の,ノ,ノ
子 名詞,一般,*,*,*,*,子,コ,コ
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
見 動詞,自立,*,*,一段,連用形,見る,ミ,ミ
た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
「天気の子」が固有名詞として認識されていない。
#参考にさせていただいた記事