0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

形態素解析(mecab - NEologd)

Posted at

#背景
Twitterのテキスト分析に向けた形態素解析の練習。
mecabに新規辞書(NEologd)を導入して、ネットやSNS上での使用頻度が高い固有名詞を識別できるか確認。

#環境
Mac OS Catalina
Python 3.8.3
(mecab自体はインストール済)

#mecab-ipadic-neologd
##辞書インストール
以下、GitHubに記載の手順に従い、ターミナルで実行。
GitHub_mecab-ipadic-neologd

  • git clone
$ git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git
  • 以下を実行して、結果確認で"yes"を入力
    初回インストール完了後は、同様の手順で最新版辞書に更新
$ ./bin/install-mecab-ipadic-neologd -n

##実行結果
コード

test.py
import neologdn
import MeCab

text="天気の子を見た"

neologd_tagger = MeCab.Tagger('-d /usr/local/lib/mecab/dic/mecab-ipadic-neologd')
print(neologd_tagger.parse('天気の子を見た'))

出力

天気の子	名詞,固有名詞,一般,*,*,*,天気の子,テンキノコ,テンキノコ
を	助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
見	動詞,自立,*,*,一段,連用形,見る,ミ,ミ
た	助動詞,*,*,*,特殊・タ,基本形,た,タ,タ

##mecab-IPAdicとの比較
コード

test2.py
import neologdn
import MeCab

text="天気の子を見た"

neologd_tagger = MeCab.Tagger()
print(neologd_tagger.parse('天気の子を見た'))

出力

天気	名詞,一般,*,*,*,*,天気,テンキ,テンキ
の	助詞,連体化,*,*,*,*,の,ノ,ノ
子	名詞,一般,*,*,*,*,子,コ,コ
を	助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
見	動詞,自立,*,*,一段,連用形,見る,ミ,ミ
た	助動詞,*,*,*,特殊・タ,基本形,た,タ,タ

「天気の子」が固有名詞として認識されていない。

#参考にさせていただいた記事

  1. 2019年末版 形態素解析器の比較
  2. Mac に MeCab と NEologd 環境の構築と辞書のカスタマイズ
  3. mecab + NEologd + python3 で形態素解析
0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?