はじめに
ipadic-neologdとは、
mecab用の辞書の一つ。週2回以上更新してくださるので、新語や固有表現に対応ができる。
例
#ipadic-neologd未使用
m=MeCab.Tagger()
print(m.parse("COVID-19によりオーバーシュートが起こった。"))
>COVID COVID COVID 名詞-固有名詞-組織
- - - 名詞-サ変接続
19 19 19 名詞-数
により ニヨリ により 助詞-格助詞-連語
オーバー オーバー オーバー 名詞-サ変接続
シュート シュート シュート 名詞-サ変接続
が ガ が 助詞-格助詞-一般
起こっ オコッ 起こる 動詞-自立 五段・ラ行 連用タ接続
た タ た 助動詞 特殊・タ 基本形
。 。 。 記号-句点
EOS
#ipadic-neologd使用
m=MeCab.Tagger("-d {辞書のパス}")
print(m.parse("COVID-19によりオーバーシュートが起こった。"))
>COVID-19 名詞,固有名詞,一般,*,*,*,COVID-19,コビッドナインティーン,コビッドナインティーン
により 助詞,格助詞,連語,*,*,*,により,ニヨリ,ニヨリ
オーバーシュート 名詞,固有名詞,一般,*,*,*,オーバーシュート,オーバーシュート,オーバーシュート
が 助詞,格助詞,一般,*,*,*,が,ガ,ガ
起こっ 動詞,自立,*,*,五段・ラ行,連用タ接続,起こる,オコッ,オコッ
た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
。 記号,句点,*,*,*,*,。,。,。
EOS
Colabへのインストール方法
以下の記事が非常にわかりやすかったです。
エラーが出る場合、以下を追加すると上手くいきました。
!sudo cp /etc/mecabrc /usr/local/etc/
使用方法
import MeCab
m=MeCab.Tagger("{出力形式(以下を参照)} -d {ipadic-neologdのパス}")
print(m.parse("ソーシャルディスタンスを保とう"))
出力形式
1. mecabrc: 引数なし
ソーシャルディスタンス 名詞,固有名詞,一般,*,*,*,ソーシャルディスタンス,ソーシャルディスタンス,ソーシャルディスタンス
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
保と 動詞,自立,*,*,五段・タ行,未然ウ接続,保つ,タモト,タモト
う 助動詞,*,*,*,不変化型,基本形,う,ウ,ウ
EOS
表層形 : 形態素に区切ったまま
品詞 : 名詞、動詞、助詞、助動詞 etc
品詞細分類1 : 名詞→固有名詞、動詞→自立、助詞→格助詞
品詞細分類2 : 一般、引用
品詞細分類3 :
活用型 : 動詞→五段・タ行
活用形 : 未然ウ接続
原形.読み,発音 :
2. -Ochasen: ChaSen 互換形式
ソーシャルディスタンス ソーシャルディスタンス ソーシャルディスタンス 名詞-固有名詞-一般
を ヲ を 助詞-格助詞-一般
保と タモト 保つ 動詞-自立 五段・タ行 未然ウ接続
う ウ う 助動詞 不変化型 基本形
EOS
3. -Owakati: 分かち書きのみ
ソーシャルディスタンス を 保と う
4. -Oyomi: 読みのみ
ソーシャルディスタンスヲタモトウ
5. -Odump: 全情報を出力
0 BOS BOS/EOS,*,*,*,*,*,*,*,* 0 0 0 0 0 0 2 1 0.000000 0.000000 0.000000 0
6 ソーシャルディスタンス 名詞,固有名詞,一般,*,*,*,ソーシャルディスタンス,ソーシャルディスタンス,ソーシャルディスタンス 0 33 1288 1288 41 7 0 1 0.000000 0.000000 0.000000 -1987
213 を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ 33 36 156 156 13 6 0 1 0.000000 0.000000 0.000000 -1613
218 保と 動詞,自立,*,*,五段・タ行,未然ウ接続,保つ,タモト,タモト 36 42 739 739 31 2 0 1 0.000000 0.000000 0.000000 3067
234 う 助動詞,*,*,*,不変化型,基本形,う,ウ,ウ 42 45 506 506 25 6 0 1 0.000000 0.000000 0.000000 3215
236 EOS BOS/EOS,*,*,*,*,*,*,*,* 45 45 0 0 0 0 3 1 0.000000 0.000000 0.000000 1300```