Help us understand the problem. What is going on with this article?

WindowsでNEologd辞書を比較的簡単に入れる方法ーユーザー辞書編

はじめに

MeCabの形態素解析用の辞書のNEologd辞書を導入にWSL(Windows Subsystem for Linux)+Ubuntuを使っていたのですが、git for Windowsと7-zipで比較的簡単に導入できました。

2020/2/10追記
これはユーザー辞書編です。
ユーザー辞書でかなりの固有名詞が解析できるようになりますが、
システム辞書については以下のリンクをご覧ください。
https://qiita.com/zincjp/items/e491f1712a701ad91a4f

環境

Windows10 64bit 言語:日本語
MeCab 0.996-32bit

導入するもの

git for Windows 2.20.1 64-bit
7-Zip 18.06 64-bit

導入手順

MeCabにPATHを通す

MeCabの実行ファイルのある以下のフォルダを環境変数を設定しPATHを通す。
C:\Program Files (x86)\MeCab\bin

7-zipのインストールと環境変数への設定

7-zipのインストール

ダウンロードしてきたNEologd辞書はxz形式で圧縮されているので、展開するために7-zipを使います。
以下のサイトより7-zip 64bitをダウンロードしインストール。
https://sevenzip.osdn.jp/

7-zipにPATHを通す

以下を環境変数に設定
C:\Program Files\7-Zip

git for Windowsのインストール

以下のサイトを参考にgit for Windows 64bitをインストールする
https://qiita.com/taiponrock/items/632c117220e57d555099

NEologd辞書のダウンロードとコンパイル

gitより辞書をダウンロード

管理者でコマンドプロンプト立ち上げ以下のコマンドでNEologd辞書をダウンロード

git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git

NEologd辞書ファイルの確認

コマンドプロンプトより以下コマンドでC:\Users(ユーザー名)\mecab-ipadic-neologd\seedに移動しファイルを確認。

cd mecab-ipadic-neologd\seed
dir

image.png

NEologd辞書ファイルの展開

これら.csv.xzファイルを以下のコマンドで7-zipで展開。

7z X *.xz

辞書ファイルのコンパイル

SHIFT-JIS辞書の作成

以下コマンドでSHIFT-JIS辞書(NEologd.日付.dic)を作成し、MeCabの辞書フォルダに移動する。
以下コマンド内NEologd.20190128.dicとmecab-user-dict-seed.20190128.csvの
"20190128"は辞書ファイルについている日付です。
ダウンロードしたものと合わせてください。

mecab-dict-index -d "c:\Program Files (x86)\MeCab\dic\ipadic" -u NEologd.20190128.dic -f utf-8 -t shift-jis mecab-user-dict-seed.20190128.csv

mkdir "C:\Program Files (x86)\MeCab\dic\NEologd"

move NEologd.20190128.dic "C:\Program Files (x86)\MeCab\dic\NEologd"

mecabrcファイルの編集

mecabの辞書はC:\Program Files (x86)\MeCab\etcにあるmecabrcで指定できる。
以下の記述をmecabrcに記載し、NEologd辞書はユーザー辞書として設定します。
dicdir = $(rcpath)..\dic\ipadic
userdic = C:\Program Files (x86)\MeCab\dic\NEologd\Neologd.20190128.dic

UTF-8辞書の作成

PythonではUTF-8の辞書が必要なので以下コマンドでUTF-8辞書(NEologd.日付-u.dic)を作成する。

mecab-dict-index -d "c:\Program Files (x86)\MeCab\dic\ipadic-UTF8" -u NEologd.20190128-u.dic -f utf-8 -t utf-8 mecab-user-dict-seed.20190128.csv

mkdir "C:\Program Files (x86)\MeCab\dic\NEologd"

move NEologd.20190128-u.dic "C:\Program Files (x86)\MeCab\dic\NEologd"

mecabrcファイルの編集

UTF-8用のmecabrc-uファイルを作成し、以下の記載でNEologd辞書をユーザー辞書に設定します。
dicdir = $(rcpath)..\dic\ipadic-UTF8
userdic = C:\Program Files (x86)\MeCab\dic\NEologd\NEologd.20190128-u.dic

解析の実行は以下サイトを参考に「欅坂46が赤いきつねを食べている。」等の文章で解析してみてくださいませ。

https://qiita.com/zincjp/items/55960801d99e55c9f2a6

参考

NEologd辞書のURL

https://github.com/neologd/mecab-ipadic-neologd/blob/master/ChangeLog

編集履歴

2020/02/11
パス名を表記を変更しました。編集前の表記でも問題ないですが最近のわかりやすさを優先しました。
(編集前)c:\PROGRA~2\MeCab\dic\ipadic
(編集後)"c:\Program Files (x86)\MeCab\dic\ipadic"

Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
Comments
No comments
Sign up for free and join this conversation.
If you already have a Qiita account
Why do not you register as a user and use Qiita more conveniently?
You need to log in to use this function. Qiita can be used more conveniently after logging in.
You seem to be reading articles frequently this month. Qiita can be used more conveniently after logging in.
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
ユーザーは見つかりませんでした