#はじめに
MeCabの形態素解析用の辞書のNEologd辞書を導入にWSL(Windows Subsystem for Linux)+Ubuntuを使っていたのですが、git for Windowsと7-zipで比較的簡単に導入できました。
2020/2/10追記
これはユーザー辞書編です。
ユーザー辞書でかなりの固有名詞が解析できるようになりますが、
システム辞書については以下のリンクをご覧ください。
https://qiita.com/zincjp/items/e491f1712a701ad91a4f
#環境
Windows10 64bit 言語:日本語
MeCab 0.996-32bit
#導入するもの
git for Windows 2.20.1 64-bit
7-Zip 18.06 64-bit
#導入手順
##MeCabにPATHを通す
MeCabの実行ファイルのある以下のフォルダを環境変数を設定しPATHを通す。
C:\Program Files (x86)\MeCab\bin
##7-zipのインストールと環境変数への設定
###7-zipのインストール
ダウンロードしてきたNEologd辞書はxz形式で圧縮されているので、展開するために7-zipを使います。
以下のサイトより7-zip 64bitをダウンロードしインストール。
https://sevenzip.osdn.jp/
###7-zipにPATHを通す
以下を環境変数に設定
C:\Program Files\7-Zip
##git for Windowsのインストール
以下のサイトを参考にgit for Windows 64bitをインストールする
https://qiita.com/taiponrock/items/632c117220e57d555099
##NEologd辞書のダウンロードとコンパイル
###gitより辞書をダウンロード
管理者でコマンドプロンプト立ち上げ以下のコマンドで作業フォルダへ移動
cd %homepath%
続いて以下のコマンドでNEologd辞書をダウンロード
git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git
###NEologd辞書ファイルの確認
コマンドプロンプトより以下コマンドでC:\Users(ユーザー名)\mecab-ipadic-neologd\seedに移動しファイルを確認。
cd mecab-ipadic-neologd\seed
dir
###NEologd辞書ファイルの展開
これら.csv.xzファイルを以下のコマンドで7-zipで展開。
7z X *.xz
##辞書ファイルのコンパイル
###SHIFT-JIS辞書の作成
以下コマンドでSHIFT-JIS辞書(NEologd.日付.dic)を作成し、MeCabの辞書フォルダに移動する。
以下コマンド内NEologd.20190128.dicとmecab-user-dict-seed.20190128.csvの
"20190128"は辞書ファイルについている日付です。
ダウンロードしたものと合わせてください。
mecab-dict-index -d "c:\Program Files (x86)\MeCab\dic\ipadic" -u NEologd.20190128.dic -f utf-8 -t shift-jis mecab-user-dict-seed.20190128.csv
mkdir "C:\Program Files (x86)\MeCab\dic\NEologd"
move NEologd.20190128.dic "C:\Program Files (x86)\MeCab\dic\NEologd"
###mecabrcファイルの編集
mecabの辞書はC:\Program Files (x86)\MeCab\etcにあるmecabrcで指定できる。
以下の記述をmecabrcに記載し、NEologd辞書はユーザー辞書として設定します。
dicdir = $(rcpath)..\dic\ipadic
userdic = C:\Program Files (x86)\MeCab\dic\NEologd\Neologd.20190128.dic
###UTF-8辞書の作成
PythonではUTF-8の辞書が必要なので以下コマンドでUTF-8辞書(NEologd.日付-u.dic)を作成する。
mecab-dict-index -d "c:\Program Files (x86)\MeCab\dic\ipadic-UTF8" -u NEologd.20190128-u.dic -f utf-8 -t utf-8 mecab-user-dict-seed.20190128.csv
mkdir "C:\Program Files (x86)\MeCab\dic\NEologd"
move NEologd.20190128-u.dic "C:\Program Files (x86)\MeCab\dic\NEologd"
###mecabrcファイルの編集
UTF-8用のmecabrc-uファイルを作成し、以下の記載でNEologd辞書をユーザー辞書に設定します。
dicdir = $(rcpath)..\dic\ipadic-UTF8
userdic = C:\Program Files (x86)\MeCab\dic\NEologd\NEologd.20190128-u.dic
##解析の実行は以下サイトを参考に「欅坂46が赤いきつねを食べている。」等の文章で解析してみてくださいませ。
https://qiita.com/zincjp/items/55960801d99e55c9f2a6
#参考
NEologd辞書のURL
#編集履歴
2020/02/11
パス名を表記を変更しました。編集前の表記でも問題ないですが最近のわかりやすさを優先しました。
(編集前)c:\PROGRA~2\MeCab\dic\ipadic
(編集後)"c:\Program Files (x86)\MeCab\dic\ipadic"