参考資料
WSLのインストール
https://qiita.com/Aruneko/items/c79810b0b015bebf30bb
WSLのリセット
https://www.atmarkit.co.jp/ait/articles/1807/06/news028.html
Mecabのインストール
http://tech-blog.rakus.co.jp/entry/2018/03/27/124418#MeCab%E3%81%AE%E5%B0%8E%E5%85%A5%E3%81%AE%E5%89%8D%E3%81%AB%5C
UTF-8変換/辞書作成
https://blog.apar.jp/linux/2796/
Kuromoji.jsへの登録
https://qiita.com/muraken720/items/dc67c8dc32138be7b3f8
手順
Mecabのインストール
sudo apt update
sudo apt upgrade
sudo apt install make automake autoconf autotools-dev m4 mecab libmecab-dev mecab-ipadic-utf8 npm
動作確認
echo "人事を尽くして天命を待つ" | mecab
作業ディレクトリ作成
mkdir ~/mecab_work
cd ~/mecab_work
辞書とモデルのダウンロード
web上の情報だとURLが間違っているケースが多い。
コマンドは記載するものの、正規のURLは以下からたどること。
https://taku910.github.io/mecab/#download
https://taku910.github.io/mecab/dic.html
wget -O mecab-ipadic-2.7.0-20070801.tar.gz "https://drive.google.com/uc?export=download&id=0B4y35FiV1wh7MWVlSDBCSXZMTXM"
wget -O mecab-ipadic-2.7.0-20070801.model.bz2 "https://drive.google.com/uc?export=download&id=0B4y35FiV1wh7bnc5aFZSTE9qNnM"
tar xvzf mecab-ipadic-2.7.0-20070801.tar.gz
nkf --overwrite -Ew mecab-ipadic-2.7.0-20070801/*
cd mecab-ipadic-2.7.0-20070801/
/usr/lib/mecab/mecab-dict-index -f utf-8 -t utf-8
bzip2 -d mecab-ipadic-2.7.0-20070801.model.bz2
nkf --overwrite -Ew mecab-ipadic-2.7.0-20070801.model
# charsetを修正する
vi mecab-ipadic-2.7.0-20070801.model
# charset: euc-jp ⇒ UTF-8
ファイル作成
坂部卯太郎,,,,名詞,固有名詞,*,*,*,*,坂部卯太郎,サカベウタロウ,サカベウタロウ,(追加単語)
コスト計算
/usr/lib/mecab/mecab-dict-index \
-m mecab-ipadic-2.7.0-20070801.model \
-d mecab-ipadic-2.7.0-20070801 \
-u person_name.csv \
-f utf8 -t utf8 \
-a person_name_tmp.csv
辞書作成
1.kuromojiのダウンロード
git clone https://github.com/takuyaa/kuromoji.js.git
/usr/bin/npm install
作成した辞書ファイルを
kuromoji.js/node_modules/mecab-ipadic-seed/lib/dictにコピー
npm run build-dict
でdictディレクトリに生成される。
- build-dictを見ると、mecab-ipadic-seedから辞書データを作っていた