4
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

WSLでKuromoji.jsに単語追加

Posted at

参考資料

WSLのインストール
https://qiita.com/Aruneko/items/c79810b0b015bebf30bb

WSLのリセット
https://www.atmarkit.co.jp/ait/articles/1807/06/news028.html

Mecabのインストール
http://tech-blog.rakus.co.jp/entry/2018/03/27/124418#MeCab%E3%81%AE%E5%B0%8E%E5%85%A5%E3%81%AE%E5%89%8D%E3%81%AB%5C

UTF-8変換/辞書作成
https://blog.apar.jp/linux/2796/

Kuromoji.jsへの登録
https://qiita.com/muraken720/items/dc67c8dc32138be7b3f8

手順

Mecabのインストール

sudo apt update
sudo apt upgrade
sudo apt install make automake autoconf autotools-dev m4 mecab libmecab-dev mecab-ipadic-utf8 npm

動作確認

echo "人事を尽くして天命を待つ" | mecab

作業ディレクトリ作成

mkdir ~/mecab_work
cd ~/mecab_work

辞書とモデルのダウンロード

web上の情報だとURLが間違っているケースが多い。
コマンドは記載するものの、正規のURLは以下からたどること。
https://taku910.github.io/mecab/#download
image.png

https://taku910.github.io/mecab/dic.html
image.png

wget -O  mecab-ipadic-2.7.0-20070801.tar.gz "https://drive.google.com/uc?export=download&id=0B4y35FiV1wh7MWVlSDBCSXZMTXM"

wget -O mecab-ipadic-2.7.0-20070801.model.bz2 "https://drive.google.com/uc?export=download&id=0B4y35FiV1wh7bnc5aFZSTE9qNnM"
tar xvzf mecab-ipadic-2.7.0-20070801.tar.gz
nkf --overwrite -Ew mecab-ipadic-2.7.0-20070801/*
cd mecab-ipadic-2.7.0-20070801/
/usr/lib/mecab/mecab-dict-index -f utf-8 -t utf-8
bzip2 -d mecab-ipadic-2.7.0-20070801.model.bz2
nkf --overwrite -Ew mecab-ipadic-2.7.0-20070801.model
# charsetを修正する
vi mecab-ipadic-2.7.0-20070801.model
# charset: euc-jp ⇒ UTF-8

ファイル作成

person_name_tmp.csv
坂部卯太郎,,,,名詞,固有名詞,*,*,*,*,坂部卯太郎,サカベウタロウ,サカベウタロウ,(追加単語)

コスト計算

/usr/lib/mecab/mecab-dict-index \
-m mecab-ipadic-2.7.0-20070801.model \
-d mecab-ipadic-2.7.0-20070801 \
-u person_name.csv \
-f utf8 -t utf8 \
-a person_name_tmp.csv

辞書作成

1.kuromojiのダウンロード

git clone https://github.com/takuyaa/kuromoji.js.git
/usr/bin/npm install

作成した辞書ファイルを
kuromoji.js/node_modules/mecab-ipadic-seed/lib/dictにコピー

npm run build-dict
でdictディレクトリに生成される。

  • build-dictを見ると、mecab-ipadic-seedから辞書データを作っていた
4
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
4
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?