6
8

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

Juman++(1.02)でユーザー辞書を登録(Mac => Vagrant => Ubuntu16.04)

Last updated at Posted at 2018-03-26

備忘録として書いていきます。

Juman++ http://nlp.ist.i.kyoto-u.ac.jp/index.php?JUMAN++

0. Vagrantの環境構築

Vagrantで使用するOSをダウンロード

$ vagrant box add ubuntu1604 https://cloud-images.ubuntu.com/xenial/current/xenial-server-cloudimg-amd64-vagrant.box

作業用のディレクトリを作成

$ mkdir ubuntu1604

Vagrantの設定ファイルを作成

$ vagrant init ubuntu1604

Vagrant-disksizeをインストール

$ vagrant plugin install vagrant-disksize

Vagrantの設定変更

$ vi Vagrantfile

ディスクサイズを変更

$ config.disksize.size = 30GB

Active private network
Before # config.vm.network "private_network", ip: "192.168.33.10"
After config.vm.network "private_network", ip: "192.168.33.10"

仮想サーバーの立ち上げ

$ vagrant up

ログイン

$ vagrant ssh

サイズ確認

$ df -h

1. Juman++(1.02)のインストール

$ sudo apt-get update
$ sudo apt-get upgrade

gcc(4.9以降)が必要

$ sudo apt-get install g++-4.9

Boost C++のライブラリをインストール

$ sudo apt install google-perftools libgoogle-perftools-dev libboost-dev
$ sudo apt-get install build-essential

ccacheをインストール

$ sudo apt install ccache

作業用フォルダを用意しました。

$ mkdir workspace
$ cd workspace

juman++(ver1.0.2)圧縮ファイルをダウンロード

$ wget http://lotus.kuee.kyoto-u.ac.jp/nl-resource/jumanpp/jumanpp-1.02.tar.xz

解凍

$ tar xJvf jumanpp-1.02.tar.xz

ディレクトリ移動

$ cd jumanpp-1.02/

Configure

$ ./configure CC="ccache gcc" CFLAGS="-O3" CXX="ccache g++" CXXFLAGS="-O3"

Make

$ make

Make Install

$ sudo make install

Validate install

$ echo "お腹すいた" | jumanpp

以下のように表示されます

お腹 おなか お腹 名詞 6 普通名詞 1 * 0 * 0 "代表表記:お腹/おなか カテゴリ:動物-部位"
すいた すいた すく 動詞 2 * 0 子音動詞カ行 2 タ形 10 "代表表記:透く/すく 自他動詞:他:透かす/すかす;他:透かせる/すかせる"
@ すいた すいた すく 動詞 2 * 0 子音動詞カ行 2 タ形 10 "代表表記:空く/すく 自他動詞:他:空かす/すかす;他:空かせる/すかせる 反義:動詞:込む/こむ"
@ すいた すいた すく 動詞 2 * 0 子音動詞カ行 2 タ形 10 "代表表記:好く/すく 反義:動詞:嫌う/きらう"
EOS

2. Juman(7.01)をインストール

先ほど作成したworkspaceのディレクトリに戻ってJumanをインストール

$ cd ..
$ wget http://nlp.ist.i.kyoto-u.ac.jp/nl-resource/juman/juman-7.01.tar.bz2

解凍

$ tar jxvf juman-7.01.tar.bz2

ディレクトリ移動

$ cd juman-7.01

Configure

$ ./configure

Make

$ make

Make Install

$ sudo make install

パスを通す

$ sudo vim /etc/ld.so.conf

追加

$ include /usr/local/lib

パスを読み込み

$ sudo ldconfig

インストール確認

$ juman -v

結果

juman 7.01

3. ユーザー辞書登録

jumanrcファイルを検索

$ find / -name "jumanrc"

発見

/usr/local/etc/jumanrc

ファイル編集

$ sudo vim /usr/local/etc/jumanrc

以下が表示されます。

(辞書ファイル
        /usr/local/share/juman/dic
        /usr/local/share/juman/autodic
        /usr/local/share/juman/wikipediadic
)

ここが一番のキモです。
/usr/local/share/juman/wikipediadicの下に、
/usr/local/share/juman/userdicを追加します
追加後はこのようになります。

(辞書ファイル
        /usr/local/share/juman/dic
        /usr/local/share/juman/autodic
        /usr/local/share/juman/wikipediadic
	/usr/local/share/juman/userdic
)

辞書作成のディレクトリに移動

$ cd jumanpp-1.02/dict-build/userdic/

dummy.dicを削除

$ rm -rf dummy.dic

ユーザー辞書ファイル作成

$ vim virtual-idol.dic

以下をユーザー辞書として記入します

(名詞 (普通名詞 ((見出し語 東雲めぐ) (読み しののめめぐ) (意味情報 バーチャルSHOWROOMER))))

登録前の結果を確認

$ echo "東雲めぐはかわいい" | jumanpp

登録前の結果

東雲 しののめ 東雲 名詞 6 地名 4 * 0 * 0 "自動獲得:Wikipedia Wikipedia複合地名 Wikipedia多義"
めぐ めぐ めぐ 名詞 6 人名 5 * 0 * 0 "自動獲得:Wikipedia Wikipedia人名 Wikipedia名"
は は は 助詞 9 副助詞 2 * 0 * 0 NIL
かわいい かわいい かわいい 形容詞 3 * 0 イ形容詞イ段 19 基本形 2 "代表表記:可愛い/かわいい"
EOS

それでは登録していきましょう。
dict-buildディレクトリに移動

$ cd ..

Make

$ make

デフォルトではbashでインストールできなかったのでzshに変更していきます。
zshをインストール

$ sudo apt-get install zsh

シェルを確認

$ cat /etc/shells
$ which zsh

結果

# /etc/shells: valid login shells
/bin/sh
/bin/dash
/bin/bash
/bin/rbash
/usr/bin/tmux
/usr/bin/screen
/bin/zsh
/usr/bin/zsh

/usr/bin/zshと結果が返されます

シェルを変更

$ chsh
Changing the login shell for vagrant
Enter the new value, or press ENTER for the default
	Login Shell [/bin/bash]:

と表示されるのでさきほどの/usr/bin/zshを入力します

Changing the login shell for vagrant
Enter the new value, or press ENTER for the default
	Login Shell [/bin/bash]:/usr/bin/zsh

インストール

$ sudo ./install.sh

それでは登録後の結果を確認していきましょう。

$ echo "東雲めぐはかわいい" | jumanpp

どきどき...

東雲めぐ しののめめぐ 東雲めぐ 名詞 6 普通名詞 1 * 0 * 0 "バーチャルSHOWROOMER"
は は は 助詞 9 副助詞 2 * 0 * 0 NIL
かわいい かわいい かわいい 形容詞 3 * 0 イ形容詞イ段 19 基本形 2 "代表表記:可愛い/かわいい"
EOS

登録できました!

6
8
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
6
8

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?