Help us understand the problem. What is going on with this article?

Juman++(1.02)でユーザー辞書を登録(Mac => Vagrant => Ubuntu16.04)

More than 1 year has passed since last update.

備忘録として書いていきます。

Juman++ http://nlp.ist.i.kyoto-u.ac.jp/index.php?JUMAN++

0. Vagrantの環境構築

Vagrantで使用するOSをダウンロード

$ vagrant box add ubuntu1604 https://cloud-images.ubuntu.com/xenial/current/xenial-server-cloudimg-amd64-vagrant.box

作業用のディレクトリを作成

$ mkdir ubuntu1604

Vagrantの設定ファイルを作成

$ vagrant init ubuntu1604

Vagrant-disksizeをインストール

$ vagrant plugin install vagrant-disksize

Vagrantの設定変更

$ vi Vagrantfile

ディスクサイズを変更

$ config.disksize.size = 30GB

Active private network
Before # config.vm.network "private_network", ip: "192.168.33.10"
After config.vm.network "private_network", ip: "192.168.33.10"

仮想サーバーの立ち上げ

$ vagrant up

ログイン

$ vagrant ssh

サイズ確認

$ df -h

1. Juman++(1.02)のインストール

$ sudo apt-get update
$ sudo apt-get upgrade

gcc(4.9以降)が必要

$ sudo apt-get install g++-4.9

Boost C++のライブラリをインストール

$ sudo apt install google-perftools libgoogle-perftools-dev libboost-dev
$ sudo apt-get install build-essential

ccacheをインストール

$ sudo apt install ccache

作業用フォルダを用意しました。

$ mkdir workspace
$ cd workspace

juman++(ver1.0.2)圧縮ファイルをダウンロード

$ wget http://lotus.kuee.kyoto-u.ac.jp/nl-resource/jumanpp/jumanpp-1.02.tar.xz

解凍

$ tar xJvf jumanpp-1.02.tar.xz

ディレクトリ移動

$ cd jumanpp-1.02/

Configure

$ ./configure CC="ccache gcc" CFLAGS="-O3" CXX="ccache g++" CXXFLAGS="-O3"

Make

$ make

Make Install

$ sudo make install

Validate install

$ echo "お腹すいた" | jumanpp

以下のように表示されます

お腹 おなか お腹 名詞 6 普通名詞 1 * 0 * 0 "代表表記:お腹/おなか カテゴリ:動物-部位"
すいた すいた すく 動詞 2 * 0 子音動詞カ行 2 タ形 10 "代表表記:透く/すく 自他動詞:他:透かす/すかす;他:透かせる/すかせる"
@ すいた すいた すく 動詞 2 * 0 子音動詞カ行 2 タ形 10 "代表表記:空く/すく 自他動詞:他:空かす/すかす;他:空かせる/すかせる 反義:動詞:込む/こむ"
@ すいた すいた すく 動詞 2 * 0 子音動詞カ行 2 タ形 10 "代表表記:好く/すく 反義:動詞:嫌う/きらう"
EOS

2. Juman(7.01)をインストール

先ほど作成したworkspaceのディレクトリに戻ってJumanをインストール

$ cd ..
$ wget http://nlp.ist.i.kyoto-u.ac.jp/nl-resource/juman/juman-7.01.tar.bz2

解凍

$ tar jxvf juman-7.01.tar.bz2

ディレクトリ移動

$ cd juman-7.01

Configure

$ ./configure

Make

$ make

Make Install

$ sudo make install

パスを通す

$ sudo vim /etc/ld.so.conf

追加

$ include /usr/local/lib

パスを読み込み

$ sudo ldconfig

インストール確認

$ juman -v

結果

juman 7.01

3. ユーザー辞書登録

jumanrcファイルを検索

$ find / -name "jumanrc"

発見

/usr/local/etc/jumanrc

ファイル編集

$ sudo vim /usr/local/etc/jumanrc

以下が表示されます。

(辞書ファイル
        /usr/local/share/juman/dic
        /usr/local/share/juman/autodic
        /usr/local/share/juman/wikipediadic
)

ここが一番のキモです。
/usr/local/share/juman/wikipediadicの下に、
/usr/local/share/juman/userdicを追加します
追加後はこのようになります。

(辞書ファイル
        /usr/local/share/juman/dic
        /usr/local/share/juman/autodic
        /usr/local/share/juman/wikipediadic
    /usr/local/share/juman/userdic
)

辞書作成のディレクトリに移動

$ cd jumanpp-1.02/dict-build/userdic/

dummy.dicを削除

$ rm -rf dummy.dic

ユーザー辞書ファイル作成

$ vim virtual-idol.dic

以下をユーザー辞書として記入します

(名詞 (普通名詞 ((見出し語 東雲めぐ) (読み しののめめぐ) (意味情報 バーチャルSHOWROOMER))))

登録前の結果を確認

$ echo "東雲めぐはかわいい" | jumanpp

登録前の結果

東雲 しののめ 東雲 名詞 6 地名 4 * 0 * 0 "自動獲得:Wikipedia Wikipedia複合地名 Wikipedia多義"
めぐ めぐ めぐ 名詞 6 人名 5 * 0 * 0 "自動獲得:Wikipedia Wikipedia人名 Wikipedia名"
は は は 助詞 9 副助詞 2 * 0 * 0 NIL
かわいい かわいい かわいい 形容詞 3 * 0 イ形容詞イ段 19 基本形 2 "代表表記:可愛い/かわいい"
EOS

それでは登録していきましょう。
dict-buildディレクトリに移動

$ cd ..

Make

$ make

デフォルトではbashでインストールできなかったのでzshに変更していきます。
zshをインストール

$ sudo apt-get install zsh

シェルを確認

$ cat /etc/shells
$ which zsh

結果

# /etc/shells: valid login shells
/bin/sh
/bin/dash
/bin/bash
/bin/rbash
/usr/bin/tmux
/usr/bin/screen
/bin/zsh
/usr/bin/zsh

/usr/bin/zshと結果が返されます

シェルを変更

$ chsh
Changing the login shell for vagrant
Enter the new value, or press ENTER for the default
    Login Shell [/bin/bash]:

と表示されるのでさきほどの/usr/bin/zshを入力します

Changing the login shell for vagrant
Enter the new value, or press ENTER for the default
    Login Shell [/bin/bash]:/usr/bin/zsh

インストール

$ sudo ./install.sh

それでは登録後の結果を確認していきましょう。

$ echo "東雲めぐはかわいい" | jumanpp

どきどき...

東雲めぐ しののめめぐ 東雲めぐ 名詞 6 普通名詞 1 * 0 * 0 "バーチャルSHOWROOMER"
は は は 助詞 9 副助詞 2 * 0 * 0 NIL
かわいい かわいい かわいい 形容詞 3 * 0 イ形容詞イ段 19 基本形 2 "代表表記:可愛い/かわいい"
EOS

登録できました!

1O1
ホロレンジャー, Miner(Cryptocurrency), Unity使うマン(プライベート) 会計士&税理士になるべく電卓を叩いていたが、いつのまにかキーボードを叩いているマン
protosolution
プロトソリューションは、Web制作・Webデザイン・デザイン制作・コールセンター・データ入力・ITインテグレーションとトータルでお客様のニーズにお応えする会社です
http://www.protosolution.co.jp/
Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
Comments
No comments
Sign up for free and join this conversation.
If you already have a Qiita account
Why do not you register as a user and use Qiita more conveniently?
You need to log in to use this function. Qiita can be used more conveniently after logging in.
You seem to be reading articles frequently this month. Qiita can be used more conveniently after logging in.
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
ユーザーは見つかりませんでした