LoginSignup
5
5

More than 5 years have passed since last update.

ChaSenのインストール

Posted at

形態素解析による日本語自然言語処理システムであるChaSenをインストールしたメモ。
環境:centos6.3

ここここを参考にインストールしてみました
環境:centos6.3

まずはChaSenの情報を見に行く
http://chasen-legacy.sourceforge.jp/
http://sourceforge.jp/projects/chasen-legacy/

iconvと Darts-0.31が必要らしい。

まずはDartsから。3,2があったので、そっちを入れる。

$ wget http://chasen.org/~taku/software/darts/src/darts-0.32.tar.gz
gtar xvzf darts-0.32.tar.gz
cd darts-0.32
./configure
make
make check
sudo make install

で完了。

iconvは既に入っていたので省略します。

ChaSenインストール

$ wget http://iij.dl.sourceforge.jp/chasen-legacy/56305/chasen-2.4.5.tar.gz
$ tar xzf chasen-2.4.5.tar.gz 
$ cd chasen-2.4.5
$ sudo ./configure
$ sudo make 
$ sudo make install

ipadic をインストール

$wget http://jaist.dl.sourceforge.jp/ipadic/24435/ipadic-2.7.0.tar.gz
# tar zxf ipadic-2.7.0.tar.gz
# cd ipadic-2.7.0
# ./configure

辞書ファイルをUTF-8に変換

convert.sh
#!/bin/sh
for file in *.dic *.cha
do
if [ -f $file ]; then
echo $file
iconv -f euc-jp -t utf-8 $file > tmpfile
mv tmpfile $file
fi
done
exit

上記シェルスクリプトを実行して辞書ファイルをUTF-8に変換し生成します。

$ sh ./convert.sh
$ `chasen-config --mkchadic`/makemat -i w
$ `chasen-config --mkchadic`/makeda -i w chadic *.dic
$ make install

chasenrcもUTF-8に変換

$ cd /usr/local/etc
$ iconv -f euc-jp -t utf-8 chasenrc > chasenrc.tmp
$ mv chasenrc.tmp chasenrc

これで、UTF8で操作出来るようになりました。

5
5
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
5
5