形態素解析による日本語自然言語処理システムであるChaSenをインストールしたメモ。
環境:centos6.3
こことここを参考にインストールしてみました
環境:centos6.3
まずはChaSenの情報を見に行く
http://chasen-legacy.sourceforge.jp/
http://sourceforge.jp/projects/chasen-legacy/
iconvと Darts-0.31が必要らしい。
まずはDartsから。3,2があったので、そっちを入れる。
$ wget http://chasen.org/~taku/software/darts/src/darts-0.32.tar.gz
gtar xvzf darts-0.32.tar.gz
cd darts-0.32
./configure
make
make check
sudo make install
で完了。
iconvは既に入っていたので省略します。
##ChaSenインストール
$ wget http://iij.dl.sourceforge.jp/chasen-legacy/56305/chasen-2.4.5.tar.gz
$ tar xzf chasen-2.4.5.tar.gz
$ cd chasen-2.4.5
$ sudo ./configure
$ sudo make
$ sudo make install
##ipadic をインストール
$wget http://jaist.dl.sourceforge.jp/ipadic/24435/ipadic-2.7.0.tar.gz
# tar zxf ipadic-2.7.0.tar.gz
# cd ipadic-2.7.0
# ./configure
辞書ファイルをUTF-8に変換
convert.sh
#!/bin/sh
for file in *.dic *.cha
do
if [ -f $file ]; then
echo $file
iconv -f euc-jp -t utf-8 $file > tmpfile
mv tmpfile $file
fi
done
exit
上記シェルスクリプトを実行して辞書ファイルをUTF-8に変換し生成します。
$ sh ./convert.sh
$ `chasen-config --mkchadic`/makemat -i w
$ `chasen-config --mkchadic`/makeda -i w chadic *.dic
$ make install
chasenrcもUTF-8に変換
$ cd /usr/local/etc
$ iconv -f euc-jp -t utf-8 chasenrc > chasenrc.tmp
$ mv chasenrc.tmp chasenrc
これで、UTF8で操作出来るようになりました。