LoginSignup
0
0

More than 5 years have passed since last update.

環境準備(BoUow LDA)

Last updated at Posted at 2017-12-02

主に、LDAをやってみるための環境構築のお話です。
同じように悩んでいるかたの役にたてば、幸いです。

参考にさせて頂いたのは、「け」さんのブログ。ありがとうございます。
http://ohke.hateblo.jp/entry/2017/11/14/230000

環境

  • Windows10
  • bash on ubuntu on windows(gensimなどで日本語処理したいため)
  • python3

コーパスファイルのダウンロードと解凍

  • まずは、コーパスファイルを入手。
  • Windows上でファイルを入手して解凍。
  • BoUoWのホームディレクトリにコピー。

ここで問題発生。
やはりBoUoWでは、Windows側で解凍したコーパスファイルを認識してくれない模様。

しかたないので、bashのコマンドから勉強開始。

  • まずは、目的のコーパスファイルの取得。
$ wget http://nlp.ist.i.kyoto-u.ac.jp/kuntt/KNBC_v1.0_090925.tar.bz2
  • dirで、bash上で取得したコーパスファイルが見えることを確認。

  • 取得した「tar.bz2」ファイルを展開。

「tar」が複数ファイルをまとめたアーカイブファイルで、「bz2」は、圧縮ファイルの1つの形式の模様。

  • ってことで、解凍と展開。
$ tar -jxvf KNBC_v1.0_090925.tar.bz2

dirで、ディレクトリとしての「KNBC_v1.0_090925」ができていることを確認。うれしい。(^^♪

Janomeインストール

前準備。

  • まずファイルをダウンロード。

しかし、対象ファイルがgoogleドライブ上に置かれており、容量が204MBあるので、wgetコマンドでは、すんなりダウンロードできない。

googleドライブの動的なIDが取得しにくいような問題があるらしいです。
解決方法もあるようなのですが、僕はよく理解できず、他の方法を模索。

  • とりあえず、Windowsでgoogleドライブから目的のファイルをダウンロード。
  • BoUoW側からWindows10のファイルにアクセスし、コピーしてくることに挑戦。
~$ cp /mnt/c/Users/*ユーザ名*/*Windows10上でダウンロードしたファルダ名*/Janome-0.3.5.neologd20170828.tar.gz /home/*ユーザ名*/Janome-0.3.5.neologd201708
28.tar.gz

無事成功。

$ tar -zxvf Janome-0.3.5.neologd20170828.tar.gz

成功はしたようですが、次のpipを考えると、特に解凍する必要もないのかもしれません。

  • では、いよいよjanomeのインストール。
pip install Janome-0.3.5.neologd20170828.tar.gz --no-compile

僕の環境だと、一瞬フリーズしているように思えてしまいますが、問題なく、次のような完了メッセージが表示されます。

Successfully built Janome
Installing collected packages: Janome
Successfully installed Janome-0.3.5.neologd20170828
  • 次に、こちらもエラーなど出ることなく完了。
python -c "from janome.tokenizer import Tokenizer; Tokenizer(mmap=True)"

この後は、「け」さんのブログの通り実施。

写経の時間もだんだん短縮できるようになり、満足(^^♪

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0