主に、LDAをやってみるための環境構築のお話です。
同じように悩んでいるかたの役にたてば、幸いです。
参考にさせて頂いたのは、「け」さんのブログ。ありがとうございます。
http://ohke.hateblo.jp/entry/2017/11/14/230000
環境
- Windows10
- bash on ubuntu on windows(gensimなどで日本語処理したいため)
- python3
コーパスファイルのダウンロードと解凍
- まずは、コーパスファイルを入手。
- Windows上でファイルを入手して解凍。
- BoUoWのホームディレクトリにコピー。
ここで問題発生。
やはりBoUoWでは、Windows側で解凍したコーパスファイルを認識してくれない模様。
しかたないので、bashのコマンドから勉強開始。
- まずは、目的のコーパスファイルの取得。
$ wget http://nlp.ist.i.kyoto-u.ac.jp/kuntt/KNBC_v1.0_090925.tar.bz2
dirで、bash上で取得したコーパスファイルが見えることを確認。
取得した「tar.bz2」ファイルを展開。
「tar」が複数ファイルをまとめたアーカイブファイルで、「bz2」は、圧縮ファイルの1つの形式の模様。
- ってことで、解凍と展開。
$ tar -jxvf KNBC_v1.0_090925.tar.bz2
dirで、ディレクトリとしての「KNBC_v1.0_090925」ができていることを確認。うれしい。(^^♪
Janomeインストール
前準備。
- まずファイルをダウンロード。
しかし、対象ファイルがgoogleドライブ上に置かれており、容量が204MBあるので、wgetコマンドでは、すんなりダウンロードできない。
googleドライブの動的なIDが取得しにくいような問題があるらしいです。
解決方法もあるようなのですが、僕はよく理解できず、他の方法を模索。
- とりあえず、Windowsでgoogleドライブから目的のファイルをダウンロード。
- BoUoW側からWindows10のファイルにアクセスし、コピーしてくることに挑戦。
~$ cp /mnt/c/Users/*ユーザ名*/*Windows10上でダウンロードしたファルダ名*/Janome-0.3.5.neologd20170828.tar.gz /home/*ユーザ名*/Janome-0.3.5.neologd201708
28.tar.gz
無事成功。
$ tar -zxvf Janome-0.3.5.neologd20170828.tar.gz
成功はしたようですが、次のpipを考えると、特に解凍する必要もないのかもしれません。
- では、いよいよjanomeのインストール。
pip install Janome-0.3.5.neologd20170828.tar.gz --no-compile
僕の環境だと、一瞬フリーズしているように思えてしまいますが、問題なく、次のような完了メッセージが表示されます。
Successfully built Janome
Installing collected packages: Janome
Successfully installed Janome-0.3.5.neologd20170828
- 次に、こちらもエラーなど出ることなく完了。
python -c "from janome.tokenizer import Tokenizer; Tokenizer(mmap=True)"
この後は、「け」さんのブログの通り実施。
写経の時間もだんだん短縮できるようになり、満足(^^♪