Wikipediaのダンプデータから、xml構文などを取り除いてくれるwp2txtを入れるのに苦労したのでメモしておく。
まあrubyに詳しくないせいなんだけど・・・。
wp2txtについてはhttps://github.com/yohasebe/wp2txtを参照
ちなみにMacでやっているので、既にrubyがある状態から始めてます。
#公式のインストール方法
$ gem install wp2txt
うわー超簡単やーん。と思って、wp2txtを実行しようとすると、やたらエラーがでた・・・。
どうやら依存するパッケージを入れないとダメらしい。
#実際にやったインストール方法
bundleってやつを使ってインストールしました。
bundle使うと、依存するライブラリを全部入れてくれる。偉い。
手順は以下のようになる。
$ gem install bundle
$ mkdir ~/ruby_bundle
$ cd ~/ruby_bundle
$ bundle init
Writing new Gemfile to /file_to_path/ruby_bundle/Gemfile
$ echo 'gem "wp2txt"' >> Gemfile
$ bundle install
偉いんだけど、ちょっとめんどくさい。特にGemfileにインストールするパッケージを書くのが。
Gemfileはbundle init
を実行すると、実行したディレクトリに作られる。
Gemfileはvimとかで編集してもいいけど、1行だけだからechoで追記しといた。
後はbundle install
で依存ライブラリも含めてインストールしてくれる。
なお、ツールを使いたいだけの人のための bundler 入門 (例: vagrant + veewee)で、bundle install
を行う時に--paht
つけると便利って書いてあったが、パス指定でインストールすると動かなかったので、そのまま入れた。
ログを見ると既存のrubyとの関係性っぽかったが、一旦諦めた・・・。
#wp2txtを使う
wp2txtを使うために、そもそもwikipediaのダンプが必要。
http://dumps.wikimedia.org/jawiki/latest/からダウンロードしておく。
ダウンロードするのはjawiki-latest-pages-articles.xml.bz2でいいと思う。
後は以下のコマンドで。どっかのバージョンから、インプットファイルを指定する時にオプション指定が必要になったみたい。
$ wp2txt --input-file jawiki-latest-pages-articles.xml.bz2
時間かかるので、ひたすら待つのみ