wp2txtでwikipediaのコーパスを作るまでの道のり

  • 18
    いいね
  • 0
    コメント
この記事は最終更新日から1年以上が経過しています。

Wikipediaのダンプデータから、xml構文などを取り除いてくれるwp2txtを入れるのに苦労したのでメモしておく。
まあrubyに詳しくないせいなんだけど・・・。
wp2txtについてはhttps://github.com/yohasebe/wp2txtを参照

ちなみにMacでやっているので、既にrubyがある状態から始めてます。

公式のインストール方法

$ gem install wp2txt

うわー超簡単やーん。と思って、wp2txtを実行しようとすると、やたらエラーがでた・・・。
どうやら依存するパッケージを入れないとダメらしい。

実際にやったインストール方法

bundleってやつを使ってインストールしました。
bundle使うと、依存するライブラリを全部入れてくれる。偉い。
手順は以下のようになる。

$ gem install bundle
$ mkdir ~/ruby_bundle
$ cd ~/ruby_bundle
$ bundle init
Writing new Gemfile to /file_to_path/ruby_bundle/Gemfile
$ echo 'gem "wp2txt"' >> Gemfile
$ bundle install

偉いんだけど、ちょっとめんどくさい。特にGemfileにインストールするパッケージを書くのが。
Gemfileはbundle initを実行すると、実行したディレクトリに作られる。
Gemfileはvimとかで編集してもいいけど、1行だけだからechoで追記しといた。
後はbundle installで依存ライブラリも含めてインストールしてくれる。

なお、ツールを使いたいだけの人のための bundler 入門 (例: vagrant + veewee)で、bundle installを行う時に--pahtつけると便利って書いてあったが、パス指定でインストールすると動かなかったので、そのまま入れた。
ログを見ると既存のrubyとの関係性っぽかったが、一旦諦めた・・・。

wp2txtを使う

wp2txtを使うために、そもそもwikipediaのダンプが必要。
http://dumps.wikimedia.org/jawiki/latest/からダウンロードしておく。
ダウンロードするのはjawiki-latest-pages-articles.xml.bz2でいいと思う。

後は以下のコマンドで。どっかのバージョンから、インプットファイルを指定する時にオプション指定が必要になったみたい。

$ wp2txt --input-file jawiki-latest-pages-articles.xml.bz2

時間かかるので、ひたすら待つのみ