24
27

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

wp2txtでwikipediaのコーパスを作るまでの道のり

Last updated at Posted at 2014-08-14

Wikipediaのダンプデータから、xml構文などを取り除いてくれるwp2txtを入れるのに苦労したのでメモしておく。
まあrubyに詳しくないせいなんだけど・・・。
wp2txtについてはhttps://github.com/yohasebe/wp2txtを参照

ちなみにMacでやっているので、既にrubyがある状態から始めてます。

#公式のインストール方法

$ gem install wp2txt

うわー超簡単やーん。と思って、wp2txtを実行しようとすると、やたらエラーがでた・・・。
どうやら依存するパッケージを入れないとダメらしい。

#実際にやったインストール方法

bundleってやつを使ってインストールしました。
bundle使うと、依存するライブラリを全部入れてくれる。偉い。
手順は以下のようになる。

$ gem install bundle
$ mkdir ~/ruby_bundle
$ cd ~/ruby_bundle
$ bundle init
Writing new Gemfile to /file_to_path/ruby_bundle/Gemfile
$ echo 'gem "wp2txt"' >> Gemfile
$ bundle install

偉いんだけど、ちょっとめんどくさい。特にGemfileにインストールするパッケージを書くのが。
Gemfileはbundle initを実行すると、実行したディレクトリに作られる。
Gemfileはvimとかで編集してもいいけど、1行だけだからechoで追記しといた。
後はbundle installで依存ライブラリも含めてインストールしてくれる。

なお、ツールを使いたいだけの人のための bundler 入門 (例: vagrant + veewee)で、bundle installを行う時に--pahtつけると便利って書いてあったが、パス指定でインストールすると動かなかったので、そのまま入れた。
ログを見ると既存のrubyとの関係性っぽかったが、一旦諦めた・・・。

#wp2txtを使う
wp2txtを使うために、そもそもwikipediaのダンプが必要。
http://dumps.wikimedia.org/jawiki/latest/からダウンロードしておく。
ダウンロードするのはjawiki-latest-pages-articles.xml.bz2でいいと思う。

後は以下のコマンドで。どっかのバージョンから、インプットファイルを指定する時にオプション指定が必要になったみたい。

$ wp2txt --input-file jawiki-latest-pages-articles.xml.bz2

時間かかるので、ひたすら待つのみ

24
27
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
24
27

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?