More than 5 years have passed since last update.

WikiExtractor.py の使い方

Last updated at 2020-06-05Posted at 2020-06-05

自然言語処理で学習用のサンプルが必要になった等の理由で Wikipedia の生文が必要になる場面があるかもしれません.
Wikipediaが提供しているダンプデータから記事本文を抽出する wikiextractor というOSSがあるので使い方をメモします.

How to Use

まず https://github.com/attardi/wikiextractor をクローンして WikiExtractor.py を作業するディレクトリにコピーなりする.

python WikiExtractor.py <path_to_the_wikipedia_dump_file>

ダンプファイルは解凍せずに直接jawiki-latest-pages-articles.xml.bz2などを指定して良い模様.

Wikipedia の xml ダンプファイルは

curl https://dumps.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2 -o jawiki-latest-pages-articles.xml.bz2

約400万タイトルの処理状況が標準log に吐き出されます. 処理には数十分〜数時間かかります.

text というディレクトリが作成され, 次のような構造でファイルが作成される.

/text
├─/AA
│ ├─wiki_00
│ ├─wiki_01
│ :
│ └─wiki_99
├─/AB
│ ├─wiki_00
| :
│ └─wiki_99
:
├─/AZ
| ├─wiki_00
| :
├─/BA
| ├─wiki_00
: :

AA から順にWkipediaの記事がABC順(日本語Wikiなら五十音順) で入っている.

各 wiki_XXはプレーンテキストで書式は以下のようになっている.Json 形式でも出力可能(後述).

    <doc id="" revid="" url="" title="">
        ... (記事本文)
        </doc>

python WikiExtractor.py <input_path> --processes <process_num> -o <output_path> --json -b <n[KMG]>

{"id": "", "revid": "", "url":"", "title": "", "text": "..."}

-b: デフォルトでは各wiki_XXファイルは1MBごとに区切られるようになっています. -b 1Gのように指定して制限を緩和できます. 出力を1ファイルにしたい場合は -b 5G のようにすると1ファイルに出力される.

自然言語処理で用いたりする場合は1ファイルのテキストファイルがあった方が都合が良いかもしれない.

cat text/*/* > jawiki.txt