19
19

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

日本語版wikipediaのデータ取得と整形

Last updated at Posted at 2019-09-29

概要

web上からwikipediaのテキストデータを取得。
取得したwikipediaのダンプファイルは、Wiki記法で記載されているため、そのままでは自然言語処理に不向き。
そのためWikipedia Extractorというpythonスクリプトを使って、シンプルな日本語に直す。

具体的には以下の2点を導出する。
1. 日本語版wikipediaのテキストデータを取得
2. データ形式の整形

手順

使用環境
python3.7.2

1. 日本語版wikipediaのテキストデータを取得

  1. 日本語のwikipedia情報ダウンロードページにアクセス
  2. jawiki-latest-pages-articles.xml.bz2というファイル名のダンプファイルをダウンロード

2. データ形式の整形

  1. Wikipedia ExtractorのGithubをclone
  2. wikipediaのダンプファイルと WikiExtractor.pyを同一フォルダに配置
  3. GithubのUsageを参考に、wikipediaデータを整形
サンプル
python WikiExtractor.py -b 500K -o wikipedia jawiki-latest-pages-articles.xml.bz2
  • bオプション: 分割する1ファイル辺りのサイズ容量
  • oオプション: 書き出しするフォルダ名

結果

出力される階層構成 (wiki_01などがxml形式のファイル)
└── wikipedia
    ├── AA
    │   ├── wiki_00
    │   ├── wiki_01
    │   │      ・
    │   │      ・
    │   └── wiki_99
    ├── AB 
    │    ・
    │    ・
    └── CE
出力ファイルサンプル (wiki_01の一部抜粋)
<doc id="56" url="https://ja.wikipedia.org/wiki?curid=56" title="地理">
地理

地理(ちり、英: Geography)
「地理」という表現は古くからあり、有名なところでは漢書の『地理志』がある。
地理学とは、地球の表面と住民の状態、その相互関係を研究する学問である。
「地理」は、日本の学校で設置されている、「人間の生活に影響を与える地域的、社会的な構造」を学ぶための科目である。自然環境や産業環境などを含む環境を学習対象としている。小学校および中学校においては、歴史や公民と並び、社会科の一分野である。高等学校においては、最近は「地理歴史科」という教科の中の一科目となっており、「地理A」「地理B」に細分されている。

</doc>

上記のように、wikipediaの各記事ごとに<doc>タグで囲まれている。

結論

まずは単純にオープンに公開されているwikipediaのデータを取得した。
次に、自然言語処理をしやすくするためのデータ整形を行った。

参考

19
19
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
19
19

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?