概要
web上からwikipediaのテキストデータを取得。
取得したwikipediaのダンプファイルは、Wiki記法で記載されているため、そのままでは自然言語処理に不向き。
そのためWikipedia Extractorというpythonスクリプトを使って、シンプルな日本語に直す。
具体的には以下の2点を導出する。
1. 日本語版wikipediaのテキストデータを取得
2. データ形式の整形
手順
使用環境
python3.7.2
1. 日本語版wikipediaのテキストデータを取得
- 日本語のwikipedia情報ダウンロードページにアクセス
-
jawiki-latest-pages-articles.xml.bz2
というファイル名のダンプファイルをダウンロード
2. データ形式の整形
- Wikipedia ExtractorのGithubをclone
- wikipediaのダンプファイルと
WikiExtractor.py
を同一フォルダに配置 - GithubのUsageを参考に、wikipediaデータを整形
サンプル
python WikiExtractor.py -b 500K -o wikipedia jawiki-latest-pages-articles.xml.bz2
- bオプション: 分割する1ファイル辺りのサイズ容量
- oオプション: 書き出しするフォルダ名
結果
出力される階層構成 (wiki_01などがxml形式のファイル)
└── wikipedia
├── AA
│ ├── wiki_00
│ ├── wiki_01
│ │ ・
│ │ ・
│ └── wiki_99
├── AB
│ ・
│ ・
└── CE
出力ファイルサンプル (wiki_01の一部抜粋)
<doc id="56" url="https://ja.wikipedia.org/wiki?curid=56" title="地理">
地理
地理(ちり、英: Geography)
「地理」という表現は古くからあり、有名なところでは漢書の『地理志』がある。
地理学とは、地球の表面と住民の状態、その相互関係を研究する学問である。
「地理」は、日本の学校で設置されている、「人間の生活に影響を与える地域的、社会的な構造」を学ぶための科目である。自然環境や産業環境などを含む環境を学習対象としている。小学校および中学校においては、歴史や公民と並び、社会科の一分野である。高等学校においては、最近は「地理歴史科」という教科の中の一科目となっており、「地理A」「地理B」に細分されている。
</doc>
上記のように、wikipediaの各記事ごとに<doc>タグで囲まれている。
結論
まずは単純にオープンに公開されているwikipediaのデータを取得した。
次に、自然言語処理をしやすくするためのデータ整形を行った。