簡単に手に入るWikipediaデータ
Wikipediaの記事は基本的に、ウィキメディア財団によって簡単にダウンロードできるようになっています。
気ままにクローラを走らされると困るといった理由もあるみたいですが、利用させてもらう側としては手間が少なくて有り難いですね。
データの一部説明
-
jawiki-latest-pages-articles.xml.bz2
- 記事一覧
- 圧縮された状態で3GB
-
jawiki-latest-abstract.xml.gz
- タイトル、要約(「~とは...である」と書いてある最初の数行)など一覧
-
jawiki-latest-all-titles-in-ns0.gz
- タイトルのみ一覧
- (リダイレクトされるタイトルは含まない)
-
jawiki-latest-redirect.sql.gz
- リダイレクト元の記事IDと、リダイレクト先などが載ったSQLデータ
リダイレクトデータ(jawiki-latest-redirect.sql
)の中身
一部抜粋
INSERT INTO `redirect` VALUES
...
(20541,0,'ジョジョの奇妙な冒険','','')
...
- 20541:リダイレクト元の記事ID
- ジョジョの奇妙な冒険:リダイレクト先の記事タイトル
を表しています。
これに対し、タイトルと要約などが記載されているjawiki-latest-abstract.xml
を見てみると、
<title>JOJOの奇妙な冒険</title>
<ns>0</ns>
<id>20541</id>
<redirect title="ジョジョの奇妙な冒険" />
- 記事ID:20541
- 記事タイトル:JOJOの奇妙な冒険
- リダイレクト先の記事タイトル:ジョジョの奇妙な冒険
と、それぞれリダイレクト元とリダイレクト先が対応していることが分かります。
Wikipedia内でリダイレクトされている記事タイトルは意外と多いため、表記ゆれも含めて全タイトルを取得したい場合は
jawiki-latest-all-titles-in-ns0
だけでなく、
jawiki-latest-redirect.sql
jawiki-latest-abstract.xml
も組み合わせて利用する必要がありそうです。