5
7

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

自然言語処理 #2Advent Calendar 2019

Day 6

日本語Wikipediaのデータが欲しくなった時

Last updated at Posted at 2019-12-05

簡単に手に入るWikipediaデータ

Wikipediaの記事は基本的に、ウィキメディア財団によって簡単にダウンロードできるようになっています。

気ままにクローラを走らされると困るといった理由もあるみたいですが、利用させてもらう側としては手間が少なくて有り難いですね。

データの一部説明

  • jawiki-latest-pages-articles.xml.bz2
    • 記事一覧
    • 圧縮された状態で3GB
  • jawiki-latest-abstract.xml.gz
    • タイトル、要約(「~とは...である」と書いてある最初の数行)など一覧
  • jawiki-latest-all-titles-in-ns0.gz
    • タイトルのみ一覧
    • (リダイレクトされるタイトルは含まない)
  • jawiki-latest-redirect.sql.gz
    • リダイレクト元の記事IDと、リダイレクト先などが載ったSQLデータ

リダイレクトデータ(jawiki-latest-redirect.sql)の中身

一部抜粋

INSERT INTO `redirect` VALUES 
...
(20541,0,'ジョジョの奇妙な冒険','','')
...
  • 20541:リダイレクト元の記事ID
  • ジョジョの奇妙な冒険:リダイレクト先の記事タイトル

を表しています。

これに対し、タイトルと要約などが記載されているjawiki-latest-abstract.xmlを見てみると、

<title>JOJOの奇妙な冒険</title>
<ns>0</ns>
<id>20541</id>
<redirect title="ジョジョの奇妙な冒険" />
  • 記事ID:20541
  • 記事タイトル:JOJOの奇妙な冒険
  • リダイレクト先の記事タイトル:ジョジョの奇妙な冒険

と、それぞれリダイレクト元とリダイレクト先が対応していることが分かります。

Wikipedia内でリダイレクトされている記事タイトルは意外と多いため、表記ゆれも含めて全タイトルを取得したい場合は

  • jawiki-latest-all-titles-in-ns0

だけでなく、

  • jawiki-latest-redirect.sql
  • jawiki-latest-abstract.xml

も組み合わせて利用する必要がありそうです。

5
7
1

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
5
7

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?