19
17

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

Wikipediaの特定カテゴリ以下の記事だけを取得する(サブカテゴリの取得)

Last updated at Posted at 2018-07-30

Wikipediaの記事データは、自分でクロールせずとも、ダンプデータが用意されているため、それをダウンロードすることで取得することができます。(むしろクロールはしちゃダメ)

とりあえず全記事の最新の本文データはenwiki-20180701-pages-articles-multistream.xml.bz2(2018年7月1日英語版の場合)というようなファイルに格納されているので、そこから取得できるのですが、このうち、特定のカテゴリ以下の記事のみをすべて取得したいといった場合は、少し工夫が必要です。

この記事では、Web上で公開されている便利なAPI等は使用せずに、ダンプデータのダウンロード以外をローカルで完結させる方法で記します。また、特定のプログラミング言語での実装は記さず、方針のみを記します。

必要なファイル

下記のファイル名は、2018年7月1日英語版でのファイル名ですので、適宜読み替えてください。

  1. 記事の本文データ(enwiki-20180701-pages-articles-multistream.xml.bz2
  2. 記事の所属カテゴリSQLデータ(enwiki-20180701-categorylinks.sql.gz
  3. 記事のインデックスSQLデータ(enwiki-20180701-page.sql.gz

2のデータベースを使うことで、ある記事がどのカテゴリに属するのかを調べることができるのですが、ある子カテゴリがどの親カテゴリに属するかを調べることもできますので、これを利用します。

1の本文データは、予め、WikiExtractor等できれいにしておきます。

MySQL環境を用意してSQLデータをインポート

予め、MySQLの環境を用意しておき、「enwiki」といったような名前のデータベースを1つ作っておきます。(MySQL環境の構築方法はこの記事では扱いません。)

その後、上述ファイルの2と3をインポートします。下記は、bash上のコマンドでインポートする例です。


mysql -u ユーザ名 -p パスワード enwiki < enwiki-20180701-categorylinks.sql.gz
mysql -u ユーザ名 -p パスワード enwiki < enwiki-20180701-page.sql.gz

適当なクライアントソフトでデータベースの中身を見ると、テーブルが2つインポートされていますね。

テーブル一覧

方針

下記のステップで、特定のカテゴリ以下の記事のみをすべて取得していきます。

  1. 特定のカテゴリ以下のサブカテゴリをすべて取得
  2. 記事を1つずつ走査して、1.で取得したカテゴリに属するかどうか判別

1.特定のカテゴリ以下のサブカテゴリをすべて取得

SELECT cl_to AS parent, page_title AS child
FROM page JOIN categorylinks ON categorylinks.cl_from=page.page_id
WHERE categorylinks.cl_type = "subcat" AND categorylinks.cl_to = "親カテゴリ名";

例えば、英語版Wikipediaにおいて、親カテゴリ名を「Science_and_technology」と指定した場合、以下のような結果が返されます。

Science_and_technologyの発行結果

実際に、Wikipediaのページと比較しても、一致していることが分かります。

Science_and_technologyのカテゴリページ

上記のSQL文を再帰的に発行し、得られたchildをセット(集合)等に格納することで、ある親カテゴリに属する子カテゴリをすべて取得することができます。

ただし、注意したいのは、Wikipediaのカテゴリはツリー構造になっておらず、有向非巡回グラフになっている点です。例えば、
Xという記事はカテゴリAに属し、カテゴリAはカテゴリBに属し、カテゴリBはカテゴリCに属し、カテゴリCはカテゴリAに属している
という場合もありえます。

よって、単純に再帰的に発行してしまうと無限ループとなってしまいます。一度取得したカテゴリがもう一度出てきた場合は、それ以下を探索しないようにしましょう。

また、カテゴリ名の中の空白はアンダーバー(_)になっています。

2. 記事を1つずつ走査

上述の「必要なファイル」で述べた1.の本文データは、中身はXMLになっており、記事ごとにID属性がふられています。当該記事が、どのカテゴリに含まれるかは、下記のSQL文を発行することで分かります。


SELECT cl_to AS category FROM categorylinks WHERE cl_from = "記事ID"

例えば、英語版Wikipediaにおいて、記事IDが691182である記事がどのカテゴリに属するかを調べた場合、以下のような結果が返されます。

691182の所属カテゴリ

これらのカテゴリが、上記の節で得たカテゴリセット(集合)に含まれていれば、当該記事は、当初指定したカテゴリ以下の記事として属すると言えます。

参考

19
17
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
19
17

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?