Help us understand the problem. What is going on with this article?

wikipediaのredirectデータを使ったお手軽名寄せ辞書作成

More than 5 years have passed since last update.

文書分類などする時いつも名寄せに困っているので、web上の集合知であるwikipediaのデータを使用してメンテナンスがあまり必要ない、お手軽名寄せ辞書を作ってみました(ただデータ流し込んだだけですが。。。)。

参考資料

メタデータ自動付与のためのWikipediaリンクAPIを用いた論文データの類似度評価の一検討, 槇+, 福岡工業大学, IEICE'14

wikipediaデータのダウンロード

以下のサイトのlatestから"jawiki-latest-page.sql.gz"と"jawiki-latest-redirect.sql.gz"をダウンロードし、DBにインポートします。
* ウィキペディア日本語版 index

やったこと

  1. データのダウンロード
  2. データのimport
  3. SQLでテスト

参考コード

wiki_page, wiki_redirectという2つのDBを作成し、それぞれの DBにpage, redirectというtableを作成したとします。

そして、以下のようなSQLを発行したら終了です。
試しに論文中にも例が出ていた"スマホ"を名寄せしてみます。

select rd_title from wiki_redirect.redirect, (select page_id from wiki_page.page where page_title="スマホ") t_page where rd_from=page_id;

結果として、"スマートフォン"が表示されると思います。
スマホの他にも、"高機能携帯電話"や"Smartphone"で検索してもスマートフォンが返ってきます。
うん、簡単で良いですね。

お手数ですが間違いがありましたらご指摘いただけますと助かります。

shima_x
分析とか雑用とかやってます
Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away