Edited at

wikipediaのredirectデータを使ったお手軽名寄せ辞書作成

More than 3 years have passed since last update.

文書分類などする時いつも名寄せに困っているので、web上の集合知であるwikipediaのデータを使用してメンテナンスがあまり必要ない、お手軽名寄せ辞書を作ってみました(ただデータ流し込んだだけですが。。。)。


参考資料

メタデータ自動付与のためのWikipediaリンクAPIを用いた論文データの類似度評価の一検討, 槇+, 福岡工業大学, IEICE'14


wikipediaデータのダウンロード

以下のサイトのlatestから"jawiki-latest-page.sql.gz"と"jawiki-latest-redirect.sql.gz"をダウンロードし、DBにインポートします。

* ウィキペディア日本語版 index


やったこと


  1. データのダウンロード

  2. データのimport

  3. SQLでテスト


参考コード

wiki_page, wiki_redirectという2つのDBを作成し、それぞれの DBにpage, redirectというtableを作成したとします。

そして、以下のようなSQLを発行したら終了です。

試しに論文中にも例が出ていた"スマホ"を名寄せしてみます。

select rd_title from wiki_redirect.redirect, (select page_id from wiki_page.page where page_title="スマホ") t_page where rd_from=page_id;

結果として、"スマートフォン"が表示されると思います。

スマホの他にも、"高機能携帯電話"や"Smartphone"で検索してもスマートフォンが返ってきます。

うん、簡単で良いですね。

お手数ですが間違いがありましたらご指摘いただけますと助かります。