LoginSignup
2
2

More than 1 year has passed since last update.

[Watson Discovery] 同義語を使って検索する

Last updated at Posted at 2022-08-01

Watson Discovery の Document Retrieval プロジェクトで検索を行うときの同義語の設定方法を紹介します

環境

Watson Discovery on Cloud (V2) の Document Retrieval Project

はじめに

Watson Discovery の Document Retrieval Projectで文書を検索するとき、言い回しや表記ゆれを吸収した検索をしたい場合、例えば「関西国際空港」というクエリで「関西国際空港」を含んだ文書だけでなく「関空」と記載されている文書も検索したい場合、には、Watson Discovery の Synonyms (同義語)という機能を使います。この機能は、Query Expansion と呼ばれる場合もあります。

似たような機能に Dictionary(辞書)がありますが、Dictionaryは文書自体にタグ付けしたり、そのタグを利用して絞り込み検索をする際に使用されます。

設定手順

マニュアル IBM Cloud Docs>Discovery v2>Expanding the meaning of queries に従って設定していきます。

ここで行うSynonymsの設定はDocument Retrieval Projectに適用され、Content Mining Projectではない点にご注意ください

1. Document Retrieval Projectに文書が投入されていることを確認する

今回は以下のような文書を入れています。
image.png

2. 同義語設定前に検索する

「関西国際空港」で検索してみると、1文書のみヒットしました。
image.png

「関空」で検索してみても、1文書のみヒットします。
image.png

3. 同義語のJSONファイルを作成する

Bidirectionalの同義語辞書を作成します。

synonyms.json
{
  "expansions": [
    {
      "expanded_terms": [
        "関西国際空港",
        "関空",
        "KIX"
      ]
    }
  ]
}

4. 同義語のJSONファイルをWatson Discoveryにアップロードする

同義語辞書をアップロードします。
画面右側の[Improvement tools]から[Improve relevance]メニューを開き、[Synonyms]をクリックします。
image.png

[Upload synonyms]から同義語辞書のJSONファイルをアップロードします。
image.png

アップロードされました。
image.png

5. 検索して確認する

「関西国際空港」で検索してみると、3文書ヒットしました。
image.png

Watson Discovery V1ではさらにtokenization dictionaryの設定も必要でしたが、V2では不要のようでtokenization dictionary機能そのものが無くなったようです

設定手順は以上です。

参考

画面左側にあるのがDictionaryを使用した絞り込み項目で、同義語を考慮した絞り込み検索ができます。
image.png

この場合のDictionaryは以下のような設定をしています。
image.png

2
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
2