Watson Discovery の Document Retrieval プロジェクトで検索を行うときの同義語の設定方法を紹介します
環境
Watson Discovery on Cloud (V2) の Document Retrieval Project
はじめに
Watson Discovery の Document Retrieval Projectで文書を検索するとき、言い回しや表記ゆれを吸収した検索をしたい場合、例えば「関西国際空港」というクエリで「関西国際空港」を含んだ文書だけでなく「関空」と記載されている文書も検索したい場合、には、Watson Discovery の Synonyms (同義語)という機能を使います。この機能は、Query Expansion と呼ばれる場合もあります。
似たような機能に Dictionary(辞書)がありますが、Dictionaryは文書自体にタグ付けしたり、そのタグを利用して絞り込み検索をする際に使用されます。
設定手順
マニュアル IBM Cloud Docs>Discovery v2>Expanding the meaning of queries に従って設定していきます。
ここで行うSynonymsの設定はDocument Retrieval Projectに適用され、Content Mining Projectではない点にご注意ください
1. Document Retrieval Projectに文書が投入されていることを確認する
2. 同義語設定前に検索する
「関西国際空港」で検索してみると、1文書のみヒットしました。
3. 同義語のJSONファイルを作成する
Bidirectionalの同義語辞書を作成します。
{
"expansions": [
{
"expanded_terms": [
"関西国際空港",
"関空",
"KIX"
]
}
]
}
4. 同義語のJSONファイルをWatson Discoveryにアップロードする
同義語辞書をアップロードします。
画面右側の[Improvement tools]から[Improve relevance]メニューを開き、[Synonyms]をクリックします。
[Upload synonyms]から同義語辞書のJSONファイルをアップロードします。
5. 検索して確認する
Watson Discovery V1ではさらにtokenization dictionaryの設定も必要でしたが、V2では不要のようでtokenization dictionary機能そのものが無くなったようです
設定手順は以上です。