はじめに
2021/10のアップデートでAmazon Kendraが多言語対応してました!
日本語も対応しているようなので試してみます。
ドキュメントを読む限り結構制限がありそう?
Not all Amazon Kendra features are currently available for languages other than English. The following features are not available for non-English indexes:
- Semantic search of FAQs and extracted answers from documents. Keyword search is used for retrieving relevant FAQs and for document ranking.
- Custom synonyms for domain-specific, business-specific, or specialized terms.
- Query suggestions of popular queries relevant to a search.
- Confidence scores in the search results.
やってみる
インデックスやデータソース等の作成手順は以前の記事で取り扱ったので省略します。
(2021/12現在、東京リージョンにはまだ来ていないようでした。)
データソースは適当に個人的なAWSのナレッジをpdf化してS3に配置しました。
データソース作成画面に言語選択が追加されていました。
こちらで日本語を選択します。
スキャンが完了したら早速テストしてみます。
日本語で「タグ」と検索をかけると,,,
日本語の検索結果が表示されました!
類似語辞書の作成
せっかくなのでサポートされていない日本語で類義語辞書を作製してみます。
以下のように設定ファイルを作成しました。
メモリデータべース => MemoryDB
Dashboard => ダッシュボード
たぐ => タグ
mem => MemoryDB
この設定で「たぐ」と検索をかけると「タグ」もヒットするはずですが、
やはり、類義語検索は日本語だとうまく動作しないようです。
料金
Amazon Kendraの料金は以下となります。(2021/12現在)
- Developer Edition
- 1.125USD/時間
- 月額810USD
- Enterprise Edition
- 1.4USD/時間
- 月額1008USD
やはり大規模なドキュメント向けという感じのお値段で個人で利用するには高い感じがしますね。
まとめ
Amazon Kendraが多言語に対応していたので日本語の文書を取り込み、試してみました。
確かに、日本語での検索が行えました。これにより日本語を利用するためにKendra→翻訳というステップが必要がなくなりました。
しかし、一部利用できない機能も存在するので、利用したい機能に沿っているかの確認は必要となります。