はじめに
こんにちは。株式会社ジールの@is_zealです。
Amazon Kendra というサービスが東京リージョンでも使用可能になったという情報があり、馴染みのないサービスだったため、どのようなことができるのか試しに使用してみました。
Amazon Kendraとは?
Amazon Kendraとは、機械学習を使用した検索サービスのことです。
様々なデータソースに格納しているデータから情報を読み取り、利用者の検索に対して回答の提案と該当するデータの位置を表示します。
また、「りんごの価格は?」のような自然言語で検索した場合にも、その質問を読解して、データの中から検索し「〇〇円です」というように回答します。データ内に正確な情報がなかった場合は、最適な資料のリストを提示します。
https://aws.amazon.com/jp/kendra/features/
https://aws.amazon.com/jp/kendra/faqs/
例えば、社内ドキュメントから必要な情報を探したいとき、企業全体に散在する膨大な量のファイルから見つけなければいけないですが、Amazon Kendraで検索することで、自分で答えを探すことなく必要な情報を得ることができるようになります。
料金・サポートしているデータソースとドキュメントタイプについては、以下を参照ください。
〇料金
https://aws.amazon.com/jp/kendra/pricing/
〇データソース
https://docs.aws.amazon.com/ja_jp/kendra/latest/dg/hiw-data-source.html
〇ドキュメントタイプ
https://docs.aws.amazon.com/kendra/latest/dg/index-document-types.html
Amazon kendraの使い方
実際に、Amazon Kendraを使用してみました。
Amazon Kendraを使用するために、以下の準備が必要になります。
・インデックスの作成
・データソースの追加
・データソースの同期
インデックスの作成
インデックスとは、簡単に言うと「検索するための領域」のイメージです。
作成したインデックスにデータソースを追加することで、そのインデックス内で追加したデータソースに対し検索をすることができます。
①Amazon Kendraのコンソール画面から、「Create an Index」をクリックします。
②任意の「Index name」を入力し、「IAM role」を設定します。ここでは「create a new role」:新規作成を選択しています。
設定後、右下の「Next」をクリックします。
③アクセスコントロールの設定をし、右下の「Next」をクリックします。(今回は特に設定していません)
④「Developer edition」と「Enterprise edition」のどちらを使用するかを選択し、右下の「create」をクリックします。(「Developer edition」と「Enterprise edition」の違いについては、前述『Amazon Kendraとは』の料金資料をご確認ください)
⑤以下のような表示が出れば、インデックスの作成が完了します。
インデックスの作成が完了するまでに、30分ほど時間がかかります。
データソースの追加
データを格納しているデータソースを追加します。
①「Add data sources」をクリックします。
②追加したいデータソースの「Add connector」をクリックします。(今回はAmazon S3を追加します)
③任意の「Data source name」を入力し、「Language」は「japanese(ja)」を選択して、右下の「Next」をクリックします。
④IAM roleとVPCの設定をして、右下の「Next」をクリックします。
今回は、「create a new role」:新規作成、VPC:No VPCを選択しています。
⑤「Enter the data source location」で、データを格納しているS3のバケットを指定し、「Sync run schedule」でデータの同期タイミングを指定して、右下の「Next」をクリックします。
今回は、「Sync run schedule」で「Run on demand」(実行時)を指定します。
⑥フィールドマッピングの設定を行い、右下の「Next」をクリックします。
今回は特に何も設定していません。
⑦確認画面で設定内容に問題がなければ、「Add data source」をクリックします。
⑧以下のように表示されれば、データソースの追加が完了します。
データソースの同期
追加したデータソースの中にあるデータを最新の状態にするため、同期を行います。
データソースを追加する際、「Sync run schedule」でデータの同期タイミングを「Run on demand」と指定した場合、自身でデータの同期を行います。
①同期したいデータソース名の左にある〇をクリックして選択し、「Sync now」をクリックします。
②データ同期中の表示が出ます。
③以下のように表示されれば、同期が完了します。
実際に検索してみた
準備が整ったので、実際にAmazon Kendraを使用して検索してみます。
今回は、S3バケットに以下のxlsxファイルを格納して「カラスの色は?」と検索します。
(ファイル名:ファイル内のデータ)
test2.xlsx:カラスの色は黒です。
①「Search indexed content」をクリックします。
②Amazon Kendra search console画面へ遷移するため、設定マークをクリックし、Languageを「Japanese(ja)」に設定して「Save」をクリックします。(この設定を忘れると、日本語で検索しても回答を返してくれません)
③「カラスの色は?」と入力して検索してみると、Amazon kendraが回答の提案と関連がありそうな資料を返してくれました。
気になった点の検証
実際に検索を行ってみて、気になった点を検証してみます。
①一般常識ではなく、データの中身を見て回答するのか?
②矛盾したデータを格納した場合、どのように結果を返すのか?
③テキストファイル名に検索ワードがあると、そのファイルも検索結果に表示するのか?
④検索結果はand条件で返すのか、or条件で返すのか
⑤表からデータを読み取って回答を返すのか?
※検証で使用したファイルのデータはすべてテストデータです。
検証①
一般常識ではなく、データの中身を見て回答するのか?
以下、1ファイルのみをS3バケットに格納します。
(ファイル名:ファイル内のデータ)
test1.xlsx:カラスの色は白です。
このデータソースに対して、Amazon Kendraで「カラスの色は?」と検索した場合、一般的には「カラスの色は黒」ですが、データの中身を見て「カラスの色は白」という結果を返すのか検証しました。
以下、実際の検索結果画面です。
回答として「白」を提案してくれたため、データの中身を見て答えを返していることが分かります。
検証②
矛盾したデータを格納した場合、どのように結果を返すのか?
以下、2ファイルのみをS3バケットに格納します。
(ファイル名:ファイル内のデータ)
test1.xlsx:カラスの色は白です。
test2.xlsx:カラスの色は黒です。
「カラスの色は白」「カラスの色は黒」という矛盾したデータがデータソースにある状態で、「カラスの色は?」と検索してみると、どのような回答をするのか検証しました。
以下、実際の検索結果画面です。
Amazon Kendraは回答の提案として「カラスの色は黒です」と記載したファイルを提示しました。また、関連のありそうなファイルを下に表示していることが分かります。
この検証で、Amazon Kendraは、S3バケットに最後にアップロードしたファイルであるtest2.xlsxファイルのデータを提案しました。このことから、矛盾したデータを持たせた場合、Amazon Kendraは新しくS3バケットにアップロードされたデータから答えを提案している可能性を考えました。
S3バケットにアップロードしたタイミングが関係しているかどうかを確認するため、S3バケットにアップロードする順番を逆にして検索すると、「カラスの色は白」と答えを提案するのか検証しました。
変更前:test1.xlsx(カラスの色は白)アップロード ⇒ test2.xlsx(カラスの色は黒)アップロード = 「カラスの色は黒」と記載したファイルが最新
変更後:test2.xlsx(カラスの色は黒)アップロード ⇒ test1.xlsx(カラスの色は白)アップロード = 「カラスの色は白」と記載したファイルが最新
以下、実際の検索結果画面です。
検証②で提案した回答と変わらず、「カラスの色は黒です」という回答が提案されたため、S3へアップロードしたタイミングは関係ないことが分かります。
検証③
テキストファイル名に検索ワードがあると、そのファイルも検索結果に表示するのか?
以下、3ファイルのみをS3バケットに格納します。
(ファイル名:ファイル内のデータ)
test1.xlsx:カラスの色は白です。
test2.xlsx:カラスの色は黒です。
カラスの色は黒です.xlsx:(データなし)
検証①と検証②では、データの中身に対して検索結果を表示していましたが、ファイル名に検索ワードが当てはまった場合は、データを持っていないファイルでも表示してくれるのかを検証しました。
以下、実際の検索結果画面です。
ファイル名に検索ワードが当てはまれば、データの中身がなくても関連するファイルとして表示されました。データの中身だけでなく、ファイル名も見て検索結果を表示していることが分かります。
検証④
検索結果はand条件で返すのか、or条件で返すのか
以下、2ファイルのみをS3バケットに格納します。
(ファイル名:ファイル内のデータ)
test1.xlsx:カラスの色は白です。
test2.xlsx:カラスの色は黒です。
この状態で「カラス 黒」と検索した場合、
・「カラス and 黒」の条件で検索し、test1.xlsxは検索結果に表示されない
・「カラス or 黒」の条件で検索し、test1.xlsxも検索結果に表示される
のどちらになるのか検証しました。
以下、実際の検索結果画面です。
test1.xlsxも検索結果に表示されたため、「カラス or 黒」の条件で検索したことが分かります。
検証⑤
表からデータを読み取って回答を返すのか?
S3バケットに以下のファイルを格納します。
検証①~検証③まではテキストに対して検索をしましたが、上のような簡単な表に対して、「1月のりんごの売上は?」と検索した場合、答えを返してくれるのか検証しました。
以下、実際の検索結果画面です。
具体的な回答はせず、記載されているファイルのみを表示しました。
表を読み取って回答しないことが分かります。
次回検証してみたいこと
実際にAmazon Kendraを使用してみて、さらに気になる点があったため、以下のことも検証してみたいと思います。
・コネクタを使用せずにデータソースと接続することは可能?
・複数のデータソースを使用して検索してみる
・DBをデータソースとして検索してみる
まとめ
今まで使用したことがなかったAmazon Kendraを実際に使用してみて、自分で知りたい情報を探す手間なく、楽に答えを見つけることができる利便性に驚きました。インデックスの作成やデータソースの追加などの手順も簡単でしたが、時間がかかるため、もっと早くできるようになってほしいと個人的には感じました。
今回はS3をデータソースとして、基本的な使い方と簡単な検証を行ったため、次回は異なるデータソースを使用してさらに検証したいと思います。
株式会社ジールでは、「ITリテラシーがない」「初期費用がかけられない」「親切・丁寧な支援がほしい」「ノーコード・ローコードがよい」「運用・保守の手間をかけられない」などのお客様の声を受けて、オールインワン型データ活用プラットフォーム「ZEUSCloud」を月額利用料にてご提供しております。
ご興味がある方は是非下記のリンクをご覧ください:
https://www.zdh.co.jp/products-services/cloud-data/zeuscloud/?utm_source=qiita&utm_medium=referral&utm_campaign=qiita_zeuscloud_content-area