生成 AI が返してくれる情報は、常に最新とは限らない。間違っていたりもする。しかし RAG という手法を使用すれば、最新かつ信頼できる情報を生成 AI に与えることで、より正確な応答を得られるようになる。企業に蓄積されたプライベートデータを与えれば、そのデータに関連する回答を得ることも可能だ。
Amazon Bedrock ナレッジベースは、生成 AI と企業のプライベートデータを統合した RAG アプリケーションの構築を容易にしてくれる機能だ。
今回は
- ナレッベースを作成
- PDF をアップロードして同期
- ナレッジベースを Chat/Text playground と比較してテスト
という流れで Amazon Bedrock ナレッジベースを試してみた。
事前準備
ナレッジベース作成の前にやっておくことがある。基盤モデルのリクエストと S3 バケットの作成だ。
基盤モデルのリクエスト
今回は次の2つのモデルを使用する。
埋め込みモデル。今回作成するナレッジベースでは、裏側で埋め込みというものが作成され、ベクトルストアに保存される。
Anthropic の最速でコーディングもできるらしいモデル。ナレッジベースのテスト時に使用する。
リクエストの手順は以下の通りだ。
- Amazon Bedrock コンソールにアクセスし、モデルアクセス を開く
- モデルアクセスを変更 をクリックする
- Titan Text Embeddings V2 と Claude 3.5 Haiku にチェックを入れ、次へ をクリックする
- 送信 をクリックする
上記2つのモデルが、アクセスが付与されました というステータスになれば完了だ。
今回作業したリージョンはバージニア北部だ。
記事を執筆した 2024/12/14 時点では、 Claude 3.5 Haiku をリクエストできるリージョンは以下の3つだ。
- バージニア北部 (us-east-1)
- オハイオ (us-east-2)
- オレゴン (us-west-2)
S3 バケットの作成
ナレッジベースを作成する際、データの取得元を指定する必要がある。今回はデータソース用の S3 バケットを事前に用意しておく。
手順は以下の通りだ。
- Amazon S3 コンソールを開く
- バケットを作成 をクリックする
-
バケット名 に「my-first-knowledge-base-data-source-bucket」と入力する
- 画面最下部の バケットを作成 をクリックする
事前準備が終わったら、ナレッジベースを作成していく。
ナレッジベースを作成する
Amazon Bedrock コンソールにアクセスし、ナレッジベース を開く。
ナレッジベースを作成、Knowledge Base with vector store の順にクリックする。
1. ナレッジベースの詳細を入力
ナレッジベース名 に「my-first-knowledge-base」と入力する。
他の項目はデフォルトのまま、画面最下部の 次へ をクリックする。
2. データソースを設定
データソース名 に「my-first-knowledge-base-data-source」と入力する。
S3 を参照 をクリックする。
事前準備で作成した「my-first-knowledge-base-data-source-bucket」を選択し、選択 をクリックする。
他の項目はデフォルトのままで、次へ をクリックする。
3. 埋め込みモデルを選択し、ベクトルストアを設定する
Titan Text Embeddings v2 を選択する。
他の項目はデフォルトのまま、画面最下部の 次へ をクリックする。
4. 確認して作成
最後に確認画面が表示される。画面最下部の ナレッジベースを作成 をクリックする。
これでナレッジベースの作成は完了だ。
データソース名をクリックすると、データソースの概要 が表示される。
まだ一度も同期していないため、同期履歴、Documents には何も表示されていない。
この後データを同期していくが、その前に、今回何のデータを同期するのかを説明しておく。
お題
今回同期するデータは、2024年4月からの労働条件明示のルール変更 備えは大丈夫ですか? という PDF ファイルにしてみた。
厚生労働省がホームページで公開しているパンフレットだ。
上記の PDF をナレッジベースに読み込ませ、通常のチャットと結果を比較しようというわけだ。実際こうしたユースケースはあると思う。
今回チャットに投げるのは次のような指示だ。
改正労基則第5条第1項第1号の3に、2024年4月から新しく追加された明示事項を説明して
回答のポイントとしては、次の内容を想定している。
- すべての労働者を対象に
- 「就業場所と業務の変更の範囲」について
- 労働契約の締結時と、有期労働契約の更新時に、書面による明示が必要
気になる方は、上記の PDF の3ページ目を見ながら、この後の結果を確認いただきたい。
データを同期する
データをクエリできるようにするため、データを同期する。
S3 バケットへのアップロード
上記の PDF ファイルをダウンロードして、事前準備で作成したS3 バケット「my-first-knowledge-base-data-source-bucket」にアップロードする。
データソースの同期
データソースの概要 画面で、同期 をクリックすると同期が開始される。しばらく待つと、同期履歴 に履歴が追加され、Documents に S3 バケットが表示される。
これで、ナレッジベースをテストする準備が整った。
ナレッジベースのテスト
Amazon Bedrock コンソールにはプレイグラウンドが用意されており、基盤モデルを気軽に試すことができる。今回、RAG を用いない通常のチャットにはこちらを使用する。
ナレッジベースのテストは、ナレッジベースの概要 ページで実施できる。
では、まずは通常のチャットから。
通常のチャット
Amazon Bedrock コンソールの左サイドバーの Chat/Text をクリックして、プレイグラウンドを開く。
モデルを選択 をクリックしてダイアログを開く。
- Anthropic
- Claude 3.5 Haiku
- US Anthropic Claude 3.5 Haiku
を選択し、適用 をクリックする。
プロンプトを入力できるようになる。テキストボックスに指示を入力して、実行 をクリックする。
得られた回答がこちら。
2024年4月から改正労基則第5条第1項第1号の3に新たに追加された明示事項は、以下の通りです:
◆「キャリアパス」の明示義務
- 対象となる事項
- 労働者のキャリア形成に関する事項
- 企業内外のキャリア形成についての支援制度
- 具体的な明示内容
- 教育訓練の機会
- 自己啓発支援制度
- キャリアコンサルティングの機会
- 社内外でのキャリア形成の方向性
- 目的
- 労働者のキャリア形成への支援
- 企業の人材育成に対する取り組みの明確化
- 労働者の将来設計の支援
- 明示方法
- 採用時の労働条件明示書
- 就業規則
- 社内文書
この改正は、労働者のキャリア形成支援と透明性の向上を目指しています。
この回答は間違っている。
ナレッジベースを使用したチャット
ナレッジベースの回答はどうか。
ナレッジベースの概要 画面右上のボタンをクリックして、ナレッジベースをテストペインを開く。
プレイグラウンドの場合と同様に、モデルを選択 をクリックしてダイアログを開く。
- Anthropic
- Claude 3.5 Haiku
- US Anthropic Claude 3.5 Haiku
を選択し、適用 をクリックする。
テキストボックスに指示を入力して、実行 をクリックする。

得られた回答がこちら。
2024年4月から、労働基準法施行規則に新たに追加される明示事項は主に2つあります。 1. 就業場所の変更の範囲:労働者が通常就業することが想定されている就業場所について、その変更の可能性や範囲を明示する必要があります。 2. 業務の変更の範囲:労働者が通常従事することが想定されている業務について、その変更の可能性や範囲を明示する必要があります。 これらの[1][2][3] 明示事項 は、す べての労働 者に対 して、 労働契 約の締結 時 および 有 期労働契 約の更新 時に書 面で明示 すること が求められます 。な お、労 働者の希 望によりメ ール等での 明示も 可能です。 これらの明示事項は、すべての労働者に対して、労働契約の締結時および有期労働契約の更新時に書面で明示することが求められます。なお、労働者の希望によりメール等での明示も可能です。[4][5]
指示に対して、かなり関連性の高い回答が得られた!
基盤モデルによって言い回しが変わっているため、特に法令を扱う場合は、細かなニュアンスの違いに気をつけなければいけない場合があるかもしれない。後半の文章は同じことを2回言っているし、所々に入っているスペースも気になる。
しかし、RAG のインパクトを知るには十分な結果だ。
ソースの詳細を表示すると、回答の元となったデータを確認できる。なぜこのような回答が得られたのかを知る手掛かりとなる。今回の回答には5つのチャンクが使用されたようだ。
その他
- 200字以内での回答を依頼したら、微妙な回答が得られた(有期契約労働者だけでなく、すべての労働者のはずだ)

-
ナレッジベースをテスト でエラーが発生する場合があった。オンデマンド ではなく クロスリージョン推論 が指定されているはずなのだが...。ここで試してみる場合は注意してほしい(私はブラウザのリロードを何回か試した)。
試した内容は以上だ。
感想
Amazon Bedrock ナレッジベースの使い方の確認とテストを行ってみた。
ナレッジベースを使えば簡単に RAG を構築できることが分かった。RAG の強力さを垣間見ることができた。
今後は精度向上の手法なども試してみたい。