Bedrock 評価
『基盤モデルを評価し、性能を比較するための機能』
複数の基盤モデルを同じ基準で評価し、性能を比較できます。
この機能を活用することで、企業はニーズに最適なモデルを選定し、実運用前に問題を特定することが可能です。
評価には、2種類があります。
自動評価
プロンプトと期待される応答を設定することで、モデルのパフォーマンスを自動的にテストできます。
- 組み込みのデータセット
- 独自のデータセット
の両方を使用できます。
ヒューマンレビューとの組み合わせ
自動評価に加えて、必要に応じてヒューマンワーカーによる応答の質的な評価も実施可能です。
- 独自のデータセット
のみ使用できます。
Bedrock プレイグラウンド
AWS Management Console 内で提供されている ビジュアルインターフェイス で、さまざまな基盤モデルを使用して推論を実行し、設定を調整しながら実験を行うことができます。
これにより、アプリケーションに統合する前にモデルの応答をテストし、最適な設定を見つけることが可能です。