Genieの精度をベンチマークできる機能がパブリックプレビューで公開されました。
想定質問を事前に準備しておき、期待した回答をしているのかどうかを評価することができます。上のマニュアルではこの想定質問をベンチマーク質問と呼んでいます。また、質問に対する回答をSQLで定義することができます。これをSQL回答と呼びます。SQL回答を設定しておくことで、回答の良し悪しを自動で評価することができますので推奨となっています。
早速試してみます。私がよく使っているCOVID-19の感染者数データを使います。Genieスペースにアクセスすると、画面左にBenchmarksアイコンが追加されています。
こちらでベンチマーク質問を追加します。ベンチマークを追加をクリックします。
以下のように質問と回答をセットで追加していきます。プレビューでSQLを実行することも可能です。
質問を追加したら、右上のベンチマークを実行をクリックします。
回答が設定されていない質問に関しては、手動でのレビューが必要です。
また、回答に対するフィードバックを踏まえて、ベンチマーク質問を見直すことも有益だと思います。
これによって、Genieの精度を維持・改善することができます。是非ご活用ください!