AIがAIを評価・改善する「プロンプト自動最適化フレームワーク」のご紹介

Last updated at 2025-07-27Posted at 2025-07-27

良いプロンプトを書くのは難しい…

これらの課題を「仕組み」で解決できないだろうか？

一言で言うと…

AI（Gemini）を使ったプログラムの性能を、"審判役のAI"に評価・改善させるための全自動A/Bテストツールです。

コンセプトは「LLM as a Judge」
人間の代わりにAIを評価者（審判）として活用し、客観的で高速な評価を実現します。

システムの全体像

当フレームワークは、以下の6ステップを全自動で実行します。

単に出力結果だけを見るのではありません。プロセス全体を評価対象とします。

これら3つの要素を総合的に分析することで、表面的な評価に留まらない、深い洞察を得ます。

このフレームワークは、客観的な「数値」と、理由を深掘りする「言葉」の両方で評価します。

評価の種類	評価項目例	役割：何を明らかにするか？
定量的評価 (Quantitative)	・総合スコア (95/100点) ・実行時間 (12.3秒) ・トークン数 (コスト)	What（何が）「どちらのプロンプトが、どれくらい良い結果を出したか」を客観的に示す。
定性的評価 (Qualitative)	・分析コメント・改善版プロンプト提案・最終的な結論	Why/How（なぜ/どうやって）「なぜその結果になったのか」「次にどうすれば良くなるのか」を具体的に示す。

定量的評価で「結果」を、定性的評価で「原因と改善策」を把握する。 この2つは車の両輪です。

1回だけのパフォーマンス測定（例: 実行時間15秒）では、その価値を判断できません。

2回の実行結果を「比較」することで、初めて意味のある洞察が生まれます。

このツールは、プロンプト開発のプロセスそのものを、より科学的かつ効率的なものへと進化させます。

なお、このツールでプロンプトを修正しても、改悪される場合もあるので、改善用プロンプトを更に良くすると、もっと良いツールになるはず！！