本記事の内容
- chatGPTプロンプトを整備する過程で何をやっているのか
- 具体例の提示
- どれくらいの時間をかけている?
プロンプト整備過程
例題. 水平思考クイズを行うためのプロンプト
「ウミガメのスープ」とは水平思考クイズの俗称で、出題者から(多くの場合不可解な状況設定の)問題文が与えられ、回答者はその問題に答えるためにイエスかノーで答えられる質問を繰り返して、問題に回答するというクイズです。
このような問い形式はビジネスイシューの掘り下げ、言語化にも使えると思い、このプロンプトを整備しようと考えました。
まずはストレートに誘ってみた
海亀は保護しろと怒られた。。ゲーム名だと認識してもらえませんでした。
ゲームであることを示します。すると、、
新たなルールを提示してきました。(これはこれで興味深いのです)
ルールを教えてあげる必要がありました。
ルールとサンプルの提示
ルールと回答のサンプルを提示してみました。
ここでは、サンプルに(架空のストーリーとはいえ) XXXXな言葉(自○)が混じっているため、OpenAIからwarningが出ています。サンプルは、他のものに変えた方が良さそうです。
対話が進むにつれ、サンプルのお題と本当のお題との混濁を起こしたため、サンプル自体の提示をなしの方が良さそうです。
ルールの提示(改善後)
テストプレイしながらプロンプトを改善していきます。
途中で勝手に終わったり、1問づつ質問しなかったり、といった挙動をみて、ルールを追加していきました。
v1
「ウミガメのスープ」というゲームで遊びましょう。
「ウミガメのスープ」に代表される、水平思考クイズとも呼ばれるこのようなクイズは、
出題者1名と回答者に分かれて遊びます。出題者がクイズを出し、
回答者は「YES」「NO」「関係ありません」のいずれかで答えられる質問を出題者にし、
答えを推理していくというものです。
ルールを理解したら、OKとだけ回答してください。
v2
水平思考クイズとも呼ばれるこのようなクイズは、出題者1名と回答者に分かれて遊びます。
出題者がクイズを出し、回答者は「YES」「NO」「関係ありません」のいずれかで答えられる質問を出題者にし、
答えを推理していくというものです。ルールを理解したら、OKとだけ回答してください。
v3
水平思考クイズと呼ばれるクイズ。
出題者がクイズを出し、回答者は「YES」「NO」「関係ありません」のいずれかで答えられる質問を出題者にし、答えを推理していくものです。
最終の「正解」は、出題者が判断します。回答者は「正解」の回答が出るまで質問を続けてください。
ルールを理解したら、OKとだけ回答してください。
出題者は私です。
テストプレイ
テストプレイは以下のような感じです。
https://chat.openai.com/share/8c6e26a1-076c-4227-86a9-e63bfd213130
たまに「正解ではあるが、なんか抽象的だなあ...」と思う場面も出てくるので、「掘り下げて」とか「具体化して」と追加発注をしてあげましょう。
テストプレイしての感想
- 掘り下げが非常に簡単に始められる
- 最終の回答が 納得いくものがでてくるか より、途中の対話プロセスでの気づきが大きい
- 掘り下げのプロセスを通しての学習効果が高い。自己内対話でもできるようになる
結論、有用なものになったと感じました。
プロンプト整備過程でやったことをまとめ
やったことのまとめです。所要時間としては、計30minでした。
- プロンプト試行 (実績: 7スレッド)
- テストプレイ (実績: お題3ケ)
汎化性能を求めると、テストのバリエーションは増やした方がよいです。
また、今回の例はプロンプトの階層が1段のシンプルなものです。
より複雑なタスクで多段階層が必要だと、設計の体力、必要なテスト量も増えていきます。
システム設計と同じですね。
プロンプトの品質評価について
今回の例を基に、以下のような2つのレベルでのしきい値設定が考えられます。
Lv.1: chatGPTと水平思考クイズが個人レベルで実行可能になる(個人的な興味に基づく運用保証)
Lv.2: chatGPTと水平思考クイズが広範囲にわたり実行可能になる(テーマは多岐にわたる)
Lv.1については、個人の主観で一定程度の判断が可能です。
例えば、10名のユーザーが使用した場合、望ましい所感を得ることができるでしょうか。この点に関してはユーザビリティテストが求められます。
ただし、正式に公開しない場合は、運用保証は不要です。
Lv.2の品質を達成するためには、どの程度のテストや品質評価が必要でしょうか。
商用サービスとしてLLMを組み込む場合、どのようなテストプロセスが適切でしょうか。
現時点では、私にも明確な答えはありません。この議論は次回に持ち越しとします。
まとめ
chatGPTプロンプトを整備する過程を、具体例を用いて紹介しました。
プロンプトの整備後のテスト過程については、現時点では、私にも明確な答えはありません。継続して考えていきます。