More than 1 year has passed since last update.

ChatGPTプロンプトの整備過程 - chatGPTと行う水平思考クイズ編 -

Posted at 2023-11-22

本記事の内容

chatGPTプロンプトを整備する過程で何をやっているのか
- 具体例の提示
- どれくらいの時間をかけている？

プロンプト整備過程

例題. 水平思考クイズを行うためのプロンプト

「ウミガメのスープ」とは水平思考クイズの俗称で、出題者から（多くの場合不可解な状況設定の）問題文が与えられ、回答者はその問題に答えるためにイエスかノーで答えられる質問を繰り返して、問題に回答するというクイズです。

このような問い形式はビジネスイシューの掘り下げ、言語化にも使えると思い、このプロンプトを整備しようと考えました。

まずはストレートに誘ってみた

海亀は保護しろと怒られた。。ゲーム名だと認識してもらえませんでした。
ゲームであることを示します。すると、、

新たなルールを提示してきました。(これはこれで興味深いのです)
ルールを教えてあげる必要がありました。

ルールとサンプルの提示

ルールと回答のサンプルを提示してみました。
ここでは、サンプルに(架空のストーリーとはいえ)　XXXXな言葉(自○)が混じっているため、OpenAIからwarningが出ています。サンプルは、他のものに変えた方が良さそうです。

ゲーム自体を開始することはできるようになりました。

対話が進むにつれ、サンプルのお題と本当のお題との混濁を起こしたため、サンプル自体の提示をなしの方が良さそうです。

ルールの提示(改善後)

テストプレイしながらプロンプトを改善していきます。
途中で勝手に終わったり、1問づつ質問しなかったり、といった挙動をみて、ルールを追加していきました。

「ウミガメのスープ」というゲームで遊びましょう。
「ウミガメのスープ」に代表される、水平思考クイズとも呼ばれるこのようなクイズは、
出題者1名と回答者に分かれて遊びます。出題者がクイズを出し、
回答者は「YES」「NO」「関係ありません」のいずれかで答えられる質問を出題者にし、
答えを推理していくというものです。
ルールを理解したら、OKとだけ回答してください。

水平思考クイズとも呼ばれるこのようなクイズは、出題者1名と回答者に分かれて遊びます。
出題者がクイズを出し、回答者は「YES」「NO」「関係ありません」のいずれかで答えられる質問を出題者にし、
答えを推理していくというものです。ルールを理解したら、OKとだけ回答してください。

水平思考クイズと呼ばれるクイズ。
出題者がクイズを出し、回答者は「YES」「NO」「関係ありません」のいずれかで答えられる質問を出題者にし、答えを推理していくものです。
最終の「正解」は、出題者が判断します。回答者は「正解」の回答が出るまで質問を続けてください。
ルールを理解したら、OKとだけ回答してください。

出題者は私です。

テストプレイ

テストプレイは以下のような感じです。
https://chat.openai.com/share/8c6e26a1-076c-4227-86a9-e63bfd213130

たまに「正解ではあるが、なんか抽象的だなあ...」と思う場面も出てくるので、「掘り下げて」とか「具体化して」と追加発注をしてあげましょう。

テストプレイしての感想

掘り下げが非常に簡単に始められる
最終の回答が　納得いくものがでてくるか　より、途中の対話プロセスでの気づきが大きい
掘り下げのプロセスを通しての学習効果が高い。自己内対話でもできるようになる

結論、有用なものになったと感じました。

プロンプト整備過程でやったことをまとめ

やったことのまとめです。所要時間としては、計30minでした。

プロンプト試行　(実績:　7スレッド）
テストプレイ　(実績:　お題3ケ）

汎化性能を求めると、テストのバリエーションは増やした方がよいです。

また、今回の例はプロンプトの階層が1段のシンプルなものです。
より複雑なタスクで多段階層が必要だと、設計の体力、必要なテスト量も増えていきます。
システム設計と同じですね。

プロンプトの品質評価について

今回の例を基に、以下のような２つのレベルでのしきい値設定が考えられます。

Lv.1: chatGPTと水平思考クイズが個人レベルで実行可能になる（個人的な興味に基づく運用保証）
Lv.2: chatGPTと水平思考クイズが広範囲にわたり実行可能になる（テーマは多岐にわたる）
Lv.1については、個人の主観で一定程度の判断が可能です。
例えば、10名のユーザーが使用した場合、望ましい所感を得ることができるでしょうか。この点に関してはユーザビリティテストが求められます。
ただし、正式に公開しない場合は、運用保証は不要です。

Lv.2の品質を達成するためには、どの程度のテストや品質評価が必要でしょうか。
商用サービスとしてLLMを組み込む場合、どのようなテストプロセスが適切でしょうか。

現時点では、私にも明確な答えはありません。この議論は次回に持ち越しとします。

まとめ

chatGPTプロンプトを整備する過程を、具体例を用いて紹介しました。
プロンプトの整備後のテスト過程については、現時点では、私にも明確な答えはありません。継続して考えていきます。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up