LoginSignup
1
0

ChatGPTプロンプトの整備過程 - chatGPTと行う水平思考クイズ編 -

Posted at

本記事の内容

  • chatGPTプロンプトを整備する過程で何をやっているのか
    • 具体例の提示
    • どれくらいの時間をかけている?

プロンプト整備過程

例題. 水平思考クイズを行うためのプロンプト

「ウミガメのスープ」とは水平思考クイズの俗称で、出題者から(多くの場合不可解な状況設定の)問題文が与えられ、回答者はその問題に答えるためにイエスかノーで答えられる質問を繰り返して、問題に回答するというクイズです。

このような問い形式はビジネスイシューの掘り下げ、言語化にも使えると思い、このプロンプトを整備しようと考えました。

まずはストレートに誘ってみた

image.png
海亀は保護しろと怒られた。。ゲーム名だと認識してもらえませんでした。
ゲームであることを示します。すると、、
image.png

新たなルールを提示してきました。(これはこれで興味深いのです)
ルールを教えてあげる必要がありました。

ルールとサンプルの提示

ルールと回答のサンプルを提示してみました。
ここでは、サンプルに(架空のストーリーとはいえ) XXXXな言葉(自○)が混じっているため、OpenAIからwarningが出ています。サンプルは、他のものに変えた方が良さそうです。

image.png

ゲーム自体を開始することはできるようになりました。
image.png

対話が進むにつれ、サンプルのお題と本当のお題との混濁を起こしたため、サンプル自体の提示をなしの方が良さそうです。
image.png

ルールの提示(改善後)

テストプレイしながらプロンプトを改善していきます。
途中で勝手に終わったり、1問づつ質問しなかったり、といった挙動をみて、ルールを追加していきました。

v1

「ウミガメのスープ」というゲームで遊びましょう。
「ウミガメのスープ」に代表される、水平思考クイズとも呼ばれるこのようなクイズは、
出題者1名と回答者に分かれて遊びます。出題者がクイズを出し、
回答者は「YES」「NO」「関係ありません」のいずれかで答えられる質問を出題者にし、
答えを推理していくというものです。
ルールを理解したら、OKとだけ回答してください。

v2

水平思考クイズとも呼ばれるこのようなクイズは、出題者1名と回答者に分かれて遊びます。
出題者がクイズを出し、回答者は「YES」「NO」「関係ありません」のいずれかで答えられる質問を出題者にし、
答えを推理していくというものです。ルールを理解したら、OKとだけ回答してください。

v3

水平思考クイズと呼ばれるクイズ。
出題者がクイズを出し、回答者は「YES」「NO」「関係ありません」のいずれかで答えられる質問を出題者にし、答えを推理していくものです。
最終の「正解」は、出題者が判断します。回答者は「正解」の回答が出るまで質問を続けてください。
ルールを理解したら、OKとだけ回答してください。

出題者は私です。

テストプレイ

テストプレイは以下のような感じです。
https://chat.openai.com/share/8c6e26a1-076c-4227-86a9-e63bfd213130

たまに「正解ではあるが、なんか抽象的だなあ...」と思う場面も出てくるので、「掘り下げて」とか「具体化して」と追加発注をしてあげましょう。

テストプレイしての感想

  • 掘り下げが非常に簡単に始められる
  • 最終の回答が 納得いくものがでてくるか より、途中の対話プロセスでの気づきが大きい
  • 掘り下げのプロセスを通しての学習効果が高い。自己内対話でもできるようになる

結論、有用なものになったと感じました。

プロンプト整備過程でやったことをまとめ

やったことのまとめです。所要時間としては、計30minでした。

  • プロンプト試行 (実績: 7スレッド)
  • テストプレイ  (実績: お題3ケ)

汎化性能を求めると、テストのバリエーションは増やした方がよいです。

また、今回の例はプロンプトの階層が1段のシンプルなものです。
より複雑なタスクで多段階層が必要だと、設計の体力、必要なテスト量も増えていきます。
システム設計と同じですね。

プロンプトの品質評価について

今回の例を基に、以下のような2つのレベルでのしきい値設定が考えられます。

Lv.1: chatGPTと水平思考クイズが個人レベルで実行可能になる(個人的な興味に基づく運用保証)
Lv.2: chatGPTと水平思考クイズが広範囲にわたり実行可能になる(テーマは多岐にわたる)
Lv.1については、個人の主観で一定程度の判断が可能です。
例えば、10名のユーザーが使用した場合、望ましい所感を得ることができるでしょうか。この点に関してはユーザビリティテストが求められます。
ただし、正式に公開しない場合は、運用保証は不要です。

Lv.2の品質を達成するためには、どの程度のテストや品質評価が必要でしょうか。
商用サービスとしてLLMを組み込む場合、どのようなテストプロセスが適切でしょうか。

現時点では、私にも明確な答えはありません。この議論は次回に持ち越しとします。

まとめ

chatGPTプロンプトを整備する過程を、具体例を用いて紹介しました。
プロンプトの整備後のテスト過程については、現時点では、私にも明確な答えはありません。継続して考えていきます。

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0