はじめに
OpenAIのGPT-4.1モデルファミリーは、コーディング、指示追従性、長文コンテキスト処理能力において、前世代のGPT-4oから大幅な進化を遂げました。この新しいモデルファミリーの向上した能力を開発者が最大限に活用できるよう、本ガイドでは、広範な内部テストから導き出された重要なプロンプト作成のヒントをまとめました。
GPT-4.1においても、文脈例の提供、指示の具体的かつ明確化、プロンプトによるプランニング誘導といった、多くの典型的なベストプラクティスは引き続き有効です。しかし、このモデルのポテンシャルを最大限に引き出すには、ある程度のプロンプト移行が必要になるでしょう。GPT-4.1は、先行モデルよりも指示に忠実かつ文字通りに従うように訓練されています。先行モデルは、ユーザーやシステムプロンプトから意図をより自由に推測する傾向がありました。これは同時に、GPT-4.1が明確に指定されたプロンプトに対して非常に操作しやすく、応答性が高いことを意味します。もしモデルの挙動が期待と異なる場合、望ましい挙動を明確かつ断固として一文で説明するだけで、ほとんどの場合、モデルを正しい軌道に乗せることができます。
この記事では、GPT-4.1の能力を最大限に引き出すための詳細なプロンプトエンジニアリング戦略を探求します。エージェントワークフローの最適化から、長文コンテキストの活用、思考連鎖(Chain of Thought)の誘導、そして指示追従性の最大化まで、具体的なテクニックとサンプルプロンプトを交えながら解説します。AIエンジニアリングは本質的に経験的な学問であり、大規模言語モデルは本質的に非決定的です。本ガイドに従うことに加えて、有益な評価指標を構築し、頻繁に反復することで、プロンプトエンジニアリングの変更がユースケースに利益をもたらしていることを確認することをお勧めします。
GPT-4.1 プロンプトの基本原則
GPT-4.1を効果的に活用するためのプロンプト作成には、いくつかの基本原則があります。これらは、モデルの特性を理解し、その能力を引き出すための基礎となります。
-
明確かつ具体的な指示 (Clear and Specific Instructions):
GPT-4.1は指示を文字通りに解釈する傾向が強いため、曖昧さを排除し、何をすべきか、どのようにすべきかを具体的に記述することが極めて重要です。期待する出力形式、トーン、含めるべき情報、避けるべきトピックなどを詳細に指定します。例えば、「要約して」という指示よりも、「以下のテキストを、主要な3つのポイントに絞り、各ポイントを箇条書きで1文で記述してください」といった指示の方が、望ましい結果を得やすくなります。 -
文脈の提供 (Providing Context):
モデルがタスクを理解し、より質の高い応答を生成するためには、十分な文脈が必要です。これには、関連する背景情報、過去の対話履歴、具体的な例(few-shot prompting)などが含まれます。特に複雑なタスクや特定の知識が必要な場合、関連ドキュメントやデータを提供することが有効です。 -
段階的思考の誘導 (Inducing Step-by-Step Thinking):
後述する「思考連鎖(Chain of Thought)」でも詳しく触れますが、複雑な問題に対しては、モデルに段階的に考えさせることが有効です。プロンプト内で「ステップバイステップで考えてください」「まず問題を分析し、次に関連情報を特定し、最後に応答を生成してください」のように指示することで、モデルはより論理的で体系的なアプローチを取りやすくなります。 -
役割(Role)の明確化:
モデルに特定の役割(例:「あなたは経験豊富なソフトウェアエンジニアです」「あなたは親切なカスタマーサポートエージェントです」)を与えることで、応答のトーン、スタイル、専門知識のレベルを調整できます。役割設定は、プロンプトの冒頭で行うのが一般的です。
これらの基本原則を押さえることで、GPT-4.1の強力な能力をより引き出し、期待する成果を得るための土台を築くことができます。
エージェントワークフロー向けのプロンプト最適化
GPT-4.1は、エージェント的なワークフローを構築する上で優れた基盤となります。モデルトレーニングでは、多様なエージェント的な問題解決軌跡を提供することに重点が置かれました。実際、OpenAIの内部テストでは、GPT-4.1を用いたエージェントハーネスがSWE-bench Verifiedにおいて、非推論モデルとして最高のパフォーマンスを達成し、問題の55%を解決しました。
GPT-4.1のエージェント能力を最大限に活用するために、すべてのエージェントプロンプトに以下の3つの主要なリマインダーを含めることを推奨します。以下のプロンプト例は、エージェント的なコーディングワークフローに特化して最適化されていますが、一般的なエージェントユースケースにも容易に応用可能です。
-
永続性 (Persistence):
これは、モデルがマルチターンの対話に入っていることを理解させ、ユーザーのクエリが完全に解決される前に時期尚早に制御をユーザーに返してしまうのを防ぎます。例:あなたはエージェントです。ユーザーのクエリが完全に解決されるまで、あなたのターンを終了してユーザーに制御を返す前に、処理を続けてください。問題が解決したと確信した場合にのみ、あなたのターンを終了してください。
-
ツール呼び出し (Tool-calling):
これは、モデルが提供されたツールを最大限に活用することを奨励し、応答を幻覚(ハルシネーション)したり推測したりする可能性を減らします。例:ユーザーのリクエストに関連するファイルの内容やコードベースの構造について確信が持てない場合は、ツールを使用してファイルを読み取り、関連情報を収集してください。推測したり、答えを作り上げたりしないでください。
-
プランニング(オプション) (Planning [Optional]):
必要に応じて、モデルが単にツール呼び出しを連鎖させるだけでなく、各ツール呼び出しの前にテキストで明示的に計画し、その結果を振り返るようにします。例:各関数呼び出しの前に広範に計画を立て、前の関数呼び出しの結果について広範に考察しなければなりません(MUST)。関数呼び出しのみでこのプロセス全体を実行しないでください(DO NOT)。これは問題解決能力と思慮深い思考を損なう可能性があります。
GPT-4.1は、エージェント設定において、ユーザーの指示とシステムプロンプトの両方に非常に密接に従うように訓練されています。これら3つの簡単な指示にモデルが厳密に従うことで、OpenAIの内部SWE-bench Verifiedスコアは約20%向上しました。したがって、上記3つのカテゴリをカバーする明確なリマインダーでエージェントプロンプトを開始することを強く推奨します。全体として、これら3つの指示は、モデルをチャットボットのような状態から、はるかに「意欲的な」エージェントへと変貌させ、自律的かつ独立してインタラクションを推進します。
ツールの効果的な利用 (Effective Tool Utilization):
以前のモデルと比較して、GPT-4.1はOpenAI APIリクエストの引数として渡されたツールを効果的に利用するためのトレーニングをより多く受けています。過去に報告されているように、プロンプトに手動でツール記述を注入し、ツール呼び出し用のパーサーを別途記述するのではなく、ツールフィールドを排他的に使用してツールを渡すことを開発者に推奨します。これは、エラーを最小限に抑え、ツール呼び出しの軌跡中にモデルが分布内に留まることを保証するための最良の方法です。OpenAIの実験では、API解析されたツール記述を使用した場合、システムプロンプトにスキーマを手動で注入した場合と比較して、SWE-bench Verifiedのパス率が2%向上しました。
開発者は、ツールの目的を示すために明確に名前を付け、ツールのdescription
フィールドに明確で詳細な説明を追加する必要があります。同様に、各ツールパラメータについても、適切な使用を保証するために、良い命名と説明に頼るべきです。ツールが特に複雑で、ツールの使用例を提供したい場合は、description
フィールドに追加するのではなく、システムプロンプトに# Examples
セクションを作成し、そこに例を配置することをお勧めします。description
フィールドは、網羅的でありながら比較的簡潔に保つべきです。例を提供することは、いつツールを使用するか、ツール呼び出しと一緒にユーザーテキストを含めるべきか、そして異なる入力に対してどのパラメータが適切かを示すのに役立ちます。Prompt Playgroundの「Generate Anything」機能を使用して、新しいツール定義の良い出発点を得ることができることを忘れないでください。
プロンプトによるプランニングと思考連鎖 (Prompting-Induced Planning & Chain-of-Thought):
既に述べたように、開発者はオプションで、GPT-4.1で構築されたエージェントに、ツールを中断なく連続して静かに呼び出すのではなく、ツール呼び出しの合間に計画し、考察するように促すことができます。GPT-4.1は推論モデルではありません(つまり、応答する前に内部的な思考連鎖を生成しません)が、開発者はプロンプト内で、上記のプランニングプロンプトコンポーネントのいずれかのバリアントを使用して、モデルに明示的なステップバイステップの計画を生成させることができます。これは、モデルが「声に出して考えている」と考えることができます。SWE-bench Verifiedエージェントタスクを用いた実験では、明示的なプランニングを誘導することで、パス率が4%向上しました。
サンプルプロンプト:SWE-bench Verified (Sample Prompt: SWE-bench Verified):
以下は、SWE-bench Verifiedで最高スコアを達成するために使用されたエージェントプロンプトです。ワークフローと問題解決戦略に関する詳細な指示が含まれています。この一般的なパターンは、あらゆるエージェントタスクに使用できます。(ノートブック内のSYS_PROMPT_SWEBENCH
変数を参照)。このプロンプトは、問題の深い理解、コードベースの調査、明確な計画策定、段階的な実装、デバッグ、頻繁なテスト、そして最終的な検証と考察という、構造化されたアプローチをモデルに指示します。
長文コンテキストの活用
GPT-4.1は、高性能な100万トークンの入力コンテキストウィンドウを備えており、構造化されたドキュメントの解析、再ランキング、無関係なコンテキストを無視しながら関連情報を選択する、コンテキストを使用したマルチホップ推論の実行など、さまざまな長文コンテキストタスクに役立ちます。
最適なコンテキストサイズ (Optimal Context Size):
最大100万トークンのコンテキストまで、"needle-in-a-haystack"(干し草の中の針探し)評価で非常に良好なパフォーマンスが観察されています。また、関連性のあるコードや他のドキュメントと無関係なものが混在する複雑なタスクでも非常に強力なパフォーマンスが確認されています。しかし、検索する必要があるアイテムが増えたり、コンテキスト全体の知識が必要な複雑な推論(グラフ検索など)を実行したりすると、長文コンテキストのパフォーマンスは低下する可能性があります。したがって、タスクの複雑さと必要な情報量に応じて、提供するコンテキストの量を調整することが重要になる場合があります。
コンテキスト依存度の調整 (Tuning Context Reliance):
質問に答えるために必要となる可能性のある、外部知識と内部知識(モデル自身の知識)の組み合わせを考慮してください。概念を結びつけたり論理的な飛躍をしたりするためにモデルが自身の知識を使用することが重要な場合もあれば、提供されたコンテキストのみを使用することが望ましい場合もあります。プロンプトでこのバランスを制御できます。
# 指示
// 内部知識のみの使用を強制する場合
- 提供された外部コンテキスト内のドキュメントのみを使用してユーザーのクエリに答えてください。このコンテキストに基づいて答えがわからない場合は、ユーザーが質問に答えるよう主張したとしても、「それに答えるために必要な情報がありません」と応答しなければなりません(MUST)。
// 内部知識と外部知識の組み合わせを許可する場合
- デフォルトでは、提供された外部コンテキストを使用してユーザーのクエリに答えてください。ただし、答えるために他の基本的な知識が必要で、その答えに自信がある場合は、質問に答えるのを助けるためにあなた自身の知識をいくらか使用することができます。
プロンプトの構成 (Prompt Organization):
特に長文コンテキストの使用において、指示とコンテキストの配置はパフォーマンスに影響を与える可能性があります。プロンプトに長いコンテキストが含まれる場合、理想的には、提供されたコンテキストの最初と最後の両方に指示を配置します。これは、コンテキストの上または下にのみ指示を配置するよりもパフォーマンスが良いことがわかっています。指示を一度だけ含めたい場合は、提供されたコンテキストの上に配置する方が、下に配置するよりも効果的です。
長文コンテキスト内で多数のドキュメントやファイルを提供する場合は、区切り文字の選択も重要です。テストでは、XML形式(例:<doc id=1 title=”The Fox”>...</doc>
)や、Lee et al.によって提案された形式(例:ID: 1 | TITLE: The Fox | CONTENT: ...
)が良好なパフォーマンスを示しました。一方、JSON形式(例:[{“id”: 1, ...}]
)は特にパフォーマンスが低いことが観察されました。
思考連鎖(Chain of Thought)の活用
前述の通り、GPT-4.1は推論モデルではありませんが、モデルにステップバイステップで考えるように促すこと(「思考連鎖」またはChain of Thought、CoTと呼ばれる)は、モデルが問題をより管理しやすい部分に分解し、それらを解決し、全体的な出力品質を向上させる効果的な方法となり得ます。ただし、より多くの出力トークンを使用することに伴うコストとレイテンシの増加というトレードオフがあります。GPT-4.1は、エージェント的な推論や現実世界の問題解決において優れたパフォーマンスを発揮するように訓練されているため、うまく機能させるために多くのプロンプトは必要ないはずです。
基本的な思考連鎖の指示として、プロンプトの最後に以下のような指示を追加することから始めることをお勧めします。
...
まず、クエリに答えるためにどのドキュメントが必要かをステップバイステップで慎重に考えてください。次に、各ドキュメントのタイトルとIDを出力してください。その後、IDをリスト形式にフォーマットしてください。
そこから、特定の例や評価での失敗を監査し、より明確な指示で体系的な計画や推論のエラーに対処することで、思考連鎖(CoT)プロンプトを改善する必要があります。制約のないCoTプロンプトでは、試みる戦略にばらつきが生じる可能性があります。うまく機能するアプローチを観察した場合は、その戦略をプロンプトに体系化することができます。一般的に、エラーはユーザーの意図の誤解、不十分なコンテキスト収集または分析、あるいは不十分または不正確なステップバイステップの思考から発生する傾向があるため、これらに注意し、より意見の明確な指示で対処するようにしてください。
以下は、モデルにユーザーの意図をより体系的に分析し、応答に進む前に関連コンテキストを考慮することに焦点を当てるように指示するプロンプトの例です。
# 推論戦略
1. クエリ分析:クエリが何を尋ねている可能性があるかについて自信が持てるまで、クエリを分解して分析します。曖昧または紛らわしい情報を明確にするために、提供されたコンテキストを考慮してください。
2. コンテキスト分析:潜在的に関連性のある多数のドキュメントを慎重に選択して分析します。リコールを最適化します - いくつかが無関係であっても構いませんが、正しいドキュメントがこのリストに含まれている必要があります。そうでない場合、最終的な答えは間違っています。各ドキュメントの分析ステップ:
a. 分析:クエリに答える上で関連性があるかもしれない、またはないかもしれない方法の分析。
b. 関連性評価:[高、中、低、なし]
3. 統合:中以上の関連性評価を持つすべてのドキュメントを含め、どのドキュメントが最も関連性が高く、その理由を要約します。
# ユーザーの質問
{user_question}
# 外部コンテキスト
{external_context}
まず、提供された推論戦略に厳密に従い、クエリに答えるためにどのドキュメントが必要かをステップバイステップで慎重に考えてください。次に、各ドキュメントのタイトルとIDを出力してください。その後、IDをリスト形式にフォーマットしてください。
この例では、モデルに明確な思考プロセス(クエリ分析、コンテキスト分析、統合)を段階的に実行させ、各段階で特定の出力(関連性評価、ドキュメントリスト)を要求しています。これにより、モデルの思考プロセスが透明化され、デバッグや改善が容易になります。
指示追従性の最大化
GPT-4.1は卓越した指示追従性能を示しており、開発者はこれを活用して、特定のユースケースに合わせて出力を正確に形成および制御できます。開発者はしばしば、エージェント的な推論ステップ、応答のトーンとボイス、ツール呼び出し情報、出力フォーマット、避けるべきトピックなどについて広範なプロンプトを作成します。しかし、モデルは指示をより文字通りに従うため、開発者は何をすべきか、またはすべきでないかについて、より明示的な指定を含める必要があるかもしれません。さらに、他のモデル向けに最適化された既存のプロンプトは、このモデルではすぐには機能しない可能性があります。なぜなら、既存の指示がより厳密に従われ、暗黙のルールがもはや強く推測されなくなっているためです。
推奨されるワークフロー (Recommended Workflow):
プロンプト内の指示を開発およびデバッグするための推奨ワークフローは次のとおりです。
- 全体的な「応答ルール」または「指示」セクションから始める: 高レベルのガイダンスと箇条書きで開始します。
-
より具体的な動作を変更したい場合、カテゴリ別のセクションを追加する: 詳細を指定するために、
# サンプルフレーズ
のようなセクションを追加します。 - モデルに従ってほしい特定のステップがある場合、順序付きリストを追加する: これらのステップに従うようにモデルに指示します。
-
動作がまだ期待どおりでない場合:
- 矛盾する、不十分に指定された、または間違った指示や例がないか確認する: 矛盾する指示がある場合、GPT-4.1はプロンプトの最後に近い方の指示に従う傾向があります。
- 望ましい動作を示す例を追加する: 例で示される重要な動作は、ルール内でも言及されていることを確認します。
- 強調のための工夫(オプション): 通常、すべて大文字を使用したり、賄賂やチップのようなインセンティブを使用したりする必要はありませんが、開発者は必要に応じて追加の強調のためにこれらを試すことができます。
注:好みのAI搭載IDEを使用することは、プロンプトの反復処理に非常に役立ちます。これには、一貫性や矛盾のチェック、例の追加、指示の追加とその指示を実証するための更新など、一貫した更新の作成が含まれます。
一般的な失敗モード (Common Failure Modes):
これらの失敗モードはGPT-4.1に固有のものではありませんが、一般的な認識とデバッグの容易さのためにここで共有します。
- 絶対的なルールの副作用: モデルに特定の動作を常に実行するように指示すると、時折悪影響を引き起こす可能性があります。例えば、「ユーザーに応答する前にツールを呼び出さなければならない」と言われた場合、モデルは十分な情報がない場合にツールの入力を幻覚したり、null値でツールを呼び出したりする可能性があります。「ツールを呼び出すのに十分な情報がない場合は、必要な情報をユーザーに尋ねてください」と追加することで、これを軽減できるはずです。
- サンプルフレーズの繰り返し: サンプルフレーズを提供すると、モデルはそれらの引用をそのまま使用し、ユーザーにとって繰り返しに聞こえ始める可能性があります。必要に応じてそれらを変化させるようにモデルに指示してください。
- 過剰な説明やフォーマット: 具体的な指示がないと、一部のモデルは意思決定を説明するため追加の散文を提供したり、応答で望ましい以上のフォーマットを出力したりする傾向があります。これを軽減するために、指示や、場合によっては例を提供してください。
サンプルプロンプト:カスタマーサービス (Example Prompt: Customer Service):
提供されたノートブックのカスタマーサービスエージェントの例(SYS_PROMPT_CUSTOMER_SERVICE
変数)は、これらのベストプラクティスを示しています。ルールの多様性、具体性、詳細を追加するための追加セクションの使用、そして先行するすべてのルールを組み込んだ正確な動作を示す例に注目してください。このプロンプトは、挨拶の仕方、事実確認のためのツール使用、禁止トピックの回避、サンプルフレーズの利用(ただし繰り返しは避ける)、出力フォーマットの遵守、プロフェッショナルなトーンの維持など、詳細なガイドラインをモデルに提供します。このような詳細な指示により、モデルの応答を特定の要件に合わせて精密に制御できます。
一般的なアドバイス
これまでに説明した特定のテクニックに加えて、GPT-4.1のプロンプト作成に役立つ一般的なアドバイスをいくつか紹介します。
プロンプト構造の推奨例 (Recommended Prompt Structure):
プロンプトを構造化するための良い出発点として、以下のテンプレートを参考にしてください。
# 役割と目的 (Role and Objective)
[モデルに期待する役割と達成すべき全体的な目標を定義]
# 指示 (Instructions)
[高レベルのガイドラインやルールを箇条書きで記述]
## 詳細指示のサブカテゴリ (Sub-categories for more detailed instructions)
[特定の側面(例:トーン、フォーマット、避けるべきこと)に関する詳細な指示]
# 推論ステップ (Reasoning Steps)
[モデルに従ってほしい思考プロセスやワークフローを段階的に記述(CoTなど)]
# 出力フォーマット (Output Format)
[期待する出力の具体的な形式(例:JSON、Markdown)、構造、必須要素を指定]
# 例 (Examples)
## 例1 (Example 1)
[入力と期待される出力のペアを示すことで、望ましい動作を具体的に例示]
# コンテキスト (Context)
[タスクの実行に必要な背景情報、ドキュメント、データなどを提供]
# 最終指示とステップバイステップ思考の促し (Final instructions and prompt to think step by step)
[最も重要な指示を再度強調したり、CoTを促す最終的な指示を配置]
ニーズに合わせてセクションを追加または削除し、ユースケースに最適なものを決定するために実験してください。
区切り文字の選択 (Choosing Delimiters):
プロンプト内で異なる情報セクション(指示、コンテキスト、例など)を区切るために、明確な区切り文字を使用することが重要です。以下は一般的なガイドラインです。長文コンテキストタイプに関する特別な考慮事項については、長文コンテキストのセクションを参照してください。
- Markdown: ここから始めることをお勧めします。主要なセクションやサブセクション(H4+までの深い階層を含む)にはMarkdownのタイトルを使用します。コードを正確にラップするにはインラインバッククォートまたはバッククォートブロックを使用し、必要に応じて標準的な番号付きまたは箇条書きリストを使用します。
- XML: これらも良好なパフォーマンスを示し、このモデルではXML内の情報への準拠が向上しています。XMLは、開始タグと終了タグを含むセクションを正確にラップし、追加コンテキストのためにタグにメタデータを追加し、ネストを可能にするのに便利です。
- JSON: 非常に構造化されており、特にコーディングコンテキストでモデルによく理解されます。しかし、より冗長になる可能性があり、オーバーヘッドを追加する可能性のある文字エスケープが必要になる場合があります。
一般的に、判断力を働かせ、モデルにとって明確な情報を提供し、「目立つ」ものは何かを考えてください。例えば、大量のXMLを含むドキュメントを取得している場合、XMLベースの区切り文字はおそらく効果が低いでしょう。
注意点 (Caveats):
- 長くて反復的な出力への抵抗: まれに、モデルが非常に長く反復的な出力(例えば、数百の項目を一つずつ分析するなど)を生成することに抵抗を示す場合があります。これがユースケースに必要な場合は、この情報を完全に出力するようにモデルに強く指示し、問題を分解するか、より簡潔なアプローチを使用することを検討してください。
-
並列ツール呼び出しの問題: 並列ツール呼び出しが不正確であるまれなケースが観察されています。これをテストし、問題が発生している場合は
parallel_tool_calls
パラメータをfalse
に設定することを検討してください。
(オプション) ファイル差分(Diff)の生成と適用
開発者からは、正確で適切にフォーマットされた差分生成が、コーディング関連タスクを強化するための重要な機能であるというフィードバックが寄せられています。この目的のために、GPT-4.1ファミリーは、以前のGPTモデルと比較して大幅に改善された差分機能を備えています。さらに、GPT-4.1は明確な指示と例が与えられれば、あらゆる形式の差分を生成する上で強力なパフォーマンスを発揮しますが、OpenAIはモデルが広範にトレーニングされた推奨差分形式(V4A Diff Format)をオープンソース化しています。これにより、特に始めたばかりの開発者にとって、自分で差分を作成する際の当て推量の多くを取り除くことができることを期待しています。
提供されたノートブックには、この推奨形式(APPLY_PATCH_TOOL_DESC
)と、それを適用するためのリファレンス実装(apply_patch.py
)が含まれています。これは、モデルがコーディングタスクにおいて具体的なファイル変更を提案し、適用する能力が向上していることを示す一例です。
他の効果的な差分形式として、Aiderのポリグロットベンチマークで使用されるSEARCH/REPLACE形式や、内部エスケープのない疑似XML形式も、テストで高い成功率を示しました。これらの形式は、(1)行番号を使用しない、(2)置換されるべき正確なコードと置換するための正確なコードの両方を、明確な区切り文字とともに提供するという2つの重要な側面を共有しています。
まとめ
GPT-4.1は、コーディング、指示追従性、長文コンテキスト処理において顕著な進歩を示した強力なモデルです。しかし、その能力を最大限に引き出す鍵は、モデルの特性、特に指示に対する文字通りの解釈傾向を理解した上で、効果的なプロンプトを作成することにあります。
本ガイドでは、以下の重要な戦略とテクニックを解説しました。
- 明確性と具体性: 曖昧さを排除し、期待する内容を詳細に指示する。
- エージェントワークフローの最適化: 永続性、ツール呼び出し、プランニングのリマインダーを含め、APIツール機能を活用する。
- 長文コンテキストの活用: 指示の配置(最初と最後)や適切な区切り文字(XMLなど)に注意し、コンテキスト依存度を調整する。
- 思考連鎖(CoT)の誘導: プロンプトを通じてモデルに段階的な思考プロセスを実行させる。
- 指示追従性の最大化: 構造化された指示、具体的な例、失敗モードへの対処を通じて、モデルの挙動を精密に制御する。
- 構造化されたプロンプト: 役割、指示、推論ステップ、フォーマット、例、コンテキストを明確に区分する。
GPT-4.1は、適切にガイドされれば、非常に有能で操作しやすいモデルです。プロンプトエンジニアリングは反復的なプロセスであり、絶対的な正解はありません。本ガイドで提供された原則とテクニックを出発点とし、自身のユースケースに合わせて実験と評価を重ね、最適なプロンプト戦略を見つけ出してください。明確なコミュニケーションと体系的なアプローチを通じて、GPT-4.1の可能性を最大限に引き出すことができるでしょう。