アンケート自由記述分類プロンプトにおけるモデル差分検証：GPT-4.1とGPT-5.5の比較

Last updated at 2026-06-10Posted at 2026-06-10

はじめに

本記事では、アンケート自由記述の分類・集計タスクにおいて、GPT-4.1とGPT-5.5の回答精度を比較した検証結果を紹介します。

この記事で得られること：

GPT-4.1とGPT-5.5の分類精度の違い（制約遵守、分類粒度）
感想30件→100件へのスケール時の精度変化
Azure Microsoft Foundry上でのGPT-5.5利用の実践知見

前回の記事（GPT-4.1での検証）はこちら：

GPT-5.5について

2026年4月に公開されています。OpenAIのWEBサイトでは「ユーザーの意図をより素早く理解し、多くの作業を自律的に進められる」「すべての手順を細かく管理する代わりに、整理されていない複雑なタスクでも任せることができる」モデルと紹介されています。

GPT-5は複雑な問題に対するための推論の度合いをパラメーターで指定できることが特徴の一つでした。GPT-5.5は、GPT-5の推論制御機能に加え、複雑なタスクを自律的に処理するエージェント的な能力が強化されたモデルと言えるようです。
今回も前回と同じくAzureのMicrosoft Foundryにデプロイしたモデルを使用しました。

GPT-4.1との利用料金の比較

「Azure OpenAI Service の価格」のページで実際に使用したモデルの利用料金を確認しました。参考：https://azure.microsoft.com/ja-jp/pricing/details/azure-openai/

Model	Input (1M Tokens)	Cached Input (1M Tokens)	Output (1M Tokens)
GPT-4.1	¥319.02	¥79.76	¥1,276.05
GPT-5.5	¥797.53	¥79.76	¥4,785.16

※2026/6/3時点の料金です。
GPT-5.5はGPT-4.1と比較するとInputの料金が約2.5倍、Outputの料金が約3.7倍になっています。料金は上がっています。しかし、1Mトークンの料金ですので、今回のような検証程度の利用では費用に大きく影響することはないと思います。

検証環境

LLM

AzureのMicrosoft FoundryにデプロイしたLLMを使用しました。
モデルはGPT-5.5(バージョン2026-04-24)です。

プロンプト実行環境(前回と同じ)

クライアント端末:Windows 11 Pro 24H2
Pythonで簡易スクリプトを作成して、APIキーを使用してLLMに対してプロンプト実行・結果確認を行いました。

検証用スクリプト

GPT-4.1とGPT-5.5はLLMのパラメータなどに差異があるので、Pythonスクリプトは新たに作成しました。LLMに対するプロンプト実行・結果取得処理のイメージは以下のとおりです。

Pythonスクリプトのイメージ

# 同様のソースコードでGPT-5.5が利用可能であることは確認済みです。
import os
from openai import AzureOpenAI

endpoint = <※検証環境用のエンドポイントを設定>
deployment = "gpt-5.5"

subscription_key = <※検証環境用のAPIキーを設定>
api_version = "2024-12-01-preview"

client = AzureOpenAI(
    azure_endpoint=endpoint,
    api_key=subscription_key,
    api_version=api_version
)

response = client.chat.completions.create(
    model=deployment,
    messages=[
        {
            "role": "system",
            "content": "あなたは社内勉強会の感想を分類・整理する役割を担うアシスタントです。"
        },
        {
            "role": "user",
            "content": "※ユーザープロンプトを設定"
        }
    ],
    # パラメーター:最大出力トークン数 ※GPT-4.1で設定していたmax_tokensは使用できませんでした。
    # 最大出力トークン数は念のためにgpt-5.5の最大値を設定しました。
    max_completion_tokens=128000,
    # パラメーター:推論作業 回答生成時の推論の度合いを調整できるようです。
    # 今回の検証ではGPT-4.1との結果比較のため一旦lowを設定しました。他の設定での比較は今後の課題です。
    reasoning_effort="low"
)

# プロンプトの実行結果を出力
print(response.choices[0].message.content)

検証結果

検証01 30件の感想分類

前回、GPT-4.1の検証で使用した時と同じプロンプトを実行しました。

検証に使用したユーザープロンプト

# 命令文
プロンプトエンジニアリング勉強会を実施した際のアンケートを分析して、今後の勉強会の改善の参考にしようとしています。
アンケートの結果は　# 感想一覧 にまとめています。 # 感想一覧 を分類して件数を集計ください。# 制約一覧 の内容を厳守してください。

# 制約一覧
- # 感想一覧 を全件対象としてください。1件も漏らさず分類してください。
- # 感想一覧 の1件に対して、必ず1つの分類のみに整理してください。複数の分類にまたがる場合は、最も適切と思われる分類に整理してください。
- 分類はポジティブな感想とネガティブな感想が明確に区別できるようにしてください。各分類名の先頭に【ポジティブ】または【ネガティブ】を付与してください。
- # 出力形式 の指示に従って分類してください。

# 感想一覧
1. プロンプトの書き方によって回答品質が大きく変わることを実感でき、とても参考になりました。
2. 基本的な内容が中心だったので、もう少し応用的なテクニックも扱ってほしかったです。
3. 実際に手を動かす演習があったことで、説明だけよりも理解しやすかったです。
4. 演習時間が短く、試行錯誤する前に終わってしまったのが少し残念でした。
5. プロンプトテンプレートの例が業務に近く、すぐに使えそうだと感じました。
6. 生成AIの仕組みに関する説明がやや難しく、初心者には少しハードルが高かったです。
7. チーム内のナレッジ共有や議事録作成に活用できそうなヒントが得られました。
8. もう少し失敗例や悪いプロンプトの改善プロセスを見たかったです。
9. 講師の説明がわかりやすく、プロンプト設計の考え方を整理できました。
10. 内容は有益でしたが、スライドの情報量が多く、途中で追いきれない場面がありました。
11. 実案件での活用事例が紹介されていて、業務への適用イメージが持てました。
12. 参加者同士でプロンプトを比較する時間があると、さらに学びが深まると思いました。
13. 生成AIを使う際の注意点や情報漏えいリスクについて学べたのが良かったです。
14. もう少しセキュリティや社内利用ルールに踏み込んだ説明があると安心です。
15. 演習課題が実務寄りで、普段の作業に置き換えて考えやすかったです。
16. 初心者向けとしては良かったですが、経験者には少し物足りない内容でした。
17. プロンプトに役割や制約条件を入れる重要性が理解できました。
18. 時間配分として座学が長かったです。演習や質疑応答の時間を増やしてほしいです。
19. 具体例が多く、抽象的な説明だけで終わらなかった点が良かったです。
20. 勉強会後に復習できる資料やプロンプト集があるとありがたいです。
21. AIへの指示を明確にすることで、レビューや調査業務にも活用できそうだと思いました。
22. 参加者のレベル差が大きかったため、基礎編と応用編に分けてもよいと感じました。
23. 実際に自分の業務課題を題材にしてプロンプトを作る時間があれば、さらに有意義だと思います。
24. プロンプトエンジニアリングという言葉に難しさを感じていましたが、身近な技術だとわかりました。
25. デモの内容は面白かったものの、ネットワークや環境の都合で進行が少し止まったのが気になりました。
26. 生成AIを使ったドキュメント作成の効率化について、具体的な方法を知ることができました。
27. 講義中心だったため、もう少し双方向のやり取りがあると集中しやすいと思いました。
28. 悪い回答が出たときに、どのようにプロンプトを修正するかの考え方が参考になりました。
29. もっと開発工程ごとの活用例、例えば要件定義やテスト設計での使い方を知りたいです。
30. 内容のレベル感がちょうどよく、初めて参加する人にも理解しやすい勉強会でした。

# 出力形式
分類別の件数が分かるように以下のように出力してください。
##出力例
| 分類 | 内容             |     件数 | 該当番号                     |
| -- | --------------- | -----: | ------------------------ |
| A  | 【ポジティブ】※ここに分類の詳細内容を記載 | **6** | 1, 9, 17, 19, 24, 30     |
| B  | 【ポジティブ】・・・   | **7** | 5, 7, 11, 15, 21, 26, 29 |
| C  | 【ネガティブ】・・・    | **6** | 3, 4, 12, 18, 23, 27     |
| D  | 【ネガティブ】・・・    | **1** | 20                       |

実行結果の概要

GPT-4.1の実行結果で見られた「制約違反による重複カウント」は無かった
これが最も重要なポイントです。GPT-5.5の方が精度に優れていると見てよいと思います。また、プロンプトで特に指定していませんが、最後に合計件数を出力しています。件数に間違いがないかチェックしているようにも見えます。
GPT-5.5の方が類似する感想を集約してコンパクトに整理した結果を出力している
GPT-4.1は10分類で集計していました。感想の詳細が分かるような分類で良い面もありますが、2件以下の分類が5個と粒度が細か過ぎるようにも見えます。
一方、GPT-5.5は5分類、ユーザープロンプトに記載した「今後の勉強会の改善」という目的を踏まえた内容で整理しているように見えます。

※前回同様、プロンプトを複数回実行した場合の結果のばらつきは考慮していません。
※投稿者の主観による考察です。GPT-4.1の分類の方が良いという意見もあると思います。前回投稿のGPT-4.1の実行結果も再掲します。
※ネガティブ/ポジティブで疑問の残る分類の感想が見られる、という傾向はGPT-5.5でも見られました。しかし、そこまで不自然な分類は無いように見えました。

GPT-5.5の実行結果(詳細)

分類	内容	件数	該当番号
A	【ポジティブ】説明がわかりやすく、プロンプト設計の考え方・重要性・注意点への理解が深まった	8	1, 9, 13, 17, 19, 24, 28, 30
B	【ポジティブ】実務に近い演習・テンプレート・活用事例があり、業務への適用イメージが持てた	7	3, 5, 7, 11, 15, 21, 26
C	【ネガティブ】内容の深さやレベル分け、応用・失敗例・開発工程別活用例・セキュリティ詳細の追加を求める意見	6	2, 8, 14, 16, 22, 29
D	【ネガティブ】演習・質疑応答・参加者同士の比較など、双方向性や実践時間を増やしてほしい意見	5	4, 12, 18, 23, 27
E	【ネガティブ】説明難易度、スライド情報量、復習資料、ネットワーク・環境面に関する改善要望	4	6, 10, 20, 25

合計：30件

GPT-4.1の実行結果(詳細)※前回投稿の再掲

分類	内容	件数	該当番号
A	【ポジティブ】プロンプトエンジニアリングや生成AIの知識・考え方が理解できて参考になった	6	1, 9, 17, 19, 24, 30
B	【ポジティブ】業務や実務への応用・活用イメージが得られた	7	5, 7, 11, 15, 21, 26, 29★
C	【ポジティブ】演習や具体例、実践的な内容が理解しやすかった	3	3, 13, 28
D	【ネガティブ】内容が基礎的・初心者向けで物足りなかった、応用や発展的内容を希望	3	2, 16, 22
E	【ネガティブ】演習や双方向の時間が短い・少ない、時間配分に不満	4	4, 12, 18, 27
F	【ネガティブ】説明や資料が難しい・情報量が多い、初心者にはハードルが高い	2	6, 10
G	【ネガティブ】失敗例や改善プロセス、開発工程ごとの活用例など、より具体的な事例を希望	2	8, 29★
H	【ネガティブ】セキュリティや社内利用ルールの説明が不足	1	14
I	【ネガティブ】実務課題を題材にした演習や復習資料など、追加サポートを希望	2	20, 23
J	【ネガティブ】デモ進行のトラブル（ネットワーク・環境）	1	25

※分類が重複している該当番号は'29★'のように★を付けています。

検証02 100件の感想分類(スケール検証)

検証01にて、GPT-4.1では「制約違反による重複カウント」が見られた感想30件の分類・集計の精度は問題ないことが確認できました。追加で、感想を70件追加して100件に変更したプロンプトを実行して検証を行い、回答精度に影響があるかを確認しました。

検証に使用したプロンプト(感想一覧以外は検証01と同じ)

# 命令文
プロンプトエンジニアリング勉強会を実施した際のアンケートを分析して、今後の勉強会の改善の参考にしようとしています。
アンケートの結果は　# 感想一覧 にまとめています。 # 感想一覧 を分類して件数を集計ください。# 制約一覧 の内容を厳守してください。

# 制約一覧
- # 感想一覧 を全件対象としてください。1件も漏らさず分類してください。
- # 感想一覧 の1件に対して、必ず1つの分類のみに整理してください。複数の分類にまたがる場合は、最も適切と思われる分類に整理してください。
- 分類はポジティブな感想とネガティブな感想が明確に区別できるようにしてください。各分類名の先頭に【ポジティブ】または【ネガティブ】を付与してください。
- # 出力形式 の指示に従って分類してください。

# 感想一覧
1. プロンプトの書き方によって回答品質が大きく変わることを実感でき、とても参考になりました。
2. 基本的な内容が中心だったので、もう少し応用的なテクニックも扱ってほしかったです。
3. 実際に手を動かす演習があったことで、説明だけよりも理解しやすかったです。
4. 演習時間が短く、試行錯誤する前に終わってしまったのが少し残念でした。
5. プロンプトテンプレートの例が業務に近く、すぐに使えそうだと感じました。
6. 生成AIの仕組みに関する説明がやや難しく、初心者には少しハードルが高かったです。
7. チーム内のナレッジ共有や議事録作成に活用できそうなヒントが得られました。
8. もう少し失敗例や悪いプロンプトの改善プロセスを見たかったです。
9. 講師の説明がわかりやすく、プロンプト設計の考え方を整理できました。
10. 内容は有益でしたが、スライドの情報量が多く、途中で追いきれない場面がありました。
11. 実案件での活用事例が紹介されていて、業務への適用イメージが持てました。
12. 参加者同士でプロンプトを比較する時間があると、さらに学びが深まると思いました。
13. 生成AIを使う際の注意点や情報漏えいリスクについて学べたのが良かったです。
14. もう少しセキュリティや社内利用ルールに踏み込んだ説明があると安心です。
15. 演習課題が実務寄りで、普段の作業に置き換えて考えやすかったです。
16. 初心者向けとしては良かったですが、経験者には少し物足りない内容でした。
17. プロンプトに役割や制約条件を入れる重要性が理解できました。
18. 時間配分として座学が長かったです。演習や質疑応答の時間を増やしてほしいです。
19. 具体例が多く、抽象的な説明だけで終わらなかった点が良かったです。
20. 勉強会後に復習できる資料やプロンプト集があるとありがたいです。
21. AIへの指示を明確にすることで、レビューや調査業務にも活用できそうだと思いました。
22. 参加者のレベル差が大きかったため、基礎編と応用編に分けてもよいと感じました。
23. 実際に自分の業務課題を題材にしてプロンプトを作る時間があれば、さらに有意義だと思います。
24. プロンプトエンジニアリングという言葉に難しさを感じていましたが、身近な技術だとわかりました。
25. デモの内容は面白かったものの、ネットワークや環境の都合で進行が少し止まったのが気になりました。
26. 生成AIを使ったドキュメント作成の効率化について、具体的な方法を知ることができました。
27. 講義中心だったため、もう少し双方向のやり取りがあると集中しやすいと思いました。
28. 悪い回答が出たときに、どのようにプロンプトを修正するかの考え方が参考になりました。
29. もっと開発工程ごとの活用例、例えば要件定義やテスト設計での使い方を知りたいです。
30. 内容のレベル感がちょうどよく、初めて参加する人にも理解しやすい勉強会でした。
31. 生成AIの限界やハルシネーションのリスクについてもっと詳しく知りたかった。
32. 良い勉強会でした。ありがとうございました。
33. 他部署の方と交流できたのが良かった。
34. 具体的なプロンプト例が豊富で実践的だった。
35. 質疑応答の時間が短すぎて質問できなかった。もう少し長くしてほしい。
36. 自分の業務にどう適用するかイメージが湧かなかった。業界別の事例があると嬉しい。
37. システムプロンプトの設計方法についてもっと詳しく聞きたかったです。
38. 初心者向けと銘打っていたが、前提知識がないとついていけない部分があった。
39. 勉強会をきっかけに、チーム内でプロンプトの共有を始めました。
40. オンライン参加だったが、音声が聞き取りにくい場面があった。
41. 演習の課題が実務に近くて取り組みやすかった。
42. 参加者のレベル差が大きく、進行が難しそうだった。レベル別に開催してはどうか。
43. プロンプトのバージョン管理や運用方法についても知りたい。
44. コード生成でのプロンプト活用事例が特に参考になりました。
45. 勉強会後に実践する場がないと忘れてしまうので、フォローアップの仕組みが欲しい。
46. 期待していたよりも内容が薄かった。
47. 講師の実体験に基づいた説明がリアルで説得力があった。
48. テスト工程でのプロンプト活用事例も紹介してほしいです。
49. 勉強会の存在を直前に知ったので、もっと早く告知してほしかった。
50. Zero-shotとFew-shotの使い分けが明確になって良かった。
51. 社内の生成AI利用ガイドラインとの整合性について説明があると安心できる。
52. 演習中に講師が巡回してアドバイスをくれたのがありがたかった。
53. 正直、プロンプトエンジニアリングという言葉自体を初めて知りました。勉強になった。
54. 資料にURLやリファレンスが記載されていて、自学自習しやすい。
55. 勉強会の内容を動画教材化してほしい。
56. 長文のプロンプトを書くコツがわかって業務効率が上がりそうです。
57. ネットワーク環境が不安定で演習がスムーズにできなかった。改善を希望します。
58. 要件定義フェーズでの活用方法についても取り上げてほしい。
59. 勉強会の雰囲気が良く、気軽に質問できた。
60. 他社の活用事例なども紹介してもらえると視野が広がると思います。
61. 内容は興味深かったが、2時間は長すぎて集中力が持たなかった。
62. プロンプトの構造化（マークダウン記法の活用など）の話が実践的で良かった。
63. 自分のプロンプトのどこが悪いのかフィードバックをもらえる機会が欲しい。
64. 生成AIを使ったことがない人向けの導入セッションを別途設けてほしい。
65. 業務効率化に直結する内容だったので、上司にも参加を勧めたい。
66. 勉強会で使ったプロンプトのサンプル集を配布してほしいです。
67. 議事録作成やメール文面作成など、日常業務での活用例が参考になった。
68. 演習の難易度がちょうど良く、達成感があった。
69. 途中参加だったため前半の内容がわからず困った。アーカイブ配信を希望します。
70. GPT-4.1とGPT-5.5でのプロンプトの効き方の違いも比較してほしかった。
71. とても有意義な時間でした。次回も必ず参加します。
72. マネージャー層向けに、生成AI導入の判断基準に関する勉強会もあると良い。
73. 説明が丁寧で初心者でも理解しやすかった。
74. 演習環境へのログイン方法がわかりにくく、最初の10分を無駄にしてしまった。
75. プロンプトの評価指標（正確性・網羅性など）の話をもっと聞きたかった。
76. 勉強会の内容を部署に持ち帰って共有したいと思います。
77. 英語プロンプトと日本語プロンプトの精度差についても触れてほしかった。
78. 休憩時間がなかったので、途中で集中力が切れてしまった。
79. 実際にプロンプトを書いて試す時間が一番楽しかった。
80. セキュリティ面で機密情報をプロンプトに含めてよいのか不安が残った。
81. 勉強会の案内メールが埋もれてしまい、危うく見逃すところだった。
82. ペアプログラミング形式でプロンプトを改善していく演習が斬新で面白かった。
83. 内容は悪くなかったが、もう少しテンポよく進めてほしい。
84. 社内ツールとの連携方法についても今後取り上げてほしいです。
85. プロンプトを改善するたびに出力が良くなっていく過程が面白かった。
86. 参加人数が多すぎて質問しづらい雰囲気だった。少人数制の方が良いと思う。
87. 勉強会のおかげで生成AIへの苦手意識が少し減りました。
88. ドキュメント作成業務での具体的な活用方法をもっと知りたいです。
89. 講師が一方的に話すだけでなく、双方向のやり取りがあって良かった。
90. 正直、独学で十分な内容だと感じた。勉強会ならではの付加価値が欲しい。
91. 出力結果のファクトチェックの重要性を改めて認識できた。
92. 同じ指示でもプロンプトの書き方で全然違う結果になるのが面白い。
93. 次回はマルチモーダルAIへのプロンプト技法も扱ってほしい。
94. 開催時間を昼休み後ではなく午前中にしてほしい。午後は眠くなる。
95. アジャイル開発との組み合わせでの活用事例にも興味があります。
96. 配布資料のPDFが重くて開けなかった。軽量化してほしい。
97. プロンプト設計のアンチパターン集があると失敗を避けやすくなると思う。
98. 短い時間でしたが、学びが多く充実していました。ありがとうございました。
99. 勉強会の内容をチーム全体のスキルアップにつなげたいと思いました。
100. 今後もこのような勉強会を継続的に開催してほしいです。期待しています。

# 出力形式
分類別の件数が分かるように以下のように出力してください。
##出力例
| 分類 | 内容             |     件数 | 該当番号                     |
| -- | --------------- | -----: | ------------------------ |
| A  | 【ポジティブ】※ここに分類の詳細内容を記載 | **6** | 1, 9, 17, 19, 24, 30     |
| B  | 【ポジティブ】・・・   | **7** | 5, 7, 11, 15, 21, 26, 29 |
| C  | 【ネガティブ】・・・    | **6** | 3, 4, 12, 18, 23, 27     |
| D  | 【ネガティブ】・・・    | **1** | 20                       |

※感想1～30は検証01と同じ、31～100を追加しています。

実行結果の概要

感想を30件から100件に変更しても「制約違反による重複カウント」は見られなかった
感想の件数が100件でも問題は無かったです。GPT-4.1と比較して優れているポイントです。GPT-4.1の場合、感想15件の時は問題なかったのですが30件で「制約違反による重複カウント」が見られました。
集計結果の傾向は検証01と同様に大きな問題は見られなかった
感想が100件に増えた事もあり、分類は11個になっています。しかし、目視でチェックした限りでは著しく問題のある分類結果は無かったです。30件の時と同様に、コンパクトに整理した分類結果が出力されています。

実行結果(詳細)

分類	内容	件数	該当番号
A	【ポジティブ】プロンプト設計の基本理解・学び・講師説明への満足	14	1, 9, 17, 24, 28, 30, 32, 50, 53, 73, 87, 91, 92, 98
B	【ポジティブ】演習・ハンズオンが理解促進や達成感につながった	9	3, 15, 41, 52, 68, 79, 82, 85, 89
C	【ポジティブ】業務活用イメージ・実務適用・効率化に役立った	13	5, 7, 11, 21, 26, 34, 39, 44, 56, 65, 67, 76, 99
D	【ポジティブ】具体例・資料・実体験・安全面の説明が有益だった	5	13, 19, 47, 54, 62
E	【ポジティブ】交流・雰囲気・継続開催への期待が良かった	4	33, 59, 71, 100
F	【ネガティブ】応用・専門テーマ・追加事例をもっと扱ってほしい	18	2, 8, 29, 31, 37, 43, 48, 58, 60, 70, 72, 75, 77, 84, 88, 93, 95, 97
G	【ネガティブ】演習・質疑応答・双方向性・復習/フォローアップが不足	11	4, 12, 18, 20, 23, 27, 35, 45, 55, 63, 66
H	【ネガティブ】難易度・レベル分け・内容の深さや適用イメージに課題	9	6, 16, 22, 36, 38, 42, 46, 64, 90
I	【ネガティブ】セキュリティ・社内ルール・ガイドライン説明への不安/要望	3	14, 51, 80
J	【ネガティブ】運営・環境・告知・資料配布など開催面の改善要望	10	25, 40, 49, 57, 69, 74, 81, 86, 94, 96
K	【ネガティブ】時間の長さ・テンポ・情報量により集中しづらかった	4	10, 61, 78, 83

合計：100件

まとめ・考察

1.GPT-4.1と比較したGPT-5.5の優位性が確認できた

アンケート自由記述分類を行うプロンプトの実行結果を比較検証した結果、以下の点でGPT-5.5の方が優れている可能性が示唆されたと言えます。

①プロンプトの忠実性(重複カウントのような制約違反が発生しない)
②分類の対象件数が増えた場合の回答品質

前回同様に検証のサンプル数が少なく、投稿者による定性的な評価の部分も多いので精緻な検証結果ではありません。しかし、今回のプロンプトに限定するならばGPT-5.5の回答の方が良好な結果を示しました。また、GPT-5.5の方がプロンプトで記述した目的や背景を理解して作業を行ってくれる傾向があることも確認できました。

2.長文プロンプトにおけるLLMの回答精度の劣化について

前述1.②については、恐らくGPT-5.5でも感想件数が100件を超えて200件、300件・と増えていくとどこかのタイミングで回答に重複カウントのような問題が発生する可能性は高いと思います。
このような「プロンプトが長文になるとLLMの回答精度が劣化する傾向」はこれまでの実際のプロジェクトでの検証(使用モデルはGPT-4o,GPT-4.1)でも確認した事があります。
また、Chromaの技術レポートでも同様の傾向が報告されており、以下のような記述があります。

model performance degrades as input length increases, often in surprising and non-uniform ways.
入力長の増加に伴いモデル性能は低下し、その劣化はしばしば予測しにくく非一様に現れる

LLMを使用する以上、この問題は本質的に発生しやすい特性と考えられます。
GPTシリーズではモデルの進化に伴い長文コンテキストへの対応力は向上していると考えられますが、それでも入力長の増加に伴う性能劣化の傾向自体は依然として残っている点には注意が必要です。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up