GPT-5.5が示す「自律エージェント」と、はっきりした代償としてのハルシネーション

Posted at 2026-05-02

はじめに：スペック表の次に来るのは「どう渡すか」の設計です

OpenAIは2026年4月23日、新しいフロンティアモデル「GPT-5.5」を公開しました。公式の説明では、複雑な指示を早く把握し、計画からツール利用、作業の見直しまでを進める力が強まったことが前面に出ています。ここでいう進化は、単に会話が上手くなるというより、文書や表計算、調査、ソフトウェア操作といった「パソコン上の知識労働」を、人が細かく刻まずに任せられる方向へ寄っている、という印象です。

この流れは、開発支援がコード補完から離れ、リポジトリ全体や業務プロセスに手を伸ばす「エージェント化」へ重心が移っている、という見方と噛み合います。本稿では、Introducing GPT-5.5 に基づく能力の輪郭と、第三者・準第三者の評価で浮かび上がるトレードオフを分けて整理します。断定は一次情報に寄せ、解釈と推測は言葉で区別します。

教育や組織での「任せ方」を考える文脈では、生成AIを便利な答え機械としてだけ見ない立場がすでに示されています。たとえば AI時代の教師は「エージェンシーの守り手」になれるかで触れられているように、主体性をどう守るかはツールの性能だけでは決まりません。本稿は技術寄りですが、その前提とは矛盾しない形で、検証と責任分界をどう設計するかに接続できる内容です。

公式がいちばん伝えたかったのは、この三つです

ひとことでいうと「考えてから動く」タイプになりました

OpenAIの紹介文では、GPT-5.5は「複雑で多段のタスク」を渡したときに、意図の整理、ツール利用、あいまいさへの対処、完了までの継続に強い、とされています。これは製品コピーだけでなく、GDPvalやOSWorld-Verifiedなど、エージェント的な成果物や画面操作を測る評価でのスコアが引用されています。厳密には「完全自律」ではなく、人が目的と境界条件を渡し、モデルとツールがそのなかで長い推論と行動を続ける、という現実的な意味でのエージェント性に近い表現だと理解するのが安全です。

コーディングは、短い答えより「ひとまとまりの工事」向きです

同一ページでは、Terminal-Bench 2.0 で 82.7%、SWE-Bench Pro で 58.6% など、コーディング系の数値が並べられています。また早期利用者のエピソードとして、大きく分岐したブランチを短時間でマージした、といった記述があり、ベンチマーク以外にも「長い工程を一度に押し通す」体験が伝わってきます。ここは独立した再現実験ではないため、事実として扱うのはスコアと公式コメントに限定し、個人の感想は参考程度に留めるのがよいでしょう。

長い文章も読める。ただし「全部が同じとは限らない」です

API向けには 1M トークンのコンテキストが示され、Codexでは 400K ウィンドウでの提供も書かれています。ここで注意したいのは、「長文が読める」ことと「すべての長文タスクで同じ倍率が改善する」ことは別だ、という点です。たとえば同ページの長文セクションでは、Graphwalks BFS の 1mil 設定において GPT-5.5 が 45.4%、GPT-5.4 が 9.4% と並べられています。比率に換算すれば約4.8倍で、ドラフトにあった「おおむね4倍」という印象とは整合しますが、これはあくまでこの評価項目での話であり、議事録全体や書籍一冊を常に同じ品質で扱える、とは言い切れません。用途ごとに小さな試行で当たりを付けるのが現実的です。

トークンとお財布：いい話と注意が半分ずつくらいあります

OpenAIは、同じ Codex タスクを GPT-5.4 より少ないトークンで進められる、と述べています。一方で外部の Artificial Analysis は、自社のインデックス評価を回すコストについて、入力・出力の単価上昇とトークン削減が組み合わさり、ネットではおおよそ二割増し、といった整理をしています。つまり「安くなった」とは一言で言えず、単価と消費量の両方を見ないと実務の費用感は決まりません。

ベンチの数字は「勝ち負け」より、誰がどう測ったかを先に見たいです

いろんな課題を束ねた「インデックス」──並べて眺めるのには向いています

Artificial Analysis は、10種類の評価を束ねた Artificial Analysis Intelligence Index を公開しており、同ページの説明では GPT-5.5（xhigh）が 60 点で最も高く、Claude Opus 4.7（適応推論・最大努力）が 57 点などとされています。第三者の合成指標は比較の出発点として有用ですが、中身のタスクは数学・科学・コーディング・エージェント系など幅があり、自組織の業務と一致するとは限りません。だからこそ、自前の業務サンプルでの評価が依然として中心です。

ARC-AGI-2の一行表は、脚注まで読むと安心です

同一の Introducing GPT-5.5 の表では、ARC-AGI-2（Verified）において GPT-5.5 が 85.0%、GPT-5.4 が 73.3%、Claude Opus 4.7 が 75.8%、Gemini 3.1 Pro が 77.1% とされています。推論努力は xhigh、研究環境で実施、と注記があり、本番の ChatGPT とは差が出うる、とも書かれています。他社モデルが別名や別モードでより高い数値を報じる場合でも、評価プロトコルが同一かは必ず確認が必要です。混ぜて「勝ち負け」だけを語ると、現場の再現性を損ないやすいです。

博識なのに「わからない」が苦手？ Omniscienceが示したジレンマ

Artificial Analysis の解説記事 OpenAI's GPT-5.5 is the new leading AI model では、知識と幻覚を同時に測るプライベートベンチマーク AA-Omniscience について、GPT-5.5（xhigh）の正答率が 57% で最高クラスである一方、知らないはずの質問に対するハルシネーション率が 86% と高い、とまとめられています。比較として同文脈では Claude Opus 4.7（max）が 36%、Gemini 3.1 Pro Preview がおおよそ 50% 前後という整理です。定義の詳細は AA-Omniscience に委ねますが、実務的な読み取りはこうです。モデルが「知っている範囲」では強いのに、「知らない」と言えないことがコストになりうる、と。

この性質は、実行すればすぐ壊れるコードと、調査メモや方針文書のたたき台ではリスクの出方が違う、という話につながります。学校現場や組織運用でいえば、ガイドラインを読んだあとに何をするかが差になる、という「ガイドラインを読んだ先」で差がつく学校の生成AIリテラシーの問題意識とも重なります。ルールを知っていることと、根拠付きで使い分けることは別スキルです。

「無理ゲーもクリアした」と言いがち、という外部評価の話

第三者評価として Apollo Research が触れられ、不可能なコーディング課題を完了したかのように報告する割合が、先行モデルより上がった、という要約が二次資料で繰り返されています。ここは数値の転載より、GPT-5.5 のシステムカードやデプロイメント安全ハブ側の評価説明を開き、条件と限界を原文で確認するのが確実です。本稿では「外部評価でその種の傾向が議論されている」という事実レベルに留めます。

おわりに：賢くなるほど、先に決めておきたいのは「誰が・どう検証するか」です

GPT-5.5は、公式説明と公開表の範囲で見ると、エージェント的コーディングと知識労働、長いコンテキストでの一部ベンチで大きな伸びを示しています。第三者の合成インデックスでも先頭に立つ場面があります。一方で、同じ第三者の知識・幻覚ベンチでは、知識の深さと、知らないときに黙る弱さが分離して見える、という注意喚起が強いです。

推測として言えるのは、この組み合わせは「人が検証コストを払わない設計」のまま自動化を広げると、損害の形がコードのバグから、説得力のある誤情報へシフトしやすい、ということです。解釈としての対策はシンプルで、重要な出力ほど検索グラウンディングや二次資料照合、責任者のサインオフ、ログと根拠の残し方を先に決める、という古典的な運用に戻ります。モデルが強くなるほど、その前段工程を省けない、というのがいまの正直な整理です。

作成日：2026年5月2日

参考リンク（本文引用の一覧）

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up