Introducing GPT-4.1 in the API より
OpenAIが2025年4月14日、API向けの新しいモデルシリーズ「GPT-4.1」を発表しました。このシリーズには「GPT-4.1」「GPT-4.1 mini」「GPT-4.1 nano」の3つのモデルが含まれ、コーディング能力、指示追従の精度、長文脈処理において従来のGPT-4oシリーズを大幅に上回る性能を実現しています。本記事では、GPT-4.1シリーズの主要な特徴、ベンチマーク性能、実世界での応用例、料金体系に至るまで、開発者が知っておくべき情報を詳細に解説します。
目次
- GPT-4.1シリーズの概要
- 主要な機能と改善点
- ベンチマーク性能の詳細分析
- 実世界でのユースケースと実例
- 料金体系とアクセシビリティ
- GPT-4.1の活用方法と実践的アドバイス
- 技術仕様と比較検討
- まとめと将来展望
1. GPT-4.1シリーズの概要
GPT-4.1シリーズは、開発者のニーズに特化して開発された3つのモデルから構成されています。これらのモデルは、既存のGPT-4oおよびGPT-4o miniと比較して全般的に優れた性能を発揮し、特にコーディング、指示追従、長文脈処理において大幅な改善が見られます。
- GPT-4.1: シリーズの中で最高性能を誇るモデル。コーディングやエージェント開発に最適
- GPT-4.1 mini: バランスの取れたパフォーマンスと効率を提供するミドルレンジモデル
- GPT-4.1 nano: OpenAIの最速・最低コストモデルながら、驚くべき性能を発揮
特筆すべきは、このシリーズの全モデルが100万トークン(約75万語)という大規模な文脈窓を持ち、これは従来のGPT-4oの128,000トークンから8倍の拡張となります。また、知識のカットオフ日は2024年6月に更新されています。
GPT-4.1シリーズは現在API経由でのみ利用可能で、ChatGPTには組み込まれていません。
また、現在の研究プレビューであるGPT-4.5は、3ヶ月後(2025年7月14日)に廃止される予定です。
2. 主要な機能と改善点
コーディング能力の飛躍的向上
GPT-4.1は、様々なコーディングタスクにおいてGPT-4oを大幅に上回る性能を発揮します。実世界のソフトウェアエンジニアリングスキルを測定するSWE-bench Verifiedでは、GPT-4.1は54.6%のタスクを完了し、GPT-4o(33.2%)を21.4%ポイント上回りました。
特に以下の点で顕著な改善が見られます:
- フロントエンドコーディング: 機能的で美しいウェブアプリケーションの作成能力が向上。人間の評価者がGPT-4.1のウェブサイトをGPT-4oのものより80%の確率で好むという結果が出ています。
- コード編集の正確性: 不必要な編集が減少(GPT-4oの9%から2%へ)。これによりコードの整合性が向上します。
- diff形式の信頼性: Aiderのポリグロットdiffベンチマークでスコアが2倍以上に向上。これにより、ファイル全体ではなく変更部分のみを効率的に生成できます。
- ツール使用の一貫性: Function callingなどのツールの呼び出しや使用がより一貫して正確になりました。
指示追従の精度向上
GPT-4.1は、複雑な指示をより正確に理解し、忠実に実行する能力が大幅に向上しています。ScaleのMultiChallengeベンチマーク(指示追従能力の測定)では、GPT-4.1は38.3%のスコアを達成し、GPT-4oを10.5%ポイント上回りました。
指示追従能力の向上は、以下のような側面で特に顕著です:
-
フォーマット指示: XML、YAML、Markdownなど特定の形式での出力要求に対する対応精度。例えば:
出力を以下のJSONフォーマットで提供してください: { "名前": "string", "年齢": number, "趣味": ["string", "string"] }
GPT-4.1は指定された形式を高い精度で維持します。
-
否定的指示: 避けるべき行動の明示(例:「サポートへの連絡を勧めないでください」「コード例は含めないでください」)に対して、GPT-4.1は指示を忠実に守ります。
-
順序付き指示: 指定された順序での指示実行。例えば:
1. まずユーザーの名前を尋ねる 2. 次に年齢を尋ねる 3. その後で好みの色を尋ねる 4. 最後に結果をまとめる
GPT-4.1はこのような順序付き指示を正確に実行します。
-
内容要件: 特定の情報を含める要求への対応(例:「栄養プラン作成時は常にタンパク質量を含める」「セキュリティに関する警告を必ず記載する」)
-
ランキング: 特定の方法での出力の順序付け(例:「人口数で回答を並べ替える」「重要度順にリストアップする」)
-
過度な自信の抑制: 情報がない場合の適切な対応(例:「答えがわからない場合はサポート連絡先を提供する」「不確かな場合は明確に不確かであると伝える」)
100万トークンの長文脈処理
GPT-4.1シリーズの全モデルは、最大100万トークンの文脈窓をサポートしています。これは「戦争と平和」全体(約75万語)よりも長いテキストを一度に処理できる容量に相当します。
長文脈理解の改善は、以下のようなベンチマークで実証されています:
-
Needle in a Haystack: 100万トークンのコンテキスト全体で情報を正確に検索できる能力を示すテスト。GPT-4.1、GPT-4.1 mini、GPT-4.1 nanoのすべてが長いコンテキスト全体で「針」を見つける能力を示しました。
-
OpenAI-MRCR: 複数の情報を長いコンテキストから識別・検索する能力を測定。例えば、複数のタピアに関する詩が文書中に散らばっている場合に、「3番目の詩を見つけなさい」という指示に応えられるかをテストします。GPT-4.1は128Kトークンまでのコンテキスト長でGPT-4oを大幅に上回りました。
-
Graphwalks: 複数の論理的ステップを必要とする長文脈内での推論能力を評価。このテストではモデルが有向グラフで幅優先探索(BFS)を実行する能力を測定します。GPT-4.1はこのベンチマークで61.7%の精度を達成し、GPT-4o(41.7%)を大幅に上回りました。
特に注目すべきは、ビデオ理解の能力です。Video-MME(字幕なしの30〜60分のビデオに基づく質問に回答)では、GPT-4.1は72.0%のスコアを達成し、GPT-4o(65.3%)を6.7%ポイント上回りました。
マルチモーダル処理能力
GPT-4.1シリーズはマルチモーダル処理においても優れた性能を発揮します。特にGPT-4.1 miniは画像理解のベンチマークでGPT-4oを上回ることが多く、視覚的タスクにおけるコストパフォーマンスの高さが特徴です。
主なマルチモーダルベンチマークのスコア:
- MMMU: GPT-4.1は74.8%(GPT-4oは68.7%)
- MathVista: GPT-4.1は72.2%(GPT-4oは61.4%)
- CharXiv-Reasoning: GPT-4.1は56.7%(GPT-4oは52.7%)
これらのスコアは、チャート、図表、数学的な視覚情報を理解し処理する能力の向上を示しています。特に興味深いのは、GPT-4.1 miniがマルチモーダルタスクで非常に高いパフォーマンスを発揮している点で、コスト効率の高いビジョン処理モデルとしても活用できることを示唆しています。
3. ベンチマーク性能の詳細分析
コーディングベンチマーク
GPT-4.1は、複数のコーディングベンチマークで大幅な性能向上を示しています。
このベンチマークでは、モデルにコードリポジトリと問題の説明が与えられ、問題を解決するためのパッチを生成する必要があります。GPT-4.1は、コードリポジトリの探索、タスクの完了、実行してテストに合格するコードの生成において、顕著な改善を示しています。
Aider's polyglot benchmark(whole/diff):
このベンチマークでは、Exercismからのコーディング課題をソースファイルを編集することで解決します。「whole」形式はファイル全体を書き換え、「diff」形式は変更部分のみを示します。GPT-4.1は特にdiff形式での性能が大幅に向上しています。
比較のため、Google Gemini 2.5 Proはこのベンチマークで約72-73%のスコアを達成しており、現時点ではコーディングタスクでより高いパフォーマンスを示していることに注意が必要です。
指示追従ベンチマーク
GPT-4.1は指示追従の精度においても大幅な向上を示しています。
この評価は、開発者の実際のユースケースとフィードバックに基づいており、フォーマット、詳細さ、長さなどの指示を伴う様々な複雑さのタスクをカバーしています。
このベンチマークでは、複数ターンの会話で前のメッセージから4種類の情報を適切に使用する能力を評価します。GPT-4.1はGPT-4oと比較して大幅な改善を示していますが、GPT-4.5には及ばない結果となっています。
IFEvalは、検証可能な指示(例:コンテンツの長さの指定や特定の用語やフォーマットの回避)を含むプロンプトを使用します。ここでもGPT-4.1は大幅な改善を示しています。
長文脈理解ベンチマーク
GPT-4.1シリーズの長文脈処理能力は、複数のベンチマークで実証されています。
このベンチマークでは、長いコンテキスト内に散らばった複数の類似した情報を識別し、特定のインスタンスに対応する回答を提供する能力を測定します。GPT-4.1は、100万トークンのコンテキストでも46.3%のスコアを維持しており、長文脈での情報検索能力の高さを示しています。
Graphwalksでは、モデルは大きなグラフ内のランダムなノードからの幅優先探索を実行するよう求められます。GPT-4.1とGPT-4.1 miniは同等のパフォーマンスを示しており、GPT-4oを大幅に上回っていますが、GPT-4.5には及ばない結果となっています。
ビジョン関連ベンチマーク
GPT-4.1シリーズは画像理解においても優れた性能を示しています。
MMUMでは、チャート、図表、地図などを含む質問に回答する能力を評価します。GPT-4.1 miniは特に優れたパフォーマンスを示しており、コスト効率の高いビジョン処理モデルとしての価値があります。
MathVistaは、視覚的な数学的タスクを解く能力を測定します。ここではGPT-4.1 miniが最高のスコアを達成しており、視覚的な数学問題解決に特に優れていることを示しています。
このベンチマークでは、30〜60分の字幕なしビデオに基づく多肢選択問題に回答する能力を評価します。GPT-4.1は長いビデオコンテンツの理解能力が大幅に向上しており、動画分析などのユースケースでの有用性を示しています。
4. 実世界でのユースケースと実例
GPT-4.1シリーズの実世界での有効性は、初期テスターである複数の企業からのフィードバックによって実証されています。
Windsurf(コーディング補助)
Windsurfは、GPT-4.1を内部コーディングベンチマークでテストし、GPT-4oよりも60%高いスコアを達成しました。これは、エンジニアリングチームがコードレビューを初回でパスする確率と強い相関があります。ユーザーからは、ツール呼び出しが30%効率的になり、不必要な編集の繰り返しが約50%減少したという報告がありました。
Qodo(コードレビュー)
Qodoは、GitHubプルリクエストから高品質なコードレビューを生成する能力を、200の実際のプルリクエストで他のモデルと直接比較しました。同じプロンプトと条件で、GPT-4.1は55%のケースでより良い提案を提供しました。特に、提案をすべきでない場合に控える精度(precision)と、必要な場合に包括的な分析を提供する能力(comprehensiveness)の両方で優れていました。
Blue J(税務分析)
Blue Jは、最も難しい実世界の税務シナリオに関する内部ベンチマークで、GPT-4.1がGPT-4oよりも53%正確であることを確認しました。この精度の向上は、複雑な規制の理解と長文脈での微妙な指示に従う能力の向上を示しています。
Hex(SQLクエリ)
HexのSQL評価セットでは、GPT-4.1が約2倍の性能向上を示しました。特に、大規模で曖昧なスキーマから正しいテーブルを選択する能力が向上し、これはプロンプトエンジニアリングだけでは調整が難しい上流の決定ポイントです。
Thomson Reuters(法務文書分析)
Thomson Reutersは、法務作業向けAIアシスタントCoCounselでGPT-4.1をテストし、内部の長文脈ベンチマークで複数文書レビューの精度が17%向上したことを確認しました。特に、ソース間でコンテキストを維持し、文書間の微妙な関係(矛盾する条項や補足コンテキストなど)を正確に識別する能力が非常に信頼性が高いことがわかりました。
Carlyle(財務データ抽出)
CarlyleはGPT-4.1を使用して、PDF、Excelファイルなど複数の長い文書から粒度の細かい財務データを正確に抽出しました。内部評価によれば、非常に大きな文書からのデータ検索で50%の性能向上が見られ、文書間での複数ホップ推論など、他のモデルで見られた主要な制限を克服した最初のモデルとなりました。
5. 料金体系とアクセシビリティ
GPT-4.1シリーズは、効率性の向上により、より低価格で提供されています。GPT-4.1は中央値のクエリでGPT-4oよりも26%安価で、GPT-4.1 nanoはOpenAIの最も安価で高速なモデルとなっています。
料金体系(100万トークンあたり):
モデル | 入力 | キャッシュされた入力 | 出力 | ブレンド価格* |
---|---|---|---|---|
GPT-4.1 | $2.00 | $0.50 | $8.00 | $1.84 |
GPT-4.1-mini | $0.40 | $0.10 | $1.60 | $0.42 |
GPT-4.1-nano | $0.10 | $0.025 | $0.40 | $0.12 |
*典型的な入力/出力比率とキャッシュ率に基づく
比較のため、Claude 3.7 Sonnetの価格は入力$3.00/出力$15.00、Gemini 2.5 Proは200,000トークンまで$0.70、それ以上は$3.50/出力$10.50となっています。
また、同じコンテキストを繰り返し渡すクエリに対するプロンプトキャッシングの割引が75%(以前は50%)に増加しました。さらに、長文脈リクエストに対して、標準的なトークンごとのコスト以外に追加料金はかかりません。
Batch APIでの使用では、さらに50%の価格割引があります。これにより、大量処理タスクでさらなるコスト効率化が可能です。
6. GPT-4.1の活用方法と実践的アドバイス
GPT-4.1シリーズの性能を最大限に活用するための実践的なアドバイスをいくつか紹介します。
モデル選択ガイド
- GPT-4.1: 複雑なコーディングタスク、複雑な指示が必要なタスク、エージェント開発に最適
- GPT-4.1 mini: より単純なユースケースで速度が必要な場合や、マルチモーダル処理に推奨。特に予算を考慮しつつもGPT-4oレベルの性能が必要な場合に最適
- GPT-4.1 nano: 自動補完、分類、長文書からのデータ抽出など、基本的なタスクに最適。大量の処理が必要で低レイテンシーが重要な場合に威力を発揮
効果的なプロンプト戦略
GPT-4.1はGPT-4oよりもリテラルになる傾向があるため、明示的で具体的なプロンプトが推奨されます:
-
明確な指示: 具体的なフォーマット、順序、制約を明示的に指定
例: 「回答は必ず次の3つのセクションに分けてください: 1) 背景情報 2) 解決策 3) 実装方法」 -
構造化された要求: 複雑なタスクを順序付けられたステップに分解
例: 「次の手順でコードを分析してください: まずインポートを確認、次に関数の定義を確認、最後に主要なロジックをレビュー」 -
Diff形式の活用: コード編集では、完全な書き換えではなく変更部分のみを生成するようモデルに指示することでコストと待機時間を削減
例: 「次のコードに変更を加えてください。変更箇所のみをdiff形式で出力してください:- 変更前の行 + 変更後の行
」
長文脈の効果的な利用
100万トークンの文脈窓を最大限に活用するためのテクニック:
-
コンテキストの構造化: 最も重要な情報を先頭または末尾に配置
例: 「以下の文書を分析する際は、最初と最後に配置した要約部分に特に注目してください」 -
複数文書の整理: 関連文書をグループ化し、明確な区切りや見出しを使用
例: 「===== 文書1: 契約書 =====」「===== 文書2: 利用規約 =====」などの明確な区切り -
プロンプトキャッシュの活用: 繰り返し使用するコンテキストに対してキャッシングを活用し、コストを75%削減
APIリクエストでcachedPrompt
パラメータを使用することで、同じプロンプトを何度も送信する際のコスト削減が可能です
出力トークン制限の活用
GPT-4.1の出力トークン制限が32,768トークン(GPT-4oの16,384トークンから増加)になったことを活用:
-
完全なファイル生成: より大きなコードベースやドキュメントの一括生成が可能に
例: 「このWebアプリケーションの完全なフロントエンドコードを一度に生成してください」 -
Predicted Outputsの活用: 完全なファイル書き換えの待機時間を短縮
OpenAIのPredicted Outputs機能を使用することで、モデルが生成する可能性の高い出力を事前に予測し、レイテンシーを削減できます
7. 技術仕様と比較検討
GPT-4.1シリーズの技術仕様と他のモデルとの比較を詳細に見ていきましょう。
モデル仕様
仕様 | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | GPT-4o |
---|---|---|---|---|
最大コンテキスト長 | 100万トークン | 100万トークン | 100万トークン | 128,000トークン |
最大出力トークン | 32,768 | 32,768 | 32,768 | 16,384 |
知識カットオフ | 2024年6月 | 2024年6月 | 2024年6月 | 2023年4月 |
マルチモーダル | ✓ | ✓ | ✓ | ✓ |
ファインチューニング | ✓ | ✓ | 近日公開 | ✓ |
入力コスト(100万トークンあたり) | $2.00 | $0.40 | $0.10 | $2.70 |
出力コスト(100万トークンあたり) | $8.00 | $1.60 | $0.40 | $10.80 |
主要ベンチマークでの比較
コーディング性能:
- SWE-bench Verified: GPT-4.1 (54.6%) > GPT-4.5 (38.0%) > GPT-4o (33.2%)
- Aider's polyglot (diff): GPT-4.1 (52.9%) > GPT-4.5 (44.9%) > GPT-4o (18.2%)
- 比較: Gemini 2.5 Pro (~73%) > GPT-4.1 (52.9%)
指示追従性能:
- MultiChallenge: GPT-4.5 (43.8%) > GPT-4.1 (38.3%) > GPT-4o (27.8%)
- IFEval: GPT-4.5 (88.2%) > GPT-4.1 (87.4%) > GPT-4o (81.0%)
長文脈理解性能:
- OpenAI-MRCR (2 needle, 128k): GPT-4.1 (57.2%) > GPT-4.5 (38.5%) > GPT-4o (31.9%)
- Graphwalks BFS <128k: GPT-4.5 (72.3%) > GPT-4.1 (61.7%) > GPT-4o (41.7%)
ビジョン性能:
- MMMU: GPT-4.5 (75.2%) > GPT-4.1 (74.8%) > GPT-4o (68.7%)
- MathVista: GPT-4.1 mini (73.1%) > GPT-4.5 (72.3%) ≈ GPT-4.1 (72.2%) > GPT-4o (61.4%)
- Video-MME (長い、字幕なし): GPT-4.1 (72.0%) > GPT-4o (65.3%)
他社モデルとの比較
公開資料によると、GPT-4.1は多くのベンチマークで業界をリードしていますが、いくつかの点で他社のモデルに比べて特徴があります:
Claude 3.7 Sonnetとの比較:
- コーディング: Claude 3.7 Sonnet (SWE-bench: ~62.3%) > GPT-4.1 (54.6%)
- 価格: GPT-4.1 ($2.00/$8.00) < Claude 3.7 Sonnet ($3.00/$15.00)
- コンテキスト: 両モデルとも100万トークンをサポート
Gemini 2.5 Proとの比較:
- コーディング: Gemini 2.5 Pro (SWE-bench: ~63.8%, Aider polyglot: ~73%) > GPT-4.1 (54.6%, 52.9%)
- 価格: 短いプロンプトではGemini 2.5 Pro ($0.70)が有利、長いコンテキストではGPT-4.1がやや有利
- コンテキスト: 両モデルとも100万トークンをサポート
DeepSeekやLlama 3ベースのモデルとの比較:
- コスト効率: これらのオープンソースモデルは一般的に低コストで運用可能
- 性能: 特定のコーディングタスクではDeepSeek R1などが競争力を持つ
- 柔軟性: セルフホスティングによる完全なカスタマイズが可能
8. まとめと将来展望
GPT-4.1シリーズは、OpenAIがAPI開発者向けに特化して開発した新世代のモデルファミリーです。コーディング能力、指示追従の精度、長文脈処理という3つの核心的な領域で大幅な改善を実現し、開発者がより高度なアプリケーションとエージェントを構築するための強力な基盤を提供します。
特に注目すべき点:
- コーディング: SWE-benchで54.6%という実世界のソフトウェア開発タスクでの顕著な性能向上。フロントエンド開発、diff形式の信頼性、不要な編集の削減などの実用的な改善
- 指示追従: 複雑な指示、マルチターン会話、具体的なフォーマット要求に対するより正確な理解と実行。開発者の意図をより忠実に反映
- 長文脈: 100万トークンという前例のない文脈窓で、大規模なドキュメントやコードベースの処理が可能に。長いビデオコンテンツの理解能力も向上
- コスト効率: GPT-4oと比較して26%のコスト削減、GPT-4.1 nanoによる超低コストオプションの提供。プロンプトキャッシング割引の75%への増加
GPT-4.1シリーズは、開発者とAIの協働の新たな章を開くモデルとして、今後のAI開発エコシステムにおいて重要な役割を果たすでしょう。様々な産業分野においても、その影響は広範囲に及ぶと予想されます:
- 金融サービス: 大量の規制文書や契約書の処理、リスク分析の自動化。Carylleの例が示すように、複雑な財務データの抽出と分析の精度向上
- 法務: Thomson Reutersの例のように、複雑な法律文書の分析、判例研究、契約書レビューの効率化と精度向上
- 医療: 医学文献の大規模分析、臨床記録からの知見抽出、医療情報の構造化
- 教育: パーソナライズされた学習体験、教材開発の自動化、学生の質問に対する正確な回答生成
ただし、これらのモデルにも制限があることを認識することが重要です:
- 知識カットオフ: 2024年6月以降の情報は含まれていない。急速に変化する分野では外部データソースとの統合が必要
- 長文脈での精度低下: OpenAI-MRCRテストで示されるように、トークン数が増えるにつれて、一部のタスクでは精度が低下する場合がある
- モデルの文字通りの解釈: 特に明示的なプロンプトが必要であり、曖昧さに弱い場合がある
- 競合モデルとの比較: 特定のタスク(コーディングなど)では、Gemini 2.5 ProやClaude 3.7 Sonnetなどのモデルが上回る性能を示す場合がある
これらの制限を理解した上で、GPT-4.1シリーズは多くの開発シナリオで強力なツールとなり、AIの実用的な応用を大きく前進させるものと期待されます。特にGPT-4.1 miniとGPT-4.1 nanoは、コスト効率と性能のバランスが取れたモデルとして、幅広いユースケースに適用できるでしょう。
クイズで理解を深めよう
GPT-4.1シリーズについての理解を確認するために、以下の問題に挑戦してみましょう:
-
GPT-4.1の最大コンテキスト長は?
- 128,000トークン
- 100万トークン
- 200,000トークン
-
GPT-4.1シリーズの中で最もコスト効率が高いモデルは?
- GPT-4.1
- GPT-4.1 mini
- GPT-4.1 nano
-
SWE-bench Verifiedベンチマークでのスコアで正しいのは?
- GPT-4.1 (54.6%) > GPT-4o (33.2%)
- GPT-4o (54.6%) > GPT-4.1 (33.2%)
- GPT-4.1 (33.2%) = GPT-4o (33.2%)
-
GPT-4.1シリーズの知識カットオフ日は?
- 2023年4月
- 2024年6月
- 2025年1月
-
GPT-4.1の最大出力トークン数は?
- 16,384トークン
- 32,768トークン
- 100万トークン