企業名 | モデル名 | リリース日 | 特徴 |
---|---|---|---|
OpenAI | GPT-4.1 / mini | 2025年5月 | 高精度な推論、軽量版あり |
Gemini 2.5 Pro | 2025年5月 | Deep Thinkモード、音声出力、多言語対応 | |
Anthropic | Claude 3.5 Sonnet | 2024年6月21日 | 高速・コスト効率良、中間モデル |
Meta | LLaMA 3.3 | 2024年12月6日 | 低コスト、高性能、オープンソース |
Mistral | Mixtral 8x22B | 2024年4月17日 | SMoEアーキテクチャ、コスト効率高 |
OpenAI
GPT-4.1(2025年5月リリース)
知識カットオフは2024年に更新されったのですが,このたびUIで利用可能になりました.
GPT-4.1 miniは引き続きAPIのみの提供みたいです.
構築時の特徴:
- GPT-4.5およびGPT-4oからの改良を加えたモデルで、より高精度な推論と効率的な処理を実現
モデルの特徴
- 1Mのトークンのコンテキストウィンドウを持ち,長文能力が向上
- ChatGPTやAPI経由での利用が可能
- テキスト、推論、コーディングタスクにおいて高い精度を実現
GPT-4.1 mini(2025年5月リリース)
モデルの特徴
- GPT-4.1 miniは、軽量化されたバージョンで、リソース制限のある環境でも利用可能
- ChatGPTやAPI経由での利用が可能
各ベンチマーク
今回合わせてコーディングのエージェントCodexも利用可能になりました.
Codexとは?
クラウドベースのAIコーディングエージェントです。ChatGPTに統合され、自然言語での指示からコードの生成、バグ修正、テストの実行、プルリクエストの提案など、ソフトウェア開発の多岐にわたるタスクを自動化します。各タスクはユーザーのリポジトリをプリロードした安全なサンドボックス環境で実行されます。
主な機能
- 自然言語からのコード生成:ユーザーの指示を理解し,対応するコードを生成します.
- バグの検出と修正:コード内の問題を特定し,自動的に修正します.
- 自動テストの実行:生成したコードに対してテストを実行し,品質を保証します.
- プルリクエストの提案:コードの変更点をまとめ,レビュー用のプルリクエストを作成します.
- コードベースの理解と質問応答:ユーザーのコードベースを解析し,関連する質問に回答します.
- 複数タスクの並列処理:複数の開発タスクを同時に処理し,効率を向上させます.
技術的背景
- モデル:Codexは,OpenAIのo3推論モデルをソフトウェアエンジニアリング向けに最適化した「codex-1」に基づいています.
- トレーニング:実際のコーディングタスクに対する強化学習を通じて,指示への忠実な従い方や人間らしいコードスタイルの生成を学習しています.
- 実行環境:各タスクはクラウド上の仮想コンピュータ内で実行され,ユーザーの開発環境を再現します.
利用可能なプラン
Codexは以下のChatGPTプランで利用可能です:
- ChatGPT Pro
- ChatGPT Team
- ChatGPT Enterprise
今後,ChatGPT PlusおよびChatGPT Eduへの展開も予定されています.
セキュリティと制限
- インターネットアクセスの制限:セキュリティ確保のため,Codexはインターネットへのアクセスが制限されています.
- 依存関係のホワイトリスト化:使用可能なライブラリやパッケージはホワイトリストで管理され,不正なコードの実行を防ぎます.
- タスクの実行時間:各タスクの実行時間は1分から30分程度で,ユーザーの作業を妨げることなくバックグラウンドで処理されます.
Gemini 2.5 Pro(I/O Edition)
- 発表日:2025年5月6日(Google I/O 2025に先立ち早期アクセス提供)
- リリース予定:2025年5月20日(Google I/O 2025にて正式発表予定)
構築の際の特徴
- コーディング能力の強化:特にインタラクティブなウェブアプリの構築において,コード変換,編集,複雑なエージェントワークフローの開発などの能力が大幅に向上
- マルチモーダル推論能力の向上:テキスト,画像,動画など多様な情報源からの複雑な問題を理解し,処理する能力が強化
- 大規模コンテキストウィンドウ:最大100万トークンのコンテキストを処理可能
最新モデルの特徴
- Deep Thinkモード:複雑なタスクを効果的に処理するための高度な推論機能
- 音声出力と感情認識:ネイティブな音声出力と感情に基づいた対話が可能
- 多言語対応**:40以上の言語に対応し,グローバルなユーザーに対応
- Geminiアプリとの統合:Canvas機能を活用し,プロンプト一つでインタラクティブなウェブアプリを構築可能
ベンチマークの結果
- WebDev Arena Leaderboard:前バージョンより147 Eloポイント向上し,首位を獲得
- VideoMMEベンチマーク:84.8%のスコアを記録し,動画理解の分野で最先端のパフォーマンスを達成
Anthropic
Claude 3.5 Sonnet(2024年6月21日リリース)
構築時の特徴
- 200Kトークンのコンテキストウィンドウ:長文の処理や複雑なタスクに対応.
- 高速化とコスト効率の向上:前モデルClaude 3 Opusと比較して2倍の速度,5分の1のコストで動作.
- マルチモーダル対応:テキストと画像の両方を処理可能.
モデルの特徴
- 高度な推論能力:大学院レベルの推論(GPQA),学部レベルの知識(MMLU),コーディング能力(HumanEval)で高評価.
- 「Artifacts」機能:生成されたコンテンツのリアルタイム更新が可能.
- アクセス方法:Claude.ai,Claude iOSアプリ,Anthropic API,Amazon Bedrock,Google CloudのVertex AIを通じて利用可能.
ベンチマーク結果
- SWE-bench Verified:49%(従来の最高スコア45%を上回る) (anthropic.com).
- HumanEval:93.7%(Python関数の正確な生成能力を評価) (anthropic.com).
Anthropic
Claude 3.5 Sonnet(2024年6月21日リリース)
構築時の特徴
- Claude 3ファミリーの中間モデルとして位置づけられ,バランスのとれた性能とコスト効率を実現.
- 200Kトークンのコンテキストウィンドウを持ち,長文の処理や複雑な推論にも対応可能.
- Claude 3 Opusより2倍高速で,コストは約5分の1と大幅な改善.
モデルの特徴
- マルチモーダル対応:テキストと画像の両方を処理可能.
- 高度な推論能力:大学院レベルの質問応答(GPQA),大学学部レベルの知識(MMLU),コーディングスキル(HumanEval)で高評価.
- Artifacts機能:Claude.ai上で,ユーザーが生成したコンテンツをリアルタイムで更新・管理できる新機能.
- Claude 3.5シリーズの先駆けとして,他のClaude 3.5(Opus,Haiku)のリリースに先駆けて登場.
ベンチマーク結果
- SWE-bench Verified:49%(従来の最高スコア45%を上回る).
- HumanEval:93.7%(Pythonコード生成の精度を測るベンチマーク).
Meta
LLaMA 3.3(2024年12月6日リリース)
構築時の特徴
- 70Bパラメータのモデル:MetaのLLaMA 3.1 405Bモデルと同等の性能を、より小さなモデルサイズで実現. :contentReference[oaicite:0]{index=0}
- Grouped-Query Attention(GQA):推論のスケーラビリティを向上させるためにGQAを採用. :contentReference[oaicite:1]{index=1}
- 128Kトークンのコンテキストウィンドウ:長文の処理や複雑なタスクに対応可能. :contentReference[oaicite:2]{index=2}
- 15兆トークン以上のデータで事前学習:公開データを中心に大規模なデータセットで学習. :contentReference[oaicite:3]{index=3}
モデルの特徴
- 指示追従能力の向上:自然言語の指示を正確に解釈し、実行する能力が強化. :contentReference[oaicite:4]{index=4}
- 多言語対応:英語,ドイツ語,フランス語,イタリア語,ポルトガル語,ヒンディー語,スペイン語,タイ語など、複数の言語に対応. :contentReference[oaicite:5]{index=5}
- コード生成能力:HumanEvalで89.0、MBPP EvalPlusで88.6のスコアを達成し、コード生成タスクで高い性能を示す. :contentReference[oaicite:6]{index=6}
- オープンソースライセンス:商用利用可能なカスタムライセンスで提供. :contentReference[oaicite:7]{index=7}
ベンチマーク結果
- IFEval(指示追従):92.1
- HumanEval(コード生成):89.0
- MBPP EvalPlus(コード生成):88.6
- MGSM(多言語数学):91.6
- MMLU(一般知識):一部の評価でGemini 1.5 ProやGPT-4を上回る性能を示す. :contentReference[oaicite:8]{index=8}
Mistral
Mixtral 8x22B(2024年4月17日リリース)
構築時の特徴
- Sparse Mixture-of-Experts(SMoE)アーキテクチャ:8つのエキスパートのうち2つをトークンごとに選択し、最大1410億パラメータのうち約390億パラメータをアクティブに使用.これにより、高性能と効率性を両立.
- 64Kトークンのコンテキストウィンドウ:長文処理や複雑なタスクに対応可能.
- Apache 2.0ライセンス:オープンソースで商用利用も可能.
モデルの特徴
- 多言語対応:英語,フランス語,ドイツ語,イタリア語,スペイン語などに対応.
- 高い推論能力:複雑な自然言語処理タスクやコード生成,数学的推論に優れた性能を発揮.
- 高いコスト効率:同等の性能を持つ他の大規模モデルと比較して,推論コストが低い.
ベンチマーク結果
- MMLU(5-shot):77.81
- HellaSwag(10-shot):88.73
- Winogrande(5-shot):84.53
- GSM8k(5-shot):74.15
- TruthfulQA(0-shot):51.08
- AI2 Reasoning Challenge(25-shot):70.48