0
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

【最新LLMモデル】最近のLLMモデルの更新をまとめた(2025.5月)

Last updated at Posted at 2025-05-21
企業名 モデル名 リリース日 特徴
OpenAI GPT-4.1 / mini 2025年5月 高精度な推論、軽量版あり
Google Gemini 2.5 Pro 2025年5月 Deep Thinkモード、音声出力、多言語対応
Anthropic Claude 3.5 Sonnet 2024年6月21日 高速・コスト効率良、中間モデル
Meta LLaMA 3.3 2024年12月6日 低コスト、高性能、オープンソース
Mistral Mixtral 8x22B 2024年4月17日 SMoEアーキテクチャ、コスト効率高

OpenAI

GPT-4.1(2025年5月リリース)

知識カットオフは2024年に更新されったのですが,このたびUIで利用可能になりました.
GPT-4.1 miniは引き続きAPIのみの提供みたいです.

構築時の特徴:

  • GPT-4.5およびGPT-4oからの改良を加えたモデルで、より高精度な推論と効率的な処理を実現

モデルの特徴

  • 1Mのトークンのコンテキストウィンドウを持ち,長文能力が向上
  • ChatGPTやAPI経由での利用が可能
  • テキスト、推論、コーディングタスクにおいて高い精度を実現

GPT-4.1 mini(2025年5月リリース)

モデルの特徴

  • GPT-4.1 miniは、軽量化されたバージョンで、リソース制限のある環境でも利用可能
  • ChatGPTやAPI経由での利用が可能

各ベンチマーク

スクリーンショット 2025-05-21 22.06.31.png

スクリーンショット 2025-05-21 22.06.55.png

スクリーンショット 2025-05-21 22.07.15.png

今回合わせてコーディングのエージェントCodexも利用可能になりました.

Codexとは?

クラウドベースのAIコーディングエージェントです。ChatGPTに統合され、自然言語での指示からコードの生成、バグ修正、テストの実行、プルリクエストの提案など、ソフトウェア開発の多岐にわたるタスクを自動化します。各タスクはユーザーのリポジトリをプリロードした安全なサンドボックス環境で実行されます。

主な機能

  • 自然言語からのコード生成:ユーザーの指示を理解し,対応するコードを生成します.
  • バグの検出と修正:コード内の問題を特定し,自動的に修正します.
  • 自動テストの実行:生成したコードに対してテストを実行し,品質を保証します.
  • プルリクエストの提案:コードの変更点をまとめ,レビュー用のプルリクエストを作成します.
  • コードベースの理解と質問応答:ユーザーのコードベースを解析し,関連する質問に回答します.
  • 複数タスクの並列処理:複数の開発タスクを同時に処理し,効率を向上させます.

技術的背景

  • モデル:Codexは,OpenAIのo3推論モデルをソフトウェアエンジニアリング向けに最適化した「codex-1」に基づいています.
  • トレーニング:実際のコーディングタスクに対する強化学習を通じて,指示への忠実な従い方や人間らしいコードスタイルの生成を学習しています.
  • 実行環境:各タスクはクラウド上の仮想コンピュータ内で実行され,ユーザーの開発環境を再現します.

利用可能なプラン

Codexは以下のChatGPTプランで利用可能です:

  • ChatGPT Pro
  • ChatGPT Team
  • ChatGPT Enterprise

今後,ChatGPT PlusおよびChatGPT Eduへの展開も予定されています.

セキュリティと制限

  • インターネットアクセスの制限:セキュリティ確保のため,Codexはインターネットへのアクセスが制限されています.
  • 依存関係のホワイトリスト化:使用可能なライブラリやパッケージはホワイトリストで管理され,不正なコードの実行を防ぎます.
  • タスクの実行時間:各タスクの実行時間は1分から30分程度で,ユーザーの作業を妨げることなくバックグラウンドで処理されます.

OpenAI公式発表

Google

Gemini 2.5 Pro(I/O Edition)

  • 発表日:2025年5月6日(Google I/O 2025に先立ち早期アクセス提供)
  • リリース予定:2025年5月20日(Google I/O 2025にて正式発表予定)

構築の際の特徴

  • コーディング能力の強化:特にインタラクティブなウェブアプリの構築において,コード変換,編集,複雑なエージェントワークフローの開発などの能力が大幅に向上
  • マルチモーダル推論能力の向上:テキスト,画像,動画など多様な情報源からの複雑な問題を理解し,処理する能力が強化
  • 大規模コンテキストウィンドウ:最大100万トークンのコンテキストを処理可能

最新モデルの特徴

  • Deep Thinkモード:複雑なタスクを効果的に処理するための高度な推論機能
  • 音声出力と感情認識:ネイティブな音声出力と感情に基づいた対話が可能
  • 多言語対応**:40以上の言語に対応し,グローバルなユーザーに対応
  • Geminiアプリとの統合:Canvas機能を活用し,プロンプト一つでインタラクティブなウェブアプリを構築可能

ベンチマークの結果

  • WebDev Arena Leaderboard:前バージョンより147 Eloポイント向上し,首位を獲得
  • VideoMMEベンチマーク:84.8%のスコアを記録し,動画理解の分野で最先端のパフォーマンスを達成

Google公式

Anthropic

Claude 3.5 Sonnet(2024年6月21日リリース)

構築時の特徴

  • 200Kトークンのコンテキストウィンドウ:長文の処理や複雑なタスクに対応.
  • 高速化とコスト効率の向上:前モデルClaude 3 Opusと比較して2倍の速度,5分の1のコストで動作.
  • マルチモーダル対応:テキストと画像の両方を処理可能.

モデルの特徴

  • 高度な推論能力:大学院レベルの推論(GPQA),学部レベルの知識(MMLU),コーディング能力(HumanEval)で高評価.
  • 「Artifacts」機能:生成されたコンテンツのリアルタイム更新が可能.
  • アクセス方法:Claude.ai,Claude iOSアプリ,Anthropic API,Amazon Bedrock,Google CloudのVertex AIを通じて利用可能.

ベンチマーク結果

  • SWE-bench Verified:49%(従来の最高スコア45%を上回る) (anthropic.com).
  • HumanEval:93.7%(Python関数の正確な生成能力を評価) (anthropic.com).

Anthropic公式:Claude 3.5 Sonnet

Anthropic

Claude 3.5 Sonnet(2024年6月21日リリース)

構築時の特徴

  • Claude 3ファミリーの中間モデルとして位置づけられ,バランスのとれた性能とコスト効率を実現.
  • 200Kトークンのコンテキストウィンドウを持ち,長文の処理や複雑な推論にも対応可能.
  • Claude 3 Opusより2倍高速で,コストは約5分の1と大幅な改善.

モデルの特徴

  • マルチモーダル対応:テキストと画像の両方を処理可能.
  • 高度な推論能力:大学院レベルの質問応答(GPQA),大学学部レベルの知識(MMLU),コーディングスキル(HumanEval)で高評価.
  • Artifacts機能:Claude.ai上で,ユーザーが生成したコンテンツをリアルタイムで更新・管理できる新機能.
  • Claude 3.5シリーズの先駆けとして,他のClaude 3.5(Opus,Haiku)のリリースに先駆けて登場.

ベンチマーク結果

  • SWE-bench Verified:49%(従来の最高スコア45%を上回る).
  • HumanEval:93.7%(Pythonコード生成の精度を測るベンチマーク).

Meta

LLaMA 3.3(2024年12月6日リリース)

構築時の特徴

  • 70Bパラメータのモデル:MetaのLLaMA 3.1 405Bモデルと同等の性能を、より小さなモデルサイズで実現. :contentReference[oaicite:0]{index=0}
  • Grouped-Query Attention(GQA):推論のスケーラビリティを向上させるためにGQAを採用. :contentReference[oaicite:1]{index=1}
  • 128Kトークンのコンテキストウィンドウ:長文の処理や複雑なタスクに対応可能. :contentReference[oaicite:2]{index=2}
  • 15兆トークン以上のデータで事前学習:公開データを中心に大規模なデータセットで学習. :contentReference[oaicite:3]{index=3}

モデルの特徴

  • 指示追従能力の向上:自然言語の指示を正確に解釈し、実行する能力が強化. :contentReference[oaicite:4]{index=4}
  • 多言語対応:英語,ドイツ語,フランス語,イタリア語,ポルトガル語,ヒンディー語,スペイン語,タイ語など、複数の言語に対応. :contentReference[oaicite:5]{index=5}
  • コード生成能力:HumanEvalで89.0、MBPP EvalPlusで88.6のスコアを達成し、コード生成タスクで高い性能を示す. :contentReference[oaicite:6]{index=6}
  • オープンソースライセンス:商用利用可能なカスタムライセンスで提供. :contentReference[oaicite:7]{index=7}

ベンチマーク結果

  • IFEval(指示追従):92.1
  • HumanEval(コード生成):89.0
  • MBPP EvalPlus(コード生成):88.6
  • MGSM(多言語数学):91.6
  • MMLU(一般知識):一部の評価でGemini 1.5 ProやGPT-4を上回る性能を示す. :contentReference[oaicite:8]{index=8}

Meta公式:LLaMA 3.3の発表

Mistral

Mixtral 8x22B(2024年4月17日リリース)

構築時の特徴

  • Sparse Mixture-of-Experts(SMoE)アーキテクチャ:8つのエキスパートのうち2つをトークンごとに選択し、最大1410億パラメータのうち約390億パラメータをアクティブに使用.これにより、高性能と効率性を両立.
  • 64Kトークンのコンテキストウィンドウ:長文処理や複雑なタスクに対応可能.
  • Apache 2.0ライセンス:オープンソースで商用利用も可能.

モデルの特徴

  • 多言語対応:英語,フランス語,ドイツ語,イタリア語,スペイン語などに対応.
  • 高い推論能力:複雑な自然言語処理タスクやコード生成,数学的推論に優れた性能を発揮.
  • 高いコスト効率:同等の性能を持つ他の大規模モデルと比較して,推論コストが低い.

ベンチマーク結果

  • MMLU(5-shot):77.81
  • HellaSwag(10-shot):88.73
  • Winogrande(5-shot):84.53
  • GSM8k(5-shot):74.15
  • TruthfulQA(0-shot):51.08
  • AI2 Reasoning Challenge(25-shot):70.48

Mistral公式:Mixtral 8x22Bリリース

0
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?