はじめに
2026年4月は、LLM界隈にとってかなり動きの大きい1か月でした。
GPTやClaudeのようなクローズドモデルだけでなく、Qwen、DeepSeek、Gemma、Kimiなどのオープンウェイト系モデルにも動きがあり、主要なLLMの位置づけが改めて見えた月だったように感じます。
今回の一連の動きで印象的だったのは、単に新しいモデルが増えたことだけではありません。各社のリリースを追っていると、LLMの競争軸が「モデル単体の性能」だけではなく、「そのモデルをどのような環境で、どれだけ使いやすく動かせるか」に移ってきているように見えました。
つまり、知識量やベンチマークだけでなく、ツール連携、UI、エージェント機能、画像生成、リサーチ機能、ローカル実行のしやすさなども含めて、LLMを見ていく必要が出てきています。
本記事では、2026年4月の主要LLM動向を振り返りながら、2026年5月初旬時点での主要LLMの動きと、筆者が感じた印象を整理します。
2026年4月、主要LLMで何が変わったのか
2026年4月の動きで印象的だったのは、新しいモデルが多く出たこと以上に、各社の差が「モデルそのもの」だけでは見えにくくなってきたことです。
以前は、新しいモデルが出るたびに「どれだけ賢くなったか」「ベンチマークでどこまで伸びたか」が大きな注目点でした。もちろん今でもモデル性能は重要ですが、最近は強いモデルが増えたことで、単体性能だけでは違いを説明しにくくなっています。
そこで目立ってきたのが、ハーネスの差です。つまり、モデルをどのツールにつなぐのか、どう作業を進めさせるのか、どのタイミングで検証させるのか、ユーザーにどこまで権限を渡させるのか、といった設計の違いです。
同じように高性能なLLMでも、ハーネスが弱ければ「賢い回答を返すだけ」で終わります。一方で、ハーネスがよくできていれば、コードを書き、ファイルを読み、ブラウザを操作し、結果を検証しながら、実際の作業を進めるエージェントになります。
その意味で2026年4月は、「どのモデルが一番賢いか」だけでなく、「どのモデルが一番うまく使える形に組み込まれているか」が、より重要になった月だったと思います。
早見表
| 日付 | 主な発表 | 種別 | 内容 |
|---|---|---|---|
| 4/2 | GoogleがGemma 4を公開 | オープンウェイト | マルチモーダル対応の軽量・中量級モデル |
| 4/7 | Z.aiがGLM-5.1を公開 | オープンウェイト/API | 長時間の自律タスクやエージェント実行を前面に出したモデル |
| 4/15 | AlibabaがQwen3.6-35B-A3Bを公開 | オープンウェイト | 35B総パラメータ・3B activeの軽量MoE。agentic coding向け |
| 4/15 | GoogleがGemini 3.1 Flash TTSを発表 | クローズド/音声 | 表現制御と多言語対応を強化した音声生成モデル |
| 4/16 | AnthropicがClaude Opus 4.7を発表 | クローズド | コーディング、視覚理解、長時間タスクが強化された主力モデル |
| 4/16 | OpenAIがCodexを大幅アップデート | クローズド/ハーネス | PC操作、ブラウザ、PRレビュー、メモリなどを強化 |
| 4/20 | Moonshot AIがKimi K2.6を公開 | オープンウェイト | 1T級MoE。コーディングやエージェント用途に強いモデル |
| 4/21 | OpenAIがGPT Image 2を発表 | クローズド/画像 | 画像生成・編集モデルの更新 |
| 4/21 | GoogleがDeep Research Maxを発表 | クローズド/エージェント | Gemini 3.1 Proベースの研究エージェントを強化 |
| 4/22 | AlibabaがQwen3.6-27Bを公開 | オープンウェイト | 27B denseの実用的なコーディング向けモデル |
| 4/23 | OpenAIがGPT-5.5を発表 | クローズド | 実務エージェント色の強い主力モデル更新 |
| 4/24 | DeepSeekがDeepSeek-V4を公開 | オープンウェイト | 1M contextに対応した大型MoEモデル |
| 4/29 | MistralがMistral Medium 3.5を公開 | オープンウェイト | 128B denseのオープンウェイトモデル |
4/2 Google Gemma 4:軽量・中量級モデルの実用性を押し上げる
Googleは4月2日に、オープンウェイトモデルファミリーの最新版であるGemma 4を公開しました。前世代のGemma 3から約1年ぶりの大きな更新です。
特に大きいのは、ライセンスがGoogle独自のGemma Terms of UseからApache 2.0に変わったことです。これにより、商用利用や社内導入、プロダクト組み込みの候補として検討しやすくなりました。
モデルはE2B、E4B、26B MoE、31B Denseの4種類です。E2B/E4Bはスマホやエッジデバイス向け、26B MoEは効率重視、31B Denseは品質重視という位置づけです。
機能面では、画像・動画入力、E2B/E4Bでの音声入力、最大256Kコンテキスト、function callingやJSON出力など、エージェント用途を意識した機能が強化されています。
コミュニティでの反応を見る限り、Gemma 4は概ね好意的に受け止められているように見えます。特に、ローカルで動かしやすいことや、サイズのわりに性能が高いことは評価されていました。
一方で、tool callingやsystem promptの遵守、長文コンテキストでの安定性には課題も指摘されていました。それでも、ローカル実行や商用組み込みを考えるうえでは、かなり現実的な選択肢になってきたモデルだと感じます。
4/7 Z.ai GLM-5.1:長時間タスクを前面に出したエージェント志向
Z.aiは4月7日に、最新モデルであるGLM-5.1を公開しました。GLM-5.1は、2026年2月に公開されたGLM-5をベースに、長時間のエージェント実行向けに強化されたモデルです。
GLM-5は、コード生成だけでなく、複雑なシステム設計や長距離のAgentタスクを意識した基盤モデルでした。GLM-5.1ではそこからさらに、最大8時間の自律実行、計画・実行・検証・修正を含む長い作業ループ、長時間タスク中の安定性やtool useの改善が前面に出されています。
機能面では、200Kコンテキスト、128K出力、function calling、structured output、MCP連携などに対応しています。単なるチャットモデルというより、コーディングエージェントや長時間作業エージェントの土台として位置づけられているモデルだと感じます。
GLM-5.1は「1回の質問にどれだけ賢く答えるか」よりも、「長い作業をどこまで破綻せずに進められるか」を強く打ち出している点が印象的でした。Gemma 4がローカル実行や組み込みやすさの現実感を見せたモデルだとすると、GLM-5.1は長時間エージェント実行の方向性をかなり明確に示したモデルだと思います。
4/15 Qwen3.6-35B-A3B:効率重視のMoEでagentic codingを強化
AlibabaのQwenチームは4月15日に、Qwen3.6系列では初のオープンウェイトモデルとなるQwen3.6-35B-A3Bを公開しました。
Qwen3.6-35B-A3Bは、35B総パラメータのMoEモデルですが、推論時に実際に使われるのは約3Bパラメータです。全体としては大きなモデルの知識や表現力を持ちつつ、実行時の計算量は比較的軽く抑える設計になっています。
前世代のQwen3.5-35B-A3Bと比べると、特にagentic codingが強化されています。公式発表でも、フロントエンド開発、リポジトリレベルの推論、長い開発タスクでの安定性が前面に出されており、単発のコード生成よりも、実際の開発ワークフローで使うことを意識したモデルです。
また、画像・動画を扱えるマルチモーダルモデルであり、ネイティブで256Kコンテキスト、拡張時には約1Mトークンまで対応できる点も特徴です。ライセンスはApache 2.0で、Hugging FaceやModelScopeから重みを利用できます。
Gemma 4がローカル実行や組み込みやすさの現実感を見せたモデルだとすると、Qwen3.6-35B-A3Bは、オープンウェイトでもagentic codingをかなり現実的に狙えることを示したモデルだと思います。
4/15 Gemini 3.1 Flash TTS:音声もモデル競争の一部に
Googleは4月15日に、テキスト読み上げモデルのGemini 3.1 Flash TTSを公開しました。
Gemini 3.1 Flash TTSは、単にテキストを音声に変換するモデルというより、声の出し方を細かく制御できる音声生成モデルです。Audio Tagsを使うことで、話す速度、トーン、感情表現、間の取り方などをテキスト側から指定できます。
また、30種類の音声、70以上の言語、複数話者の会話生成に対応しており、ナレーション、動画、ポッドキャスト、音声UI、カスタマーサポートなどで使いやすいモデルになっています。Gemini API、Google AI Studio、Vertex AIなどから利用できます。
LLMの競争というとテキストやコードに注目しがちですが、Gemini 3.1 Flash TTSを見ると、音声もかなり重要な領域になってきていることがわかります。今後は、LLMを「文章を返すモデル」としてだけでなく、音声や画像も含めたマルチモーダルな体験全体で見る必要がありそうです。
4/16 Claude Opus 4.7:長時間作業と視覚理解の強化
Anthropicは4月16日にClaude Opus 4.7を公開しました。公式には、ソフトウェアエンジニアリング、長時間タスク、視覚理解が強化されたモデルとして位置づけられています。特に、難しいコーディングタスクを人間が逐一指示しなくても進められることや、長い作業の中で自分の出力を検証しながら進めることが強調されています。
一方で、ユーザー側の反応を見ると、Opus 4.7は公式の打ち出しほど素直に歓迎されているわけではなさそうです。最近のClaudeについては性能低下を指摘する声があり、Opus 4.7についても、以前より挙動が不安定になった、トークン消費が増えてセッション制限に引っかかりやすくなった、普段使いしづらいといった不満が見られます。
そのため、Opus 4.7はベンチマークや公式説明上は長時間作業・コーディング向けに強化されたモデルでありつつ、実際の利用体験としてはコストや制限、安定性の面で評価が割れているモデルだと感じます。
4/16 Codex大規模アップデート:開発作業を任せるエージェント環境へ
OpenAIは4月16日に、Codexの大規模アップデート「Codex for (almost) everything」を発表しました。Codex自体は以前から提供されていましたが、今回の更新では、単なるコーディング支援を超えて、開発作業全体を支えるエージェント環境としての側面が強くなっています。
今回大きいのは、Codexが実際の開発作業に入り込みやすくなった点です。PC操作、アプリ内ブラウザ、複数ターミナル、PRレビュー、SSH接続、画像生成、外部ツール連携などが追加・強化され、ファイルを読み、コードを書き、実行し、ブラウザで確認し、レビューに対応する流れを一つの環境で進めやすくなっています。
また、メモリ、継続タスク、自動化、次にやるべき作業の提案といった機能も追加されており、単発のコード生成ではなく、過去の文脈を引き継ぎながら作業を継続する方向が強くなっています。
この動きは、4月の発表の中でもかなり大きく、個人的にも好印象でした。これまでエージェント型AIではClaudeが先行していた印象がありますが、OpenAIはCodexにPC操作、ブラウザ、PRレビュー、外部ツール連携、メモリ、継続タスクなどをまとめることで、開発作業を任せられる環境としての完成度を大きく高めてきました。
これは、OpenAIが目指す「汎用的なAIモデル」にかなり近づく動きだったように感じます。今回のアップデートでは、モデルを実際のアプリや開発ワークフローにつなぐ部分が大きく強化されています。Codexが日常的な作業環境の中で使いやすくなったことで、AIを単なるチャット相手ではなく、より汎用的な作業パートナーとして使う方向性が見えてきたと思います。
4/20 Kimi K2.6:オープンウェイトでもエージェント実行を強く意識
Moonshot AIは4月20日に、Kimi K2.6を公開しました。Kimi K2.6は、コーディング、長時間実行、Agent Swarmを前面に出したオープンウェイトモデルです。
前世代のKimi K2.5と比べると、特に長時間コーディングと複数エージェント実行が強化されています。公式ブログでは、複雑なend-to-end codingタスクでK2.5を大きく上回るとされており、Agent Swarmも100サブエージェント・1,500ステップから、300サブエージェント・4,000ステップへ拡張されています。
モデルとしては1T総パラメータ、32B activeのMoE構成で、256Kコンテキストに対応しています。ライセンスはModified MITで、Hugging Faceから重みを利用できます。
Agent Swarmとは、1つの大きなタスクを複数のサブエージェントに分けて並列に進める仕組みです。Kimi K2.6では、コーディング、tool calling、長時間実行の安定性が改善されており、単発のコード生成というより、長い開発作業を複数エージェントで進める方向に寄せたモデルだと言えます。
この流れは、QwenやGLMとも近く、オープンウェイトモデルでもエージェント用途を本格的に狙う動きが強まっていることを示しています。Kimi K2.6は、その中でも特に「長時間のコーディング作業」と「複数エージェントによる協調実行」を強く打ち出したモデルとして位置づけられそうです。
4/21 GPT Image 2:複雑な指示やレイアウトに強くなった画像生成モデル
OpenAIは4月21日に、ChatGPT上の画像生成機能であるChatGPT Images 2.0を公開しました。APIでは gpt-image-2 として提供されています。
今回の特徴の一つは、画像生成でthinkingに対応したことです。生成前により時間をかけて構図や内容を計画・調整できるようになり、複雑な指示、細かいレイアウト、文字を含む画像、複数要素の関係性などを扱いやすくなっています。
また、画像生成だけでなく編集にも対応しており、既存画像をもとにした修正やバリエーション作成もしやすくなっています。
実際に筆者も使用してみましたが、想像以上の品質でした。日本語の描画能力だけでなく、全体のデザイン品質も大きく向上しており、追加の細かな修正にもかなり素直に追従してくれる印象があります。
さらに、これらの画像生成・編集機能をCodexアプリ上から簡単に呼び出せる点も好印象でした。コミュニティの反応を見ても評価はかなり高く、GPT Image 2は単なる画像生成モデルというより、資料作成やUIモック、フロントエンド制作を支える実用的な制作ツールに近づいていると感じます。
4/21 Google Deep Research Max:調査エージェントの高度化
Googleは4月21日に、Gemini API向けにDeep ResearchとDeep Research Maxを発表しました。どちらもGemini 3.1 Proをベースにした自律型の調査エージェントです。
Deep Researchは速度と効率を重視したモデル、Deep Research Maxはより高品質で網羅的な調査を行うモデルという位置づけです。Web上の情報だけでなく、MCPやFile Searchを通じて社内ドキュメントや専門データにも接続でき、引用付きのレポートやグラフ、インフォグラフィックを生成できます。
特に重要なのは、調査の流れを単なる検索・要約で終わらせず、計画、情報収集、分析、可視化、レポート作成まで一連のワークフローとして扱っている点です。これは、Codexが開発作業に入り込んでいく動きと近く、Deep Research Maxは調査・分析業務に入り込むエージェントとして位置づけられます。
LLMを「質問に答えるモデル」として使うだけでなく、数時間かかる調査や資料作成の土台として使う流れが強まっていることを示す発表だと感じます。特に、企業内データや外部データソースに接続できる点は、業務利用をかなり意識した更新だと思います。
4/22 Qwen3.6-27B:27B denseで実用ラインを狙う
AlibabaのQwenチームは4月22日に、Qwen3.6-27Bを公開しました。Qwen3.6-35B-A3Bに続くオープンウェイトモデルで、こちらはMoEではなく27Bパラメータのdenseモデルです。
denseモデルは、推論時に全パラメータを使う構成のため、MoEのようなルーティングの複雑さがありません。そのぶんデプロイや推論環境の見通しを立てやすく、実際に使うモデルとして扱いやすいのが特徴です。
公式発表では、Qwen3.6-27Bは前世代のオープンウェイトフラグシップモデルであるQwen3.5-397B-A17Bを、主要なagentic codingベンチマークで上回るとされています。27Bという比較的現実的なサイズで、リポジトリレベルの推論やフロントエンド開発などを狙える点はかなり印象的です。
また、テキストだけでなく画像・動画も扱えるマルチモーダルモデルで、推論過程を使うモードと通常応答モードの両方に対応しています。ライセンスはApache 2.0で、Hugging FaceやModelScopeから重みを利用できます。
Qwen3.6-35B-A3BがMoEによる効率性を前面に出したモデルだとすると、Qwen3.6-27Bはdenseモデルとしての扱いやすさと、実用的なコーディング性能を両立させたモデルだと言えそうです。オープンウェイトでも、ローカルや自社環境でかなり強いコーディングモデルを使える流れが一段進んだ印象があります。
4/23 GPT-5.5:実務エージェントとしての主力モデル更新
OpenAIは4月23日に、GPT-5.5を発表しました。リリースノートでも、プロフェッショナルな作業向けのフロンティアモデルとして紹介されています。
GPT-5.5では、コード作成・デバッグ、オンライン調査、データ分析、ドキュメントやスプレッドシートの作成、ソフトウェア操作など、実務に近いタスクを進める能力が強調されています。単に質問に答えるだけでなく、ツールを使いながら作業を完了させる方向がより強く打ち出されています。
実際に使ってみると、レイテンシは速く、出力内容もかなり安定している印象でした。特にCodex上でのコーディングや調査では、複雑な依頼を理解して作業を前に進める力が強く、実務エージェントとしてかなり高い水準に到達していると感じました。
全体として、GPT-5.5は単なるチャットモデルというより、CodexやChatGPTの作業環境と組み合わせて価値が出るモデルだと感じます。今後は、モデル単体のベンチマークだけでなく、実際にどれだけ作業を最後まで進められるかという観点も重要になっていきそうです。
4/24 DeepSeek-V4:1Mコンテキストを備えた大型MoEモデル
DeepSeekは4月24日に、DeepSeek-V4を公開しました。V4-ProとV4-Flashの2種類が用意されており、どちらもMoE構成のオープンウェイトモデルです。
V4-Proは1.6T総パラメータ・49B active、V4-Flashは284B総パラメータ・13B activeで、どちらも1Mトークンのコンテキスト長に対応しています。大規模なコードベース、長いドキュメント、過去の作業ログなどをまとめて扱いやすい点が特徴です。
モデル自体はテキスト専用で、画像や音声、動画を扱うマルチモーダルモデルではありません。一方で、1Mコンテキストを活かして、長大な文書やコードベースをまとめて扱う用途にはかなり強そうです。
ただし、MITライセンスで商用利用しやすい一方で、モデル規模は非常に大きく、一般的なノートPCで気軽に動かせるものではありません。そのため、実際の利用はAPIやクラウド、高メモリGPU環境を持つ企業・研究機関が中心になりそうです。
4/29 Mistral Medium 3.5:会話・推論・コーディングを1つに統合
Mistralは4月29日に、Mistral Medium 3.5を公開しました。128Bパラメータのdenseモデルで、会話、推論、コーディングといった用途を1つにまとめたオープンウェイトモデルです。
大きな変化は、従来分かれていた汎用チャット向けのMistral Medium 3.1、推論向けのMagistral、コーディング向けのDevstral 2を、1つのモデルにまとめた点です。reasoning effortをリクエストごとに調整できるため、軽い応答から複雑なコーディング・推論タスクまで同じモデルで扱えます。
性能面では、agentic codingやreasoningで強い結果が出ており、256Kコンテキスト、画像入力、function calling、structured outputにも対応しています。ただし、128B denseという構成上、一般的なノートPCで気軽に動かすモデルではなく、セルフホストには高性能なGPU環境が必要です。
日本では日常的に使われている印象はまだ強くありませんが、欧州ではAI規制やデータ管理の観点から、欧州内で運用しやすいモデルとして存在感を高めています。個人向けの話題性というより、企業や行政機関での導入を意識したモデルだと言えます。
まとめ
4月は、クローズドモデルとオープンウェイトモデルの両方で非常に活気のある月でした。
クローズドモデルでは、OpenAIの存在感が特に大きかったです。Codexアプリの大幅刷新、GPT-5.5、GPT Image 2という3つの動きから、モデル単体だけではなく、開発・調査・画像生成まで含めた作業環境全体を強化している印象を受けました。一方でAnthropicのClaudeは、性能への期待値が高いぶん、既存モデルの性能低下やClaude Codeの制限に対する不満も目立ちました。ただし5月上旬にはClaude Codeの5時間制限を2倍に引き上げるなど改善も進んでおり、今後の巻き返しに期待したいところです。
Googleは4月に新しい主力モデルを出したというより、Deep ResearchやTTS、Gemini周辺機能の整備が中心だった印象です。ただ、回答の正確性や安定性に対する不満が話題になることもあり、GPT Image 2の登場によって画像生成面での優位性も相対的に弱まりつつあるため、GPTやClaudeと比べるとやや存在感が薄くなっているようにも見えます。
オープンウェイトでは、小型・中型・大型それぞれで多くのモデルが登場しました。Gemma 4はローカル実行や商用組み込みの現実感を高め、Qwen3.6はagentic codingに強い実用的な中型モデルとして存在感を示しました。Kimi K2.6は長時間コーディングや複数エージェント実行を前面に出し、DeepSeek-V4は1Mコンテキストと高いコスト効率で注目されました。
特に印象的だったのは、オープンウェイトモデルが単なる「クローズドモデルの廉価版」ではなくなってきたことです。小型モデルはエッジやローカル実行、中型モデルは開発支援やプロダクト組み込み、大型モデルはクラウドや企業内基盤というように、用途ごとの棲み分けがかなり明確になってきています。さらに、tool use、長文コンテキスト、エージェント実行、マルチモーダル対応など、実務で必要になる機能も急速に揃ってきました。
全体として、4月は「モデル単体の賢さ」だけでなく、「どれだけ実際の作業に入り込めるか」がより重要になった月でした。クローズドモデルはアプリやハーネスを含めた総合力へ、オープンウェイトモデルは用途ごとに選べる実用モデル群へと進化しており、今後は性能だけでなく、コスト、制限、ツール連携、長時間作業の安定性まで含めて評価する必要がありそうです。