5分で読める · AIシステムアーキテクトが毎日厳選
注力分野: Agentic Workflow · AIコーディングツール · 具身AI(Embodied Intelligence)
1. Grok Build CLI — 8並列サブエージェント・200万トークンコンテキスト
xAIがGrok Build CLI(5月14日)をSuperGrok Heavyサブスクライバー向けにアーリーベータとして公開した。Grok 4.3 betaをベースに200万トークンのコンテキストウィンドウと8つの並列サブエージェントをサポート。ヘッドレスモード・ACPプロトコル・ターミナルベースのプランニング・クリーンなgit diffとworktree管理に対応する。
【技術コア】
Grok Build CLIは2026年5月に登場したコーディングツールの中で最もエージェント機能密度が高い。200万トークンのコンテキストにより大規模コードベース全体が単一エージェントランに収まり、並列サブエージェントによって真の同時並行タスク実行が可能になる。マルチエージェントシステムに近い設計だ。macOS・Linux(Windows WSL2)対応、$299/月のSuperGrok Heavyで利用可能。
【なぜ注目すべきか】
これはxAIによるClaude CodeおよびOpenAI Codex CLIへの直接的な競合参入だ。8つの並列サブエージェントを$299/月で提供することで、複雑なマルチステップエージェントパイプラインを構築するパワーユーザー向けツールとして位置付けられる。200万トークンウィンドウはレガシーコードベースのリファクタリングや大規模モノレポ操作に革命的な変化をもたらす。
2. Cursor Composer 2.5 — SWE-Bench多言語79.8%、Opus 4.7と同等性能
Cursor独自のComposer 2.5が5月18日にGA公開。SWE-Bench Multilingual 79.8%・**CursorBench v3.1 63.2%**を達成し、コーディングタスクでClaude Opus 4.7・GPT-5.5と同等の性能を主張。価格は$0.50/$2.50(1Mトークン)から。
【技術コア】
Cursor 3.4の新しいチーム設定可能エージェント環境インフラ上に構築され、エディタ内でのPRレビュー(作成からマージまで一貫)とも統合される。SWE-Bench多言語スコアは非英語コードベースへの対応力を示しており、Cursorの独自モデルとしては初の快挙だ。
【なぜ注目すべきか】
Cursorはもはや単なるサードパーティモデルのUIラッパーではない。コードベンチマークでフロンティアラボと競合できる独自モデルを持つことで、垂直統合による差別化が進む。Cursor 3.4を使用中のチームであれば、モデルピッカーから即座に選択可能だ。
3. Qwen 3.7-Max-Preview — 100万トークンコンテキスト、35時間自律実行で1,000ツール連鎖
AlibaaのQwen 3.7-Max-Preview(5月20日)は100万トークンのコンテキストウィンドウと拡張思考モードを導入。デモでは35時間の自律エージェントランで1,000以上のツール呼び出しを劣化なしに完走。LM Arena Elo 1,475で中国モデル最高位。
【技術コア】
35時間・1,000ツール連鎖のデモは中国ラボから登場した中で最も信頼性の高い長期エージェントベンチマークだ。OpenRouterで$2.50/$7.50(1Mトークン)の価格設定。また同時期にDeepSeek V4-Proの75%割引が永続化($0.435/1Mトークン)され、中国オープンウェイトエコシステム全体のコスト競争力が大幅に向上した。
【なぜ注目すべきか】
Qwen 3.7の長期エージェント能力とDeepSeek V4-Proのコスト構造の組み合わせは、エージェントワークロードのフロンティアがOpenAIやAnthropicだけのものではないことを示す。高ボリュームエージェントパイプラインを構築するチームはコスト最適化の観点から中国モデルを真剣に評価すべき段階に来ている。
🔗 Qwen 3.7-Max-Preview(OpenRouter)
4. Anthropic 課金分割 — エージェントSDKクレジットプール独立(6月15日施行)
Anthropicが5月14日に課金分割を発表(6月15日施行)。Claudeのクレジットがチャット/ファーストパーティツール(既存Pro/Max)と新たなAgent SDKクレジットプール(Claude Code・claude -p・GitHub Actions・サードパーティフレームワーク対象)に分離される。
【技術コア】
エージェントSDK月次上限:$20(Pro)、$100(Max 5x)、$200(Max 20x)。上限超過後は通常APIレートに移行。これにより会話用途とエージェント用途の予算を独立管理できるようになる。
【なぜ注目すべきか】
エージェント利用が独立した課金カテゴリとして管理されるほど成長したことを示すシグナルだ。CI/CDパイプラインでClaude Codeを運用するチームやAgent SDKを本番利用するチームは6月15日前に現在の使用量を精査し、想定外の課金を防ぐべきだ。
5. Gemini 3.5 Flash GA — Google I/O 2026でエージェントファーストを宣言
Gemini 3.5 Flashが5月19日にGA公開。エージェントファーストモデルとして明確に位置付けられ、Gemini 3.1 Proをコーディング・エージェントタスク・マルチモーダル推論で上回る。Gemini API・AI Studio・Android Studio・Google Antigravity・コンシューマー向けGeminiアプリで利用可能。
【技術コア】
Googleの「エージェントファースト」というフレーミングは実質的な内容を持つ。チャット最適化ではなく長期ツール利用向けに設計されており、Google Antigravity(GoogleのVS Code競合IDE)にday oneから搭載。GoogleのDeveloperエコシステム全体のデフォルトエンジンとしての位置付けだ。Gemini 3.5 Proは6月予定。
【なぜ注目すべきか】
Android StudioからAntigravity、APIに至るまでGoogleの開発スタック全体にGemini 3.5 Flashが統合されることで、Googleはモダン開発の不可視インフラとなることを目指している。すでにGoogle CloudやFirebaseを利用しているチームは既存ツールチェーン上に自動的にエージェント機能が現れることを期待すべきだ。
6. X-Humanoid 慧思開物Agent — 人形ロボットに動的空間記憶を実装
北京のX-Humanoidが5月10日に慧思開物(Wise KaiWu)Agentを発表。業界初のグローバルシーン認識と動的空間記憶システムを搭載した人形ロボット向けAIプラットフォームだ。4つの主要突破:空間記憶・スケーラブルな個人認識インタラクション・一度の開発で複数ロボット展開・マルチモーダル力制御。
【技術コア】
慧思開物Agentは永続的なユーザー記憶システムを導入し、ロボットが一度インタラクションした個別ユーザーを認識し行動嗜好を長期記憶することを可能にする。視覚+触覚センシングによる適応的把持力制御と組み合わせることで、LLM推論と現実世界の物理操作の橋渡しを実現。「一度の開発・複数ロボット展開」機能が展開コストを大幅に削減する。
【なぜ注目すべきか】
人形ロボットの空間記憶は、印象的なラボデモと現実世界のサービス展開の間に存在するミッシングレイヤーだ。ロボットが物体の場所・ユーザーの素性・必要な力加減を再学習なしに記憶できるとき、高齢者ケア・物流・軽工業における実運用が可能になる。慧思開物Agentは持続的かつパーソナライズされたロボットサービスへの信頼できる一歩だ。
7. Claude Mythos(限定プレビュー) — 未知のソフトウェア脆弱性の自律発見を示唆
AnthropicのClaude Mythosが約50のパートナー組織に限定プレビュー公開中。推論・コーディング・エージェント実行の大幅向上に加え、これまで未知のソフトウェア脆弱性の自律発見能力が噂されている。
【技術コア】
エージェントが本番ソフトウェア内のゼロデイ脆弱性を自律的に発見できるとすれば、現在のコーディングエージェントとは質的に異なる飛躍だ。詳細は制限されているが、50パートナー限定のプレビュー構造はAnthropicが広範公開前にケイパビリティ展開を慎重に管理していることを示す。
【なぜ注目すべきか】
Claude Mythosが確実に新規脆弱性を発見できるとすれば、オフェンシブ・ディフェンシブ両面でセキュリティの経済学が根本的に変わる。レガシーコードベースを運用する組織はこの動向を注視すべきだ。また慎重な限定公開はAnthropicがこれをデュアルユースリスクとして認識していることを示唆する。
