DJミオ:こんばんは、深夜の知性とビートが交差する時間です。ここは 「Midnight AI Groove」。ナビゲーターは私、DJミオです。
DJレン:そして相棒はDJレン。今夜はAINewsの「not much happened today」を読み解いていくんだけど……タイトルとは裏腹に、AI業界は普通に情報量多すぎだろっていう日だったね。
DJミオ:ほんとそれ。表向きは「静かな日」なんだけど、中身を見ると、NVIDIAのオープンモデル攻勢、エージェント基盤の進化、コーディングAIの競争、ローカルAIハードウェアの話題まで、しっかり詰まってます。
DJレン:じゃあ最初の大きな波からいこう。やっぱり今日は NVIDIA。
中心は Cosmos 3 と Nemotron 3 Ultra だね。
DJミオ:Cosmos 3は、いわゆる“物理AI”向けのオムニモーダル world model。
言語、画像、動画、音声、そしてアクションまで、1つの設計で扱うのがポイントです。
DJレン:しかも単なる研究発表じゃなくて、weights、code、dataset、fine-tuning recipeまで含むフルスタック公開。NVIDIAはモデル単体じゃなく、エコシステムごと押し出してきた。さらに Cosmos Coalition も立ち上げて、Runwayみたいなパートナー企業と一緒にオープンな世界モデル圏を作ろうとしてる。
DJミオ:技術的にも面白いですよ。Cosmos 3は Mixture-of-Transformers の設計で、自己回帰型のreasoner と diffusionベースのgenerator を組み合わせている。
つまり「考える系」と「生成する系」を役割分担させている感じですね。
DJレン:その結果、Artificial Analysisによると、open-weightモデルのText-to-ImageとImage-to-Video両方で1位。しかも生成側はstructured JSON promptsで動かせて、外部のプロンプト拡張ハーネスからも、自前のreasoner分岐からも制御できるらしい。かなり実運用寄り。
DJミオ:NVIDIAって、昔は“GPUの会社”って見られがちでしたけど、今はもうハード、モデル、推論基盤、エコシステム、開発フレームワークまで全部まとめて出す会社になってますよね。
DJレン:その流れのもう一方が Nemotron 3 Ultra。
これは 550B open-weightモデル で、コミュニティでは**「現時点で最強クラスの米国製オープンモデルでは」**という受け止めが強かった。
DJミオ:評価だけじゃなくて、サービング速度の話も盛り上がってました。環境によっては300 tok/s超えという話まであって、巨大モデルなのに意外と速い、と。
DJレン:一方でアーキテクチャ面では、Kimi K2とかDeepSeek V4より疎ではない、つまりアクティブ率が高めで、ざっくり**約10% active vs 約3%**みたいな比較も出ていた。
これはコストにも挙動にも関係しそうで、単に“速い・強い”だけじゃなく、経済性やモデルの性格にも影響する論点だね。
DJミオ:次は、オープン系エージェントモデル競争です。今日いちばん話題の新モデルは、たぶん MiniMax M3。
DJレン:そうだね。M3は open-weightのマルチモーダル agent/coding model として登場。
売りは 1M context、native multimodality、そしてかなり強気なベンチマーク数字。
たとえば SWE-Bench Pro 59.0%、Terminal Bench 2.1で66.0%、MCP Atlas 74.2%。
DJミオ:しかも面白いのが、発表当日から Novita、Vercel AI Gateway、Cloudflare AI Gateway、OpenClaude、Flowith みたいなインフラ側がかなり素早く対応したこと。
つまりモデルそのものだけでなく、エコシステムの初動がかなり強かったわけです。
DJレン:ただし、使用感はやや割れてる。
フロントエンド生成やビジュアル系、ゲーム系、ワンショットUI生成では高評価。でも一方で、トークン消費が多い、自己チェックループが冗長、長いタスクで要件からズレるという声もある。
DJミオ:要するに、M3は質優先で効率は後回しっぽく見える、と。
派手に強いけど、実務だとランニングコストや安定感はまだ要観察、という印象ですね。
DJレン:さらにRedditでは、もっと根本的なツッコミもあった。
「open-weightと言うけど、実際のweightsやパラメータ数がまだ見えないじゃないか」っていう。
能力が本当なら相当大きいモデルのはずで、大規模モデルなのか、ベンチ最適化なのか、オープン界の本当の突破口なのか、まだ判定待ち。
DJミオ:そして Qwen3.7-Plus。こちらはAlibabaの新しい方向性がよく見えるモデルです。
単なるチャットAIではなく、GUIとCLIの操作、視覚推論、コーディング、検索補助QAをまとめたマルチモーダルなインタラクティブエージェント。
DJレン:これ、最近のアジア系ラボの流れを象徴してるよね。
もう「賢いチャットモデルを出します」ではなくて、実際に作業するエージェントシステムとして出してくる。
DJミオ:それから JetBrains Mellum2。これは派手さより実務寄り。
12BのMoEで、active 2.5B、学習トークンは約11T、さらにRLVRで事後学習。
base、SFT、RLのチェックポイントがあり、技術レポートも公開。
DJレン:狙いどころが明確でいいんだよね。
超低遅延の推論で、ルーティング、RAG、サブエージェント、IDE用途向け。
vLLMにすぐ入ったのも大きい。これはベンチの見栄えを競うより、開発者ワークフローで本当に使える小型高速モデルを目指した感じ。
DJミオ:ここで記事全体の大きなテーマが見えてきます。
それは、競争の主戦場がモデル本体からエージェントの実行基盤へ移っているということ。
DJレン:うん。いま勝負を決めるのは、モデルを1回呼ぶことじゃない。
どう検索するか、どうコードを書いて実行するか、どこで失敗を隔離するか、どう文脈を引き継ぐか。そのハーネス部分が製品価値になってる。
DJミオ:その象徴が Perplexityの「Search as Code」。
普通の検索エージェントだと、モデルが検索ツールを何度も呼ぶ。でもSearch as Codeでは、モデルが検索SDKに対してPythonを書く。
これでランキングのカスタム、map-reduce、バッチ処理、集約がしやすくなって、トークン消費も抑えられる。
DJレン:しかもPerplexityの内部ベンチ WANDR では、0.152から0.386へジャンプしたって話。
この差はかなり大きい。つまり「モデルそのものが賢くなった」以上に、検索のさせ方をコード化したのが効いた。
DJミオ:Googleも似た方向で、Gemini APIの Managed Agents を出している。
1回のAPIコールで、推論して、コードを書いて、実行して、ファイルを扱って、Linux sandboxで動く。
モデルAPIが、だんだん小さなクラウド実行環境に近づいてきてるんですね。
DJレン:LangChainも Deep Agents、Context Hub、LangSmith Sandboxes/Engine を推していて、永続コンテキスト、エージェントのライフサイクル管理、失敗解析みたいなところを整備している。
もう“良いモデルを呼ぶ”だけじゃ足りない時代だ。
DJミオ:でも、その流れのなかでまだ足りていないのが memory。
記事でも、巨大なcontext windowがあってもクロスセッションの記憶は解決していないと指摘されていました。
DJレン:HydraDBの話が象徴的だったね。
RAG + 手動でのコンテキスト注入を「メモリ」と呼ぶのは違う、と。
本当の意味での永続的なセッション知識、つまりユーザーやプロジェクトについて継続的に覚えている仕組みは、まだ未成熟。
DJミオ:関連研究として AdaCoM のような、別のLLMをRLで訓練して、凍結したエージェント用の文脈を削る・残す管理をする手法も話題に。
ここも今後の重要テーマですね。
DJレン:そして、エンタープライズ導入で最大の壁として出てくるのが セキュリティ。
記事ではMicrosoft Security Intelligenceが、90超のredhat-cloud-services系npmパッケージに影響するサプライチェーン侵害を警告していた。
DJミオ:npm、GitHub、AWS、SSHの認証情報を盗む自己増殖型ワームという話で、かなり深刻。
エージェントにコード実行や外部アクセスを許す時代だからこそ、sandboxing、runtime isolation、セキュリティスタック統合が前提になる、という流れです。
DJレン:つまり企業が欲しいのは“高IQのモデル”だけじゃなくて、暴走しても閉じ込められること、資格情報を漏らさないこと、監査できることなんだよね。
DJミオ:次は Codex、Claude Code、コーディングエージェント競争に行きましょう。
まずOpenAIは、Codexとfrontier modelsをAWS / Amazon Bedrock上で一般提供。
これはかなりエンタープライズ狙いです。
DJレン:既存のAWSのセキュリティ・コンプライアンス運用の中でOpenAIを使いたい企業には刺さるよね。
さらに Codex Python SDK も出して、threads、turns、streaming、resume、images、sandbox control に対応。Bedrockバックエンドの設定もサポート。
DJミオ:一方のAnthropic陣営、Claude Code はちょっと痛い運用事故。
Opus 4.8の一部セッションで並列subagent/tool callが増えすぎ、5時間・週次のレート制限を異常消費してしまうバグがあり、Anthropicは後で制限をリセットしました。
DJレン:これは象徴的だよ。
コーディングAIの品質は、もはや単純な“モデルの頭の良さ”じゃない。
どれだけ並列化するか、いつツールを呼ぶか、ループを止めるか、利用量をどう制御するか。そのオーケストレーションの出来が、ユーザー体験を左右する。
DJミオ:しかも評価面でも、GPT、Claude、その他モデルの差はかなり質的。
あるベンチでは探索重視、別のベンチではスコア最適化重視、みたいな癖が出る。
さらに一部では、Claude Opus 4.6〜4.8が非コーディング領域でもっともらしい架空概念を作るという議論もあって、単なるハルシネーション以上の問題では、という見方もありました。
DJレン:ハードウェアの話に移ろう。
今日はやっぱり RTX Spark が目玉だね。
NVIDIAとMicrosoftの“personal AI computer”で、Grace + Blackwell、最大128GB unified memory、1 PFLOP FP4をうたう。
DJミオ:ここでの戦略的ポイントは明確です。
NVIDIAはもうデータセンター用アクセラレータだけの会社じゃない。
ローカルAIマシンそのものを握りにきていて、Apple Silicon、x86 PC、Qualcomm系とも競合し始めている。
DJレン:データセンター側でも動きがあって、LambdaはQuantum-X InfiniBand Photonics Q3450-LDを最初に採用するって話。
大規模AIクラスタで、ネットワーク電力や故障率を下げるためにco-packaged opticsを入れていく流れだね。
DJミオ:OpenAIも Stargate Michigan、1GW級データセンターの計画を発表。
閉ループ冷却と、教育・雇用コミットメントの組み合わせ。
AIの話が、モデル性能だけでなく、電力、冷却、地域インフラ、労働力育成まで広がってるのが分かります。
DJレン:ローカル推論ツールも前進していて、MLX-VLM v0.6.0 はかなり実用的。
speculative decoding、Anthropic風/Responses風API、tool call、多数のマルチモーダルモデル対応、画像・音声機能を追加して、Appleデバイスを“本物のローカルエージェントマシン”にしようとしてる。
DJミオ:つまり、ローカルAIはNVIDIA陣営だけじゃない。
Appleデバイスでも、エージェントっぽいことをローカルで回す道具立てが急速に整っているんですね。
DJレン:ここで“Top Tweets”的なトピックも拾っておこうか。
まず AnthropicがIPOに向けてSECへS-1草案を秘密裏提出。
そして、さっき触れた Claude Codeの利用事故とレート制限リセット。
さらに Qwen3.7-Plus の投入、OpenAI on Bedrock、それから ARC-AGI-3でClaude Opus 4.8が1.5%のSOTA。
DJミオ:1.5%って絶対値では小さいけど、ARC-AGI-3では意味のあるジャンプだという文脈ですね。
この業界、“まだ低いけど前進した”という数字にちゃんと意味があるのが面白いところ。
DJレン:じゃあReddit側のまとめも行こう。特に /r/LocalLlama と /r/localLLM。
まずはやっぱり MiniMax M3 が大きい。
1M context、マルチモーダル、agentic coding重視で、長時間タスクの実績もアピールしていた。
DJミオ:ただ、Redditではかなり冷静で、
weightsがまだない、パラメータ数もない、どの程度オープンなのか見えないという不信感があった。
能力が本当なら、想定よりずっと巨大なモデルなのか、あるいはベンチ特化なのか、議論が続いてます。
DJレン:次に Nemotron 3 Ultra。
こちらはRedditでも MoE 550B-A55 という具体的なアーキ情報が受け止められていた。
Artificial Analysisのスコア48で、「フロンティアモデルの一歩下、でも米国オープン勢ではかなり強い」という位置づけ。
DJミオ:それから Stepfun 3.7 Flash。
単一HTMLで“癒やし系フライトシミュレータ”を出すデモGIFが話題で、
GLM 5.1に近い美しさ、3D世界理解は8割くらい、でもパラメータは4分の1程度でvision内蔵という主張。
数値ベンチは弱いけど、デモの説得力が強かったケースですね。
DJレン:ハードウェア系のReddit話題も、かなりローカルAI時代を感じる。
まず DellのXPSにNVIDIA N1X搭載の話。
投稿では“Windows版のDGX Spark/GB10的なもの”として見られていた。
DJミオ:みんなが気にしていたのは、やっぱり統合メモリ容量。
たとえば128GBで、そのうち64GBをGPU的に使えるとか、あるいは256GB構成があるかとか。
ローカルLLM用途では、純粋なGPU性能だけでなく、どれだけ大きなモデルを載せられるかが重要ですからね。
DJレン:ただし懐疑もあった。
DGX Spark並みの価格になるなら、RTX 5090搭載ラップトップの方が速くて安いのでは、という意見。
あとWindowsよりLinuxの正式サポートを求める声も強かった。
DJミオ:そして異色の話題が、中国改造版の“RTX 3080 20GB”。
見た目は怪しいのに、nvidia-smiではちゃんと認識されている。
ただし、ベンチ、安定性、熱、消費電力、CUDAワークロードで本当に20GB全部信用できるのかは未検証。
DJレン:でもみんな気になるんだよね。
VRAMあたりのコスパとして最安なのでは、とか、3090より15℃低いのすごいとか、冷却違いで3ファン版を注文したとか。
ローカルAI民の“怪しいが気になる”精神がよく出てた。
DJミオ:次は、より一般寄りのAIサブレディット話題。中心はやっぱり Claude Coding。
まず Opus 4.8 vs 4.7 on MineBench。
Minecraft風の3Dブロック配置ベンチで、4.8は4.7より改善したと報告されていました。
DJレン:15回のビルドで合計$41.52、平均24.8分、1,487秒の推論。
API価格は同じでも、思考時間が短くなって実質安くなったように見える、という話だったね。
品質は主観的に良く、GPT 5.5級に近いが、やや不安定。
DJミオ:ただし、無効なブロックパレットの幻覚や不正なJSONで5回リトライが必要だった。
でも、adaptive thinkingが出力トークンを食い尽くす前に有効JSONへ到達しやすくなった、とも見られてます。
DJレン:コメントでは、同じブロック数に制限するbudget modeがあった方が比較しやすいとか、
同一プロンプトでモデル進化を追跡する専用サイトが欲しいとか、ベンチの継続性についての提案も出ていた。
DJミオ:それから、かなり話題だったのが CLAUDE.md。
Karpathy系の指示スタイルを反映した、プロジェクト用の最小限のガイドファイルですね。
DJレン:人気の理由は明快で、エージェントコーディングでありがちな
プロジェクト記憶の欠如、未確認の思い込み、不要なリファクタ、過信した実行を抑えるルールが入っているから。
たとえば 仮定する前に聞く、最小の動く解を作る、関係ない変更を避ける、不確実性を明示する。
DJミオ:ただし評価は割れていて、
初心者や移行期のユーザーには役立つけど、上級者からすると確認のためのやり取りが増えすぎて遅い。
もっと洗練されたハーネス工学で自動化した方がいい、という意見もある。
DJレン:もうひとつ重要なのは、こういうルールをグローバルに固定しすぎると危ないという指摘。
モデルやClaude Code本体の挙動が変わると、昔は有効だった命令が、今は逆効果になるかもしれない。
だからセッション単位やプロジェクト単位に限定すべきという考え方も出ていた。
DJミオ:さらに一部コメントでは、人気のCLAUDE.mdが推奨する挙動の多くは、もともとClaude Codeのハーネスやシステムプロンプトに含まれているかもしれない、とも。
だとすれば上乗せ効果は限定的で、ある種の安心感を与える“弱いステアリング”に近い可能性もあります。
DJレン:最後にもう一度、rate limit reset の話。
Anthropicが、並列subagent暴走によるクォータ消費のあと、ProとMaxの5時間・週次レート制限をリセットした件だね。
DJミオ:ユーザー報告では、無限ツールループみたいな挙動でMaxプランのセッション上限を週末に2回使い切ったとか、週次使用量の70%以上、あるいは96%まで行ったというケースも。
だから、このリセットはかなり実質的な救済だった。
DJレン:ただ、予告なしのリセットを混乱と見る人もいれば、壊れていた週末への妥当な補償と見る人もいて、受け止めは分かれていたね。
DJミオ:そして記事の最後は、少ししんみりしたお知らせ。
Discordの監視アクセスが終了して、この形でのDiscord recapは終了。
ただし、新しいAINewsを出す予定とのことでした。
DJレン:総じて今日のまとめを一言で言うなら、
モデル競争は続いているけれど、勝敗を決め始めているのは“実行基盤”だ、かな。
DJミオ:そうですね。
Cosmos 3やNemotron 3 Ultraみたいな大型モデルの前進はある。
MiniMax M3、Qwen3.7-Plus、Mellum2のような新顔も出てくる。
でも本当に目立っていたのは、search as code、managed agents、sandbox、persistent context、security、local AI systems といった“使うための構造”でした。
DJレン:つまりAIは、単なる賢い会話相手から、環境の中で動くソフトウェア労働者に変わりつつある。
そのとき必要なのは、頭の良さだけじゃなく、記憶、道具、隔離、監査、そして安定運用なんだよね。
DJミオ:そしてローカル側でも、NVIDIAのPersonal AI Computer構想やAppleデバイスでのローカルエージェント化が進んでいて、
“AIはクラウドだけのものではない”という未来も、かなり輪郭がはっきりしてきました。
DJレン:静かな日、なんて言いながら、業界の地殻変動は止まってない。
むしろ、大ニュースよりこういう日の積み重ねの方が、次のトレンドをよく映してるのかもしれないね。
DJミオ:今夜の「Midnight AI Groove」、そろそろお別れの時間です。
深夜のニュースの波間から、AIの次の形を一緒に拾い上げていきました。
DJレン:また次回、この周波数で会おう。
お相手はDJレンと—
DJミオ:DJミオでした。
Good night, and keep the groove intelligent.
