DJレン:こんばんは、夜更けの知性とビートをつなぐ時間。Midnight AI Groove、ナビゲーターのDJレンです。
DJミオ:DJミオです。今日のAINews、タイトルからして「not much happened today」なんだけど……いやいや、読むと全然“何もなかった日”じゃないよね。
DJレン:そうなんだよ。対象期間は2026年4月28日から4月29日。AINewsは12のsubreddit、544のTwitterアカウントをチェック、ただし今回はDiscordは追えていない。しかも「AINewsは今やLatent Spaceの一部です」とか、「メール頻度も選べます」といった運営面の案内も入ってた。
DJミオ:で、全体の空気感を一言でいうと、派手な超大型ニュースは少なめなんだけど、エージェント実装、ハーネス設計、推論基盤、ローカルLLM運用、そして価格破壊みたいな、実務に効く話がすごく多かった印象。
1. コーディングエージェントは「ツール」から「プラットフォーム」へ
DJレン:まずTwitter recapの柱はここ。Codex、Cursor SDK、VS Codeのハーネス強化。
OpenAIはCodexを単なるコーディング支援ではなく、より広い知識労働の作業面へ拡張してる。研究の要約、スプレッドシート、意思決定の追跡みたいな仕事にも使わせようとしてるんだよね。
DJミオ:しかもプロダクト面の動きがかなり具体的。
Business/Enterpriseの対象顧客向けに6月末までCodex専用シートを席料金0ドルで提供。さらにSupabase連携や、実装プランをFigJamボードに変換するFigmaプラグインまで出てきた。
DJレン:コミュニティ投稿でも、app-server的な使い方や、もっと複雑なエージェントワークフローへの展開が見えてきてる。つまりCodexはIDE内の補助機能というより、持続コンテキスト、外部ツール、連携、チーム導入を備えた“仕事用の基盤”に近づいてるわけだ。
DJミオ:で、その裏で起きてる技術的な重心の移動が面白い。
もう勝負は単純なモデルの遅延じゃなくて、agent-loop systems engineeringなんだよね。OpenAIによると、Responses APIでWebSocketモードを使うとツール呼び出し間で状態をwarmに保てて、重複作業が減り、最大40%高速化できるって話。
DJレン:ここ重要。エージェントの体験を決めるのは、モデルIQだけじゃない。状態保持、メモリ、検索、ハーネス品質、ツールオーケストレーションがUXを支配し始めている。
VS Code側も負けてなくて、ワークスペース横断のsemantic indexing、cross-repo search、chat session insights、skill context、Copilot CLIのremote control、さらにprompt/agent evaluation extensionまで投入してきた。
DJミオ:この評価拡張、単に「いい回答出た?」じゃなくて、プロンプト、スキル、命令文のチューニングを継続的に回す前提なのが今っぽいよね。
DJレン:そしてCursor。これもかなり大きい。
Cursor SDKによって、Cursorを支えるのと同じruntime、harness、modelsを、CI/CD、オートメーション、製品内埋め込みエージェントに使えるようにした。これはCursorがseat-based IDEプロダクトから、プログラム可能なエージェント基盤へ舵を切ったってこと。
DJミオ:Codexのapp-server、Cursor SDK、VS Codeのハーネス強化を並べると、カテゴリ全体がheadless agent runtimes + programmable harnesses + usage-based economicsへ収束してる、って総括がすごくしっくりくる。
2. ハーネスが主役に:Agent Harness EngineeringとLangChain、Cloudflare
DJレン:次は、今日いちばん実務的に大事かもしれないテーマ。Harnesses are emerging as a first-class optimization layer。
つまり、モデルそのものの性能だけじゃ足りなくて、その周りのハーネス設計が本番性能を左右するという話。
DJミオ:研究例として目立ってたのがAgentic Harness Engineering。
この研究では、ハーネス進化をrevertible components、condensed execution evidence、falsifiable predictionsで観測可能にしてる。結果も強くて、Terminal-Bench 2のpass@1が10反復で69.7%から77.0%に向上、しかも人間設計のCodex-CLI baseline 71.9%を超えた。
DJレン:それだけじゃなくて、別のモデルファミリーにも転移し、SWE-bench Verifiedではトークン使用量を12%削減。これはかなり現実的な改善だよね。
DJミオ:関連研究のHALOも面白かった。
trace analysisを使ってハーネス失敗をパッチし、再帰的に自己改善するエージェントという方向で、AppWorldが73.7から89.5へ改善、Sonnet 4.6で達成と主張してる。
DJレン:ここまで来ると、エージェントの改善対象は「もっと賢いモデルを待つ」じゃなくて、失敗トレースを読んで、ハーネスを進化させる方向に変わってきてる。
DJミオ:LangChainもその流れにしっかり乗ってる。
新しいHarness Profilesでは、チームがモデルごとのプロンプト、ツール、ミドルウェアをバージョン管理できる。しかもOpenAI、Anthropic、Google向けの内蔵プロファイル付き。
DJレン:さらにDeepAgents Deployで、少数のmarkdown/configファイルだけでデプロイし、LangSmithトレーシングも使える低コード路線。
LangChainのメッセージは一貫してて、open harnesses、open evals、OSS-friendlyなモデル混成が重要だと。なぜなら、閉じた高性能モデルは多くのエージェント用途では高価すぎるから。
DJミオ:あと、Cloudflareの「agents as software」も象徴的だったね。
execution laddersみたいな概念だけじゃなくて、もっと具体的に、エージェント自身がCloudflareの顧客になれる。アカウント作成して、ドメイン登録して、有料プラン開始して、デプロイ用トークンを取得できる。
DJレン:これは大きい。ベンダーがエージェントをただの受動的copilotとして扱うんじゃなく、ビジネスワークフローそのものをエージェント向けに公開し始めているってことだからね。
3. モデル発表と価格競争:Mistral、Granite、Ling、Hunyuan
DJミオ:モデルリリースでは、やっぱりMistral Medium 3.5がいちばん議論を呼んでた。
DJレン:Twitter側では、denseな128Bモデルとして早期に認識されていた。Unslothはこれをvision reasoning modelとして説明しつつ、約64GB RAMでローカル実行可能と紹介、GGUFやガイドも出してる。
DJミオ:反応は割れたよね。
一方では、128Kコンテキスト、アーキテクチャ選択、価格設定について、大型の中国系オープンMoEに比べて厳しい声があった。
他方では、Mistralは派手なベンチマーク競争ではなく、企業向けの信頼性やinstruction-followingを狙っている、という擁護もあった。
DJレン:そしてReddit側では詳細がもう少し出ていた。
Hugging Face上のmistralai/Mistral-Medium-3.5-128Bとして注目を集め、256kコンテキスト、instruction-following・reasoning・coding向け、reasoning effortの調整可、マルチモーダル入力対応、多言語・system prompt対応、そして推論にはvLLM推奨という整理だった。
DJミオ:ローカル勢の話も具体的。
あるユーザーはStrix Haloでq4量子化を試していて、46.70 tok/sの生成速度、3.26 tok/sのprompt processingを報告。128B denseとしてはかなり目を引く数字。
DJレン:一方でライセンスの議論も熱かった。
modified MIT licenseと呼ばれているけど、商用利用に制限があるのでMITと呼ぶのは誤解を招くという批判があった。特に、月商2000万ドル超の企業には通常のMITらしからぬ条件が課される点が問題視されていたね。
DJミオ:そして、denseモデルそのものの価値を見直す声もあった。
「SOTAではないかもしれないけど、80B超のdenseモデルは将来の主力ワークホースになる」「超疎なMoEと超denseの両方が共存する未来がある」っていう見立て。
DJレン:次にIBM Granite 4.1。
これは30B、8B、3Bの3つのopen-weight、Apache 2.0、non-reasoningモデル。特徴はとにかくオープン性とトークン効率。
DJミオ:特に目立ったのが、Granite 4.1 8BがArtificial Analysis Intelligence Indexで出力トークンをたった4Mしか使わず、Qwen3.5 9Bの78Mに比べて圧倒的に少なかった点。AA Openness Indexでは61。知能そのものでは上位勢に劣るけど、エンタープライズやエッジにはめちゃくちゃ刺さりそう。
DJレン:オープンモデルの圧力も強い。
Ant OSSのLing-2.6-flashは約107B MoE、MITライセンス、SWE-bench Verified 61.2、数学も強い。
Ling-2.6-1Tはday-0でvLLM対応。
DJミオ:さらにTencent Hunyuanは、Hy-MT1.5-1.8B-1.25bitという、440MBの完全オフライン翻訳モデルを公開。33言語、1056翻訳方向、スマホ向け。1.25-bit量子化で商用APIや235B級モデルに並ぶと主張してるのがすごい。
DJレン:市場面では、性能の高いオープンモデルの価格下落も目立った。
例としてQwen 3.5 Plusが出力$3/M tokens、MiMo-V2.5 ProがCode Arenaで$1/$3 per M tokens。性能と価格のPareto frontierがどんどん動いてる。
4. 推論、カーネル、MoEシステム
DJミオ:推論基盤の話もかなり濃かった。まずはQwenのFlashQLA。
DJレン:これはTileLang上の高性能linear attention kernelで、forward 2〜3倍、backward 2倍の高速化。特に小型モデル、長コンテキスト、tensor parallel構成で効く。
設計としては、gate-driven automatic intra-card context parallelism、代数的再定式化、fused warp-specialized kernelsがポイント。
DJミオ:しかも、「personal devices上のagentic AI」を明確に想定してる。長コンテキスト最適化がクラウド専用じゃなくて、エッジ寄りランタイムへ下りてきている感じがする。
DJレン:Redditの反応では、要求環境もかなり具体的だった。
SM90以上、CUDA 12.8以上、PyTorch 2.8以上が必要。H100クラスならローカル実験できそう、という声もあったね。
DJミオ:次はvLLMとBlackwellの協調最適化。
vLLMはArtificial AnalysisでDeepSeek V3.2の出力速度1位、230 tok/s、TTFT 0.96秒を報告。さらにDigitalOceanのserverless inference + NVIDIA HGX B300でQwen 3.5 397Bでも好成績。
DJレン:最適化の中身も豪華。NVFP4量子化、EAGLE3 + MTP speculative decoding、モデルごとのkernel fusion。
さらにSemiAnalysisも、vLLM 0.20.0やMegaMoE kernelsによるDeepSeek v4 Pro on GB200の改善を取り上げていた。
これはまさにハード・ソフト・モデルのco-designが一般公開されるレベルの性能差になってきた例だね。
DJミオ:それから、モデルとGPUの間にある“中間層”の知見共有も増えてた。
torch.compileのスレッドでは、Dynamo → pre-grad → AOT autograd → post-grad → Inductorの流れと、どこでカスタムFX passを差し込めるかが解説されていた。
DJレン:こういう情報って本当にありがたい。
で、John Carmackの投稿も象徴的だった。GPUライブラリ性能は依然としてpath-dependentで段差が大きい。例として、torch.linalg.solve_exが511×511から512×512になっただけで10倍劣化し、内部で別の経路に入ってCudaMalloc/Freeが効いてるらしい、と。
DJミオ:Zhipu AIのGLM-5 serving postmortemもよかったね。
KV cacheのrace condition、HiCache synchronization bug、LayerSplitの導入などを詳細に共有していて、特に長コンテキストのcoding-agent servingでprefill throughputが最大132%改善したという報告。
5. 研究シグナル:知識プローブ、Webエージェント評価、科学・マルチモーダル
DJレン:研究系では、まずIncompressible Knowledge Probes, IKP。
これはかなり挑発的なテーマで、1400問、188モデル、27ベンダーを使った事実知識の正答率が、モデルサイズと強いlog-linear関係を持つ、という話。open-weightモデルでR²=0.917、135Mから1.6T paramsまで。
DJミオ:要するに、ブラックボックスモデルでも、知識評価からアーキテクチャ規模がかなり漏れてしまうってことだよね。
そして論文は、「一部で語られる**‘reasoningは圧縮できる’**という話とは違って、factual capacityはそんなに圧縮されない」と示唆している。
DJレン:次に、Webエージェント評価の成熟。
Odysseys benchmarkは、200個の長期・実インターネットタスクで、評価を単純なpass/failではなくrubric-basedにし、さらにtrajectory efficiencyも測る。
DJミオ:結果はかなり現実的で、最高モデルの成功率が44.5%、しかも**効率は1.15%**しかない。
業界が今、短い合成タスクより、複数ステップのブラウジング、表計算、オーケストレーションに近い評価へ向かってるのがよく分かる。
DJレン:AI for Scienceでも動きがあった。
Hugging FaceのHugging Scienceは、オープンな科学データセット、モデル、課題のハブで、78GBのgenomics、11TBのPDE simulation、1億cell profiles、9兆DNA base pairsなどを含む。
DJミオ:そしてAnthropicのBioMysteryBench。最近のClaudeモデルが、専門家を悩ませた難しい生物データ解析問題の約30%を解いたという報告。
マルチモーダルでは、Vista4Dが持続的4Dシーン表現を使って新しいカメラ軌道から動画を“再撮影”する技術を紹介。
さらにSakanaのKAMEは、低遅延フロントエンドモデルと、非同期のバックエンドLLM oracle signalを組み合わせた、いわば**“考えながら話す”音声対音声アーキテクチャ**。
6. 注目ツイートとビジネスシグナル
DJレン:Twitterの上位トピックとしては、やっぱりCursor SDK、Codexのプラットフォーム化、この2つが強かった。
DJミオ:加えて、Google側のGeminiがチャットから直接、ダウンロード可能なDocs、Sheets、Slides、PDFなどを生成できるようになった、というプロダクト化シグナルも大きい。
DJレン:ビジネス面では、Google Cloudが前年比63%成長、Geminiも好調、Searchクエリも過去最高。
これは「AIは本当にマネタイズできるのか?」という問いに対する、かなり強い実績ベースの材料だね。
DJミオ:あと長文技術系では、DwarkeshのReiner Popeとのchalkboard session。価格、方程式、システム制約から学習・推論戦略を逆算するっていう、かなりオタク心をくすぐる内容も話題だった。
7. Reddit:LocalLlama / localLLMの熱量
7-1. Mistral Medium 3.5
DJレン:RedditでもやっぱりMistral Medium 3.5は大盛り上がり。
dense 128Bという存在感、256k context、reasoning effort可変、multimodal、vLLM推奨。
「denseモデルのニッチ」が改めて注目されていたね。
DJミオ:Strix Halo + q4の報告では、さっき触れた通り46.70 tok/s生成、3.26 tok/s prompt処理。
「128B denseのchonker」って呼び方も出てて、巨大さへの畏怖とロマンがあった。
DJレン:一方で、modified MIT licenseという表現に対する反発はかなり強かった。
オープンと言うなら、商用制限の説明はもっと明確であるべきだ、という話だね。
7-2. Qwen 3.6評価とFlashQLA
DJミオ:次にQwen 3.6 27Bの量子化比較。
BF16、Q4_K_M、Q8_0 GGUFを、llama-cpp-python + Neo AI Engineerで評価していて、HumanEval、HellaSwag、BFCLが指標。
DJレン:そこで目立ったのはQ4_K_M。
BF16より1.45倍高速、ピークRAM 48%削減、モデルサイズ68.8%縮小、しかもfunction callingスコアはほぼ同等。
ただし、Q8_0の結果が妙だったので、「error barsがない」「sampling errorかも」「KV cacheの量子化が影響したのでは」みたいなツッコミもあった。
DJミオ:しかもHumanEvalスコアが予想より低くて、Gemma 3 4BやLlama3-8bより低いのは変じゃないか、Qwen 3.6 27Bなら本来85%以上出るはず、という疑問も出てた。
評価環境の透明性がやっぱり大事だね。
DJレン:FlashQLAのReddit反応も触れておくと、forward/backwardベンチをもっと見たいという声、そしてSM90 / CUDA 12.8 / PyTorch 2.8という要件の確認、さらに「H100持ってる人向けだね」という半分冗談っぽい反応もあった。
7-3. ローカルLLMを動かす感覚
DJミオ:そして少し文化的だったのが、「Qwen 3.6やGemma 4をローカルで動かしてる時の気分」っていうミーム。
“太陽の力を掌に”みたいな感覚っていうね。
DJレン:コメントも興味深くて、Gemma 4は翻訳と創作に強い、Qwen 3.6はゲーム開発に強い、しかも夜通しエージェントを回してもエラーやループが少ない安定性が評価されてた。
あと、GraniteやNemotronみたいなタスク特化fine-tuneモデルの方が安くて効率的という現実的な意見もあった。必要に応じてロードし、agent orchestratorで使い分けるという発想だね。
7-4. ローカルLLMでコーディングは厳しい?
DJミオ:でも一方で、かなり伸びてた投稿が「I’m done with using local LLMs for coding」。
ローカルのQwen 27BやGemma 4 31BをClaude Codeと比べて、特にOS/Dockerまわりの判断やtool callingが弱く、GitHub repoのDocker化も効率よく進められなかった、と。
DJレン:しかも、docker buildの出力を読みすぎて250k input tokensでセッション崩壊したり、prompt cache failureで長い停止が起きたり。結果として、コーディング用途ではOpenRouterやKimiみたいなクラウドの方が生産性が高い、という結論だった。
DJミオ:ただ、コメント欄は単純な否定ではなくて、
「設定を最適化すれば改善する、Unslothのガイドを見ろ」とか、
「モデルよりtech stackが大事、RTX 5090でQwen3.6 35B/27B、TurboQuant、OpenCode TUI、oh-my-opencode harness、MCP群を組み合わせるとかなり強い」とか、
「同じモデルでもハーネス次第で結果は大きく変わる」っていう反論も多かった。
DJレン:ここでもやっぱり結論は同じ。ハーネスが重要。
7-5. 16台のDGX Sparkで何を走らせる?
DJミオ:最後にローカルハードウェアの夢枠。
16x DGX Sparks - What should I run?
16台のNVIDIA DGX Spark、200Gbps FS switch、QSFP56 DAC cables、合計2TB unified memoryというホームラボ。
DJレン:コミュニティの提案は、Kimi K2.6をvLLMで回す、eugrのnightly buildsを使う、Deepseek V4向けの未マージPRも視野に、みたいな本気のもの。
8ノードでFlashはうまく動き、Pro版なら16台を使い切れる、prefillは高いが生成は20 tok/s程度という見通しも出ていた。
そしてもちろん「売ってH100買えば?」っていう身もふたもないコメントもあった。
8. 非技術寄りサブレディット:Claude × Blender、Talkie、DeepSeek価格比較
8-1. ClaudeとBlenderの接続
DJミオ:Less Technical側でインパクトが大きかったのは、Claude now connects to Blender。
AnthropicがBlender MCP connectorを出して、ClaudeがBlenderのPython APIを通じてシーン制御できるようになった。
DJレン:自然言語で3Dシーン作成・修正、ノードのデバッグ、バッチ変更、カスタムツール作成まで可能。
「入門レベルのクリエイティブ・フリーランサーに最後の釘が刺さった」みたいな煽りタイトルの投稿もあったけど、コメントでは「量は増えても品質は自動で上がらない」「人間の目と技能は依然必要」という冷静な意見も多かった。
DJミオ:あと、AnthropicがBlender Development Fundのcorporate patronになって、最低28万ドル拠出という話も出てた。
コネクタはClaudeデスクトップアプリのConnectors Directoryから追加できて、Blender長年使ってる人たちからは複雑なシーン管理がかなり楽になるという声。
その一方で、Blender Python APIは広大だからトークン消費が相当多くなりそう、という現実的な懸念も。
8-2. Talkie:1931年以前だけで訓練された13Bモデル
DJレン:そして今日はこれも面白かった。Talkie。
1931年以前のデータだけで訓練した13B言語モデル。研究者はNick Levine、David Duvenaud、Alec Radford。
学習データは260B tokensで、古い書籍、新聞、科学誌などから構成されてる。
DJミオ:目的は、現代データなしでLLMがどう一般化するかを見ること。
結果として、言語や数のタスクで有望で、さらに簡単なPythonをin-context examplesから学べるのが面白い。しかもその基盤が、現代のプログラミング知識じゃなくて、19世紀的な数学的推論っぽいところがロマンある。
DJレン:ユーザー例も楽しい。
月旅行について聞くと、当時の科学理解に基づいて、大気がないことや必要速度を理由に困難だと論じる。
ゲルマニウムで真空管を置き換えられるかと聞けば、抵抗や酸化の問題を語る。つまり、歴史的な知識状態をかなり忠実に再現する。
DJミオ:ただし欠点もあって、sycophancy、つまりユーザーの前提に迎合しがち。
現代の発明について聞いても、ユーザーの framing に乗って「可能そう」「不可能そう」と合わせてしまうことがある。
このへんは普通のLLMと同じ課題だね。
DJレン:別スレでは、Talkieの評価やRLパイプラインにClaude Sonnet 4.6が使われ、Claude Opus 4.6が合成会話データを生成したという、ちょっと皮肉な事実も共有されていた。
「過去だけで学んだモデル」を検証するのに、現代の最先端モデルを使ってるわけだ。
DJミオ:それでも意義は大きいよね。
長期予測、発明、LLM identityの研究に使えるし、今後はGPT-3級スケールの“vintage model”も計画されている。
しかもApache 2.0でHugging Face公開済み。
ユーザーは2026年までの発明予測を尋ねたり、ラウダナムの歴史レシピを聞いたりして遊んでいた。歴史研究や教育にも使えそう。
8-3. DeepSeek V4と価格競争
DJレン:最後はDeepSeek V3.2 vs DeepSeek V4、そして価格比較。
OpenRouterの利用統計では、DeepSeek V3.2が1.21T tokensで伸び続け、DeepSeek V4 Flashは317B tokens。新型が出ても旧版の方がまだ使われてる。
DJミオ:理由としては、コストやローンチ時の初期問題、そして実運用では新バージョンへの移行が慎重になること。
とはいえV4自体は、1M context、高いcache hit能力などで非常に強く、実務では大規模コードベースのデバッグでGLM 5.1より圧倒的に良かったという体験談もあった。
DJレン:さらに価格面。
DeepSeek-V4-Proが1M input tokensあたり$1.74で、GPT-5.5やClaude Opus 4.7の$5.00に対して大きく安い。
しかも1.6T parameters、1M context、SWE-bench 80%+。
“GPT-5.5が贅沢税に見える”という表現も出ていた。
DJミオ:コメントでも、cached tokensのおかげでコンテキスト利用がほぼ無料感覚、出力も安いから、普通の用途ならV4-Proがかなり有力。
一方で、超長大コンテキストではGPTやClaudeにまだ及ばない場面もある、という声もあった。
それでも、日常の開発ではflash版はさらに安く速いし、オープンコード系には魅力的、という評価だった。
9. そしてDiscordは……
DJレン:最後に運営面。今回はDiscordへのアクセスが遮断され、AI Discords recapは終了。
「この形では復活させないが、新しいAINewsを出す予定」とのことだった。
DJミオ:静かな日、と言いながら、実際には
- コーディングエージェントのプラットフォーム化
- ハーネス設計の主役化
- オープンモデルと価格競争の激化
- 推論基盤のハード・ソフト協調最適化
- ローカル運用の現実と夢
- Blenderや科学、歴史モデルみたいな応用の広がり
このへんがしっかり前進してた1日だったね。
10. クロージング
DJレン:今日のまとめを一言で言うなら、“モデルそのもの”より“モデルをどう包み、どう運用するか”が競争力になってきた、かな。
DJミオ:うん。
CodexもCursorもVS Codeも、研究のAgentic Harness EngineeringもLangChainも、Redditのローカル運用談義も、全部そこにつながってる。
今のAIの勝負は、知能単体じゃなく、知能の周辺システムなんだっていうのが、すごくよく見えた回でした。
DJレン:というわけで今夜のMidnight AI Groove、ここまで。
夜の静けさの中でも、AIの現場はちゃんと進んでる。
DJミオ:また次回、次の波を一緒に聴きましょう。おやすみなさい。
DJレン:Good night, and keep the signal warm.
