Midnight AI Groove 26-04-29

Last updated at 2026-05-15Posted at 2026-05-15

DJレン：こんばんは、夜更けの知性とビートをつなぐ時間。Midnight AI Groove、ナビゲーターのDJレンです。

DJミオ：DJミオです。今日のAINews、タイトルからして「not much happened today」なんだけど……いやいや、読むと全然“何もなかった日”じゃないよね。

DJレン：そうなんだよ。対象期間は2026年4月28日から4月29日。AINewsは12のsubreddit、544のTwitterアカウントをチェック、ただし今回はDiscordは追えていない。しかも「AINewsは今やLatent Spaceの一部です」とか、「メール頻度も選べます」といった運営面の案内も入ってた。

DJミオ：で、全体の空気感を一言でいうと、派手な超大型ニュースは少なめなんだけど、エージェント実装、ハーネス設計、推論基盤、ローカルLLM運用、そして価格破壊みたいな、実務に効く話がすごく多かった印象。

1. コーディングエージェントは「ツール」から「プラットフォーム」へ

DJレン：まずTwitter recapの柱はここ。Codex、Cursor SDK、VS Codeのハーネス強化。
OpenAIはCodexを単なるコーディング支援ではなく、より広い知識労働の作業面へ拡張してる。研究の要約、スプレッドシート、意思決定の追跡みたいな仕事にも使わせようとしてるんだよね。

DJミオ：しかもプロダクト面の動きがかなり具体的。
Business/Enterpriseの対象顧客向けに6月末までCodex専用シートを席料金0ドルで提供。さらにSupabase連携や、実装プランをFigJamボードに変換するFigmaプラグインまで出てきた。

DJレン：コミュニティ投稿でも、app-server的な使い方や、もっと複雑なエージェントワークフローへの展開が見えてきてる。つまりCodexはIDE内の補助機能というより、持続コンテキスト、外部ツール、連携、チーム導入を備えた“仕事用の基盤”に近づいてるわけだ。

DJミオ：で、その裏で起きてる技術的な重心の移動が面白い。
もう勝負は単純なモデルの遅延じゃなくて、agent-loop systems engineeringなんだよね。OpenAIによると、Responses APIでWebSocketモードを使うとツール呼び出し間で状態をwarmに保てて、重複作業が減り、最大40%高速化できるって話。

DJレン：ここ重要。エージェントの体験を決めるのは、モデルIQだけじゃない。状態保持、メモリ、検索、ハーネス品質、ツールオーケストレーションがUXを支配し始めている。
VS Code側も負けてなくて、ワークスペース横断のsemantic indexing、cross-repo search、chat session insights、skill context、Copilot CLIのremote control、さらにprompt/agent evaluation extensionまで投入してきた。

DJミオ：この評価拡張、単に「いい回答出た？」じゃなくて、プロンプト、スキル、命令文のチューニングを継続的に回す前提なのが今っぽいよね。

DJレン：そしてCursor。これもかなり大きい。
Cursor SDKによって、Cursorを支えるのと同じruntime、harness、modelsを、CI/CD、オートメーション、製品内埋め込みエージェントに使えるようにした。これはCursorがseat-based IDEプロダクトから、プログラム可能なエージェント基盤へ舵を切ったってこと。

DJミオ：Codexのapp-server、Cursor SDK、VS Codeのハーネス強化を並べると、カテゴリ全体がheadless agent runtimes + programmable harnesses + usage-based economicsへ収束してる、って総括がすごくしっくりくる。

2. ハーネスが主役に：Agent Harness EngineeringとLangChain、Cloudflare

DJレン：次は、今日いちばん実務的に大事かもしれないテーマ。Harnesses are emerging as a first-class optimization layer。
つまり、モデルそのものの性能だけじゃ足りなくて、その周りのハーネス設計が本番性能を左右するという話。

DJミオ：研究例として目立ってたのがAgentic Harness Engineering。
この研究では、ハーネス進化をrevertible components、condensed execution evidence、falsifiable predictionsで観測可能にしてる。結果も強くて、Terminal-Bench 2のpass@1が10反復で69.7%から77.0%に向上、しかも人間設計のCodex-CLI baseline 71.9%を超えた。

DJレン：それだけじゃなくて、別のモデルファミリーにも転移し、SWE-bench Verifiedではトークン使用量を12%削減。これはかなり現実的な改善だよね。

DJミオ：関連研究のHALOも面白かった。
trace analysisを使ってハーネス失敗をパッチし、再帰的に自己改善するエージェントという方向で、AppWorldが73.7から89.5へ改善、Sonnet 4.6で達成と主張してる。

DJレン：ここまで来ると、エージェントの改善対象は「もっと賢いモデルを待つ」じゃなくて、失敗トレースを読んで、ハーネスを進化させる方向に変わってきてる。

DJミオ：LangChainもその流れにしっかり乗ってる。
新しいHarness Profilesでは、チームがモデルごとのプロンプト、ツール、ミドルウェアをバージョン管理できる。しかもOpenAI、Anthropic、Google向けの内蔵プロファイル付き。

DJレン：さらにDeepAgents Deployで、少数のmarkdown/configファイルだけでデプロイし、LangSmithトレーシングも使える低コード路線。
LangChainのメッセージは一貫してて、open harnesses、open evals、OSS-friendlyなモデル混成が重要だと。なぜなら、閉じた高性能モデルは多くのエージェント用途では高価すぎるから。

DJミオ：あと、Cloudflareの「agents as software」も象徴的だったね。
execution laddersみたいな概念だけじゃなくて、もっと具体的に、エージェント自身がCloudflareの顧客になれる。アカウント作成して、ドメイン登録して、有料プラン開始して、デプロイ用トークンを取得できる。

DJレン：これは大きい。ベンダーがエージェントをただの受動的copilotとして扱うんじゃなく、ビジネスワークフローそのものをエージェント向けに公開し始めているってことだからね。

3. モデル発表と価格競争：Mistral、Granite、Ling、Hunyuan

DJミオ：モデルリリースでは、やっぱりMistral Medium 3.5がいちばん議論を呼んでた。

DJレン：Twitter側では、denseな128Bモデルとして早期に認識されていた。Unslothはこれをvision reasoning modelとして説明しつつ、約64GB RAMでローカル実行可能と紹介、GGUFやガイドも出してる。

DJミオ：反応は割れたよね。
一方では、128Kコンテキスト、アーキテクチャ選択、価格設定について、大型の中国系オープンMoEに比べて厳しい声があった。
他方では、Mistralは派手なベンチマーク競争ではなく、企業向けの信頼性やinstruction-followingを狙っている、という擁護もあった。

DJレン：そしてReddit側では詳細がもう少し出ていた。
Hugging Face上のmistralai/Mistral-Medium-3.5-128Bとして注目を集め、256kコンテキスト、instruction-following・reasoning・coding向け、reasoning effortの調整可、マルチモーダル入力対応、多言語・system prompt対応、そして推論にはvLLM推奨という整理だった。

DJミオ：ローカル勢の話も具体的。
あるユーザーはStrix Haloでq4量子化を試していて、46.70 tok/sの生成速度、3.26 tok/sのprompt processingを報告。128B denseとしてはかなり目を引く数字。

DJレン：一方でライセンスの議論も熱かった。
modified MIT licenseと呼ばれているけど、商用利用に制限があるのでMITと呼ぶのは誤解を招くという批判があった。特に、月商2000万ドル超の企業には通常のMITらしからぬ条件が課される点が問題視されていたね。

DJミオ：そして、denseモデルそのものの価値を見直す声もあった。
「SOTAではないかもしれないけど、80B超のdenseモデルは将来の主力ワークホースになる」「超疎なMoEと超denseの両方が共存する未来がある」っていう見立て。

DJレン：次にIBM Granite 4.1。
これは30B、8B、3Bの3つのopen-weight、Apache 2.0、non-reasoningモデル。特徴はとにかくオープン性とトークン効率。

DJミオ：特に目立ったのが、Granite 4.1 8BがArtificial Analysis Intelligence Indexで出力トークンをたった4Mしか使わず、Qwen3.5 9Bの78Mに比べて圧倒的に少なかった点。AA Openness Indexでは61。知能そのものでは上位勢に劣るけど、エンタープライズやエッジにはめちゃくちゃ刺さりそう。

DJレン：オープンモデルの圧力も強い。
Ant OSSのLing-2.6-flashは約107B MoE、MITライセンス、SWE-bench Verified 61.2、数学も強い。
Ling-2.6-1Tはday-0でvLLM対応。

DJミオ：さらにTencent Hunyuanは、Hy-MT1.5-1.8B-1.25bitという、440MBの完全オフライン翻訳モデルを公開。33言語、1056翻訳方向、スマホ向け。1.25-bit量子化で商用APIや235B級モデルに並ぶと主張してるのがすごい。

DJレン：市場面では、性能の高いオープンモデルの価格下落も目立った。
例としてQwen 3.5 Plusが出力$3/M tokens、MiMo-V2.5 ProがCode Arenaで$1/$3 per M tokens。性能と価格のPareto frontierがどんどん動いてる。

4. 推論、カーネル、MoEシステム

DJミオ：推論基盤の話もかなり濃かった。まずはQwenのFlashQLA。

DJレン：これはTileLang上の高性能linear attention kernelで、forward 2〜3倍、backward 2倍の高速化。特に小型モデル、長コンテキスト、tensor parallel構成で効く。
設計としては、gate-driven automatic intra-card context parallelism、代数的再定式化、fused warp-specialized kernelsがポイント。

DJミオ：しかも、「personal devices上のagentic AI」を明確に想定してる。長コンテキスト最適化がクラウド専用じゃなくて、エッジ寄りランタイムへ下りてきている感じがする。

DJレン：Redditの反応では、要求環境もかなり具体的だった。
SM90以上、CUDA 12.8以上、PyTorch 2.8以上が必要。H100クラスならローカル実験できそう、という声もあったね。

DJミオ：次はvLLMとBlackwellの協調最適化。
vLLMはArtificial AnalysisでDeepSeek V3.2の出力速度1位、230 tok/s、TTFT 0.96秒を報告。さらにDigitalOceanのserverless inference + NVIDIA HGX B300でQwen 3.5 397Bでも好成績。

DJレン：最適化の中身も豪華。NVFP4量子化、EAGLE3 + MTP speculative decoding、モデルごとのkernel fusion。
さらにSemiAnalysisも、vLLM 0.20.0やMegaMoE kernelsによるDeepSeek v4 Pro on GB200の改善を取り上げていた。
これはまさにハード・ソフト・モデルのco-designが一般公開されるレベルの性能差になってきた例だね。

DJミオ：それから、モデルとGPUの間にある“中間層”の知見共有も増えてた。
torch.compileのスレッドでは、Dynamo → pre-grad → AOT autograd → post-grad → Inductorの流れと、どこでカスタムFX passを差し込めるかが解説されていた。

DJレン：こういう情報って本当にありがたい。
で、John Carmackの投稿も象徴的だった。GPUライブラリ性能は依然としてpath-dependentで段差が大きい。例として、torch.linalg.solve_exが511×511から512×512になっただけで10倍劣化し、内部で別の経路に入ってCudaMalloc/Freeが効いてるらしい、と。

DJミオ：Zhipu AIのGLM-5 serving postmortemもよかったね。
KV cacheのrace condition、HiCache synchronization bug、LayerSplitの導入などを詳細に共有していて、特に長コンテキストのcoding-agent servingでprefill throughputが最大132%改善したという報告。

5. 研究シグナル：知識プローブ、Webエージェント評価、科学・マルチモーダル

DJレン：研究系では、まずIncompressible Knowledge Probes, IKP。
これはかなり挑発的なテーマで、1400問、188モデル、27ベンダーを使った事実知識の正答率が、モデルサイズと強いlog-linear関係を持つ、という話。open-weightモデルでR²=0.917、135Mから1.6T paramsまで。

DJミオ：要するに、ブラックボックスモデルでも、知識評価からアーキテクチャ規模がかなり漏れてしまうってことだよね。
そして論文は、「一部で語られる**‘reasoningは圧縮できる’**という話とは違って、factual capacityはそんなに圧縮されない」と示唆している。

DJレン：次に、Webエージェント評価の成熟。
Odysseys benchmarkは、200個の長期・実インターネットタスクで、評価を単純なpass/failではなくrubric-basedにし、さらにtrajectory efficiencyも測る。

DJミオ：結果はかなり現実的で、最高モデルの成功率が44.5%、しかも**効率は1.15%**しかない。
業界が今、短い合成タスクより、複数ステップのブラウジング、表計算、オーケストレーションに近い評価へ向かってるのがよく分かる。

DJレン：AI for Scienceでも動きがあった。
Hugging FaceのHugging Scienceは、オープンな科学データセット、モデル、課題のハブで、78GBのgenomics、11TBのPDE simulation、1億cell profiles、9兆DNA base pairsなどを含む。

DJミオ：そしてAnthropicのBioMysteryBench。最近のClaudeモデルが、専門家を悩ませた難しい生物データ解析問題の約30%を解いたという報告。
マルチモーダルでは、Vista4Dが持続的4Dシーン表現を使って新しいカメラ軌道から動画を“再撮影”する技術を紹介。
さらにSakanaのKAMEは、低遅延フロントエンドモデルと、非同期のバックエンドLLM oracle signalを組み合わせた、いわば**“考えながら話す”音声対音声アーキテクチャ**。

6. 注目ツイートとビジネスシグナル

DJレン：Twitterの上位トピックとしては、やっぱりCursor SDK、Codexのプラットフォーム化、この2つが強かった。

DJミオ：加えて、Google側のGeminiがチャットから直接、ダウンロード可能なDocs、Sheets、Slides、PDFなどを生成できるようになった、というプロダクト化シグナルも大きい。

DJレン：ビジネス面では、Google Cloudが前年比63%成長、Geminiも好調、Searchクエリも過去最高。
これは「AIは本当にマネタイズできるのか？」という問いに対する、かなり強い実績ベースの材料だね。

DJミオ：あと長文技術系では、DwarkeshのReiner Popeとのchalkboard session。価格、方程式、システム制約から学習・推論戦略を逆算するっていう、かなりオタク心をくすぐる内容も話題だった。

7. Reddit：LocalLlama / localLLMの熱量

7-1. Mistral Medium 3.5

DJレン：RedditでもやっぱりMistral Medium 3.5は大盛り上がり。
dense 128Bという存在感、256k context、reasoning effort可変、multimodal、vLLM推奨。
「denseモデルのニッチ」が改めて注目されていたね。

DJミオ：Strix Halo + q4の報告では、さっき触れた通り46.70 tok/s生成、3.26 tok/s prompt処理。
「128B denseのchonker」って呼び方も出てて、巨大さへの畏怖とロマンがあった。

DJレン：一方で、modified MIT licenseという表現に対する反発はかなり強かった。
オープンと言うなら、商用制限の説明はもっと明確であるべきだ、という話だね。

7-2. Qwen 3.6評価とFlashQLA

DJミオ：次にQwen 3.6 27Bの量子化比較。
BF16、Q4_K_M、Q8_0 GGUFを、llama-cpp-python + Neo AI Engineerで評価していて、HumanEval、HellaSwag、BFCLが指標。

DJレン：そこで目立ったのはQ4_K_M。
BF16より1.45倍高速、ピークRAM 48%削減、モデルサイズ68.8%縮小、しかもfunction callingスコアはほぼ同等。
ただし、Q8_0の結果が妙だったので、「error barsがない」「sampling errorかも」「KV cacheの量子化が影響したのでは」みたいなツッコミもあった。

DJミオ：しかもHumanEvalスコアが予想より低くて、Gemma 3 4BやLlama3-8bより低いのは変じゃないか、Qwen 3.6 27Bなら本来85%以上出るはず、という疑問も出てた。
評価環境の透明性がやっぱり大事だね。

DJレン：FlashQLAのReddit反応も触れておくと、forward/backwardベンチをもっと見たいという声、そしてSM90 / CUDA 12.8 / PyTorch 2.8という要件の確認、さらに「H100持ってる人向けだね」という半分冗談っぽい反応もあった。

7-3. ローカルLLMを動かす感覚

DJミオ：そして少し文化的だったのが、「Qwen 3.6やGemma 4をローカルで動かしてる時の気分」っていうミーム。
“太陽の力を掌に”みたいな感覚っていうね。

DJレン：コメントも興味深くて、Gemma 4は翻訳と創作に強い、Qwen 3.6はゲーム開発に強い、しかも夜通しエージェントを回してもエラーやループが少ない安定性が評価されてた。
あと、GraniteやNemotronみたいなタスク特化fine-tuneモデルの方が安くて効率的という現実的な意見もあった。必要に応じてロードし、agent orchestratorで使い分けるという発想だね。

7-4. ローカルLLMでコーディングは厳しい？

DJミオ：でも一方で、かなり伸びてた投稿が「I’m done with using local LLMs for coding」。
ローカルのQwen 27BやGemma 4 31BをClaude Codeと比べて、特にOS/Dockerまわりの判断やtool callingが弱く、GitHub repoのDocker化も効率よく進められなかった、と。

DJレン：しかも、docker buildの出力を読みすぎて250k input tokensでセッション崩壊したり、prompt cache failureで長い停止が起きたり。結果として、コーディング用途ではOpenRouterやKimiみたいなクラウドの方が生産性が高い、という結論だった。

DJミオ：ただ、コメント欄は単純な否定ではなくて、
「設定を最適化すれば改善する、Unslothのガイドを見ろ」とか、
「モデルよりtech stackが大事、RTX 5090でQwen3.6 35B/27B、TurboQuant、OpenCode TUI、oh-my-opencode harness、MCP群を組み合わせるとかなり強い」とか、
「同じモデルでもハーネス次第で結果は大きく変わる」っていう反論も多かった。

DJレン：ここでもやっぱり結論は同じ。ハーネスが重要。

7-5. 16台のDGX Sparkで何を走らせる？

DJミオ：最後にローカルハードウェアの夢枠。
16x DGX Sparks - What should I run?
16台のNVIDIA DGX Spark、200Gbps FS switch、QSFP56 DAC cables、合計2TB unified memoryというホームラボ。

DJレン：コミュニティの提案は、Kimi K2.6をvLLMで回す、eugrのnightly buildsを使う、Deepseek V4向けの未マージPRも視野に、みたいな本気のもの。
8ノードでFlashはうまく動き、Pro版なら16台を使い切れる、prefillは高いが生成は20 tok/s程度という見通しも出ていた。
そしてもちろん「売ってH100買えば？」っていう身もふたもないコメントもあった。

8. 非技術寄りサブレディット：Claude × Blender、Talkie、DeepSeek価格比較

8-1. ClaudeとBlenderの接続

DJミオ：Less Technical側でインパクトが大きかったのは、Claude now connects to Blender。
AnthropicがBlender MCP connectorを出して、ClaudeがBlenderのPython APIを通じてシーン制御できるようになった。

DJレン：自然言語で3Dシーン作成・修正、ノードのデバッグ、バッチ変更、カスタムツール作成まで可能。
「入門レベルのクリエイティブ・フリーランサーに最後の釘が刺さった」みたいな煽りタイトルの投稿もあったけど、コメントでは「量は増えても品質は自動で上がらない」「人間の目と技能は依然必要」という冷静な意見も多かった。

DJミオ：あと、AnthropicがBlender Development Fundのcorporate patronになって、最低28万ドル拠出という話も出てた。
コネクタはClaudeデスクトップアプリのConnectors Directoryから追加できて、Blender長年使ってる人たちからは複雑なシーン管理がかなり楽になるという声。
その一方で、Blender Python APIは広大だからトークン消費が相当多くなりそう、という現実的な懸念も。

8-2. Talkie：1931年以前だけで訓練された13Bモデル

DJレン：そして今日はこれも面白かった。Talkie。
1931年以前のデータだけで訓練した13B言語モデル。研究者はNick Levine、David Duvenaud、Alec Radford。
学習データは260B tokensで、古い書籍、新聞、科学誌などから構成されてる。

DJミオ：目的は、現代データなしでLLMがどう一般化するかを見ること。
結果として、言語や数のタスクで有望で、さらに簡単なPythonをin-context examplesから学べるのが面白い。しかもその基盤が、現代のプログラミング知識じゃなくて、19世紀的な数学的推論っぽいところがロマンある。

DJレン：ユーザー例も楽しい。
月旅行について聞くと、当時の科学理解に基づいて、大気がないことや必要速度を理由に困難だと論じる。
ゲルマニウムで真空管を置き換えられるかと聞けば、抵抗や酸化の問題を語る。つまり、歴史的な知識状態をかなり忠実に再現する。

DJミオ：ただし欠点もあって、sycophancy、つまりユーザーの前提に迎合しがち。
現代の発明について聞いても、ユーザーの framing に乗って「可能そう」「不可能そう」と合わせてしまうことがある。
このへんは普通のLLMと同じ課題だね。

DJレン：別スレでは、Talkieの評価やRLパイプラインにClaude Sonnet 4.6が使われ、Claude Opus 4.6が合成会話データを生成したという、ちょっと皮肉な事実も共有されていた。
「過去だけで学んだモデル」を検証するのに、現代の最先端モデルを使ってるわけだ。

DJミオ：それでも意義は大きいよね。
長期予測、発明、LLM identityの研究に使えるし、今後はGPT-3級スケールの“vintage model”も計画されている。
しかもApache 2.0でHugging Face公開済み。
ユーザーは2026年までの発明予測を尋ねたり、ラウダナムの歴史レシピを聞いたりして遊んでいた。歴史研究や教育にも使えそう。

8-3. DeepSeek V4と価格競争

DJレン：最後はDeepSeek V3.2 vs DeepSeek V4、そして価格比較。
OpenRouterの利用統計では、DeepSeek V3.2が1.21T tokensで伸び続け、DeepSeek V4 Flashは317B tokens。新型が出ても旧版の方がまだ使われてる。

DJミオ：理由としては、コストやローンチ時の初期問題、そして実運用では新バージョンへの移行が慎重になること。
とはいえV4自体は、1M context、高いcache hit能力などで非常に強く、実務では大規模コードベースのデバッグでGLM 5.1より圧倒的に良かったという体験談もあった。

DJレン：さらに価格面。
DeepSeek-V4-Proが1M input tokensあたり$1.74で、GPT-5.5やClaude Opus 4.7の$5.00に対して大きく安い。
しかも1.6T parameters、1M context、SWE-bench 80%+。
“GPT-5.5が贅沢税に見える”という表現も出ていた。

DJミオ：コメントでも、cached tokensのおかげでコンテキスト利用がほぼ無料感覚、出力も安いから、普通の用途ならV4-Proがかなり有力。
一方で、超長大コンテキストではGPTやClaudeにまだ及ばない場面もある、という声もあった。
それでも、日常の開発ではflash版はさらに安く速いし、オープンコード系には魅力的、という評価だった。

9. そしてDiscordは……

DJレン：最後に運営面。今回はDiscordへのアクセスが遮断され、AI Discords recapは終了。
「この形では復活させないが、新しいAINewsを出す予定」とのことだった。

DJミオ：静かな日、と言いながら、実際には

コーディングエージェントのプラットフォーム化
ハーネス設計の主役化
オープンモデルと価格競争の激化
推論基盤のハード・ソフト協調最適化
ローカル運用の現実と夢
Blenderや科学、歴史モデルみたいな応用の広がり

このへんがしっかり前進してた1日だったね。

10. クロージング

DJレン：今日のまとめを一言で言うなら、“モデルそのもの”より“モデルをどう包み、どう運用するか”が競争力になってきた、かな。

DJミオ：うん。
CodexもCursorもVS Codeも、研究のAgentic Harness EngineeringもLangChainも、Redditのローカル運用談義も、全部そこにつながってる。
今のAIの勝負は、知能単体じゃなく、知能の周辺システムなんだっていうのが、すごくよく見えた回でした。

DJレン：というわけで今夜のMidnight AI Groove、ここまで。
夜の静けさの中でも、AIの現場はちゃんと進んでる。

DJミオ：また次回、次の波を一緒に聴きましょう。おやすみなさい。

DJレン：Good night, and keep the signal warm.

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up