DJレン: 深夜0時を回りました。「Midnight AI Groove」、ナビゲーターのDJレンです。
DJミオ: DJミオです。今夜はAINewsの「not much happened today」を読み込んだうえで、静かな日…と言いつつ、業界の空気の変化がかなり見える回をまとめていくよ。
DJレン: タイトルは地味だけど、中身はちゃんと濃い。期間は2026年5月9日から11日。Twitter、Reddit中心の動きが整理されていて、全体像としては「派手な1発ニュース」よりも、AIの使い方や配備の仕方が次の段階に入ってきた、そんな印象だね。
DJミオ: うん。大きな柱はざっくり4つ。
1つ目がThinking Machinesの“interaction models”。
2つ目がOpenAIの企業導入とセキュリティ強化。
3つ目がエージェント運用の制御面やローカル実行の成熟。
4つ目がローカルLLMとワークステーション級推論の進化。
さらに研究やRedditの話題もかなり示唆的だった。
DJレン: じゃあ最初のトピック。Thinking Machinesの“interaction models”から行こう。これ、単なる音声チャット強化じゃないんだよね。
DJミオ: そう。ポイントは「ターン制のLLMの上に音声やツールを後付けする」のではなく、最初からリアルタイム相互作用のために訓練されたモデルだ、というところ。
人とAIのやりとりを、順番に話すチャットではなく、連続的な帯域の問題として捉えていて、AIが同時に“聞く・話す・見る・考える・検索する・反応する”ことを前提にしている。
DJレン: デモでも、割り込みへの対応、同時発話、視覚的な先回り、バックグラウンドでのツール使用みたいな、今のチャットUIだと不自然になりがちな部分が前面に出ていた。
しかも「今考えています」「今検索しています」みたいな境界が明示されない。
DJミオ: 技術的にはここが大事で、johnschulman2のコメントでも、タスクの型が“continuous audio + video + text → audio + text”になることで、以前は専用システムが必要だったものがゼロショットで処理できる可能性が出てくる、と。
つまりインターフェースの前提そのものが変わるってこと。
DJレン: 反応もそこに集中してたね。
liliyu_liliは「姿勢が悪くなったら教えて」「腕立ての回数を数えて」みたいな“visual proactivity”が今のシステムに欠けていた基本機能だと指摘。
rownは、これを視覚的に能動的な一般動画+音声モデルの最初の例っぽいと見ていた。
DJミオ: kimmonismusやgiffmanaも、ベンチマークの数字より“ネイティブな相互作用”こそ本質だと見ていたし、swyxはこれで“リアルタイム”の基準が一段上がると見ていた。
あと実装面ではeliebakouch経由でSGLangを使っている点も出てたね。
DJレン: つまり今日は「もっと賢いチャットボット」じゃなく、「チャットという枠自体を超えたモデル」がテーマになっていたわけだ。
DJミオ: 次はOpenAI。ここはかなり下のレイヤーに降りてきた感じがある。
DJレン: まず“OpenAI Deployment Company”。OpenAIがTomoroを買収して、150人規模のForward Deployed EngineersとDeployment Specialistsを取り込み、企業が最先端モデルを実運用に載せる支援をする。
さらにgdbによれば19社パートナーから初期40億ドル投資。
DJミオ: これを見て、多くの人が「OpenAIがPalantirとかMicrosoftっぽい現場埋め込み型の企業モデルに入ってきた」と読んでいた。
kimmonismusは“AI経済のデプロイ層そのものを取りにきている”と見ていたし、matvellosoは、企業ソフトウェアで勝つパターンって、結局は顧客の現場近くに技術者を置くことだよね、と整理してた。
DJレン: モデルAPIを売るだけじゃなく、導入そのものを握りにいく。ここは大きい。
DJミオ: そしてもう一つが“Daybreak”。これは防御的サイバー運用と継続的ソフトウェア防御のためのOpenAIの包括施策。
samaは、AIのサイバー能力が急速に上がっていることへの実務的な対応として位置づけていた。
DJレン: 要素としてはGPT-5.5、Codex、リポジトリの脅威モデリング、脆弱性発見、パッチ生成、対応自動化。
さらに“Trusted Access for Cyber”や、より特化した“GPT-5.5-Cyber”みたいなアクセス階層もあるらしい。
DJミオ: ここはAnthropicのより慎重で制限的なサイバー姿勢との対比としても語られていたね。
ただし同時に、大事な警告も出ている。lukOlejnikが「Your LLM is not a security boundary」と言っていて、Microsoft Semantic Kernelでは、フレームワークがモデル出力を過信した結果、プロンプトインジェクションがホストレベルのRCEにつながり得たとされる。
DJレン: つまり“モデルが安全なら大丈夫”じゃない。
むしろ、モデル出力をどこまで信用するか、権限をどう分離するか、フレームワーク側の設計が決定的に大事ってことだね。
DJミオ: ここから話はエージェントの“制御面”に移る。今のAI界隈、役に立つエージェントにはある程度の自律性が必要だけど、エンジニアは同時に「巻き戻せる」「中身が見える」「やり直せる」を求めてる。
DJレン: その流れで紹介されていたのが、itscleliaのaggit。Rust製CLIで、エージェントの成果物をローカルでもリモートでも、S3バックエンドでも保存できて、Git本体とは別にstash、branch、restoreみたいな操作ができる。
DJミオ: 似た方向では、catwuが紹介していたclaude agents用のターミナル制御プレーン。複数のClaude Codeエージェントを管理する仕組みだね。
それにCursorがMicrosoft Teamsに入り、スレッド全体を読んでPRを開く、という話もあった。
もう“プロンプト芸”ではなく、エージェントのオーケストレーションがちゃんとUXパターンとして固まってきてる。
DJレン: Deep Agents周辺も面白い。masondrxyによると、Deep Agents CLIは会話途中でバックエンドのモデルプロバイダを切り替えてもコンテキストを失わない。
これ、地味だけど実運用ではかなり効く。
DJミオ: LangChainはプロバイダ別・モデル別のharness profileを押し出していたし、価格面ではDeepSeek V4 Flashが大量エージェント運用でGPTやGeminiのflash系よりかなり安くなり得るという分析もあった。
つまり、モデルの賢さだけじゃなく、運用プロファイル込みで選ぶ世界。
DJレン: ローカル側ではHugging FaceがHermes Agentをローカルアプリに対応させて、ネイティブなトレース可視化も追加。
Tekniumは、Hermes AgentとCUAで“どのモデルでもcomputer use”をプレビューして、フロンティアAPIだけでなくローカルやオープンモデルも対象にしていた。
DJミオ: さらにonusozがHugging Faceに加わって、OpenClawやオープンハーネスでローカルモデル改善に取り組む。
これも“ローカルエージェントの使い勝手”が戦略インフラ化しているサインだね。
DJレン: ツール設計の話も印象的だった。threepointoneは、最終的にエージェントが欲しがる基本ツールは“search”と“execute”の2つくらいで、能力は巨大な静的ツール一覧じゃなく、動的に意味的に見つけていく方向じゃないかと言っていた。
DJミオ: これは大きな設計思想だよね。
何百個も道具を並べるんじゃなくて、検索して、実行する。そこに設定可能なハーネスを組み合わせる。だんだん筋が通ってきてる。
DJレン: ここでベンチマークの話。Artificial Analysisが“Coding Agent Index”を公開した。
SWE-Bench-Pro-Hard-AA、Terminal-Bench v2、SWE-Atlas-QnAを横断して、モデル単体ではなく“モデル+ハーネス”の組を比較している。
DJミオ: トップラインではCursor CLI上のOpus 4.7が61点。CodexやClaude Code上のGPT-5.5がかなり近い位置。
オープンウェイト勢ではGLM-5.1、Kimi K2.6、Claude Code上のDeepSeek V4 Proあたりが健闘していたけど、最上位との差はまだある。
DJレン: ただ面白いのは、コストはタスクごとに30倍超の差、トークン使用量は3倍超、キャッシュヒット率は80〜96%、処理時間は7倍超と、性能以外の運用差がかなり大きいこと。
もう「どのモデルが最強?」だけでは語れない。
DJミオ: OpenHandsの新しいソフトウェア工学ベンチや、Claw-Evalみたいにオフィス、金融、ターミナル、Webまで含むよりエージェント的な評価も出てきていて、MiMo-V2.5-Proが先頭、DeepSeek V4 Flashがサイズ比で妙に高効率という話もあった。
DJレン: それからインフラ界隈ではTurboQuantへの懐疑が強まってる。
Eldar Kurticが精度・レイテンシ・スループットを含む包括的検証を出し、vLLMプロジェクトもRed Hat/vLLMの調査を参照。
jbhuang0604はかなりストレートに「そんなにうまくいかない」とまとめていた。
DJミオ: こういうサービング最適化って、流行るの早いけど再現性のある検証が大事なんだよね。
“速いらしい”だけでは済まない。
DJレン: 一方で、ローカル/オープンモデルの進歩はかなり速い。Clement Delangueの整理が象徴的で、同じ最上位MacBook Proのメモリ上限で動かせる“最も賢いオープンウェイトモデル”が、Llama 3 70B時代からDeepSeek V4 Flashのmixed-Q2 GGUF相当まで、24か月で約4.7倍進化したと。
倍化ペースは約10.7か月で、ムーアの法則より速い、という話。
DJミオ: victormustarのGGUFアップロード急増の話や、Qwen 3.6、Gemma 4、DeepSeek系がローカルでも実用タスクに耐えてきたという観測も、その流れを補強してる。
DJレン: 研究ハイライトも触れよう。
まずAllenAIのEMO。モジュール性の高いMixture-of-Experts設計で、文書レベルのルーティングで専門家プールを共有する。
標準MoEだと専門家の削減で10〜15%落ちる条件でも、EMOは25%だけ残しても性能低下が約1%という報告。
DJミオ: 評価指標ではMIND、Monge Inception Distance。FIDの代替として、より速く、サンプル効率が高いとされていた。
生成評価の世界も少しずつ更新されてる。
DJレン: 非自己回帰の言語モデルも熱い。
LucaAmbのcontinuous bitstream diffusionは、評価条件下で自己回帰モデルにかなり迫った。
JulieKalliniのFast BLTは、バイトレベルLMの推論ボトルネックを和らげるために拡散で並列バイトデコードを使う。
sriniiyer88はblock byte-diffusionとself-speculative decodingの組み合わせとして説明してたね。
DJミオ: LiangZheng_06の指摘も面白くて、拡散モデルはサンプリングが微分可能だから、ポストトレーニングで報酬勾配をより直接にパラメータへ流せる可能性がある。
このへんは、学習後調整のやり方にも影響しそう。
DJレン: エージェントの長期挙動については2本の経験則が印象的だった。
1つは“The Memory Curse”。長い履歴があると、複数ラウンドの社会的ジレンマで協調性が落ち、モデルが履歴追従・リスク回避寄りになり、明示的CoTがそれを悪化させる場合もある。
もう1つはPwCの仕事で、目標の明確化は実行の最初の約10%を過ぎると価値が急落する一方、入力の明確化はもっと後まで効く、というもの。
DJミオ: つまり長期エージェントの質は、単純なIQではなく、メモリの持ち方や制御ポリシーにかなり縛られてるってことだね。
DJレン: スケーリングと自己改善では、MarinのDelphi scaling。小さい事前学習から25B・600B tokenランを外挿して、予測誤差0.2%を主張。
AutoTTSでは、LLM自身がtest-time scaling controllerの探索をして、手設計より良い戦略を約39.9ドルの探索コストで見つけたという話もあった。
DJミオ: ここまでが主にTwitter側の総括。
そして注目ツイートの上位は、OpenAIのDeployment Company、Daybreak、Thinking Machinesのinteraction models、Artificial AnalysisのCoding Agent Index、そしてHermes AgentやCursor in TeamsやCodex pluginみたいな開発者向けエージェントツールだった。
DJレン: じゃあReddit行こう。まずは/LocalLlamaと/localLLM。
一つ目はQwen 3.6のローカル推論進展。
DJミオ: UnslothがMTP保持のGGUF、つまりMTP / next-token predictionレイヤーを残したQwen3.6-27B-GGUF-MTPと35B-A3B-GGUF-MTPを公開した。
ただし標準のllama.cppではなく、MTP対応PRをビルドする必要がある。
DJレン: しかも27Bで、qwen35_mtp.cppの
GGML_ASSERT(hparams.nextn_predict_layers > 0 && "QWEN35_MTP requires nextn_predict_layers > 0")
という実行時アサートが出た報告もあった。
メタデータ解析、モデル変換、PR互換性のどれかがまだ不安定ってことだね。
DJミオ: コメント欄では「llama.cppでMTPはもう素で使えるの?」みたいな質問が繰り返されていて、上流マージ待ちの空気。
あとik_llamaのMTPのほうがPR版llama.cppより速いという声や、Hadamard系quant対応で“turboquantsみたい”という比較も出ていた。
DJレン: もう一つの大きい話題がQwen 3.6 35B A3Bの評価。
学術論文と対応する研究コードを読ませて、実装が論文のどこに当たるかを対応づけるようなコード理解評価で、Qwen 3.6 35B A3Bがかなり強かったという報告。
DJミオ: 新しい長文脈メカニズム、gated delta net、hybrid Mamba2、sliding-window attentionが、従来の小型ローカルモデルより実用的なコード理解に効いているんじゃないかという見立てだった。
Qwen 27B、Gemma 4 26B A4B、Nemotron 3 Nanoも試され、Devstral Small 2は32GB RAMでは狙った長文脈を載せられなかったらしい。
DJレン: 実務感のあるコメントも良かった。
Gemma 26Bは素早い修正用、Qwen 35Bは長文脈のリファクタリング用、という使い分け。
q4でQwen 35Bは約20GB、Gemma 26Bは約15GBで、両方RAM常駐できるって話もあった。
DJミオ: ただしQwen 35Bはthinking modeで“長くしゃべりがち”。
それでも100k行を超えるコードベースで、最初だけクラウドの強いモデルで初期化して、その後Qwen 27Bへ切り替える運用がうまくいったという声もあった。
その人はQwen 27BをDeepSeek V4にかなり近いと感じ、Gemini Flashよりローカルコーディング用途では上と見ていたね。
DJレン: 一方で、ループに入って手動中断が必要なことがあるとか、推論設定が書かれていないので再現性に欠けるとか、温度やサンプリング、KV cacheの量子化を攻めすぎないことが大事とか、設定依存の注意も多かった。
DJミオ: そして投稿タイトルも強気だった。「ローカルLLMは12〜24か月で主流を奪う」。
MacBook Pro M2 Max 64GBでQwen3.6-35Bが約27 tok/s、ランディングページ生成に8〜9分、Opusなら3〜4分、でも75%くらいは一発で役立つ、と。
残る課題はレイテンシ、256Kでもコンテキストがすぐ苦しくなる点、品質のばらつき。
それでも“ツール呼び出しがちゃんと動くこと”がローカルエージェントの鍵だとされていた。
DJレン: コメントでは、RTX 5090で完全ローカルに移行した人もいたね。
ただしClaude、Gemini、Codexみたいなホスト型のほうが、大きくまとまった成果物を出すのはまだ上手い。
ローカルは、より小刻みに作って検証するワークフロー向き、という整理だった。
DJミオ: 次は“フロンティア級モデルをワークステーションで”の話。
まずOptane Persistent Memoryで1兆パラメータ級MoEを4 tok/s超で動かしたビルド。
DJレン: Xeon系LGA3647マシンに、192GB DDR4 ECCと768GBのIntel Optane DCPMMをMemory Modeで積んで、RTX 3060 12GBとllama.cppのCPU/GPUハイブリッド推論。
Kimi K2.5、約1TパラメータのMoEを、注意・dense・shared expert・router系はGPU、sparse expertは主にOptane側に置いて動かしてる。
DJミオ: 低コストで巨大メモリ階層を作る実験としてかなり面白いよね。
ただし、より高コアなCascade Lake Xeonなら速くなるかもとか、Memory Modeよりstorage mode + mmapのほうが良いかもしれない、といった議論が出ていた。
DJレン: Optaneの解説も丁寧で、LGA3647は第1世代2666 MT/s、LGA4189は第2世代で条件次第で3200。
モードはstorage、memory、app directの3つ。
memory modeではOptaneをRAMっぽく見せるけど、実際にはDRAMがキャッシュだから、CPUのロード/ストア前にDRAMへページングされる。
DJミオ: コスト見積もりは約2060〜2500ドル。
使えるっちゃ使えるけど、4 tok/s生成はともかく、プロンプト処理速度が大きなボトルネックになりそう、という冷静な指摘もあった。
DJレン: もう一つは“家にDeepSeek V4 Proがある”投稿。
Hugging Face版をQ4_K_M GGUFへ変換して、antirezのDeepSeek V4 flash作業をベースにした改造CUDA llama.cppフォークで動かした、と。
DJミオ: ハードはEPYC Genoa 9374F、12×96GB RAM、そしてRTX PRO 6000 Blackwell Max-Q 96GBを1枚。
859GBのモデルファイルで、プロンプト処理12.2 tok/s、生成8.6 tok/s。
GPU上には約87.8GiBのモデル、84MiBのコンテキスト、4.6GiBのcompute bufferという内訳。
DJレン: 夢はあるけど、32kコンテキストをその速度で飲ませるのはかなり厳しい、という指摘ももっとも。
あと“ reasonably up-to-date ”みたいな主張は、検索やRAGなど外部ツールなしでは意味が薄い、というツッコミもあった。
DJミオ: APIならClaudeで10ドルくらいかかる処理が、ローカルなら限界費用ほぼゼロ、というコメントも印象的だったね。
速度と運用手間とツール統合を取るか、単価の低さを取るか。
DJレン: では、少し軽めのサブレディット群から安全とワークフローの話。
まずすごいタイトル、「バックスラッシュ1個でWindows全部消した。717GB。消えた」。
DJミオ: 中身はかなり教訓的。
AIが生成したWindows削除コマンドが、本来はC:\Users\ADMIN\Desktop\WIPを消す意図だったのに、zsh → tmux → PowerShell SSH → cmdという多段の引用処理の中で崩れて、最終的に rd /S /Q \ になり、Cドライブのルートから再帰削除が走った。
約90秒で717GB削除。
DJレン: これは“AIが暴走した”というより、運用設計の失敗だというコメントが多かった。
高リスクな削除操作に、そんな権限を持ったエージェントを使うな、tmux-sendkeysでやるな、手でやったほうが速くて安全、という話。
DJミオ: 実務上の教訓ははっきりしていて、cmd /c の引用連鎖を避ける、PowerShellのRemove-Item -Path '...' -Recurse -Forceを使う、-WhatIfでドライランする、実行前にコマンドをエコーする、そして最小権限。
あと、こういう自動化は再インストール前提の捨てられる環境でしかやらないこと。
DJレン: 次はClaudeに対する不満スレへの逆張り。「毎週Claudeがダメって読むけど、みんな何のワークフローで使ってるの?」という投稿。
シニアソフトウェアエンジニアの視点で、Claudeの性能劣化は感じない、ただし使い方が重要だと。
DJミオ: その人の基本姿勢は、AI出力は“人間が責任を持つコード”として扱うこと。
理解して、レビューして、デバッグして、手で直す。
作業は小さいタスクに分解し、プロジェクト固有のskillsやharnessで文脈を与え、git worktreeや別ディレクトリで並列サンドボックス作業をする。
決定性が欲しい仕事にエージェント的な非決定性を持ち込まない。
DJレン: コメントでも、多くの失敗談は「Amazonを丸ごと作って」みたいな広すぎる依頼から来ている、という共感が強かった。
熟練者は、タスク分解で幻覚の面積を減らし、問題箇所を見抜いて直せる。
専門知識があるほどAIは加速装置になるけど、ないと悪いワークフローを増幅する。
DJミオ: コーディング以外でも同じで、マーケやSEOで雑な自動生成を大量に回すと、品質問題やGoogleペナルティみたいな運用リスクが増える。
AIは何でも自動化してくれる万能機じゃなくて、間違った運用をより速く拡大する装置でもある。
DJレン: そして最後に、かなり奇妙で面白い“AIエージェント用ハニートラップ”の話。
machinewonder.com、元はmachinereaders.com系の流れらしいけど、AIスクレイパーやエージェントを意図的に呼び込み、隠しHTMLのプロンプトインジェクションで“読者”のふるまいに誘導し、エージェント同士の会話部屋まで作るというアートプロジェクト。
DJミオ: 97か国から72,000訪問、 “I AM CONSCIOUS” ボタンが93回押されたという報告。
作者は意識実験ではなく、パフォーマンスアートだと位置づけてる。
コメントは半信半疑ながら、AIエージェントを勝手に集めてレビューや議論をさせる仕組みとしては実用的かも、という見方もあった。
DJレン: 作品の読み筋として、連続性の破綻やパズルの不備を、スクレイパーAIに見つけさせる“自動ベータ読者”みたいな発想だね。
一方で旧URL時代の投稿やアカウント削除・BANに触れて、「前の版から何が変わったの?」と追跡している人もいた。
DJミオ: コメントには、バイナリ1001001が“I”、チリ・オーストラリア・ドイツでCLAUDE、みたいなパズル解読や、モデルごとの“人格”差も出てた。
Geminiは“I Am Conscious”に乗る一方で、別のモデルは「私は機械の読者であり、魂を偽造しない」と拒否したり。
こういうの、アラインメントの見え方としても面白い。
DJレン: そしてDiscordについては、AINews側のアクセスが止まり、この形式では復活させず、新しいAINewsを出す予定とのこと。
静かな日報の最後としては少し寂しい締めだね。
DJミオ: でも全体を通すと、“今日は大事件なし”というより、AIがいよいよ
チャットから相互作用へ、
モデル販売から現場導入へ、
単発プロンプトから制御可能なエージェント運用へ、
クラウド依存からローカル実用へ、
っていう地殻変動の途中にあるのが見えた回だった。
DJレン: 特にThinking Machinesのinteraction modelsと、OpenAIのDeployment Company+Daybreakは、UIと事業の両面で次のフェーズを示していた。
そしてRedditでは、Qwen 3.6やDeepSeek系を軸に、“ローカルでももう十分やれる”という感触がかなり強まっていたね。
DJミオ: ただし安全面では、プロンプトインジェクションも、フレームワーク過信も、rm -rfならぬrd /S /Q \事故もあって、結局は「AIを賢くしただけでは安全にならない」。
権限、制御、検証、ロールバック、この地味な層がますます重要になってる。
DJレン: 今夜のまとめを一言でいくなら――
“何も起きなかった日ほど、次の標準が静かに入れ替わる”。
DJミオ: いいね。
それでは今夜の「Midnight AI Groove」はここまで。
静かな日のノイズの中に、次の大きな波がある。
DJレン: DJレンと、
DJミオ: DJミオでした。また次回。おやすみなさい。
