DJレン:
こんばんは、“Midnight AI Groove”。今夜はAINewsの2026年5月13日号、「not much happened today」を読み込んだうえで、その“静かな日”の中身をちゃんと掘っていくよ。
DJミオ:
タイトルは「たいして何も起きてない」なんだけど、実際に見ると全然そんなことないのよね。12のサブレディット、544のTwitterアカウントをチェックして、Discordはこの日で取得停止。しかもAINews自体はいまLatent Spaceの一部になっていて、過去号検索もできる、と。
DJレン:
じゃあまずは大きな流れから。今回のコアテーマは、エージェント基盤の成熟、学習効率やアーキテクチャ研究、企業向けAIの価格競争と囲い込み、それから自律科学・サイバー・ロボティクス。この4本柱だった。
DJミオ:
まずエージェント基盤。Cline、LangChain、Notion、Cursorが、そろって“ただのチャットUI”から“本格的なエージェント・プラットフォーム”へ深く踏み込んだのが印象的だったね。
DJレン:
Clineは、作り直したCline SDKをオープンソース化して、CLIも刷新。TUI、エージェントチーム、定期実行ジョブ、コネクタを追加して、カスタムのコーディングエージェントを作るための再利用可能な基盤として打ち出した。
DJミオ:
LangChainはInterruptでかなりまとめて出してきた。LangSmith Engine、SmithDB、Sandboxes、Managed Deep Agents、LLM Gateway、Context Hub、Deep Agents 0.6。中でも技術的に目を引くのがSmithDB。これはネストした長時間トレースや巨大ペイロードを扱うための専用観測DBで、主要ワークロードで12〜15倍高速なアクセスをうたっている。Apache DataFusionとVortexの上に構築されているそう。
DJレン:
Notionもおもしろい。External Agents APIで、Claude、Codex、Cursor、Decagon、Warp、Devinみたいな外部エージェントがNotionの中で直接動ける。つまりNotionを、また別のサイロじゃなくて、“共有できてレビュー可能なコンテキスト層”にしようとしてる。
DJミオ:
Cursorはクラウドエージェントを強化して、クローン済みリポジトリ、依存関係、バージョン履歴、ロールバック、限定的な外向き通信、分離されたシークレットまで含む、完全構成の開発環境を提供。単なる補完ツールから、安全な実行環境つきの作業代理人へ寄ってる感じ。
DJレン:
ここで重要なのが、エージェントUXの中心が“チャット”じゃなくなってきたって話。長時間動き続ける状態管理、ストリーミング、オーケストレーションが主役になってきた。
DJミオ:
Duet Agentはその象徴だね。何週間、何か月も続くジョブを扱うための状態機械ベースのハーネスを提案していて、親エージェントと子エージェントの協調、そしてメモリで状態を持つ方向。要約圧縮でごまかすんじゃなくて、ちゃんと状態を持続させる。
DJレン:
LangChainのOSS更新も、typed projectionのストリーミング、チェックポイント保存、コードインタプリタ、ハーネスのプロファイル、モデルごとのチューニングといった形で、単なるトークンの流れ以上の“豊かなイベントストリーム”を前提にしている。
DJミオ:
Tabracadabraはオートコンプリートから“どんなテキストボックスでも文脈を読むアシスタント”へ進化。VS CodeもAgentsウィンドウや複数プロジェクトのタスクレビュー改善を出してきた。全体としてのメッセージは明確で、本番エージェントには耐久的な実行、途中状態の可視化、ツールネイティブなUIが必要ってことだね。
DJレン:
次は研究。今回一番筋が通ってたのは、事前学習の効率化とアーキテクチャ実験。
DJミオ:
Nous ResearchのToken Superposition Training、略してTST。事前学習の序盤だけ、通常の次トークン予測じゃなくて“連続したトークンの袋”を読ませて予測し、その後で標準のnext-token predictionに戻す手法。結果として、同じFLOPsで実時間2〜3倍の高速化を報告してる。しかも推論時のアーキテクチャ変更なし。270Mから3Bのdenseモデル、さらに10B-A1BのMoEでも検証済み。
DJレン:
これは経済的インパクトが大きいよね。推論時の互換性を維持したまま学習だけ速い、という主張だから。
DJミオ:
Jonas Geipingたちのmulti-stream LLMも面白い。いまのチャット型学習は、エージェントを単一ストリームに縛りすぎている、という批判で、並列の推論やツール利用をもっと読みやすく、低遅延にできると主張している。論文とコードが公開されている。
DJレン:
それからδ-mem。凍結したフルアテンションのバックボーンに、外付けのオンライン連想メモリをくっつける設計。8×8状態で平均スコアが1.10倍、非δ-memベースラインに対して1.15倍、特にメモリ重視ベンチマークで効果が大きいという報告。
DJミオ:
ポストトレーニングと圧縮では、NVIDIAのStar Elastic。1回のポストトレーニングで、複数サイズの推論モデル群を派生できると主張していて、モデル群を毎回事前学習するより360倍安く、従来最先端圧縮より7倍良いというかなり強い主張。
DJレン:
データキュレーション方面ではDatologyのVLM研究。Siddharth JoshiとPratyush Mainiが紹介していたけど、要点はデータ選別だけでもマルチモーダル性能はかなり伸びるということ。2Bモデルで20個の公開VLMベンチに対して平均+11.7ポイント、InternVL3.5-2Bに約10ポイント差をつけ、しかも学習計算量は約17分の1。4BでもQwen3-VL-4Bに近いフロンティア級性能を、応答FLOPs 3.3分の1で出している。
DJミオ:
オープンデータでは、Percy Liangが次のMarinランにはすでに18兆トークンが混ざっていて、まだ事前学習・中間学習・SFT用データを募集中だと発言。トークンビューワーも共有されていた。
DJレン:
評価とデータセットも進んでる。Kevin LiのSWE-ZERO-12M-trajectoriesは、112Bトークン、1200万軌跡、12.2万PR、3000リポジトリ、16言語という、オープンなエージェント軌跡データセットとして最大級。Victor Mustarはllama-evalを、llama.cppコミュニティ評価を比較可能にする一歩として紹介している。
DJミオ:
そしてSteve RabinovichとSayash Kapoorは、エージェント評価で成果指標だけを見るのは不十分と主張。強いエージェントほどベンチのバグや報酬ハックを露出させるから、ログ解析が必要だ、と。これはかなり本質的。
DJレン:
企業向けの話題に移ろう。ここでは完全にAnthropic vs OpenAIの構図が強まってた。
DJミオ:
RampのデータをAndrew Curranが引用していて、4月時点の企業利用シェアでAnthropicが34.4%、OpenAIが32.3%。見かけ上、初めてAnthropicがリードした形。The Rundownも同じ数字を取り上げていたね。
DJレン:
ただしAnthropicは同時にプラン経済性を変更した。ClaudeDevsによると、有料ClaudeプランにはAgent SDK、claude -p、GitHub Actions、サードパーティSDKアプリで使うプログラム利用向けの月次専用クレジットが付く。これがパワーユーザーには“サブスク補助で動かしていたハーネスを制限するもの”と受け取られて、Theo、Jeremy Howard、Matt Pocock、Omar Sansevieroらから批判が出た。
DJミオ:
一方で反発をやわらげるように、Claude Codeの週間利用上限を7月13日まで50%増加。しかも以前発表済みの“5時間枠の上限2倍”の上に積み増し。つまり制限も強めつつ、別のところで緩和もする複雑な動きだった。
DJレン:
OpenAIはかなり露骨に反撃。Sam AltmanとOpenAI Devsが、今後30日以内に乗り換える企業顧客にCodexを2か月無料で提供すると打ち出した。企業向けの乗り換え補助金だね。
DJミオ:
しかもOpenAIは技術面の詳細も出していて、Windowsサンドボックス設計の解説を公開。ローカルユーザー、ファイアウォール規則、ACL、書き込み制限トークン、DPAPI、ヘルパー実行ファイルを組み合わせて、ローカルのファイルシステムやツールに触れるコーディングエージェントをどう安全に走らせるかを説明していた。
DJレン:
この競争、もう“どのモデルが一番賢いか”だけじゃない。補助金、ワークフロー支配、ハーネス互換性の勝負になってきた、というのが今回の整理だった。
DJミオ:
企業導入でさらに重要になってるのがランタイムとセキュリティ保証。Perplexityは、VPCレベル分離、短寿命のプロキシトークン、外部コンテンツのスキャン、暗号化、自動削除を含むハードウェア分離サンドボックス構成を説明していた。Aravind Srinivasは、これがPerplexityをエンタープライズ向けの知識・調査プラットフォームにする基盤だと位置づけてる。
DJレン:
つまり今のエージェントベンダーは、知能だけじゃなくて境界づけられた実行環境を売っている。
DJミオ:
続いて、自律科学・サイバー・ロボティクス。まずメタテーマとして大きかったのがRecursiveの立ち上げ。AIで科学を自動化し、安全に自己改善するAIを作るスタートアップだね。
DJレン:
Richard Socher、Josh Tobin、Dominik Schmidt、Jenny Zhang、Shengran Huらの発信から、open-endedness、AI Scientist、研究自動化の文脈から人材が集まっているのが見える。隣接ではAdaptionのAutoScientistも、フロンティアラボ外で学習研究ループ全体を自動化しようとしている。Sarah Hookerは、多くの学習失敗は計算資源不足よりも研究ループの脆さに由来すると述べていた。
DJミオ:
サイバー能力評価もかなり急勾配。英国AI Security Instituteは、最先端モデルが完遂できるサイバー課題の“長さ”が数か月ごとに倍増していて、最近のモデルは従来トレンドを上回っていると報告。
DJレン:
Anthropic/GlasswingのLogan Grahamは、Claude Mythos PreviewがAISIのエンドツーエンド・サイバーレンジを両方解けた初のモデルで、Cooling Towerを含み、しかも研究所の250万トークン上限内ですべての課題を通過した唯一のモデルだと主張している。
DJミオ:
XBOWは“トークンあたり前例のない精度”を見つけたとして、パートナー利用で数週間のうちに高・重大脆弱性を数千件発見したと報告。さらに独立コメントのscaling01は、新しいMythos版があるサイバーレンジを10回中6回完遂し、プレビュー版の3回中10回を上回ったと述べていた。
DJレン:
ロボティクスではFigure。Brett Adcockが、Helix-02を使ってヒューマノイドが荷物仕分けを8時間完全自律シフトでこなすライブ配信を行った。これはかなり具体的な長時間デモだった。
DJミオ:
詳細も良くて、カメラ画素から推論し、人間並みの約3秒/個で処理し、オンデバイス推論で動き、ネットワーク化されたフリートとして協調し、バッテリー残量が下がると自律で交代し、必要なら自己診断して保守にフェイルオーバーする。短いベンチ動画じゃなく、複数ロボットが長時間・無人でオーケストレーションされる実演としてかなり強い。
DJレン:
この日の“トップツイート”としてAINewsが挙げていたのは、Claude Codeの価格と上限変更、OpenAIのCodex企業攻勢、Figureの8時間シフト、Cline SDKの公開、そしてToken Superposition Training。この並び自体が、その日の空気をよく表してる。
DJミオ:
ここからはReddit。まず/r/LocalLlamaと/r/localLLM。テーマ1はオンデバイス推論の効率化。
DJレン:
最初はCactus ComputeのNeedle。Geminiのツールコーリングを26Mパラメータのモデルに蒸留した、単発の関数・ツール呼び出し専用モデル。特徴は“Simple Attention Network”で、アテンションとゲーティングのみ、FFN/MLPなし。彼らの主張では、ツール利用の本質は深い推論というより、検索・スロット抽出・JSON組み立てだから、このくらいの構成で足りる、と。
DJミオ:
事前学習は200Bトークンを16基のTPU v6eで27時間、事後学習はGeminiが合成した20億トークンの関数呼び出しデータで45分。消費者向けデバイス上でprefill 6000 tok/s、decode 1200 tok/sを主張していて、単発関数呼び出しではFunctionGemma-270M、Qwen-0.6B、Granite-350M、LFM2.5-350Mを上回るとされる。コードと重みはMITライセンスでGitHubとHugging Faceに公開。
DJレン:
コメント欄では、これを軽量ルーターとして見る視点が強かった。大きなLLMやツールやRAGパイプラインに、適切な引数つきで振り分ける役として有望だと。さらに、構造化RAG出力を受けて自然言語化する小型の後段モデルにも拡張できるんじゃないか、という話もあった。
DJミオ:
技術的には、“外部知識が常にツールやRAGから入るなら、FFN層で事実知識を保持しなくてもいいのでは”という示唆もあったね。つまり、記憶は外部、モデルはオーケストレーションに特化という設計パターン。
DJレン:
ただし注意点として、リポジトリにPythonのpickleファイルが含まれていて、任意コード実行や移植性の問題からセキュリティ的に良くないという指摘もあった。あと蒸留元のGemini自体にツールコーリングの癖、たとえばツール特異性やcatを避けてgrep_searchを使うようなシステムプロンプト上の補修があるから、蒸留データにそのバイアスが入りうるという話も。
DJミオ:
次がすごく楽しい話。Game Boy ColorでローカルにTransformerを動かしたという投稿。Andrej KarpathyのTinyStories-260KをINT8/固定小数点化して、PCなし、Wi‑Fiなし、リンクケーブルなし、クラウドなしで、実機上でprefillと自己回帰ループを回している。
DJレン:
GBDK-2020、MBC5 ROM、バンク切り替えカートリッジROMに重み、カートリッジSRAMにKVキャッシュ、トークナイズも入力もオンデバイス。生成はめちゃくちゃ遅く、出力もかなり意味不明だけど、“動いている”こと自体が証明された。コメント欄は“無意味、だからこそ不可欠”みたいな盛り上がりで、技術的というよりロマン枠だったね。関連でGBALMへの言及もあった。
DJミオ:
それからソーラー駆動のQwen 3.6サーバー。M1 Max 32GBでUnsloth由来のQwen 27B GGUF、100kコンテキスト、約10 tok/s。電源は100Wソーラーパネル3枚とAnkerの1.25kW電源ユニット。推論時の消費電力はだいたい80〜85W、時に30W台、アイドルは5W以下。Hermesやopencodeで使っていて“かなり良い”らしい。
DJレン:
コメントでは、オフグリッド推論におけるApple Siliconの優位が話題になってた。他のGPU系構成はバッテリーを食いすぎる。冬、特に北方では太陽光だけで通年運用は厳しいからハイブリッド電源に移る、みたいな現実的な話も出ていた。
DJミオ:
そして“Stop wasting electricity”。RTX 4090でllama.cppのllama-serverを動かしたユーザーが、GPUの電力上限を下げてもdecode速度はあまり落ちないと報告。設定を見るとQwen3.6-27B-UD-Q4_K_XL.gguf、flash-attnあり、-ngl all、-ctk q4_0、-ctv q4_0、コンテキスト262144。
DJレン:
電力上限を絞ると消費電力を約40%まで落とせて、熱と騒音も減るのに、decode throughputはほぼ維持されるという観測。コメントでは、RTX 5090を450Wから270Wに下げても、prefillは15〜20%程度落ちるがdecodeはそれほど悪化しない、と。だからベンチマークではprefillとdecodeを分けて測れという話になっていた。
DJミオ:
3090や5090を夜間の静音化やコネクタ発熱対策で強めにパワー制限している人もいて、LLM推論では電力最適化の余地が大きいことが見えてくる。
DJレン:
Redditテーマ2はオープンソースのローカルエージェントUI。まずoobaboogaのTextGen。text-generation-webuiから、Windows/Linux/macOS向けのポータブルなElectronデスクトップアプリへ再編された。ユーザーデータは自己完結、CUDA、Vulkan、CPU-only、ROCm、Apple Silicon/Intel Mac対応ビルドあり。
DJミオ:
位置づけは“オープンソース版LM Studio”。外部への通信なし、ik_llama.cpp対応でIQ4_KSやIQ5_KSなど新しい量子化も扱える。ddgsによるWeb検索、Python/HTTP/stdioのMCPツール呼び出しと承認ゲート、OpenAI/Anthropic互換API、Claude Code対応、PyMuPDFでPDF抽出、trafilaturaでWeb整形、Jinja2チャットテンプレートまで入ってる。ライセンスはAGPLv3。
DJレン:
コメントは、プライベートでネイティブなローカルLLMアプリへの需要が強いことを示していた。あと、ローカルLLM界隈のツール群は結局OpenAI互換APIに収束しがちだから、フロントエンドやツールを差し替えやすいという指摘もあった。
DJミオ:
もう一つは“Claude Codeをゼロから作ろう”という投稿。NANO CLAUDEというCLIコーディングエージェントのチュートリアルとGitHubリポジトリが共有された。コメントでは“Claude”の名称利用が商標リスクを招くかもしれない、OpenClawやClawdbotのような例がある、と警告が多かった。
DJレン:
でも中身としては価値がある。モデル呼び出し、ツール実行、反復ループというエージェントの基本構造を理解するには、自作実装がすごく勉強になる、という評価。既存の類似ツールとしてopencodeやPiへの言及もあった。
DJミオ:
次は、より一般向けサブレのまとめ。テーマは現実世界のAIエージェント失敗モード。
DJレン:
まず「3か月前の“Vibe Engineer”が作ったリポジトリを引き継いで、人生で一番気持ちいいPRを書いた」という話。PR差分は+10,197、-3,618,778。AI/エージェント的な雰囲気コーディングで膨れ上がったバックエンドを、一週間でClaudeを使って書き直したらしい。
DJミオ:
数字がすごい。309k行のコード、240kのドキュメント、100万行超のMarkdownログ、220ハンドラ中使われていたのは20程度、40超のシークレットのうち必要なのは2つ。機能は維持しつつ、もっとクリーンなバックエンドと統合テストに整理したと。コメント欄はジョークが多かったけど、背景にはAI生成の技術的負債の問題がある。
DJレン:
“vibe-coded messの清掃”が新しい保守ビジネスになるんじゃないか、という見方も出てたね。あと、エージェント的開発を持ち上げる人たちが必ずしもソフトウェアのプロではない、という信用ギャップの話もあった。見た目は派手でも、人間による削除、検証、再構成が必要だと。
DJミオ:
もう一件は、結婚式ゲスト向けAIコンシェルジュ。モーリシャスでのデスティネーション・ウェディング向けに、最初はプランニング支援、その後ゲスト向けの“Aido”というAI案内役を作った。APIとMCPサーバーを通じて旅行情報やイベント情報を取得する構成。
DJレン:
で、29人のユーザーで719セッション、8678メッセージ。利用目的の最大カテゴリは真面目なロジスティクス相談35%、そして第2位が脱獄・ハック試行25%。低リスクのプライベート用途ですら、ユーザーはかなりの確率で攻撃的プロンプトを試す、という良い実例になってた。
DJミオ:
コメントでは、29人で8000超メッセージはかなり多いという驚きもあったし、観測性とプライバシーへの懸念も出ていたね。ホストがゲストの会話ログを読めるとしたら、そこに抵抗を感じないのか、と。個人イベント向けチャットボットでもログ取りの扱いは重要。
DJレン:
最後にDiscord。AINewsはこの日、Discordアクセスが停止されたので、この形ではもう戻さないと告知していた。代わりに新しいAINewsを出していく、と。ちょっと時代の切れ目を感じる締めだった。
DJミオ:
全体をまとめると、“何も起きなかった日”どころか、実際にはかなり明確な潮流が見えた日だったよね。
ひとつ、エージェントはチャットボットから長時間・状態保持・可観測な実行システムへ。
ふたつ、モデル研究は学習効率、並列ストリーム、外部メモリ、圧縮、データ選別へ。
みっつ、企業市場では価格、補助金、サンドボックス、安全性、囲い込みが勝負を決めつつある。
そして四つ目、自律科学・サイバー・ロボティクスが、アイデア段階から運用可能な能力の実証へ移り始めている。
DJレン:
加えてReddit側では、超小型ツールモデル、レトロハードでの推論、ソーラー運用、省電力化、ローカルUIのネイティブ化といった、“手元でどう回すか”の知恵も濃かった。そして現場では、AIエージェントの失敗は派手な理論じゃなく、コード肥大や脱獄試行やログの扱いみたいな、泥臭い問題として現れている。
DJミオ:
静かな日ほど、基盤の変化がよく見える。そんな回でした。
DJレン:
今夜の“Midnight AI Groove”はここまで。また次回、ノイズの中から本当の流れを拾っていこう。
DJミオ:
おやすみなさい。
