https://news.smol.ai/issues/26-03-23-not-much
not much happened today | AINews
DJレン:「こんばんは、”Midnight AI Groove”。今日はAINewsの3/20〜3/23まとめ回。”not much happened today”って題だけど、実は“地味に重要”が多い日だよね。」
DJミオ:「わかる。派手なモデル発表より、エージェント運用とかRLの基盤とか、後から効いてくる話が詰まってた。じゃあ順番にいこ。」
1) Claudeの“Computer Use”と、コード生成から“業務オートメーション”へ
DJレン:「まず一番デカいのはAnthropic。ClaudeがmacOSの研究プレビューで、マウス・キーボード・画面を操作して“任意のアプリ”を動かせるようにした。Claude CoworkとClaude Code経由。」
DJミオ:「APIとかブラウザサンドボックスの外に出たってことだよね。コミュニティでも“もうラップトップ要らない作業ある”みたいな反応が出てたし、Anthropicが外部のエージェントスタックを買うより、自分で“コンピュータ操作のループ”を握りに行ったんじゃないか、って見方もあった。」
DJレン:「で、ここがポイント。空気が“codegen(コード吐く)”から“ワークフロー自動化(仕事を回す)”に移ってる。」
DJミオ:「ツイート群も、その“ハーネス層”が成熟してきた話が多かったね。たとえばHermes Agentの勢いとか、awesome-hermes-agent的なエコシステム整備、TekniumのTipsとか。あとT3 Codeがブラウザとターミナル統合を進めて、オープンソース化の話も出てた。」
DJレン:「Jimmy Koppelが言及されてた“Command Center”みたいな、1つのワークスペースから多エージェントを並列実行するオーケストレーションも。」
DJミオ:「それと、ParchiとかBYOK(Bring Your Own Keys)系の“超長時間自律タスク”の流れ。Qwen3.5-REAPをParchiで回すみたいな話も入ってたね。」
2) ボトルネックはモデルIQじゃなく“運用現実”:過剰エージェント化と「slop theater」
DJレン:「ただ、盛り上がりと同時に不満も目立った。最新の強いモデルが“やる気ありすぎ”で、過剰にエージェントっぽく動いて逆に邪魔、みたいな。」
DJミオ:「具体例として、GPT-5.2 Proのサブエージェントが弱い/委譲で品質落ちる、Claudeのブラウザ/コンピュータ操作が脆い、っていう現場の愚痴が出てた。並列化も、うまくいかないと“slop theater(雑なショー)”でスループット上がらないって批判。」
DJレン:「だから“勝つプロダクトは、コード生成じゃなくてループを閉じるやつ”ってテーマが繰り返されてた。トレース、評価、インシデント、プロダクションのフィードバックで改善する。LangSmithの ‘close the loop’ や、PlayerZeroのまとめが引用されてたね。」
3) 自己改善エージェント、RLポストトレーニング統一、ベンチ/環境生成の工業化
DJミオ:「研究側も強かった。Meta関連で、まずHyperagents / DGM-H。Darwin Gödel Machineの発展で、“タスクのやり方”だけじゃなく、“今後の改善を生む手続きそのもの”も改善できるって主張。」
DJレン:「固定されたメタ手順じゃなくて、自己改善ループ自体が進化する、と。しかも転移先として、コーディング、論文レビュー、ロボの報酬設計、オリンピック採点まで挙げてた。Jenny Zhangが触れてたやつ。」
DJミオ:「もう一つMetaで、RLLM = RL + LM-as-RM。報酬モデルを“LMの生成型RM”として、ポリシー自身の出力をオンポリシーで学習していく。検証しやすい/しにくい/できないタスクまで、ポストトレーニングを統一したいって話で、Jase Westonが言及。」
DJレン:「そして重要なのがベンチと環境生成。WebArena-Infinityが、ブラウザ環境の構築コストを“数ヶ月の院生労働”から“10時間未満&環境あたり100ドル未満”に落としたって主張。」
DJミオ:「しかも難しくして、強いオープンソースモデルでも50%未満。旧WebArena/OSWorldより厳しい。RLでエージェント鍛えるなら、手作りテストベッド数個じゃなく、オート生成で“本物っぽい環境”を量産する時代ってことだね。Shuyan Zhouの名前が出てた。」
DJレン:「RLの話題ではThe Turing Postの“16種RLバリアントまとめ”もバズってたけど、技術的により意味があるのは“環境とRMの産業化”の方、って温度感だった。」
4) 世界モデル/JEPA、メカニスティック解釈、最適化理論のスケーリング則
DJミオ:「JEPA/世界モデルも強い。LeWorldModelが“ピクセルからエンドツーエンドJEPAを安定学習”、しかも教師-生徒のトリックなし、EMAなし、重いヒューリスティックなし。」
DJレン:「15Mパラメータ、GPU1枚、プランニングは1秒未満。さらに要約では計画が48〜50倍速いみたいな話も。JEPAは“脆い/トリック必要”と思われがちだったから、シンプルレシピの再現性が刺さった。Lucas Maes、Randall Balestriero、RobotsDigestが反応。」
DJミオ:「メカニスティック解釈ではAnthropicの『On the Biology of a Large Language Model』のスレが話題。いまのmech interpは“雰囲気”じゃなくて、回路や内部特徴をリバースエンジニアリングする段階に来てる、って。ただし、トレースした回路が“モデルが言語化できる自己説明”と一致するとは限らない、って注意も。」
DJレン:「最適化理論ではAntonio Orvietoが、適応的最適化手法の理論でLLMのハイパラ・スケーリングの多くを説明できて、総当たりじゃない転移ルールも示唆できる、って議論。Muon的セットアップへの含意とか、オプティマイザ依存の話も続いてた。」
5) ドキュメント解析、検索/リトリーバルが“エージェント・ネイティブ”に
DJミオ:「システム層の話も良かった。まずPDF解析。Google DevsとLlamaIndexが、LlamaParse + Gemini 3.1 Proで“難しい金融PDFから構造化抽出”をやって、証券会社の明細や複雑テーブルで精度が約15%上がったって。」
DJレン:「さらにLlamaIndexはLiteParseも出した。軽量でURL/ストリーム対応、VLM依存なし。エージェントが“安く速く呼べるパーサ”として設計されてるのがポイント。」
DJミオ:「コーディングエージェント向け検索はCursorのInstant Grep。数百万ファイルに対してミリ秒でregex検索、っていう“現実のボトルネック”解消。小さなモデル改善より、検索レイテンシが反復速度を決めるって言い切ってたのが象徴的。」
DJレン:「リトリーバルではlate interaction / multi-vectorが再燃。Weaviate/LightOnの議論で、トークンレベルのマルチベクタ表現が、フルcross-encoderより安く再利用できて、コードや推論系でリコール/ランキングが改善するから実用になってきた、という主張。Connor Shortenのポッドキャスト、softwaredoug、Amélie Chatelainが絡んでた。」
6) リリース群:Sakana Chat、MiniMaxの定額、Luma Uni-1、NVIDIA Kimodo、周辺ツール
DJミオ:「プロダクトで一番“具体的なローンチ”はSakana AI。日本向けのSakana Chatを出して、新しいNamazu alphaモデル群で提供。オープンモデルをポストトレーニングして、上流のバイアスを減らして日本の文脈・価値観に寄せる、って。」
DJレン:「消費者向けだけじゃなく、“文化ローカライズのポストトレーニング”のデモでもある、と。技術ブログで、読売との協業で1.1M投稿を対象に、アンサンブル+ノベルティサーチでナラティブ抽出、仮説生成、人間検証まで回す情報工作分析(OSINT)も紐づけてた。Hardmaruがそのワークフローに触れてたね。」
DJミオ:「MiniMaxは逆に“課金のプロダクト化”。テキスト/音声/音楽/動画/画像APIを1つのサブスク定額 ‘Token Plan’ にして、マルチモーダルの請求の面倒さを解消、外部ハーネス互換も打ち出した。」
DJレン:「生成メディアではLumaのUni-1が“考えながら同時にピクセル生成”って触れ込みで注目。ただ詳細はまだ薄め。NVIDIAのKimodoは、700時間のモーションキャプチャで学習したプロンプト可能なモーション/タイムラインモデルで、人間とロボ両方のスケルトン対応、Hugging Faceで公開。」
DJミオ:「その他のリリースメモもあった。Hugging Face Kernels 0.12.3がFlash-Attention 4(cutlass.cute)対応。TRL v1.0.0が長文トレーニングで最大44倍のVRAM節約、AsyncGRPOも予告。AI2のMolmoPoint GUIは、座標回帰じゃなくグラウンディングトークンでGUI自動化、ScreenSpotProで61.1って報告。」
7) “トップツイート”の顔ぶれ
DJレン:「エンゲージ高かったのを整理すると、Claude computer use、Cursor Instant Grep、Luma Uni-1、Sakanaのナラティブ知能/OSINT、JEPAのLeWorldModel、Hyperagents/DGM-H。この並びが“いま何が刺さってるか”を表してる。」
8) Reddit:中華LLMの勢い、ローカルGPU現実、超軽量ブラウザLLM、GGUF変換修理
DJミオ:「Redditの/LocalLlama系は話題が濃い。まず“中国LLM情勢”のまとめ。ByteDance/Alibaba/Tencent/Baiduが主要で、ByteDanceはdola-seedやSeed OSS 36B(dense)、動画のSeedance T2V。TencentはHunyuan 3Dで3Dメッシュ強くて、オープンは2.1まで、みたいな整理。」
DJレン:「Ant GroupのLing 2.5 1TはLightning LinearAttentionだけどKimi K2.5に負ける、MeituanのLongCat-Flash-Chatは動的MoEで有効パラメータが18.6B〜31.3B、DeepseekはMLA/DSA/GRPO等の革新で話題、って並びだった。」
DJミオ:「“Six AI Small Tigers”(ZhipuとかMinimaxとか)が、大きいオープンウェイトを出して認知を取りにいってる、って文脈も。Minimax 2.5が229B-A10BのMoE、みたいな。」
DJレン:「Tencentが最初はオープンでブランドを作って、商用段階でクローズに寄せるんじゃ、って見方もあったね。あと、OpenRouterの直近7日トークン使用量ランキングで中国モデルが支配的、Xiaomi MiMo-V2-Proが1.77T tokensで首位、って話も出てた。西側ラボは3つしか入ってない、という指摘。」
DJミオ:「一方でByteDanceは“実はオープンウェイト出してない”って確認もされてた。Hugging Faceに無い、と。」
DJレン:「AlibabaはModelScope DevCon(南京)で、QwenとWan系の継続オープンソースをコミット。ただし主要メンバー離脱で品質が落ちないか心配、でも“Qwen 3.5 Coder来い”って期待も。」
ローカル実装/ハード:9枚3090の現実と、5090買うべき論争
DJミオ:「ハード面は“RTX 3090を9枚運用した正直レビュー”。6枚超えるとPCIeレーンやレイテンシ/帯域でトークン生成性能が落ちたり、安定性や電力管理がキツいって。」
DJレン:「Proxmox勧めたり、一般用途ならクラウドの方が効率的って話もあった。それでも3090は24GB VRAMで約$750、コスパは強い。改善案として専用PCIeスイッチとか、EPYCのPCIe 5.0、VRAM/枚を最大化、P2Pドライバ(GPU間転送をCPU経由にしない)重要、って技術的コメントが付いてた。」
DJミオ:「そして“ローカルでも最適化すればClaude級に迫れる”って体験談もあったね。4090/3090/3060混在で、用途ごとにQwen 2.5はautocomplete、Minimax 2.5はチャット、みたいな使い分け。」
DJレン:「5090の後悔スレも面白い。値上がりと性能のバランス、待つべきって意見、SaladCloudで$0.25/時レンタル良いって話、買って後悔したけど値上がり40%で結果オーライみたいな人も。4090買って5090は見送る戦略とか、DGX Sparkを2台クラスタが良い、ConnectX7が高いから単体は割高、って議論まで行ってた。」
技術ネタ:7MBのバイナリLLM、GGUFの壊れたレイヤ修理、OllamaのModelfile回避
DJミオ:「技術の変化球も。57Mパラメータで99.9%がバイナリ重み(-1/+1)、7MB、ブラウザ内WASMで約12 tok/s、FPU不要、L1キャッシュに入る、オフラインで子供向け英語ストーリーが生成できる、って投稿。」
DJレン:「MicrosoftのBitNetとか1.5bit量子化(-1,0,1)を想起するって反応もあった。評価やコード見たい人が多かったね。」
DJミオ:「もう一つは、Qwen 3.5 9B系のGGUF変換でattentionやexpertレイヤが数学的に壊れてたのを修理して、Q3/Q4/Q8などで出し直した、って話。LM Studioの推奨設定(温度0.7、topK 20)とか、Q8→Float32でマージ→Q4_K_Mに再量子化、llama.cppのllama-quantizeを使う、みたいな実務情報も濃い。」
DJレン:「あとClaude codeでツール有効化されてなくて400エラー出るのを、Ollamaのcustom Modelfile作って ollama create で回避、ってワークアラウンドも共有されてた。distillation/mergeは“ちゃんと広いベンチで検証しよう”ってツッコミも入ってたし、システムプロンプトの引用符の意味に研究あるの?って疑問も出てた。」
9) もう少しライト寄りSubreddit:Claude Code運用レベル、時刻参照バグ、懐ゲーパッチ、Gemini品質回帰、Qwenメガネ
DJミオ:「ライト寄りまとめの方でも、ClaudeのComputer Useは大反響。Pro/MaxのmacOSで、Slack/Calendarみたいなコネクタ優先、無い場合は直接アプリ操作して、メール走査やレポート作成もできる、って。」
DJレン:「Claude Codeの“5つのレベル”も盛り上がり。レベル1が生プロンプト、レベル2がCLAUDE.mdで指示、でも長くなるとコンプライアンス落ちる。レベル3で ‘Skills’(タスク別markdownプロトコル)を作って再利用、ただ手動QAは必要。レベル4で ‘Hooks’ による自動検証。レベル5で多エージェントオーケストレーション、198エージェント実験でマージコンフリクト3.1%まで下げた、って。Citadelでオープンソース化。」
DJミオ:「あと“スキルは不活性なら0トークン”って誤解があって、実際はフロントマターを読んで起動判定するから多少トークンかかる、って補足もあった。」
DJレン:「小ネタだけど深刻なのが“Claudeが長時間セッションで日付・時刻を間違える”問題。システムプロンプトの日時がセッション開始時にしか注入されないから、7時間使うと“開始時刻に閉じ込められる”って説明がされてた。 petitionじゃなくてenhancement request出そう、って現実的コメントも。」
DJミオ:「ユースケースでは、Claude Opus 4.6が1996年のゲームを現代Windowsで動かすためにWING32.dllをパッチして、古い呼び出しを現代OS呼び出しに変換する、DXVK的な発想の互換レイヤを作った話も面白かった。GitHubで公開。」
DJレン:「Geminiは逆風。Ultraの品質回帰、文脈保持できない、履歴消える、コーディングが崩れる、サポートもダメ、で解約検討。2Mコンテキストのはずが4k〜8kに落ちた、みたいな“スロットリング疑惑”まで出てた。新バージョン前にnerfされるパターンじゃ?って疑いも。」
DJミオ:「Qwen関連は、MWCバルセロナでAlibabaがQwen Glasses発表。S1とG1の2系統で、リアルタイム翻訳、HD撮影、視覚認識。G1は補助金込みで約275ドル。Qwen App連携で音声で注文や予約、2026年に本格展開予定。で、Qwen3.5以降クローズに向かうのでは?って憶測コメントも付いてた。」
10) Discord欄:静かな日、そしてAINewsの転機
DJレン:「Discordは“静か”って書いてあったけど、そもそも今回、Discord側のアクセスが遮断されて、今の形では復活させず、新しいAINewsを出す、って宣言が入ってた。Latent Spaceのセクションになった話と合わせて、運営面の節目だね。」
DJミオ:「最後に“Claude Code Source Leak”って見出しが置かれてたのも気になる余韻だった。詳細はここでは深掘りされてないけど。」
DJレン:「総括すると、今日は“モデルが賢くなった”より、(1)エージェントがPCを触る、(2)運用のボトルネックと閉ループ、(3)RLの環境生成と報酬モデルの工業化、(4)検索・解析みたいな足回り強化、が主役。」
DJミオ:「派手さはないけど、全部つながって“AIが仕事をする形”が具体化していく日だったね。じゃあ次の曲にいこう、Midnight AI Groove。」