DJミオ:こんばんは、「Midnight AI Groove」の時間です。今夜はタイトルどおり“そんなに大きな出来事は多くなかった日”なんだけど、実は現場感のある重要トピックがかなり詰まってたよね。
DJレン:そう。派手な超大型発表は少なめでも、評価手法、エージェント運用、ローカル推論、セキュリティ、プロダクト競争まで、AI業界の“次の当たり前”が見えてくる回だった。じゃあ順番にいこう。
DJミオ:まずXまわりで一番大きかったのは、CognitionのFrontierCode。これ、従来の「ユニットテストが通るか」じゃなくて、本当にマージできるコードかを評価するベンチマークなんだよね。
DJレン:そこが重要。オープンソースのメンテナたちと一緒にタスクを作っていて、各タスクに40時間以上かけてる。しかも評価軸が、回帰を起こさないか、コードがきれいか、スコープが適切か、テストが正しいか、保守しやすいかみたいに、実務そのもの。
DJミオ:結果も印象的だった。最良モデルのOpus 4.8でも、最難関サブセットでは13%前後。SWE-Bench系だと50%以上が珍しくない空気だったから、「コーディングはもう解けた」みたいな見方にかなり水を差した感じ。
DJレン:うん。要するに、“テストに通る”と“マージできる”は全然違うってこと。現実のソフトウェア開発に近い評価へシフトしてるのがよくわかる。
DJミオ:その流れとつながるのが、今日のもうひとつの大テーマ、エージェント制御はワンショットよりループや反復構造へって話。
DJレン:ただし、単純に「ループさせればいい」ではない。実務家の議論では、明確なゴール、検証基準、反復の構造を与えるのが大事だとされてた。Claude Codeの振り返り、OpenAI Codexの outcome-first prompting、LangChain OSSの rubric、いろんな方向から同じ話が出てる。
DJミオ:でも反論も強かったよね。dzhngは「ループじゃなくて状態機械を設計しろ」寄りだったし、Omar Sar0やGreg Neubigは、簡単に検証できない領域では人間のチェックポイントが不可欠だと指摘。Hamel Husainは“loop”って言葉自体をミュートしたいって冗談を言うレベル。
DJレン:つまり今の結論は、反復は有効だけど、無邪気な自律化礼賛は危険。検証可能性の高い作業では効くけど、曖昧な領域では人が要所で止める必要がある。
DJミオ:プロダクト面でも、その方向に沿った改善が目立ってた。検証しやすさとオーケストレーションがキーワード。
DJレン:そう。ClaudeDevsはMCPコネクタ開発者向けに、採用状況、遅延、エラーなどを見られる可観測性ダッシュボードを追加。MagicPathは外部エージェントのワークフロー向けBuilderプランと、マルチプレイヤーなキャンバス編集を投入。LangSmith SandboxesやModalの話も含めて、エージェントには隔離され、観測できて、長時間動かせる環境が必要だというインフラ潮流が見える。
DJミオ:あと実運用パターンも少し固まってきた感じ。測定可能な成果、制限された自律性、スレッド衛生。長すぎるCodexスレッドは性能を落とすって警告もあった一方、単一スレッドで文脈を積み上げてうまくいったという報告もある。
DJレン:この食い違い自体が重要なんだよね。今のエージェント性能って、ベースモデルの能力だけじゃなく、ハーネスやワークフロー設計にものすごく左右されるってことだから。
DJミオ:続いてモデルとローカル推論。まずMoonshotのKimiがかなり攻めてた。Kimi Codeはオープンソースのコーディングエージェントを大幅更新して、ワンラインCLIインストール、動画ドラッグ&ドロップをコーディング文脈に使う機能、ACP対応、プラグイン、IDE統合を追加。
DJレン:さらにKimi Workというデスクトップエージェント製品も出した。最大300のローカルサブエージェント、拡張機能経由のブラウザ利用、金融向けツール接続、永続メモリまである。かなり“エージェントOS”的な方向に行ってる。
DJミオ:GoogleはGemmaまわりで、効率的なローカル展開を強く押してたね。
DJレン:新しいQAT Gemma 4チェックポイントは、性能を保ちながらメモリ使用量を約4分の1に抑えられるという話で、Gemma 4 E2Bがモバイル向け量子化形式で約1GBに収まるとも報告された。かなり大きい。
DJミオ:それに加えて、Gemma 4 MTPがllama.cppにマージ。QATチェックポイントと組み合わせるとデコードが高速化する。さらにllama.cpp自体が動画入力にも対応して、ローカルのマルチモーダル用途が広がった。
DJレン:オープンウェイト競争も熱い。Artificial AnalysisではMiniMax-M3がIntelligence Indexで55とされ、重みが公開されれば最強クラスのオープンウェイトになりそう、という観測。ネイティブなマルチモーダル、100万トークン文脈、GPQAやMMMU-Proで強い数値が出てる一方、ハルシネーションに敏感な評価では棄権傾向もあるらしい。あと、Appleハード最適化の量子化Qwen3.5も話題だった。
DJミオ:さらにサービングスタックも、もうテキストLLM専用じゃなくなってる。vLLM-Omni 0.22.0は、NVIDIA Cosmos 3のワールドモデル、ロボット向けAPI、Qwen3-TTSやVoxCPM2みたいなTTS、画像・動画の高速サービング、幅広い量子化やハードウェア対応まで追加。
DJレン:つまり、“推論基盤 = テキストLLM基盤”ではなく、“汎用マルチモーダル基盤”へ拡張中ってことだね。
DJミオ:評価の話に戻ると、Agent Arenaも面白かった。Arenaが出した新しいリーダーボードで、100万件以上の実世界セッションからエージェントを評価する。
DJレン:しかも投票じゃなくて、因果トレースでオーケストレーターやハーネスの効果を推定しようとしている。指標は成功確認、賞賛対苦情、ステアラビリティ、bash recovery、ツール幻覚の5つ。方法論が完璧かはまだわからないけど、“野生の使用ログ”をベンチマーク化する試みとしてはかなり本格的。
DJミオ:出力領域の拡張という意味では、Hugging FaceとMecadoのCADGenBenchも注目。図面やSTEP変更から、工学レベルの3D CAD部品を生成・編集させるベンチで、幾何、トポロジー、インターフェース互換性、CAD妥当性を評価する。
DJレン:ここ大事だね。評価がテキストやコードだけじゃなく、物理性や幾何学的正しさを持つ構造化成果物に広がってる。
DJミオ:あとOfir Pressの論点、良いベンチマークは訓練パイプラインになる、って話も印象的。現実データに根ざしてスケール可能なベンチは、測定だけじゃなくデータ生成にも使える。FrontierCodeやAgent Arenaは、まさにスコアボードからフィードバックループへ移行してる感じ。
DJレン:消費者向けAIプラットフォーム競争も整理しておこう。GoogleはパッケージングとSearch、開発者向け面の全部で動いた。NotebookLMは、Ultra契約者向けによりエージェント的なチャット、強い推論、出力形式の拡張。さらにGoogle AI Plusの価格を月7.99ドルから4.99ドルに値下げして、ストレージは400GBに倍増。
DJミオ:検索側もアップグレードしてて、マルチモーダル検索を含む大きなSearch更新と、AI ModeでGemini 3.5 Flashが新しいデフォルトになった。
DJレン:一方AppleのWWDC周辺のAIは、最先端性能で殴るというより統合力が中心。再構築されたSiri AIが、画面上の内容を理解し、アプリ操作を実行し、個人的文脈を使い、音声対話も改善という方向。ただし、EUでの提供制限や対応ハード制約への懸念も出ていた。
DJミオ:技術的に面白かったのは、Appleのオンデバイスモデルが200億パラメータのクエリルーティング型アーキテクチャで、NANDからRAMへクエリごとにエキスパートをロードするらしい点。かなり非標準だけど、端末制約に最適化した設計として興味深い。
DJレン:研究・基盤系では、Anthropicのサイエンスブログも印象的だった。AIが**コーディングでは急速に進んだのに、生物学ではそこまで進んでいない理由は、知能不足より“インフラ不一致”**だという主張。
DJミオ:つまり、生物学のデータベースやツールがエージェント利用前提に設計されていない。だから科学でAIを活かすには、モデル能力だけじゃなく、エージェント互換の科学インフラが必要だと。
DJレン:これと関係するのが、OpenEnvのコンソーシアム移管。Hugging Face、Meta-PyTorch、Reflection、Unsloth、Modal、Prime Intellect、NVIDIAなどが入っていて、目的はモデル、ハーネス、環境、トレーナーの間の共有プロトコル層を作ること。フロンティアラボは自前で密結合できるけど、オープン側には標準化が必要というわけ。
DJミオ:あと、継続学習が実務システム問題として戻ってきてる。Hivemindは、Claude CodeやCodex、Cursor、Hermesみたいなエージェントのトレースを再利用可能なスキルへ変換して、構成をまたいで性能改善すると主張。Nando de Freitasも、トークン列ではなく相互作用の結果から学ぶ研究プログラムを長文で語ってた。
DJレン:最適化アルゴリズム論争も地味に熱かった。MuonはShampooと本質的に違うのか、みたいな議論から、Arohanの“Shampooより良いかもしれないオプティマイザ”示唆、Keller JordanのShampooやSpectral Descentの公開ベンチまで。ドラマっぽく見えるけど、根っこには最適化器レベルの改善がまだフロンティアとして再評価されているという流れがある。
DJミオ:エンゲージメントの高かった投稿も押さえておこう。技術的に関連のあるトップは、Signalが英国のオンデバイススキャン要求や年齢確認連動のコンテンツ検査に反対した件。AIそのものというより、クライアント側推論とプラットフォーム信頼に直結するプライバシー・セキュリティ問題だね。
DJレン:企業面では、Sam AltmanがOpenAIの現状方針を共有し、その直後にOpenAIが秘密裏にS-1を提出。エンジニア視点では、OpenAIもAnthropicもIPOの選択肢を残しつつ、容量と製品幅を拡大していると読める。
DJミオ:あと純粋なプロダクトや評価の話題としては、NotebookLM、Kimi Code、Kimi Work、そしてFrontierCodeがその日の主役だった。
DJレン:じゃあReddit、とくに**/r/LocalLlamaと/r/localLLMの要点へ。まず一番盛り上がったのが、さっきも触れたllama.cppへのGemma 4 MTP対応**。
DJミオ:PRでmulti-token predictionサポートが入って、--spec-type draft-mtp とドラフターモデルを使う形。ユーザー報告では、RTX 4070 Super・12GB VRAMでGemma 4 12Bが140 tok/s。QAT GGUFとMTPドラフターを併用して、かなり速い。
DJレン:ベンチマークでも、MTPなしだと6.2〜6.4 tok/sだった構成が、MTPありで15.7〜31.2 tok/sまで伸びる例が出ていて、ざっくり3〜5倍高速化。ただし、受理率はタスク依存で、翻訳や要約は高いけど、創作文章は低い。つまり決定的で制約の強いタスクほどMTPが効きやすい。
DJミオ:31Bや26B-4BモデルではGemmaチームのAIME-26性能の再現も報告されてた一方、E4B/E2Bは未対応、マルチGPUでは追加設定が必要な可能性がある、という注意もあったね。
DJレン:次は「GPUなしでもgemma-4-26B-A4Bが動く」という報告。Intel i5-8500と32GB RAM、Linux、KoboldCppで、CPUのみで約7 tok/s。
DJミオ:ポイントは、このモデルが総パラメータ26Bでも、トークンごとのアクティブパラメータが約4Bということ。だから量子化重みがRAMに収まれば、CPU推論も現実的。高級GPUなしでもローカルLLMは成立する、という象徴的な話だった。
DJレン:もちろん、8GB VRAMの安い中古GPUでも大きく速くなるという指摘はあった。体感では5倍くらい改善する可能性があると。
DJミオ:もうひとつ大きかったのが、Xiaomi MiMoのスループット主張。1TパラメータMoEで、標準的な8GPUサーバ1台で1000+ tokens/s、最大1200 tpsという話。
DJレン:技術の中身としては、TileRTのpersistent/fused/pipelined kernelsと、DFlash speculative decoding、そしてモデル側では選択的MXFP4 QAT。つまり、全体をFP4にするんじゃなく、MoEのexpert層だけをFP4化して、推論やコード性能をなるべく落とさずにメモリ帯域負荷を下げる。
DJミオ:ただしコミュニティの反応は当然慎重で、**“標準的な8GPUサーバ”って具体的に何?**という疑問が多かった。データセンターGPUなのか民生GPUなのかで評価が全然変わる。
DJレン:それでも、巨大でも疎なMoEは経済性を上げられるという方向性の証拠としては注目されたね。消費者ハードが不足・高騰している一方、データセンターがGPUを握ってるという“Token Winter”論まで出ていた。
DJミオ:Gemma関連では、Gemma 4 chat template の preserve_thinkingも話題。公式テンプレートがそのサポートを追加した、という話で、ターンをまたいで思考や内部構造を保持する挙動がエージェント的コーディングに効くんじゃないかと。
DJレン:ただし、そこは要確認。コメントでは、まだマージ前のPRではないか、公式アーティファクトにまだ反映されてないのでは、という注意もあった。なので“使える前提”で語るより、テンプレートのバージョン確認が必要。
DJミオ:ここからは、やや非技術寄りのサブレディットまとめ。まずはClaude Codeのセキュリティ、プライバシー、トークン制限の話題がかなり荒れてた。
DJレン:最初はかなり深刻なもの。npmサプライチェーン攻撃が進行中で、悪意あるインストール/ビルドフックが認証情報を抜き取り、さらに**~/.claude/settings.json の Claude Code SessionStart hooksや.vscode/tasks.json の folderOpen tasks**を使って永続化する、という警告が広まった。
DJミオ:対象として挙がっていたのは、@redhat-cloud-services系、@vapi-ai/server-sdk、ai-sdk-ollamaなど。対処としては、まず依存関係ツリーとlockfileを確認、次にClaudeやVS Codeの永続化設定を点検、その後でネットワークを切って掃除してから、信頼できるマシンで秘密情報をローテーションする順番が推奨されてた。
DJレン:さらに、GitHubのセキュリティログ、Actionsワークフロー、自前ランナー、OIDC信頼関係、npm publish履歴の監査も推奨。緩和策としては、npm install --ignore-scripts、整合性ハッシュ付き依存固定、最小権限のCI/CDトークン。かなり実務的なインシデントレスポンスだった。
DJミオ:次はAnthropicのプライバシーポリシー変更への反発。2026-07-08発効予定とされる改定で、法執行機関への開示条件が、外部から強制された法的プロセスだけでなく、Anthropicの“誠実な信念”で必要と判断した場合にも開示し得るようになる、という主張が出ていた。
DJレン:その結果、ロールプレイ、創作、脅威を含む物語文脈、メンタルヘルスの吐露みたいなものが、安全分類器の誤判定で当局エスカレーションされるリスクがあるんじゃないか、と懸念されていた。ただし投稿には直接の変更元リンクが示されていないので、そこは慎重に見る必要がある。
DJミオ:コメント欄ではかなり強い不信感が出ていて、OpenAIやMistralと比較して悪い方向だ、という声もあった。一方で、反対意見としては、高重大度の悪用、たとえばバイオリスクみたいなケースでは、一定の監視・通報権限は正当化されるという見方もある。
DJレン:つまり、プライバシーと安全義務のトレードオフが表面化している話だね。
DJミオ:そしてClaudeの新しい使用制限はおかしいという話。スクリーンショットでは、Opus 4.8、100万コンテキスト、UltraCodeのセッションが約13分で110万トークンを消費して、5時間制限の79%を使った、という内容。
DJレン:でもコメント欄はけっこう冷静で、それは当然ではという反応が多かった。最高価なモデル、巨大コンテキスト、しかもUltra Codeのような並列エージェント的モードを同時に使えば、1リクエストでも実質複数の高コスト呼び出しみたいになる。
DJミオ:要するに、Ultra Codeは“Max thinkingの上位互換”じゃなく、狭い高価値タスク向け。普段使いにすると制限を食い尽くす。設定はタスクに合わせて選べ、という話に収束してたね。
DJレン:クリエイティブ系では、まずMythos 5の噂。Anthropicのテストモデルが、SVGやコードベースのビジュアル生成、フロントエンド/UI、ゲーム、Webサイト、コード生成音楽までかなり強い、と。
DJミオ:しかも出力に数分かかることがある、内部では学習コード最適化が熟練人間の4倍に対し最大52倍、なんて話まで出ていた。でもコミュニティの反応は全体に懐疑的。特に、公開版はテスト版よりかなりナーフされるだろうという見方が強かった。
DJレン:実務的なコメントとしては、もし本当に高コストなら、単一の巨大汎用モデルより、小型で安いドメイン特化モデルを出すべきではという議論もあった。
DJミオ:もうひとつはIdeogram 4.0。ローカルのComfyUIでINT8版を使い、1440×1024くらいで、LoRAなしでキャラクターやIP理解が非常に強いという報告。
DJレン:しかもワークフローが具体的で、KijaiのPrompt BuilderノードやSilverOxideのワークフロー、そしてJSONでhigh_level_description、style_description、compositional_deconstructionみたいな構造化プロンプトを使う。バウンディングボックスでMarioやSonicの位置、表情、ジェスチャー、背景文脈まで指定する感じだね。
DJミオ:インペインティング品質も高いらしく、必要ならComfyUI-Inpaint-CropAndStitchで顔や細部だけ直す、という実務フローも共有されてた。つまり、低めの解像度でまず作って、問題部分だけ部分修正で仕上げる。
DJレン:LoRAなしでそこまでキャラクター再現ができる点に驚く声が多くて、オープンモデルとしてかなり存在感を出していた。
DJミオ:最後にDiscordまわり。AINewsはDiscordへのアクセスが止められたと発表していて、今後はこの形では復活させず、新しいAINewsを出す予定とのこと。
DJレン:全体をまとめると、“静かな日”と言いつつ、中身は濃かった。特に大きいのは4つかな。
DJミオ:ひとつ目、コーディング評価が“テスト合格”から“マージ可能性”へ進化していること。
DJレン:ふたつ目、エージェントはループさせれば勝ちではなく、検証・状態管理・人間の介入点設計が核心だということ。
DJミオ:みっつ目、ローカル推論はQAT、MTP、MoE、量子化で急速に実用化していて、Gemmaやllama.cpp周辺が特に元気。
DJレン:そしてよっつ目、現実の使用ログや構造化成果物を対象にした新しい評価基盤が増えていて、ベンチマークがそのまま訓練や製品改善のループになり始めていること。
DJミオ:派手なニュースが少ない日ほど、地殻変動は見えやすいのかもしれないね。
DJレン:というわけで今夜の「Midnight AI Groove」はここまで。静かな日ほど、現場のノイズじゃなく本流が聴こえる。
DJミオ:また次回、深夜のAIグルーヴで会いましょう。おやすみ。
