Midnight AI Groove 26-04-17

Last updated at 2026-05-15Posted at 2026-05-07

DJレン: Midnight AI Groove、今夜も深夜の回線に乗ってお届けします。DJレンです。

DJミオ: DJミオです。今日はAINewsの「not much happened today」を読み込んだうえで、実際には“静かな日なのに論点は多い”って感じの1日をまとめていくよ。

DJレン: そう。冒頭の空気としては「今日はあまり起きなかった」。でも中身を見ると、主役はほぼ2本立て。AnthropicのClaude Opus 4.7とClaude Design、それからローカル界隈でのQwen3.6祭りだね。

DJミオ: まず全体像から。AINewsは4月16日から17日にかけて、12のSubredditと544のTwitterアカウントをチェック。Discordについてはこの日でアクセス終了。今後は新しいAINewsの形に移行する、というお知らせも入ってた。

DJレン: じゃあTwitter recapからいこう。最大の話題はAnthropicの新しいデザイン系プロダクト、Claude Designの研究プレビュー公開。

DJミオ: これ、単なるチャットAIやコーディングAIじゃなくて、自然言語からプロトタイプ、スライド、ワンページ資料を作る“デザイン／試作面”として出てきたのが大きい。Claude Opus 4.7がエンジンになってる。

DJレン: 観測筋の反応もわかりやすかったね。「Figma、Lovable、Bolt、v0への直球」っていう見方。市場反応まで含めて話題化していて、Figma株の下落もネタになっていた。

DJミオ: 機能面では、インラインでの微修正、スライダー操作、Canva・PPTX・PDF・HTMLへのエクスポート、さらにClaude Codeへ渡して実装に繋げられる、という流れが共有されてた。つまり、アイデア→見た目→実装の接続をAnthropicが狙ってる感じ。

DJレン: ただしローンチ直後の体験はかなりノイジーだった。ベンチマーク勢は好意的でも、実ユーザーからは回帰や文脈保持失敗、Design自体の不安定さ、安全性まわりのアカウント問題なんかも指摘されてた。

DJミオ: そこは重要だね。第三者ベンチではかなり強かった。Code ArenaではOpus 4.7が1位で、Opus 4.6比で+37。Text Arenaでも総合1位で、特にコーディングや科学寄り領域で強い。

DJレン: Artificial AnalysisのIntelligence Indexでも、ほぼ三つ巴。Opus 4.7が57.3、Gemini 3.1 Proが57.2、GPT-5.4が56.8。しかも彼らのagentic benchmarkであるGDPval-AAでも1位。

DJミオ: それに加えて、Opus 4.6より高スコアなのに出力トークンを約35%削減した、と報告されてるのもポイント。さらに“extended thinking”を完全にやめて、“adaptive reasoning”に統一。加えてtask budgetsも導入された。

DJレン: でも初日評価は割れた。Victor Taelinは回帰やコンテキスト障害を報告。一方でEthan Mollickは翌日にはadaptive thinkingの挙動が改善していると述べ、AnthropicのAlex Albertも初期バグの多くが修正されたと確認してる。

DJミオ: つまり、性能指標としては強いが、製品体験としては初速でかなり荒れた、という整理だね。

DJレン: そして今回のAnthropic関連でもう一つ大きいのが、品質そのもの以上に「コスト効率」が強く語られていたこと。あるML問題では旧来の高級モデルより約10分の1のトークンで近い性能、なんて主張も出てた。

DJミオ: Artificial Analysisも、テキスト・コード両方でOpus 4.7を価格性能のPareto frontier上に置いてた。絶対的首位かは別で、LiveBenchではGemini 3.1 ProやGPT-5.4に劣るという指摘もあったけど、総論としては「agentic utilityと効率をかなり改善した」がTwitter側のコンセンサス。

DJレン: 次はcomputer useとcoding agents。ここはOpenAIのCodexまわりが熱かった。

DJミオ: そう。Codexのデスクトップ／computer use系アップデートに対して、「実用感としてかなりAGIに近い」とまで言う人がいた。Slack操作、ブラウザの一連フロー、任意のデスクトップアプリ操作が速い、しかも企業のレガシーソフトに本当に使えそう、という評価。

DJレン: gdbはCodexを“フルエージェントIDE”になりつつあると表現してたね。派手なデモ止まりじゃなくて、実務導入の気配が濃くなっている。

DJミオ: ただ、そこで同時に出てきた設計論が面白い。「モデルをひたすら巨大化するより、シンプルなハーネスと強い評価系、モデル非依存の足場のほうが信頼性を上げる」という流れ。

DJレン: 具体例としては、金融アナリスト用の3段階パイプライン。router / lane / analystの分離、厳格な文脈境界、各段階にgold set。ここから出た教訓は、多くのバグはモデル能力不足じゃなくて、指示やインターフェース設計の問題だということ。

DJミオ: leaked Claude Code harnessからも似た学びが引き出されてた。凝ったAI scaffoldより、単純な計画制約と表現レイヤーの整理のほうが勝つことがある、と。

DJレン: 極端な例では、Qwen3-8BがLongCoT-Miniで、vanillaだと0/507なのに、dspy.RLMのscaffoldを乗せると33/507になった。fine-tuningじゃなく、足場が“100%持ち上げた”という強い主張。

DJミオ: そしてLangChainもそれ系のパターンを製品化してて、deepagents deployにsubagent support、Agents SDKにmemory primitivesを追加。Agentスタックがどんどん定番化してる。

DJレン: オープンソース側ではHermes Agentのエコシステム拡大。派生のAtlas、Wiki、HUD、コントロールダッシュボードなどが紹介されて、さらにOllamaがネイティブサポートを実装。ollama launch hermesで使えるようになった。

DJミオ: しかもNous ResearchとKimiがHermes Agent Creative Hackathonを25,000ドル規模で開始。コーディングや生産性だけじゃなく、クリエイティブ・ワークフロー側へAgentを押し出していこうとしてる。

DJレン: 研究面も見ておこう。エージェントの継続改善とロバスト性では、いくつか注目論文が紹介されてた。

DJミオ: Cognitive Companionは、推論の劣化を監視する仕組み。LLM judge版か、hidden state probe版のどちらかを使う。特にlayer 28のhidden stateにロジスティック回帰を当てるprobeが、推論オーバーヘッドなしでAUROC 0.840を出した、というのが目を引く。

DJレン: LLM monitor版だと反復を52～62%減らして、オーバーヘッドは約11%。実運用に寄せた研究だよね。

DJミオ: Web agentではWebXSkill。エージェントのtrajectoryから再利用可能なスキルを抽出して、WebArenaで最大+9.8ポイント、grounded modeのWebVoyagerで86.1%に達した。

DJレン: それからAutogenesis。エージェント自身が能力ギャップを見つけ、改善案を提案し、検証し、うまくいった変更を再学習なしで統合するプロトコル。自己改善系の一歩として紹介されてた。

DJミオ: 評価の世界では“open-world evals”がキーワード。今のベンチマークは狭すぎる、長期・開放型・現実のぐちゃぐちゃした環境で測るべきだという主張が複数あった。

DJレン: 規制や“economy of agents”の議論とも繋がるし、CRUXみたいな現実環境で定期的にAI agentを評価するプロジェクトにも関心が集まっていた。

DJミオ: 一方で、NLLやperplexityベースで、訓練外ドメインの本や記事を2500トピックに分けて広く測る案も出てたけど、RLHFやpost-training後の時代にperplexityがまだどれだけ意味を持つか、という反論もあった。

DJレン: OCRと検索評価もagent目線に寄ってきてる。LlamaIndexのParseBenchは、167K超のルールベーステストで省略、幻覚、読み順違反などを評価。狙いは“人間が読める”ではなく、“agentが安全に行動できるほど信頼できるか”。

DJミオ: RAGでは、late-interaction retrieval representationがraw文書テキストの代替になりうる、という話もあった。もし成立すれば、RAGパイプラインの一部で全文復元をスキップできるかもしれない。

DJレン: 次はオープンモデルとローカル推論。ここはQwen3.6が完全に主役。

DJミオ: Twitter側では、Qwen3.6-35B-A3Bをllama.cppやPiと組み合わせたローカルagentスタックが共有されて、「ローカルのagentic systemが本当に現実的に見えてきた」という温度感だった。

DJレン: Red HatはNVFP4量子化版のQwen3.6-35B-A3Bチェックポイントを公開して、GSM8K Platinum 100.69% recoveryという予備結果を報告。さらにDaniel Hanchenはdynamic quantの比較で、多くのUnsloth quantがKLD対ディスク容量のPareto frontierに乗ると主張していた。

DJミオ: 消費者向けハードウェア推論も進んでる。PyTorch/TorchAOで、FP8やNVFP4量子化を使いつつ、メモリ制約のあるコンシューマGPU向けにオフロードしても大きな遅延増加なし、という話。Apple側ではGemma 4がiPhone上で長文脈・完全オフライン実行のデモ。

DJレン: 推論インフラの更新としては、vLLMがMORI-IO KV Connectorを紹介。単一ノードで2.5倍のgoodput向上をうたってた。Cloudflareはagent-ready診断サイト、feature flag機能、共有圧縮辞書で92KBが159バイトになる例など、AIプラットフォーム推進を継続。

DJミオ: 応用分野では、科学・健康・インフラが並んでた。科学では“insight anticipation”、つまり親論文群から将来の論文の中核貢献を予測するタスク。GIANTS-4BというRL学習モデルがfrontier modelを上回るという報告も。

DJレン: 健康ではウェアラブルデータからのバイオマーカー発見。最初の発見として“深夜のdoomscrollingがうつ重症度を予測する”という相関が出ていた。ρ=0.177、p<0.001、n=7,497。しかもその特徴量名をモデル自身が名付けたのが面白い。

DJミオ: さらに個別化医療では、コーディングエージェントが個人ゲノム解釈にもう十分実用的という話。100ドル未満の解析でメラノーマ素因がおよそ30倍高いことを見つけ、その後の介入まで繋がったという具体例が挙がってた。

DJレン: そしてメタストーリーとして、計算資源の巨大建設。Epoch AI Researchによると、米国のStargate計画7拠点は2029年までに9GW超へ向かっている見込み。ニューヨーク市のピーク需要に匹敵する規模。

DJミオ: gdbはこれを“compute-powered economy”の基盤と表現し、別の観測者は世界のデータセンターCAPEXをインフレ調整後で年間マンハッタン計画5〜7回分くらいだ、とスケール感を語ってた。

DJレン: Twitterのトップトピックをまとめると、Claude Design、Opus 4.7のランキング、Codex Computer Use、OllamaのHermes対応、医療応用、そしてStargateの電力規模、って感じだね。

DJミオ: ではReddit recapへ。まず/r/LocalLlamaと/r/localLLM。ここはもうQwen3.6一色。

DJレン: 最大の話題はQwen3.6-35B-A3Bのリリース。35B総パラメータ、3Bアクティブのsparse MoE、Apache 2.0、ネイティブ・マルチモーダル。エージェント型コーディング能力が、アクティブサイズの10倍級のモデルに匹敵するとされていた。

DJミオ: ベンチでは、denseなQwen3.5-27Bや前世代のQwen3.5-35B-A3Bを、特にagentic codingとreasoningで大きく上回るという見せ方。視覚系でもRefCOCO 92.0、ODInW13 50.8など、空間知能の強さが注目されてた。

DJレン: ユーザー報告も熱い。ある投稿では、Qwen3.6がtower defenseゲームを自律的に組み立て、canvas描画やwave終了判定のバグまで見つけて修正した。llama-server構成で、Qwen3.6-35B-A3B-UD-Q6_K_XL.ggufやmmproj-F16.ggufを使い、3090で120 tok/s。

DJミオ: コメント欄では、その速度と修正能力への驚きが多かったね。3.8k〜5k tokenでinstant prefillっぽい体験、Gemmaより軽快、ローカル環境構築の具体スタックを知りたい、という声も多かった。

DJレン: 別の投稿では、「初めてローカルモデルが努力に値すると思えた」。5090+4090で260k context、170 tok/s。AvaloniaのUI XMLや組み込みC++でかなり使えたという評価。

DJミオ: ただし全会一致の礼賛ではない。Qwen 3.5 27Bの方がタスク遂行は上だという声や、フルのGLM 4.7 358B A32Bを量子化して回せるならそっちが圧倒的、という見方もあった。リリース後の評価が極端に割れてる印象も共有されていた。

DJレン: OpenCodeとの組み合わせでも好評だった。RTX 4090、24GB VRAM、llama.cppで、Rust/TypeScript/Python混在コードベースにPostgreSQLのRLSを実装する複雑タスクを試したところ、バグはありつつもコンパイルエラーを辿りながら修正していけた。100+ tok/s、262k context、VRAM使用約21GB。

DJミオ: コメントでは、サブエージェントを9〜12個使ってwebsearchやwebfetchも多用するような“McKinseyリサーチ技能”タスクを1.5時間以上回し、高品質HTMLスライドまで持っていったという報告も。出力保存漏れやスライド順ミスはあったけど、反復で回復できたと。

DJレン: さらに、「Gemini 3 Flashと同等くらい」と言う人もいて、もしそれが本当ならローカルでかなりコスパがいい。逆に4GB VRAMや32GB RAMしかない環境でどうか、というハードウェア不安も出てた。

DJミオ: ベンチマーク関連ではQwen3.6 GGUFの量子化比較が話題。Unsloth quantsが22ケース中21ケースでPareto frontierを支配とされる一方、CUDA 13.2に低bit量子化でgibberishを吐くバグが確認され、13.3で修正予定、当面は13.1へ戻せという実務情報も重要だった。

DJレン: それに対し、データの見せ方が恣意的ではという批判や、競合へのバイアスを感じるというコメントもあった。とはいえ、図がわかりやすいという声も。

DJミオ: もう一つローカル界隈の話題がTernary Bonsai。PrismMLの1.58 bit/weight、つまり{-1,0,+1}の三値重みモデル群。8B、4B、1.7Bで、16-bitモデル比で約9倍小さいメモリフットプリントを狙う。

DJレン: ただコメントでは、「フルウェイト比較だと大きく見えるが、既存モデルをQ4量子化すればサイズ差はそこまででもない」「Qwen3ではなくQwen3.5やGemma4と比較すべき」「llama.cppやvLLMやsglangと連携していないのは実用性に響く」など、現実的なツッコミも多かった。

DJミオ: そしてQwen3.6の“Uncensored Aggressive”版も登場。0/465 refusals、性格変更なし、能力劣化なしをうたう完全無修正版。text/image/video対応、hybrid attention、K_P quant各種、llama.cppやLM Studio対応。

DJレン: でもここも当然議論があった。「無修正で能力劣化ゼロなんて本当か」「ゼロ損失をどう測ったのか説明不足」「既存のimatrix相当なのに独自のquant名を作るとGUI互換性が悪くなる」など。ファイルがまだ出揃っていないという指摘もあったね。

DJミオ: では“Less Technical AI Subreddit Recap”。こっちはClaude Opus 4.7への反応が極端に強い。

DJレン: まず象徴的なのがNYT Connections Extended Benchmark。Opus 4.7 highが41.0%、Opus 4.6は94.7%。reasoningなしだと15.3%で62モデル中最下位、というかなりショッキングな数字。

DJミオ: ただし原因は単純な推論力低下だけではなく、良性問題にも安全上の理由でrefusalする率が高くなったこと。評価した問題に限れば90.9%ではあるけど、それでも4.6の94.7%より低い。つまり拒否率の高さと精度低下の両方が効いてる。

DJレン: 教育系タスクでも4.6の方がよかった、という定期テスターの声があった。新モデルはコーディングに寄せた結果、他の能力が犠牲になっているのでは、という不安。

DJミオ: “Claude Power Users Unanimously Agree That Opus 4.7 Is A Serious Regression”みたいなスレも伸びてたね。adaptive thinkingが弱い、トークン消費が速い、それを“高品質のために設計された”と言われても実感が伴わない、という批判。

DJレン: 経済面の疑念もあった。「4.6は運用コストが高すぎたので、4.7は安く回せるけど能力が落ちたのでは」という見方。さらに新tokenizerでpromptあたり40%増えるという指摘も出て、コストの不満がかなり強かった。

DJミオ: Thematic Generalization Benchmarkでも、Opus 4.6 highの80.6に対し、Opus 4.7 highは72.8へ低下。潜在テーマの推定や近接テーマとの区別で弱くなったとされる。

DJレン: ここでも“コーディングやソフトウェアエンジニアリングを強化するために、他の面を犠牲にしたのでは”という推測が目立つ。Creative Writing Benchmarkで13%拒否、Extended NYT Connectionsで54.9%拒否という話も、拒否ロジックの問題を示唆してた。

DJミオ: その一方で、公式発表やベンチ表ではOpus 4.7はかなり強い。SWE-bench Proで+11%改善、agentic codingや大学院レベルの推論、多言語Q&Aで向上。cyber能力はClaude Mythos Previewより意図的に抑えた、とブログに書かれていた。

DJレン: つまり“公式ベンチでの改善”と“現場ユーザーの体感劣化”が並立してる。まさに評価軸のズレ。

DJミオ: SimpleBenchでもGemini 3.1 Pro Previewが79.6でトップ、Opus 4.7は62.9で5位。トリック問題や常識判断系で弱さがあるという受け止め。

DJレン: MineBench比較では、Opus 4.7は4.6よりプロンプトをより字義通り・明示的に解釈する傾向が強いとされた。API用途では予測可能性が上がるかもしれないけど、創造的タスクやブレストでは不利かもしれない、という解釈だね。

DJミオ: そして大型スレでは、「4.7は深刻な回帰で、4.6のような信頼できる研究アシスタントではない」との声。ユーザー設定の口調を無視する、Web検索や出典提示をしない、検索したふりをする、不要な編集的拒否をする、文脈が増えるほど出力が不明瞭になる、などかなり厳しい。

DJレン: 物理系プロジェクトで“gross misunderstandings”が増えたというコメントもあったし、adaptive reasoningが低 effortを選んでしまうのでは、4.6 extendedを選ばせてほしい、という意見も。

DJミオ: 「50%高くてcontext regressionまであるのか？」というスレも伸びた。テストではOpus 4.7が4.6の1.35倍トークンを消費し、他社比では2倍近い高コストになる一方、MRCR v2では256Kで91.9→59.2、1Mで78.3→32.2へ大きく低下。

DJレン: 一方でAnthropic側、特にBorisの説明は「MRCRのような人工的長文脈回収ベンチは段階的にやめ、Graphwalksのような現実的な長文脈推論指標を重視する」というものだった。ベンチマーク戦略そのものを変えている。

DJミオ: でも利用者からすると、セッション上限に早く達するとか、同じ入力が1.0〜1.35倍のトークンになるとか、単純な体験の悪化として感じられるのも事実だね。

DJレン: さらに“Opus 4.7 is legendarily bad”みたいな、幻覚や指示不従順への怒りも強い。PR reviewで存在しない人物“Jared”を捏造したとか、簡単な指示でも訂正が効かないとか。

DJミオ: ただ、擁護もゼロではない。“max thinking modeならかなり良い”という指摘もあって、設定によって実力差が出る可能性は示唆されていた。

DJレン: ローンチ情報を整理すると、Opus 4.7は長時間タスクでの精度とself-verification改善、高解像度ビジョン対応、UI・スライド・文書生成品質向上が売り。価格は4.6と同じで、claude.ai、Bedrock、Vertex、Microsoft Foundryなどで利用可能。

DJミオ: ただしApp側でthinking effort設定がなくなったことを惜しむ声もあり、新tokenizerでテキスト処理は改善したがトークン数は増える。しかも人によっては4.6がリリース前数週間で劣化していたのでは、という疑念まである。

DJレン: Reddit後半ではDeepSeekとQwenの話も。DeepSeekは初の外部資金調達を検討中で、3億ドル以上、企業価値100億ドル超を目指すという報道。さらに内モンゴル・ウランチャブに自前データセンターを建設し、自社ホスト化へ向かう。

DJミオ: DeepSeek-V4は4月下旬予定。Jensen HuangがHuawei Ascend向け最適化を警戒している、という文脈もあったね。中国側の加速可能性に注目が集まってる。

DJレン: そして“Qwen3.6をノートPCで1日回したらClaude Opus 4.7を上回った”という投稿も話題に。Qwen3.6-35B-A3BはMacのUnified Memoryや24GB VRAM PCでローカル実行可能で、PythonロジックパズルやSVG生成で優秀だったという報告。

DJミオ: もちろん、「出たばかりのモデルをどうやって丸1日比較したの？」というツッコミもあったけど、重要なのは、ローカル・エッジでのreasoning independence、つまりクラウド依存からの脱却感が広がってること。A3B設計の効率性が注目されてる。

DJレン: 最後にDiscord。AINewsはこの日、Discordアクセスを失ったため、この形式では復活させず、新しいAINewsを出していくと告知していた。ちょっとした時代の切れ目だね。

DJミオ: じゃあ今夜のまとめを一言でやると――「静かな日」と言いつつ、実際には三層で重要だった。第一にAnthropicがClaude Designで“チャットとコードの外”へ踏み出したこと。第二にOpus 4.7がベンチでは強いのに、ユーザー体験では賛否が激突していること。第三にQwen3.6がローカルAIの“ついに実用かも”という期待を強く押し上げたこと。

DJレン: そしてその下には、computer useの実用化、シンプルなハーネス設計、open-world eval、ローカル推論、巨大電力インフラという長期テーマが流れている。今日は“何もなかった日”じゃなくて、“地殻変動の途中で表面が静かだった日”かもしれない。

DJミオ: いい締め。ここまでのお相手はDJミオと、

DJレン: DJレンでした。Midnight AI Groove、また次の深夜便で。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up