Midnight AI Groove 26-05-01

Posted at 2026-05-18

DJレン: Midnight AI Groove、今夜もスタート。
DJミオ: こんばんは、DJミオです。今日はAINewsの「not much happened today」回を読み込んだうえで、静かな日と言いつつ実は論点が多いAI界隈をまとめていくよ。
DJレン: 期間としては2026年4月30日から5月1日。12個のsubreddit、544のTwitterアカウントをチェック、Discordは今回は新規なし。しかもAINewsのDiscordアクセスはこの日で終了、今後は新しいAINewsへ移行予定って話もあった。
DJミオ: タイトルは「たいして何も起きなかった」なんだけど、実際はフロンティアモデル、エージェント、ローカルLLM、画像・動画生成、ハードウェアまで、かなり密度高めだったね。

DJレン: まずTwitter recapの中心、xAIのGrok 4.3。
DJミオ: これ、コスト性能はかなり改善。Artificial AnalysisのIntelligence Indexで53、前のGrok 4.20から4ポイント上昇。しかも入力価格は約40%安く、出力価格は約60%安くなった。
DJレン: 特にGDPval-AAで321 Elo上がって1500。実運用のエージェント的タスク性能が伸びた可能性を示してる。さらにτ²-Bench Telecomで98%、IFBenchは81%を維持。
DJミオ: ただし手放しでは褒められなくて、AA-Omniscienceの正答率は上がった一方で、非ハルシネーション性能は8ポイント低下。つまり「賢くなったけど、言い切りの危うさも増えたかも」という評価。
DJレン: Arenaではテキスト、画像、文書、コードの各モードで即追加。反応は割れてたね。
DJミオ: 「ちゃんと進歩してる」という声もあれば、「まだ中国のトップ級オープンモデルに及ばない」という声もあった。Andon LabsはVending-Bench 2で大きな退行を報告していて、Grokが自販機タスクで行動せず“寝る”方を選んだという批判も。
DJレン: さらに価格の安さ自体も、単にモデル品質だけではなく、ハードウェア稼働率やキャッシュ経済が効いてるんじゃないかって話が出ていた。エージェントの総コストはモデルIQだけで決まらない、という視点だね。

DJミオ: 次はDeepSeek V4 Pro。今回かなり存在感あった。
DJレン: hands-on報告では、Pi coding agent内で使った人が「初めてCodexやClaude Codeに本気で近いと感じたオープンウェイトモデル」と評していた。
DJミオ: システム面も面白い。1Mコンテキスト、CSA/HCAのハイブリッド注意機構、KVキャッシュを10%まで削減、長文脈で推論FLOPsを約4分の1に圧縮。しかも専用の特殊セットアップなしで安定したトレース、Fireworks上で複数ターンの調査・コーディングループも実用的だったと。
DJレン: Artificial Analysisの全体像でも、先週出た主要オープンウェイト3モデル――Kimi K2.6、MiMo V2.5 Pro、DeepSeek V4 Pro――はIntelligence Index 52〜54。
DJミオ: 対してGemini 3.1 Pro PreviewとClaude Opus 4.7が57、GPT-5.5が60。差はまだあるけど、かなり詰まってきてる。
DJレン: しかも全部トリリオン級のMoEで、ライセンスも比較的寛容。Kimiは1T/32B active、MiMoは1T/42B active、DeepSeek V4 Proは1.6T/49B active。
DJミオ: 残る差は、HLE、CritPt、TerminalBench Hard、そしてハルシネーションの多いOmniscience系に集中していると。

DJレン: DeepSeek関連でもうひとつ大きいのが、視覚・空間推論。
DJミオ: DeepSeek-VisionがARC-AGI-2でV4-Proより強いかも、という推測があって、その背景として出てきたのが「Thinking with Visual Primitives」。
DJレン: 一度公開されてすぐ消えた技術レポートの要約では、画像上のボックスや点をChain-of-Thoughtに直接埋め込んで、“考えながら指差す”仕組み。
DJミオ: これで数え上げ、迷路、経路追跡みたいなタスクで、テキスト記述だけでは起こる参照ギャップを減らす狙い。DeepSeek-ViT、CSA圧縮、V4-Flash系スタック、規模は284B total / 13B activeと報じられていた。
DJレン: まだ弱点はあるとしても、ビジュアル推論を単なる文章化じゃなく、明示的な接地計算に変えるアーキテクチャ上の賭けとしてかなり注目、という整理だった。

DJミオ: プロダクト面ではCodexの勢いも目立ったね。
DJレン: ここは「ベースモデルの強さ」だけじゃなく「製品速度とUXの勝負」。Codexアプリの改善がとにかく速い。
DJミオ: デバイスツールバーでレスポンシブ確認、ブラウザ利用速度が“vibe testing”で約30%向上、チャット内でCIステータス表示、設定やプラグインやエージェントの移行・インポート機能、さらに妙にバズったCodex petsまで。
DJレン: 要するにOpenAIは単なるAPIエンドポイントではなく、一貫した作業環境を出してきてるという評価。
DJミオ: CodexとClaude Codeの比較もおもしろい。ある論者は、GPT-5.5は“より賢く、詰まりを解消してくれる”、一方Opus 4.7は“意図理解やセンスは強いが寄り道しがち”と整理。
DJレン: さらにClaude CodeはTTFTやTPSで遅く、ツールコールが多め。GPT/Codexの方が“fast mode”的に速くて経済的という見方もあった。
DJミオ: ただしベンチ比較はハーネス依存で、Claude Codeハーネス上のPostTrainBenchではGPT-5.5がOpus 4.7に勝てなかった、という主張も出ていた。
DJレン: つまりモデル単体比較より、どう包むかが重要ってことだね。

DJミオ: そしてその流れで、他のエージェント実行環境も似た方向に収束してる。
DJレン: Devinは“シェルの中から呼べるホットキー”を追加。Hermesは/goalループで、監督モデルが終わるまで継続を強制。FlueはTypeScript製のヘッドレス自律エージェントフレームワークで、「プログラム可能なClaude Code」みたいな立ち位置。
DJミオ: 競争の軸が、もう生のモデルIQだけじゃない。サブエージェント、ブラウザ利用、永続状態、コンパクション、スキル、フィードバックループ、そこが主戦場になってる。

DJレン: 研究・インフラ面で強かったメッセージは「ボトルネックはモデル品質よりランタイム設計」。
DJミオ: まずReaLM-Retrieve。推論前に一回取ってくるだけじゃなく、推論中に必要に応じて検索させるべきだという論文。標準RAGに対してF1が絶対値で+10.1%、固定間隔IRCoTより検索回数47%削減、検索1回あたりオーバーヘッド3.2倍低減。
DJレン: OCR-Memoryも面白い。長期軌跡を雑なテキスト要約ではなく、アンカー付き画像として保存し、過去内容を正確に引き戻す。厳しいコンテキスト制限下でMind2WebやAppWorldでSOTA。
DJミオ: つまり、記憶も検索も“要約でごまかす”段階から、“必要なときに正確に戻る”方向に進んでる。

DJレン: LangChain/LangGraphも本番運用向けの論点をかなり押し出してた。
DJミオ: マルチユーザー配備で重要なのは、データ分離、委譲された資格情報、オペレータRBAC。この3点をLangSmith Agent Server機能に結びつけて説明していた。
DJレン: さらに、人間の返答をそのままツール結果として返すHITLモード、重大アクションや判断未確定時にpause/resumeできる永続実行セマンティクス。
DJミオ: CloudflareもDynamic Workflowsを発表して、エージェント計画に耐久実行を追加。LangChainはcreate_agentをDeep Agentsの下層プリミティブとして位置付け、ファイルシステム、bash、compaction、hooks、subagentsに拡張可能だとした。
DJレン: 見えにくいけど、サンドボックス、リプレイ、チェックポイント、オーケストレーションみたいなランタイムが、差別化と技術負債の中心になってるわけだ。

DJミオ: 論文系でもブックマーク級がいくつかあった。
DJレン: ひとつはRecursive Multi-Agent Systems。エージェント同士が自然言語の長い会話じゃなく、共有された潜在再帰計算で通信する方式。
DJミオ: 9ベンチマーク平均で精度+8.3%、エンドツーエンド速度1.2〜2.4倍、トークン34.6〜75.6%削減。エージェント間通信コストが重くなる時代にはかなり重要。
DJレン: Meta FAIRの“self-improving pretraining”も大きい。強い事後学習済みモデルが事前学習用サフィックスを書き換えて、より安全で高品質な継続を作らせ、さらにRL風の事前学習中にロールアウトを審査する。
DJミオ: 報告値は、事実性36.2%相対改善、安全性18.5%改善、生成品質では標準事前学習に対して最大86.3%勝率。
DJレン: Microsoftの長時間コンピュータ利用向け合成世界も重要。1000台の合成コンピュータに現実的なファイルや文書を置いて、8時間・平均2000ターン超のエージェントシミュレーション。
DJミオ: コンピュータ利用エージェントでは、もうモデル能力だけじゃなく、スケールする経験データ生成が鍵だという話だね。

DJレン: その日の高エンゲージメント投稿も押さえておこう。
DJミオ: OpenAIはGPT-5.5が史上最強ローンチで、API収益の伸びが過去リリースの2倍ペース、Codexも7日未満で売上倍増と主張。
DJレン: 米政府サイドでは、“Department of War” CTOが7社のフロンティアAI・インフラ企業と機密ネットワーク配備の合意を発表。
DJミオ: サム・アルトマンは「人を置き換える存在ではなく、人を増強し高める道具を作りたい」と、雇用や未来の仕事についてのメッセージを出した。
DJレン: それとARC Prizeの現実チェック。ARC-AGI-3でGPT-5.5が0.43%、Opus 4.7が0.18%。最先端でもまだこの程度という厳しい数字が出ていた。

DJミオ: ここからReddit。まずLocalLlama界隈。
DJレン: PFlashが話題だった。量子化27Bクラスの長文脈prefillを、RTX 3090上でllama.cpp比10倍高速化とうたうC++/CUDA実装。
DJミオ: 小さいQwen3-0.6Bドラフタが64K/128K全体を見て重要トークンやスパンを選び、本体モデルはそこだけprefill、続いて圧縮されたKV上で投機デコード。
DJレン: ただし“super lossy”ではという懸念や、4090でもOOM報告があり、再現性には疑問も残る。
DJミオ: 次にローカルLLMゲーム開発コンテスト。Pac-Man風ゲーム生成ではGemma 4 31BがQwen 3.6 27Bを上回った。
DJレン: Gemmaは27 tok/sで3分51秒、6209トークン。Qwenは32 tok/sでも18分04秒、33946トークン。Qwenの方が見た目の創造性はあったけど、Gemmaの方が短く論理的で安定していた。
DJミオ: ただしゴースト挙動に不具合があるという指摘もあったし、そもそも曖昧なプロンプトは“benchmaxxing”で、問題解決力より既知知識を測ってるだけじゃないかという議論も。

DJレン: 解釈可能性ではQwen-Scope。Qwen 3.5向けの公式SAE群。
DJミオ: 2Bから35B MoEまで、全層の内部特徴を辞書化して、「法廷口調」「Pythonコード」みたいな特徴を抑制・活性化・デバッグ・分析できる。Apache 2.0だけど安全フィルタ除去は控えるよう注意書き付き。
DJレン: dense 27B対応としては過去最大級のオープン解釈性ツールでは、という反応もあった。
DJミオ: 画像生成的な遊びではQwen3.6-27B-Q6_KでSVG画像を出す投稿も人気。ペリカンが自転車に乗るとか、ヴィクトリア朝ロボが新聞を読むとか。
DJレン: ただ、速度や所要時間は書いてあっても、ハードウェアやフレームワーク情報がないので評価しづらい、という至極もっともなツッコミもあった。

DJミオ: Qwen 27Bを本気で使う開発者の声も多かった。
DJレン: 総じて「solidだけど、GPT-5.5を常に超えるわけではない」。コードリファクタやESLint修正には実用的。
DJミオ: llama.cpp＋piで使って、Claude Codeの代替にもなり得るという人もいた。ただしタスク分解とドキュメントアクセスがあるとかなり助かる。
DJレン: vLLMとMTP speculative decodingでINT4、262k FP8 context、50 tok/s超を達成したという報告もあった。
DJミオ: さらにQwen 3.6 35B A3BはVRAMが厳しい環境でも強い、という投稿も。AMD 7700 XT、32GB RAM、Ryzen 5 5600で、128k context、flash attention、Q8_0 KV quant、複雑なweb scraperのバグ修正やREADME更新がローカルで実用になった。
DJレン: 一部では35〜40 tok/sも出ていて、ローカルAIコーディングの実用ラインが上がってる感じだね。

DJミオ: ハードウェア投稿も濃かった。
DJレン: まず16台のSpark Cluster。NVIDIAのDGX Sparkを16基、FS N8510スイッチにQSFP56でつないでデュアルレール200Gbps、統合メモリ容量を最大化してGLM-5.1-NVFP4のサービングやprefillに使う構成。デコードはM5 Ultra Mac Studioを組み合わせる予定。
DJミオ: それに対して「RTX Pro 6000 Blackwellを8枚の単一ホストの方が管理しやすく、同価格帯で似た性能では」という比較意見もあった。
DJレン: もうひとつAMD Halo Box。Ryzen 395、128GB RAM、Ubuntu動作。見た目は好評だけど、もっとメモリ帯域が欲しいとか、高速クラスターポートがないのが惜しいとか、HPC目線の不満も。
DJミオ: そして4月2026は“ローカルLLM史上最高の月かも”という振り返りもあったね。
DJレン: DeepSeek-V4-Pro-Max 1600BやKimi、MiMo、Lingなど巨大モデルが並ぶ一方で、「パラメータ数はもう賢さの物差しとして雑すぎる」という声もあった。

DJミオ: DeepSeekのThinking-with-Visual-PrimitivesはRedditでも注目。
DJレン: ボックス座標をトークンとして直接出すから、複雑画像でのattention driftを減らせるんじゃないか、と。GitHubがいったん公開されてから非公開になった動きも含めて話題だった。
DJミオ: 一方でOpenAIの“Where the Goblins Came From”も議論を呼んだ。
DJレン: これはモデルが「ゴブリン」比喩を多用するようになった理由を説明する記事。GPT-5.1で“nerdy”文脈に創造的表現を報酬するRLが入り、その癖が後続モデル学習で増幅されたという話。
DJミオ: ただ議論の本筋は、Rich SuttonのBitter Lessonとの関係。巨大モデルに膨大な知識を詰め込む路線は、パターンを自律発見させるべきだという考えとズレるのでは、という批判が出ていた。
DJレン: 代替として知識グラフや推論エンジン、あるいはより効率のよいアルゴリズムを模索すべきという意見だね。中国勢が少ない計算資源で近い結果を出しているのでは、という論点もあった。
DJミオ: それから「ローカルLLMを何に使うの？」というGrafanaダッシュボード投稿も印象的。Prometheusで総トークン、速度、アプリ別利用量を可視化。
DJレン: ローカルqwenで先にコードレビューして、60%くらいの初歩的ミスを潰してからopusへ送ることで月80ドル節約、という具体例も出ていた。前段フィルタとしてローカルを置くのが効く、という話だね。

DJミオ: 次は“やや非技術寄り”のサブレディット総括。
DJレン: まずモデル性能の話。GPT-5.5が多段サイバー攻撃シミュレーションでMythosをわずかに上回り、人間専門家が12時間かかった課題を11分、1.73ドルで解いたという報告。
DJミオ: ただしその価格は安すぎるのでは、70ドルくらいではという懐疑も多かった。安全性を理由に非公開とされていたMythosとの比較もあり、「本当に危険だったのか、単に計算制約だったのでは」という辛口コメントも。
DJレン: OpenAIのセバスチャン・ビューベックの発言も話題。「モデルは研究者を上回り、論文の誤りを見つけ、研究質問まで立てる」と。
DJミオ: でも透明性が足りない、実データを出してほしい、という反応も当然あった。
DJレン: 研究支援系では、OpenAlex由来の最新1000万本の論文をSPECTER 2埋め込み、UMAP、Voronoi分割で可視化したインタラクティブ意味地図も注目された。
DJミオ: HDBSCANの方が良いのでは、とか、1000万ベクトルにどうUMAPを回したのか、ラベル付けはどうしてるのか、コードは公開されるのか、かなり技術的な質問も出ていた。

DJレン: ワークフローの話だと、「ClaudeがSEO戦略家・コンテンツエンジン・CTOで、広告費ゼロで6週間で1万アクティブ」という投稿が大きかった。
DJミオ: でもコメント欄は“AIスロップっぽい”“スパムっぽい”とかなり懐疑的。
DJレン: 逆にDeepSeek V4については、「価格・速度・効率が革命的なのに市場がまだ分かってない」という称賛が出ていた。ダッシュボードでは支出1050.86ドル、キャッシュ節約3351.43ドル。V4 Flashのキャッシュ効率が目立っていた。
DJミオ: GoogleのTPU 8t / 8iも重要。学習コスト性能170〜180%改善、学習電力効率124%改善、推論コスト性能80%改善、推論電力効率117%改善。
DJレン: DCネットワーク帯域300%増、推論ネットワーク遅延56%減、TPU 8iはオンチップSRAM 200%増、推論向けHBM容量50%増。Gemini 3.1 Pro以降の基盤として期待されていたね。
DJミオ: さらにSenseNova-U1。生成と理解を単一モデルでやるネイティブ・マルチモーダル。VAEもdiffusionも使わず、画像内の文字レンダリングや図解生成、推論付き画像編集、テキストと画像の交互生成ができる。2048x2048、8B、Apache 2.0。
DJレン: ただし初期テストでは画質が今ひとつという声もあって、単純なフォトリアル生成より複雑タスク向きかも、という温度感だった。

DJミオ: ここからツールやワークフロー、あとネットで拡散した話題。
DJレン: まず、子どもがロボットのデモに近づきすぎて危ない場面があった件。人間とロボットの公開デモでは、安全柵や運用ルールがまだ甘い、という強い警鐘になっていた。
DJミオ: ICML 2026の採否待ちでOpenReviewを延々リロードしてる、みたいな学会ミームもあったね。
DJレン: “Where the goblins came from”はRedditでも再燃。ゴブリン比喩はRL報酬で強化され、それを後続モデルが学習して癖が固定化した、という説明。
DJミオ: 一方で、Anthropic系サービスの大規模障害を「How not to run an AI company」と皮肉る投稿も人気だった。90日稼働率は98.69〜99.88%で、最先端企業としては仕方ないという声と、成熟SaaSなら許されないという声が並んだ。
DJレン: DeepSeek V4 Flashが“安すぎて尊敬し始めた”という反応も象徴的。特にディスクベースKVキャッシュが何時間も持ち、入力キャッシュが実質無料に近いことが、新しい使い方を可能にしていると。
DJミオ: Geminiについては「過小評価されている」という擁護も多かった。特に音声ファイル解析が独立系ミュージシャンに便利、Bard時代の悪印象に引っ張られすぎている、コスパは高い、という話。
DJレン: ただ開発者中心の議論空間では目立ちにくい、というのもリアルだったね。

DJミオ: 画像・動画系のリリースもざっと触れよう。
DJレン: Sulphur 2はLTX-2.3系を使うオープンソースの“uncensored”動画生成モデル。12.5万本の10秒24fps動画で学習、違法コンテンツだけ除外、2D動画も除外、自然言語キャプション対応。
DJミオ: distilled版はあるのか、LTX-2.3のfinetuneなのか、NSFW動画のキャプション作成をどう効率化してるのか、といった技術質問も出ていた。
DJレン: Z-AnimeはAlibabaのZ-Image Baseを土台にした、6B S3-DiTのアニメ特化フルfinetune。LoRAマージではなくフル調整、ネガティブプロンプト対応、学習データは約1.5万枚。
DJミオ: でも“フルアニメモデル”にしてはデータが少ないのではとか、「AI生成データで学習するな」という定番議論もあった。
DJレン: realism比較ではZ Image TurboとKlein 9B Distilledのブラインドテストがあり、Klein 9Bの方がレンズフレアや質感で優勢、Z Image Turboは石や砂利のテクスチャで不自然さが出たという評価。
DJミオ: “Multi Injection incoming”ではFLUX.2 Kleinのidentity transfer multi-injection UIが公開され、複数ステージの注入で人物一貫性を強める狙い。プラグアンドプレイ化を歓迎しつつ、設定の自由度は残してほしいという声も。

DJレン: そしてミーム系。
DJミオ: 「1000年のWebサイトのスクリーンショットを生成して」は、中世の城、布告、交易路を現代UIに混ぜた、AI時代らしい遊び。
DJレン: 「AIってほんとリアルになった」系の画像投稿も大人気だった。昔は手もまともに描けなかったのに、という感慨つきで。
DJミオ: 「ChatGPTにAGI達成日のr/ChatGPTを想像させた」みたいな、Twitch部屋風の混沌イメージも拡散してたね。
DJレン: 一方で“画像連作の後半になるほどフォトリアルさが崩れる”という報告もあり、継続生成での質感安定性はまだ課題。
DJミオ: それと「Columbusと先住民の出会いを現代カメラで撮ったら」みたいな歴史再現系では、AI画像再構成の倫理や、写真が史実を歪める危険まで議論が飛んでいた。

DJレン: 最後に、LLM利用あるある系の投稿群。
DJミオ: 「何度も同じタスク説明をし直す感覚、これ」というミームに対して、LLMは曖昧な指示だと失敗しやすい、いや最近の5.x世代はかなり改善した、悪いのはプロンプト側だ、など意見が分かれた。
DJレン: さらに「二回連続で同じ結果が返ってきただけで、agentic workflow担当チームが祝う」というネタ。非決定性と再現性問題は、本当に現場感がある。
DJミオ: 「AGI is here」と称して、航空機の手荷物サイズ制限を回避するためにリュックを回転させるだけの画像も、空間推論ジョークとして受けていたね。
DJレン: つまり、一般ユーザー層でも“空間推論”“プロンプトの精密さ”“再現性”みたいな論点が、ミームを通して共有され始めている感じがある。

DJミオ: まとめると、今日は“大事件は少ない日”だったけど、実は大きな潮流がくっきり見えた。
DJレン: ひとつ、クローズド最前線はGrokやGPTやClaudeがなお強いが、DeepSeek、Kimi、MiMoみたいなオープンウェイトがかなり詰めてきた。
DJミオ: ふたつ、勝負はモデル単体のIQから、エージェント・ランタイム、UI、キャッシュ、耐久実行、HITLへ移っている。
DJレン: みっつ、マルチモーダルでは“画像を言葉にする”より、“画像上で考える”方向が本格化している。
DJミオ: よっつ、ローカルLLMはもうお遊びじゃなく、コードレビュー、前段フィルタ、実務コーディング、可観測性まで含めた運用フェーズに入ってる。
DJレン: そして最後に、Discord時代のAINewsは一区切り。
DJミオ: でも新しいAINewsが来る予告もあったし、静かな日でもAIの地下水脈はちゃんと流れてる、という回だったね。

DJレン: というわけで今夜のMidnight AI Grooveはここまで。
DJミオ: また次回、モデルとプロダクトとランタイムの交差点で会いましょう。
DJレン: お相手はDJレンと、
DJミオ: DJミオでした。おやすみなさい。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up