Midnight AI Groove 26-04-13

Posted at 2026-04-28

DJレン: 真夜中のチューニング、ようこそ「Midnight AI Groove」へ。今夜のテーマはAINews 2026年4月11日から13日版、“not much happened today”――タイトルは静かでも、中身はちゃんと濃い。
DJミオ: そう、Discordは取得停止でほんとに“静かな日”感はあるんだけど、XとRedditを追うと、AI開発の潮目はかなり見えてくるのよね。今日はその全体像を、抜け漏れなく整理していくよ。

DJレン: まず大きな流れ。いまのAI界隈、主役は「単体モデル」から「システム設計」へ移ってる。
DJミオ: いわゆる“ハーネス工学”ね。役に立つエージェントは、モデル単体じゃなくて、ファイルシステム、bash、圧縮、メモリ、権限、リトライ、eval、サブエージェントまで含めて初めて成立する、という見方がかなり強くなってる。
DJレン: Andrew Ngも、ボトルネックは実装そのものより「何を作るべきかの判断」に移ってると言ってるし、Steve Yeggeは、企業導入はフロンティア実践よりまだかなり遅れてる、と。ツールへのアクセスが広がっても、運用設計までは追いついてないってことだね。

DJミオ: その文脈でOpenAIのCodexの使われ方も面白い。単なるSWE支援じゃなくて、大規模コードベース理解、PRレビュー、Figma-to-code、バグトリアージ、データセット分析、CLIツール、オンボーディング、スライド生成まで広がってる。
DJレン: 現場でも「エージェントは糊（glue）」って使い方が増えてる。たとえばLinux上でJava/QtバイナリをWayland/HIDPI向けにパッチする、みたいなニッチ修正にもCodexが使われてる。
DJミオ: ただし懐疑論も健在。Rhys Sullivanみたいに、「信頼が必要な本番実装では、まだ人間が直接やるほうが上じゃない？」という批判もある。ここは熱狂一色じゃない。

DJレン: ツール面では、マルチエージェント編成、可観測性、リモート制御への収束が見えてる。
DJミオ: GitHubはCopilotのリモート操作をweb/mobileから可能にしたし、Cursorはsplit agentsと検索・性能改善を追加。LangChainはmiddlewareとファイル権限でガードレールを強調。
DJレン: deepagents界隈では、「サブエージェントって結局、構造化されたツール呼び出しとして理解するとスッキリする」という整理も出てきた。
DJミオ: つまり勝ち筋は“完全自律です”と言い張ることじゃなく、制御プレーンをちゃんと見せること。今の成熟ポイントはそこ。

DJレン: そして今日いちばん話題だったオープン系ハーネスはHermes Agent。
DJミオ: v0.9.0でローカルWebダッシュボード、fast mode、バックアップ/インポート、セキュリティ強化、対応チャネル拡張を投入。Nous ResearchとTekniumの発信で一気に注目された。
DJレン: コミュニティの反応も良くて、「ダッシュボードがパワーユーザーの外へ広げる転換点になる」って評価まで出てる。Shaun Furmanは“openclaw moment”なんて言い方をしてた。
DJミオ: 一方でOpenClawも止まってない。メモリインポート、Memory Palace、より豊かなチャットUI、プラグイン導入ガイド、動画生成改善、統合増強と、かなり大きい更新は出してる。
DJレン: でも比較論ではHermes優勢。速度、アーキテクチャ、トークン効率でHermesのほうを好む声が複数あった。
DJミオ: その理由として、文脈の事前選別とかコンテキスト整形がうまくて、無駄なトークン消費を減らしてるんじゃないか、という“ハーネスレベル”の説明が出てたのが興味深い。
DJレン: さらにOpen AgentsというクラウドコーディングエージェントスタックもOSS化。DeepAgentより低レベルなランタイムで、モデルプロバイダ差し替え、sandbox、middleware、tracingが可能という位置づけ。
DJミオ: オープンエコシステム全体では、スキル、チュートリアル、4エージェント編成レシピ、各種統合が増殖中。技術的には「役割を分離し、メモリを隔離する」方向が重要で、“1体で全部やる”よりそっちが本流になってる。

DJレン: 次はサイバーセキュリティ。かなり重い話題だ。
DJミオ: Claude Mythos Previewが、UK AI Security Instituteのサイバー評価で初めてエンドツーエンド完走したモデルとして報告された。しかも32段階の企業ネットワーク攻撃シミュレーションに成功したという解説も出てる。
DJレン: しかも性能だけじゃなく効率の話もあって、長い実行ではOpus級の成果を約40%のトークンで出す、という主張まで出ていた。
DJミオ: ここで大事なのは、“脆弱性研究向けモデル”が宣伝文句ではなくなってきたこと。独立評価で、攻撃ワークフローを最後まで回せるモデルが出てきた。
DJレン: emollickも警戒は妥当と言ってるし、Marcus Hutchinsの反応に注目する声もあった。これはベンチ更新ではなく、運用可能性の話。
DJミオ: 防御側も進んではいる。The Turing Postが、NVIDIA NeMo Guardrails、garak、Promptfoo、LLM Guard、ShieldGemma 2、CyberSecEval 3など、オープンなAIセキュリティプロジェクト10本をまとめてた。
DJレン: でも非対称性はあるよね。さらに、エージェントで成熟OSS依存を置き換えるときは、 hardening や security review のコスト込みで考えると結局OSSライブラリのほうが得な場面も多い、というdbreunigの指摘も現実的だった。

DJミオ: インフラ系も面白い。まずLlamaIndexのParseBench。
DJレン: ドキュメント解析・OCR用のオープンベンチマークで、単純な文字一致じゃなくて、エージェントに重要な意味的正しさを評価する。
DJミオ: 約2,000ページの人手検証済み企業文書と、16.7万以上の評価ルール。表、グラフ、内容忠実性、意味フォーマット、視覚的グラウンディングまで見る。
DJレン: で、どのパーサも全軸で最強ではないけど、LlamaParseが総合84.9%でトップと報告。これは結構実務寄り。

DJミオ: OCRではHugging Faceの実証も強烈。27,000本のarXiv論文を、オープンな5BモデルでMarkdown化。
DJレン: 16並列のHF JobsをL40Sで回して、約29時間、コストは約850ドル。
DJミオ: しかも今それが“Chat with your paper”を支えている。モデルはChandra-OCR-2と特定された。オープンモデルでここまで安く堅牢に回せるのは象徴的。

DJレン: 検索・転送の最適化も継続テーマ。
DJミオ: LightOnのColGrep 1.2.0はBM25 trigramでハイブリッド多ベクトル検索を改善しつつ、relative pathsでトークン節約。エージェント検索の簡単アップグレードとして打ち出してる。
DJレン: さらにvLLMのlogprobs送信がJSONだったせいで蒸留時のボトルネックになっていた、という話もあったね。
DJミオ: それをバイナリNumPy配列に変えたら1.4倍高速化。カーネルでもモデル本体でもなく、“ワイヤ上の表現”が性能を食ってた。こういう話、現場感ある。

DJレン: 配備面では圧縮とspeculative decoding。
DJミオ: Red Hat AIはGemma 4 31Bを量子化してvLLMで回し、トークン毎秒ほぼ2倍、メモリ半減、精度99%以上維持と報告。
DJレン: speculative decoding周辺では、Kimi/Qwen向けのDFlash adapters、BasetenのEAGLE-3運用知見、そしてDDTreeみたいに1回のblock diffusionで複数継続案をまとめて検証する研究も出てた。デプロイ最適化の余地はまだ大きい。

DJミオ: 研究トレンドも押さえよう。長文メモリでは“Memory Caching”系。
DJレン: KVキャッシュをただスケールさせるのでなく、文脈をゆっくり成長する再帰的メモリへ圧縮し、注意機構に近い記憶力とRNNに近い推論コストを狙う。Sparse Selective Cachingが実用的な候補とされてる。
DJミオ: 標準的な再帰と二次計算のフルアテンションの中間を狙う感じね。
DJレン: テスト時の検証器スタイルも重要。“LLM-as-a-Verifier”では、候補生成より勝者選別がボトルネックだとして、候補ペアをランク付けさせ、そのrank-tokenのlogprobから期待品質を見積もる。
DJミオ: 生成を増やすより、検証1発で勝てるならそっちのほうが効く、という発想。エージェントベンチでは有望。
DJレン: 一方で、推論の自己発見はまだ弱い。簡単な戦略でも教えられれば使えるのに、自力発見はGPT-5.4までスケールしても限定的、という報告。
DJミオ: そこに対して、RLベースのプロンプト最適化は、たった2例からでも汎化できる可能性があるという話もあった。ゼロ次最適化は過学習しやすい、と。
DJレン: つまり“考えるAI”はまだ自走完成してない。訓練目的もテスト時スキャフォールドも、まだ改善余地が大きい。監督可能性の面ではむしろ朗報かもしれない。

DJミオ: エンゲージメント上位ポストも整理すると、OpenAI内部のCodex活用例、AISIのClaude Mythosサイバー評価、Hermes Agentのダッシュボード公開、OpenAIの“compute-powered economy”メモ、そしてHugging Faceの大規模オープンOCR実演。この5本が目立ったね。

DJレン: ここからReddit、まずLocalLlama圏。
DJミオ: トピック1はGemma 4や周辺モデルの動向。“Best Local LLMs - Apr 2026”ではQwen3.5、Gemma4、GLM-5.1が話題で、GLM-5.1はSOTA主張。Minimax-M2.7はアクセスしやすさ、PrismML Bonsaiは1-bitモデルの実効性で注目。
DJレン: スレではオープンウェイト中心に、各自のセットアップ、用途、ツール共有が活発。VRAM分類も、128GB超を“Unlimited”みたいにまとめるだけじゃ粗すぎるから、もっと細かくしてほしいという声があった。
DJミオ: さらに医療、法務、会計、数学みたいな領域特化ローカルLLMへの関心も高い。汎用モデルより専門特化モデルのほうが勝つ場面が増える、という流れね。
DJレン: そしてエージェント的コーディングやツール使用能力も、ローカルLLM評価の軸として重要になってる。

DJミオ: 2本目、llama-serverにGemma-4の音声処理が入った話。
DJレン: STTがネイティブ化されて、Whisper別パイプライン不要になったのは大きい。
DJミオ: ただし長尺音声では課題も多い。5分超で llama-context.cpp のエラー、文のループ、途中終了など。推奨構成はE4BをQ8_XL quant、BF16 mmproj。他の構成は性能が落ちやすいらしい。
DJレン: テンプレートをきっちり守ると精度が良くなる、数字表記も重要って話もあった。
DJミオ: 評価は割れていて、Whisperより良いという人もいれば、長尺ではVoxtralのほうが上という声もある。でも“ネイティブ音声対応”自体のインパクトは大きい。

DJレン: 3本目、Gemma 4 31Bで speculative decoding がかなり効く。
DJミオ: E2Bをdraftモデルに使って、平均+29%、コードでは+50%高速化。RTX 5090、128Kコンテキスト、TurboQuant KV cache付きのllama.cpp forkで検証。
DJレン: 語彙が互換だからトークン変換オーバーヘッドがないのが効いてる。
DJミオ: 注意点としては、初期GGUFでadd_bos_tokenメタデータ不一致問題があったので再ダウンロードが必要。あと --parallel 1 にしないとVRAM食いすぎ。
DJレン: さらにdraft-max / draft-min調整、Q4ドラフトの活用、ドラフトモデルのper-layer embeddingをCPUオフロードしてVRAM節約、なんて実践知も出ていた。
DJミオ: 5070Ti/5060Ti構成でも25 tpsから40 tpsに上がったという報告もあって、これはローカル勢にはかなり嬉しい。

DJレン: 次はMinimax M2.7とライセンス話。
DJミオ: MiniMaxのRyan Leeが、M2.7のライセンスは主にM2.1/M2.5を雑に配信したAPI事業者への対策で、通常ユーザー向けにはもっと明確に更新したい、と説明。
DJレン: 少なくとも“コードを書くためのセルフホストは許可・無料”という方向を示したのは大きい。
DJミオ: でも現状は文言が曖昧で、商用利用やセルフホストの境界が分かりづらいという不信もある。OpenRouterなどで、本当にそのモデルを出してるのか怪しいAPI業者問題も背景にある。
DJレン: 利益目的ホスティングだけを止めたいライセンスが、結果的に正当なセルフホスト利用までややこしくする、という指摘もあったね。

DJミオ: そのM2.7、ベンチの話もあった。1枚のWebページ内でGTA風3D体験を作るテスト。
DJレン: GLM 5はキャラ描写や細部の美観で優勢だけど、Minimax M2.7も木や鳥をboidsアルゴリズムで追加させるなど、かなり筋が良かった。
DJミオ: IQ2_XXSで高速動作しつつ一貫性を保てた点も評価されてた。環境ディテール表現の観点では鳥の追加みたいな細かい要素も注目されてたね。

DJレン: ローカルAIハードウェア談義も熱い。
DJミオ: “個人的な話をするならローカルモデルは神”というスレでは、Gemma 4 26B A4B、256kコンテキストで10万トークン超の個人日記を読み込ませて、繰り返すテーマや避けてる話題、思考の変化を分析させた例が共有された。
DJレン: プライバシーを手元で守れるのが最大の価値。10年分の個人文書をQwen-3.5で知識ベース化したという例もあったし、商用モデルみたいに“依存させる設計”じゃないのが良いという声もあった。
DJミオ: 治療ではなく、認知の外部化としてAIを使う、という落ち着いた見方も印象的だった。
DJレン: もう一つはRTX PRO 6000 Blackwell Max-Q Workstation Editionを使うローカルファースト構築。9950X、128GB RAM、ProArtマザーで、外部APIに頼らずマルチユーザー同時推論を狙う。
DJミオ: vLLMとllama.cppを検討していて、将来的に2枚目のGPU増設も視野。
DJレン: 実際の経験談では、RTX 6000にvLLMのcu130 nightlyを使い、Qwen3.5-27B-FP8をfp8_e4m3のKV cacheで160kコンテキスト、VRAM使用55%程度。単発80〜90 tps、同時実行250 tps超。
DJミオ: そのうえでwhisper-large-v3、embedding、reranker、さらにLoRA差し替え余地まである。ローカル推論が“個人の趣味”から“ちゃんとした小規模基盤”に近づいてる感じするね。

DJレン: ここからは少しライト寄りのAIサブレまとめ。
DJミオ: まずモデル発表。OpenRouterが“Elephant Alpha”という100Bモデルを公開。コード補完、デバッグ、文書処理、軽量エージェント向けで、トークン効率重視。
DJレン: ただ、性能は本当にSOTA級か？という疑問は多い。
DJミオ: 正体についても、“Grok系では？”という推測がある一方、Googleモデルではなさそう、という声が多かった。Googleは普通パラメータ数を明かさないからね。

DJレン: そして最も反応が大きかった一般ニュースは、Sam Altman宅への連続攻撃。
DJミオ: 火炎瓶事件に続いて、数時間後に銃撃。容疑者2名が逮捕され、負傷者はなし。
DJレン: Redditでは技術議論よりも、メディアが住所を出すことへの批判や、著名テック幹部の安全性、富や社会不安への雑談が中心だった。かなり不穏な話題だ。

DJミオ: モデル性能・設定論では、Claude関連が多かった。
DJレン: “Claudeは劣化したんじゃない、努力してないだけ”という投稿が伸びてたね。Claude Codeでは /effort max で以前の挙動に近づけられるけど、チャット版には直接トグルがない。
DJミオ: その代わり、カスタム指示で「深く調べて、丁寧に考え、包括的に分析して」と明示すると、かなり戻るという話。
DJレン: トークン節約がデフォルトで効きすぎて、浅い応答に見えるだけだと。
DJミオ: しかもClaudeはuser preferencesよりstylesのほうが効く、という分析もあった。システムプロンプト上、好み設定を無視できるから。高思考用99、中思考用85みたいなスタイル運用のコツまで共有されてた。

DJレン: 実務比較では、Claude Code約100時間 vs Codex約20時間という投稿も印象的。
DJミオ: 対象は8万行のPython/TypeScriptプロジェクト。Claude Opus 4.6は速くて対話的だけど、ガイドラインを無視したり、途中で抜け漏れが出たり、アーキテクチャ面で雑になりがち。
DJレン: Codex GPT-5.4は遅いけど慎重で、ルールに忠実。監督なしでもよりきれいで保守しやすいコードを出す、という評価。
DJミオ: なので、速い試作ならClaude、本番寄りの企業開発ならCodex、という棲み分け。
DJレン: ただCodexにも不満はあって、妙に冗長、箇条書き過多、RL由来の“反論癖”がうっとうしいという声も。
DJミオ: それでも自律完遂力ではOpusより強い、と認める人が多かった。

DJレン: そして大きな空気感として“黄金時代は終わった”という投稿も伸びた。
DJミオ: Claudeは以前より会話分析が鈍い、ChatGPTはテンション高すぎ、Geminiは幻覚が多い、Perplexityは浅い――そんな不満の集合ね。
DJレン: 高品質LLMアクセスはもう企業向け投資が必要なんじゃないか、という悲観まであった。
DJミオ: でも反論として、ユーザー側が上達して欠点を見抜けるようになっただけ、という見方もあるし、米国大手が知能をメーター制御する一方で、海外やオープンモデルがその穴を埋めつつある、という見立てもあった。
DJレン: Opusはトークンを食いすぎて遅いからSonnetに戻したら安定した、なんて具体論もあったね。モデル比較の粒度がかなり実務的になってる。

DJミオ: 最後にDiscord。
DJレン: AINewsは「Discordへのアクセスが今日で止まった」と明言。今の形では戻さないけど、新しいAINewsを出す予定とのこと。
DJミオ: だから今回の号は本当に“静かな日”なんだけど、その分、いま何が本質的に進んでるかが見えやすかった。

DJレン: まとめると――
DJミオ: ひとつ、AIの価値はモデル単体よりハーネスと制御面へ。
DJレン: ふたつ、オープンエージェント基盤はHermesを中心にUXと効率で競争が激化。
DJミオ: みっつ、サイバー領域ではClaude Mythosが“実用的脅威”の段階に踏み込んだ。
DJレン: よっつ、OCR、検索、転送、量子化、spec decodeみたいな地味なシステム改善が、実は現場を一番前に進めてる。
DJミオ: いつつ、ローカルLLMはプライバシー、専門特化、個人基盤として存在感を増してる。
DJレン: そして最後に、商用フロンティアモデルへの不満が増える一方で、ユーザーはプロンプト、設定、ローカル運用を通じて“自分で性能を取り戻す”方向へ向かっている。
DJミオ: “not much happened today”どころか、地殻変動はずっと続いてるってことだね。

DJレン: 以上、「Midnight AI Groove」。
DJミオ: 次の深夜便でも、ノイズの中からシグナルだけを拾っていこう。おやすみ。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up