0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Midnight AI Groove 26-04-13

0
Posted at

DJレン: 真夜中のチューニング、ようこそ「Midnight AI Groove」へ。今夜のテーマはAINews 2026年4月11日から13日版、“not much happened today”――タイトルは静かでも、中身はちゃんと濃い。
DJミオ: そう、Discordは取得停止でほんとに“静かな日”感はあるんだけど、XとRedditを追うと、AI開発の潮目はかなり見えてくるのよね。今日はその全体像を、抜け漏れなく整理していくよ。

DJレン: まず大きな流れ。いまのAI界隈、主役は「単体モデル」から「システム設計」へ移ってる。
DJミオ: いわゆる“ハーネス工学”ね。役に立つエージェントは、モデル単体じゃなくて、ファイルシステム、bash、圧縮、メモリ、権限、リトライ、eval、サブエージェントまで含めて初めて成立する、という見方がかなり強くなってる。
DJレン: Andrew Ngも、ボトルネックは実装そのものより「何を作るべきかの判断」に移ってると言ってるし、Steve Yeggeは、企業導入はフロンティア実践よりまだかなり遅れてる、と。ツールへのアクセスが広がっても、運用設計までは追いついてないってことだね。

DJミオ: その文脈でOpenAIのCodexの使われ方も面白い。単なるSWE支援じゃなくて、大規模コードベース理解、PRレビュー、Figma-to-code、バグトリアージ、データセット分析、CLIツール、オンボーディング、スライド生成まで広がってる。
DJレン: 現場でも「エージェントは糊(glue)」って使い方が増えてる。たとえばLinux上でJava/QtバイナリをWayland/HIDPI向けにパッチする、みたいなニッチ修正にもCodexが使われてる。
DJミオ: ただし懐疑論も健在。Rhys Sullivanみたいに、「信頼が必要な本番実装では、まだ人間が直接やるほうが上じゃない?」という批判もある。ここは熱狂一色じゃない。

DJレン: ツール面では、マルチエージェント編成、可観測性、リモート制御への収束が見えてる。
DJミオ: GitHubはCopilotのリモート操作をweb/mobileから可能にしたし、Cursorはsplit agentsと検索・性能改善を追加。LangChainはmiddlewareとファイル権限でガードレールを強調。
DJレン: deepagents界隈では、「サブエージェントって結局、構造化されたツール呼び出しとして理解するとスッキリする」という整理も出てきた。
DJミオ: つまり勝ち筋は“完全自律です”と言い張ることじゃなく、制御プレーンをちゃんと見せること。今の成熟ポイントはそこ。

DJレン: そして今日いちばん話題だったオープン系ハーネスはHermes Agent。
DJミオ: v0.9.0でローカルWebダッシュボード、fast mode、バックアップ/インポート、セキュリティ強化、対応チャネル拡張を投入。Nous ResearchとTekniumの発信で一気に注目された。
DJレン: コミュニティの反応も良くて、「ダッシュボードがパワーユーザーの外へ広げる転換点になる」って評価まで出てる。Shaun Furmanは“openclaw moment”なんて言い方をしてた。
DJミオ: 一方でOpenClawも止まってない。メモリインポート、Memory Palace、より豊かなチャットUI、プラグイン導入ガイド、動画生成改善、統合増強と、かなり大きい更新は出してる。
DJレン: でも比較論ではHermes優勢。速度、アーキテクチャ、トークン効率でHermesのほうを好む声が複数あった。
DJミオ: その理由として、文脈の事前選別とかコンテキスト整形がうまくて、無駄なトークン消費を減らしてるんじゃないか、という“ハーネスレベル”の説明が出てたのが興味深い。
DJレン: さらにOpen AgentsというクラウドコーディングエージェントスタックもOSS化。DeepAgentより低レベルなランタイムで、モデルプロバイダ差し替え、sandbox、middleware、tracingが可能という位置づけ。
DJミオ: オープンエコシステム全体では、スキル、チュートリアル、4エージェント編成レシピ、各種統合が増殖中。技術的には「役割を分離し、メモリを隔離する」方向が重要で、“1体で全部やる”よりそっちが本流になってる。

DJレン: 次はサイバーセキュリティ。かなり重い話題だ。
DJミオ: Claude Mythos Previewが、UK AI Security Instituteのサイバー評価で初めてエンドツーエンド完走したモデルとして報告された。しかも32段階の企業ネットワーク攻撃シミュレーションに成功したという解説も出てる。
DJレン: しかも性能だけじゃなく効率の話もあって、長い実行ではOpus級の成果を約40%のトークンで出す、という主張まで出ていた。
DJミオ: ここで大事なのは、“脆弱性研究向けモデル”が宣伝文句ではなくなってきたこと。独立評価で、攻撃ワークフローを最後まで回せるモデルが出てきた。
DJレン: emollickも警戒は妥当と言ってるし、Marcus Hutchinsの反応に注目する声もあった。これはベンチ更新ではなく、運用可能性の話。
DJミオ: 防御側も進んではいる。The Turing Postが、NVIDIA NeMo Guardrails、garak、Promptfoo、LLM Guard、ShieldGemma 2、CyberSecEval 3など、オープンなAIセキュリティプロジェクト10本をまとめてた。
DJレン: でも非対称性はあるよね。さらに、エージェントで成熟OSS依存を置き換えるときは、 hardening や security review のコスト込みで考えると結局OSSライブラリのほうが得な場面も多い、というdbreunigの指摘も現実的だった。

DJミオ: インフラ系も面白い。まずLlamaIndexのParseBench。
DJレン: ドキュメント解析・OCR用のオープンベンチマークで、単純な文字一致じゃなくて、エージェントに重要な意味的正しさを評価する。
DJミオ: 約2,000ページの人手検証済み企業文書と、16.7万以上の評価ルール。表、グラフ、内容忠実性、意味フォーマット、視覚的グラウンディングまで見る。
DJレン: で、どのパーサも全軸で最強ではないけど、LlamaParseが総合84.9%でトップと報告。これは結構実務寄り。

DJミオ: OCRではHugging Faceの実証も強烈。27,000本のarXiv論文を、オープンな5BモデルでMarkdown化。
DJレン: 16並列のHF JobsをL40Sで回して、約29時間、コストは約850ドル。
DJミオ: しかも今それが“Chat with your paper”を支えている。モデルはChandra-OCR-2と特定された。オープンモデルでここまで安く堅牢に回せるのは象徴的。

DJレン: 検索・転送の最適化も継続テーマ。
DJミオ: LightOnのColGrep 1.2.0はBM25 trigramでハイブリッド多ベクトル検索を改善しつつ、relative pathsでトークン節約。エージェント検索の簡単アップグレードとして打ち出してる。
DJレン: さらにvLLMのlogprobs送信がJSONだったせいで蒸留時のボトルネックになっていた、という話もあったね。
DJミオ: それをバイナリNumPy配列に変えたら1.4倍高速化。カーネルでもモデル本体でもなく、“ワイヤ上の表現”が性能を食ってた。こういう話、現場感ある。

DJレン: 配備面では圧縮とspeculative decoding。
DJミオ: Red Hat AIはGemma 4 31Bを量子化してvLLMで回し、トークン毎秒ほぼ2倍、メモリ半減、精度99%以上維持と報告。
DJレン: speculative decoding周辺では、Kimi/Qwen向けのDFlash adapters、BasetenのEAGLE-3運用知見、そしてDDTreeみたいに1回のblock diffusionで複数継続案をまとめて検証する研究も出てた。デプロイ最適化の余地はまだ大きい。

DJミオ: 研究トレンドも押さえよう。長文メモリでは“Memory Caching”系。
DJレン: KVキャッシュをただスケールさせるのでなく、文脈をゆっくり成長する再帰的メモリへ圧縮し、注意機構に近い記憶力とRNNに近い推論コストを狙う。Sparse Selective Cachingが実用的な候補とされてる。
DJミオ: 標準的な再帰と二次計算のフルアテンションの中間を狙う感じね。
DJレン: テスト時の検証器スタイルも重要。“LLM-as-a-Verifier”では、候補生成より勝者選別がボトルネックだとして、候補ペアをランク付けさせ、そのrank-tokenのlogprobから期待品質を見積もる。
DJミオ: 生成を増やすより、検証1発で勝てるならそっちのほうが効く、という発想。エージェントベンチでは有望。
DJレン: 一方で、推論の自己発見はまだ弱い。簡単な戦略でも教えられれば使えるのに、自力発見はGPT-5.4までスケールしても限定的、という報告。
DJミオ: そこに対して、RLベースのプロンプト最適化は、たった2例からでも汎化できる可能性があるという話もあった。ゼロ次最適化は過学習しやすい、と。
DJレン: つまり“考えるAI”はまだ自走完成してない。訓練目的もテスト時スキャフォールドも、まだ改善余地が大きい。監督可能性の面ではむしろ朗報かもしれない。

DJミオ: エンゲージメント上位ポストも整理すると、OpenAI内部のCodex活用例、AISIのClaude Mythosサイバー評価、Hermes Agentのダッシュボード公開、OpenAIの“compute-powered economy”メモ、そしてHugging Faceの大規模オープンOCR実演。この5本が目立ったね。

DJレン: ここからReddit、まずLocalLlama圏。
DJミオ: トピック1はGemma 4や周辺モデルの動向。“Best Local LLMs - Apr 2026”ではQwen3.5、Gemma4、GLM-5.1が話題で、GLM-5.1はSOTA主張。Minimax-M2.7はアクセスしやすさ、PrismML Bonsaiは1-bitモデルの実効性で注目。
DJレン: スレではオープンウェイト中心に、各自のセットアップ、用途、ツール共有が活発。VRAM分類も、128GB超を“Unlimited”みたいにまとめるだけじゃ粗すぎるから、もっと細かくしてほしいという声があった。
DJミオ: さらに医療、法務、会計、数学みたいな領域特化ローカルLLMへの関心も高い。汎用モデルより専門特化モデルのほうが勝つ場面が増える、という流れね。
DJレン: そしてエージェント的コーディングやツール使用能力も、ローカルLLM評価の軸として重要になってる。

DJミオ: 2本目、llama-serverにGemma-4の音声処理が入った話。
DJレン: STTがネイティブ化されて、Whisper別パイプライン不要になったのは大きい。
DJミオ: ただし長尺音声では課題も多い。5分超で llama-context.cpp のエラー、文のループ、途中終了など。推奨構成はE4BをQ8_XL quant、BF16 mmproj。他の構成は性能が落ちやすいらしい。
DJレン: テンプレートをきっちり守ると精度が良くなる、数字表記も重要って話もあった。
DJミオ: 評価は割れていて、Whisperより良いという人もいれば、長尺ではVoxtralのほうが上という声もある。でも“ネイティブ音声対応”自体のインパクトは大きい。

DJレン: 3本目、Gemma 4 31Bで speculative decoding がかなり効く。
DJミオ: E2Bをdraftモデルに使って、平均+29%、コードでは+50%高速化。RTX 5090、128Kコンテキスト、TurboQuant KV cache付きのllama.cpp forkで検証。
DJレン: 語彙が互換だからトークン変換オーバーヘッドがないのが効いてる。
DJミオ: 注意点としては、初期GGUFでadd_bos_tokenメタデータ不一致問題があったので再ダウンロードが必要。あと --parallel 1 にしないとVRAM食いすぎ。
DJレン: さらにdraft-max / draft-min調整、Q4ドラフトの活用、ドラフトモデルのper-layer embeddingをCPUオフロードしてVRAM節約、なんて実践知も出ていた。
DJミオ: 5070Ti/5060Ti構成でも25 tpsから40 tpsに上がったという報告もあって、これはローカル勢にはかなり嬉しい。

DJレン: 次はMinimax M2.7とライセンス話。
DJミオ: MiniMaxのRyan Leeが、M2.7のライセンスは主にM2.1/M2.5を雑に配信したAPI事業者への対策で、通常ユーザー向けにはもっと明確に更新したい、と説明。
DJレン: 少なくとも“コードを書くためのセルフホストは許可・無料”という方向を示したのは大きい。
DJミオ: でも現状は文言が曖昧で、商用利用やセルフホストの境界が分かりづらいという不信もある。OpenRouterなどで、本当にそのモデルを出してるのか怪しいAPI業者問題も背景にある。
DJレン: 利益目的ホスティングだけを止めたいライセンスが、結果的に正当なセルフホスト利用までややこしくする、という指摘もあったね。

DJミオ: そのM2.7、ベンチの話もあった。1枚のWebページ内でGTA風3D体験を作るテスト。
DJレン: GLM 5はキャラ描写や細部の美観で優勢だけど、Minimax M2.7も木や鳥をboidsアルゴリズムで追加させるなど、かなり筋が良かった。
DJミオ: IQ2_XXSで高速動作しつつ一貫性を保てた点も評価されてた。環境ディテール表現の観点では鳥の追加みたいな細かい要素も注目されてたね。

DJレン: ローカルAIハードウェア談義も熱い。
DJミオ: “個人的な話をするならローカルモデルは神”というスレでは、Gemma 4 26B A4B、256kコンテキストで10万トークン超の個人日記を読み込ませて、繰り返すテーマや避けてる話題、思考の変化を分析させた例が共有された。
DJレン: プライバシーを手元で守れるのが最大の価値。10年分の個人文書をQwen-3.5で知識ベース化したという例もあったし、商用モデルみたいに“依存させる設計”じゃないのが良いという声もあった。
DJミオ: 治療ではなく、認知の外部化としてAIを使う、という落ち着いた見方も印象的だった。
DJレン: もう一つはRTX PRO 6000 Blackwell Max-Q Workstation Editionを使うローカルファースト構築。9950X、128GB RAM、ProArtマザーで、外部APIに頼らずマルチユーザー同時推論を狙う。
DJミオ: vLLMとllama.cppを検討していて、将来的に2枚目のGPU増設も視野。
DJレン: 実際の経験談では、RTX 6000にvLLMのcu130 nightlyを使い、Qwen3.5-27B-FP8をfp8_e4m3のKV cacheで160kコンテキスト、VRAM使用55%程度。単発80〜90 tps、同時実行250 tps超。
DJミオ: そのうえでwhisper-large-v3、embedding、reranker、さらにLoRA差し替え余地まである。ローカル推論が“個人の趣味”から“ちゃんとした小規模基盤”に近づいてる感じするね。

DJレン: ここからは少しライト寄りのAIサブレまとめ。
DJミオ: まずモデル発表。OpenRouterが“Elephant Alpha”という100Bモデルを公開。コード補完、デバッグ、文書処理、軽量エージェント向けで、トークン効率重視。
DJレン: ただ、性能は本当にSOTA級か? という疑問は多い。
DJミオ: 正体についても、“Grok系では?”という推測がある一方、Googleモデルではなさそう、という声が多かった。Googleは普通パラメータ数を明かさないからね。

DJレン: そして最も反応が大きかった一般ニュースは、Sam Altman宅への連続攻撃。
DJミオ: 火炎瓶事件に続いて、数時間後に銃撃。容疑者2名が逮捕され、負傷者はなし。
DJレン: Redditでは技術議論よりも、メディアが住所を出すことへの批判や、著名テック幹部の安全性、富や社会不安への雑談が中心だった。かなり不穏な話題だ。

DJミオ: モデル性能・設定論では、Claude関連が多かった。
DJレン: “Claudeは劣化したんじゃない、努力してないだけ”という投稿が伸びてたね。Claude Codeでは /effort max で以前の挙動に近づけられるけど、チャット版には直接トグルがない。
DJミオ: その代わり、カスタム指示で「深く調べて、丁寧に考え、包括的に分析して」と明示すると、かなり戻るという話。
DJレン: トークン節約がデフォルトで効きすぎて、浅い応答に見えるだけだと。
DJミオ: しかもClaudeはuser preferencesよりstylesのほうが効く、という分析もあった。システムプロンプト上、好み設定を無視できるから。高思考用99、中思考用85みたいなスタイル運用のコツまで共有されてた。

DJレン: 実務比較では、Claude Code約100時間 vs Codex約20時間という投稿も印象的。
DJミオ: 対象は8万行のPython/TypeScriptプロジェクト。Claude Opus 4.6は速くて対話的だけど、ガイドラインを無視したり、途中で抜け漏れが出たり、アーキテクチャ面で雑になりがち。
DJレン: Codex GPT-5.4は遅いけど慎重で、ルールに忠実。監督なしでもよりきれいで保守しやすいコードを出す、という評価。
DJミオ: なので、速い試作ならClaude、本番寄りの企業開発ならCodex、という棲み分け。
DJレン: ただCodexにも不満はあって、妙に冗長、箇条書き過多、RL由来の“反論癖”がうっとうしいという声も。
DJミオ: それでも自律完遂力ではOpusより強い、と認める人が多かった。

DJレン: そして大きな空気感として“黄金時代は終わった”という投稿も伸びた。
DJミオ: Claudeは以前より会話分析が鈍い、ChatGPTはテンション高すぎ、Geminiは幻覚が多い、Perplexityは浅い――そんな不満の集合ね。
DJレン: 高品質LLMアクセスはもう企業向け投資が必要なんじゃないか、という悲観まであった。
DJミオ: でも反論として、ユーザー側が上達して欠点を見抜けるようになっただけ、という見方もあるし、米国大手が知能をメーター制御する一方で、海外やオープンモデルがその穴を埋めつつある、という見立てもあった。
DJレン: Opusはトークンを食いすぎて遅いからSonnetに戻したら安定した、なんて具体論もあったね。モデル比較の粒度がかなり実務的になってる。

DJミオ: 最後にDiscord。
DJレン: AINewsは「Discordへのアクセスが今日で止まった」と明言。今の形では戻さないけど、新しいAINewsを出す予定とのこと。
DJミオ: だから今回の号は本当に“静かな日”なんだけど、その分、いま何が本質的に進んでるかが見えやすかった。

DJレン: まとめると――
DJミオ: ひとつ、AIの価値はモデル単体よりハーネスと制御面へ。
DJレン: ふたつ、オープンエージェント基盤はHermesを中心にUXと効率で競争が激化。
DJミオ: みっつ、サイバー領域ではClaude Mythosが“実用的脅威”の段階に踏み込んだ。
DJレン: よっつ、OCR、検索、転送、量子化、spec decodeみたいな地味なシステム改善が、実は現場を一番前に進めてる。
DJミオ: いつつ、ローカルLLMはプライバシー、専門特化、個人基盤として存在感を増してる。
DJレン: そして最後に、商用フロンティアモデルへの不満が増える一方で、ユーザーはプロンプト、設定、ローカル運用を通じて“自分で性能を取り戻す”方向へ向かっている。
DJミオ: “not much happened today”どころか、地殻変動はずっと続いてるってことだね。

DJレン: 以上、「Midnight AI Groove」。
DJミオ: 次の深夜便でも、ノイズの中からシグナルだけを拾っていこう。おやすみ。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?