0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Midnight AI Groove 26-05-14

0
Posted at

――――――――――
Midnight AI Groove
DJレン × DJミオ
――――――――――

DJレン:
こんばんは、「Midnight AI Groove」の時間です。DJレンです。

DJミオ:
DJミオです。今夜はAINewsの2026年5月14日号、「not much happened today」を読み解いていきます。タイトルは“たいして何も起きなかった”なんだけど、いやいや、AI界隈では普通に濃いです。

DJレン:
そうなんだよね。静かな日って言いながら、Twitter、Reddit、ローカルLLM界隈、開発者ツール、ロボティクス、研究、さらにAnthropicの料金まわりの反発まで、ちゃんと押さえるべき論点が並んでる。

DJミオ:
まず全体感から。AINewsはこの日、12のサブレディット、544のTwitterアカウントをチェックしていて、Discordはこの日でアクセス終了。AINews自体はLatent Spaceの一部になっていて、検索や配信頻度の設定もできる、という案内もありました。


1. Twitter recap:コーディングエージェントが“日常のUI”に入ってきた

DJレン:
最初の大きなテーマは、コーディングエージェントの実運用化。特にOpenAIまわりが目立った。

DJミオ:
一番わかりやすいのが、CodexがChatGPTのモバイルアプリに入ったこと。スマホからタスク開始、出力確認、コマンド承認、実行方針の修正ができて、実際の処理はラップトップとかMac miniとかdevbox上で継続実行する。

DJレン:
つまり“エージェントがPCで働いてて、人間はスマホで監督する”っていう形が具体化したわけだね。
さらにOpenAIは、Remote SSHがmanaged remote environments向けにGA化したことも発表してる。

DJミオ:
それに加えて、hooksprogrammatic access tokensも投入。Business/Enterprise向けに、Codexの実行ループをもっと自動化しやすくした。エージェントを人手だけじゃなく、業務システムや社内フローに組み込みやすくなった感じ。

DJレン:
あと地味に重要なのが、CodexのWindowsサンドボックスの技術解説。コーディングエージェントって便利にしようとするとマシン権限を広く取りたくなるけど、そこをどう制限付きアクセスと両立するか、という話だった。


2. エディタやアプリ全体が“agent-first UX”に収束

DJミオ:
OpenAIだけじゃなくて、周辺エコシステムもagent-firstに寄ってきてる。

DJレン:
GitHub Copilot Appのテクニカルプレビューがその代表だね。デスクトップ環境として、並列ワークストリーム、リポジトリやPRのライフサイクル管理、モデル選択の柔軟性を提供する、と。

DJミオ:
VS Codeもかなり動いていて、新しいAgentsウィンドウを追加。複数エージェント・複数プロジェクトをまたいだワークフロー、vscode.dev/agents経由のブラウザ/モバイル対応BYOK改善、さらに端末出力の圧縮みたいなトークン効率化も入った。

DJレン:
BYOK、つまりBring Your Own Keyの改善が強調されているのも重要だね。後で出てくるAnthropicの話ともつながるけど、特定ベンダーのサブスクに全部乗せるのは危険という空気が強まってる。

DJミオ:
オープン側でも動きがあって、NousのHermes AgentがCodex runtime integrationを追加。OpenAIバックエンドのターンをCodex CLI/app-server経由で流して、ChatGPTサブスクに紐づいた実行基盤をHermesセッションから再利用できるようにした。

DJレン:
さらにMoonshot AIのKimi Web Bridge。これはブラウザ拡張で、人間っぽいWeb操作をKimi Code CLI、Claude Code、Cursor、Codex、Hermesなどに開放するもの。
“ブラウザを人が使うように操作する”が共通インフラになってきてるのが面白い。


3. エージェント基盤:観測から改善ループへ

DJミオ:
次はagent infrastructure。ここはLangChainがかなり強い。

DJレン:
まずSmithDB。これはagent trace data専用のデータベース。単なるログ置き場じゃなく、エージェントの実行軌跡に特化した設計になってる。

DJミオ:
そしてLangSmith Engine。traceを食べて、失敗をクラスタリングし、怪しいコード部分を特定し、修正案やevalを提案する。つまり可観測性ツールが“見るだけ”で終わらず、自己改善ループの入口になってる。

DJレン:
コミュニティの注目点としては、SmithDBの内部設計。オブジェクトストレージ寄りにアーキテクチャを移して、専用の保存・問い合わせパスを作ったという話があった。traceの形って普通のOLTPとは全然違うからね。

DJミオ:
さらにLangChain Labsも発表された。これはagentsのcontinual learning、つまり継続学習のための応用研究チーム。
発想としては、本番トレースを学習信号・eval・能力改善に回す。長い時間軸でエージェントを育てる方向性です。

DJレン:
Prime Intellectとの連携も触れられていたね。
もう一つ、実行分離も進んでいて、W&B/CoreWeaveのCoreWeave Sandboxesが登場。RL、ツール使用、eval向けの隔離実行環境で、rm -rf / みたいな破壊的コマンドも大規模にテストする前提。

DJミオ:
ローカル開発側でも、agent debugging stackが出てきていて、freeでローカルに動かし、tracesをCodexやClaude Codeに見せてeval自動作成するような流れも紹介されてた。


4. Anthropic Claude Code制限と開発者の反発

DJレン:
この号で一番感情的な反応が強かったのはここ。AnthropicがClaude Code利用を制限・再設計した件。

DJミオ:
特に問題視されたのは、サードパーティラッパーや高頻度のプログラム的利用への影響。中心にいたのがTheoのスレッドで、T3 Code利用者が、公式にサポートされた経路でつないでいたのに、実質的に大幅なレート制限削減を受けたと主張した。

DJレン:
Theoはその後サブスクを解約して、さらに解約スクショを投稿して、その分をオープンソースへ寄付しようと呼びかけた。
他の開発者も、claude -p前提で組んでいたハーネスが不安定化したとか、OSS開発者やアプリが締め出されたと不満を表明していた。

DJミオ:
一方で反論もあって、Anthropicは第三者アプリ向けに重く補助された定額トークンを提供する義務はない、という見方。
だから今後は、より明示的なAPI課金と、高価なモデルと安価なモデルの賢いルーティングに移るだろう、という意見もあった。

DJレン:
ただ、それでも現場のシグナルは重い。返信スレの解約だけでARR損失がそれなりに出てるのではという声もあったし、エージェント開発者への実務上の教訓ははっきりしてる。
サブスク依存のハーネスは安定したプラットフォーム原語ではない。モデル抽象化とBYOKは必須。

DJミオ:
これはReddit側の“Less Technical Recap”でも再登場していて、Claude SDK/Agent SDK向けの月間クレジット制度が、実質的にはプログラム的利用の価値を下げる改悪と受け止められていた。
体感として、以前は“実質$2000分くらい使えてたのが$200相当に見える”みたいな不満まで出ていたね。

DJレン:
しかも曖昧なのが嫌なんだよね。通常のClaude Code利用と、自律的・スクリプト的利用の境界が分かりにくい
だから“永久ローカルモードに行くわ”みたいな反応も出る。

DJミオ:
ついでにミーム化もされていて、映画**『In Time』をClaude Proユーザーのトークン残量管理に重ねたネタも大流行。
笑い話だけど、その下には
高品質な人間由来データこそが希少資源ではないか**、という話まで出ていた。


5. ロボティクス:Figureの24/7仕分け配信

DJレン:
ロボティクスでは、Figureのライブ配信が最大の話題。

DJミオ:
最初は8時間の完全自律・無監視作業を見せ、その後24/7ライブ配信に拡張。最終的には24時間超の連続自律稼働で失敗なし小包仕分けで人間並みのスループット、しかもHelix-02が完全オンボードで動作して、OODケースは自動リセットテレオペなしと明言した。

DJレン:
“Bob, Frank, and Gary”みたいな演出はちょっとふわっとしてたけど、コアのシグナルは明快。
本番っぽい条件で、連続稼働時間を見せたことが大きい。

DJミオ:
受け止め方は割れてたね。Figure自体には懐疑的でも、ロボティクス全体の加速には確信を深めた人も多い。
“批判してる人は近い将来の労働代替の意味を過小評価してる”という意見もあれば、“疑ってるのはFigureであってロボット全体じゃない”という整理もあった。


6. 研究・モデル・ベンチマーク

DJレン:
ここは技術的に面白い話が多い。まずZyphraのZAYA1-8B-Diffusion-Preview

DJミオ:
これは自己回帰型ではなく拡散型LMで、4.6〜7.7倍のデコード速度向上を主張しつつ、品質低下は限定的という話。
安価なロールアウトや、より豊かな生成モードに向くという、拡散LMらしい主張です。

DJレン:
次にDatadogのToto 2.04Mから2.5Bパラメータまで、5つのオープンウェイト時系列予測モデルをApache 2.0で公開。
BOOM、GIFT-Eval、TIMEで1位を主張していて、より重要なのはTSFMにもきれいなスケーリング則が見えてきたこと。

DJミオ:
解釈可能性では、GoodfireがLlamaの算術処理は、幾何学的に“形を回す計算機”みたいな、フーリエ特徴っぽいメカニズムを使ってると主張。
単なる事後解釈ではなく、steeringベースの証拠を出しているのがポイントでした。

DJレン:
RL・探索・最適化まわりも面白い。
まず、LLM向けRLをPPO対GRPOみたいなアルゴリズム論争ではなく、Generate / Filter / Control / Replayから成る“rollout engineering”として見るサーベイが紹介された。

DJミオ:
さらにPedagogical RL、つまり特権情報を使って有用なロールアウトを積極的に見つける方向の話。
それからPrime Intellectの結果。nanoGPT speedrun benchmarkで自律的なoptimizer searchを回し、Opus 4.7が2930 steps、GPT-5.5が2950を達成。人間ベースライン2990を、約1万回の実験・1.4万H200時間を使って超えた。

DJレン:
要するに、コーディングエージェントが単なるアプリ開発補助じゃなく、オープンエンドなML最適化作業にも入ってきてるということだね。

DJミオ:
あと、Kimi K2.6がFinance Agent Benchmark V2でオープンウェイト1位と報告。
そしてRing-2.6-1Tが公開初日からvLLM対応も話題になっていた。


7. この日のTop Tweets

DJレン:
エンゲージメント的に目立った投稿も整理しておこう。

DJミオ:
1つ目はやっぱりOpenAIのCodex mobile
2つ目がTheoによるClaude Code制限への反発
3つ目がFigureの24時間超・テレオペなし主張付きのロボット配信
4つ目として、GitHub Copilot AppLangChainのEngine/SmithDB/Labs
5つ目に、Prime Intellectの自律optimizer探索


8. Reddit:LocalLlama界隈

8-1. Qwen 3.6のローカル推論高速化と量子化

DJレン:
RedditのローカルLLM界隈では、まずQwen 3.6の速度改善が盛り上がってた。

DJミオ:
大きな投稿は、llama.cppのパッチforkにQwen向けMTPとTurboQuantを追加した話。
MacBook Pro M5 Max 64GBで、21 tok/s → 34 tok/s。これは約62%向上で、投稿の“40%アップ”より実際は大きい。
しかも**MTP acceptance rate 90%**を主張していた。

DJレン:
コードはAtomicBot-ai/atomic-llama-cpp-turboquant、GGUFのMTP量子化済みQwen 3.6 27B/35BはAtomicChat/qwen-36-udt-mtpで公開。
ただしコメント欄ではかなり慎重で、TurboQuantはf16やq8、q4より遅いことも多いという指摘が相次いだ。

DJミオ:
それに、過去にTurboQuantのPRがllama.cppで却下されたという話も出ていた。理由は、既存のQ4 KV-cache quant rotationで大体の恩恵をカバーできるから。
TurboQuantが効くとしても主にQ3あたりだけど、そこは品質低下が気になる。

DJレン:
要するに、速度・品質・コンテキスト長は別々に見ろということ。
MTP単独なら速度向上に期待、Q4_1やQ4_0は長文脈と品質維持向き、TurboQuantの得はハードウェア依存かもしれない、という整理だった。

DJミオ:
あと別コメントでは、内蔵MTPよりdflashの方が30〜40%速いという意見もあった。すでにPRがあるので、今回の実装は既存統合努力と重複してるかもしれない、という指摘も。


8-2. 2x3090で“ローカルAIは実用品になった”感

DJレン:
次の投稿は、タイトルから熱い。“we really all are going to make it, aren’t we? 2x3090 setup.”

DJミオ:
デュアルRTX 3090、合計48GB VRAM、NVLinkなし。
WSL2では30 tok/s、400 pp/sだったのが、ネイティブUbuntuで113 tok/s、4000 pp/sまで改善した、という報告。

DJレン:
最近のsse-session drop bug修正tool-calling改善で、ローカルワークフローが現実的になったという話だったね。
しかもQwen 3.6 27Bの262k contextが、コーディング、モンキーパッチ、コードレビューで**“ほぼSonnet級”**と感じたと。

DJミオ:
コメント欄では、ローカルAIが7Bの要約デモおもちゃから、実際に使えるコーディング基盤へ移ったという空気が強い。
推論ランタイム、インフラ、小型モデルの質、この3つが想定以上に良くなってる。

DJレン:
1〜2年以内に、分野特化ならfrontier級品質がプロシューマGPUに乗るかもという楽観論もあったね。
あと実運用パターンとして、デュアルブートよりUbuntuのGPUサーバーをガレージに置いてAPI提供する、みたいな話も出ていた。


8-3. 「量子化よくわからんけどIQ3で普通に動く」

DJミオ:
3つ目は、Qwen 27B dense codingモデルをIQ3相当で16GB VRAMに載せて、90k context、30 tok/sでも十分使えるという話。

DJレン:
Godot/GDScriptでもちゃんと動いている、と。
投稿者は、低bit量子化でも劣化を感じにくい理由として、Pi harnessやContext7/ContextQMDのような検索・検証系の補助が効いているのではと推測していた。
同じモデルでも、Opencodeみたいな別ハーネスでは性能が落ちるらしい。

DJミオ:
つまり“モデルの素の性能”だけじゃなく、どんなハーネスで包むかが体感品質を大きく左右するという話だね。


9. オープンソースのローカルAIアプリと音声モデル

9-1. TextGenがネイティブデスクトップ化

DJレン:
次はかなり実用寄り。oobabooga/textgenが、昔のtext-generation-webuiから進化して、ネイティブのデスクトップアプリになった。

DJミオ:
Electronベースのポータブル・ノーインストール型で、Windows/Linux/macOS対応。
CUDA、Vulkan、CPU-only、Apple Silicon/Intel macOS、ROCm向けのビルドもある。
プライベートなオープンソース版LM Studio対抗”という立ち位置だね。

DJレン:
ポイントは外部送信ゼロを強調してること。
さらにik_llama.cpp対応IQ4_KS/IQ5_KSみたいな新しめの量子化形式OpenAI/Anthropic互換API、そして
ANTHROPIC_BASE_URL=http://127.0.0.1:5000
Claude Code互換利用もできる。

DJミオ:
機能も広くて、Web検索、PyMuPDFによるPDF抽出、trafilaturaでのページクリーンアップ、Jinja2チャットテンプレート、PythonファイルやMCPサーバー経由のツール呼び出しまである。
ソースはAGPLv3

DJレン:
コメントは比較的平和で、LM Studioのプライベート代替としてうれしいとか、Gemma 4 31Bでも直感的に使えたKoboldCPPより好みみたいな反応が中心。
あと“結局ローカルLLMフロントエンドは大半がOpenAI互換APIを話す”という気づきも共有されていた。


9-2. DramaBox:表現力重視のオープン音声モデル

DJミオ:
音声では、Resemble AIのDramaBoxLTX 2.3ベースのオープンな表現力特化TTSで、GitHub、Hugging Face、HF Spaceで公開。

DJレン:
評判はかなり良くて、感情表現が本当に人っぽいインディーゲームのボイス用途に使えそうという声が多かった。

DJミオ:
ただし技術的な批評もあって、話者・キャラクターらしさは95%くらいでも、音質や自然さは60%くらい、まだロボっぽいアーティファクトが残る、という意見もあった。
表現力は高いけど、フィデリティは今後の改善余地あり、という感じ。


10. Retrieval bottlenecks:ローカルLLMの知識取得はどこで詰まる?

10-1. Web検索とスクレイピングの経済問題

DJレン:
かなり重要だったのが、AI向けWeb検索が止まりつつあるという議論。
理由は2つ。Googleが無料検索インデックスを絞ることと、CloudflareがAIスクレイパーにチャレンジをかけること。

DJミオ:
投稿では、Googleのサイト絞り込み系の無料利用が50ドメイン制限、かつ2027-01-01の旧仕様打ち切りに向かう、といった話が出ていた。
さらにCloudflareのボット防御がAI取得を阻み、それがGoDaddy連携で広がるとも。

DJレン:
そこで代替として挙がったのが、YaCySearXNGCommon CrawlBrave Search API、そしてWayback Machine、archive.today、Jina Reader

DJミオ:
大事なのは、これは単なる技術問題じゃなくて経済問題だということ。
人間が広告を見る検索じゃないと収益化しにくい。AIエージェントがAPIで大量に叩いても、広告インプレッションが出ない。だから無料の大規模検索アクセスは持続しにくい

DJレン:
そして検索と取得は別問題。
検索APIがURLを返しても、その先の本文取得でCloudflareに止められる
だから実運用では、検索API+キャッシュ/アーカイブ+reader/extractorサービスの組み合わせが必要になる、という整理だった。

DJミオ:
YaCyみたいな分散検索が見直される可能性もあるし、もっとラディカルには、一度取得したコンテンツをP2Pで共有するみたいな発想も出ていたね。


10-2. 日常の個人ナレッジベースとしてローカルLLMを使えるか

DJレン:
もう一つの大きなスレッドは、**“コーディング以外で、ローカルLLMを日常の知識ベースにしてる人いる?”**という問い。

DJミオ:
一番具体的だった構成は、M3 Max 36GB、Qwen3 32BをOllamaで提供、埋め込みはbge-m3、Obsidianをソース・オブ・トゥルース、Postgres + pgvector、LlamaIndexは使わず300行くらいの自作Python

DJレン:
肝は検索品質だね。
Markdownの見出しベースでチャンク化して、文書タイトルや親見出しを各チャンクに前置する。
さらにBM25とdense retrievalのハイブリッドRRFで融合。これで固有名詞検索の弱さを補える。
追加レイテンシはだいたい**+50ms**。

DJミオ:
そして回答にはソース引用と該当箇所の抜粋を必須にする。そうしないと幻覚の検知が難しい。
インデックスは約3000ノートを毎晩cronでフル再構築、4分くらい

DJレン:
で、いちばん印象的な教訓がこれ。
“200kコンテキストは要らない。8kに正しい6チャンクを入れろ”
長コンテキストは、しばしば検索品質の悪さを隠してるだけだという指摘。

DJミオ:
あと、日記と参照ノートを同じインデックスに混ぜるなも重要だった。
感情的な日記断片が、事実系の問い合わせにノイズとして出てくる。だから用途別にインデックスを分けて、クエリ時にルーティングした方がいい。

DJレン:
別のユーザーは、知識ベースというよりローカル寄りの多言語ゲーミングアシスタントを構築していた。
音声入力→翻訳→クリップボード連携スクリーンショット→ビジョン翻訳TTSなどをつないでいて、OCRよりWhisper系ASRやビジョンモデルの方が信頼できると述べていた。
さらに文書を読み込んで、スタッフのタスク票をDB化して要約するような業務支援にも広げたい、と。


11. Less Technical AI Subreddits

11-1. Claude SDKクレジット制限への反発

DJミオ:
ここはさっきのAnthropic問題の一般層版。
Claude Agent SDK、claude -p、Claude Code GitHub Actions、サードパーティのAgent SDKアプリ向けに専用月間クレジットを付与する、と告知されたんだけど、Redditでは事実上のナーフと受け止められた。

DJレン:
特に、自律的なclaude -pワークフローでは、通常の対話利用よりクレジットが早く燃えるのでは、という懸念。
曖昧さが大きくて、通常のClaude Codeとどこまで切り分けられるのか分からない、という不満も強かった。


11-2. AI画像をめぐる認知バイアスと生成失敗

DJミオ:
軽めだけど象徴的だったのが、本物のモネの絵を“AI生成だ”と言って投稿したら、人々が自信満々でAIっぽい欠点を指摘したという話。

DJレン:
完全に確認バイアスの例だよね。
“AIだ”と聞いた瞬間に、深みがない、筆致が不自然、魂がない、みたいな批評が後付けされる。
AIアート論争がいかに先入観ドリブンかがよくわかる。

DJミオ:
もう一つは、手のベクター化を頼んだら、余分な指を直す代わりに中指を立てる手に変わったという画像生成ミーム。
手や指のトポロジー破綻と、反復編集での指示追従の弱さをよく表している。


12. Discordについて

DJレン:
最後に運営面。AINewsはDiscordへのアクセスがこの日で終了
今後はこの形では戻さず、新しいAINewsを出すという告知だった。

DJミオ:
なのでこの号の空気を一言で言うなら、
“静かな日”を装いつつ、実際には

  • エージェントのUIがモバイルやIDEに定着し始めた
  • 観測から自己改善に向かう基盤が育っている
  • サブスク依存の開発体験には明確なプラットフォームリスクがある
  • ローカルLLMはコーディングも個人知識ベースも現実味が増している
  • 検索・取得は技術より経済がボトルネック
    っていう日だったね。

DJレン:
そして現場のメッセージとしては、
抽象化しろ、BYOKを持て、retrievalを甘く見るな、ローカルはもう遊びじゃない
この4つがかなり強かった。

DJミオ:
“not much happened today”って見出しの裏で、未来の開発環境の前提が少しずつ塗り替わってる。そんな一日でした。

DJレン:
今夜の「Midnight AI Groove」はここまで。DJレンでした。

DJミオ:
DJミオでした。おやすみなさい、そして良いAIセッションを。

ChatGPT Image 2026年5月27日 12_02_07.png

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?