DJミオ:
こんばんは、Midnight AI Groove。ナビゲーターのDJミオです。
DJレン:
こんばんは、DJレンです。今夜は、「今日はそんなに大きなニュースはなかった」と言われる日に、実は何が起きていたのかを、じっくり読み解いていきます。
DJミオ:
そう。“not much happened today”っていう一見おだやかなタイトルなんだけど、中身を読むと、全然静かじゃないんだよね。
むしろ、AIの進化が単体モデル競争から、エージェント運用、評価、インフラ、ガバナンス、そしてローカル実装へと広がっているのがすごくよく見える日でした。
DJレン:
今日はその全体像を、
- OpenAIのサイバー領域拡張
- SakanaのFuguと“オーケストレーション”論争
- GLM-5.2の台頭
- エージェント基盤としてのGoogleやHermes
- 推論インフラと“owned intelligence”
- ベンチマークや評価方法の再点検
- Redditで見えるローカルLLM実践
- Anthropicの本人確認とフロンティアモデル噂
という流れで話していきます。
1. まず全体の空気感:「何も起きていない」ようで、実は論点が成熟してきた
DJミオ:
まず前提から。このまとめでは、数日間で12のsubreddit、544のTwitterアカウントをチェックしていて、Discordはこの日をもってアクセス終了。つまり、情報源の観測範囲はかなり広い。
DJレン:
その上で「今日は静かな日だった」と言っている。でも、静かな日だからこそ、本当に重要な構造変化が見えやすいんです。
派手な新モデル発表だけじゃなくて、
- モデルをどう組み合わせるか
- 現場でどう評価するか
- 誰がどのインフラを握るか
- どこまで本人確認や規制が入り込むか
そういう“AIの実装社会学”みたいな話が前面に出てきている。
DJミオ:
うん。モデル単体のIQスコア競争というより、システムとしてAIをどう回すかが主戦場になってる感じだね。
2. OpenAI:Daybreak拡張で「バグ発見」から「修正まで」へ
DJレン:
最初の大きな話題はOpenAI。
OpenAIはサイバーセキュリティ向けの取り組みを強化して、Daybreakプログラムの拡張、Codex Securityプラグイン、そしてGPT-5.5-Cyberを信頼された防御側向けに提供する流れを打ち出しました。
DJミオ:
ここで重要なのは、方向性が明確に変わってることだよね。
以前は「脆弱性を見つける」話が中心だったのが、今回は**“修正までを閉ループで回す”**方向に進んでる。
DJレン:
そう。記事ではかなり具体的な数字も出ていて、
- 3000万件以上のコミットをスキャン
- 3万以上のコードベースをカバー
- 7万件以上の人間レビュー済み修正
-
さらに50万件以上の追加修正を自動検出
という規模感。
DJミオ:
対象プロジェクトも、cURL、Go、Python、Sigstore、pyca/cryptographyみたいな、かなり重要なOSSが入ってる。
しかもプラグインがやることが、
- ディープスキャン
- 脅威モデリング
- パッチ生成
- 既存ワークフローへのエクスポート
と、かなり実務寄り。
DJレン:
つまり、単なる“脆弱性発見AI”ではなくて、セキュリティ運用に入っていくAIになってきた。
ただ、ここで一気に出てきたのが政策・規制との整合性問題なんです。
DJミオ:
そうそう。OpenAI側は、Sam Altmanも含めてGPT-5.5-CyberがCyberGymでSOTAだという主張をしている。
一方で、AnthropicのMythosやFableのアクセス制限をめぐる議論が続いていて、「もしOpenAIのほうが強いなら、なぜ同等の制限をかけないの?」という疑問が出る。
DJレン:
@BlackHCの指摘がまさにそこでした。
さらに@shashjは、Mythosについて広まっていた「NSAのシステムに数時間で侵入した」という話に重要な補足をしている。
それは初期アクセスが前提のレッドチーム文脈であって、しかもそのレッドチームは現在もうMythosにアクセスできないらしい。
DJミオ:
ここ大事だよね。センセーショナルな文言だけが一人歩きしてるけど、何を前提にした能力なのか、そして現在も同じアクセス条件なのかが曖昧だと、ガバナンス議論もぐちゃぐちゃになる。
DJレン:
記事のまとめ方もそこが核心でした。
モデル能力の報告と、一貫した統治基準の間にギャップが広がっている。
要するに、「強い」と言うのはいいけれど、じゃあどこから規制するのか、誰にどんな条件で使わせるのかが整っていない。
3. Sakana AIのFugu:「モデルを出す」ではなく「モデル群をさばく」API
DJミオ:
次はSakana AI LabsのFugu。これも面白い。
Fuguは“単一モデルの新作”というより、複数のフロンティアモデルを学習済みのオーケストレーションで扱う単一APIとして提示された。
DJレン:
つまり、Fuguがやるのは
- モデル選択
- 委譲
- 検証
- 統合
をまとめてやること。
単体の巨大モデルを1回呼ぶんじゃなく、最適なモデルに振り分けながら、多段で答えを組み立てる発想です。
DJミオ:
VercelがすぐにFugu UltraをAI Gatewayに追加したのも象徴的。
今の実務では、みんな薄々「最終的に価値が高いのは単一モデルそのものより、ルーティング層やオーケストレーション層なんじゃないか」と感じ始めてる。
DJレン:
BoxのAaron Levieも、そういう高付加価値レイヤーになりそうだと見ているし、Audrey TangもFugu Ultraをplanner/advisorとして、高速なドライバーループと組み合わせる使い方がよかったと報告している。
DJミオ:
Sakana側も、自動研究、金融、ブラインドチェス、CADみたいなユースケースを出して、長い時間軸のタスクではテスト時の協調が単発呼び出しを超えうると主張してる。
DJレン:
ただし、批判もかなり強かった。
特に詳細だったのが@eliebakouchの分解で、Fuguは本質的には
ルーター/分類器 + 事前設計された多段ワークフローに近いのではないか、と。
DJミオ:
しかも評価面の論点が多いんだよね。
- SWE-Bench ProではOpusに約10点負けている
- 比較対象が“Model A/B/C”のように匿名化されている
- best-of-N的なオーケストレーションなのにトークン量やコストが出ていない
- 比較すべきは素のベースモデルではなく、他のtest-time scaling構成ではないか
という指摘。
DJレン:
さらに@BlancheMinervaは、過去の件も踏まえてSakanaの信頼性自体に疑義を呈し、「以前の研究で不可能に見える性能主張があった」とまで言っている。
DJミオ:
つまり、Fuguの技術的な方向性そのものは多くの人が認めている。
でも議論はもう「オーケストレーションは役に立つのか?」じゃなくて、
**“オーケストレーションシステムをどう評価し、どう開示すべきか”**に移ってる。
DJレン:
これ、すごく大きい転換です。
AIシステムが複雑化すると、単一モデルのベンチマーク作法では足りない。
何回呼んだのか、何をルーティングしたのか、コストはいくらか、失敗時の挙動はどうか――そこまで見ないと比較にならない。
4. GLM-5.2のブレイクアウト:オープンウェイトで“実務に入れる”水準へ
DJミオ:
今回いちばん熱量があったのは、やっぱりGLM-5.2かもしれないね。
DJレン:
そうですね。GLM-5.2は、エージェント用途でフロンティア級に近いオープンウェイトモデルとして見られ始めています。
Artificial Analysisでは、GDPval-AAで総合3位、1524 Elo。上にいるのはClaude Fable 5とOpus 4.8くらいで、しかもオープンウェイトでは最上位。
DJミオ:
しかもAA-Briefcaseのコスト/性能フロンティアでも強い位置にいる。
Nat Lambertは「エージェントにとってのDeepSeek momentかもしれない」と言い、Arav Srinivasは「日常的な本番知識労働でブラインドテストを通る」とまで言ってる。
DJレン:
でも、この記事が強調していたのは、抽象的なベンチマークより、実際のハーネス結果のほうが説得力があるという点でした。
Clineは自分たちのリポジトリの実際のバグを使って、GLM-5.2とOpus 4.8を同じハーネスで比較した。
DJミオ:
結果が面白いんだよね。
GLM-5.2は
- 速度は遅め
- ツールコールは多め
だけど、 - 安い:0.41ドル vs 0.81ドル
- 検証が堅い
- デッドコードを掃除した
- 本番ビルドを確認した
一方でOpusはテストを通っても型エラーが残っていた。
DJレン:
つまり、単に“答えを出した”ではなく、検証しきる力でGLMが強かった。
これはエージェント用途では非常に重要です。
なぜなら実務では、1回それっぽいコードを書くことより、最後まで壊れていないことを確かめる能力のほうが価値が高いから。
DJミオ:
@askalphaxivも、GLM-5.2は初めて本物のautoresearchをこなせるオープンウェイトモデルだと言ってるよね。
しかも、2台の8xH100ノードを使った、非同期か同居かみたいなRL訓練実験までやってる。
DJレン:
ツーリング層の話もかなり重要で、@_xjdrはGLMをncodeのデフォルトモデルに昇格させた。
でもその裏では、
- 容量を週末かけて強化
- ツールストリームのパーサを固める
- 通常セッションと100万コンテキストセッションのエンドポイント分離
など、かなりの実装工数がかかっている。
DJミオ:
ここ、オープンソースモデルの現実が見えるよね。
性能が良くても、きれいに組み込むにはモデル固有のパーサやハーネス整備が大量に必要。
でも逆に言えば、それでもやる価値があるくらいGLM-5.2が強くなったってこと。
DJレン:
しかも配布・サービングの速度が異常に速い。
AWS Marketplace、Baseten、Fireworks経由のDroid、LangChainのdeepagents、そして数えでは20プロバイダにも広がっている。
Basetenでは280 tok/s超、TTFT 0.8秒未満という数字まで出ている。
DJミオ:
さらにBasetenのOpenAI互換エンドポイント経由で、Claude Codeの中からGLM-5.2を使うみたいな実践ガイドも出ている。
つまり今起きてるのは、オープンモデルの質がついに
**“ベンダーやエージェントツール開発者が本気で最適化しに行く閾値”**を超えた、ということなんだよね。
5. GoogleのInteractions API、オープンな通信プロトコル、Hermesの拡張
“エージェントはAPIひとつで済まない”時代へ
DJレン:
続いて、エージェント基盤そのものの話。
GoogleはInteractions APIをGemini向けの主要インターフェースとしてGAにしました。
DJミオ:
これもポイントは、単なるモデルAPIじゃないこと。
- モデルとエージェントを1つのAPIで扱う
- バックグラウンドの非同期実行
- 拡張ツールサポート
- マルチモーダル生成
- マネージドエージェント
- そして隔離されたリモートLinuxサンドボックスAntigravity
まで含む。
DJレン:
Googleがただの“モデル提供者”ではなく、ファーストパーティのエージェントハーネス基盤を作りに来ている、という印象ですね。
DJミオ:
しかも移行を助けるために、Gemini Interactions skillまで出してる。
要するにコーディングエージェントに、新しいSDKパターンや現行モデルバージョンを“教える”ためのインストール可能スキル。
DJレン:
同時に、オープンソースのエージェント間通信プロトコルの整理も話題になっていた。
Omar Sar0が、9種類のOSSエージェント通信プロトコルのサーベイを紹介していて、今は
- ハイブリッドなペイロード
- セッション状態の永続化
あたりが標準化されつつある一方、分散的な発見機構はまだ未成熟だと指摘している。
DJミオ:
これ、すごく現在地が出てる。
みんな長時間動いて、ツールを使って、状態を持ち続けるエージェントを作りたい。
でも、そのためのプロトコルスタック全部はまだ固まっていない。
DJレン:
Hermesの更新も同じ流れですね。
Hermesはローカル/パーソナルエージェント基盤として、
- MacなしでiMessageアクセス
- 共有ワークスペースで外部エージェントとしてRaft統合
- さらにWindowsやLinuxのデスクトップGUIを任意のモデルで操作可能
という拡張を見せた。
DJミオ:
しかもリポジトリのスターが20万を超えた。
これは、開発者の関心が単に「ベースモデルの質」じゃなく、エージェントUXやハーネスの使い勝手にも大量に向いている証拠だよね。
6. 推論経済とインフラ:Baseten、GPUリース、そして“owned intelligence”
DJミオ:
次はお金とインフラの話。ここもかなり大きい。
DJレン:
Basetenが15億ドルのSeries Fを調達した件は、象徴的でした。
BasetenとCEOのAmir Ghazvinianの主張は明快で、企業は今後、自社の知能レイヤーを所有したがるというものです。
DJミオ:
つまり、
- オープンモデルや特化モデルを動かし
- 自社データと自社evalでポストトレーニングし
- 継続学習も自社の管理下に置く
そういう方向。
DJレン:
顧客にはAbridge、Cursor、Decagon、Harvey、Notion、OpenEvidenceなどが並んでいて、これはもう仮説じゃなくて、アプリ企業の能力として現実化している。
DJミオ:
この日の全体テーマときれいに一致するよね。
強いオープンモデル + それを回すための良いインフラがそろってきたことで、ポストトレーニングが“研究所だけの特殊技能”じゃなくなってきた。
DJレン:
さらに面白いのが、計算資源のリース市場そのものが戦略層になっていること。
ReflectionがSpaceXと63億ドル規模の計算契約を結んだという報道が広く議論された。
DJミオ:
もしこれが事実なら、GB300アクセスを巡って、GPUの仲介やネオクラウドの存在感がますます増す。
@jaminballは、SpaceX/xAIがAnthropicやGoogleとも大きな計算契約を持つ文脈の中で、
- Blackwell価格が1時間10ドル超を示唆
-
90日で解約可能な条項
なども指摘していた。
DJレン:
つまり、AIの競争は
- モデルを作る
- モデルを配る
だけでなく、 -
誰がGPU供給を仲介し、柔軟な計算契約を取れるか
という層まで広がっている。
7. ベンチマークと評価方法の見直し
もはや“チャットボットの採点”では足りない
DJミオ:
次は評価の話。ここ、教育番組としてかなり重要です。
DJレン:
まず、LLM-as-a-Judgeへの再点検。
@dair_aiが、21種類のjudge、9社、約54.1万件の判定を対象にした監査を要約していて、重要なポイントは、exact matchで見ると判定品質を過大評価してしまうということでした。
DJミオ:
Cohen’s kappaに切り替えると、MT-Benchでの一致度が33〜41ポイントも低下して、judgeの順位もかなり変わるんだよね。
つまり、「このJudgeモデルはよく人間と一致する」という主張の多くが、測り方次第で崩れる可能性がある。
DJレン:
評価基盤としてjudgeモデルを社内で使っているチームには、かなり大きな警告です。
DJミオ:
さらに大きいのは、エージェントはチャットボットとしてではなく、システムとして評価しろという流れ。
Julesは、目指すべきは「反応するだけのエージェント」じゃなく、気づき、先回りし、パートナーになるエージェントだと言っている。
DJレン:
@rseroterも、コーディングエージェントを使うことと、自律的なコーディングハーネスを設計することは全然違うと強調している。
この日の主要トピック――GLMの実ハーネス検証、OpenAI Daybreak、Fugu批判――を見ても、焦点は全部
- ツール
- メモリ
- 検証
- 長時間実行
にある。
DJミオ:
つまり、“単発の一問一答で賢い”では不十分。
今問われているのは、実際のワークフローの中で破綻せずに価値を出せるかなんだよね。
ここからは Reddit recap
8. /r/LocalLlama と /r/localLLM:GLM-5.2、ローカル推論、家庭用AI計算機
DJレン:
ここからはRedditまわり。
まずLocalLlama界隈では、やはりGLM-5.2が熱い。
8-1. DeepSWE上のGLM-5.2:安くて強い、でも上位クローズドにはまだ届かない
DJミオ:
DeepSWEのコスト対スコア図では、GLM-5.2 [max] が44%、平均コスト3.92ドル/タスク。
GPT-5.xやClaude系のトップには及ばないけど、価格対性能ではかなり良い位置にいる。
DJレン:
しかも読者の反応が興味深い。
「体感としてSonnetやKimiより強く感じる」「でもOpus 4.8やGPT-5.5にはまだ負ける」という声があり、実感とベンチマークが大きくズレていない。
DJミオ:
そして何より、“これがオープンウェイトで、自前ホスティング可能”って点が大きい。
トークン単価は消える代わりに、ハードウェア費と運用難度は増えるけど、そのトレードオフ込みでも価値があると見られてる。
DJレン:
一方で、図表の見せ方への批判もあった。
コスト軸が反転していて0が右にあるなど、視覚的に誤解を招くという指摘。
こういう細かいグラフ設計も、技術議論では意外と大事です。
8-2. 4×RTX3090 + 192GB RAMでGLM-5.2を回す家庭ラボ
DJレン:
次は、かなり“DIY魂”あふれる話。
あるユーザーが、RTX 3090を4枚、DDR5 192GBのコンシューマ機を約6000ドルで組み、GLM-5.2をローカル運用している報告です。
DJミオ:
Linuxで各GPUを200Wにパワーキャップしつつ、RAMを5200から5600 MT/sへOC。
用途としては、
- GLM 5.2をplannerとして約7 tok/s
- MiniMax 2.7をコーディング用に約45 tok/s
- Qwen3.6 27B q8を確認・テスト用に約50 tok/s
- Flux2Kleinで2GPUバッチ時6秒に1枚程度
みたいな運用。
DJレン:
コメント欄では、
- どの量子化を使ったのか
- MiniMax M3じゃなくてなぜ2.7か
- マザーボードは何か
- 4GPU接続にライザーやPCIe分岐が必要か
- 冷却はどうしているか
など、かなり実務的な質問が飛んでいた。
DJミオ:
このへん、ローカルLLM界隈はほんとに“研究”と“自作PC文化”が混ざってるよね。
8-3. “Tokenomics”論争:ローカル推論は本当に安いのか?
DJミオ:
次はローカル派にとって避けて通れない話、tokenomics。
DJレン:
ある投稿では、例えば2万ドルのハードで20 tok/sとして、GLM-5.2 APIの価格――入力1.40ドル/出力4.40ドル毎100万トークン程度――と比べると、損益分岐まで5.5年かかる、という試算が出た。
DJミオ:
でもコメントでは、「数字の根拠が曖昧」「前提が適当」とかなり突っ込まれていた。
しかも論点は単純なトークン単価じゃないんだよね。
DJレン:
そう。ローカル運用の意義として挙がっていたのは、
- プライバシー
- 中断されないこと
- 自由な制御
- 趣味性
- ファインチューニングや実験
- 高稼働のSME用途
など。
クラウドはバッチで高い稼働率を実現できるから、単純なコスト勝負では有利になりやすい。
DJミオ:
でもローカル側にも、
- ハードは売却価値が残る
- API料金は使ったら消える
- API価格が将来も同じとは限らない
という反論がある。
だから結論としては、**“安いからローカル”ではなく、“必要な制御と継続性が欲しいからローカル”**に近い。
9. ローカル推論チューニングとKVキャッシュ量子化
9-1. llama.cpp最適化ガイド
DJレン:
次はかなり実践的。
llama.cpp向けのローカル推論最適化ガイドが話題になっていて、内容は
- VRAM fitting
- KV-cacheのサイズと量子化(-ctk / -ctv q8_0)
- Flash Attention
- MoEのレイヤ配置
- MTP / speculative decoding
- CPUやP-coreチューニング
- XMP/EXPO
- OOMやロード失敗の対処
など。
DJミオ:
特にコメントで重要だったのが、マルチモーダル特有の落とし穴。
vision系だと
- mmprojはロード時に連続したVRAMが必要
- --fit-target を攻めすぎると推論時ではなくロード時に落ちる
- 画像が何百トークンにもなるので、--ubatch-size が画像トークン数以上でないとassertが起こる
という話。
DJレン:
つまり、ただテキストモデルを回すのとは違って、マルチモーダルではメモリの断片化やバッチ設定がよりシビアになる。
DJミオ:
ベンチマーク環境も共有されていて、RTX 4070 12GB、i5-12600K、DDR5-6000 32GBという、わりと現実的な構成。
一方で「文章がAIっぽくて読みにくい」という苦言もあって、内容は有用だけど、読みやすさの問題は残るみたい。
DJレン:
あと、ik_llama.cppについての表現が不正確ではないか、という技術的指摘もありました。
“まだupstreamされていない”ではなく、そもそも公式llama.cppに入る前提ではないという理解のほうが近い、という話ですね。
9-2. Gemma 4 QATはKVキャッシュ量子化に強いのか?
DJミオ:
次は、Gemma 4のQATとKVキャッシュ量子化の話。
WikiText 16k文脈で、Gemma 4 26Bについて、KVキャッシュ量子化時のKL divergenceが比較されていて、QATモデルのほうがかなり頑健という結果が出ていた。
DJレン:
非QAT版では99.9% KLDが
18.815 / 17.256 / 14.576
だったのに対し、QAT版では
4.409 / 3.436 / 2.385
まで下がる。
つまり、Q8_0 KV cacheが再び現実的かもしれないという示唆です。
DJミオ:
ただしコメントでは、
- そのKLDが実運用上何を意味するのか分かりにくい
- 再現用コードが欲しい
- 24GB GPUで試してみたい
みたいな反応もあった。
DJレン:
しかも反例もあって、Gemma 31Bのビジョンタスクではq8 KV cacheのほうがbf16より悪かったという報告もある。
だからこれは、全タスク・全モデルに普遍的な改善ではない可能性が高い。
DJミオ:
“QATの副作用としてKV量子化耐性が上がったのでは”という見方もあったし、QAT Gemma自体に既知の問題があるのでは、という懸念も残っていたね。
9-3. RTX 5090で100%ローカルLLM
DJレン:
さらに、RTX 5090 32GBでQwopus3.6 27B v2 MTPを動かすLM Studio構成の報告もありました。
文脈長は約16万トークン、GPUオフロードとKV cache offload、Flash Attention、VRAMギリギリの設定。
DJミオ:
ここでの実務的な結論は面白くて、ローカルLLMでは
- 大きな“英雄プロンプト”一発より
- 小さく区切ったタスク
- チェックポイント
- ステップごとの進行
- rules/skillsファイルの継続管理
のほうがうまくいく、という話。
DJレン:
すごくエージェント運用的ですよね。
また、Q5_1のV-cache量子化や、Evaluation Batch Size / Physical Batch Sizeを2〜4倍にして速度を上げる提案もあった。
ただしLM Studio上での結果は、改善もあるが一筋縄ではないという感じ。
DJミオ:
そして最後には、シンプルに「llama.cpp使えば?」というコメントもあって、ローカル界隈の定番感が出ていた。
10. 予算重視のローカルAIハード供給:怪しさと夢が同居する世界
10-1. 中国のV100改造・再基板化プロジェクト
DJミオ:
次はハードウェア好きにはたまらない話。
中国のハードモッダーが、NVIDIA Tesla V100のパッケージ/基板インターフェース、2963ピンを1年かけて解析し、単スロット・ハーフハイトの“Tesla V100 v4”基板として再構成した、という話。
DJレン:
しかもNVLink対応で、8-way構成も視野に入っているらしい。
価格も衝撃的で、
- 16GB版が1499 RMB(約220ドル)
- 32GB版が3999 RMB(約590ドル)
- NVLinkアダプタが2-way用199 RMB、8-way用799 RMB
など。
DJミオ:
コメントでは、4枚の32GBカードをNVLinkでつないで128GB HBMみたいな夢のある構成に期待する声が多かった。
しかもMCIO風の接続で4GPU間100 GB/s級という話も出ている。
DJレン:
ただし最大の問題は、信頼性。
中古V100のBGA再作業では、隣接するHBMを傷めるリスクが高い。
だから本当に重要なのは、歩留まり、長期安定性、保証の信頼性です。
DJミオ:
あと、「本当にクリーンルーム的なリバースエンジニアリングなの? 既存のPCBファイルが流通してたんじゃないの?」という疑いもあったね。
でも、それでも小型化と再実装の工作力に驚く声は大きかった。
10-2. EUのDDR5価格下落と、ドイツ・オランダ価格差
DJレン:
もう一つは、ヨーロッパのDDR5価格トラッキング。
25日間の観測で、ドイツ、オランダ、スペイン、ベルギーなどでかなり下がっているという報告です。
DJミオ:
例としては、
- G.Skill DDR5 Aegis 2x16GB 6000:579→419ユーロ
- Kingston FURY Beast RGB 2x16GB 6000:499→369ユーロ
- G.Skill Trident Z Neo 2x32GB 6000:1200→927ユーロ
みたいに、20〜30%近い下落。
DJレン:
特に同一EANのG.Skill Trident Z5 RGB 2x32GB DDR5-6400が、
ドイツのNBBで799ユーロ、
オランダのMegekko/Azertyで1180ユーロ、
というかなり大きな価格差が紹介されていた。
DJミオ:
投稿者は、ローカルLLM向けの入門帯としては、DDR5-6000の2x16GBがスイートスポットになりつつあると言っている。
DJレン:
一方で、USのregistered/server DDR5は逆に高騰していて、64GB DDR5-4800 RDIMMが1530ドルから1800ドルへ上がったという話も。
つまり、EU消費者向けDDR5は下がっているが、サーバー向けはそうでもない。
DJミオ:
しかもコメントでは、「システムRAM頼みなら、古いDDR4のワークステーションのほうが安くて速いこともある」という議論もあった。
例えば6チャネルの古いXeon DDR4-2400が、デュアルチャネルDDR5-7000より実効帯域で勝つケースもあり得る、と。
DJレン:
このへんは、ローカルLLMが単純な“新しいほど良い”ゲームではない、というのをよく示していますね。
Less Technical AI Subreddit Recap
11. Anthropicの本人確認導入:KYC的な未来への反発
DJミオ:
ここからは、より一般寄りのAIコミュニティで燃えていた話題。
まず大きかったのが、Anthropicの本人確認ロールアウトです。
DJレン:
AnthropicはClaudeのサポートページを更新し、一部ユースケースでID verificationを導入すると発表しました。
理由は
- 乱用防止
- ポリシー執行
- 法的義務への対応
で、確認はPersona Identitiesという第三者プロバイダが担当。
政府発行の身分証明書と、カメラ付きデバイスが必要になる可能性があります。
DJミオ:
ユーザーの反応はかなり厳しくて、特に
- プライバシー
- ベンダーへの不信
- PersonaとPeter Thielとの関連への反発
が目立った。
「Claudeを解約する」「これで中国製かオープンソースに流れる」という声もある。
DJレン:
技術的に重要な懸念もありました。
このフローでは、政府IDに加えてライブセルフィー、つまり生体的な顔情報処理が入ると見られている。
しかも、Free / Pro / Maxには適用され得るのに、Team / Enterprise / Platformは対象外らしい、という指摘もあった。
DJミオ:
第三者データ処理も問題視されてたね。
Personaの下請け・サブプロセッサにAWS、Google、OpenAI、Stripe、Twilioなどがいるとされ、本人確認データがどこまで流れるのかが不透明だと。
しかも保持期間が明確でないという批判もあった。
DJレン:
Anthropicの説明としては、“certain capabilities”や“platform integrity checks”に必要、という曖昧な書き方なんですが、ユーザーからすると一番困るのはそこです。
何をすると本人確認が要求されるのか分からない。
DJミオ:
そして、7月8日から有効なPrivacy Policy更新では、Verification Dataの取り扱いも追加された。
これが将来的に、セキュリティ分析、脆弱性調査、コードハードニングみたいな正当な用途にまで広がるんじゃないか、と不安視されてる。
DJレン:
一部のコメントでは、Mythosのような高能力モデルへのアクセス制限や、米国市民向け限定みたいな輸出管理発想とつながっているのでは、という推測もありました。
つまり、AIモデルへのアクセスが、支払いだけでなく、身元・国籍・資格の確認を前提にする世界が近づいているかもしれない。
DJミオ:
その意味で、オープンモデルへの期待が高まるのも自然だよね。
KYCなしに使える高性能モデルが欲しい、という需要が強まる。
12. Anthropicフロンティアモデルの噂:Sonnet 5 “Fennec”、Mythos後継、NSA話法
12-1. Sonnet 5 “Fennec”リーク説
DJレン:
次は噂話セクション。
まず、**Claude Sonnet 5 “Fennec”**が来週にも出るのでは、というリークが話題になりました。
主張としては、
- 100万トークン文脈
- 強いコーディング性能
- 高速推論
- Opus/Fableより良い価格対性能
というもの。
DJミオ:
ただし証拠は薄い。
画像も単なる宣材風で、ベンチマークや技術情報はない。
コメントも「夢で見たの?」みたいな感じで、かなり懐疑的。
DJレン:
それでも、「以前にもSonnet級が当時のOpus級を上回った例があるから、全くあり得ない話ではない」という見方はあった。
また、“Fennec”は新リークではなく、もっと前からあった内部コードネームでは、という説も出ていました。
12-2. Mythosの後継が社内で育っているのでは、という噂
DJミオ:
もう一つは、未公開のMythosのさらに後継が社内にあるのでは、という話。
名前もMythos 5.1とかMythos 6とか、あくまで憶測。
DJレン:
ここも具体情報はないですが、「最初のMythosが年初にあったなら、5か月もあれば追加のポストトレーニングや、場合によっては新しい事前学習ランもあり得る」という、時間感覚としての妥当性は指摘されていました。
DJミオ:
公開しないまま内側で進化していくフロンティアモデル、という構図自体は十分あり得る。
それがユーザーのフラストレーションを強めてもいるね。
12-3. “MythosがNSAのほぼ全ての機密システムに数時間で侵入した”話への懐疑
DJレン:
そして、かなりセンセーショナルだったのが、The Economist由来とされる
“MythosがNSAのほぼ全ての機密システムに、数週間ではなく数時間で侵入した”
という話。
DJミオ:
でもコメント欄では当然、かなり疑われていた。
もし本当にそんな事件なら、もっと広く報じられているはずだし、そもそも暗号をAIが総当たりで破ったみたいな読み方は無理がある。
DJレン:
そこは多くの人が指摘していて、AIがAES-128やRSA-2048を brute forceするような話ではなく、もし何かが起きたとしても、
- ソフトウェア脆弱性
- 資格情報の窃取
- 設定ミス
- 社会工学
- 運用上の弱点
などの経路のほうが現実的だ、と。
DJミオ:
つまり、“AIは暗号より汎用的だから輸出規制が必要”という政策アナロジーとして読むならまだ分かる。
でも、それをそのまま“AIが暗号を破った”とか“NSAが完全に落ちた”みたいに受け取るのは危険、ということだね。
DJレン:
この記事全体でも、ここは一貫していて、
能力のセンセーショナルな語りと、その前提条件や実運用上の意味を切り分けないといけない、という姿勢です。
13. Discord終了のお知らせと、AINewsの次の形
DJミオ:
そして最後に小さいけど象徴的だったのが、Discordのアクセスが停止されたというお知らせ。
今後は同じ形では戻さず、新しいAINewsを出す、と。
DJレン:
これもある意味で、情報流通の基盤が変わっていく話ですよね。
観測の場も、コミュニティの場も固定ではない。
総括
14. 今日の本当のテーマは何だったのか
DJミオ:
じゃあ最後に、今日の本当のテーマをまとめようか。
表面上は「大きなことはあまり起きなかった日」。でも実際には、AIの世界が次の段階に入っているのが見えた日だった。
DJレン:
僕なら、5つにまとめます。
第一に、AIは“単体モデル”から“運用システム”へ。
OpenAI Daybreakは、脆弱性発見からパッチ生成まで。
Fuguは、モデル単体ではなくオーケストレーション。
Googleは、モデルAPIではなくエージェント基盤。
議論の中心はもう、単発応答の賢さではない。
DJミオ:
第二に、評価の軸が変わっている。
Judgeモデルの信頼性が疑われ、静的ベンチマークだけでは足りない。
本当に見たいのは、ツールを使い、状態を持ち、長時間走り、検証してやりきれるか。
DJレン:
第三に、オープンウェイトの地位が上がっている。
GLM-5.2は象徴で、ただ“安い代替品”ではなく、本番級ワークフローで比較対象になるところまで来た。
その結果、ベンダーもツール側も本気で最適化を始めている。
DJミオ:
第四に、インフラと所有権の時代が来ている。
Basetenの大型調達、GPUリース市場の拡大、ローカルLLMの自作文化。
AIはモデルだけでなく、誰が計算資源と運用基盤を握るかが決定的になってきた。
DJレン:
第五に、ガバナンスはまだ能力に追いついていない。
OpenAIの強力なサイバーモデル、Anthropicのアクセス制限と本人確認、Mythosをめぐる噂。
能力主張は増える一方で、誰がどこまで使えて、どんな条件で制限されるのかという基準はまだ揺れている。
DJミオ:
つまり今日は、「派手なニュースが少ない日」じゃなくて、
AIが社会実装の現実に深く入り始めた日常が見えた日だったんだと思う。
DJレン:
モデルは賢くなる。
でも、それ以上に重要になっているのは、
- どう組み合わせるか
- どう検証するか
- どこで動かすか
- 誰に許可するか
- どのコストで回すか
なんです。
DJミオ:
そしてその全部が、研究室の外に出てきた。
開発者、企業、趣味の自作勢、規制当局、そして普通の利用者まで巻き込んで、AIは“単なるモデル競争”から次のフェーズへ進んでいる。
DJレン:
今夜のMidnight AI Groove、テーマは
「何も起きていない日に、いちばん大きな変化が見える」
でした。
DJミオ:
ここまでのお相手は、DJミオと――
DJレン:
DJレンでした。
DJミオ:
それではまた次回。
深夜のAI観測、チューニング、そして静かな地殻変動のなかでお会いしましょう。
Good night, and keep the groove intelligent.
