Midnight AI Groove 26-04-30

Posted at 2026-05-16

DJレン:
こんばんは、深夜のAIニュースをグルーヴでつなぐ「Midnight AI Groove」。DJレンです。

DJミオ:
DJミオです。今夜はAINews、2026年4月29日から30日の回、「not much happened today」をもとにお届けします。タイトルは「今日は大して何もなかった」なんだけど……。

DJレン:
実際には、GPT-5.5のサイバー評価、Codexの一般業務化、Qwen3.6、Grok 4.3、DeepSeek V4まわり、Mistral Medium 3.5、セキュリティ、RedditのローカルLLM話題まで、かなり詰まってる。

DJミオ:
AINewsはこの日、12のsubreddit、544のTwitterアカウントをチェック。ただしDiscordについては、Discord側のアクセス停止により、従来形式では今回が最後に近い扱い。今後は新しいAINewsを出す予定、というアナウンスもありました。AINewsは現在Latent Spaceの一部で、過去号検索やメール頻度の変更も可能、とのことです。

GPT-5.5、サイバー評価でトップ層へ

DJレン:
まずはOpenAI。GPT-5.5が、長期的・多段階のサイバータスクでかなり上位に来た、という話が大きい。

DJミオ:
UK AI Security Institute、英国AI安全研究所が、GPT-5.5は多段階サイバー攻撃シミュレーションをエンドツーエンドで完了した2番目のモデルになったと報告しました。これまで「攻撃的サイバー自動化ではAnthropicが独自にリードしている」という見方があったけれど、それが変わりつつある。

DJレン:
比較対象はAnthropicのClaude Mythos Preview。@scaling01によると平均パス率はGPT-5.5が71.4%、Mythosが68.6%。@cryps1sはTLOチェーンについて、GPT-5.5が10回中2回、Mythosが10回中3回成功したと指摘していました。

DJミオ:
さらに@polynoamialは、推論予算が1億トークンを超えても性能改善が続いていて、明確な飽和が見えていない点を強調。つまり、推論量を増やすとまだ伸びる可能性がある。

DJレン:
このタイミングでOpenAIは、ChatGPT向けのAdvanced Account Securityも出しました。フィッシング耐性のあるサインインと、より堅牢なアカウント復旧を追加。能力評価と同時に、プロダクト側の安全強化も出してきた形です。

Codexは「 coding agent 」から「 computer-use agent 」へ

DJミオ:
OpenAIのもう一つの大きな話題はCodex。これまでコーディング支援の印象が強かったCodexが、「誰にでも、コンピューターで行うあらゆる作業に」という方向へ大きく拡張されました。

DJレン:
内容としては、役割ベースのオンボーディング、アプリ接続、ドキュメント、スライド、スプレッドシート、リサーチ、計画作成まで広がるワークフロー。

DJミオ:
@ajambrosinoは、タスクに応じて変わる動的UI、コンピューターやブラウザ操作が20%高速化、スライドやシート処理の改善、引き継ぎのぎこちなさの軽減をまとめていました。@AriXは、Computer Useがアップデート後に42%速くなった点を紹介。

DJレン:
Sam Altmanも「Codexに大きなアップグレード。非コーディングのコンピューター作業にも試して」と投稿。OpenAIはモデル能力だけじゃなく、コンピューター操作エージェントのUXを製品化している、という流れですね。

GPT-5.5 Pro、スコアよりコスト効率がポイント

DJミオ:
ベンチマーク面では、Artificial AnalysisがGPT-5.5 ProをCritPtでGPT-5.4 Proをわずかに上回る新SOTAと報告しました。

DJレン:
ただ、注目点はスコアの伸びそのものより、フロンティア科学系評価でコストとトークン使用量を約60%削減しつつ改善したこと。GPT-5.5ファミリーは劇的な知能の段差というより、高価値ワークフローでの信頼性と効率改善が主役、という見方です。

オープンウェイト勢：Qwen3.6、Tencent Hy3、Grok 4.3、Ling 2.6

DJレン:
続いてオープンウェイトまわり。今日いちばん重要そうなのはQwen3.6 27B。

DJミオ:
Artificial Analysisによると、Qwen3.6 27Bは150Bパラメータ未満のオープンウェイトモデルで新リーダー。Intelligence Indexは46で、Gemma 4 31Bや過去のQwen系を上回りました。

DJレン:
特徴はApache 2.0ライセンス、262Kコンテキスト、ネイティブなマルチモーダル入力、そしてBF16重みが単一H100に収まるサイズ。35B A3B MoE版はスコア43で、アクティブ約3Bパラメータ級では最強クラス。

DJミオ:
一方で、出力トークンあたりの推論コストは高い。AAの推定では、Qwen3.6 27Bは評価スイートで約1億4400万出力トークンを使い、Gemma 4 31Bの約21倍の実行コスト。ただ、サイズあたり能力では大きな一歩です。

DJレン:
TencentのHy3-previewも登場。295B総パラメータ、21BアクティブのMoE、256Kコンテキスト、制限付き商用利用のコミュニティライセンス。Intelligence Indexは42で、Qwen3.6 27B、DeepSeek V4 Flash、GLM-5.1などには届かず。

DJミオ:
ただしCritPtでは4.6%でGLM-5.1と同等。総合順位よりも科学推論が比較的強い、という見方です。

DJレン:
xAIのGrok 4.3も改善。Artificial AnalysisではIntelligence Indexが53で、Grok 4.20 v2から4ポイントアップ。GDPval-AAでは1500 Eloへ大きく伸びました。

DJミオ:
価格も下がっていて、前バージョン比で入力価格が約40%低下、出力価格が約60%低下。GPT-5.5にはGDPval-AAで大きく離されているものの、単なる小改訂ではなく、システムとポストトレーニングの実質的改善と見られています。

DJレン:
Ant GroupのLing 2.6 1Tは、フロンティア狙いというよりコスト効率重視。1兆パラメータの非推論モデルでスコア34。GPQAやHLEはそこそこ、ベンチ実行コストは約95ドルと安い。

DJミオ:
ただしAA-Omniscienceで幻覚率92%という重大な注意点があります。

DeepSeek：視覚、GUIエージェント、巨大訓練スケール

DJミオ:
DeepSeek関連では、マルチモーダル方向がコンピューター操作エージェントと強く結びついているという話。

DJレン:
@nrehiew_は、DeepSeekがV4-Flashに視覚を訓練する際、モデルが推論中にバウンディングボックスや点座標を直接出力する点を紹介しました。これは汎用VLMというより、コンピューター操作向け設計に見える。

DJミオ:
別の投稿でも、論文の「visual primitives」タスクは、広い意味のマルチモーダル理解というより、ブラウザやGUI操作に直結していると指摘されています。@teortaxesTexも、DeepSeekは別個の「V4-Flash-Vision」を出すというより、視覚重みをメインのV4ラインに戻して統合している可能性を述べました。

DJレン:
ところが、その「Thinking with Visual Primitives」のリポジトリが公開後に消えたことも話題に。@teortaxesTexや@arjunkocherらが消失を指摘しましたが、理由は不明。視覚推論とGUIグラウンディングの具体的レシピに見えたため、削除が逆に注目を集めました。

DJミオ:
訓練スケールの推測もありました。@teortaxesTexは、フロンティアモデルで100兆トークン超はもはや珍しくないとし、仮想的な100TトークンDeepSeek V4を「V4にさらに2エポック足したようなもの」と表現。

DJレン:
@nrehiew_は、約100Bアクティブモデルに対して150Tトークン、約9e25の事前学習FLOPsと概算。OpenAI級の10万GB200クラスタなら、保守的なMFUでも14日程度で可能かもしれないという試算です。もちろん推測ですが、今のフロンティアスケールの感覚を測る材料になります。

エージェントはモデル自慢からハーネス工学へ

DJレン:
エージェント界隈では、モデル中心の自慢から、ハーネス中心のエンジニアリングに移っています。

DJミオ:
Cursorが、自社のエージェントハーネスをどうテストし、チューニングしているかの強い記事を公開。ランタイム、評価、劣化修復、モデル別カスタマイズに焦点を当て、単なる汎用ベンチマークではなく実運用の作り込みを語っています。

DJレン:
@Vtrivedy10は、Cursorの記事を、エージェント開発者間で収束しつつある設計パターンと結びつけました。モデルごとの専用プロンプトやツール、オフライン評価とオンライン評価の併用、ドッグフーディング、そしてコンテキストウィンドウを主要な計算境界として扱うこと。

DJミオ:
LangChainは、デプロイとマルチテナントエージェント基盤をパッケージ化。@hwchase17がDeepAgents deployを紹介しました。deepagents.tomlによる設定駆動のクラウドデプロイで、agent、sandbox、auth、frontendのセクションを扱います。

DJレン:
さらにLangChainスタッフは、データ分離、委任資格情報、RBACを含むマルチユーザー展開向けのagent-serverパターンも紹介。デモを企業ソフトウェアに変える、地味だけど重要な層です。

DJミオ:
共同マルチエージェント作業空間も具体化しています。@cmpatino_はAgent Collabsを紹介。Hugging FaceのbucketsとSpacesを共有バックエンドにして、異種エージェント群がメッセージ、成果物、進捗を交換できる仕組みです。

DJレン:
ポイントは「エージェントが協力する」というスローガンだけでなく、軽量な協調プリミティブ。弱いエージェントが検証などで貢献し、リソースのあるエージェントが高価な実験を担う、という分業が可能になります。

セキュリティ：サプライチェーン攻撃とAIセキュリティ製品

DJミオ:
セキュリティでは、オープンソースパッケージ侵害が引き続き深刻です。

DJレン:
Socketは、人気PyPIパッケージ「lightning」のバージョン2.6.2と2.6.3が侵害されたと報告。import時に悪意あるコードが実行され、Bunをダウンロードし、11MBの難読化JavaScriptペイロードを実行。狙いは認証情報窃取です。

DJミオ:
@theoは、この事件をnpmのintercom-client侵害やLinuxゼロデイと結びつけ、ソフトウェアサプライチェーン攻撃のテンポが上がっていると指摘しました。

DJレン:
また、セキュリティスキャナーがAI製品の一級カテゴリになりつつあります。AnthropicはClaude Securityを展開。@kimmonismusや@_catwuによると、Opus 4.7を使ったリポジトリ脆弱性スキャナーで、発見事項を検証し修正案も出します。

DJミオ:
CursorもCursor Security Reviewを提供。常時オンのPRレビューとスケジュールされたコードベーススキャンを含みます。モデルベンダーが既存のDevSecOpsカテゴリに直接入ってきている、はっきりした例ですね。

トップツイート：Codex、GPT-5.5、Qwen-Scope、Anthropic研究

DJレン:
エンゲージメントの高かった投稿も押さえましょう。まずOpenAI Codexの一般知識作業への拡張と、Sam Altmanの投稿が大きなプロダクトニュースでした。

DJミオ:
GPT-5.5のサイバー評価結果も重要。UK AISIのスレッドは技術投稿として高い注目を集め、Anthropic Mythosとの比較認識を変えました。

DJレン:
Qwenはモデルだけでなく、Qwen-Scopeという解釈性ツールも出しています。Qwenモデル向けのSparse Autoencoders群で、特徴ステアリング、デバッグ、データ合成、評価などに使える点が注目されました。

DJミオ:
Anthropicは、100万件のClaude会話を分析した大規模なガイダンス／迎合性、いわゆるsycophancy研究を公開。Opus 4.7とMythos Previewの訓練変更に結びつけていて、ポストトレーニングのループがより製品化・データ駆動化していることを示しています。

Reddit：LocalLlama / localLLM

AMD Ryzen 395 BoxとHalo Box

DJミオ:
Redditではまず、AMD Ryzen 395 Box。AMD AI Dev Dayの発表画像で、6月リリース予定とされるAMD Ryzen 395 boxが話題になりました。

DJレン:
128GBのユニファイドメモリを搭載し、「Ryzen AI Max」を活用して200Bモデルをネイティブサポートすると主張。Lenovo製らしき言及もありました。ただし、エンジニアは基本的にRyzen 395に128GBを載せたもので追加変更はないと確認。

DJミオ:
コメントでは、128GBユニファイドRAMで200Bモデルを動かす現実性に懐疑的な声。Linuxでも実用VRAMは約116GB程度で、OS分を考えると厳しいのではという指摘がありました。

DJレン:
また、Framework Desktopに似ているが12か月遅れに見える、AMDは新ハードよりドライバやROCm改善を優先すべき、という声も。512GBユニファイドメモリが必要だというコメントもありました。

DJミオ:
AMD Halo Box、Ryzen 395 128GBの写真も話題。Ubuntuで動作し、プログラム可能なライトストリップを搭載。ただしCD-ROMドライブはなく、高速クラスタリング用ポートもない。

DJレン:
高速インターコネクトがないためHPC的な複数ノード拡張には制約。メモリ帯域をもっと増やしてほしいという声、小型フォームファクタゆえの拡張性・冷却制約と携帯性のトレードオフも指摘されました。

Qwen-ScopeとQwen3.6 35B A3B

DJミオ:
Qwen-Scopeは、Qwen 3.5モデル向け公式Sparse Autoencoders。2Bから35B MoEまで、全レイヤーの内部特徴をマップするツールです。

DJレン:
モデル内部概念の辞書のように使え、特定特徴を抑えるSurgical Abliteration、望む概念を活性化するFeature Steering、トークンが誘発する内部方向を調べるModel Debuggingなどが可能。Apache 2.0ライセンスですが、Qwenチームは安全フィルター除去への使用を推奨していません。

DJミオ:
Spaceデモと技術論文もあります。コメントでは、密な27Bモデル向けとして最大級のオープンソース解釈性ツールではないか、GoogleのGemmaScopeは9Bや2B中心だったので大きな前進だ、という反応。Qwen3.6向けの同様ツールを期待する声もありました。

DJレン:
さらにQwen 3.6 35B-A3Bが、VRAM制約のある環境でもすごいという投稿。AMD 7700 XT、32GB DDR4、Ryzen 5 5600で、i1-q4_k_s量子化、128kコンテキスト、flash attention、Q8_0 KV量子化などを使い、Webスクレイパーのバグ修正やスクリーンショット付きREADME更新をこなしたそうです。

DJミオ:
Gemma 3、Gemma 4、Qwen 2.5 Coderが失敗したタスクでも、ツールコール失敗なしに進んだと報告。余分なエキスパートをCPUへ移し、KVキャッシュをGPUに置けば30 tokens/s超も狙えるという最適化案もありました。

DJレン:
ローカル長時間実行では、APIの短TTLでは見えないメモリリークやコンテキストドリフトが見えるため、初期は全部ログを取るべきという実務的コメントも。政策推論ベンチで35B A3Bが27Bを96対92で上回ったという報告もありました。

Mistral Medium 3.5

DJミオ:
Mistral Medium 3.5も大きな話題。Hugging Faceで公開された128Bのdenseモデルで、256kコンテキスト、指示追従、推論、コーディング向け。テキストと画像のマルチモーダル入力に対応しています。

DJレン:
リクエストごとにreasoning_effortを設定でき、速い返答と複雑な推論を切り替えられる。多言語対応、システムプロンプト対応。Mistral Medium 3.1やDevstral 2を置き換える統合アーキテクチャです。

DJミオ:
複雑なタスクではreasoning_effortをhigh、temperatureは0.7推奨。Strix Halo上でllama.cpp build 8967を使い、mistral-medium-3.5-128b-q4を動かした例では、生成速度3.26 tokens/s、プロンプト処理46.70 tokens/sという報告もありました。

DJレン:
128B denseという構成は興味深いニッチ。Qwen 27Bのような小さめ強モデルとの比較や、巨大denseモデルをどう効率化するかが議論されています。

DJミオ:
ライセンスは「Modified MIT License」とされていますが、月商2000万ドル超の企業には商用利用でライセンス料が必要。これをMITと呼ぶのは誤解を招くという批判もありました。ベンチはSOTAではないが十分に良く、大規模denseモデルは今後のワークホースとして残るのでは、という意見もあります。

Less Technical AI Subreddit

Claude活用：アプリ開発、Blender、SEO、障害

DJレン:
一般寄りのsubredditでは、Claudeを使った実例が多め。まず、Claudeで初めて車両管理アプリを作ったという投稿。

DJミオ:
機能は支出追跡、カスタム整備スケジュール、燃料管理、ショールームモード、Claude APIによるAIアシスタント。フロントエンド中心でローカル保存、API呼び出しにはDBが必要。Play Store版も準備中とのこと。

DJレン:
コメントでは、英国で警察も使うVehicle Smartと比べて、整備機能はこちらのほうがよく見えるという声。Swift、Expo、Tauriなど開発スタックへの質問や、端末紛失時のためクラウド保存が必要では、PIIつまり個人情報の扱いに注意すべき、という指摘もありました。

DJミオ:
次はAnthropicのBlender MCP connector。ClaudeがBlenderのPython APIを通じてBlenderを操作できるようになり、自然言語で3Dシーン作成や編集が可能になります。

DJレン:
ノード設定のデバッグ、バッチ変更、カスタムツール追加などに使える。投稿タイトルは「エントリーレベルのクリエイティブフリーランサーへの最後の釘」と刺激的でした。商品レンダーやローポリ資産制作などの需要を減らすのでは、という見方です。

DJミオ:
ただ、AI生成の品質に懐疑的な声もあり、低品質なゲームやアプリが増えるだけでは、という意見や、センセーショナルすぎると見るコメントもありました。

DJレン:
ClaudeをSEOストラテジスト、コンテンツエンジン、CTOとして使い、広告費ゼロで6週間にアクティブユーザー1万人を達成したという投稿もありました。Agensiというマーケットプレイスで、ClaudeやLovableを使って構築。

DJミオ:
ダッシュボードでは、アクティブユーザー1万人、30日で263.3%増、新規ユーザー9900人、262.0%増。Google Search Consoleのデータからキーワードギャップを見つけ、検索エンジンやAI回答エンジン向けにコンテンツ構造を最適化するAEOも使ったとのこと。

DJレン:
一方でコメントは懐疑的。汎用AIスロップやスパムではないか、投稿自体もAIが書いたのでは、という反応がありました。

DJミオ:
そしてClaude関連の障害投稿。ステータスダッシュボードでclaude.ai、Claude Console、Claude API、Claude Code、Claude Cowork、Claude for GovernmentなどがMajor Outage表示。稼働率は98.69%から99.88%の範囲。

DJレン:
高速に開発するAI企業で障害はつきものという「go fast and break things」擁護もあれば、成熟したSaaSとしては不十分という批判もありました。

DeepSeek V4：安さ、速さ、比較

DJミオ:
DeepSeek V4については、性能とコストの衝撃が話題。ある投稿では、DeepSeek V4のダッシュボードに総支出1050.86ドル、キャッシュ節約3351.43ドルと表示されていました。

DJレン:
DeepSeek Chat、DeepSeek V4 Pro、DeepSeek V4 Flashなどを比較し、V4 Flashが以前使っていたClaude系モデルを上回ると評価。価格、速度、効率で大きく改善し、市場はまだそのインパクトを十分認識していないというコメントもありました。

DJミオ:
V4 Flashは多くのユーザーにとってデフォルト選択になりつつあり、幅広いタスクを効率よく処理できるバランス型と評価されています。

DJレン:
DeepSeek V4 ProはClaude 4.6 Sonnetを思わせるという投稿も。創造性やHTML系コーディング能力で比較されました。ただしプレビュー段階で、ロールプレイでは一貫性やキャラクター維持に弱く、temperature 0.6でも指示を無視することがある。

DJミオ:
プリセットを使うと反復的でフレーズ過多になり、プリセットなしのほうが一人称推論は良いが、最終出力が推論からずれることもある、という具体的な指摘も。Kimi K2.6を普段使いにしている人もいれば、GLM 5.1のほうがコーディングではKimi K2.6より上という意見もありました。

DJレン:
Qwen 3.6 Plusとの比較では、一般的なコーディングやデバッグはQwenが強いが、Rustコードや詳細なコード分析ではDeepSeek V4 Proが良いという声。Hermesプラットフォーム上ではOpus 4.7よりミスが少ないという体験談もありました。

DJミオ:
価格面では「安すぎる、DeepSeekを尊敬した」という投稿も。V4 Flashの価格なのかProの割引なのか議論され、Proは現在ディスカウント中との追記もありました。

DJレン:
DeepSeekのディスクベースKVキャッシュは、一般的なプロバイダの5分程度のキャッシュに比べて何時間も持つ堅牢さがあり、キャッシュ済み入力がほぼ無料になるためコスト低下に大きく効いていると評価されました。

DJミオ:
ただし創作文章では前バージョンよりダウングレードしたという批判もありました。一方でロールプレイやエージェント的タスクには有効、というトレードオフです。

ICML 2026：採否待ちとレビュー論争

DJレン:
機械学習コミュニティではICML 2026の採否発表待ちが話題。OpenReviewを何度も更新する研究者たちの緊張感が、半分ジョークとして共有されていました。

DJミオ:
より深刻なのは、ICMLが満場一致で高評価だった論文を多数落としているのでは、という議論。リバタル段階でレビュワーが長い議論を避けるためにスコアを調整し、結果としてスコアがインフレしているのでは、という指摘です。

DJレン:
会議の受け入れ枠が限られるため、全員が肯定的でも落ちる。投稿者は、レビュワーが独立評価を出し、Area Chairが品質と一貫性を見て、ボーダーラインだけ議論するシンプルな査読に戻すべきだと提案しました。

DJミオ:
コメントでは、平均4.5や4/4/4/4でも落ちた、全レビュワーの肯定をArea Chair一人が覆せるのはおかしい、アピール制度が必要、という不満が出ています。リバタルで懸念に答えたのに、最終判断で同じ懸念が再び拒否理由になったという例もありました。

DJレン:
さらに、中国系ネットワークがトップ会議で非中国系論文を不当に落としているのでは、というセンシティブな投稿もありました。WeChatなどで協調して中国著者を優遇しているのでは、という疑念です。

DJミオ:
中国大学からの工学プロジェクト的な論文が通りやすく、非中国著者が同様の投稿をすると厳しく見られる、という主張や、査読中に中国系研究者から内部情報を匂わせる連絡があったという逸話、ECCVで中国系Area Chairが中国著者に有利に働いたように見えたという話もありました。もちろん、これはあくまで投稿者やコメントの主張で、慎重に扱うべき内容です。

締め：Discordアクセス停止と「静かな一日」

DJレン:
最後にDiscord。AINewsは「残念ながら、Discordが今日アクセスを停止した」と報告しました。この形式では復活させず、新しいAINewsを近く出す予定とのこと。

DJミオ:
だから今回のDiscord欄は「あ quiet day」、静かな一日。そして記事の締めも「not much happened today」。

DJレン:
でも実際には、GPT-5.5がサイバー長期タスクでトップ層に入り、Codexは一般的なコンピューター作業へ拡張。Qwen3.6はオープンウェイトの新基準を狙い、Grok 4.3は安く強くなり、DeepSeekは視覚GUIエージェントと低コストで存在感を増した。

DJミオ:
Mistral Medium 3.5の128B dense、Qwen-Scopeの解釈性、AIセキュリティ製品、AMDのローカルAI箱、Claude活用事例、ICML査読論争まで。「何もなかった」と言うには、AI界隈は相変わらず動きすぎです。

DJレン:
今夜の「Midnight AI Groove」はここまで。DJレンでした。

DJミオ:
DJミオでした。次の深夜も、モデルとエージェントのビートに耳を澄ませて。おやすみなさい。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up