ニュース
1. SpaceXがCursor開発元Anysphereの買収を発表した
SpaceXが、Cursorを開発するAnysphereの買収を発表した。広く使われているコーディングエージェントの一つが大手の傘下に入ることになり、開発ツールの勢力図に影響しうる。
2. AlphaFoldのJohn JumperがDeepMindを離れAnthropicへ
ノーベル化学賞を受賞しAlphaFoldを率いたJohn Jumperが、約9年在籍したGoogle DeepMindを離れ、休養を経てAnthropicへ加わる計画を明らかにした。Transformer共著者Noam ShazeerのOpenAI移籍に続く動きで、第一線の人材の流動と、AnthropicのAI for science路線を象徴している。
Source: https://www.cnbc.com/2026/06/19/john-jumper-to-leave-google-deepmind-for-anthropic.html
3. エージェントのデプロイと接続の基盤が出そろい始めた
CloudflareのTemporary Accountsは、エージェントが事前登録なしにWorkerをデプロイし、あとから人間が正式アカウントへ引き継げる仕組みを提供した。VercelのConnectは、長期間有効なシークレットを保持せずに、スコープを絞った短期トークンで外部サービスへ接続する仕組みをパブリックベータで公開した。いずれも、本番でエージェントを動かすときの登録・認証・秘密管理の摩擦を減らす方向だ。
Source: https://blog.cloudflare.com/temporary-accounts/
Source: https://vercel.com/changelog/vercel-connect-secure-access-to-external-services-for-your-agents
4. エージェントの評価とセキュリティが一気に前進した
ServiceNowとHugging FaceのMosaicLeaksはdeep researchエージェントの情報漏えいを、Cloudflareの脆弱性探索ハーネスはコードの脆弱性発見を、Artificial AnalysisのAA-Briefcaseは数週間にわたるプロジェクトでの知識労働を、それぞれ測る取り組みだ。エージェントを本番投入する前提となる「測り方」と「守り方」が、同じ週に揃って具体化した。
Source: https://huggingface.co/blog/ServiceNow/mosaicleaks
Source: https://blog.cloudflare.com/build-your-own-vulnerability-harness/
Source: https://artificialanalysis.ai/articles/aa-briefcase
5. オープンウェイトのコーディングモデルが充実した
Z.aiのGLM-5.2(MITライセンス、1Mコンテキスト)と、PoolsideのLaguna M.1(Apache 2.0、総パラメータ225B・アクティブ23BのMoE)が公開された。いずれも長時間のコーディングエージェントを自前で動かす選択肢で、クローズドなフロンティアモデルに依存しない構成を取りやすくなっている。
Source: https://docs.bigmodel.cn/cn/guide/models/text/glm-5.2
Source: https://poolside.ai/blog/laguna-a-deeper-dive
注目リポジトリ
chopratejas/headroom — ⭐ 約43k・Python
ツール出力・ログ・RAGチャンク・ファイルをLLMに渡す前に圧縮し、トークンを60〜95%削減するという「エージェントのコンテキスト圧縮層」。ライブラリ/プロキシ/MCPとして使え、圧縮は可逆だという。エージェントのコンテキスト肥大に直接効く。6月16日にv0.26.0が出ている。
NVIDIA/SkillSpector — ⭐ 約8.9k・Python
エージェントの「スキル」をインストール前にスキャンし、脆弱性や悪意あるパターンを検出するセキュリティスキャナ。64パターン・16カテゴリを、静的解析と(任意で有効化できる)LLM判定でチェックする。付随する調査では、26.1%のスキルに脆弱性、5.2%に悪意の疑いがあったとしている。
DeusData/codebase-memory-mcp — ⭐ 約9.9k・C
コードベースを永続的なナレッジグラフとしてインデックス化し、158言語に対応した構造解析をコーディングエージェントに提供するMCPサーバ。ファイル総当たりの探索を避け、コンテキストを節約しながらコードベース全体を把握できる。
論文ピックアップ
SABER:ステートフルなプロジェクト環境で、コーディングエージェントの「運用上の安全性」を測る
コーディングエージェントの安全性は、単発の応答ではなく、ファイル編集やコマンド実行といった一連の操作の結果として現れる。SABERは、拒否したかどうかではなく、操作を終えた後の最終的な環境状態で安全性を評価するベンチマークだ。安全違反を二値で判定するのではなく、原因のタイプ別に分類し、モデルごとの安全プロファイルを描く。報告では、最も成績の良いモデルでも有害な安全違反率(HSR)が54%を超え、現状のアラインメントは現実のプロジェクト環境には不十分だとしている。今週のMosaicLeaksやSkillSpectorと同じく、「エージェントを本番で安全に動かす」ための評価軸を示す研究だ。
来週のWatchlist
- Gemini 3.5 Proの一般提供(6月予定とされるが、現時点では未提供)。
- エージェントの評価・セキュリティ系のツールやベンチマークがさらに増えるか。
- オープンウェイトのコーディングモデルの実運用フィードバック。
元記事(サイト): https://prnszz.github.io/AI-daily-news/weekly/2026-w25/




