今日の話題
- フロンティアモデルを誰に公開するかを政府が左右する構図が、相次いで表面化した。OpenAIはGPT-5.6を一部のパートナー限定のプレビューとして出し、Anthropicは輸出管理で止まっていたMythos 5の提供を、重要インフラを担う一部の米組織に再開した。
- エージェントやコーディングの実力を測るベンチマークが相次いだ。Epoch AIとMETRはプログラムを丸ごと作り直させるMirrorCodeを、XLANG LabはエージェントのOSWorld 2.0を公開し、いずれも現実の長期タスクでは最上位モデルでも苦戦すると示した。
- 研究と基盤づくりの動きも目立った。Unconventional AIは物理計算で画像を生成するUn-0をオープンソースで公開し、Linux FoundationはAIが大量に見つけ出すOSS脆弱性に備える共同プロジェクトAkritesを立ち上げた。
Hot
OpenAIがGPT-5.6シリーズの限定プレビューを開始、米政府の要請で公開範囲を絞る
OpenAIが次期モデルGPT-5.6シリーズの限定プレビューを始めた。最初に出したのは3モデルで、旗艦のSol、性能とコストのバランスを取ったTerra、低コストで高スループットを狙うLunaだ。当初はもっと広く出す予定だったが、米政府の要請を受け、現段階ではCodexとAPIを通じ、少数の信頼できるパートナーにだけ先行提供する。同社は、今後数週間でChatGPTやCodex、API向けに広く使えるよう政府と協議していると説明した。Sam Altman CEOは、能力が大きく上がったモデルほど長いレッドチームの期間を設けるのは理にかなうとしつつ、どの顧客が先にアクセスできるかを政府が決めることには同意できないと述べた。Axiosによれば、先行提供を受けるパートナーは当初およそ20社で、来週にも拡大する見通しだという。
命名も変えた。数字が世代を、Sol・Terra・Lunaが能力の段階を表す。SolはGPT-5.5から大きく伸びた旗艦で、複数のsubagentを並列に動かすultraモードと、より長く考えるmaxの推論強度を新たに備える。TerraはGPT-5.5に近い性能をコスト半分で出し、Lunaは最も安く基本性能をまかなう。API料金は100万トークンあたりで、Solが入力5ドル・出力30ドル、Terraが2.5ドル・15ドル、Lunaが1ドル・6ドルだ。OpenAIによれば、コマンドライン作業を評価するTerminal-Bench 2.1で、Sol Ultraは91.9%、Solは88.8%を記録し、Claude Mythos 5の88.0%やGemini 3.1 Pro Previewの70.7%を上回った。7月にはCerebras上でSolを動かし、最大で毎秒750トークンの生成を目指すという。安全面では、自社の準備フレームワークでサイバー能力を「高」と評価したが、「重大」のしきい値は越えていないとした。
AnthropicがMythos 5の提供を一部再開、重要インフラを担う米組織向けに
Anthropicは、Claude Mythos 5へのアクセスを一部の米組織向けに再開すると発表した。同社は6月12日以降、Mythos 5とFable 5の提供再開に向けて米政府と協議してきた。今回、政府からの通知を受け、最も強力なサイバーセキュリティモデルと位置づけるMythos 5を、重要インフラを運用・防御する一部の米組織に再び届けられるようになったという。同社はこうした組織への提供を急ぐとともに、対象を広げるべく政府との協議を続ける。一般向けに止まったままのFable 5についても、再び広く使えるよう調整を進めているとした。両モデルは今月、脆弱性を理由に輸出管理の対象となり、同社が全ユーザーのアクセスを一時停止していた経緯がある。
Source: https://www.anthropic.com/news ; https://x.com/AnthropicAI/status/2070665903440871779
Launch
Unconventional AIが物理計算で画像を生成するモデルUn-0をオープンソースで公開
Unconventional AIが、画像生成モデルUn-0をオープンソースで公開した。モデルの重みに加え、学習とアブレーションのコードもすべて出している。Un-0は、結合振動子(coupled oscillators)の物理系をシミュレートして動かす点が特徴だ。同社によれば、ImageNet 64×64でFID 6.74を記録し、従来型の主要な手法が登場した当初の品質に並んだという。一方で、パラメータを増やしても、後発の高性能な従来モデルにはまだ及ばない。最終的な狙いは、物理計算の基盤を使って現代AIの消費電力を約1000分の1に下げることだとしている。
Source: https://unconv.ai/blog/introducing-un-0-generating-images-with-coupled-oscillators/ ; https://github.com/unconv-ai/Un-0
Research
Epoch AIとMETRが、プログラムを丸ごと作り直させるベンチマークMirrorCodeを公開
Epoch AIがMETRと共同で、長期的なコーディング能力を測るベンチマークMirrorCodeを公開した。元のソースコードを見せず、プログラム全体をゼロから作り直させる課題だ。モデルにはサンドボックス上で、対象プログラムの実行権限とドキュメント、挙動を確かめるテストだけを渡し、隠したケースを含むエンドツーエンドの検証で採点する。題材はUnixユーティリティ、データのシリアライズ、バイオインフォマティクス、インタプリタ、静的解析、暗号、圧縮など25本のプログラムで、6言語・計132問からなる。現時点ではClaude Opus 4.7が56%で首位だ。Epoch AIは25本中22本をオープンソースで公開し、3本は非公開の評価用に残した。題材がオープンソースの再実装のため、学習データへの混入でスコアが実力以上に出る恐れがあるとも指摘している。
Source: https://epoch.ai/MirrorCode ; https://github.com/epoch-research/MirrorCode
XLANG Labがエージェント評価のベンチマークOSWorld 2.0を公開
XLANG Labが、エージェントの実力を測るベンチマークOSWorld 2.0を公開した。論文とコード、データセットをそろえて出している。長期にわたる現実のタスクをどこまでこなせるかに焦点を当て、複数の専門分野にまたがる108件のワークフローを用意した。熟練した人間なら平均1.6時間ほどで終わる内容で、エージェントは平均でおよそ318回のツール呼び出しを要したという。500ステップの制限のもと、最も良い成績を収めたClaude Opus 4.8でも完了率は20.6%、GPT-5.5は13%前後にとどまった。
Source: https://osworld-v2.xlang.ai/ ; https://github.com/xlang-ai/OSWorld-V2
Security
Linux Foundationが、AIが見つけるOSS脆弱性に備える共同プロジェクトAkritesを発足
Linux Foundationが、AIを使ったサイバー脅威からオープンソースを守るプロジェクトAkritesを立ち上げた。AWSやMicrosoft、Googleなど、技術・金融の大手が複数参加する。フロンティアモデルが数分でOSSの欠陥を見つけられるようになり、同じ脆弱性の報告が重複して押し寄せ、メンテナーが対応しきれなくなる問題に対処する。共有のセキュリティインシデント対応チーム(SIRT)と、標準化した単一の協調的脆弱性開示(CVD)の窓口を設ける。情報の扱いはTLP 2.0に従い、修正パッチは元のプロジェクトに還元する。重要な部品にメンテナーがいない場合は、Akritesが最後の受け皿として保守を引き受ける。立ち上げ資金は、Linux Foundation傘下のAlpha-Omega基金が拠出する。
Source: https://www.linuxfoundation.org/press/linux-foundation-and-industry-leaders-launch-akrites-to-defend-critical-open-source-software-against-ai-enabled-cyber-threats ; https://akrites.org/