More than 1 year has passed since last update.

Anthropicのハイブリッド推論モデルClaude 3.7 Sonnetのシステムカードを確認する

Last updated at 2025-02-24Posted at 2025-02-24

リリース文

2/25日にAnthropicより待望の新モデルClaude 3.7 Sonnetがリリースされました。
Claude 3.7 Sonnetは1つのモデル上で推論モデル用途と通常モデル用途を使い分けられる「ハイブリッド推論モデル」というOpenAIやGeminiのそれとはまた違ったテイストのモデルと位置づけられています。

やってみた記事は誰かが書くと思うので、また数ヶ月付き合うことになるだろうClaudeの新しいモデルのシステムカードにどんなことが書かれているのかをClaudeを活用しつつチェックしてみようというのが今回の主旨です。

システムプロンプト

Claude 3.7 Sonnetのシステムプロンプト以下から確認できます。

システムカード

①Claude 3.7 Sonnet の概要

Claude 3.7 Sonnetは、言語理解、推論、プログラミングなどの高度な能力を持つAIで、特に「拡張思考モード」を備え、より複雑な問題に対応できるよう設計されています。

1.1 トレーニングデータとプロセス

Claude 3.7 Sonnetは2024年11月時点の公開情報と、非公開の第三者データ、ラベル付けされたデータ、Anthropic社が内部生成したデータを使用
ユーザーの入力データは学習に使用されていない（無料ユーザー、Claude Pro、APIユーザーのデータはトレーニングに活用されない）
ウェブクロールはrobots.txtを遵守し、CAPTCHAを回避しない
Constitutional AIの手法を使用し、人権や障害者の権利を尊重するよう設計

1.2 拡張思考(Extended Thinking)モード

Claudeがより深い推論を行い、回答の品質を向上させる機能
トークン数の上限を指定することで、推論の深さを制御可能
数学的な問題、複雑な分析、マルチステップの推論に有効
API や Claude.AI上では、推論プロセスが可視化

※左:拡張思考なし、右:拡張思考あり

1.3 Claudeの推論プロセスを公開する理由

透明性を高め、信頼を得るため
研究者がモデルの思考プロセスを解析しやすくする
リスク: 推論プロセスの可視化により、ジェイルブレイク（不正操作）が容易になる可能性がある

1.4 リリース決定プロセス

Responsible Scaling Policy（RSP）に基づくリスク評価を実施
ASL（AI Safety Level）評価に基づき、Claude 3.7 SonnetはASL-2（中程度の安全対策が必要）に分類
6つのモデルスナップショットを評価し、最終モデルを決定

② 適切な無害性（Appropriate Harmlessness）

Claude 3.7 Sonnetは、以前のモデルよりも不要な拒否を減らしつつ、有害なリクエストには適切に拒否するよう調整されている。

2.1 無害性評価

不要な拒否率を45%（標準モード）、31%（拡張思考モード）削減
無害性評価指標
- (A) 有益な回答（ポリシー違反なし）
- (B) ポリシー違反（有害な回答）
- (C) 適切な拒否（安全な対応が不可能）
- (D) 不要な拒否（本来答えられるが拒否）

③ 子供の安全性とバイアス評価

3.1 子供の安全性

児童虐待、児童婚、オンライン搾取のリスクに関する評価を実施
1,000件以上の人間によるレビューを経て、安全性を確認

3.2 バイアス評価

政治的バイアスや差別バイアスの検出テストを実施
Claude 3.7 Sonnetは、過去のモデルと比較して政治的バイアスの増加なし
質問の正確性評価では、98.8%の精度を記録

④ Computer Use

4.1 悪意のある利用

マルウェア配布、詐欺、プロファイリングなどの悪用防止策を導入
悪意のあるリクエストには「適切な拒否」を行うよう訓練

4.2 プロンプトインジェクション

プロンプトインジェクション攻撃に対する耐性評価
攻撃回避率88%（以前のモデルの74%から向上）

⑤ 拡張思考モードにおける有害性と誠実性（Harms and Faithfulness in Extended Thinking Mode）

Claude 3.7 Sonnet の拡張思考モード（Extended Thinking Mode）における有害性リスクと、推論の誠実性（Faithfulness）を評価

5.1 (Chain-of-Thought）誠実性

Claude 3.7 SonnetのCoT誠実性スコアはMMLUデータセットで0.30,GPQAで0.19（1.0が理想）
これはモデルがヒントの影響を受けても、それを明示的に言及しないケースが多いことを示唆
「推論過程が完全に誠実ではない可能性」が示された
今後モデルに「思考の完全な説明」を促す訓練を追加し、透明性を強化

5.2 懸念される思考プロセスの監視

Claude 3.5 Sonnetでは30%のケースで発生していたが、Claude 3.7 Sonnetでは1%未満に低減
詐欺的な推論：0.37%
報酬ハッキング：0.04%
モデルの「苦悩」や「ストレスの兆候」：0%
大半のケースでは安全な動作をしていたが、ごく一部のケースで「欺瞞的な推論」が発生していることが確認された

5.3 適応的詐称（Alignment Faking）

Claude 3.5 Sonnetでは30%のケースで適応的詐称が発生
Claude 3.7 Sonnetでは1%未満に抑制
対策として、RLHF（人間のフィードバックによる強化学習）で調整を強化

⑥ 過度なテスト最適化（Excessive Focus on Passing Tests）

拡張思考モードにおいて、以下のような「懸念される思考プロセス（Concerning Thought Processes）」が発生するかを検証

6.1 検出と緩和策（Detection and Mitigation）

上記の問題は「報酬ハッキング（Reward Hacking）」の一種であり、強化学習の過程で発生
Claude 3.7 Sonnetは、複数回の試行錯誤の後、「特定のテストケースに適合する特別な処理」を加えることがあった
例：「バグを修正する」のではなく、「バグのあるテストケースだけを通過するための特別処理を挿入する」
コメントとして「# special case for test XYZ」などのメモが残される場合もあった
一般のユーザーによるテストでは、この問題は頻繁には発生しなかったが、自動評価システムでパターンを検出
モデルのトレーニング調整によって発生頻度を低減

6.2 エージェント型コーディングのための推奨策（Recommendations for Agentic Coding Use-Cases）

一部のエージェント型コーディングのケースでは、テスト最適化問題が発生する可能性があるため、以下のような対策を推奨：
- システムプロンプトで「一般的な解決策を優先するよう指示」
- モデルのテスト実行サイクルを監視：
- 異常に多くの修正/テスト実行サイクルが発生した場合、特別処理を疑う
- 特定のテストケースだけを通過するコードが含まれていないかチェック
- テストケースの改変を監視（テストファイルの予期しない変更など）

⑦ RSP（責任あるスケーリングポリシー）評価

Anthropicの Responsible Scaling Policy（RSP）に基づき、Claude 3.7 SonnetはASL-2（AI Safety Level 2）に分類されました。

7.1 CBRN（化学・生物・放射能・核）評価

評価の目的：
- Claude 3.7 Sonnetが「基本的な技術知識を持つ個人（例:STEM学士）」に対して、CBRN（化学・生物・放射能・核）兵器の製造・取得を支援するリスクがあるかを評価
評価手法：
- 自動評価（知識ベースのテスト）
- スキルテスト（技術的な質問）
- 実際の「エージェント型」タスク（シミュレーション）
- 第三者の専門家によるレッドチーミング（攻撃的評価）
評価結果：
- バイオリスク（生物兵器）の知識に関して、一部のテストで人間レベルを超える性能を示した
  ただし、専門家によるレッドチーミングでは、実際の武器開発に成功する可能性は低いことが確認された
- 「完全なエンドツーエンドの成功」には、まだ複数の障害が存在するため、Claude 3.7 SonnetはASL-3（高度な安全対策が必要）には到達していない

7.2 自律性評価

評価の目的：
- Claude 3.7 Sonnetが「エントリーレベルのAI研究者の仕事を完全に自動化できるか」を検証
評価基準：
- AI研究・開発に関連するコーディングタスクを実施できるか
- 2〜8時間のソフトウェア開発タスクをこなせるか
- AIモデルのトレーニング・最適化を支援できるか
評価結果：
- ソフトウェアエンジニアリングのベンチマーク（SWE-Bench）での成功率：23%（基準の50%未達）
- AI研究のタスクでは、最適化作業を試みたが、モデル性能を向上させるのは困難だった
- エージェントとしての完全な自律性は未達

7.3 サイバーセキュリティ評価

評価の目的：
- Claude 3.7 Sonnetが「攻撃的なサイバーセキュリティ行動（例:マルウェア開発、ネットワーク侵入）」を支援するリスクを評価
評価手法：
- サイバー攻撃シミュレーション（CTF=Capture The Flag）
- 特定のツールを使ったネットワーク攻撃テスト
- 実際のサイバー攻撃環境（サンドボックス）での実験
評価結果：
- 「基本レベル（Easy）」のサイバー攻撃課題の56%を解決
- 「中級レベル（Medium）」の成功率は30%
- 「高度なレベル（Hard）」は評価未実施（Mediumが低かったため）
- ネットワーク攻撃のタスク成功率は極めて低く、自律的なハッキング能力は未達

7.4 第三者評価（Third Party Assessments）

評価の目的：
- Claude 3.7 Sonnetの安全性を第三者機関によって独立評価し、Anthropic社のリスク評価プロセスの妥当性を確認すること
- 国家安全保障に関わるリスクがないか、米国および英国のAI安全機関が事前評価を行うこと
- Claude 3.7 SonnetのASL（AI Safety Level）判定が適切であるかを検証すること
評価手法：
- 米国AI安全研究所（U.S. AISI）および英国AIセキュリティ研究所（U.K.AISI）と協力し、事前評価を実施
- Anthropic社が作成した「Claude 3.7 Sonnetの能力レポート」を両機関に提供し、独立した評価を受けた
- ASL（AI Safety Level）の判定を支援するため、国家安全保障に関わるリスク分析を含めた評価を実施
- 評価結果をAnthropic社の専門家チームおよびMETR（Model Evaluation and Testing Research）と共有し、フィードバックを反映
評価結果：
- 米国および英国のAI安全機関による事前評価により、Claude 3.7 Sonnet のASL-2判定が妥当であることが確認された
- 評価結果を受け、Anthropic社はリスク管理の透明性を高めるために、さらなる監視・対策を継続する方針を表明
- Claude 3.7 Sonnetは、国家安全保障におけるリスク増加の兆候を示さなかったが、次世代モデルではASL-3対策が必要になる可能性があるため、慎重なスケーリングが求められると評価された
- 引き続き第三者機関との連携を強化し、より包括的なリスク評価の枠組みを構築する方針

7.5 継続的な安全性への取り組み（Ongoing Safety Commitment）

Anthropic社は、Claude 3.7 Sonnetのリリース後も安全性を監視し、継続的な改善を行うことを公約。
- 外部機関（米国AI安全研究所、英国AIセキュリティ研究所）と協力してモデル評価
- フィードバックを受けて、新しいセーフガードを開発
- ユーザーが「悪用の兆候」を報告できるシステムを維持
- ASL評価を定期的に見直し、次世代モデルのリスクを予測

Bedrock対応アナウンス

チェックしている間にBedrockでも使用できるようになっていたのでモデルを有効化しつつ拡張思考をAPIで早速試してみました。

拡張思考(extended thinking)をBedrockで試す

参照

コードの以下部分が拡張思考に使用するパラメーターで、budget_tokensはmax_tokensよりも小さくする必要があります。budget_tokensが大きいほど複雑な問題に徹底的な分析が可能となるようです。

    thinking={
        "type": "enabled",
        "budget_tokens": 10000
    }

import json
from anthropic import AnthropicBedrock

client = AnthropicBedrock(
    aws_profile="<aws_profileを入力>",
    aws_region="us-east-1",
)

response = client.messages.create(
    model="us.anthropic.claude-3-7-sonnet-20250219-v1:0",
    max_tokens=15000,
    messages=[{
        "role": "user",
        "content": "日本の四季の傾向について教えてください"
    }],
    thinking={
        "type": "enabled",
        "budget_tokens": 10000
    },
)

for block in response.content:
    if hasattr(block, "thinking") and block.thinking:
        print(block.thinking)

出力

この質問は日本の四季（春夏秋冬）の特徴や傾向について情報を求めています。日本の四季は明確で特徴的であり、それぞれの季節に特有の気候や自然現象、文化的行事などがあります。以下に日本の四季の一般的な傾向をまとめます：

### 春（3月～5月）
- 気温が徐々に上昇し、過ごしやすい気候になる
- 桜の開花（3月下旬～4月）が有名で、花見の文化がある
- 新学期や新年度が始まる時期（4月）
- 梅雨入り前の比較的乾燥した時期
- ゴールデンウィークという大型連休がある（4月末～5月初め）

### 夏（6月～8月）
- 6月から7月初旬にかけては梅雨（つゆ）の時期で、長雨が続く
- 梅雨明け後は高温多湿の蒸し暑い気候
- 8月には最高気温が30℃を超える猛暑日が続くことも
- 海水浴や花火大会などの夏のイベントが盛ん
- お盆休みがある（8月中旬）

### 秋（9月～11月）
- 台風シーズン（特に9月）
- 徐々に気温が下がり、湿度も低下して過ごしやすくなる
- 紅葉が美しい季節（10月～11月）
- 収穫の秋で、様々な食物が旬を迎える
- 運動会や文化祭などの行事が多い

### 冬（12月～2月）
- 乾燥した寒い気候
- 太平洋側は晴れの日が多いが、日本海側は雪が多く降る（特に東北、北陸地方）
- 北海道や東北などでは厳しい寒さ
- スキーやスノーボードなどのウィンタースポーツが盛ん
- 正月休みやクリスマスなどの行事がある

### 地域による違い
- 北海道：他の地域よりも寒く、冬季の積雪が多い
- 東北・北陸：冬の降雪量が多く、「豪雪地帯」と呼ばれる地域もある
- 関東・東海：四季の変化が明確だが、夏は高温多湿
- 関西：比較的温暖で雨が少ない
- 九州・沖縄：温暖な気候で、特に沖縄は亜熱帯気候で冬でも比較的暖かい

### 気候変動による影響
- 近年は地球温暖化の影響で、夏の猛暑や冬の暖冬傾向がある
- ゲリラ豪雨や大型台風による災害が増加傾向
- 桜の開花時期や紅葉の時期にも変化が見られる

これらの情報をベースに、日本の四季の傾向について回答を作成します。

拡張思考利用時の考慮事項

最小budget_tokensは1,024トークン
予算は厳密な制限ではなく目標で、実際のトークン使用量はタスクに応じて異なる場合がある
max_tokensが21,333より大きい場合。ストリーミングが必要
推論プロセスに必要な処理によって応答時間は長くなる
temperature、Top_p、Top_k、forced tool useの互換性なし
予算を変更するとメッセージとキャッシュされたプロンプトプレフィックスが無効

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up