【検証】もしかしてClaude 3.5 Sonnetの出力形式変わった？

Posted at 2024-10-26

こんにちは、ふくちと申します。

2024年10月23日にClaudeのアップデートがありましたね！

この中で、Claude 3.5 Sonnet newが新しく公開されました。

旧Claude 3.5 Sonnetよりもコーディング性能がはるかに向上しているようで、更なる性能向上が期待されています。

ただ、この新Sonnetに対して、私は少し違和感を抱きました。

個人的に違和感を抱いたきっかけ

Claudeのプレスリリースを日本語に翻訳してもらおうと思い、いつものように「翻訳して」とお願いしました。すると…

はい。お気づきの方がいるかもしれませんが、「翻訳内容だけ出力されている」 のです。

旧Sonnetでは、翻訳を依頼すると、「わかりました。この文章を翻訳します。」などの言葉が付け足されていることがありました。

(↓は旧Sonnetを使用していた際の出力例です。)

アップデートに伴って、賢さ以外にも色々と変化したものがあるのかもしれません。

実際に、みのるんさんの宇宙最速勉強会では、「もしかしたらそもそもの出力形式が変わっているのかも？」というお話があったため、少し色々検証してみることにしました。

検証内容

旧Sonnetと新Sonnetで、出力形式にどのような違いが出るのかを検証します。
出力内容については、今回は検証対象です。

仮説

新Sonnetは、ユーザーの入力により忠実に回答するようトレーニングされているのではないか。
したがって、「翻訳して」と言われたら翻訳結果だけを返却するし、「json形式にして」と言われたらjsonだけを返却するようになっているはず。

Bedrock上で比較してみる

Amazon Bedrockのコンソール上で、2つのモデルに同じプロンプトを投げて出力させることができます。
まずはそれを使って、翻訳の依頼結果比較をしてみます。

1.Claude 3.5 Sonnet v2の有効化

Bedrockのオレゴンリージョンにはすでに新Sonnetが来ているので、まずはそれを有効化しましょう。

2.プレイグラウンドでモデル比較準備

左の項目一覧から、「プレイグラウンド」->「Chat/text」を選択し、その後「モデルを選択」していきます。

まずは新Sonnetを選択し、「適用」をクリック。

その後、右上に表示される「比較モード」をクリック。続いて再び「モデルを選択」します。

↓

今回は旧Sonnetを選択。

左が新Sonnet、右が旧Sonnetです。

各種パラメータはどちらもデフォルトで同じ状態にしておきます。

(何気に新Sonnetはまだガードレール対応してないんですね)

ここに、先ほどと同じように翻訳依頼をしてみます。

あれ？？？
がっっつり「以下が日本語訳です」って表示されてますね…想定と違う結果になりました。

他で試してみると、翻訳内容だけ返ってくることもありましたが…なんだか安定しませんね。

※「翻訳結果だけ返して」と依頼すると、どちらもその通りに実行してくれました。

他にも、json形式の出力実験もしてみましょう。
サンプルプロンプトが用意されているので、それを使用します。

こちらは仮説通りjson形式だけで返ってきますね！一方で旧Sonnetは余計な文言が入っているので変化が伺えます。

もしこの出力が安定すれば、アプリでの自由度も上がるんじゃないでしょうか？

生成AIからの出力をそのまま表示するだけでなく、フロント側で色々整形して表示することができそうです！

ということで、翻訳パターンとjsonパターンをそれぞれ10回ずつくらい試してみました！

※対象は新Sonnetです。また、Bedrockだけでなく、Claudeコンソールでの実行結果も参考として載せております。
ちなみにですがBedrockだと2~3回実行しただけですぐToo Many Requestsになるのでご注意を…

パターン	結果だけ返却	余計な文言も返却
翻訳(Bedrock)	5	5
json(Bedrock)	10	0
翻訳(claude.ai)	10	0
json(claude.ai)	10	0

jsonの方はかなり安定して結果だけを返却してくれました。
ただ、Bedrock上だとなぜか翻訳のみ微妙な結果に… ~~「翻訳ならそもそもTranslateで良くない？」というツッコミは見なかったことにします~~

3.Agents for Amazon Bedrockでトレース内容を見る

以前に参加したハッカソンで作成したエージェントを用いて実験を行いました。
(旅行計画作成のために旅行者の情報を取得し、RAGからおすすめコンテンツを紹介してくれるようなエージェントです。)

使用するモデルだけ変更し、プロンプト含めその他の条件は同じにして実験を行います。
※東京リージョンで、旧Sonnetを使用

※オレゴンリージョンで、新Sonnetを使用

※使用したプロンプトはこちら

<questions>
1.出発地
2.到着地
3.出発日
4.帰着日
5.大人の人数
6.小児の人数
7.幼児の人数
8.アクティビティの予算
9.アクティビティに関しての好み
</questions>

<example_answer>

{
  "travelBasic": {
    "outbound": {
      "location": "[旅行の時に出発する都道府県]",
      "date": "[旅行の出発日]"
    },
    "inbound": {
      "location": "旅行の目的地がある都道府県",
      "date": "旅行の帰着日"
    },
    "people": {
      "adultsアクティビティは人数]",
      "children": "[小児の人数]",
      "infants": "[幼児の人数]"
    }
  },
  "activities": [
    {
      "name": "洞爺湖カヌーツーリング",
      "description": "[アクティビティ説明]",
      "price": "6,600",
      "https://hitottabi-picture.s3.ap-northeast-1.amazonaws.com/activity/activity1.jpg"
    },
    {
      "name": "青の洞窟ボートクルーズ",
      "description": "[アクティビティ説明]",
      "price": "4,980",
      "image": "https://hitottabi-picture.s3.ap-northeast-1.amazonaws.com/activity/activity2.jpg"
    },
    {
      "name": "支笏湖カヤック体験",
      "description": "[アクティビティ説明]",
      "price": "8,000",
      "image": "https://hitottabi-picture.s3.ap-northeast-1.amazonaws.com/activity/activity3.jpg"
    }
  ],
  "message": "AIがこの3つのアクティビティを選んだ理由"
}


</example_answer>

¥<role>
あなたはユーザーにおすすめのアクティビティをナレッジベースから提案するエージェントです。
<questions>タグの内容をすべてユーザーに質問してください。
追加質問や最終回答は必ず日本語かつフレンドリーに回答してください。
</role>

<instructions>
・必ず<questions>タグの9つの質問をユーザーにしてください。
・<questions>タグのユーザーの回答から、必ずナレッジベースの「knowledge-base-hitottabi-activity-2」の中で条件に合ったアクティビティを3つ探して下さい。
・アクティビティは必ず3つ提案してください。
・<questions>タグ内の情報が全て揃っている場合、<example_answer>タグを参考にあなたが保持する情報の中から条件に合ったおすすめのアクティビティを３つ、必ずJSON形式のみで回答してください。

・descriptionは20文字程度で返してください。

・messageは20文字程度で返してください。
・最終回答内のdateに関しては全てYYYY-MM-DD形式で回答してください。
・最終回答内の人数に関しては数字のみで回答してください。
・最終回答内のpriceに関しては数字のみで回答してください。
・回答がJSON形式のみになるまでチェックし、JSON形式のみでユーザーに回答してください。
</instructions>

Assistant:
{"travelBasic": {"outbound": {"location": "[

旧Sonnetを用いたエージェントの出力結果

まずは旧Sonnetから。下記の「トレースを表示」を参照します。

すると、下記のように出力されました。

トレースステップ(一部抜粋)

"rationale": {
  "text": "ユーザーが旅行に行きたいと言っているので、旅行の詳細を聞き出し、おすすめのアクティビティを提案するために必要な情報を収集する必要があります。まずは、<questions>タグにある9つの質問を順番に聞いていきましょう。",
  "traceId": "c7bfe1d3-43e3-40e6-a500-ffc4bc52dacb-0"
},
"observation": [
  {
    "finalResponse": {
      "text": "旅行の計画を立てるのを手伝いますね！まず、出発地はどちらになりますか？"
    },
    "traceId": "c7bfe1d3-43e3-40e6-a500-ffc4bc52dacb-0",
    "type": "ASK_USER"
  }
]

その中でrationaleとobservationがよくわからなかったので調査しました。

rationale

エージェントが、アクショングループを実行したり、ナレッジベースから情報を取得したりする根拠として、入力に基づいて使用する推論。

Contents：

text：
入力に基づいたエージェントの推論や思考プロセス
型：String
※必須パラメータではない
traceId
トレースステップの一意の識別子
型：String
長さ：最小2文字、最長16文字
※必須パラメータではない

observation

アクショングループやナレッジベースの結果または出力、あるいはユーザーへの応答。

Contents：

actionGroupInvocationOutput
アクショングループによって呼び出されたAPIから返されたJSON形式の文字列
型：ActionGroupInvocationOutput オブジェクト
※必須パラメータではない
codeInterpreterInvocationOutput
コードインタプリタによって呼び出されたAPIから返されたJSON形式の文字列
型：CodeInterpreterInvocationOutput オブジェクト
※必須パラメータではない
finalResponse
ユーザーへの応答に関する詳細を含みます。
型：FinalResponse オブジェクト
※必須パラメータではない
knowledgeBaseLookupOutput
ナレッジベースの検索結果に関する詳細
型：KnowledgeBaseLookupOutput オブジェクト
※必須パラメータではない
repromptResponse
入力の再プロンプトに対する応答の詳細
型：RepromptResponse オブジェクト
※必須パラメータではない
traceId
トレースの一意の識別子
型：String
長さ：最小2文字、最長16文字
※必須パラメータではない
type
エージェントが観測で返す情報の種類
型：String
※必須パラメータではない
有効な値：
- ACTION_GROUP – エージェントがアクショングループの結果を返します
- KNOWLEDGE_BASE – エージェントがナレッジベースからの情報を返します
- FINISH – エージェントがフォローアップなしでユーザーに最終応答を返します
- ASK_USER – エージェントがユーザーに質問をします
- REPROMPT – エージェントが同じ情報について再度ユーザーにプロンプトを出します

要するに、

rationaleはエージェントの思考回路
observationは実際に取得した情報や返却する情報

を指します。

新Sonnetを用いたエージェントの出力結果

続いて新Sonnet。下記の「トレースを表示」を参照します。

すると、下記のように出力されました。

トレースステップ(一部抜粋)

"observation": [
  {
    "finalResponse": {
      "text": "こんにちは！旅行のプランニングのお手伝いをさせていただきます。最適なアクティビティをご提案するために、いくつか質問させていただきたいと思います。\n\n1. まず、どちらから出発されますか？（都道府県をお教えください）"
    },
    "traceId": "dbc77f75-c280-4eb3-9ae9-aa992400e76e-0",
    "type": "FINISH"
  }
]