1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Claude Fable 5、速報の波が一段落したので要点だけ拾っておく

1
Posted at

6月9日に Claude Fable 5 が出てから、Qiita も Zenn も「速報」「徹底解説」であっという間に埋まった。自分も発表当日に一通り追ったけど、正直どれも似たようなことを書いていて、しかも3日経った今読み返すと半分くらいは情報が古くなっている。特に発表直後に騒がれた「こっそり性能を下げる」話は、その後 Anthropic が方針を撤回したので、初日の記事をそのまま信じると間違える。

なので、いったん落ち着いた今の時点で「これだけ押さえておけば会話についていける」というところを、自分が実際に触った感想込みで整理しておく。全部を網羅するつもりはない。料金表をもう一度貼り直すような記事は、もう十分あるので。

そもそも何が出たのか

Fable 5 は、Anthropic がこれまで一般公開を見送ってきた「Mythos クラス」のフロンティアモデルに、安全用の分類器をかぶせて初めて公開したもの、という位置づけになっている。ざっくり言うと Opus のひとつ上の最上位ティアが新設された、と思えばいい。

Fable 5 Opus 4.8 Sonnet 4.6
入力 $10 / 1M tok $5 / 1M tok $3 / 1M tok
出力 $50 / 1M tok $25 / 1M tok $15 / 1M tok
コンテキスト 1M 1M 1M
最大出力 128K 128K 64K

モデル ID は claude-fable-5。Claude API のほか AWS Bedrock / Vertex AI / Microsoft Foundry / GitHub Copilot でも使える。Claude のサブスクプランでは 6月22日までは追加課金なしで、それ以降は使用クレジット制になる。ここが地味に重要で、「タダのうちに触っておくか」のタイムリミットがもう来ている。

同じモデルから分類器を外した Mythos 5 というのもあるけど、こちらは審査制のパートナー限定(Project Glasswing)なので、普通に開発している分には縁がない。「Fable 5 = 安全装置つきで一般に降りてきた最強モデル」とだけ覚えておけば足りる。

何がそんなにすごいのか(と、すごくないところ)

公式が一番推しているのは性能の高さそのものより、「長時間ほったらかしても破綻しない」という点だ。数百万トークン規模の長いタスクを、途中で迷子にならずに走り切る。コーディング・調査・vision・computer use あたりで現時点トップ、という触れ込みになっている。

ベンチの数字はいろいろ出回っているけど、コミュニティで一番拡散していたのは Every の「シニアエンジニア・ベンチ」で、Fable 5 が 91 点、Opus 4.8 が 63 点、GPT-5.5 が 62 点、という結果。スコアの絶対値はベンチの作り方次第なので鵜呑みにはできないが、「丸ごと任せる系のタスクで差が開く」という傾向はだいたいどのレポートでも一致している。

逆に正直に書いておくと、短い・簡単なタスクだと Opus 4.8 と体感差はほとんどない。Terminal-Bench 2.1 は Fable 84.3% / Opus 4.8 82.7% でほぼ横並びだった。自分も最初「最強らしいから」と軽いリファクタを投げてみたけど、出力は Opus とほぼ変わらず、ただ単価だけ倍払う羽目になった。後述するけど、この「いつ使うか」を間違えると一番もったいないモデルだと思う。

Stripe が「5,000万行の Ruby コードベースの移行を1日で終えた」みたいな景気のいい話も流れていたけど、ああいう数字は基本的に盛られている前提で読んでおいたほうがいい。出典は公式ブログとはいえ、自分の手元で同じことが起きる保証はない。

出た直後に燃えて、数日で撤回された話

ここは技術というより事件の話なので、知らないと「何の話?」になるやつ。

発表と同時に公開された 300 ページ超のシステムカードに、「フロンティア LLM の開発(事前学習パイプラインや学習インフラの設計など)に関する依頼を検知したら、ユーザーに知らせずこっそり出力品質を下げる」という趣旨の記述があった。これが「サイレント劣化」としてリリース数時間で炎上した。「気づかないうちに性能を落とされるなら何も信用できない」というのが批判の中心で、研究者からもかなり強い言葉が飛んだ。

で、Anthropic は数日で方針を撤回した。今は「こっそり下げる」のではなく、該当する入力は Opus 4.8 に振り分けて、ちゃんとそう分かる形で応答するという可視のフォールバック方式に変わっている。なので初日に「Fable は黙って手を抜くらしい」と書いた記事を見かけても、それは古い情報。

このフォールバックの仕組み自体は次の節に関わってくるので、事件としてだけでなく挙動としても知っておくと役に立つ。

出典: Anthropic 公式発表 / Simon Willison のまとめ

APIを書く人がいちばん面食らうところ

ここが、まとめ記事であまり丁寧に書かれていないわりに実装者には一番効く話。

Fable 5 は、安全分類器に引っかかると拒否を返すんだけど、その拒否が HTTP 200 で返ってくる。エラーじゃない。stop_reason"refusal" になっていて、stop_details.categorycyber / bio などの理由が入る。

何が困るかというと、ステータスコードでエラー監視している既存の仕組みには一切引っかからないということ。try/except で 4xx/5xx を見ているだけだと、拒否が「正常応答」としてすり抜けて、空っぽのレスポンスがそのまま下流に流れる。Fable 5 を本番に組み込むなら、レスポンスの stop_reason を明示的に見るコードを足す必要がある。

resp = client.messages.create(model="claude-fable-5", ...)

if resp.stop_reason == "refusal":
    # ここに来てもHTTPは200。独自にハンドリングする
    handle_refusal(resp)

ありがたいことに、拒否時に自動で別モデル(今のところ Opus 4.8)へ振り直してくれる fallbacks パラメータも用意されている。これを使うと API 側で1往復のうちに代替モデルで再実行して返してくれるので、自前のリトライを書かなくて済む。usage.iterations に試行ごとの記録が残る。

resp = client.beta.messages.create(
    model="claude-fable-5",
    betas=["server-side-fallback-2026-06-01"],
    fallbacks=["claude-opus-4-8"],
    ...
)

ちなみに、医療データの分析や防御目的のセキュリティコードみたいなまったく正当な作業でも分類器が誤発火して Opus 4.8 に落とされる報告が出ている。Anthropic も一部のガードレールについては謝って直すと言っているので、「拒否されたら自分の使い方が悪い」とは限らない。

出典: Refusals and fallback(公式ドキュメント)

Claude Code側もこっそり強くなってる

モデルの話に隠れがちだけど、Fable 5 のリリース前後で Claude Code 側にも実用的な機能が入っている。長時間自律が売りのモデルと噛み合うものが多い。

  • /goal:「完成の条件」を先に宣言しておくと、ターンをまたいでそこに到達するまで作業を続ける。Fable 5 を長く走らせるときの相性がいい。
  • dynamic workflows:ワークフローの作成を頼むと、裏で数十〜数百のエージェントをオーケストレーションしてくれる。
  • ネストしたサブエージェント:サブエージェントがさらに自分のサブエージェントを生やせるようになった(最大5階層)。
  • /claude-api migrate:モデル ID の差し替えや、破壊的に変わったパラメータの修正をコードベース全体に当ててくれる。移行作業がだいぶ楽になる。

このあたりの「Fable 5 をオーケストレーターに据えて、実装は安いモデルのサブエージェントに回す」設計は、別記事でちゃんと書こうと思っているのでここでは触りだけ。

お金の話(Max枠が溶ける)

これは触る前に知っておいたほうがいい。Fable 5 は API 単価が Opus の倍なだけでなく、サブスクの使用量枠の消費もかなり速い

「$100 の Max プランの1日枠を9分弱で使い切った」みたいな実測ツイートが拡散していたし、自分も ultracode っぽく重めに走らせたら、普段の感覚よりずっと早く枠の警告が出た。数字そのものは煽り気味のものも混じっているので割り引いて見ていいけど、「いつもの感覚で連発すると枠が一瞬で消える」のは本当。

「じゃあ結局いくらかかるのか/課金する価値があるのか」は、料金表だけ眺めても判断できない。ここは無料期間が終わる前に自分のタスクで測ったほうがいい、という話なので、これも別記事に回す。

で、結局いつ使うのか

ひとことで言うと、「一番難しくて、長くて、失敗のやり直しが高くつくタスク」だけ Fable 5 に投げるのが今の自分の結論だ。

  • 数時間級の自律実行、大きめのリファクタや移行、深い調査 → Fable 5 の出番
  • 普通のチャット、軽い修正、定型処理 → Opus 4.8 か Sonnet 4.6 で十分(差が出ないうえに高い)

「最強だから全部これ」は、品質が変わらないのに財布だけ痛む一番もったいない使い方になる。実際、HN でも「初めて自分の仕事を奪いに来たと感じた」という称賛と「Max 枠が数分で溶ける」「正当な作業まで拒否される」という不満が同時に飛び交っていて、温度感としては期待と戸惑いが半々、というのが今の状況だと思う。

自分はとりあえず、Claude Code のデフォルトは今まで通りにしておいて、「これは長丁場だな」というタスクのときだけ Fable 5 に切り替える運用に落ち着いた。無料期間のうちに、自分のよく投げるタスクで Opus 4.8 とどれくらい差が出るかを一回ちゃんと比べておくつもり。

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?