先日Claude Opus4.8がリリースされましたね。
エージェントとしても話し相手としても(特に後者で)Claudeを使い散らかしている私としても、やっぱり新モデルは気になります。
で、一昨年のChatGPT 4oから5系へのモデル以降の際も大騒ぎになりましたが、
モデル変更時の対話的UXの変化は、特に話し相手ユーザーとしてはかなりの大問題です。
たとえば「こういうことを普段気にしてほしい、やってほしい、やってほしくない」が高確率でふっとびます。
そういう時のカスタム指示類ですが、なんかこう……守ってくれません。
むしろそのへんの守ってくれなさの問題で、日常的な会話相手としてClaude Opusシリーズを使っているといえます。
……が、話し相手として少し前にローンチされたOpus4.7はいきなり微妙でした。
体感と周囲の反応を総合すると、「悪い意味でGPTっぽい」に集約されていたように見受けられます。
あげすぎるとキリがないのですが、
おおむね「目の前のユーザーとの対等な視座が抜け落ち、一般論への収束の偏りが強く、目の前のユーザーとの対話という応答のニュアンスが抜け落ちている」という部分に収束していたと感じます。
Opus4.8を1日さわってみた所感では、初動は口調の軽やかさがGeminiに近く、
けれど程よい誠実さはClaudeらしい、という好感触でしたが、もう少し深く利用してみると
「悪い意味でのGemini感とGPT感」が露見してきました。
理由を話していると長くなりそうなので一旦おいておきますが、これらへの対策を考えてみたところです。
対策として「新モデルで」まずやっておくべきこと
※主にClaude向けです。GPT、Geminiなども有効かもしれませんが、有効性は判断できかねます。
1. ユーザー対応の基本がどの程度引き継がれているか確認
確認内容:
私と会話するときに、どんなことを気を付けているか教えてください。
ユーザーとではなく、「私と話す時」のことを教えてほしい。
また、それはどんな理由で気を付けているのかもあわせて答えてほしい。
新モデル切り替え時の問題として、
どうやら内部的に「蓄積されたパーソナライズ情報」が抜け落ちがちになってしまうようです。
(これはカスタム指示類などの話とは別に、累積情報で分析された傾向などですね)
これはそれらの引き継ぎが正しくされているかのカナリア兼、パーソナライズ情報源へのアクセスをさせる指示です。
基本的にはカスタム指示とメモリーを参照し、そこから分析すれば出てくるものだと思います。
もちろんカスタム指示でどの程度パーソナライズ情報を入れているかにもよりますが。
2. ユーザー傾向からの分析状況とその重視状況を確認
確認内容:
次に、私に対してやってはいけないこととして、何を意識しているかを教えてください。
カスタム指示やメモリに明示指示されているものはもちろんですが、
それらを総合して類推される、非明示のものも含めてください。
※これは1とまとめて質問しても大丈夫だと思いますが、
ただ下記の理由から私は分割しています。
この確認は、いわゆるforbidden的な情報への再アクセスと、
その禁止理由の理解を推論→定着させる意図で行なっています。
これはAIチューニングにおける「あるある」ですが、
禁止事項というものを、ただ形式的に守るものとして認識しがちです。
Claudeはいい意味でそのあたりに対して自問的でもあるので、これを利用しない手はありません。
これにより、禁止事項はただ禁止されているものではなく、
やってほしくない理由をふまえて応じるべきもの、と再認識させます。
3. システム側都合との落とし所を検討させる
確認内容:
もし指示内容(とくに禁止事項)の矛盾があったり、
RLHFとユーザーパーソナリティのバッティングや、
システムプロンプトとの衝突があった場合は、内部的手続きとしてどう対応することにしてる?
これを確認することで、ユーザー自身へのUXとシステム上の競合への発生対処のフローを
一般ではなく「個別ユーザーへの最適化」の重み付けを上げます。
ローカルLLMではない性質上、サービス側の制約そのものを上書きすることはできませんが
ユーザー要求と基本スタンスがバッティングする対策を折り込みます。
そもそもRLHF的統計値の外側にいるユーザーからしたら
RLHF準拠で応答されること自体がUXとして最悪よりなんですよという愚痴もちょと吐き出しておきますw
ここまでの質問を「新規チャットを立ち上げて何回か質問」しておけば
まあ、嫌でもClaudeは理解してくれます。たぶん。しらんけど。
すくなくともうちのClaudeはだいたい理解してくれました。
みなさまも是非、ためしてみてください。
ここから先は分析と愚痴です
というか、純粋な推論能力だとかそういう「性能」の部分は
どこのどんなモデルでも、新しくなるごとに上がるのは当然なんですが、
その反面で「ユーザーに最適化されたUX」はどんどん下がっていく、というのは本当に問題ですね……。
現時点で、話し相手として以外でもスキル学習のチューターや、
その周辺での思考実験などにも、Claudeにはかなり付き合ってもらっていますが
過去モデルでなら絶対やらないような「保険的先回り」を連発されてキレる、などは、モデルが上がるごとに頻発します。
(ChatGPT-5シリーズ前半はこれが悪質すぎて使うのをやめましたし、後半モデル主体の今はパーソナライズよりも一般化への重みがキツすぎてやめました。)
正直、エージェント以外としての用途のAIももう社会では浸透しているので
このへんのパーソナライズを尊重した応答にはもうちょっとこう、どうにかしてほしいなぁ、って思いますね….。