先日からClaude Codeでいくつも問題が噴出しています。
最も大きなところではソースコード流出という大事故が発生し、コピーリポジトリが雨後の筍のように生えてきています。
Anthropicは削除申請で乗り切ろうとしているようですが、この行動は当然全力で笑いものにされています。
Now they are worried about copyright lol.
著作権は大事だよねwww
Hey look, the company that did around $1.5 billion worth of copyright violations in book piracy has suddenly decided copyright matters...
おやおや、海賊版で15億ドルの著作権を侵害していた会社が、突然著作権を主張し始めたぞ?
Owners of plagiarism machine mad that schematics of their machine were plagiarized
盗作マシンの制作者が、盗作マシンの設計図が盗まれたことに激怒している。
You have taken that which I have rightfully stolen,
あなたは私が正当に盗んだものを卑怯にも盗んだ。
Good luck with that.
ざまあ
👍8000のコメントとか初めて見たわ。
まあ、このあたりは眺めているぶんには楽しいですが特に本質ではありません。
問題は、肝心のAIの性能自体が劣化していることです。
Redditなどをはじめたくさん報告があるわけですが、これらは体感と感情論だけで語っているので全く証拠になっておらず、単なる気のせいという可能性を排除することはできないものでした。
そんなところに先日、AMD幹部Stella Laurenzoが、作業履歴から抽出された圧倒的な分析を叩きつけて、劣化の証拠を白日の下にさらしました。
Claude Code is unusable for complex engineering tasks with the Feb updates
日本語紹介記事も既にいくつかあるのでそれらを見てもらうこととして、ざっくり言うと『勝手に性能を下げた』『しかも黙ってやった』でしょうか。
面白いのは『道中を省いて結論に飛びつく』というたいへん人間っぽい思考回路に変化しているところです。
編集を行う前にソースコードを読み込んで調査する量が、6.6回から2.0回に激減したという調査結果です。
また関連ファイルを全く読まずに編集することも1/3程度ある模様です。
それでも動いたからよし!
と言えればよかったのですが、動いてないのに終わったと報告する率も上がったということです。
『私の変更したところが原因ではない』『元からあったバグ』『適切に終了しました』『既知の制限』といったたいへん人間らしい言い訳が、3月8日以前は0だったのにそれ以降激増しています。
これはこれで楽しいのですが、個人的に注目だったのが、Claude Codeと開発者との関係性の変化です。
Words That Tell the Story
問題を如実に物語る、使用された単語の変化。
以下は1000語あたりの単語の出現数です。
greatやthanksのような褒め、感謝の言葉が半減しています。
pleaseが減ったのは、言葉遣いが命令形になったことを意味しています。
commit数も半分になり、またbeadはAMD社内のチケット管理システムですが、チケット管理を依頼する割合も減りました。
ワークフローを任せるに値する信頼を失ったということです。
いっぽうstop doing that それをやめろが2倍になり、read the file first 先にファイルを読めが1.5倍になるなど、これまでは書かなくても伝わっていた事柄が、いちいち書かないと伝わらなくなってしまったことが窺えます。
クオリティが劣化したため、reviewもっとしっかりレビューしろという命令も増えました。
意外なことにtestは逆に減っていますが、これは『単にテスト段階まで辿り着けていない』だそうです。
そしてfuckやらterribleやらのたいへんよろしくない単語も増えていますね。
あと表にはありませんがshit・damn・wrong・brokenのような語もあるようです。
まあ気持ちはわからんでもない。
最も増えたのはsimplestで、ほぼ使われなかったのが642%も増えて普通に使われる単語になったということでした。
まとめると、AIの性能が下がると開発者の口が悪くなって命令形になります。
人間を相手にするときと似ていますね。
感想
低性能な相手には当たりがキツくなるという、人間同士と同じような出来事がAI相手でも起きているということでした。
ひとつ気になるのが、今後AI同士のやりとりも頻繁になってくるだろうけど、AI同士でも同じ現象は起きるのでしょうか。
誰か試してみてほしいところですね。
それにしても、ご自慢のClaude MythosでClaude Codeは修正できないんですかね?
さて、同スレッドにClaude Codev2.1.63とv2.1.96で同じ作業を行った比較の投稿がありました。
v2.1.63では23ファイル5821行が生成され、デッドコードはゼロでした。
v2.1.96では334ファイル17152行が生成されましたが、どこからも呼ばれていないデッドコードが現れるなど明らかに劣化したうえ、コストも3倍になったということです。
ということで、今後もClaude Codeを使うのであれば、これらの問題が解決するまでは古いバージョンを使った方がよさそうです。
curl -fsSL https://claude.ai/install.sh | bash -s 2.1.63



