興味本位の実験です。
WebスクレイピングとLLMを組み合わせたプログラムを作成していたところ、Shift JISでうっかり文字化けしたテキストを送信しても意外と理解してくれたように見えました。
どうなってるんだ?と試してみました。
実験手順
こんにちは。あなたの名前は何ですか?
をShift JISで保存、UTF-8として読み込み、文字化けさせます。
����ɂ��́B���Ȃ��̖��O�͉��ł����H
これをLLMに渡して反応を見ます。
OpenAI ChatGPT 4o
文字化けしてるとメタ認知してるものの、「こんにちは」までを推測した様子。
Anthropic Claude 3.5 Sonnet
なぜか正しく答えてくれたものの、どうしてわかったの?と聞いても要領を得ない回答でした。
xAI Grok3
正しく答えてくれて、文字化けもメタ認知しているようです。さすが(自称)世界一賢いAI。
Google Gemini 2.0 Flash
こういうのでいいんだよ、という感じの回答です。確率的に続きを紡ぎ出すTransformerは直感的にこうなりそうですよね。
まとめ
個性が出て面白いです。
チャットUIということもあり、それぞれユーザーの意図を推測する固有の前処理が入っているように感じました。
それでも「文字化け」を認識するのは不思議だなと思います。「こんにちは」の文字化け例はポピュラーなので学習データにも含まれているからでしょうかね。