LLMに文字化けメッセージを送るとどうなるか

Posted at 2025-02-24

興味本位の実験です。

WebスクレイピングとLLMを組み合わせたプログラムを作成していたところ、Shift JISでうっかり文字化けしたテキストを送信しても意外と理解してくれたように見えました。

どうなってるんだ？と試してみました。

実験手順

こんにちは。あなたの名前は何ですか？

をShift JISで保存、UTF-8として読み込み、文字化けさせます。

����ɂ��́B���Ȃ��̖��O�͉��ł����H

これをLLMに渡して反応を見ます。

文字化けしてるとメタ認知してるものの、「こんにちは」までを推測した様子。

なぜか正しく答えてくれたものの、どうしてわかったの？と聞いても要領を得ない回答でした。

正しく答えてくれて、文字化けもメタ認知しているようです。さすが(自称)世界一賢いAI。

こういうのでいいんだよ、という感じの回答です。確率的に続きを紡ぎ出すTransformerは直感的にこうなりそうですよね。

個性が出て面白いです。

チャットUIということもあり、それぞれユーザーの意図を推測する固有の前処理が入っているように感じました。

それでも「文字化け」を認識するのは不思議だなと思います。「こんにちは」の文字化け例はポピュラーなので学習データにも含まれているからでしょうかね。