漢字は2バイトとは限らない？実は“4バイト漢字”や“超重量級絵文字”も存在する

Posted at 2025-06-07

漢字＝2バイトの常識、実は例外も？

多くのプログラマーが「漢字は2バイト」と教えられてきました。
実際、Shift_JISなどでは多くの漢字が2バイトで表現されています。
しかし、UTF-8が主流の現在では、3バイトや4バイトを使う漢字も存在します。

UTF-8は文字の種類によって1〜4バイトで表現されます。たとえば：

この「𠮷（U+20BB7）」は、サロゲートペアとして扱われる補助漢字（サプリメンタリープレーン）の1つです。

文字	Unicode	UTF-8表現	備考
𠮷	U+20BB7	F0 A0 AE B7	異体字「吉」など
𡈽	U+2123D	F0 A1 88 BD	「埼玉県」の「埼」の異体字
𩸽	U+29E3D	F0 A9 B8 BD	魚へんの難読漢字など

最近では、漢字以上に注意が必要な存在が「絵文字」です。

一見1文字に見える絵文字でも、複数のUnicodeコードポイントを組み合わせてできているものがあります。

このように、見た目は1文字でも内部的には7文字分に相当するケースがあります。

iOS17.4から「家族構成」絵文字が非常にシンプルなアイコンで置き換えられたことが今になって話題になっています。
多様性の影響でしょうか？

🔍 文字の重さ（バイト数やコードポイント）は、文字列制限や文字処理の落とし穴になりやすいポイントです。
特にグローバル対応やSNS対応を行う開発現場では、注意して設計・実装しましょう。