文字の範囲 | 1バイト目になる | 備考 |
---|---|---|
0x00 - 0x7F | ○ | 1バイト文字そのもの |
0x80 - 0xBF | - | 2-4バイト文字の2バイト目以降でのみ出現 |
0xC0 - 0xC1 | - | 冗長表現を許さないのであれば絶対に出現しない |
0xC2 - 0xDF | ○ | 2バイト文字の1バイト目 |
0xE0 - 0xEF | ○ | 3バイト文字の1バイト目 |
0xF0 | ○ | 4バイト文字の1バイト目 |
0xF1 - 0xF2 | - | 追加面第4面から第11面の1バイト目に対応、通常は出現しない |
0xF3 | ○ | 4バイト文字の1バイト目 (漢字用の異体字セレクタなどで使われる可能性がある) |
0xF4 | - | 追加面第16面の1バイト目に対応、通常は出現しない |
0xF5 - 0xFF | - | UTF-8として絶対に出現しない |
つまり、UTF-8の1バイト目になり得る文字は0x00-0x7Fおよび0xC2-0xF0,0xF3の176文字、なり得ない文字は残りの80文字。