LoginSignup
35
33

More than 1 year has passed since last update.

絶対にUTF-8の1バイト目にならない文字一覧

Last updated at Posted at 2017-02-01
文字の範囲 1バイト目になる 備考
0x00 - 0x7F 1バイト文字そのもの      
0x80 - 0xBF - 2-4バイト文字の2バイト目以降でのみ出現
0xC0 - 0xC1 - 冗長表現を許さないのであれば絶対に出現しない
0xC2 - 0xDF 2バイト文字の1バイト目
0xE0 - 0xEF 3バイト文字の1バイト目
0xF0 4バイト文字の1バイト目
0xF1 - 0xF2 - 追加面第4面から第11面の1バイト目に対応、通常は出現しない
0xF3 4バイト文字の1バイト目
(漢字用の異体字セレクタなどで使われる可能性がある)
0xF4 - 追加面第16面の1バイト目に対応、通常は出現しない
0xF5 - 0xFF - UTF-8として絶対に出現しない

つまり、UTF-8の1バイト目になり得る文字は0x00-0x7Fおよび0xC2-0xF0,0xF3の176文字、なり得ない文字は残りの80文字。

35
33
2

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
35
33