いつも忘れるのでよく見るやつをまとめました。
1バイト
U+0000からU+007Fまでが1byte。
基本的には「日本語JIS配列のQWERTYキーボードで直接入力できる文字」が1バイト
- 日本語(JIS)配列のキーボードにおいて、数字がある段で直接入力可能なすべての記号
!"#$%&'()-=^~\|
- 日本語(JIS)配列のキーボードにおいて、右の方で直接入力可能なすべての記号
,.<>/?_;:+*[]{}`@
- 半角アルファベット大文字
ABCDEFGHIJKLMNOPQRSTUVWXYZ
- 半角アルファベット小文字
abcdefghijklmnopqrstuvwxyz
- 半角アラビア数字
0123456789
- ASCII制御文字
ヌル文字(U+0000)、半角スペース(U+0020)など
2バイト
U+0080からU+07FFまでが2byte。
- ラテン文字の補助・拡張
- ©
U+00A9
や®U+00AE
- マクロン付きアルファベットはここ
- ©
- IPA拡張
- 発音記号はここ
- コプト文字、ギリシア文字、キリル文字、アルメニア文字、ヘブライ文字、アラビア文字、シリア文字、ターナ文字、ンコ文字
- シリア文字拡張は3バイト
3バイト
U+0800からU+FFFFまでが3byte。
- 2バイト以下でない殆どの文字
- ひらがな・カタカナはすべてここ
- 半角カタカナもここ
- 常用漢字はすべてここ
- その他使う頻度が高い漢字はだいたいここ
4バイト
U+10000からU+10FFFFまでが4byte。
- 古代文字
- 線文字B、楔形文字など
- 仮名補助
- 変体仮名とか
- 音楽記号
- 数学用英数字
- なんかかっこいい感じの文字はデフォルトで入ってる
- 囲み漢字
🈀🈁🈂🈐🈑🈒🈓🈔🈕🈖🈗🈘🈙🈚🈛🈜🈝🈞🈟🈠🈡🈢🈣🈤🈥🈦🈧🈨🈩🈪🈫🈬🈭🈮🈯🈰🈱🈲🈳🈴🈵🈶🈷🈸🈹🈺🈻🉀🉁🉂🉃🉄🉅🉆🉇🉈🉐🉑
- 絵文字
- 錬金術記号(?!?!)
- その他色々
サロゲートペアとかのせいでこの限りでない(主に絵文字)こともある