LoginSignup
1
0

More than 1 year has passed since last update.

【U】UTF-8における1文字が占める容量

Last updated at Posted at 2022-12-20

いつも忘れるのでよく見るやつをまとめました。

1バイト

U+0000からU+007Fまでが1byte。
基本的には「日本語JIS配列のQWERTYキーボードで直接入力できる文字」が1バイト

  • 日本語(JIS)配列のキーボードにおいて、数字がある段で直接入力可能なすべての記号 !"#$%&'()-=^~\|
  • 日本語(JIS)配列のキーボードにおいて、右の方で直接入力可能なすべての記号 ,.<>/?_;:+*[]{}`@
  • 半角アルファベット大文字 ABCDEFGHIJKLMNOPQRSTUVWXYZ
  • 半角アルファベット小文字 abcdefghijklmnopqrstuvwxyz
  • 半角アラビア数字 0123456789
  • ASCII制御文字 ヌル文字(U+0000)、半角スペース(U+0020)など

2バイト

U+0080からU+07FFまでが2byte。

  • ラテン文字の補助・拡張
    • ©U+00A9や®U+00AE
    • マクロン付きアルファベットはここ
  • IPA拡張
    • 発音記号はここ
  • コプト文字、ギリシア文字、キリル文字、アルメニア文字、ヘブライ文字、アラビア文字、シリア文字、ターナ文字、ンコ文字
    • シリア文字拡張は3バイト

3バイト

U+0800からU+FFFFまでが3byte。

  • 2バイト以下でない殆どの文字
    • ひらがな・カタカナはすべてここ
    • 半角カタカナもここ
    • 常用漢字はすべてここ
    • その他使う頻度が高い漢字はだいたいここ

4バイト

U+10000からU+10FFFFまでが4byte。

  • 古代文字
    • 線文字B、楔形文字など
  • 仮名補助
    • 変体仮名とか
  • 音楽記号
  • 数学用英数字
    • なんかかっこいい感じの文字はデフォルトで入ってる
  • 囲み漢字 🈀🈁🈂🈐🈑🈒🈓🈔🈕🈖🈗🈘🈙🈚🈛🈜🈝🈞🈟🈠🈡🈢🈣🈤🈥🈦🈧🈨🈩🈪🈫🈬🈭🈮🈯🈰🈱🈲🈳🈴🈵🈶🈷🈸🈹🈺🈻🉀🉁🉂🉃🉄🉅🉆🉇🉈🉐🉑
  • 絵文字
  • 錬金術記号(?!?!)
  • その他色々

サロゲートペアとかのせいでこの限りでない(主に絵文字)こともある

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0