1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

文字エンコーディングの違い

Posted at

文字集合(CCS)と文字符号化方式(CES)

文字コードには、文字集合は同じでも符号化方式が違う文字コードがある

文字集合 JIS X 0208
符号化方式 JISコードやEUC-JP

  • 日本語の文字集合

    • JIS X 0208
      • JISコード
      • EUC-JP
      • Shift_JIS
  • 世界中の全ての文字を共通の文字集合/符号化方式

    • Unicode
      • UTF-8
      • UTF-16
  • 文字集合が同じ 場合、符号化方式が違っても容易に変換が可能

  • 符号化方式が同じでも、文字集合が違う場合変換が難しい

    • EUC-JP(日本語)
    • EUC-KR(韓国語)
    • EUC-CN(中国語)

文字エンコーディング

ASCII

  • 英語などラテン文字を中心とした文字コード
  • 1文字を7ビット(=0~127)で表現
    • 残り1ビットは通信エラーチェック用のパリティビットになる

JISコード (ISO-2022-JP)

  • 日本語を中心とした文字コード
  • 日本語を利用する電子メールの多くで採用されている
  • ASCIIと同じく7ビットで表現
    • 残り1ビットは、漢字モードであることを示す文字列になっている

Shift_JIS

  • 日本語を中心とした文字コードでよく使う
  • CSVなどで利用されている
  • 漢字は2バイトで表現するが、ASCIIコードと被る領域があり、文字化けする可能性がある

EUC-JP

  • 日本語のUnix/Linuxで長らく使われてきた
  • ASCIIが利用していない上位ビットを使うことで文字種類を判別

Unicode

  • 文字集合と符号化方式を定めた規格
  • UTF-16
    • 16ビットで符号化したもの
    • WindowsなどのOS内部で利用されている
  • UTF-8
    • 可変長1-4バイトの8ビットで符号化したもの
    • WebのHTML5で標準の文字エンコーディング
1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?