0

More than 5 years have passed since last update.

株式会社エイチームライフデザイン

文字エンコーディングの違い

Posted at 2020-07-31

文字集合(CCS)と文字符号化方式(CES)

文字コードには、文字集合は同じでも符号化方式が違う文字コードがある

文字集合 JIS X 0208
符号化方式 JISコードやEUC-JP

日本語の文字集合
- JIS X 0208
  - JISコード
  - EUC-JP
  - Shift_JIS
世界中の全ての文字を共通の文字集合/符号化方式
- Unicode
  - UTF-8
  - UTF-16
文字集合が同じ 場合、符号化方式が違っても容易に変換が可能
符号化方式が同じでも、文字集合が違う場合変換が難しい
- EUC-JP(日本語)
- EUC-KR(韓国語)
- EUC-CN(中国語)

文字エンコーディング

ASCII

英語などラテン文字を中心とした文字コード
1文字を7ビット(=0~127)で表現
- 残り1ビットは通信エラーチェック用のパリティビットになる

JISコード (ISO-2022-JP)

日本語を中心とした文字コード
日本語を利用する電子メールの多くで採用されている
ASCIIと同じく7ビットで表現
- 残り1ビットは、漢字モードであることを示す文字列になっている

Shift_JIS

日本語を中心とした文字コードでよく使う
CSVなどで利用されている
漢字は2バイトで表現するが、ASCIIコードと被る領域があり、文字化けする可能性がある

EUC-JP

日本語のUnix/Linuxで長らく使われてきた
ASCIIが利用していない上位ビットを使うことで文字種類を判別

Unicode

文字集合と符号化方式を定めた規格
UTF-16
- 16ビットで符号化したもの
- WindowsなどのOS内部で利用されている
UTF-8
- 可変長1-4バイトの8ビットで符号化したもの
- WebのHTML5で標準の文字エンコーディング

0

Register as a new user and use Qiita more conveniently

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

0