文字集合(CCS)と文字符号化方式(CES)
文字コードには、文字集合は同じでも符号化方式が違う文字コード
がある
文字集合
JIS X 0208
符号化方式
JISコードやEUC-JP
-
日本語の文字集合
- JIS X 0208
- JISコード
- EUC-JP
- Shift_JIS
- JIS X 0208
-
世界中の全ての文字を共通の文字集合/符号化方式
- Unicode
- UTF-8
- UTF-16
- Unicode
-
文字集合が同じ
場合、符号化方式が違っても容易に変換が可能
-
符号化方式が同じでも、
文字集合が違う場合変換が難しい
- EUC-JP(日本語)
- EUC-KR(韓国語)
- EUC-CN(中国語)
文字エンコーディング
ASCII
-
英語などラテン文字
を中心とした文字コード - 1文字を7ビット(=0~127)で表現
- 残り1ビットは通信エラーチェック用のパリティビットになる
JISコード (ISO-2022-JP)
-
日本語
を中心とした文字コード - 日本語を利用する
電子メール
の多くで採用されている - ASCIIと同じく7ビットで表現
- 残り1ビットは、漢字モードであることを示す文字列になっている
Shift_JIS
-
日本語
を中心とした文字コードでよく使う -
CSV
などで利用されている - 漢字は2バイトで表現するが、ASCIIコードと被る領域があり、
文字化けする可能性
がある
EUC-JP
-
日本語
のUnix/Linuxで長らく使われてきた - ASCIIが利用していない上位ビットを使うことで文字種類を判別
Unicode
文字集合と符号化方式を定めた規格
- UTF-16
- 16ビットで符号化したもの
- Windowsなどの
OS内部
で利用されている
- UTF-8
- 可変長1-4バイトの8ビットで符号化したもの
- Webの
HTML5
で標準の文字エンコーディング