文字コードの構成要素
文字集合とエンコーディングの2つの要素がある
- 文字集合
JIS X 0208とかUnicodeとか - 符号化方式(エンコーディング)
EUC-JP, Shift_JIS, ISO-2022-JPとか
UTF-8, UTF-16 とか
cf. http://equj65.net/tech/charcode/
文字コードの仕組み
それぞれの文字集合に含まれる文字について、その「符号位置」を示す「番号」をそれぞれ独自の手順や計算式によってバイト列の表現に変換したもの。
http://d.hatena.ne.jp/snaka72/20100710/SUMMARY_ABOUT_JAPANESE_CHARACTER_CODE
※16進数を表すために「0x」を数値の文頭に付与する
文字集合 | 符号化方式(エンコーディング) | 備考 |
---|---|---|
unicode | UTF-8, UTF-16 | 全世界の文字を扱えることを目的としてしている。 |
JIS X 0208 | ISO-2022-JP(JIS)、EUC-JP、Shift_JIS | 日本語で使用される主な文字を収録した文字コード。漢字はJIS第1・第2水準漢字が収録されている |
ASCII | ない | 英数字と一部の記号のみを収録した基礎的な文字コード |
cf. http://appakumaturi.hatenablog.com/entry/20120414/1334334986
なぜWEBでUTF-8がよく使われるか
他の言語よりも比較的容易に多言語対応が行える。