ASCII
- 半角英数を1Byte(8bit)で表現
- 実際は、7bitしか利用していない
- 代表的なコード
文字 | コード(16進数) | 備考 |
---|---|---|
LF | 0A | Unix系の改行 |
CR | 0D | windowsの改行(CRLF) |
SP | 20 | 空白 |
0 | 30 | |
|5C | 文字化けの原因 | |
a | 61 | |
DEL | 7F | ASCII最大コード |
S-JIS
- ASCIIを拡張している
- 半角英数のみを見るとASCIIと同じ文字コードとなる
- 半角カナは1Byte
- ASCIIと被らないように8bit目を利用している
- 漢字は2Byte
- 1Byte目は、ASCIIと半角カナと被らないコードを利用
- 2Byte目は、ASCIIと半角カナと被ることもある
- この仕様が、文字化けの原因となる。
- 文字化け
- /がエスケープ文字の意味を持つ言語で、2Byte目が/の漢字を利用した場合、/が消えてしまう。
- 例:「申」「十」「表」
- /がエスケープ文字の意味を持つ言語で、2Byte目が/の漢字を利用した場合、/が消えてしまう。
UTF-8
- ASCIIを拡張している
- 半角英数のみを見るとASCIIと同じ文字コードとなる
- S-JISの文字化け対策
- 漢字の2Byte目が、ASCIIと半角カナと被らないコードを利用しているため、/による文字化けはおこらない