コンピュータは文字に数値を割り当てることで、文字データを表現します。
文字コードはたくさんあるみたいです。とりあえず文字コード表を見てみます。
文字があああああああああああ
文字コード表(ASCII)
2進 | 8進 | 10進 | 16進 | 略語 | 図形表現 | CS | エスケープシーケンス | 名前/意味 |
---|---|---|---|---|---|---|---|---|
0000000 | 000 | 0 | 00 | NUL | ␀ | ^@ | \0 | ヌル文字 |
0000001 | 001 | 1 | 01 | SOH | ␁ | ^A | ヘッディング開始 | |
0000010 | 002 | 2 | 02 | STX | ␂ | ^B | テキスト開始 | |
0000011 | 003 | 3 | 03 | ETX | ␃ | ^C | テキスト終了 | |
0000100 | 004 | 4 | 04 | EOT | ␄ | ^D | 伝送終了 | |
0000101 | 005 | 5 | 05 | ENQ | ␅ | ^E | 問い合わせ | |
0000110 | 006 | 6 | 06 | ACK | ␆ | ^F | 肯定応答 | |
0000111 | 007 | 7 | 07 | BEL | ␇ | ^G | \a | ベル |
0001000 | 010 | 8 | 08 | BS | ␈ | ^H | \b | 後退 |
0001001 | 011 | 9 | 09 | HT | ␉ | ^I | \t | 水平タブ |
0001010 | 012 | 10 | 0A | LF | ␊ | ^J | \n | 改行 |
0001011 | 013 | 11 | 0B | VT | ␋ | ^K | \v | 垂直タブ |
0001100 | 014 | 12 | 0C | FF | ␌ | ^L | \f | 書式送り |
0001101 | 015 | 13 | 0D | CR | ␍ | ^M | \r | 復帰 |
0001110 | 016 | 14 | 0E | SO | ␎ | ^N | シフトアウト | |
0001111 | 017 | 15 | 0F | SI | ␏ | ^O | シフトイン | |
0010000 | 020 | 16 | 10 | DLE | ␐ | ^P | 伝送制御拡張 | |
0010001 | 021 | 17 | 11 | DC1 | ␑ | ^Q | 装置制御1、XON | |
0010010 | 022 | 18 | 12 | DC2 | ␒ | ^R | 装置制御2 | |
0010011 | 023 | 19 | 13 | DC3 | ␓ | ^S | 装置制御3、XOFF | |
0010100 | 024 | 20 | 14 | DC4 | ␔ | ^T | 装置制御4 | |
0010101 | 025 | 21 | 15 | NAK | ␕ | ^U | 否定応答 | |
0010110 | 026 | 22 | 16 | SYN | ␖ | ^V | 同期信号 | |
0010111 | 027 | 23 | 17 | ETB | ␗ | ^W | 伝送ブロック終結 | |
0011000 | 030 | 24 | 18 | CAN | ␘ | ^X | 取消 | |
0011001 | 031 | 25 | 19 | EM | ␙ | ^Y | 媒体終端 | |
0011010 | 032 | 26 | 1A | SUB | ␚ | ^Z | 置換 | |
0011011 | 033 | 27 | 1B | ESC | ␛ | ^[ | \e | エスケープ |
0011100 | 034 | 28 | 1C | FS | ␜ | ^\ | ファイル分離標識 | |
0011101 | 035 | 29 | 1D | GS | ␝ | ^] | グループ分離標識 | |
0011110 | 036 | 30 | 1E | RS | ␞ | ^^ | レコード分離標識 | |
0011111 | 037 | 31 | 1F | US | ␟ | ^_ | ユニット分離標識 | |
1111111 | 177 | 127 | 7F | DEL | ␡ | ^? | 抹消 |
文字コードの種類と特徴
文字コードの代表的な種類としては、次のようなものがあります。
ASCII(アスキー)
米国規格協会(ANSI)によって定められた、かなり基本的な文字コード。
含まれる文字はアルファベットと数字、あといくつかの記号のみで、1文字を7ビットで表します。
アスキーアートが有名ですね
∩___∩
| ノ ヽ
/ ● ● | クマ──!!
| ( ●) ミ
彡、 |∪| 、`\
/ __ ヽノ /´> )
(___) / (_/
| /
| /\ \
| / ) )
∪ ( \
\_)
EBCDIC(エビシディック)
IBM社が定めた文字コードで、8ビットを使って1文字を表します。大型の汎用コンピュータなどで使われています。
シフトJISコード(S-JIS)
ASCIIのコード体系の文字と混在させて使えるようになっている日本語文字コードです。
ひらがなや漢字、カタカナなどが扱えます。
マイクロソフト社のOSであるwindowsでも使われており、1文字を2バイトで表すそうです。
EUC(イーユーシー)
拡張UNIXコードとも呼ばれ、UNIXのOS上でよく使われる日本語文字コードです。
基本的には1文字を2バイトで表しますが、補助漢字などは3バイト使います。
Unicode(ユニコード)
全世界の文字コードを一つに統一してしまえということで、各国のありとあらゆる文字を
1つのコード体系であらわそうとした文字コード。
当初は1文字を2バイトで表す予定だったらしいですが、3バイト、4バイトと拡張されているようです。
1993年にISOで標準化されています。
まとめ
へぇって感じですね。