目次
情報量の単位
コンピューターの内部では、全ての情報は電気信号の「ON」と「OFF」の2種類に分かれている。ここでいう「情報量」とは1と0という電気信号(語弊を恐れないで言うと)、いわゆる2進数で表現されている。このようにコンピューターで扱う最小の情報量の単位を1ビット、2ビットという。さらに、8個のビットを1つのまとまりにしたものをバイトといい、2進数8桁に相当します。1バイトは8ビット、2バイトは13進数に相当する。バイトは、情報量の基本単位となっています。例えば、「10001111」は1バイトの情報量であり、このような「1」と「0」の場所は、ビットパターンと呼ばれることもあります。
表現可能な情報量
1ビットで表現可能な情報量は「0」、「1」の2通り、2ビットでは「00」、「01」、「10」、「11」の四通り。3ビットでは「000」、「001」、「010」、「100」、「011」、「110」、「111」、「101」の8パターンです。
一般的にはnビットでは$2^n$乗通りの情報を表現することができます
大きな数値を表す接頭語
最近では、コンピューターが扱う情報量は膨大なものになっています。そこで、データ量を表すBバイトの前に10の整数乗倍を表す接頭語が使われます
接頭語 | 意味 |
---|---|
k(キロ) | $10^3$ |
M(メガ) | $10^6$ |
G(ギガ) | $10^9$ |
T(テラ) | 10の12乗 |
小さな数値を表す接頭語
最近は、コンピューターの処理速度が非常に速くなっている。そこで、処理時間を表すS秒の前に10の整数乗倍を表す接頭語が使われています。
接頭語 | 意味 |
---|---|
m(ミリ) | $10^-3$ |
μ(マイクロ) | $10^-6$ |
n(ナノ) | $10^-9$ |
p(ピコ) | 10の-12乗 |
文字の表現
コンピューターの内部は0と1の2進数で表現されているにもかかわらず、コンピューターが文字を扱うことができたのは文字コードと呼ばれる、文字の一つ一つに0と1の2進数で表現された識別番号を割りふられているからです。
例えば、文字「あ」は、シフトJISコードでは「1000 0010 1010 0000」、Unicode(UTF-8)では「1110 0011 1000 0010」の識別番号が割り振られています。
メールなどで「文字化け」という現象が起こることがあります。これは作成者とが使用した文字コードとは異なる文字コードを当てはめたことが原因です。現代的な文字コードには、次のようなものがあります。
-
ASCIIコード
- 英数字・記号・制御文のみ。米国標準符号でえ最も基本となる文字コード。漢字・仮名の表現はない
-
シフトJISコード
- ASCIIコードに、漢字・仮名の日本語を加えたもの
-
EUC
- UNIXやLinuxなどで使用される。漢字・仮名を使用できる
-
Unicode
- 世界の文字の多くを一つの体系にしたもの。それを符号化する方式の一つにUTF-8がある。