情報の表現
情報量の単位
→コンピュータ内部では、全ての情報は電気信号の「on」と「off」のように2値であつかわれているため、これを2進数の「1」と「0」に対応させ表現しています。「1」や「0」のように。コンピュータで扱う最小の情報量の単位をビット(bit)といい、2進数1桁の相当します。さらに、8個のビットをひとまとめにしたものをバイト(Byte)といい、2進数8桁にそうとします。1ばいとは8ビット、2バイトは16ビット~です。バイトは情報量の基本単位となっています。
例えば、「10001111」は1ばいと(8ビット)の情報量であり、このような「1」と「0」の羅列はビットパターンと呼ばれることもあります。
表現可能な情報量
→1ビットで表現可能な情報量は「0」と「1」の2(=2¹)通り、2ビットでは「00」「01」「10」「11」の4(=2²)通り、3ビットでは「000」「001」「010」「011」「100」「101」「110」「111」の8(=2³)通りです。
一般的に、nビットでは2ⁿ通りの情報を表現することがあります。
大きな数値を表す接頭語
→最近は、コンピュータが扱う情報量は膨大なものになっています。そこで、データ量を表すB(バイト)の前に10の整数
乗倍、K(キロ)、M(メガ)、G(ギガ)、T(テラ)が使われます。例えば、「今月のスマートフォンの通信量が0GB(ギガバイト)」、「ハードディスクの容量は0TB(テラバイト)などのように使われます。
つまり、K(10³)、M(10⁶)、G(10⁹)、T(10¹²)となります。
小さな数値を表す接頭語
最近は、コンピュータの処理速度が非常に速くなっています。そこで、処理時間を表すS(秒)の前に10の整数乗倍を表す接頭語、m(ミリ、10⁻³)、μ(マイクロ⁻⁶)、n(ナノ⁻⁹)、p(ピコ⁻¹²)が使われいます。
指数の公式
データ量や処理時間んを計算するときに役に立つのが、指数の公式です。主な公式をおさらいしておきます。
なお、m、nは、正の整数とします。
文字の表現
コンピュータ内部は0と1の2進数で表現されているにもかかわらず、コンピュータが文字を扱うことができるのは、
文字コードと呼ばれる、文字の一つ一つに0と1の2進数で表現された識別番号を割り振られているからです。
例えば、文字「あ」は、シフトJISコードでは「1000 0010 1010 0000」、Unicode(UTF-8)では「110 0011 1000 0001 1000 0010」の識別番号が割り振れています。
メールなどで「文字化け」という現像が起こることがありますが、これは作成者が使った文字コードとは異なる文字コードを当てはめたことが原因です。
代表的な文字コードには、次のようなものがあります。
ASCllコード
→英数字・記号・制御文字のみ。米国標準符号で最も基本となる文字コード。漢字・仮名の日本語はない。
シフトJISコード
→ASCllコードに、漢字・仮名の日本語を加えたもの。
EUC
→UNIXやLinuxなどで使用される。漢字・仮名も使用できる。
Unicodo
→世界の文字の多くを一つの体系にしたもの。これを符号化する方式の一つにUTF-8がある。