勉強前イメージ
文字コードの中のユニコード?雰囲気?
調査
文字コード とは
文字コードとはコンピュータ上で文字や記号をデータとして扱うために
一文字に固有の識別番号を割り振って区別できるようにしたものを言います。
コンピュータは0と1の組み合わせで、文字をデータ化したものはデータ量が多い。
そのため識別番号を割り振って0と1で文字列を表現、この対応関係を文字コードという。
Unicode とは
文字コードの国際的な業界標準の一つで
すべての文字を網羅するも符号化集合(文字コード表)である。
Unicodeができる前は、各国別々に標準化された文字コードが使われてたが
テキストの処理を地域毎に変更しないといけなく、それを解消するためにUnicodeが開発された。
ISO(国際標準化機構) と IEC(国際電気標準会議) で標準化された。
元々は1文字2バイトで表す予定でしたが、収録できない文字もあったため拡張規格が作られた。
Unicodeができるまでは英語ともう一つの言語は使えたが、もっと多くの言語は同時に使えなかった。
そこでUnicodeが作られ、世界中の文字コードを統一して使えるようにした。
言語の種類でプログラムの変更も不要になり、国際化ができるようになった。
おまけでUTF-8 とは
Unicodeで標準化された符号化方式の一つで、
Unicodeの符号を8bitで単位表す。
最初の128文字はASCIIと一緒で、128~255番では従来1バイトで表現されていたものが2バイトになり、
日本語など2バイトで表現されていたものは3バイトになった。
勉強後イメージ
よくUTF-8を文字コードだって言ってたけど
あれば符号化方式であって文字コードではないのね。