勉強前イメージ
符号化方式ってのがいまいちこう!ってのがまだ掴めてない
調査
文字コード(CSS) とは
文字コードとはコンピュータ上で文字や記号をデータとして扱うために
一文字に固有の識別番号を割り振って区別できるようにしたものを言います。
コンピュータは0と1の組み合わせで、文字をデータ化したものはデータ量が多い。
そのため識別番号を割り振って0と1で文字列を表現、この対応関係を文字コードという。
詳細は こちら をごらんください。
文字コードの規格には ASCII や JIS X 0208、 Unicode がある。
- ASCII
American Standard Code for Information Interchange の略で、
最初に標準化された文字コードです。
英語に使われる文字しか入ってなかった。
- JIS X 0208
今でも使用されている日本語の文字コード(JISコード)。
現在までに何度か改定が行われています。
ASCIIと工法互換性があります。
- Unicode
文字コードの国際的な業界標準の一つ。
Unicodeができる前は、各国別々に標準化された文字コードが使われてたが
テキストの処理を地域毎に変更しないといけなく
それを解消するためにUnicodeが開発され世界中の文字コードを統一して使えるようにした。
文字符号化方式(CES) とは
文字コードで定義された文字をコンピュータで使えるように変換する符号化方式のこと。
言語や環境によって符号化方式があって、一般的に文字コードと呼ばれることが多い。
UTF-8やShift_JiSはここで言う符号化方式と呼ばれています。
文字コードのビットの組み合わせに対してビット値を与えます。
- Shift_JIS ← JIS X 0208
JIS X 0208の文字コードのビット値を計算する方式でShift_JISという文字符号化方式が使われています。
- UTF-8 ← Unicode
Unicodeの文字コードのビット値を計算する方式でUTF-8という文字符号化方式が使われています。
他にもUTF-16,UTF-32
勉強後イメージ
めちゃくちゃややこしくなったけど、まとめたら↓かな?
- ASCII や JIS X 0208、 Unicode → 文字コード,文字集合(CSS) : 文字と番号の対応表
- Shift_JIS、UTF-8やUTF-16,UTF-32 → 文字符号化方式(CES) : 符号化してコンピュータで扱えるようにしたもの
辞書(CSS)とそれを読む方法(CES)みたいな解釈してる、ちょっと違うかもやけど。
難しい。