はじめに
今回は文字コードについて気になったので軽く調べたことをメモ程度にまとめていきたいと思います。
目次
①文字コードとは
②文字コードの種類と特徴
③雑談
④参考文献
①文字コードとは
簡潔に文字コードとは、「あ、い、う、え、お」などの文字一つ一つにコンピューターが理解しやすいように特有の番号を割り振りっています。その文字コードの種類は様々です。具体例を挙げてみると下記のようになります。
文字コード名 | 文字コード | 文字 |
---|---|---|
UTF-8 | E38181 | あ |
S-JIS | 829F | あ |
EUC-JP | A4A1 | あ |
このように同じ「あ」という文字を表すだけでも文字コードの違いによって大きく異なってくるのです。
この原理がわかればたまにサイトを見ていて「å°ã«ãã¾ãã」このように文字化けしてしまう理由もなんとなく理解できるのではないでしょうか。
②文字コードの種類
調べてみて代表的だったいくつかの文字コードを紹介します。
文字コード名 | 文字コード |
---|---|
ASCII | 最も基本的な文字コード、アルファベットや数字、記号などを収録した文字コード。 |
JIS | 日本が定めた日本の文字コード。 |
Shift_JIS | 日米のコンピュータ業界数社が共同で開発した日本語を含む文字コード。 |
UTF-8 | 最もポピュラーな文字コードの一つ。 |
③雑談
文字コードを知る過程で「Unicode」や「UTF-8」について認識が曖昧だと感じたので少し深掘りしてみた。
Unicode → 「あ」のような文字が数値(コードポイント)に変換されたもの。その数値達を文字符号化集合と言います。
UTF-8 → コードポイントをどのように表現するかをさらに定める方式である(文字符号化方式)
参考文献にもっと詳しく紹介している方がいたので掲載してあるので興味のある方はぜひ読んでみてください。
④参考文献
・https://e-words.jp
・https://qiita.com/omiita/items/50814037af2fd8b2b21e (UnicodeとUTF-8の違いについてはこちらから)