More than 5 years have passed since last update.

【図解】【3分解説】UnicodeとUTF-8の違い！【今さら聞けない】

414

Last updated at 2019-11-25Posted at 2019-11-25

はじめに

UnicodeとUTF-8の違いについて理解が曖昧だったので、調べました。コード書いててたまに巡り会いますよね。
調べたら説明が長いサイトが多く、予想以上に時間がかかってしまったのでここでは直感的に説明。

読んで分かりやすかったり少しでも何か学べたと思えたら いいね や コメント をもらえるとこれからの励みになります！よろしくお願いします！

~流れ~

あくまで私がしっくりくる説明です。UnicodeとUTF-8の私のイメージを図で表すと下図。

【説明】
パソコンが文字を理解するまでには 文字→[Unicodeを参照]→コードポイント→[UTF-8による変換]→符号→[パソコン理解] という流れ。

Unicode: 世界中のあらゆる文字たちにとりあえず16進数の数字(コードポイント)を割り振った表。つまり、「文字 → コードポイント」に変換する表のようなもの。

Ex.) 「あ」のコードポイントは「3042」

UTF-8: Unicodeで割り振ったコードポイントをパソコンがわかるように別の16進数の数字(符号)に変換する方法の1つ。変換方法の違いでUTF-16とかUTF-32とかの仲間がいます。つまり、「コードポイント → 符号」に変換する方法 の1つ。

Ex.) コードポイント「3042」をUTF-8で符号に変換すると「E38182」(16進数)

これでざっくりと

ということがわかって頂けたかと思います。以上です。
(Unicodeのコードポイントをそのままパソコンに理解させるよりもUTF-8などによる符号を使う方がバイト削減できるため、UTF-8で符号化している。詳細は後述の雑談)

UTF-16のことをUnicodeと記しているソフトウェア(Windowsのメモ帳など)もありますのでUnicodeとあったらそれはUTF-16を使って変換したものなのだな、というふうに理解してください。そうなってしまっている理由はこちらで解説されていました。

これでUnicodeとUTF-8の違いはバッチリですね！おわり。

読んで分かりやすかったり少しでも何か学べたと思えたら いいね や コメント をもらえるとこれからの励みになります！

手計算で文字をUTF-8での符号まで計算してみましょう。
理解が一気に深まります。手順は以下。

**Omiitaの「お」**をUTF-8による符号まで変換してみます。

「お」のコードポイント:304A

コードポイント「304A」をUTF-8の方式で変換してみる。
2.1 まず「304A」を2進数に変えます。
2.2 (コードポイントが0800 … FFFFの間にある今回の場合)、先頭から4, 6, 6ビットに分けます。
2.3 分けたものにそれぞれ先頭からE0,80,80を足せば、終了です。

[2.1] 304A => 0011000001001010
[2.2] 0011000001001010 => 0011 / 000001 / 001010 => 03 / 01 / 0A (16進数)
[2.3] 03010A + E08080 = E3818A

これで「お」はUTF-8で「E3818A」であると計算できました。
あとはこちらのサイトでCtrl+Fで「E3818A」を検索すると「お」であることがわかります。
(10進数で示すなら「お」=> 「E3 81 8A」 => 「227 129 138」となります。)

厳密にはUnicodeは「符号化文字集合体」、UTF-8などは「文字符号化方式」と日本語で言われています。
UTF-8ではアルファベットは1バイトでひらがなは3バイトです。
コードポイントをそのまま符号として使う方式はUTF-32 と呼ばれています。
UTF-32のようにコードポイントをそのまま使おうとすると世の中の文字は大量にあるので、あらかじめコードポイントを4バイト長にしなくてはならないので符号が全て4バイトになってしまい非効率です。
符号化文字集合体(Unicode)を文字符号化方式(UTF-8など)で符号化する意義についてはこちらの質問でまさに議論されています。

202