More than 5 years have passed since last update.

文字コード周辺情報をまとめてみた

Last updated at 2019-08-18Posted at 2019-08-18

機種依存文字チェックを行う必要があり、その際に文字コードはなんのためにあるのか
どんな仕組みで文字が表示されるか明確にわかっていなかったので、概念理解のために調べたことをまとめてみました。

文字コードとは？

文字を表示するために必要なコード。
文字は、PC上ではビット列で管理されていて、これを文字コード(表)を用いて文字に変換することで表示しています。

この文字変換コードを隣のコードと合わせて読み込み誤認識したり、文字変換表にないビット列を読み込むと、「文字化け」になります。

文字コードは「文字符号化方式」を使って、ビット列をPCが読み取れるデータ列に変換します。

符号化文字集合 (coded character set) ，符号 (code) 文字集合を定め，かつ，その集合内の文字とビット組合せとを 1 対 1 に関係付ける，あいまいでない規則の集合

日本語の符号化文字集合として重要なものを表にまとめました。

文字コード	概要	ビット桁数	収録文字数	規定文字
ASCII	ラテン文字を中心とした文字コード	7ビット単位1バイト	128文字	英数字と一部の記号
JIS X 0201	JISにおける最も古い文字コード	7ビット及び8ビット単位1バイト	192文字(制御文字：32文字)？	ラテン文字と片仮名
JIS X 0208(Shift-JIS)	日本語基本文字コード規格	7ビット単位2バイト	6,355字	基本文字コード第1水準（2,965字）・第2水準（3,390字）
JIS X 0213	JIS X 0208の拡張規格	7ビット単位2バイト	10,050字	JIS X 0208へ第3水準（1,259字）・第4水準（2,436字）を追加した拡張規格
Unicode	全世界の文字の収録を目的とした文字コード	8ビット単位の1〜4バイト	？	日本語文字はほとんどをカバーしているが、一部含まれていない例外文字もある

日本語の漢字の表示は、JIS X 0201 → JIS X 0208 → Unicodeと符号化文字集合を作ることで
改善されてきた経緯があります。

ただ、現在もメール送付は、ISO-2022JP(JIS X 0208)の漢字を使う方法が主流です。
また、JIS X 0208に含まない第3・第4水準の漢字をメールに使うと文字化けする可能性があります。

文字符号化方式（もじふごうかほうしき、英: character encoding scheme、CES）とは、符号化文字集合で文>字に対応付けた非負整数値を、実際にコンピュータが利用できるデータ列（通常、バイト列）に変換する符号化方式。

一般的な文字コードは、この符号化方式にあたります。

Shift_JIS
EUC-JP(Unix系OS)
UTF-8
UTF-16

UTF-＊は、Unicodeを実装。
Shift_JISやEUC-JPは、JIS X 02**を実装し、文字コードとして定義しています。

Shift_JISの名称として他に、CP932、Windows-31J、MS932というものが存在しています。
ベンダーの独自拡張を統合した文字コードとして、名前がつけられており、システム開発時に
文字コードを指定する際に、別名称で指定する場合があります。

詳細は以下の表に記載しました。

文字コード	説明
Shift_JIS(CP932)	1982年に作成されて日本語を表示できる文字コード
CP932	Shift_JISをマイクロソフトが独自拡張して、管理番号CP932とした文字コード
Windows-31J(MS932)	IBM,NECが独自拡張したCP932を統合してWindows3.1日本語版発売時に作成した文字コード
MS932	IBM,NECが独自拡張した文字が統合されたShift-JISで、CP932と区別するためにつけられたWindows-31Jの別名称

機種(OS)毎で、表示できたりできなかったりする文字です。
Windowsでは表示できるけど、Mac OSXでは表示できなかったりします。

Shift_JISでは、文字集合 JIS X 0208以降にIBMやNECなどによって独自拡張されたエリアの文字は機種依存文字となっている場合が多いです。

ただ、Unicodeの文字集合で実装された文字コード(UTF-8など)では、
Windowsなどで機種依存文字であっても、UTF-8は別機種でも異なるコードを指定することがないため、表示可能となっています。
未収録の文字に関しては、もちろん文字化けしてしまいますが。。

Shift_JISにおける以下のエリアは、誤認識して文字化けしたり、独自拡張された文字が存在しているエリアです。
この文字が使われていないかチェックすることでShit_JISにおける文字化けの多くを回避することができます。

禁止区域名	Shift_JISコード	説明
半角カナ文字エリア	00A0～00FF	使用厳禁、ASCII コードと重複するエリア
特殊文字エリア	8540～889E	機種依存文字の主なエリア
縦文字エリア	EB40～EFFC	第２水準漢字の後部（MacOS では縦書用文字、Windows では特殊な外字）
外字エリア	F040～	JIS外字エリア

文字コード規格やフォントに収録されている文字を「内字」と呼びます。
それ以外の収録されていない文字は「外字」と呼ばれます。

Shift_JISにおいて外字エリアが存在しているが、このエリアは規格外の領域のため、機種依存文字が割り当てられている場合が多いです。

もう一つ気になるのが、文字コードとフォントの関係。
どちらもデータ列から文字に変換する変換表という意味で共通しています。

ただ、以下のようにそもそも用途が異なり、種類数が全然違います。

文字コード：ビット列を文字として表示する。数種類しかない
フォント：ビット列を文字の形やデザインを考慮した文字として表示する。日本語でも数千以上存在する

ここまで見てきた情報をまとめると、文字化けしないためには、以下を満たす必要があります。

繰り返しになりますが、同じ文字コードでも機種依存文字は、機種(OS)毎にコードが異なるため、認識できない、もしくは別の文字が表示されてしまう場合があります。

ただフォント未実装に関する文字化けは、意識する必要はなくなってきています。

Windows、Mac OS Xなどの最新OSでは、
フォントに実装されていなくても、他のフォントに表示を代替させる仕組みを実装しています。

ただし、異なるフォントが使われ、思わぬ表示結果になることもあるため、その点は注意が必要です。