More than 3 years have passed since last update.

[Java] シフトJISの扱い

118

Last updated at 2023-06-15Posted at 2015-10-23

目的

Java における SJIS と MS932 の相違点と、扱う際の注意点をまとめます。

SJIS/MS932 での値を 0xHHHH 形式で表記していますが、１バイト目が上位、２バイト目が下位、つまり big endian (network byte order)です。

いわゆる「シフトJIS」には何種類もありますが、主なものは以下の２つだと思います。

SJIS (Shift_JIS)
Microsoft が作成したシフトJIS符号化法を、JIS X 0208 に取り込んだもの。
扱える文字集合は当時のJIS漢字(JIS X 0201/0208)の範囲のみ
MS932 (Windows-31J)
Microsoftは、日本語用の文字セットをコードページ932として管理しており、MS-DOS時代には各OEMベンダーでコードページの独自拡張を許可していた。
しかしWindowsを作る際にはコードページの独自拡張を許可せず、それまでに広く使われていたIBMとNECの文字セットを統合して、新たなコードページ932を作成した。
Javaでは、IBMのコードページ932を"CP932"、Microsoftのコードページ932を"MS932"という名前で扱っている。

※Java以外ではMicrosoftのコードページ932のことも"CP932"と呼ぶことが普通だと思うので注意。

参考：

SJIS/MS932 では扱える文字集合が異なります。

文字の種類	SJIS	MS932	補足
JIS第1水準	○	○
JIS第2水準	○	○
NEC特殊文字	×	○	0x8740～0x879c
NEC選定IBM拡張文字	×	○	0xed40～0xeefc
ユーザ外字	×	○	0xf040～0xf9fc
IBM拡張文字	×	○	0xfa40～0xfc4b

ちなみに、２バイト文字の範囲は以下のとおりです。

※Microsoftはこれらの文字を使わないようにと指示しているらしい。同じ文字がIBM拡張文字にあるからだと思われる。

いまさら気にしなくてもよさそうなぐらい古い話ですが、Java におけるCharset名の "Shift_JIS" は途中で意味が変わった（間違えていた）ことがあるらしい。

古い環境でも動作させる必要がある場合には、 "Shift_JIS" は使わないほうが良いかもしれない。

※IANAの正式な登録名は "Shift_JIS" なんですけどね。

SJISとMS932では、Unicodeコードポイントのマッピングが一部異なります。
具体的には以下の７文字が異なります。

そのため、SJISとMS932の文字コード変換を混在させると、文字化けすることがあります。
また、Unicodeでは別のコードポイントにマッピングされるので、検索不一致などがおきる可能性があります。

※外部データの読み書きだけではなく、ソースやリソースに記載の文字にも同様の問題がありえることに注意。

MS932 では、同じ文字が複数のコードで表現されていることがあります。

Unicodeのコードポイントは１つしかないため、これらの文字はデコードの際に１つのコードに集約されます。その結果、デコード後にエンコードをすると異なる値になる文字があります。
集約時の優先順位（エンコード時のマッピング）は以下の通りです。

いくつか具体例を示します。

115