忙しい人向けまとめ
- 行政事務標準文字は行政業務の標準化のために定められた文字集合。漢字のほか、ひらがな・カタカナなど必要な字を約7万字を収録
- MJの拡張で、MJ+とも呼ばれる?
- MJはIPAmj明朝で、追加文字は専用フォントで、コンピュータで表示することができる
- 1ファイルのフォントの字数上限約6.5万字を超えるため1ファイルでは扱いきれないが、実用上十分な量の字が1ファイルで扱えるフォント「DWPI明朝」がある
- MJの字はUnicodeで扱える。追加文字は、現状ではUnicodeの私用領域に収録されている
- 異体字を正しく扱うために原則としてIVS(異体字セレクタ)への対応が必要。ただ、IVS非対応の環境向けのフォールバックも用意されている
いきさつ
まずは参考リンクを
日本人の戸籍にとって漢字は大きなアイデンティティです。
戸籍に使われる漢字は、手書きで記録されてきたために微妙に字体の異なるものが多く存在しており、その数は6万字にものぼります。
しかし、JIS X 0213という漢字について定めた規格に収録されている字は1万字程度であり、戸籍に使われる漢字は到底その規格では表しきれません。
そこで使われているのが外字です。外字の定義は難しいですが、ここでは「JIS0213に定められていない字」とします。
Windowsで使われるShift-Jisでは、外字を表すのに私用領域を用いますが、コードポイントと字の対応はベンダごとにまちまちで、またフォントグリフも専用に作成せねばならず、共通化にとって大きな障壁です。
そこで、文字の標準化を行いました。
戸籍と住基ネットの文字を同定したMJという文字集合があります。
行政システムで使われる文字をひたすら集め、MJとの同定を行いました。多くの字がMJに収録された字と同定されましたが、MJで表せない字も1万字程度あることがわかりました。
MJ約6万字、ひらがな・カタカナが1000字程度に、この1万字を加えた約7万字の巨大な文字集合が「行政事務標準文字」です。MJ+とも呼ばれるようですが、使い分けはよくわかりませんでした。
以降、MJ非収録で、行政事務標準文字によって追加された文字を、単に「追加文字」とよびます。
行政事務標準文字をコンピュータで扱う
フォント
行政事務標準文字はMJの拡張です。MJに収録されている文字はIPAmj明朝で扱うことができます。
MJに収録されていない追加文字を扱うために、デジタル庁から「行政事務標準文字フォント」が提供されています。(このフォントは一般向けには提供されていない様子)
これらを組み合わせて、行政事務標準文字をすべてコンピュータで扱うことが出来ます。
しかし、一般的なフォントファイルは扱える字の上限が約6.5万字程度、7万近い行政事務標準文字は1つのフォントファイルで扱うことができず、不便です。
そこで、一般社団法人デジタル広域推進機構から提供されているのが「DWPI明朝」です。MJ文字のなかには使用実績がないなどで、実際の行政業務では使用されないと見込まれている文字があり、それらを除いた4万字を収録し、フォントファイルの制限に対応しています。
Unicodeとの対応
MJ内の字はすべてUnicodeとの対応が定まっており、問題なく扱うことができます。
しかし、追加文字についてはUnicodeに収録されていません。そこで、行政事務標準文字フォントでは、追加文字の定義に私用領域を使っています。
私用領域の用途は本来定められていないため、「PUP領域を利用したデータは当該システム外では流通させないことを前提として、連携においてはUCS及び暫定利用PUP形式でデータ交換することを原則とする」との記述が見られます。
今後、これらの字がUnicode(および、互換規格のISO/IEC 10646)で定義されれば、永続的なコードポイントが割り当てられるものと思われます。
一部の字は異体字として定義されており、IVS(異体字セレクタ)に対応している必要があります。最近のソフトウェアで問題になるものは少ないと思われますが、IVS非対応の環境のために、私用領域にも異体字を収録するとしています。
まとめ(再掲)
- 行政事務標準文字は行政業務の標準化のために定められた文字集合。漢字のほか、ひらがな・カタカナなど必要な字を約7万字を収録
- MJの拡張で、MJ+とも呼ばれる?
- MJはIPAmj明朝で、追加文字は専用フォントで、コンピュータで表示することができる
- 1ファイルのフォントの字数上限約6.5万字を超えるため1ファイルでは扱いきれないが、実用上十分な量の字が1ファイルで扱えるフォント「DWPI明朝」がある
- MJの字はUnicodeで扱える。追加文字は、現状ではUnicodeの私用領域に収録されている
- 異体字を正しく扱うために原則としてIVS(異体字セレクタ)への対応が必要。ただ、IVS非対応の環境向けのフォールバックも用意されている
感想
追加文字が私用領域に定められるということで、これでは結局外字と同じじゃないかと一瞬思ってしまうのですが、きちんとコードポイントと文字の対応が定められ、フォントが提供されるというのはやはり画期的ですね。
わが国はこれでようやく外字とおさらばできるのでしょうか。