UnicodeのCJK互換文字領域、U+3300からU+3357にかけてカタカナ組文字、そう、あの"㌠"なんかを含む文字の一群が並んでいます。。
これらの文字、カタカナですし明らかに日本由来なのですが、JIS文字集合(JIS X 0213)にはないものです。JISからの採用でないということは、Unicodeのために新たに作られた文字? そんなわけはありません。だって「互換文字」なのです。
互換文字とは、新規の文書では使うべきではないが、既存文書からの変換のときだけ使い、できればUnicodeの(互換文字でない)文字に正規化すべき文字です。つまり、由来がどこかにあるはずなのです。
JISでないといっても、IBM拡張漢字でもMacJapaneseでもなく、一体どこから来たのでしょう?
新聞社向けの文字集合
カタカナの組文字をよく見かけるといったら新聞記事、そうなんです、新聞社向けの文字集合というのがありました。
共同通信社が制定して新聞各社共通となったK-JISという文字コードです。K-JISの歴史は古く、なんとJIS78制定と同時にその外字として誕生しました。
さて論より証拠、文字コード表をご覧あれ。
http://www.iwatafont.co.jp/format/gaiji_pdf/kjis095-120w.pdf
107区から108区にかけてずらっとあの組文字が並んでいます。Unicodeのものとは順が違いますが、同じ集合です。カタカナ組文字の由来はK-JISでした。
そして102区から103区ご覧ください、ウッ、なんとこれら組文字の縦書きグリフが別コードで!
そのほか"。"と"』"の合字とかその縦書きグリフとか、現代的にはかなり困った文字も大量に含まれております。99区にあるカッコと漢数字(または「つ」)の組文字、これなんだと思います? これ新聞紙上で年齢を表記するときに使う文字ですよね。「つ」は"(六つ)"とか表記するときのですよ。
こんな厳しい文字集合から採用文字を取捨選択したUnicode関係者の皆様ほんとお疲れ様でした。