5
9

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

Windowsにおけるユニコード、異体字は今どうなっているのか

Last updated at Posted at 2018-02-15

記者の眼

Unicodeは「使える」から「知らずに使う」フェーズへ
中田 敦=ITpro
 Windowsにおいて「Unicode」は,長らく「使える」けれども「あまり使われない」存在だった。その状況が「Windows Vista」と「the 2007 Microsoft Office」で変わろうとしている。この2製品に付属する「Microsoft IME」で,「WindowsではUnicodeでしか扱えない文字」が,変換候補として頻出するようになったからだ。Unicodeはいよいよ,一般ユーザーが「知らずに使う」存在になるだろう。

マイクロソフトがUnicodeに対応したのは,「Windows 98」と「Windows NT 4.0」

 マイクロソフトがUnicodeに対応したのは,「Windows 98」と「Windows NT 4.0」からだ。このとき,「JIS X 0212」の「補助漢字」も,エンコーディングにUnicodeを使えばWindowsで利用できるようになった。同時に,JIS X 0212の補助漢字などを使った単語が,Windows OSやMicrosoft Officeに付属する「Microsoft IME」の辞書に登録された。つまり,「Unicodeでしか扱えない文字」,別の言い方をすると「シフトJISでは扱えない文字」が,Microsoft IMEを使って簡単に入力できるようになったのだ。

ただし従来(「Windows XP」と「Office 2003」まで)は,一般ユーザーが「Unicodeでしか扱えない文字」を使うことはまれだった

 ただし従来(「Windows XP」と「Office 2003」まで)は,一般ユーザーが「Unicodeでしか扱えない文字」を使うことはまれだった。なぜなら,Microsoft IMEにおいてデフォルトの状態で利用される「標準辞書」には,「Unicodeでしか扱えない文字」がほとんど登録されていなかったからだ。

 Microsoft IME 2003で「単漢字辞書」や「人名地名辞書」を利用するには,IMEのツールバーで「変換モード」を「人名/地名」に変更する必要がある(図1)。Microsoft IME 2003のユーザーの多くは,変換モードを「一般」にしていることだろう。従来のWindowsやOfficeでは,Unicodeは「使える」けれども,「あまり使われない」状態だったのではないだろうか。

図1●Microsoft IME 2003で「変換モード」を「人名/地名」に変更した画面
Windows VistaとOffice 2007で「Unicodeの単語が頻出」

Office 2007

 この状況が,Windows Vistaに付属するMicrosoft IMEと,Office 2007に付属する「Microsoft IME 2007」によって大きく変わろうとしている。ITproの「特番:Windows Vistaの新文字セットが引き起こすトラブル」というサイトで何度も取り上げたように,Windows VistaやOffice 2007は「JIS X 0213:2004」や,2000年12月に政府の国語審議会(現在は文化審議会国語部会)が「表外漢字字体表」という答申で「印刷標準字体」として示した「正しい字体」に対応した。その結果,Windows VistaやOffice 2007の付属IMEで,「Unicodeでしか扱えない文字」を含む単語が変換候補として頻出するようになったのだ。

 Windows VistaとOffice 2007のMicrosoft IMEには,もう1つ大きな変化がある。それは「単漢字辞書」や「人名地名辞書」が従来よりも使いやすくなったことだ。こちらの詳細は後述するので,まずはIMEの視点で見た「JIS X 0213:2004」と「表外漢字字体表」への対応について説明しよう。

 Windows Vistaに付属する「Microsoft IME」とOffice 2007に付属する「Microsoft IME 2007」では,「JIS X 0213:2004」で追加された文字も入力できるようになり,辞書に新たに740文字が追加された(その結果,Microsoft IMEで入力できる文字の総数は1万670文字になった)。

 これに伴い,Microsoft IMEの辞書には「Unicodeでしか扱えない文字」を含む単語が約1700個増え,合計9700単語になった。このうち,デフォルトで利用される「標準辞書」に登録された単語の数は,従来の37単語から大幅に増加して400単語になった。

 この400単語には,利用頻度の高い単語がかなり含まれている。一例を図2に示そう。

Office 2003のIMEで「うそ」「しかる」「やせる」「はがす」「のむ」「しげる」と入力して変換すると,「嘘」「叱る」「痩せる」「剥がす」「呑む」「繁る」といった漢字が変換候補として出てくる。しかしこれらは,2000年12月の「表外漢字字体表」によって「正しくない漢字」になってしまった。そして図2で示すような「Unicodeでしか扱えない文字」が,「印刷標準字体」という「正しい漢字」になった。

 「表外漢字字体表」と「JIS X 0213:2004」の関係や,Windowsの文字セットやフォントの関係は非常に複雑なので,詳しくは既存記事「VistaでUnicode以外の選択肢はなかったのか?──京大の安岡助教授が語る,」や,前述の特番サイトなどを参照していただきたい。

 大まかに言うとマイクロソフトは,「表外漢字字体表」で示された「正しい漢字(印刷標準字体)」や「JIS X 0213:2004」に対応するために,Windows VistaとWindows XPに提供する「JIS X 0213:2004対応フォント」に文字を追加したり,既存文字の字形を変更したりした。それに加えてWindows VistaとOffice 2007のMicrosoft IMEで,「Unicodeでしか扱えない文字」を変換候補に登場させるようにしたのである。

「Unicodeの単語」をむやみに増やしたわけではない

 ただしマイクロソフトは,「JIS X 0213:2004で使える文字が増えたからといって,今まで使われていなかった漢字を『標準辞書』に大量に追加したわけではない」という。今までの「標準辞書」に含まれる単語を「表外漢字字体表」が示す「正しい漢字(印刷標準字体)」に変換されるように改めただけで「Unicodeでしか扱えない文字」を含む単語が400個にまで増えた,と説明する。

 また,Windows VistaとOffice 2007のMicrosoft IMEでは,「Unicodeでしか扱えない文字」には,「環境依存文字(unicode)」という説明が加わるようになった(図3)。図3にあるように,Unicodeでしか扱えない文字が「印刷標準字体」である場合は,その旨も表示される。つまり「印刷標準字体だけれどもUnicodeでしか扱えない文字」と「印刷標準字体ではないけれどもシフトJISで扱える文字」のどちらを使うか,ユーザーに判断を委ねている(従来の字形には「簡易慣用字体」または「デザイン差」という説明が付く)。
 さらに,Windows VistaとOffice 2007のMicrosoft IMEは,プロパティの設定で「環境依存文字」を変換候補に出さないように設定可能だ。この設定項目は,Active Directoryのグループ・ポリシーを使って一元管理できる。Windows VistaやOffice 2007に移行しても,「社内にシフトJISのアプリケーションが残っているので,社員にUnicodeを使わせない」といったポリシーの運用が可能である。
単漢字辞書と人名地名辞書が使いやすくなった

 それでも,Windows VistaとOffice 2007を使うユーザーが,「Unicodeでしか扱えない文字」を使う頻度は今後高まるだろう。なぜなら,Windows VistaとOffice 2007のMicrosoft IMEでは,「Unicodeでしか扱えない文字」を使った単語を9000個以上含む「単漢字辞書」と「人名地名辞書」が,従来よりも使いやすくなったからだ。

 Windows XPやOffice 2003までは,「単漢字辞書」と「人名地名辞書」はプロパティで設定を変更しなければ利用できなかった。それが,Windows VistaとOffice 2007では,「単漢字辞書」と「人名地名辞書」がシームレスに利用できるようになった。

 図4を見ていただきたい。変換候補の最後に「6 単漢字」という項目がある。この項目をマウスでクリックしたり,数字の「6」キーを押したりすると,図5のように単漢字辞書に含まれる単語が変換候補に表示される。

 「人名地名辞書」も同様である(図6)。「単漢字辞書」や「人名地名辞書」は,これまではMicrosoft IMEに詳しいユーザーしか知らない「隠れた存在」だった。それがWindows VistaとOffice 2007では,常時露出するようになったのだ。多くのユーザーは「環境依存文字(unicode)」という注釈があったとしても,ためらわずにこれらの文字を使うだろう。

いよいよやってきた「Unicode時代」

 Microsoft IMEに着目すると,「Windows Vistaの文字セット問題」は,「Office 2007と『JIS X 0213:2004対応フォント』をインストールしたWindows XPの問題」であり,「ただ単に字形が変わる」だけの問題でないことが分かる。
飴飴
 これまでも,Mac OS Xの「ことえり」やジャストシステムの「ATOK」などで,「JIS X 0213:2004」で追加された文字を含む単語の変換が可能であった。そこに圧倒的なシェアを誇るMicrosoft IMEが加わったのだから,不特定多数にアプリケーションを提供する事業者に対する,Unicodeへの移行圧力が強まるのは避けられないだろう。

公共機関向けトップ>Windows 8 の IVS 対応と IVS Add-in for Microsoft Office

JIS2004 の登場【字体・字形の問題】

2000 年 文部科学省の国語審議会は、法令、公用文書、新聞、雑誌、放送等、一般の社会生活において表外漢字 (注 1) を使用する場合の印刷文字字体選択のよりどころとして「表外漢字字体表」を答申しました。表外漢字字体表に合わせる形で、2004 年に日本語の文字コードを規定する日本工業規格 (JIS) が改定され、JIS X 0213:2004 (通称 JIS2004) となりました。JIS2004 では、168 字の例示字形が変更されました。
2007 年 JIS2004 に対応した最初の OS として発表されたのが Windows Vista です。Vista では、JIS2004 への移行に伴い、122 字の字形が変更されました。JIS90 の字形が JIS2004 の字形に置き換わったため、これまで使用していた字形が使えなくなる現象に対しては、フォントパック (注 2) を提供し、ユーザーの判断で新旧の字形を選択することを可能にしました。
注 1 常用漢字表にない漢字
注 2 Windows XP 向け JIS2004 フォントパックおよび Windows Vista 向けの JIS90 フォントパック

外字問題【対応文字数の問題】

マイクロソフトは、PC で扱うことのできる文字を拡張するために、JIS 第 1 水準および第 2 水準漢字 (JIS X 0208 6,355 字) をベースとしたシフト JIS の文字に加え、1998 年には JIS 補助漢字 (JIS X 0212 5,801 字) を追加し、仮名、英数字、記号などを含む合計 12,156 字の文字を、標準フォントとして組み込みました。
2007 年発売の Windows Vista では、JIS 第 3 ・第 4 水準漢字 3,695 字を収録する JIS2004 に対応 (注 3) しましたが、依然として、人名や地名を含むすべての漢字を表現できるわけではありませんでした。
多くの自治体は、そうした漢字を情報システムで扱えるようにするために、独自に文字コードを作成し、システムに登録して運用しています。このような文字は「ユーザー定義文字」あるいは「外字」と呼ばれています。外字には、異なるシステム間で相互運用性やデータ互換性がない、あるいはベンダーロックインの原因になるなどの弊害があります。
注 3 JIS2004 で追加された多くの漢字は、JIS X 0212 と重複しているため、実質的な文字数の増減はあまりない。

背景:文字に関する国の方向性と事業

汎用電子情報交換環境整備プログラム事業

「汎用電子情報交換環境整備プログラム」は、行政機関の IT システムで使用される文字の整理、体系化を目的として、平成 14 ~ 17 年度 (フェーズ 1) および平成 18 ~ 20 年度 (フェーズ 2) に行われた経済産業省の事業です。この事業を通じて、戸籍統一文字、住民基本台帳ネットワーク統一文字 (住基統一文字)、さらに登記業務に使用される文字を対象として、人名、地名等に使用される漢字についての調査研究が行われ、共通の文字情報データベースが整備されました。また、整備された文字情報データベースに基づき、ISO/IEC 10646 (国際符号化文字集合) に、必要な文字の追加提案が行われました。
同事業の成果として、戸籍統一文字、住基統一文字、登記統一文字が整理統合され、67,951 字の「漢字情報テーブル」が作成されました。
http://www.meti.go.jp/information/downloadfiles/c100806a04j.pdf(新しいウィンドウで開きます)

文字情報基盤整備事業

「文字情報基盤整備事業」は、汎用電子情報交換環境整備プログラムで整理、体系化された文字に対してフォントを提供すること、および国際標準規格である Unicode 規格の一つである IVS/IVD に対応することを目的として、平成 22 年度に実施された経済産業省の事業です。この事業の成果として、独立行政法人情報処理推進機構 (IPA) が 58,713 字の「IPAmj 明朝フォント」を開発し、2011 年 5 月に一般に公開されました。
http://www.ipa.go.jp/about/press/20110518.html(新しいウィンドウで開きます)

Window 7

MSの公式サイトはここが抜けている。
Windows7 + Word2010: 異体字/外字/非常用漢字を簡単に入力するには

設定

「辞書/学習」タブで「単漢字辞書」を選択し「一般」「人名/地名」「話し言葉優先」にチェックを入れ「OK」をクリック

IMEパッドを使う

Windows7では最新のJIS文字集合規格JISX0213:2004(通称JIS2004)を標準でサポート しています。
このJIS2004には、一般に非常用漢字と呼ばれるJIS第1・第2水準以外の漢字(第3・第4水準 )も収録されているためこれまで入力困難だった字も簡単に入力できます。

フォントを切り替えるという技術

しんにょうに十のつじの字を入力したい
Windows 7では、既定のままでは一点のしんにょうの辻の字は表示されません。
下のサイトから、[KB927490]をインストールすることで表示できるようになります。
Windows Vista、Windows Server 2008、Windows 7 および Windows Server 2008 R2 で旧 JIS90 文字セットを使用する方法

フォントによって、違いますから気をつけてください。
文字も、辻も必要な場合は、フォントを切り替えて使用するのも1つの方法かと思います。

Windows 8 で何が変わるのか?

国の事業で整備された文字を扱う基盤

Windows 8 は Unicode IVS/IVD に対応することで、今まで外字を使うことでしか表現できなかった約 58,000 字の漢字を利用できる環境を提供します。
Windows 8 のデフォルトはどうなっているのか?

JIS2004 対応時に変更された JIS90 字体 (122 字) が、Unicode IVS を利用することによって、JIS2004 字体と同様に使えるようになりました。両字体の混在も可能です。
Windows 8 は、Hanyo-Denshi IVD をデフォルトで扱えます。ただし、その膨大な文字を表現するフォントは標準では用意されていません。独立行政法人情報処理推進機構 (IPA) が公開している IPAmj 明朝フォント をインストールすることで、Hanyo-Denshi の文字を入力・表示することが可能になります。

Unicode IVS Add-in for Microsoft Office とは

概要

Unicode IVS Add-in for Microsoft Office は、Windows Vista または 7 上の Office 20007、Office 2010 で Unicode IVD に対応するためのアドインソフトです。
IPAmj 明朝をはじめとする Unicode IVD 対応フォントと組み合わせて使用することで、Word、Excel、PowerPoint などのマイクロソフト製品上で、異体字を含むデータの入力・表示・編集・印刷などが可能になります。

Windows / Office のバージョンによる比較

Windows Vista / 7 Office 2007 / 2010 Windows Vista / 7 Office 2007 / 2010 +IVS Add-in Windows 8 Office 2013
Unicode IVS/IVD 対応 X O O
異体字対応 △ユーザー定義文字(外字)による対応 O国際標準である Unicode IVS/IVD による対応 O国際標準である Unicode IVS/IVD による対応
IME による異体字入力 Xできない △IME ではなく、IVS Add-in を起動させて入力(注) ○IME による入力が可能
フォント ×独自もしくは特定の外字に対応したプライベートフォント ○OpenType に準拠したフォントを自由な選択住民基本台帳、戸籍などに対応した IPAmj 明朝フォント (約 58,000 字) などを使用可能

まとめ

Windows 8 は、国の方向性に沿って OS ネイティブで Unicode IVS/IVD に対応

国の事業で整備された約 58,000 字の漢字を利用できる環境を提供

外字に頼らないシステムの実現の可能性を秘めているプラットフォーム

Office 2007/2010 用アドインの活用で、既存の環境からスムーズに移行

参考資料 : Windows プラットフォーム別:「辻」の表現(略)

参考資料 : Windows 8 IME : JIS90 字体の入力(ポイント)

  • Windows10IMEの場合、ひらがなのアイコンを右クリック→プロパティ→詳細設定→[変換タブ]→詳細設定で出現
  • IVSを含む文字を制限するにチェックがあると表示されない(デフォルト)
  • グループポリシーで設定をコントロール可能
5
9
1

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
5
9

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?