(2022/02/11 更新)
フォロー記事として「異体字を安易に使用してはいけない」を投稿しました。
##はじめに
人名・地名を扱う際,「異体字」の使用を求められる場面があります。
私事ですが,亡父の名前には「龍」の字が入っていました。
思えば,父は名前を書くときに
を使っていました。ずっと,書くときの癖と思って見ていました。
さて,当Qiitaはもとより,ネット上には異体字に関する多くの有益な記事が投稿されています。
一方で,IVSで割り当てられた異体字の入力方法については,探し方が悪いのか,初心者向きのスッキリとした記事が見つかりません。
ここでは,日頃使っている簡単な異体字入力方法を紹介します。
他,「怪しい文字」のコード確認についても記載しました。
##作業環境ほか
OS : Windows 10 Pro
Word : Word for Microsoft 365 MSO 32bit
Excel : Excel for Microsoft 365 MSO 32bit
PowerShell : Ver. 7.2.1 および Ver. 5.1
以下,「異体字」とはIVSによる枝番号(異体字セレクタコード)がついた異体字を示します。
また,前提条件として,異体字の表示にはフォントが対応している必要があります。
Windowsに標準搭載されている「游ゴシック・游明朝」は相当数の異体字をサポートしていますので,通常用途には十分かと思います。
さらに多くの異体字(特に人名向け)に対応する「IPAmj明朝」もよく使われています。
本稿では,Windowsで上記フォントを利用する例を示します。
##Wordは Alt + x を使う
Wordは,ショートカットキー Alt + x で,カーソル直前の文字とUnicodeを相互に変換してくれます。
異体字で表示したい文字の後に枝番号を打ち込み, Alt + x で異体字が表示されます。
E0101 の後で Alt + x !!
枝番号は,グリフウィキ(GlyphWiki)などで調べることができます。
冒頭の「龍」の異体字形を探すと (=u9f8d-ue0101) (=u9f8d-ue0104) の記載が見つかります。
「E0101」「E0104」の2つがIVSによる枝番号になります。
類似した字形でもフォントによって枝番号が異なります。
少し古い資料ですが,「IVD-Charts.pdf」(注:約91MBあります。)を参照すると「游フォント」は「Adobe-Japan1」規格,「IPAmj明朝」は「Hanyo-Denshi」規格で枝番号を対応させるとうまくいくと思います。
##PowerShellで異体字入力
Word以外のアプリケーションには,PowerShellを使ってクリップボード経由で対象アプリに枝番号をペーストします。(Wordからコピペでもいいですが・・・)
例として,Excelで「龍」の異体字を入力します。
原理がわかっていれば手順は問いません。
(1)セルのフォントを異体字に対応するものに設定
ここでは「游明朝」を使います。よって,枝番号は「E0101」です。
(2)PowerShellで枝番号をクリップボードにコピー
"`u{e0101}" | scb
または,
[char]::ConvertFromUtf32(0xe0101) | scb
または,U+E01xxを,サロゲートペア(U+DB40, U+DDxx)に置き換えて
-join [char[]](0xdb40, 0xdd01) | scb
(3)Excelでペースト
Excelに戻って,セル内入力中または編集中に「龍(既定の字形)」の後でペーストします。
##PowerShellを使って文字コードを確認する
逆方向の変換についても書き留めます。
クリップボードにコピーした文字列はPowerShellで簡単に解析できます。
gcb | fhx -e <エンコードの種類>
<エンコードの種類 ( )は PowerShell 7 のみ>
ascii
bigendianunicode
(bigendianutf32
) unicode
utf7
utf8
(utf8BOM
)
(utf8NoBOM
) utf32
(oem
)
先ほどExcelに入力した「龍」をクリップボードにコピーしたら,PowerShellでコードを取得してみます。
(gcb | fhx -e bigendianutf32).HexBytes
# 00 00 9F 8D 00 0E 01 01 <U+9F8D U+E0101>
(gcb | fhx -e bigendianunicode).HexBytes
# 9F 8D DB 40 DD 01 <U+9F8D U+DB40 U+DD01> 枝番号をサロゲートペアで取得
Windows PowerShell 5.1 の場合は
# PowerShell 5.1 は HexBytes が使えない
(gcb | fhx -e bigendianunicode).Bytes.ForEach{$_.ToString("X2")} -join " "
# 9F 8D DB 40 DD 01
# または(2バイト単位で)
(gcb).ToCharArray().ForEach{([int]$_).ToString("X4")} -join " "
# 9F8D DB40 DD01
##余談
世間には異体字も含めて多様な「文字」が飛び交っており,pdf文書にも「怪しい文字」が紛れ込んでいることがあります。
たとえば,以下の3行は左右の文字がそれぞれ異なるものですが,ブラウザ環境によっては目視で違いが確認できません。下の各行をコピーして,PowerShellで確認してみます。
- ⾷ 食
- 杮 柿
- ば ば
1行目から順に
(gcb | fhx -e bigendianunicode).HexBytes
# 2F B7 00 20 98 DF <左 U+2FB7 右 U+98DF>
(gcb | fhx -e bigendianunicode).HexBytes
# 67 6E 00 20 67 FF <左 U+676E 右 U+67FF>
(gcb | fhx -e bigendianunicode).HexBytes
# 30 6F 30 99 00 20 30 70 <左 U+306F U+3099 右 U+3070>