ひらがな
範囲:U+3040
〜U+309F
すべて(結合文字(U+3099〜U+309A)を除く)
ぁあぃいぅうぇえぉおかがきぎくぐけげこごさざしじすずせぜそぞただちぢっつづてでとどなにぬねのはばぱひびぴふぶぷへべぺほぼぽまみむめもゃやゅゆょよらりるれろゎわゐゑをんゔゕゖゖ゙゛゜ゝゞゟ
平仮名 / Hiragana letters(U+3041〜U+3094)
ぁあぃいぅうぇえぉおかがきぎくぐけげこごさざしじすずせぜそぞただちぢっつづてでとどなにぬねのはばぱひびぴふぶぷへべぺほぼぽまみむめもゃやゅゆょよらりるれろゎわゐゑをんゔ
小書き / Small letters(U+3095〜U+3096)
ゕゖ
濁音・半濁音 / Voicing marks(U+3099〜U+309C)(結合文字(U+3099〜U+309A)を除く))
゛゜
繰り返し記号 / Iteration marks(U+309D〜U+309E)
ゝゞ
縦書き合字 / Hiragana digraph(U+309F)
ゟ
カタカナ
範囲:U+30A0
〜U+30FF
すべて
゠ァアィイゥウェエォオカガキギクグケゲコゴサザシジスズセゼソゾタダチヂッツヅテデトドナニヌネノハバパヒビピフブプヘベペホボポマミムメモャヤュユョヨラリルレロヮワヰヱヲンヴヵヶヷヸヹヺ・ーヽヾヿ
片仮名句読点 / Katakana punctuation(U+30A0)
゠
片仮名 / Katakana letters(U+30A1〜U+30FA)
ァアィイゥウェエォオカガキギクグケゲコゴサザシジスズセゼソゾタダチヂッツヅテデトドナニヌネノハバパヒビピフブプヘベペホボポマミムメモャヤュユョヨラリルレロヮワヰヱヲンヴヵヶヷヸヹヺ
接続記号と長音記号 / Conjunction and length marks(U+30FB〜U+30FC)
・ー
繰り返し記号 / Iteration marks(U+30FD〜U+30FE)
ヽヾ
縦書き合字 / Katakana digraph(U+309F)
ヿ
濁音・半濁音
Unicodeにおける濁音・半濁音の表現は2種類存在する。
1. 合成済み文字(Precomposed Character)
1つの文字コードで表現され、「基底文字(Base Character)」と「結合文字(Combining Character)」に分解可能な文字のこと。
平仮名・濁音
がぎぐげござじずぜぞだぢづでどばびぶべぼゔゞ
平仮名・半濁音
ぱぴぷぺぽ
片仮名・濁音
ガギグゲゴザジズゼゾダヂヅデドバビブベボヷヸヹヺヴヾ
片仮名・半濁音
パピプペポ
2. 結合文字列(Combining Character Sequence)
「基底文字(Base Character)」と「結合文字(Combining Character)」の組み合わせで1文字を表現した文字列のこと。Macでは結合文字列が使用されることがある。
※結合文字列はUCSの用語「Composite Sequence」と同義であり、日本語で「合成列」「合成文字」と表記される場合もある。
平仮名・濁音
がぎぐげござじずぜぞだぢづでどばびぶべぼゔゞ
平仮名・半濁音
ぱぴぷぺぽ
片仮名・濁音
ア゙ガギグゲゴザジズゼゾダヂヅデドバビブベボヴヷヸヹヺヾ
片仮名・半濁音
パピプペポ
関連用語
Unicode正規化における合成と分解
- 合成(Composition):結合文字列 → 合成済み文字
- 分解(Decomposition):合成済み文字 → 結合文字列
Unicodeの等価性
-
正準等価性(Canonical Equivalent):視覚的および機能的に等価
(例)合成済み文字と結合文字列、互換漢字と対応する統合漢字 -
互換等価性(Compatibility Equivalent):視覚的にも機能的にも異なりうる
(例)全角文字と半角文字、上付き文字、下付き文字
Unicode正規化
- NFC(Normalization Form Composition):正準等価性によって分解される
- NFD(Normalization Form Decomposition):正準等価性によって分解され、再度合成される
- NFKD(Normalization Form Compatibility Decomposition):互換等価性によって分解される
- NFKC(Normalization Form Compatibility Composition):互換等価性によって分解され、正準等価性によって再度合成される
参考ページ