0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

ローマ字頻度マトリックス(技術文書:一般日本語=50%: 50%)

0
Last updated at Posted at 2026-02-12

概要

一般的なローマ字頻表が実感とあわない。筆者は技術文書を書くことが多いためと考え、gemini(生成AI)に、技術文書を考慮したローマ字頻度表を作成してもらった。一度、作ったが精度に疑義があり、こちらを参考にさせてもらい一般日本語の頻度を作り直した。元データに子音ごとの拗音集計がないので、その部分に関しては、AIに推定してもらった。技術文書と一般日本語のブレンド版はAIに任せた形になる。そのため、このローマ字頻度表は、統計的な正しさを保証するものでなく、あくまで傾向を確認するためにデータと考えてほしい。

2. 技術文書 50% : 一般日本語 50%

技術文書の特性を半分取り入れた、実務的なタイピングに適した頻度マトリックス。

統計対象: 現代の言語処理統計(BCCWJ/ITスタイルガイド)
50%:一般日本語(青空文庫+丁寧なビジネス文書・手紙) 50%を統合
算出基準: 全打鍵から長音(ー)・撥音(ん)・促音(っ)を除いた 89% をマトリックスに配分

子音 × 母音・拗音 頻度マトリックス (%)

子音\母音 a i u e o ya yu yo 行合計
(母音単独) 1.83 5.91 4.48 1.23 1.42 0.53 0.20 0.84 16.44
k (か行) 3.16 2.05 1.99 1.11 3.05 0.10 0.13 0.45 12.04
s (さ行) 1.34 4.16 1.65 0.89 1.14 0.48 0.51 1.10 11.27
t (た行) 3.66 1.20 1.33 0.99 3.01 0.10 0.08 0.28 10.65
n (な行) 2.25 2.45 0.33 0.49 3.81 0.08 0.08 0.13 9.62
h (は行) 2.31 0.57 0.46 0.37 0.46 0.05 0.13 0.05 4.40
m (ま行) 1.89 0.86 0.43 0.59 1.36 0.05 0.08 0.05 5.31
r (ら行) 1.54 1.56 1.54 1.42 0.93 0.10 0.30 0.25 7.64
w (わ行) 0.92 0.00 0.00 0.00 1.68 0.00 0.00 0.00 2.60
g (が行) 1.59 0.33 0.25 0.34 0.56 0.08 0.08 0.13 3.36
z (ざ行) 0.16 0.89 0.33 0.15 0.25 0.05 0.05 0.30 2.18
d (だ行) 1.10 0.10 0.11 1.11 0.77 0.03 0.03 0.03 3.28
b (ば行) 0.52 0.36 0.37 0.25 0.31 0.03 0.03 0.03 1.90
p (ぱ行) 0.20 0.13 0.13 0.07 0.09 0.00 0.03 0.03 0.68
f (ふ) 0.25 0.10 0.10 0.10 0.10 0.00 0.00 0.00 0.65
v (う゛) 0.01 0.01 0.00 0.01 0.01 0.00 0.00 0.00 0.04
列合計 18.73 20.67 14.00 9.94 18.98 1.75 1.73 3.70 89.00

※集計上、合計に誤差が発生している。

📈 特殊音(非マトリックス要素)

種別 文字 頻度
長音 (ー) 3.2%
撥音 (ん) 4.3%
促音 (っ) 2.7%
合計 10.2%

データの主な傾向

  • 長音(ー)の激増
    一般語(0.88%)に対し、技術文書(3.2%)と大幅に増加。カタカナ外来語の多さを反映。コンピュータのように語末の長音をやめれば、もっと頻度は減る。
  • 「a」頻度低下
    「かく」、「はなす」、「かんがえる」などの和言葉が、「記述する」、「説明する、議論する」、「思考する」など、漢語や外来語に変わることで「a」の頻度が低下。
  • 「e」頻度の向上
    外来語の頻度向上により、一般語で低かった「e」の頻度が上昇。
  • 子音「f / p」の台頭
    「ファイル」「プロジェクト」等の用語により、増加。
  • 拗音の増加
    技術文書を考慮した分、外来語や訓読みの単語が多く、さらに増加。

3. 一般日本語 100%

統計対象:一般日本語(青空文庫+丁寧なビジネス文書・手紙)
算出基準: 全打鍵から長音・撥音・促音を除いた 92.64% をマトリックスに配分

子音 × 母音・拗音 頻度マトリックス (%)

子音\母音 a i u e o ya yu yo 行合計
(母音単独) 1.55 5.81 4.31 0.86 1.58 0.58 0.20 0.95 15.84
k (か行) 3.41 2.04 2.19 0.89 3.44 0.05 0.10 0.26 12.38
s (さ行) 1.30 4.37 1.48 0.84 1.06 0.46 0.69 1.38 11.58
t (た行) 3.87 1.28 1.34 0.24 3.03 0.05 0.05 0.15 10.01
n (な行) 2.50 2.56 0.06 0.43 3.70 0.05 0.05 0.10 9.45
h (は行) 2.43 0.61 0.47 0.29 0.42 0.05 0.10 0.05 4.42
m (ま行) 2.18 0.84 0.33 0.60 1.55 0.05 0.05 0.05 5.65
r (ら行) 1.52 1.55 1.73 1.26 0.72 0.05 0.26 0.21 7.30
w (わ行) 0.90 0.00 0.00 0.00 1.55 0.00 0.00 0.00 2.45
g (が行) 1.96 0.32 0.19 0.33 0.50 0.05 0.05 0.10 3.50
z (ざ行) 0.16 1.36 0.31 0.15 0.14 0.05 0.05 0.26 2.48
d (だ行) 1.27 0.00 0.08 1.61 0.76 0.01 0.01 0.01 3.75
b (ば行) 0.51 0.32 0.41 0.19 0.26 0.01 0.01 0.01 1.72
p (ぱ行) 0.14 0.09 0.10 0.03 0.06 0.00 0.01 0.01 0.44
f (ふ) 0.15 0.04 0.04 0.04 0.04 0.00 0.00 0.00 0.31
v (う゛) 0.03 0.01 0.00 0.01 0.01 0.00 0.00 0.00 0.06
(その他調整) 0.00 0.04 0.03 0.08 0.73 0.00 0.00 0.00 0.88
列合計 23.88 21.24 13.07 7.87 18.94 1.46 1.63 3.55 92.64

📈 特殊音(非マトリックス要素)

種別 文字 頻度
長音 0.88%
撥音 4.34%
促音 2.14%
合計 7.36%

データの主な傾向

  • 拗音が高頻度
    話し言葉が多い小説だけと比べると、ビジネス文書があるためか比較的拗音が多い。
  • 「いうかこしたとのん」が頻出
    日本語全般の特性として、助詞や助動詞に使われる文字が頻出傾向に。

履歴

2026/3/4 精度を上げるために頻度表を更新
2026/3/5 再度、頻度表を更新
2026/3/7 統計データをもとに頻度表を更新

※細かい修正は随時実施

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?