はじめに
この記事では、『現代日本語書き言葉均衡コーパス』(BCCWJ)のデータを使って、3モーラの日本語の単語がどのような音の構成になっているかを探ります。特に、単語の1文字目、2文字目、3文字目(語頭・語中・語尾)といったそれぞれの位置に、どんなモーラや母音、子音が現れやすいのかを調べます。
調べたいこと : 『き』というモーラは2モーラ目に出現しやすい (例)
使用データと分析手法
- 使用データ:
-
データの絞り込み:
- 専門的な単語を除外した出現頻度が100以上の単語を使用。
(「書籍・雑誌」ジャンルでの出現割合が高い単語(PB_frequency / frequency > 0.8
)を除外。) - モーラ数が3である単語のみを抽出。(例: 「きゃ」は1モーラ、「っ」も1モーラ)。
- 合計9408語
- 専門的な単語を除外した出現頻度が100以上の単語を使用。
- モーラ位置の頻度分析: 各モーラが単語の1文字目、2文字目、3文字目のどの位置に現れるかをカウントし、その割合を分析。集計されたモーラのうち、各位置(1文字目、2文字目、3文字目)での出現頻度がそれぞれ10以上のモーラを対象として、各位置での出現割合を計算し、ランキングを作成。
- 音韻(母音・子音)分析: 各モーラを母音(ア, イ, ウ, エ, オ)と子音グループ(カ行, サ行など)に分類し、それぞれの位置での出現割合を算出しました。子音グループについては、各位置での出現頻度がそれぞれ10以上のグループを対象としてランキングを作成しました。
分析結果
モーラ位置の偏り:語頭・語中・語尾に出やすいモーラは?
以下の結果は、各位置での出現頻度が安定して多いモーラに絞って算出しています。
■ 1文字目(語頭)に出やすいモーラ ベスト3:
- 'ヒ' - 割合: 83.46% (一文字目: 222 二文字目: 13 三文字目: 31)
- 'ホ' - 割合: 73.24% (一文字目: 156 二文字目: 40 三文字目: 17)
- 'ア' - 割合: 72.18% (一文字目: 301 二文字目: 65 三文字目: 51)
■ 2文字目(語中)に出やすいモーラ ベスト3:
- 'ガ' - 割合: 59.71% (一文字目: 66 二文字目: 166 三文字目: 46)
- 'ラ' - 割合: 54.73% (一文字目: 61 二文字目: 220 三文字目: 121)
- 'ザ' - 割合: 54.31% (一文字目: 32 二文字目: 63 三文字目: 21)
■ 3文字目(語尾)に出やすいモーラ ベスト3:
- 'ル' - 割合: 75.35% (一文字目: 26 二文字目: 150 三文字目: 538)
- 'ギ' - 割合: 58.82% (一文字目: 46 二文字目: 31 三文字目: 110)
- 'ム' - 割合: 56.32% (一文字目: 90 二文字目: 31 三文字目: 156)
母音・子音の出現傾向:語頭・語中・語尾に出やすい響きは?
各モーラを構成する母音と子音グループ(「ア行」「カ行」など)についても、3モーラ単語での出現位置の偏りを調べました。
■ 母音の出現位置ごとの割合:
- 'ア':
- 割合: 1文字目: 44.38% / 2文字目: 33.35% / 3文字目: 22.27%
( 回数: 1文字目: 2667 / 2文字目: 2004 / 3文字目: 1338 )
- 割合: 1文字目: 44.38% / 2文字目: 33.35% / 3文字目: 22.27%
- 'イ':
- 割合: 1文字目: 34.56% / 2文字目: 23.49% / 3文字目: 41.95%
( 回数: 1文字目: 2105 / 2文字目: 1431 / 3文字目: 2555 )
- 割合: 1文字目: 34.56% / 2文字目: 23.49% / 3文字目: 41.95%
- 'ウ':
- 割合: 1文字目: 23.00% / 2文字目: 32.24% / 3文字目: 44.76%
( 回数: 1文字目: 1495 / 2文字目: 2096 / 3文字目: 2910 )
- 割合: 1文字目: 23.00% / 2文字目: 32.24% / 3文字目: 44.76%
- 'エ':
- 割合: 1文字目: 40.05% / 2文字目: 38.79% / 3文字目: 21.16%
( 回数: 1文字目: 956 / 2文字目: 926 / 3文字目: 505 )
- 割合: 1文字目: 40.05% / 2文字目: 38.79% / 3文字目: 21.16%
- 'オ':
- 割合: 1文字目: 45.23% / 2文字目: 30.83% / 3文字目: 23.94%
( 回数: 1文字目: 2184 / 2文字目: 1489 / 3文字目: 1156 )
- 割合: 1文字目: 45.23% / 2文字目: 30.83% / 3文字目: 23.94%
■ 子音グループの出現位置ごとの割合:
各位置の出現頻度がそれぞれ10以上の子音グループに絞っています。
1文字目(語頭)に出やすい子音グループ ベスト3:
- ハ行 - 割合: 59.36% (1文字目: 691 / 2文字目: 246 / 3文字目: 227)
- サ行 - 割合: 46.93% (1文字目: 1415 / 2文字目: 728 / 3文字目: 872)
- ナ行 - 割合: 46.36% (1文字目: 274 / 2文字目: 226 / 3文字目: 91)
2文字目(語中)に出やすい子音グループ ベスト3:
- ラ行 - 割合: 54.73% (1文字目: 61 / 2文字目: 220 / 3文字目: 121)
- ワ行 - 割合: 44.12% (1文字目: 77 / 2文字目: 120 / 3文字目: 75)
- ナ行 - 割合: 38.24% (1文字目: 274 / 2文字目: 226 / 3文字目: 91)
3文字目(語尾)に出やすい子音グループ ベスト3:
- ア行 - 割合: 39.00% (1文字目: 1094 / 2文字目: 1656 / 3文字目: 1758)
- マ行 - 割合: 37.68% (1文字目: 554 / 2文字目: 435 / 3文字目: 598)
- ヤ行 - 割合: 33.77% (1文字目: 121 / 2文字目: 81 / 3文字目: 103)
考察
-
語頭では、「ハ行」や「サ行」といった破裂音・摩擦音の子音、そして「ア」や「オ」のような開いた母音が優勢。単語の始まりをはっきりと印象付ける音が多い?
(25/06/21 6:29追記)
語頭以外のハ行が少ないのは現代かなづかいによる減少というコメントがありました~ - 語中では、「ラ行」や「ワ行」のような滑らかな子音が優勢。単語の途中の音のつながりをスムーズにする効果があるのかも。
- 語尾では、「ア行」や「マ行」の子音、そして「イ」や「ウ」のような母音が優勢。特に「ル」のモーラは、「〜する」などの動詞の活用形や、外来語の末尾によく見られる音の影響がありそう。
おまけ
以上の結果を利用して、出現しやすいモーラ度を独自に計算した結果、外来語では「ハワイ」、和語では「払う」 が最も値の高い単語でした!
本分析は、『現代日本語書き言葉均衡コーパス』(BCCWJ)短単位語彙表(Version 1.0)の公開データを用いて行われました。本記事で提示しているのはデータ分析の結果であり、元のデータファイルそのものを再配布するものではありません。データの詳細な情報および利用規約については、国立国語研究所のウェブサイトをご確認ください。