*このプロジェクトは取り組み中です。
計量言語学を勉強し始めて、「データで学ぶ日本語入門」(計量国語学会編、朝倉書店)を読んでいる。
先日、計量国語学会の特別講義で第1章から第5章までの解説を聞くことができた。
第1章の音声・音韻−現代の日本語には何種類の音があるの? どの音がよく使用されているの?』の部分で、「和語」「漢語」「外来語」の3つの語種では、使用されるモーラの種類が違うかもしれない。この本で勉強する初学者は、手を動かして比較してみたらいいかも〜と聞いた。やってみよう。
やること
「和語」「漢語」「外来語」の3つの語種のモーラを比較する。
比較する語の語種と読みは、UniDic を用いる。
準備
環境を整えて、それから UniDic をざっと眺める。
環境
- MeCab 0.996 と UniDic(ver. 2.1.2) をインストールした。
- MeCabの設定ファイルを編集して、UniDicを使えるようにした。
参考 👉 MeCabとUNIDICをUbuntu 14.04にインストール - Yura YuLife - MeCabの設定ファイルを編集して、語種を表示できるようにした。参考 👉 MeCab + Unidic を使って単語の語種(和語、漢語)を表示する - Qiita
-
~/unidic-mecab-2.1.2_src/lex.csv
を作業フォルダにコピーした。
ちなみに~/unidic-mecab-2.1.2_src/unidic-mecab.pdf
は「unidic-mecab ユーザーズマニュアル」
# MeCab で「こおりつけ!」を解析した結果
こおりつけ コーリツケ コオリツク 凍り付く 動詞-一般 五段-カ行 命令形 和
! ! 補助記号-句点 記号
EOS
今回は MeCab は使わないかもしれない。
UniDic を読んでみる
0行目から756462行目まで。
ランダムに10行表示してみる。
# study_unidic.py
# coding: UTF-8
import random
ranli = []
for ir in range(10):
ranli.append(random.randrange(0, 756462+1))
with open("./data/lex.csv", 'r', encoding = "UTF-8") as f:
for i, lin in enumerate(f):
if i in ranli:
print(lin, end="")
print(i)
# 結果
送りこめん,1260,1260,10930,動詞,一般,*,*,下一段-マ行,連体形-撥音便,オクリコム,送り込む,送りこめん,オクリコメン,送りこめる,オクリコメル,和,*,*,*,*
思い取ろ,1405,1405,10896,動詞,一般,*,*,五段-ラ行,意志推量形,オモイトル,思い取る,思い取ろ,オモイトロ,思い取る,オモイトル,和,*,*,*,*
居ろっ,3913,3913,10963,動詞,非自立可能,*,*,五段-ラ行,意志推量形,オル,居る,居ろっ,オロッ,居る,オル,和,*,*,*,*
規則,5146,5146,7239,名詞,普通名詞,一般,*,*,*,キソク,規則,規則,キソク,規則,キソク,漢,*,*,*,*
くぐまる,1414,1414,11824,動詞,一般,*,*,五段-ラ行,終止形-一般,クグマル,屈まる,くぐまる,クグマル,くぐまる,クグマル,和,*,*,*,*
こまかろう,5164,5164,10560,形容詞,一般,*,*,形容詞,意志推量形,コマイ,細い,こまかろう,コマカロー,こまい,コマイ,和,*,*,*,*
しずみゃ,1377,1377,12251,動詞,一般,*,*,五段-マ行,仮定形-融合,シズム,沈む,しずみゃ,シズミャ,しずむ,シズム,和,*,*,*,*
とりちらせ,1321,1321,12666,動詞,一般,*,*,五段-サ行,命令形,トリチラス,取り散らす,とりちらせ,トリチラセ,とりちらす,トリチラス,和,*,*,*,*
拓い,1679,1679,12361,動詞,一般,*,*,文語四段-カ行,連用形-イ音便,ヒラク,開く,拓い,ヒライ,拓く,ヒラク,和,*,*,*,*
振替え,1078,1078,12412,動詞,一般,*,*,下一段-ア行,未然形-一般,フリカエル,振り替える,振替え,フリカエ,振替える,フリカエル,和,*,*,*,*
756462
うわ、和語ばっかりだし動詞しかねぇな。
UniDic にはどんな語種が多いのか
語種 | 収録数 | 割合 |
---|---|---|
和 | 512,807 | 67.79 % |
固 | 107,114 | 14.16 % |
漢 | 67,055 | 8.86 % |
外 | 37,645 | 4.98 % |
混 | 27,306 | 3.61 % |
記号 | 4,528 | 0.60 % |
※ | 6 | 0.00 % |
不明 | 2 | 0.00 % |
やっぱり。和語が多い結果になった。 | ||
固有名詞が多いのも形態素解析用の辞書の特徴かも。 |
UniDic にはどんな品詞が多いのか
品詞 | 収録数 | 割合 | NVMI | メモ |
---|---|---|---|---|
動詞 | 426,404 | 56.37 % | V | |
名詞 | 277,300 | 36.66 % | N | |
形容詞 | 33,486 | 4.43 % | M | |
副詞 | 7,430 | 0.98 % | M | |
形状詞 | 3,921 | 0.52 % | M | いわゆる「形容動詞」「な形容詞」 |
接尾辞 | 1,925 | 0.25 % | * | |
感動詞 | 1,344 | 0.18 % | I | |
記号 | 1,196 | 0.16 % | ||
助動詞 | 1,189 | 0.16 % | ||
補助記号 | 863 | 0.11 % | ||
代名詞 | 430 | 0.06 % | N | |
助詞 | 370 | 0.05 % | ||
接頭辞 | 365 | 0.05 % | ||
連体詞 | 135 | 0.02 % | M | |
接続詞 | 104 | 0.01 % | I | |
空白 | 1 | 0.00 % |
* "接尾辞-名詞的"… "物理学者"の"者"、"接尾辞-形容詞的"…"ガンになりにくい"の"にくい"
動詞が多いのは活用形を網羅しているからだろうな。
上の割合は「日本語の中での割合」とは異なる、ということは、ここで押さえておかなければならない。
国語辞典で一つの項目になっていたり、語彙調査で一つの語彙と数えられたりするものでも、表記や出現形が異なれば、別の語として収録される。
国語辞典は紙面の都合で掲載数に限りがあるし、国語辞典に載っていても語彙調査で見られないものもあるだろう。
今回は、「和語」「漢語」「外来語」の3つの語種のモーラを比較したいわけだが、調査対象に動詞(の活用形)が多いのは問題があるだろうか。あるかも知れない。けれども、動詞の割合というのも文体によって変わるって勉強したよね〜どうしようね。
っていうことで、ひとまず気にしないでやってみることにする。
(続く)