LoginSignup
1
0

More than 5 years have passed since last update.

語種とモーラの種類の関係を調べたい(UniDic)(前半)

Last updated at Posted at 2018-11-20

*このプロジェクトは取り組み中です。

計量言語学を勉強し始めて、「データで学ぶ日本語入門」(計量国語学会編、朝倉書店)を読んでいる。
先日、計量国語学会の特別講義で第1章から第5章までの解説を聞くことができた。
第1章の音声・音韻−現代の日本語には何種類の音があるの? どの音がよく使用されているの?』の部分で、「和語」「漢語」「外来語」の3つの語種では、使用されるモーラの種類が違うかもしれない。この本で勉強する初学者は、手を動かして比較してみたらいいかも〜と聞いた。やってみよう。

やること

「和語」「漢語」「外来語」の3つの語種のモーラを比較する。
比較する語の語種と読みは、UniDic を用いる。

準備

環境を整えて、それから UniDic をざっと眺める。

環境

  1. MeCab 0.996 と UniDic(ver. 2.1.2) をインストールした。
  2. MeCabの設定ファイルを編集して、UniDicを使えるようにした。 参考 👉 MeCabとUNIDICをUbuntu 14.04にインストール - Yura YuLife
  3. MeCabの設定ファイルを編集して、語種を表示できるようにした。参考 👉 MeCab + Unidic を使って単語の語種(和語、漢語)を表示する - Qiita
  4. ~/unidic-mecab-2.1.2_src/lex.csv を作業フォルダにコピーした。 ちなみに ~/unidic-mecab-2.1.2_src/unidic-mecab.pdf は「unidic-mecab ユーザーズマニュアル」
# MeCab で「こおりつけ!」を解析した結果
こおりつけ      コーリツケ      コオリツク      凍り付く        動詞-一般       五段-カ行       命令形  和
!                      !      補助記号-句点                   記号
EOS

今回は MeCab は使わないかもしれない。

UniDic を読んでみる

0行目から756462行目まで。
ランダムに10行表示してみる。

# study_unidic.py
# coding: UTF-8
import random
ranli = []
for ir in range(10):
    ranli.append(random.randrange(0, 756462+1))

with open("./data/lex.csv", 'r', encoding = "UTF-8") as f:
    for i, lin in enumerate(f):
        if i in ranli:
            print(lin, end="")
    print(i)
# 結果
送りこめん,1260,1260,10930,動詞,一般,*,*,下一段-マ行,連体形-撥音便,オクリコム,送り込む,送りこめん,オクリコメン,送りこめる,オクリコメル,和,*,*,*,*
思い取ろ,1405,1405,10896,動詞,一般,*,*,五段-ラ行,意志推量形,オモイトル,思い取る,思い取ろ,オモイトロ,思い取る,オモイトル,和,*,*,*,*
居ろっ,3913,3913,10963,動詞,非自立可能,*,*,五段-ラ行,意志推量形,オル,居る,居ろっ,オロッ,居る,オル,和,*,*,*,*
規則,5146,5146,7239,名詞,普通名詞,一般,*,*,*,キソク,規則,規則,キソク,規則,キソク,漢,*,*,*,*
くぐまる,1414,1414,11824,動詞,一般,*,*,五段-ラ行,終止形-一般,クグマル,屈まる,くぐまる,クグマル,くぐまる,クグマル,和,*,*,*,*
こまかろう,5164,5164,10560,形容詞,一般,*,*,形容詞,意志推量形,コマイ,細い,こまかろう,コマカロー,こまい,コマイ,和,*,*,*,*
しずみゃ,1377,1377,12251,動詞,一般,*,*,五段-マ行,仮定形-融合,シズム,沈む,しずみゃ,シズミャ,しずむ,シズム,和,*,*,*,*
とりちらせ,1321,1321,12666,動詞,一般,*,*,五段-サ行,命令形,トリチラス,取り散らす,とりちらせ,トリチラセ,とりちらす,トリチラス,和,*,*,*,*
拓い,1679,1679,12361,動詞,一般,*,*,文語四段-カ行,連用形-イ音便,ヒラク,開く,拓い,ヒライ,拓く,ヒラク,和,*,*,*,*
振替え,1078,1078,12412,動詞,一般,*,*,下一段-ア行,未然形-一般,フリカエル,振り替える,振替え,フリカエ,振替える,フリカエル,和,*,*,*,*
756462

うわ、和語ばっかりだし動詞しかねぇな。

UniDic にはどんな語種が多いのか

説明すっとばしていきなり結果。
fig_goshu_unidic.png

語種 収録数 割合
512,807 67.79 %
107,114 14.16 %
67,055 8.86 %
37,645 4.98 %
27,306 3.61 %
記号 4,528 0.60 %
6 0.00 %
不明 2 0.00 %

やっぱり。和語が多い結果になった。
固有名詞が多いのも形態素解析用の辞書の特徴かも。

UniDic にはどんな品詞が多いのか

ついでに品詞も見てみました。
fig_hinshi_unidic.png

品詞 収録数 割合 NVMI メモ
動詞 426,404 56.37 % V
名詞 277,300 36.66 % N
形容詞 33,486 4.43 % M
副詞 7,430 0.98 % M
形状詞 3,921 0.52 % M いわゆる「形容動詞」「な形容詞」
接尾辞 1,925 0.25 %
感動詞 1,344 0.18 % I
記号 1,196 0.16 %
助動詞 1,189 0.16 %
補助記号 863 0.11 %
代名詞 430 0.06 % N
助詞 370 0.05 %
接頭辞 365 0.05 %
連体詞 135 0.02 % M
接続詞 104 0.01 % I
空白 1 0.00 %

* "接尾辞-名詞的"… "物理学者"の"者"、"接尾辞-形容詞的"…"ガンになりにくい"の"にくい"

動詞が多いのは活用形を網羅しているからだろうな。

上の割合は「日本語の中での割合」とは異なる、ということは、ここで押さえておかなければならない。
国語辞典で一つの項目になっていたり、語彙調査で一つの語彙と数えられたりするものでも、表記や出現形が異なれば、別の語として収録される。
国語辞典は紙面の都合で掲載数に限りがあるし、国語辞典に載っていても語彙調査で見られないものもあるだろう。

今回は、「和語」「漢語」「外来語」の3つの語種のモーラを比較したいわけだが、調査対象に動詞(の活用形)が多いのは問題があるだろうか。あるかも知れない。けれども、動詞の割合というのも文体によって変わるって勉強したよね〜どうしようね。

っていうことで、ひとまず気にしないでやってみることにする。
(続く)

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0