LoginSignup
1
0

More than 1 year has passed since last update.

読み・発音を持つ辞書のデータを得る

Last updated at Posted at 2022-12-04

個人的に日本語の「読み」「発音」が載っており、ポリゴンショックが起こる前の語彙であると好ましいという条件の単語集を欲しているので作りました。
日本語のNLPでは定番のMeCab1、そのIPA辞書から作ろうと思います。(github)

中身を見る

まずはダウンロードしてきたcsvファイルの中身を見ます。

文字コードを直す

Numbers(Macの表計算ソフト)でcsvを開くと文字化けしていました。文字コードがEUC-JPだったようなのでUTF-8にします。また、品詞別にCSVが分かれていますが今回はあまり意識しないので統合します。

(bash)文字コードをUTF-8にして1ファイルに統合
# convert.sh
NEW_FILE="utf8-dic.csv"
touch $NEW_FILE
for file in $( ls $1 | grep csv$ ); do
  iconv -f EUC-JP -t UTF-8 "${1}/${file}" >> $NEW_FILE
done

# 実行したコマンド(辞書データの一個上の階層で実行)
# bash convert.sh mecab-ipadic-2.7.0-20070801

utf8-dic.csvはこんな感じの内容になりました(行頭は分かりやすさのために追記したもの)。

1 2 3 4 5 6 7 8 9 10 11 12 13
もの凄まじゅう 49 49 6956 形容詞 自立 * * 形容詞・イ段 連用ゴザイ接続 もの凄まじい モノスサマジュウ モノスサマジュー
もの凄まじゅぅ 49 49 6956 形容詞 自立 * * 形容詞・イ段 連用ゴザイ接続 もの凄まじい モノスサマジュゥ モノスサマジュー
もの凄まじき 44 44 6956 形容詞 自立 * * 形容詞・イ段 体言接続 もの凄まじい モノスサマジキ モノスサマジキ

12,13列目が読みと発音ですね。

読みと発音を抜き取る

ワンライナーで12,13行目を抜き取る
awk -F ',' -v 'OFS=,' '{print $12,$13}' "utf8-dic.csv" > "phonetic-dic.csv"

# wc phonetic-dic.csv 曰く、392126単語/約12MB

phonetic-dic.csvはこんな感じの内容になりました(行頭は分かりやすさのために追記したもの)。

読み 発音
モノスサマジュウ モノスサマジュー
モノスサマジュゥ モノスサマジュー
モノスサマジキ モノスサマジキ

使ってみる

ピカチュウが喋れる言葉
grep -E '^[ピカチュウー]+,.+$|^.+,[ピカチュウー]+$' "phonetic-dic.csv" | sort | uniq > "pika-say.csv"

# 234単語の発話ができる
#   grep -E '^[ピカチュウー]+,.+$|^.+,[ピカチュウー]+$' "phonetic-dic.csv" | wc
# 同音異義語をまとめると、44単語分の発話ができる
#   wc "pika-say.csv"

# 正規表現のテストデータ "pikachu-test.csv"
  #ピカチュウ,ピカチュー
  #ポリゴンショックハンニン,ピカチュウ
  #ピカチュウ,ポリゴン
  #アピカピカ,アピカピカ
  #ウカ,ウカ
  #ア,ア

# テストコマンド: 
#   grep -E '^[ピカチュウー]+,.+$|^.+,[ピカチュウー]+$' pikachu-test.csv
# 結果:
  #ピカチュウ,ピカチュー
  #ポリゴンショックハンニン,ピカチュウ
  #ピカチュウ,ポリゴン
  #ウカ,ウカ
マル秘単語44連発
読み 発音
ウゥ ウー
ウウ ウー
ウカ ウカ
ウチ ウチ
ウー ウー
カァ カー
カウ カウ
カカ カカ
カチ カチ
カー カー
チウ チウ
チカ チカ
チチ チチ
チー チー
ピカ ピカ
ピー ピー
カカア カカー
カカウ カカー
チカゥ チカー
チカウ チカウ
チカウ チカー
チチカ チチカ
チュウ チュー
ピーチ ピーチ
ウカウカ ウカウカ
ウチウチ ウチウチ
ウチカチ ウチカチ
ウチュウ ウチュー
カチカチ カチカチ
カチュウ カチュー
カチュー カチュー
チカウチ チカウチ
チカチカ チカチカ
チチュウ チチュー
チュウウ チューウ
チュウカ チューカ
チュウチ チューチ
ピイピイ ピーピー
ピカピカ ピカピカ
ピチピチ ピチピチ
ピーピー ピーピー

PP切れを指摘することができる、渦中にあることを訴えることができる、といったことがデータから読み取れます。

  1. MeCabはフリーソフトウェアの形態素解析エンジンです。GPL, LGPL, または BSD ライセンスに従って本ソフトウェアを使用,再配布することができます。「京都大学情報学研究科−日本電信電話株式会社コミュニケーション科学基礎研究所 共同研究ユニットプロジェクト」を通じて開発されています。

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0