英語アプリmikanや、学校・塾向けのサービスであるmikan for Schoolを運営する株式会社mikanの鈴木です。
業務のなかで発音記号データを取り扱う必要があり、調べてみるとなかなかまとまった情報がなさそうだったのでまとめてみました。
発音記号とは
まずは前提となる発音記号そのものの情報を簡単にまとめます。
最も一般的な発音記号は IPA(International Phonetic Alphabet, 国際音声記号)と呼ばれるもので、様々な辞書で使われています。
しかし、実際に辞書を見てみると、それぞれで異なる発音記号が使われています。
subjectの発音記号の比較
研究社 新英和中辞典(Weblio)
sˈʌbdʒɪkt
小学館 プログレッシブ英和中辞典(goo辞書)
sʌ́bdʒikt
英辞郎
sʌ́bdʒikt
Cambridge Dictionary
ˈsʌb.dʒekt
Oxford Advanced Learner's Dictionary
ˈsʌbdʒɪkt
これは、IPAは発音の音素を忠実に表しているため正確ではあるものの、一般の学習者にとっては難しいからだと思われます。
そのため、各辞書はオリジナルでIPAをベースにした発音記号の記法を使っているようです。
発音記号を扱う際は、この点に注意が必要です。
様々な辞書サイトから発音記号をかき集めてきたりしてしまうと、微妙に記法が異なる発音記号がまざってしまうと考え、発音記号データがまとまった1つのデータソースを探すに至りました。
Webで利用可能な英語の発音記号データ
さて、本題のWebで利用可能な英語の発音記号データをご紹介していきます。
1. CMU Pronouncing Dictionary
これがWeb上で無料で手に入る最も信頼の置けるデータだと思います。
カーネギーメロン大学がパブリックドメインで提供している発音辞書です。
データも、プレーンテキスト形式で配布されており、扱いやすいです。
各行には一つの単語とその発音が記載されており、単語と発音は通常スペースや特定の区切り文字で分離されています
ただし、この発音記号はIPAでなく、ARPAbetという形式で書かれているので、IPAにするには変換が必要です。
ARPAbet to IPA はライブラリがありそうでした。
↓実際のデータ(apple, orange, pineapple)
APPLE AE1 P AH0 L
ORANGE AO1 R AH0 N JH
PINEAPPLE P AY1 N AE2 P AH0 L
公式リンク
http://www.speech.cs.cmu.edu/cgi-bin/cmudict
2. Wiktionary
Wiktionaryは、ウィキメディア財団が運営するプロジェクトの一つで、誰でも自由に編集できる多言語オンライン辞書です。Wikipediaの辞書版ですね。
誰でも編集ができるので信頼性は他よりも劣りますが、発音記号以外にも情報量が多いです。
Creative Commons(CC BY-SA 4.0 DEED)で提供されています。
また、データも、XMLデータが提供されています。ウィキメディア財団は、Wiktionaryを含むすべてのプロジェクトのデータベースダンプを定期的に公開しており、これを通じてプロジェクトのコンテンツ全体をダウンロードできます。
ただし、このXMLデータは発音記号以外の辞書データもたくさん入っているので、発音記号だけを取り出すのは一苦労がありそうです。
ダウンロードリンク
https://dumps.wikimedia.org/jawiktionary/latest/
3. WordsAPI
WordsAPIは単語に関する様々な情報を提供するRESTful APIです。発音記号の他にも、その単語の定義や同義語、反意語、品詞、例文などをAPI経由で得ることができます。
Playgroundもあるので、どのようなデータが返ってくるのかもわかりやすいです。
発音記号は、pronunciation
の部分に入っています。
また、$629にて、全てのデータが入ったJSONデータを購入することもできます。
公式リンク
https://www.wordsapi.com/
以上です。
参考になれば幸いです。
株式会社mikanは積極採用中!
株式会社mikanは多方面の職種で積極的に採用活動を行っております!
興味をもっていただいた方はぜひ以下のページをのぞいてみてください!