無償かつ入手しやすい音声データセットをメモしています。
ライセンス・利用規約は「商用利用可能」「研究用途のみ」ともに紹介します。
コーパスを探すときに有用なサイト
- コーパス配布元サイト
-
音声資源コンソーシアム : 日本語コーパスが豊富、無償または有償で利用可能
- 緩いライセンスのコーパスでなくても良いときはここ
- 自発的発話の日本語音声コーパスはだいたいここにある
- 入手は要申請
- 所属や責任者を記入する必要があるため、研究者や企業でないと厳しい?
- (この記事では音声資源コンソーシアムのコーパスは未掲載)
-
Shinnosuke Takamichi: コーパス一覧 : 日本語中心。高道先生が携わっている音声コーパス
- 大量の日本語音声コーパスが配布されている
- 音声合成のコーパスをつくろう (Slideshare) : 2021年6月時点の音声コーパス事情
- あなたにどうしても伝えたい30の音声コーパス : 音声コーパスの紹介。ASJ2023秋のポスター
-
OpenSLR : 様々な言語の音声コーパス一覧
- LibriSpeechなどの音声コーパスが配布されているページ
- CSTR Downloads (The University of Edinburgh) : エディンバラ大学が配布しているコーパスの一覧
- Databases and Tools (Graz University of Technology) : オーストリアドイツ語・英語の大規模コーパスなどを含む一覧
-
音声資源コンソーシアム : 日本語コーパスが豊富、無償または有償で利用可能
- 個人収録系
- ITAコーパス: ITAコーパスを朗読した音声データベース一覧
- ITAコーパスの収録&配布者リスト (つくよみちゃん公式) : ITAコーパスを読み上げて公開している有志の一覧
- 声優統計コーパスの収録&配布者リスト (つくよみちゃん公式) : 声優統計コーパスを読み上げて公開している有志の一覧
- 機械学習向けデータセット
- 機械学習ライブラリに組み込まれているデータセット
- torchaudio.datasets : PyTorch の torchaudio から利用できる音声データセット
- Tensorflow Datasets : Tensorflow から利用できる音声データセット
- Zenodo : 研究データを公開するためのリポジトリサイト
- Kaggle : データ分析・予測モデリングのコンペティションサイト
- Hugging Face Hub : 機械学習関連のホスティングプラットフォーム
- Papers With Code : 機械学習研究の紹介・比較サイト
-
DagsHub : 機械学習・データサイエンス向けオープンソースコミュニティ
- DagsHub/audio-datasets : DagsHubでホスティングされているオーディオデータセットの一覧
- 機械学習ライブラリに組み込まれているデータセット
- CCライセンスのオーディオ投稿サイト
- コーパスリスト
- Voice datasets (Jim Schwoebel) : 様々な言語の音声コーパスをまとめた巨大なリスト
- SuperKogito/SER-datasets : 音声の感情認識のための音声コーパスをまとめた巨大なリスト
- 40 Open-Source Audio Datasets for ML
- List of datasets for machine-learning research (Wikipedia) : 英語のコーパスが中心
日本語話声コーパス
声優統計コーパス
フリーな日本語音声コーパスが現れはじめた発端のひとつといえるコーパス。
日本語版Wikipediaから構築された音素バランス100文を、プロ声優が3種類の感情表現つきで読み上げている。
- 話者
- プロ女性声優3名
- 内容
- 音声データ: WAV, 48 kHz, 16 bit
- 通常
- 喜び
- 怒り
- 音声データ: WAV, 48 kHz, 16 bit
- ライセンス
- 音素バランス文: CC BY-SA 4.0
- 音声ファイル: 日本声優統計学会サイト を参照
- 個人での研究・分析目的でのみ無償利用可能
- 禁止事項: 再配布、公序良俗に反する利用など
- 関連リンク
- 音素バランス文の構築方法 (PDF)
-
声優統計コーパスに存在する誤りの告知と JVS コーパスの利用推奨
- 自分で声優統計コーパスの台本を読み上げて、音声を収録したい方向けの告知
- ざっくりいうと「今後あらたに収録する際は、JVSコーパスで使用されている改良版の台本
voiceactress100
を推奨する。理由は、voiceactress100
には句読点が追加されて文の区切りが明確化されているため。」
JVSコーパス
声優統計コーパス100文を、プロの声優100名が読み上げたコーパス。
通常の読み上げ音声に加え、裏声・ささやき声も含まれる。
また、同じ話者らによる歌声が JVS-MuSiC コーパス に収録されている。
- 話者
- プロ声優・男女あわせて100名
- 内容
- 音声データ: WAV, 24 kHz, 16 bit
- 通常発話(全話者共通文章: 声優統計コーパスと同様)
- 通常発話(話者別文章: BASIC5000など)
- 裏声(話者別文章)
- ささやき声(話者別文章)
- 音素ラベル: テキスト(自動アラインメント)
- 読み上げ文: テキスト
- 話者の性別
- 話者のFo上限・下限
- 話者類似度マトリクス(男女別)
- 音声データ: WAV, 24 kHz, 16 bit
- ライセンス
- タグ情報: CC BY-SA 4.0
- 音声データ: 研究・個人利用のみ、再配布不可、ブログ等へのサンプル掲載可(詳細は README を参照)
- 関連リンク
- S. Takamichi et al., "JSUT and JVS: Free Japanese voice corpora for accelerating speech synthesis research," Acoustical Science and Technology, 41(5), pp. 761-768, 2020.
- JVS:フリーの日本語多数話者音声コーパス (SlideShare)
- 高道慎之介, 三井健太郎, 齋藤佑樹, 郡山知樹, 丹治尚子, 猿渡洋: “JVS:フリーの日本語多数話者音声コーパス”, 情報処理学会研究報告(SLP), 2019(7), pp.1-4, 2019. PDF
- arXiv preprint
- サードパーティ
- Hiroshiba/jvs_hiho:読み仮名が音声に合うよう修正された音素ラベル
- Hiroshiba/voiceactress100_ruby:読み仮名つきバランス文
- つくよみちゃんコーパス:アクセント情報つき台本が同梱されている
[声優統計・JVS系] 個人収録コーパス
声優統計コーパス・JVSコーパスの文を読み上げた音声が収録されている、有志による音声コーパスです。
音声データのライセンス・利用規約はコーパスによって異なります。
- 声優統計コーパス(JVSコーパス準拠)の収録&配布者リスト: 夢前黎様によるまとめ
[ITA系] ITAコーパスマルチモーダルデータベース
プロ女性声優3名が読み上げた音声データに加え、発話時の口唇動画を含むコーパス。
読み上げ台本はパブリックドメインで公開されている。
通常読み上げ音声 (324文) と感情読み上げ音声 (通常, あまあま, セクシー, ツンツン 各100文) からなる。
- 話者
- プロ女性声優3名
- 内容
- 音声データ: WAV, 96 kHz, 24 bit
- 音素ラベル
- 画像データ: 連番PNG, 300×300 px
- 画像ラベル: 顔の特徴点68点
- ライセンス
- 独自の取り決め(詳しくはサイト参照)
- 音素バランス文は Unlicense(パブリックドメインとほぼ同等なライセンス)
- 口唇画像は個人を特定できる情報を含むため公開厳禁
- 関連リンク
- GitHub:ITAコーパスの文章リスト
- ITAコーパス文の出典
- ITAコーパスの論文 (PDF)
- 小口純矢,金井郁也,小田恭央,齊藤剛史,森勢将雅, “ITAコーパス:パブリックドメインの音素バランス文からなる日本語テキストコーパスの構築と基礎評価”,情報処理学会研究報告,vol. 2021-MUS-131, no. 31, pp. 1-6, 2021. PDF
- GreenFunding:クラウドファンディング 東北イタコは歌いたい!しゃべりたい!東北イタコ音声合成データベース制作プロジェクト
- サードパーティ
- GitHub forks:GitHubでのフォーク一覧
- shirayu/ita-corpus-chuwa:ITA Corpus Chuwa! 1文ずつに分割し、形態素・句・構文のアノテーションを加えたもの
- r9y9/ita-lab:フルコンテキストラベル版
[ITA系] 話速変換コーパス SpeedSpeech-JA-2022
上述のITAコーパスの文章リストを、通常・速い・遅いの3段階の話速で読み上げたコーパス。
- 話者
- 日本語プロナレーター
- 男性1名、女性1名
- 内容
- 音声データ: WAV, 48 kHz, 24 bit, 防音室
-
normal
: 通常速度 -
fast
: 高速条件 -
slow
: 低速条件
-
- 音声データ: WAV, 48 kHz, 24 bit, 防音室
- ライセンス
- 音声データ: CC BY-NC 4.0
- 読み上げ文: ITAコーパス準拠(パブリックドメイン)
[ITA系] サヨ子コーパス
高齢話者がITAコーパスを読み上げた音声。
- 話者
- 81歳女性
- 内容
- 音声データ: WAV
- ノイズを含む元音声 (wav_noise) : 自宅収録。背景雑音(鈴虫など)やリップノイズが含まれる。
- ノイズ除去済み音声 (wav) : 音声合成などのタスク向け。
- 音素・韻律ラベル
- タイミング情報は含まれない
- 音声データ: WAV
- ライセンス
- 配布ページの利用規約を参照
[ITA系] 個人収録コーパス
ITAコーパスの文を読み上げた音声が収録されている、有志による音声コーパスです。
文章リストそのものはパブリックドメインですが、音声データのライセンス・利用規約はコーパスによって異なります。
- ITAコーパスを朗読した音声データベースの例: ITAコーパス公式
- ITAコーパスの収録&配布者リスト: 夢前黎様によるまとめ
JSUTコーパス
単一話者による大規模な日本語読み上げコーパス。
JSUT-Song(歌声), JSUT-vi(音声模倣)などバリエーションもある。
名称は「JUST」ではなく「JSUT」である点に注意(スペルチェッカなどで勝手に訂正されやすい)。
- 話者
- 女性1名
- 内容
- 音声データ: 48 kHz, 10時間
- 読み上げ文
-
basic5000
: 常用漢字の音読み・訓読みを全てカバー -
utparaphrase512
: 文の一部を読み替えたもの -
onomatopee300
: 日本語オノマトペ -
countersuffix26
: 助数詞 -
loanword128
: 外来語由来の動詞・名詞 -
voiceactress100
: 声優統計コーパスとのパラ音声 -
travel1000
: 旅行ドメインのフレーズ -
precedent130
: 判例文 -
repeat500
: 繰り返し発話された音声 (100文 × 5回)
-
- ライセンス
- 音声データ・各文章はすべて異なるライセンス形態(コーパスのLICENCEファイルを参照)
- 関連リンク
- sarulab-speech/jsut-label:公式コンテキストラベル
- S. Takamichi et al., "JSUT and JVS: Free Japanese voice corpora for accelerating speech synthesis research," Acoustical Science and Technology, 41(5), pp. 761-768, 2020.
- サードパーティ
- r9y9/jsut-lab:時間情報付きコンテキストラベル
みんなで作るJSUTコーパスbasic5000
JSUTコーパスのbasic5000文を、複数の音声提供者で分担して読み上げ、大規模なコーパスを作るプロジェクト。
まだ全文はカバーされていないが、途中経過の音声データも配布されている。
- 話者
- 複数話者
- 上記サイトに音声提供者一覧のスプレッドシートあり
- 内容
- 音声データ: WAV, 48 kHz, 16 bit
- 読み上げ文
- ライセンス
- basic5000テキスト: CC BY-SA 4.0
- 音声データ
- 「音声技術に関する研究・開発」かつ「元の音声・声質が表に出ない」用途にのみ利用可
- 営利利用も可
- 詳しくはサイトの利用規約を参照
ROHANコーパス
現時点で4,600文からなる大規模な音素バランス文。数千文規模の音素バランス文は珍しい。文はパブリックドメインとして公開されている。
もとは ROHAN4600 と呼ばれていたが、将来的に拡張される可能性を踏まえて ROHAN へと改称された。
「ROHANコーパス」自体は文章リストであり、音声データは別で配布されている。
以降で実際に音声が含まれるデータベースを紹介する。
[ROHAN系] ROHAN4600マルチモーダルデータベース
音声データに加えて口唇動画も含む、全4600文を読み上げたコーパス。
- 話者
- プロ女性声優1名
- 内容
- 音声データ: WAV, 96 kHz, 24 bit
- 音素ラベル
- 画像データ: 連番PNG, 300×300 px
- 画像ラベル: 顔の特徴点68点
- サードパーティ
- RRR-troisR/Zundamon_ROHAN_label:人手で修正されたラベル
[ROHAN系] No.7音声データベース
No.7歌唱データベースと同じ声優による読み上げ音声。
-
話者
- プロ女性声優1名
-
内容
- 音声データ: WAV, 96 kHz, 24 bit
- 発話スタイル
- Normal (ノーマル) : 通常の発話スタイル
- Announce (アナウンス) : ニュースのアナウンスを意識した淡々とした発話スタイル
- Reading (読み聞かせ) : 絵本の読み聞かせを意識したゆったりとした発話スタイル
- ノイズ除去
- なし
- あり (iZotope RX によるノイズ除去)
- 発話スタイル
- 音素ラベル
- 自動ラベリング後、手動で修正したもの
- 読み間違いリスト
- 音声データ: WAV, 96 kHz, 24 bit
-
ライセンス
- ログインページを参照
-
話者
- プロ日本人女性声優1名
[ROHAN系] 個人収録コーパス
ROHAN4600コーパスを読み上げた音声が収録されている、有志による音声コーパスです。
文章リストそのものはパブリックドメインですが、音声データのライセンス・利用規約はコーパスによって異なります。
- TODO: 外部のリストが出てきたら載せる
ReazonSpeech
ワンセグ放送の録画データから構築された、大規模な日本語音声コーパス。
このコーパスで訓練された音声認識モデルも公開されている。
トータルで約35,000時間にのぼるが、複数のデータセットサイズ (tiny, small, medium, large, all) が用意されている。
- 話者
- 多数(テレビ出演者)
- 内容
- 音声データ: FLAC, 16 kHz, 約35,000時間 (ReazonSpeech v2)
- 文字起こし
- ライセンス
- CDLA-Sharing-1.0(ただし利用目的は著作権法30条の4に定める情報解析に限る)
- 関連リンク
- 超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開
- reazon-research / reasonspeech (Hugging Face)
- Y. Yin, D. Mori, S. Fujimoto: "ReazonSpeech: A free and massive corpus for Japanese ASR," 言語処理学会第29回年次大会(NLP 2023), 2023年3月.
Hi-Fi-CAPTAIN
大規模な対話調の音声コーパス。
英語と日本語でそれぞれ収録されている。
- 話者
- プロナレーター4名
- アメリカ英語 女性 1名 (15.1時間)
- アメリカ英語 男性 1名 (15.0時間)
- 日本語 女性 1名 (23.3時間)
- 日本語 男性 1名 (22.3時間)
- プロナレーター4名
- 内容
- 音声データ: WAV, 48 kHz, 24 bit
- ライセンス
- CC BY-NC-SA 4.0
青空文庫振り仮名注釈付き音声コーパス
著作権切れ作品のデイジー(視覚障碍者向けに提供されているオーディオデータ)をもとに構築された、機械学習向けのデータセット。
国立国会図書館(NDL)が公開している。
- 内容
- 音声データ
- テキストデータ
- OpenAI Whisper を用いた自動書き起こし
- 青空文庫テキスト
- ライセンス
- CC PDM (パブリックドメイン)
- 関連リンク
- 文献
- 佐藤文一, 吉永直樹, 喜連川優: "書誌データ・青空文庫・点字データを用いた振り仮名注釈付き日本語コーパスの構築," 情報処理学会第15回アクセシビリティ研究会研究報告, 2021年3月.
- F. Sato, N. Yoshinaga, M. Kitsuregawa: "Building Large-Scale Japanese Pronunciation-Annotated Corpora for Reading Heteronymous Logograms," In Proceedings of the Thirteenth Language Resources and Evaluation Conference, pp.7113-7121, 2022.
JSUT-book コーパス
6つのオーディオブック(青空文庫)を読み上げたコーパス。
- 話者
- プロではない日本語女性話者1名
- 内容
- 音声データ: 48 kHz, 1時間, スタジオ収録
- テキスト
- ライセンス
- 次の用途のみ許可
- アカデミック研究
- 非商用研究(営利団体でも可)
- 個人利用
- 詳細は公式サイトとREADMEを参照
- 次の用途のみ許可
JSSSコーパス
同じ意味の文章を複数読み上げた音声コーパス。
- 話者
- 女性1名
- 内容
- 音声データ: 24 kHz, 8時間
- 読み上げ文
- summarization: 時間制約付き音声要約
- simplification: 「やさしい日本語」音声
- short-form: 短文読み上げ
- long-form: 長文読み上げ
- ライセンス
- 音声データ・各文章はすべて異なるライセンス形態(公式サイトを参照)
- 関連リンク
-
JSSS-miscコーパス
- JSSSコーパスと同じ単一話者による多スタイル音声データ
- 以下の4スタイルが含まれる
- ささやき声
- できるだけ低い声
- 裏声
- 方言文章→東京方言 変換文の読み上げ(元文章はJMDコーパス)
-
JSSS-miscコーパス
JVNVコーパス
日本語の感情音声コーパス。
言語音声(読み上げ文)に非言語音声(「あっ」などの感嘆詞、笑い声、泣き声など)が組み込まれた音声が収録されている。
- 話者: 4名
- F1: 女性話者
- F2: 女性話者
- M1: 男性話者
- M2: 男性話者
- 内容
- 音声データ: WAV, 48 kHz, 24 bit, 1615 発話 (全 3.94 時間)
- 感情
- anger: 怒り
- disgust: 嫌悪
- fear: 恐れ
- happy: 幸せ
- sad: 悲しみ
- surprise: 驚き
- セッション
- Regular: 非言語音声のセリフを監督者が設計したもの
- Phrase-free: 非言語音声のセリフを話者自身が設計したもの
- 感情
- ラベル: 非感情音声部分の時刻情報
- 読み上げ文: ChatGPTで生成した音素バランス文
- 感情ごとに異なる文セットが与えられている
- 音声データ: WAV, 48 kHz, 24 bit, 1615 発話 (全 3.94 時間)
- ライセンス
- CC BY-SA 4.0
- 関連リンク
- Detai Xin, Junfeng Jiang, Shinnosuke Takamichi, Yuki Saito, Akiko Aizawa, Hiroshi Saruwatari, "JVNV: A Corpus of Japanese Emotional Speech with Verbal Content and Nonverbal Expressions", IEEE Dataport, Oct. 2023.
- Detai Xin, Junfeng Jiang, Shinnosuke Takamichi, Yuki Saito, Akiko Aizawa, Hiroshi Saruwatari, "JVNV: A Corpus of Japanese Emotional Speech with Verbal Content and Nonverbal Expressions," arXiv preprint 2310.06072, Oct. 2023.
JMDコーパス
日本語方言コーパス。
- 話者
- 熊本弁: 男性
- 大阪弁: 女性
- 内容
- 音声データ: WAV, 24 kHz, 2時間以上
- 読み上げ文
- ライセンス
- 次の用途のみ許可
- アカデミック研究
- 非商用研究(営利団体でも可)
- 個人利用
- 詳細は公式サイトとREADMEを参照
- 次の用途のみ許可
JLecSponSpeech
大学での講義の録音をもとにした音声の書き起こしデータ。
読み上げではなく自発的な発話である点が特徴。非流暢性タグ(言い淀みなどのアノテーション)が含まれる。
- 内容
- 書き起こし: xlsx形式, 非流暢性タグを含む
- ライセンス
- 書き起こし: 非商用目的での研究のみ
- リンク
- YouTube再生リスト:講義動画の一覧
- 文献
- 松永 裕太, 佐伯 高明, 高道 慎之介, 猿渡 洋, "個人別自発音声合成の実現に向けたフィラーの言語学的知識に基づく実験的研究," 音声言語情報処理研究会, March. 2022.
CSS10 Japanese
夏目漱石『明暗』を読み上げたパブリックドメインのオーディオブックをもとに作成された大規模コーパス。
CSS10 には他の言語の音声コーパスもある。
- 話者
- 男性話者1名
- 内容
- 音声データ: WAV, 約6800文, 約15時間
- 読み上げ文: テキスト形式
- ライセンス
- CC0(パブリックドメイン)
声庭 (Koniwa)
ラジオ番組や朗読音声の大規模なコレクション。商用利用も可能。
アノテーションの進行状況は上記GitHubリポジトリから確認可能。
- 話者
- 複数話者(複数の出典)
- 詳細は上記サイトを参照
- 内容
- 音声データ: 様々なフォーマット
- アノテーションデータ: JSON
- ライセンス
- 原文および音声(以下のいずれか、データの出典により異なる)
- CC BY
- CC 0
- パブリックドメイン
- アノテーション
- CC 0
- プログラム
- Apache License 2.0
- 原文および音声(以下のいずれか、データの出典により異なる)
JTubeSpeech
YouTubeの日本語字幕あり動画で構築されているコーパス。
音声データは付属のPythonスクリプト経由でダウンロードする必要がある。
- 関連リンク
- JTubeSpeech: corpus of Japanese speech collected from YouTube for speech recognition and speaker verification arXiv
- サードパーティ
- JTubeSpeech: YouTubeによる日本語音声コーパスの構築方法:ローカルでの環境構築方法の解説
JTubespeech-ASV
YouTube動画から構築された、話者照合(声から個人を識別する)向けの日本語音声コーパス。
- 話者
- 1,792 名
- 内容
- 音声ファイル: MP3, 16 kHz
- ライセンス
- 研究開発目的のみ(暫定)
東北地方民話コーパス
東北地方の昔話を収録したコーパス。
音源は、昔話採集家・佐々木徳夫氏が1957年から収集した東北地方民話の音声。
オープンリールテープやアナログテープに記録されていた音声をデジタル化したもの。
- 話者
- F001, M001
- 内容
- 音声: WAV, 16 kHz, 16 bit
- 書き起こし: CSV
- メタ情報: CSV
- 昔話の題目
- 収録日
- 話者ID
- 出身地
- 掲載書籍情報
NIT ATR503 M001
http://hts.sp.nitech.ac.jp/?Download
https://ja.osdn.net/projects/galateatalk/releases/22207
ATR503文を読み上げた音声データベース。
- 話者
- 男性1名
- 内容
- 音声データ: RAW, 16 kHz, 16 bit
- 音素ラベル
日本語歌声コーパス
東北きりたん歌唱データベース
- 話者
- プロ日本人女性声優1名
- 内容
- 50曲
- 音声データ: WAV, 96 kHz, 24 bit
- 音素ラベル: スペース区切りテキスト
- 楽譜データ: MIDI, MusicXML
- ライセンス
- 独自の取り決め(詳しくはサイト参照)
- 2018年度に改正された「著作権法30条の4」に従い、研究開発用途など「著作物の表現を享受しない」場合に利用できる
- ダウンロードには要Twitter認証
- 関連リンク
- GitHub:ラベルデータ
- Itsuki Ogawa, Masanori Morise: "Tohoku Kiritan singing database: A singing database for statistical parametric singing synthesis using Japanese pop songs," Acoustical Science and Technology, Volume 42, Issue 3, pp. 140-145, 2021.
- サードパーティ
東北イタコ歌唱データベース
- 話者
- プロ日本人女性声優1名
- 内容
- 50曲
- 音声データ: WAV, 96 kHz, 24 bit
- 音素ラベル: スペース区切りテキスト
- 楽譜データ: MIDI, MusicXML
- ライセンス
- 独自の取り決め(詳しくはサイト参照)
- 2018年度に改正された「著作権法30条の4」に従い、研究開発用途など「著作物の表現を享受しない」場合に利用できる
- 音素補填用の50曲目はパブリックドメイン(歌声データは除く)
- ダウンロードには要Twitter認証
- 関連リンク
- GitHub:ラベルデータ
- クラウドファンディング 東北イタコは歌いたい!しゃべりたい!東北イタコ音声合成データベース制作プロジェクト
- サードパーティ
No.7歌唱データベース
商用楽曲が収録されている「東北きりたんDB」「東北イタコDB」と異なり、楽譜と歌詞がデータベース向けに作成されている。
- 話者
- プロ日本人女性声優1名
- 内容
- 51曲
- 音声データ: WAV, 96 kHz, 32 bit
- オリジナル歌唱:
/wav_O/
- ノイズ除去:
/wav_O_re/
- ノイズ除去&ピッチ補正:
/wav_P/
- ノイズ除去&タイミング補正:
/wav_T/
- ノイズ除去&ピッチ補正&タイミング補正:
/wav_PT/
- オリジナル歌唱:
- 歌詞データ: docx, PDF
- MIDIデータ
- 音素ラベルデータ
- GitHubリポジトリにて配布
- 補正済み版
/wav_PT/
に対応するラベルのみ提供
- MusicXMLデータ
- GitHubリポジトリにて配布
- ライセンス
- このデータベース内に収録されている歌声
- 独自の取り決め(詳しくはデータベースのページを参照)
- ダウンロードには要Facebook認証
- ラベルデータ
- パブリックドメイン (CC0)
- 楽曲
- 楽曲の著作権は小岩井ことり氏(作詞・作曲)に帰属
- 収録ジャンル等に応じてアレンジし、それを歌ったデータの公開が可能(制作陣の森勢先生によるツイート)
- 詳しくはデータベースのREADMEを参照
- キャラクター、合成した歌声、イラスト
- 公式サイトを参照
- このデータベース内に収録されている歌声
- 関連リンク
- No.7 公式サイト
- GitHub:ラベルデータ
- 論文など
- 森勢 将雅, 藤本 健, 小岩井 ことり, “レアなモーラを含む日本語歌唱データベースの構築と基礎評価,” FIT2021 (第20回情報科学技術フォーラム), pp. 59-64, 2021年8月25日.
おふとんP 歌声データベース
- 話者
- 男性1名
- 内容
- 音声データ: 96kHz, 24bit, 46分30秒
- ピッチ補正済
- 一部 44.1kHz, 24bit から変換したものも含む
- 音素ラベル
- 楽譜データ
- 著作権切れの楽曲 + "呪文歌唱"
- 音声データ: 96kHz, 24bit, 46分30秒
- ライセンス
- サイト参照
夏目悠李/男声歌声データベース
- 話者
- 男性1名
- 内容
- 約48分
- ポップス調、権利問題のない楽曲 + 著作権切れ楽曲
- ライセンス
- サイト参照
- 備考
- 歌声データベース本体は「NNSVS (歌声DB)」からダウンロードできる
御丹宮くるみ 歌声データベース
- 話者
- 女性1名
- 内容
- 約61分
- 著作権切れの楽曲 + "呪文歌唱"
- ライセンス
- サイト参照
雨星サイファ歌声DB
- 話者
- 女性1名
- 内容
- 約125分 (有音区間)
- 85曲: 著作権切れ楽曲, UTAU楽曲, No.7歌唱データベース
- ライセンス
- サイト参照
JVS-MuSiCコーパス
JVSコーパスと同じ100名による歌声。
ピッチとテンポをMelodyneにより補正・統一した音声データがついている。
- 話者
- プロ声優・男女あわせて100名
- 内容
- 音声データ: WAV, 24 kHz, 16 bit
- 共通歌唱1曲(童謡「かたつむり」)
- 元の歌声
- 歌唱者毎にピッチとテンポを修正したもの
- 歌唱者間でピッチとテンポを統一したもの
- 歌唱者毎に異なる童謡1曲
- 共通歌唱1曲(童謡「かたつむり」)
- Melodyneプロジェクト
- 音声データ: WAV, 24 kHz, 16 bit
- ライセンス
- タグ情報: CC BY-SA 4.0
- 音声データ: 研究・個人利用のみ、再配布不可、ブログ等への掲載可
- 関連リンク
- Hiroki Tamaru, Shinnosuke Takamichi, Naoko Tanji, and Hiroshi Saruwatari, "JVS-MuSiC: free Japanese multispeaker singing-voice corpus," arXiv preprint, 2001.07044, Jan. 2020.
PJS コーパス
JVSコーパスにメロディをつけたもの。
- 話者
- 男性1名
- 内容
- 音声データ: WAV, 48 kHz, 24 bit
- 歌声
- 読み上げ
- 音素ラベル: スペース区切りテキスト
- 楽譜データ: MIDI, MusicXML
- メロディの情報
- 音声データ: WAV, 48 kHz, 24 bit
- ライセンス
- CC BY-SA 4.0
- サードパーティ
- UtaUtaUtau/pjs-manual-labels : 手動ラベリングしたもの
- 関連リンク
- PJS:音素バランスを考慮した日本語歌声コーパス(スライド)
- 小口純矢, 高道慎之介: “PJS: 音素バランスを考慮した日本語歌声コーパス”, 情報処理学会研究報告 音声言語情報処理(SLP), 2020(34), pp.1-3, 2020.
- Junya Koguchi and Shinnosuke Takamichi, "PJS: phoneme-balanced Japanese singing voice corpus," arXiv preprint 2006.02959, Jun. 2020.
NIT SONG070 F001
女性が童謡を歌ったもの。歌声合成システム Sinsy で使われていた。
「Japanese song file」からダウンロードできる。
- 話者
- 女性1名
- 内容
- 31曲の童謡
- 音声データ: RAW, 48 kHz, 16 bit
- 音素ラベル
jaCappella コーパス
アカペラ歌唱が収録されているコーパス。
歌声コーパスとしてはめずらしい重唱を収録したもので、6つの声部に分かれている。
歌唱されている楽曲は、童謡・唱歌を10種類のジャンルで編曲したものが含まれている。
- 内容
- 音声データ: WAV, 48 kHz
- 楽曲: 35曲
- 声部: lead vocal, soprano, alto,tenor, bass, vocal percussion
- サブセット(ジャンル): jazz, punk rock, bossa nova, popular, reggae, enka, neutral, ballad, edm, soulfunk
- 譜面: MusicXML
- メタデータ: 楽曲の情報, 声部情報, 歌唱者属性など
- 音声データ: WAV, 48 kHz
- ライセンス
- 詳細はサイト参照
- 商用利用は有料(jaCappellaチームへコンタクト)
- 関連リンク
- T. Nakamura, et al.: "jaCappella Corpus: A Japanese a Cappella Vocal Ensemble Corpus," ICASSP 2023, May 2023.
JSUT-Song
JSUTコーパスの話者による歌声が収録されているコーパス。
- 話者
- 女性1名
- 内容
- 27曲の著作権切れの童謡
OJaMa-Song
- 話者
- 20代日本人一般男性1名
- 内容
- 音声データ: WAV, 48kHz, 16bit
- 童謡
- 音声データ: WAV, 48kHz, 16bit
英語話声コーパス
LJ Speech
著作権切れのノンフィクション書籍7冊の一節を読み上げたコーパス。
- 話者
- 話者1名
- 内容
- 音声データ: WAV, 22050 Hz, 16bit, 約24時間
- 原文テキスト: 13,100文
- 正規化テキスト(数値や通貨単位を単語に置き換えたバージョン)
- ライセンス
- Public domain(著作権放棄)
- その他
- 残響成分が強いのでニューラルボコーダの性能比較には適さないという指摘も
LibriSpeech
パブリックドメインのオーディオブックから抽出された大規模コーパス。
- 内容
- 音声データ: FLAC, 16 kHz, 16 bit, 約1000時間
- clean
- other
- 原文テキスト
- 話者情報(名前・性別)
- 音声データ: FLAC, 16 kHz, 16 bit, 約1000時間
- ライセンス
- CC BY 4.0
People's Speech Dataset
約3万時間相当という非常に大規模なラベル付き英語話声データセット。
音声の品質によって Clean と Dirty に分かれている。
- 内容
- 音声データ: WAV
- 関連リンク
- GitHub
- D. Galvez et al., “The People’s Speech: A Large-Scale Diverse English Speech Recognition Dataset for Commercial Usage,” Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 1), 2021.
- ライセンス
- CC BY-SA 4.0 または CC BY 4.0
CSTR VCTK Corpus
声質変換の論文でよく目にするコーパス。
- 話者
- 110名
- 内容
- 音声データ: 48 kHz, 16 bit
- 収録は 96 kHz, 24 bit
- 音声データ: 48 kHz, 16 bit
- ライセンス
- CC BY 4.0
Hi-Fi-CAPTAIN (再掲)
大規模な対話調コーパス。See: Hi-Fi-CAPTAIN.
CMU ARCTIC Databases
カーネギーメロン大学(CMU)が公開している、古くから存在する英語話声コーパス。
Electroglottograph (EGG, 電気グロトグラフ) と呼ばれる装置で観測された声帯振動波形が含まれる。
- 話者
- 18名の男女
- 内容
- 音声データ: 32 kHz版 or 16 kHz版
- マイクで収録した音声
- EGGデータ
- 音素ラベル
- 音声データ: 32 kHz版 or 16 kHz版
MOCHA-TIMIT Corpus
Electromagnetic Articulograph (EMA)と呼ばれる磁気センサを使って口腔内をモーションキャプチャしたデータを含むコーパス。
- 内容
- 音声データ: 16 kHz
- EGGデータ: 16 kHz
- EMAデータ: 500 Hz
- upper incisor (上あごの前歯)
- lower incisor (下あごの前歯)
- upper lip (上唇)
- lower lip (下唇)
- tongue tip (舌の先)
- tongue blade (舌の中央)
- tongue dorsum (舌の奥)
- velum (軟口蓋)
FDA Evaluation Database
基本周波数推定アルゴリズムの評価用データ。Bagshaw's Database 等と呼ばれることもある。
- 話者
- 男性1名 (話者名: RL)
- 女性1名 (話者名: SB)
- 内容
- 音声データ: RAW, 20 kHz, 16 bit
- EGGデータ: RAW, 20 kHz, 12 bit
- 基本周波数データ: 簡素な独自フォーマット
- 関連リンク
- P. C. Bagshaw, S. Hiller, M. A. Jack: “Enhanced pitch tracking and the processing of F0 contours for computer aided intonation teaching”, In EUROSPEECH'93, pp.1003-1006, 1993.
PTDB-TUG
基本周波数推定向けの音声データベース。
- 話者
- ネイティブ英語話者男女20名
- 内容
- 音声データ
- EGGデータ
- 基本周波数軌道データ
- 関連リンク
- G. Pirker, M. Wohlmayr, S. Petrik, F. Pernkopf: “A Pitch Tracking Corpus with Evaluation on Multipitch Tracking Scenario”, Interspeech, pp. 1509-1512, 2011.
英語歌声コーパス
NUS-48E Corpus
歌声に加えて、読み上げ音声も収録されている歌声コーパス。
(ダウンロードリンクが少しわかりづらい。「SMC Dataset」欄の論文リストの末尾にある [data] のリンクから入手できる)
- 話者
- 12名
- 内容
- 音声データ: WAV, 44.1 kHz, 全169分
- 各話者4曲ずつ
-
sing
: 歌声 -
read
: 歌詞の読み上げ音声
- 音素アラインメントラベル: テキスト形式
- 音声データ: WAV, 44.1 kHz, 全169分
- 関連リンク
- Zhiyan Duan, Haotian Fang, Bo Li, Khe Chai Sim and Ye Wang: “The NUS Sung and Spoken Lyrics Corpus: A Quantitative Comparison of Singing and Speech“, APSIPA ASC 2013, pp. 1-9.
NHSS Database
歌声と話声をともに収録したデータベース。
- 話者
- 10名
- 内容
- 音声データ:
- ライセンス
- NHSS Database Licence
- 関連リンク
VocalSet
3曲の歌声に加え、多様なスタイル(ロングトーン、トリル、息もれ声、ボーカルフライなど)の単母音が収録されている、歌唱者20名による大規模な歌声データベース。
- 話者
- 20名 (男性9名、女性11名)
- 内容
- 音声ファイル: WAV, 10.1時間
- 収録されている歌
- Row Row Row Your Boat (英語圏で有名な童謡)
- Dona nobis pacem(ラテン語の聖歌)
- Caro mio ben(有名なイタリア歌曲)
MUSDB18
音楽音源分離向けのデータセット。
ボーカル入りの曲も含まれている。
- 内容
- 150曲(約10時間)
- train: 100曲
- test: 50曲
- トラック内容
- マスター
- ドラム
- ベース
- 伴奏その他
- ボーカル
- 非可逆圧縮版 (MUSDB18)
- MP4, Native Instruments stems format によるマルチトラック音声
- AAC (256 kbps), サンプリング周波数 32 kHz 相当
- 無圧縮版 (MUSDB18-HQ)
- WAV, 44.1 kHz
- 150曲(約10時間)
- ライセンス
- CC BY-NC-SA or Restricted
- 学術利用のみ
- 関連リンク
その他の言語の歌声コーパス
SingStyle111
多言語 (英語, 中国語, イタリア語) の歌声コーパス。
複数歌唱者 (8名) ・ 複数スタイル (童謡, ジャズ, オペラ など) を含むなど、多様な歌声が含まれている。
Opencpop
歌声合成のための中国語 (Mandarin) 歌声コーパス。
多言語話声コーパス
Common Voice
クラウドソーシングにより収集された読み上げ音声。
- 話者
- クラウドソーシング
- 内容
- 音声データ: MP3
- 文章
- 年代
- 性別
- ライセンス
- CC 0 (パブリックドメイン)
- 関連リンク
YODAS
YouTubeから収集された、149言語369,510時間の大規模コーパス。
- 内容
- 音声データ
- 字幕データ
- ライセンス
- CC BY 3.0
CSS10
パブリックドメインのオーディオブックをもとに構築された、10言語の読み上げ音声。
CMU Wilderness Multilingual Speech Dataset
世界700言語(地図)の読み上げ音声。
マイナーな言語が多め。
tri-jekコーパス
3ヵ国語を話すことができる話者1名による読み上げ音声。
- 話者
- 女性話者1名
- 日本語: ネイティブ
- 韓国語: ネイティブ
- 英語
- 女性話者1名
- 内容
- 読み上げ音声: WAV, 24 kHz, 16 bit, 全11時間
- 日本語音声: BASIC5000 (うち2,715文), 2.8 時間
- 韓国語音声: Zeroth-Korean (うち2,812文), 6.7 時間
- 英語音声: ENGLISH3000 (うち1,884文), 1.5 時間
- 読み上げ音声: WAV, 24 kHz, 16 bit, 全11時間
- 備考
- コロナ禍中の収録のため、スタジオ収録ではない。一部の音声にクリッピングや背景雑音がみられる。
JECSコーパス
同一話者による日本語・英語・コードスイッチングの3種類を含む音声。
コードスイッチングの例: 「それが数々の trouble に見舞われた」
(FMラジオによくあるような、カタカナ語を英語っぽく発音する話し方に近い?)
- 話者
- バイリンガル声優1名
- 内容
- 読み上げ音声: WAV, 24 kHz, 16 bit, 全2.5時間, スタジオ収録
- 言語
- 日本語
- 英語
- コードスイッチング
- 感情 (演技)
- 通常
- 喜
- 怒
- 哀
- 言語
- 原文
- 日英文
- コードスイッチング文
- コーパス作成者 と 話者 が作成
- 読み上げ音声: WAV, 24 kHz, 16 bit, 全2.5時間, スタジオ収録
- ライセンス
- 次の用途のみ許可
- アカデミック研究
- 非商用研究(営利団体でも可)
- 個人利用
- テキストデータ: CC BY 3.0
- 詳細は公式サイトとREADMEを参照
- 次の用途のみ許可
その他
ほかの声の形態や、特定用途向けのデータセットをとりあげます。
JNV (日本語非言語音声) コーパス
日本語話者4名が6種類の感情(怒り・嫌悪・恐れ・喜び・悲しみ・驚き)を表現した音声からなるコーパス。
- 話者: 4名
- F1: 女性アマチュア話者
- F2: 女性アマチュア話者
- M1: 男性アマチュア話者
- M2: 男性プロ話者
- 内容: WAV, 48 kHz, 全 406.9 秒
Laughterscape
YouTube動画から収集された、大規模な日本語話者による笑い声のコーパス。
- 話者
- 584 名の日本語話者
- 内容
- 音声: WAV, 24 kHz, 全6時間
VocalSketch
音を声で模倣したコーパス。
- 話者
- 複数名
- 関連リンク
- M. Cartwright and B. Pardo: "VocalSketch: Vocally Imitating Audio Concepts," In Proceedings of ACM Conference on Human Factors in Computing Systems, 2015.
JSUT-vi
音を声で模倣したコーパス。(例: シンバルの音 → 「ジャーン」)
VocalSketch と同じ音を日本語話者が模倣したもの。
- 話者
- 女性1名 (JSUTコーパスと同じ話者)
- 内容
- 元の音データ: WAV, 44.1 kHz, 16 bit
- 音声データ: WAV, 48 kHz, 16 bit
OPENGLOT
音声信号から「声帯振動」の成分を分離・抽出する手法 (Glottal Inverse Filtering) 向けの評価用データセット。
人工的に生成したデータからなる Repository I
, II
, III
と、実際の声帯の観測データからなる Repository IV
で構成されている。
- 内容
Repository I
Repository II
Repository III
Repository IV
- 関連リンク
- Paavo Alku, Tiina Murtola, Jarmo Malinen, Juha Kuortti, Brad Story, Manu Airaksinen, Mika Salmi, Erkki Vilkman and Ahmed Geneid, "OPENGLOT - An open environment for the evaluation of glottal inverse filtering", Speech Communication, vol. 107, pp. 38-47, 2018.
Dresden Vocal Tract Dataset
発声器官を3次元MRIで撮像したデータと、その話者が発声した単音が含まれているデータベース。
3Dプリンタで印刷できる3Dモデルデータも用意されている。
- 話者
- 男性1名
- 女性1名
- 内容
- MRIデータ
- 音響シミュレーション用3Dメッシュデータ: STL
- 3Dプリント用3Dデータ: STL
- 撮像時と同じ状態で発声: WAV
- 3Dプリントした模型にホワイトノイズを流して録音: WAV
rtMRIDB
リアルタイムMRIで発声器官を観測した動画と音声がペアになっているデータベース。
「テキストに『わ』を含む」などで検索すると、条件に合う観測データをまとめた動画を見ることができる。
- 話者
- 男性 6 名
- 女性 4 名
よく使われる台本
- 研究用途で使われる音素バランス文
-
音素バランス文・語 一覧 (音声資源コンソーシアム) : 音声分析・音声認識で古典的に使われてきた音素バランス文
- ATR503文
- ATR216語
- 電総研492/1542語
- 東北大・松下212語
- 東北大・松下3285語
- JEITA
- 名工大 英語文
- 名工大 中国語文
-
JVSコーパス100文
- Wikipediaから抽出された100文
- 本文はJVSコーパスに同梱されている
- 読み仮名(ルビ)つき声優統計コーパス音素バランス文 が見やすい
-
ITAコーパス424文
- パブリックドメインの 100文 (Emotion) + 324文 (Recitation)
- 本文は上記リンク先
-
basic5000
- 常用漢字をカバーした 5,000文
- CC-BY-SA 3.0, CC-BY 2.0, CC-BY-SA 4.0
- 本文はJSUTコーパスに同梱されている
-
ROHAN4600
- パブリックドメインの 4,600文 (400文×1, 200文×21)
- 本文は上記リンク先
-
音素バランス文・語 一覧 (音声資源コンソーシアム) : 音声分析・音声認識で古典的に使われてきた音素バランス文
- 音声合成向け
-
MANAコーパス
- パブリックドメインの 228文
- TTSソフトのMYCOEIROINK向けに、疑問文などの品質改善のために考案されたもの
-
MANAコーパス
- 英語
- The Rainbow Passage
- スピーキング能力をテストするための英文 (G. Fairbanks, "Voice and articulation drillbook," Harper & Row, 1960)
- "When the sunlight strikes raindrops in the air," ではじまる
- たとえば VCTK Corpus に含まれている
- https://www.rit.edu/ntid/slpros/media/rainbow
- https://www.york.ac.uk/media/languageandlinguistics/documents/currentstudents/linguisticsresources/Standardised-reading.pdf
- Elicitation paragraph
- The Speech Accent Archive という様々な英語アクセントを記録しているサイトで使われている英文
- "Please call Stella." ではじまる
- たとえば VCTK Corpus, CMU ARCTIC Database に含まれている
- http://accent.gmu.edu/
- The Rainbow Passage
- 音声信号処理屋さんが開発中にぶつぶつしゃべっている文
- 「爆音が銀世界の高原に広がる」 : 昔から音声系の論文に登場する文
- 「あらゆる現実をすべて自分のほうへねじ曲げたのだ。」 : ATR503文a01
- 「一週間ばかりニューヨークを取材した。」 : ATR503文a02
- 「小さな鰻屋に、熱気のようなものがみなぎる。」 : ATR503文j01
- 「また、東寺のように、五大明王と呼ばれる、主要な明王の中央に配されることも多い。」 : 声優統計コーパス001
- 「青い植木鉢」 : SPTKのサンプル音声
Tips
-
「コーパス」と「データベース」の違い
-
日本音響学会 音のなんでもコーナー Q and A (075)
- コーパス = 単にデータを蓄積したもの
- データベース = 使用目的に応じて、編集・ラベル付与などを行ったもの
- 実際の用例はけっこうあいまい
-
日本音響学会 音のなんでもコーナー Q and A (075)
-
音素バランス文
- すべての音素(あるいは音素の組み合わせ)が、なるべく等しい頻度で出現するように調整されている文章リスト
- なるべくすべて均一な頻度を目指して作られるのが一般的
- 日本語や発話状況における代表的な頻度ではない
- 深層学習型の音声合成においては、必ずしも「音素バランス文こそが正義」とは限らないのではないか、という議論もある
- すべての音素(あるいは音素の組み合わせ)が、なるべく等しい頻度で出現するように調整されている文章リスト
-
クリエイティブコモンズ (CC)
- 「利用条件を満たせば再利用してよい」というライセンス
- CC BY : クレジット表示義務
- CC BY-NC : クレジット表示義務+非営利のみ
- CC BY-ND : クレジット表示義務+改変禁止
- CC BY-NC-ND : クレジット表示義務+非営利のみ+改変禁止
- CC BY-SA : クレジット表示義務+ライセンス継承義務
- CC BY-NC-SA : クレジット表示義務+非営利のみ+ライセンス継承義務
- CC0 : 著作権放棄
- CC PDM : 知り得る限り既に著作権制限が存在しない
- バージョン (1.0, 2.0, 2.1, 2.5, 3.0, 4.0 など) が存在する
- バージョンごとに改定が重ねられている
- たとえば CC 4.0 では違反に気が付いてから30日以内に違反状態を是正すれば自動的に許諾が得られるようになった
- 参考になるリンク
- FAQ : CCライセンス全般
- FAQ CC0 : CC0について。CC0とPDMは何が違う?
- とほほのクリエイティブ・コモンズ入門
- 「利用条件を満たせば再利用してよい」というライセンス
-
著作権法第30条の4
- 2018年の法改正で「著作物に表現された思想又は感情の享受を目的としない」場合に著作物が利用できるようになった
- 世の中のビッグデータを使った機械学習・統計解析がやりやすくなった
- 令和5年度著作権セミナー「AIと著作権」(文化庁著作権課) : 生成AIに関する扱い
- 注意:著作権だけでなく、他の権利関係もクリアしていることを確認する
- 著作隣接権: 演奏家やレコード製作者を守るための権利など
- 利用規約: ライセンスで特定用途の使用(たとえば営利利用)が禁止されている場合など
- etc...