LoginSignup
104
112

無償入手可能な音声コーパス/音声データベースの一覧

Last updated at Posted at 2021-06-17

無償かつ入手しやすい音声データセットをメモしています。
ライセンス・利用規約は「商用利用可能」「研究用途のみ」ともに紹介します。

コーパスを探すときに有用なサイト

日本語話声コーパス

声優統計コーパス

フリーな日本語音声コーパスが現れはじめた発端のひとつといえるコーパス。
日本語版Wikipediaから構築された音素バランス100文を、プロ声優が3種類の感情表現つきで読み上げている。

  • 話者
    • プロ女性声優3名
  • 内容
    • 音声データ: WAV, 48 kHz, 16 bit
      • 通常
      • 喜び
      • 怒り
  • ライセンス
    • 音素バランス文: CC BY-SA 4.0
    • 音声ファイル: 日本声優統計学会サイト を参照
      • 個人での研究・分析目的でのみ無償利用可能
      • 禁止事項: 再配布、公序良俗に反する利用など
  • 関連リンク

JVSコーパス

声優統計コーパス100文を、プロの声優100名が読み上げたコーパス。
通常の読み上げ音声に加え、裏声・ささやき声も含まれる。
また、同じ話者らによる歌声が JVS-MuSiC コーパス に収録されている。

  • 話者
    • プロ声優・男女あわせて100名
  • 内容
    • 音声データ: WAV, 24 kHz, 16 bit
      • 通常発話(全話者共通文章: 声優統計コーパスと同様)
      • 通常発話(話者別文章: BASIC5000など)
      • 裏声(話者別文章)
      • ささやき声(話者別文章)
    • 音素ラベル: テキスト(自動アラインメント)
    • 読み上げ文: テキスト
    • 話者の性別
    • 話者のFo上限・下限
    • 話者類似度マトリクス(男女別)
  • ライセンス
    • タグ情報: CC BY-SA 4.0
    • 音声データ: 研究・個人利用のみ、再配布不可、ブログ等へのサンプル掲載可(詳細は README を参照)
  • 関連リンク
  • サードパーティ

[声優統計・JVS系] 個人収録コーパス

声優統計コーパス・JVSコーパスの文を読み上げた音声が収録されている、有志による音声コーパスです。
音声データのライセンス・利用規約はコーパスによって異なります。

[ITA系] ITAコーパスマルチモーダルデータベース

プロ女性声優3名が読み上げた音声データに加え、発話時の口唇動画を含むコーパス。
読み上げ台本はパブリックドメインで公開されている。
通常読み上げ音声 (324文) と感情読み上げ音声 (通常, あまあま, セクシー, ツンツン 各100文) からなる。

  • 話者
    • プロ女性声優3名
  • 内容
    • 音声データ: WAV, 96 kHz, 24 bit
    • 音素ラベル
    • 画像データ: 連番PNG, 300×300 px
    • 画像ラベル: 顔の特徴点68点
  • ライセンス
    • 独自の取り決め(詳しくはサイト参照)
    • 音素バランス文は Unlicense(パブリックドメインとほぼ同等なライセンス)
    • 口唇画像は個人を特定できる情報を含むため公開厳禁
  • 関連リンク
    • GitHub:ITAコーパスの文章リスト
    • ITAコーパス文の出典
    • ITAコーパスの論文 (PDF)
      • 小口純矢,金井郁也,小田恭央,齊藤剛史,森勢将雅, “ITAコーパス:パブリックドメインの音素バランス文からなる日本語テキストコーパスの構築と基礎評価”,情報処理学会研究報告,vol. 2021-MUS-131, no. 31, pp. 1-6, 2021. PDF
    • GreenFunding:クラウドファンディング 東北イタコは歌いたい!しゃべりたい!東北イタコ音声合成データベース制作プロジェクト
  • サードパーティ

[ITA系] 話速変換コーパス SpeedSpeech-JA-2022

上述のITAコーパスの文章リストを、通常・速い・遅いの3段階の話速で読み上げたコーパス。

  • 話者
    • 日本語プロナレーター
    • 男性1名、女性1名
  • 内容
    • 音声データ: WAV, 48 kHz, 24 bit, 防音室
      • normal: 通常速度
      • fast: 高速条件
      • slow: 低速条件
  • ライセンス
    • 音声データ: CC BY-NC 4.0
    • 読み上げ文: ITAコーパス準拠(パブリックドメイン)

[ITA系] サヨ子コーパス

高齢話者がITAコーパスを読み上げた音声。

  • 話者
    • 81歳女性
  • 内容
    • 音声データ: WAV
      • ノイズを含む元音声 (wav_noise) : 自宅収録。背景雑音(鈴虫など)やリップノイズが含まれる。
      • ノイズ除去済み音声 (wav) : 音声合成などのタスク向け。
    • 音素・韻律ラベル
      • タイミング情報は含まれない
  • ライセンス

[ITA系] 個人収録コーパス

ITAコーパスの文を読み上げた音声が収録されている、有志による音声コーパスです。
文章リストそのものはパブリックドメインですが、音声データのライセンス・利用規約はコーパスによって異なります。

JSUTコーパス

単一話者による大規模な日本語読み上げコーパス。
JSUT-Song(歌声), JSUT-vi(音声模倣)などバリエーションもある。

名称は「JUST」ではなく「JSUT」である点に注意(スペルチェッカなどで勝手に訂正されやすい)。

  • 話者
    • 女性1名
  • 内容
    • 音声データ: 48 kHz, 10時間
    • 読み上げ文
      • basic5000: 常用漢字の音読み・訓読みを全てカバー
      • utparaphrase512: 文の一部を読み替えたもの
      • onomatopee300: 日本語オノマトペ
      • countersuffix26: 助数詞
      • loanword128: 外来語由来の動詞・名詞
      • voiceactress100: 声優統計コーパスとのパラ音声
      • travel1000: 旅行ドメインのフレーズ
      • precedent130: 判例文
      • repeat500: 繰り返し発話された音声 (100文 × 5回)
  • ライセンス
    • 音声データ・各文章はすべて異なるライセンス形態(コーパスのLICENCEファイルを参照)
  • 関連リンク
  • サードパーティ

みんなで作るJSUTコーパスbasic5000

JSUTコーパスのbasic5000文を、複数の音声提供者で分担して読み上げ、大規模なコーパスを作るプロジェクト。
まだ全文はカバーされていないが、途中経過の音声データも配布されている。

  • 話者
    • 複数話者
    • 上記サイトに音声提供者一覧のスプレッドシートあり
  • 内容
    • 音声データ: WAV, 48 kHz, 16 bit
    • 読み上げ文
  • ライセンス
    • basic5000テキスト: CC BY-SA 4.0
    • 音声データ
      • 「音声技術に関する研究・開発」かつ「元の音声・声質が表に出ない」用途にのみ利用可
      • 営利利用も可
      • 詳しくはサイトの利用規約を参照

ROHANコーパス

現時点で4,600文からなる大規模な音素バランス文。数千文規模の音素バランス文は珍しい。文はパブリックドメインとして公開されている。
もとは ROHAN4600 と呼ばれていたが、将来的に拡張される可能性を踏まえて ROHAN へと改称された。

「ROHANコーパス」自体は文章リストであり、音声データは別で配布されている。
以降で実際に音声が含まれるデータベースを紹介する。

[ROHAN系] ROHAN4600マルチモーダルデータベース

音声データに加えて口唇動画も含む、全4600文を読み上げたコーパス。

  • 話者
    • プロ女性声優1名
  • 内容
    • 音声データ: WAV, 96 kHz, 24 bit
    • 音素ラベル
    • 画像データ: 連番PNG, 300×300 px
    • 画像ラベル: 顔の特徴点68点
  • サードパーティ

[ROHAN系] No.7音声データベース

No.7歌唱データベースと同じ声優による読み上げ音声。

  • 話者

    • プロ女性声優1名
  • 内容

    • 音声データ: WAV, 96 kHz, 24 bit
      • 発話スタイル
        • Normal (ノーマル) : 通常の発話スタイル
        • Announce (アナウンス) : ニュースのアナウンスを意識した淡々とした発話スタイル
        • Reading (読み聞かせ) : 絵本の読み聞かせを意識したゆったりとした発話スタイル
      • ノイズ除去
        • なし
        • あり (iZotope RX によるノイズ除去)
    • 音素ラベル
      • 自動ラベリング後、手動で修正したもの
    • 読み間違いリスト
  • ライセンス

  • 話者

    • プロ日本人女性声優1名

[ROHAN系] 個人収録コーパス

ROHAN4600コーパスを読み上げた音声が収録されている、有志による音声コーパスです。
文章リストそのものはパブリックドメインですが、音声データのライセンス・利用規約はコーパスによって異なります。

  • TODO: 外部のリストが出てきたら載せる

ReazonSpeech

ワンセグ放送の録画データから構築された、大規模な日本語音声コーパス。
このコーパスで訓練された音声認識モデルも公開されている。

トータルで約35,000時間にのぼるが、複数のデータセットサイズ (tiny, small, medium, large, all) が用意されている。

Hi-Fi-CAPTAIN

大規模な対話調の音声コーパス。
英語と日本語でそれぞれ収録されている。

  • 話者
    • プロナレーター4名
      • アメリカ英語 女性 1名 (15.1時間)
      • アメリカ英語 男性 1名 (15.0時間)
      • 日本語 女性 1名 (23.3時間)
      • 日本語 男性 1名 (22.3時間)
  • 内容
    • 音声データ: WAV, 48 kHz, 24 bit
  • ライセンス
    • CC BY-NC-SA 4.0

青空文庫振り仮名注釈付き音声コーパス

著作権切れ作品のデイジー(視覚障碍者向けに提供されているオーディオデータ)をもとに構築された、機械学習向けのデータセット。
国立国会図書館(NDL)が公開している。

  • 内容
    • 音声データ
    • テキストデータ
      • OpenAI Whisper を用いた自動書き起こし
      • 青空文庫テキスト
  • ライセンス
    • CC PDM (パブリックドメイン)
  • 関連リンク
  • 文献
    • 佐藤文一, 吉永直樹, 喜連川優: "書誌データ・青空文庫・点字データを用いた振り仮名注釈付き日本語コーパスの構築," 情報処理学会第15回アクセシビリティ研究会研究報告, 2021年3月.
    • F. Sato, N. Yoshinaga, M. Kitsuregawa: "Building Large-Scale Japanese Pronunciation-Annotated Corpora for Reading Heteronymous Logograms," In Proceedings of the Thirteenth Language Resources and Evaluation Conference, pp.7113-7121, 2022.

JSUT-book コーパス

6つのオーディオブック(青空文庫)を読み上げたコーパス。

  • 話者
    • プロではない日本語女性話者1名
  • 内容
    • 音声データ: 48 kHz, 1時間, スタジオ収録
    • テキスト
  • ライセンス
    • 次の用途のみ許可
      • アカデミック研究
      • 非商用研究(営利団体でも可)
      • 個人利用
    • 詳細は公式サイトとREADMEを参照

JSSSコーパス

同じ意味の文章を複数読み上げた音声コーパス。

  • 話者
    • 女性1名
  • 内容
    • 音声データ: 24 kHz, 8時間
    • 読み上げ文
      • summarization: 時間制約付き音声要約
      • simplification: 「やさしい日本語」音声
      • short-form: 短文読み上げ
      • long-form: 長文読み上げ
  • ライセンス
    • 音声データ・各文章はすべて異なるライセンス形態(公式サイトを参照)
  • 関連リンク
    • JSSS-miscコーパス
      • JSSSコーパスと同じ単一話者による多スタイル音声データ
      • 以下の4スタイルが含まれる
        • ささやき声
        • できるだけ低い声
        • 裏声
        • 方言文章→東京方言 変換文の読み上げ(元文章はJMDコーパス)

JVNVコーパス

日本語の感情音声コーパス。

言語音声(読み上げ文)に非言語音声(「あっ」などの感嘆詞、笑い声、泣き声など)が組み込まれた音声が収録されている。

  • 話者: 4名
    • F1: 女性話者
    • F2: 女性話者
    • M1: 男性話者
    • M2: 男性話者
  • 内容
    • 音声データ: WAV, 48 kHz, 24 bit, 1615 発話 (全 3.94 時間)
      • 感情
        • anger: 怒り
        • disgust: 嫌悪
        • fear: 恐れ
        • happy: 幸せ
        • sad: 悲しみ
        • surprise: 驚き
      • セッション
        • Regular: 非言語音声のセリフを監督者が設計したもの
        • Phrase-free: 非言語音声のセリフを話者自身が設計したもの
    • ラベル: 非感情音声部分の時刻情報
    • 読み上げ文: ChatGPTで生成した音素バランス文
      • 感情ごとに異なる文セットが与えられている
  • ライセンス
    • CC BY-SA 4.0
  • 関連リンク

JMDコーパス

日本語方言コーパス。

  • 話者
    • 熊本弁: 男性
    • 大阪弁: 女性
  • 内容
    • 音声データ: WAV, 24 kHz, 2時間以上
    • 読み上げ文
  • ライセンス
    • 次の用途のみ許可
      • アカデミック研究
      • 非商用研究(営利団体でも可)
      • 個人利用
    • 詳細は公式サイトとREADMEを参照

JLecSponSpeech

大学での講義の録音をもとにした音声の書き起こしデータ。
読み上げではなく自発的な発話である点が特徴。非流暢性タグ(言い淀みなどのアノテーション)が含まれる。

CSS10 Japanese

夏目漱石『明暗』を読み上げたパブリックドメインのオーディオブックをもとに作成された大規模コーパス。
CSS10 には他の言語の音声コーパスもある。

  • 話者
    • 男性話者1名
  • 内容
    • 音声データ: WAV, 約6800文, 約15時間
    • 読み上げ文: テキスト形式
  • ライセンス
    • CC0(パブリックドメイン)

声庭 (Koniwa)

ラジオ番組や朗読音声の大規模なコレクション。商用利用も可能。
アノテーションの進行状況は上記GitHubリポジトリから確認可能。

  • 話者
    • 複数話者(複数の出典)
    • 詳細は上記サイトを参照
  • 内容
    • 音声データ: 様々なフォーマット
    • アノテーションデータ: JSON
  • ライセンス
    • 原文および音声(以下のいずれか、データの出典により異なる)
      • CC BY
      • CC 0
      • パブリックドメイン
    • アノテーション
      • CC 0
    • プログラム
      • Apache License 2.0

JTubeSpeech

YouTubeの日本語字幕あり動画で構築されているコーパス。
音声データは付属のPythonスクリプト経由でダウンロードする必要がある。

JTubespeech-ASV

YouTube動画から構築された、話者照合(声から個人を識別する)向けの日本語音声コーパス。

  • 話者
    • 1,792 名
  • 内容
    • 音声ファイル: MP3, 16 kHz
  • ライセンス
    • 研究開発目的のみ(暫定)

東北地方民話コーパス

東北地方の昔話を収録したコーパス。

音源は、昔話採集家・佐々木徳夫氏が1957年から収集した東北地方民話の音声。
オープンリールテープやアナログテープに記録されていた音声をデジタル化したもの。

  • 話者
    • F001, M001
  • 内容
    • 音声: WAV, 16 kHz, 16 bit
    • 書き起こし: CSV
    • メタ情報: CSV
      • 昔話の題目
      • 収録日
      • 話者ID
      • 出身地
      • 掲載書籍情報

NIT ATR503 M001

http://hts.sp.nitech.ac.jp/?Download

https://ja.osdn.net/projects/galateatalk/releases/22207

ATR503文を読み上げた音声データベース。

  • 話者
    • 男性1名
  • 内容
    • 音声データ: RAW, 16 kHz, 16 bit
    • 音素ラベル

日本語歌声コーパス

東北きりたん歌唱データベース

  • 話者
    • プロ日本人女性声優1名
  • 内容
    • 50曲
    • 音声データ: WAV, 96 kHz, 24 bit
    • 音素ラベル: スペース区切りテキスト
    • 楽譜データ: MIDI, MusicXML
  • ライセンス
    • 独自の取り決め(詳しくはサイト参照)
    • 2018年度に改正された「著作権法30条の4」に従い、研究開発用途など「著作物の表現を享受しない」場合に利用できる
    • ダウンロードには要Twitter認証
  • 関連リンク
  • サードパーティ

東北イタコ歌唱データベース

  • 話者
    • プロ日本人女性声優1名
  • 内容
    • 50曲
    • 音声データ: WAV, 96 kHz, 24 bit
    • 音素ラベル: スペース区切りテキスト
    • 楽譜データ: MIDI, MusicXML
  • ライセンス
    • 独自の取り決め(詳しくはサイト参照)
    • 2018年度に改正された「著作権法30条の4」に従い、研究開発用途など「著作物の表現を享受しない」場合に利用できる
    • 音素補填用の50曲目はパブリックドメイン(歌声データは除く)
    • ダウンロードには要Twitter認証
  • 関連リンク
  • サードパーティ

No.7歌唱データベース

商用楽曲が収録されている「東北きりたんDB」「東北イタコDB」と異なり、楽譜と歌詞がデータベース向けに作成されている。

  • 話者
    • プロ日本人女性声優1名
  • 内容
    • 51曲
    • 音声データ: WAV, 96 kHz, 32 bit
      • オリジナル歌唱: /wav_O/
      • ノイズ除去: /wav_O_re/
      • ノイズ除去&ピッチ補正: /wav_P/
      • ノイズ除去&タイミング補正: /wav_T/
      • ノイズ除去&ピッチ補正&タイミング補正: /wav_PT/
    • 歌詞データ: docx, PDF
    • MIDIデータ
    • 音素ラベルデータ
    • MusicXMLデータ
  • ライセンス
    • このデータベース内に収録されている歌声
    • ラベルデータ
      • パブリックドメイン (CC0)
    • 楽曲
      • 楽曲の著作権は小岩井ことり氏(作詞・作曲)に帰属
      • 収録ジャンル等に応じてアレンジし、それを歌ったデータの公開が可能(制作陣の森勢先生によるツイート
      • 詳しくはデータベースのREADMEを参照
    • キャラクター、合成した歌声、イラスト
  • 関連リンク

おふとんP 歌声データベース

  • 話者
    • 男性1名
  • 内容
    • 音声データ: 96kHz, 24bit, 46分30秒
      • ピッチ補正済
      • 一部 44.1kHz, 24bit から変換したものも含む
    • 音素ラベル
    • 楽譜データ
      • 著作権切れの楽曲 + "呪文歌唱"
  • ライセンス
    • サイト参照

夏目悠李/男声歌声データベース

  • 話者
    • 男性1名
  • 内容
    • 約48分
    • ポップス調、権利問題のない楽曲 + 著作権切れ楽曲
  • ライセンス
    • サイト参照
  • 備考
    • 歌声データベース本体は「NNSVS (歌声DB)」からダウンロードできる

御丹宮くるみ 歌声データベース

  • 話者
    • 女性1名
  • 内容
    • 約61分
    • 著作権切れの楽曲 + "呪文歌唱"
  • ライセンス
    • サイト参照

雨星サイファ歌声DB

  • 話者
    • 女性1名
  • 内容
    • 約125分 (有音区間)
    • 85曲: 著作権切れ楽曲, UTAU楽曲, No.7歌唱データベース
  • ライセンス
    • サイト参照

JVS-MuSiCコーパス

JVSコーパスと同じ100名による歌声。
ピッチとテンポをMelodyneにより補正・統一した音声データがついている。

  • 話者
    • プロ声優・男女あわせて100名
  • 内容
    • 音声データ: WAV, 24 kHz, 16 bit
      • 共通歌唱1曲(童謡「かたつむり」)
        • 元の歌声
        • 歌唱者毎にピッチとテンポを修正したもの
        • 歌唱者間でピッチとテンポを統一したもの
      • 歌唱者毎に異なる童謡1曲
    • Melodyneプロジェクト
  • ライセンス
    • タグ情報: CC BY-SA 4.0
    • 音声データ: 研究・個人利用のみ、再配布不可、ブログ等への掲載可
  • 関連リンク

PJS コーパス

JVSコーパスにメロディをつけたもの。

NIT SONG070 F001

女性が童謡を歌ったもの。歌声合成システム Sinsy で使われていた。
「Japanese song file」からダウンロードできる。

  • 話者
    • 女性1名
  • 内容
    • 31曲の童謡
    • 音声データ: RAW, 48 kHz, 16 bit
    • 音素ラベル

jaCappella コーパス

アカペラ歌唱が収録されているコーパス。
歌声コーパスとしてはめずらしい重唱を収録したもので、6つの声部に分かれている。
歌唱されている楽曲は、童謡・唱歌を10種類のジャンルで編曲したものが含まれている。

  • 内容
    • 音声データ: WAV, 48 kHz
      • 楽曲: 35曲
      • 声部: lead vocal, soprano, alto,tenor, bass, vocal percussion
      • サブセット(ジャンル): jazz, punk rock, bossa nova, popular, reggae, enka, neutral, ballad, edm, soulfunk
    • 譜面: MusicXML
    • メタデータ: 楽曲の情報, 声部情報, 歌唱者属性など
  • ライセンス
    • 詳細はサイト参照
    • 商用利用は有料(jaCappellaチームへコンタクト)
  • 関連リンク

JSUT-Song

JSUTコーパスの話者による歌声が収録されているコーパス。

  • 話者
    • 女性1名
  • 内容
    • 27曲の著作権切れの童謡

OJaMa-Song

  • 話者
    • 20代日本人一般男性1名
  • 内容
    • 音声データ: WAV, 48kHz, 16bit
      • 童謡

英語話声コーパス

LJ Speech

著作権切れのノンフィクション書籍7冊の一節を読み上げたコーパス。

LibriSpeech

パブリックドメインのオーディオブックから抽出された大規模コーパス。

  • 内容
    • 音声データ: FLAC, 16 kHz, 16 bit, 約1000時間
      • clean
      • other
    • 原文テキスト
    • 話者情報(名前・性別)
  • ライセンス
    • CC BY 4.0

People's Speech Dataset

約3万時間相当という非常に大規模なラベル付き英語話声データセット。
音声の品質によって Clean と Dirty に分かれている。

CSTR VCTK Corpus

声質変換の論文でよく目にするコーパス。

  • 話者
    • 110名
  • 内容
    • 音声データ: 48 kHz, 16 bit
      • 収録は 96 kHz, 24 bit
  • ライセンス
    • CC BY 4.0

Hi-Fi-CAPTAIN (再掲)

大規模な対話調コーパス。See: Hi-Fi-CAPTAIN.

CMU ARCTIC Databases

カーネギーメロン大学(CMU)が公開している、古くから存在する英語話声コーパス。
Electroglottograph (EGG, 電気グロトグラフ) と呼ばれる装置で観測された声帯振動波形が含まれる。

  • 話者
    • 18名の男女
  • 内容
    • 音声データ: 32 kHz版 or 16 kHz版
      • マイクで収録した音声
      • EGGデータ
    • 音素ラベル

MOCHA-TIMIT Corpus

Electromagnetic Articulograph (EMA)と呼ばれる磁気センサを使って口腔内をモーションキャプチャしたデータを含むコーパス。

  • 内容
    • 音声データ: 16 kHz
    • EGGデータ: 16 kHz
    • EMAデータ: 500 Hz
      • upper incisor (上あごの前歯)
      • lower incisor (下あごの前歯)
      • upper lip (上唇)
      • lower lip (下唇)
      • tongue tip (舌の先)
      • tongue blade (舌の中央)
      • tongue dorsum (舌の奥)
      • velum (軟口蓋)

FDA Evaluation Database

基本周波数推定アルゴリズムの評価用データ。Bagshaw's Database 等と呼ばれることもある。

  • 話者
    • 男性1名 (話者名: RL)
    • 女性1名 (話者名: SB)
  • 内容
    • 音声データ: RAW, 20 kHz, 16 bit
    • EGGデータ: RAW, 20 kHz, 12 bit
    • 基本周波数データ: 簡素な独自フォーマット
  • 関連リンク

PTDB-TUG

基本周波数推定向けの音声データベース。

  • 話者
    • ネイティブ英語話者男女20名
  • 内容
    • 音声データ
    • EGGデータ
    • 基本周波数軌道データ
  • 関連リンク

英語歌声コーパス

NUS-48E Corpus

歌声に加えて、読み上げ音声も収録されている歌声コーパス。

(ダウンロードリンクが少しわかりづらい。「SMC Dataset」欄の論文リストの末尾にある [data] のリンクから入手できる)

  • 話者
    • 12名
  • 内容
    • 音声データ: WAV, 44.1 kHz, 全169分
      • 各話者4曲ずつ
      • sing : 歌声
      • read : 歌詞の読み上げ音声
    • 音素アラインメントラベル: テキスト形式
  • 関連リンク

NHSS Database

歌声と話声をともに収録したデータベース。

VocalSet

3曲の歌声に加え、多様なスタイル(ロングトーン、トリル、息もれ声、ボーカルフライなど)の単母音が収録されている、歌唱者20名による大規模な歌声データベース。

  • 話者
    • 20名 (男性9名、女性11名)
  • 内容
    • 音声ファイル: WAV, 10.1時間
  • 収録されている歌

MUSDB18

音楽音源分離向けのデータセット。
ボーカル入りの曲も含まれている。

その他の言語の歌声コーパス

SingStyle111

多言語 (英語, 中国語, イタリア語) の歌声コーパス。
複数歌唱者 (8名) ・ 複数スタイル (童謡, ジャズ, オペラ など) を含むなど、多様な歌声が含まれている。

Opencpop

歌声合成のための中国語 (Mandarin) 歌声コーパス。

多言語話声コーパス

Common Voice

クラウドソーシングにより収集された読み上げ音声。

YODAS

YouTubeから収集された、149言語369,510時間の大規模コーパス。

  • 内容
    • 音声データ
    • 字幕データ
  • ライセンス
    • CC BY 3.0

CSS10

パブリックドメインのオーディオブックをもとに構築された、10言語の読み上げ音声。

CMU Wilderness Multilingual Speech Dataset

世界700言語(地図)の読み上げ音声。
マイナーな言語が多め。

tri-jekコーパス

3ヵ国語を話すことができる話者1名による読み上げ音声。

  • 話者
    • 女性話者1名
      • 日本語: ネイティブ
      • 韓国語: ネイティブ
      • 英語
  • 内容
    • 読み上げ音声: WAV, 24 kHz, 16 bit, 全11時間
      • 日本語音声: BASIC5000 (うち2,715文), 2.8 時間
      • 韓国語音声: Zeroth-Korean (うち2,812文), 6.7 時間
      • 英語音声: ENGLISH3000 (うち1,884文), 1.5 時間
  • 備考
    • コロナ禍中の収録のため、スタジオ収録ではない。一部の音声にクリッピングや背景雑音がみられる。

JECSコーパス

同一話者による日本語・英語・コードスイッチングの3種類を含む音声。

コードスイッチングの例: 「それが数々の trouble に見舞われた」
(FMラジオによくあるような、カタカナ語を英語っぽく発音する話し方に近い?)

  • 話者
    • バイリンガル声優1名
  • 内容
    • 読み上げ音声: WAV, 24 kHz, 16 bit, 全2.5時間, スタジオ収録
      • 言語
        • 日本語
        • 英語
        • コードスイッチング
      • 感情 (演技)
        • 通常
    • 原文
      • 日英文
      • コードスイッチング文
        • コーパス作成者 と 話者 が作成
  • ライセンス
    • 次の用途のみ許可
      • アカデミック研究
      • 非商用研究(営利団体でも可)
      • 個人利用
    • テキストデータ: CC BY 3.0
    • 詳細は公式サイトとREADMEを参照

その他

ほかの声の形態や、特定用途向けのデータセットをとりあげます。

JNV (日本語非言語音声) コーパス

日本語話者4名が6種類の感情(怒り・嫌悪・恐れ・喜び・悲しみ・驚き)を表現した音声からなるコーパス。

  • 話者: 4名
    • F1: 女性アマチュア話者
    • F2: 女性アマチュア話者
    • M1: 男性アマチュア話者
    • M2: 男性プロ話者
  • 内容: WAV, 48 kHz, 全 406.9 秒

Laughterscape

YouTube動画から収集された、大規模な日本語話者による笑い声のコーパス。

  • 話者
    • 584 名の日本語話者
  • 内容
    • 音声: WAV, 24 kHz, 全6時間

VocalSketch

音を声で模倣したコーパス。

JSUT-vi

音を声で模倣したコーパス。(例: シンバルの音 → 「ジャーン」)
VocalSketch と同じ音を日本語話者が模倣したもの。

  • 話者
    • 女性1名 (JSUTコーパスと同じ話者)
  • 内容
    • 元の音データ: WAV, 44.1 kHz, 16 bit
    • 音声データ: WAV, 48 kHz, 16 bit

OPENGLOT

音声信号から「声帯振動」の成分を分離・抽出する手法 (Glottal Inverse Filtering) 向けの評価用データセット。
人工的に生成したデータからなる Repository I, II, III と、実際の声帯の観測データからなる Repository IV で構成されている。

  • 内容
    • Repository I
    • Repository II
    • Repository III
    • Repository IV
  • 関連リンク

Dresden Vocal Tract Dataset

発声器官を3次元MRIで撮像したデータと、その話者が発声した単音が含まれているデータベース。
3Dプリンタで印刷できる3Dモデルデータも用意されている。

  • 話者
    • 男性1名
    • 女性1名
  • 内容
    • MRIデータ
    • 音響シミュレーション用3Dメッシュデータ: STL
    • 3Dプリント用3Dデータ: STL
    • 撮像時と同じ状態で発声: WAV
    • 3Dプリントした模型にホワイトノイズを流して録音: WAV

rtMRIDB

リアルタイムMRIで発声器官を観測した動画と音声がペアになっているデータベース。
「テキストに『わ』を含む」などで検索すると、条件に合う観測データをまとめた動画を見ることができる。

  • 話者
    • 男性 6 名
    • 女性 4 名

よく使われる台本

  • 研究用途で使われる音素バランス文
  • 音声合成向け
    • MANAコーパス
      • パブリックドメインの 228文
      • TTSソフトのMYCOEIROINK向けに、疑問文などの品質改善のために考案されたもの
  • 英語
  • 音声信号処理屋さんが開発中にぶつぶつしゃべっている文
    • 「爆音が銀世界の高原に広がる」 : 昔から音声系の論文に登場する文
    • 「あらゆる現実をすべて自分のほうへねじ曲げたのだ。」 : ATR503文a01
    • 「一週間ばかりニューヨークを取材した。」 : ATR503文a02
    • 「小さな鰻屋に、熱気のようなものがみなぎる。」 : ATR503文j01
    • 「また、東寺のように、五大明王と呼ばれる、主要な明王の中央に配されることも多い。」 : 声優統計コーパス001
    • 「青い植木鉢」 : SPTKのサンプル音声

Tips

  • 「コーパス」と「データベース」の違い
  • 音素バランス文
    • すべての音素(あるいは音素の組み合わせ)が、なるべく等しい頻度で出現するように調整されている文章リスト
      • なるべくすべて均一な頻度を目指して作られるのが一般的
      • 日本語や発話状況における代表的な頻度ではない
    • 深層学習型の音声合成においては、必ずしも「音素バランス文こそが正義」とは限らないのではないか、という議論もある
  • クリエイティブコモンズ (CC)
  • 著作権法第30条の4
    • 2018年の法改正で「著作物に表現された思想又は感情の享受を目的としない」場合に著作物が利用できるようになった
    • 世の中のビッグデータを使った機械学習・統計解析がやりやすくなった
    • 注意:著作権だけでなく、他の権利関係もクリアしていることを確認する
      • 著作隣接権: 演奏家やレコード製作者を守るための権利など
      • 利用規約: ライセンスで特定用途の使用(たとえば営利利用)が禁止されている場合など
      • etc...
104
112
2

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
104
112