無償入手可能な音声コーパス／音声データベースの一覧

149

Last updated at 2026-04-03Posted at 2021-06-17

無償かつ入手しやすい音声データセットをメモしています。
ライセンス・利用規約は「商用利用可能」「研究用途のみ」ともに紹介します。

コーパスを探すときに有用なサイト

コーパス配布元サイト
- 情報学研究データリポジトリ音声コーパス : 日本語コーパスが豊富、無償または有償で利用可能
  - 緩いライセンスのコーパスでなくても良い日本語音声コーパスを探しているときは、まずここを見る
  - とくに自発的発話の日本語音声コーパスはだいたいここ
  - 入手は要申請
    - 所属を記入する必要があるため、大学や企業の研究者でないと入手できない？
    - （この記事では情報学研究データリポジトリのコーパスは未掲載）
  - 音声資源コンソーシアム(NII-SRC) は旧サイト
- Shinnosuke Takamichi: コーパス一覧 : 日本語中心。高道先生が携わっている音声コーパス
  - 大量の日本語音声コーパスが配布されている
  - 音声合成のコーパスをつくろう (Slideshare) : 2021年6月時点の音声コーパス事情
  - あなたにどうしても伝えたい30の音声コーパス : 音声コーパスの紹介。ASJ2023秋のポスター
- OpenSLR : 様々な言語の音声コーパス一覧
  - LibriSpeechなどの音声コーパスが配布されているページ
- CSTR (The University of Edinburgh) : エディンバラ大学が配布しているコーパスの一覧
- Databases and Tools (TU Graz) : オーストリアドイツ語・英語の大規模コーパスなどを含む一覧
個人収録系
- ITAコーパス: ITAコーパスを朗読した音声データベース一覧
- ITAコーパスの収録＆配布者リスト (つくよみちゃん公式) : ITAコーパスを読み上げて公開している有志の一覧
- 声優統計コーパスの収録＆配布者リスト (つくよみちゃん公式) : 声優統計コーパスを読み上げて公開している有志の一覧
機械学習向けデータセット
- 機械学習ライブラリに組み込まれているデータセット
  - torchaudio.datasets : PyTorch の torchaudio から利用できる音声データセット
  - Tensorflow Datasets : Tensorflow から利用できる音声データセット
- Zenodo : 研究データを公開するためのリポジトリサイト
  - voiceでの検索結果 (Zenodo)
  - singingでの検索結果 (Zenodo)
- Hugging Face Hub : 機械学習関連のホスティングプラットフォーム
  - A Complete Guide to Audio Datasets
- Papers With Code : 機械学習研究の紹介・比較サイト
  - Speech Synthesis (Papers With Code)
- Kaggle : データ分析・予測モデリングのコンペティションサイト
  - voiceでの検索結果 (Kaggle)
  - speechでの検索結果 (Kaggle)
- DagsHub : 機械学習・データサイエンス向けオープンソースコミュニティ
  - DagsHub/audio-datasets : DagsHubでホスティングされているオーディオデータセットの一覧
CCライセンスのオーディオ投稿サイト
- Freesound : 単発のオーディオクリップが多い
- ccMixter : 音楽が多い。歌声と伴奏が分離されている楽曲もある
コーパスリスト
- 音声・音響・音楽の基盤モデルのためのデータセットリスト : 汎用的な基盤モデル構築のためのデータセット一覧。音声コーパスに加えて音楽・音・インパルス応答などもリストアップされている
- Voice datasets (Jim Schwoebel) : 様々な言語の音声コーパスをまとめた巨大なリスト
- SuperKogito/SER-datasets : 音声の感情認識のための音声コーパスをまとめた巨大なリスト
- 40 Open-Source Audio Datasets for ML
- List of datasets for machine-learning research (Wikipedia) : 英語のコーパスが中心

日本語話声コーパス

声優統計コーパス

フリーな日本語音声コーパスが現れはじめた発端のひとつといえるコーパス。
日本語版Wikipediaから構築された音素バランス100文を、プロ声優が3種類の感情表現つきで読み上げている。

話者
- プロ女性声優3名
内容
- 音声データ: WAV, 48 kHz, 16 bit
  - 通常
  - 喜び
  - 怒り
ライセンス
- 音素バランス文: CC BY-SA 4.0
- 音声ファイル: 日本声優統計学会サイトを参照
  - 個人での研究・分析目的でのみ無償利用可能
  - 禁止事項: 再配布、公序良俗に反する利用など
関連リンク
- 音素バランス文の構築方法 (PDF)
- 声優統計コーパスに存在する誤りの告知と JVS コーパスの利用推奨
  - 自分で声優統計コーパスの台本を読み上げて、音声を収録したい方向けの告知
  - ざっくりいうと「今後あらたに収録する際は、JVSコーパスで使用されている改良版の台本voiceactress100を推奨する。理由は、voiceactress100には句読点が追加されて文の区切りが明確化されているため。」

JVSコーパス

声優統計コーパス100文を、プロの声優100名が読み上げたコーパス。
通常の読み上げ音声に加え、裏声・ささやき声も含まれる。
また、同じ話者らによる歌声が JVS-MuSiC コーパスに収録されている。

話者
- プロ声優・男女あわせて100名
内容
- 音声データ: WAV, 24 kHz, 16 bit
  - 通常発話（全話者共通文章: 声優統計コーパスと同様）
  - 通常発話（話者別文章: BASIC5000など）
  - 裏声（話者別文章）
  - ささやき声（話者別文章）
- 音素ラベル: テキスト（自動アラインメント）
- 読み上げ文: テキスト
- 話者の性別
- 話者のFo上限・下限
- 話者類似度マトリクス（男女別）
ライセンス
- タグ情報: CC BY-SA 4.0
- 音声データ: 研究・個人利用のみ、再配布不可、ブログ等へのサンプル掲載可（詳細は README を参照）
関連リンク
- S. Takamichi et al., "JSUT and JVS: Free Japanese voice corpora for accelerating speech synthesis research," Acoustical Science and Technology, 41(5), pp. 761-768, 2020.
- JVS：フリーの日本語多数話者音声コーパス (SlideShare)
- 高道慎之介, 三井健太郎, 齋藤佑樹, 郡山知樹, 丹治尚子, 猿渡洋: “JVS：フリーの日本語多数話者音声コーパス”, 情報処理学会研究報告(SLP), 2019(7), pp.1-4, 2019. PDF
- arXiv preprint
サードパーティ
- Hiroshiba/voiceactress100_ruby：読み仮名つきバランス文
- Hiroshiba/jvs_hiho：読み仮名が音声に合うよう修正された音素ラベル
- chomeyama/JVSCorpusF0Range : F0の範囲データ
- つくよみちゃんコーパス：アクセント情報つき台本が同梱されている

[声優統計・JVS系] 個人収録コーパス

声優統計コーパス・JVSコーパスの文を読み上げた音声が収録されている、有志による音声コーパスです。
音声データのライセンス・利用規約はコーパスによって異なります。

声優統計コーパス（JVSコーパス準拠）の収録＆配布者リスト: 夢前黎様によるまとめ

[ITA系] ITAコーパスマルチモーダルデータベース

プロ女性声優3名が読み上げた音声データに加え、発話時の口唇動画を含むコーパス。
読み上げ台本はパブリックドメインで公開されている。
通常読み上げ音声 (324文) と感情読み上げ音声 (通常, あまあま, セクシー, ツンツン各100文) からなる。

話者
- プロ女性声優3名
内容
- 音声データ: WAV, 96 kHz, 24 bit
- 音素ラベル
- 画像データ: 連番PNG, 300×300 px
- 画像ラベル: 顔の特徴点68点
ライセンス
- 独自の取り決め（詳しくはサイト参照）
- 音素バランス文は Unlicense（パブリックドメインとほぼ同等なライセンス）
- 口唇画像は個人を特定できる情報を含むため公開厳禁
関連リンク
- GitHub：ITAコーパスの文章リスト
- ITAコーパス文の出典
  - 朗読文: 青空文庫
  - 感情文: 田中コーパス
- ITAコーパスの論文 (PDF)
  - 小口純矢，金井郁也，小田恭央，齊藤剛史，森勢将雅, “ITAコーパス：パブリックドメインの音素バランス文からなる日本語テキストコーパスの構築と基礎評価”，情報処理学会研究報告，vol. 2021-MUS-131, no. 31, pp. 1-6, 2021. PDF
- GreenFunding：クラウドファンディング東北イタコは歌いたい！しゃべりたい！東北イタコ音声合成データベース制作プロジェクト
サードパーティ
- GitHub forks：GitHubでのフォーク一覧
- shirayu/ita-corpus-chuwa：ITA Corpus Chuwa! 1文ずつに分割し、形態素・句・構文のアノテーションを加えたもの
- r9y9/ita-lab：フルコンテキストラベル版

[ITA系] 話速変換コーパス SpeedSpeech-JA-2022

上述のITAコーパスの文章リストを、通常・速い・遅いの3段階の話速で読み上げたコーパス。

話者
- 日本語プロナレーター
- 男性1名、女性1名
内容
- 音声データ: WAV, 48 kHz, 24 bit, 防音室
  - normal: 通常速度
  - fast: 高速条件
  - slow: 低速条件
ライセンス
- 音声データ: CC BY-NC 4.0
- 読み上げ文: ITAコーパス準拠（パブリックドメイン）

[ITA系] サヨ子コーパス

高齢話者がITAコーパスを読み上げた音声。

話者
- 81歳女性
内容
- 音声データ: WAV
  - ノイズを含む元音声 (wav_noise) : 自宅収録。背景雑音（鈴虫など）やリップノイズが含まれる。
  - ノイズ除去済み音声 (wav) : 音声合成などのタスク向け。
- 音素・韻律ラベル
  - タイミング情報は含まれない
ライセンス
- 配布ページの利用規約を参照

[ITA系] 個人収録コーパス

ITAコーパスの文を読み上げた音声が収録されている、有志による音声コーパスです。
文章リストそのものはパブリックドメインですが、音声データのライセンス・利用規約はコーパスによって異なります。

ITAコーパスを朗読した音声データベースの例: ITAコーパス公式
ITAコーパスの収録＆配布者リスト: 夢前黎様によるまとめ

JSUTコーパス

単一話者による大規模な日本語読み上げコーパス。
JSUT-Song（歌声）, JSUT-vi（音声模倣）などバリエーションもある。

名称は「JUST」ではなく「JSUT」である点に注意（スペルチェッカなどで勝手に訂正されやすい）。

話者
- 女性1名
内容
- 音声データ: 48 kHz, 10時間
- 読み上げ文
  - basic5000: 常用漢字の音読み・訓読みを全てカバー
  - utparaphrase512: 文の一部を読み替えたもの
  - onomatopee300: 日本語オノマトペ
  - countersuffix26: 助数詞
  - loanword128: 外来語由来の動詞・名詞
  - voiceactress100: 声優統計コーパスとのパラ音声
  - travel1000: 旅行ドメインのフレーズ
  - precedent130: 判例文
  - repeat500: 繰り返し発話された音声 (100文 × 5回)
ライセンス
- 音声データ・各文章はすべて異なるライセンス形態（コーパスのLICENCEファイルを参照）
関連リンク
- sarulab-speech/jsut-label：公式コンテキストラベル
- S. Takamichi et al., "JSUT and JVS: Free Japanese voice corpora for accelerating speech synthesis research," Acoustical Science and Technology, 41(5), pp. 761-768, 2020.
サードパーティ
- r9y9/jsut-lab：時間情報付きコンテキストラベル

みんなで作るJSUTコーパスbasic5000

JSUTコーパスのbasic5000文を、複数の音声提供者で分担して読み上げ、大規模なコーパスを作るプロジェクト。
まだ全文はカバーされていないが、途中経過の音声データも配布されている。

話者
- 複数話者
- 上記サイトに音声提供者一覧のスプレッドシートあり
内容
- 音声データ: WAV, 48 kHz, 16 bit
- 読み上げ文
ライセンス
- basic5000テキスト: CC BY-SA 4.0
- 音声データ
  - 「音声技術に関する研究・開発」かつ「元の音声・声質が表に出ない」用途にのみ利用可
  - 営利利用も可
  - 詳しくはサイトの利用規約を参照

ROHANコーパス

現時点で4,600文からなる大規模な音素バランス文。数千文規模の音素バランス文は珍しい。文はパブリックドメインとして公開されている。
もとは ROHAN4600 と呼ばれていたが、将来的に拡張される可能性を踏まえて ROHAN へと改称された。

「ROHANコーパス」自体は文章リストであり、音声データは別で配布されている。
以降で実際に音声が含まれるデータベースを紹介する。

[ROHAN系] ROHAN4600マルチモーダルデータベース

音声データに加えて口唇動画も含む、全4600文を読み上げたコーパス。

話者
- プロ女性声優1名
内容
- 音声データ: WAV, 96 kHz, 24 bit
- 音素ラベル
- 画像データ: 連番PNG, 300×300 px
- 画像ラベル: 顔の特徴点68点
サードパーティ
- RRR-troisR/Zundamon_ROHAN_label：人手で修正されたラベル

[ROHAN系] No.7音声データベース

No.7歌唱データベースと同じ声優による読み上げ音声。

話者
- プロ女性声優1名
内容
- 音声データ: WAV, 96 kHz, 24 bit
  - 発話スタイル
    - Normal (ノーマル) : 通常の発話スタイル
    - Announce (アナウンス) : ニュースのアナウンスを意識した淡々とした発話スタイル
    - Reading (読み聞かせ) : 絵本の読み聞かせを意識したゆったりとした発話スタイル
  - ノイズ除去
    - なし
    - あり (iZotope RX によるノイズ除去)
- 音素ラベル
  - 自動ラベリング後、手動で修正したもの
- 読み間違いリスト
ライセンス
- ログインページを参照
話者
- プロ日本人女性声優1名

[ROHAN系] 個人収録コーパス

ROHAN4600コーパスを読み上げた音声が収録されている、有志による音声コーパスです。
文章リストそのものはパブリックドメインですが、音声データのライセンス・利用規約はコーパスによって異なります。

TODO: 外部のリストが出てきたら載せる

ReazonSpeech

ワンセグ放送の録画データから構築された、大規模な日本語音声コーパス。
このコーパスで訓練された音声認識モデルも公開されている。

トータルで約35,000時間にのぼるが、複数のデータセットサイズ (tiny, small, medium, large, all) が用意されている。

話者
- 多数（テレビ出演者）
内容
- 音声データ: FLAC, 16 kHz, 約35,000時間 (ReazonSpeech v2)
- 文字起こし
ライセンス
- CDLA-Sharing-1.0（ただし利用目的は著作権法３０条の４に定める情報解析に限る）
関連リンク
- 超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開
- reazon-research / reasonspeech (Hugging Face)
- Y. Yin, D. Mori, S. Fujimoto: "ReazonSpeech: A free and massive corpus for Japanese ASR," 言語処理学会第29回年次大会(NLP 2023), 2023年3月.

Hi-Fi-CAPTAIN

大規模な対話調の音声コーパス。
英語と日本語でそれぞれ収録されている。

話者
- プロナレーター4名
  - アメリカ英語女性 1名 (15.1時間)
  - アメリカ英語男性 1名 (15.0時間)
  - 日本語女性 1名 (23.3時間)
  - 日本語男性 1名 (22.3時間)
内容
- 音声データ: WAV, 48 kHz, 24 bit
ライセンス
- CC BY-NC-SA 4.0

青空文庫振り仮名注釈付き音声コーパス

著作権切れ作品のデイジー（視覚障碍者向けに提供されているオーディオデータ）をもとに構築された、機械学習向けのデータセット。
国立国会図書館(NDL)が公開している。

内容
- 音声データ
- テキストデータ
  - OpenAI Whisper を用いた自動書き起こし
  - 青空文庫テキスト
ライセンス
- CC PDM (パブリックドメイン)
関連リンク
- GitHub: ndl-lab/hurigana-speech-corpus-aozora
文献
- 佐藤文一, 吉永直樹, 喜連川優: "書誌データ・青空文庫・点字データを用いた振り仮名注釈付き日本語コーパスの構築," 情報処理学会第15回アクセシビリティ研究会研究報告, 2021年3月.
- F. Sato, N. Yoshinaga, M. Kitsuregawa: "Building Large-Scale Japanese Pronunciation-Annotated Corpora for Reading Heteronymous Logograms," In Proceedings of the Thirteenth Language Resources and Evaluation Conference, pp.7113-7121, 2022.

JSUT-book コーパス

6つのオーディオブック（青空文庫）を読み上げたコーパス。

話者
- プロではない日本語女性話者1名
内容
- 音声データ: 48 kHz, 1時間, スタジオ収録
- テキスト
ライセンス
- 次の用途のみ許可
  - アカデミック研究
  - 非商用研究（営利団体でも可）
  - 個人利用
- 詳細は公式サイトとREADMEを参照

JSSSコーパス

同じ意味の文章を複数読み上げた音声コーパス。

話者
- 女性1名
内容
- 音声データ: 24 kHz, 8時間
- 読み上げ文
  - summarization: 時間制約付き音声要約
  - simplification: 「やさしい日本語」音声
  - short-form: 短文読み上げ
  - long-form: 長文読み上げ
ライセンス
- 音声データ・各文章はすべて異なるライセンス形態（公式サイトを参照）
関連リンク
- JSSS-miscコーパス
  - JSSSコーパスと同じ単一話者による多スタイル音声データ
  - 以下の4スタイルが含まれる
    - ささやき声
    - できるだけ低い声
    - 裏声
    - 方言文章→東京方言変換文の読み上げ（元文章はJMDコーパス）

JVNVコーパス

日本語の感情音声コーパス。

言語音声（読み上げ文）に非言語音声（「あっ」などの感嘆詞、笑い声、泣き声など）が組み込まれた音声が収録されている。

話者: 4名
- F1: 女性話者
- F2: 女性話者
- M1: 男性話者
- M2: 男性話者
内容
- 音声データ: WAV, 48 kHz, 24 bit, 1615 発話 (全 3.94 時間)
  - 感情
    - anger: 怒り
    - disgust: 嫌悪
    - fear: 恐れ
    - happy: 幸せ
    - sad: 悲しみ
    - surprise: 驚き
  - セッション
    - Regular: 非言語音声のセリフを監督者が設計したもの
    - Phrase-free: 非言語音声のセリフを話者自身が設計したもの
- ラベル: 非感情音声部分の時刻情報
- 読み上げ文: ChatGPTで生成した音素バランス文
  - 感情ごとに異なる文セットが与えられている
ライセンス
- CC BY-SA 4.0
関連リンク
- Detai Xin, Junfeng Jiang, Shinnosuke Takamichi, Yuki Saito, Akiko Aizawa, Hiroshi Saruwatari, "JVNV: A Corpus of Japanese Emotional Speech with Verbal Content and Nonverbal Expressions", IEEE Dataport, Oct. 2023.
- Detai Xin, Junfeng Jiang, Shinnosuke Takamichi, Yuki Saito, Akiko Aizawa, Hiroshi Saruwatari, "JVNV: A Corpus of Japanese Emotional Speech with Verbal Content and Nonverbal Expressions," arXiv preprint 2310.06072, Oct. 2023.

JMDコーパス

日本語方言コーパス。

話者
- 熊本弁: 男性
- 大阪弁: 女性
内容
- 音声データ: WAV, 24 kHz, 2時間以上
- 読み上げ文
ライセンス
- 次の用途のみ許可
  - アカデミック研究
  - 非商用研究（営利団体でも可）
  - 個人利用
- 詳細は公式サイトとREADMEを参照

JLecSponSpeech

大学での講義の録音をもとにした音声の書き起こしデータ。
読み上げではなく自発的な発話である点が特徴。非流暢性タグ（言い淀みなどのアノテーション）が含まれる。

内容
- 書き起こし: xlsx形式, 非流暢性タグを含む
ライセンス
- 書き起こし: 非商用目的での研究のみ
リンク
- YouTube再生リスト：講義動画の一覧
- 文献
  - 松永裕太, 佐伯高明, 高道慎之介, 猿渡洋, "個人別自発音声合成の実現に向けたフィラーの言語学的知識に基づく実験的研究," 音声言語情報処理研究会, March. 2022.

CSS10 Japanese

夏目漱石『明暗』を読み上げたパブリックドメインのオーディオブックをもとに作成された大規模コーパス。
CSS10 には他の言語の音声コーパスもある。

話者
- 男性話者1名
内容
- 音声データ: WAV, 約6800文, 約15時間
- 読み上げ文: テキスト形式
ライセンス
- CC0（パブリックドメイン）

声庭 (Koniwa)

ラジオ番組や朗読音声の大規模なコレクション。商用利用も可能。
アノテーションの進行状況は上記GitHubリポジトリから確認可能。

話者
- 複数話者（複数の出典）
- 詳細は上記サイトを参照
内容
- 音声データ: 様々なフォーマット
- アノテーションデータ: JSON
ライセンス
- 原文および音声（以下のいずれか、データの出典により異なる）
  - CC BY
  - CC 0
  - パブリックドメイン
- アノテーション
  - CC 0
- プログラム
  - Apache License 2.0

JTubeSpeech

YouTubeの日本語字幕あり動画で構築されているコーパス。
音声データは付属のPythonスクリプト経由でダウンロードする必要がある。

関連リンク
- JTubeSpeech: corpus of Japanese speech collected from YouTube for speech recognition and speaker verification arXiv
サードパーティ
- JTubeSpeech: YouTubeによる日本語音声コーパスの構築方法：ローカルでの環境構築方法の解説

JTubespeech-ASV

YouTube動画から構築された、話者照合（声から個人を識別する）向けの日本語音声コーパス。

話者
- 1,792 名
内容
- 音声ファイル: MP3, 16 kHz
ライセンス
- 研究開発目的のみ（暫定）

東北地方民話コーパス

東北地方の昔話を収録したコーパス。

音源は、昔話採集家・佐々木徳夫氏が1957年から収集した東北地方民話の音声。
オープンリールテープやアナログテープに記録されていた音声をデジタル化したもの。

話者
- F001, M001
内容
- 音声: WAV, 16 kHz, 16 bit
- 書き起こし: CSV
- メタ情報: CSV
  - 昔話の題目
  - 収録日
  - 話者ID
  - 出身地
  - 掲載書籍情報

NIT ATR503 M001

http://hts.sp.nitech.ac.jp/?Download

https://ja.osdn.net/projects/galateatalk/releases/22207

ATR503文を読み上げた音声データベース。

話者
- 男性1名
内容
- 音声データ: RAW, 16 kHz, 16 bit
- 音素ラベル

日本語歌声コーパス

東北きりたん歌唱データベース

話者
- プロ日本人女性声優1名
内容
- 50曲
- 音声データ: WAV, 96 kHz, 24 bit
- 音素ラベル: スペース区切りテキスト
- 楽譜データ: MIDI, MusicXML
ライセンス
- 独自の取り決め（詳しくはサイト参照）
- 2018年度に改正された「著作権法30条の4」に従い、研究開発用途など「著作物の表現を享受しない」場合に利用できる
- ダウンロードには要Twitter認証
関連リンク
- GitHub：ラベルデータ
- Itsuki Ogawa, Masanori Morise: "Tohoku Kiritan singing database: A singing database for statistical parametric singing synthesis using Japanese pop songs," Acoustical Science and Technology, Volume 42, Issue 3, pp. 140-145, 2021.
サードパーティ
- GitHubフォーク

東北イタコ歌唱データベース

話者
- プロ日本人女性声優1名
内容
- 50曲
- 音声データ: WAV, 96 kHz, 24 bit
- 音素ラベル: スペース区切りテキスト
- 楽譜データ: MIDI, MusicXML
ライセンス
- 独自の取り決め（詳しくはサイト参照）
- 2018年度に改正された「著作権法30条の4」に従い、研究開発用途など「著作物の表現を享受しない」場合に利用できる
- 音素補填用の50曲目はパブリックドメイン（歌声データは除く）
- ダウンロードには要Twitter認証
関連リンク
- GitHub：ラベルデータ
- クラウドファンディング東北イタコは歌いたい！しゃべりたい！東北イタコ音声合成データベース制作プロジェクト
  - https://greenfunding.jp/pub/projects/3891
サードパーティ
- GitHubフォーク

No.7歌唱データベース

商用楽曲が収録されている「東北きりたんDB」「東北イタコDB」と異なり、楽譜と歌詞がデータベース向けに作成されている。

話者
- プロ日本人女性声優1名
内容
- 51曲
- 音声データ: WAV, 96 kHz, 32 bit
  - オリジナル歌唱: /wav_O/
  - ノイズ除去: /wav_O_re/
  - ノイズ除去＆ピッチ補正: /wav_P/
  - ノイズ除去＆タイミング補正: /wav_T/
  - ノイズ除去＆ピッチ補正＆タイミング補正: /wav_PT/
- 歌詞データ: docx, PDF
- MIDIデータ
- 音素ラベルデータ
  - GitHubリポジトリにて配布
  - 補正済み版/wav_PT/に対応するラベルのみ提供
- MusicXMLデータ
  - GitHubリポジトリにて配布
ライセンス
- このデータベース内に収録されている歌声
  - 独自の取り決め（詳しくはデータベースのページを参照）
  - ダウンロードには要Facebook認証
- ラベルデータ
  - パブリックドメイン (CC0)
- 楽曲
  - 楽曲の著作権は小岩井ことり氏（作詞・作曲）に帰属
  - 収録ジャンル等に応じてアレンジし、それを歌ったデータの公開が可能（制作陣の森勢先生によるツイート）
  - 詳しくはデータベースのREADMEを参照
- キャラクター、合成した歌声、イラスト
  - 公式サイトを参照
関連リンク
- No.7 公式サイト
- GitHub：ラベルデータ
- 論文など
  - 森勢将雅, 藤本健, 小岩井ことり, “レアなモーラを含む日本語歌唱データベースの構築と基礎評価,” FIT2021 (第20回情報科学技術フォーラム), pp. 59-64, 2021年8月25日.

おふとんP 歌声データベース

話者
- 男性1名
内容
- 音声データ: 96kHz, 24bit, 46分30秒
  - ピッチ補正済
  - 一部 44.1kHz, 24bit から変換したものも含む
- 音素ラベル
- 楽譜データ
  - 著作権切れの楽曲 + "呪文歌唱"
ライセンス
- サイト参照

夏目悠李/男声歌声データベース

話者
- 男性1名
内容
- 約48分
- ポップス調、権利問題のない楽曲 + 著作権切れ楽曲
ライセンス
- サイト参照
備考
- 歌声データベース本体は「NNSVS (歌声DB)」からダウンロードできる

御丹宮くるみ歌声データベース

話者
- 女性1名
内容
- 約61分
- 著作権切れの楽曲 + "呪文歌唱"
ライセンス
- サイト参照

雨星サイファ歌声DB

話者
- 女性1名
内容
- 約125分 (有音区間)
- 85曲: 著作権切れ楽曲, UTAU楽曲, No.7歌唱データベース
ライセンス
- サイト参照

JVS-MuSiCコーパス

JVSコーパスと同じ100名による歌声。
ピッチとテンポをMelodyneにより補正・統一した音声データがついている。

話者
- プロ声優・男女あわせて100名
内容
- 音声データ: WAV, 24 kHz, 16 bit
  - 共通歌唱1曲（童謡「かたつむり」）
    - 元の歌声
    - 歌唱者毎にピッチとテンポを修正したもの
    - 歌唱者間でピッチとテンポを統一したもの
  - 歌唱者毎に異なる童謡1曲
- Melodyneプロジェクト
ライセンス
- タグ情報: CC BY-SA 4.0
- 音声データ: 研究・個人利用のみ、再配布不可、ブログ等への掲載可
関連リンク
- Hiroki Tamaru, Shinnosuke Takamichi, Naoko Tanji, and Hiroshi Saruwatari, "JVS-MuSiC: free Japanese multispeaker singing-voice corpus," arXiv preprint, 2001.07044, Jan. 2020.

PJS コーパス

JVSコーパスにメロディをつけたもの。

話者
- 男性1名
内容
- 音声データ: WAV, 48 kHz, 24 bit
  - 歌声
  - 読み上げ
- 音素ラベル: スペース区切りテキスト
- 楽譜データ: MIDI, MusicXML
- メロディの情報
ライセンス
- CC BY-SA 4.0
サードパーティ
- UtaUtaUtau/pjs-manual-labels : 手動ラベリングしたもの
関連リンク
- PJS：音素バランスを考慮した日本語歌声コーパス（スライド）
- 小口純矢, 高道慎之介: “PJS: 音素バランスを考慮した日本語歌声コーパス”, 情報処理学会研究報告音声言語情報処理(SLP), 2020(34), pp.1-3, 2020.
- Junya Koguchi and Shinnosuke Takamichi, "PJS: phoneme-balanced Japanese singing voice corpus," arXiv preprint 2006.02959, Jun. 2020.

RWC研究用音楽データベース

大規模な研究用音楽DB。ボーカル付きの音源がある。2001年に公開されてから音楽情報処理の分野で広く使われてきた。

もともとは入手に誓約書の郵送が必要だったが、2026年2月にライセンスが CC BY-NC へ変更され、Web上でダウンロードできるようになった。

内容
- RWC-P: ポピュラー音楽データベース (100曲)
- RWC-R: 著作権切れ音楽データベース (15曲)
- RWC-C: クラシック音楽データベース (50曲)
- RWC-J: ジャズ音楽データベース (50曲)
- RWC-G: 音楽ジャンルデータベース (100曲)
ライセンス
- CC BY-NC 4.0（表示・非営利）
関連リンク
- RWC Music Database : 楽曲データベースの配布サイト
- RWC Instruments Database : 楽器音データベースの配布サイト
- rwc-music/rwc-annotations (GitHub) : 楽曲データベースのアノテーション
- 後藤真孝, 橋口博樹, 西村拓一, 岡隆一: "RWC研究用音楽データベース: ポピュラー音楽データベースと著作権切れ音楽データベース", 情報処理学会音楽情報科学研究会研究報告, 2001(103), pp.35-42, October 2001.
- S. Balke, J. Zeitler, V. Arifi-Müller, B. McFee, T. Nakano, M. Goto, M. Müller: "RWC Revisited: Towards a Community‑Driven MIR Corpus", ISMIR, 9(1), pp.21–35, 2026.
- RWC Music Database : 旧サイト

IdolSongsJP

日本のアイドルグループ楽曲のスタイルにもとづく15曲が収録されているコーパス。複数人歌唱・楽器音を含む。

話者
- 男性・女性
内容
- 音声データ: WAV, 48 kHz, 32 bit Float
  - 楽曲マスター音源
  - ソロ歌声（マスタリング版・ドライ版）
  - 楽曲ステム
- アノテーション
  - コード
  - 楽曲の調性
  - 歌詞（元表記・ひらがな表記）
ライセンス
- 非商用の研究用途は無償利用可能
- 非商用もしくは軽微な商用のエンターテインメントは無償利用可能
- 詳細はHuggingFaceを参照
関連リンク
- 研究用アイドルグループ楽曲スタイル音楽コーパスティザームービー (YouTube)
- 須田仁志, 小口純矢, 吉田隼輔, 中村友彦, 深山覚, 緒方淳: "アイドルグループ楽曲スタイルにもとづく音楽コーパス", 情報処理学会, pp.1–11, 2025.
- 3/8 の SIGMUS 研究会（@九州大）で発表する、アイドルグループ楽曲スタイルコーパスの予稿📝が公開されました!

FruitsMusic

YouTube上にあるアイドルグループのミュージックビデオに対して、楽曲内でどの歌唱者がいつ何を歌唱しているかがアノテーションされている。

関連リンク
- FruitsMusic: 音楽情報処理のためのアイドルユニット楽曲コーパス (SpeakerDeck)
- 須田仁志, 中村友彦, 深山覚, 緒方淳: "FruitsMusic: 音楽情報処理のためのアイドルユニット楽曲コーパス", 音楽情報科学研究会(MUS), 2024-MUS-139 (13), pp. 1–10, 2024.
- Hitoshi Suda, Shunsuke Yoshida, Tomohiko Nakamura, Satoru Fukayama, Jun Ogata: "FruitsMusic: A Real-World Corpus of Japanese Idol-Group Songs," In Proc. ISMIR 2024, 2024.

NIT SONG070 F001

女性が童謡を歌ったもの。歌声合成システム Sinsy で使われていた。
「Japanese song file」からダウンロードできる。

話者
- 女性1名
内容
- 31曲の童謡
- 音声データ: RAW, 48 kHz, 16 bit
- 音素ラベル

jaCappella コーパス

アカペラ歌唱が収録されているコーパス。
歌声コーパスとしてはめずらしい重唱を収録したもので、6つの声部に分かれている。
歌唱されている楽曲は、童謡・唱歌を10種類のジャンルで編曲したものが含まれている。

内容
- 音声データ: WAV, 48 kHz
  - 楽曲: 35曲
  - 声部: lead vocal, soprano, alto，tenor, bass, vocal percussion
  - サブセット(ジャンル): jazz, punk rock, bossa nova, popular, reggae, enka, neutral, ballad, edm, soulfunk
- 譜面: MusicXML
- メタデータ: 楽曲の情報, 声部情報, 歌唱者属性など
ライセンス
- 詳細はサイト参照
- 商用利用は有料（jaCappellaチームへコンタクト）
関連リンク
- T. Nakamura, et al.: "jaCappella Corpus: A Japanese a Cappella Vocal Ensemble Corpus," ICASSP 2023, May 2023.

JSUT-Song

JSUTコーパスの話者による歌声が収録されているコーパス。

話者
- 女性1名
内容
- 27曲の著作権切れの童謡

OJaMa-Song

話者
- 20代日本人一般男性1名
内容
- 音声データ: WAV, 48kHz, 16bit
  - 童謡

英語話声コーパス

LJ Speech

著作権切れのノンフィクション書籍7冊の一節を読み上げたコーパス。

話者
- 話者1名
内容
- 音声データ: WAV, 22050 Hz, 16bit, 約24時間
- 原文テキスト: 13,100文
- 正規化テキスト（数値や通貨単位を単語に置き換えたバージョン）
ライセンス
- Public domain（著作権放棄）
その他
- 残響成分が強いのでニューラルボコーダの性能比較には適さないという指摘も
  - 「LJSpeech は価値のあるデータセットですが、ニューラルボコーダの品質比較には向かないと思います」

LibriSpeech

パブリックドメインのオーディオブックから抽出された大規模コーパス。

内容
- 音声データ: FLAC, 16 kHz, 16 bit, 約1000時間
  - clean
  - other
- 原文テキスト
- 話者情報（名前・性別）
ライセンス
- CC BY 4.0

People's Speech Dataset

約3万時間相当という非常に大規模なラベル付き英語話声データセット。
音声の品質によって Clean と Dirty に分かれている。

内容
- 音声データ: WAV
関連リンク
- GitHub
  - https://github.com/mlcommons/peoples-speech
- D. Galvez et al., “The People’s Speech: A Large-Scale Diverse English Speech Recognition Dataset for Commercial Usage,” Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 1), 2021.
  - https://openreview.net/forum?id=R8CwidgJ0yT
ライセンス
- CC BY-SA 4.0 または CC BY 4.0

CSTR VCTK Corpus

大量の話者による無響室録音のコーパス。声質変換の論文でよく目にする。

話者
- 110名
内容
- 音声データ: 48 kHz, 16 bit
  - 収録は 96 kHz, 24 bit
ライセンス
- CC BY 4.0

TSP Speech Database

複数話者による読み上げからなる音声データベース。

話者
- 25名 (男性11名、女性12名、子ども2名)
内容
- 音声データ: WAV, 48 kHz, 16 bit
ライセンス
- BSDライセンス

Hi-Fi-CAPTAIN (再掲)

大規模な対話調コーパス。See: Hi-Fi-CAPTAIN.

VoxCeleb

YouTube動画から抽出された音声+動画のデータセット。VoxCeleb1とVoxCeleb2がある。

Toronto Emotional Speech Set (TESS)

英語の感情音声コーパス。

CMU ARCTIC Databases

カーネギーメロン大学(CMU)が公開している、古くから存在する英語話声コーパス。
Electroglottograph (EGG, 電気グロトグラフ) と呼ばれる装置で観測された声帯振動波形が含まれる。

話者
- 18名の男女
内容
- 音声データ: 32 kHz版 or 16 kHz版
  - マイクで収録した音声
  - EGGデータ
- 音素ラベル

MOCHA-TIMIT Corpus

Electromagnetic Articulograph (EMA)と呼ばれる磁気センサを使って口腔内をモーションキャプチャしたデータを含むコーパス。

内容
- 音声データ: 16 kHz
- EGGデータ: 16 kHz
- EMAデータ: 500 Hz
  - upper incisor (上あごの前歯)
  - lower incisor (下あごの前歯)
  - upper lip (上唇)
  - lower lip (下唇)
  - tongue tip (舌の先)
  - tongue blade (舌の中央)
  - tongue dorsum (舌の奥)
  - velum (軟口蓋)

FDA Evaluation Database

基本周波数推定アルゴリズムの評価用データ。Bagshaw's Database 等と呼ばれることもある。

話者
- 男性1名 (話者名: RL)
- 女性1名 (話者名: SB)
内容
- 音声データ: RAW, 20 kHz, 16 bit
- EGGデータ: RAW, 20 kHz, 12 bit
- 基本周波数データ: 簡素な独自フォーマット
関連リンク
- P. C. Bagshaw, S. Hiller, M. A. Jack: “Enhanced pitch tracking and the processing of F0 contours for computer aided intonation teaching”, In EUROSPEECH'93, pp.1003-1006, 1993.
  - https://www.isca-speech.org/archive/eurospeech_1993/e93_1003.html

PTDB-TUG

基本周波数推定向けの音声データベース。

話者
- ネイティブ英語話者男女20名
内容
- 音声データ
- EGGデータ
- 基本周波数軌道データ
関連リンク
- G. Pirker, M. Wohlmayr, S. Petrik, F. Pernkopf: “A Pitch Tracking Corpus with Evaluation on Multipitch Tracking Scenario”, Interspeech, pp. 1509-1512, 2011.
  - https://www.spsc.tugraz.at/system/files/InterSpeech2011Master_0.pdf

Santa Barbara Corpus of Spoken American English

自然発話音声のコーパス。背景の異なる多様な人々の音声が集められている。電話・カードゲーム・料理など様々な状況が含まれる。

その他の言語の話声コーパス

WenetSpeech

10,000時間超の中国語コーパス。音声認識向け。YouTubeやポッドキャストから収集されている。

WenetSpeech4TTS

12,800時間超の中国語コーパス。音声合成向け。

UWB-ATCC Corpus

航空管制官とパイロットのやりとりが記録されているデータセット。

英語歌声コーパス

NUS-48E Corpus

歌声に加えて、読み上げ音声も収録されている歌声コーパス。

（ダウンロードリンクが少しわかりづらい。「SMC Dataset」欄の論文リストの末尾にある [data] のリンクから入手できる）

話者
- 12名
内容
- 音声データ: WAV, 44.1 kHz, 全169分
  - 各話者4曲ずつ
  - sing : 歌声
  - read : 歌詞の読み上げ音声
- 音素アラインメントラベル: テキスト形式
関連リンク
- Zhiyan Duan, Haotian Fang, Bo Li, Khe Chai Sim and Ye Wang: “The NUS Sung and Spoken Lyrics Corpus: A Quantitative Comparison of Singing and Speech“, APSIPA ASC 2013, pp. 1-9.
  - https://smcnus.comp.nus.edu.sg/wp-content/uploads/2013/09/05-Pub-NUS-48E.pdf

NHSS Database

歌声と話声をともに収録したデータベース。

話者
- 10名
内容
- 音声データ:
ライセンス
- NHSS Database Licence
関連リンク
- https://arxiv.org/abs/2012.00337

VocalSet

3曲の歌声に加え、多様なスタイル（ロングトーン、トリル、息もれ声、ボーカルフライなど）の単母音が収録されている、歌唱者20名による大規模な歌声データベース。

話者
- 20名 (男性9名、女性11名)
内容
- 音声ファイル: WAV, 10.1時間
収録されている歌
- Row Row Row Your Boat （英語圏で有名な童謡）
- Dona nobis pacem（ラテン語の聖歌）
- Caro mio ben（有名なイタリア歌曲）

MUSDB18

音楽音源分離向けのデータセット。
ボーカル入りの曲も含まれている。

内容
- 150曲（約10時間）
  - train: 100曲
  - test: 50曲
- トラック内容
  - マスター
  - ドラム
  - ベース
  - 伴奏その他
  - ボーカル
- 非可逆圧縮版 (MUSDB18)
  - MP4, Native Instruments stems format によるマルチトラック音声
  - AAC (256 kbps), サンプリング周波数 32 kHz 相当
- 無圧縮版 (MUSDB18-HQ)
  - WAV, 44.1 kHz
ライセンス
- CC BY-NC-SA or Restricted
- 学術利用のみ
関連リンク
- 各曲のライセンス: https://github.com/sigsep/website/blob/master/content/datasets/assets/tracklist.csv
- MUSDB18: https://zenodo.org/record/1117372
- MUSDB18-HQ: https://zenodo.org/record/3338373

その他の言語の歌声コーパス

SingStyle111

多言語 (英語, 中国語, イタリア語) の歌声コーパス。
複数歌唱者 (8名) ・複数スタイル (童謡, ジャズ,　オペラなど) を含むなど、多様な歌声が含まれている。

Opencpop

歌声合成のための中国語 (Mandarin) 歌声コーパス。

多言語話声コーパス

Common Voice

クラウドソーシングにより収集された読み上げ音声。

話者
- クラウドソーシング
内容
- 音声データ: MP3
- 文章
- 年代
- 性別
ライセンス
- CC 0 （パブリックドメイン）
関連リンク
- Wikipedia
  - https://ja.wikipedia.org/wiki/Common_Voice

YODAS

YouTubeから収集された、149言語369,510時間の大規模コーパス。

内容
- 音声データ
- 字幕データ
ライセンス
- CC BY 3.0

CSS10

パブリックドメインのオーディオブックをもとに構築された、10言語の読み上げ音声。

CMU Wilderness Multilingual Speech Dataset

世界700言語（地図）の読み上げ音声。
マイナーな言語が多め。

tri-jekコーパス

3ヵ国語を話すことができる話者1名による読み上げ音声。

話者
- 女性話者1名
  - 日本語: ネイティブ
  - 韓国語: ネイティブ
  - 英語
内容
- 読み上げ音声: WAV, 24 kHz, 16 bit, 全11時間
  - 日本語音声: BASIC5000 (うち2,715文), 2.8 時間
  - 韓国語音声: Zeroth-Korean (うち2,812文), 6.7 時間
  - 英語音声: ENGLISH3000 (うち1,884文), 1.5 時間
備考
- コロナ禍中の収録のため、スタジオ収録ではない。一部の音声にクリッピングや背景雑音がみられる。

JECSコーパス

同一話者による日本語・英語・コードスイッチングの3種類を含む音声。

コードスイッチングの例: 「それが数々の trouble に見舞われた」
（FMラジオによくあるような、カタカナ語を英語っぽく発音する話し方に近い？）

話者
- バイリンガル声優1名
内容
- 読み上げ音声: WAV, 24 kHz, 16 bit, 全2.5時間, スタジオ収録
  - 言語
    - 日本語
    - 英語
    - コードスイッチング
  - 感情 (演技)
    - 通常
    - 喜
    - 怒
    - 哀
- 原文
  - 日英文
    - JECコーパス
  - コードスイッチング文
    - コーパス作成者と話者が作成
ライセンス
- 次の用途のみ許可
  - アカデミック研究
  - 非商用研究（営利団体でも可）
  - 個人利用
- テキストデータ: CC BY 3.0
- 詳細は公式サイトとREADMEを参照

その他

ほかの声の形態や、特定用途向けのデータセットをとりあげます。

JNV (日本語非言語音声) コーパス

日本語話者4名が6種類の感情（怒り・嫌悪・恐れ・喜び・悲しみ・驚き）を表現した音声からなるコーパス。

話者: 4名
- F1: 女性アマチュア話者
- F2: 女性アマチュア話者
- M1: 男性アマチュア話者
- M2: 男性プロ話者
内容: WAV, 48 kHz, 全 406.9 秒

Laughterscape

YouTube動画から収集された、大規模な日本語話者による笑い声のコーパス。

話者
- 584 名の日本語話者
内容
- 音声: WAV, 24 kHz, 全6時間

VocalSketch

音を声で模倣したコーパス。

話者
- 複数名
関連リンク
- M. Cartwright and B. Pardo: "VocalSketch: Vocally Imitating Audio Concepts," In Proceedings of ACM Conference on Human Factors in Computing Systems, 2015.

JSUT-vi

音を声で模倣したコーパス。（例: シンバルの音 → 「ジャーン」）
VocalSketch と同じ音を日本語話者が模倣したもの。

話者
- 女性1名 (JSUTコーパスと同じ話者)
内容
- 元の音データ: WAV, 44.1 kHz, 16 bit
- 音声データ: WAV, 48 kHz, 16 bit

OPENGLOT

音声信号から「声帯振動」の成分を分離・抽出する手法 (Glottal Inverse Filtering) 向けの評価用データセット。
人工的に生成したデータからなる Repository I, II, III と、実際の声帯の観測データからなる Repository IV で構成されている。

内容
- Repository I
- Repository II
- Repository III
- Repository IV
関連リンク
- Paavo Alku, Tiina Murtola, Jarmo Malinen, Juha Kuortti, Brad Story, Manu Airaksinen, Mika Salmi, Erkki Vilkman and Ahmed Geneid, "OPENGLOT - An open environment for the evaluation of glottal inverse filtering", Speech Communication, vol. 107, pp. 38-47, 2018.
  - https://www.sciencedirect.com/science/article/abs/pii/S0167639318303509

VOICED Database

病的音声のコーパス。臨床的に検証されている病的音声・健康な音声が含まれている。

Dresden Vocal Tract Dataset

発声器官を3次元MRIで撮像したデータと、その話者が発声した単音が含まれているデータベース。
3Dプリンタで印刷できる3Dモデルデータも用意されている。

話者
- 男性1名
- 女性1名
内容
- MRIデータ
- 音響シミュレーション用3Dメッシュデータ: STL
- 3Dプリント用3Dデータ: STL
- 撮像時と同じ状態で発声: WAV
- 3Dプリントした模型にホワイトノイズを流して録音: WAV

リアルタイムMRI日本語調音運動データベース (rtMRIDB)

リアルタイムMRIで発声器官を観測した動画と音声がペアになっているデータベース。
「テキストに『わ』を含む」などで検索すると、条件に合う観測データをまとめた動画を見ることができる。

話者
- 男性 6 名
- 女性 4 名

The real-time MRI IPA charts (span)

IPA (国際音声記号) のチャートをクリックすると、リアルタイムMRIの動画・音声が視聴できる。

UCLA Phonetics Lab Data

さまざまな言語の発音に関する資料。言語別・発音別で音声が聞ける。主に言語学向け。

UCLA Phonetics Lab Archiveというサイトもあり、こちらには話者と研究者との対話部分も含めたレコーディングが公開されている。

よく使われる台本

研究用途で使われる音素バランス文
- 音素バランス文・語一覧 (音声資源コンソーシアム) : 音声分析・音声認識で古典的に使われてきた音素バランス文
  - ATR503文
  - ATR216語
  - 電総研492/1542語
  - 東北大・松下212語
  - 東北大・松下3285語
  - JEITA
  - 名工大英語文
  - 名工大中国語文
- JVSコーパス 100文
  - Wikipediaから抽出された100文
  - 本文はJVSコーパスに同梱されている
  - 読み仮名（ルビ）つき声優統計コーパス音素バランス文が見やすい
- ITAコーパス 424文
  - パブリックドメインの 100文 (Emotion) + 324文 (Recitation)
  - 本文は上記リンク先
- basic5000
  - 常用漢字をカバーした 5,000文
  - CC-BY-SA 3.0, CC-BY 2.0, CC-BY-SA 4.0
  - 本文はJSUTコーパスに同梱されている
- ROHAN4600
  - パブリックドメインの 4,600文 (400文×1, 200文×21)
  - 本文は上記リンク先
音声合成に特化した文
- MANAコーパス
  - パブリックドメインの 228文
  - TTSソフトのMYCOEIROINK向けに、合成品質改善のために考案されたもの
英語
- The Rainbow Passage
  - スピーキング能力をテストするための英文 (G. Fairbanks, "Voice and articulation drillbook," Harper & Row, 1960)
  - "When the sunlight strikes raindrops in the air," ではじまる
  - たとえば VCTK Corpus に含まれている
  - https://www.rit.edu/ntid/slpros/media/rainbow
  - https://www.york.ac.uk/media/languageandlinguistics/documents/currentstudents/linguisticsresources/Standardised-reading.pdf
- Elicitation paragraph
  - The Speech Accent Archive という様々な英語アクセントを記録しているサイトで使われている英文
  - "Please call Stella." ではじまる
  - たとえば VCTK Corpus, CMU ARCTIC Database に含まれている
  - http://accent.gmu.edu/
音声信号処理屋さんが開発中にぶつぶつしゃべっている文
- 「あらゆる現実をすべて自分のほうへねじ曲げたのだ。」 : ATR503文 a01
- 「一週間ばかりニューヨークを取材した。」 : ATR503文 a02
- 「小さな鰻屋に、熱気のようなものがみなぎる。」 : ATR503文 j01
- 「爆音が銀世界の高原に広がる」 : 古くから音声信号処理の論文や書籍に登場する文
- 「また、東寺のように、五大明王と呼ばれる、主要な明王の中央に配されることも多い。」 : 声優統計コーパス001
- 「青い植木鉢」 : SPTKのサンプル音声

Tips

「コーパス」と「データベース」の違い
- 日本音響学会音のなんでもコーナー Q and A (075)
  - コーパス = 単にデータを蓄積したもの
  - データベース = 使用目的に応じて、編集・ラベル付与などを行ったもの
- とはいえ実際の用例はけっこうあいまい
音素バランス文
- すべての音素（あるいは音素の組み合わせ）が、なるべく等しい頻度で出現するように調整されている文章リスト
  - なるべくすべて均一な頻度を目指して作られるのが一般的
  - 日本語や発話状況における代表的な頻度に基づいて作られているわけではない
  - 「ビャ」のように自然な文章では出現頻度が低い音素も、音素バランス文を使えばきちんとカバーできる
- 深層学習型の音声合成においては、必ずしも「音素バランス文こそが正義」とは限らないのではないか、という議論もある
  - たとえばMANAコーパスのように、音声合成において頻繁に使われるフレーズを併用することで、実用上の合成品質が向上することがある
クリエイティブコモンズ (CC)
- 「利用条件を満たせば再利用してよい」というライセンス
  - CC BY : クレジット表示義務
  - CC BY-NC : クレジット表示義務＋非営利のみ
  - CC BY-ND : クレジット表示義務＋改変禁止
  - CC BY-NC-ND : クレジット表示義務＋非営利のみ＋改変禁止
  - CC BY-SA : クレジット表示義務＋ライセンス継承義務
  - CC BY-NC-SA : クレジット表示義務＋非営利のみ＋ライセンス継承義務
  - CC0 : 著作権放棄
  - CC PDM : 知り得る限り既に著作権制限が存在しない
- バージョン (1.0, 2.0, 2.1, 2.5, 3.0, 4.0 など) が存在する
  - バージョンごとに改定が重ねられている
  - たとえば CC 4.0 では違反に気が付いてから30日以内に違反状態を是正すれば自動的に許諾が得られるようになった
- 参考になるリンク
  - クリエイティブ・コモンズ・ジャパン FAQ : CCライセンス全般
  - クリエイティブ・コモンズ・ジャパン FAQ CC0 : CC0について。CC0とPDMは何が違う？
  - とほほのクリエイティブ・コモンズ入門
著作権法第30条の4
- 2018年の法改正で「著作物に表現された思想又は感情の享受を目的としない」場合に著作物が利用できるようになった
- 世の中のビッグデータを使った機械学習・統計解析がやりやすくなった
- 生成AIの扱いは文化庁の資料が詳しい
  - 令和5年度著作権セミナー「AIと著作権」(文化庁著作権課)　動画
  - 令和6年度著作権セミナー「AIと著作権Ⅱ」(文化庁著作権課)　動画
- 注意：著作権だけでなく、他の権利関係もクリアしていることを確認する
  - 著作隣接権: 演奏家やレコード製作者を守るための権利など
  - 利用規約・ガイドライン: 特定用途の使用（たとえば営利利用）が禁止されている場合など

149

141

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up