はじめに
人工知能を開発することで、一番大事なのは、素晴らしい機械学習モデルや計算力の高いマシンより、データセットだと思われることがある。機械学習ブームに火をつけたコンピュータビジョンという分野はCOCOやPascalようなCC(Creative Commons)ライセンスに対応しているデータセットがあふれているのに、音声認識になると、特に日本語の場合、無料に使えるデータセットはかなり少ない。
実際、知っているかぎりでは、無料ですぐに利用できるような音声認識モデルの開発といった目標で作られているデータセットは、最近Mozillaが公開したCommon Voiceしかない。そのデータセットは、まだ3時間程と、まだ少ない。
音声認識モデルを開発するためには、二つのものが必要となる:
- 人間の発話の録音
- その発話の書き起こし
そういう情報を手に入れるためには、録音された発話の内容を厳密に書く人がいないと困難なので、金銭的に余裕がある企業しか達成できないが、やはりせっかく作ったデータセットは、無料では使わせてくれない。
ただ、その様なデータセットの作成方法は、もう一つあるのは、ある:決まった発話を録音すること。幸い、この様な形で作ってあるデータは珍しくはない。例えば、英語の場合3年前出てきたGoogleのSpeech Commandsデータセットがある。
日本語の場合は、その様なデータセットがないようだが、外国人向けの日本語学習に使っているデータは見つかる!機械学習という目的で作られてはいないが、スクレイピングするのが比較的簡単で、前処理も大したことではない。
次にデータセット5つを紹介させて頂きたい。本番で使える音声認識モデルが作れるというデータセットとは言えないが、せめて音声認識のモデルを勉強できる程度のデータとなる。
データセット
1. Common Voice
提供者:Mozilla
ライセンス:CC-0
長さ:3時間
話者数:52人
######メリット:
-
話者が多い
-
商用目的でも無料で使える
######デメリット:
- データがとても少ないが、最近出てきたので、今後増えていく
ダウンロード方法
公式サイトからダウンロードできる。
このデータセットには、誰でも自分の声を録って、録音したファイル及び、対応している書き起こしをアップできる。ただ、提供者が、配る前に、ユーザーがくれたデータを確認してもらうため、公開するのは少し時間かかる。ただ、日本語の場合は、3時間の音声容量しかない。。。やはり日本人はシャイ。 実際、気になった点の一つは、日本人が声を録音してくれた中に、明らかに外国人の発話が入っている。「外国人が入ったら、いい日本語の音声認識モデルが作れない」と考えられることがあるようだが、実際データオーグメンテーションになるのではないだろう 笑
2. JSUT
JSUTとは、音声認識ではなく、音声合成に作成されたデータセットでとなる。話者は一人しか入っていないが、発話はかなり多様性がある。
提供者:東京大学の猿渡研究室
ライセンス:研究・個人利用のみ
長さ:10時間
話者数:1人
######メリット:
- 言葉は多様性がある
- 機械学習モデルを開発するのにまとめられたデータセットなので、提供者が処理してくれた
######デメリット:
- 音声認識ではなく、音声合成のために作成されたので、話者が一人しかいない
ダウンロード方法
公式サイトからダウンロードできる。
3. TATOEBA
提供者:Association Tatoeba
ライセンス:CC BY-NC 4.0
長さ:1時間
話者数:3人
メリット:
- 例が多い
- 録音に協力してくれた方3人も、CCライセンスにもしてくれた。
######デメリット:
- 似ている例が多い、特に「トムが。。。する」あきるぐらい入っている
データが多い。トム様は外国では人気者みたいな 笑 - 録音が少ない
ダウンロード方法
私がスクレープして載せたGoogleドライブからダウンロードできる。
4. Kore 6000
提供者:iKnow!
ライセンス:CC BY 3.0 (?)
長さ:6.5時間(単語2時間・文章4.5時間)
話者数:5人以上
このデータセットのライセンスのことで、数年前大変な議論になったらしい。手短に言えば, 作った会社は、最初CCラインセンスで提供したが、理由は不明だが、取り消そうとしたそうだ。ただ、それはCCライセンスとしては違反なので大騒ぎになり会社が折れたらしい。その話は、英語圏で人気があるredditというサイトで読める。読んだ結果、安心して使っても良いらしい。ただ、作った会社のサイトからダウンロードができなくなっており、第三者が載せたリンクからダウンロードできる。
メリット:
- データセットは2つある。一つは、単語一つしか発音されていないデータセット。それで素早くモデルを確認できる。もう一つは、文章が発音されているデータセット
######デメリット:
- 比較的長くて多様性があるデータなのだが、聞いていると不自然な印象受けるため、音声合成ソフトで作られた可能性がある。
ダウンロード方法
5. MIT Drill
提供者:MIT Global Languages
ライセンス:不明(交渉中)
長さ:4時間(短い文章のみ)
話者数:5人以上
このデータセットは、MITという米国の工科大学での日本語コースの聞き取りや話す訓練に使われているデータとなる。発話の内容だったり、話者の数だったり、録音の資質だったり、このデータセットは意外と多様性がある。ただ、ライセンスについては、何も書いていなかった。連絡を取ってみたら、CCライセンスにすることを検討しているが、まだ決まっていない。そのため、配布することができないが、ファイルのurlと書き起こしは配布できるので、とりあえずスクリプトを使おう。
メリット:
- 内容と話者だけではなく、録音の性質も多様性がある
######デメリット:
- 書き起こしが難しい
まとめに
音声認識の勉強や軽いモデルの学習に無料で使えるデータセットいくつか紹介した。それぞれのデータセットは欠けているところがあるが、統合したら内容や話者や性質が違う録音のデータセットが作れるかもしれない。