Help us understand the problem. What is going on with this article?

自然言語/音声認識学習用データのまとめ

More than 3 years have passed since last update.

自然言語処理、また音声認識を学習するためのデータは各種の研究機関などから提供されています。
ここでは、それらのデータのありかをまとめておきます。他にもあるぞ、という情報がありましたらぜひお寄せください。

高度言語情報融合フォーラム(有料)

多様な言語資源、音声資源、ソフトウェアツールを提供してくれている団体です。ただし、ダウンロードには会員登録が必要です(入会金10万円だが、年会費などはなし)。

データセットはこちらから参照できます。研究機関限定ですが、楽天のデータなどもあります。

ALAGIN 言語資源・音声資源サイト 資源

それと、毎年開催されている音声認識・音声対話技術講習会に優先枠で申し込むことができます。この講習会は音声対話を行おうとしている人なら一回入っておくといい講習会なので、こちらもおすすめです。

コーパス開発センター(有料)

その名が正に体を表すサイト。書き言葉、話し言葉など豊富なコーパスを提供してくれています。データを取得するには申請+支払が必要ですが、書き言葉のオンライン検索は無料で試すことができます。

少納言 KOTONOHA 「現代日本語書き言葉均衡コーパス」

音声資源コンソーシアム

多くの音声資源が無償で提供されています。マルチモーダル情報つき、音声の感情評定といったデータも無償で手に入れることができます。

IEMOCAP DATABASE

動画だけでなく、モーションキャプチャー情報などのマルチモーダル情報に対し感情のアノテーションが行われたデータを提供しています。
研究論文、およびデータを取得するための申し込みは以下から行えます。

IEMOCAP RELEASE

NII 情報学研究データリポジトリ(研究者限定)

研究者向けに提供されている様々なデータがまとめられています。最近提供されたデータセットも公開されているので、ここを最初に見るのが一番良いかも。

言語情報処理ポータル

JAISTがまとめている自然言語処理に関する情報ポータル。この中の、下記ページに日本の言語資源・ツールについてまとめられています。

日本の言語資源・ツールのカタログ

有用なのは、言語資源に付随してそのユースケース(その言語資源を利用した論文)が分かるようになっている点。こちらを参照すれば、利用してどんなことができるのか、どう利用すればよいのか知見が得られるようになっています。

オープンデータ

自然言語/音声認識のデータではないですが、オープンデータについてもまとめておきます。観光案内などの需要が増えれば、ここにも自然言語資源や音声資源が登録されてくる・・・と思います。

icoxfog417
All my statements are from fun fancies, not a boring story that represents a company that I belonging to.
https://github.com/icoxfog417
tis
創業40年超のSIerです。
https://www.tis.co.jp/
Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
Comments
No comments
Sign up for free and join this conversation.
If you already have a Qiita account
Why do not you register as a user and use Qiita more conveniently?
You need to log in to use this function. Qiita can be used more conveniently after logging in.
You seem to be reading articles frequently this month. Qiita can be used more conveniently after logging in.
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
ユーザーは見つかりませんでした