機械学習エンジニア必見！高精度データセットをどこから入手すべきか

Posted at 2025-03-05

こんにちは！Datatang株式会社のデータセット作成を担当するBonieと申します！
Qiita初心者ですが、人工知能業界にまつわる情報を発信していきたいと思います。よろしくお願いします。

弊社Datatangは、100万時間の音声認識データと800TBのコンピュータビジョンデータ、20億件の自然言語理解データを持っています。これまでは、一万社以上のお客様のAI開発にサポートしてきました。

今回は、研究者および学生の皆様を対象に、音声認識やコンピュータビジョンの学習データを研究支援のデータセットとして無料に提供するプロジェクトを始めました。本取り組みは、人工知能や機械学習などの学術研究の発展を支援し、次世代の研究者育成に寄与することを目的としております。

背景

近年、多くの研究者が直面している課題の一つに、学習データの不足が挙げられます。特には、以下の課題が多く見られます。

研究者の学習データ不足: 高品質な学習データが十分に揃っていないことが、研究の進行を妨げる一因となっています。
収集の困難さ: 特定の領域におけるデータ収集は、専門的な知識や設備を要する場合が多く、個人レベルでの対応が難しい状況です。
経費不足: 高額なデータ購入費用や収集費用が、予算の制約により研究活動の障害となるケースが多々見受けられます。

以上の課題解決に尽力すべく、Datatangは研究者の皆様が必要とする高品質な学習データを無料で提供することを決定いたしました。

これまでの評判

弊社が提供する無料学習データは、その質の高さと豊富な内容から、世界中の研究者や学生たちに広く愛用されています。特に、早稲田大学、清華大学、ブリティッシュコロンビア大学など世界トップクラスの研究機関や名門大学で活躍する研究者たちが、このデータを活用して革新的な研究を進めています。これにより、学術界全体の発展に寄与し、次世代の学問の礎を築く一助となっています。

データの内訳

今回提供する学習データは、以下の二種類に分類されます：

音声認識データセット

一部抜粋：

20時間日本語会話音声データ

20時間韓国語会話音声データ

2.5時間の5言語音声合成データ

多国のアクセント付き英語音声データ

200時間の10言語会話音声データ

40時間の4言語子供読み上げ音声データ

コンピュータビジョンデータセット

一部抜粋：

顔・体：

1,000人多人種・多ポーズ顔画像データ

1,000人の多人種・7種類の顔感情認証データ

3,000枚の顔セグメンテーションデータ

1000枚のジェスチャー認識向けデータ

3,000枚の106キーポイントによる顔アノテーションデータ

なりすまし対策向け

2D生体認証画像データ（顔）

3D生体認証画像データ（顔）

200人の防犯カメラ視点でのRe-ID画像データ

200人の防犯カメラ視点での歩容認証データ

OCR

3,000枚の自然シーンにおける12言語OCRデータ（日本語、英語など）

500枚の日本語・英語手書き文字OCRデータ

自動車

100人のドライバー行動データ

画像生成

1000枚一般シーン画像キャプションデータ

1000件運動動画キャプションデータ

お申し込みについて

学習データをご希望の方は、以下の手順に従ってお申し込みください。一人にあたり最大６つのデータセットが入手可能です。具体的には公式サイトの研究支援データセットのページをご確認になれます。

お申し込みフォームの記入
- お申し込みフォーラムにアクセスし、必要な情報を入力してください。
- フォームには、お名前、ご所属、希望するデータの種類（音声系または画像系）、使用目的などを記載してください。
メールによる告知
- お申し込み後、確認のメールが届きます。メールに記載された指示に従い、追加の情報をご提供いただく場合があります。
データ納品
- 審査が完了次第、ご希望のデータを提供いたします。データの受け渡し方法については、メールで詳細をお知らせいたします。申請してから最短5日で納品できます。

まとめ

本取り組みを通じて、より多くの研究者や学生が質の高い学習データを手軽に入手できるようになることを期待しています。何かご不明点がございましたら、お気軽にお問い合わせください。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up