Edited at

【13個掲載】 機械学習に使える日本語のデータセットまとめ

※本記事は、Lionbridge AI発の連載記事を再編集したものです。他の機械学習に使えるオープン・データセットまとめ記事は、こちらからご覧ください

本記事は、日本語のデータセットを紹介いたします。日本語の公開データセットを無料ダウンロードできるポータルサイトや、自然言語処理に使える日本語のテキストデータセットを含みます。


機械学習に使える日本語のデータセットポータル


  • DATA GO JP: 日本政府のデータカタログサイト。日本政府は、公共データを広く公開することにより、国民生活の向上、企業活動の活性化等を通じ、我が国の社会経済の発展に寄与する観点から、機械判読に適したデータ形式を、営利目的も含めた二次利用が可能な利用ルールで公開する「オープンデータ」の取組を推進しています。このウェブサイトは、二次利用が可能な公共データの案内・横断的検索を目的としたオープンデータの「データカタログサイト」です。


  • 国立情報学研究データリポジトリ: 国立情報学研究所が情報学関連分野の研究者に提供しているデータセットの一覧です。一部,準備中のデータセットも含まれています。


  • Link Data: テーブルデータをRDF形式に変換して公開できる支援サイト。



自然言語処理に使える日本語のデータセット


  • 自然言語処理のためのリソース: 京都大学から適用されている自然言語処理のためのデータセット。毎日新聞のデータに対する各種言語情報である京都大学テキストコーパス、様々なWeb文書のリード文に対し各種言語情報のアノテーションを行った京都大学ウェブ文書リードコーパス等がある。


  • 青空文庫: 著作権の消滅した作品、また「自由に読んでもらってかまわない」とされたものをテキストとXHTML(一部HTML)形式に電子化した上で揃えている。GitHubからダウンロードが可能になりました。


  • 青空文庫形態素解析データ集: 青空文庫に収録されている作品に対し形態素解析を行ったデータ。CCライセンスで、商用利用も可能。対象の作品は2012/12時点で公開されており、著作権フラグのない11,176作品。


  • Kanjivg-radical: 漢字の部首、そして部首と漢字を対応付けたデータセット。「脳」という漢字は、「月」「⺍」「凶」のように幾つかのまとまりごとに細分化できます。このように意味ある要素に分解しデータセットにすることで、漢字を文字的に分解して扱ったり、逆に特定の部首/偏旁を持つ漢字を一括して検索することができます。詳しくは、説明記事をご覧ください。



機械学習に使える日本語の対訳コーパスデータセット


  • 日本語対訳データ: 日本語を対象とする機械翻訳システムの構築に利用できる言語資源のリストです。主に日英翻訳の資源を取り上げていますが、最後の方に多言語に対応したコーパスもいくつか取り上げています。リストに掲載されている資源は、対訳文からなるコーパスで、統計的機械翻訳システムの学習に利用できます。各項目は名前、リンク、文数、説明、研究・商用利用の可能性とおおよその金額などが入っています。主に10万文以上からなるコーパスを中心にリストアップしていますが、小さいものも一部載せています。


  • SNOW T15:やさしい日本語コーパス: 日英対訳コーパスの日本語を平易な日本語に書き換えたデータセット。元がパラレルコーパスであるため、英語との対応もとれる。



感情分析に使える日本語のデータセット



  • Twitter日本語評判分析データセット: ツイートの評判情報をクラウドソーシングにより分析され、分析結果が公開されております。


  • SNOW D18 日本語感情表現辞書: 日本語の感情表現を集めたデータセットです。2000の表現が48の感情に分類されています。アノテーターは3名で、アノテーターごとの結果を利用できます。


その他、機械学習に使える日本語のデータセット


  • livedoor ニュースコーパス: トピックニュース、スポーツなどの九分野のニュース記事を含むコーパス。


  • 気象庁: 過去の気象データをCSV形式でダウンロードができます。