三行で要約
- 大規模言語モデルの学習にはデータセットの多様性を増やすのが良い。
- 多様性が増えると、モデルの知識も一般化能力も向上できる。
- だから、いろんなデータ集めて、英語のテキストコーパス (825 GB) を作ったよ。
対象読者
- 大規模(小規模)言語モデルを作ろうとしている人
課題:データの需要の増加と多様性の重要性
大規模言語モデル (LLM) の性能を上げるには大量のテキストで学習をすることが重要。そのため、今後はデータの重要性は更に増していく。
最近の LLM は Common Crawl からデータを取得することが多い。Common Crawl のデータで学習すると性能が向上するのは確かだが、データの多様性をさらに上げることで性能が上がることがわかっている(少量であっても)
そのため、データセットにはニーズがある。
The Pile
上記の課題に対応するために作成されたのが Pile で、825.18 GB のオープンな英語テキストデータセット。
(ここからダウンロードできる:https://pile.eleuther.ai/ )
学習はもちろんベンチマークとしても利用できる。
以下にデータ一覧を記載。
Pile-CC
Common Crawl から作成。Common Crawl は 2008 年以降のウェブサイトのクロールのコレクションで、生のウェブページ、メタデータ、テキスト抽出を含む。
多様なドメインからのテキストを含むという利点はあるが、生データなので品質が様々。データクレンジング等を行う場合コストがかかる。
Pile-CC は生データを既に加工して配布してくれている。
PubMed Central
PubMed Central(PMC)は、アメリカ国立生物工学情報センター(NCBI)によって運営される医学記事のオンラインリポジトリである PubMed のサブセット。医療関連の知識を学習させられる。
Books3
Books3 は、Bibliotik から作られた書籍のデータセット。フィクションとノンフィクションの書籍の混合で構成されている。
(※ 違法コピーらしいので、これを使った OpenAI と Meta が訴えられている。もし The Pile を使う場合は、このデータは使うかどうかは考えたほうがよさそう。)
OpenWebText2
2020 年までの Reddit の投稿で作られたデータセット。複数言語のコンテンツ、ドキュメントメタデータ、複数のデータセットバージョン、オープンソースの複製コードを含むウェブスクレイプデータセット。Reddit の投稿に対する「いいね」を品質として使用。
ArXiv
ArXiv の論文データで作られたデータセット。数学や IT の知識の学習や LaTeX の学習を目的として利用できる。
GitHub
言わずもがなですが、ソースコードのデータセット。コード関連タスクの性能向上が目的。
FreeLaw
法律関連のデータセット。連邦および州の裁判所からの数百万の法的意見に関するドキュメントを提供。
Stack Exchange
プログラミングからガーデニング、仏教に至るまで、幅広い主題の質問と回答を集めたデータセット。多様なドメインでの質問応答能力の向上が目的。
米国特許商標庁の背景セクション
米国特許商標庁によって作られた特許の背景で構成されるデータセット。典型的な特許の背景としては、発明の一般的な文脈を示し、技術分野の概要を提供し、問題空間の枠組みを設定する。非技術的な聴衆を対象とした応用科学に関する大量の技術的な文章として含める。
ウィキペディア(英語)
言語モデリングのための高品質なテキストの標準的なソースです。高品質でクリーンな英語テキストのソースであると同時に、説明的な散文で書かれており、多くのドメインにまたがっており、学習価値が高い。
PubMed 抄録
医学記事の出版物の抄録。PMC は出版物が抄録ではなく全部入っているが、最近の出版物に偏っている。PubMed は 1946 年から現在までの抄録を含む。
プロジェクト・グーテンベルク
西洋の古典文学のデータセット。現代的な文学データセットの Books3 や BookCorpus とは異なる文体を学習できる。
OpenSubtitles
映画やテレビ番組の字幕からなる英語のデータセット。自然な対話の重要な情報源であり、散文以外のフィクション形式に対する理解を目的とした。脚本、スピーチライティング、インタラクティブなストーリーテリングなどの創造的な執筆生成タスクに役立つ可能性がある。
ディープマインド数学
代数、算数、微積分、数論、確率などのトピックからの数学問題のコレクションで、自然言語のプロンプトとしてフォーマットされている。大規模言語モデルの主な弱点の一つは、数学的なタスクにおけるパフォーマンスであり、これはトレーニングセットに数学問題が不足していることが原因の一部である可能性がある。そのため、数学問題のデータセットを明示的に含めることにより、Pile でトレーニングされた言語モデルの数学的能力を向上させることを期待している。
BookCorpus2
BookCorpus2は、オリジナルの BookCorpus の拡張バージョン。「本を出版していない著者」によって書かれた書籍で構成される。
Ubuntu IRC
Ubuntu 関連チャネルの公開チャットログ。チャットログは、他のソーシャルメディアではあまり見られない自発的なリアルタイムの会話が特徴的。
EuroParl
もともとは機械翻訳用に導入されたが、NLP の他のいくつかの分野でも使用されている多言語平行コーパス。1996 年から 2012 年までの 21 のヨーロッパ言語での欧州議会の議事録から構成される。
YouTube字幕
人間が作った YouTube のキャプションを集めたコーパス。多言語データを提供するだけでなく、教育コンテンツ、ポピュラーカルチャー、自然な対話の情報源となる。
PhilPapers
哲学出版物で構成。抽象的で概念的な内容や学術的な文体を学べる。
NIH Grant Abstracts: ExPORTER
アプリケーションのバルクデータリポジトリ。科学的な執筆物の文体を学べる。
Hacker News
リンク集約サイトから集めたコメントのデータセット。知的好奇心を満たす記事に対して、ユーザ同士がコメントで会話しているので、それを集めた。特定のトピックに関する高品質な対話と討論を提供。
Enronメール
電子メールの使用パターンに関する研究に利用されるコーパス。電子メールでの独特なコミュニケーションを学べる。
データセットの評価
この研究で作られたデータセットを使ってモデルを学習して精度を見たところ、比較対象としたデータセットより精度が高かった。
以下が良かったと考察。
- 生データでない。
- データの多様性
まとめ
LLM を作ろうと思っている人は参考になるかも。
(日本語のモデルを作るときに英語での学習がどこまで役に立つかわからないですが。)
データセットを作ろうとしている人は多様性を意識するとよさそうですね。
おわり。