dolly/data at master · databrickslabs/dolly · GitHubのREADME.mdの翻訳です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
Databricksのユーザー会でChatGPT/Dollyの勉強会やります。
サマリー
ブログ記事: Free Dolly: 世界初の真にオープンな指示でチューニングされたLLM
databricks-dolly-15k
は、databricks/dolly-v2-12bのトレーニングで使用された指示追従レコードのオープンソースデータセットであり、ブレーンストーミング、分類、クローズドのQ&A、生成、情報抽出、オープンのQA、要約を含むInstructGPTの論文で説明されているいくつかの挙動カテゴリーにおいて、数千人のDatabricks従業員の手によって生成されました。
このデータセットは、Creative Commons Attribution-ShareAlike 3.0 Unported Licenseの条項のもとで、学術、商用であろうが任意の目的に使用することができます。
サポートされるタスク:
- LLMのトレーニング
- 合成データの生成
- データの拡張
言語: 英語 バージョン: 1.0
オーナー: Databricks, Inc.
データセットの概要
databricks-dolly-15k
は、ChatGPTの魔法のようなインタラクティブ性を大規模言語モデルが示せるようにするために、数千人のDatabricks従業員によって生成された15,000以上のレコードを含むコーパスです。Databricks従業員は、InstructGPTの論文で説明されている7つのカテゴリー、オープンエンドの自由記述カテゴリーを含む、8つの異なる指示カテゴリーのそれぞれでプロンプト/レスポンスを作成する取り組みに招待されました。コントリビューターは、Wikipedia以外のウェブのソースからの情報を使わないように指示され、指示やレスポンスを構成する際に生成型AIを使わないように明示的に指示されました。それぞれのカテゴリーに適切な質問と指示のタイプの動機づけを行うために、それぞれの挙動のサンプルが提供されました。
データ生成プロセスの過程で、コントリビューターは他のコントリビューターによる質問に回答するオプションが提供されました。オリジナルの質問を言い換え、適切に回答できるだろうと予測できる質問のみを選択することが求められました。
特定のカテゴリーでは、コントリビューターはWikipediaからコピーされた参照テキストを提供することが求められました。参照テキスト(実際のデータセットではcontext
フィールドに示されています)には、括弧付きのWikipediaの引用番号(例 [42]
)が含まれることがあり、後段のアプリケーションではユーザーが削除することが推奨されます。
意図される用途
大規模言語モデルのファインチューニングにおいて即座に勝ちをモララスものではありますが、人間が生成した指示プロンプトのコーパスとして、このデータセットはSelf-Instructの論文で説明されている手法における合成データ生成においても価値のある機会を提供します。例えば、コントリビューターが生成したプロンプトは、InstructGPTのカテゴリーのそれぞれの指示のサンプルとなる数百万のコーパスを生成するために、大規模オープン言語モデルに対する数ショットのサンプルとして送信することができます。
同様に、指示とレスポンスの両方は、データ拡張の肥沃な基盤を表現します。それぞれの正解サンプルと関連づけられた結果テキストを用いることで、それぞれのプロンプトや短いレスポンスを言い換えるために、言い換えお出るを活用することができます。このようなアプローチは、これらの合成データセットから導出されたモデルにおいて、より堅牢な指示追従挙動を可能とするデータセットにおける正則化の一形態を提供することがあります。
データセット
収集の目的
オープンソースに対する継続的コミットメントの一部として、Databricksでは、ChatGPTの魔法のようなインタラクティブ性を示す大規模言語モデルを実現することを特に目的として設計された、我々が知る限り史上初のオープンソース、人間生成の指示コーパスを開発しました。商用利用が制限されている他のデータセットと異なり、このデータセットは学術、商用アプリケーションを含むすべての目的において、使用、修正、拡張することができます。
ソース
- 人間生成データ: Databricks従業員は8つの異なる指示カテゴリーのそれぞれでプロンプト/レスポンスのペアを作成する取り組みに容態されました。
- Wikipedia: アノテーターが参照テキストを必要とする指示カテゴリー(情報抽出、クローズドのQA、要約)においては、コントリビューターは特定の指示カテゴリーのサブセットにおいて、Wikipediaの文を選択しました。どのようにターゲットの文を選択するのかに関するガイドはアノテーターには与えられませんでした。
アノテーターのガイドライン
レコードを生成するために、従業員にはアノテーションタスクの簡単な説明と、それぞれのアノテーションタスク固有のプロンプトのタイプが与えられました。特定のタスクを完全かつ信頼性を持って実行するアノテーション手順に対する厳密なコンプライアンスに要するコストをできるだけ費やすことで、高いタスク完了率を促進するために、ガイドラインは簡潔に設計されました。買主をして注意せしめよ。
それぞれのカテゴリーのアノテーションガイドラインは以下のようになります:
- クリエイティブな記述: クリエイティブでオープンエンドの記述レスポンスを必要とする質問や指示を書いてください。この指示は、一般的な世界の知識を持つ人物に尋ねることが合理的なものであるべきで、検索を要求してはいけません。このタスクでは、プロンプトは従うべき非常に固有な指示を与えるものである必要があります。制約、指示、ガイドライン、要件はすべて動作し、これらが多いほど優れています。
- クローズドのQA: Wikipediaの文に基づいた事実として正しいレスポンスを必要とする質問や指示を書いてください。この質問は複雑なものでも良く、人間レベルの理由づけ能力を必要としても構いませんが、特殊な知識を必要としてはなりません。このタスクの質問を作成するには、フォームに質問のテキストと参照テキストの両方を含めてください。
- オープンなQA: 一般的な世界常識や一度の検索で回答できる質問を書いてください。このタスクでは、最大で世界に関する意見や事実を尋ね、解決のためのいかなる参照テキストも提供してはなりません。
- 要約: Wikipediaの段落の要約を提供してください。回答に3-5分以上を要する質問を尋ねないでください。このタスクの質問を作成するには、フォームに質問テキストと参照テキストの両方を含めてください。
- 情報抽出: これらの質問には、Wikipediaの段落のリーディングと文からの情報抽出を含めてください。答えを生み出すのに必要なことの全て(例: リスト、キーワードなど)が文に含まれている必要があります。このタスクの質問を作成するには、フォームに質問テキストと参照テキストの両方を含めてください。
- 分類: これらのプロンプトには、映画レビューや製品など分類すべきエンティティのサンプルやリストが含まれます。このタスクでは、検討すべきエンティティのテキストやリストはプロンプトに含まれます(参照テキストはありません)。分類では好きなカテゴリーを選択することができます。カテゴリーが多岐に渡るほど優れています。
- ブレインストーミング: ブレインストーミングのアイデアを尋ねる質問に対する大量のレスポンスの例を考え出してください。
個人データ、機微なデータ
このデータセットには公開情報が含まれています。我々の知る限り、個人の個人IDや機微情報は含まれていません。
言語
アメリカ英語
既知の制限
- Wikipediaはクラウドソースされたコーパスであり、このデータセットではWikipediaにあるバイアスや事実誤認、トピックへのフォーカスが反映されている可能性があります。
- 何人かのアノテーターはネイティブの英語話者ではないことがあります。
- アノテーターのデモグラフィックや専門分野は、Databricks従業員の構成を反映している可能性があります。
ライセンス/帰属
Copyright (2023) Databricks, Inc. このデータセットはDatabricks( https://www.databricks.com )によって開発され、利用はCC BY-SA 3.0ライセンスの対象となります。
このデータセットのマテリアルの特定のカテゴリーには、CC BY-SA 3.0でライセンスされている以下のソースからのマテリアルが含まれます。
Wikipedia (様々なページ) - https://www.wikipedia.org/ Copyright © Wikipedia editors and contributors.