Free Dolly: 世界初の真にオープンな指示でチューニングされたLLM

Last updated at Posted at 2023-04-12

Free Dolly: Introducing the World's First Open and Commercially Viable Instruction-Tuned LLM - The Databricks Blogの翻訳です。



二週間前、ChatGPTのような人間のインタラクティブ性(指示追従性)を示すように、$30以下でトレーニングされた大規模言語モデル(LLM)であるDollyをリリースしました。本日、研究と商用利用にライセンスされた、人の手で生成された指示データセットでファインチューンされた、史上初のオープンソース、指示追従LLMであるDolly 2.0をリリースします。

Dolly 2.0はEleutherAIpythiaモデルファミリーをベースとした12Bのパラメーターを持つ言語モデルであり、Databricks従業員によってクラウドソースされた人間の手で生成された新たな高品質な指示追従データセットのみを用いてファインチューニングされています。

我々は、すべて商用利用できるトレーニングコード、データセット、モデルの重みを含むDolly 2.0のすべてをオープンソース化します。これは、すべての組織がサードパーティにデータを共有したり、APIアクセスに支払いをすることなしに、人々と会話できるLLMを作成、所有、カスタマイズできることを意味します。


databricks-dolly-15kには、大規模言語モデルのチューニングする指示として設計された、15,000の高品質な人造のプロンプト / レスポンスのペアが格納されています。databricks-dolly-15k(Creative Commons Attribution-ShareAlike 3.0 Unported License)のライセンスのもと、商用アプリケーションを含むすべての目的において誰でもこのデータセットを利用することができます。




Dolly 1.0をリリースするやいなや、試したい方々からのリクエストが殺到しました。ナンバーワンの質問は「これを商用利用できますか?」でした。

Dolly 1.0やその他の指示追従LLMを作成する重要なステップは、指示とレスポンスのペアを用いてモデルをトレーニングすることです。Dolly 1.0はスタンフォードのAlpacaチームがOpenAI APIを用いて作成したデータセットを用いて$30でトレーニングされました。このデータセットにはChatGPTのアウトプットが含まれており、スタンフォードチームが指摘しているように、利用条項はOpenAIと競合するモデルの作成を許可していません。このため、残念ですが、共通した質問に対する回答は「おそらくダメです!」でした。






  • オープンなQ&A: 例えば、「なぜ人々はコメディ映画を好むのか?」や「フランスの首都は?」あるケースにおいては、これには明確な回答はなく、他のケースにおいては、図示や広範な世界に対する知識を必要とします。
  • クローズドなQ&A: これは参照テキストの文に含まれる情報のみを用いて回答できる質問です。例えば、原子に関するWikipediaの段落に関して、「原子核における陽子と中性子の比率は?」と尋ねるというものです。
  • Wikipediaからの情報抽出: ここでは、アノテーターはWikipediaから段落をコピーし、文からエンティティやその他の重みや測定結果のような事実情報を抽出します。
  • Wikipediaからの情報の要約: ここでは、アノテーターにWikipediaの文が渡され、短い要約にまとめることが求められます。
  • ブレーンストーミング: このタスクでは、終わりのないアイディエーションと可能性のあるオプションとの関連付けが求められます。例えば、「今週末に友達とできる面白いアクティビティは?」と言ったものです。
  • 分類: このタスクでは、アノテーターはクラスのメンバーシップ(例: このアイテムは動物リスト、鉱物リスト、野菜リストに含まれますか)や、感情や映画レビューのような短い文のプロパティに対する判断を求められます。
  • クリエイティブな記述: このタスクには、詩やラブレターの記述のようなものが含まれます。

また、我々は商用利用可能なオープンソースのモデルを提供したいと考えていました。databricks-dolly-15kはAlpacaやDolly 1.0をトレーニングしたデータセットよりも非常に小さいものですが、EleutherAIpythia-12bをベースとしたDolly 2.0モデルは、高品質な指示追従の挙動を示しました。後知恵ではありますが、これは驚くことではありません。ここ数ヶ月でリリースされた指示チューニングデータセットの多くには、合成データが含まれており、多くの場合、幻覚や事実上のエラーを含んでいます。


ご自身で、要約やコンテンツ生成でDolly 2.0がどのように活用できるのかに関するサンプルを確認いただくことができます。初期のカスタマーフィードバックから、これらのような能力には企業の広範なアプリケーションがあることが明確となっています。

Dolly 2.0によるDatabricksドキュメントの要約

指示 レスポンス
What is the default configuration for new DBSQL warehouses?

Databricks SQL Serverless supports serverless compute. Admins can create serverless SQL warehouses (formerly SQL endpoints) that enable instant compute and are managed by Databricks. Serverless SQL warehouses use compute clusters in your Databricks account. Use them with Databricks SQL queries just like you normally would with the original customer-hosted SQL warehouses, which are now called classic SQL warehouses. Databricks changed the name from SQL endpoint to SQL warehouse because, in the industry, endpoint refers to either a remote computing device that communicates with a network that it's connected to, or an entry point to a cloud service. A data warehouse is a data management system that stores current and historical data from multiple sources in a business friendly manner for easier insights and reporting. SQL warehouse accurately describes the full capabilities of this compute resource. If serverless SQL warehouses are enabled for your account, note the following: New SQL warehouses are serverless by default when you create them from the UI. New SQL warehouses are not serverless by default when you create them using the API, which requires that you explicitly specify serverless. You can also create new pro or classic SQL warehouses using either method. You can upgrade a pro or classic SQL warehouse to a serverless SQL warehouse or a classic SQL warehouse to a pro SQL warehouse. You can also downgrade from serverless to pro or classic. This feature only affects Databricks SQL. It does not affect how Databricks Runtime clusters work with notebooks and jobs in the Data Science & Engineering or Databricks Machine Learning workspace environments. Databricks Runtime clusters always run in the classic data plane in your AWS account. See Serverless quotas. If your account needs updated terms of use, workspace admins are prompted in the Databricks SQL UI. If your workspace has an AWS instance profile, you might need to update the trust relationship to support serverless compute, depending on how and when it was created.
By default, when you create a new DBSQL warehouse using the UI, it will be a serverless SQL warehouse. However, when creating the same using the API, you will have to explicitly specify that it is a pro SQL warehouse.

Dolly 2.0によるカスタマーサポートチケットの要約

指示 レスポンス
Give me a list of the main complaints in this customer support ticket. Do not write a reply.

I am writing to express my deep disappointment and frustration with the iPhone 14 Pro Max that I recently purchased. As a long-time Apple user and loyal customer, I was excited to upgrade to the latest and greatest iPhone model, but unfortunately, my experience with this device has been nothing short of a nightmare.

Firstly, I would like to address the issue of battery life on this device. I was under the impression that Apple had made significant improvements to their battery technology, but unfortunately, this has not been my experience. Despite using the phone conservatively, I find that I have to charge it at least twice a day just to ensure it doesn't die on me when I need it the most. This is extremely inconvenient and frustrating, especially when I have to carry around a bulky power bank or constantly hunt for charging outlets.

Furthermore, I am extremely disappointed with the camera quality on this device. Despite Apple's claims of improved camera technology, I have found that the photos I take on this phone are often blurry or grainy, and the colors are not as vibrant as I would like. This is especially disappointing considering the high price point of the iPhone 14 Pro Max, which is marketed as a premium smartphone with a top-of-the-line camera.

Overall, I feel as though I have been let down by Apple and their latest iPhone offering. As a loyal customer who has invested a significant amount of money into their products over the years, I expect better from a company that prides itself on innovation and customer satisfaction. I urge Apple to take these concerns seriously and make necessary improvements to the iPhone 14 Pro Max and future models.

Thank you for your attention to this matter.
The customer is unhappy about the battery life and the camera quality of the iPhone 14 Pro Max.

Dolly 2.0によるツイートの生成

指示 レスポンス
Write me a tweet about the launch of Dolly 2.0, our new LLM. Dolly 2.0 is here 🤩

We've upgraded our LLM, making it more efficient, more powerful, and more accessible to a broader audience.

Learn more ⬇️







Dolly 2.0の重みをダウンロードするには、シンプルにDatabricks Hugging Faceのページを訪れ、databricks-dolly-15k datasetをダウンロードするにはDolly repo on databricks-labsにアクセスしてください。そして、ご自身の組織でLLMを活用する方法を知るには、我々のウェビナーにご参加ください。


