Hello Dolly: Democratizing the magic of ChatGPT with open modelsの翻訳です。
Databricksのユーザー会でChatGPT/Dollyの勉強会やります。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
サマリー
我々は、誰でも歴史のあるオフザシェルフのオープンソース大規模言語モデル(LLM)を活用し、高品質トレーニングデータを用いて単体のマシンで30分トレーニングすることで、魔法のようなChatGPTのように指示に従う能力を提供できることを説明します。驚くべきことに、指示への追従には最新かつ最大のモデルは必要ないように見えています: GPT-3の1750億のパラメーターと比較して、我々のモデルは60億のパラメーターです。我々のモデル(Dolly)のコードをオープンソース化し、Databricks上でどのように再作成できるのかを示します。DollyのようなモデルによってLLMの民主化の助けとなって、限られた数社のみが購入できるような何かを、どの企業でも所有し、自身の製品を改善するためにカスタマイズできるようなコモディティになることを信じています。
背景
プロプライエタリの指示追従モデルであるChatGPTは2022年11月にリリースされ、世界中に嵐を巻き起こしました。このモデルWebからの数兆の単語でトレーニングされ、開発には膨大な数のGPUを必要とします。これによって、すぐにGoogleや他の企業による自身のプロプライエタリな指示追従モデルのリリースにつながりました。2023年2月には、Metaが学術分野の研究者向けにLLaMAと呼ばれる、それぞれが80,000GPU時間以上トレーニングされた一連の高品質な言語モデル(指示追従モデルではありません)への注力を発表しました。そして、3月にはスタンフォードでLLaMAをベースとし、50,000の人間のような質疑応答の小規模データセットにチューニングされたAlpacaモデルを構築し、驚くべきことに、これはChatGPTのようなインタラクティブ性を示しました。
Dollyのご紹介
本日、我々はChatGPTによって示された驚くべき指示追従機能を発揮する構築が安価なLLMであるDollyをご紹介します。Alpacaチームによる取り組みによって、最先端のモデルは高品質な指示追従の挙動につながることが示されていますが、より以前のアーキテクチャを持つ数年もののオープンソースモデルであっても、指示トレーニングデータの小規模コーパスでファインチューニングすることでおとどくべき挙動を示すことを発見しました。Dollyは既存のEleutherAIのオープンソースの60億パラメーターのモデルを活用し、オリジナルのモデルには無いブレインストーミングやテキスト生成のような指示に従う能力を引き出すために、Alpacaのデータを用いて若干の修正を行うことで動作しています。
Dollyの背後のモデルには、GPT-3の1750億のパラメーターと比較して、60億のパラメーターがあり2歳ではありますが、非常にうまく動作しており特に驚くべきものとなっています。これは、ChatGPTのような最先端モデルにおける定性的ゲインの多くが、大規模あるいはよりチューニングされたベースモデルではなく、指示追従に関するトレーニングデータにフォーカスしたコーパスに依るところがあるかのしれないことを示しています。我々はこのモデルを、LLaMAにインスパイアされたAlpacaのオープンソースクローンであることから、初めてクローンされた哺乳類である羊のドリーからDollyと呼んでいます。我々は企業におけるAIの民主化の初期段階におり、多くの作業が残っていますがDollyの背後にある技術によって、自身の指示追従モデルを安価に構築したいと考えている企業によって興奮する新たな機会を提供することを信じています。
ChatGPTがベースとしているInstructGPTの論文で説明されている指示追従能力においてDollyを評価しており、テキスト生成、ブレーンストーミング、オープンなQ&Aを含む同じ定性的な能力を示していることを発見しました。このサンプルで特筆したいのは、生成されたテキストの品質ではなく、小規模な高品質データセットで数年もののオープンソースをファインチューニングすることで、指示追従能力において大きな改善が認められたことです。
生成
Write a love letter to Edgar Allan Poe.
Write a tweet announcing Dolly, a large language model from Databricks.
I'm selling my Nikon D-750, write a short blurb for my ad.
オープンなQ&A
ブレーンストーミング
なぜオープンなモデルを?
企業がAPIの先にあるプロプライエタリモデルを提供する集中管理されたLLMにデータ送信するのではなく、自身のモデルを構築することを好む理由は多数存在します。多くの企業において、AIによるメリットを享受できる問題やデータセットは、自分たちにとって最もセンシティブでプロプライエタリな知的財産であり、サードバーティにそれを引き渡すことは受け入れ難いことかもしれません。さらに、企業においては、モデルの品質、コスト、望まれる挙動に関してそれぞれのトレードオフを持っているかもしれません。多くのMLユーザーは、自分たちのモデルを直接所有することが長期的にベストであると我々は信じています。
Databricks上でDollyを構築するために活用できるシンプルなDatabrikcsノートブックをオープンソース化します。学習された重み情報にアクセスしたいのであれば hello-dolly@databricks.com にコンタクトしてください。
次に来るのは?
Dollyのリリースは、すべての企業が大規模言語モデルを活用できるようにするDatabrikcsの一連の取り組みの発表の第一弾です。我々は、すべての企業や個人の生産性を変革するための人工知能の信じられないパワーを信じており、このジャーニーに参画していただける方を歓迎します。向こう数週間で発表されるこの領域に関する続報を楽しみにしていてください!
謝辞
この取り組みの多くは、数多くの素晴らしい企業の努力と洞察によるものです。EleutherAIのオープンソース化とGPT-Jのトレーニングなしには実現できませんでした。Stanford Center for Research on Foundation Models、特にAlpacaチームによる素晴らしいアイデアとデータによってインスピレーションを得ました。小規模データセットによる並外れたパワーの背後にあるコアのアイデアは、Self-Instructのオリジナルの論文によるものです。また、数えきれないモデルやライブラリをホストし、オープンソース化し、維持しているHugging Faceにも感謝しています。最先端技術への彼らの貢献を見落とすわけにはいきません。
免責事項: 生成型AIは勃興期の技術であり、LLMにおける現実度の精度、バイアス、攻撃的な反応、一般的な毒性、幻覚への対応方法に関する研究は初期段階です。他の言語モデルと同様にDollyは時にこのような挙動を示すことがあるので、この技術のアプリケーションの設計において優れた意思判断を行えるように練習をすることをお勧めします。