こちらの勉強会の抜粋です。主に私が話したパートとなります。
資料はこちらです。
LLM概況
これをまとめることが一番難易度高いかもしれません。時はまさにLLM時代!
- 2022/11 OpenAIがChatGPTを発表
- 2023/2 Meta AIがLLaMA(Large Language Model Meta AI)
- 2023/2 GoogleがBardを発表
- 2023/3 OpenAIがGPT-4を発表
- 2023/3 Azure OpenAI ServiceでChatGPTが利用可能に
- 2023/3 DatabricksがDollyを発表
- 2023/3 OpenAI CEOが岸田首相と面会
- 2023/4 アリババクラウドが通義千問(Tongyi Qianwen)を発表
- 2023/4 Amazon.comが生成AIサービス提供を発表
ChatGPTの歴史
一緒に登壇いただいた石塚様のパートです。資料はこちらです。GPTの系譜が説明されており読み応え抜群です。
GPT-4で何が変わったのか
経緯の説明には個人の見解が含まれます。
- 2022年にすでにチャットサービスとしてのChatGPTが公開されていました。
- ちなみにGPTはGenerative Pre-trained Transformer(事前トレーニング済み生成型トランスフォーマー)の略です。
- 多くの人が有料サービスにサインアップし、2023/1時点で月間アクティブユーザーが1億人に到達
- 2023/3に背後の言語モデルの新バージョンGPT-4が公開され、これを利用し始めた人たちから「これはすごいのでは?」という声が上がり始めました。
- 手法や精度に関しては後のセクションで触れます。
- 個人のみならず企業での利用も進み、それに追随する形で他の企業もLLMに注力し始めている状況です。
そして、GPT-4 Technical ReportやSytem Cardで様々な観点で説明がなされています。
- [翻訳] GPT-4 Technical Report
- [翻訳] GPT-4 System Card (前編) / (後編)
- [翻訳] GPTs are GPTs (前編) / (後編)
- パフォーマンスの改善:
- 司法試験をテスト受験者のトップ10%のスコアで通過
- (日本語を含む)複数言語でもパフォーマンス高く動作
- マルチモーダル(テキストと画像)で動作
- 安全性対策の強化
ChatGPTの使い方
デモノートブックに沿って説明しました。OpenAI APIを用いて、SQLを書かずにデータベースを操作しました。
詳細な手順はこちらにまとめています。
最近のOpenAIの発表論文のサマリー
GPT-4 Technical Report
GPT-4開発の背景や方法論が説明されています。
- マルチモーダル(複数の種類のデータを取り扱える)であるGPT-4の説明
- GPT-4の能力、制限、安全性にフォーカス
- 前バージョンのGPT-3.5からの大幅なパフォーマンス改善
- 人間のフィードバックによる強化学習(RLHF)の適用
- SATなどの様々な試験で高いスコアを達成
- ラトビア語、スワヒリ語などマイナーな言語でも高いパフォーマンス
- 画像とテキストを入力してレスポンスを生成
- ただし、アーキテクチャ、ハードウェア、計算処理、データセット、トレーニング方法などは非公開です。
- 画像とテキストを入力としてレスポンスを生成
- 入力:この画像の面白いところは何ですか?パネルごとに説明してください。
- レスポンス:この画像は3つのパネルで「ライトニングケーブル」アダプターを示しています。
- しかし、GPT-4にも依然としてリスクが存在しています。
- 妄想(Hallucination)はGPT-3.5よりは改善されていますがゼロではありません。
- リスクを軽減するために、ドメイン専門家による攻撃的テストが行われています。詳細はSystem Cardで説明されています。
GPT-4 System Card
様々な観点からGPT-4を解析しています。
- 2022年8月にトレーニングを完了して以来、評価、攻撃的テスト、繰り返しの改善、関連システムレベルの対策を実施し続けている。
- モデルデプロイのリスクの最小化と、ポジティブなユースケースの実現、デプロイからの学びのバランスを取っている。
- GPTモデルのトレーニングのステージ
- インターネットの大規模データセットを用いて「次に出現する単語」を予測するようにトレーニング
- 追加データと人間のフィードバックによる強化学習(RLHF)を通じたファインチューニング
- 初期バージョンのGPT-4-earlyと、対策を講じたGPT-4-launchを解析
- 安全性の課題は、幻覚、有害コンテンツ、表現や品質などによる害、不正な情報、プライバシー、サイバーセキュリティ、リスクのある緊急行動、経済的インパクト、加速、過度の依存、など
- 定性的評価と定量的評価を実施。攻撃的テストを行う「レッドチーム」を組成
- 幻覚(hallucination) とは真実ではないコンテンツを生成することです。過度の依存と組み合わされて、状況が悪化する可能性があります。
- 有害コンテンツの生成を拒否するように対策されています。
- リスクのある緊急行動の可能性では、GPTモデル自体がエージェント的な挙動を示し、自己複製を行うリスクに言及しています。モデル自体がサーバーに言語モデルをセットアップするタスクを所与のものとしています。
- 経済的なインパクトでは、GPTの普及によって労働環境が変化する可能性にふれています。この点は、GPTs are GPTsで詳細に論じられています。
- 過度の依存では、人が過度にモデルに依存することで、間違いを見逃すリスクに言及しています。
- これらに対策を講じることで、GPT-4-launchではリスクが軽減されていますが、依然としてジェイルブレイクのような悪意のある行為に対して脆弱性を有しています。このため、継続的な改善が行われていきます。
GPTs are GPTs
GPTの社会的影響を論じています。
- Generative Pre-trained TransformerがGeneral-Purpose Technologies(汎用技術)であるというタイトルです。
- GPTが世の中に普及することで、特に労働市場にどのような影響があるのかを論じています。
- LMが特定のパフォーマンスのしきい値を上回ることでポジティブなフィードバックループが形成され、様々な文脈におけるこれらの使いやすさや有用性を強化する更なるツールを構築する助けとなります。これによって、このようなツールを作成するのに必要なコストとエンジニアリングの専門性を引き下げ、さらにLLMの導入とインテグレーションを加速する可能性があります。
- アメリカの約80%の労働者がGPTの導入によって少なくともタスクの10%が影響を与え、労働者の約19%が自身のタスクの50%に影響を与えることを示しています。
- 情報処理業界では高いエクスポージャー(影響を受けること)を示していますが、製造、農業、鉱山では低いエクスポージャーを示していることを発見しました。
- 我々の所見は、scienceとcritical thinkingのスキルの重要度は、エクスポージャーとの強い負の相関を示しており、これらのスキルを必要とする職業は現行の言語モデルによるインパクトを受けにくいことを示しています。逆にprogrammingやwritingのスキルはエクスポージャーとの強い正の相関を示しており、これらのスキルに関係する職業は、言語モデルによる影響を受ける可能性があることを示しています。
- 賃金の高い職業ほどLLMの影響を受けることを示しています。
- 教育、トレーニング、セーフティネットの準備などに関してアメリカ政府への提言も行なっています。
Dollyのご紹介
- 3/24に発表されたDollyは、Q&A、要約、コンテンツ生成のようなChatGPTで一般的になった挙動を示す大規模言語モデルです。
- これはChatGPTを置き換えるものではありませんが、内部データを持つ広大なコーパスの要約のように企業がメリットを享受できる多数のユースケースにおいてすでにパワフルなものとなっています。
- コスト的にDollyは内製でトレーニング、実行することが可能です。
- ご自身の問題空間におけるモデルのアウトプットを改善するために、ご自身のデータを用いて簡単にDollyをチューニングすることができます。
- DatabricksではDollyの次バージョンを導入しました - Dolly 2.0
- Dolly 2.0は商用利用にライセンスされ、人が作成したデータセットを用いてファインチューニングされた、世界初のオープンソースの指示準拠LLMです。
- Dolly 2.0は人が作成したプロンプトとレスポンスデータセット
Databricks-dolly-15k
を用いてトレーニングされており、このデータセットもオープンソース化されています。 - Dolly 2.0によって、すべての企業は商用のためにパワフルな言語モデルの所有、オペレーション、カスタマイズが可能となります。
- トレーニングコードはこちらのノートブックでオープンソース化されています。
- こちらからDolly 2.0モデルの重みやデータセットをダウンロードできます。
LLMに関するフリーディスカッション
勉強会の途中でも以下のような多くのQ&Aがあり、放課後セッションでもディープな議論が交わされました。
- 日本語対応に関して
- プロンプトエンジニアリングの重要性
- なぜ、GPT-4はあれだけうまく動作しているのか
- Dollyの今後のロードマップは?