背景・目的
Databricks上で生成AIを扱うための情報を整理します。
まとめ
特徴 | 説明 |
---|---|
生成AIとは | 画像、テキスト、コード、合成データ等のコンテンツを作成する機能に焦点を当てた人工知能の一種 生成AIアプリケーションは、LLMと基盤モデルの上に構築されている |
LLM | 言語処理タスクに優れている 大量のデータセットを使用してトレーニングするディープラーニングモデル トレーニングデータに基づいて、自然言語を模倣するテキストの新しい組み合わせを作成する |
ファウンデーションモデル | 具体的な言語理解と生成タスクに合わせて、微調整をすること意図して事前にトレーニングされた大規模な機械学習モデル 入力データ内のパターンを識別するために使用される |
できること | ・画像生成 ・テキスト文字起こし ・翻訳 ・質問/回答の生成 ・テキストの意図や意味の解釈などの音声タスク |
設計パターン | ・プロンプトエンジニアリング ・RAG ・ファンチューニング ・事前トレーニング |
AIライフサイクルの統合 | ・MLFlow ・特徴量エンジニアリングとサービス提供 ・Databricksモデルサービング ・Vector Search ・Lakehouse Monitoring ・AI Playground |
概要
Databricksの生成AIと大規模言語モデル(LLM)を元に整理しています。
生成AIとは
生成AIは、コンピューターがモデルを使用して画像、テキスト、コード、合成データなどのコンテンツを作成する機能に焦点を当てた人工知能の一種です。
生成AI アプリケーションは、大規模言語モデル (LLM) と基盤モデルの上に構築されています。
- 画像、テキスト、コード、合成データ等のコンテンツを作成する機能に焦点を当てた人工知能の一種
- 生成AIアプリケーションは、LLMと基盤モデルの上に構築されている
- LLMは 、言語処理タスクに優れているために、大量のデータセットを使用してトレーニングするディープラーニングモデルです。 トレーニングデータに基づいて、自然言語を模倣するテキストの新しい組み合わせを作成します。
- ファウンデーションモデルは 、より具体的な言語理解と生成タスクに合わせて微調整することを意図して事前にトレーニングされた大規模な機械学習モデルです。 これらのモデルは、入力データ内のパターンを識別するために使用されます。
- LLM
- 言語処理タスクに優れている
- 大量のデータセットを使用してトレーニングするディープラーニングモデル
- トレーニングデータに基づいて、自然言語を模倣するテキストの新しい組み合わせを作成する
- ファンデーションモデル
- 具体的な言語理解と生成タスクに合わせて、微調整をすること意図して事前にトレーニングされた大規模な機械学習モデル
- 入力データ内のパターンを識別するために使用される
これらのモデルが学習プロセスを完了すると、プロンプトが表示されたときに統計的に可能性の高い出力が生成され、次のようなさまざまなタスクを実行するために使用できます。
- 既存の画像に基づいて画像を生成するか、1つの画像のスタイルを利用して新しい画像を変更または作成します。
- テキストの文字起こし、翻訳、質問/回答の生成、テキストの意図や意味の解釈などの音声タスク。
- 下記タスクを実行するために使用できる
- 画像生成
- テキスト文字起こし
- 翻訳
- 質問/回答の生成
- テキストの意図や意味の解釈などの音声タスク
生成 AI には、次の設計パターンがあります。
- プロンプトエンジニアリング:LLMの動作を導くための特殊なプロンプトの作成
- 検索拡張世代(RAG):LLMと外部知識検索の組み合わせ
- ファインチューニング:事前学習済みのLLMをドメインの特定のデータセットに適合させる
- 事前トレーニング:LLMをゼロからトレーニングする
- プロンプトエンジニアリング
- RAG
- ファンチューニング
- 事前トレーニング
Databricks上で生成型 AI と LLM を開発する
Databricks は、データの収集と準備から、モデル開発と LLMOps、サービス提供とモニタリングまで、AI ライフサイクルを統合します。 次の機能は、生成AI アプリケーションの開発を容易にするために特別に最適化されています。
- Databricksでは、AIライフサイクルを統合している
- モデル開発の追跡と LLM 評価 のための MLflow 。
- 特徴量エンジニアリングとサービス提供。
- Databricks モデルサービング (LLM をデプロイするためのもの)。 モデルサービングエンドポイントは、基盤モデルへのアクセス専用に構成できます。
- 基盤モデルAPIsを用いた最先端のオープンLLM
- Databricks の外部でホストされているサードパーティ モデル。 「Databricks モデルサービング」の「外部モデル」を参照してください。- Databricks Vector Search は、埋め込みベクターを格納し、ナレッジ ベースに自動的に同期するように構成できるクエリ可能なベクター データベースを提供します。
- Lakehouse Monitoring :推論 テーブルによる自動ペイロードロギングを使用して、データモニタリングとモデルの予測品質とドリフトの追跡を行います。
- Databricks ワークスペースから基盤モデルをテストするための AI Playground。プロンプトを表示、比較、およびシステム プロンプトや推論パラメーターなどの設定を調整できます。
- MLFlow
- 特徴量エンジニアリングとサービス提供
- Databricksモデルサービング
- 基盤モデルAPIsを用いた最先端のオープンLLM
- Databricksの外部でホストされているサードパーティモデル
- Vector Search
- Lakehouse Monitoring
- AI Playground
考察
今回は、Databricksの生成AIとLLMを整理してみました。
次回以降は、実際に手を動かしてみたいとおもいます。
参考