More than 1 year has passed since last update.

Databricksの生成AIと大規模言語モデル(LLM)を整理してみた

Posted at 2024-02-13

背景・目的

Databricks上で生成AIを扱うための情報を整理します。

まとめ

特徴	説明
生成AIとは	画像、テキスト、コード、合成データ等のコンテンツを作成する機能に焦点を当てた人工知能の一種生成AIアプリケーションは、LLMと基盤モデルの上に構築されている
LLM	言語処理タスクに優れている大量のデータセットを使用してトレーニングするディープラーニングモデルトレーニングデータに基づいて、自然言語を模倣するテキストの新しい組み合わせを作成する
ファウンデーションモデル	具体的な言語理解と生成タスクに合わせて、微調整をすること意図して事前にトレーニングされた大規模な機械学習モデル入力データ内のパターンを識別するために使用される
できること	・画像生成・テキスト文字起こし・翻訳・質問/回答の生成・テキストの意図や意味の解釈などの音声タスク
設計パターン	・プロンプトエンジニアリング・RAG ・ファンチューニング・事前トレーニング
AIライフサイクルの統合	・MLFlow ・特徴量エンジニアリングとサービス提供・Databricksモデルサービング・Vector Search ・Lakehouse Monitoring ・AI Playground

概要

Databricksの生成AIと大規模言語モデル(LLM)を元に整理しています。

生成AIとは

生成AIは、コンピューターがモデルを使用して画像、テキスト、コード、合成データなどのコンテンツを作成する機能に焦点を当てた人工知能の一種です。
生成AI アプリケーションは、大規模言語モデル (LLM) と基盤モデルの上に構築されています。

画像、テキスト、コード、合成データ等のコンテンツを作成する機能に焦点を当てた人工知能の一種
生成AIアプリケーションは、LLMと基盤モデルの上に構築されている

LLMは、言語処理タスクに優れているために、大量のデータセットを使用してトレーニングするディープラーニングモデルです。トレーニングデータに基づいて、自然言語を模倣するテキストの新しい組み合わせを作成します。

ファウンデーションモデルは、より具体的な言語理解と生成タスクに合わせて微調整することを意図して事前にトレーニングされた大規模な機械学習モデルです。これらのモデルは、入力データ内のパターンを識別するために使用されます。

LLM
- 言語処理タスクに優れている
- 大量のデータセットを使用してトレーニングするディープラーニングモデル
- トレーニングデータに基づいて、自然言語を模倣するテキストの新しい組み合わせを作成する
ファンデーションモデル
- 具体的な言語理解と生成タスクに合わせて、微調整をすること意図して事前にトレーニングされた大規模な機械学習モデル
- 入力データ内のパターンを識別するために使用される

これらのモデルが学習プロセスを完了すると、プロンプトが表示されたときに統計的に可能性の高い出力が生成され、次のようなさまざまなタスクを実行するために使用できます。

既存の画像に基づいて画像を生成するか、1つの画像のスタイルを利用して新しい画像を変更または作成します。

テキストの文字起こし、翻訳、質問/回答の生成、テキストの意図や意味の解釈などの音声タスク。

下記タスクを実行するために使用できる
- 画像生成
- テキスト文字起こし
- 翻訳
- 質問/回答の生成
- テキストの意図や意味の解釈などの音声タスク

生成 AI には、次の設計パターンがあります。

プロンプトエンジニアリング:LLMの動作を導くための特殊なプロンプトの作成

検索拡張世代(RAG):LLMと外部知識検索の組み合わせ

ファインチューニング:事前学習済みのLLMをドメインの特定のデータセットに適合させる

事前トレーニング:LLMをゼロからトレーニングする

プロンプトエンジニアリング
RAG
ファンチューニング
事前トレーニング

Databricks上で生成型 AI と LLM を開発する

Databricks は、データの収集と準備から、モデル開発と LLMOps、サービス提供とモニタリングまで、AI ライフサイクルを統合します。次の機能は、生成AI アプリケーションの開発を容易にするために特別に最適化されています。

Databricksでは、AIライフサイクルを統合している

モデル開発の追跡と LLM 評価のための MLflow 。

特徴量エンジニアリングとサービス提供。

Databricks モデルサービング (LLM をデプロイするためのもの)。モデルサービングエンドポイントは、基盤モデルへのアクセス専用に構成できます。
- 基盤モデルAPIsを用いた最先端のオープンLLM
　　- Databricks の外部でホストされているサードパーティモデル。「Databricks モデルサービング」の「外部モデル」を参照してください。

Databricks Vector Search は、埋め込みベクターを格納し、ナレッジベースに自動的に同期するように構成できるクエリ可能なベクターデータベースを提供します。

Lakehouse Monitoring :推論テーブルによる自動ペイロードロギングを使用して、データモニタリングとモデルの予測品質とドリフトの追跡を行います。

Databricks ワークスペースから基盤モデルをテストするための AI Playground。プロンプトを表示、比較、およびシステムプロンプトや推論パラメーターなどの設定を調整できます。

MLFlow
特徴量エンジニアリングとサービス提供
Databricksモデルサービング
- 基盤モデルAPIsを用いた最先端のオープンLLM
- Databricksの外部でホストされているサードパーティモデル
Vector Search
Lakehouse Monitoring
AI Playground

考察

今回は、Databricksの生成AIとLLMを整理してみました。
次回以降は、実際に手を動かしてみたいとおもいます。

参考

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up