見逃してました。
今月上旬から基盤モデルAPIのペイパートークンが日本(AWS Tokyo)を含むモデルサービングをサポートしているリージョンで利用できるようになっています!
Databricks基盤モデルAPIのペイパートークンが、モデルサービングをサポートする全てのリージョンで利用可能に
基盤モデルAPIのペイパートークンを用いたワークロードが、Mosaic AI Model Servingを利用できる全てのリージョンでサポートされました。ワークスペースでUSやEUのリージョン以外のモデルサービングを利用している場合、ワークスペースではジオ横断のデータ処理が有効化されている必要があります。有効化されると、あなたのペイパートークンを用いたワークロードは、USのDatabricksジオにルーティングされます。
ペイパートークンのDatabricks基盤モデルAPIで何ができるのか
Pythonから生成AIモデルの活用
RAGなどの生成AIアプリを構築する際に、すぐに生成AIモデルにアクセスすることができます。
Playgroundでのモデルとのチャット
自分でサービングエンドポイントを立てることなしに、すぐにモデルの動作確認をスタートすることができます。
AI関数の活用
こちらのAI関数は内部でペイパートークンのDatabricks基盤モデルAPIを使っています。
設定の確認
上で説明されているように、日本リージョンの場合Databricksジオを用いてUSにルーティングされるようになっている必要があります。アカウントコンソールにログインし、対象のワークスペースにアクセスします。セキュリティとコンプライアンスタブにある、指定サービスでワークスペース地域内でのデータ処理を強制するが無効化されていることを確認します。
動作確認
サイドメニューのサービングにアクセスします。これまでは、自分で作ったモデルサービングエンドポイントしか表示されていませんでしたが、画面上部に基盤モデルのAPIエンドポイントが!
GUI経由でモデルを使うにgはモデルのUseを展開します。AI PlaygroundやAI関数に簡単にアクセスできます。
Pythonコードからの呼び出し
from databricks.sdk import WorkspaceClient
from databricks.sdk.service.serving import ChatMessage, ChatMessageRole
w = WorkspaceClient()
response = w.serving_endpoints.query(
name="databricks-dbrx-instruct",
messages=[
ChatMessage(
role=ChatMessageRole.SYSTEM, content="あなたは有能なアシスタントです"
),
ChatMessage(
role=ChatMessageRole.USER, content="mixture of expertsモデルとはなんですか?"
),
],
max_tokens=128,
)
print(f"レスポンス:\n{response.choices[0].message.content}")
レスポンス:
mixture of experts (MoE) モデルは、複数の専門家モデル (experts) とゲート (gate) という2つの主要なコンポーネントから構成される機械学習モデルです。
各専門家モデルは、入力データの一部を処理して予測値を出力するモデルです。一方、ゲートは、
お手軽すぎます。
AI Playground
普通に動きます。
AI関数
Use > Use for batch inferenceを選択します。
SQLエディタが開いてクエリーが表示されます。
ai_query
が表示されていますが、ここではペイパートークンを使うAI関数を使います。
SELECT
ai_summarize(text) as summary
FROM
takaakiyayoi_catalog.ai_functions.blog
LIMIT
10
動きました!これはLLMのバッチ推論が捗る。
ぜひご活用ください!