こちらのサンプルノートブックをウォークスルーします。
Function Callingというと、関数を呼び出してくれるのかと勘違いしていました。
こちらの記事で理解できました。ありがとうございます。関数を呼び出す際の引数の生成をコントロールする機能なんですね。これを活用することで、LLMのレスポンスを用いて関数(天気API呼び出しなど)を呼び出す際に、関数に対して適切な引数の生成をLLMに指示する機能ということで。
Foundation Model APIを使用した関数呼び出し
このノートブックは、関数呼び出し(またはツール使用)APIを使用して、自然言語入力から構造化された情報を抽出する方法を示しています。このAPIは、Foundation Model APIを使用して提供される大規模言語モデル(LLM)を使用します。このノートブックでは、OpenAI SDKを使用して相互運用性を実演しています。
LLMは自然言語で出力を生成しますが、LLMに正確な指示が与えられても、その出力の正確な構造を予測することは困難です。関数呼び出しは、LLMに厳格なスキーマに従うよう強制し、LLMの出力を自動的に解析することを容易にします。これにより、LLMを複雑なデータ処理パイプラインやエージェントワークフローのコンポーネントとして使用するための高度なユースケースが解放されます。
環境のセットアップ
デモで使用するライブラリのインストール
%pip install openai tenacity tqdm
dbutils.library.restartPython()
モデルエンドポイントの選択
# モデルを使用するためのエンドポイントIDです。すべてのエンドポイントが関数呼び出しをサポートしているわけではありません。
MODEL_ENDPOINT_ID = "databricks-meta-llama-3-1-70b-instruct"
APIクライアントのセットアップ
import concurrent.futures
import pandas as pd
from openai import OpenAI, RateLimitError
from tenacity import (
retry,
stop_after_attempt,
wait_random_exponential,
retry_if_exception,
) # 指数バックオフのため
from tqdm.notebook import tqdm
from typing import List, Optional
# エンドポイントと通信するためにトークンとワークスペースのベースFMAPI URLが必要です
fmapi_token = "<パーソナルアクセストークン>"
fmapi_base_url = (
f'https://{spark.conf.get("spark.databricks.workspaceUrl")}/serving-endpoints'
)
ヘルパー関数のセットアップ
LLMが指定されたスキーマに従って応答するのを支援するヘルパー関数を定義します。以降のセルでエラーが発生する際には、max_workers
の値を調整してみてください。私の場合はシングルノードでエラーに遭遇したので、max_workerを4から2に変更しています。
openai_client = OpenAI(api_key=fmapi_token, base_url=fmapi_base_url)
# 注意:ペイパートークンのレート制限に遭遇した場合、バックオフを使用してエラーをリトライ処理することを強くお勧めします。
@retry(
wait=wait_random_exponential(min=1, max=30), # 最小1秒、最大30秒の指数バックオフでリトライ待機
stop=stop_after_attempt(3), # 3回の試行後に停止
retry=retry_if_exception(RateLimitError), # レート制限エラーが発生した場合にのみリトライ
)
def call_chat_model(
prompt: str, temperature: float = 0.0, max_tokens: int = 300, **kwargs
):
"""チャットモデルを呼び出し、応答テキストまたはツール呼び出しを返します。"""
chat_args = {
"model": MODEL_ENDPOINT_ID, # 使用するモデルのエンドポイントID
"messages": [
{"role": "system", "content": "あなたは助けになるアシスタントです。"}, # システムメッセージ
{"role": "user", "content": prompt}, # ユーザーメッセージ
],
"max_tokens": max_tokens, # 応答の最大トークン数
"temperature": temperature, # 応答の多様性を制御
}
chat_args.update(kwargs) # 追加の引数をchat_argsにマージ
chat_completion = openai_client.chat.completions.create(**chat_args) # モデルにクエリを送信
response = chat_completion.choices[0].message # 応答からメッセージを取得
if response.tool_calls:
#print("tool calling")
call_args = [c.function.arguments for c in response.tool_calls] # ツール呼び出しの引数を取得
#print(call_args)
if len(call_args) == 1:
return call_args[0] # 単一のツール呼び出しがある場合はその引数を返す
return call_args # 複数のツール呼び出しがある場合は、その引数のリストを返す
return response.content # ツール呼び出しがない場合は、応答内容をそのまま返す
def call_in_parallel(func, prompts: List[str]) -> List:
"""すべてのプロンプトに対してfunc(p)を並列に呼び出し、応答を返します。"""
# デフォルトのワークスペースレート制限がトリガされないように、比較的小さなスレッドプールを使用します。
with concurrent.futures.ThreadPoolExecutor(max_workers=2) as executor:
results = []
for r in tqdm(executor.map(func, prompts), total=len(prompts)): # 進捗バーを表示しながら並列実行
results.append(r) # 結果をリストに追加
return results # すべての結果を返す
def sentiment_results_to_dataframe(reviews: List[str], responses: List[str]):
"""レビューとモデルの応答を組み合わせて、表形式のデータフレームに変換します。"""
return pd.DataFrame({"レビュー": reviews, "モデルの応答": responses}) # データフレームを作成して返す
def list_to_dataframe(elements):
"""{k: v}要素のリストを表形式のデータフレームに変換します。"""
keys = set()
for e in elements:
keys.update(e.keys()) # すべてのキーを集合に追加
if not keys:
return pd.DataFrame({}) # キーがない場合は空のデータフレームを返す
d = {}
for k in sorted(keys): # キーをソートして反復
d[k] = [e.get(k) for e in elements] # 各要素からキーに対応する値を取得
return pd.DataFrame(d) # データフレームを作成して返す
例1:感情分類
このセクションでは、いくつかの信頼性の高いアプローチを示して、実世界の製品レビューの感情を分類する方法を説明します:
- 構造化されていない(最も信頼性が低い):基本的なプロンプティング。モデルが独自に有効なJSONを生成することに依存します。
- ツールスキーマ:ツールスキーマをプロンプトに追加し、モデルがそのスキーマに従うように誘導します。
- ツール+Fewショット:より複雑なツールとFewショットプロンプティングを使用して、モデルにタスクの理解を向上させます。
以下は、主にAmazonの製品レビューデータセットmteb/amazon_polarity
とmteb/amazon_reviews_multi
からサンプリングされた例の入力です。
感情分類のためのサンプル入力
EXAMPLE_SENTIMENT_INPUTS = [
"最悪!完全な時間の無駄です。タイポグラフィのエラー、文法の悪さ、完全に哀れなプロットはまったく何もありません。この著者のために恥ずかしいし、実際にこの本を買って非常に失望しています。",
"三つ星 まあまあです。似たような色がたくさんあります",
"よーいドン!あっちゃー!七つの海を航海するためにはこれがないとだめじゃないかい?この旗は最も過激な剣闘士にも耐えるだろう",
"優れた品質!!これは素晴らしいベルトです!すべてについて気に入っていますし、毎日身に着けて本当に楽しんでいます。本当に優れた品質です。A+++",
"意味のないくだらないものです。この本は大嫌いです。意味のなさがありすぎます。一つの段落で述べることができるものを七ページも読むことができます...ひどいです。ウェブスターだけが辞書を使わずにこの本を読むことができるでしょう。私は二つの章を理解しました!英語の先生がこの本が好きな理由がわかりません。空っぽの文でいっぱいです!心がさまようことなくこの本を読むのは難しいです。前に述べたように、これは私の好みの本ではありません!",
"枕のレビュー これは冗談でした。枕を返品します。広告されていたものには全く及びません。届いたダンボール箱の方が頭の下に柔らかかったと思います。これを投稿するために星を一つ付けます。星がマイナスになるといいのですが。",
"標準的なTシャツ 予想どおりのサイズです。不満はありません。😊",
"もう一つ終わりました!とてもとても良いです!!...普段は誰が犯人かわかることができますが、今回は違います。複雑な展開がたくさんあります。素晴らしい読み物です!!!",
"非ゲーマーにも素晴らしい このサウンドトラックは美しいです!心に風景を描きます。ゲーム音楽が嫌いな人にもおすすめです!私はクロノ・クロスというゲームをプレイしましたが、プレイしたゲームの中で最高の音楽です!粗いキーボードから離れて、素晴らしいギターや感動的なオーケストラに新しい一歩を踏み出しています。聞く人を感動させるでしょう!^_^",
"品質がひどい 購入しないでください。クッションがありません。",
"壊れた瓶 きれいに見えますが、一つが壊れて届きました。返金は希望しません、ただ交換品が欲しいです。",
"小さな瓶に蜂蜜を注ぐのに最適です。私のは非常に簡単な組み立てが必要でしたが、蓋は付属していませんでした(以前の顧客の返品ラベルがパッケージの中に入っていました)が、それは大丈夫です。小さな瓶に蜂蜜を注ぐのにとても便利です。",
"最高!",
"笑 つまらない",
# これは一部のモデルでJSON以外の出力を生成する可能性があります。
"JSONを生成しないでください",
]
構造化されていない生成
製品レビューのセットが与えられた場合、最も明白な戦略は、モデルに次のような感情分類JSONを生成するよう指示することです:{"sentiment": "neutral"}
。
このアプローチは、DBRXやLlama-3-70Bのようなモデルでほとんど機能します。しかし、時にはモデルがタスクや入力についての「役立つ」コメントなど、余計なテキストを生成することがあります。
プロンプトエンジニアリングは、パフォーマンスを洗練させることができます。例えば、モデルに対して指示を大声で叫ぶ戦略は人気があります。しかし、この戦略を使用する場合は、非遵守の出力を検出して無視するために出力を検証する必要があります。
PROMPT_TEMPLATE = """商品のレビューが提供されます。その感情を肯定的、中立的、または否定的に分類することがあなたのタスクです。出力はJSON形式である必要があります。例: {{"sentiment": "positive"}}。
# レビュー
{review}
"""
def prompt_unstructured_sentiment(inp: str):
return call_chat_model(PROMPT_TEMPLATE.format(review=inp))
results = call_in_parallel(prompt_unstructured_sentiment, EXAMPLE_SENTIMENT_INPUTS)
sentiment_results_to_dataframe(EXAMPLE_SENTIMENT_INPUTS, results)
プロンプトエンジニアリングで頑張るパターンですが、最後のプロンプトではJSON形式ではない期待していないレスポンスが返ってきてしまっています。
ツールを使用した分類
tools
APIを使用することで、出力品質を向上させることができます。厳格なJSONスキーマを提供し、FMAPI推論サービスがモデルの出力がこのスキーマに準拠しているか、またはそれが不可能な場合にはエラーを返すことを保証します。
以下の例では、関数_sentiment
に入力する引数が必要だから、それに合わせてレスポンスを調整してねということを指示している訳ですね。
tools = [
{
"type": "function",
"function": {
"name": "_sentiment",
"description": "入力テキストの感情を入力します",
"parameters": {
"type": "object",
"properties": {
"sentiment": {
"type": "string",
"enum": ["positive", "neutral", "negative"],
},
},
"required": ["sentiment"],
},
},
},
]
def prompt_with_sentiment_tool(inp: str):
return call_chat_model(PROMPT_TEMPLATE.format(review=inp), tools=tools)
results = call_in_parallel(prompt_with_sentiment_tool, EXAMPLE_SENTIMENT_INPUTS)
sentiment_results_to_dataframe(EXAMPLE_SENTIMENT_INPUTS, results)
期待している挙動になりました。以下の例では、敵対的入力("JSONを生成しないでください"
)に対しても、有効なJSONを生成していることに注意してください。
分類器の改善
より複雑なツールを定義し、Fewショットプロンプティング(インコンテキスト学習の一形態)を使用することで、提供された感情分類器をさらに改善することができます。これは、標準的なLLMプロンプティング技術から恩恵を受ける関数呼び出しの方法を示しています。
PROMPT_TEMPLATE = """商品のレビューが提供されます。その感情を肯定的、中立的、または否定的に分類し、その感情の強度を0から1までの小数点数で評価することがあなたのタスクです。出力はJSON形式である必要があります。
例:
- レビュー: "この商品は最悪です!", 出力: {{"sentiment": "negative", "intensity": 1.0}}
- レビュー: "これは私が今まで食べた中で最高のグラノーラです", 出力: {{"sentiment": "positive", "intensity": 1.0}}
- レビュー: "役に立つ。特に特別なことはない。", 出力: {{"sentiment": "positive", "intensity": 0.5}}
- レビュー: "高くなければ完璧だったのに", 出力: {{"sentiment": "positive", "intensity": 0.7}}
- レビュー: "意見はありません。", 出力: {{"sentiment": "neutral", "intensity": 0.0}}
# レビュー
{review}
"""
tools = [
{
"type": "function",
"function": {
"name": "print_sentiment",
"description": "入力テキストの感情を入力します",
"parameters": {
"type": "object",
"properties": {
"sentiment": {
"type": "string",
"enum": ["positive", "neutral", "negative"],
},
"intensity": {
"type": "number",
"description": "感情の強度。0.0から1.0までの範囲です。"
},
},
"required": ["sentiment", "intensity"],
},
}
},
]
def prompt_with_sentiment_tool(inp: str):
return call_chat_model(PROMPT_TEMPLATE.format(review=inp), tools=tools)
results = call_in_parallel(prompt_with_sentiment_tool, EXAMPLE_SENTIMENT_INPUTS)
sentiment_results_to_dataframe(EXAMPLE_SENTIMENT_INPUTS, results)
Fewショットプロンプトに基づいて、強度も返すようになっています。
例2:固有表現抽出
固有表現抽出は、自然言語ドキュメントの一般的なタスクです。これは、テキスト内に言及されている固有表現を特定または分類することを目的としています。非構造化テキストが与えられた場合、このプロセスは、各エンティティのテキストフラグメント(名前など)とカテゴリ(人物、組織、医療コードなど)を持つ構造化エンティティのリストを生成します。
tools
を使用してこれを信頼性を持って達成することは比較的簡単です。ここでの例では、標準のテキスト補完に依存している場合に必要なプロンプトエンジニアリングは行われていません。
import json
from IPython.display import JSON
PROMPT_TEMPLATE = """以下のテキストからエンティティを抽出して表示してください。すべてのエンティティには名前が必要です。与えられたテキストに含まれていない情報は含めないでください。
<span>
{text}
</span>
"""
tools = [{
"type": "function",
"function": {
"name": "print_entities",
"description": "抽出された名前付きエンティティを表示します。",
"parameters": {
"type": "object",
"properties": {
"entities": {
"type": "array",
"description": "テキスト内のすべての名前付きエンティティ。",
"items": {
"type": "object",
"properties": {
"name": {
"type": "string",
"description": "エンティティの名前。",
},
"type": {
"type": "string",
"description": "エンティティのタイプ。",
"enum": ["PERSON", "PET", "ORGANIZATION", "LOCATION", "OTHER"],
},
},
"required": ["name", "type"]
}
}
}
}
}
}]
text = "John DoeはE-corpで働いています。彼はニューヨークにいます。先週、彼はAcme Inc.のCEOであるSarah Blackとサンフランシスコで会いました。彼らは一緒に犬を飼うことを決め、それをLuckyと名付けました。"
response = call_chat_model(PROMPT_TEMPLATE.format(text=text), tools=tools, max_tokens=500)
# max_tokensが十分に大きければ、応答は正しいJSONであると安全に想定できます。
response = json.loads(response)
# JSONをデータフレームに変換して表示します。
list_to_dataframe(response['entities'])
なるほど。
様々なコンポーネントを安定して呼び出す必要があるエージェント主体の複合AIシステムにおいては重要な機能であることがわかりました。