More than 1 year has passed since last update.

ChatGPT: Embeddingで独自データに基づくQ&Aを実装する (Langchain不使用)

Last updated at 2023-06-30Posted at 2023-04-25

こんにちは、ChatGPTに自社のデータや、専門的な内容のテキストに基づいて回答を作成して欲しいという需要はかなりあるのではないかと思います。

そうした用途のために、LangchainやLlama-indexを使用した解説が多く公開されていますが、OpenAIのcookbookにはライブラリを使わずにEmbeddingsを使用したサーチとクエリを実装する方法が解説されています。個人的な経験として、ライブラリベースで実装をすると、日本語のテキスト分割が微妙だったり、LLMの回答が英語になってしまったりと、余計に事態が複雑化して、なんだかなぁ〜という結果になりがちです。

この記事では、主に以下のドキュメントを参考にして、ベクトルデータベースにデータを保存するなど変更を加えています。間違いや、もっとこうした方がいいよ、などコメントありましたら、ぜひお願い致します。

作ってみるもの

Wikipediaのスティービー・ワンダーのページに記載されている情報を利用して、以下のような対話によるQ&Aを行います。

ユーザー：スティービーの武道館公演の回数を教えてください。
AI： スティービー・ワンダーの武道館公演の回数は、以下の通りです。
1975年：1月29日、30日
1981年：3月31日、4月1日
1982年：4日、5日
1995年：2月21日、22日
1996年：18日、19日、20日
合計で、スティービー・ワンダーの武道館公演は7回です。

手順

さて、スティービーに関する質問に答えてもらうために、いくつかの手順を踏んで実装してきます。

データを準備する
Wikipediaからスティービー・ワンダーの記事を取得
Embeddingを作成する
OpenAIのAPIを使ってEmbeddingを作成
ベクターデータベースに保存する
Q＆Aを行う
ユーザーの問い合わせを受けてベクターデーベースを検索
OpenAIのAPIに投げるメッセージを作成して、問い合わせを行う

ユーザーが質問を入力してから、回答が得られるまでに以下の経路をたどります。

ユーザーが質問を送信する ->
質問がベクトルデータに変換される ->
ベクターデータベースから類似度の高い文書が検索される ->
文書と質問をセットにしてAPIに問い合わせを行う ->
APIから回答が返却される

データを準備する

それでは、始めましょう。まずは、Wikipeidaからデータを取得するためのライブラリをインストールします。tiktokenはトークン数の計測のために使用します。

!pip install mwclient
!pip install mwparserfromhell
!pip install tiktoken

Wikipediaのページを取得し、Pandasのデータフレームに変換します。

import mwclient
import mwparserfromhell
import pandas as pd

def fetch_wikipedia_sections(title: str) -> pd.DataFrame:
    site = mwclient.Site("ja.wikipedia.org")
    page = site.pages[title]
    wikitext = page.text()
    parsed_wikitext = mwparserfromhell.parse(wikitext)

    section_data = []
    for section in parsed_wikitext.get_sections():
        headings = section.filter_headings()
        if not headings:
            continue
        heading_text = headings[0].title.strip()
        section_text = section.strip_code().strip()
        section_data.append({"heading": heading_text, "content": section_text})

    return pd.DataFrame(section_data)

title = "スティーヴィー・ワンダー"
df = fetch_wikipedia_sections(title)
df = df[~df["heading"].isin(["脚注", "注釈", "出典", "参考文献", "関連項目", "外部リンク"])]

display(df)

以下が、Wikipediaから取得してきたサンプルデータです。外部リンクや、関連項目などは、スティービー自身と関連が少ない項目は除外しています。

Embeddingを作成する前にトークン数を測ってみます。

import tiktoken

GPT_MODEL = "gpt-3.5-turbo"

def num_tokens(text: str, model: str = GPT_MODEL) -> int:
    encoding = tiktoken.encoding_for_model(model)
    return len(encoding.encode(text))

df['num_tokens'] = df['content'].apply(num_tokens)
display(df)

ここではこのまま進めますが、GPT3.5の最大トークン数が4097であることを考えると、「経歴」のセクションはひとつの塊（チャンク）としては大きすぎるかもしれません。また複数の文脈が混在しているかもしれません。Embeddigという手法でGPTへの問い合わせに自前のデータを持ち込む場合、テキストをどのような塊に分割するかということが、最終的な回答の精度に大きく影響します。以下は、cookbookより一説を翻訳して引用します。

テキストをセクションに分割するための完璧なレシピはありません。
いくつかのトレードオフがあります：

長いセクションは、多くの文脈を必要とする質問に適している場合があります。

長いセクションは、より多くのトピックが混在している可能性があるため、検索に不利になる場合があります。

短いセクションは、コスト削減に有効です。（トークンの数に比例する）

短いセクションは、より多くのセクションを検索することができ、適切な回答の作成に役立つ可能性があります。

オーバーラッピング（セクションの一部を重複させる）することで、セクションの境界で回答がカットされるのを防ぐことができます。

引用：Question answering using embeddings-based search

Embeddings

それでは、OpenAIのAPIを使用して、Embeddingsを作成します。

!pip install openai
!pip install chromadb

import os
import openai

os.environ["OPENAI_API_KEY"] = "[YOUR_API_KEY_HERE]"
openai.api_key = os.getenv("OPENAI_API_KEY")

EMBEDDING_MODEL = "text-embedding-ada-002"  # OpenAI's best embeddings as of Apr 2023
BATCH_SIZE = 1000  # you can submit up to 2048 embedding inputs per request

def create_embeddings(items):
    embeddings = []
    for batch_start in range(0, len(items), BATCH_SIZE):
        batch_end = batch_start + BATCH_SIZE
        batch = items[batch_start:batch_end]
        print(f"Batch {batch_start} to {batch_end-1}")
        response = openai.Embedding.create(model=EMBEDDING_MODEL, input=batch)
        for i, be in enumerate(response["data"]):
            assert i == be["index"]  # double check embeddings are in same order as input
        batch_embeddings = [e["embedding"] for e in response["data"]]
        embeddings.extend(batch_embeddings)

    df = pd.DataFrame({"text": items, "embedding": embeddings})
    return df

items = df["content"].to_list()
df_embedding = create_embeddings(items)

display(df_embedding)

無事にベクトルが作成できたことが確認できました。

次に、これらのデータを保存先を作成する必要があります。ここでは、オープンソースのEmbeddingデータベースであるChromaに保存し、Chromaに問い合わせることで類似した文書の検索を行います。

import chromadb
from chromadb.utils.embedding_functions import OpenAIEmbeddingFunction
from chromadb.config import Settings

def create_chroma_client():
  persist_directory = 'chroma_persistence'
  chroma_client = chromadb.Client(
      Settings(
          persist_directory=persist_directory,
          chroma_db_impl="duckdb+parquet",
      )
  )
  return chroma_client

def create_chroma_collection(chroma_client):
  embedding_function = OpenAIEmbeddingFunction(api_key=os.environ.get('OPENAI_API_KEY'), model_name=EMBEDDING_MODEL)
  collection = chroma_client.create_collection(name='stevie_collection', embedding_function=embedding_function)
  return collection

chroma_client = create_chroma_client()
stevie_collection = create_chroma_collection(chroma_client)
stevie_collection.add(
     ids = df_embedding.index.astype(str).tolist(),
     documents = df_embedding['text'].tolist(),
     embeddings = df_embedding['embedding'].tolist(),
)
chroma_client.persist()

Chromaに対して問い合わせを行ってみましょう。「スティービーは日本武道館で何回公演している？」という質問に対して、ベクトル間の距離が近い（意味が近いと仮定される）文書がデータベースから返却されます。

def query_collection(
    query: str,
    collection: chromadb.api.models.Collection.Collection, 
    max_results: int = 100)-> tuple[list[str], list[float]]:
    results = collection.query(query_texts=query, n_results=max_results, include=['documents', 'distances'])
    strings = results['documents'][0]
    relatednesses = [1 - x for x in results['distances'][0]]
    return strings, relatednesses

strings, relatednesses = query_collection(
    collection=stevie_collection,
    query="スティービーは日本武道館で何回公演している？",
    max_results=3,
)

for string, relatedness in zip(strings, relatednesses):
    print(f"{relatedness=:.3f}")
    display(string)

結果は以下の通り。日本公演のセクションがrelatedness=0.733と質問との関連が最も高く、次に経歴のセクションがrelatedness=0.679となりました。

Q&Aに答えてもらう

それでは、ここまで見てきた仕組みを利用して、GPTに送信するメッセージ(プロンプト)を作成します。ユーザーの質問から類似する文書を特定して、文書と質問のセットを作成し、OpenAIのAPIに問い合わせを行います。
今回の例では、ユーザーの質問文「スティービーの武道館公演の回数を教えて」と、関連度が最も高いwikipediaの「日本公演」をセットにしたメッセージが作成されます。

def query_message(
    query: str,
    collection: chromadb.api.models.Collection.Collection,
    model: str,
    token_budget: int
) -> str:
    strings, relatednesses = query_collection(query, collection, max_results=3)
    introduction = '以下の記事を使って質問に答えてください。もし答えが見つからない場合、「データベースには答えがありませんでした。」 と返答してください。\n\n# 記事'
    question = f"\n\n# 質問\n {query}"
    message = introduction
    for string in strings:
        next_article = f'\n{string}\n"""'
        if (
            num_tokens(message + next_article + question, model=model)
            > token_budget
        ):
            break
        else:
            message += next_article
    return message + question

def ask(
    query: str,
    collection = stevie_collection,
    model: str = GPT_MODEL,
    token_budget: int = 4096 - 500,
    print_message: bool = False,
) -> str:
    """Answers a query using GPT and a dataframe of relevant texts and embeddings."""
    message = query_message(query, collection, model=model, token_budget=token_budget)
    if print_message:
        print(message)
    messages = [
        {"role": "system", "content": "スティービー・ワンダーに関する質問に答えます。"},
        {"role": "user", "content": message},
    ]
    response = openai.ChatCompletion.create(
        model=model,
        messages=messages,
        temperature=0
    )
    response_message = response["choices"][0]["message"]["content"]
    return response_message

それでは、質問してみましょう。

ask("スティービーの武道館公演の回数を教えてください。")

スティービー・ワンダーの武道館公演の回数は、以下の通りです。\n\n- 1975年：1月29日、30日\n- 1981年：3月31日、4月1日\n- 1982年：4日、5日\n- 1995年：2月21日、22日\n- 1996年：18日、19日、20日\n\n合計で、スティービー・ワンダーの武道館公演は7回です。

Wikipediaの情報を参考して、答えを返してくれました。うまく動いていますね。

print_message=Trueとすると、APIに送信されたメッセージを確認することができます。

ask("スティービーの武道館公演の回数を教えてください。", print_message=True)

以下の記事を使って質問に答えてください。もし答えが見つからない場合、「データベースには答えがありませんでした。」 と返答してください。

# 記事
日本公演 
 1968年
 タムラ・モータウン・フェスティバル・イン・東京 2月13日 渋谷公会堂
 1975年
 1月29日、30日 日本武道館、31日、2月3日 大阪厚生年金会館、2月1日 静岡駿府会館
 1981年
 3月31日,4月1日 日本武道館
 1982年
 10月28日 福岡国際センター、29日 愛知県体育館、31日、11月1日、2日 フェスティバルホール、4日、5日 日本武道館、6日 横浜文化体育館、8日 宮城県スポーツセンター、9日 郡山市総合体育館
 1985年
 10月23日、24日、25日 大阪城ホール、27日 福岡国際センター、29日、30日、31日 国立代々木競技場第一体育館、11月2日、3日 後楽園球場、5日 仙台市体育館、7日、8日 道立産業共進会場この折り、札幌護国神社で宮司と記念撮影したものが、札幌市手稲のぎんれい写真館と札幌護国神社に残っている。
 1988年
 4月12日 福岡国際センター、13日 広島サンプラザ、15日、16日、17日 大阪城ホール、19日、20日 名古屋レインボーホール、21日 静岡草薙体育館、23日、24日 横浜スタジアム、25日、26日、27日 日本武道館、29日 仙台市体育館
 1990年
 12月13日、15日、16日 大阪城ホール、19日 名古屋レインボーホール、23日、24日 東京ドーム
 1995年
 2月21日、22日 日本武道館、24日、25日、26日 横浜アリーナ、3月1日、2日 大阪城ホール、9月4日、5日 マリンメッセ福岡
 1996年
 9月15日 横浜アリーナ、18日、19日、20日 日本武道館、21日 横田基地、23日 マリンメッセ福岡、24日 大阪城ホール、25日 名古屋レインボーホール、27日 石川産業展示館、29日 岩手産業文化センター
 1999年
 8月27日、28日 東京国際フォーラムホールA
 2003年〜2004年
 12月27日、28日 さいたまスーパーアリーナ、30日 マリンメッセ福岡
 1月4日 名古屋レインボーホール、6日、7日 大阪城ホール
 2007年
 2月17日、18日 さいたまスーパーアリーナ、20日 名古屋レインボーホール、24日 宮城県総合運動公園総合体育館、27日、28日 大阪市中央体育館
 2010年 サマーソニック2010
 8月7日 大阪・舞洲アリーナ、8月8日 千葉マリンスタジアム
"""

# 質問
 スティービーの武道館公演の回数を教えてください。

追記

続編として、Function Callingから今回作成したEmbeddingsのデータベースに問い合わせを行う方法を書いています。

参考

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up