LangChainを用いて大量ファイルをロードするVectorDBを作ってみた(3)

Last updated at 2024-08-07Posted at 2024-05-06

はじめに

前回作成した「大量ファイルをロードするVectorDB」を基に、今回は『LangChat完全入門』（田村悠著）のプログラムを参考にして、生成AI（OpenAI）から回答をもらう仕組みを作ってみました。その実際の流れを文章にしてみました。
Webブラウザ表示については、「chainlit」という直感的にコーディングできるライブラリを用いてみることにしました。

ソースコードの利用

『LangChat完全入門』（田村悠著）の「03_retrieval」の「chat_2.py」を修正して、Webブラウザ上で生成AIに質問ができるようにしてみました。以下は、元々の「chat_2.py」です。

chat_2.py

import chainlit as cl
from langchain.chat_models import ChatOpenAI
from langchain.embeddings import OpenAIEmbeddings
from langchain.prompts import PromptTemplate
from langchain.schema import HumanMessage
from langchain.vectorstores import Chroma

embeddings = OpenAIEmbeddings(
    model="text-embedding-ada-002"
)

chat = ChatOpenAI(model="gpt-3.5-turbo")

prompt = PromptTemplate(template="""文章を元に質問に答えてください。 

文章: 
{document}

質問: {query}
""", input_variables=["document", "query"])

database = Chroma(
    persist_directory="./.data", 
    embedding_function=embeddings
)

@cl.on_chat_start
async def on_chat_start():
    await cl.Message(content="準備ができました！メッセージを入力してください！").send()

@cl.on_message
async def on_message(input_message):
    print("入力されたメッセージ: " + input_message)
    documents = database.similarity_search(input_message)

    documents_string = ""

    for document in documents:
        documents_string += f"""
    ---------------------------
    {document.page_content}
    """

    result = chat([
        HumanMessage(content=prompt.format(document=documents_string,
                                           query=input_message))
    ])
    await cl.Message(content=result.content).send()

このプログラムが利用でいると思ったのは、

    documents = database.similarity_search(input_message)

    documents_string = ""

    for document in documents:
        documents_string += f"""
    ---------------------------
    {document.page_content}
    """

↑この部分に注目しました。
恐らく「similarity_search」は、データベース（SQLite）の中のテーブルを検索した結果を取得して、「documents」にリストとして格納するのでしょう。
それから、forループでリスト内のインスタンスを「document」として１つずつ取り出し、「documents_string」に文字列として加えていく、と読み取れました。これは使える！と思いました。
早速実行しました。