More than 1 year has passed since last update.

自前のチャットボットを「LlamaIndex+GPT4+gradio」で爆速構築してみよう!

Last updated at 2024-01-20Posted at 2023-10-18

0.　はじめに

本稿は、LLMを使ったチャットボットを作ってみたいけど、、、、どう作ったらいいの？という人向けに、GPT4とGoogle Colabを使って簡単に自前のチャットボットを構築する手順を整理したものです（本格導入に向けたものではありません）。簡単に作れるので是非一度試してみてください。また、筆者が構築するにあたって苦労したこともヒントとして記載していますので参考にして頂けたらと思います。
また、記載に誤り等があればご指摘をお願いします。随時アップデートします。

©︎2023 NPO法人AI開発推進協会

1.　仕組みの説明

コードに入る前に簡単に仕組みの説明をします。

今回作成するチャットボットは、過去の問い合わせと回答のデータを使ったQ＆Aシステムを作る前提で話を進めます。この場合、いきなりGPT４に過去の問い合わせを行っても、GPT４ではローカルサービスのQ&Aのようなファクトデータでの学習は行っていないため、（おそらく）答えることができないか、間違えた答え（Hallucination）を返してしまうと思います。

では、どうように対応するのでしょうか？　1つは目はLLMをファインチューニングする、２つ目はプロンプトエンジニアリングでプロンプトを工夫する、そしてもう一つは「質問」に応じて外部の情報から「事実」を検索して、プロンプトに追記してLLMに問い合わせを行うRAG（Retrieval-Augmented Generation）/In-Context Learningを用いるパターン等があります。ファインチューニングはハードルが高く効果も不明なため（※１）、今回はRAGを用いいる実装を説明します。。
※1:Fine tuning is for form, not factsでは、ファインチューニングは「事実」を学習するタスクはLLMは不得意と説明されています

RAGを実現するOSSライブラリィとしてLlamaIndexがあります（他にもLangChain等があります）。詳細は様々な記事があると思いますのでそちらにお任せしますが、おおまかな流れは以下のようになります。LlamaIndexの公式ドキュメントを抜粋し説明します。

【全体構成】

1. LlamaIndexで検索する元データ(Data Source)を用意する（ex. Q＆Aの一覧や関連ドキュメント等）
2. Data SourceをLlamaIndexのDocumentsとして保存する
Documentsは、PDF、API 出力、データベースなど、あらゆる「データソース」の汎用コンテナです。LlamaIndex内のデータの単位はNode/チャンクと呼ばれます。これはテキスト、画像、または他のデータの小さなセグメントです
3. Documentsをindexing化(ベクトル化)しKowledge Baseとして保存する

【Knowledge Base(indexファイル）生成の流れ】

これで準備はおしまいです。実際の運用で質問して回答を得る流れは以下になります。

4. ユーザが質問を入力、この時の質問文と各Knowledge Base上の文章（ノード/チャンク）との相関を取り、近い文章を取得します（Retriever）。
5. LLMにリクエスト際に上記をコンテキストとして質問文と一緒に埋め込ます(Node PostProcessor）。
6. LLMの応答を受け取り最終的な質問に対する回答を生成します。このときコンテキストの情報も使って出力文を生成することでLLMが知らなかった情報を使って回答を生成することができるようになります(Response Synthesizer)。

【検索時の流れ】

また、これだけではバッチ的なシステムになってしまうのでチャット用のWeb画面も必要になります。このWeb画面を簡単に生成することができるライブラリィが gradio になります。gradioではチャットボットをほぼノンコードで作れるハイレベルなインタフェースも持っています。下記の流れでチャットボットが出来上がります（セッションの保持等は除く）。

ユーザがgradioで作ったチャットボット画面に質問を入力する
その入力を先ほど作成したLlamaIndexのコードに渡して、LLMから回答を取得する
LLMからの回答を質問の回答として画面に表示する

２.　実装コード

ここからはGoogleコラボ(Proで検証しました)上でチャットボットアプリのコードを実装していきます。リソースとしてA100が望ましいと思いますが、V100 でも動きました。

Googleコラボ
Googleコラボの使い方、ファイルアップロードの仕方がわからない場合はこちらの記事を参考にしてください
これから始める人向け Google Colaboratoryの操作方法

Llamaindexのインストール

# LlmaIndexパッケージのインストール (今回は0.8.0で検証) 
!pip install llama-index==0.8.0

ログの設定

# ログレベルの設定
import logging
import sys
logging.basicConfig(stream=sys.stdout, level=logging.DEBUG, force=True)

ヒント
level=logging.DEBUGとすることで、

API の実行回数
API の処理時間
API に送った Token 数
検索時のクエリーとindexドキュメントのコサイン類似度
等が取得できます。
なお、ログをファイルに出力したい場合は、stream=sys.stdoutをfilename='ファイル名'に置き換えてください。
上記が不要な場合は、level=logging.INFOとしてください。

OpenAIのAPIキーを設定
OpenAIのAPIキーを設定します（まだ未取得の方は取得してください）。

%env OPENAI_API_KEY=xxxxxxxxxxxxxxxxxxx

LLMの設定
必要に応じてデバックトレースを設定します。

from llama_index import GPTVectorStoreIndex, ServiceContext
from llama_index.llms import OpenAI
from llama_index.callbacks import CallbackManager, LlamaDebugHandler

# Open AIのGPT4をLLMとして指定しServiceContextに設定する
llm = OpenAI(model='gpt-4-0314', temperature=0.5, max_tokens=1024)

# デバックトレース 不要な場合は削除
llama_debug_handler = LlamaDebugHandler()
callback_manager = CallbackManager([llama_debug_handler])

# サービスコンテキストの設定
service_context = ServiceContext.from_defaults(llm=llm, callback_manager=callback_manager)

ヒント
デバックトレースを指定することで、LlamaIndexの各イベント情報を見ることができます。詳細は公式ドキュメントを参照してください。

CHUNKING : テキストの分割前と分割後のログ
NODE_PARSING : ドキュメントとそれらが解析されたノード
EMBEDDING : 埋め込まれたテキストの数
LLM : LLM呼び出しのテンプレートと応答
QUERY : 各クエリの開始と終了
RETRIEVE : クエリのために取得されたノード
SYNTHESIZE : 合成呼び出しの結果
TREE : 生成された要約と要約のレベル
SUB_QUESTION :生成されたサブクエスチョンとその回答

LlamaIndexに読ませるデータをGoogle Colabでアップロードする
pdfやexcel、wordでも読めますが、評価用にはテキストファイルに落としてから読ませるのが良いかと思います。
※適当なサンプルが手元にない場合、普段使っているWebサービスのQAを検証用に使うこともありかと思います

また、あとでチャットボットで使うアイコンの画像も適当な場所にアップロードしておきます

# 場所は任意ですが、今回は `sample_data` の下に、 `data`ディレクトを作成しその下にドキュメントをアップロード
%cd sample_data
%mkdir data

アップロードしたドキュメントを読み込みます

# ドキュメントの読み込み
from llama_index import SimpleDirectoryReader

# Data Source -> Documents化を行うStep
documents = SimpleDirectoryReader(
    input_dir="/content/sample_data/data"
).load_data()

QAテンプレートの準備
QAのテンプレートを準備します。以下に簡単なサンプル例を記載します（個々のユースケースにおいて生成の精度を上げるためには別途チューニングが必要と思われます）。

from llama_index.prompts.prompts import QuestionAnswerPrompt

# QAテンプレートの準備
qa_template = QuestionAnswerPrompt("""<s>[INST] <<SYS>>
あなたはヘルプセンターのオペレターです。質問に対して親切に答えください。
<</SYS>>
== 以下にコンテキスト情報を提供します。
{context_str}
== 質問
{query_str}

 [/INST]
""")

Knowledge Base(index)の作成

# Document -> Knowledge Base生成を行うステップ
index = GPTVectorStoreIndex.from_documents(documents, service_context=service_context)

これで準備完了です。　
チャットボットを生成する前に動作確認をしてみてください。下記のQueryに適当な質問文を埋め込んで実行しみましょう。

# LLMへの問い合わせ
# この時indexを参照し、問い合わせに近い情報（チャンク）を取得し、それをプロンプトに組み込む
# 幾つのチャンクを組み込むのかを `similarity_top_k` で指定する
query_engine = index.as_query_engine(
    similarity_top_k=3,
    text_qa_template=qa_template,
)

query = "質問文？"

response = query_engine.query(query)
print(response)

３.　チャットボットの作成

チャットボットの画面を生成します。　今回は gradio を使用します。

gradioのインストール

!pip install gradio

最新のGoogleコラボでgradioのインポートでエラーになる事象が発生しました。この場合、fastapiのバージョンを下げてください。
!pip install fastapi==0.100.0

gradioのサンプルをベースにチャットボットを作成
今回はBlocksを使用しています。 avatar_imagesには先ほどアップロードした画像を指定します。

import gradio as gr
import os

def add_text(history, text):
    history = history + [(text, None)]
    return history, gr.Textbox(value="", interactive=False)

def bot(history):
    /* クエリに前回のデータを引き継ぐ場合は個別に編集が必要です */
    query = history[-1][0]
    #response = query_engine.query(query).response
    response = str(query_engine.query(query))
    history[-1][1] = ""
    for character in response:
        history[-1][1] += character
        yield history

with gr.Blocks(show_error=True) as demo:
    chatbot = gr.Chatbot([],
                         element_id="chatbot",
                         bubble_full_width=False,
                         avatar_images=(None, "XXXXX.png"),
                         )
    with gr.Row():
        txt = gr.Textbox(
            scale=4,
            show_label = False,
            container = False
        )
    clear = gr.Button("Clear") 

    txt_msg = txt.submit(add_text, [chatbot, txt], [chatbot, txt], queue = False).then(bot, chatbot, chatbot)
    txt_msg.then(lambda: gr.Textbox(interactive = True), None, [txt], queue = False)
    clear.click(lambda: None, None, chatbot, queue=False)

demo.queue()    
demo.launch()

下記のようなチャットボットの画面が生成されます。

ヒント

response = query_engine.query(query) が質問文をRAGを通してLLMに問い合わせる箇所になります。結果取得後 gradio で結果を表示するには文字列である必要があるため .responseで文字列を取り出しています。
Google Colaba以外（別のPCやスマホを含む）からチャットボットへは、Running on public URL: https://xxxxxxxxxxxxxに表示されたURLからアクセスすることができます
gradioの詳細については、公式ドキュメントを参照してください

また、gradio ではより簡単にチャットボットのアプリが作れるインタフェース（ChatInterface）を提供しています。コードを参考に記載します（当たり前ですが自由にできる反面、カスタマイズできる範囲も狭くなります）。

sample

import gradio as gr

def echo(message, history):
    message = query_engine.query(message).response
    return message

demo = gr.ChatInterface(fn=echo, examples=["hello", "hola", "merhaba"], title="Echo Bot")
demo.launch()

４.　おわりに

上記のように簡単にGPT4(LLM)を使ったチャットボットの作成ができます。
なお、上手に回答が生成されるようにするためにはプロンプトテンプレートや準備するドキュメントの分割や記載にもコツが必要と思われます。この辺りはデバックトレースを入れながらチューニングしていくことになると思います。可能であれば実績を積んで今後記事にして行けたらと思います。

チャットボットだけでなく、GPTの中身ってどうなっているのかより興味を持たれた方は、以下の記事も参考にしてください。（GPT3をベースに記載しています）

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

自前のチャットボットを「LlamaIndex+GPT4+gradio」で爆速構築してみよう!

0. はじめに

1. 仕組みの説明

２. 実装コード

３. チャットボットの作成

４. おわりに

0.　はじめに

1.　仕組みの説明

２.　実装コード

３.　チャットボットの作成

４.　おわりに