はじめに
今回はSelf-Routeの技術を使用した数学の回答解説生成のアプリケーションを、Difyで実装してみました。
●Self-Routeについて
・Self-Routeとは
ユーザーの質問に対し、RAGを行うべきか、長文コンテクスト(Long-Context)対応LLM、(以後、LC対応LLM)のプロンプトに情報を全て与えて処理を行うべきかを、AIが判定し最適な方を選んで処理してくれる手法で、2024年の7月下旬に発表されました。
Self-Routeを使用することで、計算コストを減らしたうえで、LC対応LLMと同じくらいの質で処理を行うことができます。
詳しくは以下の論文をご参照ください。
●Difyについて
Difyは独自のアプリケーションを作成できる、生成型AIツールの開発プラットフォームです。
また、今回の実装にあたって、以下の動画を参考にしました。
導入
アプリケーションの全体像は以下のようになっています。
今回は、「チャットボット」のChatflow機能で作成しています。
①質問の入力
②ナレッジの取得
③LLMでユーザーからの質問に回答できるかどうかを判断
④条件分岐(A~Cの3つ)
A.参照されたナレッジとは関係ない質問が来た場合
A-1:LLMでの回答
A-2:回答の出力
B.参照されたナレッジだけでは回答できないと判断した場合
B-1ナレッジに登録された文書の読み込み
B-2:LLMでの回答
B-3:回答の出力
C.参照されたナレッジだけで回答できると判断した場合
C-1:LLMを使って数式を見やすく変換
C-2:RAGを使った回答の出力
という流れになっています。
また、今回アプリケーションの作成にあたって、ナレッジの作成が必要だったので、作成方法について共有します。
今回ナレッジには、以下の数学の問題集を使用しています。
ナレッジを作成
↓
ファイルのアップロード
↓
保存して処理
↓
ドキュメントに移動
アプリケーションの詳細について説明します。
①質問の入力
「開始」ノードでは、ユーザからの質問を入力します。
②ナレッジの取得
「知識取得」ノードでは、ナレッジから情報を取得し、参照します。
③LLMでユーザーからの質問に回答できるかどうかを判断
「LLM(Self-Route)」ノードでは、ユーザーの質問に対し、RAGを行うべきか、LC対応LLMのプロンプトに情報を全て与えて処理を行うべきかの判断をしてもらいます。
プロンプト内にある、「出力ルール」について説明します。
・質問が文脈から答える必要がない場合: no need
これは、「知識取得」ノードで得た情報(今回は数学の問題集)に関係ない質問がきた場合を指します。
この場合、LLMは no need という文字列のみを出力します。
・文脈から正しい回答を出力できない場合: unanswerable
LLMがナレッジ(抽出された情報)を基に、ユーザーの質問に対して正確に回答できないと判断した場合を指します。
この場合、LLMは unanswerable という文字列のみを出力します。
・文脈から正しい回答を出力できる場合: 正しい答えを丁寧に回答する
ナレッジを基に、ユーザーの質問に対して正確に回答できると判断した場合を指します。
この場合、LLMは 正しい答えを丁寧に回答します。つまりRAGをおこないます。
プロンプトの入力例です。
あなたには、下記のような文脈情報が与えられています。
あなたのタスクは、下記の文脈からユーザーの質問に回答できるかを判定して、
回答できる場合は、回答を行い、回答できない場合は回答できない旨を出力することです。
下記のルールに従ってください。
### 文脈
コンテキスト
### 出力ルール
下記の場合に応じてコロン以降の回答を出力してください
- 質問が文脈から答える必要がない場合: no need
- 文脈から正しい回答を出力できない場合: unanswerable
- 文脈から正しい回答を出力できる場合: 正しい答えを丁寧に回答する
上記の出力以外の説明などは不要です。
④条件分岐
③LLMでユーザーからの質問に回答できるかどうかを判断で判断された結果に基づいて、3つのうち1つの処理をおこないます。
それぞれの処理について説明します。
A.参照されたナレッジとは関係ない質問が来た場合
A-1:LLMでの回答
「LLM2」ノードでは、「知識取得」ノードで得た情報に関係ない質問に対して、回答します。
A-2:回答の出力
「回答(LLM2使用)」ノードでは、回答を出力します。
B.参照されたナレッジだけでは回答できないと判断した場合
B-1ナレッジに登録された文書の読み込み
「原文」ノードでは、数学の問題集のテキストを全て貼り付けています。
B-2:LLMでの回答
「LLM3」ノードでは、「原文」ノードで得たテキストを基に、質問に回答してもらいます。
今回は数学の問題集を取り扱っていることもあり、数式の表記について苦戦しました。
具体的には、例えばxの3乗について、x³と出力したいのを、x^3と出力してしまう点です。
ユーザーにとって見やすいと感じてもらえるように、数式の表記に注意してプロンプトを作成しています。
以下はプロンプトの内容です。
下記の文脈が与えられています。
あなたのタスクは、下記の文脈に関する、ユーザーの質問に回答することです。
下記のルールに従ってください。
### 文脈情報
コンテキスト
### 出力ルール
数式に関して、特に乗数の表記方法については、ユニコードの上付き文字を使用した方法を使用してください。
また、$$で囲う、LaTeX形式は使わないでください。
B-3:回答の出力
「回答(LC使用)」ノードでは、回答を出力します。
C.参照されたナレッジだけで回答できると判断した場合
C-1:LLMを使って数式を見やすく変換
「LLM4」ノードでは、「LLM3」ノード同様、数式の表記を見やすくするための処理をおこないます。
しかし、既に「LLM(Self-Route)」ノードで回答を得ているため、回答の数式の表記を見やすくするための処理だけをするようなプロンプトにしています。
LLM(Self...{x}textの内容を何も変更を加えずに出力してください。
ただし、数式がある際は、特に乗数の表記方法については、ユニコードの上付き文字を使用した方法を使用してください。
また、$$で囲う、LaTeX形式は使わないでください。
C-2:RAGを使った回答の出力
「回答(RAG使用)」ノードでは、回答を出力します。
実行結果
A.参照されたナレッジとは関係ない質問が来た場合
この場合は、質問に対応した回答を出力します。
B.参照されたナレッジだけでは回答できないと判断した場合
質問例:ナレッジに登録した問題集の問題のうち、大問1について解説して
大問1の問題について回答を生成してくれているうえ、数式の表記も見やすく表記できています。
また、処理に掛かった時間と、トークンについては以下のようになっています。
処理に掛かった時間(s) | トークン(Tokens) |
---|---|
10.436 | 3170 |
情報を全て与えて処理をしている分、時間が掛かっています。
C.参照されたナレッジだけで回答できると判断した場合
質問例:3 次の式を展開せよ。(1) (a-2b)2 (2) (3+2x)(3-2x)(3) (a-5)(a+7) (4) (5x-4y)(3x+2y)これらのナレッジに登録された問題について、解説お願いします。
これらの問題について解説してくれているうえ、数式の表記もバッチリです。
また、処理に掛かった時間と、トークンについては以下のようになっています。
処理に掛かった時間(s) | トークン(Tokens) |
---|---|
5.708 | 1440 |
処理に掛かった時間、トークンともに情報を全て与えて処理をした例よりも少なくなっています。
まとめ
今回は、DifyでSelf-Routeの技術を使用した、数学の回答解説生成のアプリケーションを作成してみました。
出力にかかる時間に関しては、プロンプトの調整次第で、もっと早くなる可能性があると感じました。
今回の例では、RAGをおこなった場合、LC対応LLMを行った場合の性能面の差はあまり感じられませんでした。
数学の回答・解説生成とは違った例を考えて、実装することも考えています。
また、今回の作成にあたり、数式の表記に関する出力ルールを考えるのにとても苦戦しましたが、良い経験になりました。
今後もDifyの新機能の検証など、様々なことに取り組んでいけたらなと考えています。