ナレッジベースの構築（前編）

Posted at 2025-05-14

Dify を使えば高性能 AIモデルのチャットボットを簡単に作成できます。
ただ、AI モデルの学習は「公開された情報」を元にしており、いわゆる「非公開の情報」を回答することは不可能です。
それどころか、誤った情報をもっともらしく提示してくる恐れもあります。

これを解決するのが「RAG（Retrieval-Augmented Generation）」と呼ばれる技術です。

RAG（Retrieval-Augmented Generation）

質問に関連する情報を「知識ベース（外部のデータベースなど）」から検索して回答文を作成する技術のことを「RAG（Retrieval-Augmented Generation）」と呼びます。

この「検索」は単なるキーワード検索ではありません。
情報は「ベクトルデータ（文章の意味や特徴を数値化した値）」形式で保存されており、質問との「類似度」が高いものを取り出して使用します。

情報のベクトル化

情報を検索しやすい形に「数値化」することを「ベクトル化」と言います。
ベクトル化により、質問との類似度が高い情報を迅速に見つけることが可能となります。

Dify でベクトル化できる情報は次のとおりです。

テキストファイル: .txt
Markdownファイル: .md
PDFファイル: .pdf
HTMLファイル: .html
Excelファイル: .xlsx, .xls
Wordファイル: .docx
CSVファイル: .csv
など

埋め込みモデル

文章や単語の意味を数値ベクトルとして表現する AIモデルのことを「埋め込みモデル」と言います。
通常、高性能モデルの方がより正確なベクトル化が可能です。

モデル名	料金 (1000トークンあたり)	性能 (平均スコア)
text-embedding-3-large	$0.00013	54.9%
text-embedding-3-small	$0.00002	44.0%
text-embedding-ada-002	$0.00010	31.4%

上表は、OpenAI が提供する「埋め込みモデル」の料金と多言語検索ベンチマーク（MIRACL）の平均スコアを示したものです。

small は前世代の ada から 12.6% ほど性能が向上したにも関わらず、料金は ada の $\frac{1}{5}$ にまで抑えられています。
一方、large の性能は 54.9% まで向上していますが、その分料金も small の約７倍にまで跳ね上がっています。

そこそこの性能で良ければ、コストパフォーマンスの良い text-embedding-3-small を選択すれば良いと思います。

埋め込みモデルは「ナレッジベースへの問い合わせ」の度に呼び出されます。
問い合わせ回数あるいは問い合わせ時のトークン数が少なければ、large を選択しても良いと思います。

チャンク

ナレッジへ登録する情報は「意味のある小さな塊（チャンク）」に分割されます。
全文検索する場合に比べて「必要な情報だけを効率的に検索」できるため、余計な情報を含まない正確な回答を作成することが可能となります。

ナレッジへ情報ファイルを登録する際、Dify は情報ファイルの内容を自動的にチャンクへ分割します。

分割するサイズを変更することもできますが、不用意に変更すると回答精度の低下を招きます。

分割するサイズが小さすぎるとき
　文脈を理解できず、情報をうまく活用できないことがあります。

分割するサイズが大きすぎるとき
　余計な情報が含まれることになり、検索効率が低下します。

「空のナレッジベース」の作成

ここからは実際にナレッジベースを構築していきます。
Dify では複数のナレッジベースを作成可能で、各ナレッジベースには複数のドキュメントを登録することができます。

本記事では二種類のナレッジベースを作成していきます。

経済的ナレッジベース
埋め込みモデルを使用せず、キーワードで関連情報を検索する。
外部のAPIを呼び出さないので費用を抑えられる反面、情報の検索精度は低い。
　
高品質ナレッジベース（Dify の推奨方式）
埋め込みモデルが変換したベクトルデータを用いて、関連する情報を検索する。

多少費用は生じるものの、特別な理由が無い限り「高品質ナレッジベース」を利用すべきでしょう。

① 空のナレッジベースを作成

ナレッジベースの作成画面の下に、小さく「空のナレッジベースを作成します」と表示されています。
これをクリックして「空のナレッジベース」を二つ作成してください。

② ナレッジへアクセスする権限を設定

それぞれのナレッジ画面から「設定」画面を開き、「ナレッジへアクセス可能なユーザー」を設定します。

左側メニューの「設定」をクリックしてください。

設定する内容は下表のとおりです。

項目	設定内容
ナレッジベース名	経済的（株式会社モーモーソリューション）
ナレッジベースの説明	株式会社モーモーソリューションの社内文書。・就業規則
権限	すべてのチームメンバー

項目	設定内容
ナレッジベース名	高品質（株式会社モーモーソリューション）
ナレッジベースの説明	株式会社モーモーソリューションの社内文書。・就業規則
権限	すべてのチームメンバー

ドキュメントの追加（経済的ナレッジベース）

別途用意していた Word文書ファイルを情報ファイルとして登録します。
　ファイル名：　株式会社モーモーソリューション就業規則.docx
　　　　　　　　（A4 で 20 ページの文書ファイル）

これは事前に Gemini 2.0 Flash で作成した、ダミーの就業規則です。
厚生労働省が配布している「モデル就業規則」から架空の内容でマークダウン形式データを作成した後、手作業で Word 文書に変換しました。

情報ファイルの登録

それぞれのナレッジ画面を開き、「登録する情報ファイル」を追加します。
左側メニューの「ドキュメント」をクリックしてください。

「テキストファイルをアップロード」枠にファイルをドラッグするか、「参照」をクリックしてファイル選択ダイアログを開き、Word文書ファイルを選択してください。

指定したファイル名が表示されたら、「次へ」ボタンをクリックしてください。

チャンク設定

情報ファイルをチャックに分割する際のパラメータを設定します。
ここでは下図のように設定します。

① チャンク設定

項目	説明
チャンク識別子	テキスト分割に使用する区切り文字です。連続する2個の改行を区切りとします。
最大チャンク長	チャンクサイズ（文字数またはトークン数）に 400 を設定します。
チャンクのオーバーラップ	隣接するチャンク同士で重複する部分のサイズ（文字数またはトークン数）です。 50 を設定します。
連続するスペース、改行、タブを置換する	スペース・改行・タブ文字を除去します。チェックしておきます。
すべてのURLとメールアドレスを削除する	URL とメールアドレスを除去します。未チェックにしておきます。
Q&A形式で分割	情報ファイルをQ&A形式（「"Q"と"A"」や「"質問"と"回答"」など）で分割します。未チェックにしておきます。

② 検索設定

項目	説明
トップK	検索結果の上位 K個のチャンクを使用します。 4 を設定します。

　
「保存して処理」ボタンをクリックすると情報ファイルの登録が実施されます。
登録が終了すると登録した情報ファイルが表示されます。

ドキュメントの追加（高品質ナレッジベース）

情報ファイルの登録

「経済的ナレッジベース」のときと操作は変わりません。

チャンク設定

情報ファイルをチャックに分割する際のパラメータ、埋め込みモデル、検索方法を設定します。
ここでは下図のように設定します。

① チャンク設定

「経済的ナレッジベース」と変わりません。

② 埋め込みモデル

項目	説明
埋め込みモデル	前出の text-embedding-3-small を選びます。

③ 検索設定

項目	説明
検索方法	高精度な検索を実施する「ハイブリッド検索」を選びます。
ウェイト設定	ベクトル検索と全文検索の比率を「重み」で調節し、検索制度を調節する仕組みです。こちらを選択してください。
Rerankモデル	AI が嘘をつく状態（ハルシネーション）を低減するモデルを利用する仕組みです。選択しないでください。

　
「保存して処理」ボタンをクリックすると情報ファイルの登録が実施されます。
登録が終了すると登録した情報ファイルが表示されます。

終わりに

これでナレッジベース側の準備が整いました。
次回は両ナレッジをチャットボットに組み込み、作成される回答の精度を比較してみましょう。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

ナレッジベースの構築（前編）

RAG（Retrieval-Augmented Generation）

情報のベクトル化

埋め込みモデル

チャンク

「空のナレッジベース」の作成

① 空のナレッジベースを作成

② ナレッジへアクセスする権限を設定

ドキュメントの追加（経済的 ナレッジベース）

情報ファイルの登録

チャンク設定

① チャンク設定

② 検索設定

ドキュメントの追加（高品質 ナレッジベース）

情報ファイルの登録

チャンク設定

① チャンク設定

② 埋め込みモデル

③ 検索設定

終わりに

ドキュメントの追加（経済的ナレッジベース）

ドキュメントの追加（高品質ナレッジベース）