この記事について
ローカルLLMを使用したRAGを構築する方法について共有します。
本記事中の構造化はDNP ドキュメント構造化AIを利用したものです。
構造化については以下の記事で詳しく説明されています。
背景
例えば以下のような理由からローカル環境でシステムを構築することがあります。
- データ流出リスク
- 可用性
- 規制対応
- レイテンシ―
RAGについてもローカルで処理が完結することを想定したシステムも必要になるのではないか、ということで検討した内容を共有します。
どのような構成にしていくか検討する際の参考になりましたら幸いです。
目的
ローカルLLMを使ったRAG環境の構築確認を行う。
環境
今回は以下のような構成にしました。
あいにく手元にサーバーが無いため、ローカルと言いながらインフラはクラウド環境を利用します。Amazon EC2のGPUインスタンスを利用します。
構成図
サーバー1台の中に詰め込むので基本的な構成はシンプルです。
構成要素
AWS上に構築
項目 | 内容 |
---|---|
サーバー | EC2(g4dn.xlarge / g6.xlarge) |
開発言語 | Python |
ベクトルDB | PostgreSQL(pgvector) |
モデル
モデルは以下を利用しました。
- SakanaAI/TinySwallow-1.5B-Instruct
- google/gemma-3-1b-it
- google/gemma-3-4b-it
- intfloat/multilingual-e5-small(embedding用)
g4dn.xlargeインスタンスは、NVIDIA T4 GPUを搭載していることから約16GBほどVRAMを利用可能ということで、上記のようなパラメータ数の少ないモデルには十分でした。
すべてのモデルを同時に動作させるには今回の条件ではややスペック不足となるため、適宜リソースを解放してモデルを切り替える必要があります。
なお、量子化したモデルは使用しませんでした。
ベクトルデータベース
pgvectorの構築はインストール済みのdockerイメージを使いました。
処理イメージ
動作確認用にチャットボットの仕組みを作成しましたが、評価はバッチで処理しました。
動作確認用のアプリはStreamlitで作成しました。ほぼ生成したコードで作成しています。
データ
弊社の決算短信のデータを構造化してからチャンクに加工して、ベクトルデータベースに投入しました。
大日本印刷株式会社
2023年3月期 決算短信〔日本基準〕(連結)
参考:https://www.dnp.co.jp/ir/library/result/
開発者の視点では、PDFからテキスト抽出したものを直接チャンクにするのではなく、一度構造化しておくと、パースしやすくなったり、チャンクの加工方法を変更する際に扱いやすいです。
テスト
質問を入力して、回答を確認しました。
質問 | 回答 |
---|---|
2023年3月期において、DNPグループはどのような事業に注力しましたか? | 2023年3月期において、DNPグループは「Iot・次世代通信」「データ流通」「モビリティ」「環境」関連のビジネスを「注力事業」と定めました。 |
評価
評価用のデータはLLMに質問応答リストを作成させて、人間の目で確認したものを使用しました。評価にはragasを利用しスコアを取得して、スコアの低いチャンクを分析し、原因を特定しました。
例えば、チャンクの中身を調整することで、回答率が40%から90%に改善することを確認しました。
所感
内容によると思いますが、ragasによる評価は1度の処理に1時間以上掛かりました。分析も人間の目で確認すると手間が掛かりますが、目検では限界があるので数値である程度判断できるのはありがたいです。
継続的なモニタリングや運用を考えると、ユースケースによってはLLMOpsのような環境の構築も一緒に考えたり、分析環境が無い場合、可能なら分析はクラウド上で実施するなど、ハイブリッドな使い分けも検討する必要があるなと思いました。