はじめに
RAGを自分で作るとなったときに、LangChainなどであらかじめ実装されているPDF用のモジュールに適当にそのまま資料を突っ込んだだけではあまり精度が出なかったりします。
というのも、
- 実際の資料には表やポンチ絵など、文字を視覚的に配置した要素が含まれていることが多々あり、そもそもテキストの抽出が上手くいっていない
- ページごとといった適当な単位でテキストを分割してベクトル化すると、一つのベクトルに含まれる情報が多くなりすぎてベクトル検索が上手くいかない
といったことが発生するからです。
今回は、こちらのページで総務省がまとめている、こちらのPDFを対象として、PDFをいい感じに前処理できないか試してみました。
資料からのテキスト抽出
一つ目の問題に対応するため、まずは視覚的な要素を考慮してテキスト抽出を行う方法を考えてみます。
まずは普通にテキスト抽出してみる
総務省のPDFにはグラフ、縦書きの見出し、フッターといった要素を含んでいます。
PythonでPdfを処理する際の定番ライブラリとしてPyPdfがありますが、こういった要素を含むPDFを普通にテキスト抽出するとどうなるでしょうか?
コード
from pypdf import PdfReader
reader = PdfReader("n4900000.pdf")
for i, page in enumerate(reader.pages):
print(f"-----page {i}-----")
print(page.extract_text())
結果
長いので格納
-----page 0-----
AI の動向
ୈୈ99અ AIઅ AI
1 市場概況
世界のAI市場規模(売上高)は、2022年には前年比78.4%増の18兆7,148億円まで成長する
と見込まれており、その後も2030年まで緩やかな加速度的成長が予測されている( 図表4-9-1-1 )。
日本のAIシステム*1市場規模(支出額)は、2022年に3,883億6,700万円(前年比35.5%増)
となっており、今後も成長を続け、2027年には1兆1,034億7,700万円まで拡大すると予測され
ている(図表4-9-1-2)。*2*3
図表4-9-1-1世界のAI市場規模(売上高)の推移及び
予測
961422082984205837951,0691,4151,847
02004006008001,0001,2001,4001,6001,8002,000
2021 2022 2023 2024 2025 2026 2027 2028 2029 2030 (年)(10億ドル)
予測値
(出典)Statista(Next Move Strategy Consulting)*2図表4-9-1-2国内AIシステムの市場規模(支出額)
及び予測
(年) 2022 2023 2024 2025 2025 202702004006008001,0001,200
05101525
2035
3040予測値
支出額 成長率(10億円) (%)
(出典)IDC「2023年 国内AIシステム市場予測を発表」 (2023年4月27日)*3
2 AIを巡る各国等の動向
Thundermark Capitalが毎年公表しているAI Research Rankingでは、論文数などを基に研
究をリードする国や企業・大学等が公表されている。国別では、2020年以降、米国、中国、英国
の順となっており、日本は毎年Top10には入っているものの、年々順位が低下している。
組織別にみると、2022年は、Googleが世界各国の大学・企業を抑えてトップとなっており、
Microsoft、Facebookも上位10位にランクインしている。上位10位以下の民間企業をみると、Amazon(米国) 、IBM(米国) 、Huawei(中国) 、Alibaba(中国) 、NVIDIA(米国) 、Tencent(中国) 、Samsung(韓国) 、Baidu(中国) 、NTT(日本) 、Apple(米国) 、OpenAI
(米国)と続いており、ICT市場で売り上げの大きな企業が上位となっている中、AI専業の
OpenAIが躍進している。
国別AIランキング(Top10)の推移
出典:Thundermark Capital「AI Research Ranking 2022」を基に作成
URL:https://www.soumu.go.jp/johotsusintokei/whitepaper/ja/r05/html/datashu.html#f00259
(データ集)関連データ
*1 AI機能を利用するためのハードウェア、ソフトウェア・プラットフォーム及びAIシステム構築に関わるITサービス
*2 https://www.statista.com/statistics/1365145/artificial-intelligence-market-size/*3 https://www.idc.com/getdoc.jsp?containerId=prJPJ50603323ICT市場の動向
131第9節
令和5年版 情報通信白書 第 2部
ୈ
4
ষ
IIIIIIII
情通R5_04-09_第4章9節.indd 131情通R5_04-09_第4章9節.indd 131 2023/06/13 20:12:322023/06/13 20:12:32
-----page 1-----
組織別AIランキング(Top10)の推移
出典:Thundermark Capital「AI Research Ranking 2022」を基に作成
URL:https://www.soumu.go.jp/johotsusintokei/whitepaper/ja/r05/html/datashu.html#f00260
(データ集)関連データ
中国のAI市場支出予測
出典: IDC「China’s Artificial Intelligence Market Will Exceed US$26.7 Billion by 2026, according to
IDC」 (2022年10月4日)
URL:https://www.soumu.go.jp/johotsusintokei/whitepaper/ja/r05/html/datashu.html#f00261
(データ集)関連データ
また、近年、AIの社会実装が進んでおり、ChatGPT、Stable Diffusion、CeVIO AI等の文章、
画像、音声等を生成する、いわゆる生成AI(Generative AI)が注目されている。AI関連企業へ
の投資も活発化しており、スタンフォード大学が公表した報告書「Artificial Intelligence Index Report 2023」によれば、2022年に新たに資金調達を受けたAI企業数は、米国が542社で1位、中国が160社で2位、日本が32社で10位となっている(図表4-9-2-1)。
図表4-9-2-1 新たに資金調達を受けたAI企業数(国別・2022年)
542
160
99
121222232632364144475773
0 100 200 300
企業数400 500米国
中国
英国
イスラエル
インド
カナダ
フランス
ドイツ
シンガポール
日本
スイス
オーストラリア
韓国
スウェーデン
オランダ
(出典)Stanford University「Artificial Intelligence Index Report 2023」*4
*4
*4 https://aiindex.stanford.edu/wp-content/uploads/2023/04/HAI_AI-Index_Report_2023.pdf
132AI の動向 第9節
令和5年版 情報通信白書 第 2部
ୈ
4
ষ
IIIIIIII
情通R5_04-09_第4章9節.indd 132情通R5_04-09_第4章9節.indd 132 2023/06/13 20:12:332023/06/13 20:12:33
うーん、よくわからないことになってますね。
特に、グラフ周りは全く元の情報を読み取ることができません。
これを見れば、LangChainなどのPyPdfを利用したPDF用モジュールに視覚的な要素を持ったPDFを突っ込んでも精度がでないとわかります。
Layoutモード + GPT-4oによるテキスト整形
普通にテキスト抽出してもうまくいかないことがわかりましたが、実はPyPdfのテキスト抽出機能にはLayoutモードというもう一つのモードが搭載されています。
こちらを使って抽出したテキストをAzure OpenAI ServiceのGPT-4oを使って整形させるとうまくグラフの情報もある程度保ったままきれいなテキストにすることができました。
Layoutモードによるテキスト抽出
PyPdfのLayoutモードですが、公式の例にもあるように、いくつかオプションが存在します。
今回、Layoutモードをオンにするだけでもある程度きれいにテキスト抽出できましたが、layout_mode_space_vertically
という引数をFalse
にすると余分な空白が比較的少なくなったので、こちらも採用しました。
コード
texts = []
for i, page in enumerate(reader.pages):
print(f"-----page {i}-----")
text = page.extract_text(extraction_mode="layout", layout_mode_space_vertically=False)
print(text)
texts.append(text)
結果
長いので格納
-----page 0-----
ICT 市場の動向
AI の動向 第 9 節
ୈୈ 99 અ AI ͷಈઅ AI ͷಈ
1 市場概況
世界の AI 市場規模(売上高)は、2022 年には前年比 78.4%増の 18 兆 7,148 億円まで成長する
と見込まれており、その後も 2030 年まで緩やかな加速度的成長が予測されている( 図表 4-9-1-1 )。
日本の AI システム *1 市場規模(支出額)は、2022 年に 3,883 億 6,700 万円(前年比 35.5%増)
となっており、今後も成長を続け、2027 年には 1 兆 1,034 億 7,700 万円まで拡大すると予測され
ている(図表 4-9-1-2)。 *2 *3
図表 4-9-1-1 世界の AI 市場規模(売上高)の推移及び予測 図表 4-9-1-2 国内 AI システムの市場規模(支出額)及び予測
(10 億ドル) (10 億円) (%)予測値
2,000 1,847 1,200 40
1,800 予測値 35
1,600 1,000
1,415 30
1,400 800
1,200 1,069 支出額 成長率25
1,000 795 600 20 ୈ
800 583 15 4
600 420 400
400 298 10 ষ
96 142 208 200 5
200
0 0 0 IIIIIIII
2021 2022 2023 2024 2025 2026 2027 2028 2029 2030(年) 2022 2023 2024 2025 2025 2027(年)
(出典)Statista(Next Move Strategy Consulting) *2 (出典)IDC「2023 年 国内 AI システム市場予測を発表」(2023 年 4 月 27 日) *3
2 AI を巡る各国等の動向
Thundermark Capital が毎年公表している AI Research Ranking では、論文数などを基に研
究をリードする国や企業・大学等が公表されている。国別では、2020 年以降、米国、中国、英国
の順となっており、日本は毎年 Top10 には入っているものの、年々順位が低下している。
組織別にみると、2022 年は、Google が世界各国の大学・企業を抑えてトップとなっており、
Microsoft、Facebook も上位 10 位にランクインしている。上位 10 位以下の民間企業をみると、
Amazon( 米 国 )、IBM( 米 国 )、Huawei( 中 国 )、Alibaba( 中 国 )、NVIDIA( 米 国 )、
Tencent( 中 国 )、Samsung( 韓 国 )、Baidu( 中 国 )、NTT( 日 本 )、Apple( 米 国 )、OpenAI
(米国)と続いており、ICT 市場で売り上げの大きな企業が上位となっている中、AI 専業の
OpenAI が躍進している。
関連データ 国別 AI ランキング(Top10)の推移
出典:Thundermark Capital「AI Research Ranking 2022」を基に作成
URL:https://www.soumu.go.jp/johotsusintokei/whitepaper/ja/r05/html/datashu.html#f00259
(データ集)
*1 AI 機能を利用するためのハードウェア、ソフトウェア・プラットフォーム及び AI システム構築に関わる IT サービス
*2 https://www.statista.com/statistics/1365145/artificial-intelligence-market-size/
*3 https://www.idc.com/getdoc.jsp?containerId=prJPJ50603323
131
情通R5_04-09_第4章9節.indd 131情通R5_04-09_第4章9節.indd 131 2023/06/13 20:12:322023/06/13 20:12:32
-----page 1-----
第 9 節AI の動向
関連データ 組織別 AI ランキング(Top10)の推移
出典:Thundermark Capital「AI Research Ranking 2022」を基に作成
URL:https://www.soumu.go.jp/johotsusintokei/whitepaper/ja/r05/html/datashu.html#f00260
(データ集)
ؔ࿈デồタ 中国の AI 市場支出予測
出典: IDC「China’s Artificial Intelligence Market Will Exceed US$26.7 Billion by 2026, according to
IDC」(2022 年 10 月 4 日)
URL:https://www.soumu.go.jp/johotsusintokei/whitepaper/ja/r05/html/datashu.html#f00261
(データ集)
また、近年、AI の社会実装が進んでおり、ChatGPT、Stable Diffusion、CeVIO AI 等の文章、
画像、音声等を生成する、いわゆる生成 AI(Generative AI)が注目されている。AI 関連企業へ
の投資も活発化しており、スタンフォード大学が公表した報告書「Artificial Intelligence Index
Report 2023」によれば、2022 年に新たに資金調達を受けた AI 企業数は、米国が 542 社で 1 位、
中国が 160 社で 2 位、日本が 32 社で 10 位となっている(図表 4-9-2-1)。
図表 4-9-2-1 新たに資金調達を受けた AI 企業数(国別・2022 年)
ୈ 米国 542
4 中国 160
ষ 英国 99
イスラエル 73
IIIIIIII インド 57
カナダ 47
フランス 44
ドイツ 41
シンガポール 36
日本 32
スイス 26
オーストラリア 23
韓国 22
スウェーデン 12
オランダ 12
0 100 200 300400 500
企業数
(出典)Stanford University「Artificial Intelligence Index Report 2023」 *4
*4
*4 https://aiindex.stanford.edu/wp-content/uploads/2023/04/HAI_AI-Index_Report_2023.pdf
132
情通R5_04-09_第4章9節.indd 132情通R5_04-09_第4章9節.indd 132 2023/06/13 20:12:332023/06/13 20:12:33
かなり汚いですが、普通にテキスト抽出するよりも理解しやすい形(特にグラフ部分)になっているのではないかと思います。
GPT-4oによるテキスト整形
上記で抽出したテキストをそのまま使うのは汚すぎてさすがに問題が出そうな気がします。
そこで、GPT-4oを使ってテキスト整形をしてみました。
コード
from langchain_openai import AzureChatOpenAI
from langchain.prompts import ChatPromptTemplate
formatting_prompt = ChatPromptTemplate.from_messages(
[
("system", "あなたはテキスト整形の専門家です。ユーザーから与えられたテキストを整形してください。与えられたテキストはPDFからOCRで抽出したテキストのため、矢印などの記号がなくなっている場合がありますが、適宜補完してください。また、整形したテキスト以外は応答に含めないでください。"),
("human", "{text}")
]
)
formatting_chat = AzureChatOpenAI(azure_deployment="デプロイ名", temperature=0).bind(seed=0)
formatting_chain = formatting_prompt | formatting_chat
results = formatting_chain.batch([{"text": text} for text in texts])
concatenated_text = ""
for result in results:
concatenated_text += "----------\n"
concatenated_text += str(result.content) + "\n"
print(concatenated_text)
結果
長いので格納
----------
# ICT市場の動向
## AIの動向 第9節
### 1. 市場概況
世界のAI市場規模(売上高)は、2022年には前年比78.4%増の18兆7,148億円まで成長すると見込まれており、その後も2030年まで緩やかな加速度的成長が予測されている(図表4-9-1-1)。
日本のAIシステム市場規模(支出額)は、2022年に3,883億6,700万円(前年比35.5%増)となっており、今後も成長を続け、2027年には1兆1,034億7,700万円まで拡大すると予測されている(図表4-9-1-2)。
#### 図表4-9-1-1 世界のAI市場規模(売上高)の推移及び予測
(10億ドル)
| 年 | 2021 | 2022 | 2023 | 2024 | 2025 | 2026 | 2027 | 2028 | 2029 | 2030 |
|------|------|------|------|------|------|------|------|------|------|------|
| 売上 | 96 | 142 | 208 | 298 | 420 | 583 | 795 | 1,069| 1,415| 1,847|
(出典)Statista(Next Move Strategy Consulting)
#### 図表4-9-1-2 国内AIシステムの市場規模(支出額)及び予測
(10億円)
| 年 | 2022 | 2023 | 2024 | 2025 | 2026 | 2027 |
|------|------|------|------|------|------|------|
| 支出 | 388.36 | - | - | - | - | 1,103.47 |
| 成長率 | 35.5% | - | - | - | - | - |
(出典)IDC「2023年国内AIシステム市場予測を発表」(2023年4月27日)
### 2. AIを巡る各国等の動向
Thundermark Capitalが毎年公表しているAI Research Rankingでは、論文数などを基に研究をリードする国や企業・大学等が公表されている。国別では、2020年以降、米国、中国、英国の順となっており、日本は毎年Top10には入っているものの、年々順位が低下している。
組織別にみると、2022年は、Googleが世界各国の大学・企業を抑えてトップとなっており、Microsoft、Facebookも上位10位にランクインしている。上位10位以下の民間企業をみると、Amazon(米国)、IBM(米国)、Huawei(中国)、Alibaba(中国)、NVIDIA(米国)、Tencent(中国)、Samsung(韓国)、Baidu(中国)、NTT(日本)、Apple(米国)、OpenAI(米国)と続いており、ICT市場で売り上げの大きな企業が上位となっている中、AI専業のOpenAIが躍進している。
#### 関連データ 国別AIランキング(Top10)の推移
出典:Thundermark Capital「AI Research Ranking 2022」を基に作成
URL:https://www.soumu.go.jp/johotsusintokei/whitepaper/ja/r05/html/datashu.html#f00259
(データ集)
### 注釈
*1 AI機能を利用するためのハードウェア、ソフトウェア・プラットフォーム及びAIシステム構築に関わるITサービス
*2 https://www.statista.com/statistics/1365145/artificial-intelligence-market-size/
*3 https://www.idc.com/getdoc.jsp?containerId=prJPJ50603323
----------
### 第9節 AIの動向
#### 関連データ
**組織別 AI ランキング(Top10)の推移**
出典:Thundermark Capital「AI Research Ranking 2022」を基に作成
URL:https://www.soumu.go.jp/johotsusintokei/whitepaper/ja/r05/html/datashu.html#f00260
**中国の AI 市場支出予測**
出典:IDC「China’s Artificial Intelligence Market Will Exceed US$26.7 Billion by 2026, according to IDC」(2022年10月4日)
URL:https://www.soumu.go.jp/johotsusintokei/whitepaper/ja/r05/html/datashu.html#f00261
また、近年、AIの社会実装が進んでおり、ChatGPT、Stable Diffusion、CeVIO AI等の文章、画像、音声等を生成する、いわゆる生成AI(Generative AI)が注目されている。AI関連企業への投資も活発化しており、スタンフォード大学が公表した報告書「Artificial Intelligence Index Report 2023」によれば、2022年に新たに資金調達を受けたAI企業数は、米国が542社で1位、中国が160社で2位、日本が32社で10位となっている(図表4-9-2-1)。
#### 図表 4-9-2-1 新たに資金調達を受けた AI 企業数(国別・2022年)
| 国名 | 企業数 |
|--------------|--------|
| 米国 | 542 |
| 中国 | 160 |
| 英国 | 99 |
| イスラエル | 73 |
| インド | 57 |
| カナダ | 47 |
| フランス | 44 |
| ドイツ | 41 |
| シンガポール | 36 |
| 日本 | 32 |
| スイス | 26 |
| オーストラリア | 23 |
| 韓国 | 22 |
| スウェーデン | 12 |
| オランダ | 12 |
(出典)Stanford University「Artificial Intelligence Index Report 2023」
URL:https://aiindex.stanford.edu/wp-content/uploads/2023/04/HAI_AI-Index_Report_2023.pdf
これはかなりきれいなんじゃないでしょうか。
しかも、気を利かしてマークダウン風に表も書き直してくれているため、人間が見ても解釈しやすいです。
GPT-4oすごいですね...。
FAQ集の作成
さて、テキスト抽出もうまくいったので2つめの問題に対応する方法を考えてみます。
RAGにおけるベクトル検索はユーザーの検索クエリのベクトルとベクトルDBの文書ベクトルの類似度を出して文書を持ってきています。
しかし、ユーザーの検索クエリはだいたい「XXXですか?」のような質問形式になっているのに対して、比較対象が「〇〇〇においてXXXは△△△として...」といった質問形式ではない文章や、あまり関係ない情報も含むような長い文章であれば類似度が小さくなってしまうことは容易に想像できると思います。
クエリとDB内の文書のずれに対処する手法として、HyDEというユーザーのクエリから仮の回答を作り、それを用いてベクトル検索する手法が有名です。
が、今回は最近流行のDifyなどで見かける、ベクトルとする文書を質問形式にして、LLMに渡す文書はその回答とする方法を試してみます。
(絶対ちゃんとした手法の名前があると思うのですが、調べられなかったです...。)
実装としては単純に先ほど抽出したテキストからGPT-4oにFAQを生成してもらう形にしました。
コード
import json
import pandas as pd
create_faq_prompt = ChatPromptTemplate.from_messages(
[
("system", 'ユーザから与えられた文書をもとに、FAQ集を作成してください。\nFAQの質問・回答は、前提条件を含めるなど可能な限り詳細な文面にしてください。\nユーザーへの応答は下記のような形式のJSON文字列としてください。\n{{"faqs": [{{"question": 質問, "answer": 回答}},...]}}'),
("human", "{text}")
]
)
create_faq_chat = AzureChatOpenAI(azure_deployment="デプロイ名", temperature=0).bind(seed=0, response_format={"type": "json_object"})
create_faq_chain = create_faq_prompt | create_faq_chat
faq = create_faq_chain.invoke({"text": concatenated_text}).content
# GPT-4oが生成したJSONをCSVに変換
faq_df = pd.DataFrame(json.loads(str(faq))["faqs"])
faq_csv = faq_df.to_csv(index=False)
print(faq_csv)
結果
question,answer
2022年の世界のAI市場規模はどのくらいですか?,"2022年の世界のAI市場規模(売上高)は18兆7,148億円と見込まれています。前年比78.4%増の成長が予測されています。"
日本のAIシステム市場規模は2022年にどのくらいですか?,"日本のAIシステム市場規模(支出額)は2022年に3,883億6,700万円で、前年比35.5%増となっています。"
2030年までの世界のAI市場規模の予測はどうなっていますか?,"2030年までの世界のAI市場規模は、2022年の142億ドルから2030年には1,847億ドルまで成長すると予測されています。"
日本のAIシステム市場規模は2027年にどのくらいになると予測されていますか?,"日本のAIシステム市場規模は2027年に1兆1,034億7,700万円まで拡大すると予測されています。"
AI Research Rankingで2022年にトップとなった企業はどこですか?,2022年のAI Research Rankingでトップとなった企業はGoogleです。
2022年に新たに資金調達を受けたAI企業数が最も多い国はどこですか?,2022年に新たに資金調達を受けたAI企業数が最も多い国は米国で、542社です。
生成AI(Generative AI)とは何ですか?,生成AI(Generative AI)とは、文章、画像、音声などを生成するAI技術のことです。ChatGPT、Stable Diffusion、CeVIO AIなどがその例です。
AI関連企業への投資状況はどうなっていますか?,AI関連企業への投資は活発化しており、2022年には米国で542社、中国で160社、日本で32社が新たに資金調達を受けています。
もうすこし網羅的に内容を入れ込んでもらいたい感もありますが、これ以上の調整が面倒なので今回はこれで良しとします。
実際にベクトル検索してみる
ここまででRAGに使うQA形式の文書を作成することができましたが、実際のところうまく検索できるのでしょうか?
FAISSを使ってベクトルDBを作成し、いくつか検索クエリを入れてみます。
コード
from langchain_community.vectorstores import FAISS
from langchain_openai import AzureOpenAIEmbeddings
embeddings = AzureOpenAIEmbeddings(azure_deployment="デプロイ名")
question_embeddings = embeddings.embed_documents(faq_df["question"].to_list())
text_embedding_pairs = zip(faq_df["answer"].to_list(), question_embeddings)
faiss = FAISS.from_embeddings(text_embedding_pairs, embeddings)
def vector_search(query):
results = faiss.similarity_search(query, k=3)
print("-----")
print("検索クエリ:")
print(query)
print("検索結果:")
for i, result in enumerate(results):
print(f"{i + 1}. {result.page_content}")
vector_search("AIの市場規模は?")
vector_search("AI関連企業について教えて")
vector_search("AIとは?")
vector_search("日本におけるAIの状況を教えてください")
結果
-----
検索クエリ:
AIの市場規模は?
検索結果:
1. 2022年の世界のAI市場規模(売上高)は18兆7,148億円と見込まれています。前年比78.4%増の成長が予測されています。
2. 2030年までの世界のAI市場規模は、2022年の142億ドルから2030年には1,847億ドルまで成長すると予測されています。
3. 日本のAIシステム市場規模(支出額)は2022年に3,883億6,700万円で、前年比35.5%増となっています。
-----
検索クエリ:
AI関連企業について教えて
検索結果:
1. AI関連企業への投資は活発化しており、2022年には米国で542社、中国で160社、日本で32社が新たに資金調達を受けています。
2. 2022年のAI Research Rankingでトップとなった企業はGoogleです。
3. 生成AI(Generative AI)とは、文章、画像、音声などを生成するAI技術のことです。ChatGPT、Stable Diffusion、CeVIO AIなどがその例です。
-----
検索クエリ:
AIとは?
検索結果:
1. 生成AI(Generative AI)とは、文章、画像、音声などを生成するAI技術のことです。ChatGPT、Stable Diffusion、CeVIO AIなどがその例です。
2. AI関連企業への投資は活発化しており、2022年には米国で542社、中国で160社、日本で32社が新たに資金調達を受けています。
3. 2022年の世界のAI市場規模(売上高)は18兆7,148億円と見込まれています。前年比78.4%増の成長が予測されています。
-----
検索クエリ:
日本におけるAIの状況を教えてください
検索結果:
1. 日本のAIシステム市場規模(支出額)は2022年に3,883億6,700万円で、前年比35.5%増となっています。
2. AI関連企業への投資は活発化しており、2022年には米国で542社、中国で160社、日本で32社が新たに資金調達を受けています。
3. 日本のAIシステム市場規模は2027年に1兆1,034億7,700万円まで拡大すると予測されています。
なんだかうまくいってそうです。
検索してでてくるテキストが回答形式なので、場合によってはベクトル検索をそのまま返すだけでも十分な回答になるかもしれません。
まとめ
今回はRAGに使うPDFの前処理について試行錯誤してみました。
1ドキュメント分しか確かめていませんが、なかなかうまくいったように思えます。
皆さんもRAGの精度がでないときは、前処理を工夫してみてはいかがでしょうか?