4
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

DifyのRAGはPDF直読みで十分?ドキュメント構造化で回答精度を比較検証してみた

Posted at

1. はじめに

DNP(大日本印刷)では、PDFやWordなどで作成された多様な文書を、生成AIが参照しやすいデータ形式(例: XML, JSON)に整形する技術を開発しています。
この技術は、特に**RAG(Retrieval-Augmented Generation)**との相性が良いと考えています。

▼ 私たちの技術に関する詳細はこちら
DNPのドキュメント構造化AIについて(技術紹介)

しかし、最近ではDifyのような、PDFを直接アップロードするだけで簡単にRAG用のナレッジベースを構築できる便利なツールも登場しています。

そこで、こんな探求心が湧いてきました。

「PDFをそのまま使う場合と、文書をあらかじめ構造化した場合で、RAGの回答精度にどのような違いが生まれるのだろうか?」

この疑問を解消するため、元の文書(PDF)と、それを構造化したデータ(XML)で、RAGの回答精度にどれだけの違いが生まれるのかをDifyを使って検証してみました。

2. 検証の準備

検証に使うデータ

今回は、DNPの2023年3月期 決算短信(PDF)を題材とします。この1つのPDFから、2種類のデータを用意しました。

1. 構造化前のデータ(PDF)

  • Difyに直接アップロードする、ごく一般的なPDFファイルです。
    image.png
    ▲元の決算短信PDF

2. 構造化後のデータ(XML)

  • 上記のPDFを、私たちの技術でXML形式に変換したものです。
  • 見出しが <section> タグで、本文が <text> タグで囲われるなど、文書の論理的な構造がタグ付けされています。
sample.xml
<structural-data>
    <filename>00001.pdf</filename>
    <title>2023年3月期決算短信</title>
      :
    <section>【飲料事業】</section>
    <text>・飲料部門</text>
    <text>原材料価格や物流コストの上昇の影響にともない、大型PETボトル商品や小型パッケージ商品等の価格改定を実施しました。また、物価高騰にともなう生活者の節約志向に対応した“まとめ売り”企画や、SDGsへの意識の高まりを受け、環境にやさしいラベルレス商品の展開などに注力しました。</text>
    <text>その結果、部門全体の売上高は、コンビニエンスストアでの販売が回復したほか、飲食店やネット販売の伸長もあり、516億円(前期比3.8%増)となりました。…</text>
      :
</structural-data>

DifyでのRAGアプリ作成手順

Difyでは、以下の2ステップで簡単にRAGアプリが作れます。

  1. ナレッジデータベースを作成する
  2. チャットボットを作成し、①のナレッジを連携させる

今回は、①のナレッジデータベースを「PDF版」と「構造化XML版」の2パターン作成し、それぞれを接続したチャットボットに同じ質問を投げかけ、回答の違いを比較します。

環境

  • Dify: コミュニティ版 v1.4.3
  • 埋め込みモデル: amazon.titan-embed-text-v1
  • Rerankモデル: amazon.rerank-v1:0
  • LLM: claude-3.7-sonnet

パターン1: PDFからナレッジベースを作成

まずはPDFをそのままアップロードしてナレッジベースを作成します。

チャンク設定

  • 分割モード: 「親子分割モード」を選択
  • チャンクの最大長: プレビューで確認したところ、デフォルトの1024では文章の途中で切れてしまう箇所があったため、1500に増やしました
  • チャンク識別子: \n\n(デフォルトのまま)
    image.png
    ▲PDFのチャンク設定

インデックス設定・検索設定

  • インデックス方法: 「高品質」モード
  • 埋め込みモデル: amazon.titan-embed-text-v1
  • 検索設定: ベクトル検索
  • Rerankモデル: amazon.rerank-v1:0
  • トップK: 3
    image.png
    ▲インデックス設定(PDF/XML共通)

パターン2: 構造化データ(XML)からナレッジベースを作成

次に、XML形式に構造化したデータでナレッジベースを作成します。基本的な設定はPDFの時と同じですが、チャンク識別子を構造化データに合わせて変更した点がポイントです。

チャンク設定

  • チャンク識別子: </text>\n<section> を設定。
    • これは、本文の終わり(</text>)と次の見出しの始まり(<section>)を区切りに指定する、という意味です。これにより、意味的なまとまりでチャンクを分割できると期待しました。
      image.png
      ▲XMLのチャンク設定。識別子をカスタマイズした。

2種類のチャットボットを準備

ナレッジベースができたので、それぞれをコンテキストとして連携したチャットボットを作成します。

  • 非構造化チャットボット: PDFから作成したナレッジを連携
  • 構造化チャットボット: 構造化XMLから作成したナレッジを連携

これで準備は完了です!

3. 回答精度の比較評価

以下の3つの質問を、それぞれのチャットボットに投げかけてみました。

  1. 人的資本ポリシーに関する施策を教えてください
    • 複数の項目にまたがる、網羅的な回答が求められる質問
  2. 自己資本比率の年度ごとの推移を教えてください
    • 文書内の表から情報を抽出する必要がある質問
      image.png
      ▲該当の表
  3. 新セグメント別業績予想について説明してください
    • より複雑な表の読み取りが求められる質問
      image.png
      ▲該当の表

Q1. 人的資本ポリシーに関する施策を教えてください

🤖 非構造化チャットボットの回答

大日本印刷(DNP)グループは2022年に「人的資本ポリシー」を発表し、以下のような取り組みを進めています:

  1. キャリア自律支援と組織力強化

    • DNP版「よりジョブ型も意識した処遇と関連施策」の展開
    • 複線型のポスト型処遇の整備
    • 人的投資によるキャリア自律支援
    • 競争力の高い報酬水準・体系の維持・確保
    • 組織開発の充実
  2. 多様な個の強みを引き出すチーム力強化とマネジメント改革

    • 「DNP価値目標(DVO)制度」の浸透
    • 組織のエンゲージメントを高める施策の展開
    • 社員の幸福度を高める健康経営の推進
  3. 事業戦略に対する適材適所の実現

    • タレントマネジメントシステムを活用したICT人材・DX人材のスキルレベルの可視化
    • 人材ポートフォリオに基づく採用・育成
    • リスキリングの強化による人材再配置

これらの施策を通じて、グローバルでの「人的創造性(付加価値生産性)」を飛躍的に高めることを目指しています。

🚀 構造化チャットボットの回答

DNPグループの人的資本ポリシーに基づく主な施策は以下のとおりです:

  1. 価値創造に向けた取り組み:

    • DNP版「よりジョブ型も意識した処遇と関連施策」の展開
    • 複線型のポスト型処遇
    • キャリア自律支援のための人的投資
    • 競争力の高い報酬水準・体系の維持・確保
    • 組織開発の充実
  2. チーム力強化とマネジメント改革:

    • 「DNP価値目標(DVO)制度」の浸透
    • 組織のエンゲージメントを高める施策
    • 社員の幸福度を高める健康経営の推進
  3. 事業戦略に対する適材適所の実現:

    • タレントマネジメントシステムを活用したICT人材・DX人材のスキルレベルの可視化
    • 人材ポートフォリオに基づく採用・育成
    • リスキリングの強化による人材再配置
  4. ダイバーシティ&インクルージョン(D&I)の推進:

    • 多様な人材の育成
    • 多様な働き方の実現
    • 多様な人材が活躍できる風土醸成

これらの施策を通じて、DNPグループはグローバルでの「人的創造性(付加価値生産性)」を飛躍的に高めることを目指しています。

✅ 評価

勝者: 🚀 構造化チャットボット

元のドキュメントには、4つ目の項目として「ダイバーシティ&インクルージョン(D&I)の推進」が含まれています。構造化チャットボットは、この項目も漏らさず回答できており、より正確でした。

ナレッジベースを確認したところ、非構造化(PDF)の方ではD&Iに関する部分が他の情報とまとめて1つのチャンクになってしまっていたのに対し、構造化(XML)の方は意味のある単位で適切に分割されており、この差が回答精度に繋がったと考えられます。


Q2. 自己資本比率の年度ごとの推移を教えてください

🤖 非構造化チャットボットの回答

自己資本比率の年度ごとの推移は以下の通りです。

  • 2019年3月期: 56.1%
  • 2020年3月期: 53.2%
  • 2021年3月期: 57.2%
  • 2022年3月期: 58.2%
  • 2023年3月期: 59.4%

全体的に見ると、2020年3月期に一時的に低下したものの、その後は3年連続で上昇傾向にあることが分かります。

🚀 構造化チャットボットの回答

自己資本比率の年度ごとの推移は以下のとおりです:

  • 2019年3月期: 56.1%
  • 2020年3月期: 53.2%
  • 2021年3月期: 57.2%
  • 2022年3月期: 58.2%
  • 2023年3月期: 59.4%

この数値を見ると、2020年3月期に一度下がったものの、その後は毎年少しずつ上昇し続けており、財務の安定性が年々向上していることが分かります。

✅ 評価

結果: 引き分け

この質問に対しては、どちらのチャットボットも表から正確に数値を抽出し、正しく回答できました。シンプルな表の読み取りであれば、PDFのままでも十分な性能を発揮できるようです。


Q3. 新セグメント別業績予想について説明してください

🤖 非構造化チャットボットの回答

大日本印刷株式会社の2024年3月期における新セグメント別業績予想は以下の通りです:

スマートコミュニケーション部門(旧:情報コミュニケーション部門)

  • 売上高: 7,210億円(前期比0.1%増)
  • 営業利益: 280億円(前期比4.7%増)

ライフ&ヘルスケア部門(旧:生活・産業部門)

  • 売上高: 4,950億円(前期比9.7%増)
  • 営業利益: 180億円(前期比125.5%増)
  • 注:「飲料事業」がこの部門に移行されました

エレクトロニクス部門

  • 売上高: 1,970億円(前期比3.2%減)
  • 営業利益: 420億円(前期比10.5%減)

2023年度からのセグメント変更により、「飲料部門」は廃止され、その事業は「ライフ&ヘルスケア部門」に統合されています。この再編は、事業領域とその戦略をより明確化し、中期経営計画の施策実行を加速させるために行われました。

🚀 構造化チャットボットの回答

DNPグループは2023年度からセグメントの名称を変更し、事業領域とその戦略をより明確化しています。新セグメント別の2024年3月期業績予想は以下の通りです:

  1. スマートコミュニケーション部門(旧情報コミュニケーション部門)

    • 売上高:7,210億円(前期比0.1%増)
    • 営業利益:280億円(前期比4.7%増)
  2. ライフ&ヘルスケア部門(旧生活・産業部門)

    • 売上高:4,950億円(前期比9.7%増)
    • 営業利益:180億円(前期比125.5%増)
    • ※飲料事業がこの部門に移行されています
  3. エレクトロニクス部門

    • 売上高:1,970億円(前期比3.2%減)
    • 営業利益:420億円(前期比10.5%減)

こなお、2023年度からセグメントの名称変更および飲料部門の統合が行われました。「飲料事業」は人々の暮らしとの関連性から「ライフ&ヘルスケア部門」に移行され、「飲料部門」セグメントは廃止されています。

✅ 評価

結果: 引き分け

複雑な表なので構造化データの方が有利かと思いましたが、主要な情報の抽出精度に大きな差は見られませんでした。どちらもセグメントごとの業績予想を正しく回答しています。

4. まとめと考察

今回の検証から、ドキュメント構造化がRAGの回答精度に与える影響について、以下のことが見えてきました。

  • ⭕️ 情報の網羅性には、明確な差が出た

    • 複数の項目にまたがる質問では、ドキュメントを構造化しておくことで、情報の欠落を防げることが確認できました。
    • これは、構造化データに合わせてチャンクの区切り方を最適化することで、RAGが参照する情報の単位(チャンク)がより適切になったためです。
  • 🔺 シンプルな表の読み取りは、PDFのままでも十分高精度

    • 一方で、単純な表形式データの抽出であれば、PDFを直接読み込ませても精度の高い回答が得られました。
    • ただし、より複雑なレイアウトの表やフロー図などでは、構造化が有利に働く可能性があり、これは今後の検証課題としたいと思います。

結論:用途によっては「一手間」かける価値は大きい

PDFをアップロードするだけ、という手軽さは非常に魅力的です。

しかし今回の検証結果から、より正確で網羅的な回答が求められる業務用途のRAGを構築する場合、文書を事前に構造化するという「一手間」が、回答の品質を左右する重要な鍵になると言えるでしょう。

皆さんが開発するAIアプリケーションの精度向上に、この検証結果が少しでも参考になれば幸いです。

4
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
4
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?