はじめに
Amazon Bedrock Knowledge Bases で RAG システムを構築する際、「詳細な事実情報を見つけたいが、文脈も失いたくない」という問題に直面したことはありませんか?
小さなチャンクサイズは具体的な数値や事実の精密検索に優れていますが、文脈が失われがちです。一方、大きなチャンクサイズは包括的な理解に適していますが、ピンポイントの情報検索には不向きです。
この記事では、この問題を解決する Hierarchical Chunking 戦略とデュアルデータソース構成 を検証します。1 つのナレッジベースに異なるチャンクサイズ設定を持つ 2 つのデータソース(小チャンク設定と大チャンク設定)を配置し、1 回の retrieve API 呼び出しで両方の利点を活かせるハイブリッド戦略の効果を定量的に評価します。
検証では、3 つのナレッジベース構成(小チャンク設定のみ、大チャンク設定のみ、デュアルデータソース構成)を同一の文書(令和7年版情報通信白書 第 1 章 第 2 節 "AI の爆発的な進展の動向")で構築しました。10 のテストクエリで検索精度を比較した結果、デュアルデータソース構成が単一データソース構成と比較して 4.3〜17.9% の性能向上(検証 1: 8.8〜17.9%、検証 2: 5.2〜13.4%、検証 3: 4.3〜4.6%)を示し、効果的な戦略であると考えられます。
Hierarchical Chunking とは
Hierarchical Chunking は、データを小さなチャンク(子チャンク)とそれを内包する大きなチャンク(親チャンク)の 2 つの階層を作成する手法です。この手法では、子チャンクを使用して検索を行い、最も関連性の高い子チャンクを選択します。選択された子チャンクの前後の文脈(より大きなチャンク)を取得し、LLM に提供します。子チャンクと親チャンクの両方の利点を活かすことができます。
デュアルチャンクの利点
Hierarchical Chunking でデータソースを構築する際に、Max parent token size と Max child token size を設定する必要があります。この 2 つのパラメータは、親チャンクと子チャンクの最大トークン数を決定します。Hierarchical Chunking を採用しても、この 2 つのパラメータにより検索精度が左右されます。デュアルデータソース構成では、両パラメータが小さめのデータソースと大きめのデータソースを配置することで、両方の利点を活かすことを期待します。
構成図
本検証の全体構成を以下に示します。
デュアルデータソース構成でナレッジベースの検索精度を検証する
検証の結果に示している関連度の定義は以下のようになっています。
スコア
retrieve API から返される score を使用します。score はクエリとチャンクの類似度を 0.0〜1.0 の範囲で示し、値が高いほど関連性が高いことを意味します。
分類基準
- 高 (high): スコア ≥ 0.6
- 中 (medium): 0.4 ≤ スコア < 0.6
- 低 (low): スコア < 0.4
関連性率
関連性率 = 分類別件数 / 総検索結果数 × 100
検証 1
以下の構成で、3 つのナレッジベースを構築しました。
共通設定
| 設定項目 | 値 |
|---|---|
| Embeddings model | Amazon Titan Text Embedding V2 |
| Parsing strategy | Foundation models as a parser |
| Foundation model for parsing | Anthropic Claude 3.5 Sonnet v1 |
| Chunking strategy | Hierarchical chunking |
ナレッジベース1: 小チャンクデータソースのみ
| 設定項目 | 値 |
|---|---|
| Max parent token size | 800 |
| Max child token size | 300 |
| Overlap tokens between chunks | 50 |
ナレッジベース2: 大チャンクデータソースのみ
| 設定項目 | 値 |
|---|---|
| Max parent token size | 2500 |
| Max child token size | 1000 |
| Overlap tokens between chunks | 100 |
ナレッジベース3: デュアルデータソース構成
| 設定項目 | 値 |
|---|---|
| Data Source 1 | 小チャンクデータソースのみのナレッジベース |
| Data Source 2 | 大チャンクデータソースのみのナレッジベース |
分析結果
デュアルデータソース構成の分析結果
分析結果
# デュアルデータソース戦略分析レポート
## 実行日時
2026年01月31日
## 分析対象
- **Knowledge Base ID**: **********
- **構成**: 2つのデータソース(小チャンク設定 + 大チャンク設定)
- **チャンク戦略**: Hierarchical Chunking(Parent-Child 2層構造)
## チャンクサイズ設定
| 種別 | Parent | Child |
| --- | --- | --- |
| 小チャンク設定 | 800トークン | 300トークン |
| 大チャンク設定 | 2500トークン | 1000トークン |
## 全体統計
### 基本指標
- **総クエリ数**: 10
- **平均検索スコア**: 0.527
- **平均コンテンツ長**: 1805文字
- **総検索結果数**: 53件
### チャンクタイプ分布
| タイプ | 件数 | 割合 |
| --- | --- | --- |
| 小チャンク設定 | 29件 | 54.7% |
| 大チャンク設定 | 24件 | 45.3% |
### 関連性分布
| レベル | 件数 | 割合 |
| --- | --- | --- |
| 高 (high) | 15件 | 28.3% |
| 中 (medium) | 35件 | 66.0% |
| 低 (low) | 3件 | 5.7% |
## クエリ別詳細分析
### クエリ1: GPT-3のパラメータ数は何億ですか?
- **平均スコア**: 0.476
- **結果数**: 5件
- **平均長**: 1945文字
- **チャンク構成**: small=3件, large=2件
- **関連性**: high=1件, medium=3件, low=1件
### クエリ2: OpenAI o1モデルはアメリカ数学オリンピック予選の何パーセントを解けましたか?
- **平均スコア**: 0.500
- **結果数**: 4件
- **平均長**: 1814文字
- **チャンク構成**: small=2件, large=2件
- **関連性**: high=1件, medium=3件
### クエリ3: DeepSeek-R1の開発コストは約何億円ですか?
- **平均スコア**: 0.479
- **結果数**: 4件
- **平均長**: 1931文字
- **チャンク構成**: small=3件, large=1件
- **関連性**: high=1件, medium=3件
### クエリ4: AI活力ランキング2023年で日本は何位ですか?
- **平均スコア**: 0.583
- **結果数**: 9件
- **平均長**: 1833文字
- **チャンク構成**: large=5件, small=4件
- **関連性**: high=3件, medium=6件
### クエリ5: 日本の生成AI利用率は2024年度調査で何パーセントですか?
- **平均スコア**: 0.665
- **結果数**: 6件
- **平均長**: 1543文字
- **チャンク構成**: small=3件, large=3件
- **関連性**: high=6件
### クエリ6: Teslaが開発している人型ロボットの名前は何ですか?
- **平均スコア**: 0.517
- **結果数**: 4件
- **平均長**: 1842文字
- **チャンク構成**: small=2件, large=2件
- **関連性**: medium=4件
### クエリ7: 富士通とCohereが開発した日本語LLMの名前は何ですか?
- **平均スコア**: 0.543
- **結果数**: 2件
- **平均長**: 3222文字
- **チャンク構成**: small=1件, large=1件
- **関連性**: medium=2件
### クエリ8: 2024年12月に設立されたAIロボット協会の略称は何ですか?
- **平均スコア**: 0.450
- **結果数**: 8件
- **平均長**: 1404文字
- **チャンク構成**: small=4件, large=4件
- **関連性**: high=1件, medium=7件
### クエリ9: Microsoft Phi-4のパラメータ数は何億ですか?
- **平均スコア**: 0.437
- **結果数**: 6件
- **平均長**: 1974文字
- **チャンク構成**: small=4件, large=2件
- **関連性**: medium=4件, low=2件
### クエリ10: 日本企業が生成AI導入で最も懸念する事項は何ですか?
- **平均スコア**: 0.607
- **結果数**: 5件
- **平均長**: 1660文字
- **チャンク構成**: small=3件, large=2件
- **関連性**: high=2件, medium=3件
## デュアルデータソース戦略の効果分析
### データソース利用分析
- **バランス型**(小54.7% / 大45.3%):両データソースを効果的に活用
### 検索品質分析
- **検索精度に改善余地**:高関連性は28.3%のみ
- **低ノイズ**:低関連性は5.7%のみで、不要な結果が少ない
## 結論
### 総合評価
| 指標 | 値 | 評価 |
| --- | --- | --- |
| 平均検索スコア | 0.527 | 良好 |
| 高関連性率 | 28.3% | 要改善 |
| 低関連性率 | 5.7% | 優秀 |
| データソースバランス | 小54.7%/大45.3% | バランス良好 |
### 総括
本分析の結果、デュアルデータソース戦略は**概ね機能**していますが、改善の余地があります。
平均スコア 0.527、高関連性率 28.3%、低関連性率 5.7% という結果でした。低関連性率が低いため、不要な結果が少ないことを示しています。大半の検索結果が一定以上の関連性を持っている一方、高関連性率が 28% しかなく、クエリに一致する検索結果は多くありません。平均スコアも 0.6 を超えていないため、全体的に検索精度が高いとは言えません。しかし、データソースバランスをみると、それぞれのデータソースを効果的に活用していることがわかります。
デュアルデータソース構成と単一データソース構成の比較分析結果
分析結果
# ナレッジベース比較分析レポート
## 実行日時
2026年01月31日
## 分析概要
- **分析クエリ数**: 10
- **比較対象**:
- 小チャンク設定のみKB: **********
- 大チャンク設定のみKB: **********
- デュアルデータソースKB: **********
## チャンクサイズ設定
| 種別 | Parent | Child |
| --- | --- | --- |
| 小チャンク設定 | 800トークン | 300トークン |
| 大チャンク設定 | 2500トークン | 1000トークン |
## ナレッジベース別パフォーマンス
| ナレッジベース | 平均スコア | 最高スコア | 平均結果数 | 標準偏差 |
| --- | --- | --- | --- | --- |
| 小チャンク設定のみ | 0.483 | 0.795 | 5.1 | 0.086 |
| 大チャンク設定のみ | 0.446 | 0.753 | 6.8 | 0.073 |
| デュアルデータソース | 0.526 | 0.786 | 5.3 | 0.074 |
## クエリ別詳細比較
### クエリ1: GPT-3のパラメータ数は何億ですか?
| KB種別 | 平均スコア | 最高スコア | 結果数 |
| --- | --- | --- | --- |
| 小チャンク設定のみ | 0.391 | 0.455 | 6 |
| 大チャンク設定のみ | 0.391 | 0.474 | 7 |
| デュアルデータソース | 0.476 | 0.670 | 5 |
### クエリ2: OpenAI o1モデルはアメリカ数学オリンピック予選の何パーセントを解けましたか?
| KB種別 | 平均スコア | 最高スコア | 結果数 |
| --- | --- | --- | --- |
| 小チャンク設定のみ | 0.544 | 0.643 | 2 |
| 大チャンク設定のみ | 0.412 | 0.439 | 7 |
| デュアルデータソース | 0.500 | 0.645 | 4 |
### クエリ3: DeepSeek-R1の開発コストは約何億円ですか?
| KB種別 | 平均スコア | 最高スコア | 結果数 |
| --- | --- | --- | --- |
| 小チャンク設定のみ | 0.493 | 0.647 | 3 |
| 大チャンク設定のみ | 0.390 | 0.411 | 8 |
| デュアルデータソース | 0.479 | 0.646 | 4 |
### クエリ4: AI活力ランキング2023年で日本は何位ですか?
| KB種別 | 平均スコア | 最高スコア | 結果数 |
| --- | --- | --- | --- |
| 小チャンク設定のみ | 0.525 | 0.795 | 6 |
| 大チャンク設定のみ | 0.511 | 0.753 | 8 |
| デュアルデータソース | 0.583 | 0.786 | 9 |
### クエリ5: 日本の生成AI利用率は2024年度調査で何パーセントですか?
| KB種別 | 平均スコア | 最高スコア | 結果数 |
| --- | --- | --- | --- |
| 小チャンク設定のみ | 0.638 | 0.729 | 4 |
| 大チャンク設定のみ | 0.579 | 0.657 | 6 |
| デュアルデータソース | 0.665 | 0.710 | 6 |
### クエリ6: Teslaが開発している人型ロボットの名前は何ですか?
| KB種別 | 平均スコア | 最高スコア | 結果数 |
| --- | --- | --- | --- |
| 小チャンク設定のみ | 0.425 | 0.508 | 6 |
| 大チャンク設定のみ | 0.417 | 0.567 | 7 |
| デュアルデータソース | 0.517 | 0.594 | 4 |
### クエリ7: 富士通とCohereが開発した日本語LLMの名前は何ですか?
| KB種別 | 平均スコア | 最高スコア | 結果数 |
| --- | --- | --- | --- |
| 小チャンク設定のみ | 0.421 | 0.485 | 7 |
| 大チャンク設定のみ | 0.406 | 0.476 | 7 |
| デュアルデータソース | 0.543 | 0.563 | 2 |
### クエリ8: 2024年12月に設立されたAIロボット協会の略称は何ですか?
| KB種別 | 平均スコア | 最高スコア | 結果数 |
| --- | --- | --- | --- |
| 小チャンク設定のみ | 0.434 | 0.551 | 7 |
| 大チャンク設定のみ | 0.418 | 0.456 | 7 |
| デュアルデータソース | 0.450 | 0.605 | 8 |
### クエリ9: Microsoft Phi-4のパラメータ数は何億ですか?
| KB種別 | 平均スコア | 最高スコア | 結果数 |
| --- | --- | --- | --- |
| 小チャンク設定のみ | 0.384 | 0.442 | 6 |
| 大チャンク設定のみ | 0.384 | 0.442 | 6 |
| デュアルデータソース | 0.437 | 0.524 | 6 |
### クエリ10: 日本企業が生成AI導入で最も懸念する事項は何ですか?
| KB種別 | 平均スコア | 最高スコア | 結果数 |
| --- | --- | --- | --- |
| 小チャンク設定のみ | 0.577 | 0.738 | 4 |
| 大チャンク設定のみ | 0.554 | 0.745 | 5 |
| デュアルデータソース | 0.607 | 0.738 | 5 |
## デュアルデータソース戦略の効果分析
### 性能比較
- **デュアルデータソース vs 小チャンク設定のみ**: +8.8%
- **デュアルデータソース vs 大チャンク設定のみ**: +17.9%
### 評価
✅ **デュアルデータソース戦略が最も効果的です**
## 結論
### 総合評価
| 評価項目 | 最良戦略 | 値 |
| --- | --- | --- |
| 平均検索スコア | デュアルデータソース | 0.526 |
| 安定性(標準偏差最小) | 大チャンク設定のみ | 0.073 |
### 推奨事項
- **デュアルデータソース戦略の継続使用を推奨**:平均検索スコアが最も高い
この検証では、ナレッジベース 1(小チャンクデータソースのみ)、ナレッジベース 2(大チャンクデータソースのみ)、ナレッジベース 3(デュアルデータソース構成)の 3 つのナレッジベースそれぞれに対して、10 のテストクエリで検索精度を比較しました。
ナレッジベース別パフォーマンスの平均スコアをもとに性能比較を行った結果、単体のデータソース構成よりもデュアルデータソース構成が最も効果的であることがわかりました。
デュアルデータソース構成(平均スコア 0.526)が、小チャンクのみ(0.483)と大チャンクのみ(0.446)の単純平均(0.465)を大きく上回る理由は、以下の相乗効果によるものと考えられます。
- 異なるチャンクサイズから得られる結果により、情報の見落としを防ぐ
- 小チャンクで見逃した文脈を大チャンクが補完
- 大チャンクで埋もれた具体的情報を小チャンクが抽出
検証 2
検証 2 では以下の構成で、3 つのナレッジベースを構築しました。検証 1 との違いは、パーサーを Anthropic Claude 3.5 Sonnet v1 から Amazon Nova Pro v1 に変更した点のみです。
Amazon Bedrock Knowledge Bases(3 つの構成)
共通設定
| 設定項目 | 値 |
|---|---|
| Embeddings model | Amazon Titan Text Embedding V2 |
| Parsing strategy | Foundation models as a parser |
| Foundation model for parsing | Amazon Nova Pro v1 |
| Chunking strategy | Hierarchical chunking |
ナレッジベース1: 小チャンクデータソースのみ
| 設定項目 | 値 |
|---|---|
| Max parent token size | 800 |
| Max child token size | 300 |
| Overlap tokens between chunks | 50 |
ナレッジベース2: 大チャンクデータソースのみ
| 設定項目 | 値 |
|---|---|
| Max parent token size | 2500 |
| Max child token size | 1000 |
| Overlap tokens between chunks | 100 |
ナレッジベース3: デュアルデータソース構成
| 設定項目 | 値 |
|---|---|
| Data Source 1 | 小チャンクデータソースのみのナレッジベース |
| Data Source 2 | 大チャンクデータソースのみのナレッジベース |
分析結果
デュアルデータソース構成の分析結果
分析結果
# デュアルデータソース戦略分析レポート
## 実行日時
2026年01月31日
## 分析対象
- **Knowledge Base ID**: OCMY4XACYC
- **構成**: 2つのデータソース(小チャンク設定 + 大チャンク設定)
- **チャンク戦略**: Hierarchical Chunking(Parent-Child 2層構造)
## チャンクサイズ設定
| 種別 | Parent | Child |
| --- | --- | --- |
| 小チャンク設定 | 800トークン | 300トークン |
| 大チャンク設定 | 2500トークン | 1000トークン |
## 全体統計
### 基本指標
- **総クエリ数**: 10
- **平均検索スコア**: 0.528
- **平均コンテンツ長**: 1771文字
- **総検索結果数**: 53件
## チャンクタイプ分布
| タイプ | 件数 | 割合 |
| --- | --- | --- |
| 小チャンク設定 | 30件 | 56.6% |
| 大チャンク設定 | 23件 | 43.4% |
## 関連性分布
| レベル | 件数 | 割合 |
| --- | --- | --- |
| 高 (high) | 15件 | 28.3% |
| 中 (medium) | 36件 | 67.9% |
| 低 (low) | 2件 | 3.8% |
### クエリ別詳細分析
### クエリ1: GPT-3のパラメータ数は何億ですか?
- **平均スコア**: 0.514
- **結果数**: 4件
- **平均長**: 2022文字
- **チャンク構成**: small=2件, large=2件
- **関連性**: high=1件, medium=3件
### クエリ2: OpenAI o1モデルはアメリカ数学オリンピック予選の何パーセントを解けましたか?
- **平均スコア**: 0.482
- **結果数**: 5件
- **平均長**: 1576文字
- **チャンク構成**: small=3件, large=2件
- **関連性**: high=1件, medium=4件
### クエリ3: DeepSeek-R1の開発コストは約何億円ですか?
- **平均スコア**: 0.571
- **結果数**: 4件
- **平均長**: 1299文字
- **チャンク構成**: large=1件, small=3件
- **関連性**: high=2件, medium=2件
### クエリ4: AI活力ランキング2023年で日本は何位ですか?
- **平均スコア**: 0.569
- **結果数**: 9件
- **平均長**: 1935文字
- **チャンク構成**: small=4件, large=5件
- **関連性**: high=3件, medium=6件
### クエリ5: 日本の生成AI利用率は2024年度調査で何パーセントですか?
- **平均スコア**: 0.623
- **結果数**: 6件
- **平均長**: 1620文字
- **チャンク構成**: large=3件, small=3件
- **関連性**: high=5件, medium=1件
### クエリ6: Teslaが開発している人型ロボットの名前は何ですか?
- **平均スコア**: 0.531
- **結果数**: 4件
- **平均長**: 2844文字
- **チャンク構成**: small=2件, large=2件
- **関連性**: high=1件, medium=3件
### クエリ7: 富士通とCohereが開発した日本語LLMの名前は何ですか?
- **平均スコア**: 0.505
- **結果数**: 3件
- **平均長**: 1816文字
- **チャンク構成**: small=2件, large=1件
- **関連性**: medium=3件
### クエリ8: 2024年12月に設立されたAIロボット協会の略称は何ですか?
- **平均スコア**: 0.445
- **結果数**: 8件
- **平均長**: 1717文字
- **チャンク構成**: small=5件, large=3件
- **関連性**: medium=8件
### クエリ9: Microsoft Phi-4のパラメータ数は何億ですか?
- **平均スコア**: 0.441
- **結果数**: 6件
- **平均長**: 1523文字
- **チャンク構成**: small=4件, large=2件
- **関連性**: medium=4件, low=2件
### クエリ10: 日本企業が生成AI導入で最も懸念する事項は何ですか?
- **平均スコア**: 0.627
- **結果数**: 4件
- **平均長**: 1471文字
- **チャンク構成**: small=2件, large=2件
- **関連性**: high=2件, medium=2件
### デュアルデータソース戦略の効果分析
#### データソース利用分析
- **バランス型**(小56.6% / 大43.4%):両データソースを効果的に活用
### 検索品質分析
- **検索精度に改善余地**:高関連性は28.3%のみ
- **低ノイズ**:低関連性は3.8%のみで、不要な結果が少ない
## 結論
### 総合評価
| 指標 | 値 | 評価 |
| --- | --- | --- |
| 平均検索スコア | 0.528 | 良好 |
| 高関連性率 | 28.3% | 要改善 |
| 低関連性率 | 3.8% | 優秀 |
| データソースバランス | 小56.6%/大43.4% | バランス良好 |
### 総括
本分析の結果、デュアルデータソース戦略は**概ね機能**していますが、改善の余地があります。
検証 1 の結果と比較して、パーサーを Amazon Nova Pro v1 に変更したことで低関連性率が 5.7% から 3.8% に改善しました。さらに、平均コンテンツ長が 1805 文字から 1771 文字に短縮されました。データソースバランスでも小チャンクの割合が増加しているので、小チャンク設定のデータソースをより効果的に活用していることがわかります。これらから、パーサーに Nova Pro を利用することで、より短くより関連性の高い結果を得つつ、大チャンクも効果的に活用できると考えられます。
デュアルデータソース構成と単一データソース構成の比較分析結果
分析結果
# ナレッジベース比較分析レポート
## 実行日時
2026年01月31日
## 分析概要
- **分析クエリ数**: 10
- **比較対象**:
- 小チャンク設定のみKB: **********
- 大チャンク設定のみKB: **********
- デュアルデータソースKB: **********
## チャンクサイズ設定
| 種別 | Parent | Child |
| --- | --- | --- |
| 小チャンク設定 | 800トークン | 300トークン |
| 大チャンク設定 | 2500トークン | 1000トークン |
## ナレッジベース別パフォーマンス
| ナレッジベース | 平均スコア | 最高スコア | 平均結果数 | 標準偏差 |
| --- | --- | --- | --- | --- |
| 小チャンク設定のみ | 0.504 | 0.747 | 4.7 | 0.063 |
| 大チャンク設定のみ | 0.468 | 0.740 | 5.2 | 0.071 |
| デュアルデータソース | 0.531 | 0.724 | 5.3 | 0.066 |
## クエリ別詳細比較
### クエリ1: GPT-3のパラメータ数は何億ですか?
| KB種別 | 平均スコア | 最高スコア | 結果数 |
| --- | --- | --- | --- |
| 小チャンク設定のみ | 0.481 | 0.670 | 4 |
| 大チャンク設定のみ | 0.421 | 0.477 | 4 |
| デュアルデータソース | 0.514 | 0.670 | 4 |
### クエリ2: OpenAI o1モデルはアメリカ数学オリンピック予選の何パーセントを解けましたか?
| KB種別 | 平均スコア | 最高スコア | 結果数 |
| --- | --- | --- | --- |
| 小チャンク設定のみ | 0.455 | 0.643 | 6 |
| 大チャンク設定のみ | 0.424 | 0.475 | 6 |
| デュアルデータソース | 0.482 | 0.645 | 5 |
### クエリ3: DeepSeek-R1の開発コストは約何億円ですか?
| KB種別 | 平均スコア | 最高スコア | 結果数 |
| --- | --- | --- | --- |
| 小チャンク設定のみ | 0.461 | 0.651 | 6 |
| 大チャンク設定のみ | 0.415 | 0.577 | 7 |
| デュアルデータソース | 0.571 | 0.693 | 4 |
### クエリ4: AI活力ランキング2023年で日本は何位ですか?
| KB種別 | 平均スコア | 最高スコア | 結果数 |
| --- | --- | --- | --- |
| 小チャンク設定のみ | 0.546 | 0.747 | 6 |
| 大チャンク設定のみ | 0.539 | 0.674 | 6 |
| デュアルデータソース | 0.569 | 0.722 | 9 |
### クエリ5: 日本の生成AI利用率は2024年度調査で何パーセントですか?
| KB種別 | 平均スコア | 最高スコア | 結果数 |
| --- | --- | --- | --- |
| 小チャンク設定のみ | 0.623 | 0.691 | 4 |
| 大チャンク設定のみ | 0.602 | 0.734 | 5 |
| デュアルデータソース | 0.623 | 0.656 | 6 |
### クエリ6: Teslaが開発している人型ロボットの名前は何ですか?
| KB種別 | 平均スコア | 最高スコア | 結果数 |
| --- | --- | --- | --- |
| 小チャンク設定のみ | 0.564 | 0.614 | 2 |
| 大チャンク設定のみ | 0.450 | 0.573 | 4 |
| デュアルデータソース | 0.531 | 0.614 | 4 |
### クエリ7: 富士通とCohereが開発した日本語LLMの名前は何ですか?
| KB種別 | 平均スコア | 最高スコア | 結果数 |
| --- | --- | --- | --- |
| 小チャンク設定のみ | 0.473 | 0.559 | 3 |
| 大チャンク設定のみ | 0.443 | 0.520 | 4 |
| デュアルデータソース | 0.505 | 0.559 | 3 |
### クエリ8: 2024年12月に設立されたAIロボット協会の略称は何ですか?
| KB種別 | 平均スコア | 最高スコア | 結果数 |
| --- | --- | --- | --- |
| 小チャンク設定のみ | 0.440 | 0.560 | 8 |
| 大チャンク設定のみ | 0.418 | 0.467 | 7 |
| デュアルデータソース | 0.445 | 0.565 | 8 |
### クエリ9: Microsoft Phi-4のパラメータ数は何億ですか?
| KB種別 | 平均スコア | 最高スコア | 結果数 |
| --- | --- | --- | --- |
| 小チャンク設定のみ | 0.443 | 0.538 | 4 |
| 大チャンク設定のみ | 0.409 | 0.446 | 4 |
| デュアルデータソース | 0.441 | 0.538 | 6 |
### クエリ10: 日本企業が生成AI導入で最も懸念する事項は何ですか?
| KB種別 | 平均スコア | 最高スコア | 結果数 |
| --- | --- | --- | --- |
| 小チャンク設定のみ | 0.559 | 0.664 | 4 |
| 大チャンク設定のみ | 0.558 | 0.740 | 5 |
| デュアルデータソース | 0.627 | 0.724 | 4 |
## デュアルデータソース戦略の効果分析
### 性能比較
- **デュアルデータソース vs 小チャンク設定のみ**: +5.2%
- **デュアルデータソース vs 大チャンク設定のみ**: +13.4%
### 評価
✅ **デュアルデータソース戦略が最も効果的です**
## 結論
### 総合評価
| 評価項目 | 最良戦略 | 値 |
| --- | --- | --- |
| 平均検索スコア | デュアルデータソース | 0.531 |
| 安定性(標準偏差最小) | 小チャンク設定のみ | 0.063 |
### 推奨事項
- **デュアルデータソース戦略の継続使用を推奨**:平均検索スコアが最も高い
デュアルデータソース戦略が最も高い平均スコアを示しています。検証 1(Claude 3.5 Sonnet)から検証 2(Nova Pro v1)への変更により、以下の改善が観察されました。
- ノイズ削減の改善
- デュアルデータソース構成の低関連性率: 5.7% → 3.8%
- 検索結果の質が向上し、不要な情報が減少
- コンテンツの効率化
- 平均コンテンツ長: 1805 文字 → 1771 文字(-1.9%)
- より簡潔なチャンク生成により、LLM への入力トークン数を削減
- 小チャンクの活用促進
- 小チャンク割合: 54.7% → 56.6%
- Nova Pro の正確な文書解析により、小チャンクデータソースがより効果的に活用される
検証1との性能比較
| 指標 | 検証1(Claude) | 検証2(Nova Pro) | 変化 |
|---|---|---|---|
| 平均スコア | 0.527 | 0.528 | +0.2% |
| 性能向上率(小) | +8.8% | +5.2% | -3.6pt |
| 性能向上率(大) | +17.9% | +13.4% | -4.5pt |
| 低関連性率 | 5.7% | 3.8% | -1.9pt |
検証 3
検証 3 では、埋め込みモデルを Amazon Titan Text Embedding V2 から日本語に強い Cohere Embed Multilingual v3 に変更しました。このモデルは Max parent token size の上限が 512 トークンのため、チャンクサイズとオーバーラップの値を調整しました。
Amazon Bedrock Knowledge Bases(3 つの構成)
共通設定
| 設定項目 | 値 |
|---|---|
| Embeddings model | Cohere Embed Multilingual v3 |
| Parsing strategy | Foundation models as a parser |
| Foundation model for parsing | Amazon Nova Pro v1 |
| Chunking strategy | Hierarchical chunking |
ナレッジベース1: 小チャンクデータソースのみ
| 設定項目 | 値 |
|---|---|
| Max parent token size | 400 |
| Max child token size | 180 |
| Overlap tokens between chunks | 12 |
ナレッジベース2: 大チャンクデータソースのみ
| 設定項目 | 値 |
|---|---|
| Max parent token size | 512 |
| Max child token size | 2200 |
| Overlap tokens between chunks | 18 |
ナレッジベース3: デュアルデータソース構成
| 設定項目 | 値 |
|---|---|
| Data Source 1 | 小チャンクデータソースのみのナレッジベース |
| Data Source 2 | 大チャンクデータソースのみのナレッジベース |
分析結果
デュアルデータソース構成の分析結果
分析結果
# デュアルデータソース戦略分析レポート
## 実行日時
2026年01月31日
## 分析対象
- **Knowledge Base ID**: FNHCPWCWDN
- **構成**: 2つのデータソース(小チャンク設定 + 大チャンク設定)
- **チャンク戦略**: Hierarchical Chunking(Parent-Child 2層構造)
## チャンクサイズ設定
| 種別 | Parent | Child |
| --- | --- | --- |
| 小チャンク設定 | 400トークン | 180トークン |
| 大チャンク設定 | 512トークン | 220トークン |
## 全体統計
### 基本指標
- **総クエリ数**: 10
- **平均検索スコア**: 0.614
- **平均コンテンツ長**: 1686文字
- **総検索結果数**: 55件
### チャンクタイプ分布
| タイプ | 件数 | 割合 |
| --- | --- | --- |
| 小チャンク設定 | 27件 | 49.1% |
| 大チャンク設定 | 28件 | 50.9% |
### 関連性分布
| レベル | 件数 | 割合 |
| --- | --- | --- |
| 高 (high) | 29件 | 52.7% |
| 中 (medium) | 26件 | 47.3% |
| 低 (low) | 0件 | 0.0% |
## クエリ別詳細分析
### クエリ1: GPT-3のパラメータ数は何億ですか?
- **平均スコア**: 0.641
- **結果数**: 4件
- **平均長**: 2240文字
- **チャンク構成**: small=2件, large=2件
- **関連性**: high=4件
### クエリ2: OpenAI o1モデルはアメリカ数学オリンピック予選の何パーセントを解けましたか?
- **平均スコア**: 0.565
- **結果数**: 8件
- **平均長**: 1226文字
- **チャンク構成**: small=4件, large=4件
- **関連性**: high=1件, medium=7件
### クエリ3: DeepSeek-R1の開発コストは約何億円ですか?
- **平均スコア**: 0.637
- **結果数**: 6件
- **平均長**: 882文字
- **チャンク構成**: large=2件, small=4件
- **関連性**: high=5件, medium=1件
### クエリ4: AI活力ランキング2023年で日本は何位ですか?
- **平均スコア**: 0.625
- **結果数**: 7件
- **平均長**: 2212文字
- **チャンク構成**: small=3件, large=4件
- **関連性**: high=4件, medium=3件
### クエリ5: 日本の生成AI利用率は2024年度調査で何パーセントですか?
- **平均スコア**: 0.691
- **結果数**: 6件
- **平均長**: 1752文字
- **チャンク構成**: small=3件, large=3件
- **関連性**: high=6件
### クエリ6: Teslaが開発している人型ロボットの名前は何ですか?
- **平均スコア**: 0.618
- **結果数**: 2件
- **平均長**: 2211文字
- **チャンク構成**: small=1件, large=1件
- **関連性**: high=2件
### クエリ7: 富士通とCohereが開発した日本語LLMの名前は何ですか?
- **平均スコア**: 0.626
- **結果数**: 4件
- **平均長**: 1821文字
- **チャンク構成**: large=2件, small=2件
- **関連性**: high=2件, medium=2件
### クエリ8: 2024年12月に設立されたAIロボット協会の略称は何ですか?
- **平均スコア**: 0.570
- **結果数**: 8件
- **平均長**: 1854文字
- **チャンク構成**: large=5件, small=3件
- **関連性**: high=1件, medium=7件
### クエリ9: Microsoft Phi-4のパラメータ数は何億ですか?
- **平均スコア**: 0.564
- **結果数**: 6件
- **平均長**: 1730文字
- **チャンク構成**: small=3件, large=3件
- **関連性**: medium=6件
### クエリ10: 日本企業が生成AI導入で最も懸念する事項は何ですか?
- **平均スコア**: 0.667
- **結果数**: 4件
- **平均長**: 1434文字
- **チャンク構成**: large=2件, small=2件
- **関連性**: high=4件
## デュアルデータソース戦略の効果分析
### データソース利用分析
- **バランス型**(小49.1% / 大50.9%):両データソースを効果的に活用
### 検索品質分析
- **高品質な検索結果**:高関連性が52.7%を占め、優れた検索精度
- **低ノイズ**:低関連性は0.0%のみで、不要な結果が少ない
## 結論
### 総合評価
| 指標 | 値 | 評価 |
| --- | --- | --- |
| 平均検索スコア | 0.614 | 優秀 |
| 高関連性率 | 52.7% | 良好 |
| 低関連性率 | 0.0% | 優秀 |
| データソースバランス | 小49.1%/大50.9% | バランス良好 |
### 総括
本分析の結果、デュアルデータソース戦略は**効果的に機能**しています。平均スコア0.614、高関連性率52.7%、低関連性率0.0%という結果は良好な性能を示しています。
この検証では、平均スコア 0.614、高関連性率 52.7%、低関連性率 0.0% という結果でした。
検証 1・2(Titan V2)から検証 3(Cohere Multilingual v3)への変更により、以下の劇的な改善が観察されました。
| 指標 | 検証1/2(Titan) | 検証3(Cohere) | 改善率 |
|---|---|---|---|
| 平均スコア | 0.527/0.528 | 0.614 | +16.3% |
| 高関連性率 | 28.3% | 52.7% | +86.2% |
| 低関連性率 | 5.7%/3.8% | 0.0% | -100% |
デュアルデータソース構成と単一データソース構成の比較分析結果
分析結果
# ナレッジベース比較分析レポート
## 実行日時
2026年01月31日
## 分析概要
- **分析クエリ数**: 10
- **比較対象**:
- 小チャンク設定のみKB: X4IMGRMTOW
- 大チャンク設定のみKB: BK32PT5AIW
- デュアルデータソースKB: FNHCPWCWDN
## チャンクサイズ設定
| 種別 | Parent | Child |
| --- | --- | --- |
| 小チャンク設定 | 400トークン | 180トークン |
| 大チャンク設定 | 512トークン | 220トークン |
## ナレッジベース別パフォーマンス
| ナレッジベース | 平均スコア | 最高スコア | 平均結果数 | 標準偏差 |
| --- | --- | --- | --- | --- |
| 小チャンク設定のみ | 0.592 | 0.718 | 4.7 | 0.049 |
| 大チャンク設定のみ | 0.594 | 0.708 | 4.2 | 0.043 |
| デュアルデータソース | 0.620 | 0.708 | 5.6 | 0.043 |
## クエリ別詳細比較
### クエリ1: GPT-3のパラメータ数は何億ですか?
| KB種別 | 平均スコア | 最高スコア | 結果数 |
| --- | --- | --- | --- |
| 小チャンク設定のみ | 0.595 | 0.698 | 4 |
| 大チャンク設定のみ | 0.588 | 0.633 | 3 |
| デュアルデータソース | 0.641 | 0.698 | 4 |
### クエリ2: OpenAI o1モデルはアメリカ数学オリンピック予選の何パーセントを解けましたか?
| KB種別 | 平均スコア | 最高スコア | 結果数 |
| --- | --- | --- | --- |
| 小チャンク設定のみ | 0.540 | 0.616 | 7 |
| 大チャンク設定のみ | 0.529 | 0.584 | 7 |
| デュアルデータソース | 0.565 | 0.705 | 8 |
### クエリ3: DeepSeek-R1の開発コストは約何億円ですか?
| KB種別 | 平均スコア | 最高スコア | 結果数 |
| --- | --- | --- | --- |
| 小チャンク設定のみ | 0.595 | 0.698 | 6 |
| 大チャンク設定のみ | 0.594 | 0.708 | 5 |
| デュアルデータソース | 0.637 | 0.708 | 6 |
### クエリ4: AI活力ランキング2023年で日本は何位ですか?
| KB種別 | 平均スコア | 最高スコア | 結果数 |
| --- | --- | --- | --- |
| 小チャンク設定のみ | 0.588 | 0.698 | 7 |
| 大チャンク設定のみ | 0.594 | 0.672 | 6 |
| デュアルデータソース | 0.618 | 0.688 | 8 |
### クエリ5: 日本の生成AI利用率は2024年度調査で何パーセントですか?
| KB種別 | 平均スコア | 最高スコア | 結果数 |
| --- | --- | --- | --- |
| 小チャンク設定のみ | 0.706 | 0.718 | 3 |
| 大チャンク設定のみ | 0.693 | 0.703 | 3 |
| デュアルデータソース | 0.691 | 0.708 | 6 |
### クエリ6: Teslaが開発している人型ロボットの名前は何ですか?
| KB種別 | 平均スコア | 最高スコア | 結果数 |
| --- | --- | --- | --- |
| 小チャンク設定のみ | 0.573 | 0.623 | 3 |
| 大チャンク設定のみ | 0.595 | 0.624 | 2 |
| デュアルデータソース | 0.618 | 0.623 | 2 |
### クエリ7: 富士通とCohereが開発した日本語LLMの名前は何ですか?
| KB種別 | 平均スコア | 最高スコア | 結果数 |
| --- | --- | --- | --- |
| 小チャンク設定のみ | 0.587 | 0.670 | 4 |
| 大チャンク設定のみ | 0.585 | 0.677 | 4 |
| デュアルデータソース | 0.626 | 0.679 | 4 |
### クエリ8: 2024年12月に設立されたAIロボット協会の略称は何ですか?
| KB種別 | 平均スコア | 最高スコア | 結果数 |
| --- | --- | --- | --- |
| 小チャンク設定のみ | 0.550 | 0.588 | 6 |
| 大チャンク設定のみ | 0.582 | 0.669 | 4 |
| デュアルデータソース | 0.570 | 0.674 | 8 |
### クエリ9: Microsoft Phi-4のパラメータ数は何億ですか?
| KB種別 | 平均スコア | 最高スコア | 結果数 |
| --- | --- | --- | --- |
| 小チャンク設定のみ | 0.550 | 0.578 | 4 |
| 大チャンク設定のみ | 0.557 | 0.573 | 4 |
| デュアルデータソース | 0.564 | 0.578 | 6 |
### クエリ10: 日本企業が生成AI導入で最も懸念する事項は何ですか?
| KB種別 | 平均スコア | 最高スコア | 結果数 |
| --- | --- | --- | --- |
| 小チャンク設定のみ | 0.640 | 0.708 | 3 |
| 大チャンク設定のみ | 0.625 | 0.692 | 4 |
| デュアルデータソース | 0.668 | 0.706 | 4 |
## デュアルデータソース戦略の効果分析
### 性能比較
- **デュアルデータソース vs 小チャンク設定のみ**: +4.6%
- **デュアルデータソース vs 大チャンク設定のみ**: +4.3%
### 評価
✅ **デュアルデータソース戦略が最も効果的です**
## 結論
### 総合評価
| 評価項目 | 最良戦略 | 値 |
| --- | --- | --- |
| 平均検索スコア | デュアルデータソース | 0.620 |
| 安定性(標準偏差最小) | デュアルデータソース, 大チャンク設定のみ | 0.043 |
### 推奨事項
- **デュアルデータソース戦略の継続使用を推奨**:平均検索スコアが最も高い
単体のデータソース構成とデュアルデータソース構成ともに平均検索スコアが 0.6 付近であることから、埋め込みモデルに Cohere Embed Multilingual v3 を利用することで高精度な検索結果を得られると考えられます。デュアルデータソース構成の標準偏差は 0.043 で、大チャンクのみの構成と同値です。これは、大チャンクのみの構成と同等の安定性を維持しながら、より高い平均性能を実現していることを示しています。
まとめ
本記事では、Amazon Bedrock Knowledge Bases を用いた Hierarchical Chunking 戦略とデュアルデータソース構成の効果を検証しました。
- デュアルデータソース構成は、単一データソース構成と比較して 4.3〜17.9% の性能向上を実現
- Cohere Embed Multilingual v3 埋め込みモデルとの組み合わせで最高性能(平均スコア 0.620)を達成
3 つの検証すべてにおいて、デュアルデータソース構成が平均検索スコアにおいて優れていることがわかりました。
| 検証 | パーサー | 埋め込みモデル | 小チャンクのみ | 大チャンクのみ | デュアル構成 | 向上率 |
|---|---|---|---|---|---|---|
| 検証1 | Claude 3.5 Sonnet | Titan V2 | 0.483 | 0.446 | 0.526 | +8.8〜17.9% |
| 検証2 | Nova Pro v1 | Titan V2 | 0.504 | 0.468 | 0.531 | +5.2〜13.4% |
| 検証3 | Nova Pro v1 | Cohere Multilingual v3 | 0.592 | 0.594 | 0.620 | +4.3〜4.6% |
今回は検索のみで LLM による回答の生成は行っていません。この検証の結果から、デュアルデータソース構成が最も効果的であることがわかりました。しかし、実際の RAG システムでは、検索だけでなく LLM による回答の生成も必要です。次回の検証では、デュアルデータソース構成を利用した RAG システムにおいて、LLM による回答の生成を行う検証を行う予定です。
注意点
今回の検証では、構造化された PDF 文書に対して最適なチャンクサイズを検討し、設定しました。そのため、汎用的な値ではないことに注意が必要です。構造化されていない文書や、さまざまな種類の文書が混在する環境では、デュアルデータソース構成が期待どおりに機能しない可能性があります。