More than 1 year has passed since last update.

Knowledge Bases for Amazon Bedrock のチャンキング戦略を整理する

Posted at 2024-08-12

Knowledge bases for Amazon Bedrock のチャンキング戦略が追加されていたので、ユースケースを整理します。
(順次追記予定）

KB のチャンキング戦略

現在選択できるチャンキング戦略は次のとおりです。

英語名	日本語訳	説明
default chunking	デフォルトチャンキング	コンテンツをデフォルトサイズのチャンクに分割
Fixed-size chunking	固定サイズチャンキング	コンテンツを固定サイズのチャンクに分割
Hierarchical chunking	階層的チャンキング	情報を子チャンクと親チャンクの入れ子構造に整理する
Semantic chunking	セマンティックチャンキング	サイズだけでなく内容に基づいてテキストを意味のあるチャンクに分割
no chunking	チャンキングなし	チャンキング済のテキストを用意した場合に選択する

テキストを親チャンクと子チャンクに分けて整理する
RAG をする際は子チャンク側で検索を行い、親チャンクを返却する
入れ子構造だったり、階層構造をもつ文章に効果的。例えば、技術マニュアルとか、法的な文書、学術論文など
サーバーワークスさんの記事が詳しい
RAGの精度向上がお手軽に！Amazon Bedrock のKnowledge BasesでAdvanced RAG機能がリリースされました - サーバーワークスエンジニアブログ