1
1

Knowledge Bases for Amazon Bedrock のチャンキング戦略を整理する

Posted at

Knowledge bases for Amazon Bedrock のチャンキング戦略が追加されていたので、ユースケースを整理します。
(順次追記予定)

KB のチャンキング戦略

現在選択できるチャンキング戦略は次のとおりです。

英語名 日本語訳 説明
default chunking デフォルトチャンキング コンテンツをデフォルトサイズのチャンクに分割
Fixed-size chunking 固定サイズチャンキング コンテンツを固定サイズのチャンクに分割
Hierarchical chunking 階層的チャンキング 情報を子チャンクと親チャンクの入れ子構造に整理する
Semantic chunking セマンティックチャンキング サイズだけでなく内容に基づいてテキストを意味のあるチャンクに分割
no chunking チャンキングなし チャンキング済のテキストを用意した場合に選択する

デフォルトチャンキング

  • デフォルトチャンキングでは、テキストを約300トークンのチャンクに分割する
  • ただし、文章が意味不明なところで勝手に区切られないように、文章の区切りを意識して分割する

固定サイズチャンキング

  • チャンクごとのトークン数と重複率を指定することで、希望したサイズでチャンキングを行うことができる
  • 重複率は「前後のチャンクとの重なり」のこと

階層的チャンキング

セマンティックチャンキング

  • Semantic(意味的)という名前の通り、Embedding モデルによって計算された「文章の意味の近さ(=類似度)」に基づいてチャンク分割をする
  • ほとんどのユースケースで検索精度が向上する(らしい)
  • 本のテキストを分割 -> ベクトル化 -> 類似度が近いものを結合 のような動きをするらしい

参考

1
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1