RDBとベクトルDBの違い

Last updated at 2025-11-16Posted at 2025-11-16

前回、ベクトル比較について書いた。
学習量が多ければ多いほど、RDBだと全部検索時間かかると思っていた。

そしたらベクトルDBなるものがあった。
のでまとめとく。

1. 役割の違い

RDB（MySQL / PostgreSQL）
→ 条件検索・集計・リレーション管理が得意
→ SQL を使って「正確一致」や「範囲検索」を行う
ベクトルDB（Qdrant / Pinecone / Chroma）
→ 文書・画像・音声などを「似ている順」に検索するためのDB
→ コサイン類似度などで「類似検索」が高速にできる

種類	構造
RDB	id / title / body / created_at / ...
ベクトルDB	id / vector[1536次元] / payload(json)

ベクトルDBの例

{
  "id": 1,
  "vector": [0.12, -0.55, ...],
  "payload": {
    "text": "返品方法を教えて",
    "category": "返品"
  }
}

WHERE name = 'A'
WHERE price > 1000

embedding と保存済みベクトルを比較し
「似ている上位5件」のように返す。

embedding を保存すると
→ 類似度検索は全件比較（遅い）

→ HNSW / IVF / PQ などのインデックスを使い
→ 数百万件でも 10〜30ms で返す

それぞれがどの用な処理をしているかは省いた。
どんな役割があるかだけ書いた。

[ベクトルA]───[ベクトルB]───[ベクトルC]
       \             │              \
        \            │               \
         └────[ベクトルD]──────[ベクトルE]

これらにより、ベクトルDBは
全レコードを brute-force しなくても類似検索ができる。

キャンプのしおりを学習させて、「消灯時間はいつ？」とか「ごみの捨てる時間は何時？」とかに答えられるボットも作成できそうだな。