1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

ChromaDB入門:保存できるデータと個人開発での活用法

Posted at

ChromaDBとは

ChromaDBは軽量なベクトルデータベースで、テキストの意味的な類似性検索を簡単に実装できるツールです。Pythonで手軽に使え、個人開発からプロダクション環境まで幅広く活用できます。私はRAG用のデータを保存するのに使っています。

ChromaDBに保存できるデータ

ChromaDBは以下の4種類のデータを保存できます。

1. ドキュメント(documents)

テキストデータそのものを保存します。

  • 記事本文
  • コメント
  • コードスニペット
  • 質問文

2. エンベディング(embeddings)

ドキュメントをベクトル化した数値配列です。通常は768次元や1536次元などの高次元ベクトルとして表現されます。

OpenAI、Sentence Transformersなどのモデルで生成します。

3. メタデータ(metadata)

ドキュメントに関連する付加情報を保存できます。

  • 作成日時
  • カテゴリ
  • 著者
  • URL
  • タグ

メタデータはフィルタリングに使用でき、検索条件を絞り込む際に便利です。

4. ID

各データを一意に識別するための識別子です。

個人開発における活用例

1. 個人用ナレッジベース

自分のメモ、ブログ記事、学習ノートを保存し、自然言語で検索できるシステムを構築できます。「Reactのhooksについて書いたメモ」のような曖昧な検索が可能になります。

2. ドキュメント検索システム

PDFや技術ドキュメントを読み込んで、質問に対して関連する箇所を素早く見つけるツールを作成できます。プロジェクトのドキュメント管理に便利です。

3. チャットボットのメモリ機能

過去の会話履歴をChromaDBに保存することで、文脈を理解できるチャットボットを構築できます。ユーザーの好みや過去の質問を記憶させることが可能です。

4. コード検索エンジン

自分が書いたコードスニペットを保存し、「ファイルアップロードの実装」などの説明文から関連コードを検索できるツールを作成できます。

5. レシピ検索アプリ

「冷蔵庫にある材料で作れる料理」「辛くて簡単な料理」など、意味的に近いレシピを検索できるアプリケーションが作れます。

6. 記事推薦システム

読んだ記事やブックマークを保存し、興味に合わせて類似の記事を推薦するシステムを構築できます。

7. FAQ検索

よくある質問と回答を保存し、ユーザーの質問文から最も関連性の高いFAQを自動で提示するシステムが作れます。

ChromaDBの特徴

ChromaDBには以下の特徴があります。

  • 軽量:Pythonで簡単にインストール・起動可能
  • 永続化対応:ディスクに保存可能
  • フィルタリング:メタデータを使った絞り込み検索
  • 複数コレクション:用途別にデータを分けて管理可能
  • ローカル実行:外部APIに依存せず、プライバシーを保ちやすい

テーブルデータは格納できるのか

ChromaDBはベクトルデータベースであり、従来のリレーショナルデータベース(RDBMS)のようなテーブルデータを直接格納することはできません。

ChromaDBが得意なこと

  • ベクトル(埋め込み)による類似性検索
  • 非構造化データ(テキスト、ドキュメント)の意味的な検索
  • 各レコードは独立したドキュメント単位

従来のテーブルデータベースが得意なこと

  • 構造化データ(行と列)の管理
  • SQLによる複雑なクエリ(JOIN、集計など)
  • トランザクション処理

テーブルデータが必要な場合の対応策

1. メタデータとして部分的に保存

ChromaDBのメタデータ機能を使えば、簡単な構造化データは保存できます。

# ユーザー情報を含むドキュメント
collection.add(
    documents=["ユーザーの投稿内容"],
    metadatas=[{
        "user_id": 123,
        "user_name": "田中太郎",
        "age": 30,
        "category": "技術"
    }],
    ids=["post_001"]
)

ただし、メタデータはフィルタリング用であり、複雑なクエリには向きません。

2. ハイブリッド構成(推奨)

実際のアプリケーションでは、両方のデータベースを併用するのが一般的です。

構成例として、以下のような使い分けが考えられます。

  • PostgreSQL/MySQL:ユーザー情報、注文履歴、商品マスタなど構造化データ
  • ChromaDB:商品説明、レビュー、記事など検索対象のテキストデータ

ワークフローは以下のようになります。

  1. ChromaDBで類似検索を実行してIDのリストを取得
  2. そのIDを使ってRDBMSから詳細データを取得

3. 用途による使い分け

各用途に適したデータベースを選択することが重要です。

用途 適したデータベース
ユーザー管理、認証 PostgreSQL、MySQL
商品在庫、注文管理 PostgreSQL、MySQL
意味検索、類似度検索 ChromaDB
ドキュメント検索 ChromaDB
全文検索(日本語) Elasticsearch

まとめ

ChromaDBはベクトル検索専用のデータベースで、意味的な類似性検索が必要なプロジェクトで大きな価値を発揮します。テーブルデータの格納には適していないため、構造化データが必要な場合は従来のRDBMSとChromaDBを組み合わせて使うハイブリッド構成が実用的です。

1
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?