More than 1 year has passed since last update.

ChromaDBをローカルファイルで使う

chromadb

Posted at 2024-08-04

ChromaDBは、オープンソースの埋め込みデータベースであり、ベクトル検索や機械学習のためのデータ管理に適しています。このブログ記事では、ChromaDBをローカルファイルで使用する方法について説明します。

ChromaDBの概要

ChromaDBは、埋め込みデータの類似性検索に特化したベクトルデータベースです。LangChainとの統合が容易で、PythonやJavaScript/TypeScriptを使用して簡単に実装できます。主な特徴として、埋め込みデータの効率的な管理と検索、複数言語サポートによる使いやすさ、LLMアプリケーションの構築の簡素化、そしてローカルでの使用が可能な点が挙げられます。

ChromaDBのインストール

ChromaDBは、コアパッケージ（chromadb）とクライアントパッケージ（chromadb-client）に分かれています。Pythonでの基本的なインストール方法は以下の通りです：

pip install chromadb

最新の開発版をインストールする場合は、以下のコマンドを使用します：

pip install git+https://github.com/chroma-core/chroma.git@main

特定のバージョンをインストールする場合は、以下のように指定できます：

pip install chromadb==<x.y.z>

JavaScript/TypeScriptユーザーの場合、以下のコマンドでインストールできます：

npm install --save chromadb chromadb-default-embed

または、

yarn install chromadb chromadb-default-embed

PythonでのChromaDBの使用

ChromaDBはPythonをサポートしているため、以下は基本的な使用例です：

from chromadb import Client

client = Client()

# コレクションの作成
collection = client.create_collection("test-collection")

# データの追加
for i in range(20):
    collection.add(
        ids=[f"test-id-{i}"],
        embeddings=[[1, 2, 3, 4, 5]],
        documents=["test"]
    )

# クエリの実行
query_results = collection.query(
    query_embeddings=[[1, 2, 3, 4, 5]],
    query_texts=["test"],
    n_results=5
)

print(query_results)

ローカルファイルの使用

ChromaDBはデフォルトでメモリ内データベースを使用しますが、ローカルファイルシステムを使用してデータを永続化することもできます。以下のように設定します：

from chromadb import PersistentClient

client = PersistentClient(path="./chroma_db")

この設定により、./chroma_db ディレクトリにデータが保存されます。

パフォーマンスの最適化

大量のデータを扱う場合、バッチ処理を使用することでパフォーマンスを向上させることができます：

batch_size = 1000
for i in range(0, len(data), batch_size):
    batch = data[i:i+batch_size]
    collection.add(
        ids=[item['id'] for item in batch],
        embeddings=[item['embedding'] for item in batch],
        metadatas=[item['metadata'] for item in batch],
        documents=[item['document'] for item in batch]
    )

MindsDBとの統合

ChromaDBはMindsDBと統合することができ、これによりSQLインターフェースを通じてChromaDBのデータにアクセスできます。以下は、MindsDBを使用してChromaDBに接続する例です：

CREATE DATABASE chromadb_datasource
WITH ENGINE = "chromadb",
PARAMETERS = {
    "persist_directory": "YOUR_PERSIST_DIRECTORY"
}

この設定により、ローカルのChromaDBインスタンスにMindsDBを通じて接続できます。

ChromaDBでのクエリ実行

MindsDBを介してChromaDBのデータにアクセスする場合、以下のようなSQLクエリを使用できます：

SELECT * 
FROM chromadb_datasource.test_embeddings;

メタデータによるフィルタリングも可能です：

SELECT * 
FROM chromadb_datasource.test_embeddings
WHERE `metadata.source` = "fda";

さらに、類似性検索も実行できます：

SELECT *
FROM chromadb_datasource.test_embeddings
WHERE search_vector = (
    SELECT embeddings
    FROM mysql_datasource.test_embeddings
    LIMIT 1
);

Meltanoを使用したChromaDBの統合

Meltanoは、データ統合ツールであり、ChromaDBをターゲットとして使用することができます。以下の手順でMeltanoプロジェクトにChromaDBを追加できます：

Meltanoをインストールします。
Meltanoプロジェクトを作成します。
以下のコマンドを使用して、target-chromadbローダーをプロジェクトに追加します：

meltano add loader target-chromadb

target-chromadbの設定を行います：

meltano config target-chromadb set --interactive

これにより、データ統合（EL）パイプラインを実行する準備が整います。

target-chromadbには以下の設定オプションがあります：

collection_name：ChromaDBコレクションの名前
db_directory：ChromaDBのデータベースディレクトリ
document_text_property：ドキュメントテキストのプロパティ名
embeddings_property：埋め込みのプロパティ名
metadata_property：メタデータのプロパティ名
flattening_enabled：スキーマのフラット化を有効にするかどうか
flattening_max_depth：フラット化の最大深度
stream_map_config：ストリームマップの設定
stream_maps：ストリームマップの定義

これらの設定を適切に行うことで、Meltanoを使用してChromaDBにデータを効率的にロードできます。

注意点

ChromaDBは活発に開発が進められているプロジェクトです。最新の機能や変更点については、公式ドキュメントを参照してください。
ローカルファイルを使用する場合、適切なバックアップ戦略を立てることが重要です。
インストール時に問題が発生した場合、Microsoft C++ Build Toolsのインストールが必要になる場合があります。
ChromaDBはGoogle Colabだけでなく、ローカルシステムでも使用できます。
MindsDBとの統合を行う場合、必要な依存関係をインストールする必要があります。
Meltanoを使用する場合、適切な設定とデータフローの管理が重要です。

代替ライブラリ

ChromaDBの使用に問題がある場合、以下の代替ライブラリを検討することができます：

FAISS (Facebook AI Similarity Search): 高効率なベクトル類似性検索ライブラリ
Annoy (Approximate Nearest Neighbors Oh Yeah): スポティファイが開発した近似最近傍探索ライブラリ
Pinecone: クラウドベースのベクトルデータベース
Milvus: オープンソースのベクトルデータベース管理システム
PGVector: PostgreSQLの拡張機能として提供されるベクトルデータベース

これらのライブラリも、ベクトルデータベースの構築や検索に使用できます。

LangChainとの統合

ChromaDBはLangChainと統合して使用することができます。以下は基本的な使用例です：

import { Chroma } from "@langchain/community/vectorstores/chroma";
import { OpenAIEmbeddings } from "@langchain/openai";
import { TextLoader } from "langchain/document_loaders/fs/text";

// ドキュメントローダーを使用してデータを読み込む
const loader = new TextLoader("src/document_loaders/example_data/example.txt");
const docs = await loader.load();

// ベクトルストアを作成し、ドキュメントをインデックス化
const vectorStore = await Chroma.fromDocuments(docs, new OpenAIEmbeddings(), {
  collectionName: "a-test-collection",
  url: "http://localhost:8000", // オプション、デフォルトはこの値
  collectionMetadata: {
    "hnsw:space": "cosine",
  }, // オプション、埋め込み空間の距離メソッドを指定するために使用可能
});

// 最も類似したドキュメントを検索
const response = await vectorStore.similaritySearch("hello", 1);
console.log(response);

この例では、ChromaDBをLangChainのベクトルストアとして使用し、OpenAIの埋め込みモデルと組み合わせています。また、テキストデータをロードし、ベクトルストアに保存して、類似性検索を実行する方法も示しています。

テキストデータの直接使用

ChromaDBでは、テキストデータを直接ベクトルストアに保存することもできます。以下は、その例です：

import { Chroma } from "@langchain/community/vectorstores/chroma";
import { OpenAIEmbeddings } from "@langchain/openai";

// テキストサンプル（Godel, Escher, Bachより）
const vectorStore = await Chroma.fromTexts(
  [
    `Tortoise: Labyrinth? Labyrinth? Could it Are we in the notorious Little        Harmonic Labyrinth of the dreaded Majotaur?`,
    "Achilles: Yiikes! What is that?",
    `Tortoise: They say-although I person never believed it myself-that an I        Majotaur has created a tiny labyrinth sits in a pit in the middle of        it, waiting innocent victims to get lost in its fears complexity.        Then, when they wander and dazed into the center, he laughs and        laughs at them-so hard, that he laughs them to death!`,
    "Achilles: Oh, no!",
    "Tortoise: But it's only a myth. Courage, Achilles.",
  ],
  [{ id: 2 }, { id: 1 }, { id: 3 }],
  new OpenAIEmbeddings(),
  {
    collectionName: "godel-escher-bach",
  }
);

const response = await vectorStore.similaritySearch("scared", 2);
console.log(response);

この例では、テキストデータを直接ChromaDBに保存し、その後で類似性検索を実行しています。これにより、ドキュメントローダーを使用せずに、テキストデータを簡単にベクトルストアに追加できます。

コミュニティとサポート

ChromaDBは活発なコミュニティを持っており、開発者は以下のリソースを活用できます：

Discord コミュニティ：質問や議論のためのプラットフォーム
公式ドキュメント：詳細な使用方法や設定オプションの説明
GitHub Issues：バグ報告や機能リクエストの場所

これらのリソースを活用することで、ChromaDBの効果的な使用方法や最新の開発動向を把握することができます。

参考文献

ChromaDB 公式ドキュメント (アクセス日: 2024-08-04)
ChromaDB GitHub リポジトリ (アクセス日: 2024-08-04)
ChromaDB コミュニティ Discord (アクセス日: 2024-08-04)
LangChain ドキュメント - Chroma (アクセス日: 2024-08-04)
Chromadb in my local system - Data Science Stack Exchange (アクセス日: 2024-08-04)
MindsDB - ChromaDB Integration (アクセス日: 2024-08-04)
target-chromadb - Meltano Hub (アクセス日: 2024-08-04)
ChromaDB - Alex Kehayias's Notes (アクセス日: 2024-08-04)
ChromaDB Cookbook | The Unofficial Guide to ChromaDB (アクセス日: 2024-08-04)
Chroma | 🦜️🔗 Langchain (アクセス日: 2024-08-04)

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up