Voyage AI: Code Retrievalの実装例

Posted at 2024-07-29

Voyage AIが提供する最新のコード検索モデル「voyage-code-2」について紹介します。このモデルは、コードとそれに関連するテキストデータのセマンティック検索に特化して設計されており、自然言語とコードクエリの両方に対応しています。Voyage AIは、Retrieval-Augmented Generation (RAG)を企業向け汎用人工知能の主要なアプローチとして位置づけており、その中核となる技術としてembeddingモデルを活用しています。

voyage-code-2の特徴

優れた検索性能: 11のコード検索タスク（HumanEvalやMBPPなどの人気のあるコーディングデータセットから派生）において、OpenAIやCohereなどの競合他社と比較して、リコール率が14.52%向上しました。さらに、Zilliz Cloud Pipelinesとの連携により、コード関連タスクにおいて他のモデルよりも大幅に優れた性能を示しています。
汎用性: コード関連のデータセットだけでなく、一般的なテキストデータセットでも平均3.03%の性能向上が見られました。
大規模なトレーニングデータ: 膨大なコードデータセットを使用してトレーニングされており、高度な損失関数や対照的なペアなどの新しいアルゴリズム技術が適用されています。
実用的な性能: 推論の遅延とスループットが大幅に改善され、実際の対話型プロダクション環境に適したレベルになりました。
拡張されたコンテキストウィンドウ: コンテキストウィンドウが16Kに拡張され、より長いコードやドキュメントの処理が可能になりました。
最先端の技術: Voyage AIのembeddingモデルは、最新の技術を駆使して開発されており、特にコード検索タスクにおいて優れた性能を発揮します。

RAGシステムにおける優位性

Zilliz Cloud PipelinesとVoyage AIの連携により、voyage-code-2モデルはRAGシステムにおいて以下のような優位性を示しています：

高い検索精度: APPSとCodechefデータセットのサブセットを用いたテストでは、voyage-code-2は他のモデルと比較して著しく高い検索能力を示しました。例えば、apps_1solutionデータセットでは、voyage-code-2が62%の確率で上位4件の結果に正解を含めることができたのに対し、bge-base-en-v1.5は2%にとどまりました。
優れたRAG性能: エンドツーエンドのRAG評価において、voyage-code-2を使用したシステムは、Answer CorrectnessとRagas Scoreで他のモデルより10パーセントポイント以上高いスコアを達成しました。
コンテキスト精度の向上: Context PrecisionとContext Recallの指標において、Voyageモデルは他のオプションを大きく上回り、特にContext Precisionで顕著な差を示しました。
生成品質の改善: FaithfulnessとAnswer Relevancyの指標では、Voyageモデルは他のモデルを5パーセントポイント以上上回りました。

応用分野

voyage-code-2は以下のような分野で特に有効です：

セマンティックコード検索・検索
コード補完
コードアシスタントの各種機能
エンタープライズAIソリューション
RAGシステムの構築

Voyage AIの提供形態

Voyage AIは、以下の形態でサービスを提供しています：

パブリックAPI: クラウドベースのAPIを通じて、embeddingモデルにアクセスできます。
クラウドサービス: より大規模な処理や特定のニーズに対応したクラウドサービスを提供しています。
オンプレミス展開: セキュリティやコンプライアンスの要件が厳しい企業向けに、オンプレミスでの展開オプションも用意されています。

実装例

voyage-code-2を使用したコード検索の基本的な実装例を以下に示します。この例では、Voyage AIの公式APIを使用してembeddingsを生成し、簡単な検索を行います：

import voyageai

voyageai.api_key = "YOUR_API_KEY"

# ドキュメント（コードスニペットなど）のリスト
documents = [
    "def sort_numbers(numbers):\n    return sorted(numbers)",
    "class KNNClassifier:\n    def __init__(self, k=3):\n        self.k = k",
    "def dynamic_programming(n):\n    dp = [0] * (n + 1)\n    dp[1] = 1\n    for i in range(2, n + 1):\n        dp[i] = dp[i-1] + dp[i-2]\n    return dp[n]"
]

# ドキュメントのembeddingsを生成
doc_embeddings = voyageai.get_embeddings(documents, model="voyage-code-2")

# クエリの実行
query = "ソートアルゴリズム"
query_embedding = voyageai.get_embedding(query, model="voyage-code-2")

# コサイン類似度を計算して最も関連性の高いドキュメントを見つける
from scipy.spatial.distance import cosine

similarities = [1 - cosine(query_embedding, doc_emb) for doc_emb in doc_embeddings]
most_relevant_index = similarities.index(max(similarities))

print(f"最も関連性の高いコードスニペット:\n{documents[most_relevant_index]}")

この例では、voyage-code-2モデルを使用してコードスニペットとクエリをベクトル化し、コサイン類似度を計算して最も関連性の高いコードスニペットを検索しています。

voyage-code-2の優れた性能により、より正確で関連性の高いコード検索結果が得られ、開発者の生産性向上に貢献することが期待されます。さらに、このモデルはRAGシステムの構築にも活用でき、エンタープライズAIソリューションの中核技術として注目されています。

RAGアプローチの利点

最近の研究によると、RAG（Retrieval-Augmented Generation）アプローチは、コード理解と生成タスクにおいて特に効果的であることが示されています。RAGを使用することで、以下のような利点が得られます：

最新情報へのアクセス: RAGは外部ソースから最新の情報を取得できるため、常に最新のコーディング慣行や技術に基づいた回答を生成できます。
コンテキストの拡張: 大規模なコードベースや文書から関連情報を取得することで、より広範なコンテキストを考慮した回答が可能になります。
精度の向上: 検索された情報に基づいて生成を行うため、単純なLLMと比較してより正確で信頼性の高い回答を提供できます。
透明性の確保: 使用された情報源を明示できるため、生成された回答の根拠を示すことができます。
カスタマイズ性: 特定のプロジェクトや組織のコードベースを検索対象とすることで、そのコンテキストに特化した回答を生成できます。

注意点

Voyage AIのAPIを使用するには、APIキーが必要です。Voyage AIの公式ウェブサイトでアカウントを作成し、APIキーを取得してください。
コードの実行前に、必要なライブラリ（voyageai）をインストールしてください。pip install voyageaiコマンドを使用してインストールできます。
実際の使用時には、APIキーを環境変数として設定するなど、セキュリティに配慮した方法で管理することをお勧めします。
大規模なデータセットを処理する場合は、バッチ処理や非同期処理を活用して、効率的にAPIを利用することを検討してください。

エンベディングの活用

Voyage AIのエンベディングモデルの主な特徴は、2つのエンベディング間のコサイン類似度が、対応する元のテキスト間の意味的関連性を捉えることです。これにより、セマンティック検索や類似度計算が可能になります。

エンベディングを使用して、以下のようなタスクを実行できます：

セマンティック検索: クエリに意味的に近いドキュメントを検索します。
類似度計算: 2つのテキスト間の意味的類似度を計算します。
クラスタリング: 類似したテキストをグループ化します。
異常検出: 他のテキストと意味的に異なるテキストを特定します。
コンテンツ推薦: ユーザーの興味に基づいて関連コンテンツを推薦します。

今後の展望

Voyage AIは、以下の分野での発展を目指しています：

マルチモーダル対応: コードだけでなく、画像や音声などのマルチモーダルデータに対応するモデルの開発が進められています。
ドメイン特化型モデルの拡充: より多くの専門分野に特化したモデルの開発が予定されています。
エンタープライズ向けソリューションの強化: 大規模企業向けのカスタマイズ可能なソリューションの提供が強化されています。
リアルタイム学習と適応: ユーザーのフィードバックやデータの変化にリアルタイムで適応できるモデルの開発が進められています。
エッジコンピューティング対応: より軽量で効率的なモデルの開発により、エッジデバイスでの利用が可能になることが期待されています。

これらの進展により、Voyage AIのモデルはより幅広い用途に適用可能となり、企業のAI導入をさらに加速させることが期待されています。継続的な技術革新と産業界のニーズへの迅速な対応により、Voyage AIは今後もAI分野でのリーダーシップを維持し、さらなる成長を遂げていくでしょう。

参考文献

Voyage AI Official Website (アクセス日: 2024-07-29)
voyage-code-2: Elevate Your Code Retrieval – Voyage AI (アクセス日: 2024-07-29)
Voyage AI Documentation (アクセス日: 2024-07-29)
Voyage AI Embedding Models for Retrieval Augmented Generation (アクセス日: 2024-07-29)
Crafting Superior RAG for Code-Intensive Texts with Zilliz Cloud Pipelines and Voyage AI (アクセス日: 2024-07-29)
Voyage AI: cutting-edge embeddings and rerankers for search and RAG (アクセス日: 2024-07-29)
Understanding And Querying Code: A RAG powered approach (アクセス日: 2024-07-29)

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up