Voyage AIは、最先端の埋め込み(ベクトル化)モデルを提供しています。これらのモデルは、テキストデータを高次元の数値ベクトルに変換し、意味的な類似性を捉えることができます。本記事では、Voyage AIの埋め込みモデルとLangChainを組み合わせて、高精度な検索システムを構築する方法を紹介します。
Voyage AI埋め込みモデルの特徴
Voyage AIの埋め込みモデルは、以下の特徴を持っています:
- 高精度:最新の自然言語処理技術を活用し、テキストの意味を正確に捉えます。
- 多様なモデル:様々な用途に適したモデルが用意されています。
- APIを通じた簡単な利用:RESTful APIを通じて、簡単に埋め込みを生成できます。
- LangChainとの統合:LangChainライブラリを通じて、簡単に利用できます。
Voyage AI埋め込みモデルの利用方法
まず、Voyage AIの埋め込みクラスをロードします。以下のコマンドでLangChainパートナーパッケージをインストールしてください:
pip install langchain-voyageai langchain-community
次に、Pythonコードで以下のようにVoyage AIEmbeddingsクラスをインポートします:
from langchain_voyageai import VoyageAIEmbeddings
Voyage AIはAPIキーを使用して使用状況を監視し、権限を管理しています。APIキーを取得するには、Voyage AIのホームページでアカウントを作成してください。
APIキーを取得したら、以下のようにVoyageEmbeddings
モデルを作成します:
embeddings = VoyageAIEmbeddings(
voyage_api_key="[ Your Voyage API key ]",
model="voyage-large-2"
)
利用可能なモデルは以下の通りです(2024年7月現在):
- voyage-large-2 (デフォルト)
- voyage-code-2
- voyage-2
- voyage-law-2
- voyage-lite-02-instruct
文書の埋め込み
準備した文書に対してembed_documents
メソッドを使用して埋め込みを取得します:
documents = [
"埋め込みのキャッシングは、AIの記憶力を強化する魔法のようなものです。一度学んだことを瞬時に思い出せるため、AIはより賢く、効率的に動作します。",
"LLMChainは、AIの創造力を引き出す錬金術師のような存在です。プロンプトという原料を、言語モデルという炉で精錬し、驚くべき結果を生み出します。",
"Runnableは、AIのスイスアーミーナイフです。テキスト処理、画像認識、音声合成など、多様なタスクを柔軟にこなせる万能ツールです。",
"トランスフォーマーアーキテクチャは、AIに「注意力」を与えた革命的な発明です。文脈を理解し、長文でも的確に処理できるようになりました。",
"ファインチューニングは、汎用AIモデルをカスタマイズする技です。例えば、シェイクスピア風の文章を書くAIや、方言を理解するAIを作れます。",
"ゼロショット学習は、AIの類推能力を活かす技術です。「猫」と「犬」の違いを教えれば、「トラ」と「オオカミ」の違いも推測できるようになります。",
"エンベディング空間は、言葉の意味を幾何学的に表現する多次元の世界です。「王様」-「男性」+「女性」=「女王」のような演算が可能になります。",
"転移学習は、AIの知識を別の分野に応用する技術です。例えば、英語を理解するAIの知識を活かして、より少ないデータで日本語を理解するAIを作れます。",
"アテンションメカニズムは、AIに「集中力」を与える仕組みです。長文の中から重要な情報だけを選び出し、的確な応答を生成できます。",
"強化学習は、AIに「経験から学ぶ力」を与えます。囲碁や将棋のAIは、自己対戦を繰り返すことで、人間を超える強さを獲得しました。",
"自己教師あり学習は、データそのものから学ぶAIの技です。大量のテキストデータから言語の規則や知識を自動的に獲得し、汎用的な言語理解を実現します。",
"マルチモーダルAIは、テキスト、画像、音声など、複数の情報を統合して理解するAIです。人間のように、見て、聞いて、読んで総合的に判断できます。"
]
documents_embds = embeddings.embed_documents(documents)
print(documents_embds[0][:5]) # 最初の文書の埋め込みベクトルの最初の5要素を表示
クエリの埋め込み
同様に、embed_query
メソッドを使用してクエリを埋め込みます:
query = "LLMChainとは何ですか?"
query_embd = embeddings.embed_query(query)
print(query_embd[:5]) # クエリの埋め込みベクトルの最初の5要素を表示
最小限の検索システムの構築
埋め込みの主な特徴は、2つの埋め込み間のコサイン類似度が、対応する元のテキスト間の意味的関連性を捉えることです。これにより、埋め込みを使用して意味的検索を行うことができます。
LangChainのKNNRetriever
クラスを使用して、文書埋め込みの中からクエリに最も近い埋め込みを見つけ、対応する文書を取得できます:
from langchain.retrievers import KNNRetriever
retriever = KNNRetriever.from_texts(documents, embeddings)
# 最も関連性の高い文書を取得
result = retriever.invoke(query)
top1_retrieved_doc = result[0].page_content # 最上位の検索結果を取得
print(top1_retrieved_doc)
最新の開発と今後の展望
Voyage AIは継続的にモデルの改善と新機能の追加を行っています。2024年7月の最新の開発には以下が含まれます:
- マルチモーダル埋め込み:テキストだけでなく、画像やオーディオデータも含めた埋め込みが可能になりました。
- 低レイテンシモード:リアルタイム応用のための高速な埋め込み生成オプションが追加されました。
- カスタムファインチューニング:特定のドメインや言語に特化した埋め込みモデルのファインチューニングサービスが開始されました。
これらの新機能により、より幅広い応用が可能になり、さらに高度な検索システムや推薦システムの構築が期待されます。
まとめ
Voyage AIの埋め込みモデルとLangChainを組み合わせることで、高精度な意味的検索システムを簡単に構築できます。この技術は、情報検索、文書分類、推薦システムなど、様々な分野で活用できる可能性を秘めています。今後の技術の進化に注目しつつ、各自のプロジェクトやビジネスにどのように適用できるか、検討してみてはいかがでしょうか。
参考文献
- Voyage AI | 🦜️🔗 LangChain (アクセス日: 2024-07-18)
- Voyage AI公式ウェブサイト (アクセス日: 2024-07-18)
- LangChain公式ドキュメント (アクセス日: 2024-07-18)