著者
• Harsha Gupta
• James Edwards
• Ramji Ainapurapu
特に対話型を中心とした生成 AI の高まるニーズに対応しようと、大規模言語モデル (LLM) を導入する企業はますます増えています。検索拡張生成 (RAG) アーキテクチャーは、ベクトル型ストレージによるナレッジベースの強みと、生成モデルのクリエイティブ性を統合した手法です。RAG 技術の進歩とともに、セマンティック分類や階層型インデックス構造といったベクトル型データベースを取り込む高度なドキュメント処理手法によって、生成される出力結果の精度はさらに向上します。複数ユーザーの多様なペルソナにわたり多言語でアプリケーションを展開できることから、AI パイプラインの構築においては、また別の課題が生まれています。
<インテル® Gaudi® 3 AI アクセラレーターによるスケーラブル AI の革新>
このブログでは、インテル®️ Gaudi®️ 3 AI アクセラレーターとインテル® Xeon® プラットフォームの性能を深く掘り下げ、LLM と RAG の技術的優位性を活かすことで、エンタープライズ向け生成 AI に求められる要件にいかに対処すべきか、その方法を解説します。インテルでは、こちらの動画で紹介しているとおり、インテル® Gaudi® 3 AI アクセラレーターの導入後すぐに利用できるオープンソースのコンポーネントと PyTorch 実装のソフトウェア・スタックによって、リファレンス・デザインを構築しました。ここでは、リファレンス・デザインを使用してインテル®️ Gaudi®️ 3 AI アクセラレーター上で実現できる機能の一部を挙げています。
https://www.youtube.com/watch?v=-7QWoDiQ6wc&list=PLg-UKERBljNxvBvwugP87Ngzuiu3z2LbL&index=14
• ソリューションの拡張性
• 高度な RAG 機能: セマンティックなチャンク化、階層型インデックス構造
• マルチペルソナの役割に応じた回答
• 多言語対応
【クラスターの拡張性と強力なパフォーマンスを実証】
大量のユーザーアクセスが発生しても応答レイテンシーに変わりがないということが、このリファレンス・デザインのパイプラインに備わる拡張性、安定性、パフォーマンスを裏付ける理由です。このリファレンス・デザインでは、クエリーの増加に応じて、クエリー生成のポッド数を動的に拡張する設計になっています。このような動的スケーリングと負荷分散の仕組みによって、大量のクエリー要求にもクラスターが余裕をもって対応し、ピーク時にも卓越したスループット (処理能力) を維持できます。ユーザーのアクセス頻度が低い場合には、クエリー生成のポッド数を減らし、不要なリソースを解放することで、パイプラインの運用コストを削減できます。
【RAG 機能の進化: セマンティックなチャンク化と階層型インデックス構造】
このリファレンス・デザインは、インテル® Gaudi® 3 アクセラレーターに実装する、セマンティックなチャンク化と階層型インデックス構造という、2 つの高度な RAG 機能を実証します。
■セマンティックなチャンク化
ドキュメント内のテキストを解析する際に、意味のある、コンテキストを識別できる単位でテキストセグメントを作成する方式。テキストは自然な区切りで分割され、チャンクごとに意味的なまとまりが保持されます。
■階層型インデックス構造
ドキュメント・レベルの要約と詳細なチャンクの 2 段階でエンコードを行う RAG 方式。まず要約によって関連するドキュメント・セクションを識別してから、セクション内の具体的な内容に掘り下げることで、情報検索の精度を高めます。初めに要約のベクトル型ストアを検索して関連するドキュメント・セクションを識別し、次は関連する要約ごとに詳細チャンクのベクトル型ストアを検索して、最も関連性の高いドキュメント・セクションのみを抽出するという仕組みです。
■AI の応答をカスタマイズ: ユーザー中心のアプローチ
このリファレンス・デザインの中でも極めて斬新な機能の 1 つが、ユーザーの役割の違いごとに応答を生成できる点です。すべてのリクエストは署名付きトークン JWT (JSON ウェブトークン) でセキュアに保護され、JWT の解析、属性と署名の検証、ユーザー権限の取得という流れになります。ユーザー権限と役割に基づいて、アクセス可能なベクトル型データベースの集合にクエリーを照会します。パイプラインは、ベクトル型データベースのメタデータ機能を使用し、取得したドキュメントに対象ユーザーの役割を付与することで、開発 / DevOps / サイト信頼性エンジニアリング (SRE) / マーケティングといった役割に基づきカスタマイズした応答を返します。こうしたパーソナライズのインタラクションが、パイプラインのセマンティックなチャンク化と階層型インデックス構造によって拡張され、正確さはもちろん、コンテキストに基づく充実した内容の応答を返すことができるようになっています。
このリファレンス・デザインは複数のユーザー権限に対応し、ドキュメントに 1 つ以上の役割や興味 / 関心を紐づけることも可能です。
■多言語クエリー: 異なる言語間のギャップを解消
デモでは、パイプラインの多言語機能にさらに注目しました。多言語対応は、大半の生成 AI 実装で求められる業界標準です。さまざまな言語でクエリーを受け取り、難なく処理、翻訳、コンテキストを認識するため、多様でグローバルなユーザーベースに対応できます。応答はユーザーが質問した言語で返されます。ユーザーが言語プロファイルを選択する必要はなく、パイプラインが自動で対応言語を判別し、それに応じて調整します。
さらに驚くべきは、応答生成に取得したドキュメントはクエリーと異なる言語でも問題ないという点です。このマルチリンガル機能は、言語間の障壁を解消し、世界規模で AI テクノロジーの使いやすさを拡大します。
【AI ソフトウェア・カタログとインテル® Gaudi® 3 AI アクセラレーターのシームレスな融合】
多くの企業が対話型 AI の機能強化を目的に RAG アーキテクチャーと LLM を採用するようになり、ナレッジベースと生成モデルを組み合わせて成果を拡大させています。セマンティック分類や階層型インデックス構造といった高度なドキュメント処理手法が RAG の出力精度を引き上げる重要なカギとなる一方で、AI パイプラインには幅広いユーザーと多言語に対応した構築が不可欠です。
<まとめ: AI の未来を切り拓くインテル® Gaudi® 3 AI アクセラレーターとオープンソース>
インテル® Gaudi® 3 AI アクセラレーターとオープンソース・ソフトウェアの統合は、生成 AI パイプラインの構築と拡張性の新たな基準を打ち立てます。こうした強力なシナジー効果により、プラットフォームは信頼性が確保され、AI イノベーションの最前線に位置付けられます。この変革の道のりをインテルとともに推進していく皆さんのご協力に感謝します。
【製品およびパフォーマンスに関する情報】
性能は、使用状況、構成、その他の要因によって異なります。詳細については、https://www.Intel.com/PerformanceIndex/ (英語) を参照してください。
関連情報:
インテル® Gaudi® 3 アクセラレーター
https://www.intel.co.jp/content/www/jp/ja/products/details/processors/ai-accelerators/gaudi.html