本記事はOracle Cloud Infrastructure(OCI)上のサービス「Data ScienceとOracle Database 23ai」でのRAGの実装方法を検証して、手順と注意事項を纏めました。
なぜOracle Cloud Infrastructure(OCI) Data Scienceですか?
Oracle Database 23aiリリース以来、いろんな製品組み合わせでRAGを実装した資料をネットから勉強して、今回Oracle Cloud Infrastructure(OCI) Data Scienceで実装してみました。よってData Scienceのメリットも下記で整理して、ご参考のほどよろしくお願いします。
RAGに対するメリット:
- VM構造なので、カスタムLLMのトレニングが可能
- LangChainアプリケーションをData ScienceモデルとしてデプロイすることでREST APIで利用することが可能
- 製品内蔵のAI環境をワンコマンド実行でディプロすることが可能
- RAGを行うためのPythonパッケージをインストールすることが可能
その他のメリット:
- 統合されたデータサイエンス環境:OCI Data Scienceは、機械学習モデルの構築、トレーニング、デプロイメントを行うための統合された環境を提供します。
- スケーラビリティとパフォーマンス:OCIのインフラストラクチャを、大規模なデータセットに対しても高速な処理が可能で、必要に応じて計算リソースを柔軟に増減できます。
- 自動化された機械学習:AutoML(自動機械学習)の機能を提供しており、モデルの選定やハイパーパラメータのチューニングなど、複雑な作業を自動化できます。
- セキュリティとコンプライアンス:OCIはエンタープライズ向けの高度なセキュリティ機能を提供しており、データの保護とコンプライアンスを確保できます。
- チームコラボレーション:OCI Data Scienceは、データサイエンティストやエンジニアが共同でプロジェクトを進めやすくするためのコラボレーション機能を提供しています。共有ノートブックやバージョン管理機能を通じて、チームメンバー間での効率的な協力が可能です。
- コスト効率:OCI Data Scienceの課金は、使用したコンピューティングリソース、ストレージ、およびOCI外部へのデータ転送に基づいて行われます。ソフトウェアが無料です。
構成図
参考資料
いくつの資料を参考して、検証を行ったため、下記で資料をリストしました。詳細の手順と製品の紹介については下記の資料をご参考にしてください。
Oracle Database 23ai がリリースされたので作成してみてみた
Oracle Cloud Infrastructure Data Science Service 初期セットアップ
[LangChain編] 新リリース Oracle Database 23ai で実装するエンタープライズRAG
前提条件
- Oracle Cloud Infrastructure(OCI) Data Scienceのノートブックセッションを作成します。
- Oracle Cloud Infrastructure(OCI) Oracle Base Database Service の23aiを作成します。
Oracle Cloud Infrastructure(OCI) Data Scienceでの実装
下記の流れで実装します。
- Conda環境をインストール
- langchain-community、ociとoracledbをインストール
- RAGの実装
Conda環境をインストール
Oracle Cloud Infrastructure(OCI) Data Scienceノートブックセッションを開き、AI関連のConda環境をインストールします。
OCI Data Scienceで簡単にConda環境をインストールできます。
langchain-community、ociとoracledbをインストール
ノートブックのテンプレートに参考可能な内容があるから、ネットワークの確認するコードをコピーし、実行します。
今回、Oracle Cloud Infrastructure(OCI) Generative AI Serviceのチャットモデルを利用するため、パッケージlangchain-community
とoci
をインストールします。また互換性エラーを解決するため、既存のConda環境のパッケージdatapane
とoci-cli
をアップグレードします。
最後にデータベース接続用のパッケージoracledb
をインストールし、カーネルを再起動します。
RAGの実装
続けて下記のドキュメントを参考してRAGを実装してみました。
まず、Oracle Database 23aiに接続します。
次には、Oracle Cloud Infrastructure(OCI) Generative AI Serviceの埋め込みモデル「embed-multilingual-v3.0」とテキスト生成モデル「command-r-plus」を利用するため、OCIサービスのアスセス認証を設定する必要となります。下記のドキュメントを参照して、認証用のconfigファイルとKeyファイルをData Scienceのサーバーにアップロードします。
アクセス認証設定を完了してから、必要なライブラリをimportし、embedingモデルを定義します。
チャンクしたドキュメントの内容をembedingし、23aiベクトルデータベースにロードします。また索引を作成します。PDFファイルからのデータをチャンクする処理が参考資料にあるため、ここで省略します。
これからLangChainのChainでRAGを実行します。まずは下記のChainのパーツを準備します。
- プロンプトテンプレート
- テキスト生成モデル
- ベクトル検索のベクトルデータベース