はじめに
Oracle GoldenGate 23aiはDatabase 23ai で実装された新機能に対応したレプリケーションが可能です。ここでは特に Database 23ai の主軸となる Vector データ型の連携を試します。環境はオンプレミスですが、OCI GoldenGateでも 23aiを用いたデプロイメントが作成できるので構築できると思います。
(2024/7/2から oggoracle:23.4.0.0.0_240529.0500_1012の使用が可能)
デプロイメントの準備
GoldenGate 23ai S/Wのインストールおよび実行環境(デプロイメント)の作成については 以上で公開されている情報をご参照下さい。
・ Oracle GoldenGate 23ai for Oracle 簡易インストール
https://qiita.com/TDM26587/items/64efd8f124fe745dd5f5
(デプロイメント作成後の管理サービス・ホーム画面)
Source および Target Database の準備
今回はVector データ型の連携のため、Source および Target Database には 23ai を使用します。2つのCDBを準備して、それぞれで稼働するPDBを連携させます。
-
Source Database (CDB)
Archive Log モードでの運用
最小の Database サプリメンタル・ロギング設定
強制ロギングモード
(必要に応じて)STREAMS_POOL_SIZE の確保
初期化パラメータ ENABLE_GOLDENGATE_REPLICATION を TRUEにSQL> ALTER SYSTEM set ENABLE_GOLDENGATE_REPLICATION = true scope=both;
-
Source Database (PDBTK)
GoldenGate 管理ユーザの作成 (ggadmin) と権限付与
ロール:CONNECT, RESOURCE, OGG_CAPTURE (23ai~)
- Target Database (CDB)
初期化パラメータ ENABLE_GOLDENGATE_REPLICATION を TRUEにSQL> ALTER SYSTEM set ENABLE_GOLDENGATE_REPLICATION = true scope=both;
- Target Database (PDBOS)
GoldenGate 管理ユーザの作成 (ggadmin) と権限付与
ロール:CONNECT, RESOURCE, OGG_APPLY (23ai~)
-
Source および Target Database (PDB) のスキーマ・オブジェクトの準備
Source PDB (PDBTK) と Target PDB (PDBOS)の両方で作成する
※ レプリケーションのテストはInsertで行うため、表は空で良いSCOTTスキーマ : 表: galaxies
create table galaxies
(
id number,
name varchar2(50),
doc varchar2(500),
embedding vector,
constraint PK primary key(ID)
);
Extract および Replicat の作成と稼働
GoldenGate 23ai の管理サービスから Extract と Replicat を作成・稼働します。その際に Extract の対象となる Source PDBTKのスキーマ・オブジェクトに対するサプリメンタル・ロギング設定も行います。
- DB接続の作成 – Source PDBTK と Target PDBOS の接続を作成します
DB接続+から
(入力項目)
資格証明別名 : 分かり易いもの (PDBへの接続子と同じでも良い)
ユーザーID : ggadmin@pdbtk および ggadmin@pdbos
パスワード : (Source DBの) ggadmin ユーザの password を入力
※ ここで @以降の接続子は予め tnsnames.ora に設定したものを入力する
この時、Target PDBOSに接続し、GGADMINにチェックポイント表を作成しておきます。
- Target PDBOS にチェックポイント表を作成
- オブジェクトレベルのサプリメンタル・ロギング設定
Source Database (PDBTK)に接続し、表単位でTRANDATA情報を追加します。スキーマ(SCOTT)単位で実行することで、将来作成される予定の表も含めオブジェクトレベルのサプリメンタル・ロギング設定をする事も可能です。
- Extractの作成へ : ext01 統合Extractの作成
【入力項目】
統合Extractを選択
プロセス名= “ext01”
【入力項目】
ソース資格証明=OracleGoldenGateを選択
別名=DB接続の別名(Source)
Extract証跡=aa (2桁英字なら何でも可)
【入力項目】全てdefaultでOK
【入力項目】パラメータ設定をして、稼働する (今回は “Table scott.*” を追記)
この時、Extract プロセスの作成と同時にSource Database (PDBTK)への登録もバックグラウンドで実施する事にします。(別途コマンドでも実行可能です)
- Replicat の作成へ : 非統合モードのパラレル適用構成として作成
【入力項目】
パラレルReplicat と 非統合を選択
プロセス名= “rep01”
【入力項目】
Replicatトレイル= Extract証跡で指定したもの(=aa)
ターゲットの資格証明=OracleGoldenGate を選択
別名=DB接続の別名(Target)
チェックポイント表=ターゲットDB接続を作成した際に準備したもの (“GGADMIN”.”REPCO_CHKPT”)
【入力項目】全てdefaultでOK
【入力項目】パラメータ設定をして、稼働する
(今回は最後の行を "MAP scott.*, TARGET scott.*;" に変更した)
Vector 型を持つ表 scott. galaxies のレプリケーション
Extract “ext01” と Replicat “rep01” が正常稼働の状態で Source PDBTKの scott. galaxies に対し DML (今回は insert 文)を実行し、Target PDBOSの確認をします。操作シンプルに1行の登録(insert)です。
- Source PDBTK で下記コマンドを発行する
SQL> insert into galaxies values
(1, 'M31',
'Messier 31 is a barred spiral galaxy in the Andromeda constellation which has a lot of barred spiral galaxies.',
'[0,2,2,0,0]');
1行が作成されました。
SQL> commit;
- Target PDBOS でレプリケーション完了を確認
SQL> select * from galaxies;
ID NAME
---------- --------------------------------------------------
DOC
--------------------------------------------------------------------
EMBEDDING
--------------------------------------------------------------------
1 M31
Messier 31 is a barred spiral galaxy in the Andromeda constellation which has a lot of barred spiral galaxies.
[0,2.0E+000,2.0E+000,0,0]
VECTORデータ型を持つ表も、GoldenGate によるレプリケーションが可能であると確認できました。
最後に
ここでの内容は、セットアップの手順を含め、GoldenGate によるレプリケーションとしては非常にシンプルな内容になっています。唯一、Database も GoldenGate も最新の 23ai を使用し、かつ Database 23ai から実装された VECTORデータ型を含む表でレプリケーションを実施した事が新しいと言えます。
今後も持続的にAI(=RAG)への期待値が高まる事は容易に推測できます。その類似検索の精度を高めるためには、分散して存在している様々なデータ集約がカギとなるため、GoldenGateによるデータ・レプリケーションの必要性も高まる事が考えられると思います。