前回は23aiとAPEXでRAGアプリを実装するための事前準備について触れました。
Oracle Database 23ai FreeとAPEXでRAGを使った生成AIアプリをローコード開発してみた (事前準備編)
今回はアプリ実装を進めていきますが、やや長いので前編と後編に分けたいと思います。
実装する機能は以下を予定しています。
- 前編:任意のファイル (PDFやOfficeファイル) をアップロードしてEmbeddingするページ
- 後編:質問文でベクトル検索し、質問文と検索結果をもとにした生成AIの回答を表示するページ
なおアプリのexportファイルを以下に置いています。
https://github.com/mago1chi/apex/blob/main/ragapp_cohere.sql
今回のアプリ実装は作業数が多いため、すぐに動くものを見たい方は上記ファイルをご自分のAPEX環境にimportしてお試しください。
その場合でも、以下記事の作業は事前に行う必要がありますのでご注意ください。
- Oracle Database 23ai FreeとAPEXでRAGを使った生成AIアプリをローコード開発してみた (事前準備編)
- 本記事の「ワークスペースの作成」までを実施します。
-
Oracle Database 23ai FreeとAPEXでRAGを使った生成AIアプリをローコード開発してみた (アプリ実装 後編)
- 「Web資格証明の設定」までを実施します。
前編で作成するページは以下のようなイメージになります。
フォームに入力してSubmitすると、裏で以下の処理を行います。
- 非構造化データとメタデータを表に保存
- 非構造化データからのテキスト抽出、チャンク分割を実施
- チャンク分割したテキストをEmbeddingモデルによってベクトル化し、表にVector型で保存
以降は手順を記載しつつ、実装に使うベクトル検索機能 (AI Vector Search) の説明も簡単に挟みたいと思います。
ワークスペースの作成
まずはAPEX上にワークスペースを作成します。
APEXではワークスペースという論理的なオブジェクト内にアプリケーションを定義します。
前回作成したAPEXの管理画面に、ORDS経由でアクセスします。
http://your_public_ip/ords/r/apex/workspace-sign-in/oracle-apex-sign-in
your_public_ip
の箇所はご自分のサーバに割り当てられたパブリックIPを指定します。
スキーマ名には前回作成した「VECTOR」を選び「次」を選択します。
ワークスペース用の管理ユーザ名、パスワード、電子メールを入力し「次」を選択します。
先ほど作成したワークスペース名、管理ユーザ名、パスワードを入力し「サインイン」を選択します。
アプリに使うオブジェクトの作成
DDLを流してアプリに使うDBオブジェクトを作成します。
ワークスペースのトップ画面で「SQLワークショップ」にある「SQLコマンド」を選択します。
画面上段に表作成のDDLを入力し「実行」を選択します。
作成する表は「DOCUMENTS表」「EMBED表」の2つです。
DDLは以下になります。
CREATE TABLE "DOCUMENTS"
( "ID" NUMBER GENERATED BY DEFAULT ON NULL AS IDENTITY MINVALUE 1 MAXVALUE 9999999999999999999999999999 INCREMENT BY 1 START WITH 1 CACHE 20 NOORDER NOCYCLE NOKEEP NOSCALE NOT NULL ENABLE,
"NAME" VARCHAR2(256) NOT NULL ENABLE,
"CATEGORY" VARCHAR2(512) NOT NULL ENABLE,
"DOC" BLOB,
"DOC_FILENAME" VARCHAR2(512),
"DOC_MIMETYPE" VARCHAR2(512),
"DOC_LASTUPD" DATE,
CONSTRAINT "DOCUMENTS_PK" PRIMARY KEY ("ID") USING INDEX ENABLE
);
CREATE TABLE "EMBED"
( "DOC_ID" NUMBER,
"EMBED_ID" NUMBER GENERATED BY DEFAULT ON NULL AS IDENTITY MINVALUE 1 MAXVALUE 9999999999999999999999999999 INCREMENT BY 1 START WITH 1 CACHE 20 NOORDER NOCYCLE NOKEEP NOSCALE NOT NULL ENABLE,
"EMBED_DATA" VARCHAR2(4000),
"EMBEDDING" VECTOR,
CONSTRAINT "EMBED_PK" PRIMARY KEY ("EMBED_ID") USING INDEX ENABLE,
CONSTRAINT "DOC_FK" FOREIGN KEY (DOC_ID)
REFERENCES DOCUMENTS(ID) ON DELETE CASCADE
);
土台となるアプリケーションの作成
APEXには定義済みDBオブジェクトから自動でアプリケーションを作成する機能があります。
今回はその機能を使い、土台となるアプリケーションを作ってしまいます。
前項で2つの表を作成できたら「SQLワークショップ」にある「オブジェクト・ブラウザ」を選択します。
左ペインの「表」を展開すると「DOCUMENTS」「EMBED」があり、「DOCUMENTS」を選択します。
右ペインの「その他」にある「アプリケーションの作成」を選択します。
「アプリケーションの作成」画面に遷移したら「名前」を任意に修正します。
また「ページ」にはデフォルトでいくつかのページが用意されていますが、こちらを編集します。
「Documents検索」「カレンダ」は使いませんので「編集」ボタンを押下し「削除」を選択します。
また「ページの追加」を選択し、「RAG」という名前の「空白ページ」を追加します。
最終形は以下のようになります。
問題なければ「アプリケーションの作成」を選択します。
これで土台となるアプリケーションが出来ましたので、こちらを編集し機能追加していきます。
ユーザ・インターフェイスの編集
ドキュメント登録するフォームのUIを編集します。
本アプリではアップロードする非構造化データ本体に加え、メタデータ情報としてファイルのカテゴリ、作成日も登録できるようにします。
前項で「アプリケーションの作成」を選択し無事にアプリケーションが出来ましたら、アプリケーション・ビルダーのトップ画面に遷移します。
本画面の「3 - Document」を選択し、ページ・デザイナへアクセスします。
表示された画面の右ペイン赤枠の3項目を編集します。
本ページはドキュメント登録時に使うフォームのため「ドキュメント登録フォーム」と命名しています。
左ペインの「P3_NAME」を選択し、右ペイン赤枠を画像の通りに編集します。
これでアップロードするファイルの登録名を入力するフォームが、テキスト・フィールドになります。
左ペインの「P3_CATEGORY」を選択し、右ペイン赤枠を画像の通りに編集します。
「SQL問合せ」で入力するSQLは以下の通りです。
SELECT category d, category v FROM documents GROUP BY CATEGORY ORDER BY 1;
これでカテゴリ入力フォームは選択リストと手動入力が利用できるようになります。
既存カテゴリから選ぶ場合は選択リストを、新規カテゴリを作成する場合は手動入力します。
左ペインの「P3_DOC」を選択し、右ペイン赤枠を画像の通りに編集します。
上記設定は後述するPL/SQLによる内部処理で利用します。
具体的には、アップロードされた非構造化データを APEX_APPLICATION_TEMP_FILES
という一時的な表に格納させ、DML文を作成する際に利用します。
左ペインの「P3_DOC_LASTUPD」を選択し、「P3_DOC」より上に移動します。
さらに右ペイン赤枠を画像の通りに編集します。
これで「ファイル作成日」を必須項目にします。
さらに右ペインを下にスクロールし、赤枠を画像の通りに編集します。
「SQL問合せ」に入力するSQLは以下の通りです。
SELECT sysdate FROM dual;
これで「ファイル作成日」のデフォルト値として、その日の日付を入れる仕様にします。
PL/SQLを使ったデータ保存処理の実装
ページ・デザイナの「プロセス」タブ (矢印が円になっているアイコン) を選択します。
「プロセス」に既存で作成されている「プロセス・フォームDocument」を右クリックし「削除」を選択します。
データ保存処理はデフォルトで用意されているプロセスではなく、新たに作成するプロセスで実装します。
削除したら「プロセス」を右クリックし「プロセスの作成」を選択します。
「PL/SQLコード」はエディタを開き、以下PL/SQLコードを入力します。
本処理によりアップロードされた非構造化データとメタデータの保存、および非構造化データから抽出したテキストのEmbedding結果の保存が行われます。
DECLARE
l_file apex_application_temp_files%rowtype;
chunk_params clob;
cohere_params clob;
BEGIN
-- チャンク分割する際のパラメータ
chunk_params := '
{
"max": "200",
"overlap": "40"
}';
-- Cohereの embed-multilingual-v3.0 を使ってEmbeddingするためのパラメータ
cohere_params := '
{
"provider": "cohere",
"credential_name": "COHERE_CRED",
"url": "https://api.cohere.ai/v1/embed",
"model": "embed-multilingual-v3.0",
"input_type": "search_query"
}';
-- アップロードするファイルが未指定の場合、メタデータのみ保存して終了
IF :P3_DOC IS NULL THEN
INSERT INTO DOCUMENTS (name, category, doc_lastupd) VALUES (:P3_NAME, :P3_CATEGORY, :P3_DOC_LASTUPD);
ELSE
-- 非構造化データの情報を抽出
SELECT * INTO l_file
FROM APEX_APPLICATION_TEMP_FILES
WHERE name IN
(
SELECT column_value
FROM APEX_STRING.SPLIT(:P3_DOC, ':')
);
-- DOCUMENTS表に非構造化データ、メタデータを保存
INSERT INTO DOCUMENTS (name, category, doc, doc_filename, doc_mimetype, doc_lastupd)
VALUES (:P3_NAME, :P3_CATEGORY, l_file.BLOB_CONTENT, l_file.FILENAME, l_file.MIME_TYPE, :P3_DOC_LASTUPD);
-- チャンク分割したテキストをEMBED表に保存
INSERT INTO EMBED (doc_id, embed_data)
SELECT dt.id, chunk_t.chunk_data
FROM
documents dt,
DBMS_VECTOR_CHAIN.UTL_TO_CHUNKS(REPLACE(DBMS_VECTOR_CHAIN.UTL_TO_TEXT(dt.doc), CHR(10)), JSON(chunk_params)) chunk_jt,
JSON_TABLE(chunk_jt.column_value, '$[*]' COLUMNS (chunk_id NUMBER PATH
'$.chunk_id', chunk_data VARCHAR2(4000) PATH '$.chunk_data')) chunk_t
WHERE dt.name = :P3_NAME;
-- EMBED表に新規保存された各テキストについて、Cohereの embed-multilingual-v3.0 を使ってEmbeddingし、EMBED表に保存
FOR rec IN (SELECT em.embed_id, em.embed_data
FROM documents doc, embed em
WHERE doc.name = :P3_NAME AND doc.id = em.doc_id)
LOOP
UPDATE embed
SET
embedding =DBMS_VECTOR.UTL_TO_EMBEDDING(rec.embed_data, JSON(cohere_params))
WHERE embed_id = rec.embed_id;
END LOOP;
END IF;
COMMIT;
END;
コードの大まかな内容はコメントをご確認ください。
AI Vector Searchの機能を使っている箇所は別途解説したいと思います。
まず 45行目 のプロシージャは AI Vector Search 用に23aiで新たに追加されたプロシージャを使っています。
DBMS_VECTOR_CHAIN.UTL_TO_CHUNKS(REPLACE(DBMS_VECTOR_CHAIN.UTL_TO_TEXT(dt.doc), CHR(10)), JSON(chunk_params)) chunk_jt,
-
DBMS_VECTOR_CHAIN.UTL_TO_TEXT
: 引数に指定された非構造化データからテキストを抽出 -
DBMS_VECTOR_CHAIN.UTL_TO_CHUNKS
: 引数に指定されたテキストをチャンクに分割- チャンク分割する際のパラメータは 7~11行目 にJSON形式で定義
- 本例では200文字ごとにチャンク分割し、40文字のオーバーラップを設定
57行目も AI Vector Search 用に23aiで追加されたプロシージャを使っています。
embedding =DBMS_VECTOR.UTL_TO_EMBEDDING(rec.embed_data, JSON(cohere_params))
-
DBMS_VECTOR.UTL_TO_EMBEDDING
: 第一引数のテキストを、第二引数に指定したモデルを使ってEmbedding- Embedding用のパラメータは 14~21行目 にJSON形式で定義
- パラメータ内の
credential_name
には事前準備の中で作成した資格証明オブジェクトのオブジェクト名を指定 - 同様の方法でOpenAIが提供するEmbeddingモデルも利用可
コード入力できましたら、右ペインを下にスクロールし、赤枠を画像の通りに編集します。
これでフォーム内の「作成」ボタンを押下すると、先ほど定義したPL/SQLコードが実行されます。
作成したUIと処理を試してみます。
ページ・デザイナ上段にある赤枠のアイコンを選択し、「ページ・ファインダ」から「2」を選択します。
アプリのログイン画面が表示されるので、ワークスペース管理ユーザでログインします。
好きなファイル (PDFやOfficeファイル) をアップロードします。
登録名やメタデータ情報も任意に入力してください。
一通り入力できたら「作成」を選択します。
※ちなみにPDFによっては日本語が文字化けしてしまうケースがあります。
すると以下のように「ドキュメント登録」画面に戻り、追加したファイルの情報が表示されます。
本画面にファイル作成日なども表示したいので、「アクション」から「列」を選択し、表示列の編集を行います。
するとファイル作成日などの情報も表示されるようになりました。
このフォーマットを永続化するため、「アクション」の「レポート」にある「レポートの保存」を選択します。
「デフォルト・レポートの保存」において画像赤枠のように設定し、「適用」を選択します。
これで表示フォーマットが保存されました。
ついでに表のカラム名も編集しておきます。
ページ2 (ドキュメント登録) のページ・デザイナを開き、左ペインの「NAME」を選択します。
その状態で右ペイン赤枠を画像の通りに編集します。
同様に「CATEGORY」「DOC」「DOC_FILENAME」「DOC_LASTUPD」も編集します。
最終的に「ドキュメント登録」画面のカラム名は以下のようになります。
ここで試しに、先ほど登録したファイルがちゃんとチャンク分割され、Embedding結果が保存されているか確認してみます。
「SQLワークショップ」の「SQLコマンド」を選択します。
上段に以下のSQLを入力し「実行」を選択します。
SELECT doc_id, embed_id, embed_data, embedding FROM embed ORDER BY embed_id
FETCH FIRST 2 ROWS ONLY;
下記画像のように、チャンク分割されたテキストと対応するベクトルデータが表示され、想定通り処理されていることが分かります。
続いて「作成」処理と同様に「更新」処理も追加します。
「更新」は一度登録したドキュメントのファイル本体やメタデータ情報を変更し、保存する処理です。
ページ3 (ドキュメント登録フォーム) のプロセスタブに戻り、新しいプロセスを追加します。
※左ペインのプロセスの順序は「ダイアログを閉じる」より上に来るよう注意してください。
右ペイン赤枠を画像の通りに編集します。
「PL/SQLコード」に入力するPL/SQLは以下の通りです。
DECLARE
l_file apex_application_temp_files%rowtype;
chunk_params clob;
cohere_params clob;
BEGIN
-- チャンク分割する際のパラメータ
chunk_params := '
{
"max": "200",
"overlap": "40"
}';
-- Cohereの embed-multilingual-v3.0 を使ってEmbeddingするためのパラメータ
cohere_params := '
{
"provider": "cohere",
"credential_name": "COHERE_CRED",
"url": "https://api.cohere.ai/v1/embed",
"model": "embed-multilingual-v3.0",
"input_type": "search_query"
}';
-- アップロードするファイルが未指定の場合、メタデータのみ更新して終了
IF :P3_DOC IS NULL THEN
UPDATE DOCUMENTS
SET
name = :P3_NAME,
category = :P3_CATEGORY,
doc_lastupd = :P3_DOC_LASTUPD
WHERE
id = :P3_ID;
ELSE
-- 非構造化データの情報を抽出
SELECT * INTO l_file
FROM APEX_APPLICATION_TEMP_FILES
WHERE name IN
(
SELECT column_value
FROM APEX_STRING.SPLIT(:P3_DOC, ':')
);
-- DOCUMENTS表の該当行について非構造化データ、メタデータを更新
UPDATE DOCUMENTS
SET
name = :P3_NAME,
category = :P3_CATEGORY,
doc = l_file.BLOB_CONTENT,
doc_filename = l_file.FILENAME,
doc_mimetype = l_file.MIME_TYPE,
doc_lastupd = :P3_DOC_LASTUPD
WHERE
id = :P3_ID;
-- EMBED表に保存されている更新ドキュメントに対応する情報を一度すべて削除
DELETE FROM embed WHERE doc_id = :P3_ID;
-- チャンク分割したテキストをEMBED表に保存
INSERT INTO EMBED (doc_id, embed_data)
SELECT dt.id, chunk_t.chunk_data
FROM
documents dt,
DBMS_VECTOR_CHAIN.UTL_TO_CHUNKS(REPLACE(DBMS_VECTOR_CHAIN.UTL_TO_TEXT(dt.doc), CHR(10)), JSON(chunk_params)) chunk_jt,
JSON_TABLE(chunk_jt.column_value, '$[*]' COLUMNS (chunk_id NUMBER PATH
'$.chunk_id', chunk_data VARCHAR2(4000) PATH '$.chunk_data')) chunk_t
WHERE dt.name = :P3_NAME;
-- EMBED表に再保存された各テキストについて、Cohereの embed-multilingual-v3.0 を使ってEmbeddingし、EMBED表に保存
FOR rec IN (SELECT em.embed_id, em.embed_data
FROM documents doc, embed em
WHERE doc.name = :P3_NAME AND doc.id = em.doc_id)
LOOP
UPDATE embed
SET
embedding =DBMS_VECTOR.UTL_TO_EMBEDDING(rec.embed_data, JSON(cohere_params))
WHERE embed_id = rec.embed_id;
END LOOP;
END IF;
COMMIT;
END;
コードの大まかな内容はコメントをご確認ください。
また上記コード内で使用している AI Vector Search 関連のプロシージャは、一度解説した以下のみ利用しています。
-
DBMS_VECTOR_CHAIN.UTL_TO_TEXT
: 引数に指定された非構造化データからテキストを抽出 -
DBMS_VECTOR_CHAIN.UTL_TO_CHUNKS
: 引数に指定されたテキストをチャンクに分割 -
DBMS_VECTOR.UTL_TO_EMBEDDING
: 第一引数のテキストを、第二引数に指定したモデルを使ってEmbedding
コード入力できましたら、右ペインを下にスクロールし、赤枠を画像の通りに編集します。
これでフォーム内の「変更の適用」ボタンを押下すると、先ほど定義したPL/SQLコードが実行されます。
試しに先ほど登録したファイルの鉛筆マークを選択し、編集してみます。
問題なく変更した内容が表示されることを確認します。
気になる場合は再度「SQLコマンド」からSQLを発行し、保存されたデータを確認してみてください。
最後に「削除」機能を追加します。
これで登録済みファイル本体とメタデータ情報を削除できるようにします。
ページ3 (ドキュメント登録フォーム) のプロセスタブに戻り、新しいプロセスを追加します。
※左ペインのプロセスの順序は「ダイアログを閉じる」より上に来るよう注意してください。
右ペイン赤枠を画像の通りに編集します。
「PL/SQLコード」に入力するPL/SQLは以下の通りです。
BEGIN
DELETE FROM documents WHERE id = :P3_ID;
COMMIT;
END;
上記ではDOCUMENTS表のみ削除していますが、これでEMBED表の対応行も削除されます。
EMBED表にはDOCUMENTS表への外部参照キーに対して ON DELETE CASCADE
が設定されています。
そのためDOCUMENTS表の対象行を削除すると、対象ドキュメントに紐づくEMBED表の行も削除されます。
コード入力できましたら、右ペインを下にスクロールし、赤枠を画像の通りに編集します。
これでフォーム内の「削除」ボタンを押下すると、先ほど定義したPL/SQLコードが実行されます。
試しに先ほど登録したファイルの鉛筆マークを選択し「削除」を選択してみます。
問題なくデータが削除され、表示されなくなったことを確認します。
(参考) EmbeddingにONNX形式でimportしたモデルを使う場合
ご参考までに、ONNX形式でimportしたモデルを使ってEmbeddingするコードを掲載します。
importしたモデルを使うことで、DB内でEmbedding処理を実行できます。
インターネット経由でアクセスするOpenAIやCohereなどが提供するモデルを使えず、NW的に閉じた環境で実装したい場合に有用です。
ファイル新規登録の処理 (「作成」ボタンを押下した際の処理) は以下の通りです。
DECLARE
l_file apex_application_temp_files%rowtype;
chunk_params clob;
onnx_params clob;
BEGIN
-- チャンク分割する際のパラメータ
chunk_params := '
{
"max": "200",
"overlap": "40"
}';
-- ONNX形式でimportしたモデルを使ってEmbeddingするためのパラメータ
onnx_params := '
{
"provider": "database",
"model": "doc_model"
}';
-- アップロードするファイルが未指定の場合、メタデータのみ保存して終了
IF :P3_DOC IS NULL THEN
INSERT INTO DOCUMENTS (name, category, doc_lastupd) VALUES (:P3_NAME, :P3_CATEGORY, :P3_DOC_LASTUPD);
ELSE
-- 非構造化データの情報を抽出
SELECT * INTO l_file
FROM APEX_APPLICATION_TEMP_FILES
WHERE name IN
(
SELECT column_value
FROM APEX_STRING.SPLIT(:P3_DOC, ':')
);
-- DOCUMENTS表に非構造化データ、メタデータを保存
INSERT INTO DOCUMENTS (name, category, doc, doc_filename, doc_mimetype, doc_lastupd)
VALUES (:P3_NAME, :P3_CATEGORY, l_file.BLOB_CONTENT, l_file.FILENAME, l_file.MIME_TYPE, :P3_DOC_LASTUPD);
-- チャンク分割したテキストをEMBED表に保存
INSERT INTO EMBED (doc_id, embed_data)
SELECT dt.id, chunk_t.chunk_data
FROM
documents dt,
DBMS_VECTOR_CHAIN.UTL_TO_CHUNKS(REPLACE(DBMS_VECTOR_CHAIN.UTL_TO_TEXT(dt.doc), CHR(10)), JSON(chunk_params)) chunk_jt,
JSON_TABLE(chunk_jt.column_value, '$[*]' COLUMNS (chunk_id NUMBER PATH
'$.chunk_id', chunk_data VARCHAR2(4000) PATH '$.chunk_data')) chunk_t
WHERE dt.name = :P3_NAME;
-- EMBED表に新規保存された各テキストについて、ONNX形式でimportしたモデルを使ってEmbeddingし、EMBED表に保存
FOR rec IN (SELECT em.embed_id, em.embed_data
FROM documents doc, embed em
WHERE doc.name = :P3_NAME AND doc.id = em.doc_id)
LOOP
UPDATE embed
SET
embedding =DBMS_VECTOR.UTL_TO_EMBEDDING(rec.embed_data, JSON(onnx_params))
WHERE embed_id = rec.embed_id;
END LOOP;
END IF;
COMMIT;
END;
Cohereのモデルを利用したコードとの相違点は、14~18行目 のパラメータ指定の箇所だけです。
パラメータ中の model
には、事前準備でONNX形式のモデルをimportした際に指定したオブジェクト名 (本例では doc_model
) を入力します。
また登録済みファイルの変更処理 (「変更の適用」ボタンを押下した際の処理) は以下の通りです。
DECLARE
l_file apex_application_temp_files%rowtype;
chunk_params clob;
onnx_params clob;
BEGIN
-- チャンク分割する際のパラメータ
chunk_params := '
{
"max": "200",
"overlap": "40"
}';
-- ONNX形式でimportしたモデルを使ってEmbeddingするためのパラメータ
onnx_params := '
{
"provider": "database",
"model": "doc_model"
}';
-- アップロードするファイルが未指定の場合、メタデータのみ保存して終了
IF :P3_DOC IS NULL THEN
UPDATE DOCUMENTS
SET
name = :P3_NAME,
category = :P3_CATEGORY,
doc_lastupd = :P3_DOC_LASTUPD
WHERE
id = :P3_ID;
ELSE
-- 非構造化データの情報を抽出
SELECT * INTO l_file
FROM APEX_APPLICATION_TEMP_FILES
WHERE name IN
(
SELECT column_value
FROM APEX_STRING.SPLIT(:P3_DOC, ':')
);
-- DOCUMENTS表に非構造化データ、メタデータを保存
UPDATE DOCUMENTS
SET
name = :P3_NAME,
category = :P3_CATEGORY,
doc = l_file.BLOB_CONTENT,
doc_filename = l_file.FILENAME,
doc_mimetype = l_file.MIME_TYPE,
doc_lastupd = :P3_DOC_LASTUPD
WHERE
id = :P3_ID;
-- EMBED表に保存されている更新ドキュメントに対応する情報を一度すべて削除
DELETE FROM embed WHERE doc_id = :P3_ID;
-- チャンク分割したテキストをEMBED表に保存
INSERT INTO EMBED (doc_id, embed_data)
SELECT dt.id, chunk_t.chunk_data
FROM
documents dt,
DBMS_VECTOR_CHAIN.UTL_TO_CHUNKS(REPLACE(DBMS_VECTOR_CHAIN.UTL_TO_TEXT(dt.doc), CHR(10)), JSON(chunk_params)) chunk_jt,
JSON_TABLE(chunk_jt.column_value, '$[*]' COLUMNS (chunk_id NUMBER PATH
'$.chunk_id', chunk_data VARCHAR2(4000) PATH '$.chunk_data')) chunk_t
WHERE dt.name = :P3_NAME;
-- EMBED表に再保存された各テキストについて、ONNX形式でimportしたモデルを使ってEmbeddingし、EMBED表に保存
FOR rec IN (SELECT em.embed_id, em.embed_data
FROM documents doc, embed em
WHERE doc.name = :P3_NAME AND doc.id = em.doc_id)
LOOP
UPDATE embed
SET
embedding =DBMS_VECTOR.UTL_TO_EMBEDDING(rec.embed_data, JSON(onnx_params))
WHERE embed_id = rec.embed_id;
END LOOP;
END IF;
COMMIT;
END;
こちらもCohere利用時との相違点はパラメータ指定の部分だけです。
以上がアプリ実装の前編になります。
後編では生成AIに質問し、回答を表示する画面と内部処理を実装していきます。
生成AIと連携する処理では、質問文を使った登録済みファイルのベクトル検索、および質問文と検索結果を生成AIに連携し回答に利用させるRAGも実装します。
Oracle Database 23ai FreeとAPEXでRAGを使った生成AIアプリをローコード開発してみた (アプリ実装 後編)