0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Oracle 23aiを使ったAI Vector Searchについて(その1)

Last updated at Posted at 2025-03-25

約1年前に検証した内容を記載していますので、現時点では変更されている箇所があると思いますので、その点は読み替えていただければと思います。

1.ベクトル検索とは

自分がベクトル検索というものについて調べるきっかけとなったのが、Oracle 23aiの新機能としてAI Vector Searchが導入されたというのを見た事でした。
だいぶ前に調べたものなので今更感が漂うものですが、ある一件でベクトル検索の話が出てきたことで改めて整理しようと思った次第です。

まず、ベクトル検索とはなんぞやというところからだと思い、ChatGPTに問合せしてみました。

<ベクトル検索とは何ですか?
>** ベクトル検索(Vector Search)**とは、データをベクトル(数値の集合)として表現し、それらの類似性に基づいて検索を行う技術です。
>従来のキーワード検索とは異なり、意味的な関連性を考慮した検索が可能になります。

とりあえず、データをベクトル(数値の集合)として表して、それの類似性に基づいて検索という事のようです。
初見だと何がなんだかという感じだと思いますが、一先ずここら辺のキーワードを紐解いて行こうと思います。

2.ベクトル化(Embedding)

ベクトル化とは、数値データではないデータを数値の配列(ベクトル)に変換する処理のことになります。
テキストや画像などのデータを数値にすることによって似ているものを計算によって求める事が可能になります。

ここからはテストとして実際にOracle Database 23aiにてAI Vector Search機能の確認をしていきます。
その手順として、OCI BaseDBでOracle Database 23aiのインスタンスを作成し、
インスタンス上に作成した通常のテーブルのデータをOCI Generative AIサービスのEmbbedingモデルを利用し、
Embbedingしたベクトルデータをベクトルデータ型に格納してベクトル検索を実行していく流れを想定しています。

以下のステップで実施していきます。
a.事前準備
b.credentialの作成
c.Embbedingの確認
※以下の作業はSQL Plus上で行っています。また、コマンドの内容は一例として各環境でそれぞれ読み替えて下さい。

3.ベクトル検索検証

a.事前準備

OCI上でOracle23aiのDBインスタンス(BaseDBを利用)作成後、検証用データベースユーザの作成
PDBにSYSDBA権限でログインし、専用テーブルスペースを作成。
その後、データベースユーザを作成し権限を設定。

select tablespace_name,file_name,bytes/1024/1024 MB from dba_data_files;
create tablespace vector datafile '+DATA' size 300m; 
create user vtest identified by *** default tablespace vector temporary tablespace temp;
select username from dba_users order by username;
grant dba to vtest;

※自分のみが使う検証なのでDBA権限を付けてますが、他の人が使う場合は適切な権限を付与してください。

次にネットワークACLの設定
データベースユーザーにホストに対する接続権限を付与。

BEGIN
 DBMS_NETWORK_ACL_ADMIN.APPEND_HOST_ACE(
 host => '*',
 ace => xs$ace_type(privilege_list => xs$name_list('connect'),
 principal_name => 'vtest',
 principal_type => xs_acl.ptype_db));
END;
/

※ここも自分のみが使う検証なので全てのホストを指定していますが、他の人が使う場合は適切なホストを付与してください。

b.credentialの作成

OCI Generative AIサービスを利用するための credentialを作成します。
そこでOCI CLIの構成ファイル情報を使います。
 OCIユーザOCID
 テナンシーOCID
 コンパートメントOCID
 pem形式の秘密鍵(ファイルの内容を使用)
 API Keyフィンガープリント

declare
  jo json_object_t;
begin
  jo := json_object_t();
  jo.put('user_ocid','ocid1.user.oc1..aaaaaaaa***');
  jo.put('tenancy_ocid','ocid1.tenancy.oc1..aaaaaaaa***');
  jo.put('compartment_ocid','ocid1.compartment.oc1..aaaaaaaa***');
  jo.put('private_key','M***');
  jo.put('fingerprint',’9f:***');
  dbms_output.put_line(jo.to_string);
  dbms_vector.create_credential(
    CREDENTIAL_NAME   => 'OCI_GENAI_CRED',
    PARAMS        => json(jo.to_string));
end;
/

c.Embbedingの確認

OCI Generative AIサービスを利用してEmbbedingできるか確認していきます。
また、credentialが正しく設定されているか確認を兼ねてEmbbedingを実施します。
Embeddingモデルに「cohere.embed-multilingual-v3.0」を使用します。
 provider:ocigenai
 credential_name:OCI_GENAI_CRED 
 url:OCI Generative AI Embedding のエンドポイントURL
 model:使用するEmbbedingモデル
 utl_to_embeddinsの引数:Embeddingする文字列(CLOB)とJSON形式のパラメータ値

var embed_genai_params clob;
exec :embed_genai_params := '{"provider": "ocigenai", "credential_name": "OCI_GENAI_CRED", "url": "https://inference.generativeai.us-chicago-1.oci.oraclecloud.com/20231130/actions/embedText", "model": "cohere.embed-multilingual-v3.0"}';
select et.* from dbms_vector.utl_to_embeddings('こんにちは',json(:embed_genai_params)) et;

・実行結果

SQL> select et.* from dbms_vector.utl_to_embeddings('こんにちは', json(:embed_genai_params)) et;

COLUMN_VALUE
`--------------------------------------------------------------------------------`
{"embed_id":"1","embed_data":"こんにちは","embed_vector":"[0.013832092,0.05

ここまででテキストがベクトル化されたことが確認できました。
次回は実際にパワーポイントやPDF等のファイルからテキストを抽出してベクトル検索を行っていきます。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?