2
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Autonomous Database:Amazon S3上にあるJSONファイルに対してJSONサーチ・インデックスを作成して全文検索してみた

Last updated at Posted at 2024-07-12

はじめに

Autonomous Databaseのアップデートで、クラウド・ストレージ上のJSONファイルに対してJSONサーチ・インデックスを作成し、クラウド・ストレージ上のJSONファイルに対しての全文検索、非定型検索を実行可能にする機能が追加されたので、早速検証してみました。

JSONサーチ・インデックスに関しての詳細は、こちらのマニュアルをご参照ください。

今回は、Amazon S3上にあるJSONファイルに対してJSONサーチ・インデックスを作成して全文検索、非定型検索を実行してみました。

1.事前準備

今回は、コース(講義)の情報のJSONドキュメントを含むファイルcourse_data.jsonを使用しました。
各コース情報のJSONドキュメントには、コース番号、コース名、受講する学生の情報、担当する講師の情報などが含まれています。

course_data.json
 {"courseId":"MATH101","name":"Algebra","creditHours":3,"students":[{"studentId":1,"name":"Donald P."},{"studentId":5,"name":"Hye E."}],"teacher":{"teacherId":101,"name":"Abdul J."},"Notes":"Prerequisite for Advanced Algebra"}
 {"courseId":"MATH102","name":"Calculus","creditHours":4,"students":[{"studentId":2,"name":"Elena H."},{"studentId":10,"name":"Ming L."},{"studentId":9,"name":"Luis F."},{"studentId":4,"name":"Georgia D."}],"teacher":{"teacherId":101,"name":"Abdul J."}}
 {"courseId":"CS101","name":"Algorithms","creditHours":5,"students":[{"studentId":1,"name":"Donald P."},{"studentId":2,"name":"Elena H."},{"studentId":4,"name":"Georgia D."},{"studentId":9,"name":"Luis F."},{"studentId":7,"name":"Jatin S."}],"teacher":{"teacherId":102,"name":"Betty Z."}}
 {"courseId":"CS102","name":"Data Structures","creditHours":3,"students":[{"studentId":1,"name":"Donald P."},{"studentId":2,"name":"Elena H."},{"studentId":5,"name":"Hye E."},{"studentId":7,"name":"Jatin S."},{"studentId":8,"name":"Katie H."}],"teacher":{"teacherId":102,"name":"Betty Z."}}
 {"courseId":"MATH103","name":"Advanced Algebra","creditHours":3,"students":[{"studentId":3,"name":"Francis K."},{"studentId":4,"name":"Georgia D."},{"studentId":8,"name":"Katie H."},{"studentId":9,"name":"Luis F."},{"studentId":6,"name":"Ileana D."}],"teacher":{"teacherId":103,"name":"Colin J."}}

course_data.jsonをS3バケットにアップロードします。
ここでは、東京リージョンにあるs3bucket-courseという名前のバケットにアップロードしました。

スクリーンショット 2024-07-12 14.38.58.png

次に、S3にアクセスするためのクレデンシャルを作成します。

ここではARNを使用したクレデンシャルAWS_S3_CREDを作成します。
ARNを使用したクレデンシャルの作成方法の詳細はこちらの記事を参照ください。

SQL> BEGIN
  2      DBMS_CLOUD.CREATE_CREDENTIAL(
  3          credential_name => 'AWS_S3_CRED',
  4          params =>
  5              JSON_OBJECT('aws_role_arn' value 'arn:aws:iam::nnnnnnnnnnnn:role/Role_for_ADW23ai',          
  6                          'external_id_type' value 'database_ocid')
  7      );
  8  END;
  9  /

PL/SQL procedure successfully completed.

SQL>

作成したクレデンシャルAWS_S3_CREDを使用してS3にアクセスできるかを確認します。

SQL> SELECT object_name, bytes 
  2  FROM DBMS_CLOUD.LIST_OBJECTS('AWS_S3_CRED', 'https://s3bucket-course.s3.ap-northeast-1.amazonaws.com');

OBJECT_NAME		          BYTES
-------------------- ----------
course_data.json	       1360

SQL> 

クレデンシャルAWS_S3_CREDを使用して、問題なくS3にアクセスすることができることが確認できました。

3. S3上にあるJSONファイルに対するJSONサーチ・インデックスの作成

S3上にあるJSONファイルに対して、DBMS_CLOUD.CREATE_EXTERNAL_TEXT_INDEXプロシージャを使用してJSONサーチ・インデックスを作成します。

指定するパラメータは以下のとおりです。

credential_name:S3にアクセスするためのクレデンシャルを指定
location_uri:S3のバケットまたはオブジェクトのURIを指定
index_name:作成するJSONサーチ・インデックスの名前
format:JSON形式で各種オプションを指定、JSONサーチ・インデックスを作成する場合は、'json_index'にtrueをセットする

formatのオプションの詳細は、こちらのマニュアルをご参照ください。

ここでは、バケットs3-bucket-course内のJSONファイルに対して、S3_COURSE_DATA_INDEXという名前のJSONサーチ・インデックスを作成しています。
また、S3バケットにアクセスする際に使用するクレデンシャルとして、AWS_S3_CREDを指定しています。

SQL> BEGIN
  2      DBMS_CLOUD.CREATE_EXTERNAL_TEXT_INDEX (
  3          credential_name => 'AWS_S3_CRED',
  4          location_uri    => 'https://s3bucket-course.s3.ap-northeast-1.amazonaws.com',
  5          index_name      => 'S3_COURSE_DATA_INDEX',
  6          format          =>  JSON_OBJECT ('json_index' value 'true')
  7      );
  8  END;
  9  /

PL/SQL procedure successfully completed.

SQL>

JSONサーチ・インデックスの作成はスケジューラ・ジョブとして実行されます。
JSONサーチ・インデックスの作成には、バケット内のJSONファイルの大きさ、数に応じて時間がかかります。
all_scheduler_job_run_detailsビューで、スケジューラ・ジョブの状況を確認できます。

SQL> col job_name for a25
SQL> col run_duration for a20
SQL> col status for a10
SQL> SELECT job_name, run_duration, status
  2  FROM all_scheduler_job_run_details
  3  WHERE LOWER(job_name) = LOWER('S3_COURSE_DATA_INDEX$JOB');

JOB_NAME		          RUN_DURATION	       STATUS
------------------------- -------------------- ----------
S3_COURSE_DATA_INDEX$JOB  +000 00:00:09        SUCCEEDED

SQL>

'インデックス名$TXTIDX'という名前のJSONサーチ・インデックス参照表が作成されます。

SQL> SELECT table_name FROM user_tables
  2  WHERE table_name LIKE 'S3_COURSE_DATA_INDEX%'
  3  ORDER BY table_name;

TABLE_NAME
-----------------------------------------------
S3_COURSE_DATA_INDEX$TXTIDX
S3_COURSE_DATA_INDEX$TXTIDX_ERR
S3_COURSE_DATA_INDEX$TXTIDX_LINE
S3_COURSE_DATA_INDEX$TXTIDX_STATUS

SQL>

また、インデックス名と同じ名前のJSONサーチ・インデックス参照ビューが作成されます。

SQL> SELECT view_name FROM user_views
  2  WHERE view_name = 'S3_COURSE_DATA_INDEX';

VIEW_NAME
------------------------------------------------
S3_COURSE_DATA_INDEX

SQL>

JSONサーチ・インデックス参照ビューはこちらのような構造になっています。

SQL> desc s3_course_data_index
 Name					                   Null?    Type
 ----------------------------------------- -------- ----------------------------
 OBJECT_NAME					                    VARCHAR2(4000)
 OBJECT_PATH					                    VARCHAR2(4000)
 FILE_LINE_JSON 				                    CLOB
 MTIME						                        TIMESTAMP(6)
 DATA						                        CLOB

SQL> 

各列の詳細はこちらの表のとおりです。

列名 詳細
OBJECT_NAME 検索されたテキスト文字列を含む Object Storage 上のファイル名
OBJECT_PATH OBJECT_NAMEのオフジェクトを含むクラウド・ストレージのバケットまたはフォルダの URI
LENGTH JSONドキュメントの長さ
OFFSET ファイルの先頭のバイトオフセット
DATA クラウド・ストレージ上のファイルの内容
FILE_LINE_JSON JSON_TEXTCONTAINSの実行対象となるカラム
MTIME クラウド・ストレージ上のファイルの最終更新タイムスタンプ

SQL条件JSON_TEXTCONTAINSを使用してJSONサーチ・インデックスと同名の参照ビューにクエリを実行すると、data列にデータが取り込まれます。

JSONサーチ・インデックスの利用

作成したJSONサーチ・インデックスを使用して、S3バケット内にあるJSONファイルに対して、クエリを実行してみます。

こちらのSQLでは、S3上のJSONファイルから講師ID($.teacher.teacharId)が101のJSONドキュメントを抽出しています。

SQL> SELECT JSON_QUERY (data, '$' returning CLOB pretty) AS course_data 
  2  FROM s3_course_data_index WHERE JSON_TEXTCONTAINS(file_line_json, '$.teacher.teacherId', '101');

COURSE_DATA
--------------------------------------------------------------------------------
{
  "courseId" : "MATH101",
  "name" : "Algebra",
  "creditHours" : 3,
  "students" :
  [
    {
      "studentId" : 1,
      "name" : "Donald P."
    },
    {
      "studentId" : 5,
      "name" : "Hye E."
    }
  ],
  "teacher" :
  {
    "teacherId" : 101,
    "name" : "Abdul J."
  },
  "Notes" : "Prerequisite for Advanced Algebra"
}

{
  "courseId" : "MATH102",
  "name" : "Calculus",
  "creditHours" : 4,
  "students" :
  [
    {
      "studentId" : 2,
      "name" : "Elena H."
    },
    {
      "studentId" : 10,
      "name" : "Ming L."
    },
    {
      "studentId" : 9,
      "name" : "Luis F."
    },
    {
      "studentId" : 4,
      "name" : "Georgia D."
    }
  ],
  "teacher" :
  {
    "teacherId" : 101,
    "name" : "Abdul J."
  }
}


SQL>

こちらのSQLでは、名前($.students.name)にDonaldが含まれる学生が受講しているコースのコース名、その情報を含むJSONドキュメントが格納されているファイル名(オブジェクト名)およびそのパスを抽出しています。

SQL> set linesize 150
SQL> col course_name for a20
SQL> col object_name for a20
SQL> col object_path for a80
SQL> SQL> SELECT JSON_VALUE (data, '$.name' returning VARCHAR2) AS course_name, object_name, object_path
  2  FROM s3_course_data_index WHERE JSON_TEXTCONTAINS(file_line_json, '$.students.name', 'Donald');

COURSE_NAME	         OBJECT_NAME	      OBJECT_PATH
-------------------- -------------------- --------------------------------------------------------------------------------
Algebra 	         course_data.json	  https://s3bucket-course.s3.ap-northeast-1.amazonaws.com/
Algorithms	         course_data.json	  https://s3bucket-course.s3.ap-northeast-1.amazonaws.com/
Data Structures      course_data.json	  https://s3bucket-course.s3.ap-northeast-1.amazonaws.com/

SQL>

まとめ

Amazon S3上にあるJSONファイルに対してJSONサーチ・インデックスを作成して、JSONデータに対するテキスト検索が簡単に行えることが確認できました。

参考情報

Use JSON Search on Documents in Object Storage
Amazonリソース名(ARN)を使用したAWSリソースへのアクセス
DBMS_CLOUD.CREATE_EXTERNAL_TEXT_INDEXプロシージャ
[OCI]Autonomous DatabaseからAmazon S3にARNを用いたロールベースの認証でアクセスしてデータ連携してみた
JSON検索索引: 非定型の問合せおよび全文検索

2
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?