はじめに(というか結論)
2024年IDMCは7本の新規コネクターをリリースしました。その中でも、今年最後のリリースである11月に提供されたOracle Autonomous Database Connectorと既存のOracle Connectorと性能比較してみました。
ターゲットに対してサポートされている操作は現在Insertのみですが、とにかく速い! 510万行の個人データを含む1GBのデータロードが「ターゲットの一括ロードの有効化」をYesにしたOracle Connectorでは50分36秒かかっていたのに、Oracle Autonomous Database Connectorでは4分35秒で完了しました。何度実行してもこの10倍の性能差は変わりませんでした。
検証結果
マッピングは何時ぞやも使用したルーターを使って血液型によってターゲットを振り分けるという至ってシンプルな内容です。
Oracle Connector(Oracleサブタイプ : Oracle ADB)での実行結果
Oracle Autonomous Database Connector での実行結果
速い理由はDBMS_CLOUD.COPY_DATAプロシジャーが採用されているからなのですが、IPU消費の節約に直結するデータ統合の処理性能向上は歓迎されるべき事なので、是非とも活用していただきたいです。
既に言いたい事のメインは書いてしまったので、ここで終わりたい気持ちもありますが、幾つか注意事項もあったのでそれらを共有します。コネクタの設定についてはOracle Autonomous Database Connectorのオンラインマニュアルを斜め読みしつつ、過去のこちらの記事を見ていただければ出来ると思いますので、詳細は割愛して後半は注意事項について説明します。
今回も、Oracle Cloud Infrastructure(OCI) のAlways Free 枠で、Oracle Cloud Object Storage と Autonomous Data Warehouse 19cを使いました。
注意事項 その1 : コネクタのライセンス有効化必須
Oracle Autonomous Database Connectorを含め2024年にリリースされた新コネクタ群はまだデフォルでバンドルされているコネクタになっていません。弊社サポートセンターに 「Oracle Autonomous Database Connectorのライセンス有効化」 をリクエストしてください。
デフォルでバンドルされているコネクタの意味はコチラの記事をご参照ください。ライセンスの有効化後は、もちろん、ランタイム環境の有効化作業も必要です。
注意事項 その2 : Data Integration Server への設定追加必須
INFA_DTM_STAGING_ENABLED_CONNECTORSは、特定のCloud Data Warehouse用コネクタで利用可能になっているSecure Agent の DTM でステージングデータに設定する最適化プロパティ群(Tomcatタイプ)の一つです。下記の通りプロパティは3種類存在します。
INFA_DTM_STAGING_ENABLED_CONNECTORS(書き込み操作用)
INFA_DTM_RDR_STAGING_ENABLED_CONNECTORS(読み取り操作用)
INFA_DTM_LKP_STAGING_ENABLED_CONNECTORS(キャッシュされたルックアップ操作用)
INFA_DTM_STAGING_ENABLED_CONNECTORSに648300を設定
これでOracle Autonomous Database Connectorは動くようになります。将来的に変わる可能性もゼロではありませんが、Oracle Autonomous Database ConnectorのpulginIdは決め打ちで648300です。
下記のCloud Data Warehouse用コネクタを利用中の場合、ステージングデータに設定する最適化プロパティ群に既にいずれかのpulginIdを設定済という状況も考えられますが、本題からそれるため今回はふれない事にします。
- Amazon Redshift V2 Connector (pulginId:451600)
- Databricks Connector (pulginId:606801)
- Google BigQuery V2 Connector (pulginId:601601)
- Hadoop Files V2 Connector (pulginId:603701)
- Snowflake Data Cloud Connector (pulginId:605501)
- Microsoft Azure Synapse SQL Connector (pulginId:453100)
注意事項 その3 : ターゲットのプロパティでバケット名の入力必須
IDMCのUIでは入力必須を意味する赤のアスタリスクが無いので油断しがちですが、バケット名は入力必須です。
Oracle Autonomous Databaseのターゲットでバケット名が未指定の場合下記のエラーで失敗します。
注意事項 その4 : Oracle Autonomous Databaseのターゲットでマルチバイトの列名対応不可?
これは私のテストの仕方が悪いのか、それとも制限事項なのか、もしかして不具合なのか判断つかなかったのですが、テーブル名は日本語でもOKだったのに、列名(カラム名)は日本語を含んでいると、どうしてもDBMS_CLOUD.COPY_DATAが失敗してしまい、限られた時間の中で回避策を見つけることができませんでした。
試してみた事(どちらも効果なし):
- ターゲットプロパティのCOPY_DATA Command Optionsにlanguage:JAPANESE、characterset:AL32UTF8を追加
- export NLS_LANG=Japanese_Japan.AL32UTF8を設定してセキュアエージェント再起動
ということで、性能測定はOracle Autonomous Databaseのターゲットで列名を全て英文字にした状態で実施しております。
参考情報
「DBMS_CLOUD.COPY_DATAプロシジャーって何?」とか、「なんでDBMS_CLOUD.COPY_DATAプロシジャーを使っていると速いのか?」という疑問はこちらをご参照ください。
おわりに
注意事項がちょっと多かったですね。最後のマルチバイトの列名対応不可はそのうち対応されると信じてます。