この記事について
- この記事はIBMが提供する製品に関する情報やナレッジを共有する Advent Calendar 2024の12月12日分として記載しています。
実施概要
- 対象データベースはSnowflake(Azure/東京)の「SNOWFLAKE_SAMPLE_DATA」を使用します
- 「SF10」「SF100」各スキーマから、「REGION」「NATION」「CUSTOMER」「ORDERS」テーブルを引っこ抜いてJOINしてフィルタリングするフローをDatastageに実行させます
- どの程度のデータ量で、どの程度の処理時間がかかるのかを測ってみます
- Datastage は、IBMCloudの東京リージョン上のOpenshiftに建てたCloud Pak for Data v5.0.3 上のコンテナソフトウェアを使用しています
スキーマ「SF10」の場合
処理対象
-
スキーマ「SF10」
- 「REGION」:5行、4.0KB
- 「NATION」:25行、4.0KB
- 「CUSTOMER」:1.5M(150万)行、103.2MB
- 「ORDERS」:15M(1500万)行、425.8MB
-
最もレコード件数が多いテーブルが「ORDERS」
Snowflake側の設定
Datastage側の設定
- ランタイムは、デフォルト(Small)設定
Snowflake の結果
Datastage の結果
フロー
ジョブ(時間)
- 最大1千500万行のデータを含めて、3分足らずで処理終了しました
スキーマ「SF100」の場合
処理対象
-
スキーマ「SF100」
- 「REGION」:5行、4.0KB
- 「NATION」:25行、4.0KB
- 「CUSTOMER」:15M(1500万)行、1.0GB
- 「ORDERS」:150M(1億5千万)行、4.3GB
-
最もレコード件数が多いテーブルが「ORDERS」
Snowflake側の設定
Datastage側の設定
Snowflake の結果
Datastage の結果
フロー
ジョブ(時間)
- 最大1億5千万行のデータを含めて、約25分程度で処理終了しました
スキーマ「SF1000」の場合
処理対象
-
スキーマ「SF10」
- 「REGION」:5行、4.0KB
- 「NATION」:25行、4.0KB
- 「CUSTOMER」:150M(1億5千万)行、10.1GB
- 「ORDERS」:1.5B(15億)行、48.6GB
-
最もレコード件数が多いテーブルが「ORDERS」
以前ためした場合の結果では
以前ためした場合にうまく言っていたので、今回もうまくいくとおもっていました
- では、今回は上記のような結果は再現できるでしょうか?
Snowflake側の設定
Datastage側の設定
- エフェメラルストレージを1000GB程度まで拡張
- (社内の有識者からもらったアドバイス。ただしあくまでテスト用の一時的な処理であり、本番ではストレージを別途準備するように、とのこと)
[root@localhost ~]# oc -n ${PROJECT_CPD_INST_OPERANDS} patch pxruntime ds-px-xlarge --patch '{"spec":{"ephemeralStorageLimit": "1000Gi"}}' --type=merge
pxruntime.ds.cpd.ibm.com/ds-px-xlarge patched
[root@localhost ~]#
Snowflake の結果
Datastage の結果
フロー
ジョブ(時間)
- 2時間くらいたったところで失敗していました。。。
結論
- このフローでは超巨大データを処理できなかったので、やり方をかえてみます!
- そのリベンジの結末はこちらをご参照ください!