IBMが提供する製品に関する情報やナレッジを共有するAdvent Calendar 2024

IBM

Datastageで、Snowflakeの巨大データを処理してみた #1

Last updated at 2024-12-20Posted at 2024-12-11

この記事について

この記事はIBMが提供する製品に関する情報やナレッジを共有する Advent Calendar 2024の12月12日分として記載しています。

実施概要

対象データベースはSnowflake（Azure/東京）の「SNOWFLAKE_SAMPLE_DATA」を使用します
「SF10」「SF100」各スキーマから、「REGION」「NATION」「CUSTOMER」「ORDERS」テーブルを引っこ抜いてJOINしてフィルタリングするフローをDatastageに実行させます
どの程度のデータ量で、どの程度の処理時間がかかるのかを測ってみます
Datastage は、IBMCloudの東京リージョン上のOpenshiftに建てたCloud Pak for Data v5.0.3 上のコンテナソフトウェアを使用しています

スキーマ「SF10」の場合

処理対象

スキーマ「SF10」
- 「REGION」:5行、4.0KB
- 「NATION」:25行、4.0KB
- 「CUSTOMER」:1.5M（150万）行、103.2MB
- 「ORDERS」:15M（1500万）行、425.8MB
最もレコード件数が多いテーブルが「ORDERS」
- 件数：1千500万行
- データサイズ：425.8MB

Snowflake側の設定

Computeはデフォルトの「COMPUTE-WH」(X-Smallサイズ)を使用

Datastage側の設定

ランタイムは、デフォルト（Small）設定

Snowflake の結果

最大で8秒足らずという感じでした
ORDERSテーブルの場合のSQLはこちら

Datastage の結果

フロー

ジョブ（時間）

最大1千500万行のデータを含めて、3分足らずで処理終了しました

スキーマ「SF100」の場合

処理対象

スキーマ「SF100」
- 「REGION」:5行、4.0KB
- 「NATION」:25行、4.0KB
- 「CUSTOMER」:15M（1500万）行、1.0GB
- 「ORDERS」:150M（1億5千万）行、4.3GB
最もレコード件数が多いテーブルが「ORDERS」
- 件数：1億5千万行
- データサイズ：4.3GB

Snowflake側の設定

Computeはデフォルトの「COMPUTE-WH」(X-Smallサイズ)を使用

Datastage側の設定

ランタイムは、デフォルト（Small）設定

Snowflake の結果

各テーブル、1秒もかからずという感じでした
- （この前にも数回試していたため、キャッシュが効いて早かったのかもしれません）
ORDERSテーブルの場合のSQLはこちら

Datastage の結果

フロー

ジョブ（時間）

最大1億5千万行のデータを含めて、約25分程度で処理終了しました

スキーマ「SF1000」の場合

処理対象

スキーマ「SF10」
- 「REGION」:5行、4.0KB
- 「NATION」:25行、4.0KB
- 「CUSTOMER」:150M（1億5千万）行、10.1GB
- 「ORDERS」:1.5B（15億）行、48.6GB
最もレコード件数が多いテーブルが「ORDERS」
- 件数：1.5B（15億）行
- データサイズ：48.6GB

以前ためした場合の結果では

以前ためした場合にうまく言っていたので、今回もうまくいくとおもっていました

こんな感じで

では、今回は上記のような結果は再現できるでしょうか？

Snowflake側の設定

XL サイズを使用しました

Datastage側の設定

エフェメラルストレージを1000GB程度まで拡張
（社内の有識者からもらったアドバイス。ただしあくまでテスト用の一時的な処理であり、本番ではストレージを別途準備するように、とのこと）

[root@localhost ~]# oc -n ${PROJECT_CPD_INST_OPERANDS} patch pxruntime ds-px-xlarge --patch '{"spec":{"ephemeralStorageLimit": "1000Gi"}}' --type=merge
pxruntime.ds.cpd.ibm.com/ds-px-xlarge patched
[root@localhost ~]#

Snowflake の結果

数十秒かかっていますが、問題なく15億行のデータも含めて処理できていました

Datastage の結果

フロー

ジョブ（時間）

2時間くらいたったところで失敗していました。。。

結論

このフローでは超巨大データを処理できなかったので、やり方をかえてみます！
そのリベンジの結末はこちらをご参照ください！

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up