はじめに
Snowflakeにおけるパフォーマンスチューニングには複数の方法があります。
その1つのクラスタリングについて、勉強した内容をまとめておこうと思います。
Snowflakeにおけるクラスタリングとは
Snowflakeでは、テーブルのデータをマイクロパーティションという単位に区切って保存します。
クラスタリングを設定すると、同じ値を持つレコード同士が、同じマイクロパーティションに保存されるようになります。
なぜクラスタリングでクエリのパフォーマンスが改善できるのか
Snowflakeは、どのデータがどのマイクロパーティションに入っているかをメタデータを使って把握してます。
WHERE句を指定してクエリを実行すると、Snowflakeはクエリ結果に必要なデータが入っているマイクロパーティションを読込み、必要なデータを取得します。
クラスタリングされていると、同じ値を持つレコードが同じマイクロパーティションに保存されるので、読込むマイクロパーティションの数が少なくなり、クエリのレスポンスタイムを短縮できます。
以下の例は、クラスタリングの設定前後での読込みに必要なマイクロパーティションの数の違いを表してます。
[col_1]=0001に一致するレコードを取得する際、クラスタリングが設定されていると、[col_1]=0001に一致するレコードが、全てマイクロパーティション①に保存されるため、読込むマイクロパーティションを減らすことができます。
クラスタリングを設定するには
以下のDDLでテーブルの列をクラスタリングキーに指定することで設定できます。
alter table <テーブル名> cluster by (クラスタリングキーに指定する列名);
複数の列をクラスタリングキーに設定することもできます。
どのようなテーブルにクラスタリングを設定すべきか
以下の条件を満たしているテーブルでパフォーマンスの改善が期待できます。
・テーブルの容量がTB以上であること
・テーブル内の一部のレコードを取得するようなクエリが行われていること
(例:特定の年月日に該当するレコードを使って分析するようなファクトテーブル)
どの列をクラスタリングキーに指定すべきか
複数の列をクラスタリングキーに設定することが推奨されてます。(最大で4列)
以下1~2の優先順位でクラスタリングキーを選定します。
1.クエリのWHERE句で頻繁に使われる列
2.他のテーブルと結合する際に結合キーとなる列
複数の列をクラスタリングキーに指定する際、CLUSTER BY句で指定する列の順番に注意する必要があります。
カーディナリティが低い列から順番に指定する方がパフォーマンスが向上します。
カーディナリティとは、列の値の種類の多さを示します。
例えば、0もしくは1のどちらかを示すフラグの列であれば、値の種類は2つなのでカーディナリティは低いと言えます。
IDのような主キーに使われるような列は、値の種類は多く、カーディナリティは高いと言えます。
クラスタリングを利用する際の注意点
・クレジット消費を伴う
Insert等でテーブルにレコードを追加すると、追加直後のレコードは適切なマイクロパーティションに保存されません。
クラスタリングキーで同じ値を持つレコードと同じマイクロパーティションに保存するために、Snowflakeが自動処理で追加されたレコードを移動させます。(自動クラスタリングと呼びます)
レコードの移動には、ウェアハウスが使われるため、クレジット消費が伴います。
頻繁にDMLが行われる場合、クラスタリングをメンテナンスするためのコストが上昇する点に注意が必要です。
以下は、自動クラスタリングによるクラスタリングのメンテナンスを表してます。
クラスタリングの効果の検証
クラスタリングにより、クエリのレスポンスタイムがどれだけ短縮できるかを以下の手順で検証しました。
<検証手順>
手順1:クラスタリング設定前のクエリのレスポンスタイムを計測する
手順2:クラスタリングを設定する
手順3:クラスタリング設定後のクエリのレスポンスタイムを計測する
<検証条件>
・検証対象のテーブル:catalog_sales_clustering (容量:約1TB)
・実行するクエリ:WHERE句にクラスタリングキーを指定したクエリ(14,339,964,710行中、12行を取得する)
・利用するウェアハウス:Sサイズ
・リザルトキャッシュ:利用しない
<検証結果>
⇒クエリのレスポンスタイムを1/100以下に短縮できた。
・クラスタリング設定前:3分56秒
・クラスタリング設定後:2.2秒
以下は、手順に従って行った検証です。
手順1:クラスタリング設定前のクエリのレスポンスタイムを計測する
手順2:クラスタリングを設定する
WHERE句に指定する以下3列をカーディナリティの低い(固有値の種類が少ない)列から順番にCLUSTER BY句に指定する。
1.CS_SOLD_DATE_SK(固有値の数:1,871)
2.CS_SOLD_TIME_SK(固有値の数:85,763)
3.CS_SHIP_CUSTOMER_SK(固有値の数:64,303,076)
手順3:クラスタリング設定後のクエリのレスポンスタイムを計測する
参考にしたサイト
ご案内
株式会社ジールでは、「ITリテラシーがない」「初期費用がかけられない」「親切・丁寧な支援がほしい」「ノーコード・ローコードがよい」「運用・保守の手間をかけられない」などのお客様の声を受けて、オールインワン型データ活用プラットフォーム「ZEUSCloud」を月額利用料にてご提供しております。
ご興味がある方は是非下記のリンクをご覧ください:
https://www.zdh.co.jp/products-services/cloud-data/zeuscloud/?utm_source=qiita&utm_medium=referral&utm_campaign=qiita_zeuscloud_content-area