この記事はClickHouseの公式サイトにて掲載されたブログを和訳しています。正確内容は以下のこちらのURLにてご確認ください
(https://clickhouse.com/blog/cloud-data-warehouses-cost-performance-comparison)
Snowflake、Databricks、ClickHouse Cloud、BigQuery、Redshiftを10億行、100億行、1000億行のデータセットでベンチマークし、各ベンダーの実際のコンピューティング課金ルールを適用しました。大規模な分析ワークロードにおいて、ClickHouse Cloudは他のどのシステムよりも桁違いに優れたコストパフォーマンスを提供します。
クラウドデータウェアハウスのコストパフォーマンスを比較する方法
データセットと一連の分析クエリがあります。それらを実行できるクラウドデータウェアハウスがいくつかあります。そして、質問はシンプルです。
分析のワークロードにおいて、1ドルあたり最高のパフォーマンスをどこで得られるか?
価格表ではその答えは得られません。
それは不可能です。ベンダーごとに「compute(計算処理)」の計測方法が異なり、容量の価格設定も異なり、「compute resources(計算リソース)」の定義も違います。そのため、表面的な数字だけでは互いに比較することができません。
そこで、主要な5つのクラウドデータウェアハウスすべてで、同じ本番環境由来の分析ワークロードを実行しました:
- Snowflake
- Databricks
- ClickHouse Cloud
- BigQuery
- Redshift
そして、データが増加するにつれてコストとパフォーマンスがどのように変化するかを確認するため、10億行、100億行、1000億行の3つの規模で実行しました。
簡潔なバージョンをお求めの場合、ネタバレをお伝えします:コストパフォーマンスはシステム間で線形にスケールしません。
ClickHouse Cloudは、他のどのシステムよりも桁違いに優れた価値を提供します。

詳細、チャート、方法論をお知りになりたい方は、続きをお読みください。
再現可能なパイプライン:この記事のすべての結果は、オープンで完全に再現可能なベンチマークパイプラインであるBench2Costを使用して生成されています。Bench2Costは各システムの実際のコンピューティング課金モデルを生のランタイムに適用するため、コスト比較は正確で検証可能です。
ストレージは焦点ではありません:
Bench2Costはすべてのシステムのストレージコストも計算しますが、ストレージ価格はシンプルで、ベンダー間で類似しており、分析ワークロードのコンピューティングと比較すると無視できるほど小さいため、ここでは強調していません。
隠れたストレージの勝利:
とはいえ、チャートからリンクしている結果JSONの生の数値を見ると、ClickHouse Cloudはストレージサイズとストレージコストにおいて、他のすべてのシステムを静かに上回っており、多くの場合桁違いですが、これはこの比較の範囲外です。
インタラクティブなベンチマークエクスプローラー
静的なチャートはストーリーテリングには最適ですが、完全なデータセットの表面をなぞるだけです。
そこで、私たちは新しいものを構築しました:完全にインタラクティブなベンチマークエクスプローラーを、このブログに直接埋め込みました。
ベンダー、ティア、クラスターサイズ、データセットスケールを自由に組み合わせ、ランタイム、コスト、コストパフォーマンスランキングを切り替えて、この調査の背後にある完全な結果を探索できます。

これらの数値をどのように作成したかを理解したい場合は、すべて記事の最後のAppendixに記載されています。
各スケールでシステムがどのように動作するか、10億行から見ていきましょう。
(付録で説明したように、各システムを評価するために標準的な43クエリのClickBench分析ワークロードを使用しています。)
10億行:ベースライン
10億スケールはベースラインとしてのみ含めていますが、現代のデータプラットフォームにとってより現実的なストレスポイントは、100億、1000億、それ以上です。今日の分析ワークロードは、数百億、数千億、さらには数兆行で日常的に動作しています。 Teslaはストレステストのために1000兆行以上をClickHouseに取り込み、ClickPy、私たちのPythonクライアントのテレメトリデータセットは、すでに2兆行を超えています。
以下の散布図は、5つのシステムそれぞれについて、10億行のClickBench実行における合計ランタイム(横軸)と合計コンピューティングコスト(縦軸)を示しています。
(明確性のために目盛りラベルを非表示にしているだけで、ポイントの位置は完全に正確です。上記のインタラクティブなベンチマークエクスプローラーでは、完全な数値軸が表示されます。)

(表示されている構成は各エンジンの全範囲を表しています。詳細は付録をご覧ください。)
10億行では、チャートは3つの明確な動作象限を示しています。

コスト効率を直接比較するために、下のチャートでは実行時間とコストをまとめて、1つのコストパフォーマンススコアとして表しています。(definition in methodology):

図から読み取れる結論は非常に明確です。
-
ClickHouse Cloud が全体で最も優れたコストパフォーマンスを発揮しています。 runtime × cost の値が最も小さく、ほかのすべてのシステムはこれを基準に比較されます。
-
次点は BigQuery(capacity モード)で、このデータセットサイズでは ClickHouse の約2倍のコスト悪化となります。
-
その他の多くの構成は runtime × cost が急速に悪化し、ClickHouse から大きく離れていきます。 その差は 3〜4倍悪いものから、Snowflake や Databricks の大型ティアでは 2桁倍 に達するものまであります。
本当のストーリーは、データ量が増え始めてからです。10億行は現代の基準ではまだ小さく、スケールを 100億・1,000億行へと広げるにつれて経済性は急速に変化します。その段階になると、多くのシステムが「Fast & Low-Cost」ゾーンから大きく外れ始めます。
100億行:ほころびが見え始める
以下の散布図は、5つのシステムそれぞれについて、100億行の ClickBench 実行時における「総実行時間(横軸)」と「総コンピュートコスト(縦軸)」を示しています。
(前述のとおり、視認性を高めるために目盛りラベルは省略していますが、プロットされた点の位置は実際の値に基づいています。数値軸つきの完全版は、上部のインタラクティブベンチマークエクスプローラで確認できます。)
(表示している構成は、各エンジンにおける実用的な構成レンジ全体を代表しています。詳細は Appendix を参照してください。)
100億行になると、最初の大きな分岐が現れます。
実行時間が延び、コストが上昇するにつれて、多くのシステムが「Fast & Low-Cost」クアドラントから外れ始めます。

コストパフォーマンスのスコアを見ると、その差は明らかになる:
-
ClickHouse Cloud は圧倒的な差でトップのコストパフォーマンスを維持し、明確なリーダーであり続けます。
-
次点グループもすでに大きく引き離されており、Snowflake 4X-L、Databricks Large、Databricks 4X-Large は ClickHouse の約7〜13倍悪い 位置に落ちます。
-
BigQuery Enterprise はさらに後退し、約14倍悪い スコアになります。
-
その後ろは一気にロングテールとなり、Redshift Serverless(128 RPU)、Snowflake L、BigQuery On-Demand、Snowflake X-Small、Databricks 2X-Small などが 数十倍〜数百倍悪い レンジに沈みます。
100億行になると、コストの差は一気に開きます。ClickHouse Cloudは、他のどのシステムよりも“桁違いに”高い価値(コスト効率)を提供します。
1,000億行:真のストレステスト
以下の散布図は、5つのシステムそれぞれについて、1,000億行の ClickBench 実行時における「総実行時間(横軸)」と「総コンピュートコスト(縦軸)」を示しています。
(前述のとおり、視認性を高めるために目盛りラベルは省略していますが、プロットされた点の位置は実際の値に基づいています。数値軸つきの完全なチャートは、上部のインタラクティブベンチマークエクスプローラで確認できます。)

(表示している構成は、各エンジンにおける実用的な構成レンジ全体を代表しています。詳細は Appendix を参照してください。なお、縦軸・横軸の両方が対数スケールのため、見た目以上に値の差は大きく広がっています。)
1,000億行になると、分離は劇的になります。
このスケールにおいても「Fast & Low-Cost」ゾーンにしっかり残っているのはClickHouse Cloudだけ です。
それ以外のすべてのエンジンは「Slow & High-Cost」へ完全に押し出され、実行時間は数分〜数時間に及び、コストも桁違いに跳ね上がります。

(Snowflake と Databricks の最小ウェアハウスサイズはここでは掲載していません。1,000億行では実行に数日かかってしまい、この比較のレンジを大きく超えてしまうためです。)
そして、コストパフォーマンススコアで見ると、その差はもはや見逃しようがありません。

1,000億行になると、コストパフォーマンスの差はさらに大きく広がります。
-
ClickHouse Cloud は依然として明確なリーダーで、全体で最も優れたコストパフォーマンスを示します。
-
次点の Databricks(4X-Large) でも、ClickHouse の23倍悪い スコアになります。
-
続く Snowflake(4X-L) は 32倍悪い 位置に落ちます。
-
BigQuery Enterprise、Redshift Serverless(128 RPU)、Databricks(Large)、Snowflake(L) は、数百倍悪い レンジに沈みます。
-
BigQuery On-Demand はさらに大きく崩れ、1,350倍悪い というスコアでチャートの最下層に落ち込みます。
私たちがベンチマークを 1,000億行 で止めたのは、ClickHouse Cloud が限界に達したからではありません。実際にはまったく限界ではありません。しかし、同じベンチマークを 1兆行以上 に拡大すると、他の多くのシステムでは「現実的ではないコスト」や「数日単位の実行時間」になってしまうためです。実際、1,000億行の時点でも、いくつかのウェアハウスでは 1回の ClickBench 実行だけで $100〜$1,700 のコンピュートコストが発生しています。さらに小さいティアでは、実行に数日かかるケースも出てきます。
誰が最高のコストパフォーマンスを提供するのか?
シンプルな問いからスタートした今回の検証ですが、いま私たちはその答えを データで 示せます。
アナリティクスワークロードにおいて、1ドルあたり最も高い性能を得られるのはどこか?
スケールを 100億、そして 1,000億行へと押し上げていくと、傾向はもはや明白になります。
主要なクラウドデータウェアハウスは、いずれも “Slow & High-Cost” の方向へと drift(ドリフト)していきます。
ただし、1つだけ例外があります。
1,000億行のストレステストを含むすべてのスケールにおいて、ClickHouse Cloud だけが一貫して「Fast & Low-Cost」ゾーンにとどまり、揺るぎません。
他のシステムはすべて、より遅く、より高コストに、あるいはその両方に向かっていきます。
大規模なアナリティクスワークロードにおいて、ClickHouse Cloud は他のどのシステムよりも“桁違いに”高い価値を提供します。
そして重要なポイントがあります。
-
Snowflake と Databricks は、すでに提供できる最大ウェアハウスサイズという「ハードリミット」に到達していました。
-
一方で、ClickHouse Cloud にはそのような上限がありません。
今回のベンチマークで 20 ノード で止めたのは、ClickHouse Cloud が限界だったからではなく、
その時点で結論がすでに決定的だったからです。
ベンチマークをどのように実行したかを詳しく知りたい場合は、公式サイトに公開しております!
https://clickhouse.com/blog/cloud-data-warehouses-cost-performance-comparison


