0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

5大クラウドデータウェアハウスのコストパフォーマンス比較

Posted at

この記事はClickHouseの公式サイトにて掲載されたブログを和訳しています。正確内容は以下のこちらのURLにてご確認ください
(https://clickhouse.com/blog/cloud-data-warehouses-cost-performance-comparison)

Snowflake、Databricks、ClickHouse Cloud、BigQuery、Redshiftを10億行、100億行、1000億行のデータセットでベンチマークし、各ベンダーの実際のコンピューティング課金ルールを適用しました。大規模な分析ワークロードにおいて、ClickHouse Cloudは他のどのシステムよりも桁違いに優れたコストパフォーマンスを提供します。

クラウドデータウェアハウスのコストパフォーマンスを比較する方法

データセットと一連の分析クエリがあります。それらを実行できるクラウドデータウェアハウスがいくつかあります。そして、質問はシンプルです。

分析のワークロードにおいて、1ドルあたり最高のパフォーマンスをどこで得られるか?

価格表ではその答えは得られません。

それは不可能です。ベンダーごとに「compute(計算処理)」の計測方法が異なり、容量の価格設定も異なり、「compute resources(計算リソース)」の定義も違います。そのため、表面的な数字だけでは互いに比較することができません。

そこで、主要な5つのクラウドデータウェアハウスすべてで、同じ本番環境由来の分析ワークロードを実行しました:

  • Snowflake
  • Databricks
  • ClickHouse Cloud
  • BigQuery
  • Redshift

そして、データが増加するにつれてコストとパフォーマンスがどのように変化するかを確認するため、10億行、100億行、1000億行の3つの規模で実行しました。

簡潔なバージョンをお求めの場合、ネタバレをお伝えします:コストパフォーマンスはシステム間で線形にスケールしません。

ClickHouse Cloudは、他のどのシステムよりも桁違いに優れた価値を提供します。

Blog_Costs_animation01_small_de9ac301cc (2).gif
詳細、チャート、方法論をお知りになりたい方は、続きをお読みください。

再現可能なパイプライン:この記事のすべての結果は、オープンで完全に再現可能なベンチマークパイプラインであるBench2Costを使用して生成されています。Bench2Costは各システムの実際のコンピューティング課金モデルを生のランタイムに適用するため、コスト比較は正確で検証可能です。
ストレージは焦点ではありません:
Bench2Costはすべてのシステムのストレージコストも計算しますが、ストレージ価格はシンプルで、ベンダー間で類似しており、分析ワークロードのコンピューティングと比較すると無視できるほど小さいため、ここでは強調していません。
隠れたストレージの勝利:
とはいえ、チャートからリンクしている結果JSONの生の数値を見ると、ClickHouse Cloudはストレージサイズとストレージコストにおいて、他のすべてのシステムを静かに上回っており、多くの場合桁違いですが、これはこの比較の範囲外です。

インタラクティブなベンチマークエクスプローラー

静的なチャートはストーリーテリングには最適ですが、完全なデータセットの表面をなぞるだけです。

そこで、私たちは新しいものを構築しました:完全にインタラクティブなベンチマークエクスプローラーを、このブログに直接埋め込みました。

ベンダー、ティア、クラスターサイズ、データセットスケールを自由に組み合わせ、ランタイム、コスト、コストパフォーマンスランキングを切り替えて、この調査の背後にある完全な結果を探索できます。
スクリーンショット 2025-12-03 14.54.19.png

これらの数値をどのように作成したかを理解したい場合は、すべて記事の最後のAppendixに記載されています。

各スケールでシステムがどのように動作するか、10億行から見ていきましょう。

(付録で説明したように、各システムを評価するために標準的な43クエリのClickBench分析ワークロードを使用しています。)

10億行:ベースライン

10億スケールはベースラインとしてのみ含めていますが、現代のデータプラットフォームにとってより現実的なストレスポイントは、100億、1000億、それ以上です。今日の分析ワークロードは、数百億、数千億、さらには数兆行で日常的に動作しています。 Teslaはストレステストのために1000兆行以上をClickHouseに取り込み、ClickPy、私たちのPythonクライアントのテレメトリデータセットは、すでに2兆行を超えています。
以下の散布図は、5つのシステムそれぞれについて、10億行のClickBench実行における合計ランタイム(横軸)と合計コンピューティングコスト(縦軸)を示しています。

(明確性のために目盛りラベルを非表示にしているだけで、ポイントの位置は完全に正確です。上記のインタラクティブなベンチマークエクスプローラーでは、完全な数値軸が表示されます。)
Blog_Costs_008_3d74ce58e7.png
(表示されている構成は各エンジンの全範囲を表しています。詳細は付録をご覧ください。)

10億行では、チャートは3つの明確な動作象限を示しています。
スクリーンショット 2025-12-03 22.15.07.png
コスト効率を直接比較するために、下のチャートでは実行時間とコストをまとめて、1つのコストパフォーマンススコアとして表しています。(definition in methodology):
Blog_Costs_009_18d232f919.png
図から読み取れる結論は非常に明確です。

  • ClickHouse Cloud が全体で最も優れたコストパフォーマンスを発揮しています。 runtime × cost の値が最も小さく、ほかのすべてのシステムはこれを基準に比較されます。

  • 次点は BigQuery(capacity モード)で、このデータセットサイズでは ClickHouse の約2倍のコスト悪化となります。

  • その他の多くの構成は runtime × cost が急速に悪化し、ClickHouse から大きく離れていきます。 その差は 3〜4倍悪いものから、Snowflake や Databricks の大型ティアでは 2桁倍 に達するものまであります。

本当のストーリーは、データ量が増え始めてからです。10億行は現代の基準ではまだ小さく、スケールを 100億・1,000億行へと広げるにつれて経済性は急速に変化します。その段階になると、多くのシステムが「Fast & Low-Cost」ゾーンから大きく外れ始めます。

100億行:ほころびが見え始める

以下の散布図は、5つのシステムそれぞれについて、100億行の ClickBench 実行時における「総実行時間(横軸)」と「総コンピュートコスト(縦軸)」を示しています。

(前述のとおり、視認性を高めるために目盛りラベルは省略していますが、プロットされた点の位置は実際の値に基づいています。数値軸つきの完全版は、上部のインタラクティブベンチマークエクスプローラで確認できます。)

Blog_Costs_011_a2429a91bc.png

(表示している構成は、各エンジンにおける実用的な構成レンジ全体を代表しています。詳細は Appendix を参照してください。)

100億行になると、最初の大きな分岐が現れます。

実行時間が延び、コストが上昇するにつれて、多くのシステムが「Fast & Low-Cost」クアドラントから外れ始めます。
スクリーンショット 2025-12-03 22.22.34.png

コストパフォーマンスのスコアを見ると、その差は明らかになる:

Blog_Costs_012_7d7df43431.png
100億行になると、その差はさらに大きく広がります。

  • ClickHouse Cloud は圧倒的な差でトップのコストパフォーマンスを維持し、明確なリーダーであり続けます。

  • 次点グループもすでに大きく引き離されており、Snowflake 4X-L、Databricks Large、Databricks 4X-Large は ClickHouse の約7〜13倍悪い 位置に落ちます。

  • BigQuery Enterprise はさらに後退し、約14倍悪い スコアになります。

  • その後ろは一気にロングテールとなり、Redshift Serverless(128 RPU)、Snowflake L、BigQuery On-Demand、Snowflake X-Small、Databricks 2X-Small などが 数十倍〜数百倍悪い レンジに沈みます。

100億行になると、コストの差は一気に開きます。ClickHouse Cloudは、他のどのシステムよりも“桁違いに”高い価値(コスト効率)を提供します。

1,000億行:真のストレステスト

以下の散布図は、5つのシステムそれぞれについて、1,000億行の ClickBench 実行時における「総実行時間(横軸)」と「総コンピュートコスト(縦軸)」を示しています。

(前述のとおり、視認性を高めるために目盛りラベルは省略していますが、プロットされた点の位置は実際の値に基づいています。数値軸つきの完全なチャートは、上部のインタラクティブベンチマークエクスプローラで確認できます。)
Blog_Costs_014_291362ced8.png

(表示している構成は、各エンジンにおける実用的な構成レンジ全体を代表しています。詳細は Appendix を参照してください。なお、縦軸・横軸の両方が対数スケールのため、見た目以上に値の差は大きく広がっています。)

1,000億行になると、分離は劇的になります。

このスケールにおいても「Fast & Low-Cost」ゾーンにしっかり残っているのはClickHouse Cloudだけ です。

それ以外のすべてのエンジンは「Slow & High-Cost」へ完全に押し出され、実行時間は数分〜数時間に及び、コストも桁違いに跳ね上がります。
スクリーンショット 2025-12-03 22.29.01.png
(Snowflake と Databricks の最小ウェアハウスサイズはここでは掲載していません。1,000億行では実行に数日かかってしまい、この比較のレンジを大きく超えてしまうためです。)

そして、コストパフォーマンススコアで見ると、その差はもはや見逃しようがありません。
Blog_Costs_015_a93e315273.png
1,000億行になると、コストパフォーマンスの差はさらに大きく広がります。

  • ClickHouse Cloud は依然として明確なリーダーで、全体で最も優れたコストパフォーマンスを示します。

  • 次点の Databricks(4X-Large) でも、ClickHouse の23倍悪い スコアになります。

  • 続く Snowflake(4X-L) は 32倍悪い 位置に落ちます。

  • BigQuery Enterprise、Redshift Serverless(128 RPU)、Databricks(Large)、Snowflake(L) は、数百倍悪い レンジに沈みます。

  • BigQuery On-Demand はさらに大きく崩れ、1,350倍悪い というスコアでチャートの最下層に落ち込みます。

私たちがベンチマークを 1,000億行 で止めたのは、ClickHouse Cloud が限界に達したからではありません。実際にはまったく限界ではありません。しかし、同じベンチマークを 1兆行以上 に拡大すると、他の多くのシステムでは「現実的ではないコスト」や「数日単位の実行時間」になってしまうためです。実際、1,000億行の時点でも、いくつかのウェアハウスでは 1回の ClickBench 実行だけで $100〜$1,700 のコンピュートコストが発生しています。さらに小さいティアでは、実行に数日かかるケースも出てきます。

誰が最高のコストパフォーマンスを提供するのか?

シンプルな問いからスタートした今回の検証ですが、いま私たちはその答えを データで 示せます。

アナリティクスワークロードにおいて、1ドルあたり最も高い性能を得られるのはどこか?
スケールを 100億、そして 1,000億行へと押し上げていくと、傾向はもはや明白になります。

主要なクラウドデータウェアハウスは、いずれも “Slow & High-Cost” の方向へと drift(ドリフト)していきます。

ただし、1つだけ例外があります。

1,000億行のストレステストを含むすべてのスケールにおいて、ClickHouse Cloud だけが一貫して「Fast & Low-Cost」ゾーンにとどまり、揺るぎません。

他のシステムはすべて、より遅く、より高コストに、あるいはその両方に向かっていきます。

Blog_Costs_animation01_small_de9ac301cc (3).gif

大規模なアナリティクスワークロードにおいて、ClickHouse Cloud は他のどのシステムよりも“桁違いに”高い価値を提供します。

そして重要なポイントがあります。

  • Snowflake と Databricks は、すでに提供できる最大ウェアハウスサイズという「ハードリミット」に到達していました。

  • 一方で、ClickHouse Cloud にはそのような上限がありません。

今回のベンチマークで 20 ノード で止めたのは、ClickHouse Cloud が限界だったからではなく、

その時点で結論がすでに決定的だったからです。

ベンチマークをどのように実行したかを詳しく知りたい場合は、公式サイトに公開しております!
https://clickhouse.com/blog/cloud-data-warehouses-cost-performance-comparison

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?