AWS
redshift
Athena

Redshift spectrumとAthenaの違いまとめ

More than 1 year has passed since last update.

AWSは、S3をDatalakeの位置づけにしていますが、何らかのフロントエントがないと何もできません
AWSのサービスでぱっと思い浮かぶのが、AthenaとRedshift spectrumではないでしょうか
その2つのサービスを比較してみました

Athena

  • クラスタを必要としない(A)
  • クエリサービス(B)
  • Amazon Athena は table に partition を設定しないと、基本的に発行するクエリーは該当の S3 Bucket のフルスキャンになってしまいます(C)

Redshift spectrum

  • 構造化データに適している(A)
  • 大規模データに対して、複数クラスタで動作するため、高速なレスポンスが期待できる(A)
  • 非常に大規模な多数のテーブル間で多数の結合がある、高度に構造化されたデータに対してクエリを実行する必要がある場合は、Amazon Redshift をお勧めします(B)

(A):Amazon Redshift Spectrum 10 のベストプラクティス
(B):よくある質問
(C):現場で運用する視点から見た Amazon Athena

所感

Athenaは、ファイルに対するフロントエンド、grepのUI的な位置付け
Redshift spectrumは、テーブルの追加手段な位置付け