More than 5 years have passed since last update.

Redshift spectrumとAthenaの違いまとめ

Posted at 2017-12-04

AWSは、S3をDatalakeの位置づけにしていますが、何らかのフロントエントがないと何もできません
AWSのサービスでぱっと思い浮かぶのが、AthenaとRedshift spectrumではないでしょうか
その2つのサービスを比較してみました

Athena

クラスタを必要としない(A)
クエリサービス(B)
Amazon Athena は table に partition を設定しないと、基本的に発行するクエリーは該当の S3 Bucket のフルスキャンになってしまいます(C)

構造化データに適している(A)
大規模データに対して、複数クラスタで動作するため、高速なレスポンスが期待できる(A)
非常に大規模な多数のテーブル間で多数の結合がある、高度に構造化されたデータに対してクエリを実行する必要がある場合は、Amazon Redshift をお勧めします(B)

Athenaは、ファイルに対するフロントエンド、grepのUI的な位置付け
Redshift spectrumは、テーブルの追加手段な位置付け