AWSは、S3をDatalakeの位置づけにしていますが、何らかのフロントエントがないと何もできません
AWSのサービスでぱっと思い浮かぶのが、AthenaとRedshift spectrumではないでしょうか
その2つのサービスを比較してみました
Athena
- クラスタを必要としない(A)
- クエリサービス(B)
- Amazon Athena は table に partition を設定しないと、基本的に発行するクエリーは該当の S3 Bucket のフルスキャンになってしまいます(C)
Redshift spectrum
- 構造化データに適している(A)
- 大規模データに対して、複数クラスタで動作するため、高速なレスポンスが期待できる(A)
- 非常に大規模な多数のテーブル間で多数の結合がある、高度に構造化されたデータに対してクエリを実行する必要がある場合は、Amazon Redshift をお勧めします(B)
(A):Amazon Redshift Spectrum 10 のベストプラクティス
(B):よくある質問
(C):現場で運用する視点から見た Amazon Athena
所感
Athenaは、ファイルに対するフロントエンド、grepのUI的な位置付け
Redshift spectrumは、テーブルの追加手段な位置付け