More than 1 year has passed since last update.

[AWS Q&A 365][Redshift Spectrum]AWSのよくある問題の毎日5選 #34

Posted at 2023-04-19

1. Amazon Redshift Spectrumとは何ですか？

答え：Amazon Redshift Spectrumは、Amazon S3のファイルから構造化および半構造化データをクエリして取得できる機能で、Amazon Redshiftテーブルにデータをロードする必要がありません。

答え：Redshift Spectrumクエリは、大規模なデータセットに対して非常に高速に実行されるマッシブな並列処理を利用します。処理の大部分はRedshift Spectrumレイヤーで行われ、データのほとんどはAmazon S3に保持されます。

答え：Redshift Spectrumを使用することで、Amazon S3上のファイルから直接データをクエリでき、Amazon Redshiftテーブルにデータをロードする必要がなくなります。これにより、時間とリソースを節約でき、さらに大規模なデータセットをクエリできるようになります。

答え：Redshift Spectrumテーブルは、ファイルの構造を定義し、それらを外部データカタログに登録することで作成します。外部データカタログは、AWS Glue、Amazon Athenaに付属するデータカタログ、または独自のApache Hiveメタストアのいずれかです。

答え：はい、外部テーブルを1つ以上の列でオプションでパーティションに分割できます。外部テーブルの一部としてパーティションを定義することで、パフォーマンスが向上し、Amazon Redshiftクエリオプティマイザがクエリのデータを含まないパーティションを除外できます。