勉強前イメージ
s3のデータselect出来るとかなんとか聞いたことある
あと読み方わかんない
調査
そもそも Amazon Redshift とは?
AWSのデータウェアハウスサービスで、BIツールと呼ばれています。
詳細は こちら
Amazon Redshift Spectrum とは
読み方はスペクトルと読みます。
Redshift SpectrumS3上に保存されているデータに対してRedshiftと同様に分析を行うことができ、
これまで連携していたBIツールの利用も既存のRedshift同様に使用できます。
データウェアハウスの課題として、データを用途ごとに加工し保存しておく必要があります。
それに関して、データレイクという保存方法で無加工のまま保存することが可能になり、それに関してs3が用いられることが多くなりました。
しかし、処理を行う方法としてRedshiftにコピーしなければいけなかったのですが
s3にデータを置いたままそのデータにアクセス出来る方法としてRedshift Spectrumが登場しました。
s3のデータのレイアウトに合わせた外部テーブルを作成することによって、
Redshift上のテーブルのようにs3のデータを参照することができます。
Athena と Redshift Spectrum の使い分け
Athena
- 新しく取得したデータの中身について検証
- 障害時のログ調査
- 大規模でないデータに対しての低頻度のETL処理
Redshift Spectrum
- 結合が含まれないようなデータに対しての高速な処理
- 大規模なデータに対してのETL処理
勉強後イメージ
s3のデータをRedshiftに入れて行うには結構時間かかるから、s3そのまま見たほうがいいんじゃない?みたいな感じ?
ただ、ちゃんと整形してないといけなかったり、JOINは出来ないとかいろいろ制限はありそうだけど速いんだね。