概要
数百ギガバイトから1ペタバイト以上まで拡張が可能で、高速、シンプル、スケーラブルで費用対効果が高い完全マネージド型のデータウェアハウスサービスです
関連する用語
データウェアハウス(DWH)
意志決定(Decision)のため、目的別(Purpose-oriented)に編成され、統合(Integrate)された時系列で、削除(Delete)や更新(Update)しないデータの集合体
Redshiftの仕組み
リーダーノード
- クライアントと直接通信を行う
- 課金対象外
コンピューティングノード
- クエリを並列して実行する
- コードを実行して中間結果をリーダーノードに返却する
ノードスライス
- ノード内のメモリ、ディスクを分割した論理的な処理単位
- インスタンスタイプによりスライス数は異なる(2~16)
Redshiftの特徴
クエリ速度が早い
- 他のクラウドサービスよりも圧倒的にクエリ速度が早い
コストが低い
- オンプレミスと比較しても75%コストをカットできる
- リザーブドインスタンスの購入により更にコストカットができる
伸縮性
- 必要に応じてスケールアップやスケールアウトが容易に行える
Redshiftのユースケース
- ダッシュボード
- アドホック分析
- ETL/パッチ
- 機械学習の前処理
- 巨大なデータセット
- 複雑だが同時実行数が少ないSQL
- データの更新は一括で実行
大容量データを高速に集計・分析する必要のあるワークロードに向いています。
Amazon Redshift Spectrum
Redshiftの場合ストレージはRedshift管理下のストレージを使っていたがユーザが作成したS3を指定して直接クエリを行うことができる機能も存在する
試験でよくある問題対策
TTLのサポート
- TTLのサポートはしていない
ワークロード管理
- 複数の処理を別のキューを使うことで干渉を起きないようにできる
分散スタイル
- こちらの動画の3:00 ~ 10:00がとても参考になります
大量データの更新時のクエリパフォーマンスの低下
- データの更新作業が入りバキューム処理が阻害されたため
内容については随時更新します
間違っているところなどありましたら是非コメントいただきたいです:bow
参考にさせていただいた記事
https://www.youtube.com/watch?v=OY0LVdXTOXg
https://macro-send.com/blog/redshift
https://dev.classmethod.jp/articles/relay_looking_back_redshift/
https://docs.aws.amazon.com/ja_jp/redshift/latest/dg/c_high_level_system_architecture.html