1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

AWS Data Analytics - Specialty対策 in Redshift

Last updated at Posted at 2022-03-18

概要

数百ギガバイトから1ペタバイト以上まで拡張が可能で、高速、シンプル、スケーラブルで費用対効果が高い完全マネージド型のデータウェアハウスサービスです

関連する用語

データウェアハウス(DWH)

意志決定(Decision)のため、目的別(Purpose-oriented)に編成され、統合(Integrate)された時系列で、削除(Delete)や更新(Update)しないデータの集合体

Redshiftの仕組み

スクリーンショット 2022-03-18 18.30.41.png

リーダーノード

  • クライアントと直接通信を行う
  • 課金対象外

コンピューティングノード

  • クエリを並列して実行する
  • コードを実行して中間結果をリーダーノードに返却する

ノードスライス

  • ノード内のメモリ、ディスクを分割した論理的な処理単位
  • インスタンスタイプによりスライス数は異なる(2~16)

Redshiftの特徴

クエリ速度が早い

  • 他のクラウドサービスよりも圧倒的にクエリ速度が早い

コストが低い

  • オンプレミスと比較しても75%コストをカットできる
  • リザーブドインスタンスの購入により更にコストカットができる

伸縮性

  • 必要に応じてスケールアップやスケールアウトが容易に行える

Redshiftのユースケース

  • ダッシュボード
  • アドホック分析
  • ETL/パッチ
  • 機械学習の前処理
  • 巨大なデータセット
  • 複雑だが同時実行数が少ないSQL
  • データの更新は一括で実行

大容量データを高速に集計・分析する必要のあるワークロードに向いています。

Amazon Redshift Spectrum

Redshiftの場合ストレージはRedshift管理下のストレージを使っていたがユーザが作成したS3を指定して直接クエリを行うことができる機能も存在する

試験でよくある問題対策

TTLのサポート

  • TTLのサポートはしていない

ワークロード管理

  • 複数の処理を別のキューを使うことで干渉を起きないようにできる

分散スタイル

  • こちらの動画の3:00 ~ 10:00がとても参考になります

大量データの更新時のクエリパフォーマンスの低下

  • データの更新作業が入りバキューム処理が阻害されたため

内容については随時更新します

間違っているところなどありましたら是非コメントいただきたいです:bow

参考にさせていただいた記事

https://www.youtube.com/watch?v=OY0LVdXTOXg
https://macro-send.com/blog/redshift
https://dev.classmethod.jp/articles/relay_looking_back_redshift/
https://docs.aws.amazon.com/ja_jp/redshift/latest/dg/c_high_level_system_architecture.html

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?