0

More than 1 year has passed since last update.

@sassy_watson(Satoshi Watanabe)

AWS RedShiftを学んでみた

AWS

0

Last updated at 2023-09-09Posted at 2021-03-08

(追記していきます。)

AWS Redshift

いわゆるデータウェアハウスですね。
PostgreSQLを拡張したものです。

フルマネージド
高速でスケーラブル
PostgreSQL互換
列志向データモデル
複数ノードをまとめたクラスター構成

そもそもデータウェアハウスとは

(クラスターについてもう少し書く)

RedShiftって何に使うの？

大容量データを高速に集計分析する必要があるワークロードに活用

経営ダッシュボード
定型レポーティング
アドホック分析
ETL/バッチ
機械学習の前処理

ETLとは

Extract（抽出）/Transform（変換）/Load（格納）。
の略で、データ統合時に発生する各プロセスの頭文字をとったもの

構成

リーダーノード(クエリのエンドポイント)
コンピュートノード(クエリの実行)
マネージドストレージ

データ

データはユーザー管理のS3を通してロード・アンロード

課金

一般的なデータウェアハウスよりは安いはず
１テラバイトあたり年間1000USDで利用可能
コンピュートとストレージの支払いが分類

インスタンスタイプ

RA3インスタンス
DC2インスタンス

列志向

高速にI/O処理できる
RDSは業務用データベースで行志向
- 行志向は全ての行にアクセスする必要がある
- 不必要なディスク I/Oが発生
RedShiftは分析用なので列志向
- 非強王な列のみスキャン
- 不必要なディスク I/Oを削減
これのおかげでハイパフォーマンス
列ごとにデータを格納しているため、類似したデータが集まり高い圧縮率

マテリアライズドビュー

TBW

機械学習

TBW

ワークロード管理

ワークロードとは、定義されたプロセスを集合的にサポートするIT資産のまとまり

キューとスロット

キューを複数個作成可能
各キューにはクラスターが使用できるメモリの一部を割り当てる
自動でワークロード管理可能

スケーリング

32個までノードを追加
クラスターの追加もできる

未整理

データはS3バケットに保存
S3との関係

コストについて

0

Register as a new user and use Qiita more conveniently

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

0