(追記していきます。)
AWS Redshift
いわゆるデータウェアハウスですね。
PostgreSQLを拡張したものです。
- フルマネージド
- 高速でスケーラブル
- PostgreSQL互換
- 列志向データモデル
- 複数ノードをまとめたクラスター構成
そもそもデータウェアハウスとは
(クラスターについてもう少し書く)
RedShiftって何に使うの?
大容量データを高速に集計分析する必要があるワークロードに活用
- 経営ダッシュボード
- 定型レポーティング
- アドホック分析
- ETL/バッチ
- 機械学習の前処理
ETLとは
Extract(抽出)/Transform(変換)/Load(格納)。
の略で、データ統合時に発生する各プロセスの頭文字をとったもの
構成
- リーダーノード(クエリのエンドポイント)
- コンピュートノード(クエリの実行)
- マネージドストレージ
データ
データはユーザー管理のS3を通してロード・アンロード
課金
- 一般的なデータウェアハウスよりは安いはず
- 1テラバイトあたり年間1000USDで利用可能
- コンピュートとストレージの支払いが分類
インスタンスタイプ
- RA3インスタンス
- DC2インスタンス
列志向
- 高速にI/O処理できる
- RDSは業務用データベースで行志向
- 行志向は全ての行にアクセスする必要がある
- 不必要なディスク I/Oが発生
- RedShiftは分析用なので列志向
- 非強王な列のみスキャン
- 不必要なディスク I/Oを削減
- これのおかげでハイパフォーマンス
- 列ごとにデータを格納しているため、類似したデータが集まり高い圧縮率
マテリアライズドビュー
TBW
機械学習
TBW
ワークロード管理
ワークロードとは、定義されたプロセスを集合的にサポートするIT資産のまとまり
キューとスロット
- キューを複数個作成可能
- 各キューにはクラスターが使用できるメモリの一部を割り当てる
- 自動でワークロード管理可能
スケーリング
- 32個までノードを追加
- クラスターの追加もできる
未整理
- データはS3バケットに保存
- S3との関係
コストについて