0
0

More than 1 year has passed since last update.

AWS RedShiftを学んでみた

Last updated at Posted at 2021-03-08

(追記していきます。)

AWS Redshift

いわゆるデータウェアハウスですね。
PostgreSQLを拡張したものです。

  • フルマネージド
  • 高速でスケーラブル
  • PostgreSQL互換
  • 列志向データモデル
  • 複数ノードをまとめたクラスター構成

そもそもデータウェアハウスとは

(クラスターについてもう少し書く)

RedShiftって何に使うの?

大容量データを高速に集計分析する必要があるワークロードに活用

  • 経営ダッシュボード
  • 定型レポーティング
  • アドホック分析
  • ETL/バッチ
  • 機械学習の前処理

ETLとは

Extract(抽出)/Transform(変換)/Load(格納)。
の略で、データ統合時に発生する各プロセスの頭文字をとったもの

構成

  • リーダーノード(クエリのエンドポイント)
  • コンピュートノード(クエリの実行)
  • マネージドストレージ

データ

データはユーザー管理のS3を通してロード・アンロード

課金

  • 一般的なデータウェアハウスよりは安いはず
  • 1テラバイトあたり年間1000USDで利用可能
  • コンピュートとストレージの支払いが分類

インスタンスタイプ

  • RA3インスタンス
  • DC2インスタンス

列志向

  • 高速にI/O処理できる
  • RDSは業務用データベースで行志向
    • 行志向は全ての行にアクセスする必要がある
    • 不必要なディスク I/Oが発生
  • RedShiftは分析用なので列志向
    • 非強王な列のみスキャン
    • 不必要なディスク I/Oを削減
  • これのおかげでハイパフォーマンス
  • 列ごとにデータを格納しているため、類似したデータが集まり高い圧縮率

マテリアライズドビュー

TBW

機械学習

TBW

ワークロード管理

ワークロードとは、定義されたプロセスを集合的にサポートするIT資産のまとまり

キューとスロット

  • キューを複数個作成可能
  • 各キューにはクラスターが使用できるメモリの一部を割り当てる
  • 自動でワークロード管理可能

スケーリング

  • 32個までノードを追加
  • クラスターの追加もできる

未整理

  • データはS3バケットに保存
  • S3との関係

コストについて

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0