データウェアハウスに関する基本的な内容をまとめてみたものです。データウェアハウスに関する、Web上にすでにある解説コンテンツをまとめたサイトの抜粋です。
豊富な圧縮コード
圧縮率をあげることがパフォーマンスの向上につながる
圧縮は、データのサイズを小さくする処理です。
圧縮率をあげることでデータを格納するスペースが少なくなり、ストレージからの転送量が減少するので、パフォーマンスが向上します。
特にビッグデータを扱うAmazon Redshiftでは、わずかな時間に積み重ねが重要です。
Amazon Redshiftがデフォルトの状態では、データを圧縮しないraw形式でデータが格納されますので、パフォーマンスを向上させるために圧縮方式を手動で設定するか、COPYコマンドによって自動的に圧縮方式を適用させなくてはなりません。
列ごとに圧縮エンコードを選択することも可能
Amazon RedShiftでは、以下の圧縮方式がサポートされています。
・raw エンコード
・バイトディクショナリエンコード
・デルタエンコード
・LZO エンコード
・Mostly エンコード
・ランレングスエンコード
・text255とtext32k エンコード
手動で圧縮方式を指定する場合は、CREATE TABLE ステートメントを用います。
既に作成されている列に対して圧縮方式を変更することはできませんが、追加する列に対して圧縮方式を設定することは可能です。