データウェアハウスに関する基本的な内容をまとめてみたものです。データウェアハウスに関する、Web上にすでにある解説コンテンツをまとめたサイトの抜粋です。
[Amazon RedShiftの特徴] (https://www.techcrowd.jp/redshift/feature/)
[カラムナーデータベースとMPP] (https://www.techcrowd.jp/redshift/feature/)
RedShiftの特徴として、カラムナーデータベースとMPPがあげられます。
カラムナーデータベース
大規模なデータを扱うデータウェアハウスは、カラムごとの処理を行うカラムナーデータベースが有効です。
・カラムナーデータベースはある特定のカラムだけ操作できるので、集計処理などを高速で行うことができます
・同一のカラムの内容は、同じデータが繰り返して使われることが多いので、圧縮効率が良くなるために記憶領域を有効に使えます
MPP(Massively Parallel Processing)
RedShiftはMPPによって、リソースを共有せずに線形スケールを可能とするシェアード・ナッシングを実現しています。
そのため、インスタンスを追加することでデータの容量を増やすだけではなく、処理能力も向上させることも可能です。
大量のデータを扱うデータウェアハウスは、このような機能を持つことが不可欠となっています。
[高度な圧縮機能] (https://www.techcrowd.jp/redshift/feature/)
Amazon Redshiftには、Byte dictionary・Delta・Mostlynなどの高度な圧縮方法が複数用意されています。
圧縮効率はデータの内容によって効率が左右されるために、どの圧縮方法を選択するのが良いのか分からない場合もありますが、Redshiftはデータの内容を解析して最適な圧縮方法を採用する機能を持っています。
そのため、データに適していない圧縮を行って、メモリを無駄に使うことがありません。
[圧倒的に安価] (https://www.techcrowd.jp/redshift/feature/)
一般的なデータウェアハウスを購入する場合よりも、Amazon Redshiftを利用することで年間の費用を1/10~1/1000にすることも可能です。
しかも、機能的には一般的なデータウェアハウスとほとんど変わりませんので、クラウド環境でデータウェアハウスを利用する場合は、Amazon Redshiftが最もコストパフォーマンスの良い選択肢の一つとなります。
[クラウド上のデータウェアハウスなので手軽に使える] (https://www.techcrowd.jp/redshift/feature/)
Amazon RedShiftはクラウド上のデータウェアハウスなので、AWSマネジメントコンソールを数回クリックするか、プログラムからAPIを呼び出すだけで簡単に使うことができます。
システムのことは、ほとんどAmazon RedShiftが自動的に管理してくれますので、データウェアハウスのためにエンジニアを雇用する必要もありません。
Amazon RedShiftは手軽に使えて、コストも削減できるデータウェアハウスです。