Amazon Redshift
AWSが提供するデータウェアハウスサービス。Redshiftに格納されたデータはJDBC(DBにアクセスするための標準API)で接続が可能。またRedshift Spectrumを使うことで,S3に格納されたデータに直接クエリを発行できる。
RDSと同じリレーショナルデータベースの一種だが,RDSは行を読み取る行指向データベースに対して,Redshiftは列を読み取る列指向データベースと呼ばれる。
Redshiftではコンピュートノード間でデータを複製せず,データを分割して格納している(SharedNothing)。また,複数のコンピュートノードで1つの分析を分割して実施するため,高速で処理できる(Massive Parallel Processing(MPP))。
データウェアハウス
データ分析のための様々なデータを格納する倉庫のこと。POSデータの分析やCRM(Customer Relationship Management)による顧客管理で使用されている。
Redshiftの構成要素
コンポーネント | 説明 |
---|---|
リーダーノード | コンピュートノードの制御やコンピュートノードでの並列SQLの実行 |
コンピュートノード | クエリの実行,S3からのダウンロード |
参考
https://www.youtube.com/watch?v=SMJyTzbWx7M&list=PLPzcoMdqG5noLR7rAc552mvPADUmmdSt1&index=16
AWSの基本・仕組み・重要用語が全部わかる教科書