More than 5 years have passed since last update.

【Redshift】Redshiftとは

Posted at 2020-11-17

Redshiftとは

AWSがPostgreSQLをベースに開発したDWHのマネージドサービス

リーダーノード：クライアントの窓口となる単一のノード
コンピュートノード：集計・分析などの処理を行う複数のノード

利用するデータサイズと増加予測に応じて2つのインスタンスタイプから選択

一般的なRDBMSのデータ格納方式は行指向であるのに対し、Redshiftでは列指向である
→ 集計・分析クエリに最適化されている

クライアントからクエリを受け付けたリーダーノードがクエリを解釈して各コンピュートノードに処理を指示し、各コンピュートノードがそれぞれ並列に処理を行い、結果を統合してクライアントに返す並列処理の仕組みのこと

※ シングルノード構成の場合はリーダーノードがコンピュートノードを兼任するため、MPPは行われない

S3バケットからRedshiftへデータをロードせずに、S3バケット内のデータに対して直接クエリを実行出来る機能

RedshiftからRedshift Spectrumを外部表として読み込むため、コンピュートノードにデータをロードする必要がない
機能の利用には、S3バケットとRedshift Spectrumの間に、Amazon Athenaによって作成されたAWS Glueデータカタログか、Apache Hiveメタストアが必要となる