Redshift
サービス概要
エンタープライズレベル、ペタバイト規模、フルマネージド型のデータウェアハウスサービス。
超並列処理、列指向データストレージ、および非常に効率的で対象を限定したデータ圧縮エンコードスキームの組み合わせによって、効率的なストレージと最善のクエリパフォーマンスを実現。
シンプルで費用対効果の高いサービスを実現し、既存のビジネスインテリジェンスツールを使用して、すべてのデータを効率的に分析可能。
特徴
- ビジネスインテリジェンス (BI)、レポート、データ、分析ツールなど、多くの種類のアプリケーションとのクライアント接続をサポート。
類似サービスとの比較
*比較対象としてDynamoDBも記載されることが多いが、NoSQLDBのため、今回は省きます。
Redshift | RDS | |
---|---|---|
概要 | ・データウェアハウスタイプ/スケーラブル/高パフォーマンス。 ・OLAP(複雑で分析的な問い合わせに回答) |
・インスタンスでありVPC内に配置可能。 ・MySQL、Oracle、Microsoft SQL Server、PostgreSQL、MariaDB、Amazon Auroraをサポート。現行のツールがそのまま使えるため、オンプレからの移行が比較的容易。 ・データベースソフトウェアのパッチは自動パッチが可能。 |
ユースケース | 大容量データ分析。列指向DB。リレーショナルデータベース | リレーショナルデータベース。メタデータ分析。比較的、汎用的に利用可能 |
ベストプラクティス
- 列指向データベースは水平スケーリングが可能なため、低コストの分散クラスターを使用し、スケールアウトすることで、高い費用対効果でスループットを向上できる。ペタバイトクラスの構造化データウェアハウスとしてビッグデータ分析処理に最適。
- Redshiftは暗号化されたSSL接続を使用して、スナップショットをS3に保存可能。EBS同様、増分スナップショットを自動作成し、このスナップショットからクラスターを復元可能。このバックアップは残ってしまうため、保持期間を指定または削除が推奨される。
- プライマリクラスターがダウンした場合、すぐに利用できるようにするにはクロスリージョンスナップショットを利用する。(自動的に他リージョンへコピーされるよう設定)
- S3に蓄積したデータをRedshiftと連携する場合で、VPCのプライベートサブネット内でのデータ利用に限定したいという要件がある場合、
- Redshift拡張VPCルーティングの設定する
- S3にVPCエンドポイントからアクセスする