この記事はAWS Advent Calendar 2021の記事です。
Redshift Serverless発表!!
12月1日(日本時間)、AWS re:Invent 2021でRedshift Serverless(Preview)が発表されました。
この新機能、個人的にはかなり熱いです。
日頃業務でRedshiftのデータを軸にしたシステムの開発・運用を行っており、パフォーマンスやコスト、管理・運用に苦労しているのですが、それが解消される可能性を感じるからです。
今までのRedshiftは、クラスターを起動している時間に課金される方式のため、使用していない時間にも課金される点がイマイチでした。
また、アクセス数の急増や重いクエリ実行等の利用状況が読みきれない中で、パフォーマンスの安定のためには大きめのノードタイプ・ノード数を用意しておくといった管理・運用負荷がありました。
小さめにクラスターを起動しておき、負荷が高まった時に一時的にスケーリングする同時実行スケーリングという機能もありますが、結局何も使っていない状態でも課金されている事に変わりはないのと、いくつか制約があったりしてうまく活用するには難しい部分もありました。
今出ている情報で分かる簡単な比較はこちらになります。
ノードタイプ・数管理 | パフォーマンス | コスト | |
---|---|---|---|
既存クラスター | 適切に管理する必要あり(管理コスト高い) | ノードタイプ・数によって大きく上下 | 使用していない時も課金 |
Serverless | 管理の必要なし | 自動スケール | 使用した分だけ課金 |
競合も意識した戦略
当社では6年ほどRedshiftを使用していますが、その間データ量やパフォーマンス要件に応じてクラスターのタイプとノード数をどうするか、常に頭を悩ませてきました。
この悩みを解消すべく、最近注目のSnowflakeへの移行も検討しはじめている所です。
Snowflakeは昨年あたりから急激に存在感を増していて、Redshiftから移行した事例もいくつか出てきています。
AWSとしても危機感はあるでしょう。今回の発表は、ユーザーが課題に感じている部分を解決し、Snowflakeに負けまいという意志を感じました。
さっそく触ってみる
Redshiftのダッシュボードに表示されている Try Amazon Redshift Serverless (Preview)
というボタンを押します。
Redshift Serverlessを初めて使う場合、$500分のクレジットがもらえるので気軽に試すことができます。
Create serverless endpoint
ボタンをクリックすると、作成が始まります。
スナップショットから復元してデータを用意
Serverless endpointができたのはいいのですが、このままでは何のデータも入っていない状態です。
スナップショットの画面に行き、既存クラスターの最新スナップショットを選択すると、スナップショットから復元
のプルダウンの中に、Restore to serverless endpoint
が出てきました。
ValidationException
Restoring a snapshot encrypted with AWS Service Managed Key to serverless is not yet supported. Please change the encryption type or use a snapshot encrypted with Customer Managed Key to restore to serverless.
AWSマネージドキーを使用して暗号化されたスナップショットはserverlessに復元できないと。
暗号化タイプの変更をするかカスタマー管理キーで暗号化されたスナップショットを使用せよと書かれてます。
が、調べた所既存クラスターの暗号化を一旦解除しないと復元はできなそう・・・これは面倒だ。
・ ・ ・ ・ ・
そしてその面倒な作業を開発環境で2日がかりで行ってようやく復元することができ、普段使用している約6TBのDBがServerlessで使えるようになりました。
実際のプロダクトのETLを実行してみる
さて、ここからが本当の目的です。
当社のAWS環境で毎日実行しているETL(数百のクエリ実行)があり、これをServerlessで実行して、既存のクラスターでの実行時との比較をしてみたいと思います。
そして気になる結果は以下の通りでした。
-
既存クラスター(ra3.xlplus * 4ノード)
- 合計処理時間 : 65分
-
Serverless
- 合計処理時間 : 36分
開発環境ということで、ra3.xlplus * 4ノードという、あまり高くはないスペックとの比較にはなりますが、Serverlessの方が大幅に速く処理できました!
現時点でServerlessの料金情報は見つからなかったのですが、見つかればコスト比較も後でアップデートします。
無料枠の$500を使い切ったらどうなるのだろうか・・。この検証終わった時点では$26ほど無料枠を使っていました。
いずれにしても
データのクエリやロード中など、データウェアハウスの使用中は秒単位で課金されます。データウェアハウスがアイドル状態の場合は課金されません。
と書かれているので、無駄なお金がかからないのはとても良いことですね。
なにせ現状のRedshiftの料金、めっちゃ高いので・・・
今後の展望
まだPreviewが出たばかりということで、GAまでに色々アップデートがあると思いますが、楽しみな結果となりました。
ra3.4xlargeのような上位のノードと比較しても遜色ないパフォーマンスが出せるのであれば、ほとんどのユーザーはServerlessに移行するのではないでしょうか。
またServerlessとは別に、今回発表された自動マテリアライズド・ビュー(AutoMV)もかなり強力な機能のように思います。
Redshiftはライバルの台頭もあり、今後もさらなる強化・改善が急ピッチで行われていくと思います。
ユーザーとしてはそのメリットをしっかり享受して、ビジネスの強化に活用していきたいですね。
エンジニア大募集中!
TVISION INSIGHTSでは、エンジニアを大募集中です!
ビッグデータを活用した自社サービスの開発に取り組む環境があります。
Python/Django/TypeScript/Angular/AWS(Redshift, ECS, Lambda等)の経験があるエンジニアの方、是非一度下記サイトをご覧ください!
参考