クラウドデータウェアハウスの雄、Redshiftの2022年上半期最新動向をまとめてみました。
普段からRedshiftを触っていても、最新動向のキャッチアップは優先度が低くなりがちだと思いますので、本記事をお役立てください。
Redshiftとは
Redshiftは、スピーディ・簡単・安全なクラウドデータウェアハウスです。
- ユーザーはインフラ管理に煩わされない。よって、スピーディな分析で洞察を得ることに集中できる。
- 運用データベース、データレイク、データウェアハウス、サードパーティデータセットに含まれる全てのデータを分析できる
- 他社のクラウドデータウェアハウスと比べ、最大3倍の価格性能比。クエリ速度を向上させるための自動化機能も搭載する。
上記のポイントを念頭に、一言で表現すると、
Redshiftは、データウェアハウス、運用データベース、データレイクにまたがる構造化・半構造化データをSQLで分析し、AWSが設計したハードウェアと機械学習により、あらゆるスケールで最高のコストパフォーマンスを実現する。
Redshiftの最新情報(2022/01/05~2022/07/13)
日本のリージョンに関連する情報を主にまとめました。
Redshift向けAWS Data Exchangeが利用可能に
- AWS Data Exchange でサードパーティのデータを見つけてサブスクライブし、Amazon Redshift のデータウェアハウスで数分でクエリを実行できるようにする新機能
- AWS Data Exchangeはサードパーティのデータセットが利用できるサービス
- 抽出、変換、ロード (ETL) は不要で、独自のファーストパーティのデータと結合してデータ分析できる
Amazon Redshift Spectrum がカスタムデータ検証ルールを提供
- Redshift Spectrumは、Amazon S3上に置かれたファイルをRedshiftにロードしたり特殊な準備をすることなく、高度なクエリを実行できる機能
- Redshift Spectrum を使用して、Amazon S3 データレイクをクエリする際に、外部テーブルのカスタムデータ検証ルールを特定することができるようになった
- Redshift Spectrum が、サポートされていないUTF-8 文字や数値のオーバーフローなど、予期せぬ値を含むデータを外部テーブルで処理する方法を制御できるように
- 例えば、Redshift Spectrum がそのようなデータに遭遇した場合に、予期せぬ文字を置換するか、クエリを失敗させるか、行を無視するかを指定することができる
Amazon Redshift デフォルト IAM ロールが全ての AWS 商用リージョンで利用可能に
- Redshift コンソールから IAM ロールを作成でき、それをデフォルトの IAM ロールとして Amazon Redshift クラスターを作成するときに割り当てることで、Amazon S3、Amazon SageMaker、AWS Lambda、Amazon Aurora、および AWS Glue など、他のサービスを簡単に使用できる
- Redshift デフォルト IAM ロールは、IAM ロールの Amazon リソースネーム (ARN) を指定する必要性をなくすことで、他の AWS サービスにアクセスする COPY、UNLOAD、CREATE、EXTERNAL FUNCTION、CREATE EXTERNAL TABLE、CREATE EXTERNAL SCHEMA、CREATE MODEL、または CREATE LIBRARY などの SQL オペレーションの簡素化に役立つ
Amazon Redshift が、Kinesis データストリームのストリーミング取り込みのパブリックプレビューを発表
- Kinesis Data Streams (KDS) のストリーミング取り込みのサポートを開始
- Redshift のストリーミング取り込みを使用すると、データを Amazon Redshift に取り込む前に Amazon S3 でステージングする必要がなくなり、1 秒あたり数百メガバイトのストリーミングデータをデータウェアハウスに取り込みながら、数秒で低レイテンシーを実現できる
Amazon Redshift 同時実行スケーリングの自動ワークロード管理を発表
- Redshift 同時実行スケーリングクラスターに対してより効率的なクエリ処理を提供できるように
- 同時実行スケーリングは、数千人の同時ユーザーからの予測できない需要を処理するための容量を自動的に追加または削除するもの
- 自動ワークロード管理 (AutoWLM) は、クエリをより効率的に処理するように設計されており、同時実行スケーリングクラスターで有効になった
- AutoWLM は機械学習を活用して、Redshift がメモリ使用量とクエリの同時実行性を予測および管理できるようにする
Amazon Redshift が JSON ファイルへのデータのアンロードのサポートを発表
- SQL クエリ結果を JSON 形式で Amazon S3 にUNLOADするためのサポートを追加
- 既にサポートされている区切りテキスト、CSV、および Apache Parquet 形式に加えて JSON を使用できるように
Amazon Redshift クロスリージョンデータ共有のお知らせ
- 異なる AWS リージョンの Redshift クラスター間でのデータ共有が利用可能に
- クロスリージョンのデータ共有は、すべての Amazon Redshift RA3 ノードタイプでサポートされる
- データ共有を使用すると、データのコピーやデータの移動に伴う複雑さや遅延を伴うことなく、別々の Redshift クラスター間でトランザクションに一貫性のあるライブデータを共有できる
Amazon Redshift が PIVOT および UNPIVOT の SQL 演算子のサポートを発表
- データモデリング、データ分析、およびデータ表示のために、行を列に、または列を行に、高いパフォーマンスで転置するのに役立つ PIVOT および UNPIVOT の SQL 演算子をサポートするように
- PIVOT を使用すると、入力テーブルの行が結果テーブルの列に変換されるクロス集計データ表現を作成できる
- UNPIVOT を使用すると、入力テーブルの列を結果テーブルの行に変換できる
Amazon Redshift が Microsoft Azure Active Directory と Microsoft Power BI とのネイティブ統合を発表
- Microsoft Azure Active Directory (AD) とのネイティブ統合を提供するようになり、Microsoft Power BI などのツールでの認証と認可が可能に
- Azure AD を使用して Amazon Redshift へのアクセスを認証することができるようになったので、エンドユーザーは、Azure AD で定義されたグループメンバーシップに基づいてアクセス許可を取得できる
Amazon Redshift がロールベースのアクセスコントロール (RBAC) のサポートを発表
- RBAC は、Amazon Redshift のセキュリティ特権の管理を簡素化することのできる新しい機能強化
- RBAC の機能を使用すると、ユーザーのジョブロール/アクセス許可権限とデータの機密レベルに応じて、データへのエンドユーザーアクセスを広範なレベルまたは詳細なレベルで制御できる
- RBAC を使用すると、管理者は、SQL コマンドを使用してロールを作成し、詳細なアクセス許可のコレクションを付与して、そのロールをエンドユーザーに割り当てることができる
Amazon Redshift が監査ログの新たな機能強化を発表
- レイテンシーを最小限に抑えながら、Amazon CloudWatch を新しいログの送信先として追加することで、分析用のログの配信を高速化できる
- 監査ログを Amazon CloudWatch に直接ストリーミングすることを選択でき、リアルタイムのモニタリングを実行できる
Amazon Redshift では、アジアパシフィック(大阪)、欧州(ミラノ)、中東(バーレーン)、アフリカ(ケープタウン)の各リージョンで RA3 インスタンスが利用可能に
- マネージドストレージを備えた Amazon Redshift RA3 インスタンスを使用すると、コンピューティングとストレージを個別にスケールして料金を支払うことで、クエリのパフォーマンスを高速化し、コストを削減できる
- Amazon Redshift クラスター間でライブデータを安全かつ簡単に共有できる
- RA3 は、3 つの異なるノードタイプ (RA3.16xlarge、RA3.4xlarge、RA3.xlplus) で利用可能となっており、ワークロードの要件に応じて料金とパフォーマンスのバランスをとることができる
Amazon Redshift で、同時トランザクションのための新しいスナップショット分離レベルのサポートを開始
- SNAPSHOT ISOLATION オプションで同時実行性を高めることができ、同じテーブル内で異なる行への同時変更が正常に行われる
Amazon Redshift が Redshift ML で線形学習者アルゴリズムのサポートを開始
- Amazon Redshift は Amazon Redshift MLでモデルを作成するために、Amazon SageMaker Linear Learner アルゴリズムをサポートするように
- 製品の売り上げ予測、マーケティング効果の判定、顧客の製品またはサービス購入意欲の予測などのユースケースで、線形回帰またはロジスティック回帰問題の教師あり学習に使用することができる。CREATE MODEL コマンドで model_type に LINEAR_LEARNER を指定すると、Linear Learner を使った ML モデルを作成することができる
- Amazon Redshift ML は、使い慣れた SQL を使用して、機械学習 (ML) モデルを作成、トレーニング、デプロイできる
- Redshift ML で、データを移動したり新しいスキルを習得したりすることなく、フルマネージドの機械学習サービスである Amazon SageMaker を活用できる
AWS、モダンなデータ分析をエンドツーエンドで支援する 3 つのサーバーレス分析サービス群を一般提供開始
- Amazon EMR Serverless、Amazon MSK Serverless に加え、Amazon Redshift Serverless の新しいサーバーレスオプションにより、ユーザは基盤となるインフラの設定、拡張・管理をせずに膨大なデータ量の分析が可能に
- Amazon Redshift Serveless の利用には、先行投資や追加費用は不要で、ユーザは分析ワークロードに必要な容量に対してのみ料金を支払うことになる
- 現在 Amazon Redshift クラスターを独自に管理しているユーザは、アプリケーションに変更を加えることなく、Amazon Redshift コンソールまたは API を使用して、新しいサーバーレスオプションへの移行を選択することができる