この記事で伝えたいこと(ポイント)
AWS Glue Data Catalogが、Amazon RedshiftやAmazon Athenaなどのクエリエンジンで使用するテーブル統計の生成を自動化するようになりました。これにより、クエリのパフォーマンスが向上し、コスト削減の可能性も期待できます。
はじめに
この記事では、AWS Glue Data Catalogのテーブル統計自動生成機能について解説します。
サービスの説明
AWS Glue Data Catalogは、データレイク内のデータのメタデータを格納・管理するサービスです。今回、このサービスにテーブル統計を自動生成する機能が追加されました。
補足:テーブル統計
テーブル統計とは、テーブルに含まれるデータに関する統計情報(例:行数、列のデータ型、列の最小値・最大値など)のことです。クエリエンジンは、この情報を利用してクエリの実行計画を最適化します。
従来、AWS Glue Data CatalogでApache Icebergテーブルの統計を作成するには、テーブルの設定を継続的に監視・更新する必要がありました。 新機能により、一度カタログを設定するだけで、新しいテーブルの統計が自動的に生成されるようになります。 また、既存のテーブルが更新された場合でも、統計は定期的に更新されます。
統計は、すべての列について行のサンプルを使用して生成されます。 Apache Icebergテーブルの場合、これらの統計には個別値の数(NDV)が含まれます。 Parquetなどの他のファイル形式の場合、null値の数、最大値と最小値、平均長などの追加の統計が収集されます。
どのリージョンで利用できるか
この機能は、以下のAWSリージョンで利用可能です。
- USA East (N. Virginia, Ohio)
- US West (N. California, Oregon)
- Europe (Ireland)
- Asia Pacific (Tokyo)
どんな時に利用できるか
Amazon RedshiftやAmazon Athenaでクエリを実行する際に、この機能を利用することで、クエリのパフォーマンス向上とコスト削減が期待できます。
補足:Amazon Redshift
Amazon Redshiftは、AWSが提供するペタバイト規模のデータに対応した高速なクラウドデータウェアハウスです。
補足:Amazon Athena
Amazon Athenaは、標準SQLを使用してAmazon S3に格納されたデータを簡単に分析できるインタラクティブなクエリサービスです。
まとめ
AWS Glue Data Catalogのテーブル統計自動生成機能により、Amazon RedshiftやAmazon Athenaでのクエリパフォーマンスの向上が期待できます。この機能は、データレイクを使用するユーザーにとって非常に有用なものです。
参考文献
- AWS Glue Data catalog now automates generating statistics for new ... - AWS