16
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

アイレット株式会社Advent Calendar 2024

Day 2

【AWS re:Invent】AWS Glue Data Catalogに革命! 自動統計生成機能でデータ分析を加速

Posted at

この記事で伝えたいこと(ポイント)

AWS Glue Data Catalogが、Amazon RedshiftやAmazon Athenaなどのクエリエンジンで使用するテーブル統計の生成を自動化するようになりました。これにより、クエリのパフォーマンスが向上し、コスト削減の可能性も期待できます。

はじめに

この記事では、AWS Glue Data Catalogのテーブル統計自動生成機能について解説します。

サービスの説明

AWS Glue Data Catalogは、データレイク内のデータのメタデータを格納・管理するサービスです。今回、このサービスにテーブル統計を自動生成する機能が追加されました。

補足:テーブル統計

テーブル統計とは、テーブルに含まれるデータに関する統計情報(例:行数、列のデータ型、列の最小値・最大値など)のことです。クエリエンジンは、この情報を利用してクエリの実行計画を最適化します。

従来、AWS Glue Data CatalogでApache Icebergテーブルの統計を作成するには、テーブルの設定を継続的に監視・更新する必要がありました。 新機能により、一度カタログを設定するだけで、新しいテーブルの統計が自動的に生成されるようになります。 また、既存のテーブルが更新された場合でも、統計は定期的に更新されます。

統計は、すべての列について行のサンプルを使用して生成されます。 Apache Icebergテーブルの場合、これらの統計には個別値の数(NDV)が含まれます。 Parquetなどの他のファイル形式の場合、null値の数、最大値と最小値、平均長などの追加の統計が収集されます。

どのリージョンで利用できるか

この機能は、以下のAWSリージョンで利用可能です。

  • USA East (N. Virginia, Ohio)
  • US West (N. California, Oregon)
  • Europe (Ireland)
  • Asia Pacific (Tokyo)

どんな時に利用できるか

Amazon RedshiftやAmazon Athenaでクエリを実行する際に、この機能を利用することで、クエリのパフォーマンス向上とコスト削減が期待できます。

補足:Amazon Redshift

Amazon Redshiftは、AWSが提供するペタバイト規模のデータに対応した高速なクラウドデータウェアハウスです。

補足:Amazon Athena

Amazon Athenaは、標準SQLを使用してAmazon S3に格納されたデータを簡単に分析できるインタラクティブなクエリサービスです。

まとめ

AWS Glue Data Catalogのテーブル統計自動生成機能により、Amazon RedshiftやAmazon Athenaでのクエリパフォーマンスの向上が期待できます。この機能は、データレイクを使用するユーザーにとって非常に有用なものです。

参考文献

関連サービス

AWS Glue

Amazon Athena

おわり

16
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
16
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?