1
Help us understand the problem. What are the problem?

More than 1 year has passed since last update.

posted at

updated at

Organization

BigQueryのパーティション分割テーブルのパーティション毎のデータ量を求める

BigQueryはパーティション分割テーブルを使うことで、パフォーマンスやコストを最適化することができます。

しかし、公式のドキュメントには分割された各パーティション毎のデータサイズを求める方法が書かれていません。

__PARTITIONS_SUMMARY__ メタテーブルを使うことで、パーティションの一覧やそれらの作成・更新時刻を確認することはできますが、このテーブルにサイズの情報はありません。
では、どうやってパーティション毎のサイズを確認できるのでしょうか?

解決策

各パーティションに対して、パーティション内をフルスキャンするクエリをdry runし、推定スキャン量のデータを使う。

partitions = [
  '2020-01-01',
  '2020-01-02',
  '2020-01-03',
]

partitions.each do |partition|
  sql = "SELECT * FROM <テーブル名> WHERE DATE(<パーティションカラム>) = '#{partition}'"
  command = "bq query --nouse_legacy_sql --dry_run \"#{sql}\""

  res = `#{command}`
  m = res.match(/(\d+) bytes/)

  if m
    bytes = m[1].to_i
    puts "#{partition}, #{bytes}"
  end
end

dry runであればクエリ料金がかからないことを利用して、パーティションのサイズを調査しています。
あとは、この情報をCSVとしてGoogle SheetやBQに入れることでさらなる調査ができます。

Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
Sign upLogin
1
Help us understand the problem. What are the problem?