目次
1.はじめに
2.動作環境
3.BigQueryとは
4.カラムの選択による容量の違い
5.まとめ
1. はじめに
この記事はBigQueryに関して記実していきます。
仕事でも使用しているGCPのツールで、SQLを使ってデータを加工したりなどしています。
処理させる際はあまり容量を考えなかったのですが、BigQueryではクエリの実行容量によってコストがかかる仕組みです。
2. 動作環境
・ Mac OS 13.0
・ BigQuery
3. BigQueryとは
BigQuery は、大量のデータを分析するためによく使用されています。
また、SQLを使用してデータセットの検索、集計、グループ化などを行うことができます。
BigQueryの料金はストレージの料金とクエリ料金の合計で決まります。
現在時点(2023年4月11日)での無料枠は
・クエリ料金 : 1ヶ月あたり1TB
・ストレージ料金 : 1ヶ月あたり10GB
となります。
(参照URL)https://cloud.google.com/free/docs/free-cloud-features?hl=ja#free-tier
4. カラムの選択による容量の違い
今回使用するデータマートはGoogle側で用意されているデータマートを利用しました。
bigquery-public-data.github_repos.commits
テーブルが用意できたら実際にSQLを使って1カラムを抽出した場合と「*」(アスタリスク)を使った全てのカラムの抽出でのクエリ処理の容量の違いを実際に見ていきます。
<1カラムの場合>
クエリ処理容量 : 11.26GB
<*の場合>
クエリ処理容量 : 848.02GB
以上写真の結果から大きな差が見られることがわかりました。
5. まとめ
最近ではビッグデータを取り扱う企業などがあると思います。
BigQueryを使っている現場で、テーブルデータにどのような値が入っている確認する場合は、安易に「*」を使って確認することはやめましょう。
また、テーブルデータの中身をクエリで確認するのではなく、エクスプローラのデータマートからクリックして参照するようにしましょう。
また、不必要なカラムは選択しないようにでコストパーフォーマンスの良いクエリを描くように心がけましょう。