目次
1.はじめに
2.動作環境
3.BigQueryとは
4.キャッシュについて
5.まとめ
1. はじめに
この記事はBigQueryに関して記実していきます。
仕事でも使用しているGCPのツールで、SQLを使ってデータを加工したりなどしています。
今回は一度処理したクエリを再度処理した時の動作について見ていきたいと思います。
2. 動作環境
・ Mac OS 13.0
・ BigQuery
3. BigQueryとは
BigQuery は、大量のデータを分析するためによく使用されています。
また、SQLを使用してデータセットの検索、集計、グループ化などを行うことができます。
BigQueryの料金はストレージの料金とクエリ料金の合計で決まります。
現在時点(2023年4月11日)での無料枠は
・クエリ料金 : 1ヶ月あたり1TB
・ストレージ料金 : 1ヶ月あたり10GB
となります。
(参照URL)https://cloud.google.com/free/docs/free-cloud-features?hl=ja#free-tier
4. キャッシュについて
今回も使用するデータマートはGoogle側で用意されているデータマートを利用しています。
bigquery-public-data.github_repos.commits
テーブルが用意できたら実際にSQLを使って1カラムを抽出するクエリを作成し実行してみます。
そして再度同じクエリを実行して見ます。
2つのジョブ情報についての写真を以下に載せます。
結果処理時間は1回目は19秒ほどかかりましたが、2回目は一瞬で処理されました。(処理結果については写真の赤枠参照)
また2回目のジョブ情報の「処理されたバイト数」を見てみると、キャッシュされた結果と表示されています。
というのも1回目のクエリはデフォルトでキャッシュに保存されます。
そして2回目はそのキャッシュからクエリを実行するため高速で動作します。
また、ストレージ料金もかからないようになっています。
このキャッシュ機能を使いたくない場合は以下の手順を実行します。
1.展開をクリック
2.「キャッシュされた結果を使用」のチェックを外す
5. まとめ
以上のようにキャッシュ機能によって処理速度が高速化したりする便利な機能になっています。
次は今回のテーブルは一時的なキャッシュ結果テーブルの話なので宛先テーブルについて勉強した内容を記入していきたいと思います。