用途
- BigQuery で機械学習のデータの大規模分析を高速にやりたい
- BigQuery 書けてきたからチューニングしたい
- BigQuery で機械学習プロダクトのデータエンジニアリングしたい
公式ドキュメント
英語の方が更新早い、日本語更新されてないことがしばしばある。
BigQuery の料金
BigQuery の料金体系はわかりやすく、5 $ / 参照データ TB 。(2019年12月18日現在)
割り当てと上限
実用に値するかは、上限を確認しよう。
標準 SQL 関数と演算子
便利な関数が用意されている。数字をこねる前に、実装がないか確認しよう。
BigQuery のおすすめの方法: ストレージの最適化
保存コストがかかりすぎる?Google のベストプラクティスを見よう。
クエリ パフォーマンスの最適化の概要
クエリが遅い?まずは Google のベストプラクティスを確認しよう。
BigQuery のおすすめの方法: 費用を抑える
クエリが高い?汎用的なポイントは Google のベストプラクティスを確認しよう。
BigQuery Release notes
BigQuery のリリースノート。日本語じゃないけど、苦労が激減するアップデートがあるかも。
SQL はじめての方
SQL Cheat Sheet
Cheat Sheet が良くまとまっているので(英語)、書きながらクエリに慣れよう。
BigQuery はじめての方
BigQuery サンドボックスの使用
サンドボックスモードなら、クレジットカード不要で登録して、無料枠を使い倒せる。まずは触ろう。
command + e と WITH 句を使いこなす
サブクエリで複雑なクエリ書くのは難しいため、WITH 句でクエリを分割して command + e で選択部分の実行して、正しいを積み重ねてクエリを書く。ちなみに、command + return で全体実行できる。
BigQuery FAQ
BigQuery について FAQ 形式で調査したい時に見る。
BigQuery に慣れてきたら
Google BigQuery: The Definitive Guide
BigQuery のドキュメンタリを交えつつ、BigQuery の使い方を体系的に学べる良書。(英語)
BigQueryによるデータ分析のための前処理Tips
データ前処理の鉄板の方法がまとまっている。
BigQuery の ベストプラクティス 〜 2017年度版 〜
実践的節約方法がまとまっている。
BigqueryStandardSQLの黒魔術ってなに!?記してみました!
BigQuery のちょっと便利な技法がまとまっている。
安い速い旨い BigQuery の 19 の最適化法
そこそこ使えるグレーゾーン節約方法までをまとめている。
BigQuery — WITHはネストできる ( サブクエリの中に書ける )
サブクエリを避けて WITH 句で構造を持った SQL を書こう。
【BigQuery】LAG関数,LEAD関数の使い方
分析関数を使えるようになろう。サブクエリが減って高速化が目指せるかも。
My 15th solution features (mainly using BigQuery)
BigQuery 中心の Kaggle 解法。
BigQueryで統計量を出す時に使うクエリメモ
関数で作れる統計量からそうでないものまで。
コーディングスタイル
各人が巨大なクエリ作成すると、品質保持できないので、共通認識を持つ。
分析SQLのコーディングスタイル
BigQueryで読みやすいSQLを書くコツ - たったの3つであなたの意図はもっと伝わる。
Bigquery時代における、分析SQLコーディングスタイルの提唱
Colaboratoryを使ったSQLレビューのすヽめ
データ分析のためのSQLコード規約を考えた。
データ基盤
データ基盤構築をする際におさえておくべき7つのポイント
BigQuery / GCP 中心アーキテクチャを採用する場合の悩みポイントがまとまっている。
BigQuery アクセス権設定まとめ & グループ設計例
BigQuery のアクセス権の設定についてまとめた。
便利ツール
AlphaSQL
ZetaSQLのフォークで、スキーマチェックや依存関係解消して実行してくれる。
bq-airflow-dag-generator
AlphaSQLの子供で、SQLクエリの依存関係を解消した結果をAirflow DAGにしてくれる。
BigQuery Data Lineage
Audit LogsやPub/Sub、Dataflow、Data Catalogを使ってData Lineageしてくれる。
ZetaSQL Formatter
ZetaSQLのフォークで、SQLファイルをフォーマットしてくれます。
ZetaSQL 2020.04.01をそのまま使うとコメントが落ちてしまう不具合が解消されている。
BigQueryのクエリ結果の各種統計値を1コマンドで算出するbq_profileの紹介
BigQuery のクエリ結果の統計値を出せる。pandas で開けないときに。
BigQuery View Analyzer
VIEW の依存関係を可視化してくれる。
BigQueryデータ基盤のテーブル依存関係を管理する
BigQueryの INFORMATION_SCHEMA.JOBS_BY_PROJECTから、データマートと依存テーブルのマッピングを生成してくれる。
BigQuery Visualiser
BigQuery の実行計画を可視化してくれる。クエリチューニングの際に。
実録!BigQuery 警察24時: コストのかかるクエリ一斉取り締まり SP 👮💰
課金額増大の犯 JOB を調査したい時に。
BigQuery Storage API
従来の API より高速にデータをダウンロードできる。マシンでしかできない分析がある時に。
BigQuery Storage APIの速度比較をやってみる
BigQuery BI Engine
BI 連携を超速に。
BigQuery BI Engine解説
Data Portal(Data Studio)
BigQuery BI Engine でリアルタイム、データ可視化。
データポータルへようこそ
BigQuery ML
BigQuery だけで機械学習できる。
BigQuery MLの使い方についてのまとめ
BQMLに新たに追加されたTRANSFORM句で、モデルの前処理を自動的に行う
Airflow
BigQuery 中心のデータパイプラインを作る時に。
Airflowを使用してDWH向けデータパイプラインを作る
Connected Sheets
SQL を書かずに、BigQuery のデータをフィルタしたりできる。公開待ち。