LoginSignup
85
53

More than 3 years have passed since last update.

BigQuery でデータエンジニアリングするときに使ったドキュメントまとめた

Last updated at Posted at 2019-12-19

用途

  • BigQuery で機械学習のデータの大規模分析を高速にやりたい
  • BigQuery 書けてきたからチューニングしたい
  • BigQuery で機械学習プロダクトのデータエンジニアリングしたい

公式ドキュメント

英語の方が更新早い、日本語更新されてないことがしばしばある。

BigQuery の料金

BigQuery の料金体系はわかりやすく、5 $ / 参照データ TB 。(2019年12月18日現在)

割り当てと上限

実用に値するかは、上限を確認しよう。

標準 SQL 関数と演算子

便利な関数が用意されている。数字をこねる前に、実装がないか確認しよう。

BigQuery のおすすめの方法: ストレージの最適化

保存コストがかかりすぎる?Google のベストプラクティスを見よう。

クエリ パフォーマンスの最適化の概要

クエリが遅い?まずは Google のベストプラクティスを確認しよう。

BigQuery のおすすめの方法: 費用を抑える

クエリが高い?汎用的なポイントは Google のベストプラクティスを確認しよう。

BigQuery Release notes

BigQuery のリリースノート。日本語じゃないけど、苦労が激減するアップデートがあるかも。

SQL はじめての方

SQL Cheat Sheet

Cheat Sheet が良くまとまっているので(英語)、書きながらクエリに慣れよう。

BigQuery はじめての方

BigQuery サンドボックスの使用

サンドボックスモードなら、クレジットカード不要で登録して、無料枠を使い倒せる。まずは触ろう。

command + e と WITH 句を使いこなす

サブクエリで複雑なクエリ書くのは難しいため、WITH 句でクエリを分割して command + e で選択部分の実行して、正しいを積み重ねてクエリを書く。ちなみに、command + return で全体実行できる。

BigQuery FAQ

BigQuery について FAQ 形式で調査したい時に見る。

BigQuery に慣れてきたら

Google BigQuery: The Definitive Guide

BigQuery のドキュメンタリを交えつつ、BigQuery の使い方を体系的に学べる良書。(英語)

BigQueryによるデータ分析のための前処理Tips

データ前処理の鉄板の方法がまとまっている。

BigQuery の ベストプラクティス 〜 2017年度版 〜

実践的節約方法がまとまっている。

BigqueryStandardSQLの黒魔術ってなに!?記してみました!

BigQuery のちょっと便利な技法がまとまっている。

安い速い旨い BigQuery の 19 の最適化法

そこそこ使えるグレーゾーン節約方法までをまとめている。

BigQuery — WITHはネストできる ( サブクエリの中に書ける )

サブクエリを避けて WITH 句で構造を持った SQL を書こう。

【BigQuery】LAG関数,LEAD関数の使い方

分析関数を使えるようになろう。サブクエリが減って高速化が目指せるかも。

My 15th solution features (mainly using BigQuery)

BigQuery 中心の Kaggle 解法。

BigQueryで統計量を出す時に使うクエリメモ

関数で作れる統計量からそうでないものまで。

コーディングスタイル

各人が巨大なクエリ作成すると、品質保持できないので、共通認識を持つ。

分析SQLのコーディングスタイル

BigQueryで読みやすいSQLを書くコツ - たったの3つであなたの意図はもっと伝わる。

Bigquery時代における、分析SQLコーディングスタイルの提唱

Colaboratoryを使ったSQLレビューのすヽめ

データ分析のためのSQLコード規約を考えた。

データ基盤

データ基盤構築をする際におさえておくべき7つのポイント

BigQuery / GCP 中心アーキテクチャを採用する場合の悩みポイントがまとまっている。

BigQuery アクセス権設定まとめ & グループ設計例

BigQuery のアクセス権の設定についてまとめた。

便利ツール

AlphaSQL

ZetaSQLのフォークで、スキーマチェックや依存関係解消して実行してくれる。

bq-airflow-dag-generator

AlphaSQLの子供で、SQLクエリの依存関係を解消した結果をAirflow DAGにしてくれる。

BigQuery Data Lineage

Audit LogsやPub/Sub、Dataflow、Data Catalogを使ってData Lineageしてくれる。

ZetaSQL Formatter

ZetaSQLのフォークで、SQLファイルをフォーマットしてくれます。
ZetaSQL 2020.04.01をそのまま使うとコメントが落ちてしまう不具合が解消されている。

BigQueryのクエリ結果の各種統計値を1コマンドで算出するbq_profileの紹介

BigQuery のクエリ結果の統計値を出せる。pandas で開けないときに。

BigQuery View Analyzer

VIEW の依存関係を可視化してくれる。

BigQueryデータ基盤のテーブル依存関係を管理する

BigQueryの INFORMATION_SCHEMA.JOBS_BY_PROJECTから、データマートと依存テーブルのマッピングを生成してくれる。

BigQuery Visualiser

BigQuery の実行計画を可視化してくれる。クエリチューニングの際に。

実録!BigQuery 警察24時: コストのかかるクエリ一斉取り締まり SP 👮💰

課金額増大の犯 JOB を調査したい時に。

BigQuery Storage API

従来の API より高速にデータをダウンロードできる。マシンでしかできない分析がある時に。

BigQuery Storage APIの速度比較をやってみる

BigQuery BI Engine

BI 連携を超速に。

BigQuery BI Engine解説

Data Portal(Data Studio)

BigQuery BI Engine でリアルタイム、データ可視化。

データポータルへようこそ

BigQuery ML

BigQuery だけで機械学習できる。

BigQuery MLの使い方についてのまとめ

BQMLに新たに追加されたTRANSFORM句で、モデルの前処理を自動的に行う

Airflow

BigQuery 中心のデータパイプラインを作る時に。

Airflowを使用してDWH向けデータパイプラインを作る

Connected Sheets

SQL を書かずに、BigQuery のデータをフィルタしたりできる。公開待ち。

85
53
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
85
53