More than 1 year has passed since last update.

LITALICO Advent Calendar 2022

@ti_aiutoin

株式会社LITALICO

データ分析入門者のためのBigQuery50本ノック(初級編)

Last updated at 2024-06-19Posted at 2022-12-02

この記事はLITALICO Advent Calendar 2022のカレンダー2の3日目の記事です。
https://qiita.com/advent-calendar/2022/litalico

はじめに

自己紹介

株式会社LITALICOでWEBエンジニアをやっています。ti-aiutoと申します。

普段は個人向けのWEBサービスの開発を担当していて、特にモノリスなアプリケーションを持続可能な形に保つこと、フロントエンドの開発しやすい環境を整えることに関心があります。

サービスの開発に加えて、なんだかんだでダッシュボードの構築やデータマート構築のような業務を担当することも多いです。ということで、今回はそんな中で学んだBigQueryの知識を人に伝えるという観点で、50本ノックと題して問題集を作ってみることにしました。

ちなみに今年は業務時間も使ってGoogleの研修プログラムを受講させてもらい、Google Cloud Professional Data Engineerという資格を取ってみたりもしました。今後はデータモデリングやデータウェアハウス構築の方向にも知見を深めていきたいなと思っています。（勝手にデータエンジニア見習いを名乗っている

こんな方におすすめ

基本的には簡単なクエリを書いてデータ分析をしたり、データ分析をするための元データを取得したりしたい方に向けて書いています。
中でも、

SQLの基本的な知識は本で読んだけど、実際に自分の手でクエリを書いたことはない
他のDBMS向けのクエリは書けるけど、BigQuery上で書いたことはない

という方におすすめしたいです。

使い方

普通に問題集として問題を解いてもよし、回答例を眺めるだけでもよし、写経してから後日解き直すでもよし、辞書代わりに使ってもよしです。
問題の後にヒントのリンクも張ってあるのでご活用ください。

構成

全体は初級編・中級編・実践編に分かれています。

初級編は、「SQL初心者が本で読んだことを試してみる」「SQLの本には書いてないけどBigQueryを使う上で特に必要な知識をつける」という観点で作りました。
中級編は、データ型やスキーマを意識するような問題を取り上げたのと、その他知っておくと便利な関数や演算子を使ってみる問題、またデータの簡単な前処理の手順にも触れています。
実践編は、「こんなクエリが書ければ書きたいと思ったクエリの大半は書けるはず」という観点で、独断と偏見の上で作った問題です。

拙い問題かもしれないですが多少は役に立つと思いますので、50問、お付き合いいただければ幸いです。

問題で使うテーブルについて

今回は、基本情報技術者のテキストやSQLの解説書でもよく目にする（気がする）、簡単なECサイトの注文データとアクセスログを題材にしてみました。
なお消費税とか送料とか割引とか色違いとか難しいことは忘れることにします。

BigQuery上では aiuto-public.knock2022_simple_ec のデータセット内に格納してあります。

注文データ

items 商品
- id(INT64) 商品ID
- name(STRING) 商品名
- price(INT64) 価格
- stock(INT64) 在庫数
users 会員
- id(INT64) 会員ID
- registered_at(TIMESTAMP) 仮登録完了日時
- confirmed_at(TIMESTAMP) 本登録完了日時
orders 注文
- id(INT64) 注文ID
- user_id(INT64) 会員ID(外部キー)
- ordered_at(TIMESTAMP) 注文日時
- total(INT64) 合計額
order_statements 注文明細行(一回の注文での各商品の注文個数)
- order_id(INT64) 注文ID(外部キー)
- item_id(INT64) 商品ID(外部キー)
- quantity(INT64) 個数
- ※一つの注文IDについて、同じ商品IDの行は2行以上存在しない

アクセスログ

access_log_transform_日付 テーブル
- time(TIMESTAMP) アクセス日時
- date_jst(DATE) アクセス日(日本時間)
- path(STRING) HTTPリクエストのパス
- method(STRING) HTTPリクエストのメソッド
- status_code(STRING) HTTPレスポンスのステータスコード
- request_id(STRING) リクエストに一意のID
- user_id(INT64) 会員ID
access_log_raw_日付 テーブル
- time(INT64) アクセス日時(UNIXTIME)
- message(STRING) JSON形式でのログ情報

以下のGitHubリポジトリから、元データのCSVと、データの生成に使ったRubyのコードがダウンロードできます。

初級編

問題

ここから使うテーブル

aiuto-public.knock2022_simple_ec.users 会員テーブル

id 会員id	registered_at 仮登録完了日時	confirmed_at 本登録完了日時
200477	2022-10-17 23:09:22 UTC	2022-10-23 23:57:24 UTC
...	...	...

aiuto-public.knock2022_simple_ec.items 商品テーブル

id 商品id	name 商品名	price 価格	stock 在庫数
1	ベーコン	299	12
...	...	...	...

aiuto-public.knock2022_simple_ec.orders 注文テーブル

id 注文id	user_id 会員ID	ordered_at 注文日時	total 合計額
5001	200001	2022-10-03 15:58:12 UTC	1984
...	...	...	...

aiuto-public.knock2022_simple_ec.order_statements 注文明細行テーブル

order_id 注文id	item_id 商品ID	quantity 個数
5002	10001	1
...	...	...

例題

商品 テーブルから全ての行を取得して、 商品名 と 価格 の列だけを抜き出してください。

name	price
ベーコン	299
...	...

回答例

SELECT
  name,
  price
FROM
  `aiuto-public.knock2022_simple_ec.items`

1. [SELECT] 行の絞り込み

商品 テーブルから全ての列を取得して、 価格 が100円以下の商品だけに絞り込んでください。

id	name	price	stock
...	...	...	...

time アクセス日時	date_jst アクセス日	path HTTPリクエストのパス	method HTTPリクエストのメソッド	status_code HTTPレスポンスのステータスコード	request_id リクエストに一意なID	user_id 会員ID
2022-11-10 22:56:00 UTC	2022-11-11	/ranking	GET	200	6924bb32-f1cd-4f7a-a585-4446a8f62d82	200004
...	...	...	...	...	...	...

user_id	total_sum_by_user
200010	55682
...	...

item_id	orders_count_by_item_by_unique_user
10007	334
...	...

データ分析入門者のためのBigQuery50本ノック(初級編)

はじめに

自己紹介

こんな方におすすめ

使い方

構成

問題で使うテーブルについて

注文データ

アクセスログ

初級編

問題

ここから使うテーブル

例題

回答例

1. [SELECT] 行の絞り込み

2. [SELECT] 行の並び替え

3. [演算子] 「...から...まで」の指定

4. [SELECT] 行の重複を除く

5. [演算子] NULLを除く

6. [集計] 列ごとの合計

7. [集計] 集計値を使った絞り込み・並び替え

8. [結合] 内部結合をしてから全ての列を取得

9. [結合] テーブル名のエイリアスの活用・一部の列を取得

10. [SELECT] 列同士の演算

11. [結合] 複数のテーブルの結合

12. [集計] 行数をカウントする

13. [集計] 特定の列について重複を除いてカウントする

14. [集計] カウントの際のNULLの扱い

ここから使うテーブル

15. [日付分割] 全ての日付のテーブルをクエリ

16. [日付分割] 特定の日付のテーブルをクエリ

17. [日付分割] 日付を範囲指定してクエリ

18. [正規表現] 正規表現を使って絞り込む

19. [正規表現] 正規表現を使って値を抽出する

20. [演算子] LIKE検索

21. [条件式] 条件により値を切り替える

22. [タイムスタンプ] タイムゾーンを考慮してタイムスタンプを文字列に変換する

23. [タイムスタンプ] タイムゾーンを考慮してタイムスタンプと文字列を比較する

回答例

1. [SELECT] 行の絞り込み

2. [SELECT] 行の並び替え

3. [演算子] 「...から...まで」の指定

4. [SELECT] 行の重複を除く

5. [演算子] NULLを除く

6. [集計] 列ごとの合計

7. [集計] 列ごとの合計を使った絞り込み・並び替え

8. [結合] 内部結合をしてから全ての列を取得

9. [結合] テーブル名のエイリアスの活用・一部の列を取得

10. [SELECT] 列同士の演算

11. [結合] 複数のテーブルの結合

12. [集計] 行数をカウントする

13. [集計] 特定の列について重複を除いてカウントする

14. [集計] カウントの際のNULLの扱い

15. [日付分割] 全ての日付のテーブルをクエリ

16. [日付分割] 特定の日付のテーブルをクエリ

17. [日付分割] 日付を範囲指定してクエリ

18. [正規表現] 正規表現を使って絞り込む

19. [正規表現] 正規表現を使って値を抽出する

20. [演算子] LIKE検索

21. [条件式] 条件により値を切り替える

22. [タイムスタンプ] タイムゾーンを考慮してタイムスタンプを文字列に変換する

23. [タイムスタンプ] タイムゾーンを考慮してタイムスタンプと文字列を比較する

中級編へ続く