4
8

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

BigQueryサンドボックスでSQL(主にデータ抽出)の勉強を始める

Posted at

動機

2019年12月からデータ分析の仕事をすることになりました。
SQLを書いたこともないので、とりあえずPostgreSQLをインストールして勉強しよう!
と思ってたら、来月からは「BigQuery」とやらを使ってSQLを書くらしい。
でも、勉強用に参考書(SQL 第2版 ゼロからはじめるデータベース操作)買っちゃったしなぁ…。

  1. そもそもBigQueryって何??
  2. BigQueryは個人が勉強用に使えるものなのか
  3. 買った参考書を活かせる(そのまま実装できる)のか

BigQueryとは

BigQueryは、Googleが提供するサーバーレスでスケーラビリティに優れた企業向けデータウェアハウスです。
https://cloud.google.com/bigquery/?hl=ja

データウェアハウスって何…?

  • データベースの一種(データウェアハウス ⊂ データベース)
  • ある時点のデータを保存しておく倉庫的な役割をはたすデータベースのこと
  • 一般的なデータベースと違って、内容の書き換えや削除などはしない

ピンとこないですね…。
一般的なデータベースとして、例えば銀行の預金残高を管理しているデータベースを考えてみます。
こういうデータベースは入金/出金のようなイベントがあるたび、逐次テーブルの値が更新されるでしょう。

一方でデータウェアハウスは、「2019/12/21の預金残高」「2019/12/22の預金残高」…
のように、"ある時点のデータ"をひたすら保管しておくためのデータベースのようです。
データを保管する目的は主に分析のためで、過去のデータのため基本的に書き換えや削除はしないみたいです。

膨大な過去ログが保管されているデータベースで、稼働中のサービスとは切り離されているもの、と理解したけど合っているでしょうか…。
BigQueryではデータをクラウドに保管しておいて、ブラウザ上でSQLを書いて操作できるみたいです。

BigQueryは何がすごいの?

データウェアハウスには過去のデータを保存しておくため、データが大規模になりやすいです。
データの量が増えるとSQLの処理時間も増える。数秒なら良いけど、数分数時間となってくると仕事にならないと思います。

それを高速に処理できるサービスとして利用されているのがBigQueryです。
詳しいことは分かりませんが、Googleが所有する大量のマシンで分散処理をしているから速いらしいです。

BigQueryサンドボックス?

BigQueryは「データを保存しておくこと」「クエリを実行すること」の2つについて、使用量に応じて料金がかかるみたいです。ただし、一定の量までは無料で使用できます。

  • ストレージ(データの保存)
    • 無料枠… 1ヶ月あたり10GB
    • それ以上は… GB あたり $0.02/月
  • クエリ
    • 無料枠… 1ヶ月あたり1TB
    • それ以上は… TB あたり $5

これから勉強を始める自分にとっては、無料枠が用意されているのが非常にありがたいです。
でも、Google Cloud Platformのアカウントとかクレジットカードの登録とかが必要らしい…。

でも大丈夫。そういった面倒なことは置いといて、とりあえず使ってみたい!という自分のような人向けにBigQueryサンドボックスというサービスがあります。
データは60日間しか保存できないものの、諸々の登録無しで無料枠分の使用が可能です。勉強用ならこれで十分だと判断しました。

BigQueryサンドボックスの始め方

ここからは実際に手を動かしながら見ていきます。
Google Cloud PlatformのBigQueryのページに移動すると、「BigQuery の無料トライアル」というボタンが表示されます。
スクリーンショット 2019-12-21 20.34.09.png
ボタンを押すと以下のページに移動します。
プロジェクトがないとダメみたいなので、作成してみます。名前は「Training」で。
スクリーンショット 2019-12-21 21.00.43.png
スクリーンショット 2019-12-21 21.02.16.png

SQLが書けそうな画面があります!
左上にはサンドボックスと書いてあるし、どうやらBigQueryサンドボックスを使用する準備ができたみたいです。
スクリーンショット 2019-12-21 21.04.18.png

データセットの作成

参考書ではSQL(CREATE DATABASE shop;)でデータベースを作成するように指示されていましたが、BigQueryではGUIを操作して作成するようです。
SQLでの作成も試しましたが、サンドボックスだとデータの追加ができないみたいなので諦めます。

サンドボックス プロジェクトでサポートされていないものは、次のとおりです。

というわけでGUIを使っていきます。
左下のプロジェクト名(自動で末尾に番号が振られていた)をクリックして「データセットを作成」ボタンを押します。
スクリーンショット 2019-12-21 21.13.21.png

データセット「shop」を作成します。
スクリーンショット 2019-12-21 21.34.27.png

プロジェクト名の下に「shop」が作成されました。
スクリーンショット 2019-12-22 11.28.03.png

テーブルを作成する

テーブルの作成もGUIから行います。csvファイルやGoogleスプレッドシートをソースとして作成できるみたい。
今回はGoogleスプレッドシートにデータを保存して、それをソースにテーブルを作成してみます。

まずはスプレッドシートで参考書を見ながら表を作成します。(保存したら表のURLをコピーしておく)
スクリーンショット 2019-12-22 11.42.16.png

作成したらBigQueryに戻って「shop」データセットを選択し、テーブルを作成します。
スクリーンショット 2019-12-21 21.36.15.png

一番上でソースを選択できるので、右から「ドライブ→作成した表のURL→Googleスプレッドシート」に変更します。
テーブル名とフィールド名は例の如く参考書を参考に設定しました。
スクリーンショット 2019-12-22 11.20.18.png

データセットの下に、テーブル「Shohin」が作成されました!
スクリーンショット 2019-12-22 11.48.07.png

SQLを書いてみる

テーブルが作成できたのでいよいよSQLを書いてみます。
とりあえずテーブルがちゃんと作られたのか確認したいので、中身を全部見てみることにしました。

クエリエディタに下記のコードを打ち込みます。

select *
from shop.shohin;

すると、コードが認識されて実行時に処理するデータの量を表示してくれました。
勉強の範囲なら大きなデータは扱わないので大丈夫だと思いますが、実務の際には無駄に大量のデータを処理しないよう注意したいところです。
スクリーンショット 2019-12-23 23.21.09.png

実行してみます。
画面下部に先ほどGoogleスプレッドシートに記入したデータが表示されました!
スクリーンショット 2019-12-23 23.35.06.png

WHERE文なども期待通りに動きました。(結果は省略)

select *
from shop.Shohin
where hanbai_tanka > 1000;

まとめ

1. そもそもBigQueryって何?? 
 →Googleが提供する、大規模データを高速に処理できるデータウェアハウスのこと。
2. BigQueryは個人が勉強用に使えるものなのか
 →Googleアカウントがあれば、無料のBigQueryサンドボックスが使用できる。一部制限あり。
3. 買った本を活かせる(そのまま実装できる)のか
 →INSERTやUPDATEといったテーブルの内容を変更するもの以外であれば活かせる?

今後は今回作ったプロジェクト上で、参考書のコードをガシガシ動かしていこうと思います。
「3. 買った本を活かせる(そのまま実装できる)のか」については、今後気づいたことがあれば追記します。

※qiita初投稿ですので、ルール・マナー違反や間違っている内容等ありましたら是非ともご指摘ください。

参考にしたページなど

[BigQueryの事始め。Web Consoleと戯れる。 - Morning Girl]
(http://kageura.hatenadiary.jp/entry/2018/02/13/BigQueryの事始め%E3%80%82Web_Consoleと戯れる%E3%80%82)
[GCPアカウントなしでも使えるBigQueryの始め方 - Qiita]
(https://qiita.com/perico_v1/items/7ea358a64cf1efa52cd9)
[データウェアハウス(DWH)とは | 定義・データベース(DB)との違い | ボクシルマガジン]
(https://boxil.jp/mag/a1657/)
[データウェアハウス (DWH)とは | 「分かりそう」で「分からない」でも「分かった」気になれるIT用語辞典]
(https://wa3.i-3-i.info/word15571.html)

4
8
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
4
8

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?