More than 1 year has passed since last update.

BigQueryを試してみた

Posted at 2024-02-02

背景・目的

今まで、BigQueryをまともに触ってこなかったので、初歩的な知識を整理し、最後に簡単に動作を確認します。

まとめ

特徴を整理します。

特徴	説明
概要	サーバレスのDWH AI/ML、BIが組み込まれている
分析のUX	BigQuery Studioにより、統合されたインターフェイスを提供
コードサポート	SQL,Pythonを記述するためのコードサポート
柔軟性、コストパフォーマンス	複数のエディションがあり、ワークロードにより選択が可能。
組み込みML	MLが組み込まれており、構造/半構造/非構造の処理が可能
マルチクラウド	BigQuery Omni 他のクラウドのデータを分析し、結果を1つの画面に表示して共有できる
リアルタイム	ストリーミングデータをクエリできる CDCによりデータをリアルタイムに取り込める
データの統合と管理	BigLakeにより、様々なデータ型の統合と探索、高度なモデルの構築が可能
BI	Looker Studio 数回クリックするだけで分析情報を作成し共有可能
ガバナンスとセキュリティ	行レベル、列レベルでアクセス制御が可能暗号化も通信時、保管時にデフォルトで選択される
その他機能	地理空間分析が可能
料金	下記で料金が発生する。・コンピューティング・ストレージ・データの取り込み・データの抽出・ストリーミング読み取り

概要

データドリブンのイノベーションを推進するクラウドデータウェアハウスをもとに整理します。

BigQuery は、サーバーレスで費用対効果に優れたエンタープライズデータウェアハウスです。各種のクラウドで機能し、データに合わせたスケーリングも可能です。組み込みの ML / AI と BI を使用して、大規模な分析情報を取得できます。

サーバレスのDWH
AI/ML、BIが組み込まれている

下記の特徴がある。

すべてのアナリティクスユーザーのための統合されたエクスペリエンス
BigQuery Studio は、さまざまなコーディングスキルを持つすべてのデータ実務者のための単一の統合インターフェースを備え、データの取り込みと準備、データの探索と可視化、ML モデルの作成と使用に至る分析ワークフローを簡素化します。また、シンプルな SQL を使用して、特殊なモデルを扱うことを必要とせず、BigQuery 内で直接 Vertex AI の基盤モデルにアクセスし、感情分析やエンティティ抽出などの多くのテキスト処理タスクを実行できます。

BigQuery Studio
- 統合インターフェイス
- Vertex AIの基盤モデルと統合されている

BigQuery の Duet AI
BigQuery に統合された AI コラボレーターである BigQuery の Duet AI は、SQL や Python を記述するためのコンテキストに応じたコードサポートを提供します。関数、コードブロック、修正を自動的に提案します。チャットアシスタンスでは、自然言語を使用して特定のタスクの実行に関するリアルタイムのガイダンスを得ることができるため、ドキュメントを探すための時間を削減できます。詳しくは、Google Cloud の Duet AI をご覧ください。

DuetAI
- SQL,Pythonを記述するためのコードサポート

優れた柔軟性、予測可能な費用、最良のコストパフォーマンス
BigQuery には複数のエディションがあり、個々のワークロード要件に合った機能セットを好きな組み合わせで選択できるので、適切なコストパフォーマンスを実現できます。コンピューティング容量の自動スケーリングにより、ワークロードの需要に応じてコンピューティングリソースを詳細にリアルタイムで管理できます。費用が発生するのは、使用したコンピューティング容量分のみです。また、圧縮ストレージの料金設定により、データ使用量の増加とストレージ費用の削減が同時に実現します。

複数のエディションがある

組み込みの ML
BigQuery ML を使用すると、データサイエンティストやデータアナリストは、世界規模の構造化データ、半構造化データ、現在導入されている非構造化データに基づいた ML モデルを構築し運用化できます。これらのデータは BigQuery 内に直接格納され、シンプルな SQL を使用してごく短時間で処理できます。BigQuery ML モデルは、エクスポートして Vertex AI のオンライン予測や独自のサービスレイヤで使用できます。詳細については、現在サポートされているモデルをご覧ください。

組み込みのML
- SQLで構造化/半構造化/非構造化を処理できる
- BigQueryMLモデルは、エクスポートすることで、Vertex AIのオンライン予測や独自のサービスレイヤーで利用できる

クラウド間でデータを分析し、共有する
BigQuery Omni は、フルマネージドのマルチクラウド分析ソリューションです。費用対効果の高い安全な方法でさまざまなクラウドのデータを分析し、結果を 1 つの画面に表示して共有できます。BigQuery Analytics Hub で、組織内および組織間で安全にデータアセットを交換し、商用、一般公開、Google のデータセットを使用して分析力を強化します。データクリーンルームを作成、管理して、データの移動やコピーを必要とすることなく、プライバシーを重視した測定、データ共有、組織間でのコラボレーションを実現します。

BigQuery Omni
- フルマネージド分析ソリューション
- 他のクラウドのデータを分析し、結果を1つの画面に表示して共有できる
BigQuery Analytics Hub で、組織内および組織間で安全にデータアセットを交換し、商用、一般公開、Google のデータセットが使用できる
クリーンルームも利用可能

ストリーミングデータパイプラインによるリアルタイム分析
BigQuery には、ストリーミングデータを取り込んで直ちにクエリできるようにする機能や、Dataflow などのストリーミングプロダクトとのネイティブなインテグレーションが組み込まれています。1 秒未満のクエリレスポンス時間と高い同時実行性を実現するメモリ内分析サービスの BigQuery BI Engine では、大規模なデータセットをインタラクティブに分析できます。BigQuery マテリアライズドビューを使用すると、環境内のクエリパフォーマンスを強化して費用を削減できます。

ストリーミングデータをクエリできる

あらゆる種類のデータを統合、管理、統制する
BigQuery では、構造化、半構造化、非構造化のすべてのデータ型をクエリできます。BigLake を使用すると、さまざまなデータ型の統合と探索、高度なモデルの構築が可能です。さらに、信頼できるデータへのアクセスを可能にするインテリジェントなデータファブリック、Dataplex の一貫した制御によって、各種データレイク、データウェアハウス、データマートのデータを一元的に検出、管理、モニタリング、統制できます。

BigLake
- 様々なデータ型の統合と探索、高度なモデルの構築が可能
- 高度なモデルの構築が可能
- 信頼できるデータへのアクセスを可能にする

組み込みのビジネスインテリジェンスを使用して分析情報を共有する
組み込みのビジネスインテリジェンスにより、Looker Studio で数回クリックするだけで分析情報を作成して共有したり、Looker で BI を超えるデータリッチエクスペリエンスを構築したりできます。コネクテッドシートを使うと、ピボットテーブル、グラフ、数式などの使い慣れたツールで Google スプレッドシート内の数十億行の BigQuery ライブデータを分析し、ビッグデータから簡単に分析情報を引き出せます。

Looker Studio
- 数回クリックするだけで分析情報を作成し共有可能

データのガバナンスとセキュリティ
Google Cloud のセキュリティおよびプライバシーに関するサービスと BigQuery とのインテグレーションを通じて、セキュリティの強化および列レベルと行レベルでの詳細なガバナンスコントロールが実現します。データは保存時も転送時もデフォルトで暗号化されるため安心です。

fine-grained acccess controlにより列と行のレベルでアクセス制御が可能
通信時、保管時の暗号化をデフォルトサポート

BigQuery による地理空間分析
BigQuery の地理空間機能は、BigQuery のサーバーレスアーキテクチャと地理空間分析のネイティブサポートを独自に組み合わせているため、ロケーションインテリジェンスを使用して従来の分析ワークフローを拡張できます。一般的な地理空間データ形式の任意の点、線、ポリゴン、マルチポリゴンをサポートしており、分析を簡易化して斬新な方法で空間データを可視化することで、新しいビジネスの可能性を切り拓きます。

地理空間分析のネイティブサポートを独自に組み合わせている
ロケーションインテリジェンスを使用して従来の分析ワークフローを拡張できる

リアルタイムの変更データキャプチャとレプリケーション
Datastream を使用して、異種のデータベース、ストレージシステム、アプリケーションの間でデータを確実に、かつ最小限のレイテンシで同期できます。Datastream は目的に特化した拡張可能な Dataflow テンプレートと統合可能で、Cloud Storage に書き込まれた変更ストリームを pull し、リアルタイム分析用の最新の複製テーブルを BigQuery に作成できます。

CDCを使って、BigQueryにリアルタイム連携する

一般的なユースケース

BigQuery へのデータ転送
リアルタイム分析
予測分析
ログ分析
マーケティング分析
データクリーンルーム

料金

2024/2/2時点の情報に基づきます。

無料枠
BigQuery の無料枠では、10 GiB のストレージ、1 か月あたり最大 1 TiB のクエリ、その他のリソースを無料でご利用いただけます。

10GiBのストレージ
1TiBのクエリ
コンピューティング（分析）
- オンデマンド
  - 最大2000個の同時実行スロットが提供される
  - 1つのプロジェクトで共有される
  - $6.25
- standard
  - 標準SQL分析に適している
  - スロット時間あたり$0.04
- Enterprise
  - 高度なエンタープライズ分析
  - スロット時間あたり$0.06
- Enterprise Plus
  - ミッションクリティカル
  - スロット時間あたり$0.10
ストレージ
- アクティブなローカルストレージ
  - $0.02
- 長期の論理ストレージ
  - $0.01
- アクティブな物理ストレージ
  - $0.04
- 長期の物理ストレージ
  - $0.02
データの取り込み
- バッチ取り込み
  - GCSからの取り込み
  - 無料
- ストリーミング
  - $0.01/200MiB
- BigQuery Storage Write API
  - $0.025
データの抽出
- バッチエクスポート
  - GCSへエクスポート
  - 無料
ストリーミング読み取り
- Storage Read APIを使用する
- $1.10/1TiB

実践

BigQuery サンドボックスを有効にするを元に試してみます。

BigQuery サンドボックスの使用を開始する

GCPコンソールでBigQueryを選択します。
画面左上でプロジェクトを選択すると、ポップアップされるので「新しいプロジェクト」をクリックします。
下記を入力し、「作成」をクリックします
- プロジェクト名：任意
- ロケーション：適宜選択してください
作成されました
課金が有効になっていないのでサンドボックス扱いのようです。

Google Cloud コンソールを使用して一般公開データセットに対してクエリを実行

Google Cloud コンソールを使用して一般公開データセットに対してクエリを実行を元に試します。

エクスプローラーで「+追加」をクリックします
「public datasets」＞「公開データセット」を選択します。

一般公開データセットを開く

サーチコンソールに「usa names」を入力し、使用します
「データセットを表示」をクリックします。
表示されました。

一般公開データセットに対してクエリを実行する

エディタに下記のクエリを貼り付けて実行します

SELECT
  name,
  SUM(number) AS total
FROM
  `bigquery-public-data.usa_names.usa_1910_2013`
GROUP BY
  name
ORDER BY
  total DESC
LIMIT
  10;

結果がでました。「James」さんが最も多いようですね

クリーンアップ

最後にプロジェクトを削除します。

リソースの管理に移動します
プロジェクトの一覧が表示されるので削除します
プロジェクトIDを入力し、「このままシャットダウン」をクリックします。
ポップアップが表示されました。すぐに削除されるわけではないのですね。

考察

今回、BigQueryについて特徴を整理し、サンドボックスでクエリを実行してみました。サンドボックスではキャパシティなど設定せずにすぐにチュートリアルができるのは良いですね。
今後も少しづつ触っていこうと思います。

参考

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up