【学習用】Google Cloudで体感する最小データ基盤構築(検討メモ)
TL;DR
ソースは Cloud Storage(別環境のFS相当) と BigQuery(別環境のRDBスナップショット相当)。
DataflowテンプレートでCSV→Parquetをデータレイク化(GCS/BigLake)、DataformでDWH整備(ELT/ETL)。
セキュリティは DLP/動的マスキング/RLS/CMEK/VPC SC を段階導入。AIは Gemini in BigQuery と BQ ML/Vector Search を「触って理解」。
1. ねらい(デモようなので、体感ポイントを押さえたい)
- データレイク体験:GCSに置いたCSVを Dataflow File Format Conversion テンプレートで Parquet 化→BigLake外部テーブルでスキーマ化して“レイクの扉”を開く。
- DWH体験:別環境RDB相当=BigQueryの既存スナップショットを“ソース扱い”にし、レイクのParquet(BigLake)とDataformで結合・整形・集約(ETL/ELT)。
- セキュリティ体験:DLP(データプロファイル/マスキング/トークナイズ)、BigQueryの動的データマスキング/列レベル制御/行レベルセキュリティ、CMEK(GCS/BQ)、VPC Service Controls。
- AI体験:Gemini in BigQueryで自然言語→SQL/説明、BQ MLで簡単なモデル、Vector Searchで類似検索。
2. アーキテクチャ
- BigLakeでGCS上のParquetを外部テーブルとして安全にクエリ可能(アクセス委任/接続がポイント)。(Create and set up a Cloud resource connection)
- DataflowテンプレでCSV→Parquet変換(手動トリガ、Pub/Sub不要)。(File Format Conversion(Avro、Parquet、CSV)テンプレート)
- Dataformで依存関係管理&再実行容易なSQLワークフロー。(SQL ワークフローを作成して実行する | Dataform | Google Cloud)
- セキュリティはDLP/列マスキング/RLS/CMEK/VPC SCを“段階導入”。(Sensitive Data Protection を使用した BigQuery データの ...)
- AIはGemini支援+BQ ML+Vector Searchを“触って理解”。(Write queries with Gemini assistance | BigQuery | Google Cloud)
3. データセット(パブリックデータセットの中から検討)
- NYC Taxi Trips(BigQuery Public Datasets / TLC公開元あり):時系列・地理・金額など“基礎の塊”。GC公式ブログにも活用例。(BigQuery の一般公開データセット | Google Cloud)
- TheLook E-Commerce(Lookerチーム提供の合成データ):顧客・注文・商品・Webイベント等、DWHの基本関係を一通り実感。Marketplaceから追加可。(theLook eCommerce)
どちらも BQ Public Datasets から試すことが可能(サンドボックス/Free Tier など)。(BigQuery public datasets | Google Cloud)
4. 公式ドキュメント(抜粋)
- BigLake:最適化/セキュア化、外部データ接続。(Create and set up a Cloud resource connection)
- Dataflow テンプレ:CSV↔Parquet 変換、JDBC→BQ、提供テンプレ一覧。(File Format Conversion(Avro、Parquet、CSV)テンプレート)
- Dataform:クイックスタート/権限/スケジュール(今回は手動)。(SQL ワークフローを作成して実行する | Dataform | Google Cloud)
- セキュリティ:DLP・動的マスキング・列RLS・行RLS・CMEK・VPC SC・UBLA。(Sensitive Data Protection を使用した BigQuery データの ...)
- AI:Gemini in BQ / Vector Search / BQ ML。(Write queries with Gemini assistance | BigQuery | Google Cloud)
- コスト最適化:最大バイト数・パーティション/クラスタリング。(Estimate and control costs | BigQuery | Google Cloud)
- Public Datasets(NYC Taxi / TheLook)。(BigQuery の一般公開データセット | Google Cloud)
5. まとめ
- 最小コスト・最小構成で“本質体験”:Pub/Subや複雑なスケジュールはあえて外し、テンプレ+外部テーブル+SQLワークフローで「データレイク→DWH→AI」まで通しで触れる。(File Format Conversion(Avro、Parquet、CSV)テンプレート)
- セキュリティは“段階導入”:DLP→列/行制御→CMEK/VPC SC とレベルアップ式に学べる。(Sensitive Data Protection を使用した BigQuery データの ...)
- 最新機能のハンズオン:Gemini in BigQuery や Vector Search を“今のBigQuery”として体感。(Write queries with Gemini assistance | BigQuery | Google Cloud)