はじめに
先日、Google Cloud 認定資格 Professional Data Engineerを更新した際に問題で問われる内容がアップデートされていたので、最新の対策として改めてまとめました。
前回受験した時の受験対策は以下です。
上の内容が古くなったというより、ここ2年で新しく出てきたサービスも問われるようになった感じなので、上の記事+αで本記事を参考にすると良いです。
前回の記事を見るとわかりますが、昨年のこの時期にはベータ版出ており、そこで出題された問題が本試験にも適用された感じです。
アップデート内容
今回更新した際に知識が必要と思ったGoogle Cloudサービスを以下にまとめました。
キーワードベースでまとめていますので、サービスの詳細については添付の公式ドキュメントを参照ください。
AlloyDB
PostgreSQL 互換のあるフルマネージドなデータベースサービスです。Cloud SQL と比較して高価なサービスではありますが、継続バックアップを利用すると RPO が0になったり、分析クエリは Cloud SQL より高速化できたりといったメリットがあります。
AlloyDB Omni ではオンプレミスや他のクラウドの VM、Kubernetes などに AlloyDB をインストールして利用することができます。
Dataplex
Dataplex は、分散されたデータを統合し、そのデータのマネジメントとガバナンスを自動化できるフルマネージドサービスです。
本サービスを使うと主に以下のことができます。
- 複数の Google Cloud プロジェクトに保存されているデータに対して、データを移動せずにデータメッシュを構築可能
- 単一の権限セットによる一貫したデータ管理、モニタリング(データの一元管理)
- カタログ機能を使用したデータの抽出
- データ品質やデータのライフサイクルを管理
Dataform
Dataform は Bigquery におけるデータパイプラインの管理ができるフルマネージドサービスです。
Dataform を使用すると、データ統合の ELT(抽出、読み込み、変換)プロセスにおけるデータ変換を管理できます。試験的には Bigquery で使いたいデータの ELT をしたい = Dataform と短絡的に覚えても OK です。
Datastream
Datastream は、データベースの CDC (変更データ キャプチャ)およびレプリケーションができるサーバレスサービスです。本サービスを利用すると、他のデータベースから BigQuery や Cloud SQL、Cloud Spanner といった Google Cloud のデータベースサービスにデータをストリーミングできます。
Analytics Hub
Analytics Hub は組織間でデータアセットを効率よく安全に交換できるデータ交換サービスです。
本サービスを利用すると、サードパーティーと Google のデータアセットを使用した分析が可能となります。
特徴として以下のことが挙げられます。
- コストを削減し、効率的にデータを共有して交換
- データアセットと分析アセットの一元管理
- ガバナンスによるプライバシーに配慮した安全なデータ共有
BigLake
こちらは Google Cloud サービスというより、BigQuery の外部に保存されたデータに対してクエリを実行する際に必要な外部テーブルのことを指しています。
この BigLake を利用すると、アクセス権の委任を使用して外部データストアの構造化データをクエリでき、以下のようなことが可能となります。
- 行レベルや列レベルのアクセスなどのきめ細かいセキュリティ管理
- マルチコンピューティング分析
- Amazon S3 や Azure Blob Storage などを利用したマルチクラウドガバナンス (これらを用いた分析ソリューションについては次項を参照)
BigQuery Omni
BigQuery Omni を使用すると、BigLake テーブルを使用して、Amazon S3 や Azure Blob Storage に保存されたデータに対して BigQuery 分析を実行できるようになります。
この機能を使ったマルチクラウドな分析ソリューションはサイロ化を防ぎ、低コストで高速な分散型データガバナンスを可能にしています。
また、クラウド間でデータを移動してクロスクラウド転送でデータを結合できる他、クロスクラウド結合を使用してクラウド間でデータのクエリも実行することができます。
認定試験的には、BigQuery で他クラウド上に保存されたデータを分析したい = BigQuery Omni、BigQuery で分析できるようなデータを (アクセス管理も含めて) 用意したい = BigLake と覚えておけばよいでしょう。
おわりに
資格の更新のタイミングで改めて Google Cloud のデータ関連サービスについて勉強しなおしました。
はじめは「更新めんどくさいな」と思っていました (Google Cloud さんすみません) が、実際に更新のために勉強してみると前回のアップデート分が加算されたことで復習+知識強化につながる良い機会だと実感しました。
年末まで怒涛の更新ラッシュが来ているので、他の資格も更新があればまとめようと思います。