この記事はなに?
- Google Cloud認定資格のProfessional Data Engineerの勉強内容をまとめたものです。
- 一部、筆者の理解不足により誤った内容が書かれている可能性があります。
- 参考にしていただく際は必ず公式リファレンスも併せてご参照ください。
- また、
この内容を覚えれば資格に合格できる
と保証されたものではないことをご了承ください。
Cloud Composer
特徴
- Apache Airflowのフルマネージドなワークフローオーケストレーションサービス。
- クラウドとオンプレミスにまたがるワークフローの作成やスケジュール、モニタリングを行える。
- BigQuery、Datastore、GCS、Dataproc、Dataflow、Cloud Pub/Sub、AI Platformなど、各種GCPサービスとのE2Eの統合ができる。
- 必要に応じて手動実行も可能。
ワークフロー
- データ分析においては、読み込み、変換、分析までの一連のタスクを、ワークフローとして表現することができる。
- ワークフローは、Pythonを用いた
DAG
(有向非巡回グラフ)によって定義される。- DAG内の単一の処理をタスクと呼ぶ。
- タスクで処理を実行するものを
オペレータ
と呼ぶ。
アーキテクチャ
- 顧客プロジェクトとテナントプロジェクトで、それぞれGCPサービスが起動している。
- 顧客プロジェクトでは、GKEクラスタ、GCSバケット、Artifact Registryレポジトリが生成される。
- テナントプロジェクトでは、Cloud SQLインスタンスが生成される。
バージョン
- Cloud Composer1とCloud Composer2が存在する。
- バッチ処理だけを行いたい場合は、Cloud Composer2を選ぶことでGKEのAutopilotモードによりコストを抑えることができる。