Googleが提供するGoogle Cloud Platform(GCP)の認定を学びましたので振り返りとして記載していきます。
GCPはBigqueryのデータ分析や機械学習の用途に強い優位性がある。Dataflow、AWSのEMRの位置付けに対応するDataprocなど幅広いサービスがある。AzureのSynapseの
GCPのBigqueryの優位性は
項目 | BigQuery(GCP) | Redshift(AWS) | Synapse(Azure) |
---|---|---|---|
特徴 | ・完全サーバーレス ・超高速クエリ処理(Dremelエンジン) ・スケーラビリティ自動 |
・高速な集計処理 ・専用クラスタ型でチューニング可能 ・ETLも対応 |
・SQL分析・Power BI連携が強み ・Data Lake統合(Lakehouse的) ・SparkやMLも統合可能 |
向いている用途 | ・一時的に大量のデータを分析したい場合 ・サーバー管理不要でコスト効率重視 |
・常時稼働する分析基盤 ・パフォーマンスを細かく調整したい場合 |
・BI・レポーティング中心のデータ分析 ・Azure製品との統合を前提とする分析基盤 |
料金体系 | ストレージ+クエリ従量課金制 | インスタンスベース(月額/時間単位) | ストレージとコンピュート分離型(柔軟な設計) |
■ サービスアカウントとは(GCP)
GCPにおける「サービスアカウント」とは:
アプリケーションやバッチ処理など「人間ではないプロセス」がGCPのリソースにアクセスするための特別なアカウント。例として、Cloud Run や Cloud Function が BigQuery にアクセスする際などに使用します。
■ AWSとAzureの対応関係
クラウド | 対応する機能・概念 | 補足 |
---|---|---|
AWS | IAMロール + IAMユーザー(主にIAMロール) | Lambda、EC2などのサービスがリソースへアクセスするために「IAMロールを付与」する考え方。 サービスアカウントと同様に「権限を持つ実行主体」です。 |
Azure | マネージドID(Managed Identity) | Azure VM や Function などが Azure リソースに安全にアクセスするために使う。 サービスプリンシパルの一種で、ユーザーがパスワード管理しなくて済む。 |
■ GCPにおける永続ディスクについて
■ 前提:GCPの永続ディスクとゾーンの関係
通常の永続ディスクは、特定のゾーンに紐づいているため、他のゾーンからは直接使えません。
つまり、ゾーン障害が起きると、そのゾーンにあるVMもディスクも一時的に利用不可になります。
■ 他ゾーンで利用するための手順
▼ 方法①:事前にスナップショットを定期的に取得
永続ディスクのスナップショットを作成
ゾーンAのディスクからスナップショットを定期取得(マネージドで自動化可能)
障害発生後:別ゾーンに新しいディスクを復元
スナップショットからゾーンBに新しい永続ディスクを作成
そのディスクを新しいVMに接続して起動
必要に応じて元の構成に近づけて設定
📝 注意点:スナップショットはリージョン単位で保存されるため、別ゾーンで復元可能です。
■ Google Cloud Platform(GCP)の認定
Google Cloud Platformでは、下記のようなGCPの基本的なサービスを体系的に浅く学びます。
- サービスロールのような権限周りの考え方、組織やフォルダお行ったクラウドの権限階層の考え方
- Google Kubernetes Engine(GKE)によるマネージド環境のクラウド環境
- CloudRun,CloudFunctionのようなサーバレスサービスによるアプリケーション
- BigqueryやSpanner,cloudSQLのようなリレーショナルデータベース型のサービスの理解
筆者はデータサイエンス、エンジニア領域を専門にしているので、もう少しデータエンジニアの領域を学んでいきたいですね。