0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

【完全解説】GCP主要プロダクトとAPIの役割・連携・ユースケース ### 〜NYCタクシーデータ活用を例に、Google Cloudでデータ分析・ML・パイプラインを構築する〜

Last updated at Posted at 2025-04-03

🗃️ 1. NYC TLC Trips(City of New York)

🔍 概要

  • 内容:ニューヨーク市タクシー(Yellow/Green)やリムジンの乗車記録データセット
  • 期間:2009年以降の数億件に及ぶトリップデータ
  • 項目:乗車/降車地点、時刻、金額、チップ、車両IDなど
  • BigQueryパブリックデータセットとして提供されており、分析の練習・MLの素材に最適

🧠 2. Vertex AI API(機械学習)

🔍 概要

  • 目的:機械学習モデルのトレーニング・デプロイ・推論を支援
  • 特徴:AutoML、カスタムトレーニング、予測エンドポイントまで一括管理
  • 連携:BigQuery / Cloud Storage / Notebooks から直接データ連携が可能

🔗 連携例

  • BigQueryからVertex AIへ直接トレーニングデータを渡す(SQLのまま)
  • Vertex AI Pipelines + Cloud Composer でMLパイプラインを自動化

💡 ユースケース

  • NYCタクシーのチップ額を予測する回帰モデルをAutoMLで作成
  • 「平日 vs 週末」「乗車エリア」などの特徴量で学習し、リアルタイム予測も可能

🛠️ 3. Compute Engine API(仮想マシン)

🔍 概要

  • 目的:GCPの仮想マシン(VM)を起動・管理するためのAPI
  • 用途:GPUを使った高速演算や、自由度の高いスクリプト実行環境
  • 柔軟性:Jupyterを自前で立てたり、Dockerで環境再現したい場合に便利

🔗 連携例

  • Vertex AIで足りない特別なライブラリが必要な時にCompute VMで学習
  • Cloud Composer からPythonジョブをCompute VMでバッチ処理するケースも

💡 ユースケース

  • NYCタクシーデータに基づいた大規模経路最適化のシミュレーション
  • OpenCV+YOLOをVM上で実行し、車種分類のデータと統合

☁️ 4. Cloud Composer API(Airflowベースのワークフロー管理)

🔍 概要

  • 基盤:Apache Airflow
  • 目的:ETLやML処理などのワークフローをスケジューリング・管理
  • 特徴:GCP内のAPI群やサービスとシームレスに統合できる

🔗 連携例

  • BigQuery→Dataflow→Vertex AI→BigQueryまでのMLサイクルをAirflow DAGで自動化
  • NotebookやDataprocジョブの起動もCloud Composerから制御可能

💡 ユースケース

  • 「毎日深夜にNYCデータを最新化→MLモデル再トレーニング→予測結果をダッシュボード更新」
  • 完全自動のML Ops パイプライン

📒 5. Notebooks API(AI用ノートブック)

🔍 概要

  • Google Cloud上のJupyterLab環境をAPIで管理
  • 機械学習開発者やデータサイエンティスト向けに、クラウドGPU/TPUを使える
  • TensorFlow, PyTorch, scikit-learn, RAPIDS など対応

🔗 連携例

  • NotebooksからBigQueryに直接接続し、データ取得・分析
  • Notebook上で作成したモデルをVertex AIにアップロードしてデプロイ

💡 ユースケース

  • NYCデータを探索的に分析し、EDA+前処理コードを保存
  • Notebookで書いたモデルを Vertex AI に API経由で登録し、本番化

⛏️ 6. Cloud Dataproc API(Hadoop/Sparkクラスター)

🔍 概要

  • Apache Spark/Hadoopベースの分散処理環境をマネージドで提供
  • スケーラブルなバッチ分析、大規模ETLに最適

🔗 連携例

  • BigQueryパブリックデータ(NYC TLC)をSparkで分散前処理
  • Spark MLlibで前処理&特徴量エンジニアリングを行い、Vertex AIに渡す

💡 ユースケース

  • 数十億件のNYC乗車データを、月ごと・エリアごとに集計しパターンを可視化
  • Sparkベースでのユーザークラスタリングやピーク時間帯検出

🔄 各プロダクトの連携イメージ

        +-----------------+                      +--------------------+
        | BigQuery        | --(SQL or Python)--> | Vertex AI (MLモデル)|
        +-----------------+                      +--------------------+
                ↑                                         ↓
                |                                        推論結果保存
     NYC TLC データ ←(Import)→ Notebooks / Dataproc       |
                ↓                                         ↓
        +-------------------+                   +------------------+
        | Cloud Composer     |<--DAG管理--------| Compute Engine    |
        +-------------------+                   +------------------+

💡 統合ユースケース:NYC タクシー予測分析プロジェクト

ステージ プロダクト 内容
データ取得 BigQuery NYCタクシーデータの読み込み
EDA/前処理 Notebooks / Dataproc EDA + 特徴量抽出・クレンジング
学習 Vertex AI AutoMLでチップ金額予測モデル
デプロイ Vertex AI 推論エンドポイントの提供
ワークフロー管理 Cloud Composer 全体フローを定期実行で自動化
高度処理 or カスタム実装 Compute Engine 外部APIや大規模処理の連携対応

✨まとめ

GCPの各種API群は、それぞれ役割が異なりますが、**「BigQuery+Vertex AI+Cloud Composer」**を軸に、NotebooksやDataprocを補助的に活用することで、強力なデータ分析・MLシステムを構築可能です。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?