🗃️ 1. NYC TLC Trips(City of New York)
🔍 概要
- 内容:ニューヨーク市タクシー(Yellow/Green)やリムジンの乗車記録データセット
- 期間:2009年以降の数億件に及ぶトリップデータ
- 項目:乗車/降車地点、時刻、金額、チップ、車両IDなど
- BigQueryパブリックデータセットとして提供されており、分析の練習・MLの素材に最適
🧠 2. Vertex AI API(機械学習)
🔍 概要
- 目的:機械学習モデルのトレーニング・デプロイ・推論を支援
- 特徴:AutoML、カスタムトレーニング、予測エンドポイントまで一括管理
- 連携:BigQuery / Cloud Storage / Notebooks から直接データ連携が可能
🔗 連携例
- BigQueryからVertex AIへ直接トレーニングデータを渡す(SQLのまま)
- Vertex AI Pipelines + Cloud Composer でMLパイプラインを自動化
💡 ユースケース
- NYCタクシーのチップ額を予測する回帰モデルをAutoMLで作成
- 「平日 vs 週末」「乗車エリア」などの特徴量で学習し、リアルタイム予測も可能
🛠️ 3. Compute Engine API(仮想マシン)
🔍 概要
- 目的:GCPの仮想マシン(VM)を起動・管理するためのAPI
- 用途:GPUを使った高速演算や、自由度の高いスクリプト実行環境
- 柔軟性:Jupyterを自前で立てたり、Dockerで環境再現したい場合に便利
🔗 連携例
- Vertex AIで足りない特別なライブラリが必要な時にCompute VMで学習
- Cloud Composer からPythonジョブをCompute VMでバッチ処理するケースも
💡 ユースケース
- NYCタクシーデータに基づいた大規模経路最適化のシミュレーション
- OpenCV+YOLOをVM上で実行し、車種分類のデータと統合
☁️ 4. Cloud Composer API(Airflowベースのワークフロー管理)
🔍 概要
- 基盤:Apache Airflow
- 目的:ETLやML処理などのワークフローをスケジューリング・管理
- 特徴:GCP内のAPI群やサービスとシームレスに統合できる
🔗 連携例
- BigQuery→Dataflow→Vertex AI→BigQueryまでのMLサイクルをAirflow DAGで自動化
- NotebookやDataprocジョブの起動もCloud Composerから制御可能
💡 ユースケース
- 「毎日深夜にNYCデータを最新化→MLモデル再トレーニング→予測結果をダッシュボード更新」
- 完全自動のML Ops パイプライン
📒 5. Notebooks API(AI用ノートブック)
🔍 概要
- Google Cloud上のJupyterLab環境をAPIで管理
- 機械学習開発者やデータサイエンティスト向けに、クラウドGPU/TPUを使える
- TensorFlow, PyTorch, scikit-learn, RAPIDS など対応
🔗 連携例
- NotebooksからBigQueryに直接接続し、データ取得・分析
- Notebook上で作成したモデルをVertex AIにアップロードしてデプロイ
💡 ユースケース
- NYCデータを探索的に分析し、EDA+前処理コードを保存
- Notebookで書いたモデルを Vertex AI に API経由で登録し、本番化
⛏️ 6. Cloud Dataproc API(Hadoop/Sparkクラスター)
🔍 概要
- Apache Spark/Hadoopベースの分散処理環境をマネージドで提供
- スケーラブルなバッチ分析、大規模ETLに最適
🔗 連携例
- BigQueryパブリックデータ(NYC TLC)をSparkで分散前処理
- Spark MLlibで前処理&特徴量エンジニアリングを行い、Vertex AIに渡す
💡 ユースケース
- 数十億件のNYC乗車データを、月ごと・エリアごとに集計しパターンを可視化
- Sparkベースでのユーザークラスタリングやピーク時間帯検出
🔄 各プロダクトの連携イメージ
+-----------------+ +--------------------+
| BigQuery | --(SQL or Python)--> | Vertex AI (MLモデル)|
+-----------------+ +--------------------+
↑ ↓
| 推論結果保存
NYC TLC データ ←(Import)→ Notebooks / Dataproc |
↓ ↓
+-------------------+ +------------------+
| Cloud Composer |<--DAG管理--------| Compute Engine |
+-------------------+ +------------------+
💡 統合ユースケース:NYC タクシー予測分析プロジェクト
ステージ | プロダクト | 内容 |
---|---|---|
データ取得 | BigQuery | NYCタクシーデータの読み込み |
EDA/前処理 | Notebooks / Dataproc | EDA + 特徴量抽出・クレンジング |
学習 | Vertex AI | AutoMLでチップ金額予測モデル |
デプロイ | Vertex AI | 推論エンドポイントの提供 |
ワークフロー管理 | Cloud Composer | 全体フローを定期実行で自動化 |
高度処理 or カスタム実装 | Compute Engine | 外部APIや大規模処理の連携対応 |
✨まとめ
GCPの各種API群は、それぞれ役割が異なりますが、**「BigQuery+Vertex AI+Cloud Composer」**を軸に、NotebooksやDataprocを補助的に活用することで、強力なデータ分析・MLシステムを構築可能です。