本記事はAIによる要約を行った結果を記載しています。詳細は学習コンテンツを閲覧ください。
本記事について
Google Digital Leader公式の学習コンテンツである『Google Cloud によるデータ トランスフォーメーションの探求』の講義内容を記載しています。
https://www.cloudskillsboost.google/paths/9/course_templates/267?locale=ja

概要
この講義では、ビジネスにおけるデータの価値を最大化するための考え方と、それを実現するGoogle Cloudの各種ソリューションについて学びます。従来の数日~数ヶ月かかっていたデータ分析を、クラウド技術でいかに高速化・民主化できるかがテーマです。
講義は以下の3つの主要セクションで構成されています。
- データの価値
- データマネジメントソリューション
- データを有用かつアクセス可能にする
第1章: データの価値
データがいかにしてビジネスの価値に変わり、そのためにどのような考え方が必要かを学びます。

1-1. データが価値を生む仕組み
- データの重要性: データはAI/MLを最大限活用するための鍵であり、ビジネスインサイトの抽出、リアルタイムな意思決定、優れたアプリケーション構築の基盤となります。
- 課題: 多くの組織(68%)は、データから具体的な価値を生み出せていません。特に、売上データのような直接的な情報だけでなく、SNS投稿などの無数のデータソースに隠されたインサイトを抽出することが課題です。
-
解決策: AI/MLを活用し、過去と現在のデータから予測や分類を行う「スマートアナリティクス」が有効です。これを実現するのが「インテリジェントデータクラウド」です。
1-2. データの3つの種類
データは主に3種類に分類され、クラウドは特にこれまで活用が難しかった非構造化データの価値を引き出します。
-
構造化データ:
-
半構造化データ:
-
非構造化データ:
1-3. データマネジメントの基本コンセプト
-
データベース (DB):
- 目的: データの保存・取得・使用(トランザクション処理)。
-
種類:
- リレーショナルDB (SQL): 厳密なスキーマ(構造)を持つ。データの整合性・信頼性が高い。(例: Cloud SQL, Cloud Spanner)
- 非リレーショナルDB (NoSQL): 柔軟なデータモデル。多様なデータや頻繁な構造変更に対応。(例: Bigtable, Firestore)
-
データウェアハウス (DWH):
- 目的: データの分析・レポート。ビジネスインテリジェンス(BI)の中核。
- 特徴: 複数ソースから集めた処理済みの構造化・半構造化データを格納し、過去データと現在データを横断して分析できる。(例: BigQuery)
-
データレイク:
- 目的: あらゆる形式・量の元データ(Raw Data)をそのままの形で保存し、探索・分析するリポジトリ。
- 特徴: 非構造化データも扱え、前処理なしで保存するため、未知の問い(Question)を発見するのにも役立つ。(例: Cloud Storage)
ポイント: DWHとデータレイクは競合せず、互いに補完する関係です。
1-4. デジタルトランスフォーメーションにおけるデータの役割
デジタルトランスフォーメーションを成功させるには、社内のデータ(ファーストパーティ)だけでなく、外部のデータ(セカンドパーティ、サードパーティ)を組み合わせて、新たな価値を創出することが重要です。

-
データの種類(所有者による分類):
- ファーストパーティデータ: 企業が顧客との直接的なやり取りから収集・所有するデータ。(例: Webサイトの閲覧履歴、購買履歴)
- セカンドパーティデータ: 他社のファーストパーティデータ。パートナー企業などから共有されることが多い。(例: サプライヤーの在庫データ)
-
サードパーティデータ: 外部の専門組織が収集したデータ。直接的な関係はないが、ビジネスの文脈を豊かにする。(例: 政府の人口統計データ、気象データ、業界ベンチマーク)
- これらのデータはGoogle Cloud Marketplaceのようなデータマーケットプレイスで入手できます。
-
具体例:格安航空会社の機内食需要予測
- 課題: 機内食の需要予測が難しく、過剰在庫による廃棄ロスや、在庫不足による顧客満足度の低下と機会損失が発生していた。
- 解決策: 当初は乗客数などの単純なデータで予測していたが精度が低かった。そこで、フライトの目的地、時刻、乗り継ぎ情報といった多様なデータを組み合わせて分析。
- 得られたインサイト: 「インドを発着する便ではベジタリアン向け機内食の需要が73%増加する」といった、行動に繋がる具体的な知見を発見。
- 成果: 予測精度が向上し、顧客体験と収益性の両方を改善できた。
1-4. データバリューチェーンとデータガバナンス
-
データバリューチェーン: データが価値に変わるまでの一連の流れ。
- 生成: データが生まれる(ウェブサイトのクリックなど)。
- 収集: データをシステムに取り込む。
- 処理: 分析できる形式に変換・統合する。
- 保存: 最適な方法でデータを保管する。
- 分析: インサイトを抽出する。
- 有効活用: 分析結果をビジネス上の行動(自動化アプリ、BIダッシュボード)に繋げる。
-
- 目的: データの民主化(誰でも使えるようにする)とセキュリティ・コンプライアンスを両立させるためのルールやプロセスの体系。
- 重要性: データ品質の維持、コスト管理、規制遵守、信頼性向上を実現し、「適切な人が適切なデータにアクセスしている」という確信の元でデータ活用を推進します。
第2章: Google Cloudのデータマネジメントソリューション
ビジネスの要件に応じて適切なGoogle Cloudプロダクトを選択する方法を学びます。
2-1. ストレージプロダクトの全体像
データの種類とワークロードに応じてプロダクトを選択します。
2-2. 各プロダクトの詳細
-
Cloud Storage (非構造化データ):
-
Cloud SQL と Cloud Spanner (構造化データ - トランザクション):
- Cloud SQL: MySQL, PostgreSQL, SQL Serverをフルマネージドで提供。パッチ適用やバックアップを自動化。リージョン規模のアプリケーションに最適。
- Cloud Spanner: グローバル規模で無制限にスケールし、強い整合性を保証するリレーショナルDB。ミッションクリティカルなシステムや、ダウンタイムを許容できない場合に最適。
-
BigQuery (構造化/半構造化データ - 分析):
- サーバーレスのデータウェアハウス。インフラ管理不要で、SQLクエリによる分析に集中できる。
- ストレージと分析エンジンが一体化。
- マルチクラウド対応で、他のクラウド上のデータも分析可能。
- 組み込みML機能により、SQLで機械学習モデルを直接作成・利用できる。
-
Firestore と Cloud Bigtable (半構造化データ):
2-3. データベースの移行とモダナイゼーション
- Database Migration Service (DMS): オンプレミスや他クラウドのデータベースを、最小限のダウンタイムでGoogle Cloud(特にCloud SQL)へ移行できるサービス。
-
事例 (Wayfair): 大規模オンライン小売企業が、オンプレミスのSQL ServerをDMSを使ってCloud SQLへ「リフト&シフト」で移行。その後、Pub/SubやDataflow、BigQueryを活用してシステム全体をモダナイズした。

第3章: データを有用かつアクセス可能にする
データを収集・保存した後、いかにして全従業員がそれを活用できるようにするかを学びます。
3-1. Lookerによるビジネスインテリジェンス (BI)
- 課題: 従来のBIツールは専門家しか使えなかったり、分析できるデータが一部に限られたりする。
-
Lookerの提供価値:
- 専門家でなくても、誰もがデータを探索・分析・可視化・共有できるBIプラットフォーム。
- 信頼できる単一のデータソース(BigQueryなど)に接続し、データの民主化を促進。
- 対話型のダッシュボードやレポートを簡単に作成し、ビジネス上の問いに自ら答えを見つけられるようになる。
- 事例 (Diamond Resorts): 複数のBIツールが乱立し、データがサイロ化していた状況から、Lookerを導入。リアルタイム分析が可能になり、COVID禍の状況変化へ迅速に対応できた。
3-2. ストリーミング分析
-
バッチ処理 vs ストリーミング分析:
- バッチ処理: データをまとめて一度に処理。レイテンシが大きい(例: 月末の給与計算)。
- ストリーミング分析: データが発生した瞬間から連続的に処理・分析。リアルタイム性が重要。
-
ユースケース:
- eコマース: クリックストリームをリアルタイム分析し、価格やプロモーションを最適化。
- 金融: 不正行為をリアルタイムで検知。
- IoT: 機器のセンサーデータを常時監視し、異常時にアラートを出す。
3-3. データパイプラインの構築 (Pub/SubとDataflow)
ストリーミング分析を実現するためのコアとなるプロダクトです。
-
Pub/Sub (データの取り込み - Ingest):
-
Dataflow (データの処理 - ETL):











