【Google Digital Leader】 Google Cloud によるデータトランスフォーメーションの探求

Posted at 2025-10-07

本記事はAIによる要約を行った結果を記載しています。詳細は学習コンテンツを閲覧ください。

本記事について

Google Digital Leader公式の学習コンテンツである『Google Cloud によるデータトランスフォーメーションの探求』の講義内容を記載しています。

https://www.cloudskillsboost.google/paths/9/course_templates/267?locale=ja

概要

この講義では、ビジネスにおけるデータの価値を最大化するための考え方と、それを実現するGoogle Cloudの各種ソリューションについて学びます。従来の数日～数ヶ月かかっていたデータ分析を、クラウド技術でいかに高速化・民主化できるかがテーマです。

講義は以下の3つの主要セクションで構成されています。

データの価値
データマネジメントソリューション
データを有用かつアクセス可能にする

第1章: データの価値

データがいかにしてビジネスの価値に変わり、そのためにどのような考え方が必要かを学びます。

1-1. データが価値を生む仕組み

データの重要性: データはAI/MLを最大限活用するための鍵であり、ビジネスインサイトの抽出、リアルタイムな意思決定、優れたアプリケーション構築の基盤となります。
課題: 多くの組織（68%）は、データから具体的な価値を生み出せていません。特に、売上データのような直接的な情報だけでなく、SNS投稿などの無数のデータソースに隠されたインサイトを抽出することが課題です。
解決策: AI/MLを活用し、過去と現在のデータから予測や分類を行う「スマートアナリティクス」が有効です。これを実現するのが「インテリジェントデータクラウド」です。

1-2. データの3つの種類

データは主に3種類に分類され、クラウドは特にこれまで活用が難しかった非構造化データの価値を引き出します。

構造化データ:
- 特徴: 行と列で明確に定義されたテーブル形式のデータ。
- 例: スプレッドシート、データベース（顧客情報など）。
- 活用: 分析が容易。
半構造化データ:
- 特徴: 厳密な構造はないが、タグやマーカーで階層構造を持つ。
- 例: メール、JSON、XML、HTML。
- 活用: 構造化データよりは複雑だが、非構造化データより分析しやすい。
非構造化データ:
- 特徴: 定義済みのデータモデルがない情報。企業の新規データの80-90%を占めるが、活用されているのは1%未満。
- 例: テキスト（SNS投稿、ドキュメント）、画像、音声、動画、ログファイル、IoTセンサーデータ。
- 活用: クラウドのML/API（例: Vision API）を使うことで、感情分析、画像認識などが可能になり、ビジネス価値を引き出せる。

1-3. データマネジメントの基本コンセプト

データを管理するための3つの主要な仕組みです。

データベース (DB):
- 目的: データの保存・取得・使用（トランザクション処理）。
- 種類:
  - リレーショナルDB (SQL): 厳密なスキーマ（構造）を持つ。データの整合性・信頼性が高い。（例: Cloud SQL, Cloud Spanner）
  - 非リレーショナルDB (NoSQL): 柔軟なデータモデル。多様なデータや頻繁な構造変更に対応。（例: Bigtable, Firestore）
データウェアハウス (DWH):
- 目的: データの分析・レポート。ビジネスインテリジェンス（BI）の中核。
- 特徴: 複数ソースから集めた処理済みの構造化・半構造化データを格納し、過去データと現在データを横断して分析できる。（例: BigQuery）
データレイク:
- 目的: あらゆる形式・量の元データ（Raw Data）をそのままの形で保存し、探索・分析するリポジトリ。
- 特徴: 非構造化データも扱え、前処理なしで保存するため、未知の問い（Question）を発見するのにも役立つ。（例: Cloud Storage）

ポイント: DWHとデータレイクは競合せず、互いに補完する関係です。

1-4. デジタルトランスフォーメーションにおけるデータの役割

デジタルトランスフォーメーションを成功させるには、社内のデータ（ファーストパーティ）だけでなく、外部のデータ（セカンドパーティ、サードパーティ）を組み合わせて、新たな価値を創出することが重要です。

データの種類（所有者による分類）:
- ファーストパーティデータ: 企業が顧客との直接的なやり取りから収集・所有するデータ。（例: Webサイトの閲覧履歴、購買履歴）
- セカンドパーティデータ: 他社のファーストパーティデータ。パートナー企業などから共有されることが多い。（例: サプライヤーの在庫データ）
- サードパーティデータ: 外部の専門組織が収集したデータ。直接的な関係はないが、ビジネスの文脈を豊かにする。（例: 政府の人口統計データ、気象データ、業界ベンチマーク）
  - これらのデータはGoogle Cloud Marketplaceのようなデータマーケットプレイスで入手できます。
具体例：格安航空会社の機内食需要予測
- 課題: 機内食の需要予測が難しく、過剰在庫による廃棄ロスや、在庫不足による顧客満足度の低下と機会損失が発生していた。
- 解決策: 当初は乗客数などの単純なデータで予測していたが精度が低かった。そこで、フライトの目的地、時刻、乗り継ぎ情報といった多様なデータを組み合わせて分析。
- 得られたインサイト: 「インドを発着する便ではベジタリアン向け機内食の需要が73%増加する」といった、行動に繋がる具体的な知見を発見。
- 成果: 予測精度が向上し、顧客体験と収益性の両方を改善できた。

1-4. データバリューチェーンとデータガバナンス

データバリューチェーン: データが価値に変わるまでの一連の流れ。
1. 生成: データが生まれる（ウェブサイトのクリックなど）。
2. 収集: データをシステムに取り込む。
3. 処理: 分析できる形式に変換・統合する。
4. 保存: 最適な方法でデータを保管する。
5. 分析: インサイトを抽出する。
6. 有効活用: 分析結果をビジネス上の行動（自動化アプリ、BIダッシュボード）に繋げる。
データガバナンス:
- 目的: データの民主化（誰でも使えるようにする）とセキュリティ・コンプライアンスを両立させるためのルールやプロセスの体系。
- 重要性: データ品質の維持、コスト管理、規制遵守、信頼性向上を実現し、「適切な人が適切なデータにアクセスしている」という確信の元でデータ活用を推進します。

第2章: Google Cloudのデータマネジメントソリューション

ビジネスの要件に応じて適切なGoogle Cloudプロダクトを選択する方法を学びます。

2-1. ストレージプロダクトの全体像

データの種類とワークロードに応じてプロダクトを選択します。

2-2. 各プロダクトの詳細

Cloud Storage (非構造化データ):
- 耐久性と可用性の高いオブジェクトストレージ。
- 4つのストレージクラスがあり、アクセス頻度に応じてコストを最適化。
  - Standard: 頻繁にアクセスする「ホット」なデータ。
  - Nearline: 月1回程度のアクセス。
  - Coldline: 90日に1回程度のアクセス。
  - Archive: 年1回未満のアクセス。バックアップやアーカイブ用。
- Autoclass機能: アクセスパターンに基づき、ストレージクラスを自動で変更・最適化。
Cloud SQL と Cloud Spanner (構造化データ - トランザクション):
- Cloud SQL: MySQL, PostgreSQL, SQL Serverをフルマネージドで提供。パッチ適用やバックアップを自動化。リージョン規模のアプリケーションに最適。
- Cloud Spanner: グローバル規模で無制限にスケールし、強い整合性を保証するリレーショナルDB。ミッションクリティカルなシステムや、ダウンタイムを許容できない場合に最適。
BigQuery (構造化/半構造化データ - 分析):
- サーバーレスのデータウェアハウス。インフラ管理不要で、SQLクエリによる分析に集中できる。
- ストレージと分析エンジンが一体化。
- マルチクラウド対応で、他のクラウド上のデータも分析可能。
- 組み込みML機能により、SQLで機械学習モデルを直接作成・利用できる。
Firestore と Cloud Bigtable (半構造化データ):
- Firestore: 柔軟なNoSQLドキュメントデータベース。リアルタイムでのデータ同期やオフラインアクセス機能が特徴で、モバイル・Webアプリ開発に最適。
- Cloud Bigtable: Google検索やGmailを支えるNoSQLビッグデータデータベース。低レイテンシと高スループットを両立し、IoTや金融データ分析などの大規模ワークロードに最適。

2-3. データベースの移行とモダナイゼーション

Database Migration Service (DMS): オンプレミスや他クラウドのデータベースを、最小限のダウンタイムでGoogle Cloud（特にCloud SQL）へ移行できるサービス。
事例 (Wayfair): 大規模オンライン小売企業が、オンプレミスのSQL ServerをDMSを使ってCloud SQLへ「リフト＆シフト」で移行。その後、Pub/SubやDataflow、BigQueryを活用してシステム全体をモダナイズした。

第3章: データを有用かつアクセス可能にする

データを収集・保存した後、いかにして全従業員がそれを活用できるようにするかを学びます。

3-1. Lookerによるビジネスインテリジェンス (BI)

課題: 従来のBIツールは専門家しか使えなかったり、分析できるデータが一部に限られたりする。
Lookerの提供価値:
- 専門家でなくても、誰もがデータを探索・分析・可視化・共有できるBIプラットフォーム。
- 信頼できる単一のデータソース（BigQueryなど）に接続し、データの民主化を促進。
- 対話型のダッシュボードやレポートを簡単に作成し、ビジネス上の問いに自ら答えを見つけられるようになる。
事例 (Diamond Resorts): 複数のBIツールが乱立し、データがサイロ化していた状況から、Lookerを導入。リアルタイム分析が可能になり、COVID禍の状況変化へ迅速に対応できた。

3-2. ストリーミング分析

バッチ処理 vs ストリーミング分析:
- バッチ処理: データをまとめて一度に処理。レイテンシが大きい（例: 月末の給与計算）。
- ストリーミング分析: データが発生した瞬間から連続的に処理・分析。リアルタイム性が重要。
ユースケース:
- eコマース: クリックストリームをリアルタイム分析し、価格やプロモーションを最適化。
- 金融: 不正行為をリアルタイムで検知。
- IoT: 機器のセンサーデータを常時監視し、異常時にアラートを出す。

3-3. データパイプラインの構築 (Pub/SubとDataflow)

ストリーミング分析を実現するためのコアとなるプロダクトです。

Pub/Sub (データの取り込み - Ingest):
- Publisher/Subscriberモデルの非同期メッセージングサービス。
- IoTデバイスやアプリなど、無数のソースから発生する大量のイベントストリームを確実に受信・取り込む役割を担う。
Dataflow (データの処理 - ETL):
- ストリーミングデータとバッチデータの両方を処理するデータパイプラインを構築するための、サーバーレス・フルマネージドサービス。
- Pub/Subで取り込んだデータを、変換・加工（ETL）し、BigQueryなどの分析先に送り込む。
- インフラ管理が不要なため、開発者はパイプラインのロジック構築に集中できる。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

【Google Digital Leader】 Google Cloud によるデータ トランスフォーメーションの探求