皆さんこんにちは!iret Global Solutions 事業部の浜田です。今回はProfessional Machine Learning Engineerをと同じでもう直ぐ(9月19日)ベータ版が出るProfessional Data Engineerについて書いてみました。なかなか難しい試験ですが皆さんのお力になれたら嬉しいです。
前提条件
本記事は既にVPC, Google Compute Engine, Cloud Functions, Cloud storageなどの基本的なGCPのサービスを知っていることを前提としています。試験概要
他の試験と同様、試験時間は2時間で問題数は50問です。AWSは65問あるのに対しGCPは少し問題数が少ないのでありがたいですね。
絶対覚えておいた方がいいサービス
BigQuery
BigQuery は、サーバーレスで費用対効果に優れたGoogle Cloudが提供するデータウェアハウスです。
データウェアハウスの移行や、リアルタイム分析、BigqueryMLを使った予測分析などさまざまな用途に使用されます。
BigTable
Google Cloudが提供するNoSQL型のデータベースです。AWSで言うところのDynamoDBになってきます。
時系列データ, 購入履歴, IoT等のデータに適しており高スループットも有しています。実際の試験ではCloud SQLやDatastore, Cloud Spannerについても聞かれるのでそれぞれのユースケース等はしっかり覚えておきましょう。
Dataflow
Google Cloudが提供するETLサービスです。わかりやすく言うと、Extract (抽出)、Transform(変換・加工)、Load(格納)」の頭文字をとった言葉で、いろんなところに散らばっているデータを統合的に管理するための仕組みです。データの取得、取得したデータの変換や加工、変換・加工されたデータの格納といった一連の流れを行ってくれます。ユースケースとしてはBigqueryをプラスしてリアルタイム分析を行ったり、機械学習ツールであるTensorFlow Extended ( TFX )にストリーミングイベントを送信して、 AI によるリアルタイムな予測分析や問題検出などがあったりします。
Pub/Sub
Google Cloud が提供する信頼性とスケーラビリティに優れた非同期メッセージサービスです。システム間で送信てから受信先に送られてくるごちゃごちゃしたリクエストや命令文、データを間にpub/subを入れてを順番通り管理することでセキュアで拡張性のある送受信を行うことが可能です。データ分析に関連したユースケースとしては、pub/sub + Dataflow + Bigqueryでリアルタイム分析の構成がよく使われます。
Cloud Composer
Cloud Composer は、フルマネージドのワークフロー オーケストレーション サービスです。クラウドとオンプレミス 間でのデータパイプライン作成、スケジューリング、モニタリング、管理ができるのが特徴です。実際の内部の仕組みとしては Apache Airflowが使われています。
Dataproc
DataFlowではなくApache Hadoop、Apache Spark、Apache Flink、Prestoを使ってデータの解析をしたい人向けのサービスです。
Dataprep
GUI操作で機械学習に使用する構造化データと非構造化データを視覚的に探索、クリーニング、準備できるサービス、Data Flowとよく一緒に使われます。
Data Fusion
こちらもDataflowとDataprepと同じGoogle Cloudが開発するETLサービス。特徴もCloud Data FusionはDataflowとDataprepの中間といった感じでDataflowがコーディングなのに対しDataprepと同様GUIベースの操作で扱いやすいサービスです。逆に扱えるデータソースはDataflowと同じで豊富になっていますがData Fusionパッチ処理が必要になるのでそこは注意してください。
覚えといた方が良いサービス
基本的なGoogle CloudのDB関連サービス
これは先ほどの繰り返しになっていますがやはり基本的なデータベース関連のサービスは覚えておいた方がいいです。特にBigqueryを使用したユースケースは調べておきましょう。
機械学習関連
AWSと同様でやはりデータ分析関連の試験は機械学習と関係性が深い傾向にあります。GCPでも機械学習に関するサービスがある程度聞かれる可能性があるので一通り覚えておいて損はないです。以前、Professional Machine Learning Engineerに合格した際に記事を出したので時間に余裕がある人は参考程度にチェックしておいた方がいいかもです。
試験対策
やはりどのGoogle Cloud認定資格も情報をインプットしただけで受かるほど甘くないです。まずはGoogleが出している模擬試験を解きまくりましょう。
Udemyではこちらのコースを使用しました。解説がところどころ雑な箇所もありましたが全体的にはとても優れた問題集になっています。
最後に
さて、今回の記事は以上になりますがデータ分析関連の資格は機械学習同様前提知識が肝となってくるのでGoogle Cloudのリソース以外にもデータ分析の基礎的な流れなどをしっかり理解して試験に臨むのが得策です。
他のGoogle Cloud の試験に興味がある方は以下に難易度順のランキングを載せているので参考程度に是非。
それでは皆さん、ご武運を。