はじめに
2020年8月にProfessional Data Engineerの試験に挑戦して、初回で無事合格できたので勉強方法と試験の感想についてお話しします。試験の勉強に少しでもお役に立てたら幸いです。
##試験で特に聞かれた項目
ストレージとDataflowは厚く勉強して徹底的に理解してください。試験の中心になります。
-
Dataflow
- 少なくともプログラミングモデルとストリーミング処理を理解する必要があります。
-
Pub/Sub
- Dataflowとの組み合わせだけでなく通信を非同期化することで負荷分散させるユースケースもあります。
-
BigQuery
- データセットへのアクセス権やユーザのログ監視についても理解しておくといいと思います。
-
Cloud Bigtable
- ユースケースにあわせて適切にストレージを選べる必要があります。こちらが分かりやすかったです。→ GCPのストレージサービスについてまとめてみた。
- Datastore
- Cloud SQL
- Cloud Spanner
- Cloud Storage
-
Dataproc
- Hadoop,Sparkからの移行だけでなくクラスタへのアクセス方法も覚えるといいと思います。
- Cloud Dataprep
- Cloud Composer
- Cloud IAM
- Stackdriver
- Cloud Key Management
機械学習について
模擬試験や本番試験を通して理解していないといけないと思った項目です。
- 問題文の要件が回帰の問題か、分類か、クラスタリングが判断できる
- 過学習を避ける方法を知っている
- 特徴量エンジニアリングの基礎を知っている
- 混合分布 について理解している
- GCPのAI/ML系のサービス(Cloud AI ビルディング ブロック
、AI Platform
など)について理解している
勉強方法について
業務でBigQueryとAI platformで分析とモデリングの経験が約1年あり、GCPの基礎的な知識があったので公式の模試から始めました。GCPの業務経験がない方は、Data Engineering, Big Data and ML on Google Cloud 日本語版などで体系的な知識を身に付けられるといいと思います。
公式の模擬試験(本番試験よりかなり簡単です。とは言っても初回は解けません。。)
↓
模擬試験の復習と苦手なところを中心に公式ドキュメントで勉強
↓
Udemyの模試に挑戦(本番に近いレベルです。最初は50点も取れませんでした。。)
↓
間違った問題を公式ドキュメントで勉強
↓
再びUdemyの模試に挑戦(80点弱、合格が見えてきました。。)
↓
試験3日前からはドキュメントを読んでDBの細かな仕様やオプションなど知識を詰め込む作業
以上を3週間ほどかけて行いました。
試験を終えて
試験の難易度は公式の模試よりもかなり難しくて焦りました。自信のない問題を後で見直すことにして、解けそうな問題を着実に解きました。全て問題を解き終えてから40分ほど時間ができたので、落ちついて自信のない問題を見直しました。落ちついていれば大した問題ではないことに気付いたりします。
合否のラインはわかりませんが8割は解けた手応えがありました。試験範囲は非常に広くわからない問題はあるので、できるだけ選択肢を絞って正答率をあげるように努めました。
その他参考
【2020年】GCPのAI/ML系のサービスまとめてみた
GCPのストレージサービスについてまとめてみた
Apache Beam のプログラミング モデル
Google Cloud Dataflow で実現するストリームおよびバッチデータ処理
[Cloud OnAir] Bigtable に迫る!基本機能も含めユースケースまで丸ごと紹介 [2018年8月30日放送]