はじめに
昨年末にGoogle Cloud Certified Professional Data Engineerの資格を受験し、無事合格してきました。受験の経緯としては、もともと部門内に有資格者が数人いたので自分も取りたかったのと、以前からSnowPro CoreのあとはProfessional Data Engineerを取得しようと考えていたからです。(参考:「【合格体験記】DB初心者が2か月でSnowPro Coreに合格した」)。
データエンジニアリングの業務を始めて1年近くになったので、自分としては順当だろうとそれほど驚くこともないのですが、簡単に勉強したことなどをまとめておこうと思います。
こんな方におすすめ
- Google Cloud Certified Professional Data Engineerを受験しようか考えている
簡単なバックグラウンド
- 2023年2月からデータエンジニアリング関連業務をはじめる
- 4月末にSnowPro Coreに合格
- 業務でGoogle Cloudを使うことが多い
- ただ、データパイプラインはtrocco®で構築するので、Google製品の利用経験はあまりない
- BigQueryにおける機械学習については最近勉強していた
やったこと
- Udemyのハンズオン講座で学習
- Googleの実施するGoogle Cloud Certified Professional Data Engineer(PDE)認定試験直前ワークショップを受講
- Udemyの模擬試験で学習
やっておくとよいこと(自分がやったことに限らず)
どういう事情なのかはよくわかりませんが、模擬試験をやりこめばそれほど苦労せずに点数は取れます。ただ、それでは資格取得ができても地力が付かなくて意味がないと思うので、真っ当に勉強をするならこういうことかなと考えることをまとめておきます。
※この記事を書いてから気が付きましたが、勉強が適当だったので認定試験ガイドを読んでいませんでした。おそらくそこから始める方がいいはずです。
本当にゼロからの場合
さすがに資格取得は厳しいので、データエンジニアリング関連の何らかの業務に取り組んでみてください。業務内容を起点に学ぶ領域を徐々に広げていくと、領域間のつながりがわかって初めて学ぶものでも勘が働くようになるはずです。
概観を掴む
ちゃんとやってみようとするとハンズオンを進めるのが望ましいですが、概観を掴んでおくとその後の学習が捗りやすいので、まずはざっと見てみましょう。公式ドキュメントを読むのもいいですが、『Google Cloudではじめる実践データエンジニアリング入門』を流し読みしておくのがおすすめです。
ハンズオンに取り組む
ハンズオンには上記書籍を利用するのもいいですが、内容がやや分析基盤に偏っており、試験で頻出のDBサービスの使い分けが出てこないので、私はUdemyのGCP - Google Cloud Professional Data Engineer Certificationの講座で学習をしました。
時間は全体で23.5時間と非常に長いですが、Compute EngineやApp Engine、Google Kubernetes EngineやDocker関連についても触れていたり、浅くはありますがデータ関連のサービスを広く取り扱っているので、大変勉強になりました。
BigQueryやML関連は既に学習済だったので、不要なところは飛ばしながら取り組みました。
ポイントを抑える
データベースの使い分けは頻出なので、早見表でざっと理解するのと、それぞれの特性を理解しておくとよいです。
(出典:Your guide to preparing for the Google Cloud Professional Data Engineer Certification )
(出典:Google Cloud のデータベース オプションについての説明)
また、やや古い記事ではありますが、「ストリーム処理とは何か?+2016年の出来事」の記事が大変勉強になりました。読んだのは合格後だったのですけどね・・・受験前に見つけたかったです。
模擬試験を解く
ある程度概要をおさえたら、模擬試験を解いていきます。Udemyでもいいですし、問題数は少ないですが公式でも公開されています。問題としては理解した概略よりも細かい内容が出るので、最初はそれほど点数がいかないかもしれません。
私は最初に解いた問題セットの正答率は5割でした。ただ、SnowPro Coreのときは最初が4割&だいぶ勉強しないと理解できそうになくて絶望していたので、それと比べると半分は解けているのと、問題も少し勉強すれば何とかなりそうな印象で安心しました。
最初に解いた問題について調べながら勉強して、2セット目に入るとそこそこ解けているはずです。私は2セット目で7割だったので、やはり大丈夫そうだなという印象でした。
なお、本番では機械学習関連の基礎知識(Google Cloudに限定されない)およびBigQuery MLの基本的な理解に関する設問も出ていたので、模擬試験でこれらの領域がカバーされていない場合は別途学習しておくとよいでしょう。
試験を受ける
試験は自宅とテストセンターのどちらも選択可能ですが、環境を整備するのが面倒なので私はテストセンターで受験しました。PCで回答後に、解答完了とすると画面上に合否が表示されます。正式な通知はメールになっており、私の場合は翌々日に合格通知のメールが届きました。
合格後には、マグカップやパーカー、バッグといったノベルティをもらうことができます。キャプチャ取ればよかったですが忘れました。私はバッグを選択したので、届くのが楽しみです。
さいごに
試験に合格してみると、改めて資格を持っていることと実装力があることは全然別だなと思います。とはいえ、1年未満でこの資格を取れるくらいには勉強してきたことが積み重なっていて、なんだか嬉しい気持ちもありました。
とりあえずストリーミングパイプラインを作ってみたい気持ちがあるので、近いうちに何か試してみることにします。Pub/Sub - Dataflow - BigQueryってやつですね。