僕自身のバックグラウンド
・薬学部出身
・現在は日本語→タイ語の翻訳者として日本で働いている
・データエンジニアリングをオンラインコースで勉強し始めたのは去年5月下旬あたり
・もちろんエンジニアとしての実務経験ゼロ
・初めてPythonの本を読んだのは一昨年の7月。ある程度理解していると思う。一応HackerRankのPython問題はすべて解いた。他のプログラミング言語は習得していない
・業務でデータを活用するのは前述の通りチームのまとめ役としてTableauのダッシュボードを使ってチームの状況を把握し週次レポートに通してエスカレしていたりチームの非稼働率を改善した程度
何故受けようとしたのか
そもそもデータに興味があって、プロスポーツリーグの順位表等の数字を見てそれぞれのチームの活躍はどうなっているか、今週末どの試合を見るかを宝探しみたいな感覚でプライベートでやっています。業務でもチームのまとめ役として日常的にTableauのダッシュボードでチームの業務状況を把握しエスカレしています。去年キャリアとしてデータ関連の仕事に興味が沸いてデータエンジニアリングのオンラインコースを受講しました。コースが終わった後個人プロジェクトのアイデアがまだないので準備の過程で何かを思いつくかもしれないと思いまずGoogle Cloud認定プロフェッショナルデータエンジニア資格を目指すことにしました。
勉強方法
- Courseraの講座を受講(5週間)
- 知識の理解度を深めた(4週間)
- 公式模擬試験の受験と深掘り(1週間)
Courseraの講座を受講
勉強し始めたのは去年12月下旬あたり。まず年末年始の連休を使って朝から晩までCourseraの講座 ( https://www.coursera.org/professional-certificates/gcp-data-engineering-jp ) を見て、公式の模擬試験 ( https://docs.google.com/forms/d/e/1FAIpQLSd4j4bcgbYenBRFIL6Kb0cvXp13qCQ-z6JzowgDxRaPITn56g/viewform?hl=ja ) に挑んでみました。結果はもちろんボロボロだったためCourseraをもう一回見ました。今度は動画を止めながら字幕をしっかり読みました。特に最後のモジュールはかなりヒントをくれました。
知識の理解度を深めた
色々な資料を繰り返して読んで勉強しました。この段階で複数の資料で多く言及される点やサービスほど重要度も高いと把握します。
使った資料
・Medium(英語)
・クラウドエースさんの記事(日本語)
・ChatGPT
Medium (英語) : https://medium.com/google-cloud/how-to-prepare-for-the-google-cloud-professional-data-engineer-certification-exam-3f77ee3e4389
こちらのMediumはカバーすべきお題を簡単な説明付きで短くまとめてくれました。まずこちらを読んでだいたい何のどの点をチェックすればいいか把握してから公式ガイドを見たり勉強を始めたりしてもいいと思います。あと下の方のボーナスのインフォグラフィックも試験では重要なサービスをわかりやすくまとめてくれました。
クラウドエースさんの記事(日本語)
- データエンジニアリング基礎編 : https://zenn.dev/cloud_ace/articles/professional-data-engineer-fundamental
- データ取り込み編 : https://zenn.dev/cloud_ace/articles/professional-data-engineer-data-ingestion
- データストレージ編 : https://zenn.dev/cloud_ace/articles/professional-data-engineer-data-storage
- 試験直前対策 : https://cloud-ace.jp/column/detail473/
試験に必要な知識をまとめてくれました。残念ながらデータパイプライン編・データマネジメント編・データ可視化と AI・機械学習編はまだ公開されていないようですが。Courseraだけではまだわからないことがこちらのまた違う方向の説明の仕方で理解できたり、知識を繰り返して勉強して固めるのに役に立ちます。本当にありがとうございました。
ChatGPT
勉強している間に、事例の中のキーワードで適切なサービスを判断できるように見えました。例えば「グローバル」だったらCloud Spanner、「Hadoop」だったらDataproc。そのためChatGPTにまとめさせ単語帳みたいに使ってました
公式模擬試験の受験と深掘り(1週間)
2回目に挑戦した公式模擬試験はギリギリ合格点に達しました。自分の場合は英語版と日本語版を両方受けました(問題の内容は同じですが何故か日本語版は英語版より5問多い)。その後答え合わせに出てくるリファレンスを調べ正解の選択肢が何故正解なのか、間違いの選択肢が何故間違いなのかを説明できるレベルまで深堀りしました。
試験を受けた感想
自分は英語で試験を受けました。まず、実際の試験の問題は結構模擬試験より難しいです。20~25問の模擬試験を40分で余裕で終えられるのに対して本番の50問は120分あっても足りない、という感じに考えたら良いです。Courseraのサンプル問題だけ見て挑んだら痛い目に合うと思います。問題文の事例も単純ではないし設定の選択肢の名前までかなり深く掘ります。正直知識が十分固まっていたら問題文や選択肢から情報収集して落ち着いて考えたらいけると思います。ただその時間はありません。時間的には問題文と選択肢を読んですぐ答えられることがかなり重要です。
やった方がいいと勧めたいこと
他の体験談でUdemyの問題集は情報が古かったり答え合わせに説明がなかったり不満の声を見つけたため自分はやりませんでしたが切実におすすめします。色々な方向の問題を本番と同じか近い難易度を体験することと時間の使い方に慣れることが絶対役に立ちます。正直本番を半分くらいやったところでもっと問題集を解いてから出直しますかと諦めかけてました(笑)
Hands-onラボもかなり役に立ちます。実際にサービスに触れたら色々頭の中でイメージできて理解しやすくなります。Courseraのコース内のものだけでもいいですが指示に沿ってやるだけではなく何をしたかメモしといて復習したらいいと思います。
まとめ
データエンジニアリングを勉強し始めて半年間でも10週間の準備でなんとか合格できました。未だに個人プロジェクトのアイデアが思いつきませんがやるならこういう形になるだろうとぼんやり見えてきました。ちなみにCourseraは当試験を受ける予定がなくてもデータエンジニアリングを勉強する際は本当に役に立つと思います。今後実務で経験を積む機会があれば挑戦していきたいと思います。最後まで読んでいただきありがとうございました。