そもそも、Databricks Certified Data Engineer Professionalが何かというところから説明させてください。
こちらはDatabricksの資格です。
Databricks Certified Data Engineer Professional検定試験は、高度なデータエンジニアリングタスクを実行するために、Databricksを活用する個人の能力を評価します。これには、DatabricksプラットフォームやApache Spark、Delta Lake、MLflow、Databricks CLI、REST APIのような開発ツールに対する理解が含まれます。また、最適化、クレンジングされたETLパイプラインを構築する能力も評価します。さらに、一般的なデータモデリングコンセプトに対する知識を用いて、レイクハウスにデータをモデリングすることも評価されます。最後に、デプロイメントの前にデータパイプラインがセキュア、信頼できるものであり、モニタリング、テストされることを保証することもこの試験には含まれます。この検定試験に合格した人は、Databricksと関連ツールを用いた高度なデータエンジニアリングタスクを完了できることを期待されます。
求められる知識
- 構造化ストリーミングに対する包括的・実践的な知識
- Delta Lakeにおけるデータ操作(MERGE/CDC/CDF)やパフォーマンス、メンテナンスに関する知識
- Delta Live Tablesの基本と応用(Auto Loaderを用いたインクリメンタル処理)
- Databricks Workflow(Jobs)に対する知識
主に以下のようなDatabricksのマニュアル、ブログ、Spark関連の記事など読みました。読むだけで合格するのは相当難しいと思います。動かしてみてパラメーターや設定と挙動がどう関連しているのかを理解していないと難しいと思います。
- Structured Streaming | Databricks on AWS https://docs.databricks.com/spark/latest/structured-streaming/index.html
- Delta Lake guide | Databricks on AWS https://docs.databricks.com/delta/index.html
- Delta Live Tables | Databricks on AWS https://docs.databricks.com/data-engineering/delta-live-tables/index.html
- Taking Apache Spark’s Structured Streaming to Production - The Databricks Blog https://databricks.com/blog/2017/05/18/taking-apache-sparks-structured-structured-streaming-to-production.html
- Change data feed | Databricks on AWS https://docs.databricks.com/delta/delta-change-data-feed.html
受験方法
こちらはオンライン試験です。こちらでアカウントを作成してログインします。ログイン後、試験を選択します。なお、200ドルです。PCに専用のソフトウェアをインストールした後で試験を受けます。カメラで監視(!?)されるので、本を見ながら、調べながらというのはNGです。制限時間は2時間で60問の問題に回答します。選択式です。そして、英語です。
Professionalの前にDatabricks Certified Data Engineer Associateからスタートするのが良いと思います。
Associate試験についても記事を書きました。