はじめに
本記事では試験の対策方法と実際に受けてみた感想を書いていきます
Databricks Certified Machine Learning Associate
上記サイトからの翻訳です
Databricks Certified Machine Learning Associate認定試験は、Databricksを使用して基本的な機械学習タスクを実行する個人の能力を評価します。これには、Databricks Machine Learningとその機能(AutoML、Feature Store、MLflowの一部の機能など)を理解し使用する能力が含まれます。また、機械学習ワークフローにおいて正しい判断を下し、Spark MLを使用してそれらのワークフローを実装する能力も評価されます。最後に、機械学習モデルのスケーリングに関する高度な特性を理解する能力が評価されます。この認定試験に合格すると、Databricksとその関連ツールを使用して基本的な機械学習タスクを完了することが期待されます。
試験方法
Databricks Data Engineer Associate試験と同じで、オンラインで受験可能でした。
必要スキル
サイトからの翻訳です
- Databricks Machine Learningとその機能を、機械学習ワークフロー内で使用することができる
- Databricks Machine Learning(Cluster, Repos, Jobs)
- Databricks Runtime for Machine Learning(基本、ライブラリ)
- AutoML (分類、回帰、予測)
- Feature Store(基本)
- MLflow (トラッキング、モデル、モデルレジストリ)
- 機械学習のワークフローにおいて、以下のような正しい判断を実行する。
- 探索的データ解析(要約統計、外れ値除去)
- 特徴量エンジニアリング(欠損値の補完、ワンホットエンコーディング)
- チューニング(ハイパーパラメータの基本、ハイパーパラメータの並列化)
- 評価と選択(クロスバリデーション、評価指標)
- Spark MLやその他のツールを用いて、以下のような機械学習ソリューションをスケールで実装できる
- 分散MLコンセプト
- Spark MLモデリングAPI(データ分割、学習、評価、Estimator、Transoformer、Pipeline)
- Hyperopt
- Pandas API on Spark
- Pandas UDFsとPandas Function APIs
- 以下のような古典的な機械学習モデルの高度なスケーリング特性を理解している
- 分散線形回帰
- 分散型決定木
- アンサンブル手法(バギング、ブースティング)
どのように対策したか
上記のリポジトリのノートブック(日本語)と付属のスライドを読み込むことをやりました
付属のスライドではデータサイエンスの基礎から解説されているので、初学者でも学び始めることができます
Reposが使えないのでどうにかNotebookを入れる必要はありますが、コミュニティエディション(無料版)でも一通り実行できるかと思います
受けてみた感想
公式サイトに載っている得点割合ごとに感想を書きます。
-
Databricks Machine Learning – 29% (13/45)
Databricks特有の機能Feature Store、ML Runtime、AutoMLなどの仕様についての質問でした。 -
ML Workflows – 29% (13/45)
MLFlowの使い方、エクスペリメントやモデルレジストリの使い方についての質問でした
MLFlowのAPIの選択問題がメインで判断に迷うことが多かったです。
またデータサイエンス一般の質問もあり、分類問題におけるメトリクスの違いを問いて来るものもありました -
Spark ML – 33% (15/45)
一番問題数として多く、Spark ML APIのデバッグや正誤問題が出るので判断に迷うことが多かったです
ImputerがEstimator、OneHotEncoderの前段にはStringIndexer入れないとエラーになるよといった勘違いしやすいポイントを全部ついてきた感じでした。 -
Scaling ML Models – 9% (4/45)
Pandas Function APIを使った並列モデルトレーニングなどかなり高度なことが問われましたが、Notebookの解説を読んでおけば解答できるレベルの質問でした。
おすすめの対策法
scalable-machine-learning-with-apache-spark-japaneseを進めていただくことになります。Data Engineer Associateと違って模擬試験がないので対策に使えるのはこれしかありません
Notebookの解説に書いてあることを理解することで、API暗記をがっつりしなくても合格点まではいくと思います。
アンサンブル学習についてなどデータサイエンス一般についての知識も求められるので、適宜書籍などで補完して納得してから受験されることをおすすめします