はじめに
株式会社NTTデータ NTTデータ テクノロジーコンサルティング事業本部 デジタルテクノロジー&データマネジメントユニット の nttd-yuan です。
Databricksのエバンジェリスト資格 Databricks Champion の認定を受けています。
Databricks Certified Machine Learning Professionalの資格試験に合格したため、その試験の概要や感想をお伝えいたします。
数ヶ月前にDatabricks Certified Machine Learning Associateの試験に合格し、期待以上の学習効果を得ることができました。その勢いを持ってProfessionalの資格に挑戦することを決意し、学習を開始しました。
試験概要
この試験は、Databricks社の認定試験の中で、データサイエンティスト向けの機械学習に関する試験です。
Databricks Certified Machine Learning Associateの上位試験です。Associate試験では、Databricksを使用して機械学習を始める方法に焦点が当てられていますが、Professional試験では、機械学習のサイクルをどのように進めていくか(いわゆるMLOps)に重点が置かれています。
公式ガイドはこちらのサイトをご覧ください。
試験内容は、以下の4つのカテゴリーに分類されています。
- Experimentition – 30% (18/60)
- Model Lifecycle Management – 30% (18/60)
- Model Deployment – 25% (15/60)
- Solution and Data Monitoring – 15% (9/60)
その他に試験に関する情報を以下に示します。
項目 | 内容 |
---|---|
時間 | 120分 |
問題数 | 60問(Associateより15問増えている) |
言語 | 英語のみ |
受験方法 | Webassessorによるオンライン試験 |
合格ライン | 70% |
試験形式 | 択一式 |
受験費用 | $200 |
学習方法
1. 公式eラーニングによる勉強
下記のサイトでログインし、"Machine Learning Practitioner Learning Plan"を検索し、"ENROLL"ボタンをクリックします。
https://www.databricks.com/learn/training/login
このeラーニングでは6つのレッスンがありますが、最初の3つはAssociateの内容であり、後ろの3つはProfessionalの内容になります。
- Certification Overview: Databricks Certified Machine Learning Professional Exam
このレッスンは、最初に受講することをおすすめします。
このレッスンでは、試験の概要やトピックが説明されるため、試験全体の概要を把握するのに役立ちます。
特にトピックは非常に重要です。試験ではこれらのトピックに関連する問題のみが出題されるため、トピックのキーワードをメモして、試験前にすべてのキーワードを網羅的に学習できたかを確認することをおすすめします。 - Exam Information: Databricks Certified Machine Learning Professional (available for an additional fee)
公式ガイドの案内のみです。 - Machine Learning in Production
試験の80%-90%がこのレッスンの内容から出題されるイメージです。このレッスンにはじっくり取り組むことをおすすめします。
eラーニングを視聴しながら、Databricksプラットフォームで実際に手を動かすことが効率的でおすすめです。
一部高度な機能が使用できない場合もありますが、基本的にコミュニティエディション(無料版)を活用して問題ありません。
コミュニティエディションを初めてしようする場合は、以下のQiita記事を参考すると良いでしょう。
https://qiita.com/taka_yayoi/items/5918a0e88d9b2472578c
2. 関連要素の補完
「Machine Learning in Production」ではカバーされていない10-20%の内容を補完します。
私は以下の手順に従って進めていました。まず、「Certification Overview: Databricks Certified Machine Learning Associate Exam」でメモしたトピックを振り返り、カバーされていないキーワードを書き出しました。その後、DatabricksのマニュアルやQiitaなどを利用して、それらのキーワードに関する情報を調査していきました。
3. Udemy
Databricks Certified Machine Learning Professionalの公式な練習問題はまだ存在しないため、Udemyコースの問題集を使用して練習しました。
※試験問題のイメージをつかむためには有用でしたが、一部誤った解答や解説が不十分な点も見受けられたため、回答を鵜呑みにせず、自分でも調べることを推奨します。
試験の感想
公式ガイドのカテゴリーごとに感想を書きます。
- Experimentition – 30% (18/60)
Databricksにおける機械学習の基礎であるDelta Lake、Feature Store、MLflowが出題されました。Feature Storeに関して、DatabricksドキュメントのWork with feature tablesのPython APIに関する問題が多く出題されました。MLflowに関して、Associate試験では扱われていなかったモデルシグネチャ(model signature)に関する問題も出題されました。 - Model Lifecycle Management – 30% (18/60)
MLflow Model Registryの概念と使い方が中心となる問題が出題されました。Python APIとWebhooksの使用方法を理解することが重要です。 - Model Deployment – 25% (15/60)
バッチ、ストリーミング、リアルタイムという3つのモデルデプロイメント戦略の違いと、それぞれのユースケースを理解することが重要です。 - Solution and Data Monitoring – 15% (9/60)
さまざまなドリフト検知の概念と使い分けを理解することが重要です。また、有名なドリフトテスト手法について一定程度の知識を持つ必要があります。
終わりに
本資格はAssociateの学習方法と基本的に同じです。Delta Lake、MLflow、Feature StoreなどはAssociateと重複する部分があるため、まずはAssociate試験に合格してからProfessional試験に取り組むことが効率的だと考えます。
また、本資格はDatabricks固有の要素よりも、一般的なMLOpsに必要な実験管理、モデル管理、ドリフト検知の概念やユースケースを学ぶことができる点が非常に重要です。MLOpsの全体像を把握する意味でも十分な学習価値がある資格だと考えますので、ぜひ受験してみてください!
仲間募集
NTTデータ テクノロジーコンサルティング事業本部 では、以下の職種を募集しています。
1. クラウド技術を活用したデータ分析プラットフォームの開発・構築(ITアーキテクト/クラウドエンジニア)
クラウド/プラットフォーム技術の知見に基づき、DWH、BI、ETL領域におけるソリューション開発を推進します。https://enterprise-aiiot.nttdata.com/recruitment/career_sp/cloud_engineer
2. データサイエンス領域(データサイエンティスト/データアナリスト)
データ活用/情報処理/AI/BI/統計学などの情報科学を活用し、よりデータサイエンスの観点から、データ分析プロジェクトのリーダーとしてお客様のDX/デジタルサクセスを推進します。https://enterprise-aiiot.nttdata.com/recruitment/career_sp/datascientist
3.お客様のAI活用の成功を推進するAIサクセスマネージャー
DataRobotをはじめとしたAIソリューションやサービスを使って、 お客様のAIプロジェクトを成功させ、ビジネス価値を創出するための活動を実施し、 お客様内でのAI活用を拡大、NTTデータが提供するAIソリューションの利用継続を推進していただく人材を募集しています。4.DX/デジタルサクセスを推進するデータサイエンティスト《管理職/管理職候補》
データ分析プロジェクトのリーダとして、正確な課題の把握、適切な評価指標の設定、分析計画策定や適切な分析手法や技術の評価・選定といったデータ活用の具現化、高度化を行い分析結果の見える化・お客様の納得感醸成を行うことで、ビジネス成果・価値を出すアクションへとつなげることができるデータサイエンティスト人材を募集しています。ソリューション紹介
Trusted Data Foundationについて
~データ資産を分析活用するための環境をオールインワンで提供するソリューション~https://enterprise-aiiot.nttdata.com/tdf/
最新のクラウド技術を採用して弊社が独自に設計したリファレンスアーキテクチャ(Datalake+DWH+AI/BI)を顧客要件に合わせてカスタマイズして提供します。
可視化、機械学習、DeepLearningなどデータ資産を分析活用するための環境がオールインワンで用意されており、これまでとは別次元の量と質のデータを用いてアジリティ高くDX推進を実現できます。
TDFⓇ-AM(Trusted Data Foundation - Analytics Managed Service)について
~データ活用基盤の段階的な拡張支援(Quick Start) と保守運用のマネジメント(Analytics Managed)をご提供することでお客様のDXを成功に導く、データ活用プラットフォームサービス~https://enterprise-aiiot.nttdata.com/service/tdf/tdf_am
TDFⓇ-AMは、データ活用をQuickに始めることができ、データ活用の成熟度に応じて段階的に環境を拡張します。プラットフォームの保守運用はNTTデータが一括で実施し、お客様は成果創出に専念することが可能です。また、日々最新のテクノロジーをキャッチアップし、常に活用しやすい環境を提供します。なお、ご要望に応じて上流のコンサルティングフェーズからAI/BIなどのデータ活用支援に至るまで、End to Endで課題解決に向けて伴走することも可能です。
NTTデータとDatabricksについて
NTTデータは、お客様企業のデジタル変⾰・DXの成功に向けて、「databricks」のソリューションの提供に加え、情報活⽤戦略の⽴案から、AI技術の活⽤も含めたアナリティクス、分析基盤構築・運⽤、分析業務のアウトソースまで、ワンストップの⽀援を提供いたします。NTTデータとSnowflakeについて
NTTデータでは、Snowflake Inc.とソリューションパートナー契約を締結し、クラウド・データプラットフォーム「Snowflake」の導入・構築、および活用支援を開始しています。 NTTデータではこれまでも、独自ノウハウに基づき、ビッグデータ・AIなど領域に係る市場競争力のあるさまざまなソリューションパートナーとともにエコシステムを形成し、お客さまのビジネス変革を導いてきました。 Snowflakeは、これら先端テクノロジーとのエコシステムの形成に強みがあり、NTTデータはこれらを組み合わせることでお客さまに最適なインテグレーションをご提供いたします。NTTデータとInformaticaについて
データ連携や処理方式を専門領域として10年以上取り組んできたプロ集団であるNTTデータは、データマネジメント領域でグローバルでの高い評価を得ているInformatica社とパートナーシップを結び、サービス強化を推進しています。NTTデータとTableauについて
ビジュアル分析プラットフォームのTableauと2014年にパートナー契約を締結し、自社の経営ダッシュボード基盤への採用や独自のコンピテンシーセンターの設置などの取り組みを進めてきました。さらに2019年度にはSalesforceとワンストップでのサービスを提供開始するなど、積極的にビジネスを展開しています。これまでPartner of the Year, Japanを4年連続で受賞しており、2021年にはアジア太平洋地域で最もビジネスに貢献したパートナーとして表彰されました。
また、2020年度からは、Tableauを活用したデータ活用促進のコンサルティングや導入サービスの他、AI活用やデータマネジメント整備など、お客さまの企業全体のデータ活用民主化を成功させるためのノウハウ・方法論を体系化した「デジタルサクセス」プログラムを提供開始しています。
NTTデータとAlteryxについて
Alteryxは、業務ユーザーからIT部門まで誰でも使えるセルフサービス分析プラットフォームです。 Alteryx導入の豊富な実績を持つNTTデータは、最高位にあたるAlteryx Premiumパートナーとしてお客さまをご支援します。導入時のプロフェッショナル支援など独自メニューを整備し、特定の業種によらない多くのお客さまに、Alteryxを活用したサービスの強化・拡充を提供します。