はじめに
株式会社NTTデータ Data & Intelligence事業部 の nttd-saitouyun です。
Databricks Certified SQL Analyst Associate に合格しましたので、試験の概要や感想について記載いたします。
Databricks公式Twitterで以下のツイートがあったことから、比較的新しい資格のようです。(私はそうと知らずに10月に取得しました。。。)
まだ情報が少ない状況だと思いますので、本記事が皆様の学習の参考になれば幸いです。
新しい資格ではありますが、後述する通り、SQLとデータの可視化が中心の試験であるため、勉強はしやすいと思います。(とはいえ、試験は英語でハードルが高く感じられる方も多いと思います。)
試験概要
Databricks社認定試験のうち、データアナリスト向けのBIを含めたSQLを活用したデータ分析に関する試験です。公式ガイドは下記のサイトをご覧ください。
試験内容は、以下の5つのカテゴリーに分類されています。
- Databricks SQL - 22% (10/45)
- Data Management - 20% (9/45)
- SQL – 29% (13/45)
- Data Visualization and Dashboards – 18% (8/45)
- Analytics Applications – 11% (5/45)
その他に試験に関する情報を以下に示します。
項目 | 内容 |
---|---|
時間 | 90分 |
問題数 | 45問 |
言語 | 英語のみ |
受験方法 | Webassessorによるオンライン試験 |
合格ライン | 70% |
試験形式 | 択一式 |
受験費用 | $200 |
学習方法
公式eラーニング(Databricks Academy)による勉強
Databricksでは登録するだけで無料で受講可能なセルフラーニングコースを公開しています。このコースの中には、各認定資格に関するものがあります。
※英語のコンテンツが多いですが、順次、日本語化されるそうです。
Databricks Academyへの登録とログイン
以下のページから登録とDatabricks Academy(公式eラーニングサイト)への登録を実施してください。
Data Analyst Learning Plan
本認定向けのセルフラーニングコースです。Databricks Academyにログインした後に、「Data Analyst Learning Plan」を検索して"ENROLL"します。
ENROLLすると、以下の3つのレッスンがあることがわかります。
- Data Analysis with Databricks SQL(6時間)
- Certification Overview Course for the Databricks Certified Data Analyst Associate(1時間)
- Databricks Certified Data Analyst Associate Exam(1分)
各レッスンの内容は以下に記載しますが、2→1→2の順番で見ることをお勧めします。
3は試験の概要ページへのリンクがあるだけなので割愛します。
1. Data Analysis with Databricks SQL
試験範囲をカバーする教科書のような教材です。この教材に出てくる用語や概念が試験が出ますので、しっかり理解できるようにしましょう。ボリュームも6時間と長いので、数日に分けて学習すると良いです。
理解が足らないと思った用語や概念はメモを取っておき、マニュアルで調べ、理解を深めていきます。
教材の内容が全く理解できない場合は、以下の初級コースから学習を始めるのが良いと思います。教材も日本語です。
Fundamentals of the Databricks Lakehouse Platform Accreditation - Japanese (V1)
2. Certification Overview Course for the Databricks Certified Data Analyst Associate
まず試験の概要の説明があります。その後の試験範囲の解説が重要です。試験概要ページと重複する内容ですが、より詳細な試験で問われる観点(Certification Exam Topics)の説明があります。そして、この観点通りの設問が多く出題されます。
この観点を頭に入れながら、レッスン1の「Data Analysis with Databricks SQL」を学習すると、効率がいいです。また、最終確認として最後にチェックするのもお勧めです。
ハンズオンによる学習
どのようなITの資格でも同じかもしれませんが、机上での学習と並行して実機を動かすと理解が深まります。特にダッシュボードやクエリのスケジューリング、アラート、権限設定あたりは細かい点まで問われるので触っておくことをお勧めします。
私は以下のトレーニングを実施しました。
チュートリアル
公式ドキュメントにチュートリアルがあり、サンプルのクエリやダッシュボードが提供されています。これを手順通りに実施するだけで、一通りの操作をすることができます。まずはチュートリアルで感覚を掴むのが良いと思います。
Data Visualization on Databricks SQL
こちらはハンズオン形式のeラーニングです。説明した「Data Analyst Learning Plan」と同様にDatabricks Academyからトレーニングを開始してください。このコースに沿って学習すると、以下のように一通りのグラフの作成を経験することができます。
各グラフがどのようなユースケースで使われるのかを考えながら作業をより理解が深まります。
オリジナルダッシュボードの作成
必須ではないですが、ここまできたら自分のオリジナルのダッシュボードを作ってみましょう!
「これをやるならどうすればいいんだ?」と調べていくうちにスキルが身についていきます。
私は旅行が趣味なので、ユネスコの世界遺産のデータを可視化してみました。リージョン別の世界遺産の数を出してみたり、座標情報をマップで表示してみたりしました。
日本の部分を拡大してみると世界遺産の数と場所が大まかにわかります。
マーカーをクリックすると世界遺産名とキャプションが表示されるようにしました。例は日光東照宮で有名な「日光の社寺」です。
このレベルのダッシュボードであれば、1時間もかからずに作成することも可能です。
皆さんも、興味のあるデータを使ってデータを可視化してみてください!
練習問題
残念ながら公式からはサンプル問題の提供はありません。
※2023年2月時点でDatabricks Certified Data Engineer Associateのみ練習問題が提供されています。
UdemyやWHIZLABといった学習サイトには英語ですが、練習問題があるようなのです。不安な方は購入をご検討いただければと思います。
※私が受験した2022年10月にはなかったので、役に立つかは未確認です。
試験の感想
公式ガイドに載っているカテゴリーごとに感想を書きます。
Databricks SQL - 22% (10/45)
- レイクハウスやメダリオンアーキテクチャなどDatabricksを使う上でのベーシックな内容が問われます。他の試験と共通な内容も多いです。
- Databricks SQLを構成するクエリ、SQLウェアハウス、ダッシュボードの主要コンポーネントの概要や使い方を理解しておきましょう。
また、どのようなペルソナのユーザがどのようにDatabricks SQLを使うのかが問われます。 - Partner Connectや他のBIツールとのインテグレーションも範囲です。eラーニングでは扱われない内容なので忘れずにマニュアルをチェックしておきましょう。
Data Management - 20% (9/45)
- DMBOK的な内容を問われるわけではありません。データに関する操作や管理方法が問われます。
- Deltaテーブルの仕様(内部表と外部表の違いなど)やテーブル・ビューの作成や削除などの操作方法を理解しておきましょう。
- オーナーや権限の変更やアクセス制御などデータの管理方法を理解しておきましょう。
- データエクスプローラの使い方も範囲なので実機を操作しておきましょう。
SQL – 29% (13/45)
-
基本的には簡単なものが多い印象でした。基本的なSQLが頭に入っていれば対応できるように思います。ただし、以下のように細かい点も聞かれます。また、eラーニングでは扱われない内容なので個別に対策していきましょう。
-
結合:INNER, LEFT, RIGHTはもちろんですが、以下の点も押さえておきましょう。
-
集計:MAX、MIN、SUMはもちろんですが、以下の点も押さえておきましょう。
- RANK関数などのWindow functions
https://docs.databricks.com/sql/language-manual/sql-ref-window-functions.html - GROUP BY時のNULLの扱い
https://docs.databricks.com/sql/language-manual/sql-ref-null-semantics.html - CUBE句、ROLLUP句などの高度な集計
https://docs.databricks.com/sql/language-manual/sql-ref-syntax-qry-select-groupby.html
- RANK関数などのWindow functions
-
準構造化データ:JSONや配列データへのアクセス方法を押さえておきましょう。
- Higher-order functions
https://docs.databricks.com/optimizations/higher-order-lambda-functions.html - explode table-valued generator function
https://docs.databricks.com/sql/language-manual/functions/explode.html
- Higher-order functions
-
UDFの作成方法、呼び出し方法を押さえておきましょう。
https://docs.databricks.com/udf/index.html
Data Visualization and Dashboards – 18% (8/45)
- クエリによるデータの可視化、グラフのダッシュボード化、ダッシュボードの更新(スケジュール)やアラート、共有に関する知識が問われます。
- データの可視化は、要件に合ったグラフを選択するできるように、グラフごとのユースケースを押さえておきましょう。
- グラフとパラメータに関する設問が多かった記憶があります。パラメータの変更によりグラフがどのように変わるのかを押さえておきましょう。
- ダッシュボードに関してはスケジュール実行やアラートが発生した際の対処や、ダッシュボードを他社に共有する際の方法を押さえておきましょう。
Analytics Applications – 11% (5/45)
- 以下の内容が問われますが、eラーニングでは扱われない、かつ、マニュアルにも記載がないので、個別に調べておく必要があります。
- 記述統計に関する基礎知識(連続値と離散値の違い、平均、中央値、モードの違いなど)が問われます。統計の基礎を押さえるには以下のサイトがお勧めです。
https://bellcurve.jp/statistics/course/ - 一般的な分析系のアプリケーション知識として、Data Enhancement、Data Blending、Last-mile ETLの3つについて問われます。これらの言葉は明確な定義がない上に、似た言葉であるため、正直対策しにくいです。
しかし、難しいことが問われるわけではないので、簡単に言葉の意味を調べておくと良いと思います。
おわりに
Databricks Certified SQL Analyst Associateの試験の概要、学習方法、試験の感想についてご紹介しました。
この認定資格に向けて勉強することで、Databricksへの基礎知識からSQLを用いたデータの加工、可視化、ダッシュボードの作成といったBIに関する知識が身に付きます。比較的、取り組みやすい内容なのでDatabricksの初心者にもお勧めの試験です。
Databricksの認定試験を取得している人数は日本においてまだまだ少ないので、ぜひ早いうちに受験してみてください!
仲間募集中!
NTTデータ Data&Intelligence事業部 では、以下の職種を募集しています。
1. 「クラウド技術を活用したデータ分析プラットフォームの開発・構築(ITアーキテクト/クラウドエンジニア)」の募集
クラウド/プラットフォーム技術の知見に基づき、ITアーキテクトまたはPMとして、DWH、BI、ETL領域における、ソリューション開発の推進や、コンサルティング工程のシステムグランドデザイン策定時におけるアーキテクト観点からの検討を行う人材を募集しています。2. AI/データ活用を実践する「クラウド・ソリューションアーキテクト」の募集
AI/データ活用を実践する「クラウド・ソリューションアーキテクト」として、クラウド先進テクノロジーを積極活用し、お客様のビジネス価値創出活動を実践。AI/データ活用の基本構想立案コンサルティングからクラウドプラットフォーム提供・活用を支援しています。お客様のAI・データ活用を支援するクラウド・ソリューション提案、アーキテクチャ設計・構築・継続活用支援(フルマネージドサービス提供)、および最新クラウドサービスに関する調査・検証で、クラウド分析基盤ソリューションのメニュー拡充を実施する人材を募集します。また、取り扱う主なソリューションについては、以下のページも参照ください。