1. はじめに
はじめまして。インテックアドベントカレンダーDay1担当の根本です。今回は弊社で活用しているDataikuというツールのCertificationについて紹介したいと思います。
Dataikuは2021年のGartner® Peer Insights Customers' Choice for Data Science and ML Platformsの1社に選ばれるなど、今世界で注目されているデータ分析プラットフォームの一つです。そのDataikuでは、Certificationが幾つか提供されています。本記事では、そのなかでもベースとなるCore Designerコースについて、その概要とコースを通じて習得できることを紹介していきます。
2. Dataiku Certificationとは
先にも述べたとおり、Dataiku Certificationは、Dataiku社から提供されている公式の認定試験です。Certificationコースには受講期限がないため、各自のペースに合わせて、自分のタイミングでまとめてやり切ってしまうことも、時間をかけてまったり進めることも可能です。Certificationは、下記の手順で受験することができます。
①Dataiku AcademyのLearning Pathesのページからコンテンツの学習を終える
②CertificationsのページからCertificationを受験する
無事合格すると、以下のような認定証が発行されます。有効期限は2年間とのことです。
①の、Certification受験のための各学習コンテンツは、動画による内容の説明とハンズオンによる実践、それらに関するクイズで構成されており、クイズの正答率が既定の割合を超えると、次の内容に進むことができます。
※ビデオの説明は英語でされます。英語が苦手な方は、以下のように対応して進めるとよいと思います。
-
字幕をオンにする
-
Text Summaryに移動する
ハンズオンを実施するには、当然ですがDataikuの環境が必要になります。Dataiku 環境の構築は下記等を参考に行ってください。(筆者はVirtualBoxで環境を作成して実施しました。この方法が最も簡単な方法だと思います。)
- VirtualBox:
Dataiku DSSをVirtual Boxを使って利用する方法 - Windows:Windows に Dataiku をインストール
- Mac:Mac に Dataiku をインストール
- Linux:GNU/Linux に Dataiku をインストール
注意点として、CertificationではDataiku ver9以上を使用しますので、バージョンを確認してからインストールを進めましょう。(最新のバージョンをインストールしていれば基本的には問題ありません)
3. Core Designerについて
Core Designerは、現在4つ提供されているDataikuのCertificationのうち、そのベースとなるコースです。
Core Designerの試験を修了することで、さらにその先のより実践的な内容のCertificationにチャレンジすることができます。
現在、Core Designer含め4つのコースが公開されていますが、これらのコースは随時追加されているため、今後さらに増えていく可能性があります。
4. Core Designerコースの概要
ここでは、Core Designerで用意されている6つのコースで学習できる内容を紹介していきます。
- コースを通して習得できること
- DSSのコアコンセプト(プロジェクト、フロー、データセットなど)の理解
- DSSのビジュアルツールを使った簡単なフローの構築
- 簡単なデータの準備
- ラボを用いた簡単な実験
- チャートやダッシュボードでの結果の共有
- DSSプロジェクトの設計を通じたベストプラクティス(機械学習についてはCore Designerに含まれません)
- 想定時間
- 3時間30分(英語で進めることが前提で設定されている時間なので、日本語に翻訳して進めたい場合はより時間がかかると思います)
5. Core Designerコースの各学習コンテンツの概要
Core Designerのコースでは必修のコンテンツが3つ用意されており、これらをすべて終えることで、Certificatoion受験の権利が手に入ります。ここでは、各コースを通して習得できることをご紹介します。
コンテンツ | 習得できること |
---|---|
Basics 101 | ・DSSプロジェクトの作成、コラボレーションしやすいような設定 ・データへの接続、データセットの作成 ・チャートやその他のツールを使った、データを調査・分析 |
Basics 102 | ・ビジュアルレシピを使ったデータの準備 ・統計解析 ・データの集計 |
Bacics 103 | ・データセットを別のデータセットでリッチに加工 ・ラボでビジュアル分析を実施 ・ダッシュボードなどのレポートツールの使用 |
以下はCertification受験のために必須ではありませんが、さらに上を目指すためのオプションコースとして用意されています。
コンテンツ | 習得できること |
---|---|
Visual Recipes 101 | ・データパイプラインの構築 ・プロセッサの使用 ・Top N、Download、PivotなどのDSSビジュアルレシピを使用した特定のタスクの実行 |
Integration With SQL Databases | ・DSSでのSQL接続の設定と使用 ・SQL実行エンジンの計算上の利点を活用するタイミングの理解 ・特定のデータベースへの接続をサポートするDataikuのレベルをの理解 |
Dataiku DSS & SQL | ・データベースのアーキテクチャモデル ・DSSで実行できるデータベースアクション ・SQLレシピとノートブックを使ったデータの問い合わせの使用例 ・データベース内での計算 |
個人的には、Visual Recipes 101はビジュアルレシピの内容が包含されており、それぞれの機能を整理するのに非常に役立ったと感じています。
6. Core Designer認定試験の概要
ここまでの必修コンテンツを修了すると、Certificationの画面より、Certificationの受験が可能になります。
Certificationは自分のPCから自分のタイミングで実施可能ですので、事前にしっかり準備を行ってから試験を始めましょう。
詳細はここでは述べませんが、試験ではこれまでに必修コンテンツで学んだ内容以外に、与えられたデータセットを加工してその内容を踏まえて回答する問題も出題されます(回答に必要な加工手順については事前に説明があります)。
主観ですが、これらの内容がまんべんなく出題されるため、必修コンテンツやデータ加工の片方だけを完璧にこなせば合格できるということはないと思います。データ加工の時間制限はないため、試験が始まる前にしっかりと準備しておきましょう。また、試験の受験回数に上限はないため、何度でもトライが可能です。一度失敗してもめげずにトライしてみましょう。
個人的にCertificationに挑戦する前にやっておくとよいと思ったことが以下のことです。
- 各コンテンツで出題されたクイズの再確認
- Certificationで出題された問題の一部は、これまでのクイズがヒントとなったものがありました。そのため、頭の整理も含めてクイズのおさらいは有効だと思います。
- 注意点として、各クイズは、通過した後にその内容と正解を確認することが可能ですが、内容が変わると再度クイズをパスする必要があるようです。そのため、クイズが完了するごとに、わからなかった問題は記録を取っておくとよいと思います。
- Dataikuの各ビジュアルレシピの機能理解
- Core DesignerコースのCertificationで最も追及されるのはこの部分だと思います。ハンズオンを通してビジュアルレシピをたくさん動かしてみて、理解を深めること(何ができるのか、あるビジュアルレシピで加工したことが他のビジュアルレシピでも可能かなど)で、回答できる問題が大幅に増えると思います。
- これまで学習した内容にすぐにアクセスできる準備
- これが最も重要だと思います。試験の内容はすべて暗記で回答する必要はなく、わからなければこれまでのハンズオンの内容、各コースの内容、自分でとったメモなどを確認して回答することができます。必要な時に必要な情報をすぐ調べられるように準備しておきましょう。
7. まとめ
今回はDataikuのCertificationうちの一つ、Core Designerコースについて紹介しました。このCore Designerに含まれているコンテンツにはDataikuの基本的な機能の説明が含まれているので、これからDataikuを触ってみようという人には是非トライしてみてほしい内容が盛りだくさんです。
また、Certificationに挑戦することも勿論ですが、これらのコンテンツの一部を学習することによって、Dataikuの使い方の理解が深まると思います。Certificationに興味がなくてもDataikuに興味のある方は、今回紹介した各コンテンツに是非トライしてみてはいかがでしょうか?
いずれにしても、Dataiku社よりDataikuの理解と実践のための良い教材が提供されていますので、ぜひ活用してみてください!