2
3

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Dataiku Academyのラーニングパス完全ガイド(一部執筆中)

Posted at

2025年5月4日時点の内容となります。また、一部執筆中であること、ご理解ください。

1. はじめに

  • ブログの目的:Dataiku Academyのラーニングパスの紹介: Dataiku Academyが提供するラーニングパスの種類と内容を詳しく説明し、読者が自分に合った学習コースを選ぶ手助けをする。
  • Dataiku Academyとは:Dataiku Academyは、Dataiku DSS(Data Science Studio)を使ったデータサイエンスや機械学習のスキルを習得するためのオンライン学習プラットフォームです。初心者から上級者まで、幅広いレベルの学習者に対応しており、視覚的なツールを使ったデータの準備・加工、機械学習モデルの構築、データパイプラインの設計など、実践的なスキルを身につけることができます。

 Dataikuに関する詳細は別ブログを参照ください。

2. ラーニングパスの概要

Dataiku DSSを使ったデータサイエンスや機械学習のスキルを体系的に習得するためのガイドです。初心者から上級者まで、各レベルに応じた学習コースが用意されています。

以下はラーニングパスの概要です:

1. Core Designer
Dataikuの基本的な使い方やデータパイプラインの構築方法を学ぶコース
2. Advanced Designer
Dataikuの視覚ツールを使った高度なデータパイプラインの構築方法を学ぶコース
3. ML Practitioner
機械学習モデルの構築方法を学ぶコース
4. Generative AI Practitioner
DataikuのLLM視覚レシピを活用する方法を学ぶコース
5. Developer
Dataikuのコード統合と視覚ツールを超えた技術的スキルを習得するコース
6. MLOps Practitioner
プロジェクトやAPIサービスの展開と監視方法を学ぶコース

3. 各ラーニングパスの詳細

1. Core Designer
・内容: Dataikuの基本的な使い方、データパイプラインの構築方法
・コースの数: 5コース
・受講対象者: Data Designer (No-code business & data analysts)
・コースの詳細                                
コース(R/A)※ 概要 紹介される機能(一部)
Interface & Data Exploration (R) Dataikuの全体概要を理解する。
  • プロジェクトの作成方法
  • データ接続、データセットの作成
  • 可視化などによるデータ分析、探索
  • Project
  • Flow
  • Dataset
  • Data Connection
  • Dataset characteristics(storage Type/Meaning/DatasetSchema)
  • Sampling
  • Column Analysis
  • charts
Visual Recipes (R) データクレンジングのためのビジュアルレシピを学ぶ
  • ビジュアルレシピのインターフェースや種類を理解
  • いくつかのレシピを実践
  • Recipe ( Prepare, join, geo, group, window, sort, topN, pivot, sample/filter, distinct, stack, split, sync )
  • Dataiku formulas
  • Regular expression
Collaboration (R)プロジェクトや成果物を他者と連携しながら開発するための機能やTipsを学ぶ
  • タグの利用で検索性を向上させる
  • 知見や情報共有のためにwiki、Discussion、Dashboardsを利用する
  • Tags
  • Discussion
  • Data Catalog
  • Dashboards
  • Workspace
  • Workflow Documentation(wiki)
Dataiku & SQL (A) DataikuでSQL Databaseを利用するための方法や機能を学ぶ
  • Databaseのためのアーキテクチャ構造
  • DataikuにおけるDatabaseアクションの振る舞い
  • SQLレシピやnotebookを使ってデータを操作する方法
  • SQL実行エンジンの利点と活用方法
  • Data Connection
  • Move data to a database with a sync/prepare recipe
  • In-database data visualization and preparetion
  • SQL Notebooks
  • SQL Recipe
Geospatial Analytics (A) Dataiku DSSを使用した地理空間分析に関するコースの概要が紹介されています
  • 地理空間データの取り扱い
  • 地理空間分析の基本概念
  • 地理空間データの変換と操作
  • 地理空間分析の実践
  • No code maps
  • Geo join recipe
  • Geo Router plugin(Compute isochrones and routes)

※補足
・R:Recommended Courses to Prepare for Certification 認定資格の前に受講した方がいい
・A:Additional Learning 追加学習を推奨する項目

2. Advanced Designer
・内容: Dataikuの視覚ツールを使った高度なデータパイプラインの構築
・コースの数: 7コース
・受講対象者: Data Designer (Business analysts, data engineers, and power users)
・コースの詳細                                                                      
パート(R/A)※ 概要 紹介される機能(抜粋)
Variables (R)メンテナンス性向上や自動化の強化のためにVariables(変数)を学ぶ
  • Dataikuで利用できる変数の種類
  • ジョンソン形式でプロジェクト変数の設定
  • ビジュアルレシピでプロジェクト変数の利用
  • Type(instance/project/scenario)
  • Usage(visual/code)
  • Syntax (JSON)
  • visual components
  • Evaluate
  • Coding(SQL/Python/R)
Data Pipelines (R) データパイプライン構築や管理の考え方や機能を理解する
  • 実行形式(Build modes)の種類を理解
  • ストレージ接続の変更
  • レシピエンジンの選択方法を理解
  • 大規模なプロジェクトを管理するためのゾーンの作成
  • Build only this
  • Build upstream(only modified/all upstream)
  • Build downstream(all downstream/find outputs and build recursively)
  • Connection changes
  • Computation engines
  • Flow Zones
Data Quality & Automation (R) データ品質のルール設定や自動化フローの作成を学ぶ
  • データメトリクスの重要性
  • データ品質ルールの作成
  • シナリオ構築、実行制御
  • シナリオに関するアラート送信
  • Metrics
  • Data quality rules
  • Data lineage
  • Data quality
  • Scenarios
  • Scenarios reporters
Dataiku Applications (A)アプリケーションとして、プロジェクトを再利用できるカスタマイズ方法を学ぶ      
  • アプリケーションの使用例を認識
  • アプリケーションとwebアプリなどの他の機能との違いを理解
  • ビジュアルアプリケーションを作成
  • アプリケーションをレシピとして作成
  • Dataiku application
  • Visual dataiku application
  • Dataiku application-as-recipe
Git for Projects (A)Gitを利用してプロジェクトのバージョン管理を行う方法を学ぶ
  • DataikuでGitがどのように機能するか理解
  • DataikuをリモートGitHubリポジトリに接続
  • ブランチとマージを使用して、ローカルおよびリモートでバージョン管理
  • Version control
  • Project export
  • Branch/Merge
  • Add remote
  • Undo action
Partitioning (A) 効率的な計算や柔軟なデータ管理のためにパーティションを学ぶ
  • パーティションの利用タイミング
  • パーティションの設定/解除
  • パーティションの運用
  • Partitioning
  • Partitioned dataset
  • Partition redispatch and collection
  • File-based/column-based partitioning
  • Partitioning in a scenario
Project Deployment (A)開発環境から本番環境に移行するための2つの主要なフレームワークのうちの1つ、バッチ展開を学ぶ
  • 本番環境に展開するための準備
  • プロジェクトバンドルの作成、展開、バージョン管理
  • 自動化されているプロジェクトを監視するためのシナリオ構築
  • Recipe engin flow view
  • SQL pipeline
  • Runtime
  • Wiki for maintenance
  • Automation node
  • Project deployer
  • Bundle
  • Jobs
  • Automation monitoring (scenario runs)

※補足
・R:Recommended Courses to Prepare for Certification 認定資格の前に受講した方がいい
・A:Additional Learning 追加学習を推奨する項目

3. ML Practitioner
・内容: 機械学習モデルの構築
・コースの数: 11コース
・受講対象者: Advanced Analytics Designer (Data scientists)
・コースの詳細                            
パート(R/A)※ 概要 紹介される機能(一部)
Machine Learning Basics (R) Dataikuによる機械学習の基本操作を理解する。
  • 機械学習のためのデータセットを準備
  • ビジュアル機械学習を使用してモデルを作成
  • モデルの評価と調整
  • Explainable AIを活用
  • Feature selection/handling
  • Visual ML
  • Model design
  • Feature engineering&reduction
  • Algorithms&hyperparameters
  • Model interpretation(Feature importance,Prtial dependence, Subpopulation analysis, Individual explanations)
  • Model performance(confusion matrix etc…)
  • What if analysis
Scoring Basics (R) 学習済みモデルをデプロイし、新しいデータに対して予測・評価する方法を学ぶ
  • モデルをLabからFlowにデプロイ
  • ラベルなしデータセットをスコアリングのために準備
  • 予測モデルをラベルなしデータセットに適用
  • Deploy
  • Score/Evaluate recipe
  • Predict recipe
Interactive Statistics (R) Dataikuでビジュアル統計ツールを使用する方法を学ぶ
  • 記述統計と推測統計を使用してEDAを実行
  • カーブと分布のフィッティングを実行
  • 相関行列でペアワイズ相関を探索
  • 次元削減の影響を分析
  • Statistics workheet/cards
  • univariate and bivariate analyses
  • fit curves and distributions
  • Colleration matrix
  • PCA
  • Hypothesis testing
  • Generate statistics recipe
Intro to Machine Learning (A) 機械学習の概念を理解する
  • 教師あり学習と教師なし学習などの初歩的な概念
  • 予測とクラスタリングの違い
  • ランダムフォレストや決定木などの分類アルゴリズム
  • 単回帰および重回帰などの回帰アルゴリズム
  • Predictive Modeling
  • Regression & Clasification
  • Clustering
Machine Learning 102 (A) Dataikuでのモデルの開発、解釈、使用についてさらに深く理解する
  • モデルを改善するための新しい特徴を生成
  • モデルの結果を確認するために、モデルのオーバーライド、診断、およびアサーションを使用
  • 異なる状況でモデルの結果をシミュレート
  • Feature generation
  • Overrides
  • ML diagnostics
  • ML assertions
  • Optimize outcome (What if?)
Responsible AI (A) Dataikuの機能を使用して、AIの出力を責任ある原則に沿ったものに保つ方法を学ぶ
  • データセットに存在するバイアスを見つけて測定
  • DataikuのModel Fairnessプラグインを使用
  • モデル設計を改善するためのさまざまな解釈技術を実行
  • Dataikuの組み込みの説明可能なAIツールを活用
  • AIモデルを透明で理解しやすいものにするための堅牢なレポートを作成
  • Model fairness report
Partitioned Models (A) データセットのサブグループでトレーニングされたパーティションモデルとデータセット全体でトレーニングされた非パーティションモデルとの結果を比較する方法を学ぶ
  • 同僚にパーティションモデルを説明する。
  • Dataikuでパーティションデータセットからパーティションモデルを作成する。
  • 非パーティションモデルとパーティションモデルの結果を比較する。
  • Partitioning
  • Partitioned models
NLP - The Visual Way (A) Dataikuでビジュアルツールを使用して自然言語データを準備し、モデル化する方法を学ぶ
  • 自然言語処理(NLP)の目標と課題を理解する。
  • 正規化、ストップワードの除去、ステミングなどの変換を使用してNLPタスクのためのデータセットを準備する。
  • 機械学習タスクでテキスト特徴を処理するための異なる戦略を適用し、それらのトレードオフを理解する。
  • Simplify text
  • Text handling
  • N-grams
  • Stopwords
  • Min/Max. rows fraction %
  • TF-IDF vectorization
Image Classification and Object Detection without Code (A) Dataikuのディープラーニング機能を使用して画像分類と物体検出を行う方法を学ぶ
  • 画像分類や物体検出のタスクにおいて、事前トレーニング済みモデルを微調整する利点を認識する。
  • Pre-trained models in Dataiku(Efficiency-oriented/Balanced between efficiency and performance/Performance-oriented)
  • Data augmentation
  • Visual recipe
  • Image classification
  • Confusion matrix/Density chart
  • Object detection
  • Performance metrics
Time Series Analysis & Forecasting (A)時系列データに対する基本概念の理解からDataikuによるモデル構築の操作を学ぶ・時系列データの特性、使用例、形式、および構成要素を理解する。
  • 時系列データに対する統計分析を実行する
  • 時系列データに対する予測モデルを構築する
  • Time series analysis(Trend & Seasonality,Mann-Kendall trend test,Autocorrelation)
  • Time Series Forecasting
  • Deploy prediction model
Time Series Preparation (A)分析やモデル構築の前段階として、プラグインを利用したデータの準備を学ぶ
  • 時系列準備のさまざまな目的。
  • Time Series Preparationプラグインの各レシピの使用方法、以下を含む:-リサンプリング-間隔抽出-ウィンドウ処理-極値抽出-分解
  • Parsing the dates
  • Converting to wide format
  • Time Series Preparation plugin

※補足
・R:Recommended Courses to Prepare for Certification 認定資格の前に受講した方がいい
・A:Additional Learning 追加学習を推奨する項目

4. Generative AI Practitioner※作成中
・内容: DataikuのLLM視覚レシピを活用する方法
・コースの数: 2コース
・受講対象者: Data Designer (No-code business & data analysts)
・コースの詳細
パート(R/A)※ 概要 紹介される機能(抜粋)
Text Processing With LLMs Using Visual Recipes
    Retrieval Augmented Generation(RAG) with LLMs

      ※補足
      ・R:Recommended Courses to Prepare for Certification 認定資格の前に受講した方がいい
      ・A:Additional Learning 追加学習を推奨する項目

      5. Developer※作成中
      ・内容: Dataikuのコード統合と視覚ツールを超えた技術的スキルの習得
      ・コースの数: 7コース
      ・受講対象者: Data Designer (No-code business & data analysts)
      ・コースの詳細
       
      パート(R/A)※ 概要 紹介される機能(抜粋)
      Code with Dataiku
        Custom Automation
          Plugin Development
          Dataiku for R Users
          Webapps
          Custom ML Models
          Shared Code

          ※補足
          ・R:Recommended Courses to Prepare for Certification 認定資格の前に受講した方がいい
          ・A:Additional Learning 追加学習を推奨する項目

          6. MLOps Practitioner※作成中
          ・内容: プロジェクトやAPIサービスの展開と監視
          ・コースの数: 6コース
          ・受講対象者: Data Designer (No-code business & data analysts)
          ・コースの詳細
          パート(R/A)※ 概要 紹介される機能(抜粋)
          Production Concepts
          Project Deployment
          API Deployment
          Production Monitoring
          Dataiku Govern
          Advanced Dataiku Govern

          ※補足
          ・R:Recommended Courses to Prepare for Certification 認定資格の前に受講した方がいい
          ・A:Additional Learning 追加学習を推奨する項目

          4. ラーニングパスの選び方

          自分に合ったラーニングパスの選び方

          Dataiku Academyでは、様々なラーニングパスが提供されています。自分に合ったラーニングパスを選ぶためには、以下のポイントを考慮しましょう:

          • スキルレベル: 初心者、中級者、上級者向けのコースがあるため、自分の現在のスキルレベルに合ったものを選びましょう。
          • キャリア目標: データサイエンス、機械学習、データエンジニアリングなど、自分のキャリア目標に合ったラーニングパスを選ぶことが重要です。
          • 興味のある分野: 自分が興味を持っている分野や学びたい内容に基づいて選びましょう。

          認定試験の準備

          各ラーニングパスは、Dataikuの認定試験の準備に役立つように設計されています。認定試験に向けて効率的に学習するためには、以下の点を考慮しましょう:

          • 推奨コース: 認定資格の前に受講することが推奨されるコースを選びましょう。
          • 追加学習: 認定試験に向けてさらに深く学びたい場合は、追加学習を推奨する項目も検討しましょう。

          5. まとめ

          Dataiku Academyのラーニングパスの重要性

          Dataiku Academyのラーニングパスは、データサイエンスや機械学習の分野での専門知識を体系的に習得するための最適な方法です。各ラーニングパスは、特定のスキルセットやキャリア目標に合わせて設計されており、効率的に学習を進めることができます。

          自分に合ったラーニングパスの選び方

          ラーニングパスを選ぶ際には、自分のスキルレベル、キャリア目標、興味のある分野を考慮することが重要です。Dataiku Academyでは、初心者から上級者まで、幅広いレベルに対応したコースが提供されています。

          認定試験の準備

          各ラーニングパスは、Dataikuの認定試験の準備に役立つように設計されています。認定試験に向けて効率的に学習するためには、推奨コースや追加学習を検討することが重要です。

          次のステップ

          読者は、Dataiku Academyへの登録を検討し、自分に合ったラーニングパスを選びましょう。継続的な学習を通じて、データサイエンスの世界での成功を目指しましょう。

          以上

          2
          3
          0

          Register as a new user and use Qiita more conveniently

          1. You get articles that match your needs
          2. You can efficiently read back useful information
          3. You can use dark theme
          What you can do with signing up
          2
          3

          Delete article

          Deleted articles cannot be recovered.

          Draft of this article would be also deleted.

          Are you sure you want to delete this article?