Machine learning with MLlib tutorial | Databricks on AWS [2021/5/26時点]の翻訳です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
注意
Databricks機械学習ランタイムは、Databricksにおける機械学習モデルの開発、デプロイにおける包括的なツールです。著名な機械学習、ディープラーニングライブラリ、MLflow、エンドツーエンドで機械学習ライフサイクルをトラッキング、管理するための機械学習プラットフォームAPIが含まれています。詳細はDatabricks Machine Learning guideをご覧ください。
Apache Spark機械学習ライブラリ(MLlib)を用いることで、データサイエンティストは分散しているデータの関わる複雑な課題(インフラストラクチャ、設定など)を解決することではなく、データの問題やモデルにフォーカスすることができます。このチュートリアルノートブックでは、データのロード、前処理、MLlibアルゴリズムを用いたモデルのトレーニング、モデルパフォーマンスの評価、モデルのチューニング、予測の実施をウォークスルーします。また、MLlibのパイプラインとMLflow機械学習プラットフォームの使用方法も説明します。
ノートブック
お使いのクラスターのDatabricksランタイムのバージョンに応じたノートブックを使用してください。この他の機械学習のサンプルについては、Databricks Machine Learning guideをご覧ください。
MLlibサンプルノートブック(Databricksランタイム7.0以降)
ノートブックの流れをこちらで説明しています。
MLlibサンプルノートブック(Databricksランタイム5.5 LTSあるいは6.x)