Databricksクイックスタートガイドのコンテンツです。
Machine learning tutorial | Databricks on AWS [2021/3/17時点]の翻訳です。
注意
DatabricksランタイムMLは、Databricksで機械学習モデルを開発・配備する際に用いる包括的なツールです。これには、機械学習のエンドツーエンドのライフサイクルを管理・追跡する機械学習プラットフォームMLflow(英語)に加えて、有名な機械学習ライブラリ、ディープラーニングのライブラリが含まれています。詳細はMachine learning and deep learning guide(英語)を参照ください。
Apache Sparkの機械学習ライブラリ(MLlib)を活用することで、データサイエンティストが、散在しているデータに関わる諸問題(インフラ、設定など)にかかずらわされることなく、データとモデルに集中することができます。このチュートリアルでは、サンプルノートブックを使って、データの読み込みから始まり、データの前処理、MLlibのアルゴリズムを用いたモデルのトレーニング、モデル性能の評価、モデルのチューニング、予測の実施まで体験します。また、MLlibのパイプライン、MLflowについてもご紹介します。
前提
以下もご一読ください。
ノートブック
こちらのノートブックを試す際には、Databricks MLランタイム7.0以上を使用してください。