この記事について
- この記事は,下記の和訳と,それに対する所感です.
- 記事の公開は,2019年3月6日(現地時刻)です.
- 日本国内で,もっとDatabricks界隈で盛り上がればよいなと思って執筆してます.本当に全然いない.
まとめ
- Data Engineering Lightという新プランが誕生.昔はData Analyticsと,Data Engineeringしかなかった.
- Data Engineeringの値段引き下げ(最大25%!)
- マネージドMLFlowのサポート.Azure Databricks上でMLFlowをインポートして学習を記録すると,Shared配下で学習の経過が参照できるように.
- Azure Machine Learning Serviceとの連携強化.
和訳
Azure Databricks - 新プランを安い価格で
Azure Databricksは,業界をリードするSLAを担保した.ビッグデータやAIソリューションを加速させる,Apache Sparkベースの早く,そして簡単な分析プラットフォームである.
Azure Databricksを使えば,最適化されたApache Spark環境を数分で作成できる.データサイエンティストとデータエンジニアは,好きな言語やツールでコラボレーションできる.Azure ADとネイティブに統合し,エンドツーエンドのDWH、Machine Learning、およびリアルタイム分析のソリューションを構築できる.
いままでも我々はAzure Databricksの驚くべき採択を見てきたが,今日,新たな発表をできることに我々は興奮している.
Data Engineering LightプランのGA(General availability)
バッチジョブのみを実行できるData Engineering Lightプランをリリースする.これは、シンプルで,重要ではないワークロード向けのプランである.
Data EngineeringプランやData Analyticsプランで利用できるハイパフォーマンスや、自動スケーリングなどが不要な場合に使用するプランだ.
このページを参照せよ.
さらに,Standard SKUとPremium SKU,共にData Engineeringプランの価格を引き下げた。最大25%の値下げになる.価格のページを参照.
マネージドMLFlowのプレビュー版が公開
MLFlowとは,機械学習のライフサイクルをさせるOSSである.
認証にAzure ADを用いながら,Azure DatabricksからネイティブにMLFlowを利用できる.
具体的には,次のことが可能になる.
- MLFlowのTrackingサーバーに,パラメータ・結果・コード・データを、自動的に実験(学習)経過を記録する.AzureDatabricksから実験を記録・照会し,より精度の高いモデルを作成することができる.
- 機械学習のコードと依存関係(ライブラリ)を再配布可能な状態でパッケージングし,Databricksクラスター上でリモート実行する.
- 学習モデルを本番環境にすばやくデプロイする.
こちらを参照.
Azure Machine LearningとAzure Databricksを用いたAzureでの機械学習
Azure Machine Learning(AML)を2018年12月に一般公開(筆者注:プレビュー版はもっと昔からあった)してからというもの,ビッグデータの解析を加速させるためにDatabricksとAMLを組み合わせることについて,好評なフィードバックを得ている.
- スキルレベルに依存せずに,全てのデータサイエンティストが適切なアルゴリズムとハイパーパラメータを見つけられるように,先進的なオートメーション機械学習を公開する.
- 機械学習モデル構築のDevOps化.
- クラウドからも,エッジデバイスからもモデルを展開する.
- 組織を跨いで作成された実験、機械学習パイプライン、学習モデルの中央的な保管場所を提供する.
Azure DatabricksとAMLを組み合わせることで,Azureは機械学習に最適なクラウドとなる.ユーザーは,Apache Sparkベースの対話型コラボレーションノートブック,オートメーション機械学習,機械学習ライフサイクル管理などの恩恵を受けることができる.
引用:https://azure.microsoft.com/ja-jp/blog/azure-databricks-new-capabilities-at-lower-cost/?fbclid=IwAR3CI1_cWZ8yarYGq5sC4TLIZgG8ml8V1OIdUfOBdjFnVZ_zPEISjVzdhlo
著者所感
新プランと値下げについて
- 新プランは.HDInsight < Databricksとなるメリット(例えば対話型ノートブックなど)をほとんど享受できないプランであるので,使いどころによると思う.最初は「Data Engineering」プランで試行錯誤し,安定したら運用は「Data Engineering Light」でコスト安を目指すのが良い.
- 値下げは素直にうれしい.ただでさえDatabricksは高い.
MLFlowについて
- MLFlowのネイティブ統合はありがたいのだが,後述のAMLとの住み分けが不明.どちらも類似の機能を有するので,好みで使い分けるのがよいか……?AMLでサービス全体を構成しているのであれば,他のAzureサービスと連携できるAMLの方が良い気もするが.
AMLとの連携について
-
現在Azureには,下記の通りの機械学習系サービス・製品がある.
- 1,IaaSレベルから使えるDSVM
- 2,SaaS型JupyterNotebook(GoogleColaboratoryみたいなもの)のAzure Notebooks
- 3,PaaS型GUI機械学習プラットフォームのAzure Machine Learning Studio
- 4,機械学習DevOps(?)をサポートするAzure Machine Learning Service
用途によって使い分けるのがよいと思うが,その中でも分散処理(Spark)を素早く容易に開始するならDatabricksが最適解で,そのDevOps用にAMLを利用するのもとても良いと思う.
シングルサーバーで良いならDSVMが便利.ノンコーディングでいくならAMLStudioなどと,機械学習系の製品の住み分けはちゃんとできている印象.