LoginSignup
7
4

More than 5 years have passed since last update.

[和訳]Azure Databricks – New capabilities at lower cost

Posted at

この記事について

  • この記事は,下記の和訳と,それに対する所感です.
  • 記事の公開は,2019年3月6日(現地時刻)です.
  • 日本国内で,もっとDatabricks界隈で盛り上がればよいなと思って執筆してます.本当に全然いない.

まとめ

  • Data Engineering Lightという新プランが誕生.昔はData Analyticsと,Data Engineeringしかなかった.
  • Data Engineeringの値段引き下げ(最大25%!)
  • マネージドMLFlowのサポート.Azure Databricks上でMLFlowをインポートして学習を記録すると,Shared配下で学習の経過が参照できるように.
  • Azure Machine Learning Serviceとの連携強化.

和訳

Azure Databricks - 新プランを安い価格で

Azure Databricksは,業界をリードするSLAを担保した.ビッグデータやAIソリューションを加速させる,Apache Sparkベースの早く,そして簡単な分析プラットフォームである.
Azure Databricksを使えば,最適化されたApache Spark環境を数分で作成できる.データサイエンティストとデータエンジニアは,好きな言語やツールでコラボレーションできる.Azure ADとネイティブに統合し,エンドツーエンドのDWH、Machine Learning、およびリアルタイム分析のソリューションを構築できる.
いままでも我々はAzure Databricksの驚くべき採択を見てきたが,今日,新たな発表をできることに我々は興奮している.

Data Engineering LightプランのGA(General availability)

バッチジョブのみを実行できるData Engineering Lightプランをリリースする.これは、シンプルで,重要ではないワークロード向けのプランである.
Data EngineeringプランやData Analyticsプランで利用できるハイパフォーマンスや、自動スケーリングなどが不要な場合に使用するプランだ.
このページを参照せよ.

さらに,Standard SKUとPremium SKU,共にData Engineeringプランの価格を引き下げた。最大25%の値下げになる.価格のページを参照.

マネージドMLFlowのプレビュー版が公開

MLFlowとは,機械学習のライフサイクルをさせるOSSである.
認証にAzure ADを用いながら,Azure DatabricksからネイティブにMLFlowを利用できる.
具体的には,次のことが可能になる.
- MLFlowのTrackingサーバーに,パラメータ・結果・コード・データを、自動的に実験(学習)経過を記録する.AzureDatabricksから実験を記録・照会し,より精度の高いモデルを作成することができる.
- 機械学習のコードと依存関係(ライブラリ)を再配布可能な状態でパッケージングし,Databricksクラスター上でリモート実行する.
- 学習モデルを本番環境にすばやくデプロイする.

こちらを参照.

Azure Machine LearningとAzure Databricksを用いたAzureでの機械学習

Azure Machine Learning(AML)を2018年12月に一般公開(筆者注:プレビュー版はもっと昔からあった)してからというもの,ビッグデータの解析を加速させるためにDatabricksとAMLを組み合わせることについて,好評なフィードバックを得ている.

  • スキルレベルに依存せずに,全てのデータサイエンティストが適切なアルゴリズムとハイパーパラメータを見つけられるように,先進的なオートメーション機械学習を公開する.
  • 機械学習モデル構築のDevOps化.
  • クラウドからも,エッジデバイスからもモデルを展開する.
  • 組織を跨いで作成された実験、機械学習パイプライン、学習モデルの中央的な保管場所を提供する.

Azure DatabricksとAMLを組み合わせることで,Azureは機械学習に最適なクラウドとなる.ユーザーは,Apache Sparkベースの対話型コラボレーションノートブック,オートメーション機械学習,機械学習ライフサイクル管理などの恩恵を受けることができる.

image.png
引用:https://azure.microsoft.com/ja-jp/blog/azure-databricks-new-capabilities-at-lower-cost/?fbclid=IwAR3CI1_cWZ8yarYGq5sC4TLIZgG8ml8V1OIdUfOBdjFnVZ_zPEISjVzdhlo

著者所感

新プランと値下げについて

  • 新プランは.HDInsight < Databricksとなるメリット(例えば対話型ノートブックなど)をほとんど享受できないプランであるので,使いどころによると思う.最初は「Data Engineering」プランで試行錯誤し,安定したら運用は「Data Engineering Light」でコスト安を目指すのが良い.
  • 値下げは素直にうれしい.ただでさえDatabricksは高い.

MLFlowについて

  • MLFlowのネイティブ統合はありがたいのだが,後述のAMLとの住み分けが不明.どちらも類似の機能を有するので,好みで使い分けるのがよいか……?AMLでサービス全体を構成しているのであれば,他のAzureサービスと連携できるAMLの方が良い気もするが.

AMLとの連携について

  • 現在Azureには,下記の通りの機械学習系サービス・製品がある.

  • 用途によって使い分けるのがよいと思うが,その中でも分散処理(Spark)を素早く容易に開始するならDatabricksが最適解で,そのDevOps用にAMLを利用するのもとても良いと思う.

  • シングルサーバーで良いならDSVMが便利.ノンコーディングでいくならAMLStudioなどと,機械学習系の製品の住み分けはちゃんとできている印象.

7
4
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
7
4