Help us understand the problem. What is going on with this article?

新しい Azure Machine Learning Studio と戯れてみる

More than 1 year has passed since last update.

この記事は Microsoft Azure Tech Advent Calendar 2019 の7日目の記事です。
昨年は体調不良に伴う後追いとなってしまったことを反省し、この記事は前もって作成しております。2020年も何事も早め早めで進めていこうと、今から心に決めている次第です。

昨年の投稿時点では、Azure Machine Learning Service が一般提供開始となり、ServiceStudioの両方が並立する状況でした。そして、2019年11月、Azure Machine Learning Service が Azure Machine Learning に、Azure Machine Learning Studio が ML Studio (classic) と名称変更になりました。また、同時に Azure Machine Learning Studio がプレビュー提供されています。

そこで、今回は、プレビュー提供されている Azure Machine Learning Studio について、以前の Studio 利用者が気を付けたい (私があれ?と思った) 点をまとめてみたいと思います。

なぜ、この記事が作成されているのか

新しいサービスに慣れ親しんでおきたい、という(私の個人的な)動機に基づいています。

想定している読者

現在、ML Studio (classic) を利用している方、過去に利用したことがあるが、それっきりになっている方など、ML Studio (classic) の知識を主にお持ちの方を想定しています。

で、何が違うの?違わないの?

ここ にまとまっていますが、ピックアップして読み解いておきます。

変わらない点

どちらも、GUIベースでの機械学習モデル構築のフローを作成することができます。設定画面や操作方法が一部異なってはいるものの、処理の流れを視覚的に理解しながら機械学習モデルを作成できるという良さは引き継がれています。それぞれの外観は以下の通りです。

  • Machine Learning Studio
    image.png

  • ML Studio (classic)
    image.png

改善された点

データの上限が撤廃されました。ML Studio (classic) においては、モジュールで取り扱えるデータ容量に 10 GB という制限がありました。新しい Studio においては、機械学習のデータ処理を実行させる環境を自分で設定し、十分なメモリを確保させることで 10 GB 以上のデータを取り扱うことが可能になっています。

つまづきやすい点

上記の改善点の裏返しになのですが、Machine Learning Studio では、データ処理、学習処理のための実行環境を自分自身で準備する必要があります。ML Studio (classic) では自動で準備されていたため、エクスペリメントを作成して実行を押せばすぐに処理が始まったのですが、Machine Learning Studio では、事前に作成しておいた Training Cluster をパイプラインに割り当てて実行環境とする必要があります。

  • Machine Learning Studio

    • 事前に Training Cluster を作成 image.png
    • パイプラインにクラスターを割り当て image.png
  • ML Studio (classic)
    画面下部のRUNを押せばOK。
    image.png

さらっと耳慣れない用語が出たような・・・

ここまでの説明でいくつかの用語が出てきたので整理しておきたいと思います。

  • モジュール
    Machine Learning Studio のデザイナーや ML Studio (classic) の作成画面で並べる箱状のオブジェクトを指します。
    image.png
  • クラスター
    データ加工や学習処理を実行するためのコンピューターリソース群を指します。Azure VM がクラスターの構成要素であるノードとして複数個作成されます。
    image.png
  • パイプライン
    Azure Machine Learning Studio の デザイナーで作成する、機械学習モデル構築のための一連のフローを指します。ML Studio (classic) の場合は、パイプライン=エクスペリメントでした。
  • エクスペリメント
    機械学習モデルの作成単位です。ML Studio (classic) の場合には、機械学習モデル構築のための一連のフローを指していました。Azure Machine Learning Studio では、Notebooks、Automated ML、デザイナーそれぞれで構築したモデル作成処理(パイプライン)の結果を束ねて管理する単位としてエクスペリメントが存在します。

エクスペリメントの意味合いが変わってますよね?

その通りです。というわけで、つまづきやすい点の追加です。

つまづきやすい点、その2

ML Studio (classic) の場合、一連の処理をエクスペリメントと呼んでいましたが、Azure Machine Learning Studio では、それをパイプラインと呼び、パイプラインの実行結果を管理する単位としてエクスペリメントに関連付けて記録を残します。
この違いを意識しておかないと、パイプラインの内容を変えた後に次々とエクスペリメントを作成してしまい、モデル作成の記録が散在することになってしまいます。

まとめ

ここまで、プレビュー提供されている Azure Machine Learning Studio について、以前の Studio 利用者が気を付けたい点、として紹介してきました。
計算リソースの差異、管理単位であるエクスペリメントの差異の2点をまずは押さえていただければ、ML Studio (classic) で習得した機械学習の概念(データ成型、分割、学習、スコア付け、評価)を活用して機械学習モデルの構築が始められるのではないかと思います。

yomatsum
Hello world, I'm Yoshihiro Matsumoto, and I work for Microsoft Japan as a Customer Engineer. 日本マイクロソフト株式会社でデータ & AI 関連のサービス、製品を中心にお客様を支援しています。 本ブログにおける投稿は個人的な発言のため、所属する会社の公式見解や回答ではありません。
https://fb749084043.wordpress.com/
Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away