前回に続き、今回はAzureMLデザイナーにサンプルとしてあるregression-automobile-price-prediction-compare-algorithms
を使ってモデルの作成等を行ってみたいと思います。
ワークスペースやクラスターの作成、実行方法等は最初の記事を参考にしてください。
サンプルを開く
それでは早速サンプルのほうを動かしてみたいと思います。
サンプルの利用は簡単で、デザイナー上部から任意のものを選ぶことで展開できます。
クリックするとデザイナーが開き、すでにブロックが並んだものが表示されると思います。
サンプルの内容
どのような処理を行ってるか確認してみましょう。
まずデータの取得です。
次にnormalized-losses
というカラムを除去してますね。
その後すべてのカラムに対して欠損の除去を行っているようです。
前処理したデータを7:3で分割しています。ここまでは前回と同じようですね。
ここからが少し異なるようです。アルゴリズムが二種類配置されいてますね。
Boosted Decision Tree Regression
とDecision Forest Regression
があり、それぞれ別々に学習を行っているようです。学習データは同じみたいですね。
それぞれの学習結果をもとにテストを行い、2つのデータを合わせて評価を行っているようです。
二つのモデルの比較をしているのでしょうか?
実際に動かして確認してみたいと思います。
サンプルの実行
実行には10分ほどかかりましたね…もう少し高いスペックのクラスターにすると変わるかもしれません。
実行後にEvaluteModelを右クリックしてデータの表示をしてみましょう。
こんな感じですね。どうやら右と左に入れたデータを並べて見せてくれるようですね。
評価指標の大小を比較しやすいかもしれません。
ただ今回は大きな差はないようです。全体的に左のデータが良い結果のように見えますね。
数値を見やすく確認するにはEvalueModelブロックをダブルクリックすると詳細を確認できます。
現在は左のデータだけを表示した画面になっていますが、項目にチェックを入れるとそれぞれ確認することができます。
比較したいものだけ並べて見比べたりできるかもしれません。
サンプルをいじってみる
ふと思ったのですが、この評価を比べるのは2つまでしかできないのでしょうか。
もう一つアルゴリズムを追加して確認してみたいと思います。
線をつなげようとしたところ怒られてしまいました。残念、、、
JoinDataというブロックもあったのですがうまくつながらなかったんですよね、、、
多分結合方法がダメだったんだと思います。
まとめ
今回はサンプルデータの自動車価格予測(詳細)をやってみました。
前回と異なり、二つのモデルを見比べることができましたね。
これにより良いモデルの探索を行うことができると思います。
複数のデータの比較についてですが、Pythonコードを実行できるブロックがあるようなので、次回はこちらを使ってデータの操作や比較等もやってみたいと思います。