#はじめに⚡️
私が実際に触って、体感したことのある3つのAutoMLツールに関する記事です。
###あくまで、UI/UX、サービス視点での比較になります。
生成されたモデルの精度の比較ではございませんのでご注意ください。
なぜ、精度の比較をしないのか?🤔
それは、現在私が利用できないツールが含まれているからです。
DataRobotやRealityEnginesに関しましては、私がアーリーアクセスで一時的に利用していたため
現在推論を行うことができませんでした。
#各リンク🌍
DataRobot 👉 https://www.datarobot.com/
RealityEngines 👉 https://realityengines.ai/
VARISTA 👉 https://www.varista.ai/
#王者DataRobot
👉 https://www.datarobot.com/
AutoMLの先駆者であり、王者と言えばDataRobotですね。
世界のグランドマスターを牛耳っていると言っても過言ではありません。
それにともなって、モデルの精度や機能の多さは群を抜いています。
しかし、その分コストも高く、利用料金は1ユーザー1ヶ月○百万円だとか...
導入してる会社で働いて、ガッツリ使い込んでみたいものです。
#最新ツールRealityEngines
👉 https://realityengines.ai/
まだ知らない方も多いのでは?
知る人ぞ知る、RealityEngines.AI
こちらのサービス、現在はまだサービスインしていなく(2020年6月現在)、つい最近アーリーアクセスを行っていたため応募して触ってみました。
テーブルデータだけでなく、自然言語や画像などのディープラーニングにも対応しているみたいです。(触ってない)
#無料のVARISTA
👉 https://www.varista.ai/
こちらも、新しめのツールVARISTA.AI
上の二つと一番違うのは、すぐに無料で使い始められることです。
UIもシンプルで機械学習がわからない人でも、とりあえずモデル生成できるよう設計されています。
#さっそく比較🚀
各ツールにグッドなところを👍でまとめていきます。
##データまわりのUI/UX
データのアップロード
###DataRobot
👍 エリア内にファイルをドラッグアンドドロップするほか「DataSource」、「URL」、「HDFS」に対応しています。
👍 サンプルファイルが下のリストから選択できるのはとてもいい機能。
データに関する知識がそこまでない、これから機械学習を初めて行く方には、これらのサンプルデータ内から、自分たちにあったものを探して、実際に触ってみることができるのは大きいです。
###RealityEngines
👍 ユースケースを選んでプロジェクトを作れる。
ビジネスユーザにはとてもわかりやすい機能ですね。
ユースケースを選んでプロジェクト名を設定するとデータアップロード画面になります。
👍 必要なデータを教えてくれる
売り上げ予測にはこんなデータを用意してくださいっていうのを教えてくれます!神機能
データの各列とアイテムID、ターゲット列などをマッピングします。
###VARISTA
👍 UIをみていただければ分かる通り、とてもシンプル
予測したい列を選択して、単位を設定すると完了
##データの確認、分析
###DataRobot
アップロードしたデータは、このようなリストで確認できます。
必要そうな情報はだいたいありますね。
👍 学習を始めると、FeatureImportanceもここに表示されます。
###RealityEngines
👍 時系列だと、アイテムごとの需要の変化が可視化されています。
ヒストグラム各種情報は同じように確認できます。
###VARISTA
列の一覧が確認できます。
👍 学習に利用するかどうか、欠損値の量が一眼でわかります。
集計情報から同じように情報を確認できます。
##学習・モデル生成
###DataRobot
Startボタンを押すと学習開始
学習完了したモデルからどんどん結果が表示されていきます。
👍 アンサンブルモデルを含め、膨大な量のアルゴリズムをランキング付してくれるため、安心感があります。
###RealityEngines
Train modelボタンを押すと、学習が開始されます。
学習が始まるとダイアログが表示されます。
👍 あとは完了するまで待つだけ。
###VARISTA
学習開始ボタンを押すと学習が開始されます。
👍 モデルが追加され、学習プロセスがチェックできます。終わるまで待ちましょう。
##モデル評価
###DataRobot
DataRobotのとても強いところです。
画面は二値分類の結果画面です。
👍 各種スコアから、Confusion Matrix, ROC Curve, Thresholdなど、必要な情報はすべてあります。
👍 回帰問題では予測値のプロットも確認できます。
**👍 部分依存により、どの特徴のどの値が推論に影響を与えているかも確認できます。
###RealityEngines
👍 とにかくシンプルです。
他に情報がないのか、目を疑いました。
👍 ターゲットとなるユーザーが機械学習エンジニアではなくビジネスユーザーのためか、細かいところはすべてツールに任せろと言わんばかりです。
###VARISTA
みやすさ、情報量のバランスが◎
👍 スコアという概念でモデルの性能が一目瞭然
単位がついているので誤差が理解しやすいのもいいですね。
👍 FeatureImportanceや予測のプロットも確認できます。
分類問題ではわかりやすく表示された混同行列的なものも確認できます。
👍 閾値の探索も自動でやってくれます。
##推論
###DataRobot
利用するモデルをリストから選択し、Predictionを選びます。
次に推論データをアップロードします。
👍 推論が実行されるので、完了したら結果をダウンロードすれば完了。
###RealityEngines
ファイルを選択し、予測値を推論することができます。
👍 シンプルでわかりやすい
##VARISTA
推論に利用するモデルを指定して、予測を行います。
👍 推論データに必要な列が表示されています。
👍 予測時のフォーマットを設定できるのはkaggleなどにSubmitするときなどに重宝するかもしれません
##その他 それぞれ注目の機能😍
###DataRobot
Validation Predictions
👍 見た目もかっこいいが、それだけじゃない。検証データの予測値とその結論に至った理由が明記されています。
いわゆる決定木の通ったルートをカッコよく表示してくれる機能です。
なんでこの予測値になったのかが確認できるのは、ビジネス面でも非常に重要ですね。
モデル比較
生成したモデル同士を比較することができます。
👍 どんな点が優れているのか、どのモデルを利用するべきなのかを把握するのに使いましょう
##RealityEngines
フォーム入力による推論
👍 データからではなく、その場で値を入力し、予測値を確認できます
どんな感じのモデルになったかすぐに確認できるので便利
##VARISTA
クイックビジュアライズ
👍 データをアップするだけで、ヒストグラム、相関関係、ヒートマップを可視化してくれます。
文字通り何もしなくていいです。さらに、jpgやpngに書き出すことも可能。
データリーク・過学習検知
過学習や、データリークによって精度が異常に高くなってしまうことありますよね。
👍 データに詳しくない人でも、何が原因でどうすればいいのか指示が出るのがすごい
#おわり🍕
以上、3つツールを比較してみました。
それぞれとても優秀なツールでしたね。これからどんどん新しい機能が入っていくのもSaaS型ツールのいいところですね。
AutoML自体の進化にも目が離せません。
それでは良いAutoMLライフを✨