はじめに⛵️
みなさんAutoMLは試したことありますか?
最近では様々なツールが登場してきているAutoMLですが、次の二つのAutoMLツールの比較をしていこうと思います。
H2O Driverless AI
H2O Driverless AI | https://www.h2o.ai/products/h2o-driverless-ai/

VARISTA
VARISTA.ai | https://www.varista.ai/

ぶっちゃけ何が違う?🤔
なぜ、こんな記事を書いたかというと
一方のDriverlessAIさん、なんと利用するのに1ユーザー/月 何十万円〜というハイスペック高級ツールなんです。
それにくらべ、varista.aiさん、これまた驚きの無料でつかえます。※有料プランもあります。フリーミアム形態です。
この二つのツール、何ができて、何ができないの??
モデルの精度はどうなの?といった疑問にお答えすべく、検証してみました。
検証内容☕️
UIや機能の比較に加え、タイタニック(二値分類)、住宅価格予測(回帰予測)のスコアの比較も行ってみようかと思います。
サービス比較
| DriverlessAI | VARISTA | |
|---|---|---|
| 実行環境 | ローカル(LINUX/Win/Mac) | クラウド |
| Pricing | 有料のみ | 無料/有料 |
機能比較
| DriverlessAI | VARISTA | |
|---|---|---|
| プロジェクト | ⭕️ | ⭕️ |
| チームワークスペース機能 | ?(見当たらない) | ⭕️(有料プラン) |
| 自動学習 | ⭕️ | ⭕️ |
| データ可視化 | ⭕️ | ⭕️ |
| MLI/レポート作成 | ⭕️ |
ML比較
機械学習の自動化
| DriverlessAI | VARISTA | |
|---|---|---|
| 不要な列の削除 | ⭕️ | ⭕️ |
| 欠損地の補完 | ⭕️ | ⭕️ |
| ハイパーパラメータ調整 | ⭕️ | ⭕️ |
| 特徴量エンジニアリング | ⭕️ | ⭕️ |
| アルゴリズム選定 | ⭕️ | ⭕️ |
| モデル評価 | ⭕️ | ⭕️ |
| 学習の詳細設定 | エキスパートセッティングで数百のパラメータが設定可能 | 学習レベル(5段階)、kFold、HoldoutSize、RandomSeed |
こうみるとメインの学習機能でやってくることとしてはそこまで大差ない気がします🤔
細かい詳細パラメータを自分で設定できるのはエンジニアにとっては嬉しい機能ですね。
逆に、知識がなくてもシンプルにわかりやすく使えるのも、メリットかもしれません。
対応アルゴリズム
| DriverlessAI | VARISTA | |
|---|---|---|
| DecisionTree/RandomForest | ⭕️ | ⭕️ |
| FTRL | ⭕️ | |
| LinearModel | ⭕️ | ⭕️ |
| IsolationForest(ExtraTree) | ⭕️ | ⭕️ |
| LightGBM | ⭕️ | ⭕️ |
| XGBoost | ⭕️ | ⭕️ |
| RuleFit | ⭕️ | |
| TensorFlow | ⭕️ | |
| CatBoost | ⭕️ | |
| AdaBoost | ⭕️ |
データ詳細確認
| DriverlessAI | VARISTA | |
|---|---|---|
| 列の型 | ⭕️ | ⭕️ |
| 欠損数 | ⭕️ | ⭕️ |
| 平均値 | ⭕️ | ⭕️ |
| 最小値 | ⭕️ | ⭕️ |
| 最大値 | ⭕️ | ⭕️ |
| 標準偏差 | ⭕️ | ⭕️ |
| ユニーク数 | ⭕️ | ⭕️ |
| 最頻値の出現回数 | ⭕️ | |
| 最頻値の値 | ⭕️ |
データ可視化機能
| DriverlessAI | VARISTA | |
|---|---|---|
| ヒストグラム | ⭕️ | ⭕️ |
| ボックスプロット | ⭕️ | ⭕️ |
| 外れ値の確認 | ⭕️ | |
| 列の相関関係 | ⭕️ | ⭕️ |
| クラスターの可視化 | ⭕️ | |
| ヒートマップ | ⭕️ | ⭕️ |
| 欠損値ヒートマップ | ⭕️ | |
| 変換のリコメンド | ⭕️ |
学習結果画面の内容の違い
| DriverlessAI | VARISTA | |
|---|---|---|
| スコア | ⭕️ | ⭕️ |
| FeatureImportance | ⭕️ | ⭕️ |
| Predictions Plot(回帰) | ⭕️ | ⭕️ |
| Residuals Plot(回帰) | ⭕️ | |
| ROC曲線(分類) | ⭕️ | |
| Confusion Matrix(分類) | ⭕️ | ⭕️ |
| Threshold Optimization(分類) | ⭕️ |
各ツール、MLI、詳細表示などでより細かな学習結果を確認することができます。
精度
それぞれ、以下のパラメータを使用しました。
設定によってはまだまだ精度が改善できると思いますので、あくまで参考程度に✋
サブミッション
スコア比較
| DriverlessAI | VARISTA | |
|---|---|---|
| タイタニック(CategorizationAccuracy) | 0.79425 | 0.80382🎉 |
| 住宅価格(RMSLE) | 0.12685🎉 | 0.12824 |
おわり🤗
最終的なスコアに関してはそこまで大きな差はありませんでした。
設定を変えることでどちらも、より高いスコアを目指せると思います。
その際に、より専門的で細かい設定ができるのがDriverlessAIで、シンプルなのがvaristaだったとおもいます。
まとめ
DriverlessAI: 超多機能、MLの知識があるエンジニア向け
VARISTA: シンプル且高精度、知識がなくても利用できる
参考
H2O Driverless AI
H2O Driverless AI | https://www.h2o.ai/products/h2o-driverless-ai/
VARISTA
VARISTA.ai | https://www.varista.ai/







