0
2

More than 3 years have passed since last update.

AutoML(VARISTA)を使ってみた

Last updated at Posted at 2021-06-16
  • 製造業出身のデータサイエンティストがお送りする記事
  • 今回はAutoML(VARISTA)を使ってみましたので、メモとして残しておきます。

VARISTAとは

VARISTAは、機械学習を効率的に行うためのプラットフォームです。つまり、AutoMLですね。DataRobotやdotDataとかと一緒です。
後者の二つのAutoMLは有料ですが、VARISTAは無料でも一部機能が使えます。

基本的な流れ

GUIで全てできるので細かい説明は不要かと思いますが(サポートもでますので)、簡単に下記に整理しておきます。

  1. データセットを準備(サンプルデータも用意されております)
  2. 構築するモデルを作成
    • 構築できるモデルは決まっております(無料プランのみ確認)
      • XGBoost
      • lightGBM
      • catboost
      • scikit-learn(一部)
    • 有料プランではもっと他のモデルが使える可能性があります。
  3. モデル学習
  4. 学習モデルの評価
  5. その他
    • ハイパーパラメータが利用可能です

実際の使い方

データのアップロード

今回はサンプルのタイタニックのデータをアップロードしております。
無料版では、100MBぐらいまでのデータセットなら使用できるようです。
プロジェクトは一つしか作成できないので、本当にお試しという感じですね。

スクリーンショット 2021-06-16 23.15.18.jpg

アップロードしたデータは、下記のような感じで各カラム毎にデータの型、欠損値、使用可否を簡単に確認・選択できます。

スクリーンショット 2021-06-16 23.16.42.jpg

モデルの構築

次に構築するモデルを作成します。無料プランではサンプルでいくつかのモデルが作成されております。
一番上の「lightGBM_classificaion」が今回作成したモデルであり、その他はテンプレとして用意してくれているモデルです。

スクリーンショット 2021-06-16 23.18.45.jpg

モデルを構築する際は、構築するモデルの目的(回帰、分類)を選択し、前処理や検証データの分割方法とかを選択できます。

スクリーンショット 2021-06-16 23.19.53.jpg

その他、アルゴリズムはハイパラチューニング方法も選択できます。
ハイパラチューニングはグリッドサーチ、ランダムサーチ、ベイズ最適化(Hyperopt、optuna)が選択できます。
その他、ハイパラの探索範囲なども選択できるようになっております。

スクリーンショット 2021-06-16 23.21.12.jpg

モデルの学習

あとは、モデルを選択して学習します。

スクリーンショット 2021-06-16 23.23.39.jpg

構築したモデルの評価

構築したモデルの中身を見て評価を行います。
分析できる項目としては、ある程度揃っている印象があります。

スクリーンショット 2021-06-16 23.24.24.jpg

スクリーンショット 2021-06-16 23.24.44.jpg

スクリーンショット 2021-06-16 23.24.56.jpg

その他

構築したモデルのハイパラもyamlファイルで取得可能です。
ただし、pythonで完全に同じモデルを再現できるのかどうかは確認しておりません。

スクリーンショット 2021-06-16 23.26.19.jpg

さいごに

最後まで読んで頂き、ありがとうございました。
今回はAutoML(VARISTA)を使ってみましたので、メモとして整理してみました。

有料版を試していないので分からないですが、モデルの種類に関してはDataRobotが一番多くて良いのかなとは思います。
また、dotDataは特徴量エンジニアリング自動化の部分が強みです。
VARISTAは上記2つのAutoMLツールに対してどのような優位性を持って戦っていくつもりなのか、無料版では見えてこなかったため、そこら辺が分かると選択肢の候補として上がるのかなと思います。
一方で、無料でもお試して簡単に使えるのは良かったです。

0
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
2