More than 3 years have passed since last update.

ノーコードで行うOptunaを使ったハイパーパラメータの最適化と実験管理

Last updated at 2021-04-02Posted at 2021-04-01

概要

機械学習モデルを作成するときに欠かせないの手順の一つがハイパーパラメータの最適化です。
ハイパーパラメータの最適化は、モデル作成時に設定したパラメータやその時のスコア、データセットは何を使ったのか、などの実験を管理するコストが発生します。
Excelなどで管理する場合もありますが、Hydra, MLFlow, Optuna, Gitなどを組み合わせて行うケースが多いと思います。
しかし、それぞれのツールのセットアップやバージョン管理、コードのメンテナンスが発生して、本来の目的の課題を解決するためのモデルを開発することではなく、管理に工数を取られてしまうと時間が無駄になってしまいます。

そこで、VARISTAを使ったハイパーパラメータのチューニング方法と、機械学習モデル作成の実験管理をご紹介します。
VARISTAはSaaS型のノーコード機械学習プラットフォームです。VARISTAはこちら
無料でも多くの機能を使うことができます。

本記事の流れ

データの用意
モデル作成（固定値のハイパーパラメータで学習）
モデル作成（OptunaでHyperParameterを探索してモデル作成）
モデル作成（OptunaでHyperParameterの探索範囲を広めてモデル作成）
作成したモデル比較

データの用意

今回使うデータセットはKaggleにて公開されている「IBM HR Analytics Employee Attrition & Performance」で、社員の離職につながる要因を探ることを目的に作られたデータです。
（IBMのデータサイエンティストが作成した架空のデータセットです。）
IBM HR Analytics Employee Attrition & Performance

なお、本記事はパラメータチューニングの手順紹介にフォーカスするため、特徴量エンジニアリングなどは行わずオリジナルのデータセットでモデルを作成します。

初めてVARISTAを使う方は、以下を参考にプロジェクトを作成後、データアップロードまで終えてください。
ドキュメント › プロジェクトの作成

データセットは、1470インスタンス、34の説明変数で構成されています。
目的変数は Attrition (退職)です。

モデルの作成

まずは、パラメータチューニングをしないでLightGBMを使いモデルを作成してみましょう。
VARISTAではモデルを作成するときにテンプレートを使用しますので、以下の手順で学習テンプレートを作成して編集します。

学習テンプレートの複製と編集

今回は、LightGBMを使いパラメータチューニングを行いますので、LightGBMを使用するテンプレートを作成します。

モデリング › テンプレート(タブ）へと移動し、XGBoost Classifierを複製します。

複製されたテンプレートは、カスタムテンプレートセクションにありますので、選択して詳細を確認します。

続いて、設定を以下の通りに変更します。

基本設定 › 検証データの分割設定 › 分割サイズ : 0.2
モデル設定 › 交差検証設定 › n_splits : 5
アルゴリズム: LightGBM Classifier

最後にテンプレートを保存します。名前は__LightGBM Classifier__にします。

モデルの作成

先ほど作成したLightGBM Classifierを使いモデルを作成してみましょう。

モデリング › モデル(タブ）へと移動し、新規モデルを選択します。

続いて、アップロードしたデータを選択し、ターゲットがAttritionに、テンプレートにLightGBM Classifierを選択して、作成を選択します。

学習は10秒程度で完了し、モデルリストに作成されたモデルが表示されています。

モデルをクリックしてメトリクスを確認します。

今回は、F1スコアを基準にしてパラメータチューニングを行ってみます。

Optunaを使用したハイパーパラメータの最適化

では、ここからOptunaを使いハイパーパラメータの最適化を行ってみます。
以下の手順で、Optuna用の学習テンプレートを作成します。

Optuna用に学習テンプレートの複製と編集

先ほどと同様の操作で、LightGBM Classifierのテンプレートを複製します。
複製されたテンプレートを選択して編集します。

変更するテンプレートの値は以下の通りとし、その他の設定はデフォルトのまま行います。

パラメータ › AutoTune: TPE Optimization with Optuna
パラメータチューニングにOptunaを使用します。
パラメータ › AutoTune Round: 10
パラメータチューニングの試行回数を10回に設定します。
パラメータ › AutoTune Scoring: f1
各試行において、クロスバリデーションを行う際のメトリクスを指定します。
パラメータ › AutoTune CV Settings n_splits: 5
各試行において、クロスバリデーションを行う際の分割数を指定します
パラメータ › num_leaves: 256, 512
LightGBMのLeavesの探索範囲を設定します。

テンプレート名はLightGBM Optuna Classifierとします。

Optunaを使ったモデルの作成

先ほどのモデル作成の手順と同様に、モデルタブから新規モデルを選択します。
今度はテンプレートをLightGBM Optuna Classifierに設定して学習を開始します。

モデルの確認

パラメータ探索の試行回数を少なく設定したので、十数秒で学習が完了してモデルが生成されます。
F1スコアを確認するとスコアが改善されていることがみて取れます。

パラメータチューニング履歴の確認

実際に、試行したハイパーパラメータを確認してみたいと思います。
モデルをクリックして、アルゴリズムタブを選択します。

Selected Estimatorセクションにある、lightgbm_classifierを選択すると、学習の履歴を確認することができますので、さらにAutoTuneタブを選択します。