本記事はDairenkon Majimeによるゲスト記事です。MajimeはTera ブートキャンプのデータファシリテーター兼メンター、データサイエンティストのインターン、そして常に新しい挑戦を求める熱心なライターです。MLOps、データサイエンス、機械学習について執筆しています。
AutoML(自動機械学習)とは、ML(機械学習)を実現するために必要な操作を自動化し、機械学習に必要な専門知識を省力化するツールやサービスのことを指します。その手順には通常、データの標準化や特徴量エンジニアリング、さまざまなハイパーパラメータの組み合わせによるアルゴリズム学習、結果の評価と比較などが含まれます。研究論文「AutoML to Date and Beyond: Challenges and Opportunities」によると、AutoMLは基本的に「実世界の問題に対するMLの適用を自動化するためのパラダイム」であると言えます。自動化と効率化はAutoMLの主なセールスポイントの1つですが、このプロセスにはまだ人間の関与が必要です。
AutoMLは、コーディングをほとんど必要としないツールを提供することで、データ専門家の分析ツールへのアクセスを簡略化し、シナリオによっては上級データサイエンティストがより早く答えを導き出せるようにすることを意図しています。
データサイエンティストであろうと、非専門家であろうと、企業の世界ではスピードが重視されます。従来の手法でモデルを構築するには時間とリソースが必要で、特徴量の処理や実験の追跡といった単純な作業に高価な時間とリソースが必要になることがよくあります。DataikuのAutoML機能は、これらの作業を効率化するリソースを提供し、モデルパフォーマンスの評価と比較、モデルの潜在的なバイアス特定と修正、ビジネスのための結果の解釈など、より価値の高い作業に集中することができます。
AutoMLと従来の手法との比較
DataikuのAutoMLは、MLモデル開発のあらゆる段階を加速します。モデルを手動でコーディングする場合、適切な方法論に従うために、多くのステップをコードに含める必要があります。
- 特徴量の選択と処理
- 特徴量の生成と削減
- 訓練・テスト・検証データのサンプリング定義
- 最適化指標の選択
- アルゴリズムの選択
- ランタイムエンジンと計算インフラのセットアップ
- モデルのトレーニング
- モデルの検証(例:テストサンプルによるクロスバリデーション)
- ハイパーパラメータのチューニングと最適化
- パフォーマンスメトリクスの分析
- モデルの解釈可能性とアサーション分析
- モデルの比較
- レポートと文書化
お分かりのように、これらの各ステップを手作業でコーディングして実行するには、多くの時間、集中力、準備が必要で、新しいモデルを検討するたびに多くのステップが繰り返されます。データサイエンティストが新しいプロジェクトを始めるとき、ビジネスにおける専門家の第一の目的は価値を提供することであり、その実現のための基盤を迅速に作り上げることが不可欠です。初期段階で、自動化されたML技術を使用してラピッドプロトタイピングを行うことで、プロジェクトの潜在的なコスト、リスク、および将来の価値を推定することができます。
このようにして作成されたモデルはベースラインとして機能し、構想全体が実行可能かどうか、この予備的な結果を強化するために追加の時間とリソースを割くことが賢明かどうかを判断するための、最小限の実績を提供できます。
また、この初期段階において、AutoMLは潜在的な選択肢を絞り込み、今後の反復作業で検討すべき最適なルートを迅速に特定するのに役立ちます。例えば、最初の結果から、特定のモデル群やアンサンブルアプローチで最高のパフォーマンスが得られることが分かったとします。プロジェクトが継続される場合、データサイエンティストは将来の実験においてどこに注目すべきかを明確に把握することができます。
AutoMLを採用するもう一つの大きなメリットは、企業がAIの導入に成熟し、データ駆動型ビジネスへと移行している場合です。低リスクまたは試行的な用途では、社内のアナリストまたはシチズンデータサイエンティストをトレーニングしてAutoMLを使用し、このような予備調査を行う方が迅速です。専門的な知識を持つ高度な(そして非常に高価な)データサイエンティストを雇用してカスタムソリューションを構築するよりも、より理にかなっている場合があります。
DataikuのビジュアルMLについて下記のビデオでご覧ください。このビデオは、Gartner Data Science and ML Bake-Offでお見せしたものです。あるいは、こちらのハンズオンコースでお試しいただけます。
手作業によるチューニングから脱却し、オートメーションを導入する
定められた期間内に迅速かつシンプルに価値を提供することで、チームの信頼と勢いが増し、さらなる改良が可能となります。さまざまなモデル設計・アーキテクチャー開発・テストを手作業で何週間もかけて行うことは大変な作業であり、メリットよりもコストが大きくなります。AutoMLにデータの解析を任せることで、モデルの公平性やバイアスのチェック、ストレステスト、What-if シナリオ分析によるモデルの堅牢性の評価など、重要な分析に時間を割くことができ、大きな違いを生み出すことができます。
Dataikuはプロジェクトの要求に対して、アジリティーと柔軟性を提供します。これは、熟達したデータサイエンティストのための強力なツールであるだけでなく、ビジネスプロフェッショナルやデータアナリスト、あるいはML開発領域の専門的なコーディング知識を持たないシチズン・データサイエンティストのためのソリューションでもあるのです。
面倒な作業を減らして分析開始
DataikuとAutoMLを使えば、MLモデルトレーニング時の単調な作業から解放されます。こちらの5分間のビデオでは、Dataikuがどのように煩雑な作業を省いて、これまで以上に速いスピードで分析を開始可能にできるのかを紹介しています。
→ビデオの視聴はこちら