MLプロジェクトに自動化を導入することで、データサイエンティストやデータエンジニアは、より多くのプロジェクトを本番環境にデプロイし、本番環境デプロイ後のプロジェクトのメンテナンスにかかる時間を短縮することができます。MLプロジェクトの自動化について語るとき、AutoMLは最もよく取り上げられる機能ですが、AutoMLの典型的な範囲外のタスクも自動化することができ、データサイエンティストの反復作業を何人日も節約することができます。本番稼働中のモデルの管理についても、懸念のレベルを削減することは言うまでもありません。機械学習の自動化プラットフォームやソリューションを探す際には、以下のような特徴を覚えておくとよいでしょう。
機械学習(ML)の運用
1. AutoML(機械学習の自動化): AutoMLは、特徴量エンジニアリングと特徴量生成、モデル構築、モデルのトレーニングなど、主要な機能を自動化することで、時間を節約することができます。その結果、機能的なデータパイプラインとモデルトレーニングプロセス、およびモデルの精度の基準値を提供する実用的なモデルアーティファクトを得ることができます。
2. 自動デプロイメント: 本番環境での実験と、本番環境へのデプロイメントの間には、明確な区別が必要です。しかし、実験段階から本番に移行させるためには、プロジェクトをバンドルし、トリガーやスケジュールによって自動的に本番にデプロイさせる簡単な方法が必要です。
本番環境でのモニタリング
3. データ整合性チェックの自動化: 定期的にモデルを手動でチェックする、あるいは問題が継続的に発生した後にアラートを受け取るときにチェックを実施するのではなく、カスタマイズ可能なパラメータによる自動生成されるレポートを見て、本番でのデータの問題をより迅速に対応することができます。
4. プログラム可能なシナリオベースのトリガーとモデル再トレーニングの自動化: 数秒ごとに行っている作業や、データセット変更時などに行う作業、あるいは、独自のトリガー用にカスタマイズしたPythonスクリプトを自動化します。例えば、データドリフトのある閾値が検出されたときにトリガーを作成し、モデルの自動再トレーニングを開始させることができます。新しいモデルの準備ができたら、以前のバージョンと比較し、本番環境にデプロイすることができ、また、これらのシナリオが実行された後、レポートが自動的に生成されるので、必要に応じて自動化の確認と検証を行うことができます。
自動化を可能にするその他の機能
5. スクリプトのショートカット: よく使われるスクリプトのリポジトリを作成し、あなた(および組織内の他のデータサイエンティスト)が数回のクリックで自動的にスクリプトを適用できるようにし、毎回再コーディングするよりも効率的に新しいデータを管理できるようにします。
6. APIを使ったジョブ監視: JenkinsやJFrogのようなCI/CDツールからプログラム的に、プラットフォーム外のジョブを任意な方法で監視できる機能が必要です。APIは、ジョブのリストとそのステータスを取得するメソッドを提供し、必要な場所で簡単に監視できるようにします。
7. 再帰的なデータセットの反映: 下流のデータに変更が加えられた場合、フロー上流へ手動で適用するのではなく、データセットを再帰的に構築し、フローの上流へ自動的にリビルドできるようにする必要があります。
Dataikuは、これらの機能をすべて備えており、ML構想の運用とスケーリングをより実現しやすくしています。データサイエンティストの作業を容易にするDataikuの他の機能については、こちらの製品概要を参照してください。
コーダー向けのDataikuデモ
データサイエンティスト、エンジニア、アーキテクト、 その他、データの操作や変換、モデリングを行うためにビジュアルツールではなくコードで作業することを好む方々向けのDataikuのデモをこちらに公開しています。
原文:7 Critical Automations for a Machine Learning Automation Platform