AIを拡張する際、ITリーダーはガバナンス、民主化、セキュリティー、スピードに関連する無数の課題に直面します(前回の記事にその概要を記しています)。ここでは、本番環境でのスケーリング、シンプルなアーキテクチャーの維持、健全なMLOps戦略の構築など、企業のAI導入を成功に導くために、ITリーダーが取るべき最もインパクトのあるステップをいくつか紹介します。
→ AIをスケールさせるために必要不可欠な最新のプレイブックはこちらからダウンロードできます。
本番環境でのスケール
AIに関連する組織の変化を実現するためにITチームが取るべき最大のステップの1つは、AIプロジェクト全体を本番稼動させる能力を拡大することです。これには、そのためのプロセスやツールだけでなく、本番稼動させるということが実際に何を意味するのかについて、ビジネス全体のより多くの人々を教育し、そのメリット、作業内容、リスクについて認識させることが含まれます。
ビジネスリーダーたちは、新しいシステムを本番環境に迅速にデプロイすることがビジネス価値を最大化する鍵であると考えていますが、これはデプロイがスムーズかつ低リスクで行える場合にのみ当てはまることです。従来のソフトウェアエンジニアリングに適用されている、継続的インテグレーションと継続的デリバリー(CI/CD)のコンセプトは、データサイエンス、機械学習、AIシステムにも同じように適用されます。
データサイエンティストは、モデルの開発に成功したら、コード、メタデータ、ドキュメントを中央のリポジトリにプッシュし、CI/CDパイプラインを起動する必要があります。そのようなパイプラインの例としては、以下のようなものがあります:
-
モデルを構築する
- モデルアーティファクトをビルドする
- アーティファクトを長期保存する
- 基本チェック(スモークテスト/サニティーチェック)の実行
- 公正性・説明可能性レポートの作成
-
テスト環境へデプロイする
- 機械学習の性能、計算性能の検証のためのテスト実行
- マニュアルバリデーション
-
本番環境へデプロイする
- モデルをカナリアデプロイする
- モデルを完全にデプロイする
これは多くのシナリオが可能であり、アプリケーション、システムが保護されるべきリスク、そして組織が選択する運用方法に依存します。一般的に、CI/CDパイプラインを構築するための漸進的なアプローチが好まれるべきです。つまり、チームが反復することができる単純な、あるいはナイーブなワークフローは、ゼロから複雑なインフラを始めるよりも多くの長点が多いです。
スタートアップのプロジェクトに巨大企業のインフラ要件があるわけではありませんし、デプロイにおいてどのような問題に直面するのかを前もって知ることは難しいでしょう。共通のツールやベストプラクティスはありますが、万能なCI/CDの方法論は存在しません。つまり、シンプルな(しかし十分に機能する)CI/CDワークフローから始めて、品質やスケーリングの課題が現れたら、途中での追加やより洗練されたステップを導入することが最善の道なのです。
アーキテクチャーをシンプルにする
AIシステムをサポートするためのアーキテクチャーは、比較的すぐに複雑化することがあります。これは単純にレガシーシステムに起因することもあります。複雑な組織構造と多くの歴史を持つ企業では、ゼロから始めることは不可能であり、始める前にすでに複雑になっていることもあるのでしょう。もちろん、白紙の状態から始めるのであれば、クラス最高のAIプラットフォームを開発することはそれほど難しいことではありません!
しかし、ビジネス上のニーズがそれほど複雑でなくても、特定のテクノロジーを使いたい、特定のことを試してみたいという理由で、チームがことを複雑にしてしまうことがよくあるのです。これは問題です。複雑すぎるシステムでは、追加ツールの導入がますます難しくなり、時間の経過とともに維持するのが飛躍的に難しくなるため、AIの取り組みに深刻な支障をきたす可能性があります。
現在、米国では多くの企業が自社でシステムを構築するのではなく、コンサルタントのサポートを受けながらシステムを構築しています。いずれにせよ、メッセージは同じです。アーキテクチャーをシンプルに保つことで、テクノロジーが浮き沈みしても、ITチームにとっても、サポートする企業にとっても、テクノロジー間での切り替えがシームレスになるのです。
健全なMLOps戦略の構築
モデルの最初のバージョンをスムーズに展開するのは一つの方法ですが、次のバージョンはどうでしょうか?組織の人々はどのようにモデルのアップグレードを決定し、誰がその責任を負うのでしょうか?
MLOpsはデータガバナンスやAIガバナンスと一緒にされることが多いですが、この2つは同じではありません。ガバナンス(組織内のデータ資産の管理を保証するプラクティスとプロセス)は、主にITマネージャーとそのチームが所有するものですが、MLOps(機械学習のライフサイクル管理の標準化と合理化)には、ITチームを含む組織内のほぼすべての人が役割を担っています。
MLOpsが重要なのは、機械学習モデルの運用リスクを軽減するためだけではありません(ただし、これはMLOpsシステムを開発する正当な理由の1つです)。MLOpsは、機械学習を大量にデプロイし、スケールメリットを享受するために不可欠な要素です。本番稼働中のモデルが1つまたは少数という状態から、ビジネスにプラスの影響を与える数十、数百、数千のモデルにするためには、MLOpsの規律が必要です。
優れたMLOpsの実践は、少なくとも、下記のようなことでチームに役立ちます。
- 設計段階の実験を含め、バージョンの記録ができる
- 再トレーニングされたモデルが以前のバージョンよりも優れているかどうかを把握する(そして、より良いパフォーマンスを発揮しているモデルを本番環境に展開する)
- モデルの性能が本番稼働中に低下していないことを(日次、月次など、定期的に)確認する
ITマネージャーとチームにとって、MLOpsとは、企業のより大きなDevOps戦略に統合される必要があり、従来のCI/CDと最新の機械学習の間のギャップを埋める必要があります。つまり、基本的に補完関係にあり、DevOpsチームが従来のソフトウェアのテストを自動化するのと同様に、機械学習のテストも自動化できるようなシステムということです。
2023年以降、AIをスケールさせる
AIの拡張に最もよくある5つの課題をバリュードライバーに変えるために、こちらのEBOOKに記載のAI戦略を参照ください。
原文:How IT Leaders Can Kickstart Organizational Transformation Around AI