MLflowは、機械学習のライフサイクル管理を統合するオープンソースプラットフォームとして、2018年の登場以来、急速に進化を続けてきました。本記事では、2021年から2025年にかけてのMLflowの主要なバージョンアップデートと機能追加を時系列で振り返り、従来の機械学習からLLMOps、AIエージェントまで対応する総合プラットフォームへの進化を紹介します。
2021年:MLOpsの基盤確立期
モデルレジストリとCI/CD連携
モデルサービングのRESTエンドポイント、モデルレジストリのWebhook機能など、本格的なMLOpsワークフローを実現する機能が充実しました。
Databricksエンタープライズ機能との統合
エンタープライズ向けのセキュリティ、ガバナンス、スケーラビリティ機能が強化されました。
Delta Lakeとの統合強化
Delta Lakeとの統合により、データバージョニングとモデルトラッキングの一元管理が可能になりました。
2022年:MLflow 2.0とモダン化
MLflow 2.0のリリース(2022年11月)
MLflow 2.0が正式リリースされ、パッケージ構造の刷新、Pythonサポートの最新化、機能の整理統合が行われました。
主要な変更点
- Python 3.7以降のサポート
- パッケージ構造の最適化
- 後方互換性の維持とマイグレーションパス提供
MLflow Pipelinesの導入
機械学習パイプラインをテンプレート化し、ベストプラクティスを標準化するMLflow Pipelinesが導入されました。
モデル評価機能の強化
モデルの評価メトリクスの自動計算、ビジュアライゼーション機能が追加されました。
Tensor入力のサポート
画像や時系列データなどのテンソル形式の入力をネイティブにサポートするようになりました。
2023年:LLMOps元年
MLflow 2.3:LLMサポートの開始(2023年4月)
MLflowの歴史における最大の転換点。大規模言語モデル(LLM)のネイティブサポートが開始されました。
LLM関連の主要機能
OpenAI APIサポート
OpenAI APIの統合により、GPTモデルの管理とデプロイが容易になりました。
Hugging Face Transformersサポート
Hugging Faceのトランスフォーマーモデルのトラッキングとデプロイをサポート。
LangChainサポート
LangChainフレームワークとの統合により、LLMアプリケーションの開発が加速しました。
MLflow 2.4:LLMOps強化(2023年6月)
LLM評価のための専用ツールセットが追加されました。
mlflow.evaluateの拡張
LLMの品質評価(妥当性、毒性、類似度など)を自動化するmlflow.evaluateが大幅に強化されました。
データセットトラッキング
トレーニングおよび評価に使用したデータセットのバージョン管理が可能になりました。
MLflow AI Gatewayの発表(2023年7月)
複数のLLMプロバイダー(OpenAI、Anthropic、Cohereなど)を統一的なインターフェースで管理するAI Gatewayが登場しました。
MLflow 2.7:LLMOps機能の拡充(2023年9月)
プロンプトエンジニアリング、評価フレームワーク、デプロイメント機能がさらに強化されました。
MLflow 2.8:RAG評価サポート(2023年11月)
RAG(Retrieval-Augmented Generation)アプリケーションの評価機能が追加されました。
RAGシステムの評価
リトリーバの品質、生成結果の妥当性など、RAGシステム特有の評価指標をサポート。
新しいエクスペリメントUI(2023年2月)
実験管理UIが刷新され、より直感的で効率的なモデル開発が可能になりました。
2024年:LLMOpsの成熟とエージェント対応
LangChain統合の深化
LangChainオートロギング
LangChainアプリケーションの自動ロギング機能により、チェーンやエージェントの動作を自動的にトラッキングできるようになりました。
ChatModelサポート
チャットボットやマルチターン会話アプリケーションのための専用モデルタイプが追加されました。
LlamaIndex統合
LlamaIndex WorkflowとMLflowの統合により、高度なRAGアプリケーションの構築が可能になりました。
Unity Catalogとの統合強化
Unity Catalogによるモデルのガバナンス、アクセス制御、系譜管理が強化されました。
2025年:MLflow 3.0とAIエージェント時代
MLflow Tracingの導入(2025年2月)
LLMアプリケーションの実行トレースを可視化する新機能が追加されました。
主な機能
- チェーン/エージェントの実行フローの可視化
- レイテンシーとコストの分析
- エラー箇所の特定とデバッグ支援
OpenAI Agent SDKサポート(2025年3月)
OpenAI Agent SDKで構築されたAIエージェントのトラッキングとトレースがサポートされました。
MLflow 3.0の正式リリース(2025年4月)
MLflowの歴史における最大のアーキテクチャ変更
アーキテクチャの根本的な変更
MLflow 3.0では、データモデルがRun中心からModel中心に再設計されました。
従来の機械学習のサポート
従来のscikit-learn、XGBoost、TensorFlowなどのサポートも継続。
ディープラーニングのサポート
PyTorch、TensorFlow、Kerasなどのディープラーニングフレームワークとの統合が強化されました。
デプロイメントジョブ
モデルデプロイメントのワークフロー管理が改善され、継続的デプロイが容易になりました。
生成AIエージェントサポート
AIエージェントの開発、評価、デプロイを統合的にサポート。
LoggedModelの導入
モデルの新しいデータ表現形式「LoggedModel」が導入され、モデルのメタデータ管理が改善されました。
プロンプトレジストリ
プロンプトテンプレートのバージョン管理と共有を実現するプロンプトレジストリが追加されました。
生成AIアプリの継続的改善サイクル
開発→評価→デプロイ→フィードバック収集→改善のサイクルを統合的にサポート。
人間のフィードバック収集
本番環境での人間のフィードバックを収集し、モデル改善に活用する機能が追加されました。
MLflowシステムテーブル(2025年9月)
実験データをSQLで分析できるシステムテーブルが導入され、大規模な実験管理が容易になりました。
DSPy統合(2025年1月)
DSPyフレームワークによるLLMプログラムの自動最適化をMLflowでトラッキングできるようになりました。
まとめ:MLflowの進化の軌跡
2021年から2025年にかけて、MLflowは以下のような大きな進化を遂げました:
主要なトレンド
1. MLOpsからLLMOpsへの転換 ⭐最大の変化
- 2023年4月のMLflow 2.3で大規模言語モデルのネイティブサポート開始
- OpenAI、LangChain、Hugging Faceなど主要LLMフレームワークとの統合
- RAG、チャットボット、エージェントなど、生成AIアプリケーションの全面サポート
2. アーキテクチャの進化
- MLflow 2.0:パッケージ構造の近代化
- MLflow 3.0:Run中心からModel中心への根本的な再設計
- LoggedModelの導入による柔軟なモデル表現
3. 評価フレームワークの充実
- 従来のMLメトリクスからLLM評価指標へ拡張
- mlflow.evaluateによる自動評価
- RAG固有の評価指標サポート
- 人間のフィードバック収集機能
4. トレーシングとデバッグ
- MLflow Tracingによる実行フローの可視化
- チェーン/エージェントのステップバイステップ分析
- コストとレイテンシーの追跡
5. エンタープライズ機能の強化
- Unity Catalogとの統合によるガバナンス強化
- システムテーブルによる大規模実験管理
- プロンプトレジストリによるチーム開発サポート
6. AIエージェント対応
- OpenAI Agent SDK、LlamaIndex、DSPyなどエージェントフレームワークの統合
- エージェントの開発、評価、デプロイの統合管理
- マルチターン会話の評価とトラッキング
MLflowの現在地
MLflowは、従来の機械学習からLLMOps、AIエージェントまでをカバーする総合的なAI開発プラットフォームへと進化を遂げました。
- 実験トラッキング
- モデル管理
- デプロイメント
- 評価
- ガバナンス
- 継続的改善
これら全てのライフサイクルを統合的にサポートする唯一のオープンソースプラットフォームとして、その地位を確立しています。
今後の展望
生成AI技術の急速な進化に伴い、MLflowもさらなる機能拡張が期待されます:
- より高度なエージェント評価機能
- マルチモーダルAIのサポート強化
- 分散トレーニングとファインチューニングの統合
- コスト最適化機能の充実
最新の情報については、公式ドキュメントをご確認ください。


