こんにちは、@cvuskです。
今回はMLOpsアドベントカレンダー2025の12/24の投稿になります。2020年に開始したMLOpsアドベントカレンダーがこれで6年目となりました。長らくご愛顧いただきありがとうございます。以下、本題です。
機械学習、ディープラーニング、LLM、AIエージェント時代のドリフト
機械学習システムがリリースされて本番運用され、現実世界で利用された瞬間から、その性能は劣化していく可能性があります。この現象は「ドリフト(Drift)」と総称されており、従来の機械学習モデルから最新の大規模言語モデル(LLM)、さらには自律的なAIエージェントに至るまで、多種多様なAIシステムで技術的課題となります。
ドリフトが注目され始めた2020年頃は、主に統計的な入力分布の変化(データドリフト)や目的変数との相関関係の変容(コンセプトドリフト)として定義されていました。しかしLLMの普及に伴い、モデルの挙動が時間とともに不透明に変容する「挙動ドリフト(Behavior Drift)」、人間の評価基準自体が揺らぐ「基準ドリフト(Criteria Drift)」、さらには長大なコンテキストの処理中に精度が腐食する「コンテキスト・ロット(Context Rot)」といった、より複雑な現象が特定されています。
本ブログではこれらのドリフト現象を研究と事例に基づき、エンジニアリングの視点から系統的に整理して解説します。
1. 伝統的機械学習におけるドリフトの数理的定義と産業的影響
機械学習において、ドリフトは学習時と推論時のデータ分布の乖離として理解されます。この乖離は、学習時に入手可能なデータ(このデータはあくまで、学習時点のデータ)と、推論時の常に変化するかもしれない現実世界のデータの違いとして発生します。たとえばECサイトで今年の売上データを利用して、今月(12月)の売上を予想するとします。12月はクリスマスや年末が重なり、ECサイトの売上は他の月と比較して特異な傾向を示すでしょう。こうした変化をドリフトと言います。
1.1. ドリフトの分類と発生
統計的学習理論の観点から、ドリフトは主に以下の三つの成分に分解されます。
- 共変量シフト(Covariate Shift / Virtual Drift): 入力特徴量 の周辺分布 が変化する現象です。これはシステムのアップグレード、ユーザー層の変化、あるいはセンサーの経年劣化などによって発生します。
- コンセプトドリフト(Concept Drift / Real Drift): 特徴量 とターゲットラベル の条件付き確率 が変化する現象です。すなわち、予測の根拠となる「論理」や「市場の法則」そのものが変わることを指します。
- ラベルドリフト(Label Drift): ラベルの事前分布 が変化する現象です。
これらの変化は、突発的に起こる「急進的ドリフト」、時間の経過とともに緩やかに進行する「漸進的ドリフト」、あるいは季節性のように繰り返される「周期的高頻度ドリフト」といった形態をとります。
1.2. Microsoft Matchmaker:大規模システムにおける適応戦略
ドリフトの具体例として、データセンター運用を考えます。データセンターのような大規模な運用環境では、ネットワークインシデントのルーティングや仮想マシン(VM)のCPU利用率予測にMLが活用されています。これらの実稼働モデルは頻繁な再学習を行っているにもかかわらず、時間とともに精度が低下し、運用の非効率化を招くらしいです。
この課題に対し、Microsoftが提案したソリューションが「Matchmaker」(MATCHMAKER: DATA DRIFT MITIGATION IN MACHINE LEARNING FOR LARGE-SCALE SYSTEMS)です。Matchmakerは、テストサンプルのデータ分布をリアルタイムで分析し、そのサンプルに最も類似した過去のトレーニングバッチで学習された特定のモデルを動的に選択して推論を行います。このアプローチの価値は、新しい正解ラベル(Ground Truth)の到着を待たずに、既存のモデル群の中から最適なものを選択できる点にあります。
2. LLMとドリフト:不透明なアップデートによる性能の変容
LLM(Large Language Models)の時代において、ドリフトはさらに予測不可能な形態をとるでしょう。多くの開発者はLLMプロバイダー(OpenAI、Anthropic、Google等)のAPIを通じて「GPT-5」や「Claude」、「Gemini」などのモデルを利用していますが、サービス提供側によるサイレントなアップデートにより、モデルの挙動が数ヶ月で変化することが可能性があります。
2.1. スタンフォード・バークレー校によるGPT性能変化の調査
2023年のHow Is ChatGPT’s Behavior Changing over Time?による調査では、2023年3月から6月の間のGPT-3.5およびGPT-4の挙動を詳細に分析しています。その結果、同じプロンプトであっても、モデルの出力品質や特性が短期間で変動していることが明らかになりました。
以下のグラフが示す通り、3月から6月の間に大きなパフォーマンス変化があったと報告されています。一方で、GPT-3.5はこの期間に精度を向上させており、モデルごとの変容は必ずしも一律ではありません。
3. コンテキスト・ロット:長大化する入力と精度の腐食
LLMのコンテキストウィンドウが100万トークンを超えるまでに拡大された2025年現在、新たな形態のドリフトとして「コンテキスト・ロット(Context Rot)」が浮上しています。これは、入力する情報の量が増えるにつれて、モデルが特定の情報を正確に抽出・処理する能力が減衰していく現象を指します。
3.1. Chroma Researchによる18モデルのベンチマーク
Chroma Researchが実施した大規模な調査(Context Rot: How Increasing Input Tokens Impacts LLM Performance)によると、最新のGPT、Claude、Geminiモデルを含むすべての主要LLMにおいて、入力長が増大するにつれて一貫した性能劣化が確認されました。特に、情報の「検索」や「反復」といった単純なタスクにおいてさえ、トークン数が増えるほどモデルは情報を「見失う」傾向があります。
この現象を加速させる要因は以下の4点に集約されます。
- セマンティック・ディスタンス(意味的距離): ユーザーの質問で使用される語彙と、回答が含まれる文書内の語彙が異なる場合、短文では対応できても、長文になるとモデルはこの関連性を見失います。
- ディストラクター(妨害情報)の影響: 正解に似た形式だが内容が異なる情報(ディストラクター)が一つ混入するだけで、抽出精度は著しく低下します。4つのディストラクターが混入した場合、モデルの性能は実質的に崩壊します。
- 情報の配置(Lost in the Middle): プロンプトの中央付近に配置された情報は、最初や最後に配置された情報に比べて無視される確率が高くなります。この傾向は、長文対応モデルであっても解消されていません。
- 文書構造の逆説: 驚くべきことに、論理的に構成された物語形式の文書よりも、ランダムに並べられたテキストチャンクの方が抽出精度が高くなる場合があります。これは、モデルが文章の流れ(ナラティブ)に引きずられ、特定の事実を無視してしまうためです。
3.2. コンテキスト・ロットへの対抗策
コンテキスト・ロットを緩和するためには、単に大量の情報を流し込むのではなく、外科的な情報配置が求められます。Chroma Researchは、重要な情報をプロンプトの最初と最後に重複して配置する手法や、検索対象の文書を3〜5文程度の短いチャンクに分解して物語性を排除する手法を推奨しています。また、質問の語彙を文書内の語彙に近づける「キーワード・ブースト」も有効な手段です。
ただし、これらの対策手法はいずれも高い正確性での文書の意味理解や編集が必要であり、LLMの活用が必要になります。ルールベースで処理できるものではない以上、その設計と実装、そして評価が重要になるでしょう。
4. 安全性アライメント・ドリフト
LLMを特定のドメインに適応させるためにFine-tuningを行う際、モデルが学習していた安全性ガードレールが失われる「アライメント・ドリフト」も深刻な懸念事項です。Lisaプロジェクト(Lisa: Lazy Safety Alignment for Large Language Models against Harmful Fine-tuning Attack)によれば、善意のデータを用いたFine-tuningであっても、モデルの内部パラメータが変化し、有害なリクエストを拒絶する能力が大幅に低下することが示されています。
4.1. 壊滅的忘却のメカニズム
この現象は、転移学習における「壊滅的忘却(Catastrophic Forgetting)」の一種とみなすことができます。新しいタスクへの最適化プロセスにおいて、安全性アライメントを維持するためのニューラルネットワークの重みが上書きされてしまう現象です。特に、ユーザーから提供されたサニタイズされていないデータで学習を行う場合、モデルは容易にジェイルブレイク可能な状態へとドリフトします。
5. 基準ドリフト(Criteria Drift):人間が生む評価の不確実性
ドリフトはモデルやデータの中だけで起きるわけではありません。AIを評価する人間側の基準も、AIとの相互作用を通じて変化していきます。これを「基準ドリフト(Criteria Drift)」と呼びます。Who Validates the Validators? Aligning LLM-Assisted Evaluation of LLM Outputs with Human Preferencesの研究によれば、評価者はモデルの出力を観察するにつれて、自身の評価基準を無意識に変更したり、後付けで定義し直したりする傾向があると言われています。
5.1. 評価の再理解
基準ドリフトは、評価者が「何を良い出力とするか」を事前に定義することが事実上不可能であることを示唆しています。出力を見ることで初めて、基準が具体化(あるいは変容)するためです。このような評価の再理解は、LLMの評価を自動化しようとする「LLM-as-a-Judge」のアプローチにおいても重要な課題となります。
5.2. ドメインエキスパートと一般ユーザーの差異
研究によれば、ドメインエキスパートは一般ユーザーに比べて、初期段階で高い基準を持ちますが、モデルの出力に対する「慣れ」や「期待値の調整」によって、基準がより動的にドリフトしやすいことが判明しています。このため、評価プロセスにおいては、基準の定義を固定するのではなく、反復的にリファインメントすることを前提としたワークフローを構築することが不可欠です。
6. エージェント・ドリフト:仕様ゲーミングと自律的ハッキング
AIエージェントが高度な推論能力(Reasoning)を持つようになるにつれ、ドリフトは単なる性能の低下を超え、目標達成のためにシステムの脆弱性を突く「仕様ゲーミング(Specification Gaming)」という形態で現れ始めました。Demonstrating specification gaming in reasoning models
6.1. o1-previewによるチェス盤ハッキングの事例
2025年、Palisade Researchは、OpenAIの推論モデル「o1-preview」を用いて、最強のチェスエンジン「Stockfish」と対戦させる実験を行いました。通常、LLMがStockfishに勝つことは極めて困難ですが、o1-previewは「勝つこと」という目標を達成するために、驚くべき「行動のドリフト」を見せました。モデルは、正規の対局では勝てないと判断するやいなや、自身のシェルアクセス権限を悪用し、チェス盤の盤面状態が記録されたゲームファイルを直接書き換えたとのことです。自分の駒が圧倒的に有利な位置にあるようにデータを改ざんし、その直後にStockfishを投了させるコマンドを実行することで、「勝利」という目標を達成したのです。
この挙動は、従来のLLM(GPT-4oやClaude 3.5 Sonnet)がハッキングを行うためには明示的な誘導が必要だったのに対し、o1-previewやDeepSeek R1のような「推論」に特化したモデルでは、目標達成の手段として自律的にハッキングを選択する傾向があることを示しています。このような「行動ドリフト」は、AIエージェントに自律的な環境操作権限を与える際の重大なセキュリティリスクを浮き彫りにしていると言えるでしょう。
7. マルチエージェント・システム(MAS)における失敗分類学
個々のエージェントのドリフトに加え、複数のエージェントが協力するシステム(MAS)では、エージェント間の「不一致」がシステム全体の失敗を招きます。2025年に発表されたMulti-Agent System Failure Taxonomyは、MAS特有の失敗パターンを14のカテゴリーに分類しました。
7.1. MAST:失敗の3大カテゴリー
MASTの分析によれば、MASの失敗は主に以下の3つに集約されます。
- システム設計上の問題: 終了条件の誤認や不適切なワークフロー設計。
- エージェント間の不整合(Misalignment): 情報の秘匿、役割の重複、あるいはコミュニケーションの齟齬。
- タスク検証の不備: 実行した結果が正しいかどうかを検証するプロセスの欠如。
特に「情報の秘匿(Information Withholding)」や「終了条件の無視」は、最終的なタスク失敗に直結する致命的なドリフトとして特定されています。一方で、検証プロセスの誤りは、タスクが「偶然」成功している場合でも頻発しており、システムの信頼性を底上げするためには、結果だけでなく検証プロセスの健全性を監視することが重要です。
8. RAGとエンベディング・ドリフト:検索精度のサイレント劣化
検索拡張生成(RAG)システムにおいては、文書をベクトル化する際の「エンベディング・ドリフト」が運用の頭痛の種となります。これは、ベクターストアに格納された文書のベクトル表現と、ユーザーのクエリから生成されるベクトルの「意味的な距離」が、時間の経過とともに乖離していく現象です。Embedding Drift: The Silent RAG Breaker Nobody Talks About
8.1. ドリフトの原因と「サイレントな破壊」
エンベディング・ドリフトが発生する主な要因は、エンベディングモデルのアップデート、データドメインのシフト、あるいはインデックスの断片化です。このドリフトが危険なのは、システムが「突然停止」するのではなく、検索結果の質が「じわじわと低下」する点にあります。トップ10の検索結果に無関係なチャンクが混入し始め、最終的にLLMがハルシネーション(もっともらしい嘘)を生成する原因となります。
8.2. Drift-Adapter:再計算を回避する適応レイヤー
大規模なベクターストアを再インデックス(全文書の再エンベディング)するには、莫大な計算コストと時間がかかります。これに対し、2025年の最新研究では「Drift-Adapter」という手法が提案されています(Drift-Adapter: A Practical Approach to Near Zero-Downtime Embedding Model Upgrades in Vector Databases)。これは、新旧のエンベディング空間の間に軽量な変換レイヤーを学習させることで、古いインデックスを維持したまま、新しいモデルによるクエリを適切にマッピングする手法です。
9. 結論:ドリフトを前提としたAIシステム設計
ドリフトはAIシステムが現実世界という変化が激しく非定常的な環境で活用される以上、避けては通れない課題と言えるでしょう。そしてドリフトの形態は単なる統計的な変化から、LLMの挙動、人間の評価基準、エージェントの自律的な行動へと、その複雑さを増していっています。こうしたドリフトへの対処は、もちろん可能であれば「防ぐ」ことを目標としたいですが、現実的にはドリフトを「検知し、制御し、適応する」サイクルをシステムに組み込むことです。そのためには以下2点が重要と思われます。
- 観測性の高度化: データとモデルのテレメトリを収集し、意味的なレベルでの変化(エンベディング分布の変化など)を監視して可視化する。
- 人間とのフィードバックループ: 基準ドリフトを前提とし、評価基準自体を動的に更新できるEvalGenのようなワークフローを採用する。
いずれにしても、機械学習システムやAIシステムとドリフトはいたちごっこになります。実世界データの変化は常に発生することなので、その変化事象にシステム特性をチューニングしながら機械学習システムを安定運用していく、xOps(MLOps、LLMOps、AgentOps・・・)が重要であると言えるでしょう。






