はじめに
敵対的模倣学習の圏論的解釈について紹介します。
近年、敵対的模倣学習 (GAIL) や RLHF はAIの根幹技術ですが、「なぜ非凸なニューラルネットワークで学習が収束する(均衡が存在する)のか?」という問いに対し、従来の理論は無力でした。
今回紹介するメモ書きは、この難問に対し、解析学(空間の凸化)と代数学(圏論)を融合させ、鮮やかな解決を与えています。特に、非凸なパラメータ空間を「確率測度空間」へと持ち上げることで凸性を回復させ、それを「圏 ConvCorr」上の不動点として定式化した点は画期的です。
1. 既存理論の限界:GAILが抱える「非凸性」の壁
敵対的学習は、一般に生成器と識別器のミニマックスゲームとして定式化されます。$$\min_{\pi} \max_{D} V(\pi, D)$$古典的な理論(Sionのミニマックス定理や角谷の不動点定理)は、戦略空間が「コンパクト凸集合」であり、関数が「準凸・準凹」であることを要求します。しかし、深層学習のパラメータ空間 $\Theta$ は高度に非凸であり、この前提が崩壊しています。
パラメータ空間での均衡の不在
パラメータ空間(決定論的な重み)では、目的関数の準凸性が保証されません。そのため、純粋戦略の範囲内では大域的なナッシュ均衡(鞍点)は一般に存在しません。これが、学習が振動したり局所解に陥ったりする理論的な原因です。
2. 解析学的解決:確率測度による「空間的凸化」
このメモ書きの第一のブレイクスルーは、パラメータそのものではなく、パラメータ上の確率分布(混合戦略)を考える点にあります。非凸空間の埋め込みとプロホロフの定理元のパラメータ空間 $\Theta$ が非凸であっても、その上の確率測度空間 $\mathcal{P}(\Theta)$ は常に凸集合になります。メモ書きでは「プロホロフの定理」を用い、この確率測度空間が弱位相に関してコンパクトかつ凸な距離空間となることを示しました。
Glicksbergの定理による均衡証明
この「良い性質(コンパクト凸性)」を持つ空間上であれば、Sionの定理の無限次元拡張であるGlicksbergの定理が適用可能です。$$\min_{\mu \in \mathcal{P}(\Pi)} \max_{\nu \in \mathcal{P}(\mathcal{D})} \mathcal{V}(\mu, \nu) = \max_{\nu \in \mathcal{P}(\mathcal{D})} \min_{\mu \in \mathcal{P}(\Pi)} \mathcal{V}(\mu, \nu)$$つまり、単一のパラメータではなく「パラメータの分布(アンサンブル)」を考えることで、数学的に厳密なナッシュ均衡の存在が保証されるのです。
3. 圏論的再解釈:Kan拡張と圏 ConvCorr
メモ書きの後半では、この構造を圏論を用いてさらに抽象化しています。期待損失 = 左Kan拡張機械学習で用いる「期待値」は、圏論的には左Kan拡張 (Left Kan Extension) として厳密に定義されます。$$\mathcal{V} \cong \text{Lan}_J V$$これは、点(Dirac測度)で定義された損失関数 $V$ を、分布全体へ拡張する唯一自然な方法が「期待値(積分)」であることを示しています。
参考文献
- 吉田英樹 (2025). 敵対的模倣学習におけるナッシュ均衡の圏論的構造解析.
- Ho, J., & Ermon, S. (2016). Generative adversarial imitation learning.
紹介記事