はじめに
PyTorch でモデルを書くとき、こんなコードを当たり前に書きますよね。
import torch
import torch.nn as nn
model = nn.Linear(784, 10)
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)
loss = ((model(x) - y) ** 2).mean()
loss.backward()
optimizer.step()
このとき、PyTorch (と裏にいる IEEE 754 浮動小数点規格) が、あなたに代わって勝手にしている数学的な選択 があるのをご存知でしょうか。
それは 「パラメータ空間の滑らかさ」の選択 です。
「滑らかさ?どういうこと?」と思うかもしれません。実はパラメータ空間 $\mathbb{R}^N$ の上に「滑らかさ」を入れる方法は、N=4 の場合に限り 無限通り存在します。
そして PyTorch はそのうち 1 つを (黙って) 選んでいます。
本記事は、こんな「ふだん意識しないけれど、実は深い数学的選択が裏で行われている」という現象を、AI エンジニア向けに紹介する 思考実験的な記事 です。
この記事のスタンス: 実用的な技を紹介するものではありません。「自分が普段使っているフレームワークが、裏で何を仮定しているか」を意識すると、最適化の理論的射程やデバッグの感覚が少し変わる、という話です。明日のコードに直接効くわけではないけど、知っておくと面白い系の知識です。
1. パラメータ空間 = R^N と書くとき、暗黙に何を選んでいるか
1.1 表面的には何も選んでいないように見える
深層学習の重み $\theta$ は N 次元の実数ベクトル。普通に書きます:
\theta \in \mathbb{R}^N
GPT クラスのモデルでは N が数十億〜数兆。現代の DL ではこの記法が当たり前すぎて、何かを「選んでいる」感覚はないですよね。
でも実は 2 段階の暗黙の選択 が含まれています。
1.2 第 1 の選択: 「距離の測り方」 (= 計量)
SGD の更新式
\theta_{t+1} = \theta_t - \eta \cdot \nabla L(\theta_t)
を見ると、勾配 $\nabla L$ という「ベクトル」を引き算していますよね。
このベクトル、どんな 内積 (距離の測り方) で意味づけされているでしょうか?
普段は何も意識せず、標準的なユークリッド内積 $\langle u, v \rangle = \sum u_i v_i$ を使っています。
でも別の選択もあります。例えば 自然勾配法 (Amari 1998) は、Fisher 情報行列 $G(\theta)$ を「内積の歪み」として使います:
\theta_{t+1} = \theta_t - \eta \cdot G(\theta_t)^{-1} \nabla L(\theta_t)
Adam や RMSProp も、各座標ごとの「歪み」を学習中に推定して、それで前処理をかけている、と見ることができます。
つまり 最適化アルゴリズムの選択 = 内積 (計量) の選択。これが第 1 の選択。情報幾何の文献では昔から議論されてきました。
1.3 第 2 の選択: 「滑らかさそのもの」の選択
ここからが本題。
そもそも「ベクトル」「勾配」「微分可能」を定義するには、空間が滑らかである 必要があります。
普段我々が使う「滑らかさ」は、各点で多変数微積分の通常の意味で微分可能、というものです。これを 標準微分構造 と呼びます。
ところが、同じ空間の上に「別の滑らかさ」を入れる ことが、原理的にはできます。
別の滑らかさを入れると:
- 標準では微分可能だった関数が微分不可能になる
- 標準では微分不可能だった関数が微分可能になる
ということが起こりえます。これを エキゾチック微分構造 (exotic smooth structure) と呼びます。
「いや、$\mathbb{R}^N$ は普通に滑らかでしょ?」と思うかもしれません。実はその通りで、ほとんどの次元では $\mathbb{R}^N$ の滑らかさは 1 通りしかありません。
具体的には:
| 次元 N | $\mathbb{R}^N$ の滑らかさの種類数 |
|---|---|
| N=1, 2, 3 | 1 通り (Moise 1952 等) |
| N=4 | 非可算無限通り |
| N≥5 | 1 通り (Stallings 1962) |
4 次元だけが完全に外れ値。
4 次元では、同じ位相空間 $\mathbb{R}^4$ の上に、互いに区別できる「滑らかさ」が 実数の濃度ぶんだけ 存在することが、Freedman (1982) と Donaldson (1983) の結果から従います。
2. 「滑らかさが選択である」を直感する
数学者じゃない読者には、「滑らかさが何種類もある」と言われてもピンと来ないと思います。
日常的な比喩で説明します。
2.1 地図の比喩
ある地形があります。実物の地形は 1 つだけ。
これを 地図 に書くとき、
- メルカトル図法
- モルワイデ図法
- 正距方位図法
- ...
など、複数の書き方 があります。書き方 (= 投影法) によって「直線かどうか」「角度が保たれるか」「面積比が正しいか」が変わります。
つまり 「地形」+「地図化のルール」 がセットになって初めて「地図」になる。地図化のルールが違えば、同じ地形が別の見た目になります。
数学的にも同じです:
- 位相空間 $\mathbb{R}^4$ = 「点の集まり + 連続性のルール」 ← 実物の地形
- 微分構造 = 「微分可能性のルール」 ← 地図化のルール
- 微分構造を選ぶと初めて「滑らかな多様体」 ← 完成した地図
地図化のルールが違うと、同じ点でも「微分可能か微分不可能か」の判定が変わる。
2.2 N=4 だけが特殊な理由 (直感)
なぜ 4 次元だけが特殊なのか。直感的な理由は 「2 次元 + 2 次元 = 4 次元の余裕のなさ」 にあります。
トポロジーには「Whitney trick」という、二つの 2 次元曲面を交差させずに離す技術があります。これを使うには:
- 動かす物の次元 + 動かす物の次元 ≤ 全体の次元
- すなわち、$2 + 2 \leq N$
を満たす必要がある。N=5 以上なら $4 < 5$ で余裕があります。N=3 以下なら 2 次元の物自体が入らない。
N=4 だけがピッタリ満杯、余裕ゼロ。
この「余裕のなさ」が、4 次元での滑らかな構造の自由度を爆発的に増やします。
ML 読者への類推: 高次元の埋め込み空間で「点同士が混雑しすぎず、適度に離れている」状況を、low-dimensional projection で潰すと一気に複雑になりますよね。あれの「次元計算で余裕がなくなる」現象に近いです。Whitney trick は「埋め込みの『十分な余裕』が必要」という、ある意味埋め込み空間の使い方の議論です。
3. PyTorch は「標準の滑らかさ」を選んでいる
ここからが ML エンジニア向けの本論です。
3.1 IEEE 754 と autograd が選択している
PyTorch でモデルを書くとき、
- パラメータ $\theta$ は IEEE 754 倍精度浮動小数点として記録される
- 勾配 $\nabla L$ は autograd が連鎖律で計算する
この 2 つの仕組みが、暗黙のうちに $\mathbb{R}^N$ の標準微分構造を選んでいます。
なぜか:
- IEEE 754 の加法 $a + b$ は、$R^1$ の標準的な加法として定義されている
- autograd の連鎖律は、各基本演算 ( $+, *, exp, log, ...$) が 標準的な意味で滑らか という前提のもとで動く
エキゾチック構造のもとでの加法・微分は、全く別の関数の集合 が「滑らか」と判定されます。それを実装する技術は、現状 存在しません。
3.2 自然勾配法でも状況は同じ
自然勾配法は計量 (= 内積) を Fisher 情報行列に変えます。
でも Fisher 情報行列を計算するには:
-
スコア関数 $\nabla_\theta \log p(x; \theta)$ を計算する → autograd を使う
-
期待値を取る → 標準的な積分の意味で
つまり 自然勾配法も標準微分構造の上で動いている。
「計量を変える」(= 第 1 の選択を変える) のはできても、「滑らかさを変える」(= 第 2 の選択を変える) のはできない。
3.3 つまり何が起きているか
「他の選択肢を選ばないことを決めた」のではなく、「他の選択肢を選ぶ手段が存在しない」 状態です。
重要な区別なので強調します。
4. なぜエキゾチック構造は実装できないのか
「他の滑らかさを実装する手段がない」と言いましたが、なぜないのか?
4.1 Casson handle という障壁
エキゾチック $\mathbb{R}^4$ の構成には、Casson handle と呼ばれる幾何学的対象が必要になります。これは大雑把に言うと:
- 「自分自身と $d$ 箇所で交差した 2 次元の円盤」を 1 段目とする
- 各交差点から、また同じような円盤を生やす (これが 2 段目)
- 各 2 段目の交差点から、また... (これが 3 段目)
- これを無限に続ける
4.2 有限の計算では書けない
PyTorch などの自動微分フレームワークは、有限の計算グラフ を扱います。Casson handle のような 本質的に無限の対象 を、有限の演算の組み合わせで書き下すことはできません。
これは「Turing 計算可能性の意味で計算不可能」とは少し違います。
有限の符号化はできますが、深層学習フレームワークが提供する基本演算 (テンソル積、要素ごとの非線形性、行列乗算) では 語彙が足りない のです。
4.3 Freedman と Donaldson のはさみうち
エキゾチック $\mathbb{R}^4$ が存在することを示すには、2 つの強力な定理を組み合わせます:
| 定理 | 何を主張するか |
|---|---|
| Freedman (1982) | 「位相的には」(= 連続変形のレベルでは) Casson handle は普通の円盤と同じ |
| Donaldson (1983) | 「滑らかには」(= 微分可能のレベルでは) Casson handle 由来の 4 次元多様体に障害がある |
両方の隙間から「位相的には存在するが滑らかには標準と違う」対象、つまりエキゾチック $\mathbb{R}^4$ が現れます。
そして Taubes (1987) と DeMichelis–Freedman (1992) の結果から、そういうエキゾチック $\mathbb{R}^4$ が連続体濃度ぶん存在する ことがわかっています。
5. で、ML エンジニアにとって何が嬉しいのか
正直に言います: 明日のあなたのコードには、何の影響もありません。
理由:
- 現代の DL では N (パラメータ数) は $10^6$ 以上。$N=4$ という極小モデルはほぼ存在しない
- $N≥5$ では微分構造は $1$ 通りしかないので、選択の余地そのものがない
- 仮に $N=4$ のモデルを作ったとしても、エキゾチック構造を実装する手段がない
でも知っておくと意味があるのは、「自明そうに見える前提」が実は深い数学的選択である ことを意識できる点です。
5.1 こういうときに役立つかも
| シチュエーション | 効きそうな視点 |
|---|---|
| 自然勾配法の論文を読む | 「これはパラメータ化不変性 (= 同じ滑らかさの中の座標変換) の話。微分構造そのものの不変性ではない」と区別できる |
| 「最適化のアルゴリズムは数学的に対等」と聞いた | 「対等なのは計量レベル。滑らかさレベルでは全部標準構造に固定されている」と思い出せる |
| 損失曲面の研究を読む | 「これは標準微分構造の上での損失曲面の話」と前提を意識できる |
| 物理学者と話す | 一部の物理理論 (Brans-Sloan 1993 等) ではエキゾチック構造を時空に入れる議論があり、共通言語になる |
5.2 投機的な研究方向 (もし興味があれば)
- 合成的微分幾何 (Synthetic Differential Geometry): 圏論的に微分を定式化する枠組み。長期的に Casson handle のような対象を扱える計算基盤の候補
- 持続的微分位相: Persistent Homology の微分構造版 (現状は構想段階)
- 物理での類推: エキゾチック構造を「未知の物理力」として解釈する試み (Brans 1993, Asselmeyer-Maluga & Brans 2007)
いずれも実装の見通しは立っていない、純粋に思弁的な方向性です。
6. まとめ: 自明性を疑うことの価値
3 つだけ覚えてもらえれば嬉しいです。
- PyTorch でパラメータ空間 $\mathbb{R}^N$ と書いた瞬間、$\mathbb{R}^N$ の標準微分構造が暗黙に固定されている
- N=4 だけが、原理的に非可算無限の選択肢を持つ唯一の次元
- その選択肢は実装手段がないから不可視 — 「見ない」のではなく「見る手段がない」
-
「自明な前提」を意識することの意義は、Karpathy の有名なツイート「Neural networks: just stochastic gradient descent on differentiable functions」を、もう一段階深く読むようなものです。
-
微分可能 — それは何の上での? それを答えるには、滑らかさそのものの選択 という、まだ機械学習が触れていない地層の存在に気づくこと。
-
明日のコードには影響しないけれど、思考の射程を一段深くしてくれる、そんな話でした。
📚 もっと勉強したい方へ
本記事は ML エンジニア向けの軽量版です。以下のような内容に踏み込んだ研究ノート (日本語版・英語版の PDF、図、解説、補足 Appendix を含む) を GitHub で公開しています。
👇 詳細版 (フル研究ノート + 関連実装)
🔗 github.com/EtaleCohomology/exotic-r4-and-differential-structures-in-ml
リポジトリには以下が含まれます:
-
日本語版・英語版の研究ノート (PDF, 50+ ページ)
- Milnor (1956) のエキゾチック $S^7$ 構成の解説
- Freedman (1982) の Bing 流縮約論法の概要
- Donaldson (1983) のゲージ理論的障害の構造
- Casson handle の正確な定義と Whitney trick の失敗の詳細
- Fisher 計量の Hessian 表示と Chentsov 定理の精密な定式化
- 自然勾配法のパラメータ化不変性の厳密な記述
-
微分トポロジー / 情報幾何学の専門家向け Appendix
- 本文の平易化に伴う非厳密性を、専門家向けに 16 項目訂正
-
関連する図と数式の SVG / Gemini プロンプト集
-
コメント・誤りの指摘・拡張提案を Issue にて歓迎
「明日のコードには効かないけど、深く理解したい」という方に向けた、本記事の "原典" です。
参考文献
数学側:
- Milnor, J. (1956). On manifolds homeomorphic to the 7-sphere. Annals of Mathematics, 64(2), 399–405.
- Freedman, M. H. (1982). The topology of four-dimensional manifolds. J. Differential Geometry, 17(3), 357–453.
- Donaldson, S. K. (1983). An application of gauge theory to four-dimensional topology. J. Differential Geometry, 18(2), 279–315.
- Taubes, C. H. (1987). Gauge theory on asymptotically periodic 4-manifolds. J. Differential Geometry, 25(3), 363–430.
- Stallings, J. (1962). The piecewise-linear structure of Euclidean space. Proc. Cambridge Philos. Soc., 58, 481–488.
- Gompf, R. E., & Stipsicz, A. I. (1999). 4-Manifolds and Kirby Calculus. AMS GSM Vol. 20.
- Scorpan, A. (2005). The Wild World of 4-Manifolds. AMS.
機械学習側:
- Amari, S. (1998). Natural gradient works efficiently in learning. Neural Computation, 10(2), 251–276.
- Amari, S., & Nagaoka, H. (2000). Methods of Information Geometry. AMS.
- Martens, J. (2020). New insights and perspectives on the natural gradient method. JMLR, 21(146), 1–76.
- Watanabe, S. (2009). Algebraic Geometry and Statistical Learning Theory. Cambridge University Press.
物理での類推 (参考):
- Brans, C. H., & Randall, D. (1993). Exotic differentiable structures and general relativity. General Relativity and Gravitation, 25(2), 205–221.
- Asselmeyer-Maluga, T., & Brans, C. H. (2007). Exotic Smoothness and Physics. World Scientific.
質問・ツッコミ・「うちの分野ではこういう類推が通じる」報告など、コメント大歓迎です 🙋

