0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

PyTorchが「数学的な選択」を勝手にしている話 — 4次元だけが特別、そしてあなたのモデルはそれに気づかない

0
Last updated at Posted at 2026-04-25

はじめに

PyTorch でモデルを書くとき、こんなコードを当たり前に書きますよね。

import torch
import torch.nn as nn

model = nn.Linear(784, 10)
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)
loss = ((model(x) - y) ** 2).mean()
loss.backward()
optimizer.step()

このとき、PyTorch (と裏にいる IEEE 754 浮動小数点規格) が、あなたに代わって勝手にしている数学的な選択 があるのをご存知でしょうか。

それは 「パラメータ空間の滑らかさ」の選択 です。

「滑らかさ?どういうこと?」と思うかもしれません。実はパラメータ空間 $\mathbb{R}^N$ の上に「滑らかさ」を入れる方法は、N=4 の場合に限り 無限通り存在します。
そして PyTorch はそのうち 1 つを (黙って) 選んでいます。

本記事は、こんな「ふだん意識しないけれど、実は深い数学的選択が裏で行われている」という現象を、AI エンジニア向けに紹介する 思考実験的な記事 です。

この記事のスタンス: 実用的な技を紹介するものではありません。「自分が普段使っているフレームワークが、裏で何を仮定しているか」を意識すると、最適化の理論的射程やデバッグの感覚が少し変わる、という話です。明日のコードに直接効くわけではないけど、知っておくと面白い系の知識です。

pic1.jpg

1. パラメータ空間 = R^N と書くとき、暗黙に何を選んでいるか

1.1 表面的には何も選んでいないように見える

深層学習の重み $\theta$ は N 次元の実数ベクトル。普通に書きます:

\theta \in \mathbb{R}^N

GPT クラスのモデルでは N が数十億〜数兆。現代の DL ではこの記法が当たり前すぎて、何かを「選んでいる」感覚はないですよね。

でも実は 2 段階の暗黙の選択 が含まれています。

1.2 第 1 の選択: 「距離の測り方」 (= 計量)

SGD の更新式

\theta_{t+1} = \theta_t - \eta \cdot \nabla L(\theta_t)

を見ると、勾配 $\nabla L$ という「ベクトル」を引き算していますよね。
このベクトル、どんな 内積 (距離の測り方) で意味づけされているでしょうか?

普段は何も意識せず、標準的なユークリッド内積 $\langle u, v \rangle = \sum u_i v_i$ を使っています。

でも別の選択もあります。例えば 自然勾配法 (Amari 1998) は、Fisher 情報行列 $G(\theta)$ を「内積の歪み」として使います:

\theta_{t+1} = \theta_t - \eta \cdot G(\theta_t)^{-1} \nabla L(\theta_t)

Adam や RMSProp も、各座標ごとの「歪み」を学習中に推定して、それで前処理をかけている、と見ることができます。

つまり 最適化アルゴリズムの選択 = 内積 (計量) の選択。これが第 1 の選択。情報幾何の文献では昔から議論されてきました。

1.3 第 2 の選択: 「滑らかさそのもの」の選択

ここからが本題。

そもそも「ベクトル」「勾配」「微分可能」を定義するには、空間が滑らかである 必要があります。
普段我々が使う「滑らかさ」は、各点で多変数微積分の通常の意味で微分可能、というものです。これを 標準微分構造 と呼びます。

ところが、同じ空間の上に「別の滑らかさ」を入れる ことが、原理的にはできます。
別の滑らかさを入れると:

  • 標準では微分可能だった関数が微分不可能になる
  • 標準では微分不可能だった関数が微分可能になる

ということが起こりえます。これを エキゾチック微分構造 (exotic smooth structure) と呼びます。

「いや、$\mathbb{R}^N$ は普通に滑らかでしょ?」と思うかもしれません。実はその通りで、ほとんどの次元では $\mathbb{R}^N$ の滑らかさは 1 通りしかありません。

具体的には:

次元 N $\mathbb{R}^N$ の滑らかさの種類数
N=1, 2, 3 1 通り (Moise 1952 等)
N=4 非可算無限通り
N≥5 1 通り (Stallings 1962)

4 次元だけが完全に外れ値
4 次元では、同じ位相空間 $\mathbb{R}^4$ の上に、互いに区別できる「滑らかさ」が 実数の濃度ぶんだけ 存在することが、Freedman (1982) と Donaldson (1983) の結果から従います。

pic3.jpg

2. 「滑らかさが選択である」を直感する

数学者じゃない読者には、「滑らかさが何種類もある」と言われてもピンと来ないと思います。
日常的な比喩で説明します。

2.1 地図の比喩

ある地形があります。実物の地形は 1 つだけ。

これを 地図 に書くとき、

  • メルカトル図法
  • モルワイデ図法
  • 正距方位図法
  • ...

など、複数の書き方 があります。書き方 (= 投影法) によって「直線かどうか」「角度が保たれるか」「面積比が正しいか」が変わります。

つまり 「地形」+「地図化のルール」 がセットになって初めて「地図」になる。地図化のルールが違えば、同じ地形が別の見た目になります。

数学的にも同じです:

  • 位相空間 $\mathbb{R}^4$ = 「点の集まり + 連続性のルール」 ← 実物の地形
  • 微分構造 = 「微分可能性のルール」 ← 地図化のルール
  • 微分構造を選ぶと初めて「滑らかな多様体」 ← 完成した地図

地図化のルールが違うと、同じ点でも「微分可能か微分不可能か」の判定が変わる。

2.2 N=4 だけが特殊な理由 (直感)

なぜ 4 次元だけが特殊なのか。直感的な理由は 「2 次元 + 2 次元 = 4 次元の余裕のなさ」 にあります。

トポロジーには「Whitney trick」という、二つの 2 次元曲面を交差させずに離す技術があります。これを使うには:

  • 動かす物の次元 + 動かす物の次元 ≤ 全体の次元
  • すなわち、$2 + 2 \leq N$

を満たす必要がある。N=5 以上なら $4 < 5$ で余裕があります。N=3 以下なら 2 次元の物自体が入らない。
N=4 だけがピッタリ満杯、余裕ゼロ

この「余裕のなさ」が、4 次元での滑らかな構造の自由度を爆発的に増やします。

ML 読者への類推: 高次元の埋め込み空間で「点同士が混雑しすぎず、適度に離れている」状況を、low-dimensional projection で潰すと一気に複雑になりますよね。あれの「次元計算で余裕がなくなる」現象に近いです。Whitney trick は「埋め込みの『十分な余裕』が必要」という、ある意味埋め込み空間の使い方の議論です。


3. PyTorch は「標準の滑らかさ」を選んでいる

ここからが ML エンジニア向けの本論です。

3.1 IEEE 754 と autograd が選択している

PyTorch でモデルを書くとき、

  • パラメータ $\theta$ は IEEE 754 倍精度浮動小数点として記録される
  • 勾配 $\nabla L$ は autograd が連鎖律で計算する

この 2 つの仕組みが、暗黙のうちに $\mathbb{R}^N$ の標準微分構造を選んでいます

なぜか:

  • IEEE 754 の加法 $a + b$ は、$R^1$ の標準的な加法として定義されている
  • autograd の連鎖律は、各基本演算 ( $+, *, exp, log, ...$) が 標準的な意味で滑らか という前提のもとで動く

エキゾチック構造のもとでの加法・微分は、全く別の関数の集合 が「滑らか」と判定されます。それを実装する技術は、現状 存在しません

3.2 自然勾配法でも状況は同じ

自然勾配法は計量 (= 内積) を Fisher 情報行列に変えます。
でも Fisher 情報行列を計算するには:

  • スコア関数 $\nabla_\theta \log p(x; \theta)$ を計算する → autograd を使う

  • 期待値を取る → 標準的な積分の意味で

つまり 自然勾配法も標準微分構造の上で動いている

「計量を変える」(= 第 1 の選択を変える) のはできても、「滑らかさを変える」(= 第 2 の選択を変える) のはできない。

3.3 つまり何が起きているか

「他の選択肢を選ばないことを決めた」のではなく、「他の選択肢を選ぶ手段が存在しない」 状態です。
重要な区別なので強調します。


4. なぜエキゾチック構造は実装できないのか

「他の滑らかさを実装する手段がない」と言いましたが、なぜないのか?

4.1 Casson handle という障壁

エキゾチック $\mathbb{R}^4$ の構成には、Casson handle と呼ばれる幾何学的対象が必要になります。これは大雑把に言うと:

  • 「自分自身と $d$ 箇所で交差した 2 次元の円盤」を 1 段目とする
  • 各交差点から、また同じような円盤を生やす (これが 2 段目)
  • 各 2 段目の交差点から、また... (これが 3 段目)
  • これを無限に続ける

4.2 有限の計算では書けない

PyTorch などの自動微分フレームワークは、有限の計算グラフ を扱います。Casson handle のような 本質的に無限の対象 を、有限の演算の組み合わせで書き下すことはできません。

これは「Turing 計算可能性の意味で計算不可能」とは少し違います。
有限の符号化はできますが、深層学習フレームワークが提供する基本演算 (テンソル積、要素ごとの非線形性、行列乗算) では 語彙が足りない のです。

4.3 Freedman と Donaldson のはさみうち

エキゾチック $\mathbb{R}^4$ が存在することを示すには、2 つの強力な定理を組み合わせます:

定理 何を主張するか
Freedman (1982) 「位相的には」(= 連続変形のレベルでは) Casson handle は普通の円盤と同じ
Donaldson (1983) 「滑らかには」(= 微分可能のレベルでは) Casson handle 由来の 4 次元多様体に障害がある

両方の隙間から「位相的には存在するが滑らかには標準と違う」対象、つまりエキゾチック $\mathbb{R}^4$ が現れます。

そして Taubes (1987) と DeMichelis–Freedman (1992) の結果から、そういうエキゾチック $\mathbb{R}^4$ が連続体濃度ぶん存在する ことがわかっています。


5. で、ML エンジニアにとって何が嬉しいのか

正直に言います: 明日のあなたのコードには、何の影響もありません

理由:

  • 現代の DL では N (パラメータ数) は $10^6$ 以上。$N=4$ という極小モデルはほぼ存在しない
  • $N≥5$ では微分構造は $1$ 通りしかないので、選択の余地そのものがない
  • 仮に $N=4$ のモデルを作ったとしても、エキゾチック構造を実装する手段がない

でも知っておくと意味があるのは、「自明そうに見える前提」が実は深い数学的選択である ことを意識できる点です。

5.1 こういうときに役立つかも

シチュエーション 効きそうな視点
自然勾配法の論文を読む 「これはパラメータ化不変性 (= 同じ滑らかさの中の座標変換) の話。微分構造そのものの不変性ではない」と区別できる
「最適化のアルゴリズムは数学的に対等」と聞いた 「対等なのは計量レベル。滑らかさレベルでは全部標準構造に固定されている」と思い出せる
損失曲面の研究を読む 「これは標準微分構造の上での損失曲面の話」と前提を意識できる
物理学者と話す 一部の物理理論 (Brans-Sloan 1993 等) ではエキゾチック構造を時空に入れる議論があり、共通言語になる

5.2 投機的な研究方向 (もし興味があれば)

  • 合成的微分幾何 (Synthetic Differential Geometry): 圏論的に微分を定式化する枠組み。長期的に Casson handle のような対象を扱える計算基盤の候補
  • 持続的微分位相: Persistent Homology の微分構造版 (現状は構想段階)
  • 物理での類推: エキゾチック構造を「未知の物理力」として解釈する試み (Brans 1993, Asselmeyer-Maluga & Brans 2007)

いずれも実装の見通しは立っていない、純粋に思弁的な方向性です。


6. まとめ: 自明性を疑うことの価値

3 つだけ覚えてもらえれば嬉しいです。

  1. PyTorch でパラメータ空間 $\mathbb{R}^N$ と書いた瞬間、$\mathbb{R}^N$ の標準微分構造が暗黙に固定されている
  2. N=4 だけが、原理的に非可算無限の選択肢を持つ唯一の次元
  3. その選択肢は実装手段がないから不可視 — 「見ない」のではなく「見る手段がない」
  • 「自明な前提」を意識することの意義は、Karpathy の有名なツイート「Neural networks: just stochastic gradient descent on differentiable functions」を、もう一段階深く読むようなものです。

  • 微分可能 — それは何の上での? それを答えるには、滑らかさそのものの選択 という、まだ機械学習が触れていない地層の存在に気づくこと。

  • 明日のコードには影響しないけれど、思考の射程を一段深くしてくれる、そんな話でした。


📚 もっと勉強したい方へ

本記事は ML エンジニア向けの軽量版です。以下のような内容に踏み込んだ研究ノート (日本語版・英語版の PDF、図、解説、補足 Appendix を含む) を GitHub で公開しています。

👇 詳細版 (フル研究ノート + 関連実装)

🔗 github.com/EtaleCohomology/exotic-r4-and-differential-structures-in-ml

リポジトリには以下が含まれます:

  • 日本語版・英語版の研究ノート (PDF, 50+ ページ)

    • Milnor (1956) のエキゾチック $S^7$ 構成の解説
    • Freedman (1982) の Bing 流縮約論法の概要
    • Donaldson (1983) のゲージ理論的障害の構造
    • Casson handle の正確な定義と Whitney trick の失敗の詳細
    • Fisher 計量の Hessian 表示と Chentsov 定理の精密な定式化
    • 自然勾配法のパラメータ化不変性の厳密な記述
  • 微分トポロジー / 情報幾何学の専門家向け Appendix

    • 本文の平易化に伴う非厳密性を、専門家向けに 16 項目訂正
  • 関連する図と数式の SVG / Gemini プロンプト集

  • コメント・誤りの指摘・拡張提案を Issue にて歓迎

「明日のコードには効かないけど、深く理解したい」という方に向けた、本記事の "原典" です。


参考文献

数学側:

  • Milnor, J. (1956). On manifolds homeomorphic to the 7-sphere. Annals of Mathematics, 64(2), 399–405.
  • Freedman, M. H. (1982). The topology of four-dimensional manifolds. J. Differential Geometry, 17(3), 357–453.
  • Donaldson, S. K. (1983). An application of gauge theory to four-dimensional topology. J. Differential Geometry, 18(2), 279–315.
  • Taubes, C. H. (1987). Gauge theory on asymptotically periodic 4-manifolds. J. Differential Geometry, 25(3), 363–430.
  • Stallings, J. (1962). The piecewise-linear structure of Euclidean space. Proc. Cambridge Philos. Soc., 58, 481–488.
  • Gompf, R. E., & Stipsicz, A. I. (1999). 4-Manifolds and Kirby Calculus. AMS GSM Vol. 20.
  • Scorpan, A. (2005). The Wild World of 4-Manifolds. AMS.

機械学習側:

  • Amari, S. (1998). Natural gradient works efficiently in learning. Neural Computation, 10(2), 251–276.
  • Amari, S., & Nagaoka, H. (2000). Methods of Information Geometry. AMS.
  • Martens, J. (2020). New insights and perspectives on the natural gradient method. JMLR, 21(146), 1–76.
  • Watanabe, S. (2009). Algebraic Geometry and Statistical Learning Theory. Cambridge University Press.

物理での類推 (参考):

  • Brans, C. H., & Randall, D. (1993). Exotic differentiable structures and general relativity. General Relativity and Gravitation, 25(2), 205–221.
  • Asselmeyer-Maluga, T., & Brans, C. H. (2007). Exotic Smoothness and Physics. World Scientific.

質問・ツッコミ・「うちの分野ではこういう類推が通じる」報告など、コメント大歓迎です 🙋

0
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?