記事の概要
株式会社アラヤさんが主宰する、世界的な数理脳科学者である甘利俊一先生の第二回数理脳科学セミナーに参加しました。
セミナーは以下の動画で公開されています。
本記事はセミナーの内容についての個人的なメモになります。
皆さんが上記動画をご覧になる際の参考になればと思い、公開することにしました。
なお、本記事の内容には誤りがあれば、それは私の理解不足からくるものであり、甘利先生や引用元とは無関係になります。
記事の内容に誤りや不明点があればご指摘いただけると助かります。
ランダム結合の神経回路
単体ニューロン
ニューロンのモデルは刺激$\mathbf{x}$とシナプス結合$\mathbf{w}$の積を入力とした関数で与えられる。
出力$z$は神経パルスで1か0の2値である。
\begin{eqnarray}
z = f(\mathbf{w} \cdot \mathbf{x} - h)
\end{eqnarray}
$h$は神経パルスが励起するか否かの閾値である。
$\mathbf{w} \cdot \mathbf{x}$の値が$h$未満の場合の$z$は0で、$h$以上になると$z$は1に励起する。
1層の階層型ネットワーク
次は複数個のニューロンから成る神経回路を考える。(セミナー資料「統計神経力学」ページの手書き図を参照)
相互に結合していないニューロンが並列に並んでいる1層ネットワークモデルを符号関数$\mathrm{sgn}(x)$を用いて表す。
\begin{eqnarray}
\mathbf{z} \equiv T_w \mathbf{x}
= \mathrm{sgn}(\mathbf{W} \mathbf{x})
= \mathrm{sgn} \biggl(\sum_{j=1}^n \mathbf{\omega} _{ij} x_j \biggl)
\end{eqnarray}
この式は$T_w$により$\mathbf{x}$が$\mathbf{z}$に写像されたとみなす。
写像変換の法則は$\mathbf{W}$によって決まる。
ランダム結合ネットワーク
$\mathbf{W}$がランダムであると仮定して、その統計的な性質を調べる研究が多くある。
甘利先生のセミナー冒頭において、その歴史が簡単に紹介されている。
ランダムな$\mathbf{W}$の空間は確率密度になり、最もシンプルな例は平均0、分散1のガウス分布である。
$\mathbf{W}$をランダムに決めるのならば、$\omega _{ij}$に依存する神経回路を複数生成すると、それらは全て異なるものになる。
しかし大数の法則により平均に収束するので、全ての神経回路空間の1部が出現しやすくなる。
よく出現する神経回路網について共通して成立する性質を調べたい。
なお、ここで法則が共通して成立するのは巨視的変数に対してである。例えば入力$\mathbf{x}$と出力$\mathbf{z}$の平均値を考える。
\begin{eqnarray}
\mathbf{X} &=& \mathbf{X}(\mathbf{x}) = \frac{1}{n} \sum_i^n x_i \\
\mathbf{Z} &=& \mathbf{Z}(\mathbf{z}) = \frac{1}{n} \sum_i^n z_i
\end{eqnarray}
この入力の平均と出力の平均が全ての神経回路網で共通であると予想する。
つまりマクロな法則
\begin{eqnarray}
\mathbf{Z} &=& F(\mathbf{X}(\mathbf{x}))
\end{eqnarray}
が全ての$\mathbf{W}$について成立するとみなす。ここで$F$はマクロな活性化関数である。
ミクロレベルではランダムな神経回路でも、マクロレベルで共通に成立する性質があるのならば法則化が可能である。
相互結合した神経回路
あるニューロンのパルスが別のニューロンパルスに伝わり、相互に影響を与え合う場合を考える。
(セミナー資料「統計神経力学」ページ(2回目)の図を参照)
その場合、各ニューロンからの出力が、次の各ニューロンへの入力になる。
つまり時刻$t+1$のニューロン状態$\mathbf{X}_{t+1}$が時刻$t$のニューロン状態$\mathbf{X}_t$に依存する。
これを以下の状態方程式で表す。
\begin{eqnarray}
\mathbf{X}_{t+1} &=& F(\mathbf{X}_t)
\end{eqnarray}
問題点
時刻2と3のニューロン状態を考える。
ニューロン状態は同じ$\mathbf{W}$を使って$T_w$写像により変換を繰り返し、$\mathbf{x}_1 \to \mathbf{x}_2 \to \mathbf{x}_3$へと遷移しているとする。
\begin{eqnarray}
\mathbf{X}_2 &=& \mathbf{X}(\mathbf{x}_2)
= \mathbf{X}(T_w \mathbf{x}_1) \\
\mathbf{X}_3 &=& \mathbf{X}(\mathbf{x}_3)
= \mathbf{X}(T_w \mathbf{x}_2)
= \mathbf{X}(T_w T_w \mathbf{x}_1)
\end{eqnarray}
$\mathbf{X}_2$は成立するが、$\mathbf{W}$の変換を繰り返した$\mathbf{X}_3$は成立するか?
シミュレーションでは成立することが分かっている。その理由についての完全な証明はされていない。
物理学者などは、このような平均場理論がうまくいくものだと納得している。
相互結合のある神経回路の連続時間モデル
(セミナー資料「神経集団の力学」ページの図を参照)
\begin{eqnarray}
\tau \dot{u}_i(t) = - u_i(t) + \sum_j \mathbf{\omega} _{ij} z_j(t) + s_i(t) - h
\end{eqnarray}
\begin{eqnarray}
z_j(t) = f[u_i(t)]
\end{eqnarray}
\begin{eqnarray}
\tau \dot{\mathbf{u}}(t)
= \mathbf{W} \mathbf{f}(\mathbf{u}) + \mathbf{s} - \mathbf{h} -\mathbf{u}
\end{eqnarray}
ここで$s_i$を外部入力、$f[x]$をシグモイド関数などの活性化関数、$z_i$を発火率、$h$をバイアスとする。
独立な確率変数$x_j$の和は中心極限定理でガウス分布になる。これは独立変数を定数倍しても成立するので以下の式もガウス分布になる。
\begin{eqnarray}
u_i &=& \sum_j \omega_{ij} x_j
\sim \mathcal{N}(\mu \bar{x}, \sigma_w^2 \bar{x}^2)
\end{eqnarray}
よって$u_i$の関数で表現できる巨視的変数を見つければ、ガウス分布として扱えるので時間発展を求めることができる。
今回も巨視的変数として$u_i$の平均を考える。
\begin{eqnarray}
U &=& \frac{1}{n} \sum_i^n u_i \\
\dot{U} &=& Wf(U)+S-H-U
\end{eqnarray}
$W$が小さく$\dot{U}<0$になるならば、微分方程式は単安定になる。
$\dot{U} \geq 0$ならば、シグモイド状になるので、上限と下限の安定平衡点ができる。
バイアスの値の増減で興奮頻度が上下する。
ハミング距離
入力空間$\mathbf{X}$の2点$x$と$y$のハミング距離を以下とする。
(セミナー資料「巨視的状態の拡張」ページの図を参照)
\begin{eqnarray}
D = D(x,y) &=& \frac{1}{2n} \sum_i^n |x_i - y_i|
\end{eqnarray}
入力空間の$T_w$による写像空間$\mathbf{Z}$の対応するハミング距離は以下となる
\begin{eqnarray}
F(D) &=& D(T_w x,T_w y) = \frac{1}{2n} \sum_i^n |T_w x_i - T_w y_i| \\
&=& \frac{1}{2n} \sum_i^n |\mathrm{sgn}(u^x_i) - \mathrm{sgn}(u^y_i)|
\end{eqnarray}
$F(D)$は$u^x_i u^y_i < 0$の期待値から求まる。
これは$u^x_i$と$u^y_i$の確率密度を計算することを意味し、最終的には以下の式になる。
\begin{eqnarray}
F(D) &=& \int_{|u| < \sqrt{\frac{cD}{1-cD}}|v|} \frac{1}{2\pi} \exp \biggl( - \frac{u^2+v^2}{2} \biggl) du dv \\
&=& \frac{\alpha}{\pi}
\end{eqnarray}
ここで$\alpha$は積分範囲の交差する領域の角度である。
\begin{eqnarray}
\alpha &=& 2 \tan^{-1} \sqrt{\frac{cD}{1-cD}}\\
&=& \sin^{-1} \sqrt{cD}
\end{eqnarray}
より、最終的には
\begin{eqnarray}
F(D)
&=& \frac{2}{\pi} \sin^{-1} \sqrt{cD}
\end{eqnarray}
が求まる。
詳細な証明は「神経回路網の数理」P53の定理3.7を参照されたい。
以上より、$\sin^{-1}$の性質から、距離$D$が0に近づくほど$F(D)$の微係数が無限大に近づくので、$D$が0から少し変化するだけで$F(D)$が大きく変化することが分かる。
つまりランダムな神経回路では小さな入力の変化が出力に大きく影響する。
ランダムな神経回路は、微細な入力の変化を検知できるという利点を持つ。
エントロピー増大(ボルツマンのH定理)
ミクロな粒子の集合の性質としてマクロな変数がある。そのマクロ変数がエントロピー増大の法則に従う。
分子の集合の速度と方向がランダムに分布しているとする。分子が衝突を繰り返すと速度の分布は変化していき、ガウス分布に近づいていく。つまりエントロピーが増大していく。
セミナーではエントロピー増大に対する議論の歴史について興味深い話がされている。
巨視的状態とH定理
巨視的状態が時間遷移していく場合を考える。
\begin{eqnarray}
D_t
&=& D(T^t_w x, T^{t+1}_w x)
\end{eqnarray}
に対して
\begin{eqnarray}
D_{t+1} = F(D_t)
\end{eqnarray}
は時間$t$を大きくしても成立するだろうかか?
物理学において、分子数$n$の少ない希薄気体では、ある程度の大きさの時間までしかH定理が成立せず、時間$t$を大きくするとH定理は成立しなくなる。
H定理が成立しないということは、巨視的変数がガウス分布に従わないので、時間発展を扱うこの方程式も成立しなくなる。
$n$に注目してこの問題を2つに分ける。
- nを無限大にしてから、時間を無限大にしても、この法則は成立するか?
- 時間を無限大にしてから、nを無限大にしても、この法則は成立するか?
強法則と弱法則
弱法則の意味で、この方程式は成立することが証明されている。
弱法則は時刻$t$を固定して、$n \to \infty$の極限で成立することを意味する。
\begin{eqnarray}
\lim_{n \to \infty} D_{t+1} = F(D_t)
\end{eqnarray}
強法則は任意の時刻において、$n \to \infty$の極限で成立することを意味する。
深層回路
深層回路として多層回路を考える。
(セミナー資料「深層回路」ページの図を参照)
\begin{eqnarray}
x_i^{l+1} &=& \varphi(\sum_j \omega_{ij}^l x_j^l + \omega_{0i})
\end{eqnarray}
\begin{eqnarray}
\omega_{ij}^l &=& \sim \mathcal{N}(0, \sigma^2/\sqrt{n}) \\
\omega_{0i} &=& \sim \mathcal{N}(0, \sigma_b^2)
\end{eqnarray}
ここで$l$は層の何番目であるかを意味する。
再帰結合回路(リカレントネットワーク)では同じ結合定数$\omega_{ij}$を使用するので相関が問題になる。
しかし、多層回路では全ての結合定数$\omega_{ij}^l$が独立なので相関がなく、弱法則か強法則かは問題にならない。
ランダムな$\omega_{ij}$を持つ神経回路に共通する巨視的な状態として、変数空間から2点を選んで、その距離$D[\mathbf{x}:\mathbf{x}']$を考える。これがどのように変化するかを考える。
また、活動度を以下で定義する
\begin{eqnarray}
A_l &=& \frac{1}{n_l} \sum_i (x_i^l)^2
\end{eqnarray}
活動度の力学
$l$層の出力$y_a$を入力とする$l+1$層の出力$\tilde{y}_a$について考える。
\begin{eqnarray}
\tilde{y}_a &=& \varphi(\omega_{ak} y_k + b_a) = \varphi(u_a)
\end{eqnarray}
素子数が十分に大きい場合、中心極限定理より、以下の$u_a$はガウス分布になる。
\begin{eqnarray}
u_a &=& \sum_k \omega_{ak} y_k + b_a \sim \mathcal{N}(0, \sigma_A^2)
\end{eqnarray}
平均は0、分散は独立な分散の和である。
\begin{eqnarray}
\sigma_A^2 &=& \sigma^2 A + \sigma_b^2
\end{eqnarray}
$l+1$層の活動度は以下になる
\begin{eqnarray}
\tilde{A} &=& \frac{1}{n_{l+1}} \sum_i \tilde{y}_a^2
= \chi_0(A)
\end{eqnarray}
活動度は一定数に収束し、半径$\bar{A}$の球面上に収束する。
リーマン計量
$y_a$から$\tilde{y}_a$の変換に対して、変分$dy_a$は以下のように変換する
\begin{eqnarray}
d\tilde{y}_a &=& \sum_k \frac{\partial \varphi(u_a)}{\partial y_k} \omega_k^a dy_k \\
&=& \sum_k B_k^a dy_k
\end{eqnarray}
ここで$B_k^a$はJacobi行列である。
ここで微小距離$ds$の2乗を考える。
\begin{eqnarray}
ds^2 &=& \sum g_{ij} dy_i dy_j
\end{eqnarray}
この変換は以下となる
\begin{eqnarray}
d\tilde{s}^2
&=& \sum g_{ij} d\tilde{y}_i d\tilde{y}_j \\
&=& \sum g_{ij} B_i^{\alpha} B_j^{\beta} dy_{\alpha} dy_{\beta} \\
&=& \sum \tilde{g}_{\alpha \beta} dy_{\alpha} dy_{\beta}
\end{eqnarray}
Jacobian行列についての和は$\omega_k^a$が独立なので期待値に置き換えられる
\begin{eqnarray}
&& E\biggl[\biggl(\frac{\partial \varphi(u_a)}{\partial y_k}\biggl)^2 \omega_k^a \omega_j^a \biggl] \\
&=& E\biggl[\biggl(\frac{\partial \varphi(u_a)}{\partial y_k}\biggl)^2 \biggl]
E[\omega_k^a \omega_j^a] \\
&\sim& E\biggl[\biggl(\frac{\partial \varphi(u_a)}{\partial y_k}\biggl)^2 \biggl] \\
&=& \chi_1(A)
\end{eqnarray}
ここで最後の段では$n \to \infty$で相関がなくなるとした。
よって計量の変換は以下になる。
\begin{eqnarray}
\tilde{g}_{\alpha \beta} &=& \chi_1(A) g_{\alpha \beta}
\end{eqnarray}
よって層を伝播に対する距離の変換は、$\chi_1(A)$を掛けるだけでいい。つまり距離は等方的に増大する。
変換は非線形なので空間は膨張できない。
$\chi_1(A)$が1より大きいのならば、層を伝播するごとに距離が増大していくのだが、限られた空間内で増大していくためには曲がっていくしかない。よってカオス状態になる。
そして逆伝播を考えると$1/\chi_1(A)$になるので、$\chi_1(A)$が1より大きいのならば、エラー信号が層を遡るごとに減少していくことになる。
もし$\chi_1(A)$が1未満の場合はエラーが増大していくことになる。
参考
以下の資料を参照した。
-
神経回路網の基礎(脳化学2,数学者のための分子生物学入
門-新しい数学を造ろう-)
- 甘利先生のレクチャーをまとめたノート。今回のセミナーと重複するテーマ「ランダムな神経回路」について分かりやすくまとまっている
-
入門神経回路網モデル - 東京女子大学 情報処理センター
- ニューロンのモデル、階層型ネットワークについて解説している