はじめに
どうも。来夏です。やっと修論が終わって、最近は数値実験追試とラノベ書きに明け暮れる毎日です。できれば10月から社会人博士に入りたいので、いろんな先生にアポとったりしてます。
PFNのインターン合格後に辞退したというのが今でも微妙に心残り。この時の辞退理由はいい居住先が見つからなかったからなんですが、同じ理由で就職先(京大付近)にここ(阪大付近)から通勤する可能性が出てきた。ちなみに就職先はアイチュウ民としてのやりがいで選びました。
さて、今回は積分表現理論改二についてお話します。艦娘の改二を手に入れるときと同じく、無印と改を経由しないといけないので、普通のリッジレット解析及び超関数に対するリッジレット解析をご存じない方は[1]か私の記事を読んでください。
ニューラルネットの積分表現理論&積分表現理論改
・https://qiita.com/konatsu/items/46cff2467c8c9076839d
あとは他の方が書いた記事ですが、こちらもおすすめです。積分表現理論を用いた数値実験について、詳しく書かれています。
ニューラルネットの積分表現理論――リッジレット変換とオラクルサンプリングによる3層パーセプトロンの学習の数値実験
・https://qiita.com/waidotto/items/2c369acc8633968753cb
今回お話するのは、6月にarXivにうpされた論文[5]を軸とする、「積分表現理論をすべて再生核ヒルベルト空間上の理論として再展開した」という理論です。数学としてのレベルが上がった代わりに、圧倒的に見通しがよくなっています。さらにBPを経た後の最適なパラメータまで解析的に書けてしまいます。正直尋常じゃないくらい強い理論だと思うし、ニューラルネットの数学的研究はここを軸になっていきそう。
前回は積分表現理論入門ということで、数学的な難しい議論には立ち入らず、平易な数学的概念のみで伝えるようにしてきましたが、今回は発展編なのでガンガン高難易度の数学を用いていきます。ご了承ください。
実はこの研究は[5]の研究をもとに[2]を用いてリッジレット解析を再展開したもので、修論にも書いたのだけれど、ここではろくな成果が出なくて投稿もできなさそうなので、せめて智を共有して他の人と討論したいと考え、投稿させていただくことにしました。
再生核ヒルベルト空間
$\bf{定義1}$ 空間設計とパラメータ空間
特徴量空間を$\mathcal{X}(:=\mathbb{R}^d)$と置き、ラベル空間は$\mathbb{C}$であるとする。
パラメータ$a,b$の成す空間$\mathbb{R}^{d+1}$から$\mathbb{C}$への写像のうち、$\mathbb{R}^{d+1}$上の測度$\lambda(dadb)$による$L^2$空間を$\mathcal{G}(:=L^2(\mathbb{R}^{d+1}\to\mathbb{C},\lambda(dadb)))$とおく。
ここから、$\mu$という$\mathcal{X}$上の測度を用いて、$L^2(\mathcal{X},\mu)$という関数空間を軸に考えていきます。$\mu$はデータの分布を想定しており、詳しいことは最後にお話ししますが、ルベーグ測度ではなくデータの分布に対応した測度を用いた新定義により、リッジレット変換がデータから自然に近似計算できるようになります。
$\lambda$という測度についてですが、これはパラメータの分布を決める確率測度です。けっこう自由が利くので、ここをうまく調整していく手法を見つけるのが、今後の課題となるでしょう。
次に活性化関数$\sigma:\mathcal{X}\times\mathbb{R}^{d+1}\to\mathbb{C}$を定義します。$\sigma(x,\cdot)\in\mathcal{G}$であればなんでもかまいません。ReluやSwishといった非有界関数でも問題ありません
今後、$\sigma(x,\cdot)$を$\sigma_x,\sigma(\cdot,a,b)$を$\sigma_{a,b}$と表記することにします。
$\bf{定義2}$ 積分作用素
$\mathcal{X}\to\mathbb{C}$の写像が成す空間全体を$\mathcal{F}(\mathcal{X})$と置く。
積分作用素$S:\mathcal{G}\to\mathcal{F}(\mathcal{X})$を次の等式が成り立つものと定義する。$$f=SF \iff f(x)=\langle F,\sigma_x\rangle$$
さて、これで再生核ヒルベルト空間が定義できるようになりました。
$\bf{定理1}$ 再生核ヒルベルト空間
積分作用素$S$による像$S(\mathcal{G})$に次のような距離を入れる
$$||f||_{S(\mathcal{G})}:=inf_{F\in\mathcal{G},f=SF}||F||$$ このとき、$S(\mathcal{G})$は再生核$k(x,y):=\langle \sigma_x,\sigma_y\rangle_{\mathcal{G}}$を持つ再生核ヒルベルト空間
今後この再生核ヒルベルト空間を$H_k$と表記する
ちなみに、$\sigma_x$が$x$を変化させていくことで$\mathcal{G}$上完全になるなら、$S$は等距離写像
次に、リッジレット変換を定義するための定理をお見せします。今回の再定義の特徴は「再構成公式は証明するもの」だったかつての理論と違い「再構成公式が成り立つものをリッジレット変換と定義した」というものです。
$\bf{定理2}$ 最小元の存在
任意の$f\in H_k$に対して、$f=SF$となる$F\in\mathcal{G}$のうち、次の式を満たすものが一意に存在する$$||f||_{H_k}=||F^*||_{\mathcal{G}}$$
今後この記事では、この一意の$F^*$を「$f$のリッジレット変換」と呼び、$\mathcal{R}f$と表記します。
定義より明らかに再構成公式$:S\mathcal{R}f=f$が成り立ちます。
様々な許容条件と計算手法
許容条件を定義します。前回のものとは大きく違っているのでご注意を
$\bf{定義3}$ 許容条件と強い許容条件
三つ組$(\mu,\lambda,\sigma)$に対して、定数$K:=\int_\mathcal{X}k(x,x)\mu(dx)$を定義する。
$0<K<\infty$ならこの三つ組は「許容条件を満たす」と言い、さらに$\sigma_x$が$x$を変化させたものの線形結合によって$\mathcal{G}$を張るのであれば、この三つ組は「強い意味で許容条件を満たす」と呼ぶ。
ちなみに、[5]では$\mu$がルベーグ測度で固定されているため、[5]における$H^{\sigma\sigma}$という空間については、活性化関数が非有界である場合は許容条件を満たさず、$H^{\sigma\sigma}\subset L^2(\mathcal{X},dx)$となることすら証明ができません。
ここからは、修論で作った些末な定理を紹介します。
$\bf{定理3}$ 作用素の連続性
三つ組$(\mu,\lambda,\sigma)$に対して、許容条件が満たされるなら、$H_k\subset L^2(\mathcal{X},\mu)$であり、$S:\mathcal{G}\to L^2(\mathcal{X},\mu)$は連続作用素
proof.
$H_k$上の関数列$[u_j]^\infty_{j=1}$を、$\mathcal{G}$の正規直交基底$[v_j]^\infty_{j=1}$を用いて$$u_j(x):=\langle v_j ,h(x)\rangle_\mathcal{G}$$と定義する。
両辺の$L^2(\mathcal{X},\mu)$上のノルムを取る。
$$||u_j||^2_{L^2(\mathcal{X},\mu)}=\int_\mathcal{X} u_j(x)\overline{u_j(x)} d\mu(x)$$
$$=\int_\mathcal{X}(\int_{\mathbb{R}^{d+1}} v_j(z)\overline{h(x)(z)}d\lambda(z)\overline{\int_{\mathbb{R}^{d+1}} v_j(z)\overline{h(x)(z)}d\lambda(z)} )d\mu(x)$$
$$\leq \int_\mathcal{X}(\int_{\mathbb{R}^{d+1}} v_j(z)\overline{v_j(z)}d\lambda(z)\int_{\mathbb{R}^{d+1}} h(x)(z)\overline{h(x)(z)}d\lambda(z) )d\mu(x) (shwartzの不等式)$$
$$ =K||v_j||^2_\mathcal{G}$$
$u_j=Sv_j$であることを踏まえると、任意の$F\in\mathcal{G}$は$[v_j]^\infty_{j=1}$の線形和で書けるため、同じ議論により
$$||SF||_{L^2(\mathcal{X},\mu)}\leq K||F||_\mathcal{G}$$となる。$f\in H_k$にはすべて$f=SF$となる$F$が存在するため、定理の主張が言える。
さらに、強い許容条件が成り立つなら、もっといい定理が言えます。
$\bf{定理4}$ $H_k$の正規直交規定
三つ組$(\mu,\lambda,\sigma)$に対して、強い意味で許容条件が満たされるなら$[u_j]^\infty_{j=1}$は$H_k$の正規直交基底
proof.
上記の定理より、$||f||_{H_k}=||F||_{\mathcal{G}}$となる$F=\mathcal{R}f$が一意に存在する。
また内積の線形性から、複素数列$[c_j]^\infty_{j=1},\sum |c_j|^2<\infty$を用いて
$$F=\sum_j c_j v_j$$
$$f=\sum_j c_j u_j$$
と書ける。強い許容条件が満たされる場合、$S$は等距離写像。そのため$f=u_j$としたとき$F=v_j$である。
一般の$f,F$に対して、パーセバルの等式より$||F||_\mathcal{G}=\sum |c_j|^2$で、これは$||f||_{H_k}$と一致する。
分極公式により$H_k$の内積は$||\cdot ||_{H_k}$から陽に書け、$\langle u_j ,u_i\rangle=\delta_{ij}$が言える
ここで、[5]では自明に成り立つものとして流されていた、もっと強い条件を定義します。今後はこの条件を緩めていけたらいいなあ、と漠然と考えています。
その条件とは、許容条件に加えて、$||\cdot||_{H_k}=||\cdot ||_{L^2(\mathcal{X},\mu)}$が成り立つというもの。厳しすぎる条件ですが、その分言えることはでかいです。
$\bf{定理4}$ リッジレット変換の計算公式
三つ組$(\mu,\lambda,\sigma)$に対して、上記の条件が満たされるとする。
また、単調増大な$\mathcal{X}$の部分集合列$[E_N]^\infty_{N=1}$を、$\cup^\infty_{N=1} E_N=\mathcal{X}$となるようにとり
$$(\mathcal{R}_Nf)(z):=\int_{E_N} f(x) \overline{h(x)(z)}\mu(dx)$$と置く、許容条件より、任意の$N$に対して$F_N\in\mathcal{G}$が満たされ
$$||\mathcal{R}_Nf-\mathcal{R}f||_\mathcal{G}\to 0(N\to\infty) $$
見ればわかる通り超パワフルな定理です。これによって、今回再定義したリッジレット変換の枠組みでは、既存のリッジレット解析も$\mu$がルベーグ測度であると置いた特別な場合として書けるということがわかりました。
再定義の利点
ではわざわざ再定義した意味は何かといいますと、それは「$\mu$がデータの分布であるとおけるようになった」という点にあります。
あと、$\mu$で空間の重みづけを調整することによって、活性化関数が非有界の状況でもちゃんと対応できるようになったというのがありますが、それについては詳細は解説しません。
実問題では、有限個のデータ$(x_i,y_i)^n_{i=1}$から、なるべく"良い"写像$y=f(x)$を構成したわけです。既存のリッジレット解析では、このリッジレット変換を近似するにあたって
$$(\mathcal{R} f)(a,b):=\int_{\mathbb{R}^d} f(x)\sigma(a\cdot x-b)dx$$
$$\approx \frac{1}{n}\sum^n_{i=1} f(x_i)\sigma(a\cdot x_i-b)$$
$$\approx \frac{1}{n}\sum^n_{i=1} y_i\sigma(a\cdot x_i-b)$$
とするしかありません。実際、[1]ではこの近似計算が行われています。けど、この近似は$dx$がルベーグ測度なので、かなり不自然な悪い近似となってしまっています。実際のデータは一様分布には程遠いですし、一様に近い分布になるようデータの一部を抽出するのは、$d$が大きい状況では非常に難しいでしょう。
ここで$dx$を特徴量データの分布$\mu(x)$に差し替えれば、上記の近似計算はモンテカルロ法として非常に自然なものになります。すなわち、データからリッジレット変換がほぼ正確に計算できるわけです。
#今後の展望
金森先生の統計的学習理論読めばなんか新展開あるかもしれない。思いついた人は一報ください。一緒に論文書きましょう。
あと、[5]ではチコノフ正則化付きの損失関数$L(\gamma):= ||f-S\gamma||_{H_k}+\beta||\gamma||_{\mathcal{G}}$に対して $$argmin_{\gamma\in\mathcal{G}}L(\gamma)=\frac{1}{1+\beta}\mathcal{R}f$$
が成り立つことが示されてるので、新理論でも同じ定理が言えるのか考察したい。
けどやっぱり$H_k$のノルムじゃなくて$L^2(\mathcal{X},\mu)$のノルムで損失関数定義したいよね。
参考文献
[1]園田翔,深層ニューラルネットの積分表現理論(2017)
[2]S. Saitoh. Integral transforms, reproducing kernels and their applications. Addison Wesley Longman, 1997
[3]https://qiita.com/konatsu/items/46cff2467c8c9076839d
[4]https://qiita.com/waidotto/items/2c369acc8633968753cb#_reference-9e40eb5bb22e2d438e0e
[5]Sho Sonoda, Isao Ishikawa, Masahiro Ikeda, Kei Hagihara, Yoshihiro Sawano, Takuo Matsubara, Noboru Murata,Integral representation of shallow neural network that attains the global minimum.arXiv:1805.07517v2,2018