1. 概要
確率変数 $X,Y$の間に、連立方程式:
$$\left\{\begin{array}{ll}
f(x)=u(x)-a \mathbb{E}\left[g(Y)|X=x\right]\\
g(y)=v(y)-b \mathbb{E}\left[f(X)|Y=y\right]\\
\end{array}\right.$$
が成り立つとき、近似($a\simeq0, b\simeq0$とし、$3$次以降の項を無視してよい)で $f(x)$と $g(y)$ を互いに依存しない形で求めることを本記事の目標とする。
そのために役立つのが「線形作用素」の考え方だ。
2. 方針を立ててみる
第1章の連立方程式は、関数や条件付き期待値で構成されているので、そのままだとどうやって解けばいいか分からない。
せめて、(条件付き)期待値を関数に変形できないだろうか。
もしそれが出来れば、関数方程式の知識を使って解けるようになるかもしれない(?)、いや、分からないが・・・
残念ながら、期待値は「関数」としては見れない。
何故なら、期待値は「関数の関数」だからだ。
例えば:
$$S[g](x) := \mathbb{E}\left[g(Y)|X=x\right]$$
$$T[f](y) := \mathbb{E}\left[f(X)|Y=y\right]$$
とするとき、$S$は 関数 $g$ を受け取り、 $x$の関数を 返しているし、
$T$ は関数 $f$ を受け取り、 $y$の関数を返している。
つまり、第1章の連立方程式は、「関数と『関数の関数』の方程式」ということも出来る。
本記事では、この手の「関数の関数」のことを「作用素」と呼ぶことにする。
(作用素というと、一般には「関数からの写像」を意味する場合も多い。例えば汎関数(関数から数への写像)も作用素の一種と捉える場合も多い。だが本記事では、作用素とは専ら「関数から関数への写像」に限定して言うことにする)
ここで、もしも「関数はベクトルと見れる」ということになったらどうだろうか。
この場合、「作用素」つまり「関数の関数」だった条件付き期待値は、「ベクトルのベクトル」になる。
これはもしかすると「行列」のことだろうか?
ここでいう「関数の関数」とは、もう少し正確に言うと「関数を受け取って関数を返す変換規則」だった。
これはますます行列っぽい。
行列も、ベクトルを別のベクトルに変換することが出来るからだ。
本当にそんなことが可能であるなら、第1章の連立方程式:
$$\left\{\begin{array}{ll}
f(x)=u(x)-a S[g](x)\\
g(y)=v(y)-b T[f](y)\\
\end{array}\right.$$
は単なる行列方程式に成り下がるではないか。
今回はこの方針で話を進めよう。
3. 関数はベクトルである
今、関数$f(x)$ と $g(x)$ があるときに、 $f(x)+g(x)$ のことを $(f+g)(x)$ と書くことにしよう。
当たり前だが、$f$ と $g$ が関数なら、 $f+g$ も関数だ。
そして、 $f(x)$ の実数(複素数とする場合もある)倍 $c\cdot f(x)$ を、 $(cf)(x)$ としても捉えることにしよう。
こちらも当たり前だが、 $f$ が関数なら、 $cf$も関数だ。
このような性質を「閉包性」という。
もっと詳しく見てみよう。
$f,g,h$がそれぞれ関数, $a,b$がそれぞれ実数(あるいは複素数)であるとき:
- $(f+g)+h=f+(g+h)$ (結合法則1)
- どちらも $f(x)+g(x)+h(x)$ を表しているので当然成立する
- $f+g=g+f$ (交換法則)
- これはつまり $f(x)+g(x)=g(x)+f(x)$と言っているのだから当然成立する
- $o+f=f$ とする関数$o$がただ一つ存在する (唯一な$0$元の存在)
- $o(x)=0$ とすれば $o(x)+f(x)=0+f(x)=f(x)$ だ
- 逆に$\exists x\ o(x)\neq 0$ とすると、
その$x$において $o(x)+f(x) \neq 0 + f(x) = f(x)$ となる
- $f+f'=o$ となる $f'$ が、$f$毎にただ一つ存在する (逆元の存在)
- $f'(x) = -f(x)$ とすれば $f(x)+f'(x)=f(x)-f(x)=0=o(x)$ だ
- 逆に$\exists x\ f'(x)\neq -f(x)$ とすると、
その$x$ において $f(x)+f'(x)\neq f(x)-f(x)=0=o(x)$ となる
- $(a+b)f = af+bf$ (分配法則1)
- これはつまり $(a+b)\cdot f(x) = a\cdot f(x) + b\cdot f(x)$
と言っているのだから当然成立する
- これはつまり $(a+b)\cdot f(x) = a\cdot f(x) + b\cdot f(x)$
- $a\cdot(f+g) = af+ag$ (分配法則2)
- これはつまり $a \cdot(f(x)+g(x)) = a\cdot f(x) + a\cdot g(x)$
と言っているのだから当然成立する
- これはつまり $a \cdot(f(x)+g(x)) = a\cdot f(x) + a\cdot g(x)$
- $(ab)f=a\cdot(bf)$ (結合法則2)
- どちらも $a \cdot b\cdot f(x)$ を表しているので当然成立する
- $1f=f$ ($1$元が$1$)
- これはつまり $1\cdot f(x)=f(x)$と言っているのだから当然成立する
実はたったこれだけで、「関数がベクトルである」ことの証明が終了している。
なぜなら上記の性質(「閉包性」に加えて、「結合法則1,2」、「交換法則」、「唯一な$0$元の存在」、「逆元の存在」、「分配法則1,2」、「$1$元が$1$」)を満たす $f,g,h$のことは、何でもベクトルと呼んでよいからだ。
「なんでベクトルと呼んでもいいのか」と聞きたくなるかもしれないが、こればかりは「そういうルールだから」と答えるしかない。それが公理というものだ。
上記の性質は、ベクトルの公理そのものである。
参考:
とはいえ、これだとあまりにも非直感的すぎるので、
直感的に納得できるイメージの説明もしておこう。
例えば:
$$\left(\begin{matrix}
f(-\infty)\\ \vdots \\ f(-1) \\ f(0) \\ f(1) \\ \vdots \\ f(\infty)
\end{matrix}\right)$$
のように、 「$f$に、考えられるすべての入力を入れた結果、得られた出力を、ベクトルとして並べたもの」
を考える。
実際はこのように並べることは不可能であるが、あくまでもイメージだ。
このベクトルは、「$f$の入出力一覧」のようなものだから、 $f$ そのものを過不足なく表現していると言ってもいいだろう。
このようにして、関数を「入出力一覧」としての無限次元ベクトルと同一視しても、特に矛盾は生じないのだ。
ベクトルなのだから当然足し算が成立するので:
$$f(x)+g(x)\rightarrow\left(\begin{matrix}
f(-\infty)\\ \vdots \\ f(-1) \\ f(0) \\ f(1) \\ \vdots \\ f(\infty)
\end{matrix}\right)+\left(\begin{matrix}
g(-\infty)\\ \vdots \\ g(-1) \\ g(0) \\ g(1) \\ \vdots \\ g(\infty)
\end{matrix}\right)=\left(\begin{matrix}
(f+g)(-\infty)\\ \vdots \\ (f+g)(-1) \\ (f+g)(0) \\ (f+g)(1) \\ \vdots \\ (f+g)(\infty)
\end{matrix}\right)\leftarrow (f+g)(x)$$
が成立する。
実数倍についても:
$$c\cdot f(x) \rightarrow c\left(\begin{matrix}
f(-\infty)\\ \vdots \\ f(-1) \\ f(0) \\ f(1) \\ \vdots \\ f(\infty)
\end{matrix}\right)=\left(\begin{matrix}
(cf)(-\infty)\\ \vdots \\ (cf)(-1) \\ (cf)(0) \\ (cf)(1) \\ \vdots \\ (cf)(\infty)
\end{matrix}\right) \leftarrow (cf)(x)$$
が成立する。
4. 線形作用素は行列
行列は、任意の「ベクトルの線形変換」を表現できる。
具体的には、任意のベクトル $u,v$と実数$c$ について:
- $f(u)+f(v)=f(u+v)$
- $cf(u)=f(cu)$
が成り立つベクトル関数 $f$ のことを線形変換というのである。
このような $f$ を、行列と見ることが出来る。
このようにみると、行列とベクトルの積 $fu$ とは、 $f(u)$ のことであると言える。
ここで、第3章のとおり、関数はベクトルと見れるのだった。
上記の議論では $u,v$は任意のベクトルだったのだから、$u,v$は関数であると言い換えてもよいだろう。
すると、ベクトルを受け取ってベクトルを返した $f$ は、関数を受け取って関数を返すことになるから、作用素であることになる。
そして、作用素の中でも上記の議論における $f$ は「線形作用素」である。
よって、行列と見れる $f$ が、実は線形作用素でもあるのだ。
逆方向に同じ議論をすれば、「線形作用素が実は行列でもある」という主張が出来る。
従って、線形作用素と行列は、本質的に同じものだ。
ちなみに、線形作用素であることは、「行列の公理」ではない。
というか、そもそも行列に公理は存在しない。
そのせいで、「線形作用素は行列である」と断言するのは、実は反論の余地がある。
関数が無限次元ベクトルである以上、線形作用素は無限個の要素を持つ行列になるが、
この「無限個の要素を持つ行列」では、行列積が無限大に発散してしまうせいで行列積が定義できない場合がある。
ベクトルで言えば、「内積が定義できないベクトルがある」ことに対応する。
そのため、「行列積の定義できない行列なんて許さない」という立場から見れば、「線形作用素は行列である」という主張は受け入れがたいだろう。
ベクトルの場合は、いくら「内積の定義できないベクトルなんて許さない」という主張があっても、ベクトルの公理という「強力な武器」を持ち出せば、その主張を却下し、「内積の定義できないベクトルは存在する」と結論付けることが出来たが、行列の場合はその「強力な武器」が存在しないのだ。
だが本記事では、「線形作用素は行列である」という立場を取ることにする。
そのほうが議論しやすいからだ。
5. 期待値は線形作用素であり行列である
さて:
$$S[g](x) := \mathbb{E}\left[g(Y)|X=x\right]$$
のように、期待値を表す作用素$S$ は線形作用素だろうか?
答えは然りだ。
よって、期待値は行列と見ることが出来る。
まず:
$$\begin{array}{ll}
&(S[f] + S[g])(x)\\
=& S[f](x)+S[g](x)\\
=& \mathbb{E}[f(Y)|X=x] + \mathbb{E}[g(Y)|X=x]\\
=& \mathbb{E}[(f+g)(Y)|X=x]\\
=& S[f+g](x)
\end{array}$$
であるから、$S[f] + S[g]=S[f+g]$ は成立する。
次に:
$$cS[f](x)=c\mathbb{E}[f(Y)|X=x]=\mathbb{E}[cf(Y)|X=x]=S[cf](x)$$
より $cS[f]=S[cf]$ も成立する。
よって、$S$ は確かに線形作用素だ。
6. 連立方程式を行列の方程式と見て解いてみる
ここまでの議論より、第1章の連立方程式:
$$\left\{\begin{array}{ll}
f(x)=u(x)-a S[g](x)\\
g(y)=v(y)-b T[f](y)\\
\end{array}\right.$$
は、関数 $f,u,g,v$ をベクトル、 線形作用素 $S,T$ を行列とみてよい。
だから次のように書きなおせる。
$$\left\{\begin{array}{ll}
f=u-a Sg\\
g=v-b Tf\\
\end{array}\right.$$
- 関数をベクトルと見ていることを強調するために、$(x)$や$(y)$ といった引数を省略した。
- また線形作用素を行列と見ていることを強調するために、例えば $S[g]$ を $Sg$ のように行列積として書いた。
後は本当に行列積の演算として連立方程式を解いてやればよい。
6-1. まずは解いてみる
$g=v-b Tf$を $f=u-a Sg$ に代入すれば:
$$\begin{array}{ll}
f&=u-aS\cdot (v-bTf)\\
&=u-aSv+abSTf\\
(I-abST)f &= u-aSv
\end{array}$$
となる。
$I-abST$ に逆行列が存在すれば:
$$f = (I-abST)^{-1}(u-aSv)$$
・・・①
である。
逆に$f=u-a Sg$を$g=v-b Tf$ に代入すれば:
$$\begin{array}{ll}
g&=v-bT\cdot (u-aSg)\\
&=v-bTu+abTSg\\
(I-abTS)g &= v-bTu
\end{array}$$
となる。
$I-abTS$ に逆行列が存在すれば:
$$g = (I-abTS)^{-1}(v-bTu)$$
・・・②
である。
6-2. 厳密な答え
①や②:
$$f=(I-abST)^{-1}u -a\cdot(I-abST)^{-1}Sv$$
$$g=(I-abTS)^{-1}v -b\cdot(I-abTS)^{-1}Tu$$
はベクトルや行列の言葉で書かれているので、
第1章の連立方程式の答えとして言うには、これらを関数や線形作用素の言葉に言い換えてやる必要がある。
つまり:
$$f(x) = (I-abST)^{-1}[u](x)-a\cdot((I-abST)^{-1}S)[v](x)$$
$$g(y) = (I-abTS)^{-1}[v](y)-a\cdot((I-abTS)^{-1}T)[u](y)$$
但し:
$$I[\phi](z)=\phi(z)$$
$$S[\phi](z) = \mathbb{E}\left[\phi(Y)|X=z\right]$$
$$T[\phi](z) = \mathbb{E}\left[\phi(X)|Y=z\right]$$
と言ってやれば、これが厳密な答えとなる。
(但し $(I-abST)^{-1}$ や $(I-abTS)^{-1}$ が存在する場合。
存在しない場合は疑似逆行列を考えて、近似解となる。
まあ、後の節で述べるとおり、今回は逆行列が必ず存在するのだが。)
6-3. ノイマン級数展開
だが、6-2節の答えはあまりにも複雑すぎないだろうか。
逆行列、つまり逆作用素を用いた答えとなっているせいで、
線形作用素についての知識がない限り、答えを理解できない。
近似でよいから、線形作用素について知らなくても理解できる、簡単な答えを手に入れることは出来ないだろうか。
このような時に役に立つのが、「ノイマン級数展開」だ。
$A$のスペクトルノルム$|A|$が$1$未満であれば、
$I-A$には逆行列が存在し:
$$(I-A)^{-1} = I+A+AA+AAA+\cdots = \sum_{n=0}^\infty A^n$$
が成立する。
この展開をノイマン級数展開という。
スペクトルノルムについては:
の記事などを読んでほしい。
実は 「$A$のスペクトルノルムが$1$未満」というのは十分条件であり、ノイマン級数展開をするために必要な条件はもっと緩く、「$A$のスペクトル"半径"が$1$未満」となるのであるが、今回はそれは置いておこう。
6-4. ノイマン級数展開を用いて近似解を求める
逆行列の存在の証明やノイマン級数展開の証明は6-5節に譲り、一旦今はノイマン級数展開を利用して①や②を近似することを考えよう。
まず、 $|ST|\leq1$ であれば、$|abST|<1$ となるから、$I-abST$ に逆行列が存在し、①は:
$$\begin{array}{ll}
f &= (I-abST)^{-1}(u-aSv)\\
&=(I+abST)(u-aSv)+\mathcal{O}((abST)^2)\\
&= u-aSv+abSTu-a^2bSTSv +\mathcal{O}((ab)^2)\\
&= u-aSv+abSTu+\mathcal{O}(a^2b)
\end{array}$$
となる。・・・③
同様に議論すれば、 $|TS|\leq1$ であれば:
$$g = v-bTu+abTSv+\mathcal{O}(ab^2)$$
を得る。・・・④
③を関数や線形作用素の言葉で言いなおすと:
$$\begin{array}{ll}
f(x)&=u(x)-aS[v](x)+abS[T[u]](x)+\mathcal{O}(a^2b)\\
&=u(x)-a\mathbb{E}[v(Y)|X=x]+ab\mathbb{E}[T[u](Y)|X=x]+\mathcal{O}(a^2b)\\
&=u(x)-a\mathbb{E}[v(Y)|X=x]+ab\mathbb{E}\bigg[
\mathbb{E}[u(X)|Y=y']|_{y'=Y}
\bigg|X=x\bigg]+\mathcal{O}(a^2b)\\
\end{array}$$
となる。
④も同様に言い直せる。
よって第1章の連立方程式の答え(近似解)は:
$$f(x)=u(x)-a\mathbb{E}[v(Y)|X=x]+ab\mathbb{E}\bigg[
\mathbb{E}[u(X)|Y=y']|_{y'=Y}
\bigg|X=x\bigg]+\mathcal{O}(a^2b)$$
$$g(y)=v(y)-b\mathbb{E}[u(X)|Y=y]+ab\mathbb{E}\bigg[
\mathbb{E}[v(Y)|X=x']|_{x'=X}
\bigg|Y=y\bigg]+\mathcal{O}(ab^2)$$
となる。
但しこれは $|ST|\leq1, |TS|\leq1$ を前提としている。
$|ST|\leq1, |TS|\leq1$ については 6-6節で証明する。
6-5. ノイマン級数展開の証明
まず、 $|A|<1$ ならば $I-A$ に逆行列が存在することを証明しよう。
それには、 $I-A$ に逆行列が存在しないと仮定すると矛盾が起きることを示せばよい。
そうすれば背理法による証明として成立する。
$I-A$ に逆行列が存在しないとすると、何らかの単位ベクトル $e$ で:
$$(I-A)e=0$$
が起こることになる。
言い換えれば:
$$Ae=e$$
だ。
一方、スペクトルノルム $|\cdot|$の定義は、ベクトルのユークリッドノルムを $\left<\cdot\right>$ で書くとき:
$$|A|:= \max_{\left<e\right>=1} \left<Ae\right>$$
だった。
$Ae=e$ となりうるということは、 $\left<Ae\right>=1$ となりうるということだ。
$\left<e\right>=1$ なのだから。
それであれば、定義より $|A|$ はどんなに小さくても $1$ 以上のはずだ。
これが$|A|<1$ と矛盾する。
よって、 $|A|<1$ なら、 確かに $I-A$ は逆行列を持つのだ。
次に、$|A|<1$ のときに:
$$(I-A)^{-1} = \sum_{n=0}^\infty A^n$$
であることを証明しよう。
逆行列があると議論しにくそうだから:
$$(I-A)\sum_{n=0}^\infty A^n=I$$
とでも変形しようか。
すると、分配法則を使って:
$$\left(\sum_{n=0}^\infty A^n\right)-\left(\sum_{n=0}^\infty A^{n+1}\right)=I$$
と出来る。
これの言っていることはつまり:
$$(I+\cancel{A}+\cancel{A^2}+\cdots+\cancel{A^{N-1}})
-(\cancel{A}+\cancel{A^2}+\cancel{A^3}+\cdots+A^N)=I$$
(但し $N\to\infty$)
ということだ。
これは:
$$\lim_{N\to\infty} (I-A^N) = I$$
つまり:
$$\lim_{N\to\infty} A^N = O$$
と同じことだ。
後は、これを証明できれば:
$$(I-A)^{-1} = \sum_{n=0}^\infty A^n$$
の証明が完了する。
$$\lim_{N\to\infty} A^N = O$$
はスペクトルノルムの性質「非負性」と「劣乗法性」と「独立性」より証明できる。
非負性は、読んで字のごとく、任意の行列のスペクトルノルムが非負であるという性質だ。
要は $0\leq|A|$ ということだ。
劣乗法性とは、(行列積 $BC$ の計算できる) 任意の行列$B,C$ について:
$$|BC|\leq |B||C|$$
というものだ。
この性質を再帰的に用いれば:
$$|A^N|\leq |A|^N$$
が言える。
今回 $0\leq|A|<1$ だったから:
$$\lim_{N\to\infty} |A|^N=0$$
となる。
よって:
$$0\leq\lim_{N\to\infty} |A^N|\leq\lim_{N\to\infty} |A|^N=0$$
であるから:
$$\lim_{N\to\infty} |A^N|=0$$
と分かる。
そしてここでスペクトルノルムの「独立性」を用いる。
独立性とは:
$$|B|=0 \Longleftrightarrow B=O$$
というものだ。
この性質に従えば:
$$\lim_{N\to\infty} |A^N|=0$$
である今回、確かに:
$$\lim_{N\to\infty} A^N = O$$
となる。
よって確かに:
$$(I-A)^{-1} = \sum_{n=0}^\infty A^n$$
なのだ。
6-6. 条件付き期待値作用素のスペクトルノルム
6-4節で前提とした $|ST|\leq1, |TS|\leq1$ を証明しよう。
スペクトルノルムの劣乗法性より:
$$|ST|\leq |S||T|, |TS|\leq |T||S|$$
である。
ここで $|S|$ と $|T|$を上界評価してみよう。
$|S|$の上界と$|T|$の上界の積がもし$1$以下であれば、$|ST|\leq1, |TS|\leq1$ を自動的に満たすからだ。
まずは$|S|$から。
$$|S|=\max_{\left<e\right>=1} \left<Se\right>=
\max_{g\neq0}\frac{\left<Sg\right>}{\left<g\right>}$$
であるから、非$0$な任意の$g$について:
$$\left<Sg\right>\leq s\left<g\right>$$
が成り立つのだとすれば:
$$|S|\leq s$$
といえる。・・・⑤
そのような $s$ を求めるためには、 $\left<Sg\right>$ や $\left<g\right>$ とは何であるかをはっきりさせなければいけない。
ここで、第3章で使ったイメージ:
$$g\to\left(\begin{matrix}
g(-\infty)\\ \vdots \\ g(-1) \\ g(0) \\ g(1) \\ \vdots \\ g(\infty)
\end{matrix}\right)$$
が再び役に立つ。
ユークリッドノルムを考えると:
$$\left<g\right>\to \sqrt{
g(-\infty)^2 + \cdots g(-1)^2 + g(0)^2 + g(1)^2 + \cdots + g(\infty)^2
}$$
となるから、$\left<g\right>$ とは関数の言葉で言えば:
$$\sqrt{\int_{-\infty}^\infty g(y)^2 {\rm d}y}$$
になりそうだ。
いや、一般には 作用素$S,T$の入力となる関数は$2$変数関数 と考える方が今回は自然だから:
$$\sqrt{\int_{\mathbb{R}^2} g(x,y)^2 {\rm d}x{\rm d}y}$$
とすべきか。
この対応規則では、 $\left<Sg\right>$ は:
$$\sqrt{\int_{\mathbb{R}^2} (S[g](x,y))^2 {\rm d}x{\rm d}y}$$
言い換えれば:
$$\sqrt{\int_{\mathbb{R}^2} (\mathbb{E}[g(X,Y)|X=x])^2 {\rm d}x{\rm d}y}$$
となる。
よって $\left<Sg\right>\leq s\left<g\right>$ 、つまり $\left<Sg\right>^2\leq s^2\left<g\right>^2$ は:
$$\int_{\mathbb{R}^2} (\mathbb{E}[g(X,Y)|X=x])^2 {\rm d}x{\rm d}y
\leq
s^2
\int_{\mathbb{R}^2} g(x,y)^2 {\rm d}x{\rm d}y$$
となる。・・・⑥
うーん、まだ見えてこない。
強いて言えることとしては:
$$(\mathbb{E}[g(X,Y)|X=x])^2 \leq \mathbb{E}[g(X,Y)^2|X=x]$$
ということくらいだろうか。・・・⑦
(これは:
$$\mathbb{Var}[g(X,Y)|X=x]=\mathbb{E}[g(X,Y)^2|X=x]-(\mathbb{E}[g(X,Y)|X=x])^2\geq0$$
から得られる。)
⑦の両辺を積分すれば:
$$\int_{\mathbb{R}^2} (\mathbb{E}[g(X,Y)|X=x])^2 {\rm d}x{\rm d}y
\leq
\int_{\mathbb{R}^2} (\mathbb{E}[g(X,Y)^2|X=x])^2 {\rm d}x{\rm d}y$$
となり、⑥に近い形になる。
実際、左辺は⑥のそれと一致する。
問題は右辺だ。右辺の条件付き期待値を何とかして外せたら、⑥の右辺と同じ形になる。
非常に惜しいな。
⑦の両辺を、積分ではなく期待値を取れば、右辺の条件付き期待値は「繰り返し期待値の法則」:
$$\mathbb{E}\bigg[\mathbb{E}[g(X,Y)^2|X=x']|_{x'=X}\bigg] = \mathbb{E}[g(X,Y)^2]$$
により外せるのだが・・・
実際にやってみると:
$$\mathbb{E}\bigg[(\mathbb{E}[g(X,Y)|X=x'])^2|_{x'=X}\bigg] \leq
\mathbb{E}[g(X,Y)^2]$$
となる。
左辺の外側の期待値と右辺の期待値を、それぞれ積分の言葉に置き換えてやると:
$$\int_{\mathbb{R^2}} (\mathbb{E}[g(X,Y)|X=x])^2 p(x,y){\rm d}x{\rm d}y
\leq
\int_{\mathbb{R}^2} g(x,y)^2 p(x,y){\rm d}x{\rm d}y$$
となる。・・・⑧
但し $p$ は $X,Y$の同時確率密度関数である。
改めて⑥と比較してみよう。
$$\int_{\mathbb{R}^2} (\mathbb{E}[g(X,Y)|X=x])^2 {\rm d}x{\rm d}y
\leq
s^2
\int_{\mathbb{R}^2} g(x,y)^2 {\rm d}x{\rm d}y$$
(⑥再掲)
$p(x,y)$さえなければ、⑥で$s=1$ の場合に対応することが分かる。
$p(x,y)$ が邪魔だな。
実は、「⑧における$p(x,y)$が邪魔で困る」という発想を、
「⑥に$p(x,y)$が欠けていて困る」という発想に逆転させれば、この問題は解決する。
つまり $s=1$ が最終的にはちゃんと得られる。
ここで、⑥の導出背景を思い出そう。
⑥は:
$$\left<g\right>\to\sqrt{\int_{\mathbb{R}^2} g(x,y)^2 {\rm d}x{\rm d}y}$$
という、ベクトルのユークリッドノルムと関数の積分の間の対応規則から導かれた。
そしてこの対応規則の根拠は:
$$g\to\left(\begin{matrix}
g(-\infty)\\ \vdots \\ g(\infty)
\end{matrix}\right)$$
にあった。
いや、$g$を$2$変数関数とみるなら:
$$g\to\left(\begin{matrix}
g(-\infty,-\infty)\\ \vdots \\ g(\infty,\infty)
\end{matrix}\right)$$
か。
そしてこの「関数とベクトルの対応付け」は、ベクトルの公理を満たせばなんでもよいのだった。
なら:
$$\left<g\right>\to' \sqrt{\int_{\mathbb{R}^2} g(x,y)^2 p(x,y) {\rm d}x{\rm d}y}$$
となるように、関数とベクトルの対応付けを修正してもよさそうだ。
このような修正をすると、⑥は:
$$\int_{\mathbb{R}^2} (\mathbb{E}[g(X,Y)|X=x])^2 p(x,y){\rm d}x{\rm d}y
\leq
s^2\int_{\mathbb{R}^2} g(x,y)^2 p(x,y){\rm d}x{\rm d}y$$
・・・⑥'
に修正される。
これを⑧と比較すれば、 $s=1$ が得られるのだ。
さすれば⑤より:
$$|S|\leq1$$
が得られる。
そしてこのような修正は:
$$g\to'\left(\begin{matrix}
g(-\infty,-\infty)\sqrt{p(-\infty,-\infty)}\\ \vdots \\ g(\infty,\infty)\sqrt{p(\infty,\infty)}
\end{matrix}\right)$$
とすれば、ベクトルの公理を壊さずに実現可能だ!
$|S|$と同様に議論すれば:
$$|T|\leq 1$$
も得られる。
よって:
$$|ST|\leq |S||T|, |TS|\leq |T||S|$$
に:
$$|S|\leq 1, |T|\leq 1$$
を入れれば:
$$|ST|\leq1, |TS|\leq1$$
の証明が完了する。