『機械学習スタートアップシリーズ これならわかる深層学習入門 (KS情報科学専門書)』
2章から全然入門ではないし初学者向けでもなくなっている……
別の方の記事【これならわかる深層学習入門】Chapter2を読みました 1もご参考に
2.1 なぜ深層学習か?
特になし
2.2 機械学習とは何か
よろしければ私の記事を御覧ください。氷解!データ分析、機械学習手法ってたくさんあるけどいつどれを使えばよいのか
2.2.1 代表的なタスク
\in は含むを示す記号 \\
\mathbb{R} は実数を示す \\
y(x)\in\mathbb{R} \\
で y(x)が実数であることを示す
2.3 統計入門
2.3.2 点推定
- (2.10)
(2.10)式について、統計学のための数学入門30講p.66より
\begin{align}
\int_{-\infty}^{\infty}{x f(x)dx}&=\int_{-\infty}^{\infty}{(x-\mu) f(x)dx}+\int_{-\infty}^{\infty}{\mu f(x)dx} \\
&=\int_{-\infty}^{\infty}{(x-\mu) f(x)dx}+\mu\int_{-\infty}^{\infty}{f(x)dx} \\
&=\int_{-\infty}^{\infty}{(x-\mu) f(x)dx}+\mu \\
ここで \\
\int_{-\infty}^{\infty}{(x-\mu) \exp{(-\frac{(x-\mu)^2}{2\sigma^2})}dx}&=[-\sigma^2\exp{(-\frac{(x-\mu)^2}{2\sigma^2})}]_{-\infty}^{\infty} \\
&=\lim_{x \to \infty}{[-\sigma^2\exp{(-\frac{(x-\mu)^2}{2\sigma^2})}]}-\lim_{x \to -\infty}{[-\sigma^2\exp{(-\frac{(x-\mu)^2}{2\sigma^2})}]} \\
&=0 より\\
\int_{-\infty}^{\infty}{x f(x)dx}&=\mu
\end{align}
- (2.13)
統計学のための数学入門30講p.67参照
\begin{align}
E_{\it{N}}[(x_n-\mu)^2]&=\int_{-\infty}^{\infty}{(x_n-\mu)^2P(x_n)dx_n} \\
\\
t&=\frac{(x-\mu)}{\sigma} \\
dx&=\sigma dt \\
(与式)&=\frac{\sigma^2}{\sqrt{2\pi}}\int_{-\infty}^{\infty}{t^2\exp(-\frac{t^2}{2})}dt \\
&=\frac{\sigma^2}{\sqrt{2\pi}}\int_{-\infty}^{\infty}{\exp(-\frac{t^2}{2})'t}dt \\
&=\frac{\sigma^2}{\sqrt{2\pi}}\{[-t\exp(-\frac{t^2}{2})]_{-\infty}^{\infty}+\int_{-\infty}^{\infty}{\exp(-\frac{t^2}{2})}dt\} \\
&=0 + \frac{\sigma^2}{\sqrt{2\pi}}\sqrt{2\pi} \\
&=\sigma^2
\end{align}
- (2.15)
1行目について
\begin{align}
(x_n-\mu)^2-2(x_n-\mu)(\hat{\mu}-\mu)+(\hat{\mu}-\mu)^2&=x_n^2-2x_n\mu+\mu^2-2x_n\hat{\mu}+2x_n\mu+2\mu\hat{\mu}-2\mu^2+\hat{\mu}^2-2\hat{\mu}\mu+\mu^2 \\
&=x_n^2-2x_n\hat{\mu}+\hat{\mu}^2
\end{align}
より左辺=右辺。
また、個人の方の正誤表「これならわかる深層学習 入門」 瀧 雅人著 の正誤表によると(2.15)式は下記が正しい
\begin{align}
E_N[\frac{\sum_{n=1}^N}{N}(x_n-\hat{\mu})^2]&=E_N[\frac{\sum_{n=1}^N}{N}(x_n-\mu)^2]-E_N[2\frac{\sum_{n=1}^N}{N}(x_n-\mu)(\hat{\mu}-\mu)]+E_N[\frac{\sum_{n=1}^N}{N}(\hat{\mu}-\mu)^2] \\
\end{align}
高校物理の備忘録 不偏推定量を参考にすると
第1項は
\begin{align}
E_N[\frac{\sum_{n=1}^N}{N}(x_n-\mu)^2]&=\frac{\sum_{n=1}^N}{N}\sigma^2 \\
&=\sigma^2
\end{align}
第2項は
\begin{align}
E_N[2\frac{\sum_{n=1}^N}{N}(x_n-\mu)(\hat{\mu}-\mu)]&=2E_N[(\hat{\mu}-\mu)(\hat{\mu}-\mu)] \\
&=2E_N[(\hat{\mu}-\mu)^2] \\
&=2\hat{\sigma}^2 \\
&=2\frac{\sigma^2}{N}
\end{align}
第3項は
\begin{align}
E_N[\frac{\sum_{n=1}^N}{N}(\mu-\hat{\mu})^2]&=\frac{\sum_{n=1}^N}{N}E_N[(\mu-\hat{\mu})^2] \\
&=\hat{\sigma}^2 \\
&=\frac{\sigma^2}{N}
\end{align}
2.3.3 点推定
- (2.25)の次の式
\begin{align}
\log{L(\theta)}&=\log{\prod_{n=1}^N\frac{1}{\sqrt{2\pi\sigma^2}}\exp{-\frac{(x_n-\mu)^2}{2\sigma^2}}} \\
&=\sum_{n=1}^{N}{[\log{\frac{1}{\sqrt{2\pi\sigma^2}}}+\log{\{\exp{(-\frac{(x_n-\mu)^2}{2\sigma^2}})}\}]} \\
&=-\frac{N}{2}\log{\sigma^2}-\sum{\frac{(x_n-\mu)^2}{2\sigma^2}}-N\log{\sqrt{2\pi}}
\end{align}
c.f. 最後テキストでは -Nlog ... となってますが計算が合いません。公式の正誤表は出ていないですが個人の方の正誤表「これならわかる深層学習 入門」 瀧 雅人著 の正誤表によると上式の通りです。
- (2.26)
\begin{align}
\frac{\partial{\log{L(\bf{\theta})}}}{\partial{\mu}}|_{\bf{\theta_{ML}}}&=-\frac{\partial}{\partial{\mu}}\sum_n{\frac{(x_n-\mu_{ML})^2}{2\sigma^2}} \\
&=-\frac{1}{2\sigma_{ML}^2}\sum_n{2(x_n-\mu_{ML})(-1)} \\
&=\frac{1}{\sigma_{ML}^2}\sum_n{x_n-\mu_{ML}}
\end{align}
- (2.27)
\begin{align}
\frac{\partial{\log{L(\bf{\theta})}}}{\partial{\sigma^2}}|_{\bf{\theta_{ML}}}&=-\frac{N}{2}\frac{\partial{\log{\sigma^2}}}{\partial{\sigma^2}}-\frac{\partial}{\partial{\sigma^2}}\sum_n{\frac{(x_n-\mu_{ML})^2}{2\sigma^2}} \\
&=-\frac{N}{2\sigma_{ML}^2}+\frac{1}{2(\sigma_{ML}^2)^2}\sum{(x_n-\mu_{ML})^2} \\
\end{align}
- (2.28)の次の式以降
\begin{align}
\log{L(p)}&=\log{\prod{p^{x_n}}(1-p)^{1-x_n}} \\
&=\sum{(\log{p^{x_n}}+\log{(1-p)^{1-x_n}})} \\
&=\sum_n{(x_n\log{p}+(1-x_n)\log{(1-p)})} \\
\frac{\partial{\log{L(p)}}}{\partial{p}}|_{p_{ML}}&=\frac{1}{p}\sum{x_n}-\frac{1}{1-p}\sum{(1-x_n)} \\
&=\frac{(1-p)\sum{x_n}-p\sum{(1-x_n)}}{p(1-p)} \\
&=\frac{\sum{x_n}-Np_{ML}}{p_{ML}(1-p_{ML})}
\end{align}
2.4 機械学習の基礎
2.4.1 教師あり学習
とくになし
2.4.2 最小二乗法による線形回帰
- (2.36)
\begin{align}
\frac{\partial{E({\bf w})}}{\partial{w_i}}&=\frac{1}{N}\frac{\partial}{\partial{w_i}}\sum_n{({\bf w}^{\mathrm{T}}x_n-y_n)^2} \\
&=\frac{2}{N}\sum_n{x_{ni}({\bf w}^{\mathrm{T}}x_n-y_n)} \\
\end{align}
=0 なので2は関係ないが、テキストと異なり2が出てくると思う。
- (2.38)
統計学のための数学入門30講p.93より、
\begin{align}
{\bf w}^{\mathrm{T}}x_n=x_n^{\mathrm{T}}{\bf w}
\end{align}
\begin{align}
\sum_n{x_{ni}({\bf w}^{\mathrm{T}}x_n-y_n)}&=0 \\
\sum{x_{ni}x_n^{\mathrm{T}}{\bf w}-x_{ni}y_n}&=0 \\
{\bf XX^Tw}-{\bf Xy}&=0 \\
({\bf XX^T})^{-1}{\bf XX^Tw}-({\bf XX^T})^{-1}{\bf Xy}&=0 \\
{\bf w}&=({\bf XX^T})^{-1}{\bf Xy}
\end{align}
2.4.3 線形回帰の確率的アプローチ
- (2.40)
すみません、理解できていません。
2.4.4 最小二乗法と最尤法
- (2.46)
\begin{align}
\log{\prod_n{P(y_n|{\bf x_n}; {\bf w})}}&=\log{\prod_n{\frac{1}{\sqrt{2\pi}\sigma}\exp{\frac{(y-\hat{y})^2}{2\sigma^2}}}} \\
&=-\frac{1}{2\sigma^2}\sum{(y-\hat{y})^2}+const. \\
&=-\frac{1}{2\sigma^2}\sum{(\hat{y}-y)^2}+const.
\end{align}
2.4.6 正則化
- (2.49)式から
w^* は
(2.36)より \\
\begin{align}
\frac{\partial{E_{wd}({\bf w})}}{\partial{{\bf w}}}&=\frac{\partial{E({\bf w})}}{\partial{{\bf w}}}+\lambda\frac{\partial}{\partial{\bf w}}{\bf w^{\mathrm{T}}w}=0 \\
{\bf XX^{\mathrm{T}}w^*}-{\bf Xy}+2N\lambda{\bf w^*I}&=0 \\
({\bf XX^{\mathrm{T}}}+2N\lambda{\bf I}){\bf w^*}&={\bf Xy} \\
{\bf w^*}&=({\bf XX^{\mathrm{T}}}+2N\lambda{\bf I})^{-1}{\bf Xy}
\end{align}
2.4.7 クラス分類
とくになし
2.4.8 クラス分類へのアプローチ
とくになし
2.4.9 ロジスティック回帰
とくになし
2.4.10 ソフトマックス回帰
- p.34
one-hot表現の定義(2.54)
は(2.52)と思われます。
- (2.65)式の2行下のくだり
\begin{align}
(2.65)にt(y)=(1 0 0 ...)^{\mathrm{T}}を代入すると \\
P(y|{\bf x})&=P(C_1|{\bf x})^1P(C_2|{\bf x})^0P(C_3|{\bf x})^0 ... \\
&=P(C_1|{\bf x})
\end{align}
2.5 表現学習と深層学習の進展
とくになし