LoginSignup
7
7

More than 5 years have passed since last update.

講談社機械学習プロフェッショナルシリーズ『深層学習』の学習 第5章 自己符号化器

Last updated at Posted at 2016-06-05

注意:『深層学習 (機械学習プロフェッショナルシリーズ)

を読むにあたって、自分が読みたいな、こんな記事があったら参考になるな、という基準で書いております。私は機械学習も数学も専門家ではないので誤っている箇所も多々あるかと思いますが参考となると幸いです。

第5章 自己符号化器

5.1 概要

とくになし

5.2 ネットワークの設計

5.2.1 出力層の活性化関数と誤差関数

p20 (2.11)より、交差エントロピーは、

E(\mathbf{w})=-\Sigma_{n=1}^N{\Sigma_{k=1}^K{d_{nk}\log{y_k(\mathbf{x}_n;\mathbf{w})}}}

ここで、Nはサンプルデータの数で、Kは出力ノードの数。ふたつ目のΣのみに注目すると

\begin{align}
&=-\Sigma_{k=1}^K{d_{nk}\log{y_k(\mathbf{x}_n;\mathbf{w})}} \\
ここで y_n(\mathbf{x}_n;\mathbf{w})=\hat{x}_n(\mathbf{x}) また d_n=x_n より、\\
&=-[x_n\log{\hat{x}_n(\mathbf{x})}+(1-x_n)\log{\{1-\hat{x}_n(\mathbf{x}})\}] \\
E(\mathbf{w})&=\Sigma_{n=1}^N{C(\mathbf{x}_n, \hat{\mathbf{x}}_n)} と照らし合わせれば(ここで、Kの代わりにDを持ってきているのが分かりませんが、、、)\\
C(\mathbf{x}, \hat{\mathbf{x}})&=-\Sigma_{i=1}^D{[x_i\log{\hat{x}_i(\mathbf{x})}+(1-x_i)\log{\{1-\hat{x}_i(\mathbf{x}})\}]}
\end{align}

5.2.2 重み共有

とくになし

5.3 自己符号化器の働き

5.3.1 データを表す特徴の学習

とくになし

5.3.2 主成分分析との関係

  • 行列のランク
    • 行列Aのランク=行列A内の列ベクトルの線形独立なものの数。m x n行列の場合min(m, n)がその行列の最大ランクとなる。

上記から、

D_y\geq D_x \\ 
ならば最大ランクは D_x \\ 
D_x \times D_x の行列の最大ランクは D_x なのでフルランクとなり得る。 \\ 
D_y\leq D_x \\
ならばD_x \times D_x の行列の最大ランクは D_x \geq D_y なのでフルランクとなり得ない。 \\
(筆者注:D_y \lt D_x じゃないだろうか)

後半未消化、、、

5.4 スパース正則化

5.4.1 データの過完備な表現

重み減衰の場合は重みwを小さくすることとしたが、スパース正則化の場合は多くのユニットが活性化しないことを目指す。ここでカルバック・ライブラーダイバージェンスを用いている。

5.4.2 最適化

重み減衰の場合は

\tilde{E}(\mathbf{w})=E(\mathbf{w})+\frac{\lambda}{2}\|\mathbf{w}\|^2

のような形になる。

5.4.3 スパース正則化の効果

特になし

5.5 データの白色化

共分散行列については 統計学のための数学入門30講 p97 。

\begin{eqnarray*}
\mathbf{\Phi}_U&=&\frac{1}{N}\mathbf{U}\mathbf{U}^{\top} \\
&=&\frac{1}{N}(\mathbf{P}\mathbf{X})(\mathbf{P}\mathbf{X})^{\top} \\
&=&\frac{1}{N}(\mathbf{P}\mathbf{X})\mathbf{X}^{\top}\mathbf{P} \\
&=&\mathbf{P}\mathbf{\Phi}_X\mathbf{P}^{\top}=\mathbf{I} \\
\mathbf{P}^{\top}&=&(\mathbf{P}\mathbf{\Phi}_X)^{-1} \\
\mathbf{P}^{\top}\mathbf{P}&=&\mathbf{\Phi}_X^{-1}\mathbf{P}^{-1}\mathbf{P} \\
&=&\mathbf{\Phi}_X^{-1}
\end{eqnarray*}

c.f. 統計学のための数学入門30講 p89

(AB)^T=B^{\top}A^{\top}

c.f. 統計学のための数学入門30講 p99

(AB)^{-1}=B^{-1}A^{-1}
\mathbf{\Phi}_X=\mathbf{E}\mathbf{D}\mathbf{E}^{\top}

c.f. 統計学のための数学入門30講 p145

\begin{eqnarray*}
\mathbf{\Phi}_X^{-1}&=&(\mathbf{E}\mathbf{D}\mathbf{E}^{\top})^{-1} \\
&=&{(\mathbf{E}\mathbf{D})\mathbf{E}^{\top}}^{-1} \\
&=&(\mathbf{E}^{\top})^{-1}(\mathbf{E}\mathbf{D})^{-1} \\
&=&(\mathbf{E}^{\top})^{-1}\mathbf{D}^{-1}\mathbf{E}^{-1} \\
&=&\mathbf{E}\mathbf{E}^{\top}(\mathbf{E}^{-1})\mathbf{D}^{-1}\mathbf{E}^{-1}(\mathbf{E}\mathbf{E}^{-1}) \\
&=&\mathbf{E}\mathbf{D}^{-1}\mathbf{E}^{\top}
\end{eqnarray*}

5.6 ディープネットの事前学習

とくになし

5.7 その他の自己符号化器

とくになし

⇒ 次は、講談社機械学習プロフェッショナルシリーズ『深層学習』の学習 第6章 畳込みニューラルネット

7
7
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
7
7