7
Help us understand the problem. What are the problem?

More than 5 years have passed since last update.

posted at

updated at

講談社機械学習プロフェッショナルシリーズ『深層学習』の学習 第5章 自己符号化器

注意:『深層学習 (機械学習プロフェッショナルシリーズ)

を読むにあたって、自分が読みたいな、こんな記事があったら参考になるな、という基準で書いております。私は機械学習も数学も専門家ではないので誤っている箇所も多々あるかと思いますが参考となると幸いです。

第5章 自己符号化器

5.1 概要

とくになし

5.2 ネットワークの設計

5.2.1 出力層の活性化関数と誤差関数

p20 (2.11)より、交差エントロピーは、

E(\mathbf{w})=-\Sigma_{n=1}^N{\Sigma_{k=1}^K{d_{nk}\log{y_k(\mathbf{x}_n;\mathbf{w})}}}

ここで、Nはサンプルデータの数で、Kは出力ノードの数。ふたつ目のΣのみに注目すると

\begin{align}
&=-\Sigma_{k=1}^K{d_{nk}\log{y_k(\mathbf{x}_n;\mathbf{w})}} \\
ここで y_n(\mathbf{x}_n;\mathbf{w})=\hat{x}_n(\mathbf{x}) また d_n=x_n より、\\
&=-[x_n\log{\hat{x}_n(\mathbf{x})}+(1-x_n)\log{\{1-\hat{x}_n(\mathbf{x}})\}] \\
E(\mathbf{w})&=\Sigma_{n=1}^N{C(\mathbf{x}_n, \hat{\mathbf{x}}_n)} と照らし合わせれば(ここで、Kの代わりにDを持ってきているのが分かりませんが、、、)\\
C(\mathbf{x}, \hat{\mathbf{x}})&=-\Sigma_{i=1}^D{[x_i\log{\hat{x}_i(\mathbf{x})}+(1-x_i)\log{\{1-\hat{x}_i(\mathbf{x}})\}]}
\end{align}

5.2.2 重み共有

とくになし

5.3 自己符号化器の働き

5.3.1 データを表す特徴の学習

とくになし

5.3.2 主成分分析との関係

  • 行列のランク
    • 行列Aのランク=行列A内の列ベクトルの線形独立なものの数。m x n行列の場合min(m, n)がその行列の最大ランクとなる。

上記から、

D_y\geq D_x \\ 
ならば最大ランクは D_x \\ 
D_x \times D_x の行列の最大ランクは D_x なのでフルランクとなり得る。 \\ 
D_y\leq D_x \\
ならばD_x \times D_x の行列の最大ランクは D_x \geq D_y なのでフルランクとなり得ない。 \\
(筆者注:D_y \lt D_x じゃないだろうか)

後半未消化、、、

5.4 スパース正則化

5.4.1 データの過完備な表現

重み減衰の場合は重みwを小さくすることとしたが、スパース正則化の場合は多くのユニットが活性化しないことを目指す。ここでカルバック・ライブラーダイバージェンスを用いている。

5.4.2 最適化

重み減衰の場合は

\tilde{E}(\mathbf{w})=E(\mathbf{w})+\frac{\lambda}{2}\|\mathbf{w}\|^2

のような形になる。

5.4.3 スパース正則化の効果

特になし

5.5 データの白色化

共分散行列については 統計学のための数学入門30講 p97 。

\begin{eqnarray*}
\mathbf{\Phi}_U&=&\frac{1}{N}\mathbf{U}\mathbf{U}^{\top} \\
&=&\frac{1}{N}(\mathbf{P}\mathbf{X})(\mathbf{P}\mathbf{X})^{\top} \\
&=&\frac{1}{N}(\mathbf{P}\mathbf{X})\mathbf{X}^{\top}\mathbf{P} \\
&=&\mathbf{P}\mathbf{\Phi}_X\mathbf{P}^{\top}=\mathbf{I} \\
\mathbf{P}^{\top}&=&(\mathbf{P}\mathbf{\Phi}_X)^{-1} \\
\mathbf{P}^{\top}\mathbf{P}&=&\mathbf{\Phi}_X^{-1}\mathbf{P}^{-1}\mathbf{P} \\
&=&\mathbf{\Phi}_X^{-1}
\end{eqnarray*}

c.f. 統計学のための数学入門30講 p89

(AB)^T=B^{\top}A^{\top}

c.f. 統計学のための数学入門30講 p99

(AB)^{-1}=B^{-1}A^{-1}
\mathbf{\Phi}_X=\mathbf{E}\mathbf{D}\mathbf{E}^{\top}

c.f. 統計学のための数学入門30講 p145

\begin{eqnarray*}
\mathbf{\Phi}_X^{-1}&=&(\mathbf{E}\mathbf{D}\mathbf{E}^{\top})^{-1} \\
&=&{(\mathbf{E}\mathbf{D})\mathbf{E}^{\top}}^{-1} \\
&=&(\mathbf{E}^{\top})^{-1}(\mathbf{E}\mathbf{D})^{-1} \\
&=&(\mathbf{E}^{\top})^{-1}\mathbf{D}^{-1}\mathbf{E}^{-1} \\
&=&\mathbf{E}\mathbf{E}^{\top}(\mathbf{E}^{-1})\mathbf{D}^{-1}\mathbf{E}^{-1}(\mathbf{E}\mathbf{E}^{-1}) \\
&=&\mathbf{E}\mathbf{D}^{-1}\mathbf{E}^{\top}
\end{eqnarray*}

5.6 ディープネットの事前学習

とくになし

5.7 その他の自己符号化器

とくになし

⇒ 次は、講談社機械学習プロフェッショナルシリーズ『深層学習』の学習 第6章 畳込みニューラルネット

Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
Sign upLogin
7
Help us understand the problem. What are the problem?