More than 5 years have passed since last update.

講談社機械学習プロフェッショナルシリーズ『深層学習』の学習第5章自己符号化器

Last updated at 2017-05-04Posted at 2016-06-05

注意：『深層学習 (機械学習プロフェッショナルシリーズ)』

を読むにあたって、自分が読みたいな、こんな記事があったら参考になるな、という基準で書いております。私は機械学習も数学も専門家ではないので誤っている箇所も多々あるかと思いますが参考となると幸いです。

第5章自己符号化器

5.1 概要

とくになし

5.2 ネットワークの設計

5.2.1 出力層の活性化関数と誤差関数

p20 (2.11)より、交差エントロピーは、

E(\mathbf{w})=-\Sigma_{n=1}^N{\Sigma_{k=1}^K{d_{nk}\log{y_k(\mathbf{x}_n;\mathbf{w})}}}

ここで、Nはサンプルデータの数で、Kは出力ノードの数。ふたつ目のΣのみに注目すると

\begin{align}
&=-\Sigma_{k=1}^K{d_{nk}\log{y_k(\mathbf{x}_n;\mathbf{w})}} \\
ここで y_n(\mathbf{x}_n;\mathbf{w})=\hat{x}_n(\mathbf{x}) また d_n=x_n より、\\
&=-[x_n\log{\hat{x}_n(\mathbf{x})}+(1-x_n)\log{\{1-\hat{x}_n(\mathbf{x}})\}] \\
E(\mathbf{w})&=\Sigma_{n=1}^N{C(\mathbf{x}_n, \hat{\mathbf{x}}_n)} と照らし合わせれば（ここで、Kの代わりにDを持ってきているのが分かりませんが、、、）\\
C(\mathbf{x}, \hat{\mathbf{x}})&=-\Sigma_{i=1}^D{[x_i\log{\hat{x}_i(\mathbf{x})}+(1-x_i)\log{\{1-\hat{x}_i(\mathbf{x}})\}]}
\end{align}

5.2.2 重み共有

とくになし

5.3 自己符号化器の働き

5.3.1 データを表す特徴の学習

とくになし

5.3.2 主成分分析との関係

行列のランク
- 行列Aのランク=行列A内の列ベクトルの線形独立なものの数。m x n行列の場合min(m, n)がその行列の最大ランクとなる。

上記から、

D_y\geq D_x \\ 
ならば最大ランクは D_x \\ 
D_x \times D_x の行列の最大ランクは D_x なのでフルランクとなり得る。 \\ 
D_y\leq D_x \\
ならばD_x \times D_x の行列の最大ランクは D_x \geq D_y なのでフルランクとなり得ない。 \\
（筆者注：D_y \lt D_x じゃないだろうか）

後半未消化、、、

5.4 スパース正則化

5.4.1 データの過完備な表現

重み減衰の場合は重みwを小さくすることとしたが、スパース正則化の場合は多くのユニットが活性化しないことを目指す。ここでカルバック・ライブラーダイバージェンスを用いている。

カルバック・ライブラーダイバージェンス（カルバック・ライブラー情報量、カルバック距離）
- KL情報量を最小化にするθを探すということは一般的な「最尤推定」を行うのと等価
  - KL情報量とモデル推定:
- 数学的性質は
  - パターン認識と機械学習上 p54 1.6.1 相対エントロピーと相互情報量
  - パターン認識と機械学習の学習―ベイズ理論に挫折しないための数学 p31 3.8 カルバック距離
  - プログラミングのための確率統計 p352 C.3 Kullback-Leibler divergenceと大偏差原理
  - ここらへんを押し進めると情報幾何に分け入るのか。恐ろしくもあり夢もある。

5.4.2 最適化

重み減衰の場合は

\tilde{E}(\mathbf{w})=E(\mathbf{w})+\frac{\lambda}{2}\|\mathbf{w}\|^2

のような形になる。

5.4.3 スパース正則化の効果

特になし

5.5 データの白色化

共分散行列については統計学のための数学入門30講 p97 。

\begin{eqnarray*}
\mathbf{\Phi}_U&=&\frac{1}{N}\mathbf{U}\mathbf{U}^{\top} \\
&=&\frac{1}{N}(\mathbf{P}\mathbf{X})(\mathbf{P}\mathbf{X})^{\top} \\
&=&\frac{1}{N}(\mathbf{P}\mathbf{X})\mathbf{X}^{\top}\mathbf{P} \\
&=&\mathbf{P}\mathbf{\Phi}_X\mathbf{P}^{\top}=\mathbf{I} \\
\mathbf{P}^{\top}&=&(\mathbf{P}\mathbf{\Phi}_X)^{-1} \\
\mathbf{P}^{\top}\mathbf{P}&=&\mathbf{\Phi}_X^{-1}\mathbf{P}^{-1}\mathbf{P} \\
&=&\mathbf{\Phi}_X^{-1}
\end{eqnarray*}

c.f. 統計学のための数学入門30講 p89

(AB)^T=B^{\top}A^{\top}

c.f. 統計学のための数学入門30講 p99

(AB)^{-1}=B^{-1}A^{-1}

\mathbf{\Phi}_X=\mathbf{E}\mathbf{D}\mathbf{E}^{\top}

c.f. 統計学のための数学入門30講 p145

\begin{eqnarray*}
\mathbf{\Phi}_X^{-1}&=&(\mathbf{E}\mathbf{D}\mathbf{E}^{\top})^{-1} \\
&=&{(\mathbf{E}\mathbf{D})\mathbf{E}^{\top}}^{-1} \\
&=&(\mathbf{E}^{\top})^{-1}(\mathbf{E}\mathbf{D})^{-1} \\
&=&(\mathbf{E}^{\top})^{-1}\mathbf{D}^{-1}\mathbf{E}^{-1} \\
&=&\mathbf{E}\mathbf{E}^{\top}(\mathbf{E}^{-1})\mathbf{D}^{-1}\mathbf{E}^{-1}(\mathbf{E}\mathbf{E}^{-1}) \\
&=&\mathbf{E}\mathbf{D}^{-1}\mathbf{E}^{\top}
\end{eqnarray*}

5.6 ディープネットの事前学習

とくになし

5.7 その他の自己符号化器

とくになし

⇒ 次は、講談社機械学習プロフェッショナルシリーズ『深層学習』の学習第6章畳込みニューラルネットへ

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

講談社機械学習プロフェッショナルシリーズ『深層学習』の学習 第5章 自己符号化器

第5章 自己符号化器

5.1 概要

5.2 ネットワークの設計

5.2.1 出力層の活性化関数と誤差関数

5.2.2 重み共有

5.3 自己符号化器の働き

5.3.1 データを表す特徴の学習

5.3.2 主成分分析との関係

5.4 スパース正則化

5.4.1 データの過完備な表現

5.4.2 最適化

5.4.3 スパース正則化の効果

5.5 データの白色化

5.6 ディープネットの事前学習

5.7 その他の自己符号化器

講談社機械学習プロフェッショナルシリーズ『深層学習』の学習第5章自己符号化器

第5章自己符号化器