注意:『深層学習 (機械学習プロフェッショナルシリーズ)』
を読むにあたって、自分が読みたいな、こんな記事があったら参考になるな、という基準で書いております。私は機械学習も数学も専門家ではないので誤っている箇所も多々あるかと思いますが参考となると幸いです。
第5章 自己符号化器
5.1 概要
とくになし
5.2 ネットワークの設計
5.2.1 出力層の活性化関数と誤差関数
p20 (2.11)より、交差エントロピーは、
E(\mathbf{w})=-\Sigma_{n=1}^N{\Sigma_{k=1}^K{d_{nk}\log{y_k(\mathbf{x}_n;\mathbf{w})}}}
ここで、Nはサンプルデータの数で、Kは出力ノードの数。ふたつ目のΣのみに注目すると
\begin{align}
&=-\Sigma_{k=1}^K{d_{nk}\log{y_k(\mathbf{x}_n;\mathbf{w})}} \\
ここで y_n(\mathbf{x}_n;\mathbf{w})=\hat{x}_n(\mathbf{x}) また d_n=x_n より、\\
&=-[x_n\log{\hat{x}_n(\mathbf{x})}+(1-x_n)\log{\{1-\hat{x}_n(\mathbf{x}})\}] \\
E(\mathbf{w})&=\Sigma_{n=1}^N{C(\mathbf{x}_n, \hat{\mathbf{x}}_n)} と照らし合わせれば(ここで、Kの代わりにDを持ってきているのが分かりませんが、、、)\\
C(\mathbf{x}, \hat{\mathbf{x}})&=-\Sigma_{i=1}^D{[x_i\log{\hat{x}_i(\mathbf{x})}+(1-x_i)\log{\{1-\hat{x}_i(\mathbf{x}})\}]}
\end{align}
5.2.2 重み共有
とくになし
5.3 自己符号化器の働き
5.3.1 データを表す特徴の学習
とくになし
5.3.2 主成分分析との関係
- 行列のランク
- 行列Aのランク=行列A内の列ベクトルの線形独立なものの数。m x n行列の場合min(m, n)がその行列の最大ランクとなる。
上記から、
D_y\geq D_x \\
ならば最大ランクは D_x \\
D_x \times D_x の行列の最大ランクは D_x なのでフルランクとなり得る。 \\
D_y\leq D_x \\
ならばD_x \times D_x の行列の最大ランクは D_x \geq D_y なのでフルランクとなり得ない。 \\
(筆者注:D_y \lt D_x じゃないだろうか)
後半未消化、、、
5.4 スパース正則化
5.4.1 データの過完備な表現
重み減衰の場合は重みwを小さくすることとしたが、スパース正則化の場合は多くのユニットが活性化しないことを目指す。ここでカルバック・ライブラーダイバージェンスを用いている。
- カルバック・ライブラーダイバージェンス(カルバック・ライブラー情報量、カルバック距離)
- KL情報量を最小化にするθを探すということは一般的な「最尤推定」を行うのと等価
- 数学的性質は
- パターン認識と機械学習 上p54 1.6.1 相対エントロピーと相互情報量
- パターン認識と機械学習の学習―ベイズ理論に挫折しないための数学p31 3.8 カルバック距離
- プログラミングのための確率統計p352 C.3 Kullback-Leibler divergenceと大偏差原理
- ここらへんを押し進めると情報幾何に分け入るのか。恐ろしくもあり夢もある。
5.4.2 最適化
重み減衰の場合は
\tilde{E}(\mathbf{w})=E(\mathbf{w})+\frac{\lambda}{2}\|\mathbf{w}\|^2
のような形になる。
5.4.3 スパース正則化の効果
特になし
5.5 データの白色化
共分散行列については 統計学のための数学入門30講 p97 。
\begin{eqnarray*}
\mathbf{\Phi}_U&=&\frac{1}{N}\mathbf{U}\mathbf{U}^{\top} \\
&=&\frac{1}{N}(\mathbf{P}\mathbf{X})(\mathbf{P}\mathbf{X})^{\top} \\
&=&\frac{1}{N}(\mathbf{P}\mathbf{X})\mathbf{X}^{\top}\mathbf{P} \\
&=&\mathbf{P}\mathbf{\Phi}_X\mathbf{P}^{\top}=\mathbf{I} \\
\mathbf{P}^{\top}&=&(\mathbf{P}\mathbf{\Phi}_X)^{-1} \\
\mathbf{P}^{\top}\mathbf{P}&=&\mathbf{\Phi}_X^{-1}\mathbf{P}^{-1}\mathbf{P} \\
&=&\mathbf{\Phi}_X^{-1}
\end{eqnarray*}
c.f. 統計学のための数学入門30講 p89
(AB)^T=B^{\top}A^{\top}
c.f. 統計学のための数学入門30講 p99
(AB)^{-1}=B^{-1}A^{-1}
\mathbf{\Phi}_X=\mathbf{E}\mathbf{D}\mathbf{E}^{\top}
c.f. 統計学のための数学入門30講 p145
\begin{eqnarray*}
\mathbf{\Phi}_X^{-1}&=&(\mathbf{E}\mathbf{D}\mathbf{E}^{\top})^{-1} \\
&=&{(\mathbf{E}\mathbf{D})\mathbf{E}^{\top}}^{-1} \\
&=&(\mathbf{E}^{\top})^{-1}(\mathbf{E}\mathbf{D})^{-1} \\
&=&(\mathbf{E}^{\top})^{-1}\mathbf{D}^{-1}\mathbf{E}^{-1} \\
&=&\mathbf{E}\mathbf{E}^{\top}(\mathbf{E}^{-1})\mathbf{D}^{-1}\mathbf{E}^{-1}(\mathbf{E}\mathbf{E}^{-1}) \\
&=&\mathbf{E}\mathbf{D}^{-1}\mathbf{E}^{\top}
\end{eqnarray*}
5.6 ディープネットの事前学習
とくになし
5.7 その他の自己符号化器
とくになし