More than 5 years have passed since last update.

講談社機械学習プロフェッショナルシリーズ『深層学習』の学習第1章はじめに、第2章順伝播型ネットワークの学習

Last updated at 2017-05-04Posted at 2016-04-10

注意：『深層学習 (機械学習プロフェッショナルシリーズ)』

を読むにあたって、自分が読みたいな、こんな記事があったら参考になるな、という基準で書いております。私は機械学習も数学も専門家ではないので誤っている箇所も多々あるかと思いますが参考となると幸いです。

第1章はじめに

特になし

第2章順伝播型ネットワークの学習

2.1 ユニットの出力

特になし

2.2 活性化関数

p10 開区間、閉区間

() は開区間 \\
[] は閉区間

開区間はその値は含まない。閉区間はその値を含む。
(-1, 1)は -1, 1 は含まない。[-1, 1]は -1, 1 を含む。

2.3 多層ネットワーク

p14 恒等演算子

\equiv

は恒等演算子。単なる「等しい」ではなく、左辺と右辺が常に等しいという意味。

2.4 出力層の設計と誤差関数

\approx：ほぼ等しい。

≒は日本でのみ通用するとのこと。

c.f. Wikipedia:数学記号の表

p16 ノルム

\|\| はノルム \\
\|\mathbf{d}-\mathbf{y}(\mathbf{x};\mathbf{w})\|^2 = \sqrt{(d_1-y_1)^2+(d_2-y_2)^2+...+(d_n-y_n)^2} \\

ノルムは距離を表す。特に指定のないときはユークリッド距離。

p17 Π, (2.8)

\Pi_{n=1}^N{p(d_n|\mathbf{x}_n;\mathbf{w})}

Σは足し算ですが、これは掛け算。n=1, 2, ..., Nについて、

p(d_1|x_1;\mathbf{w}) \times p(d_2|x_2;\mathbf{w}) \times ... \times p(d_N|x_N;\mathbf{w})

Σは高校2年の基礎解析（古くてごめんなさい、今なら数ⅡBか）に出てきたけどΠは知らないうちに出てきた気がする。

\begin{align}
E(\mathbf{w})&=-log{L(\mathbf{w})} \\
&=-log[\Pi_{n=1}^N \{y(\mathbf{x_n};\mathbf{w})\}^{d_n} \{1-y(\mathbf{x}_n;\mathbf{w})\}^{1-d_n}] \\
&=-\sum_{n=1}^N[d_n\log{y(\mathbf{x}_n;\mathbf{w})+(1-d_n)\log{\{1-y(\mathbf{x}_n;\mathbf{w})}\}}]　　　(2.8)
\end{align}

p19 行列とベクトルの転置

転置行列の記号は本によってまちまちなので、念のため。以下はすべて同じ転置行列の記号です。

\mathbf{A}^{\top}, \mathbf{A}^\mathrm{T}, {}^t\!\mathbf{A}

転置とは行と列を反転させることであり、ベクトルの場合は縦ベクトルが横ベクトルとなる。

\mathbf{A} = \left(
    \begin{array}{c}
      a_1 \\
      a_2 \\
      \vdots \\
      a_n
    \end{array}
  \right) \\

\mathbf{A}^{\mathrm{T}} = \left(
     \begin{array}{c}
       a_1, a_2, \dots, a_n
    \end{array}
   \right)

クラスがC_1, C_2, C_3, ..., C_KのK個あり、 \\ 
(2.7)よりそれぞれのクラス確率 p(C_k|\mathbf{x}) の積として表わされるので \\
p(\mathbf{d}|\mathbf{x})=\Pi_{k=1}^K{p(C_k|\mathbf{x})^{d_k}}

ここで、

L(\mathbf{w})=\Pi_{n=1}^{N}{\Pi_{k=1}^{K}{(y_k(\mathbf{x};\mathbf{w}))^{d_{nk}}}}

の対数をとり、符号を反転させるから

\begin{align}
\log{ab}&=\log{a}+\log{b} \\
\log{c^d}&=d\log{c}
\end{align}

を用いて

\begin{align}
-\log{L}&=-\log{[\Pi_{n=1}^{N}{\Pi_{k=1}^{K}{(y_k(\mathbf{x};\mathbf{w}))^{d_{nk}}}}]} \\
E(\mathbf{w})&=-\sum_{n=1}^{N}{\sum_{k=1}^{K}{d_{nk}\log{y_k(\mathbf{x};\mathbf{w})}}}
\end{align}

⇒ 次は、講談社機械学習プロフェッショナルシリーズ『深層学習』の学習第3章確率的勾配降下法へ

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

講談社機械学習プロフェッショナルシリーズ『深層学習』の学習 第1章 はじめに、第2章 順伝播型ネットワークの学習

第1章 はじめに

第2章 順伝播型ネットワークの学習