LoginSignup
11
11

More than 5 years have passed since last update.

講談社機械学習プロフェッショナルシリーズ『深層学習』の学習 第1章 はじめに、第2章 順伝播型ネットワークの学習

Last updated at Posted at 2016-04-10

注意:『深層学習 (機械学習プロフェッショナルシリーズ)

を読むにあたって、自分が読みたいな、こんな記事があったら参考になるな、という基準で書いております。私は機械学習も数学も専門家ではないので誤っている箇所も多々あるかと思いますが参考となると幸いです。

第1章 はじめに

特になし

第2章 順伝播型ネットワークの学習

2.1 ユニットの出力

特になし

2.2 活性化関数

  • p10 開区間、閉区間
() は開区間 \\
[] は閉区間

開区間はその値は含まない。閉区間はその値を含む。
(-1, 1)は -1, 1 は含まない。[-1, 1]は -1, 1 を含む。

2.3 多層ネットワーク

  • p14 恒等演算子
\equiv

は恒等演算子。単なる「等しい」ではなく、左辺と右辺が常に等しいという意味。

2.4 出力層の設計と誤差関数

  • p15
\approx:ほぼ等しい。

≒は日本でのみ通用するとのこと。

c.f. Wikipedia:数学記号の表

  • p16 ノルム
\|\| はノルム \\
\|\mathbf{d}-\mathbf{y}(\mathbf{x};\mathbf{w})\|^2 = \sqrt{(d_1-y_1)^2+(d_2-y_2)^2+...+(d_n-y_n)^2} \\

ノルムは距離を表す。特に指定のないときはユークリッド距離。

  • p17 Π, (2.8)
\Pi_{n=1}^N{p(d_n|\mathbf{x}_n;\mathbf{w})}

Σは足し算ですが、これは掛け算。n=1, 2, ..., Nについて、

p(d_1|x_1;\mathbf{w}) \times p(d_2|x_2;\mathbf{w}) \times ... \times p(d_N|x_N;\mathbf{w})

Σは高校2年の基礎解析(古くてごめんなさい、今なら数ⅡBか)に出てきたけどΠは知らないうちに出てきた気がする。

\begin{align}
E(\mathbf{w})&=-log{L(\mathbf{w})} \\
&=-log[\Pi_{n=1}^N \{y(\mathbf{x_n};\mathbf{w})\}^{d_n} \{1-y(\mathbf{x}_n;\mathbf{w})\}^{1-d_n}] \\
&=-\sum_{n=1}^N[d_n\log{y(\mathbf{x}_n;\mathbf{w})+(1-d_n)\log{\{1-y(\mathbf{x}_n;\mathbf{w})}\}}]   (2.8)
\end{align}
  • p19 行列とベクトルの転置

転置行列の記号は本によってまちまちなので、念のため。以下はすべて同じ転置行列の記号です。

\mathbf{A}^{\top}, \mathbf{A}^\mathrm{T}, {}^t\!\mathbf{A}

転置とは行と列を反転させることであり、ベクトルの場合は縦ベクトルが横ベクトルとなる。

\mathbf{A} = \left(
    \begin{array}{c}
      a_1 \\
      a_2 \\
      \vdots \\
      a_n
    \end{array}
  \right) \\

\mathbf{A}^{\mathrm{T}} = \left(
     \begin{array}{c}
       a_1, a_2, \dots, a_n
    \end{array}
   \right)
  • p20
クラスがC_1, C_2, C_3, ..., C_KのK個あり、 \\ 
(2.7)よりそれぞれのクラス確率 p(C_k|\mathbf{x}) の積として表わされるので \\
p(\mathbf{d}|\mathbf{x})=\Pi_{k=1}^K{p(C_k|\mathbf{x})^{d_k}}

ここで、

L(\mathbf{w})=\Pi_{n=1}^{N}{\Pi_{k=1}^{K}{(y_k(\mathbf{x};\mathbf{w}))^{d_{nk}}}}

の対数をとり、符号を反転させるから

\begin{align}
\log{ab}&=\log{a}+\log{b} \\
\log{c^d}&=d\log{c}
\end{align}

を用いて

\begin{align}
-\log{L}&=-\log{[\Pi_{n=1}^{N}{\Pi_{k=1}^{K}{(y_k(\mathbf{x};\mathbf{w}))^{d_{nk}}}}]} \\
E(\mathbf{w})&=-\sum_{n=1}^{N}{\sum_{k=1}^{K}{d_{nk}\log{y_k(\mathbf{x};\mathbf{w})}}}
\end{align}

⇒ 次は、 講談社機械学習プロフェッショナルシリーズ『深層学習』の学習 第3章 確率的勾配降下法

11
11
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
11
11