Help us understand the problem. What is going on with this article?

講談社機械学習プロフェッショナルシリーズ『深層学習』の学習 第1章 はじめに、第2章 順伝播型ネットワークの学習

More than 3 years have passed since last update.

注意:『深層学習 (機械学習プロフェッショナルシリーズ)

を読むにあたって、自分が読みたいな、こんな記事があったら参考になるな、という基準で書いております。私は機械学習も数学も専門家ではないので誤っている箇所も多々あるかと思いますが参考となると幸いです。

第1章 はじめに

特になし

第2章 順伝播型ネットワークの学習

2.1 ユニットの出力

特になし

2.2 活性化関数

  • p10 開区間、閉区間
() は開区間 \\
[] は閉区間

開区間はその値は含まない。閉区間はその値を含む。
(-1, 1)は -1, 1 は含まない。[-1, 1]は -1, 1 を含む。

2.3 多層ネットワーク

  • p14 恒等演算子
\equiv

は恒等演算子。単なる「等しい」ではなく、左辺と右辺が常に等しいという意味。

2.4 出力層の設計と誤差関数

  • p15
\approx:ほぼ等しい。

≒は日本でのみ通用するとのこと。

c.f. Wikipedia:数学記号の表

  • p16 ノルム
\|\| はノルム \\
\|\mathbf{d}-\mathbf{y}(\mathbf{x};\mathbf{w})\|^2 = \sqrt{(d_1-y_1)^2+(d_2-y_2)^2+...+(d_n-y_n)^2} \\

ノルムは距離を表す。特に指定のないときはユークリッド距離。

  • p17 Π, (2.8)
\Pi_{n=1}^N{p(d_n|\mathbf{x}_n;\mathbf{w})}

Σは足し算ですが、これは掛け算。n=1, 2, ..., Nについて、

p(d_1|x_1;\mathbf{w}) \times p(d_2|x_2;\mathbf{w}) \times ... \times p(d_N|x_N;\mathbf{w})

Σは高校2年の基礎解析(古くてごめんなさい、今なら数ⅡBか)に出てきたけどΠは知らないうちに出てきた気がする。

\begin{align}
E(\mathbf{w})&=-log{L(\mathbf{w})} \\
&=-log[\Pi_{n=1}^N \{y(\mathbf{x_n};\mathbf{w})\}^{d_n} \{1-y(\mathbf{x}_n;\mathbf{w})\}^{1-d_n}] \\
&=-\sum_{n=1}^N[d_n\log{y(\mathbf{x}_n;\mathbf{w})+(1-d_n)\log{\{1-y(\mathbf{x}_n;\mathbf{w})}\}}]   (2.8)
\end{align}
  • p19 行列とベクトルの転置

転置行列の記号は本によってまちまちなので、念のため。以下はすべて同じ転置行列の記号です。

\mathbf{A}^{\top}, \mathbf{A}^\mathrm{T}, {}^t\!\mathbf{A}

転置とは行と列を反転させることであり、ベクトルの場合は縦ベクトルが横ベクトルとなる。

\mathbf{A} = \left(
    \begin{array}{c}
      a_1 \\
      a_2 \\
      \vdots \\
      a_n
    \end{array}
  \right) \\

\mathbf{A}^{\mathrm{T}} = \left(
     \begin{array}{c}
       a_1, a_2, \dots, a_n
    \end{array}
   \right)
  • p20
クラスがC_1, C_2, C_3, ..., C_KのK個あり、 \\ 
(2.7)よりそれぞれのクラス確率 p(C_k|\mathbf{x}) の積として表わされるので \\
p(\mathbf{d}|\mathbf{x})=\Pi_{k=1}^K{p(C_k|\mathbf{x})^{d_k}}

ここで、

L(\mathbf{w})=\Pi_{n=1}^{N}{\Pi_{k=1}^{K}{(y_k(\mathbf{x};\mathbf{w}))^{d_{nk}}}}

の対数をとり、符号を反転させるから

\begin{align}
\log{ab}&=\log{a}+\log{b} \\
\log{c^d}&=d\log{c}
\end{align}

を用いて

\begin{align}
-\log{L}&=-\log{[\Pi_{n=1}^{N}{\Pi_{k=1}^{K}{(y_k(\mathbf{x};\mathbf{w}))^{d_{nk}}}}]} \\
E(\mathbf{w})&=-\sum_{n=1}^{N}{\sum_{k=1}^{K}{d_{nk}\log{y_k(\mathbf{x};\mathbf{w})}}}
\end{align}

⇒ 次は、 講談社機械学習プロフェッショナルシリーズ『深層学習』の学習 第3章 確率的勾配降下法

aokikenichi
質問は気軽にコメント欄かTwitterへ Q&Aサイト https://teratail.com/users/aokikenichi こんな本を読んでいます https://booklog.jp/users/aokikenichi/ 技術系以外の記事はnoteへ https://note.com/aokikenichi
https://twitter.com/aokikenichi/
Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away