Qiita Teams that are logged in
You are not logged in to any team

Log in to Qiita Team
Community
OrganizationEventAdvent CalendarQiitadon (β)
Service
Qiita JobsQiita ZineQiita Blog
11
Help us understand the problem. What are the problem?

More than 3 years have passed since last update.

posted at

updated at

講談社機械学習プロフェッショナルシリーズ『深層学習』の学習 第1章 はじめに、第2章 順伝播型ネットワークの学習

注意:『深層学習 (機械学習プロフェッショナルシリーズ)

を読むにあたって、自分が読みたいな、こんな記事があったら参考になるな、という基準で書いております。私は機械学習も数学も専門家ではないので誤っている箇所も多々あるかと思いますが参考となると幸いです。

第1章 はじめに

特になし

第2章 順伝播型ネットワークの学習

2.1 ユニットの出力

特になし

2.2 活性化関数

  • p10 開区間、閉区間
() は開区間 \\
[] は閉区間

開区間はその値は含まない。閉区間はその値を含む。
(-1, 1)は -1, 1 は含まない。[-1, 1]は -1, 1 を含む。

2.3 多層ネットワーク

  • p14 恒等演算子
\equiv

は恒等演算子。単なる「等しい」ではなく、左辺と右辺が常に等しいという意味。

2.4 出力層の設計と誤差関数

  • p15
\approx:ほぼ等しい。

≒は日本でのみ通用するとのこと。

c.f. Wikipedia:数学記号の表

  • p16 ノルム
\|\| はノルム \\
\|\mathbf{d}-\mathbf{y}(\mathbf{x};\mathbf{w})\|^2 = \sqrt{(d_1-y_1)^2+(d_2-y_2)^2+...+(d_n-y_n)^2} \\

ノルムは距離を表す。特に指定のないときはユークリッド距離。

  • p17 Π, (2.8)
\Pi_{n=1}^N{p(d_n|\mathbf{x}_n;\mathbf{w})}

Σは足し算ですが、これは掛け算。n=1, 2, ..., Nについて、

p(d_1|x_1;\mathbf{w}) \times p(d_2|x_2;\mathbf{w}) \times ... \times p(d_N|x_N;\mathbf{w})

Σは高校2年の基礎解析(古くてごめんなさい、今なら数ⅡBか)に出てきたけどΠは知らないうちに出てきた気がする。

\begin{align}
E(\mathbf{w})&=-log{L(\mathbf{w})} \\
&=-log[\Pi_{n=1}^N \{y(\mathbf{x_n};\mathbf{w})\}^{d_n} \{1-y(\mathbf{x}_n;\mathbf{w})\}^{1-d_n}] \\
&=-\sum_{n=1}^N[d_n\log{y(\mathbf{x}_n;\mathbf{w})+(1-d_n)\log{\{1-y(\mathbf{x}_n;\mathbf{w})}\}}]   (2.8)
\end{align}
  • p19 行列とベクトルの転置

転置行列の記号は本によってまちまちなので、念のため。以下はすべて同じ転置行列の記号です。

\mathbf{A}^{\top}, \mathbf{A}^\mathrm{T}, {}^t\!\mathbf{A}

転置とは行と列を反転させることであり、ベクトルの場合は縦ベクトルが横ベクトルとなる。

\mathbf{A} = \left(
    \begin{array}{c}
      a_1 \\
      a_2 \\
      \vdots \\
      a_n
    \end{array}
  \right) \\

\mathbf{A}^{\mathrm{T}} = \left(
     \begin{array}{c}
       a_1, a_2, \dots, a_n
    \end{array}
   \right)
  • p20
クラスがC_1, C_2, C_3, ..., C_KのK個あり、 \\ 
(2.7)よりそれぞれのクラス確率 p(C_k|\mathbf{x}) の積として表わされるので \\
p(\mathbf{d}|\mathbf{x})=\Pi_{k=1}^K{p(C_k|\mathbf{x})^{d_k}}

ここで、

L(\mathbf{w})=\Pi_{n=1}^{N}{\Pi_{k=1}^{K}{(y_k(\mathbf{x};\mathbf{w}))^{d_{nk}}}}

の対数をとり、符号を反転させるから

\begin{align}
\log{ab}&=\log{a}+\log{b} \\
\log{c^d}&=d\log{c}
\end{align}

を用いて

\begin{align}
-\log{L}&=-\log{[\Pi_{n=1}^{N}{\Pi_{k=1}^{K}{(y_k(\mathbf{x};\mathbf{w}))^{d_{nk}}}}]} \\
E(\mathbf{w})&=-\sum_{n=1}^{N}{\sum_{k=1}^{K}{d_{nk}\log{y_k(\mathbf{x};\mathbf{w})}}}
\end{align}

⇒ 次は、 講談社機械学習プロフェッショナルシリーズ『深層学習』の学習 第3章 確率的勾配降下法

Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
11
Help us understand the problem. What are the problem?