More than 5 years have passed since last update.

深層学習 by 岡谷貴之さん > キーワード

Last updated at 2017-08-30Posted at 2016-10-11

本

MPL (機械学習プロフェッショナルシリーズ)
深層学習 by 岡谷貴之さん

キーワードだけ。
索引に載っていないもの(あるいは気になったもの)。索引は重要。もっと増えて欲しい。

用語の索引は英語索引が一切ない。一方で、日本語用語登場時には英語表記も併記している。こういう場合、英語表記が正しくない場合もあり注意が必要かも。

勾配消失問題 (p2)
Fukushimaらのネオコグニトロン (p2)
LeCunら, 誤差逆伝播法 (p2)
HintonらのDBN (p3)
制約ボルツマンマシン (p3)
- restricted Boltzmann machine, RBM
自己符号化器 (auto-encoder) (p3)
スパース符号化 (sparse coding) (p4)
哺乳類の脳の初期(低次)視覚野 (p4)
ガボールウェーブレット状の基底 (p4)
feedforward neural network (p7)
- multi-layer perceptron
活性化関数 (activation function) (p8)
ロジスティックシグモイド関数 (p10)
シグモイド関数 (p10)
正規化線形関数 (rectified linear function) (p11)
ReLU (Rectified Linear Unit) (p11)
回帰問題, 恒等写像 (p11)
マックスアウト (maxout) (p12)
表2.1 問題の種別による出力層および誤差関数の違い (p15)
- 回帰
- 二値分割
- 多クラス分類
訓練サンプル, 訓練データ (p15)
二乗誤差 (p16)
E(w) (p16)
事後確率 p(d=1|x) (p16)
事後分布 p(d|x;w) (p17)
最尤推定 (maximum likelihood estimation) (p17)
尤度 (likelihood) (p17)
対数関数の単調性, 尤度の対数をとり (p17)
事後確率, 条件付き確率の定義 (p17)
ソフトマックス関数 (softmax function) (p19)
- 定義式
- 総和がいつも1
点で特殊です (p19)
d_n (p19)
ソフトマックス関数, RBF, 中間層 (p19)
交差エントロピー (cross entropy) (p20)
クラスC_kの事後確率, ソフトマックス関数の導出, log (p20)
ソフトマックス関数, 一律, 加算 (p20)
出力層, 制約, 重み減衰, 強制的に0 (p21)
誤差関数 E(w) (p23)
回帰問題, 誤差関数 (p23)
argmin (p24)
局所的な極小点w (p24)
勾配降下法 (gradient descent method) (p24)
勾配 (gradient), 定義式 (p24)
学習係数 (learning rate) (p24)
最小化手法, 2次微分を利用するニュートン法 (p25)
ニュートン法やその派生方法 (準ニュートン法) (p25)
バッチ学習 (batch learning) (p25)
確率的勾配降下法 (stochastic gradient descent) (p25)
確率的勾配降下法, いくつかの長所 (p26)
訓練データ, 水増しの影響 (p26)
ミニバッチ (minibatch) (p26)
N_tで正規化する係数を調整 (p27)
ミニバッチのサイズを決める系統的なやり方 (p27)
訓練誤差 (training error) (p28)
汎化誤差 (generalization error) (p28)
早期終了 (early stopping), 早期打ち切り (p29)
重みの自由度を制約, 正則化 (regularization) (p29)
重み減衰 (weight decay) (p30)
重み上限 (p30)
ドロップアウト (p30)
中間層, 入力層, ランダムに選出, それ以外を無効化 (p31)
過適合を避ける (p31)
ドロップアウト, 畳込み層 (p32)
RBM, DBM, ドロップアウト (p32)
CIFAR-100 (p33)
ドロップコネクト (p33)
確率的最大プーリング (p33)
データの正規化 (normalization of data) (p33)
データの標準化 (standardization of data) (p33)
水増し, データ拡張 (data augmentation) (p35)
ガウス分布に従うランダムノイズを一律に加える (p35)
複数ネットの平均, モデル平均 (model averaging) (p35)
学習係数を決める, 定番といえる考え方, 2つ (p36)
学習係数, 重みの共有数の平方根に比例するように (p37)
誤差関数の勾配, g_t (p37)
勾配降下法, 収束性能, モメンタム (momentum) (p37)
誤差関数, 谷底, 高低差がない, 勾配降下法の効率 (p37)
重みの初期化, ガウス分布 (p38)
バイアスの初期値 (p39)
誤差が大きいサンプル, 順に掲示 (p40)
二乗誤差, 微分 (p41)
微分の連鎖規則 (p42)
出力層の重みについての微分 (p43)
中間層の重みについての微分 (p44)
多層ネットワーク, 誤差勾配 (p45)
デルタ (delta) (p46)
任意の中間層lについて成立 (p47)
デルタは出力層から入力層の向き, (p47)
w_{ji}^(l)に関する微分 (p47)
回帰、誤差関数、二乗誤差 (p49)
多クラス分類、出力層の活性化関数、ソフトマックス関数 (p49)
W, X, Z (p50)
1_N, 1をN個並べたベクトル (p50)
表4.1 活性化関数の微分 (p51)
- ロジスティクス関数
- 双曲線正接関数
- 正規化線形関数
Y, D, Δ^(l) (p51)
☉、行列の成分ごとの積 (p51)
重み減衰、モメンタム、Wとbの更新量 (p52)
誤差関数Eの勾配の差分近似 (difference approximation) (p52)
εを加算する、ε->0の極限をとる (p53)
計算機イプシロンをε_cとしたとき (p53)
順伝播は非線形計算、逆伝播は線形計算 (p53)
勾配消失問題 (vanishing gradient problem) (p54)
事前学習, 5.6説で説明する (p54)
自動符号化器 (p55)
ディープネットの事前学習 (p55)
y, xの符号(code) (p56)
符号化(encode), 復号化(decode) (p56)
- 「復号化」は「復号」の方が正しいようです
  - 「暗号化」の反対は「復号化」じゃなくて「復号」なんだよ
恒等写像 (p57)
xxxに制約がない, 誤差関数, 二乗誤差の総和 (p57)
xxxとxxxのxxxをとるとき、誤差関数, 交差エントロピー (p57)
Dx: 入力層のユニット数 (p57)
Dy: 中間層のユニット数 (p57)
重み共有 (weight sharing, weight tying) (p58)
(データを表す)特徴(feature) (p58)
サンプルxの別な「表現」であるy (p58)
各入力に対する再現, 少しぼやけている (p59)
WとW(tilde)をうまく選ぶと二者の積をIとできる (p61)
活性化関数が線形関数の場合、意味のある結果を得るには... (p61)
主成分分析 (principal component analysis, PCA) (p61)
Φ: 訓練サンプル {x1, ...,xn}の共分散行列 (p61)
データがある低次元部分空間内にのみ偏って存在する場合...(p61)
固有値の降順にΦのDy個の固有ベクトルを選び (p61)
これを行ベクトルとして格納した行列U_{Dy} (p61)
最小化問題の階 (p61)
主成分分析つまりΦの固有ベクトルはxxxと解釈できる (p62)
一般に良い特徴とは (p62)
過完備な(overcomplete)表現 (p62)
スパース正則化の考え方 (p62)
基本となる考え方...となるような制約を追加します (p63)
元の誤差関数E(w)にある正則化項を加えた... (p63)
KL(rho || rho^_j)は後述のようにこれら2つの近さを与えます (p63)
2つのベルヌーイ分布のカルバック・ライブラー・ダイバージェンスを表します(図5.5) (p64)
つまり... (p64)
スパース正則化と同様の正則化, 3.5.2項で述べた重み減衰があります (p64)
スパース正則化の場合はxxxに対する制約であり (p64)
l層のユニットjのデルタは (p65)
修正されたデルタの計算式 (式5.4) (p65)
出力層は正則化の対象外 (p65)
平均活性度, 厳密に求めるには (p65)
ミニバッチを使用して学習する場合 (p66)
数字を分解した「ストローク」のようなもの (p66)
自動符号化器は、入力されたサンプルを、中間層の各ユニットが「分担」して表現します (p66)
学習時のスパース正則化はxxxする働きがあるといえます (p66)
訓練データ, 偏り, 学習の妨げ (p67)
偏りを除去 (p67)
白色化 (whitening) (P68)
白色化の狙いは (p68)
共分散行列 ΦX (p68)
X=[X1・・・XN] (p68)
この共分散行列ΦXの(p,q)成分はxxxを示します (p68)
仮に成分ごとの分散を1に正規化した後でも... (p68)
逆に共分散行列が対角行列であれば... (p68)
式(5.5)を満たすPは (p68)
E, 固有ベクトルを列ベクトルに持つ行列 (p68)
ΦX, 分解できます (p69)
D, 対角行列 (p69)
共分散行列の固有ベクトルを利用することは (p69)
PCA白色化 (p69)
対称行列 (p69)
ゼロ位相白色化 (zero-phase whitening) (p69)
ゼロ位相成分分析 (zero-phase component analysis, ZCA) (p69)
小さい値ε (p69)
ZCA白色化 (p70)
PCA白色化 (p70)
xxxを強調するような働き, オンセンタ (on-center) (p70)
離散コサイン変換の基底 (p70)
特定の空間周波数・位相にチューニング (p71)
自然画像, 低い周波数ほど大きい (p71)
勾配消失問題, 事前学習 (p72)
複数の単層ネットワークに分割 (p72)
積層自己符号化器 (stacked autoencoder) (p73)
事前学習で得たパラメータを初期値に使うと (p74)
特徴抽出器 (p74)
サポートベクトルマシン (p74)
事前学習がうまく機能する, なぜそうなるかは (p74)
多層自己符号化器 (deep autoencoder) (p74)
8章で述べる制約ボルツマンマシン (RBM) (p75)
RBM, 確率的な生成モデル, 学習 (p75)
デノイジング自己符号化器 (denoising autoencoder) (p75)
学習, 確率的な要素 (p75)
平均0, 分散σ^2のガウス分布に従うランダムノイズ (p76)
...この点が違いです (p76)
これが名前の由来です @ 5.7.2 デノイジング自己符号化器 (p76)
訓練データの発生メカニズム, 反映 (p76)
- 例, xが画像, 画像でよく発生するノイズ
加算的ノイズの他 (p76)
- マスク状のノイズ
- ソルト & ペッパーノイズ (p77)
畳込みニューラルネット (p79)
- 畳込み層
- プーリング層
畳込みネットの特徴 (p79)
全結合 (fully-connected) (p79)
生物の脳, 視覚野 (visual cortex) (p79)
- (余談) Voyagerでのcortex stimulator
神経細胞の受容野 (receptive field), 局所性 (p79)
単純型細胞 (simple cell) (p79)
複雑型細胞 (complex cell) (p79)
図6.1 順伝播型ネットワークの層間結合の違い (p80)
- (a) 全結合層
- (b) 畳込み層とプーリング層の構造
受容野 (receptive field) (p80)
選択的振る舞い (p80)
単純型細胞, 位置選択性, 複雑型細胞 (p80)
図6.2 単純型細胞と複雑型細胞のモデル (p81)
中間層のユニット, 入力パターンの位置変化 (p81)
出力層のユニット, (入力パターンの)位置ずれ (p81)
ネオコグニトロン (p81)
多層の畳込みネット, 画像認識の問題全般 (p82)
霊長類の脳の高次視覚野, 電気生理学的な実験 (p82)
畳込み層 (convolution layer) (p82)
プーリング層 (pooling layer) (p82)
局所コントラスト正規化 (local contrast normalization, LCN)層, 挿入 (p82)
全結合層 (fully-connected layer) (p82)
クラス分類, ソフトマックス層 (p83)
W: 画像サイズ (W x W 画素) (p83)
(i,j): 画素のインデックス (p83)
- (i = 0, ..., W-1)
- (j = 0, ..., W-1)
フィルタ (p83)
H: フィルタのサイズ (H x H) (p83)
(p,q): フィルタ画素のインデックス (p83)
- (p = 0, ..., H-1)
- (q = 0, ..., H-1)
h_pq : 画素値 (p83)
- 任意の実数値を取る
画像の畳込み, 式(6.1) (p83)
本来の畳込み, (6.1)の次の式 (p83)
...実質的な違いはない (p83)
畳込みの働き (p84)
- フィルタの濃淡パターン, 検出
パディング, 画像からフィルタがはみだし (p85)
畳込み結果の画像のサイズ (p85)
$\lfloor\cdot\rfloor$ : 小数点以下を切りsげて整数化 (p85)
外側に幅 $\lfloor H/2 \rfloor$
ゼロパディング (zero-padding) (p85)
ゼロパディング, 画像処理の観点, 0以外, いくつかのテクニック (p86)
ストライド (stride) s (p86)
出力画像サイズ (p86)
畳込み層の出力側のユニット数が大きくなりすぎる (p87)
ストライドを大きくすることは (p87)
多チャネルの画像とは (p87)
K: チャネル数 (p87)
K = 3 (入力), 中間層では K = (p87)
マップ (map) : 中間層での出力 (p87)
画素ごとに全チャネルにわたって加算 (p88)
1つのフィルタからの出力, 1チャネル (p88)
バイアス, フィルタごとに各ユニット共通 (p88)
活性化関数 (p88)
W x W x K : 入力のサイズ (p89)
W x W x M : 出力のサイズ (p89)
ストライドsが2以上の場合 (p89)
h_pqkm : 結合の重み, フィルタの係数 (p89)
重み共有 (weight sharing, weight tying) (p89)
プーリング層, 複雑型細胞 (p89)
H x H 正方領域 (p90)
P_ij : xxxに含まれる画素の集合 (p90)
最大プーリング (max pooling), 式 (p90)
平均プーリング (average pooling), 式 (p90)
Lpプーリング (Lp pooling), 式 (p90)
- P = 1で平均プーリング
- P = ∞で最大プーリング
プーリング層, 学習によって変化するパラメータ (p90)
図6.8 プーリングの例 (p91)
プーリング, 不明なこと (p91)
画像の濃淡, 正規化 (p92)
統計量を揃える (p92)
- 正規化
- 白色化
画素ごとの平均, 式 (p92)
- (補足) 式は平均にはなっておらず、総和である
局所コントラスト正規化 (local contrast normalization) (p92)
減算正規化 (subtractive normalization) @ 局所コントラスト正規化 (p92)
除算正規化 (divisive normalization) @ 局所コントラスト正規化 (p93)
$P_{ij}$ : H x H 正方領域 (p93)
$\overline{x_{ij}}$ : x_{i+p,j+q}のHxH領域での総和
- (補足) これも平均になっていなく、総和である
重み付き平均 : 重み$w_{pq}$を使った平均 (p93)
- (補足) 重みにより正規化され平均になっている
$w_{pq}$の総和 = 1の式 (p93)
$w_{pq}$の効果, 中央部, 周辺部 (p93)
除算正規化の効果, 分散 (p93)
減算正規化, 標準偏差 (p93)
画像のノイズ, 強調 (p93)
定数c, 閾値 (p93)
連続的に変化する (p94)
多いチャネル画像の正規化 (p95)
チャネル間の相互作用 (p95)
共通の$\overline{x_{ij}}$ (p95)
$h_{pqkm}$ : H x H x K のM個のフィルタの係数 (p96)
疎行列 (p96)
$h$ : H x H x K x Mのベクトル
$t_{ij}$ : $h$と内積をとるとl-1層のユニットiとl層のユニットでj間の重み$w_{ij}$を与えるベクトル
- 高々xxxの成分がxxxのベクトルです (p96)
$\delta^{(l)}$ : 層lのデルタ (p96)
$\partial W$ : この層の重み$W$の勾配 (p96)
$W$の多くの成分はもともとxxxであり (p96)
$(\partial{h})_r$ : $\partial{h}$の成分r (p96)
$\odot$ : 行列の成分ごとの積 (p97)
プーリング層, 学習の対象となるパラメータ, 勾配 (p97)
下の層に伝えるデルタの逆伝播計算 (p97)
xxxすることで、それらが入力層に均等に割り振られることになります (p97)
ILSVRC (ImageNet Large Scale Visual Recognition Challenge), コンテスト (p97)
fc : 全結合層 (p98)
図6.11 : 2012年のILSVRCで優勝した畳込みネットとほぼ同じ (p99)
学習で決定するパラメータ (p99)
表6.3 VGG : 2014年のILSVRCで2位になったオックスフォード大学の (p100)
VGGの学習 (p100)
VGGはxxxをまったく含みません (p101)
- 性能向上に寄与しない
図6.21 > 5つの予測カテゴリ, ソフトマックス層 (p109)
再帰型ニューラルネット (RNN) (p111)
要素の並び (文脈) (p111)
長・短期記憶 (LSTM) (p111)
コネクショニスト時系列分類法 (CTC) (p111)
系列データとは (p111)
系列データを扱う推定問題の例 (p111)
再帰型ニューラルネット (RNN)はxxxできます (p112)
音素 (phoneme) : 話者が各瞬間において発した (p112)
RNNの種類 (p114)
- Elmanネット
- Jordanネット
- 時間遅れネット (time delay ---)
- エコー状態ネット (echo state ---)
- など
「帰還路」を持つシンプルなもの (p114)
- (補足) OPアンプの帰還路 (負帰還回路)
分類問題, ソフトマックス関数, 活性化関数 (p115)
$y^1 ... y^T$ : 出力系列 (p115)
$d^1 ... d^T$ : 目標となる系列 (p115)
誤差関数 (p115)
系列データを逆向き (p115)
双方向RNN (bidirectional RNN) (p115)
$i, j, k$ : 入力層、中間層、出力層の各ユニットのインデックス (p116)
$x^t$ : ネットワークへの入力
$u^t$ : 中間層ユニットへの入力
$z^t$ : 中間層ユニットからの出力
$v^t$ : 出力層ユニットへの入力
$y^t$ : 出力層ユニットからの出力
$d^t$ : 目標出力
$W^{(in)}$ : 入力層と中間層間の重み
$W^{(out)}$ : 中間層と出力層間の重み
重みは時刻tとは関係なく (p116)
バイアス, 常に1, 結合重み (p116)
重要なことはこの帰還が (p116)
$z^0$ : t=1における初期値, 通常はxxxとします (p117)
各層の重みについて誤差の微分を計算する必要 (p117)
RTRL法 (realtime recurrent learning) (p117)
BPTT法 (backpropagation through time) (p117)
前者はxxx, 後者はxxx (p117)
BPTT法, RNN, 順伝播型ネットワーク (p117)
式(7.6), 時刻tの中間層のユニットのデルタの計算に (p118)
各時刻における出力層のデルタ (p119)
誤差Eの各層の重みによる微分 (p119)
以上を要約します (p120)
- 入力系列 x
- 目標出力の系列 d
- t
- 出力の系列 y
- デルタ
- 未来の時刻
- 誤差勾配
捉えることのできる文脈の長さ (p120)
- 現時刻からどれだけ遠い過去の入力を...
実際にRNNで出力に反映できるのは (p120)
この限界は、(p120)
長期にわたる記憶を実現できるよう, いくつか (p121)
長・短期記憶 (Long Short-Term Memory) (p121)
メモリユニット1つの内部構造, 図7.7 (p121)
メモリセル (p121)
周囲に5つのセル (p121)
$s_j^t$ : 状態 (p121)
1時刻 (p121)
帰還路 (p121)
忘却ゲート (p121)
$g_j^{F,t}$ : ゲートの値 (p121)
リセット（忘却）されます (p121)
単純なケース, 忘却ゲート, 入力ゲート (p122)
もしそれがうまくいけば (p122)
$g_j^{F,t}$ : 忘却ゲートの値 (p123)
$g_j^{I,t}$ : 入力ゲートの値 (p123)
のぞき穴 (peephole) (p123)
出力ゲートのみxxxに注意します (p123)
帰還, 完結 (p124)
次時刻のメモリユニットへの総入力 (p124)
デルタを逆伝播, この「ユニット」のデルタ (p125)
入力を受け取るユニットについて (p125)
隠れマルコフモデル (hidden Markov model) (以下 HMM) (p125)
HMMは内部状態をxxxとして持ち、これがxxxに変化します (p126)
混合正規分布モデル (Gauss mixture model) (p126)
- (補足) Gaussianが正しいのだろう
コネクショニスト時系列分類法 (p126)
- connectionist temporal classification (以下CTC)
CTCはxxxし、xxxを扱えるようにします (p126)
音声を扱う問題での音素のようだ (p127)
系列$1$とは (p127)
- (補足) 1のベクトル表記のようだ
写像 $1 = \beta(\pi)$ (p127)
- (補足)ベータの式がどうもすっきりしない
  - y = sin(x), x = arcsin(y)というような表記をしている
要素, パス (p127)
CTCの中核にあるアイデア (p127)
xxxなりますが、前進・後退法 (forward backward method) (p127)
$\pi_{1:t}$ : tに至る前半のパス
$\pi_{t:T}$ : t以降の後半のパス
(s,t)を通過するすべての前半パス (p128)
$p(\pi_{t:T})$ : (s,t)を通過するすべての後半パスに関する確率 (p129)
$\beta_{s,t}$ : $p(\pi_{t:T})$の和 (p129)
xxxなどの工夫 (p129)
最尤推定によってRNNのパラメータを決定すべく (p129)
誤差関数として (p129)
$d'$ : $l'$同様xxx (p130)
$\partial{p(d|X)}/\partial{y_k^t}$ : 目的の微分 (p130)
$\hat{l}$ (p130)
$\hat{\pi}$ (p130)
ボルツマンマシンは (p131)
ボルツマンマシン, 特徴, 一般にxxx利用 (p131)
ボルツマンマシン, 学習 (p131)
偏り, 表現 (p131)
$p_g(x)$: ある未知の確率分布 (p131)
生成 (generate) (p131)
$p(x|\theta)$ : 分布を表す適当な関数 (p131)
$\theta$ : 自由なパラメータ (p131)
パラメータ$\theta$の求め方 (p132)
最尤推定 (maximum likelihood estimation) (p132)
尤度関数 (likelihood function) (p132)
$L(\theta)$ (p132)
ボルツマンマシン, 各ユニットはxxxの値を (p132)
二値ユニット (binary unit) (p133)
ボルツマンマシンとは (p133)
$p(x|\theta) = $ : エネルギー関数 (p133)
- (補足) グリーシャ, 100年の難問
$\Phi(x,\theta) = $ (p133)
$\xi$ : グラフにおけるユニット間の結合(エッジ) (p133)
ユニット間結合, 向き (p133)
確率分布の条件, 規格化定数 (p133)
$Z(\theta)$ : 分配関数 (partition function) (p133)
$\sum_x$ (p133)
ボルツマン分布 (Boltzmann distribution) (p134)
- https://en.wikipedia.org/wiki/Boltzmann_distribution
- ギブス分布 (Gibbs distribution)
分布の具体的な形, $\Phi(x,\theta)$ (p134)
指数関数の単調性, 生起確率 (p134)
$p(x|\theta)$ モデル分布 (p134)
$p_g(x)$ : データの真の分布 (p134)
$L(\theta)$の代わりにxxx 同じことです (p134)
対数尤度関数 (log-likelihood function) (p134)
$logL(\theta) = $ (p134)
$E_\theta[・]$ : 期待値 (p135)
全パラメータについてxxxになるような$\theta$が (p135)
$q(x) = $ : 経験分布 (empirical distribution) (p135)
$\delta(x,y) = $ (p135)
期待値の書き直し (p135)
$<・>_{data}$ : $q(x)$に関する期待値 (p135)
$<・>_{model}$ : $p(x|\theta)$に関する期待値 (p135)
上記を用いた式 (p135)
xxxを計算するのは容易ではありません (p135)
$2^M$通りの組合せ (p135)
xxxを直接計算するのは (p135)
局所マルコフ性 (p136)
ギブスサンプリング (Gibbs sampling) (p136)
$x_{-i}$ : ユニットi以外の全ユニットの変数を並べたベクトル (p136)
$p(x_i|x_{-i},\theta)$ : 条件付き分布 (p136)
$p(x_i|x_{-i},\theta) = $ (p136)
$N_i$ : ユニットiと結合を持つユニットの集合 (p136)
$p(x_i|(x_j|j\in N_i) ,\theta)$ : $N_i$のユニットのみの状態を指定した条件付き分布
- (補足) mathJaxの問題か内側の"{"が表示できなかったので"("で代用した
xxxは簡単です (p136)
ギブスサンプリングはxxx方法です (p136)
なおt巡目(t=1,2,...)の$x_i^(t)$は xxx からサンプルすることとします(p137)
それ以外の値はxxxをセットします (p137)
ギブスサンプリングは、精度を高めるには (p137)
図8.3 グラフが直接にはデータと関係しないユニットを持つ場合 (p137)
$v$ : 可視変数 (visible variable) (p138)
$h$ : 隠れ変数 (hidden variable) (p138)
xxxと同様に定義されます (p138)
エネルギー関数 $\Phi(v, h, \Theta)=$ (p138)
隠れ変数を持たないものと比べ (p138)
$v = x$なので, $v_n$ (p139)
- (補足) この定義は同じページで$v$に戻されるので読者には混乱を誘発する
- 「簡単のため$v_n$を$v$で置き換えました」
$p(v|\Theta)$ : xxxに相当します (p139)
尤度関数 $L(\Theta) = $ (p139)
xxxを行う必要があり、計算はいっそう難しいものに (p140)
制約ボルツマンマシン (restricted Boltzmann machine)はxxxをいいます (p140)
以下RBM (p140)
$\Phi(v, h, \Theta) =$ : RBMのエネルギー関数 (p140)
{$a_i$} : 可視変数と同数のバイアス (p141)
{$b_j$} : 隠れ変数と同数のバイアス (p141)
{$w_{ij}$} : 両者の組合せの数だけある重み (p141)
全変数の確率分布は (p141)
RBM, 性質 (p141)
RBMではxxxに定まります (p141)
この変数の分布はベルヌーイ分布 (Bernoulli distribution)です (p142)
ベルヌーイRBM (Bernoulli RBM) (p142)
自己符号化器 (p142)
RBMはxxxにも使われている (p142)
データ {$V_n|n=1,...,N$}からRBMのパラメータ{$a_i$}{$b_j$}{$w_{ij}$}を定める方法 (p143)
RBMの場合xxxは苦労なく計算できますが (p143)
xxx,簡単には計算できません (p143)
ブロックサンプリング, 効率化 (p144)
一様乱数を使った同じ手順により (p144)
xxxとしても構いません (p144)
xxxが有効です (p145)
xxxと見ることができます (p145)
xxxができます (p145)
確率的勾配降下法, RBM, 重み減衰 (p146)
典型的な$\mu$の値 (p146)
持続的CD (persistent CD) (p147)
$CD_1$, $CD_{10}$, 精度 (p148)
ガウシアンユニット (Gaussian unit) (p148)
特にxxxに使うことで (p148)
ガウシアン・ベルヌーイRBM (Gaussian-Bernoulli RBM) (p148)
エネルギー関数 (p148)
可視変数$v_i$は平均xxx, 分散xxxのガウス分布に従います (p149)
が一般的です (p149)
二項ユニット (binomial unit) (p149)
$Kp$ : その状態の期待値 (p150)
$Kp(1-p)$ : 分散 (p150)
正規化線形ユニット (rectified linear unit), ReLU (p150)
このユニットの状態はxxxと見なせます (p150)
このユニットの状態は近似的に (p150)
ディープビリーフネットワーク (deep belief network) (以下 DBN) (p151)
$l$ : 可視層から上位へ向けて層の番号をl=0,1,...Lとし (p151)
DBN, RBMのように簡単に計算することはできません (p152)
隣接層間での条件付き分布, 近似 (p152)
ランダムに重みを初期化した層 (p152)
ディープボルツマンマシン (deep Boltzmann machine) (p153)
有向エッジ、無エッジ (p153)
と見なせます (p153)
平均場近似 (mean field approximation) (p153)
- (補足) near field approximation
条件付き分布 $p(h^{(1)}, h^{(2)}|v)$, 近似 (p153)
平均場近似は (p154)
最適化計算を通じて (p154)
近さ、カルバック・ライブラー・ダイバージェンス (p154)
DBMの学習, 事前学習, 調整 (p154)
文献 [60] (p154)
中間層$l$の条件付分布は (p154)
$_{data}$の計算に必要な条件付き分布 (p155)
という考えです (p155)
性能比較, MNIST, 表8.1 (p156)
- ランダムに重み初期化
- カーネルSVM
- DBNで重みを初期化
- DBMで重みを初期化 + 図8.8の入力拡張 (p156)
  - (補足) DBMはDBNの誤植だろう

以上。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up