本
MPL (機械学習プロフェッショナルシリーズ)
深層学習 by 岡谷貴之さん
キーワードだけ。
索引に載っていないもの(あるいは気になったもの)。索引は重要。もっと増えて欲しい。
用語の索引は英語索引が一切ない。一方で、日本語用語登場時には英語表記も併記している。こういう場合、英語表記が正しくない場合もあり注意が必要かも。
- 勾配消失問題 (p2)
- Fukushimaらのネオコグニトロン (p2)
- LeCunら, 誤差逆伝播法 (p2)
- HintonらのDBN (p3)
- 制約ボルツマンマシン (p3)
- restricted Boltzmann machine, RBM
- 自己符号化器 (auto-encoder) (p3)
- スパース符号化 (sparse coding) (p4)
- 哺乳類の脳の初期(低次)視覚野 (p4)
- ガボールウェーブレット状の基底 (p4)
- feedforward neural network (p7)
- multi-layer perceptron
- 活性化関数 (activation function) (p8)
- ロジスティックシグモイド関数 (p10)
- シグモイド関数 (p10)
- 正規化線形関数 (rectified linear function) (p11)
- ReLU (Rectified Linear Unit) (p11)
- 回帰問題, 恒等写像 (p11)
- マックスアウト (maxout) (p12)
- 表2.1 問題の種別による出力層および誤差関数の違い (p15)
- 回帰
- 二値分割
- 多クラス分類
- 訓練サンプル, 訓練データ (p15)
- 二乗誤差 (p16)
- E(w) (p16)
- 事後確率 p(d=1|x) (p16)
- 事後分布 p(d|x;w) (p17)
- 最尤推定 (maximum likelihood estimation) (p17)
- 尤度 (likelihood) (p17)
- 対数関数の単調性, 尤度の対数をとり (p17)
- 事後確率, 条件付き確率の定義 (p17)
- ソフトマックス関数 (softmax function) (p19)
- 定義式
- 総和がいつも1
- 点で特殊です (p19)
- d_n (p19)
- ソフトマックス関数, RBF, 中間層 (p19)
- 交差エントロピー (cross entropy) (p20)
- クラスC_kの事後確率, ソフトマックス関数の導出, log (p20)
- ソフトマックス関数, 一律, 加算 (p20)
- 出力層, 制約, 重み減衰, 強制的に0 (p21)
- 誤差関数 E(w) (p23)
- 回帰問題, 誤差関数 (p23)
- argmin (p24)
- 局所的な極小点w (p24)
- 勾配降下法 (gradient descent method) (p24)
- 勾配 (gradient), 定義式 (p24)
- 学習係数 (learning rate) (p24)
- 最小化手法, 2次微分を利用するニュートン法 (p25)
- ニュートン法やその派生方法 (準ニュートン法) (p25)
- バッチ学習 (batch learning) (p25)
- 確率的勾配降下法 (stochastic gradient descent) (p25)
- 確率的勾配降下法, いくつかの長所 (p26)
- 訓練データ, 水増しの影響 (p26)
- ミニバッチ (minibatch) (p26)
- N_tで正規化する係数を調整 (p27)
- ミニバッチのサイズを決める系統的なやり方 (p27)
- 訓練誤差 (training error) (p28)
- 汎化誤差 (generalization error) (p28)
- 早期終了 (early stopping), 早期打ち切り (p29)
- 重みの自由度を制約, 正則化 (regularization) (p29)
- 重み減衰 (weight decay) (p30)
- 重み上限 (p30)
- ドロップアウト (p30)
- 中間層, 入力層, ランダムに選出, それ以外を無効化 (p31)
- 過適合を避ける (p31)
- ドロップアウト, 畳込み層 (p32)
- RBM, DBM, ドロップアウト (p32)
- CIFAR-100 (p33)
- ドロップコネクト (p33)
- 確率的最大プーリング (p33)
- データの正規化 (normalization of data) (p33)
- データの標準化 (standardization of data) (p33)
- 水増し, データ拡張 (data augmentation) (p35)
- ガウス分布に従うランダムノイズを一律に加える (p35)
- 複数ネットの平均, モデル平均 (model averaging) (p35)
- 学習係数を決める, 定番といえる考え方, 2つ (p36)
- 学習係数, 重みの共有数の平方根に比例するように (p37)
- 誤差関数の勾配, g_t (p37)
- 勾配降下法, 収束性能, モメンタム (momentum) (p37)
- 誤差関数, 谷底, 高低差がない, 勾配降下法の効率 (p37)
- 重みの初期化, ガウス分布 (p38)
- バイアスの初期値 (p39)
- 誤差が大きいサンプル, 順に掲示 (p40)
- 二乗誤差, 微分 (p41)
- 微分の連鎖規則 (p42)
- 出力層の重みについての微分 (p43)
- 中間層の重みについての微分 (p44)
- 多層ネットワーク, 誤差勾配 (p45)
- デルタ (delta) (p46)
- 任意の中間層lについて成立 (p47)
- デルタは出力層から入力層の向き, (p47)
- w_{ji}^(l)に関する微分 (p47)
- 回帰、誤差関数、二乗誤差 (p49)
- 多クラス分類、出力層の活性化関数、ソフトマックス関数 (p49)
- W, X, Z (p50)
- 1_N, 1をN個並べたベクトル (p50)
- 表4.1 活性化関数の微分 (p51)
- ロジスティクス関数
- 双曲線正接関数
- 正規化線形関数
- Y, D, Δ^(l) (p51)
- ☉、行列の成分ごとの積 (p51)
- 重み減衰、モメンタム、Wとbの更新量 (p52)
- 誤差関数Eの勾配の差分近似 (difference approximation) (p52)
- εを加算する、ε->0の極限をとる (p53)
- 計算機イプシロンをε_cとしたとき (p53)
- 順伝播は非線形計算、逆伝播は線形計算 (p53)
- 勾配消失問題 (vanishing gradient problem) (p54)
- 事前学習, 5.6説で説明する (p54)
- 自動符号化器 (p55)
- ディープネットの事前学習 (p55)
- y, xの符号(code) (p56)
- 符号化(encode), 復号化(decode) (p56)
- 「復号化」は「復号」の方が正しいようです
- 恒等写像 (p57)
- xxxに制約がない, 誤差関数, 二乗誤差の総和 (p57)
- xxxとxxxのxxxをとるとき、誤差関数, 交差エントロピー (p57)
- Dx: 入力層のユニット数 (p57)
- Dy: 中間層のユニット数 (p57)
- 重み共有 (weight sharing, weight tying) (p58)
- (データを表す)特徴(feature) (p58)
- サンプルxの別な「表現」であるy (p58)
- 各入力に対する再現, 少しぼやけている (p59)
- WとW(tilde)をうまく選ぶと二者の積をIとできる (p61)
- 活性化関数が線形関数の場合、意味のある結果を得るには... (p61)
- 主成分分析 (principal component analysis, PCA) (p61)
- Φ: 訓練サンプル {x1, ...,xn}の共分散行列 (p61)
- データがある低次元部分空間内にのみ偏って存在する場合...(p61)
- 固有値の降順にΦのDy個の固有ベクトルを選び (p61)
- これを行ベクトルとして格納した行列U_{Dy} (p61)
- 最小化問題の階 (p61)
- 主成分分析つまりΦの固有ベクトルはxxxと解釈できる (p62)
- 一般に良い特徴とは (p62)
- 過完備な(overcomplete)表現 (p62)
- スパース正則化の考え方 (p62)
- 基本となる考え方...となるような制約を追加します (p63)
- 元の誤差関数E(w)にある正則化項を加えた... (p63)
- KL(rho || rho^_j)は後述のようにこれら2つの近さを与えます (p63)
- 2つのベルヌーイ分布のカルバック・ライブラー・ダイバージェンスを表します(図5.5) (p64)
- つまり... (p64)
- スパース正則化と同様の正則化, 3.5.2項で述べた重み減衰があります (p64)
- スパース正則化の場合はxxxに対する制約であり (p64)
- l層のユニットjのデルタは (p65)
- 修正されたデルタの計算式 (式5.4) (p65)
- 出力層は正則化の対象外 (p65)
- 平均活性度, 厳密に求めるには (p65)
- ミニバッチを使用して学習する場合 (p66)
- 数字を分解した「ストローク」のようなもの (p66)
- 自動符号化器は、入力されたサンプルを、中間層の各ユニットが「分担」して表現します (p66)
- 学習時のスパース正則化はxxxする働きがあるといえます (p66)
- 訓練データ, 偏り, 学習の妨げ (p67)
- 偏りを除去 (p67)
- 白色化 (whitening) (P68)
- 白色化の狙いは (p68)
- 共分散行列 ΦX (p68)
-
X=[X1・・・XN]
(p68) - この共分散行列ΦXの(p,q)成分はxxxを示します (p68)
- 仮に成分ごとの分散を1に正規化した後でも... (p68)
- 逆に共分散行列が対角行列であれば... (p68)
- 式(5.5)を満たすPは (p68)
- E, 固有ベクトルを列ベクトルに持つ行列 (p68)
- ΦX, 分解できます (p69)
- D, 対角行列 (p69)
- 共分散行列の固有ベクトルを利用することは (p69)
- PCA白色化 (p69)
- 対称行列 (p69)
- ゼロ位相白色化 (zero-phase whitening) (p69)
- ゼロ位相成分分析 (zero-phase component analysis, ZCA) (p69)
- 小さい値ε (p69)
- ZCA白色化 (p70)
- PCA白色化 (p70)
- xxxを強調するような働き, オンセンタ (on-center) (p70)
- 離散コサイン変換の基底 (p70)
- 特定の空間周波数・位相にチューニング (p71)
- 自然画像, 低い周波数ほど大きい (p71)
- 勾配消失問題, 事前学習 (p72)
- 複数の単層ネットワークに分割 (p72)
- 積層自己符号化器 (stacked autoencoder) (p73)
- 事前学習で得たパラメータを初期値に使うと (p74)
- 特徴抽出器 (p74)
- サポートベクトルマシン (p74)
- 事前学習がうまく機能する, なぜそうなるかは (p74)
- 多層自己符号化器 (deep autoencoder) (p74)
- 8章で述べる制約ボルツマンマシン (RBM) (p75)
- RBM, 確率的な生成モデル, 学習 (p75)
- デノイジング自己符号化器 (denoising autoencoder) (p75)
- 学習, 確率的な要素 (p75)
- 平均0, 分散σ^2のガウス分布に従うランダムノイズ (p76)
- ...この点が違いです (p76)
- これが名前の由来です @ 5.7.2 デノイジング自己符号化器 (p76)
- 訓練データの発生メカニズム, 反映 (p76)
- 例, xが画像, 画像でよく発生するノイズ
- 加算的ノイズの他 (p76)
- マスク状のノイズ
- ソルト & ペッパーノイズ (p77)
- 畳込みニューラルネット (p79)
- 畳込み層
- プーリング層
- 畳込みネットの特徴 (p79)
- 全結合 (fully-connected) (p79)
- 生物の脳, 視覚野 (visual cortex) (p79)
- (余談) Voyagerでのcortex stimulator
- 神経細胞の受容野 (receptive field), 局所性 (p79)
- 単純型細胞 (simple cell) (p79)
- 複雑型細胞 (complex cell) (p79)
- 図6.1 順伝播型ネットワークの層間結合の違い (p80)
- (a) 全結合層
- (b) 畳込み層とプーリング層の構造
- 受容野 (receptive field) (p80)
- 選択的振る舞い (p80)
- 単純型細胞, 位置選択性, 複雑型細胞 (p80)
- 図6.2 単純型細胞と複雑型細胞のモデル (p81)
- 中間層のユニット, 入力パターンの位置変化 (p81)
- 出力層のユニット, (入力パターンの)位置ずれ (p81)
- ネオコグニトロン (p81)
- 多層の畳込みネット, 画像認識の問題全般 (p82)
- 霊長類の脳の高次視覚野, 電気生理学的な実験 (p82)
- 畳込み層 (convolution layer) (p82)
- プーリング層 (pooling layer) (p82)
- 局所コントラスト正規化 (local contrast normalization, LCN)層, 挿入 (p82)
- 全結合層 (fully-connected layer) (p82)
- クラス分類, ソフトマックス層 (p83)
- W: 画像サイズ (W x W 画素) (p83)
- (i,j): 画素のインデックス (p83)
- (i = 0, ..., W-1)
- (j = 0, ..., W-1)
- フィルタ (p83)
- H: フィルタのサイズ (H x H) (p83)
- (p,q): フィルタ画素のインデックス (p83)
- (p = 0, ..., H-1)
- (q = 0, ..., H-1)
- h_pq : 画素値 (p83)
- 任意の実数値を取る
- 画像の畳込み, 式(6.1) (p83)
- 本来の畳込み, (6.1)の次の式 (p83)
- ...実質的な違いはない (p83)
- 畳込みの働き (p84)
- フィルタの濃淡パターン, 検出
- パディング, 画像からフィルタがはみだし (p85)
- 畳込み結果の画像のサイズ (p85)
- $\lfloor\cdot\rfloor$ : 小数点以下を切りsげて整数化 (p85)
- 外側に幅 $\lfloor H/2 \rfloor$
- ゼロパディング (zero-padding) (p85)
- ゼロパディング, 画像処理の観点, 0以外, いくつかのテクニック (p86)
- ストライド (stride) s (p86)
- 出力画像サイズ (p86)
- 畳込み層の出力側のユニット数が大きくなりすぎる (p87)
- ストライドを大きくすることは (p87)
- 多チャネルの画像とは (p87)
- K: チャネル数 (p87)
- K = 3 (入力), 中間層では K = (p87)
- マップ (map) : 中間層での出力 (p87)
- 画素ごとに全チャネルにわたって加算 (p88)
- 1つのフィルタからの出力, 1チャネル (p88)
- バイアス, フィルタごとに各ユニット共通 (p88)
- 活性化関数 (p88)
- W x W x K : 入力のサイズ (p89)
- W x W x M : 出力のサイズ (p89)
- ストライドsが2以上の場合 (p89)
- h_pqkm : 結合の重み, フィルタの係数 (p89)
- 重み共有 (weight sharing, weight tying) (p89)
- プーリング層, 複雑型細胞 (p89)
- H x H 正方領域 (p90)
- P_ij : xxxに含まれる画素の集合 (p90)
- 最大プーリング (max pooling), 式 (p90)
- 平均プーリング (average pooling), 式 (p90)
- Lpプーリング (Lp pooling), 式 (p90)
- P = 1で平均プーリング
- P = ∞で最大プーリング
- プーリング層, 学習によって変化するパラメータ (p90)
- 図6.8 プーリングの例 (p91)
- プーリング, 不明なこと (p91)
- 画像の濃淡, 正規化 (p92)
- 統計量を揃える (p92)
- 正規化
- 白色化
- 画素ごとの平均, 式 (p92)
- (補足) 式は平均にはなっておらず、総和である
- 局所コントラスト正規化 (local contrast normalization) (p92)
- 減算正規化 (subtractive normalization) @ 局所コントラスト正規化 (p92)
- 除算正規化 (divisive normalization) @ 局所コントラスト正規化 (p93)
- $P_{ij}$ : H x H 正方領域 (p93)
- $\overline{x_{ij}}$ : x_{i+p,j+q}のHxH領域での総和
- (補足) これも平均になっていなく、総和である
- 重み付き平均 : 重み$w_{pq}$を使った平均 (p93)
- (補足) 重みにより正規化され平均になっている
- $w_{pq}$の総和 = 1の式 (p93)
- $w_{pq}$の効果, 中央部, 周辺部 (p93)
- 除算正規化の効果, 分散 (p93)
- 減算正規化, 標準偏差 (p93)
- 画像のノイズ, 強調 (p93)
- 定数c, 閾値 (p93)
- 連続的に変化する (p94)
- 多いチャネル画像の正規化 (p95)
- チャネル間の相互作用 (p95)
- 共通の$\overline{x_{ij}}$ (p95)
- $h_{pqkm}$ : H x H x K のM個のフィルタの係数 (p96)
- 疎行列 (p96)
- $h$ : H x H x K x Mのベクトル
- $t_{ij}$ : $h$と内積をとるとl-1層のユニットiとl層のユニットでj間の重み$w_{ij}$を与えるベクトル
- 高々xxxの成分がxxxのベクトルです (p96)
- $\delta^{(l)}$ : 層lのデルタ (p96)
- $\partial W$ : この層の重み$W$の勾配 (p96)
- $W$の多くの成分はもともとxxxであり (p96)
- $(\partial{h})_r$ : $\partial{h}$の成分r (p96)
- $\odot$ : 行列の成分ごとの積 (p97)
- プーリング層, 学習の対象となるパラメータ, 勾配 (p97)
- 下の層に伝えるデルタの逆伝播計算 (p97)
- xxxすることで、それらが入力層に均等に割り振られることになります (p97)
- ILSVRC (ImageNet Large Scale Visual Recognition Challenge), コンテスト (p97)
- fc : 全結合層 (p98)
- 図6.11 : 2012年のILSVRCで優勝した畳込みネットとほぼ同じ (p99)
- 学習で決定するパラメータ (p99)
- 表6.3 VGG : 2014年のILSVRCで2位になったオックスフォード大学の (p100)
- VGGの学習 (p100)
- VGGはxxxをまったく含みません (p101)
- 性能向上に寄与しない
- 図6.21 > 5つの予測カテゴリ, ソフトマックス層 (p109)
- 再帰型ニューラルネット (RNN) (p111)
- 要素の並び (文脈) (p111)
- 長・短期記憶 (LSTM) (p111)
- コネクショニスト時系列分類法 (CTC) (p111)
- 系列データとは (p111)
- 系列データを扱う推定問題の例 (p111)
- 再帰型ニューラルネット (RNN)はxxxできます (p112)
- 音素 (phoneme) : 話者が各瞬間において発した (p112)
- RNNの種類 (p114)
- Elmanネット
- Jordanネット
- 時間遅れネット (time delay ---)
- エコー状態ネット (echo state ---)
- など
- 「帰還路」を持つシンプルなもの (p114)
- (補足) OPアンプの帰還路 (負帰還回路)
- 分類問題, ソフトマックス関数, 活性化関数 (p115)
- $y^1 ... y^T$ : 出力系列 (p115)
- $d^1 ... d^T$ : 目標となる系列 (p115)
- 誤差関数 (p115)
- 系列データを逆向き (p115)
- 双方向RNN (bidirectional RNN) (p115)
- $i, j, k$ : 入力層、中間層、出力層の各ユニットのインデックス (p116)
- $x^t$ : ネットワークへの入力
- $u^t$ : 中間層ユニットへの入力
- $z^t$ : 中間層ユニットからの出力
- $v^t$ : 出力層ユニットへの入力
- $y^t$ : 出力層ユニットからの出力
- $d^t$ : 目標出力
- $W^{(in)}$ : 入力層と中間層間の重み
- $W^{(out)}$ : 中間層と出力層間の重み
- 重みは時刻tとは関係なく (p116)
- バイアス, 常に1, 結合重み (p116)
- 重要なことはこの帰還が (p116)
- $z^0$ : t=1における初期値, 通常はxxxとします (p117)
- 各層の重みについて誤差の微分を計算する必要 (p117)
- RTRL法 (realtime recurrent learning) (p117)
- BPTT法 (backpropagation through time) (p117)
- 前者はxxx, 後者はxxx (p117)
- BPTT法, RNN, 順伝播型ネットワーク (p117)
- 式(7.6), 時刻tの中間層のユニットのデルタの計算に (p118)
- 各時刻における出力層のデルタ (p119)
- 誤差Eの各層の重みによる微分 (p119)
- 以上を要約します (p120)
- 入力系列 x
- 目標出力の系列 d
- t
- 出力の系列 y
- デルタ
- 未来の時刻
- 誤差勾配
- 捉えることのできる文脈の長さ (p120)
- 現時刻からどれだけ遠い過去の入力を...
- 実際にRNNで出力に反映できるのは (p120)
- この限界は、(p120)
- 長期にわたる記憶を実現できるよう, いくつか (p121)
- 長・短期記憶 (Long Short-Term Memory) (p121)
- メモリユニット1つの内部構造, 図7.7 (p121)
- メモリセル (p121)
- 周囲に5つのセル (p121)
- $s_j^t$ : 状態 (p121)
- 1時刻 (p121)
- 帰還路 (p121)
- 忘却ゲート (p121)
- $g_j^{F,t}$ : ゲートの値 (p121)
- リセット(忘却)されます (p121)
- 単純なケース, 忘却ゲート, 入力ゲート (p122)
- もしそれがうまくいけば (p122)
- $g_j^{F,t}$ : 忘却ゲートの値 (p123)
- $g_j^{I,t}$ : 入力ゲートの値 (p123)
- のぞき穴 (peephole) (p123)
- 出力ゲートのみxxxに注意します (p123)
- 帰還, 完結 (p124)
- 次時刻のメモリユニットへの総入力 (p124)
- デルタを逆伝播, この「ユニット」のデルタ (p125)
- 入力を受け取るユニットについて (p125)
- 隠れマルコフモデル (hidden Markov model) (以下 HMM) (p125)
- HMMは内部状態をxxxとして持ち、これがxxxに変化します (p126)
- 混合正規分布モデル (Gauss mixture model) (p126)
- (補足) Gaussianが正しいのだろう
- コネクショニスト時系列分類法 (p126)
- connectionist temporal classification (以下CTC)
- CTCはxxxし、xxxを扱えるようにします (p126)
- 音声を扱う問題での音素のようだ (p127)
- 系列$1$とは (p127)
- (補足) 1のベクトル表記のようだ
- 写像 $1 = \beta(\pi)$ (p127)
- (補足)ベータの式がどうもすっきりしない
- y = sin(x), x = arcsin(y)というような表記をしている
- (補足)ベータの式がどうもすっきりしない
- 要素, パス (p127)
- CTCの中核にあるアイデア (p127)
- xxxなりますが、前進・後退法 (forward backward method) (p127)
- $\pi_{1:t}$ : tに至る前半のパス
- $\pi_{t:T}$ : t以降の後半のパス
- (s,t)を通過するすべての前半パス (p128)
- $p(\pi_{t:T})$ : (s,t)を通過するすべての後半パスに関する確率 (p129)
- $\beta_{s,t}$ : $p(\pi_{t:T})$の和 (p129)
- xxxなどの工夫 (p129)
- 最尤推定によってRNNのパラメータを決定すべく (p129)
- 誤差関数として (p129)
- $d'$ : $l'$同様xxx (p130)
- $\partial{p(d|X)}/\partial{y_k^t}$ : 目的の微分 (p130)
- $\hat{l}$ (p130)
- $\hat{\pi}$ (p130)
- ボルツマンマシンは (p131)
- ボルツマンマシン, 特徴, 一般にxxx利用 (p131)
- ボルツマンマシン, 学習 (p131)
- 偏り, 表現 (p131)
- $p_g(x)$: ある未知の確率分布 (p131)
- 生成 (generate) (p131)
- $p(x|\theta)$ : 分布を表す適当な関数 (p131)
- $\theta$ : 自由なパラメータ (p131)
- パラメータ$\theta$の求め方 (p132)
- 最尤推定 (maximum likelihood estimation) (p132)
- 尤度関数 (likelihood function) (p132)
- $L(\theta)$ (p132)
- ボルツマンマシン, 各ユニットはxxxの値を (p132)
- 二値ユニット (binary unit) (p133)
- ボルツマンマシンとは (p133)
- $p(x|\theta) = $ : エネルギー関数 (p133)
- (補足) グリーシャ, 100年の難問
- $\Phi(x,\theta) = $ (p133)
- $\xi$ : グラフにおけるユニット間の結合(エッジ) (p133)
- ユニット間結合, 向き (p133)
- 確率分布の条件, 規格化定数 (p133)
- $Z(\theta)$ : 分配関数 (partition function) (p133)
- $\sum_x$ (p133)
- ボルツマン分布 (Boltzmann distribution) (p134)
- https://en.wikipedia.org/wiki/Boltzmann_distribution
- ギブス分布 (Gibbs distribution)
- 分布の具体的な形, $\Phi(x,\theta)$ (p134)
- 指数関数の単調性, 生起確率 (p134)
- $p(x|\theta)$ モデル分布 (p134)
- $p_g(x)$ : データの真の分布 (p134)
- $L(\theta)$の代わりにxxx 同じことです (p134)
- 対数尤度関数 (log-likelihood function) (p134)
- $logL(\theta) = $ (p134)
- $E_\theta[・]$ : 期待値 (p135)
- 全パラメータについてxxxになるような$\theta$が (p135)
- $q(x) = $ : 経験分布 (empirical distribution) (p135)
- $\delta(x,y) = $ (p135)
- 期待値の書き直し (p135)
- $<・>_{data}$ : $q(x)$に関する期待値 (p135)
- $<・>_{model}$ : $p(x|\theta)$に関する期待値 (p135)
- 上記を用いた式 (p135)
- xxxを計算するのは容易ではありません (p135)
- $2^M$通りの組合せ (p135)
- xxxを直接計算するのは (p135)
- 局所マルコフ性 (p136)
- ギブスサンプリング (Gibbs sampling) (p136)
- $x_{-i}$ : ユニットi以外の全ユニットの変数を並べたベクトル (p136)
- $p(x_i|x_{-i},\theta)$ : 条件付き分布 (p136)
- $p(x_i|x_{-i},\theta) = $ (p136)
- $N_i$ : ユニットiと結合を持つユニットの集合 (p136)
- $p(x_i|(x_j|j\in N_i) ,\theta)$ : $N_i$のユニットのみの状態を指定した条件付き分布
- (補足) mathJaxの問題か内側の"{"が表示できなかったので"("で代用した
- xxxは簡単です (p136)
- ギブスサンプリングはxxx方法です (p136)
- なおt巡目(t=1,2,...)の$x_i^(t)$は xxx からサンプルすることとします(p137)
- それ以外の値はxxxをセットします (p137)
- ギブスサンプリングは、精度を高めるには (p137)
- 図8.3 グラフが直接にはデータと関係しないユニットを持つ場合 (p137)
- $v$ : 可視変数 (visible variable) (p138)
- $h$ : 隠れ変数 (hidden variable) (p138)
- xxxと同様に定義されます (p138)
- エネルギー関数 $\Phi(v, h, \Theta)=$ (p138)
- 隠れ変数を持たないものと比べ (p138)
- $v = x$なので, $v_n$ (p139)
- (補足) この定義は同じページで$v$に戻されるので読者には混乱を誘発する
- 「簡単のため$v_n$を$v$で置き換えました」
- $p(v|\Theta)$ : xxxに相当します (p139)
- 尤度関数 $L(\Theta) = $ (p139)
- xxxを行う必要があり、計算はいっそう難しいものに (p140)
- 制約ボルツマンマシン (restricted Boltzmann machine)はxxxをいいます (p140)
- 以下RBM (p140)
- $\Phi(v, h, \Theta) =$ : RBMのエネルギー関数 (p140)
- {$a_i$} : 可視変数と同数のバイアス (p141)
- {$b_j$} : 隠れ変数と同数のバイアス (p141)
- {$w_{ij}$} : 両者の組合せの数だけある重み (p141)
- 全変数の確率分布は (p141)
- RBM, 性質 (p141)
- RBMではxxxに定まります (p141)
- この変数の分布はベルヌーイ分布 (Bernoulli distribution)です (p142)
- ベルヌーイRBM (Bernoulli RBM) (p142)
- 自己符号化器 (p142)
- RBMはxxxにも使われている (p142)
- データ {$V_n|n=1,...,N$}からRBMのパラメータ{$a_i$}{$b_j$}{$w_{ij}$}を定める方法 (p143)
- RBMの場合xxxは苦労なく計算できますが (p143)
- xxx,簡単には計算できません (p143)
- ブロックサンプリング, 効率化 (p144)
- 一様乱数を使った同じ手順により (p144)
- xxxとしても構いません (p144)
- xxxが有効です (p145)
- xxxと見ることができます (p145)
- xxxができます (p145)
- 確率的勾配降下法, RBM, 重み減衰 (p146)
- 典型的な$\mu$の値 (p146)
- 持続的CD (persistent CD) (p147)
- $CD_1$, $CD_{10}$, 精度 (p148)
- ガウシアンユニット (Gaussian unit) (p148)
- 特にxxxに使うことで (p148)
- ガウシアン・ベルヌーイRBM (Gaussian-Bernoulli RBM) (p148)
- エネルギー関数 (p148)
- 可視変数$v_i$は平均xxx, 分散xxxのガウス分布に従います (p149)
- が一般的です (p149)
- 二項ユニット (binomial unit) (p149)
- $Kp$ : その状態の期待値 (p150)
- $Kp(1-p)$ : 分散 (p150)
- 正規化線形ユニット (rectified linear unit), ReLU (p150)
- このユニットの状態はxxxと見なせます (p150)
- このユニットの状態は近似的に (p150)
- ディープビリーフネットワーク (deep belief network) (以下 DBN) (p151)
- $l$ : 可視層から上位へ向けて層の番号をl=0,1,...Lとし (p151)
- DBN, RBMのように簡単に計算することはできません (p152)
- 隣接層間での条件付き分布, 近似 (p152)
- ランダムに重みを初期化した層 (p152)
- ディープボルツマンマシン (deep Boltzmann machine) (p153)
- 有向エッジ、無エッジ (p153)
- と見なせます (p153)
- 平均場近似 (mean field approximation) (p153)
- (補足) near field approximation
- 条件付き分布 $p(h^{(1)}, h^{(2)}|v)$, 近似 (p153)
- 平均場近似は (p154)
- 最適化計算を通じて (p154)
- 近さ、カルバック・ライブラー・ダイバージェンス (p154)
- DBMの学習, 事前学習, 調整 (p154)
- 文献
[60]
(p154) - 中間層$l$の条件付分布は (p154)
- $_{data}$の計算に必要な条件付き分布 (p155)
- という考えです (p155)
- 性能比較, MNIST, 表8.1 (p156)
- ランダムに重み初期化
- カーネルSVM
- DBNで重みを初期化
- DBMで重みを初期化 + 図8.8の入力拡張 (p156)
- (補足) DBMはDBNの誤植だろう
以上。