More than 5 years have passed since last update.

活性化関数ReLUについてとReLU一族【追記あり】

Last updated at 2017-01-12Posted at 2016-11-09

(追記)活性化関数が学習に及ぼす影響

下記記事にて実験&解説を実施。興味があれば是非。

wikipediaの最後に，$y=x^2$の近似が載ってる

\phi=\max(0,x)

y\simeq$2\phi(-x - 2) + 2\phi(-x - 1) + \phi(-x) + \phi(x) + 2\phi(x - 1) + 2\phi(x - 2)

中間層からの振る舞いを見ると面白い

確かにReLUは折れ線を組み合わせている感じ．

多分各層の数の積の多角形が作れる

$$f = \max(0,x)$$

$$f = log(1+e^x)$$

最近よく使われている(wikipedia曰く無意味らしいが...)

(wikipedia)
2013年に max(0.01x, x) が LReL (leaky rectified linear) と命名された。ただし、命名者はこの活性化関数を使う意味はなかったと報告している。

f = \begin{cases}
    x & (x>0) 
    \\
    0.01x  & (x<=0)
  \end{cases}

ReLUの傾きをparametricにした

f = \begin{cases}
    x & (x>0) 
    \\
    ax  & (x<=0)
  \end{cases}

f = \begin{cases}
    x & (x>0) 
    \\
    e^x -1  & (x<=0)
  \end{cases}

ReLU一族図示

0付近が微妙に異なる模様

124