ReLUについて
Q&A
機械学習を勉強していて、活性化関数は非線形性をモデルに持たせることができ、活性化関数にReLUを使うと層は以下の様に表せるとわかりました。
max(x_i * w_i + b_i , 0) = y_i
ここで思ったのですが、もし層での計算結果
x_i * w_i + b_i
がすべて0より大きかった場合モデルは線形的になってしまう気がします。こうなってしまうと活性化関数を入れる意味がなくなる気がするのですが、なぜReLUが使われるのでしょうか。
計算結果がすべて0より大きくなる場合なんてねえよという前提に立っているということでしょうか
0 likes