Batch Sizeを変えるとloss curveが変わる
GPUがVRAMのサイズが違うと、Batch Sizeが変わる。Batch Sizeだけを変えるとTrainingの結果が大きく変わってしまう事がある。
learning rateのscaling
Batch Sizeを増やした割合だけ、Learning Rateも増やす
new_lr = base_lr * (new_batch_size / base_batch_size)
Learning RateのLinear Scaling RuleとWarmupを使えば、batch_size=8Kまでerrorを増やさずに学習できる。batch_sizeが大きすぎるとOver Smoothingで精度が落ちる。