漢なら VEGA Frontier Edition(memory 16 GB) で waveglow-tensorflow 動かしたいですね!
やりましょう!
できました.
VEGA Frontier Edition で waveglow tensorflow 学習, 順調に 3 日連続稼働してよいが, rocm-smi で setsclk 1 で 110W くらいにしていても GPU 温度 80 度で, 冬は暖房として良いですが夏場はつらいので水冷 VEGA FE 777,777 枚くらい調達したい. pic.twitter.com/X3hI3UdLLq
— Syoyo Fujita ⚡️ No ray tracing No life (@syoyo) 2019年2月10日
repository
ありがとうございます.
VEGA Frontier Edition であればデフォルトの設定でメモリ足りて動くのを確認しました.
ROCm 2.1 + ROCm TensorFlow 1.12 で動かしました.
結果
waveglow-tensorflow の hparams でのネットワークサイズはそのままで学習を回しました.
VEGA FE は 100W くらいに powerlimit してだいたい 5~6 日まわして Epoch 35 まで進みました.
clyp に生成された sample をアップロードしました.
https://clyp.it/i50tahjw
https://clyp.it/tetkor3w
https://clyp.it/otspccf3
https://clyp.it/mbm5h0dp
https://clyp.it/olk0kmfw
アーティファクトはありますが, なかなかいい感じの結果が得られたような気がします.
より学習を回せば精度があがりそうですが VEGA FE 1 枚だと計算に時間がかかって try & error がやりずらいですね.
TODO
- VEGA FE 複数枚で学習を試す(今なら ebay で 5~6 万円くらいで手に入るか?)
- 空冷版だと powerlimit しても, 学習時 GPU 温度 80 度超えになってつらいので水冷化 or 水冷版 VEGA FE ほしい
- Radeon VII(16 GB mem) で学習をためす
- Radeon VII 複数枚で学習を試す
- Radeon Instinct で学習を試す
- RX470 など Polaris 世代の 8GB mem を持つ GPU 複数枚で学習を試す(hparams でネットワークサイズを減らすの必須)