概要
以下のgithubに、Visual Transformersの実装が示されていたので、動かしてみた。いわゆるViTとは、違います。
対象、cifar10とした。
結果
87.31%は出た。↓。
Epoch: 146
[ 0/50000 ( 0%)] Loss: 0.1898
[10000/50000 ( 20%)] Loss: 0.2894
[20000/50000 ( 40%)] Loss: 0.2176
[30000/50000 ( 60%)] Loss: 0.2305
[40000/50000 ( 80%)] Loss: 0.1947
Execution time: 415.95 seconds
Average test loss: 0.4371 Accuracy: 8675/10000 (86.75%)
Epoch: 147
[ 0/50000 ( 0%)] Loss: 0.2177
[10000/50000 ( 20%)] Loss: 0.1389
[20000/50000 ( 40%)] Loss: 0.1795
[30000/50000 ( 60%)] Loss: 0.1196
[40000/50000 ( 80%)] Loss: 0.2700
Execution time: 415.79 seconds
Average test loss: 0.4492 Accuracy: 8617/10000 (86.17%)
Epoch: 148
[ 0/50000 ( 0%)] Loss: 0.1744
[10000/50000 ( 20%)] Loss: 0.2637
[20000/50000 ( 40%)] Loss: 0.1871
[30000/50000 ( 60%)] Loss: 0.1839
[40000/50000 ( 80%)] Loss: 0.1576
Execution time: 415.13 seconds
Average test loss: 0.4565 Accuracy: 8668/10000 (86.68%)
Epoch: 149
[ 0/50000 ( 0%)] Loss: 0.2141
[10000/50000 ( 20%)] Loss: 0.1347
[20000/50000 ( 40%)] Loss: 0.2369
[30000/50000 ( 60%)] Loss: 0.1768
[40000/50000 ( 80%)] Loss: 0.2369
Execution time: 416.12 seconds
Average test loss: 0.4136 Accuracy: 8731/10000 (★87.31%)
まとめ
特にありません。
ViTもそうだが、あまり、いい結果はでない。
コメントなどあれば、お願いします。