More than 5 years have passed since last update.

PyTorch1.0で転移学習を動かしてみた

Posted at 2019-01-05

PyTorch1.0で転移学習を動かしてみた

他のライブラリでも転移学習をやったことがないPyTorch初心者がResNetによる転移学習（＋ファインチューニング）を動かしてみました。
複数のResNetで動かして比較してみました。

実行したチュートリアル

実行したのは下記リンクのTransfer Learning Tutorialです。
https://pytorch.org/tutorials/beginner/transfer_learning_tutorial.html
ResNetの学習済みモデルを使用して、それぞれ120枚ほどの学習データからハチとアリを分類する転移学習（＋ファインチューニング）を行います。

転移学習とは

本チュートリアルはTransfer Learning Tutorialとありますが、最初にFine Tuningをやって、その後Transfer Learningをやっています。言葉の定義として、下記が一般的だと思っています。学会などで定義されているのがあるのでしょうか。

Transfer Learning（転移学習）：　学習済みモデル（出力層以外）のウエイトは変更せず特徴量抽出に利用
Fine Tuning（ファインチューニング）：学習済みモデル（出力層以外）のウエイトを使って再学習

ResNet(Residual Network)とは

ディープニューラルネットワークでは層を深くすると表現力が増しますが、勾配消失問題によって学習が進みにくいという問題がありました。
学習が進みにくい問題を、CNNでショートカットの結合を作り、残差を学習するという形になることで解消し、152層という深い層でも学習を2015年に実現したのがResNetと理解しています。Residualは残差という意味ですね。
論文は下記で見られますが、こちらの説明がわかりやすいですね。
https://arxiv.org/abs/1512.03385

実行環境

実行環境は下記の通りです。構築手順は以前の記事をご参照ください。

OS: Windows 10 Pro
CPU: Intel Xeon E3-1240v3 3.40GHz
メインメモリ: 8GB
GPU: NVIDIA GeForce GTX 1050 Ti 4GB
Disk: Samsung SSD 860 EVO 500GB
Anaconda3(64bit)
python=3.6.7
pytorch=1.0.0
torchvision=0.2.1
cudatoolkit=9.0
cudnn=7.1.4

チュートリアル実行

Jupyter Notebookでチュートリアルを開く

チュートリアルサイトの一番下にあるDownload Jupyter notebook: transfer_learning_tutorial.ipynbからjpynbファイルをダウンロードし、Jupyter Notebookから開きます。

Dataのダウンロードと解凍

チュートリアルに書いてある通り、Data をダウンロードして解凍して、フォルダの参照(data_dir)と合わせます。
解凍すると下記のようにフォルダが作られます。

Data
└─hymenoptera_data
   ├─train
   │  ├─ants
   │  └─bees
   └─val
       ├─ants
       └─bees

必要に応じ、data_dirを変更します。

data_dir = 'data/hymenoptera_data'

学習済みモデルの読み込み

FINETUNING THE CONVNETで下記のようにresnet18のモデルがダウンロードされます。

Fine Tuning（ファインチューニング）

It should take around 15-25 min on CPU. On GPU though, it takes less than a minute.とありますが、私の環境では学習に5分35秒かかりました。
全Epochの最高Accuracyのモデルを返す関数は勉強になりますね。

model_ft = train_model(model_ft, criterion, optimizer_ft, exp_lr_scheduler,
                       num_epochs=25)

Out:

Epoch 0/24
----------
train Loss: 0.5373 Acc: 0.7623
val Loss: 0.2439 Acc: 0.9412

Epoch 1/24
----------
train Loss: 0.4252 Acc: 0.8197
val Loss: 0.1811 Acc: 0.9281

Epoch 2/24
----------
train Loss: 0.5282 Acc: 0.7869
val Loss: 0.2781 Acc: 0.8889

Epoch 3/24
----------
train Loss: 0.5797 Acc: 0.7500
val Loss: 0.4213 Acc: 0.8301

Epoch 4/24
----------
train Loss: 0.4304 Acc: 0.8115
val Loss: 0.3417 Acc: 0.8627

Epoch 5/24
----------
train Loss: 0.4440 Acc: 0.8279
val Loss: 0.3300 Acc: 0.8824

Epoch 6/24
----------
train Loss: 0.6152 Acc: 0.7992
val Loss: 0.2846 Acc: 0.8954

Epoch 7/24
----------
train Loss: 0.2882 Acc: 0.9016
val Loss: 0.2643 Acc: 0.9020

Epoch 8/24
----------
train Loss: 0.3794 Acc: 0.8361
val Loss: 0.2373 Acc: 0.9020

Epoch 9/24
----------
train Loss: 0.2986 Acc: 0.8770
val Loss: 0.2179 Acc: 0.9346

Epoch 10/24
----------
train Loss: 0.2764 Acc: 0.8852
val Loss: 0.2320 Acc: 0.9216

Epoch 11/24
----------
train Loss: 0.2345 Acc: 0.9098
val Loss: 0.2242 Acc: 0.9216

Epoch 12/24
----------
train Loss: 0.3228 Acc: 0.8443
val Loss: 0.2501 Acc: 0.9216

Epoch 13/24
----------
train Loss: 0.2862 Acc: 0.8689
val Loss: 0.2239 Acc: 0.9216

Epoch 14/24
----------
train Loss: 0.2475 Acc: 0.8770
val Loss: 0.1922 Acc: 0.9412

Epoch 15/24
----------
train Loss: 0.3028 Acc: 0.8893
val Loss: 0.2112 Acc: 0.9281

Epoch 16/24
----------
train Loss: 0.2343 Acc: 0.9016
val Loss: 0.2237 Acc: 0.9216

Epoch 17/24
----------
train Loss: 0.2799 Acc: 0.8852
val Loss: 0.2334 Acc: 0.9150

Epoch 18/24
----------
train Loss: 0.2620 Acc: 0.9057
val Loss: 0.2156 Acc: 0.9346

Epoch 19/24
----------
train Loss: 0.2529 Acc: 0.9098
val Loss: 0.2735 Acc: 0.9020

Epoch 20/24
----------
train Loss: 0.2604 Acc: 0.8811
val Loss: 0.2128 Acc: 0.9281

Epoch 21/24
----------
train Loss: 0.2869 Acc: 0.8730
val Loss: 0.2234 Acc: 0.9281

Epoch 22/24
----------
train Loss: 0.2494 Acc: 0.9016
val Loss: 0.2005 Acc: 0.9216

Epoch 23/24
----------
train Loss: 0.2599 Acc: 0.8893
val Loss: 0.1854 Acc: 0.9281

Epoch 24/24
----------
train Loss: 0.2261 Acc: 0.8893
val Loss: 0.1964 Acc: 0.9412

Training complete in 5m 35s
Best val Acc: 0.941176

Training中、タスクマネージャーのパフォーマンスを見ると下記のような状態です。GPUを使い切っていない感がありますね。

Transfer Learning（転移学習）

On CPU this will take about half the time compared to previous scenario. This is expected as gradients don't need to be computed for most of the network. However, forward does need to be computed.とありますが、私の環境では学習に4分19秒かかりました。

model_ft = train_model(model_ft, criterion, optimizer_ft, exp_lr_scheduler,
                       num_epochs=25)

Out:

Epoch 0/24
----------
train Loss: 0.7296 Acc: 0.6434
val Loss: 0.1994 Acc: 0.9346

Epoch 1/24
----------
train Loss: 0.4441 Acc: 0.8115
val Loss: 0.1860 Acc: 0.9346

Epoch 2/24
----------
train Loss: 0.4742 Acc: 0.7910
val Loss: 0.2729 Acc: 0.9216

Epoch 3/24
----------
train Loss: 0.3916 Acc: 0.8115
val Loss: 0.2997 Acc: 0.8889

Epoch 4/24
----------
train Loss: 0.3901 Acc: 0.8320
val Loss: 0.3009 Acc: 0.8758

Epoch 5/24
----------
train Loss: 0.5111 Acc: 0.7787
val Loss: 0.2289 Acc: 0.9412

Epoch 6/24
----------
train Loss: 0.4529 Acc: 0.8320
val Loss: 0.2287 Acc: 0.9542

Epoch 7/24
----------
train Loss: 0.3774 Acc: 0.8320
val Loss: 0.2287 Acc: 0.9412

Epoch 8/24
----------
train Loss: 0.3578 Acc: 0.8279
val Loss: 0.2529 Acc: 0.9477

Epoch 9/24
----------
train Loss: 0.3365 Acc: 0.8607
val Loss: 0.2207 Acc: 0.9412

Epoch 10/24
----------
train Loss: 0.3646 Acc: 0.8484
val Loss: 0.2284 Acc: 0.9412

Epoch 11/24
----------
train Loss: 0.2713 Acc: 0.8852
val Loss: 0.2245 Acc: 0.9477

Epoch 12/24
----------
train Loss: 0.3849 Acc: 0.8402
val Loss: 0.2102 Acc: 0.9412

Epoch 13/24
----------
train Loss: 0.4059 Acc: 0.8156
val Loss: 0.2141 Acc: 0.9477

Epoch 14/24
----------
train Loss: 0.3821 Acc: 0.8156
val Loss: 0.1993 Acc: 0.9477

Epoch 15/24
----------
train Loss: 0.3498 Acc: 0.8238
val Loss: 0.2322 Acc: 0.9412

Epoch 16/24
----------
train Loss: 0.3119 Acc: 0.8730
val Loss: 0.2210 Acc: 0.9477

Epoch 17/24
----------
train Loss: 0.2813 Acc: 0.8811
val Loss: 0.2164 Acc: 0.9412

Epoch 18/24
----------
train Loss: 0.3408 Acc: 0.8648
val Loss: 0.2438 Acc: 0.9412

Epoch 19/24
----------
train Loss: 0.3522 Acc: 0.8320
val Loss: 0.2120 Acc: 0.9477

Epoch 20/24
----------
train Loss: 0.3202 Acc: 0.8648
val Loss: 0.2249 Acc: 0.9477

Epoch 21/24
----------
train Loss: 0.2755 Acc: 0.8975
val Loss: 0.2448 Acc: 0.9412

Epoch 22/24
----------
train Loss: 0.3320 Acc: 0.8607
val Loss: 0.2094 Acc: 0.9477

Epoch 23/24
----------
train Loss: 0.3511 Acc: 0.8566
val Loss: 0.2324 Acc: 0.9412

Epoch 24/24
----------
train Loss: 0.2879 Acc: 0.8770
val Loss: 0.2336 Acc: 0.9477

Training complete in 4m 19s
Best val Acc: 0.954248

Training中、タスクマネージャーのパフォーマンスはほぼ同じ状況でしたので省略します。

ResNet比較

チュートリアルはResNet18ですが、他にResNet34、ResNet50、ResNet101、ResNet152でも実行してみました。
下表に結果を整理してみます。

ResNet	Learning	Best Val Acc	Training Time	GPU Memory
ResNet18	FineTuning	0.941176	5m 35s	1.3GB
ResNet18	Transfer	0.954248	4m 19s	1.3GB
ResNet34	FineTuning	0.973856	6m 56s	1.5GB
ResNet34	Transfer	0.954248	4m 47s	1.6GB
ResNet50	FineTuning	0.934641	8m 25s	1.8GB
ResNet50	Transfer	0.960784	5m 19s	1.8GB
ResNet101	FineTuning	0.921569	12m 2s	2.3GB
ResNet101	Transfer	0.941176	6m 26s	2.3GB
ResNet152	FineTuning	0.954248	15m 37s	2.8GB
ResNet152	Transfer	0.973856	7m 45s	2.8GB

単純に層が深いほど良い結果になるわけではないところが面白いですね。
DeepLearningのウエイトの初期値はランダム性があるので、本来このような比較は、何度かやった結果でするべきですが、その場合も平均よりは最大値で比較するのが良いでしょう。Oputunaを使うとそういうこともできるのでしょうか。
FineTuningが転移学習より時間がかかるのに、結果が悪いことが多いのは、なかなか使い道が難しいですね。

所感と今後の抱負

現実問題では画像データ数が十分ではないことが想定されるので、転移学習で学習済みモデルを利用できることは非常に有効だと思う。
学習時間はそんなに長くなく、十分実用的だと分かったことは非常に良かった。
最適な学習モデルを自動で選択するようなコードを書いていきたいが、その前にPyTorchの基礎を固めたい。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up