概要
TPUの勉強のため、1から10の10段階で写真の美しさをスコア付けするDeep Learningモデルを学習させました。
写真の美しさのスコア付け
入力された写真を1から10の10段階でスコア付けをします。類似の研究事例としてはGoogleのNIMA[1]などがあります。学習用データセットとしてAVA dataset[2]を使用しました。AVA datasetは約25万枚の写真に対し、複数のアノテータが10段階のスコア付けを行ったデータセットになります。加重平均を取ることで、その写真に対する美しさのスコアを得ることができます。
ソースコード
ソースはこちらに格納しました。
https://github.com/myzkyuki/aesthetic_image
TPUの利用
Google Colabにおいて無料で利用でき、高速な学習が可能なTPUを使用しました。TPUの利用にあたっては以下のサイトを参考にさせていただきました。
- TensorFlow2.0 with KerasでいろいろなMNIST(TPU対応)
- Tensorflow 2.0 と Colab TPU, GCS を使った楽しいfine-tuning
- Google Cloud Colabノートブック
- Custom training with tf.distribute.Strategy
- Distributed training with TensorFlow
- tensorflow/modelsのコード
学習時の工夫点
学習では色々ハマりどころがあり、以下の点を工夫しました。
Cloud Storageの使用
TPUではローカルファイルシステムを使用できないため、TPUを使った学習を行う場合Cloud Storageを使用する必要があります。この際、学習時間を短くするため、作成するバケットはus-central1
に作成します。当初、asia-northeast1
に作成したところ、TPUを使っているのに学習が非常に遅くなってしまいました。詳細はコチラをご参照ください。
データ拡張
一般的に画像の学習ではデータ拡張として、回転・平行移動・明るさ変更・切り抜きなどを行います。しかし、それらを行ってしまうと写真の美しさに影響すると考えられるため、今回のデータ拡張は左右反転のみ適用しました。
画像サイズの正規化
CNNの入力に対しては縦横を同じ長さに揃えてリサイズする必要にあり、3種類の方法があります。いずれも写真の美しさスコアへの影響が考えられますが、一番影響が少なそうな1. アスペクト比を変更してリサイズ
を行いました。
# | リサイズ方法 | スコアへの影響の懸念点 |
---|---|---|
1 | アスペクト比を変更してリサイズ | 画像中のオブジェクトの形が歪む。 |
2 | アスペクト比を維持してパディング | 余白に挿入された黒帯がスコアに影響する。微妙な写真でも評価が高い写真と似たアスペクト比だとスコアが高くなりそう。 |
3 | アスペクト比を維持して切り抜く | 美しさの評価に影響するオブジェクトが取り除かれ、構図が崩れる。 |
モデル
モデルには軽めのSoTAモデルであるEfficientNet-B0を使用しました。
ロス関数
2つのロス関数を試しましたが、Multi Lossの方が精度が高くなりました。
- 蒸留のようにアノテータによるスコア付けの分布を学習させるためKLDivergence
- CategoricalCrossentropyとMSEの和をとったMulti Loss[3]
最適化関数
当初EfficientNetで使用されている、ExponentialDecayを用いたRMSpropを試したのですが、勾配爆発してしまったため、Adamにしたところうまく進みました。
結果
15エポックほどの学習により、以下の結果が得られました。
Train lossとValidation Loss
Golabの時間制限により何回かチェックポイントから始めたため、Train Lossは余計な線が入ってしまっていますが、学習がちゃんと進んでいることがわかるかと思います。
正解スコアと予測スコアの分布
Validationデータにおける正解スコア(true)と予測スコア(pred)の分布は以下のようになりました。まだ、バラツキがありますが、緩やかな相関関係はあるかと思います。
予測サンプル
AVA datasetに対する予測とと正解のサンプルです。予測スコアとしては差がありますが、スコア順に並べると大体近い順序になるのではないかと思います。
まとめ
TPUを使ってAVA datasetを用いた写真の美しさスコア付けを行うモデルの学習を行いました。精度は改善の余地がありそうですが、それなりに納得性のあるスコア付けをできているのかと思います。こういった、人によってアノテーション結果が分かれるデータの学習は評価が難しいと思いました。画像によっては予測スコアの方が正解スコアよりも納得感がある画像もあったりします。
参考
以下の文献を参考にさせていただきました。
[1] NIMA: Neural Image Assessment
[2] AVA: A Large-Scale Database for Aesthetic Visual Analysis
[3] Fine-Grained Head Pose Estimation Without Keypoints