紹介する論文一覧
非自然画像であるフラクタル画像に関する論文を5つ紹介します.
- Pre-training without Natural Images
- Can Vision Transformers Learn without Natural Images?
- Formula-Driven Supervised Learning With Recursive Tiling Patterns
- Replacing Labeled Real-image Datasets with Auto-generated Contours
- Pre-training Vision Transformers with Very Limited Synthesized Images
Pre-training without Natural Images
自然画像を用いずに事前学習する手法が提案されました. 提案されたデータセットの名前はFractalDBです. FractalDBはIFS(iterated function system)という反復関数システムを用いて作成された非自然画像データセットで,従来の自然画像データセット(ImageNetやPlaces)に存在するプライバシー問題やラベル付けコストを解決することができます.
ResNet50をFractalDBで事前学習してC10/100やIN-1kを用いてfine-tuningした結果と,その他の自然画像データセットで事前学習してfine-tuningした結果を比較するとFractalDBは自然画像データセットの結果を一部精度を上回りました.
Can Vision Transformers Learn without Natural Images?
FractalDBを用いてViTを事前学習する手法が提案されました.FractalDBは,数学的な公式に基づいて自動的に画像パターンとラベルを生成するFDSL(Furmula-Driven Suervised Learning)フレームワークを用いて生成されます.
DeiT-Ti(ViT-T/16)をFractalDBで事前学習してC10/100やIN-1kを用いてfine-tuningした結果と,その他の自然画像データセットで事前学習してfine-tuningした結果を比較するとFractalDBは自然画像データセットの結果を一部精度を上回りました.また,SimCLRv2やMocov2などの自己教師あり学習と比較して優れた性能を達成しました.
Formula-Driven Supervised Learning With Recursive Tiling Patterns
TileDBを用いてResNetを用いて事前学習する手法が提案されました.提案されたデータセットはTileDBです.TileDBはタイリングパターンからなるFDSLフレームワークを用いて生成される非自然画像データセットです.
ResNet50をTileDBで事前学習してC10/100やP30を用いてfine-tuningした結果と,FractalDBで事前学習してfine-tuningした結果を比較するとTileDBはFractalDBに比べて小さいcategoty/instanceでは高い精度を示しましたが,最終評価はFractalDBの方が良いとされました.
Formula-Driven Supervised Learning With Recursive Tiling Patterns
Replacing Labeled Real-image Datasets with Auto-generated Contours
実画像を用いずにImageNet-21kで事前学習されたモデルと同等以上の性能を達成するFDSLが提案されました.新たに提案されたデータセットはRCDBとExFractalDBです.RCDBはFractal画像の輪郭の重要性を検証するために生成された非自然画像データセットです.また,ExfractalDBは3D-IFSを用いて生成された非自然画像データセットです.
ViT(ViT-T/16とViT-B/16)をFractalDB,RCDBで事前学習してC10/100やImageNetなどを用いてfine-tuningした結果と ImageNet-21kで事前学習してfine-tuningした結果を比較すると,ViT-B/16においてExFractalDBとRCDBはImageNet-21kの結果を上回りました.
Replacing Labeled Real-image Datasets with Auto-generated Contours
Pre-training Vision Transformers with Very Limited Synthesized Images
ImageNetで事前学習したモデルと同程度以上の性能を達成するクラスごとに1つのフラクタル画像のみを生成したOFDBで事前学習するFDSLが提案されました.提案されたデータセットはOFDBです.ODFBはデータサイズが21kのみの非常に小さいデータセットです(ImageNet-1kはデータサイズが14M).学習時にはインスタンス(クラスごとの画像)を生成する代わりに2つのデータ拡張(Random patch augmentation,Random texture augmentation)を行います.
ViT(ViT-T/16とViT-B/16)を2D-OFDB-1k/21kと3D-OFDB-1k/21kで事前学習してC10/100やImageNetなどを用いてfine-tuningした結果とImageNet-1k/21kで事前学習してfine-tuningした結果を比較すると, 2D-OFDBと3D-OFDBはImageNetと同程度以上の性能を達成しました.
Pre-training Vision Transformers with Very Limited Synthesized Images
参考文献
- Kataoka, H., Okayasu, K., Matsumoto, A., Yamagata, E., Yamada, R., Inoue, N., Nakamura, A., & Satoh, Y. (2022). Pre-Training Without Natural Images. International Journal of Computer Vision, 130(4), 990–1007. https://doi.org/10.1007/s11263-021-01555-8
- Nakashima, K., Kataoka, H., Matsumoto, A., Iwata, K., Inoue, N., & Satoh, Y. (2022). Can Vision Transformers Learn without Natural Images? Proceedings of the AAAI Conference on Artificial Intelligence, 36(2), 1990–1998. https://doi.org/10.1609/aaai.v36i2.20094
- Kataoka, H., Matsumoto, A., Yamada, R., Satoh, Y., Yamagata, E., & Inoue, N. (2021). Formula-driven Supervised Learning with Recursive Tiling Patterns. In 2021 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW). IEEE. https://doi.org/10.1109/iccvw54120.2021.00455
- Kataoka, H., Hayamizu, R., Yamada, R., Nakashima, K., Takashima, S., Zhang, X., Martinez-Noriega, E. J., Inoue, N., & Yokota, R. (2022). Replacing Labeled Real-image Datasets with Auto-generated Contours. In 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE. https://doi.org/10.1109/cvpr52688.2022.02055
- Nakamura, R., Kataoka, H., Takashima, S., Martinez Noriega, E. J., Yokota, R., & Inoue, N. (2023). Pre-training Vision Transformers with Very Limited Synthesized Images. In 2023 IEEE/CVF International Conference on Computer Vision (ICCV). IEEE. https://doi.org/10.1109/iccv51070.2023.01862