476
434

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

2020年をおさらい!オレオレ深層学習論文ベスト10!

Last updated at Posted at 2020-12-21

オミータです。ツイッターで人工知能のことや他媒体の記事など を紹介していますので、人工知能のことをもっと知りたい方などは @omiita_atiimoをご覧ください!

2020年をおさらい!オレオレ深層学習論文ベスト10!

もう2020年も終わりますね。いかがお過ごしでしょうか。私は今年を積極的にアウトプットしていく年にしていたので、深層学習の論文を可能な限り読みました(それでも略読含めて150本程度だと思いますが...)。僭越ながら、今年2020年に読んだ論文たちの中から独断と偏見に基づいて面白かった論文を10個ランキング形式にてまとめます。2020年に読んだ論文なので必ずしも2020年に発表された論文とは限りません。完全なるオレオレランキングなので画像系多めです。簡単な説明に加え論文、解説記事、実装へのリンクをそれぞれに載せましたので興味ある論文があれば是非読んでみてください!それでは第10位から早速見ていきましょう!

【第10位】: "Mish: A Self Regularized Non-Monotonic Activation Function", Misra, D., BMVC2020

Mish

まず第10位は、新たな活性化関数Mishです。Mishは$f(x)=x\text{tanh}(\text{softplus}(x))$で定義されます。ちなみに$\text{softplus}(x)=\log(1+e^x)$です。ReLUやSwishよりも高い性能をしっかりと示しています。余談ですが、著者のDiganta Misraさんが私の記事に関するツイートに返信してきたのが個人的ニュースになっています。

項目 リンク
原論文 "Mish: A Self Regularized Non-Monotonic Activation Function", Misra, D., (BMVC2020)
解説記事(拙著) ついに誕生!期待の新しい活性化関数「Mish」解説
公式実装 MXNet/TensorFlow/PyTorch

【第9位】: "AugMix: A Simple Data Processing Method to Improve Robustness and Uncertainty", Hendrycks, D., ICLR2020

Screen Shot 2020-12-21 at 23.56.11

画像: "AugMix: A Simple Data Processing Method to Improve Robustness and Uncertainty", Hendrycks, D., ICLR2020

続いて第9位は、モデルのロバスト性を爆発的に向上させるデータオーギュメンテーションAugMixです。複数のデーターギュメンテーションを別々で適用し最後にそれらを凸結合するという手法で性能を向上させています。余談ですが、第一著者のDan Hendrycksさんはロバスト性の論文でよく見かけるすごい人です。

項目 リンク
原論文 "AugMix: A Simple Data Processing Method to Improve Robustness and Uncertainty", Hendrycks, D., Mu, N., Cubuk, E., Zoph, B., Gilmer, J., Lakshminarayanan, B., (ICLR2020)
解説記事 AUGMIX: A SIMPLE DATA PROCESSING METHOD TO IMPROVE ROBUSTNESS AND UNCERTAINTY 自分用にメモ
公式実装 NumPy/PyTorch

【第8位】: "A Simple Framework for Contrastive Learning of Visual Representations", Chen, T., ICML2020

2020_SimCLR

画像: "A Simple Framework for Contrastive Learning of Visual Representations", Chen, T., ICML2020, 改変

第8位に登場するのは、今年の自己教師あり学習(SSL)の立役者の1人であるSimCLRです。End-to-Endなフレームワークで一気にSSLの性能を引き上げました。ImageNetの1%のラベルのみで85.8%Top-5精度を獲得するという驚異的な性能です。余談ですが、共著にあのGeoffrey Hintonさんも名を連ねてます。

項目 リンク
原論文 "A Simple Framework for Contrastive Learning of Visual Representations", Chen, T., Kornblith, S., Norouzi, M., Hinton, G., (ICML2020)
解説記事(拙著) わずか1%のラベルでImageNet高精度「SimCLR」解説
公式実装 TensorFlow

【第7位】: "On the Variance of the Adaptive Learning Rate and Beyond", Liu, L., ICLR2020

2020_RAdam

第7位には、Adamを超えたオプティマイザーとして注目を浴びたRAdamが登場です。Adamではステップサイズが適応的に決まりますが、学習初期では適応的に決まるステップサイズが物凄い大きな値になりうることを指摘しそこを直しています。結果として、幅広いタスクでAdamを超える性能を示しました。余談ですが、この研究はMicrosoftへのインターンシップ中に行ったということでとてもすごいと思いました。

項目 リンク
原論文 "On the Variance of the Adaptive Learning Rate and Beyond", Liu, L., Jiang, H., He, P., Chen, W., Liu, X., Gao, J., Han, J., (ICLR2020)
解説記事(拙著) ついにAdamを超えた!最新の最適化アルゴリズム「RAdam」解説
公式実装 PyTorch

【第6位】: "Funnel Activation for Visual Recognition", Ma, N., ECCV2020

2020_FReLU

画像: "Funnel Activation for Visual Recognition", Ma, N., ECCV2020

そして第6位は、画像特化の活性化関数としてFReLUです。FReLUは$f(x)=\text{max}(x, \text{DW}(x))$で定義されます。ここで$\text{DW}(\cdot)$はDepthwise畳み込みのことです。Depthwise畳み込みを使っていることからもFReLUは入力がベクトルの活性化関数となっていることがわかりますね。画像特化というのも面白いです。余談ですが、著者の方は質問に即レスしてくれたので印象が良いです。

項目 リンク
原論文 "Funnel Activation for Visual Recognition", Ma, N., Zhang, X., Sun, J., (ECCV2020)
解説記事(拙著) 新たな活性化関数「FReLU」誕生&解説!
公式実装 MegEngine(PyTorchによる再実装は拙著記事に掲載)

【第5位】: Consistency Regularization for Generative Adversarial Networks", Zhang, H., ICLR2020

2020_CRGAN

画像: Consistency Regularization for Generative Adversarial Networks", Zhang, H., ICLR2020

第5位は、GANへの新たな正則化としてConsistency Regularizationを追加したCR-GANです。画像にデータオーギュメンテーションが適用されていてもDiscriminatorの出力は元画像と同じであるべき、という制約を損失関数にねじ込んでいます。Discriminatorによる元画像とDA後画像への出力の間で二乗誤差を取るだけです。これをさらに発展させたbCR-GANなども提案されています。この簡単な仕組みによってGANの性能を大きく向上させています。余談ですが、個人的に愛用しています。

項目 リンク
原論文 "Consistency Regularization for Generative Adversarial Networks", Zhang, H., Zhang, Z., Odena, A., Lee, H., (ICLR2020)
解説記事(拙著) GANへの新しい正則化「ICR」が期待大な件&解説
公式実装 なし (単なる二乗誤差なので実装は簡単)

【第4位】: "CutMix: Regularization Strategy to Train Strong Classifiers with Localizable Features", Yun, S., ICCV2019

2020_CutMix

第4位は、新たなデータオーギュメンテーション手法CutMixです。2019年のものですが、今年読んだのでランキングに入れました。手法は、画像の一部を別の画像に貼り付けるだけです。この時のラベルは2枚の画像同士の面積比に従ったソフトラベルになります。とても単純な手法であるにもかかわらず超絶強力です。オススメです。余談ですが、この論文の共著にある韓国のYonsei大学は映画パラサイトの監督やTWICE/NiziUの生みの親の出身大学です。頭がとてもいいです。

項目 リンク
原論文 "CutMix: Regularization Strategy to Train Strong Classifiers with Localizable Features", Yun, S., Han, D., Oh, S., Chun, S., Choe, J., Yoo, Y., (ICCV2019)
解説記事 ChainerでCutMix実装
公式実装 PyTorch

【第3位】: "Exploring Self-attention for Image Recognition", Zhao, H., CVPR2020

2020_SAN

それでは第3位。第3位は、畳み込みをSelf-Attentionに置き換えることで畳み込みよりも高い性能を示した論文です。自然言語でSelf-AttentionがRNNをさようならしたみたいに画像でもSelf-Attentionが畳み込みをさようならしてしまうのではないかと驚きました。その驚きから第3位にランクインです。余談ですが、この論文を読んでSelf-Attentionへの理解が一気に深まりました。

項目 リンク
原論文 "Exploring Self-attention for Image Recognition", Zhao, H., Jia, J., Koltun, V., (CVPR2020)
解説記事(拙著) Self-Attentionを全面的に使った新時代の画像認識モデルを解説!
公式実装 PyTorch

【第2位】: "Resolution Dependent GAN Interpolation for Controllable Image Synthesis Between Domains", Pinkney, J., NeurIPS2020 Workshop

2020_Toonify

ついに第2位は、顔をディズニー顔に変換するToonify Yourself!の仕組みをその作者が教えてくれている論文です。学習済みStyleGANの層の一部を他の学習済みStyleGANの層と交換するLayer Swappingを行うだけで、面白い画像が生成できます。単純な手法であるにもかかわらず、非常に高クオリティな画像たちが生成されており論文を読んでいても楽しかったです。余談ですが、論文中には安倍前首相のディズニー顔も載っています。

項目 リンク
原論文 "Resolution Dependent GAN Interpolation for Controllable Image Synthesis Between Domains", Pinkney, J., Adler, D., (NeurIPS2020 Workshop)
解説記事(拙著) ディズニー顔に瞬時に変換するAI!ウワサの「Toonify」論文を解説!
公式実装 TensorFlow(Notebookでのお試しはこちら)

【第1位】: "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale", Dosovitskiy, A., arXiv 2020

2020_ViT

そして映えある第1位は、Vision Transformer、通称ViTを提案した論文です。Transformerが遂に画像認識でもSoTAを達成してしまいました。しかも既存のSoTAモデルよりも$\frac{1}{5} \sim \frac{1}{4}$の計算量で。Transformer(Self-Attention)が画像認識にもやってくるのは時間の問題ではありましたが、やっぱり実際に来ると驚きですね。ICLR2021のOpenReviewではReviewerたちからも高い評価を得ておりacceptはほぼ間違いないでしょう。余談ですが、ViT-Hというモデルは計算量が既存モデルよりも少ないと言っても学習にTPU-v3で2,500日かかります。依然ヤバすぎます。

項目 リンク
原論文 "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale", Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., Houlsby, N., (2020)
解説記事(拙著) 画像認識の大革命。AI界で話題爆発中の「Vision Transformer」を解説!
公式実装 JAX/Flax

最後に

オレオレランキング2020をまとめてみました。2020年は「自己教師あり学習の台頭」と「畳み込みのSelf-Attentionによる置き換え」の2つが個人的には特に印象的でした。他にもMishやFReLUなどの新しい活性化関数、RAdamやランキングには入りませんでしたがAdaBeliefなどの新しいオプティマイザーが誕生し、面白い論文をたくさん読むことができた2020年でした。来たる2021年は、一体どういったことでワクワクさせてくれるのでしょうか。とても楽しみです。すごく余談ですが、この1年私の記事を読んで反応をくださる皆さんのおかげで稚拙ながらも無事に記事を書き続けることができました。大変感謝しております。そして2021年もよろしくお願いします!良いお年を!

Twitterで人工知能のことや他媒体の記事などを紹介していますので@omiita_atiimoもご覧ください。

こちらもどうぞ:

476
434
1

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
476
434

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?