はじめに
みなさんどうやってDeep Learningの最新論文をフォローしているでしょうか。私は特に工夫することもなくarXivをチェックする毎日です。基本的に自分の専門分野であるコンピュータビジョンに関連するComputer Vision and Pattern Recognitionの新着だけを見ています。大体1日に50〜100件くらいの新規投稿があります。タイトルと著者(の所属)とアブストラクトをざっと見て、気になったものはもうちょっと読みます。で、たまにその紹介をツイートします。
さて、2019年も終わりということで、ツイートした論文紹介からピックアップして補足する形で2019年のDeep Learning論文の振り返りをしてみようと思います。ピックアップにはTwitter公式のアナリティクスを使いました。といっても単に各ツイートのインプレッション1を取得し、インプレッションが高かった論文紹介ツイートを選んだだけです。アナリティクスでは他にもエンゲージメント2などの数値も取れますが、今回はあまり考えずにインプレッションを使いました。当然ながらフォロワー数が増えるほどインプレッションも大きくなりやすいはずなので、本当は何らか正規化したうえで1年分の上から順に見るべきなのですが、面倒なので月ごとにインプレッションをソートして見ていくことにしました。まぁ1ヶ月の間ではそんなにフォロワー数も変わらんだろうということで。本記事は前編で、2月から6月までを振り返ります。2月始まりなのは、単に私が論文紹介をツイートし始めたのが2月頃だからです。それでは順に振り返っていきましょう。
後編はこちら
2月
### タイトル Bin Yang, Wenjie Luo, and Raquel Urtasun (Uber Advanced Technologies Group, University of Toronto), "**PIXOR: Real-time 3D Object Detection from Point Clouds**," CVPR2018. ### 手法概要  リアルタイムにLiDAR点群からの物体検出を行うPIXOR (**OR**iented 3D object detection from **PIX**el-wise neural network predictions) を提案。まず、3次元点群を鳥瞰図 (BEV) に変換することで2次元化し、データ量を削減。ただし、高さ方向にスライスする形で複数のBEVを作ることで高さ情報が完全に失われることを防ぐ。これら複数のBEVを多チャネル画像とみなしてCNNに入力し、BEV上で物体の位置と向きを検出する。ネットワーク構成は大きくbackboneとheaderに分けられ、backboneではFPN (Feature Pyramid Nets) のようなtop-downブランチを採用している。headerはclassificationとregressionのマルチタスクで、各画素に対して物体クラスと、bounding boxのパラメータを出力する。bounding boxのパラメータは、当該画素からbox中心までの距離 (2次元)、boxの傾き角度 (cosとsinで2次元)、幅 (1次元)、高さ (1次元) の合計6次元である。ロスはclassificationに対してはcross-entropy (class imbalanceに対応するためfocal lossを採用)、regressionに対してはsmooth L1を用いている。推論時には各画素に対して得られる出力のうちconfidenceが閾値以上のものだけを採用し、NMSを行なって最終的な検出結果を得る。 ### 評価実験  KITTIにおけるBEV Object Detection Benchmarkにより性能を評価。比較対象とした従来手法はVeloFCN、3D FCN、MV3Dであり、上図はKITTI公式の評価尺度に加えてIoUの閾値を0.7とした独自尺度でのAPを示したものである。この結果を見ると、特にIoU閾値0.7、距離レンジ70mにおいてPIXORは他手法を大きく上回る性能を達成しており、2位と比べても9%の精度向上が得られている。また、処理時間も従来手法と比べて大幅に小さく、28 fps以上での検出が可能である。 ### 実装 著者らによる実装は見当たらないが、第三者による実装が公開されている。3次元点群からの物体認識。点群を2次元の鳥観図に変換してからFPNライクなネットワークに入力。最後はConfidenceとLocalizationの2出力構成。KITTIでMV3Dを精度、速度で上回る。[1902.06326] PIXOR: Real-time 3D Object Detection from Point Clouds https://t.co/ethnDtrQsp
— Kazuyuki Miyazawa (@kzykmyzw) February 19, 2019
3月
### タイトル Yifan Liu, Changyong Shu, Jingdong Wang, and Chunhua Shen (The University of Adelaide, Nanjing Institute of Advanced Artificial Intelligence, Microsoft Research), "**Structured Knowledge Distillation for Dense Prediction**," CVPR2019. ### 手法概要Semantic segmentationにおけるDistillation手法。最終出力を画素単位で一致させる一般的なロスに加え、中間層での特徴マップを一致させるロス、さらにTeacherとStudentのどちらが出した答えなのかを当てるDiscriminatorのロスを導入。提案手法の利用により性能が5%以上向上。CVPR19 https://t.co/YfoeOTaZlU
— Kazuyuki Miyazawa (@kzykmyzw) March 14, 2019


4月
### タイトル Chen Wang, Jianfei Yang, Lihua Xie, and Junsong Yuan (Nanyang Technological University, State University of New York), "**Kervolutional Neural Networks**," CVPR2019. ### 手法概要kernel trickによりconvolutionを非線形化したkervolution (kernel convolution) を使ったKNN (Kervolutional Neural Nets) を提案。重み共有や位置ずれ不変といったconvolutionの利点は残しつつ表現能力を向上。非線形化により、活性化関数をなくしても性能が落ちない。ResNet18のCNNを置き換えた場合、ImageNetでの性能向上は1%弱。CVPR19 https://t.co/OQ4i8HBvwO
— Kazuyuki Miyazawa (@kzykmyzw) April 10, 2019

5月
### タイトル Chuming Li, Yuan Xin, Chen Lin, Minghao Guo, Wei Wu, Wanli Ouyang, and Junjie Yan (SenseTime, The University of Sydney), "**AM-LFS: AutoML for Loss Function Search**," ICCV2019. ### 手法概要ロス関数の探索のためのAutoML手法。soft maxロスに2種類の変換を導入することで既存の様々なロスを近似し、その変換パラメータを探索する。探索はモデルの性能を報酬とした強化学習により行われ、並行してモデル自体も学習する。soft maxロスに対する性能向上はCIFAR10で約2%。顔認識とReIDでも評価 https://t.co/sEHrSY1V2M
— Kazuyuki Miyazawa (@kzykmyzw) May 21, 2019

### タイトル Adam Gaier and David Ha (Google), "**Weight Agnostic Neural Networks**," NeurIPS2019. ### 手法概要学習をせずに高い性能を出せるアーキテクチャを探索。多様なrandom weightsに対して性能が出るよう最適化するため、学習が不要なのに加え、得られたアーキテクチャに複数の重みを与えることでアンサンブルによる性能向上が可能。強化学習と画像分類タスクで性能を確認。MNISTでは学習なしで精度90%以上 https://t.co/m4RD4VpfJB
— Kazuyuki Miyazawa (@kzykmyzw) June 12, 2019


- Random Weights: ランダムな重みを適用
- Random Shared Weight: 重みはランダムだがネットワーク全体で同じ値を共有
- Tuned Shared Weight: Random Shared Weightの中で最大性能となったもの
- Tuned Weight: 重みを学習
上の結果からわかるように、通常通り重みを学習した場合 (Tuned Weight) には及ばないものの、WANNでは重みを一切学習しなくても高い性能が得られている。
また、上図はMNISTを用いて画像分類の精度を評価した結果であるが、やはりWANNはランダムな重みでも高い性能を示している。また、上図右は与える重みによって各数字の認識精度が変化する様子を示しているが、このように異なる重みを与えたネットワークを複数用意してその推論結果を統合することで、単一アーキテクチャでアンサンブルを行い精度を向上させることも可能である(上図左のEnsemble Weigths)。
実装
著者実装ではなさそうだがGoogleにより実装が公開されている。
おわりに
そもそも私がツイートしている論文に偏りがあり、またフォロワー数も少ないので (follow me please!) 、ツイートのインプレッションが高いといっても各月で分野を代表するような超有名論文が選ばれているかというと全くそんなことはないですね。記事のタイトルに誇張があることをお詫び申し上げます。ただこうして振り返ってみると、わずか1年の間であるにも関わらず、話題になっていたけれども今では全く聞くことがない、とか、すでに異なるアプローチが主流となっている、というようなものも見られ、この分野のスピードにあらためて驚かされます。やはり日々arXivをチェックする生活はまだまだ続けないとならないようです。それでは後半(7月〜12月)をお楽しみに〜