Dual Residual Network for Accurate Human Activity Recognition 要約

読んだ論文

Dual Residual Network for Accurate Human Activity Recognition
Jun Long, Wu QingSun, Zhan　Yang, Osolo Ian Raymond, Bin Li
https://arxiv.org/abs/1903.05359v1
上記の論文を読んだので簡単にまとめます．まだarxivのプレプリントのみな様子です．

3行でまとめる

行動認識分野でも深層学習の普及が著しい．
空間的特徴を見る短い時間窓と，時間的特徴を見る長い時間窓を併用するResNetの拡張手法を提案する．
公開データセットを用いて，その他様々な深層学習手法と比較し評価検証を行っている．

前知識として

行動認識

現実世界の人間の行動をコンピュータに認識させる研究分野である．動画像を元にして検出する分野もあるが，一般的にはセンサを人間に装着してセンサ情報から行動を認識する研究を指すことが多い（と思う）．深層学習の導入は確かに進んでいるものの，画像や音声，自然言語処理に比べて随分進んでいない（と思っている）．本稿はベースラインとして色々なモデルを試してみた＋新しいモデルを提案している研究である．

提案手法

貢献

提案手法の貢献は，Table1に示すように，従来手法と色々な観点で異なることに加えて，以下の２点を主張している．
1. DRN (Dual Residual Net) は行動認識における効果的な自動特徴抽出を行っている．
2. 長めと短めの2つの非対称なパスを有しており，全体的な特徴と軽量な特徴？を選択する手法である．

ここでTable1の内容に戻って，縦軸を見てみると色々な手法が並んでいる．これはIV-ii節でBaselineとして説明が書かれている．
- HC ¹ : 多分Hand-crafted featuresを用いた学習のこと具体的な特徴量に関する記述はなし（~~関連研究側にも見当たらず~~これ²を使った様子．というか個々のBaseline手法は大体²を参考にしていそう？）．
- CBH ³ : Codebookを用いた手法．（Hはどこからきてるんだ？）
- CBS ⁴ : ???（関連研究はVisual Word Ambiguity）
- AE ⁵ : ベーシックなAuto-Encoder．
- MLP ⁶ : Multi-Layer Perceptron
- CNN ⁷ : Convolutional Neural Network
- LSTM ⁸ : Long-Short Term Memory
- Hybrid ⁹ : CNNとLSTMのHybrid手法
- ResNet : Residual Blockを導入したCNN

提案モデル

　一般的に行動認識を行う際には長期間のセンサデータを記録し，その一部を時系列分割したフレーム単位で抽出して機械学習を行う．例えば128サンプルを1フレームとして，サンプリングレート100Hzなら1.28secのセンサデータをもとにその時間帯の行動を予測する．
　提案手法はFigure1の通りシンプルで，短めのフレーム（時間幅$T_1$）と，長めのフレーム（時間幅$T_2 ( > T_1)$）を別のResNet構造に入力し，最終的にConcatenateして予測を行うというものである．NarrowPathとWidePathと呼ぶ様子．

評価実験

有名な行動認識データセットOPPOTUNITYとUniMiB-SHARを用いて各手法を比較した．見てわかる通り，提案手法（$T_1=32, T_2=96$）でシングルのResNetを上回る精度となった．

まとめ

行動認識分野にて深層学習モデルを比較検証²し，DRNの有効性を示した．

所管

論文選定に1時間半，読了とまとめに1時間くらいかかりました．行動認識については事前知識がある程度あったので簡単に読めました．もう少しサーベイが必要ですが，行動認識分野ではまだまだ深層学習の応用が遅れている様子で，せっかくデータセットが豊富にあるので，色々な手法を試していきたいなと思う次第です．論文要約はどこかで区切りをつけて，実装記事も書いていきたいですね．

Ramamurthy, S.R.; Roy, N. Recent trends in machine learning for human activity recognition - A survey. Wiley Interdiscip. Rev. Data Min. Knowl.Discov. 2018, 8. doi:10.1002/widm.1254. ↩
Li, F.; Shirahama, K.; Nisar, M.A.; KÃ ̋uping, L.;Grzegorzek, M. Comparison of Feature Learn-ing Methods for Human Activity Recognition Using Wearable Sensors. Sensors 2018, 18, 679.doi:10.3390/s18020679. ↩
Shirahama, K.; Grzegorzek, M. On the Generalityof Codebook Approach for Sensor-Based Human Activity Recognition 2017. ↩
van Gemert, J.C.; Veenman, C.J.; Smeulders,A.W.M.; Geusebroek, J. Visual Word Ambiguity.IEEE Trans. Pattern Anal. Mach. Intell. 2010, 32,1271â ̆A ̧S1283. doi:10.1109/TPAMI.2009.132. ↩
Hinton, G.E.; Salakhutdinov, R.R. Reducing the di-mensionality of data with neural networks. science2006, 313, 504â ̆A ̧S507. ↩
Ioffe, S.; Szegedy, C. Batch Normalization: Acceler-ating Deep Network Training by Reducing InternalCovariate Shift. Proceedings of the 32nd Interna-tional Conference on Machine Learning, ICML 2015,Lille, France, 6-11 July 2015, 2015, pp. 448â ̆A ̧S456 ↩
Yang, J.; Nguyen, M.N.; San, P.P.; Li, X.; Krish-naswamy, S. Deep Convolutional Neural Networkson Multichannel Time Series for Human ActivityRecognition. Proceedings of the Twenty-Fourth In-ternational Joint Conference on Artificial Intelli-gence, IJCAI 2015, Buenos Aires, Argentina, July25-31, 2015, 2015, pp. 3995â ̆A ̧S4001. ↩
Vinyals, O.; Toshev, A.; Bengio, S.; Erhan, D. Showand Tell: A Neural Image Caption Generator. IEEEConference on Computer Vision & Pattern Recog-nition, 2015. ↩
Morales, F.J.O.; Roggen, D. Deep Convolutional and LSTM Recurrent Neural Networks for Multimodal Wearable Activity Recognition. Sensors 2016, 16,115. doi:10.3390/s16010115. ↩

15日目: Dual Residual Network for Accurate Human Activity Recognition