LoginSignup
7
5

More than 5 years have passed since last update.

【論文シリーズ】3Dの像を畳み込みNNで学習する

Posted at

原文

人間の行動認識のための3次元CNN (3D Convolutional Neural Networks for Human Action Recognition)
Shuiwang Ji (2013)

1. 要約/背景

  • CNNの3Dの人間の動きを学習させた点がこの論文の差別化の点である。これまでは、2Dの特徴抽出がある程度コントロールされたデータの使用が関の山だった。

2. 骨子の理論

(1)3DCNNの畳込み層の一般的な定式化

m番目のフィルタリングによって、$(i-1)$層のフィルタポジション$(p,q,r)$が$i$層の映像$(x,y,z)$に与える影響を一般的に表現すると、次のようになる。

v_{i,j}^{xyz} = \tanh \Big( b_{ij} + \sum_{m}\sum_{p=0}^{P_i-1}\sum_{q=0}^{Q_i-1}\sum_{r=0}^{R_i-1}w_{ijm}^{pqr}v_{(i-1)m}^{(x+p)(y+q)(z+r)} \Big)

3Dの畳み込みの方法にも、特徴がある。
2Dでは、1方面の情報のみ畳み込んでいたが、3Dでは、様々な角度から捉えた情報を系列的に取り込んで、それを次の層に抽出していく(下図)。

151207223622_2.JPG

3. モデル適用例

HMAXという動画サンプルの分類を行った。
6種類の人間の動きを分類するものだが、識別率はトップレベルに拮抗するものの目覚ましい違いが出る感じではなかった。

151207223623_3.JPG

7
5
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
7
5